JPH04249300A - Audio code/decoding method and device - Google Patents
Audio code/decoding method and deviceInfo
- Publication number
- JPH04249300A JPH04249300A JP3035149A JP3514991A JPH04249300A JP H04249300 A JPH04249300 A JP H04249300A JP 3035149 A JP3035149 A JP 3035149A JP 3514991 A JP3514991 A JP 3514991A JP H04249300 A JPH04249300 A JP H04249300A
- Authority
- JP
- Japan
- Prior art keywords
- information
- term prediction
- signal
- residual signal
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 10
- 230000007774 longterm Effects 0.000 claims description 34
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 238000003786 synthesis reaction Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【0001】0001
【産業上の利用分野】本発明は、アナログ音声信号を高
能率に符号化して伝送路に送出し、受信側でそれを復号
してアナログ音声信号を復号再生する音声符復号化方法
及びその装置に関するものである。[Industrial Application Field] The present invention is an audio encoding/decoding method and apparatus for highly efficiently encoding an analog audio signal, sending it to a transmission path, decoding it on the receiving side, and decoding and reproducing the analog audio signal. It is related to.
【0002】0002
【従来の技術】図3は長期予測を用いた従来の等間隔パ
ルス駆動型音声符復号化器のブロック図あり、(A)は
音声符号化装置、(B)は音声復号装置である。この方
法は符号化速度13Kbps(ビット/秒)で、汎欧州
ディジタル自動車電話(GSM)システムに採用されて
いる音声符復号化方法である。以下、符号化速度を64
Kbpsから13Kbpsに圧縮する方法について説明
する。2. Description of the Related Art FIG. 3 is a block diagram of a conventional evenly spaced pulse-driven speech codec using long-term prediction, in which (A) is a speech encoding device and (B) is a speech decoding device. This method has a coding speed of 13 Kbps (bits per second) and is a voice coding/decoding method adopted in the Pan-European Digital Mobile Telephony (GSM) system. Below, the encoding speed is 64
A method for compressing from Kbps to 13 Kbps will be explained.
【0003】図3(A)において、8kHzサンプリン
グで8ビット量子化された入力音声信号(64Kbps
)は、短期予測分析器11により1フレーム毎(160
サンプル:20msec)に短期予測分析(線形予測分
析ともいう)が施される。即ち入力音声信号からスペク
トル包絡情報Paを抽出して出力するとともに、スペク
トル包絡成分を取り除いた信号である短期予測残差信号
a(160サンプル)を生成して出力する。次に、短期
予測残差信号aは、長期予測分析器12により4つのサ
ブフレーム(40サンプル)に分割されサブフレーム毎
にピッチ情報Pbを抽出して出力するとともに、更にピ
ッチ成分を取り除いた信号である長期予測残差信号b(
40サンプル)を生成して出力する。この長期予測残差
信号b(40サンプル)はLPF(低域ろ波器)13に
より1/3に帯域制限され信号cが得られる。信号cは
3つのグリッドを有するスイッチSにより1/3にダウ
ンサンプリングされるが、このときグリッド選択器14
により電力が最大となるグリッドの信号列(13サンプ
ル)が選択され、それらが等間隔パルス情報Pcとなっ
て出力される。以上のPa,Pb及びPcは符号化器1
5により符号化及び多重化されたディジタル列として受
信側に対して送出される。このときの各パラメータに対
する1フレームあたりのビット割り当ては、表1のよう
になる。但し、等間隔パルス情報Pcとしては、その1
3サンプル中の最大値と、それにより正規化された13
サンプル及び位置情報(グリッド番号)とにより構成さ
れる。1フレームは20msecであるので符号化速度
は13Kbpsとなる。In FIG. 3A, an input audio signal (64 Kbps) 8-bit quantized with 8 kHz sampling is shown.
) is calculated by the short-term prediction analyzer 11 for each frame (160
Short-term predictive analysis (also referred to as linear predictive analysis) is applied to the sample (20 msec). That is, it extracts and outputs the spectral envelope information Pa from the input audio signal, and also generates and outputs the short-term prediction residual signal a (160 samples), which is a signal from which the spectral envelope component has been removed. Next, the short-term prediction residual signal a is divided into four subframes (40 samples) by the long-term prediction analyzer 12, and pitch information Pb is extracted and output for each subframe, and the signal is further removed from the pitch component. The long-term prediction residual signal b(
40 samples) is generated and output. This long-term prediction residual signal b (40 samples) is band-limited to ⅓ by an LPF (low pass filter) 13 to obtain a signal c. The signal c is down-sampled to 1/3 by a switch S having three grids, but at this time the grid selector 14
The grid signal sequence (13 samples) with the maximum power is selected, and these are output as equally spaced pulse information Pc. The above Pa, Pb and Pc are encoder 1
5 and is sent to the receiving side as a digital string encoded and multiplexed. The bit allocation per frame for each parameter at this time is as shown in Table 1. However, as the equally spaced pulse information Pc, Part 1
Maximum value among 3 samples and 13 normalized by it
It consists of a sample and position information (grid number). Since one frame is 20 msec, the encoding speed is 13 Kbps.
【表1】[Table 1]
【0004】図3(B)では、受信したディジタル列は
分離回路21により、等間隔パルス情報Pd,ピッチ情
報Pe,スペクトル包絡情報Pfを分離した後、長期予
測残差信号再生器22により等間隔パルス情報Pdから
長期予測残差信号dを再生する。ここでは、送られてき
た等間隔パルスを元のグリッド位置に再配置し、等間隔
パルスが存在しないサンプル点には0を挿入する。次に
、長期予測合成器23により長期予測残差信号dにピッ
チ情報Peを付加し、短期予測残差信号eを再生する。
次に、短期予測合成器24により短期予測残差信号eに
スペクトル包絡情報Pfを付加して再生音声信号を出力
する。In FIG. 3(B), the received digital string is separated into equally spaced pulse information Pd, pitch information Pe, and spectrum envelope information Pf by a separation circuit 21, and then is separated into equally spaced pulse information Pd, pitch information Pe, and spectrum envelope information Pf by a long-term prediction residual signal regenerator 22. A long-term prediction residual signal d is reproduced from the pulse information Pd. Here, the sent evenly spaced pulses are rearranged to the original grid positions, and 0's are inserted at sample points where no equally spaced pulses exist. Next, the long-term prediction synthesizer 23 adds pitch information Pe to the long-term prediction residual signal d, and reproduces the short-term prediction residual signal e. Next, the short-term prediction synthesizer 24 adds spectrum envelope information Pf to the short-term prediction residual signal e and outputs a reproduced audio signal.
【0005】[0005]
【発明が解決しようとする課題】上記の従来の方式の問
題点を図4を用いて説明する。図4(A)は、長期予測
残差信号bのスペクトルであり、これを図4(B)の理
想LPFによりフィルタリングすれば、図4(C)のよ
うな信号が得られ、これを1/3のダウンサンプリング
しても折り返し歪みは発生しない。しかし、従来の方式
でのフィルタリングは、時間領域で理想LPFのインパ
ルス応答と長期予測残差信号列との畳み込みを行うこと
により実現しており、無限長であるはずのインパルス応
答を11サンプルのみで打ち切っているため、図4(D
)のようなスペクトルとなり、これによりフィルタリン
グされた信号は、図4(E)のようになる。これを1/
3にダウンサンプリングすれば、図4(F)に示すよう
にな折り返し歪み(斜線部分)が生じる。これが再生音
に影響し、1人の発声した音声があたかも2人が発声し
ているように聞こえる現象が起きる。また、折り返し歪
みが大きくなるため、これ以上長期予測残差信号のサン
プルを間引くことが出来ず、符号化速度をこれより低く
するのは困難である。Problems with the above-mentioned conventional method will be explained using FIG. 4. FIG. 4(A) is the spectrum of the long-term prediction residual signal b. If this is filtered by the ideal LPF of FIG. 4(B), a signal as shown in FIG. 4(C) is obtained, which is 1/ No aliasing distortion occurs even with downsampling of 3. However, filtering in the conventional method is achieved by convolving the impulse response of the ideal LPF with the long-term prediction residual signal sequence in the time domain, and the impulse response, which should be infinite, is processed using only 11 samples. Figure 4 (D
), and the signal filtered by this spectrum becomes as shown in FIG. 4(E). This is 1/
If downsampled to 3, aliasing distortion (shaded area) will occur as shown in FIG. 4(F). This affects the reproduced sound, causing a phenomenon in which the voice uttered by one person sounds as if it were uttered by two people. Furthermore, since the aliasing distortion becomes large, it is impossible to thin out the samples of the long-term prediction residual signal any more, and it is difficult to reduce the encoding speed lower than this.
【0006】以上をまとめると従来の方式の欠点は、次
のようになる。
(1) LPFの不完全さによる折り返し歪みが発生
し再生音の品質が劣化する。
(2) 低ビットレート化が困難である。To summarize the above, the drawbacks of the conventional system are as follows. (1) Folding distortion occurs due to imperfections in the LPF, and the quality of reproduced sound deteriorates. (2) It is difficult to reduce the bit rate.
【0007】本発明の目的は、従来方式の欠点となって
いる折り返し歪みによる品質への悪影響を軽減し、さら
に低い符号化速度での音声符復号化方法及びその装置を
提供することである。SUMMARY OF THE INVENTION An object of the present invention is to provide a method and apparatus for encoding and decoding speech at a lower encoding speed while reducing the adverse effect on quality caused by aliasing, which is a drawback of conventional methods.
【0008】[0008]
【課題を解決するための手段】図1は本発明の実施例を
示す音声符復号化装置のブロック図であり、(A)は音
声符号化装置、(B)は音声復号装置である。[Means for Solving the Problems] Fig. 1 is a block diagram of a speech code/decoder showing an embodiment of the present invention, in which (A) is a speech coder and (B) is a speech decoder.
【0009】図1(A)において、8kHzサンプリン
グで8ビット量子化された入力音声信号(64Kbps
)は短期予測分析器31により1フレーム毎(160サ
ンプル:20msec)に短期予測分析が施される。
即ち入力音声信号からスペクトル包絡情報Pgを抽出し
て出力するとともに、スペクトル包絡成分を取り除いた
信号である短期予測残差信号g(160サンプル)を生
成して出力する。次に、この短期予測残差信号gは、長
期予測分析器32により4つのサブフレーム(40サン
プル)に分割され、サブフレーム毎にピッチ情報Phを
抽出して出力するとともに、さらにピッチ成分を取り除
いた信号である長期予測残差信号h(40サンプル)を
生成して出力する。この長期予測残差信号h(40サン
プル)は離散コサイン変換(DCT)器33により周波
数領域に変換されDCT係数iを出力する。DCTの変
換式については後述する。次にDCT係数i(40サン
プル)は、間引き器34により間引かれ7サンプルによ
り代表される。図2は間引き方法の説明図である。図2
(A)は長期予測残差信号をDCT変換した結果である
。これを同図(B)のように、まず、1.33[kHz
]以上の係数を間引く。これは従来の方式の場合のLP
Fにより1/3に帯域制限するのと同じ作用をするが、
周波数領域で成分を消去しているので1.33[kHz
]以上の成分が残らず、折り返し歪みが軽減される。
また、さらに符号化速度を低くするために、同図におい
て実線,点線のうち電力の大きいほうを選択し7サンプ
ルを選出する。これらがDCT係数情報Piとなる。上
記のPg,Ph及びPiは、符号化器35により符号化
及び多重化されたディジタル系列として受信側に対して
送出される。このときの各パラメータに対する1フレー
ムあたりのビット割り当ては、表2のようになる。但し
、DCT係数情報Piとしては、その7サンプル中の最
大値とそれにより正規化された7サンプル及び位置情報
(グリッド番号)とにより構成される。In FIG. 1A, an input audio signal (64 Kbps) 8-bit quantized with 8 kHz sampling is shown.
) is subjected to short-term predictive analysis for each frame (160 samples: 20 msec) by the short-term predictive analyzer 31. That is, it extracts and outputs the spectral envelope information Pg from the input audio signal, and also generates and outputs the short-term prediction residual signal g (160 samples), which is a signal from which the spectral envelope component has been removed. Next, this short-term prediction residual signal g is divided into four subframes (40 samples) by the long-term prediction analyzer 32, and pitch information Ph is extracted and output for each subframe, and the pitch component is further removed. A long-term prediction residual signal h (40 samples) is generated and output. This long-term prediction residual signal h (40 samples) is transformed into the frequency domain by a discrete cosine transform (DCT) unit 33 and outputs a DCT coefficient i. The DCT conversion formula will be described later. Next, the DCT coefficient i (40 samples) is decimated by a decimator 34 to be represented by 7 samples. FIG. 2 is an explanatory diagram of the thinning method. Figure 2
(A) is the result of DCT transformation of the long-term prediction residual signal. As shown in the same figure (B), first, 1.33 [kHz
] or more are thinned out. This is the LP for the conventional method.
It has the same effect as limiting the band to 1/3 by F, but
Since the component is canceled in the frequency domain, the frequency is 1.33 [kHz
] No components remain and aliasing distortion is reduced. Furthermore, in order to further reduce the encoding speed, the solid line or the dotted line in the figure, whichever has the higher power, is selected and seven samples are selected. These become DCT coefficient information Pi. The above Pg, Ph, and Pi are encoded and multiplexed by the encoder 35 and sent to the receiving side as a digital sequence. The bit allocation per frame for each parameter at this time is as shown in Table 2. However, the DCT coefficient information Pi is composed of the maximum value among the seven samples, seven samples normalized by the maximum value, and position information (grid number).
【表2】
1フレームは20msecであるので、符号化速度
は9.2Kbpsとなり、低ビットレート化を実現する
ことができる。[Table 2] Since one frame is 20 msec, the encoding speed is 9.2 Kbps, making it possible to achieve a low bit rate.
【0010】図1(B)では受信したディジタル系列は
分離回路41により、DCT係数情報Pj,ピッチ情報
Pk及びスペクトル包絡情報Pmとに分離した後、DC
T係数補間器42によりDCT係数jを再生する。ここ
では、図2(C)に示すように、送られてきたDCT係
数(7サンプル)を元の周波数位置に再配置し、DCT
係数が存在しないサンプル点に0を挿入するか、または
、補間処理により得られた値を挿入する。補間方法の1
例として、直線補間を用いた場合を図2(D)に示す。
ここでは等間隔に間引かれた成分のみ直線補間し、その
他の間引かれた成分に0を挿入して40サンプルとして
いる。次に、逆DCT変換(IDCT)器43により時
間領域に変換し長期予測残差信号kを再生する。次に、
長期予測合成器44により長期予測残差信号kにピッチ
情報Pkを付加し短期予測残差信号mを再生する。
次に、短期予測合成器45により短期予測残差信号mに
スペクトル包絡情報Pmを付加して再生音声信号を出力
する。In FIG. 1B, the received digital sequence is separated into DCT coefficient information Pj, pitch information Pk, and spectrum envelope information Pm by a separation circuit 41, and then DC
A T-coefficient interpolator 42 reproduces DCT coefficient j. Here, as shown in Fig. 2(C), the sent DCT coefficients (7 samples) are rearranged to the original frequency position, and the DCT
Insert 0 into sample points where no coefficients exist, or insert values obtained by interpolation processing. Interpolation method 1
As an example, FIG. 2(D) shows a case where linear interpolation is used. Here, only the components thinned out at equal intervals are subjected to linear interpolation, and 0 is inserted into the other thinned components, resulting in 40 samples. Next, the inverse DCT transform (IDCT) unit 43 transforms into the time domain to reproduce the long-term prediction residual signal k. next,
The long-term prediction synthesizer 44 adds pitch information Pk to the long-term prediction residual signal k and reproduces the short-term prediction residual signal m. Next, the short-term prediction synthesizer 45 adds spectral envelope information Pm to the short-term prediction residual signal m and outputs a reproduced audio signal.
【0011】DCT及びIDCTの変換式は、入力信号
をX(n)とするとそれぞれ次のようになる。(1)
DCTの場合、求めるDCT係数Xc(k)は、但し
、Nはブロック当たりのサンプル数g(k)=1(k=
0)
g(k)=√2(k=1,2…,N−1)(2) I
DCTの場合、復元される信号X(n)は、The conversion formulas for DCT and IDCT are as follows, assuming that the input signal is X(n). (1)
In the case of DCT, the required DCT coefficient Xc(k) is, where N is the number of samples per block g(k)=1(k=
0) g(k)=√2(k=1,2...,N-1)(2) I
In the case of DCT, the restored signal X(n) is
【0012
】0012
]
【発明の効果】以上詳細に説明したように、本発明を実
施することにより、周波数領域でDCT係数を間引いて
いるため折り返し歪みが発生せず、従来の方法に比べ再
生音声の品質は向上する。また、僅かな品質劣化を伴う
が、9.2Kbpsまで符号化速度を下げることも可能
となる等極めて大きい効果がある。[Effects of the Invention] As explained in detail above, by implementing the present invention, aliasing distortion does not occur because DCT coefficients are thinned out in the frequency domain, and the quality of reproduced audio is improved compared to conventional methods. . Further, although there is a slight quality deterioration, it has extremely large effects such as being able to lower the encoding speed to 9.2 Kbps.
【図1】本発明の実施例を示すブロック図[Fig. 1] Block diagram showing an embodiment of the present invention
【図2】本発
明の間引き方法の説明図[Fig. 2] Explanatory diagram of the thinning method of the present invention
【図3】従来の音声符復号化装置のブロック図[Figure 3] Block diagram of a conventional audio code/decoder
【図4】
折り返し歪み発生の説明図[Figure 4]
Diagram explaining the occurrence of aliasing distortion
11 短期予測分析器
12 長期予測分析器
13 LPF
14 グリッド選択器
15 符号化器
21 分離回路
22 長期予測残差再生器
23 長期予測合成器
24 短期予測合成器
31 短期予測分析器
32 長期予測分析器
33 離散コサイン変換(DCT)器34 間引き
器
35 符号化器
41 分離回路
42 DCT係数補間器
43 逆離散コサイン変換(IDCT)器44 長
期予測合成器
45 短期予測合成器11 Short-term prediction analyzer 12 Long-term prediction analyzer 13 LPF 14 Grid selector 15 Encoder 21 Separation circuit 22 Long-term prediction residual regenerator 23 Long-term prediction synthesizer 24 Short-term prediction synthesizer 31 Short-term prediction analyzer 32 Long-term prediction analyzer 33 Discrete cosine transform (DCT) unit 34 Decimator 35 Encoder 41 Separation circuit 42 DCT coefficient interpolator 43 Inverse discrete cosine transform (IDCT) unit 44 Long-term prediction combiner 45 Short-term prediction combiner
Claims (3)
ペクトル包絡情報を抽出するとともに該スペクトル包絡
情報を取り除いた短期予測残差信号を生成し、長期予測
分析により該短期予測残差信号からピッチ情報を抽出す
るとともに該ピッチ情報を取り除いた長期予測残差信号
を生成し、それを離散コサイン変換により周波数領域に
変換して周波数成分であるDCT係数を出力し、該DC
T係数を高域から全体の2/3の成分を消去するととも
に残りの1/3のDCT係数を等間隔に間引いてDCT
係数情報を出力し、該DCT係数情報,前記ピッチ情報
及び前記スペクトル包絡情報とをディジタル列信号の形
態に符号化した後多重化して伝送路に送出し、該伝送路
を介して受信した前記ディジタル列信号を分離して前記
DCT係数情報,前記ピッチ情報及び前記スペクトル包
絡情報を取り出し、該DCT係数情報を再生処理してD
CT係数を元の周波数に再配置したのち間引かれた成分
の代わりに全て0を挿入するか又は補間により得られた
値を挿入することにより全ての周波数成分を再生した後
、逆コサイン変換により時間領域に変換して長期予測残
差信号を再生し、長期予測合成により該長期予測残差信
号に前記ピッチ情報を付加して短期予測残差信号を再生
し、次に短期予測合成により該短期予測残差信号に前記
スペクトル包絡情報を付加することにより音声信号を復
号再生するようにした音声符復号化方法。1. Extracting spectral envelope information from an input audio signal by short-term predictive analysis, generating a short-term predictive residual signal by removing the spectral envelope information, and extracting pitch information from the short-term predictive residual signal by long-term predictive analysis. A long-term prediction residual signal is generated by extracting the pitch information and removing the pitch information, and it is converted into the frequency domain by discrete cosine transform to output DCT coefficients which are frequency components.
DCT is performed by removing 2/3 of the T coefficient from the high range and thinning out the remaining 1/3 of the DCT coefficient at equal intervals.
Coefficient information is output, and the DCT coefficient information, the pitch information, and the spectral envelope information are encoded in the form of a digital string signal, multiplexed, and sent to a transmission path, and the digital signal received via the transmission path is The column signal is separated, the DCT coefficient information, the pitch information, and the spectral envelope information are extracted, and the DCT coefficient information is reproduced and D
After rearranging the CT coefficients to their original frequencies, all frequency components are reproduced by inserting all 0s in place of the thinned out components or by inserting values obtained by interpolation, and then by inverse cosine transformation. The long-term prediction residual signal is converted into the time domain and reproduced, the pitch information is added to the long-term prediction residual signal by long-term prediction synthesis to reproduce the short-term prediction residual signal, and then the short-term prediction residual signal is reproduced by short-term prediction synthesis. An audio encoding/decoding method in which an audio signal is decoded and reproduced by adding the spectral envelope information to a prediction residual signal.
該音声信号からスペクトル包絡成分を取り除いた短期予
測残差信号に分割出力する短期予測分析器と、前記短期
予測残差信号をピッチ情報とピッチ成分を取り除いた長
期予測残差信号に分割出力する長期予測分析器と、前記
長期予測残差信号を周波数領域に変換してDCT係数を
出力する離散コサイン変換器と、該DCT係数を高域か
ら全体の2/3の成分を消去するとともに残りの1/3
のDCT係数を等間隔に間引いてDCT係数情報を取り
出す間引き器と、前記スペクトル包絡情報,ピッチ情報
およびDCT係数情報とをディジタル列信号の形態に符
号化したのち多重化して伝送路に送出する符号化器とを
備えた音声符号化装置。2. A short-term prediction analyzer that divides and outputs an input audio signal into spectral envelope information and a short-term prediction residual signal obtained by removing the spectral envelope component from the audio signal, and divides and outputs the short-term prediction residual signal into pitch information and a pitch component. a long-term prediction analyzer that divides and outputs the long-term prediction residual signal from which the long-term prediction residual signal is removed; a discrete cosine transformer that converts the long-term prediction residual signal into the frequency domain and outputs DCT coefficients; Eliminate 2/3 of the component and remove the remaining 1/3
a decimator that decimates DCT coefficients at equal intervals to extract DCT coefficient information; and a code that encodes the spectral envelope information, pitch information, and DCT coefficient information in the form of a digital sequence signal, multiplexes the signal, and sends the multiplexed signal to a transmission path. A speech encoding device equipped with a converter.
クトル包絡情報とを含んでディジタル列信号の形態に符
号化され多重化された信号を受信し、該ディジタル列信
号を分離して前記DCT係数情報,前記ピッチ情報及び
前記スペクトル包絡情報を取り出す分離器と、該DCT
係数情報を元の周波数に再配置して間引かれた周波数成
分の代わりに0を挿入するか又は補間により得られた値
を挿入することにより全ての周波数成分のDCT係数を
再生するDCT係数補間器と、該DCT係数を逆コサイ
ン変換して時間領域に変換し長期予測残差信号を再生す
る逆コサイン変換器と、該長期予測残差信号に前記ピッ
チ情報を付加し短期予測残差信号を再生する長期予測合
成器と、該短期予測残差信号に前記スペクトル包絡情報
を付加して音声信号を復号再生する短期予測合成器とを
備えた音声復号装置。3. Receive a multiplexed signal encoded in the form of a digital sequence signal including DCT coefficient information, pitch information, and spectral envelope information, separate the digital sequence signal, and extract the DCT coefficient information, a separator for extracting the pitch information and the spectral envelope information; and the DCT
DCT coefficient interpolation that reproduces the DCT coefficients of all frequency components by rearranging the coefficient information to the original frequency and inserting 0 in place of the thinned out frequency components or by inserting values obtained by interpolation. an inverse cosine transformer that performs an inverse cosine transform on the DCT coefficients and converts them into the time domain to reproduce a long-term prediction residual signal; An audio decoding device comprising: a long-term prediction synthesizer for reproducing; and a short-term prediction synthesizer for decoding and reproducing an audio signal by adding the spectral envelope information to the short-term prediction residual signal.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3035149A JPH04249300A (en) | 1991-02-05 | 1991-02-05 | Audio code/decoding method and device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3035149A JPH04249300A (en) | 1991-02-05 | 1991-02-05 | Audio code/decoding method and device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04249300A true JPH04249300A (en) | 1992-09-04 |
Family
ID=12433847
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3035149A Pending JPH04249300A (en) | 1991-02-05 | 1991-02-05 | Audio code/decoding method and device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04249300A (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2002050814A1 (en) * | 2000-12-07 | 2002-06-27 | Kabushiki Kaisha Kenwood | System and method for signal interpolation |
| JP2003510644A (en) * | 1999-09-22 | 2003-03-18 | マイクロソフト コーポレイション | LPC harmonic vocoder with super frame structure |
| JP2008083363A (en) * | 2006-09-27 | 2008-04-10 | Casio Comput Co Ltd | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program |
| JP2008102520A (en) * | 2006-10-18 | 2008-05-01 | Polycom Inc | Double transform coding of audio signals |
-
1991
- 1991-02-05 JP JP3035149A patent/JPH04249300A/en active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003510644A (en) * | 1999-09-22 | 2003-03-18 | マイクロソフト コーポレイション | LPC harmonic vocoder with super frame structure |
| WO2002050814A1 (en) * | 2000-12-07 | 2002-06-27 | Kabushiki Kaisha Kenwood | System and method for signal interpolation |
| JP2008083363A (en) * | 2006-09-27 | 2008-04-10 | Casio Comput Co Ltd | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program |
| JP2008102520A (en) * | 2006-10-18 | 2008-05-01 | Polycom Inc | Double transform coding of audio signals |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5048697B2 (en) | Encoding device, decoding device, encoding method, decoding method, program, and recording medium | |
| JP3336617B2 (en) | Signal encoding or decoding apparatus, signal encoding or decoding method, and recording medium | |
| JP3926726B2 (en) | Encoding device and decoding device | |
| US6415251B1 (en) | Subband coder or decoder band-limiting the overlap region between a processed subband and an adjacent non-processed one | |
| JP2002041097A (en) | Coding method, decoding method, coder and decoder | |
| JPH08190764A (en) | Digital signal processing method, digital signal processing device and recording medium | |
| JPH10282999A (en) | Method and device for coding audio signal, and method and device decoding for coded audio signal | |
| JP2976860B2 (en) | Playback device | |
| CA2399253C (en) | Speech decoder and method of decoding speech involving frequency expansion | |
| KR100352351B1 (en) | Information encoding method and apparatus and Information decoding method and apparatus | |
| JP4800645B2 (en) | Speech coding apparatus and speech coding method | |
| US5899966A (en) | Speech decoding method and apparatus to control the reproduction speed by changing the number of transform coefficients | |
| KR100750115B1 (en) | Audio signal encoding and decoding method and apparatus therefor | |
| JP4308229B2 (en) | Encoding device and decoding device | |
| JPH04249300A (en) | Audio code/decoding method and device | |
| JP2002538503A (en) | Reverse decoding method for digital audio data | |
| JP2002050967A (en) | Signal recording medium | |
| JP3593201B2 (en) | Audio decoding equipment | |
| JPH05303399A (en) | Audio time axis companding device | |
| JP2001083995A (en) | Subband encoding / decoding method | |
| JP3778739B2 (en) | Audio signal reproducing apparatus and audio signal reproducing method | |
| KR920009960B1 (en) | Remained signal exciting type linner predition coding synthesis apparatus | |
| JP2000244325A (en) | Method for decoding mpeg audio | |
| JP3504485B2 (en) | Tone encoding device, tone decoding device, tone encoding / decoding device, and program storage medium | |
| JPH07221650A (en) | Information encoding method and apparatus and information decoding method and apparatus |