JPH0446440B2 - - Google Patents

Info

Publication number
JPH0446440B2
JPH0446440B2 JP59053757A JP5375784A JPH0446440B2 JP H0446440 B2 JPH0446440 B2 JP H0446440B2 JP 59053757 A JP59053757 A JP 59053757A JP 5375784 A JP5375784 A JP 5375784A JP H0446440 B2 JPH0446440 B2 JP H0446440B2
Authority
JP
Japan
Prior art keywords
phase
waveform
filter
residual waveform
pulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59053757A
Other languages
Japanese (ja)
Other versions
JPS60196800A (en
Inventor
Masaaki Yoda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP59053757A priority Critical patent/JPS60196800A/en
Priority to EP85103191A priority patent/EP0163829B1/en
Priority to CA000477005A priority patent/CA1218745A/en
Publication of JPS60196800A publication Critical patent/JPS60196800A/en
Priority to US07/255,566 priority patent/US4850022A/en
Publication of JPH0446440B2 publication Critical patent/JPH0446440B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

この発明は、音声波形をその相関を除去するフ
イルタに通して予測残差波形を得その予測残差波
形を用いる音声信号処理方式に関するものであ
る。 <従来技術> 従来、音声符号化には波形符号化と分析合成系
(ボコーダ)との2つのクラスがある。後者の分
析合成系のクラスに属する線形予測符号化
(LPC)方式では、第1図に示すように音声のス
ペクトル包絡を表わす全極形のフイルタ(予測フ
イルタ)を、入力端子11からの音声波形につい
て線形予測分析によつて求めた後、それと逆の特
性をもつ全零形のフイルタ(逆フイルタ)12に
音声波形を通して予測残差波形を求め、この残差
波形を特徴づけるパラメータとしての周期性の有
無(有声、無声の判定)、ピツチ周期、および平
均電力をパラメータ抽出部13で抽出し、これと
前記予測フイルタ係数とを送出する。合成側では
予測残差波形の代りに、有声の場合は周期パルス
列、無声の場合は雑音波形を音源生成部14で用
いて予測フイルタ15を駆動し、予測フイルタ1
5のフイルタ係数を前記フイルタ係数で設定して
音声波形を生成して出力端子16に出力する。 一方、前者の波形符号化のクラスに属する適応
符号化(APC)では第2図に示すようにLPCボ
コーダと同様な手段で予測残差波形を求めた後、
この残差波形のサンプル値をそのまま量子化部1
7で量子化(符号化)し、これと予測フイルタ係
数とを送出する。合成側では、復合か部18で復
合化された残差波形を用いて予測フイルタ15を
駆動することにより音声波形を生成する。 これら2つの従来方式の違いは予測残差波形の
符号化の方法にある。第1図のLPCボコーダで
は残差波形については、その特徴パラメータだけ
を伝送すれば良いので、残差波形のサンプル毎の
量子化値を伝送する第2図のAPC方式にくらべ
てビツトレートの大幅な低減が図れる。しかし、
その反面第1図に示した方式は残差波形をパルス
列あるいは雑音で置き換えることによる品質劣下
はまぬがれず、ビツトレートを高くしても6kb/
s程度で品質が飽和し、自然な音声品質を提供し
得ない欠点があり、また残差波形の特徴パラメー
タの誤抽出が品質劣下を引き起こす欠点があつ
た。一方、第2図に示したSPC方式では残差波形
の量子化ビツト数を高めることにより原音声に限
り無く近い音声品質を実現できる反面、ビツトレ
ートが16kb/s以下になると量子化歪が増大
して音声品質が急激に劣下するこという欠点があ
つた。 また従来において音声信号のピツチの変更や音
声信号の継ぎ足し時に、エネルギの集中している
個所で行うおそれがあり、その場合は不自然なも
のとなる欠点があつた。 <発明の構成> この発明の目的は例えば音声信号を継ぎ足す場
合に自然性が得られるようにすることを可能とす
る音声信号処理方式を提供することにある。 この発明の他の目的はビツトレートが16kb/
s以下でも比較的良好な音声品質を保持できる音
声信号処理方式を提供することにある。 この発明によれば音声波形を線形予測分析して
予測残差波形を得、この予測残差波形についてそ
の短時間(例えばピツチ周期程度以下)位相特性
と逆の特性をもつ線形フイルタ(位相等化フイル
タ)のフイルタ係数を残差波形から適応的に決定
し、その位相等化フイルタに前記音声波形又は予
測残差波形を通して予測残差波形を零位相化、つ
まり位相等化する。この位相等化された予測残差
波形エネルギーがインパルス的に集中し、従つて
そのエネルギーが集中してない部分で、例えば音
声波形の継ぎ足しを行うことにより自然性のよい
音声波形が得られる。また前記位相等化した音声
波形又は予測残差波形を符号化する際に、例えば
そのエネルギーが集中している部分に多くの情報
を割り当てることにより、効率的に符号化するこ
とができ16kb/s以下でも可成り良い音声品質
を得ることができる。 <発明の原理> まず、この発明による音声信号処理方式の原理
について述べる。音声波形のサンプル値をS
(n)、音声波形を線形予測分析して得られる予測
係数をa(k)(k=1,2……P)とすると、予
測残差波形のサンプル値e(n)は次式で表わさ
れる。 e(n)=pk=0 a(k)・S(n−k) ……(1) ただし、a(0)=1である。残差波形e(n)
は、音声波形のスペクトル包絡成分を除去したも
の、つまり音声波形のサンプル値間の相関を除去
したもので平坦なスペクトル包絡をもち、かつ有
声音については音声のピツチ周期成分をもつてい
る。そこで、このような残差波形の特徴を次のよ
うなパルス列として理想化して実現する。 eM(n)=L-1l=0 δ(n−nl) ……(2) ここで、δ(n)はクロネツカーのデルタ関数
で、δ(0)=1、およびδ(n)=0(n≠0)で
ある。nlはパルス位置を表わし、nl−nl-1は音声
のピツチ周期に対応する。つまりこのパルス列eM
(n)はピツチ位置nlのみにパルスが存在し、そ
の他はゼロである。残差波形e(n)とパルス列
eM(n)は共に平坦なスペクトル包絡とピツチ周
期成分とをもつから、両波形の差は主に短時間、
つまりピツチ周期程度以下の時間での位相特性の
違いによる。そこで、残差波形の短時間位相の逆
特性を持つ線形フイルタのインパルス応答をh
(m)とすると、この線形フイルタ(位相等化フ
イルタ)に残差波形e(n)を通して位相等化
(零位相化)つまりスペクトラムの各成分が同一
位相化された残差波形ep(n)は次式で算出され
る。 ep(n)=Mm=0 h(m)e(n−m) ……(3) このインパルス応答h(m)は、eP(n)とeM
(n)との平均二乗誤差を最小化することにより
求められる。その平均二乗誤差を次式で表わす。 J=1/NN-1n=0 {eP(n)−eM(n)}2 ……(4) (4)式に(2),(3)式を代入して、h(m)で偏微分
して零とおくとインパルス応答h(m)は次の連
立方程式の解として求められる。 Mk=0 v(|m−k|)h(k)=L-1l=0 e(nl−m)
……(5) (m=0,1,……;M) ここでv(k)は残差波形の自己相関関数であ
り次式で算出される。 v(k)=N-k-1n=0 e(n)e(n+k) ……(6) (k=0,1,……M) 位相等化フイルタのタツプ数M+1と対応した
時間、つまり応答時間がピツチ周期より短かい場
合は自己相関関数は、残差波形が平坦なスペクト
ルをもつことからv(k)v0δ(k)として近
似できる。つまりk=0の時だけ値をもつからそ
の場合、(5)式はm=kの時だけ値をもち次のよう
に簡単化できる。 h(m)=1/v0L-1l=0 e(nl−m) ……(7) さらに、分析窓長Nがピツチ周期より短い場合
はL=1となり(パルスが1個となり)、インパ
ルス応答は次式で算出される。 h(m)=1/v0e(n0−m) ……(8) 即ち、インパルス応答h(m)は時点n0を原点
として残差波形の時間軸を反転したものとなる。
また、残差波形の電力スペクトルが完全に白色
(すべての周波数成分の振幅が一定)であるとす
ると、インパルス応答h(m)のフーリエ変換は
次式で表わされる。 (ただし、ゲインは正規化) ここで、E(k)は残差波形e(n)のフーリエ
変換を表わす。したがつて、位相等化された残差
波形ep(n)のフーリエ変換Ep(k)は(3)式より
Ep(k)=H(k)・E(k)であり、またE(k)=
|E(K)|e aargE(k)であるから、これに(9)式
を代入して次式が得られる。 (10)式より位相等化された残差波形ep(n)は直
線位相成分
The present invention relates to an audio signal processing method that passes an audio waveform through a filter that removes its correlation to obtain a predicted residual waveform, and uses the predicted residual waveform. <Prior Art> Conventionally, there are two classes of speech coding: waveform coding and analysis and synthesis systems (vocoders). In the linear predictive coding (LPC) method, which belongs to the latter class of analysis and synthesis systems, as shown in FIG. is determined by linear predictive analysis, the voice waveform is passed through an all-zero filter (inverse filter) 12 with the opposite characteristics to obtain a predicted residual waveform, and the periodicity as a parameter characterizing this residual waveform is determined. The presence/absence (voiced/unvoiced determination), pitch period, and average power are extracted by the parameter extraction unit 13, and these and the prediction filter coefficients are sent out. On the synthesis side, instead of the predicted residual waveform, the sound source generator 14 uses a periodic pulse train in the case of voiced and a noise waveform in the case of unvoiced to drive the prediction filter 15.
A voice waveform is generated by setting a filter coefficient of 5 using the filter coefficient and outputting it to the output terminal 16. On the other hand, in adaptive coding (APC), which belongs to the former class of waveform coding, as shown in Fig. 2, after obtaining the predicted residual waveform using the same means as the LPC vocoder,
The sample value of this residual waveform is directly converted to the quantization unit 1.
7, and sends out this and the predictive filter coefficients. On the synthesis side, the residual waveform decoded by the decoder 18 is used to drive the prediction filter 15 to generate a speech waveform. The difference between these two conventional methods lies in the method of encoding the prediction residual waveform. The LPC vocoder shown in Figure 1 only needs to transmit the characteristic parameters of the residual waveform, so the bit rate is significantly lower than the APC method shown in Figure 2, which transmits the quantized value for each sample of the residual waveform. This can be reduced. but,
On the other hand, the method shown in Figure 1 inevitably suffers from quality deterioration due to replacing the residual waveform with a pulse train or noise.
There is a drawback that the quality is saturated at about s, making it impossible to provide natural voice quality, and erroneous extraction of feature parameters of the residual waveform causes quality deterioration. On the other hand, with the SPC method shown in Figure 2, by increasing the number of quantization bits of the residual waveform, it is possible to achieve audio quality that is as close as possible to the original audio, but on the other hand, when the bit rate becomes less than 16 kb/s, quantization distortion increases. The drawback was that the voice quality deteriorated rapidly. Furthermore, in the past, when changing the pitch of an audio signal or adding audio signals, there was a risk that the change would be performed at a location where energy is concentrated, and in that case, there was a drawback that the result would be unnatural. <Structure of the Invention> An object of the present invention is to provide an audio signal processing method that makes it possible to obtain naturalness when adding audio signals, for example. Another object of this invention is that the bitrate is 16kb/
An object of the present invention is to provide an audio signal processing method that can maintain relatively good audio quality even when the audio quality is less than s. According to this invention, a speech waveform is subjected to linear predictive analysis to obtain a predicted residual waveform, and this predicted residual waveform is filtered by a linear filter (phase equalization A filter coefficient of a filter) is adaptively determined from the residual waveform, and the speech waveform or the predicted residual waveform is passed through the phase equalization filter to zero phase the predicted residual waveform, that is, the phase is equalized. This phase-equalized predicted residual waveform energy concentrates in an impulse manner, and therefore, by adding, for example, a voice waveform in a portion where the energy is not concentrated, a voice waveform with good naturalness can be obtained. Furthermore, when encoding the phase-equalized speech waveform or prediction residual waveform, for example, by allocating a lot of information to the part where the energy is concentrated, it is possible to encode efficiently at 16kb/s. You can get pretty good audio quality even below. <Principle of the Invention> First, the principle of the audio signal processing method according to the present invention will be described. The sample value of the audio waveform is
(n), and the prediction coefficient obtained by linear predictive analysis of the speech waveform is a(k) (k=1, 2...P), then the sample value e(n) of the prediction residual waveform is expressed by the following equation. It will be done. e(n)= pk=0 a(k)・S(nk)...(1) However, a(0)=1. Residual waveform e(n)
is the voice waveform with the spectral envelope component removed, that is, the correlation between the sample values of the voice waveform is removed, and has a flat spectrum envelope, and for voiced sounds, it has the pitch period component of the voice. Therefore, the characteristics of such a residual waveform are idealized and realized as the following pulse train. e M (n)= L-1l=0 δ(n-nl) ...(2) Here, δ(n) is Kronetzker's delta function, δ(0)=1, and δ(n) =0 (n≠0). n l represents the pulse position, and n l −n l-1 corresponds to the pitch period of the voice. In other words, this pulse train e M
In (n), there is a pulse only at the pitch position nl , and there are zeros at the other positions. Residual waveform e(n) and pulse train
Since e M (n) both have a flat spectral envelope and a pitch periodic component, the difference between the two waveforms is mainly for a short period of time,
In other words, this is due to the difference in phase characteristics at times less than the pitch period. Therefore, the impulse response of a linear filter with inverse characteristics of the short-term phase of the residual waveform is h
(m), the residual waveform e(n) is passed through this linear filter (phase equalization filter) to equalize the phase (zero phase), that is, the residual waveform ep(n) in which each component of the spectrum is made into the same phase. is calculated using the following formula. ep(n)= Mm=0 h(m)e(n-m) ...(3) This impulse response h(m) is calculated by e P (n) and e M
(n) by minimizing the mean square error. The mean square error is expressed by the following equation. J=1/N N-1n=0 {e P (n)−e M (n)} 2 ...(4) Substituting equations (2) and (3) into equation (4), h (m) and set it to zero, the impulse response h(m) can be obtained as a solution of the following simultaneous equations. Mk=0 v(|m−k|) h(k)= L−1l=0 e(nl−m)
...(5) (m=0,1,...;M) Here, v(k) is an autocorrelation function of the residual waveform and is calculated by the following equation. v(k)= Nk-1n=0 e(n) e(n+k) ...(6) (k=0, 1,...M) The time corresponding to the number of taps M+1 of the phase equalization filter, that is, When the response time is shorter than the pitch period, the autocorrelation function can be approximated as v(k)v 0 δ(k) because the residual waveform has a flat spectrum. In other words, since it has a value only when k=0, in that case, equation (5) has a value only when m=k, and can be simplified as follows. h(m)=1/v 0L-1l=0 e(n l −m) ...(7) Furthermore, if the analysis window length N is shorter than the pitch period, L=1 (one pulse and ), the impulse response is calculated using the following formula. h(m)=1/v 0 e(n 0 −m) (8) That is, the impulse response h(m) is the time axis of the residual waveform inverted with the origin at time n 0 .
Further, assuming that the power spectrum of the residual waveform is completely white (amplitudes of all frequency components are constant), the Fourier transform of the impulse response h(m) is expressed by the following equation. (However, the gain is normalized) Here, E(k) represents the Fourier transform of the residual waveform e(n). Therefore, the Fourier transform Ep(k) of the phase-equalized residual waveform ep(n) is given by equation (3).
Ep(k)=H(k)・E(k), and E(k)=
Since |E(K)| e a argE(k), the following equation is obtained by substituting equation (9) into this. From equation (10), the phase-equalized residual waveform ep(n) is a linear phase component.

【式】を除いて残差波形e(n) を零位相化(スペクトラムをすべて同位相化)し
たものとなる。理想的に|E(k)|=E0(一定)
ならばep(n)は完全に無位相となり単一パルス
波形となる。要するに前述のようなフイルタ係数
h(m)をもつ位相等化フイルタ残差波形e(n)
を通すと、ピツチ位置に主としてエネルギーが集
中した、つまり単一パルス化に近い波形となる。 <第1実施例> 次に、この発明の音声信号処理方式の具体的実
施例を第3図に沿つて説明する。入力端子11か
らは、標本化された音声波形のサンプル値S(n)
が入力され、線形予測分析部21および逆フイル
タ部22に供給される。線形予測分析部21では
音声波形S(n)から線形予測分析を用いて、(1)
式における予測係数a(k)を算出する。逆フイ
ルタ部22では、音声波形S(n)を入力として
(1)式に示すようなフイルタリング演算を行い、予
測残差波形e(n)を出力する。予測残差波形e
(n)はフイルタ係数決定部23中の有声無声判
定部24、ピツチ位置検出部25およびフイルタ
係数数算出部26に供給される。有声・無声判定
部24では、残差波形e(n)の自己相関関数を
一定の遅延サンプル点数で求め、その最大ピーク
値が一定のしきい値以上なら有声、それ以下なら
無声として有声・無声の判定を行なう。この判定
結果V/UVは、以降の位相等化フイルタ係数を
求める処理モードを制御するのに用いられる。位
相等化フイルタは残差波形の位相の時間的変化に
適応化するため、有声部ではピツチ周期ごとに適
応化する。いま、時点nがl−1番目のピツチ位
置nl-1にあるとして、その時点における位相等化
フイルタ係数をh*(m.nl-1)(m=0,1……M)
として表わす。ピツチ位置検出部25ではピツチ
位置nl-1およびフイルタ係数*(m,nl-1)を用い
て次のピツチ位置nl検出する。 第4図は、ピツチ位置検出部25の内部構成を
示す。入力端子27からは逆フイルタ部23より
の残差波形e(n)が入力され、入力端子28か
らは有声無声判定部24よりの有声・無声判定結
果V/UVが入力される。処理モードスイツチ2
9では有声無声判定入力V/UVに応じて処理モ
ードをスイツチする。有声Vの場合は残差波形e
(n)は位相等化フイルタ部31に入力され、入
力端子32から入力されるフイルタ係数h*(m,
nl-1)との間のたたみ込み演算((3)式と同様な演
算)が行なわれ、位相等化された残差波形ep(n)
が出力される。相対振幅算出部33では、位相等
化された残差波形ep(n)の時点nでの相対振幅
を次式で算出する。 振幅比較部34では相対振幅mep(n)をあら
かじめ定められたしきい値mthと比較し、 mep(n)>mth (n>nl-1
……(12) を満たす場合、時点nをピツチ位置nlとして出力
端子35に出力する。 次に、ピツチ位置nlは第3図中のフイルタ係数
算出部26に入力され、ピツチ位置nlにおける位
相等化フイルタ係数h*(m,nl)がフイルタ係数
算出部26において次式により算出され、フイル
タ係数補間部37および第4図中の位相等化フイ
ルタ部31へ供給される。 ただし、(13)式は(8)式とくらべてフイルタのゲ
インを正規化するとともに、直線位相成分((10)式
中の
Except for [Formula], the residual waveform e(n) is made to have zero phase (all spectra are made to be in the same phase). Ideally |E(k)|=E 0 (constant)
Then, ep(n) becomes completely phaseless and has a single pulse waveform. In short, the phase equalization filter residual waveform e(n) with the filter coefficient h(m) as described above
When passed through, the energy is mainly concentrated at the pitch position, that is, the waveform becomes close to a single pulse. <First Embodiment> Next, a specific embodiment of the audio signal processing method of the present invention will be described with reference to FIG. From the input terminal 11, the sample value S(n) of the sampled audio waveform is input.
is input and supplied to the linear prediction analysis section 21 and the inverse filter section 22. The linear predictive analysis unit 21 uses linear predictive analysis from the audio waveform S(n) to calculate (1)
Calculate the prediction coefficient a(k) in the equation. The inverse filter section 22 receives the audio waveform S(n) as input.
A filtering operation as shown in equation (1) is performed and a predicted residual waveform e(n) is output. Prediction residual waveform e
(n) is supplied to the voiced/unvoiced determining section 24, the pitch position detecting section 25, and the filter coefficient number calculating section 26 in the filter coefficient determining section 23. The voiced/unvoiced determination unit 24 determines the autocorrelation function of the residual waveform e(n) using a fixed number of delay sample points, and if the maximum peak value is above a fixed threshold value, it is voiced, and if it is less than that, it is determined to be voiced or unvoiced. Make a judgment. This determination result V/UV is used to control the processing mode for determining the subsequent phase equalization filter coefficients. Since the phase equalization filter adapts to temporal changes in the phase of the residual waveform, it adapts to each pitch period in the voiced part. Now, assuming that time n is at the l-1th pitch position n l-1 , the phase equalization filter coefficient at that time is h * (mn l-1 ) (m = 0, 1...M)
Expressed as The pitch position detection section 25 detects the next pitch position nl using the pitch position nl -1 and the filter coefficient * (m, nl-1 ). FIG. 4 shows the internal configuration of the pitch position detection section 25. The residual waveform e(n) from the inverse filter section 23 is inputted from the input terminal 27, and the voiced/unvoiced determination result V/UV from the voiced/unvoiced determining section 24 is inputted from the input terminal 28. Processing mode switch 2
At step 9, the processing mode is switched in accordance with the voiced/unvoiced determination input V/UV. In the case of voiced V, the residual waveform e
(n) is input to the phase equalization filter unit 31, and the filter coefficient h * (m,
A convolution operation (same operation as equation (3)) is performed between n l-1 ), and the phase-equalized residual waveform e p (n)
is output. The relative amplitude calculation unit 33 calculates the relative amplitude of the phase-equalized residual waveform e p (n) at time n using the following equation. The amplitude comparator 34 compares the relative amplitude m e p (n) with a predetermined threshold value m th and determines that m e p (n)>m th (n>n l-1 ).
. . . If (12) is satisfied, the time point n is outputted to the output terminal 35 as the pitch position nl. Next, the pitch position nl is input to the filter coefficient calculation unit 26 in FIG. The signal is supplied to a filter coefficient interpolation section 37 and a phase equalization filter section 31 in FIG. However, compared to equation (8), equation (13) normalizes the filter gain, and also normalizes the linear phase component (in equation (10)).

【式】の遅れを補正したものとなつて いる。つまり(10)式より明らかなように(8)式により
得られるh(m)は実際のものよりM/2サンプ
ル分遅れたものとなるので、(13)式を用いる。 一方、有声・無声判定結果が無声UVの場合
は、処理モードスイツチ29により残差波形e
(n)をピツチ位置リセツト部36に入力してピ
ツチ位置nlを分析窓内の最後のサンプル時点に設
定し、またフイルタ係数算出部26において、フ
イルタ係数をh*(m,nl)=1(m=0)h*(m,
nl)=0(m≠0)に設定する。各時点nにおける
フイルタ係数h(m,n)は、フイルタ係数補間
部37において、たとえば次式で表される一次の
フイルタを用いて平滑化した値として算出され
る。 h(m,n)=αh(m,m−1)+(1+α)h*
(m,nl) (nl-1<n≦nl) ……(14) ここで、αはフイルタ係数の変化速度を制御す
る係数でα<1を満たす定数である。 位相等化フイルタ部38では入力端子11の入
力音声波形S(n)と、フイルタ係数補間部37
のフイルタ係数h(m,n)とを用いて、次式で
示されるたたみ込み演算を行ない、位相等化され
た音声波形Sp(n)を出力端子39に出力する。 Sp(n)=Mm=0 h(m,n)S(n−m) ……(15) <第2実施例> 次に、位相等化された音声波形Sp(n)のデジ
タル符号化について説明する。この符号化の基本
的構成例を第5図に示す。入力端子11から入力
される音声波形S(n)に対して、第3図で示さ
れた構成の位相等化処理部41において位相等化
処理を行ない、位相等化音声波形Sp(n)を出力
する、符号化部42ではこの位相等化音声波形Sp
(n)をデイジタル符号化し、符号系列を伝送路
43に送出する。受信側では復号化部44で位相
等化音声波形Sp(n)を復元して出力端子16に
出力する。このように、符号化・復号化は音声波
形S(n)の代りに、位相等化音声波形Sp(n)を
対象として行なう。音声波形S(n)を位相等化
した音声波形Sp(n)は原音声波形S(n)と品質
的に変りない、よつてフイルタ係数h(m)は伝
送する必要がなく、位相等化音声Sp(n)を再生
すればよい。特に残差波形e(n)を位相等化し
た残差波形ep(n)はエネルギーが集中するため、
その部分により多くの情報を与えるように適応的
に符号化することにより少ないビツト数で高品質
の伝送が可能となる。符号化部42での符号化の
方法としては、種々の方法が適用できる。ここで
は、位相等化音声波形に適した符号化法として3
つの実施例を示す。 可変レート木符号化を用いる方法 可変レート木符号化法は音声波形を線形予測分
析して得られる予測残差波形の時間方向での振幅
変化に応じて、情報量を適応的に制御することを
特徴とした符号化方式である。第6図に、この発
明による位相等化処理と可変レート木符号化を組
み合せた符号化方式の実施例を示す。入力端子1
1から入力される音声波形S(n)に対し、線形
予測分析部21で線形予測分析を行なつて予測係
数akを算出し、逆フイルタ部22で音声波形S
(n)の予測残差波形e(n)を求める。フイルタ
係数決定部23では第3図について述べたように
して残差波形e(n)の短時間位相を等化する位
相等化フイルタの係数h(m,n)を算出し、こ
れを位相等化フイルタ部38のフイルタ係数とし
て設定する。位相等化フイルタ部38で入力音声
波形S(n)を位相等化処理し、その位相等化音
声波形Sp(n)を端子39へ出力する。 一方、残差波形e(n)は位相等化フイルタ部
45で位相等化した後、部分区間設定部46にお
いて残差波形振幅の偏りに応じて時間軸を分割す
る部分区間を設定し、電力算出部47ではその設
定された各部分区間での残差波形の電力を算出す
る。部分区間の設定法としては、例えば第7図に
示すように分析窓内でのピツチ位置(nl)の区間
(ただし1サンプル点のみ)およびピツチ周期Tp
を等分割する各区間として設定する。部分区間で
の残差電力uiは次式で算出される。 ui=1/NTi 〓 n∈Tie2 p(n) ……(16) ここで、Tiはサンプル時点nが属する部分区間
を表わし、NTiは部分区間に含まれるサンプル点
の数である。ビツト割当て部48では、各部分区
間の残差電力uiから各サンプル時点に割り当てら
れる情報ビツト数R(n)を次式で算出する。 ここで、は残差波形ep(n)に対する平均ビ
ツトレート、Nsは部分区間数、wiは部分区間の
時間長比率であり、 wi=NTiNSj=1 NTj で与えられる。また、量子化ステツプ幅△(n)
はステツプ幅算出部49で残差電力uiから次式で
算出される。 △(n)=Q(R(n))√i n〓Ti (18) ここで、Q(R(n))はR(n)ビツトのガウス
性量子化器のステツプ幅である。ビツト割当て部
48とステツプ幅算出部49で算出されたビツト
数R(n)とステツプ幅△(n)は木符号生成部
51を制御する。木符号生成部51は第8図に示
すように、可変レートの木構造をもち、符号系列
C(n)={C(n−L),……,C(n−1),C
(n)}によつて定まるパス経路に沿つて、各技に
対応づけられたサンプル値q(n)を出力する。
各ノードから出る技の数は2R(n)として与えられ
る。また、各技に対応づけられるサンプル値f
(l,n)は△(n)とR(n)から次式で与えら
れる。 f(l,n)=Sgn(l)|l|+0.5/2△(n) , l=±1,±2……,±2R(n)-1 (19) ここで、Sgn(l)は、lの正負のサイン符号
を表わす。また、q(n)はパス上の技をl*とし
て、q(n)=5(l*,n)として与えられる。木
符号生成部51から出力されるサンプル値p(n)
は予測フイルタ部52へ入力され、全極形のフイ
ルタを用いて局部復号化値S^p(n)を次式で算出
する。 S^p(n)=pk=1 a(k)S^p(n−k)+q(n) ……(20) ここで、a(k)は予測係数であり、線形予測
分析部21からの出力によつて制御される。局部
復号化値S^p(n)と位相等化された音声波形Sp
(n)は減算器53において両値間の差がとられ、
符号系列最適化部54へ入力される。符号系列最
適化部54では、S^p(n)とSp(n)間の平均二乗
誤差を最小にするように、木符号のパスすなわち
符号系列C(n)={C(n−L),……C(n−1)

C(n)}を探索する。最適パスの探索手法として
は、例えばMLアルゴリズムを用いる。MLアル
ゴリズムでは第8図に示すような木符号におい
て、符号系列の候補をCn(n)={Cn(n−L),…
…,Cn(n−1),Cn(n)}(m=1,2,……
M′)として、各ノードにおける誤差の評価値d
(m,n)を、符号系列候補Cn(n)に対して与
えられるサンプル値Sp(n)と入力サンプル値Sp
(n)の時系列間の二乗誤差として次式で算出す
る。 d(m,n)=Mt=n-L {Sp(t)−S^p(t)}2 次にM′個の符号系列候補の中から評価値d
(m,n)が最小となる符号系列Cn(n)を選択
し、そのパスにおける時点n−Lでの符号Cn(n
−L)を最適な符号として決定する。n+1時点
での符号系列の候補Cn(n+1)={Cn(n+1−
L),……Cn(n),Cn(n+1)}は、d(m,n)
の値の小さい順にM個の符号系列Cn(n)を選択
した後、各符号系列にn+1時点でとり得る全て
の符号C(n+1)を追加した系列として与えら
れる。以上の処理は各時点ごとに逐次行なわれ、
時点nにおいて、時点n−Lでの最適符号C(n
−L)が出力される。なお第8図中の符号*は
null符号を示す。 この実施例における符号化方式では、残差波形
の符号C(n)とともに補助情報として線形予測
分析部21から出力される予測係数ak、部分区
間設定部46から出力される部分区間の周期Tp
と位置Td、電力算出部47から出力される部分
区間残差電力uiを多重化部55で多重化した後伝
送路43へ送出する。 受信側では多重分離部56で各情報を分離した
後、残差波形生成部57において符号系列に応じ
て残差波形の復号化値q(n)を算出し、その復
号化値q(n)を駆動音源情報として予測フイル
タ15を駆動して音声波形Sp(n)を復元して出
力端子16に出力する。 残差波形e(n)を位相等化することによりパ
ルス化、つまりエネルギを果し、その部分につい
てはビツト数を多く割当て、また木符号の枚数を
多くすることにより、小さなビツトレートで効率
的に情報を伝送することができる。 マルチパルス符号化を用いる方法 マルチパルスの基本原理はAtalによつて1982
年の音響・音声信号国際会議(Proceedinhg
ICASSPpp.614−617)において提案された。こ
の手法は、音声の予測残差波形を複数個のパルス
列で表わし、各パルスの時間的位置と強さを、こ
のマルチパルス残差波形で合成した音声波形と入
力音声波形との誤差を最小にするように決定する
方式である。この方式では音声波形そのものを直
接符号化しているが、この発明の実施例では位相
等価した後の音声波形を入力としてマルチパルス
符号化を行なう。第9図に位相等価処理とこのマ
ルチパルス符号化を融合した符号化方式の実施例
を示す。 入力端子11から入力される音声波形のサンプ
ル値S(n)に対して、線形予測分析部21で予
測係数を算出し、予測逆フイルタ部22で音声波
形S(n)の予測残差波形を求める。次に、フイ
ルタ係数決定部23では残差波形e(n)からサ
ンプル点ごとの位相等化フイルタの係数n(m,
n)およびピツチ位置nlを出力する。位相等化フ
イルタ部38のフイルタ係数はh(m,n)に設
定され、位相等化フイルタ部38に音声波形SN
を位相等化し、その出力は減算器53でマルチパ
ルス符号化値S^p(n)との差をとり、その差出力
はパルス時点算出部58とパルス振幅算出部59
へ入力される。符号化値S^p(n)は、マルチパル
ス生成部61から出力されるマルチパルス信号e^e
(n)を予測フイルタ62に通すことにより次式
で算出される。 S^p(n)=−pk=1 akS^p(n−k)+e(n) ここで、e^e(n)はパルス時点をti。パルス振
幅をmiとして次式で表わされる。 e^e(n)=δ(t−ti) パルス時点tiとパルス振幅miは、それぞれパル
ス時点算出部58とパルス振幅算出部59におい
て、波形値Sp(n)とS^p(n)との差の平均電力
Peを最小とするように決定されている。前述の
論文で示されたアルゴリスムでは、l−1個分の
tiとmiが与えられる場合、l番目のパルス位置tl
は可能な全ての時点(但し、tl≠ti(i=1……l
−1))に対して平均電力Peが最小となるパルス
振幅miを最小二乗法によつて求め、その中でPe
が最小となる時点として決定される。この手順
は、l=1より始めてl=qまで逐次行ない、全
てのパルス時点と振幅が決定される。このアルゴ
リズムは、ピツチ時点の算出に多大な処理を必要
とする。しかしこの実施例では処理量を低減する
ため、位相等化処理の中で求まるピツチ位置ni
(i=1,2……q′)を利用し、始めのq′個分の
パルス時点をti=ni(i=1,2……q′)として決
定する。 予測係数ak、ピツチ時点(位置)tiおよびピツ
チ振幅miを多重化部55で多重化して送出し、
受信側ではこれけらを多重分離器56で分離した
後、マルチパルス生成部63でマルチパルス信号
を生成し、これを予測フイルタ15に通して符号
化信号出力を端子に得る。 パルス化残差波形を用いる音声分析合成系 この実施例では、前述した位相等化処理によつ
て位相等化された予測残差波形のサンプル値時系
列において、ピツチ位置でのサンプル値を残し、
それ以外のサンプル値を零にすることにより、予
測残差波形をパルス化し、このパルス列を駆動音
源として予測フイルタを駆動することにより合成
音声を生成する。すなわち第10図に示す。入力
端子11から入力される音声波形のサンプル値S
(n)に対し、線形予測分析部21で予測係数ak
を算出後、予測逆フイルタ22によつて音声波形
Sの予測残差波形e(n)を求める。次に残差波
形e(n)からフイルタ係数決定部23において
位相等化フイルタ係数h(m,n)、有声・無声判
定値V/UVおよびピツチ位置nlを算出する。残
差波形e(n)は、位相等化フイルタ部64で位
相等化された後、パルス化処理部65において、
ピツチ位置nlでの位相等化残差波形ep(n)のサ
ンプル値をml=ep(nl)(l=1,2……L)とす
る。ここではLは分析窓内でのピツチ位置の数で
ある。サンプル値mlは、量子化ステツプ幅算出
部66から与えられる量子化ステツプ幅△を用い
て量子化器67で量子化される。多重化部55は
量子化出力C(n)、ピツチ位置nl、予測係数ak、
有声無声判定値V/UVおよび残差電力vを多重
化して送出する。多重分離部56で多重分離し、
有声部68では量子化出力C(n)を逆量子化し、
これとピツチ位置とnlからパルス列e^p(n)=Ll=1 ml
〓(n−nl)を作る。無声部69では電力がvに
等しくなる白色雑音を駆動音源とする。有声・無
声判定値V/UVに応じてスイツチ71を制御し
て有声Vで有声部68の出力を、無声UVで無声
部69の出力を予測フイルタ15へ駆動音源情報
として供給し、合成音声S^p(n)を出力端子16
に出力する。 <効果> 以上述べたように、この発明による音声信号処
理方式は予測残差波形の短時間位相特性を、その
時間的変化に応じて適応的に位相等化することに
より、残差波形振幅の時間的集中度を高める効果
を有し、それによつて音声波形のピツチ周期、ピ
ツチ位置を検出することができ、また例えばエネ
ルギーが集中していない部分を除去して時間を短
縮し、又はゼロを挿入して時間を長くして音声波
形のピツチを変更しても自然性が保持でき、更に
符号化の効率を大幅に向上させる利点をもつ。 位相等化処理のみを施こした場合の音声品質
は、7,6ビツト対数圧伸PCMと同等であり、
この処理による波形歪はほとんど知覚されない。
したがつて、位相等化された音声波形を符号化入
力としても、入力段階での品質劣下は生じていな
い。また位相等化された音声波形を正しく再生で
きれば、この位相等化された音声波形を駆動音源
信号としても高い品質の音声が得られる。 前記実施例で示した符号化法はいづれも、音声
の予測残差波形の振幅の時間的集中度が高められ
ることにより符号化効率が向上する。可変レート
木符号化では、波形振幅の偏りに応じて時間的に
情報を割り当てており、位相等化によつてその偏
りを高めることにより情報割当ての効果が大きく
なり、符号化効率が向上する。1ビツト1サンプ
ル(約10kb/s)で符号化した時、符号化音声
のSN比は19.0dBであり、位相等化処理を含めな
い場合にくらべて4.4dB向上する。また品質的に
は5.5ビツトPCM相当の品質が6.6ビツトPCM相
当の品質に向上する。7ビツトPCMが品質的に
問題ないことより、この例では16kb/s以下の
ビツトレートとしても比較的高い品質が得られ
る。 マルチパルス符号化では、位相等化処理によつ
て残差波形がパルス化されるため、よりマルチパ
ルス表現が適合し、従来の入力音声そのものを用
いる場合とくらべて少ないパルス数で残差波形が
表現できる。また、マルチパルス符号化における
パルス位置の多くは、この位相等化処理における
ピツチ位置と一致するため、このピツチ位置の情
報を利用することによりマルチパルス符号化での
パルス位置の決定処理を簡単化することができ
る。パルス数を20(1ビツト1サンプル符号化に
相当し、約10kb/s)とした時のマルチパルス
符号化の性能は、直接音声入力の場合SN比で
11.3dB、位相等化音声の場合は15.0dBであり、
位相等化処理によりSN比は3.7dB向上する。ま
た、品質的には4.5ビツトPCM相当が位相等化処
理により、6ビツトPCM相当に改善される。従
来はビツトレートが16kb/s以下になると音声
品質が急激に劣化するが、このマルチパルス符号
化を適用する場合もビツトレートが10kb/sで
も可成り良好な音声品質が得られる。 なお、位相等可フイルタ部38のフイルタ係数
としてh*(m,nl)を用い、フイルタ係数の補間
部37を省略してもよい。また上述における各部
はそれぞれ独立したハードウエア、あるいはマイ
クロプロセツサにより構成してもよく、または複
数の部分を1つのマイクロプロセツサや電子計算
機で兼用しもよい。
The delay in [Formula] has been corrected. In other words, as is clear from equation (10), h(m) obtained from equation (8) is delayed by M/2 samples from the actual one, so equation (13) is used. On the other hand, if the voiced/unvoiced determination result is unvoiced UV, the processing mode switch 29
(n) is input to the pitch position reset unit 36 to set the pitch position nl to the last sample time within the analysis window, and the filter coefficient calculation unit 26 sets the filter coefficient h * (m, nl) = 1 ( m=0)h * (m,
nl) = 0 (m≠0). The filter coefficient h(m, n) at each time point n is calculated by the filter coefficient interpolation unit 37 as a value smoothed using, for example, a first-order filter expressed by the following equation. h(m,n)=αh(m,m-1)+(1+α)h *
(m, nl) (n l-1 <n≦nl) (14) Here, α is a coefficient that controls the rate of change of the filter coefficient and is a constant that satisfies α<1. The phase equalization filter unit 38 uses the input audio waveform S(n) of the input terminal 11 and the filter coefficient interpolation unit 37
Using the filter coefficients h(m, n), a convolution operation shown by the following equation is performed, and a phase-equalized audio waveform S p (n) is output to the output terminal 39. S p (n) = Mm=0 h (m, n) S (n - m) ... (15) <Second Example> Next, the phase-equalized speech waveform S p (n) is Digital encoding will be explained. An example of the basic configuration of this encoding is shown in FIG. The audio waveform S(n) input from the input terminal 11 is subjected to phase equalization processing in the phase equalization processing section 41 having the configuration shown in FIG . The encoding unit 42 outputs this phase equalized speech waveform S p
(n) is digitally encoded and the code sequence is sent to the transmission path 43. On the receiving side, the decoding unit 44 restores the phase-equalized speech waveform S p (n) and outputs it to the output terminal 16 . In this way, encoding and decoding are performed using the phase-equalized speech waveform S p (n) instead of the speech waveform S(n). The audio waveform S p (n) obtained by phase-equalizing the audio waveform S(n) is the same in quality as the original audio waveform S(n).Therefore, there is no need to transmit the filter coefficient h(m), and the phase etc. It is only necessary to reproduce the converted speech S p (n). In particular, energy is concentrated in the residual waveform e p (n) obtained by phase equalizing the residual waveform e (n), so
By adaptively encoding the data to give more information to that part, high-quality transmission is possible with a smaller number of bits. Various methods can be applied as the encoding method in the encoding unit 42. Here, we will discuss 3 encoding methods suitable for phase-equalized speech waveforms.
An example is shown below. Method using variable rate tree encoding The variable rate tree encoding method adaptively controls the amount of information according to the amplitude change in the temporal direction of the predicted residual waveform obtained by linear predictive analysis of the speech waveform. This is a unique encoding method. FIG. 6 shows an embodiment of an encoding system that combines phase equalization processing and variable rate tree encoding according to the present invention. Input terminal 1
The linear predictive analysis unit 21 performs linear predictive analysis on the audio waveform S(n) input from 1 to calculate the prediction coefficient ak, and the inverse filter unit 22 calculates the predictive coefficient ak.
Find the predicted residual waveform e(n) of (n). The filter coefficient determination unit 23 calculates the coefficient h(m, n) of the phase equalization filter that equalizes the short-term phase of the residual waveform e(n) as described in FIG. is set as a filter coefficient of the filter unit 38. The phase equalization filter unit 38 subjects the input audio waveform S(n) to phase equalization processing, and outputs the phase-equalized audio waveform S p (n) to the terminal 39 . On the other hand, after the residual waveform e(n) is phase-equalized by the phase equalization filter section 45, the partial interval setting section 46 sets partial intervals for dividing the time axis according to the deviation of the residual waveform amplitude, and The calculation unit 47 calculates the power of the residual waveform in each of the set partial intervals. For example, as shown in Fig. 7, the partial interval can be set by setting the pitch position (nl) interval within the analysis window (however, only one sample point) and the pitch period T p
Set as each interval to be divided into equal parts. The residual power u i in the subinterval is calculated using the following formula. u i = 1/N Ti 〓 n∈Tie 2 p (n) ...(16) Here, T i represents the subinterval to which sample time n belongs, and N Ti is the number of sample points included in the subinterval. be. The bit allocation unit 48 calculates the number of information bits R(n) to be allocated to each sample time from the residual power u i of each subinterval using the following equation. Here, is the average bit rate for the residual waveform e p (n), N s is the number of subintervals, w i is the time length ratio of the subintervals, and is given by w i =N Ti / NSj=1 N Tj It will be done. Also, the quantization step width △(n)
is calculated by the step width calculating section 49 from the residual power u i using the following formula. Δ(n)=Q(R(n))√ i n 〓T i (18) Here, Q(R(n)) is the step width of the R(n)-bit Gaussian quantizer. The number of bits R(n) and the step width Δ(n) calculated by the bit allocation section 48 and the step width calculation section 49 control the tree code generation section 51. As shown in FIG. 8, the tree code generation unit 51 has a variable rate tree structure, and has a code sequence C(n)={C(n-L), . . . , C(n-1), C
(n)}, sample values q(n) associated with each technique are output along the path determined by .
The number of techniques coming out of each node is given as 2 R(n) . In addition, the sample value f associated with each technique
(l,n) is given by the following equation from Δ(n) and R(n). f(l,n)=Sgn(l)|l|+0.5/2△(n), l=±1,±2...,±2 R(n)-1 (19) Here, Sgn( l) represents the positive or negative sign of l. Furthermore, q(n) is given as q(n)=5(l * ,n), where l * is the technique on the pass. Sample value p(n) output from tree code generation unit 51
is input to the prediction filter section 52, and the local decoded value S^ p (n) is calculated using the following equation using an all-pole filter. S^ p (n) = pk=1 a(k) S^ p (n-k) + q(n) ...(20) Here, a(k) is the prediction coefficient, and the linear prediction analysis section It is controlled by the output from 21. Locally decoded value S^ p (n) and phase-equalized speech waveform S p
(n) is the difference between both values in the subtracter 53,
It is input to the code sequence optimization section 54. The code sequence optimization unit 54 calculates the path of the tree code, that is, the code sequence C( n )={C(n−L ),...C(n-1)

C(n)}. For example, an ML algorithm is used as the optimal path search method. In the ML algorithm, in a tree code as shown in Figure 8, code sequence candidates are C n (n) = {C n (n - L),...
..., C n (n-1), C n (n)} (m=1, 2, ...
M′) is the error evaluation value d at each node.
(m, n) is the sample value S p (n) given for the code sequence candidate C n (n) and the input sample value S p
The squared error between the time series of (n) is calculated using the following formula. d(m,n)= Mt=nL {S p (t)−S^ p (t)} Second , evaluate the evaluation value d from among the M′ code sequence candidates.
Select the code sequence C n (n) for which (m, n) is the minimum, and select the code sequence C n (n
-L) is determined as the optimal code. Candidate code sequence at time n+1 C n (n+1)={C n (n+1−
L),...C n (n), C n (n+1)} is d(m, n)
After selecting M code sequences C n (n) in descending order of the value of , all possible codes C (n+1) at time point n+1 are added to each code sequence to give a sequence. The above processing is performed sequentially at each point in time,
At time n, the optimal code C(n
-L) is output. Note that the symbol * in Figure 8 is
Indicates a null sign. In the encoding method in this embodiment, the prediction coefficient ak output from the linear prediction analysis unit 21 as auxiliary information together with the code C(n) of the residual waveform, and the period T p of the subinterval output from the subinterval setting unit 46
and the position T d , and the partial section residual power u i output from the power calculation section 47 are multiplexed by the multiplexing section 55 and then sent to the transmission path 43 . On the receiving side, after demultiplexing each piece of information in a demultiplexing unit 56, a residual waveform generating unit 57 calculates a decoded value q(n) of the residual waveform according to the code sequence, and the decoded value q(n) The prediction filter 15 is driven using the driving sound source information to restore the speech waveform S p (n) and output it to the output terminal 16 . By equalizing the phase of the residual waveform e(n), it is made into a pulse, that is, the energy is increased, and by allocating a large number of bits to that part and increasing the number of tree codes, it can be made efficiently at a small bit rate. Information can be transmitted. Method using multipulse coding The basic principle of multipulse was described by Atal in 1982.
International Conference on Acoustics and Speech Signals (Proceedinhg)
proposed in ICASSPpp.614-617). In this method, the predicted speech residual waveform is represented by multiple pulse trains, and the temporal position and intensity of each pulse are minimized to minimize the error between the speech waveform synthesized using this multi-pulse residual waveform and the input speech waveform. This method determines the In this method, the speech waveform itself is directly encoded, but in the embodiment of the present invention, the speech waveform after being phase-equalized is input and multipulse encoding is performed. FIG. 9 shows an embodiment of an encoding method that combines phase equalization processing and multi-pulse encoding. The linear prediction analysis unit 21 calculates a prediction coefficient for the sample value S(n) of the audio waveform input from the input terminal 11, and the prediction inverse filter unit 22 calculates the prediction residual waveform of the audio waveform S(n). demand. Next, the filter coefficient determination unit 23 uses the residual waveform e(n) to determine the phase equalization filter coefficient n(m,
n) and pitch position nl. The filter coefficient of the phase equalization filter section 38 is set to h (m, n), and the phase equalization filter section 38 inputs the audio waveform S N
is phase-equalized, and the subtracter 53 calculates the difference between the output and the multi-pulse encoded value S^ p (n).
is input to. The encoded value S^ p (n) is the multi-pulse signal e^e output from the multi-pulse generator 61
By passing (n) through the prediction filter 62, it is calculated using the following formula. S^ p (n) = - pk=1 akS^ p (n-k) + e(n) where e^e (n) is the pulse time t i . It is expressed by the following equation, where the pulse amplitude is m i . e^e(n)=δ(t-t i ) The pulse time point t i and the pulse amplitude m i are calculated as the waveform value S p (n) and S^ p in the pulse time point calculation section 58 and the pulse amplitude calculation section 59, respectively. The average power of the difference between (n)
It is determined to minimize P e . In the algorithm presented in the above-mentioned paper,
Given t i and m i , the lth pulse position tl
is all possible time points (where t l ≠t i (i=1...l
−1)), the pulse amplitude m i at which the average power P e is the minimum is determined by the least squares method, and P e
is determined as the point at which is the minimum. This procedure is performed sequentially starting from l=1 until l=q, and all pulse times and amplitudes are determined. This algorithm requires a large amount of processing to calculate the pitch point. However, in this embodiment, in order to reduce the amount of processing, the pitch position n i determined during the phase equalization process is
(i=1, 2...q'), the first q' pulse points are determined as t i =n i (i=1, 2...q'). The prediction coefficient ak, pitch time point (position) t i and pitch amplitude m i are multiplexed by a multiplexer 55 and sent out;
On the receiving side, after demultiplexing these signals using a demultiplexer 56, a multipulse generating section 63 generates a multipulse signal, which is passed through a prediction filter 15 to obtain an encoded signal output at a terminal. Speech analysis and synthesis system using pulsed residual waveform In this example, in the sample value time series of the predicted residual waveform whose phase has been equalized by the phase equalization process described above, the sample value at the pitch position is left,
By setting the other sample values to zero, the predicted residual waveform is made into a pulse, and a synthesized speech is generated by driving a prediction filter using this pulse train as a driving sound source. That is, as shown in FIG. Sample value S of the audio waveform input from the input terminal 11
(n), the linear prediction analysis unit 21 calculates the prediction coefficient ak
After calculating, the predicted residual waveform e(n) of the speech waveform S is obtained by the predicted inverse filter 22. Next, the filter coefficient determination unit 23 calculates the phase equalization filter coefficient h(m, n), the voiced/unvoiced determination value V/UV, and the pitch position n l from the residual waveform e(n). After the residual waveform e(n) is phase equalized by the phase equalization filter section 64, the residual waveform e(n) is subjected to phase equalization in the pulse processing section 65.
Let the sample value of the phase equalized residual waveform e p (n) at the pitch position n l be m l =e p (n l ) (l=1, 2...L). Here L is the number of pitch positions within the analysis window. The sample value m l is quantized by a quantizer 67 using a quantization step width Δ given from a quantization step width calculating section 66 . The multiplexing unit 55 outputs the quantized output C(n), the pitch position n l , the prediction coefficient ak,
The voiced/unvoiced judgment value V/UV and the residual power v are multiplexed and sent. The demultiplexer 56 demultiplexes the
The voiced part 68 dequantizes the quantized output C(n),
From this and the pitch position and n l , the pulse train e^ p (n) = Ll=1 m l
Make 〓(n−n l ). In the silent section 69, white noise whose power is equal to v is used as a driving sound source. The switch 71 is controlled according to the voiced/unvoiced judgment value V/UV to supply the output of the voiced part 68 for voiced V and the output of the unvoiced part 69 for unvoiced UV to the prediction filter 15 as driving sound source information, and to generate synthesized speech S. ^ p (n) output terminal 16
Output to. <Effects> As described above, the audio signal processing method according to the present invention adaptively equalizes the phase of the short-time phase characteristic of the predicted residual waveform according to its temporal change, thereby improving the amplitude of the residual waveform. It has the effect of increasing the temporal concentration, thereby making it possible to detect the pitch period and pitch position of the audio waveform, and for example, to shorten the time by removing parts where energy is not concentrated, or to reduce the time to zero. Even if the pitch of the speech waveform is changed by inserting it for a longer time, the naturalness can be maintained, and the coding efficiency can be greatly improved. The audio quality when only phase equalization processing is performed is equivalent to 7.6-bit logarithmic companding PCM,
Waveform distortion due to this processing is hardly perceptible.
Therefore, even if a phase-equalized audio waveform is input to be encoded, no quality deterioration occurs at the input stage. Furthermore, if the phase-equalized audio waveform can be correctly reproduced, high-quality audio can be obtained by using the phase-equalized audio waveform as a driving sound source signal. In all of the encoding methods shown in the above embodiments, the encoding efficiency is improved by increasing the degree of temporal concentration of the amplitude of the speech prediction residual waveform. In variable rate tree encoding, information is allocated temporally according to the deviation of the waveform amplitude, and by increasing the deviation through phase equalization, the effect of information allocation becomes larger and the coding efficiency improves. When encoded with 1 bit and 1 sample (approximately 10 kb/s), the SN ratio of encoded speech is 19.0 dB, which is 4.4 dB better than when phase equalization processing is not included. In terms of quality, the quality equivalent to 5.5-bit PCM is improved to the quality equivalent to 6.6-bit PCM. Since 7-bit PCM has no quality problems, relatively high quality can be obtained in this example even at a bit rate of 16 kb/s or less. In multi-pulse encoding, the residual waveform is converted into pulses through phase equalization processing, so the multi-pulse representation is more suitable, and the residual waveform can be generated with fewer pulses than when using the conventional input audio itself. I can express it. In addition, many of the pulse positions in multi-pulse encoding match the pitch positions in this phase equalization process, so using this pitch position information simplifies the pulse position determination process in multi-pulse encoding. can do. The performance of multi-pulse encoding when the number of pulses is 20 (equivalent to 1-bit 1-sample encoding, approximately 10 kb/s) is the SN ratio for direct audio input.
11.3dB, 15.0dB for phase equalized audio,
Phase equalization processing improves the SN ratio by 3.7dB. Furthermore, in terms of quality, the quality equivalent to 4.5-bit PCM is improved to that equivalent to 6-bit PCM by phase equalization processing. Conventionally, when the bit rate becomes 16 kb/s or less, the voice quality deteriorates rapidly, but even when this multi-pulse encoding is applied, quite good voice quality can be obtained even at a bit rate of 10 kb/s. Note that h * (m, n l ) may be used as the filter coefficient of the phase equalizable filter section 38 and the filter coefficient interpolation section 37 may be omitted. Further, each of the above-mentioned parts may be constructed by independent hardware or a microprocessor, or a plurality of parts may be combined by one microprocessor or electronic computer.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来の線形予測分析合成方式の基本構
成を示すブロツク図、第2図は従来の適応予測符
号化の基本構成を示すブロツク図、第3図はこの
発明による音声信号処理方式、特に適応的位相等
化処理方式の構成例を示すブロツク図、第4図は
ピツチ位置検出部25の内部構成を示したブロツ
ク図、第5図は位相等化処理を用いた音声符号化
の基本構成を示すブロツク図、第6図は位相等化
処理を用いる可変レート木符号化の構成例を示す
ブロツク図、第7図は部分区間の設定法に関する
説明図、第8図は可変レート木符号の構造を表わ
す説明図、第9図は位相等化処理を用いるマルチ
パルス符号化の構成例を示すブロツク図、第10
図はパルス化残差波形による音声分析合成系の構
成例を示すブロツク図である。 11……入力端子、21……線形予測分析部、
22……逆フイルタ部、24……有声・無声判定
部、25……ピツチ位置検出部、26……フイル
タ係数算出部、37……フイルタ係数補間部、3
8……位相等化フイルタ部、39……出力端子、
41……位相等化処理部、45……位相等化フイ
ルタ部、。46……部分区間算出部、47……電
力算出部、48……ビツト割り当て部、49……
ステツプ幅算出部、51……木符号生成部、52
……予測フイルタ部、53……減算器、54……
符号系列最適化部。
FIG. 1 is a block diagram showing the basic configuration of a conventional linear predictive analysis and synthesis method, FIG. 2 is a block diagram showing the basic configuration of a conventional adaptive predictive coding method, and FIG. 3 is a block diagram showing the basic configuration of a conventional adaptive predictive coding method. A block diagram showing an example of the configuration of the adaptive phase equalization processing method, FIG. 4 is a block diagram showing the internal configuration of the pitch position detection section 25, and FIG. 5 shows the basic configuration of speech encoding using phase equalization processing. 6 is a block diagram showing a configuration example of variable rate tree encoding using phase equalization processing, FIG. 7 is an explanatory diagram regarding the method of setting subintervals, and FIG. Fig. 9 is a block diagram showing a configuration example of multi-pulse encoding using phase equalization processing; Fig. 10 is an explanatory diagram showing the structure;
The figure is a block diagram showing an example of the configuration of a speech analysis and synthesis system using a pulsed residual waveform. 11...Input terminal, 21...Linear prediction analysis section,
22... Inverse filter section, 24... Voiced/unvoiced determination section, 25... Pitch position detection section, 26... Filter coefficient calculation section, 37... Filter coefficient interpolation section, 3
8... Phase equalization filter section, 39... Output terminal,
41... Phase equalization processing section, 45... Phase equalization filter section. 46... Partial interval calculation unit, 47... Power calculation unit, 48... Bit allocation unit, 49...
Step width calculation unit, 51...Tree code generation unit, 52
...Prediction filter section, 53...Subtractor, 54...
Code sequence optimization unit.

Claims (1)

【特許請求の範囲】 1 音声波形のサンプル値からそのサンプル値間
の相関を除去する予測フイルタを用いて予測残差
波形のサンプル値を求める手段と、その予測残差
波形あるいは上記音声波形が供給され、上記予測
残差波形を零位相化する位相等化フイルタと、上
記予測残差波形からその位相特性と逆の特性をも
つ位相等化フイルタ係数を決定する手段と、その
位相等化フイルタ係数により上記予測残差波形の
位相の時間的変化に応じて上記位相等化フイルタ
を適応化する手段とを具備する音声信号処理方
式。 2 入力音声信号を上記位相等化フイルタを位相
等化し、その位相等化出力をデイジタル符号化方
式を用いて符号化し、その結果をそのまま符号化
音声出力とする特許請求の範囲第1項記載の音声
信号処理方式。 3 上記デイジタル符号化方式は可変レート木符
号化方式であつて、その木符号の各ノードから出
る枝の数(ビツト数)と各技に割り当てられる木
符号の出力サンプル値とを制御するために必要な
情報を、上記位相等化処理の中で得られる予測残
差信号から抽出することを特徴とする特許請求の
範囲第2項記載の音声信号処理方式。 4 上記デイジタル符号化方式はマルチパルス符
号化方式であつて、パルス位置のいくつかを上記
位相等化処理の中で得られるピツチ位置として決
定することを特徴とする特許請求の範囲第2項記
載の音声信号処理方式。 5 上記デイジタル符号化方式は、上記位相等化
された予測残差波形のサンプル値時系列におい
て、ピツチ位置でのサンプル値のみを残しそれ以
外のサンプル値を零にしたパルス列を作る手段で
あつて、そのパルス列を有声音の駆動音源として
予測フイルタを駆動して合成音声を得ることを特
徴とする特許請求の範囲第2項記載の音声信号処
理方式。
[Scope of Claims] 1. Means for obtaining a sample value of a predicted residual waveform using a prediction filter that removes correlation between sample values of a voice waveform, and the predicted residual waveform or the voice waveform is supplied. a phase equalizing filter for reducing the phase of the predicted residual waveform to zero phase; means for determining a phase equalizing filter coefficient having a phase characteristic opposite to that of the predicted residual waveform from the predicted residual waveform; and means for adapting the phase equalization filter according to temporal changes in the phase of the predicted residual waveform. 2. The input audio signal is phase-equalized by the phase equalization filter, the phase-equalized output is encoded using a digital encoding method, and the result is directly used as an encoded audio output. Audio signal processing method. 3 The digital encoding method described above is a variable rate tree encoding method, and in order to control the number of branches (number of bits) emerging from each node of the tree code and the output sample value of the tree code assigned to each technique. 3. The audio signal processing method according to claim 2, wherein the necessary information is extracted from the prediction residual signal obtained during the phase equalization process. 4. The digital encoding system is a multi-pulse encoding system, and some of the pulse positions are determined as pitch positions obtained in the phase equalization process, as set forth in claim 2. audio signal processing method. 5. The digital encoding method is a means of creating a pulse train in which only sample values at pitch positions are left and other sample values are set to zero in the sample value time series of the phase-equalized predicted residual waveform. The audio signal processing method according to claim 2, wherein synthesized speech is obtained by driving a prediction filter using the pulse train as a driving sound source of voiced sound.
JP59053757A 1984-03-21 1984-03-21 Voice signal processing system Granted JPS60196800A (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP59053757A JPS60196800A (en) 1984-03-21 1984-03-21 Voice signal processing system
EP85103191A EP0163829B1 (en) 1984-03-21 1985-03-19 Speech signal processing system
CA000477005A CA1218745A (en) 1984-03-21 1985-03-20 Speech signal processing system
US07/255,566 US4850022A (en) 1984-03-21 1988-10-11 Speech signal processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59053757A JPS60196800A (en) 1984-03-21 1984-03-21 Voice signal processing system

Publications (2)

Publication Number Publication Date
JPS60196800A JPS60196800A (en) 1985-10-05
JPH0446440B2 true JPH0446440B2 (en) 1992-07-29

Family

ID=12951685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59053757A Granted JPS60196800A (en) 1984-03-21 1984-03-21 Voice signal processing system

Country Status (1)

Country Link
JP (1) JPS60196800A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06250694A (en) * 1993-02-25 1994-09-09 Idou Tsushin Syst Kaihatsu Kk Voice coding and decoding device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4011193A (en) * 1972-12-13 1977-03-08 General Electric Company Reinforced thermoplastic polyester compositions
US4184049A (en) * 1978-08-25 1980-01-15 Bell Telephone Laboratories, Incorporated Transform speech signal coding with pitch controlled adaptive quantizing
JPS5714643A (en) * 1980-06-30 1982-01-25 Toray Ind Inc Polyethylene terephthalate composition for molding
JPS58145994A (en) * 1982-02-24 1983-08-31 株式会社日立製作所 How to extract residual waveform

Also Published As

Publication number Publication date
JPS60196800A (en) 1985-10-05

Similar Documents

Publication Publication Date Title
CA1218745A (en) Speech signal processing system
Atal Predictive coding of speech at low bit rates
EP0673014B1 (en) Acoustic signal transform coding method and decoding method
US4716592A (en) Method and apparatus for encoding voice signals
USRE43099E1 (en) Speech coder methods and systems
CA2327041A1 (en) A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US4791670A (en) Method of and device for speech signal coding and decoding by vector quantization techniques
JP3033060B2 (en) Voice prediction encoding / decoding method
JP3396480B2 (en) Error protection for multimode speech coders
JP2001154699A (en) Hiding for frame erasure and its method
JP4281131B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
JP3531780B2 (en) Voice encoding method and decoding method
US5719993A (en) Long term predictor
JPH01261930A (en) Sound encoding/decoding system
WO2000074036A1 (en) Device for encoding/decoding voice and for voiceless encoding, decoding method, and recorded medium on which program is recorded
JPH0446440B2 (en)
JP3232701B2 (en) Audio coding method
JP2968109B2 (en) Code-excited linear prediction encoder and decoder
JPS6134697B2 (en)
JP3232728B2 (en) Audio coding method
JP3063087B2 (en) Audio encoding / decoding device, audio encoding device, and audio decoding device
JP3006790B2 (en) Voice encoding / decoding method and apparatus
JPH0481199B2 (en)
Viswanathan et al. Medium and low bit rate speech transmission
JPH03116199A (en) Voice signal encoding device

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term