JPH01201700A

JPH01201700A - 音声分析合成方式

Info

Publication number: JPH01201700A
Application number: JP63027136A
Authority: JP
Inventors: Makoto Akaha; 誠赤羽
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1988-02-08
Filing date: 1988-02-08
Publication date: 1989-08-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は線形予測分析を用いた音声分析合成方式に関
する。

〔発明の概要〕

この発明は、線形予測分析フィルタ例えばパーコール（
ＰＡＲＣＯＲ）分析フィルタを用いて線形予測分析して
、この分析フィルタより得た予測残差を、ゼロクロス波
化、すなわちｌサンプルを＋、−の１ビツトで表現して
低ビツトレートでデコーダに伝送し、デコーダ側ではゼ
ロクロス波の符号の反転する位置に音源強度に応じたパ
ルスを発生させ、このパルスにより線形予測合成フィル
タを駆動するようにしたもので、高品質の合成音声を得
ることができるものである。

〔従来の技術・〕

音声分析合成方式としては、多くの優れた点があること
から線形予測分析法に基づく分析合成方式が従来から、
多（用いられている。

この方式はエンコーダ側（分析側）では例えばパーコー
ル形の線形予測分析フィルタを用いて音声を線形予測分
析し、フィルタ出力として予測残差を得る。この予測残
差の相関関係（変形相関関数）は有音声の場合は基本周
期（ピッチ周期）の整数倍の時点で大きい相関を示し、
無音声の場合は顕著な相聞を示さない。

そこで、エンコーダ側では予測残差の相関関数を計算し
、有音声／無音声の決定を行なうとともにピッチ周期の
検出が行なわれ、これらの情報がデコーダ側（音声合成
側）に伝送される。

また、エンコーダ側では音源強度（パワー値）の検出が
なされ、この情報もデコーダ側に伝送される。

デコーダ側にはパルス発生器と白色雑音発生２ｇが設け
られ、エンコーダ側からの上記情報を受けて、パルス発
生器のパルス周期が伝送されて来たピッチ周期に一致せ
られる。そして、有音声に対してはこのパルス発生器よ
りのパルスが音源強度の情報によりその振幅が制御され
たものが合成フィルタに供給される。一方、無音声に対
しては白色雑音発生器よりの白色雑音が音源強度の情報
にその振幅が制御されたものが合成フィルタに供給され
る。そして、合成フィルタからは再生合成音声が得られ
る（東海大学出版会発行のディジタルテクノロジーシリ
ーズ■「ディジタル音声処理」古井貞煕著参照）。

以上のような、音源を有音声、無音声、音源強度でモデ
ル化する方式は、デコーダ側のピッチ周期のパルスが単
一であり、音質が悪く、また、有音声におけるピッチ周
期抽出の精度、演算量の問題がある。

音質を改善するためには、デコーダ側にパルス発生器を
複数個用意し、一方、エンコーダ側で、複数のパルスの
発生位置及びその振幅の情報を生成し、これをデコーダ
側に伝送するマルチパルス駆動方式が提案されている。

しかし、このマルチパルス駆動方式は、パルスの発生位
置の探索法などに問題があり、また、ピッチ周期抽出に
ついての従来の問題点については改善できない。

この問題点を改善する方式として、予測残差そのものを
エンコーダ側からデコーダ側に送り、この予測残差で、
デコーダ側の合成フィルタを駆動する°方式が考えられ
る。

〔発明が解決しようとする課題〕

ところが、この予測残差を伝送する方式の場合、高品質
の再生音声を得るためには、予測残差の量子化ビット数
を十分にとる必要があり、ビットレートが高くなってし
まうという欠点がある。例えば、量子化ビット数を４ビ
ツトとした場合、そのビットレートは３２にピット／ｓ
ｅｃ　　となってしまう。

この発明はこの点にかんがみ低ビツトレートで予測残差
を伝送でき、しかも高品質の合成音声を得ることができ
るようにすることを目的とする。

〔課題を解決するための手段〕

この発明においては、予測残差をゼロクロス波化して音
源強度情報とともにデコーダ側に伝送する。

デコーダ側では、ゼロクロス波の正、負の符号の反転す
る位置に音源強度情報に応じたピーク値のパルスを発生
させる。そして、そのパルス列を線形予測合成フィルタ
に供給する。

〔作用〕

ゼロクロス波化したものはゼロより大のとき、つまり正
のとき例えば符号「１」、小さいとき、つまり負のとき
例えば符号「０」、というように１サンプルが１ピツト
表現される。したがって、予測残差の情報は１ピツトで
伝送される。

デコーダ側では、この予測残差をゼロクロス波化したち
のそのものではなく、このゼロクロス波の符号の反転す
る位置に発生させた音源強度に応じたパルスにより合成
フィルタが駆動される。つまり、ゼロクロス波化したも
のではｍ子化歪の発生のふそれがあるが、このゼロクロ
ス波より残差信号を再構成するものであるから高品質の
再生合成音声が得られる。

〔実施例〕

第１図はこの発明による音声分析合成系のニ例のブロッ
ク図、第２図はその説明のための波形図である。

入力端子（１）を通じた入力音声（第２図への波形図参
照）はＡ／Ｄコンバータ（２）に供給されて例えば３ｋ
ｌｌｚでサンプリングされ、そのサンプリング値がデジ
タル符号値に変換される。このデジタル符号値はこの例
では８次のパーコール分析フィルタ（３）に供給される
とともにノシーコール分析自己相関器（４）に供給され
る。パーコール分析フィルタ（３）はパーコール形シテ
ィスフィルタが用いられる。

パーコール分析自己相関器（４）では、分析次数８次、
分析フレーム長２９ｍ　ｓｅｃ　として、いわゆる逐次
計算による分析演算がなされて、パーコール計数及び音
源強度（パワー）が求められる。そしてパーコール計数
ｋｍ（ｍは次数）がパラメータ量子化器（５）を介して
分析フィルタ（３）に供給される。また、パーコール計
数ｋｍ及び音源強度はパラメータ量子化器（５）におい
て量子化される。この場合、パーコー・ル計数ｋｍの量
子化ビット数Ｋｍ　は、次数ｍが大きいほど、このビッ
ト数Ｋｒｎの減少による歪の増加が少ないので次数の低
いパーコール係数ｋｍ　に多くの情報量を割り当てる不
均一ビット割当てを行なう。これにより総ビット数が同
じでも歪を小さくすることができる。ちなみにこの例の
場合、（Ｋｌ、　Ｋ２．　Ｋｓ、　Ｋｓ、　Ｋｓ、　Ｋ
ｓ、　Ｋｙ、　Ｋｍ）　＝（１６，１２，１２，８，４
，４，４，４）　　ビットとされる。

パーコール分析フィルタ（３）からは予測残差（第２図
Ｂの波形図参照）が得られ、これはゼロクロス減化回路
（６）に供給される。このゼロクロス減化回路（６）で
は残差信号がゼロクロス波化される（第２図Ｃ参照）。

すなわち、ゼロ値より大、つまり正の値は「ｌ」、ゼロ
値より小、つまり負の値は「０」で符号化され、その符
号化データ（第２図Ｃ参照）がこれより得られる。

以上がエンコーダ（音声分析側）の構成である。

ゼロクロス減化回路（６）からの符号化データは、デコ
ーダ（音声合成側）の残差信号再構成器（７）に供給さ
れる。この符号化データの伝送ビットレートは８０００
ビツト／ｓｅｃになる。

パラメータ量子化器（５）からの量子化された８次のパ
ーコール係数ｋｍ及び音源強度情報はデコーダの係数復
号器（８）に供給される。このときの伝送レートは３６
００ビツト／ｓｅｃになる。

次にデコーダ側について説明するに、残差信号再構成器
（７）は正負パルス発生器（７１）と振幅強度決定用の
ゲイン調整回路（７２）とからなる。

正負パルス発生器（７１）は、伝送されてきたゼロクロ
ス波（第２図Ｃ）の正、負の符号の反転する位置に、第
２図りに示すような正、負のパルスを発生させる。すな
わち、ゼロクロス波の立ち上がり位置には正のパルスを
、立ち下がり位置には負のパルスを発生させる。

この正負パルス発生器（７１）からの出力パルスはゲイ
ン調整回路（７２）に供給され、各パルスのピーク値が
調整される。このパルスのピーク値は、伝送されて来た
ゼロクロス波の単位時間当りのゼロクロス数と音源強度
とより決定される。すなわち、ゼロクロス数が所定値よ
り少ないときは、音源強度に比例してゼロクロス波の振
幅強度が決定される。しかし、例えば無音声のようにゼ
ロクロス数が多くなって所定値を越えるような場合には
、音源強度に比例させると振幅強度が大きすぎてしまう
。そこで、ゼロクロス数が所定値を越える場合には、音
源強度に係数ａ　（ａ＜ｌ）をかけて、音源強度を小さ
くシ、これに応じて各パルスのピーク値を決定する。

ところでこの場合、音源強度は分析フレーム長２Ｑｍ　
ｓｅｃ毎に変化するため、そのままではこの２０ｆｆｌ
　ＳｅＣの間は第３図で実線で示すように振幅強度は一
定となってしまう。これを改善してより高品質の再生合
成音声を得るには、第３図で破線で示すように分析フレ
ー２・長の区間の前後の音源強度より線形補間を行なっ
て、音源強度を求め、これに応じてパルスのピーク値を
決定するようにする。

第２図りはこのようにゲイン調整がなされて各パルスの
ピーク値が決定されたパルス列を示している。

こうして残差信号再構成器（１２）で生成された再構成
された予測残差信号としてのパルス列は、８次のパーコ
ール合成フィルタ（９）に供給される。この合成フィル
タ（９）もパーコール型ラティスフィルタが用いられる
。そして、この合成フィルタ（９）には係数復号器（８
）からの復号された８次のバーコール係数ｋｍが供給さ
れる。

合成フィルタ（９）の入力信号は、エンコーダ側のパー
コール分析フィルタ（３）からの予測残差とほぼ対応し
ているから、このパーコール合成フィルタ（９）からは
デジタル再生合成音声が得られる。そして、このデジタ
ル再生合成音声がＤ／Ａコンバータ（１０）によりアナ
ログ音声信号に戻され、出力端子（１１）には、入力音
声に近い高品質の音声信号が得られる。

なお、この発明はパーコール形分析合成法に限らず、最
尤スペクトル推定法等、その他の線形予測分析合成に適
用可能である。

〔発明の効果〕

この発明によれば、予測残差をゼロクロス減化して伝送
するようにしたので、予測残差は１ビツトで符号化でき
、低ビツトレートの音声符号化が実現できる。例えば、
第１図及び第３図の実施例では１１．６　Ｋｂｉｔ／ｓ
ｅｃ　という低ビツトレートとなる。

そして、デコーダではゼロクロス波から予測残差信号を
再構成し、この再構成した信号により合成フィルタを駆
動することにより、高品質の合成音声を得ることができ
る。

【図面の簡単な説明】

第１図はこの発明の一実施例の系統図、第２図及び第３
図はその説明のための図である。（３）はパーコール分析フィルタ、（５）はパラメータ
量子化器、（６）はゼロクロス波化回路、（７）は残差
信号再構成器、（９）はパーコール合成フィルタである
。

Claims

【特許請求の範囲】エンコーダ側では、入力音声データを線形予測分析フィ
ルタを用いて線形予測分析し、上記線形予測分析フィル
タより予測残差を得、この予測残差をゼロクロス波化し
て音源強度情報とともに伝送し、デコーダ側では、受信したゼロクロス波の符号の反転す
る位置に上記音源強度情報に応じたピーク値のパルス列
を発生させ、このパルス列を線形予測合成フィルタに供
給し、この合成フィルタより合成音声データを得るよう
にした音声分析合成方式。