JPH06208398A

JPH06208398A - 音源波形生成方法

Info

Publication number: JPH06208398A
Application number: JP5001504A
Authority: JP
Inventors: Hideo Osawa; 英男大沢
Original assignee: Japan Radio Co Ltd
Current assignee: Japan Radio Co Ltd
Priority date: 1993-01-08
Filing date: 1993-01-08
Publication date: 1994-07-26

Abstract

(57)【要約】【目的】語頭及び語尾における量子化雑音を低減し再
生音声品質を向上させる。【構成】入力音声の立ち上がり又は立ち下がり時に、
該当フレームから次フレームへの電力遷移を検出し、こ
れに相当する振幅遷移を該当フレームを構成する各音源
波形に与える。【効果】入力音声の語頭及び語尾のように振幅が立ち
上がり又は立ち下がっている時にも、良好なピッチ抽出
を行うことができ、また、量子化雑音の低減により再生
音声品質が向上する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ＣＥＬＰ（code excit
ed linear prediction：符号励振線形予測）符号化方式
における音源コードブックの音源波形生成方法に関す
る。

【０００２】

【従来の技術】例えばディジタル自動車電話に使用され
る音声ＣＯＤＥＣ等には、ディジタル音声信号の符号化
速度を、４ｋｂｐｓから８ｋｂｐｓ程度に低減すること
が要請されている。図６には、このような目的で使用さ
れる音源波形の生成方法の一例が示されている。

【０００３】この図に示される方法は、ＣＥＬＰ符号化
方式において音源コードブックで音源波形を生成する方
法方法である。図において１０で示されるのが音源コー
ドブックであり、音源コードブック１０には過去のフレ
ームにおいて音源信号として使用された信号が格納され
ている。すなわち、音源コードブック１０及び雑音コー
ドブック１２の後段に設けられゲインβ（スカラ）の係
数乗算器１４、ゲインγ（スカラ）の係数乗算器１６及
びベクトル加算を行う加算器１８から構成される線形加
算手段の出力は、現フレームにおいて音源信号として使
用されると共に、音源コードブック１０に帰還入力され
る。

【０００４】ここにいうフレームは、音源信号として使
用される音声信号を、２０ｍｓｅｃ程度の長さでフレー
ム化したものであり、サンプリング周波数として８ｋＨ
ｚを用いている場合、１フレームに属するサンプル数は
８ｋＨｚ×２０ｍｓｅｃ＝１６０サンプルとなる。フレ
ーム長は、音声信号が定常的であると見なせる長さ、す
なわちその性質に大きな変化がないと見なせる長さに設
定する必要があり、通常は、２０〜３０ｍｓｅｃ程度に
設定する。音源コードブック１０は、最も古い音源信号
を廃棄しつつ、帰還入力される新しい音源信号を逐次蓄
える（音源コードブック１０の更新）。この結果、音源
コードブック１０には、前のフレームで音源信号として
使用された信号、その前のフレームで音源信号として使
用された信号、…というように、過去のフレームの音源
信号が格納される。その際、１個のフレームは４個のサ
ブフレームに分割して取り扱われる。すなわち、音源コ
ードブック１０は、このサブフレームを単位として、す
なわち１６０／４＝４０サンプルを単位として、最も新
しいサブフレームが先頭に位置するよう、更新される。

【０００５】音源コードブック１０に格納される例えば
１６０サンプルの音声信号は、数十サンプル（上の例で
は４０サンプル）まとめられた状態で、線形加算手段に
出力される。このように信号を数十サンプルまとめたも
のを、ベクトルと呼ぶ。特に、音源コードブック１０か
ら出力されるベクトルは、音源コードベクトルと呼ばれ
る。

【０００６】最適な音源信号生成のために必要となる音
源コードベクトルは、Ａ−ｂ−Ｓ（analysis by synthe
sis ：合成による分析）法により得られる。Ａ−ｂ−Ｓ
法は、最も誤差電力の小さい信号を生成するために、実
際に合成を行い閉ループを用いてフィードバックを加え
る手法である。図６におけるＡ−ｂ−Ｓ法は、主に、音
源コードブック１０における最適ラグの決定及び雑音コ
ードブック１２における最適インデックスの決定により
実現される。

【０００７】まず、音源コードブック１０における最適
ラグの決定は、重み付け合成フィルタ２０の出力の聴覚
重み付けフィルタ２２の出力に対する誤差電力に基づ
き、音源コードブック１０においてラグを探索すること
により、行われる。音源コードブック１０と雑音コード
ブック１２の各ベクトルの探索は独立に行われる。

【０００８】前述のように、音源コードブック１０から
出力される音源コードベクトルは、係数乗算器１４及び
１６並びに加算器１８により雑音コードブック１２の出
力と線形加算された上で、音源信号として重み付け合成
フィルタ２０に入力される。音源コードベクトル探索時
は雑音コードブック１２からの入力を零とする。重み付
け合成フィルタ２０は、聴覚重み付けフィルタ２２の出
力と比較可能な態様に音源信号を変換するためのフィル
タであり、加算器１８の出力に所定の重み付けを施す。
一方、入力される音声（符号化すべき音声）は、聴覚重
み付けフィルタ２２により重み付けされる。減算器２４
は、聴覚重み付けフィルタ２２の出力に対する重み付け
合成フィルタ２０の出力の誤差電力をベクトル減算によ
り求める。減算器２４の後段に設けられている誤差電力
最小化部２６は、得られた誤差電力が最小となるよう、
音源コードブック１０における探索を実行する。誤差電
力最小化部２６は、重み付け合成フィルタ２０の出力が
聴覚重み付けフィルタ２２の出力と最も類似したベクト
ルとなるよう、あらかじめ定められている探索範囲を探
索する。誤差電力が最小となるラグは、最適ラグと呼ば
れる。

【０００９】ここに、ラグとは、音源コードブック１０
中の最も新しいサンプルから見たサンプルの古さをい
う。前述のように、音源コードブック１０には過去にお
いて音源信号として使用された信号が格納されている。
探索範囲を例えば−２０〜−１４６サンプル（音源コー
ドブック１０中の最も新しいサンプルから見て２０サン
プル前から１４６サンプル前まで）とすると、誤差電力
最小化部２６は、この探索範囲に属する任意のサンプル
を始点とする４０サンプル（１ベクトル）を順次取り出
し、探索範囲の全体に亘って、誤差電力が最小となるか
否かの探索（最適ラグの探索）を行う。始点となるサン
プルの位置をラグと呼び、誤差電力が最小となるベクト
ルのラグを最適ラグと呼ぶ。ラグは、声帯振動の周期に
対応しており、最適ラグは、入力音声が男声である場合
には長くなり、女性である場合には短くなる。探索範囲
は、符号化速度を下げる（ビットレートを下げる）とき
には、狭く設定する。

【００１０】このように探索を行うことにより得られる
最適ラグは、復号時にも使用できる。すなわち、符号化
側と復号側とで同一の手法により音源コードブック１０
を更新するようにすれば、符号化側から復号側に最適ラ
グの情報を伝送するのみで、音源コードブック１０に係
る情報を与えることができる。さらに、上述の探索範囲
の設定例では、ラグは７ビットで表現できる。

【００１１】Ａ−ｂ−Ｓ法は、図６では、このような最
適ラグ決定に加え、雑音コードブック１２における最適
インデックスの決定により実現されている。雑音コード
ブック１２は、互いに異なる数十サンプル（上述の例で
は４０サンプル＝１ベクトル）の雑音信号を所定個数
（例えば１２８個）蓄えている。このように雑音コード
ブック１２に蓄えられているベクトルを、雑音コードベ
クトルと呼ぶ。雑音コードブック１２に蓄えられている
雑音コードベクトルの個数が１２８である場合、７ビッ
トのインデックスにより、各雑音コードベクトルを特定
できる。雑音コードブック１２の内容は、符号化側と復
号側とで同一の内容とする。このようにすれば、符号化
側から復号側に最適インデックスの情報を伝送するのみ
で、雑音コードブック１２に係る情報を与えることがで
きる。

【００１２】誤差電力最小化部２６は、音源コードブッ
ク１０について前述の最適ラグ探索を実施した上で、雑
音コードブック１２について上記インデックスの最適化
を実施する。

【００１３】このようにして得られた最適ラグ及び最適
インデックスは、符号化側から復号側に伝送される。す
なわち、図６に示される符号化側の装置の出力は、誤差
電力最小化部２６によって得られる最適ラグ及び最適イ
ンデックスである。言い換えれば、ＣＥＬＰ符号化方式
では、音源コードベクトルと雑音コードベクトルの和で
重み付け合成フィルタ２０を駆動した出力により、入力
音声を表現している。このようなベクトル単位での量子
化をベクトル量子化という。

【００１４】これに加え、重み付け合成フィルタ２０の
駆動条件たる情報、すなわち各コードベクトルに乗ぜら
れるゲインβ及びγ並びに重み付け合成フィルタ２０の
各種パラメタも伝送される。伝送されるゲインβ及びγ
は、それぞれ誤差電力を用いて最適化した最適ゲインで
ある。例えばゲインγの最適値γ_optは、次の式により
求められる誤差電力Ｅ_ｉがｄＥ_ｉ／ｄγ＝０の条件を満
たすγ＝γ_optである。

【００１５】Ｅ_ｉ＝Σ｛ｐ（ｎ）−γ×ｅ_ｉ（ｎ）＊ｈ
（ｎ−ｔ）｝^２ただし、Ｅ_ｉはｉ番目の雑音コードベクトルの誤差電
力、ｅ_ｉ（ｎ）はｉ番目の雑音コードベクトル中のｎ番
目のサンプル、ｐ（ｎ）は既に計算された最適な音源ベ
クトルを重み付けして合成した信号を、聴覚重み付けさ
れた入力信号から減じた信号、ｈ（ｎ−ｔ）は重み付け
合成フィルタ２０のインパルス応答である。＊はコンボ
ルーションを、Σは４０個のサンプルについての総和
を、それぞれ示している。あるｉについて最適ゲインγ
_optを求め、この値を上式に代入すると、各ｉについて
真の誤差電力Ｅ_ｉ（ｏｐｔ）が求められる。このことか
ら明らかなように、ｉが異なると最適ゲインγ_optも異
なる。これは、ゲインβの最適値β_optについても同様
である。

【００１６】復号側では、符号化側と同様のコードブッ
クにより、伝送された情報に基づき各コードベクトルを
求め、合成フィルタを駆動して再生信号を出力する。

【００１７】なお、フレーム長又はサブフレーム長は、
音源信号の周期とは関係なく固定されている。上述のよ
うに最適ラグの探索範囲を−２０〜−１４６サンプルの
範囲に設定した場合には、例えばラグが２０サンプルで
あると、このラグを始点とする４０サンプルを取り出す
ことができない。このような場合には、誤差電力最小化
部２６は、最新の２０サンプルを２回繰り返させること
により４０サンプルを生成させ、これを線形加算及び重
み付け合成に供するようにする。また、女声のようにピ
ッチ周波数が高い音声が入力された場合、最適ラグは短
くなる。このような場合、音源信号の長さがフレーム長
に満たないラグが最適となることがある。この場合、当
該音源信号を繰り返して使用して音源信号に使用する。

【００１８】

【発明が解決しようとする課題】入力音声のレベルが定
常的な領域では、上述のような処理により好適に符号化
を行うことができるが、語頭及び語尾の領域では、当該
定常的な領域と波形は同じであるにしてもレベルが異な
る。すなわち、語頭及び語尾の領域では、入力音声に立
ち上がり又は立ち下がりが生じているため、音源コード
ブックにより生成されるも立ち上がり又は立ち下がりが
生じていると考えられる。この領域を定常的な領域と同
様に扱うと、符号化側から復号側に伝送する情報により
復号器で再生される再生信号の量子化雑音が特に語頭及
び語尾で発生し、再生音声品質の低下が生じることがあ
る。この対策としては、フレーム長又はサブフレーム長
を短くする方法が考えられるが、この場合、単位時間あ
たりのビット数が増え符号化の効率が悪くなる。

【００１９】本発明は、このような問題点を解決するこ
とを課題としてなされたものであり、ＣＥＬＰ符号化方
式により女声のように短いピッチ周期を有する入力音声
を符号化する際に、語頭及び語尾の再生音声品質を改善
することを目的とする。

【００２０】

【課題を解決するための手段】このような目的を達成す
るために、本発明は、所定のフレーム又はサブフレーム
長を有し音源コードブックにより得られる音源コードベ
クトルと雑音コードブックにより得られる雑音コードベ
クトルの一次結合を求め、重み付け合成フィルタに入力
し、その出力信号と聴覚重み付けされた入力音声とを比
較して得られる誤差電力が最小化されるよう、音源コー
ドブックの探索において最適ラグ及び最適ゲインを設定
し、設定された最適ラグ及び最適ゲインを含む情報を伝
送すると共に、最適ラグがフレーム又はサブフレーム長
より短い場合に当該最適ラグに係る音源波形を繰り返す
ことにより音源コードベクトルを生成するＡ−ｂ−Ｓ法
を用いたＣＥＬＰ符号化方式において、あるフレーム又
はサブフレームから次のフレーム又はサブフレームに亘
って入力音声のフレーム又はサブフレーム電力が立ち上
がり又は立ち下がっている場合に、音源コードブックか
ら出力される信号に含まれる音源波形の振幅を、入力音
声の立ち上がり又は立ち下がりに係る振幅遷移と同様に
遷移させることを特徴とする。

【００２１】

【作用】本発明においては、あるフレーム又はサブフレ
ームから次のフレーム又はサブフレームに亘って入力音
声のフレーム又はサブフレーム電力が立ち上がり又は立
ち下がっている場合に、音源コードブックから出力され
る信号に含まれる音源波形の振幅が、入力音声の立ち上
がり又は立ち下がりに係る振幅遷移と同様に遷移する。
従って、女声のように短いピッチ周期を有する入力音声
を符号化する際にも、その立ち上がり又は立ち下がりに
係る傾斜を音源波形に重み付けられるため、適正な音源
波形が得られ、適正なピッチ抽出が行える。また、フレ
ーム又はサブフレーム長より短いラグが最適である場合
に、立ち上がり及び立ち下がりに係るフレーム又はサブ
フレームの量子化雑音を低減できるから、入力音声の語
頭及び語尾に係るフレーム又はサブフレームの量子化雑
音が低減され、再生音声品質が改善される。

【００２２】

【実施例】以下、本発明の好適な実施例について図面に
基づき説明する。なお、図６に示される従来例と同様の
構成には同一の符号を付し説明を省略する。

【００２３】図１には、本発明の一実施例に係る方法が
ブロック図により示されている。この図に示される装置
は、図６に示される従来の装置に、さらに立ち上がり、
立ち下がり検出回路２８及び音源波形生成回路３０を付
加した構成である。また、音源コードブック１０の出力
は、直接に係数乗算器１４に入力されるのではなく、音
源波形生成回路３０を介して係数乗算器１４に入力され
る。

【００２４】立ち上がり、立ち下がり検出回路２８は、
入力音声のフレーム（又はサブフレーム）電力を演算
し、これをしきい値判別することにより入力音声の立ち
上がり及び立ち下がりを検出すると共に、立ち上がり及
び立ち下がりの傾斜を求める。音源波形生成回路３０
は、立ち上がり、立ち下がり検出回路２８により入力音
声のフレーム（又はサブフレーム）電力の及び立ち上が
り又は立ち下がりが検出された場合に、当該立ち上がり
又は立ち下がりの傾斜に応じて音源コードベクトルの振
幅を線形的に変化させる。

【００２５】いま、入力音声のフレーム（又はサブフレ
ーム）電力が立ち上がった場合を考える。前フレーム
（又はサブフレーム）までは入力音声が無音であり、現
フレーム（又はサブフレーム）、すなわち該当フレーム
（又はサブフレーム）から有音になり、さらに次フレー
ム（又はサブフレーム）の電力が図２に示されるように
該当フレーム（又はサブフレーム）に比べ増加したとす
る。

【００２６】立ち上がり、立ち下がり検出回路２８は、
この立ち上がりをしきい値判別により検出すると共に、
図３に示されるように立ち上がりの傾斜を検出する。音
源波形生成回路３０は、この傾斜に従い、図４及び図５
に示されるように該当フレーム（又はサブフレーム）内
においてその出力振幅を遷移させる。音源コードブック
１０から出力される信号のレベルは同一フレーム（又は
サブフレーム）中において一定であり、また、係数乗算
器１４のゲインβは誤差電力最小化部２６により最適設
定される。

【００２７】従って、このような処理により、フレーム
長より短いラグで入力音声が立ち上がり又は立ち下がっ
ている場合でも、その傾斜を音源波形に重み付けられる
ため、適正な音源波形が得られ、適正なピッチ抽出が行
える。また、フレーム長より短いラグが最適である場合
に、立ち上がり及び立ち下がりに係るフレームの量子化
雑音を低減できるから、入力音声の語頭及び語尾におけ
る量子化雑音の発生を防止でき、再生音声品質を改善で
きる。さらに、ＣＥＬＰ符号化方式では、通常、フレー
ム電力も伝送パラメータとして伝送しているため、本実
施例を実現するに当たって新たな伝送パラメータが必要
とされない。

【００２８】なお、この例では、ラグがフレーム長の１
／２である。この例と異なり、探索しているラグの音源
波形が、１フレームに整数個入らないときには、最後の
繰り返し波形（１波形分入っていない）のレベルは１つ
前の音源波形のレベルと同等とする。

【００２９】

【発明の効果】以上説明したように、本発明によれば、
あるフレーム又はサブフレームから次のフレーム又はサ
ブフレームに亘って入力音声のフレーム又はサブフレー
ム電力が立ち上がり又は立ち下がっている場合に、音源
コードブックから出力される信号に含まれる音源波形の
振幅を、入力音声の立ち上がり又は立ち下がりに係る振
幅遷移と同様に遷移させるようにしたため、女声のよう
に短いピッチ周期を有する入力音声を符号化する際に
も、その立ち上がり又は立ち下がりに係る傾斜を音源波
形に重み付けられ、適正な音源波形が得られ、適正なピ
ッチ抽出が行える。また、フレーム又はサブフレーム長
より短いラグが最適である場合に、立ち上がり及び立ち
下がりに係るフレーム又はサブフレームの量子化雑音を
低減できるから、入力音声の語頭及び語尾に係るフレー
ム又はサブフレームの量子化雑音が低減され、再生音声
品質が改善される。また、フレーム又はサブフレーム電
力を復号側に伝送している場合には、新たな伝送パラメ
ータは必要とされない。

【図面の簡単な説明】

【図１】本発明の一実施例に係る方法を装置のブロック
構成として示すブロック図である。

【図２】立ち上がり時の該当フレームから次フレームへ
のフレーム電力の遷移を示す図である。

【図３】この電力遷移に伴う振幅遷移を示す図である。

【図４】該当フレームにおいて音源波形に付与される振
幅レベルの傾斜を示す図である。

【図５】該当フレームに係る音源波形を示す図である。

【図６】従来例に係る方法を装置のブロック構成として
示すブロック図である。

【符号の説明】

１０音源コードブック１２雑音コードブック１４，１６係数乗算器１８加算器２０重み付け合成フィルタ２２聴覚重み付けフィルタ２４減算器２６誤差電力最小化部２８立ち上がり、立ち下がり検出回路３０音源波形生成回路

Claims

【特許請求の範囲】

【請求項１】所定のフレーム又はサブフレーム長を有
し音源コードブックにより得られる音源コードベクトル
と雑音コードブックにより得られる雑音コードベクトル
の一次結合を求め、重み付け合成フィルタに入力し、そ
の出力信号と聴覚重み付けされた入力音声とを比較して
得られる誤差電力が最小化されるよう、音源コードブッ
クの探索において最適ラグ及び最適ゲインを設定し、設
定された最適ラグ及び最適ゲインを含む情報を伝送する
と共に、最適ラグがフレーム又はサブフレーム長より短
い場合に当該最適ラグに係る音源波形を繰り返すことに
より音源コードベクトルを生成するＡ−ｂ−Ｓ法を用い
たＣＥＬＰ符号化方式において、あるフレーム又はサブフレームから次のフレーム又はサ
ブフレームに亘って入力音声のフレーム又はサブフレー
ム電力が立ち上がり又は立ち下がっている場合に、音源
コードブックから出力される信号に含まれる音源波形の
振幅を、入力音声の立ち上がり又は立ち下がりに係る振
幅遷移と同様に遷移させることを特徴とする音源波形生
成方法。