JPH0497199A

JPH0497199A - 音声符号化方式

Info

Publication number: JPH0497199A
Application number: JP2209337A
Authority: JP
Inventors: Kimio Miseki; 公生三関; Masami Akamine; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1990-08-09
Filing date: 1990-08-09
Publication date: 1992-03-30
Anticipated expiration: 2015-07-17
Also published as: JP3065638B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）この発明は音声信号等を高能率に圧縮する音声符号化方
式に係り、特に低ビットの伝送レートにおける音声符号
化方式に関する。

（従来の技術）音声信号を低ビットの伝送レートで伝送する場合におい
て、例えば１ｏｋｂ／ｓ程度以下の伝送情報量で符号化
する効果的な方法として、マルチモードＣＥＬＰ（Ｃｏ
ｄｅ　Ｅｘｃｉｔｅｄ　Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔ
ｉｏｎ）符号化方式が知られている。この詳細は１９８
９年のグタスゴーで行われたＩＣＡＳＳＰの論文（第１
の論文）　　ｒＭｕｌｔｉｗｏｄｅ　ｃｏｄｉｎｇ：　
Ａｐｐｌｉｃａｔｉｏｎ　ｔｏ　ＣＥＬＰＴｏｍｏｈｉ
ｋｏ　Ｔａｎｉｇｕｃｈｉ、　Ｓ　ｈｉｇｅｙｕｋｉ　
Ｕｎａｇａｎ＋ｉ　ａｎｄＲｏｂｅｒｔ　Ｍ、　Ｇｒａ
ｙＪに記載されている。この内容を簡単に説明する。第
６図はそれぞれ前記論文に記載されたマルチモード符号
化の原理を説明する図、第７図はマルチモードＣＥＬＰ
符号化器の処理を示すブロック図である。

第６図において、符号側は、ｍ個の符号化器５１０．５
２０，５３０　　（符号化器＃１〜符号化器ｔｆｍ）を
備え、各符号化器は予め駆動信号パラメータとスペクト
ルパラメータに対して異なるビット割りあてを与えるよ
うに設定されている。

各符号化器はフレーム単位で評価と最適符号化器の決定
部５５０で人力音声信号を並列的に処理し、入力音声信
号を用いて、各符号化器の与える合成音声信号（複合音
声信号）の品質を評価し、セレクタ５４０で最適な符号
化器のインテ・ソクスｎ（ｎは１，２．・・・ｍのうち
のいずれか）を用いて、伝送する駆動信号パラメータ及
びスペクトルパラメータを選択し伝送すると共に、イン
デックスｎの情報も複合側に伝送する。複合側では、符
号化器のインデックスｎを基に、符号化器１ｔｎに対応
する複合化器５６０（複合化器＃ｎ）を用いることによ
り合成音声信号を出力する。

以上が前記論文で示されたマルチモード符号化の概要で
ある。このマルチモード符号化の考えをＣＥＬＰ方式に
応用したものか第７図に示されるマルチモードＣＥＬＰ
符号化器である。

ＣＥＬＰ方式は、駆動信号のベクトル量子化を合成音の
レベルで行う音声符号化方式であり、公知な技術である
。又、ＣＥＬＰ方式についての詳細はｒＭ、Ｒ，５ｃｈ
ｒｏｅｄｅｒ　ａｎｄ　Ｂ、Ｓ、　Ａｔａｌ、　”Ｃｏ
ｄｅｅｘｃｉｔｅｄｌｉｎｅａｒ　　ｐｒｅｄｉｃｔｉ
ｏｎ　　ＣＥＬＰ）：　　Ｈｉｇｈ　　ｑｕａｌｉｔｙ
　　５ｐｅｅｃｈａｔ　ｖｅｒｙ　ｌｏｗ　ｂｉｔ　ｒ
ａｔｅｓ、２　Ｐｒｏｃ、　ＩｃＡｓ５Ｐ　８５．　ｐ
ｐ。

９３７−９４０　Ｊに記載されている。

第７図のマルチモード符号化方式は、上記のマルチモー
ド符号化方式を２つのモードという最も簡単な形でＣＥ
ＬＰに適用したものである。すなわちＡモードは、従来
の公知なＣＥＬＰ方式で、駆動信号ノくラメータ、スペ
クトルパラメータ（ＬＰＧ）ぐラメータ）を伝送し、さ
らに１ビ・ントのモード情報をフレーム毎に伝送する。

一方、Ｂモードはスペクトルパラメータを伝送せずに、
前のフレームと同じスペクトルノくラメツを用いること
で、駆動信号パラメータに割りあてる量子化ビット数を
増加させた構成となっている。各フレームにおいて、Ａ
／Ｂのモード決定は、それぞれのモードの合成音声信号
の品質評価（ＳＮＲ等を用いる）に基づいて行われ、伝
送情報の割りあては２つのモード間のスイッチングによ
りダイナミックにコントロールされる。第７図において
、ＡモードではＬＰＣ分析部１００は入力音声信号から
スペクトルパラメータ（ＬＰＧパラメータ）を摘出し、
切り換え端子Ａ及び短時間合成フィルタ１１０に出力す
る。長時間合成フィルタ１５０のノくラメータ及びコー
ドブック（小）１７０から選択されるベクトルの波形（
コードブック内のベクトルに付されるインデックス＋符
号）及びゲインは入力音声と短時間合成フィルタ１１０
（合成フィルタ）で合成された合成信号との誤差信号を
、重みフィルタ１２０で重み付けした重み付き誤差信号
の電力が最小化するよう閉ループ的に求める。

一方、Ｂモードでは、スペクトルパラメータメモリ２４
０がＡモードと決定された場合のみ端子Ａに接続されス
ペクトルパラメータを更新する構成となっており、スペ
クトルパラメータメモリ２４０に蓄積されるスペクトル
パラメータはＢモードである間は更新されずに同じもの
が使用される。長時間合成フィルタ１６０のパラメータ
及びコードブック（大）１８０の波形及びゲインはＡモ
ードで行ったのと同様の方法で決定される。モード決定
部２３０はＡモード、Ｂモードで計算された各モードの
誤差電力の最小値を入力し、誤差電力の小さい方のモー
ドを決定されたモードとして出力する。

以上か第７図のマルチモードＣＥＬＰ方式（従来方式）
の説明である。

この方式は、従来のＣＥＬＰ方式に比べて４．８ｋｂｉ
ｔ／Ｓ及び８ｋｂｉｔ／ｓの伝送レートにおいて、約２
ｄＢのセグメンタルＳＮＲの改善かあることが上記第１
の論文でも示されている。

この音声符号化方式は、入力信号に応してＡモードＢモ
ードと切りかわることにより駆動信号とスペクトルパラ
メータのビット割り当てがフレム毎に可変であった。

そしてフレームを一定の符号量で伝送する際、Ａモート
ではスペクトルパラメータへのビットの割りあてが多く
なり、駆動信号パラメータにはあまりビットを割りあて
ることかできない。このため、Ａモードでは従来のＣＥ
ＬＰ方式と同一であり、Ｂモードが使われる音声の区間
では前のフレームと同じスペクトルパラメータを用いる
ことにより駆動符号信号パラメータにより多くの量子化
ビットを割りあてることができる。よって、Ｂモートで
はＣＥＬＰ方式における音声品質の改善がなされる。

一方、Ｂモードは現フレームのスペクトルパラメータの
代りに前フレームのスペクトルパラメタを使用できるよ
うな音声区間、すなわち、時間的にスペクトルの変化の
少ないような母音の区間で選択されやすいことは明白で
ある。

ところがこのような音声区間は一般に駆動信号の周期的
くり返しによる冗長度も高いため、通常のＣＥＬＰ方式
でも高いＳＮ比の合成音声が得られる。

このような音声区間にＢモードの符号化を行うと、ＣＥ
ＬＰ方式よりもさらに高いＳＮ比の合成音声が得られる
ことが期待されるが聴感的にはある程度高いＳＮ比をク
リアしている音声の違いはわかりにくい。

また、母音以外のスペクトルの変化の大きな音声区間は
Ａモード（通常のＣＥＬＰ方式）が選択されやすいので
、聴感的には通常のＣＥＬＰ方式による音声品質の劣化
は改善されないという問題点があった。

（発明が解決しようとする課題）上述したように、従来の音声符号化方式は、現フレーム
のスペクトルパラメータを使うモードと、前フレームの
スペクトルパラメータを使うモードとの２つのモードの
切り換えにより、駆動信号パラメータとスペクトルパラ
メータのビット割りあてがフレーム毎に可変であるが、
スペクトルの時間的変化の大きな子音等の音声区間では
前フレームのスペクトルパラメータを使用するモードは
使用されにくくなるため、低レートでは結局、従来の音
声符号化方式であるＣＥＬＰ方式における非定常区間の
音声品質の劣化は改善されないという問題点がある。

本発明は、このような問題点を解決するためになされた
ものであり、その目的は、低ビットの伝送レートで高品
質の合成音声を得ることのできる音声符号化方式を提供
することである。

［発明の構成］（課題を解決するための手段）上述した目的を達成するため、本発明の音声符号化方式
は、極フィルタ及び零フィルタからなる合成フィルタを
駆動信号で駆動して合成音声信号を得る音声符号化方式
において、前記零フィルタの係数情報を格納する手段を
有し、前記係数情報を用いて前記合成音声信号を得るこ
とを特徴とするものである。

（作　用）上述した構成を有する本発明の音声符号化方式によれば
、極フィルタ及び零フィルタからなる合成フィルタのう
ち、該零フィルタの係数情報を格納する手段を有し、こ
の係数情報を用いて合成音声信号を得るので、スペクト
ルの変化か大きな子音等の音声区間でも、該区間の音声
にあったフィルタを選択するができる。よって高品質で
安定した合成音声を得ることかできる。

（実施例）以下、図面を参照して本発明の符号化方式について詳細
に述べる。

第１図、第２図は本発明の音声符号化方式を行なうため
のブロック図である。第１図において入力音声信号はＬ
ＰＣ分析部１００により線形予測とピッチ検出あ行なわ
れ、これを短時間合成フィルタ１１０及び長時間合成フ
ィルタ１５０に出力する。そしてコードブックＡ１７５
から選択されるベクトルの波形（該コードブックＡ内の
ベクトルに付されるインデックス＋符号）及びゲインが
乗算回路１９０を介して長時間合成フィルタ１５０に入
力される。長時間合成フィルタ１５０では、入力音声信
号のピッチの周期性を除去する。これを短時間合成フィ
ルタ（以下合成フィルタという）１１０に入力すると、
前記ＬＰＣ分析部１００の線形予測による予測パラメー
タ（合成フィルタ（極フィルタ）１１０の係数情報）か
ら合成音声信号を生成する。ここで本発明によれば、合
成フィルタを極零形フィルタで構成するので、零フィル
タ１１５を有する。モして零フィルタ１１５はコートブ
ック８１７６に零フィルタの係数情報を有している。よ
って零フィルタ　１１５及び極フィルタからなる合成フ
ィルタ　＋１３から出力される合成音声信号と前記入力
信号との誤差信号に対して、重みフィルタ１２０て重み
付けした重み付は誤差信号の電力を、前記コードブクＡ
１７５及びコードブックＢ１７６内の係数を閉ループ的
に変化させる。そして歪み比較器２１０はこれら重み付
けした誤差か最小となると、該最小となる時のコートブ
ックＡ１７５内の係数のインデックス及びコードブック
Ｂ１７６内の係数のインデックスを入力音声信号に対応
する符号化信号として出力する。なお、第１図の零フィ
ルタ１１５に対応する第２図のＢ（Ｚ）かＢ（Ｚ）−１
の場合、零フィルタの係数の情報はない。ここで固定レ
ートで伝送を行なう際、伝送できる駆動信号パラメータ
及び零フィルタのパラメータは決まってしまう。しかし
、定の符号量であればこれらに対するビットの割りあて
は任意でもかまわない。したがって上述したようにＢ（
Ｚ）−１の場合には零フィルタのパラメータは送る必要
かなく、駆動信号パラメータにより多くのビットを割り
あてることかできる。反対にＢ（Ｚ）−１の場合は、零
フィルタの係数も伝送しなければならないので、駆動信
号パラメータのビット割りあては少なくなる。

次に第３図は第１図に示した音声符号化方式を複数用い
た方式を示したブロック図である。第３図ではＢ（Ｚ）
〜１の場合、零フィルタ１１５はコードブックＢ１７６
を有しているため、零フィルタ１１６のＢ（Ｚ）−１の
場合における駆動信号パラメータのコードブック１８０
より小さくなってしまう。

さらに第４図は本発明の一実施例に係る符号化方式を符
号化装置に適用した場合のブロック図を示す。

第４図において、入力端子１ＧからＡ／Ｄ変換された人
力音声信号の系列か入力される。フレームバッファ１１
は入力音声信号を１フレ一ム分蓄積する回路である。第
４図の各ブロックはフレーム単位又はフレームを複数個
に分割したサブフレーム単位に以下の処理を行う′。

予／ＩＩＩＪハラメータ計算回路１２は、予測パラメー
タを公知の方法を用いて計算する。予測フィルタが第５
図に示すような長時間予測フィルタ４１と短時間予測フ
ィルタ４２を縦続持続して構成される場合、予測パラメ
ータ計算回路１２はピッチ周期ピッチ予測係数および線
形予測係数（αパラメータまたはにパラメータ：総して
ＬＰＣパラメータと称す）を自己相関法や共分散法等の
公知の方法で計算する。

計算法については、例えば（古井貞照著「ディジタル音
声処理Ｊ　１９Ｂ５年東海大学比版会発行）に記述され
ている。計算された予測パラメータは、予測パラメータ
符号化回路１３へ入力される。予測パラメータ符号化回
路１３は、予測パラメータを予め定められた量子化ビッ
ト数に基づいて符号化し、この符号をマルチプレクサ２
５に出力すると共に、ゲイン計算回路１５、合成フィル
タ１８、重みフィルタ２０へそれぞれ出力する。

ゲイン計算回路１５は後述する零フィルタ係数コードブ
ック１４からの零フィルタの係数と、係数検索回路２４
から出力される係数更新信号と、符号化回路１３からの
予測パラメータ（極フィルタの係数情報）をもとに極零
形の合成フィルタＨ（Ｚ）を構成する。この逆フィルタ
１／Ｈ（Ｚ）を予測フィルタとして入力音声信号を予測
し、予測残差信号を作成する。次にゲイン計算回路１５
は予測残差信号の平均パワーを計算してこれをゲインと
して符号化回路１６へ出力する。前記予測残差信号の平
均パワーとしては、例えば標準偏差を用いることができ
る。

符号化回路ＩＢはゲインを予め定められた量子化ビット
数に基づいて符号化し、この符号をマルチプレクサ２５
および乗算回路１７へ出力する。零フィルタ係数コード
ブック１４は予め定められた次数と、量子化ビット数Ｍ
に対応した２Ｍ種類の零フィルタのフィルタ係数情報を
格納するものである。また、零フィルタ係数コードブッ
ク１４に格納される零フィルタＢ（Ｚ）の１つにＢ（Ｚ
）−１となるフィルタ情報を格納すれば、零フィルタを
用いない全極形の合成フィルタＨ（Ｚ）が自動的に同一
の構成で作成できる。

本実施例では、零フィルタ係数コードブック１４は、２
ト１種類の零フィルタ係数情報を格納し、その第１番の
コードベクトルを用いて作成される零フィルタＢ（Ｚ）
は、Ｂ（Ｚ）−１となるように予めコードブック１４か
作成されているものとする。

零フィルタ係数コートブック１４は、係数探索回路２４
から入力されるコード更新信号に基つき、該零フィルタ
コードブック１４に格納された零フィルタ係数（コード
ベクトル）をゲイン計算回路１５、合成フィルタ１８へ
出力すると共に、零フィルタＢ、（Ｚ）がＢ（Ｚ）−１
かＢ（Ｚ）　壓１　カッ情報ＰＺをコートブック２１へ
出力する。

コードブック２１はコードブック１４からの情報Ｐｚに
応じて予め設定される制限された数のコートベクトルを
乗算回路１７へ出力する。このときのコドベクトルの出
力は、コード探索回路２３から入力されるコード更新信
号によって制御される。コードブック２１内のコードベ
クトルの検索範囲の制限は例えば次のように決めること
かできる。

コードブックからの情報ＰＺが零フィルタＢ（Ｚ）−１
を示す情報である場合は、零フィルタ係数の情報は無い
ので、その分駆動信号に多くのビット数割りあてて、駆
動信号の形状を表すコートブック２１内のコードベクト
ルの検索範囲を広げることができる。

逆に、該情報ＰＺが零フィルタＢ（Ｚ）４１を示す情報
である場合は零フィルタ係数の情報を伝送する必要があ
るので、その分駆動信号に少ないビ・ソト数を割りあて
て、コードブック２１内のコードベクトルの検索範囲を
せばめるものとする。

乗讃回路１７は、コードブック２１から出力されるコー
ドベクトルに符号化されたゲインを乗じて駆動信号の候
補となるベクトルを生成し、合成フィルタ１８へ入力す
る。

合成フィルタ１８は零フィルタ係数コードブック１４と
符号化回路１３とより、零フィルタの係数情報および極
フィルタの係数情報（これをまとめてスペクトルパラメ
ータと呼んでいる）をそれぞれ入力し、合成フィルタＨ
（Ｚ）を構成し、乗算回路１７よりの駆動信号の候補ベ
クトルを入力信号として合成音声信号を出力する。

減算回路１９は人力音声信号と上述の合成音声信号を入
力し、その誤差信号を出力する。

重みフィルタ２０は上述の誤差信号に予測パラメタから
作成される重みを付けて出力する。重みフィルタ２０は
伝達関数かＡ（Ｚ）Ｗ（Ｚ）−（０≦γ≦１）　　　（１）Ａ　（Ｚ／γ）で表されるフィルタで、聴覚のマスキング効果を利用し
て、複合時に合成音声に含まれる符号化ノイズを聞こえ
にくくする効果があることが知られている。（１）式に
おいて、Ａ（Ｚ）は予測パラメータから作成される予測
フィルタを表している。

２乗誤差計算回路２２は、重み付けされた誤差信号の２
乗和をコードブック２１から出力されるコーベクトル毎
に計算し、その結果をコード検索回路２３へ出力すると
共に、誤差信号の２乗和を１フレ一ム分計算した値を係
数検索回路２４へ出力する。

コード検索回路２３は後述する係数検索回路２４から出
力される現在検索中の零フィルタのコード番号を入力し
、その零フィルタのコード番号ごとに各サブフレームの
２乗誤差が最小となるコードをコートブック２１から検
索し、このコードを保持する。係数検索回路２４で最終
的に零フィルタのコード番号か決定すると、この番号を
入力し保持していた駆動信号のコードのうち、零フィル
タのコド番号に対応して保持していたコードをマルチプ
レクサ２５へ出力する。

係数検索回路２４は２乗誤差計算回路２２から入力され
る各零フィルタのコード番号毎にフレーム単位で計算さ
れた誤差信号の２乗和を比較してこれが最小となる零フ
ィルタのコード番号を選択し、このコード番号をマルチ
プレクサ２５およびコード検索回路２３へ出力する。も
し検索された零フィルタ係数のコード番号が１ならば上
述したように、零フィルタは非使用であることがわかる
ので、このときは、コード検索回路２３から出力される
駆動信号のコードは零フィルタ使用時に比べてより大き
なビット数で表されている。係数検索回路２４は零フィ
ルタの使用・非使用の情報も同時にマルチプレクサ２５
へ出力する。第１表に本実施例における駆動信号とスペ
クトルパラメータとの間のビット配分の例を示す。

第１表第１表において、使用する合成フィルタは零フィルタが
Ｂ（Ｚ）−１とＢ（Ｚ）＋１の場合により、全極フィル
タと極零フィルタとに分けることができる。

今、フレームあたりのビット数をＲビットとする時、ス
ペクトルパラメータ用ビット数は極フィルタのビット数
にビットのみとなり、駆動信号要ビット数は当然Ｒ−に
ビットとなる。よってフレームあたりのビット数は常に
Ｒ一定となる。また、極零フィルタを用いた場合には、
零フィルタにもスペクトルパラメータ用ビットとしてＭ
ビットを割りふるので、残りを駆動用信号とするもので
ある。

マルチプレクサ２５は入力されるコード情報を多重化し
、端子２６より伝送路へコード情報を出力する。

このように、本発明の音声符号化によれば、入力音声信
号の音質の変化に適応して、スペクトル包絡を表すフィ
ルタと駆動信号のパラメータのビット配分がフレーム単
位で変化するだけでなく、このフィルタを極零形で表し
、零フィルタのフィルタ係数の量子化、つまりコードブ
ックの選択を、入力音声信号と合成音声信号の聴感重み
付けした誤差が最小となるように行っている。このため
、スペクトルお時間的変化が大きな音声区間に対しても
、その区間に適合したフィルタを選択できるので、合成
音声の品質を安定して向上させることができる。

なお、ここで説明した実施例は本発明の一実施

【図面の簡単な説明】

第１図　第２図は本発明の音声符号化方式を行なうため
ブロック図、第３図は複数の音声符号化方式に本発明の
音声符号化方式を用いたブロック図、第４図は本発明の
一実施例に係る音声符号化方式を符号化装置に適用した
構成を示すブロック図、第５図は第４図を用いた実施例
に記載される予測フィルタの一構成例を示すブロック図
、第６図、第７図は従来技術による符号化装置の構成を
示すブロック図である。１１０・・短時間合成フィルタ（極フィルタ）１１３・
・・合成フィルタ１１５・・・零フィルタ１７５．１７６・・・フードブック１９５・・・駆動信号発生部以上詳述したように本発明の音声符号化方式によれば、
高品質で安定した合成音声を得ることができる。

Claims

【特許請求の範囲】

（１）極フィルタ及び零フィルタからなる合成フィルタ
を駆動信号で駆動して合成音声信号を得る音声符号化方
式において、前記零フィルタの係数情報を格納する手段
を有し、前記係数情報を用いて前記合成音声信号を得る
ことを特徴とする音声符号化方式。
（２）極フィルタ及び零フィルタからなる合成フィルタ
と駆動信号で駆動して合成音声信号を得る音声符号化方
式において、前記フィルタの係数情報を格納する手段を
有し、前記係数情報を用いて合成音声信号を生成し、こ
の合成音声信号と入力音声信号とのひずみにもとづいて
前記零フィルタの係数情報の選択を行なうことを特徴と
する音声符号化方式。
（３）駆動信号パラメータと、極フィルタ及び零フィル
タからなる合成フィルタのパラメータのビット割りあて
が異なる複数種類の符号化方式から各符号化方式による
合成音声信号と入力音声信号のひずみを計算して１つの
符号化方式を選択する音声符号化方式において、前記複
数個の符号化方式のうち少なくとも１つの符号化方式は
前記零フィルタの係数情報を格納する手段を有し、前記
係数情報を用いて合成音声信号を生成し、この合成音声
信号と入力音声信号とのひずみにもとづいて前記零フィ
ルタの係数の選択を行なうことを特徴とする音声符号化
方式。
（４）前記駆動信号パラメータと前記スペクトルパラメ
ータのビット割りあてが、前記合成フィルタ中に、前記
零フィルタを用いるか用いないかに依存して、決まるこ
とを特徴とする請求項２及び３記載の音声符号化方式。
（５）前記合成フィルタ中の前記極フィルタが、各符号
化方式で共通であることを特徴とする請求項２及び３記
載の音声符号化方式。
（６）前記合成フィルタのうち、前記零フィルタのフィ
ルタ係数を入力音声信号と合成音声信号との聴感重み付
誤差に基づいて選択することを特徴とする請求項２及び
３記載の音声符号化方式。