JPH03102921A

JPH03102921A - 条件付き確率的励起符号化法

Info

Publication number: JPH03102921A
Application number: JP2226785A
Authority: JP
Inventors: Yair Shoham; ヤイア　ショハム
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1989-09-01
Filing date: 1990-08-30
Publication date: 1991-04-30
Anticipated expiration: 2015-07-10
Also published as: NO903641D0; NO903641L; EP0415675A2; JP3062226B2; FI97580B; CA2021514A1; DE69017801D1; FI904303A0; US5719992A; CA2021514C; KR100204740B1; EP0415675B1; KR910007291A; DE69017801T2; US5481642A; NO303475B1; EP0415675A3; FI97580C

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技歪公立本発明は情報の符号化、より詳細には、幾つかの状況に
おいて確率的要素を持つものとして表わすことができる
情報、例れば、音声の効率的な符号化に関する。

見峡坐宜量過去数年間の間に、コード励起予測（　Ｃｏｄｅ−Ｅｘ
ｃｉｔｅｄ　Ｐｒｅｄｉｃｔｉｖｅ　，　ＣＢＬＰ）符
号化が低速度、例えば、８Ｋｂ／ｓにおけるデジタル音
声通信に対する主要な技術として出現し、今日において
は、デジタル移動電話及び秘密音声通信における符号化
に対する主要候補であると見なされている。これに関し
ては、例えば、Ｂ．Ｓ．アタル（Ｂ．Ｓ．Ａｔａｌ）及
びＭ．Ｒ．シュローダー（Ｍ．Ｒ．Ｓｃｈｒｏｅｄｅｒ
）によって、Ｐｒｏｃｅｅｄｉｎ　ｓ　ＩＥＥＥ　Ｉｎ
ｔ，Ｃｏｎｆ．Ｃｏｍｍ．　，１　９　８　４年５月号
、ページ４８．１に掲載の論文『非常に低ビット速度に
おける音声信号の確率的符号化（Ｓｔｏｃｈａｓｔｉｃ
　Ｃｏｄｉｎｇ　ｏｆ　Ｓｐｅｅｃｈ　Ｓｉｇｎａｌｓ
　ａｔ　ＶｅｒｙＬｏｗ　Ｂｉｔ　Ｒａｔｅｓ）　Ｊ　
：　Ｍ．Ｒ．シュローダー（　Ｍ．Ｒ．Ｓｃｈｒｏｅｄ
ｅｒ）及びＢ．Ｓ．アタル（Ｂ．Ｓ，Ａｔａｌ）によっ
て、Ｐｒｏｃ．ＩＥＥＥ　Ｉｎｔ．Ｃｏｎｆ．ＡＳＳＰ
．．　　１　９　８　５年、ページ９３７−９４０に掲
載の論文『コード励起線型予測（Ｃｏｄｅ−Ｅｘｃｉｔ
ｅｄ　Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｖｅ　，　ＣＥ
ＬＰ）　：非常に低ビット速度における高品質音声（　
｝ＩｉｇｈＱｕａｌｉｔｙ　Ｓｐｅｅｃｈ　ａｒ　Ｖｅ
ｒｙ　ｒｏｗ　Ｂｉｔ　Ｒａｔｅｓ）　Ｊ　；Ｐ．クル
ーン（Ｐ．Ｋｒｏｏｎ）及びε．Ｆ．デプレンテル（Ｅ
，Ｆ．Ｄｅｐｒｅｔｔｅｒｅ）によって、ＩＥＥＥ　Ｊ
，ｏｎ　Ｓｅｔ，Ａｒｅａ　ｉｎ　Ｃｏｍｍ．ＳＡＣ−
６（２）　、１　９　８　８年２月号、ページ３５３−
３６３に掲載の論文ｒあるクラスの４．８から１６Ｋｂ
／ｓの間の速度における高品質音声符号化のための分析
一合或予測コーダー（ＡＣｌａｓｓ　ｏｆ　Ａｎａｌｙ
ｓｉｓ−ｂｙ−Ｓｙｎｔｈｅｓｉｓ　Ｐｒｅｄｉｃｔｉ
ｖｅＣｏｄｅｒｓ　ｆｏｒ　Ｈｉｇｈ−Ｑｕａｌｉｔｙ
　Ｓｐｅｅｃｈ　Ｃｏｄｉｎｇ　ａｔ　ＲａｔｅＢｅｔ
ｗｅｅｎ　４．８　ａｎｄ　１６Ｋｂ／ｓ）　Ｊ　；　
Ｐ．クルーン（　Ｐ．Ｋｒｏｏｎ）及びＢ．Ｓ．アタル
（Ｂ．Ｓ．Ａｔａｌ）によって、Ｐｒｏｃ．ＩＥＥｆ！
　Ｉｎｔ．Ｃｏｎｆ．ＡＳＳＰ．．　　１　９　８　７
年、ページ１６５０−１６５４に掲載の論文’　４．　
８　Ｋｂ／　ｓＣＥＬＰコーダーに対する電子化手順（
ロｕａｎｔｉｚａｔｉｏｎＰｒｏｃｅｄｕｒｅｓ　ｆｏ
ｒ　４．８　Ｋｂ／ｓ　ＣＥＬＰ　Ｃｏｄｅｒｓ）　Ｊ
　；及び１９８９年３月１７日付けで８．アタル（Ｂ．
Ａｔａｌ）らに交付され、本発明の受託者に譲渡された
合衆国特許第４，８２７，５１７号を参照すること。

ＣＥＬＰコーダーは、８Ｋｂ／ｓおいては、かなり良い
品質の音声を提供することができるが、４．　８　Ｋｂ
／　ｓにおけるこの性能は、幾つかのアプリケーション
に対しては、まだ、満足できるものではない。ＣＥＬＰ
符号化概念の特徴、つまり、線型フィルターの確率的励
起は、また、潜在的な弱点を持つ。つまり、確率的励起
は、一般的には、音声合或プロセスに寄与することなく
、また、フィルターによって完全に除去することができ
ないノイズ性或分を含む。従って、ＣＥＬＰ符号化の低
ビット特性を保持する一方において、符号化された音声
が復合されたときの再生された音声の知覚品質を改良す
ることが要求される。

発班旦黴翌本発明の一面によると、音声符号化システム内において
、線型予測フィルター（Ｉｉｎｅａｒｐｒｅｄｉｃｔｉ
ｖｅｓｆｉｌｔｅｒ　＋　ＬＰＦ）　　システムへの入
力として提供される確率的励起のレベルをこのレベルを
長期（ピソチ　ルーブ）サブシステムの性能インデック
スにリンクすることによって適応的に制約すると良いこ
とが証明される。より具体的には、励起信号のレベルに
対する利得係数が、確率的励起の寄与なしにＬＰＦコー
ダーによって達威されるエラーの低減の関数として適応
的に調節される。つまり、ピッチ　ループ及びフィルタ
ー　パラメータが人力に対する十分に良好な近似を与え
るときは、確率的励起の実際のレベルが低く規定される
。ビフチ　ループ及びＬＰＦパラメータがエラーを許容
できるレベルに低減するのに十分でないときは、確率的
励起のレベルが高く設定される。この動作は、確率的励
起のノイズ効果を低減し、合戒された音声の周期性を向
上させ、従って、コーダーの知覚品質を向上させる。

より一般的な局面においては、本発明は、（ｉ）分析及
び測定によって（少なくとも近似的に）明示的決定が可
能な第一のセットのパラメータと、（ｉｉ）全体として
のシステムあるいはプロセスに悪影響（並びに良い影響
）を持つ確率的プロセスを表わす第二のセットのパラメ
ータの組合わせとして表わすことができる他のシステム
及びプロセスに適用することができる。本発明は、従っ
て、確率的寄与を反映する組合わせの戒分の強調を、こ
の強調の軽減がシステム全体として見たときのプロセス
性能を向上するようなときは、これが持つ良い影響を犠
牲にしてでも適応的に低下させ、これにより、悪影響を
低減することを図る。

註胤星裟班本発明の符号化システムは、一例としての実施態様にお
いては従来の励起フィルター　モデル（ｅｘｃｉｔａｔ
ｉｏｎ−ｆｉｉｔｅｒ　ｍｏｄｅｌ）を採用する標準の
コードプソク励起線型予測（　Ｃｏｄｅｂｏｏｋ−Ｅｘ
ｃｉｔｅｄＬｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｖｅ　，　
ＣＥＬＰ）コーダーに基づく。

最初に、この先行技術によるシステムについて簡単に説
明する。上に引用の参考文献を含む様々な文献を見るこ
とによってこれら周知のシステムのより完全な理解を得
ることができる。

第１図において、マイクロホン１０１に加えられる音声
パターンは、ここで、音声信号に変換されるが、これは
、当業者において周知の方法にて、フィルター及びサン
ブラー１０５内において、帯域ろ波及びサンプリングさ
れる。結果としてのサンプルがアナログ／デジタル変換
器１１０によってデジタル符号に変換され、デジタル的
に符号化された音声信号ｓ　　（ｎ）が生戒される。信
号ｓ　（ｎ）は、ＬＰＧ及びピッチ予測分析器１１５内
で処理される。この処理には、符号化されたサンプルを
一連の連続する音声フレーム期間に分割する作業が含ま
れる。この説明を通じて、時間軸の原点が現フレームの
開始の所と整合し、全ての処理は、時間ウインドウ（ｎ
＝ｏ、、、、、Ｎ−１）　　（Ｎはフレーム　サイズ、
つまり、フレーム内のサンプルの数である）内において
遂行されるものと想定される。分析器１１５による処理
は、さらに、個々の一連のフレーム内の信号ｓ　（ｎ）
に対応するセットのパラメータの生或を含む。第１図に
おいて、ａ　（１）、ａ　（２）’，．，，　　ａ　（
ｐ）として示されるパラメータ信号は、その間隔の音声
パターンの短遅延相関あるいはスペクトル関連特性を表
わし、そして、パラメータ信号β（１），β（２），β
（３），及びｍは、その音声パターンの長遅延相関ある
いはピッチ関連特性を示す。このタイプのコーダーにお
いては、音声信号フレームあるいはブロフクは、典型的
には、５マイクロ秒、つまり、４０サンプルの継続期間
を持つ。このようなブロックに対しては、確率的コード
　メモリー１２０は、個々が一連の４０個のランダム数
から戒る１０２４個のランダム　ホワイト　ガウスコー
ド語シーケンスを含む。個々のコード語は、ろ波の前に
、スケーラ−１２５内においてこの５ミリ秒ブロックに
対して一定である係数γにてスケーリングされる。音声
適応化は反復フィルター１３５及び１４５内において遂
行される。

フィルター１３５は、大きなメモリー（２から１５ミリ
秒）を持つ予測器を使用して合或音声信号内に音声周期
性を導入し、フィルター１４５は、短いメモリー（２ξ
り秒以下）を使用してスペクトル包洛線を導入する。こ
のようなフィルターは、Ｂ．Ｓ．アタル（Ｂ，Ｓ．Ａｔ
ａｌ）によって、Ｉ　ＥＥＥ　トランザクション　オン
　コミニケーション（　ＩＥＥＥＴｒａｎｓａｃｔｉｏ
ｎ　ｏｎ　Ｃｏａｕｇｕｎｉｃａｔｉｏｎｓ）、Ｖｏｌ
．　Ｃ　Ｏ　Ｓ３０、ベージ６００−６１４．１９８２
年４月号に発表の論文『低ビット速度での音声の予測符
号化（　Ｐｒｅｄｉｃｔｉｖｅ　Ｃｏｄｉｎｇ　ｏｆ　
Ｓｐｅｅｃｈ　ａｔ　Ｌｏｗ　ＢｉｔＲａｔｅｓ）　Ｊ
において説明されている。ディファレンサ−１５０に加
えられた元の音声信号ｓ　　（ｎ）とフィルター１４５
から加えられた合或音声信号／＼ｓ　　（ｎ）との間の差を表わすエラーがさらに、線型
フィルター１５５によって、これらエラーが知覚的にあ
まり重要でないときは、それら周波数或分を減衰し、こ
れらエラーが知覚的に重要な場合はそれら周波数威分を
増幅するように処理される。

最少平均２乗主観エラー信号Ｅ　（ｋ）を生或するメモ
リー１２０からの確率的コード信号とこれに対応する最
適スケール係数Ｔは、メモリー１２０内の１０２４個の
コード語シーケンスの全てがピーク　ピッカー１７０に
よって処理された後にはじめて選択される。

これらパラメータ、並びにＬＰＧ分析器出力は、次に、
最終的な再生のために復合器に送られる。

このような先行技術による復合器が第２図に示される。

図面からわかるように、励起パラメータＫ１１及びスケ
ール係数γによって励起シーケンスがＬＰＧフィルター
に加えられるが、このフィルターのパラメータはフレー
ム毎に符号器によって供給される。このフィルタリング
の出力は、要求される再生信号を提供する。

本発明を使用することによって得られる向上の背景をよ
り良く理解するために、上に概説されたＣＢＬＰプロセ
スについてより詳細に分析を行なう。より具体的には、
ｓ　　（ｎ）が極ゼロ　ノイズ重み付け線型フィルター
によってＸ　（２）　＝Ｓ　（ｚ）　Ａ　（ｚ｝　／Ａ
゜（ｚ）を得るためにろ波される。つまり、Ｘ（ｚ）（
時間領域におけるｘ　（ｎ）　）は符号化プロセスにお
いて使用される目標信号である。Ａ　（ｚ）は、現フレ
ームに対応する標準ＬＰＧ多項式であり、係数ａ＝　＋
　　”＝０＋　，−　．＋Ｍ　（ａｏ　＝１．０）を持
つ。Ａ゜（Ｚ　）は、Ａ　（ｚ）からゼロを２一平面内
の原点に向けてシフトすることによって、つまり、０＜
ｒ＜１　　（典型的な値：＜　＝　０．　８　）を使用
することによって得られる修正された多項式である。こ
の事前フィルタリング動作は、符号化された音声スペク
トルの谷内の量子化ノイズを低下させ、コーダーの知覚
性能を向上させる。このような事前フィルタリングにつ
いては、ＩＥＥＥＩ−ランス．　Ａ　Ｓ　Ｓ　Ｐ　（　
ＩＥＥＥ　Ｔｒａｎｓ．ＡＳＳＰ）　．　Ｖｏｌ．ＡＳ
ＳＰ−２．　ｆｌｈ３．　１　９　７　９年６月号に掲
載のＢ．Ｓ．アトル（Ｂ．Ｓ．Ａｔａｌ）らによって掲
載の論文『音声信号の予測符号化及び主観的エラー基準
（Ｐｒｅｄｉｃｔｉｖｅ　Ｃｏｄｉｎｇ　ｏｆ　Ｓｐｅ
ｅｃｈ　ａｎｄＳｕｂｊｅｃｔｉｖｅ　Ｅｒｒｏｒ　Ｃ
ｒｉｔｅｉａ）　Ｊにおいて説明されている。

ＬＰＧフィルターＡ　（Ｚ）は、標準の自己相関法ＬＰ
Ｇ分析によって得られる全ポール　フィルターの量子化
バージョンであると見なされる。しＣ分析器内において
遂行されるＬＰＧ分析及び量子化プロセスは、ＣＥＬＰ
アルゴリズムの他の部分とは独立される。これに関して
は、上に引用の文献及びＡ．Ｖオペンハイマ−（Ａ．Ｖ
．Ｏｐｐｅｎｈｅｉ＋＋＋ｅｒ）、Ｅｄ．によって１９
７８年にプレンティス　ホール（Ｐｒｅｎｔｉｃｅ−Ｈ
ａｌｌ）社、ニュージャーシー、エンジェルウッド　ク
リフ所在、から出版された著書『デジタル信号処理のア
プリケーション（Ａｐｐｌｆｃａｔｔｏｎ　ｏｆ　Ｄｉ
ｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ）』
を参照すること。

コーダーは、通常、平均２乗誤差（ｍｅａｎ　ｓｑｕａ
ｒｅｅｒｒｏｒ　＋　Ｍ　Ｓ　Ｅ）の点からできる限り
目標信号ｘ　（ｎ）に近い信号ｙ　（ｎ）を合或するこ
とを試みる。この合成アルゴリズムは以下の単純な式に
基づく。

Σａ／，　ｙ（ｎ−ｉ）　＝　ｒ（ｎ）トＱ（１）バｎ）＝ロｒ’（ｎ，Ｐ）　＋　ｇｃ（ｎ）（２） β及びＰは、それぞれいわゆるピッチ　タップ及びピン
チ　ラッグである。ｇは励起利得であり、ｃ　（ｎ）は
励起信号である。利得信号ｇは、これに上の説明におい
て使用されるγ記号から本発明に従ってこれに与えられ
る適応品質を反映するために変えられている．これら適
応品質については以下に詳細に説明される。個々の実体
β，ｐ，ｇ．ｃ　（ｎ）は、所定の有限テーブルからの
値を取る。

より具体的には、励起シーケンスｃ　（ｎ）に対するテ
ーブル（励起コードブック〉は、セットのＮ一次元コー
ド　ベクトルを保持する。

コーダーのタスクは、目標と合威された信号との間の距
離を最少にするようにこれらテーブルから実体の（最適
でないまでも）良好な選択を行なうことにある．テーブ
ルのサイズは、符号化信号ｙ　（ｎ）を合或するために
システムに提供できるビット数を決定する。

式（２）及び（３）は、一．Ｂ．クレイジン（Ｗ．Ｂ．
Ｋｌｅｉｊｎ）らによってＰｒｏｃ．ｒｆ！ＥＥ　Ｃｏ
ｎｆ．　Ａ　Ｓ　Ｓ　Ｐ　　１　９　８　８生、ページ
１５５−１５９に発表の論文ｒｃＥＬＰニおける改良さ
れた音声品質及び効率的ベクトル量子化（Ｉｍｐｒｏｖ
ｅｄ　Ｓｐｅｅｃｈ　Ｑｕａｌｉｔｙ　ａｎｄ　Ｅｆｆ
ｉｃｉｅｎｔＶｅｃｔｏｒ　Ｑｕａｎｔｉｚａｔｉ−ｏ
ｎ）　Ｊにおいて説明されている（周期的延長を持つ〉
一次ピッチ　ルーブを表わすことに注意する。より高次
のピッチ　ループを使用することもできるが、但し、有
限数のビットを１ピノチ　ループ以上のパラメータを伝
送するために広げることは、より高い性能を与えないこ
とが発見された。一次ビッチ　ルーブの使用は、本発明
のアプリケーションに重大な影響を与えないばかりか、
これは、本分析、動作及び計算の複雑さを少なくする。

当業者においては、幾つかの特定のアプリケーションに
おいては、より高次のビッチ　ループが使用できること
は理解できることである。

ｚ　（ｎ）（ｚ領域における（Ｚ　（ｚ）　）によって
示される実際の出力信号は、ノイズ重み付けフィルター
の逆数を使用することによって得られる。

これは、単に、Ｚ（ｚ）＝Ｒ（ｚ）（１／Ａ（ｚ））を
計算することによって達威されるが、ここで、Ｒ　（ｚ
）は、ｒ　（ｎ）の２−領域の片割れである。

一般的には、ｘ　（ｎ）とｙ　（ｎ）との間のＭＳＥ距
離を最少にすることは、入力ｓ　　（ｎ）と出力ｚ　　
（ｎ）との間のＭＳＥを最少にすることを意味しないこ
とに注意する。但し、ノイズ重み付けフィルタリングは
、ＣＥＬＰコーダーの知覚性能を大きく向上させること
が発見されている。

ＣＥＬＰ符号化における重要な問題は、様々なコードブ
ックから良好なセットのパラメータを選択する戦略であ
る。全体的な広範に渡るサーチは、原理上は可能ではあ
るが、但し、非常に複雑になる。従って、実際には、幾
つかの次善の最適手順が使用される。一般的で意味ある
戦略は、ピッチパラメータＰ及びβを励起パラメータｇ
及びｃ　（ｎ）から分離し、これら二つのグループを独
立的に選択する方法である。これは、これがシステムの
冗長（周期、ｐｅｒｉｏｄｉｃ）部分を非冗長（刷新、
ｉｎｎｏｖａｔｉｖｅ）部分から分離するためにこの問
題を扱うための“自然な”方法である。Ｐ及びβが最初
に見つけられ、次に、このような固定された選択に対し
て、最適のｇ及びｃ　（ｎ）が見つけられる。第（１）
−　（３１式に見られる合或規則の定義は、この分離を
単純な方法にて行なうことを可能にする。

システムの線型性は、（１）と（２）式とを、以下の形
式に結合することを可能にする。

ｙ（ｎ）　＝ｙｏ（ｎ）＋βｒ’（ｎ，Ｐ）”ｈ（ｎ）
＋ｇｃ（ｎ）”ｈ（ｎ）　　　　　　（４）ここで、ｙ
ｏ（ｎ）は、入力が存在しないフィルター初期状態に応
答し、ｈ　（ｎ）は、レンジ〔０，．．．Ｎ−１）にお
ける１　／Ａ’　のインパルス応答である。記号”はコ
ンポリューション動作を示す。最良のＰ及びβは、以下
によって与えられる．ジ（２０，．．．１４７）（７ビ
ット）内にある．βに対するテーブルは、典型的には、
近似レンジ（０，　　４，　．　．　．　　１．５）内
の８個の離散値（３ビット）を含む。

もっと複雑でないアプローチにおいては、Ｐ及びβが、
最初にβが最適（非量子化）値を取れるようにし、そし
て最良Ｐを見つけ、次に、最良Ｐに対応する最適βを量
子化することによって独立的に見つけられる。このケー
スにおいては、（Ｐに対する）最適問題は以下によって
解決される。

ここで、このサーチは、β及びＰに対するテーブル内の
全ての項目を通じて行なわれる．記号１１．１１は対応
する時間シーケンスのユークリット形式を示す。Ｐに対
する値は、典型的には、整数レンここで、＜．，　．＞
は、引数の内積を示す。最良ピッチＰ′″に対する最適
βは、以下によって与えられる。

この値は、３ビット　コードブフクから最も近い値に量
子化され、これによって、βが得られる。

いったんβ及びＰ“が見つけられると、コーダーは、以
下を解くことによって、結果としてのエラー信号ｄ　（
ｎ）＝ｘ　（ｎ）−ｙｏ（ｎ）一βｒ′（ｎ，Ｐ”　）
”　ｈ　（ｎ）に対する最良一致を探すことを試みる。

ここで、このサーチは、利得テーブル及び励起コードブ
ソクの全ての項目を通じて遂行される。ビッチ　ループ
に関しては、ｇ．ｃ　（ｎ）に関するサーチは、最初に
、非制約（非量子化）利得を持つ最適励起に対するサー
チを行ない、次に、この利得を量子化することによって
簡素化できる。このケースにおいては、以下のようにな
る。

そして、ｇ＊が利得テーブル内の最も近い値に量子化さ
れる。

上に説明のシステムは、ＣＥＬＰコーダーの基本バージ
ョンである。同一システムの様々な他のバージョンが文
献において提案されているが、これらは、計算の複雑さ
を、時には、コーディング品質を犠牲にして低減するた
めの様々な技術とともに使用される。これら技術の殆ど
は、本発明にも組み込むことができる。

き　　　　　−　　されたＣＥＬＰ本発明による条件付き確率的励起コード（Ｃｏｎｓｔｒ
ａｉｎｅｄ　Ｓｔｏｃｈａｓｔｉｃ　Ｅｘｃｉｔａｔｉ
ｏｎ　Ｃｏｄｅ　．ＣＳＥＣ）システムは、上に説明の
標準のＣＥＬＰとｇ及びｃ　（ｎ）選択の段階から差が
でる。ＣＳＥＣシシステムにおいては、これらパラメー
タは、励起のレベルを制約し、これを長期サブシステム
の性能に適応させるような方法にて選択される。このア
プローチの背景の概念が以下に説明される。

ＣＥＬＰ符号化アプローチは、逆フィルタリング動作Ｘ
　（ｚ）Ａ′（ｚ）（１−βｚ　−　Ｐ　）の結果とし
ての残留信号が真にランダムであり、それが持つその根
底となるソース信号に関するどのような残留情報もＸ　
（ｚ）に対する良好な推定値を再合戒するために重要で
ないという基本的な前提に基づく。換言すれば、この残
留信号は、合成プロセスにおいて（他の点では全く異な
る）類似する確率的特性を持つ他の信号と置換すること
ができる。

この想定は、この残留信号が本質的にホワイトであり、
ガウス　プロセスとして特性化できるという観察に基づ
く。

本発明によれば、我々は、我々の無視に対して支払われ
るペナルティーを“ダム（ｄｕｍｂ）　　”励起に対し
て幾つかの制約を与えることによって軽減する。これは
、音声信号とは全く無関係のノイズ状の外来信号を導入
することによる悪影響を低減するという考えによる。

全ての励起信号は、その中に“良い”及び“悪い”或分
を持つ。良い戒分は、より良い出力に寄与し、悪い戒分
は、システムにノイズを加える。

上に述べた如く、我々は、これら二つの戒分を分離する
ことができないため、我々は、全ての励起信号が“悪い
”つまり、望ましくないノイズ状の戒分が優勢であり、
従って、このような励起信号の使用は制約されるべきで
あるという悲観的な発想を採用する。

式（４）内のソースに関する新たな情報を運ぶｙ（ｎ）
の二つの戒分は、“ピッチ”信号ｐ　（ｎ）　＝βｒ”
ｈ　（ｎ）及びろ波された励起ｅ　（ｎ）　＝ｇｃ　（
ｎ）”　ｈ　（ｎ）である。ｐ　（ｎ）は、ソースの周
期性を利用しようとする試みの結果である。

この中には加算性のノイズ或分は存在せず、新たな情報
が遅延Ｐ及びスケール係数βを修正することによって導
入される。従って、これは、励起ノイズ性或分ｅ　　（
ｎ）よりも一層知覚的に魅力的であると期待される。幸
いなことに、音声（周期性）領域においては、ｐ　（ｎ
）は、優勢或分であり、これがＣＥＬＰ法の或功に関す
る重要な理由である。

Ｒ．Ｃ．ローズ（Ｒ．Ｃ．Ｒｏｓｅ）　　らによってＰ
ｒｏｃ　ＩＥＥＩＩ！ＩＣＡＳＳＰ−８６　．ページ４
５３−４５６　（１９８６年）に掲載の論文『自己励起
ボーコダー；４８００ｂｐｓにおける市外品質への代替
アプローチ（Ｔｈｅ−Ｅｘｃｉ　ｔｅｄＶｏｃｏｄｅｒ
　；　ａｎ　Ａｌｔｅｒｎａｔｅ　Ａｐｐｒｏａｃｈ　
ｔｏ　ＴｏｌｌＱｕａｌｉｔｙ　ａｔ　４８００　ｂｐ
ｓ）　Ｊにおいては、確率的励起が完全に削除できるこ
とが示唆される。自己励起ポーコーダ（Ｓｅｌｆ−Ｅｘ
ｃｉｔｅｄ　Ｖｏｃｏｄｅｒ　，　Ｓ　Ｅ　Ｖ）におい
ては、ｒ　（ｎ）の部分がＬＰＧ合或フィルターを励起
するために使用される唯一の信号である（つまり、ｇ＝
Ｏである〉。但し、このコーダーは、特に遷移領域にお
いては、初期化の後、新たな情報を説明するために刷新
励起（　ｉｎｎｏｖａｔｉｏｎｅｘｃｉ　ｔａ　ｔｉｏ
ｎ）が使用されないために性能が悪いことが知られてい
る。この問題意識のために、ＳＥνの開発者らは、二つ
の他の戒分を６自己励起（ｓｅｌｆｅｘｃｉ　ｔａｔｉ
ｏｎ）に加えた．つまり、基本ＣＥＬＰにおける正規確
率的励起及び多重パルスＬＰＣ符号化におけるインパル
ス励起がこれである。゜純粋な”　ＳＥＶは実際には使
用されたことがない。これら三つの励起或分の各々は、
上に説明の標準のＭＳＥ手順によって、全体としての励
起を知覚的に向上させる試みをすることなく最適化され
てきた。

本発明によると、ノイズ性の励起がさらに減少され、ピ
ッチ信号ｐ　（ｎ）に対して、より重い再生負担が課せ
られる。但し、ｐ　（ｎ＞は出力の再生において常に効
率的であるは言えないため、特に音声の存在しない及び
遷移領域においては効率的でないために、励起低減の量
は、ｐ　（ｎ）の効率に依存する。ｐ　（ｎ）の効率は
そのｘ　（ｎ）への接近度を反映し、様々な方法にて定
義することができる。この効率の有効な尺度は以下によ
って与えられる。

ＭＳ，が励起のレベルを制御するために使用される。前
述の如く、励起は本質的にノイズ性或分として知覚され
るため、我々は、Ｓ／Ｎ励起比を以下のように定義する
。

ここでの基本要件は、Ｓ．がある単調非減少値関数’ｒ
　（ｓｐ）より低いことである。

Ｓ６≧Ｔ（Ｓ，）（１３）本議論において、一例として使用される有効な経験関数
Ｔ（ＳＰ）が第３図に示される。これは、線型傾斜（ｄ
Ｂスケール）に続く平坦な領域から或る。ＳＰが高いと
き、つまり、出力を効率的に再生する能力があるときは
、Ｓ＠が高くされ、ｅ　（ｎ）は出力には殆ど寄与しな
い。ＳＰが下がると、ｅ　　（ｎ）に関する制約が緩め
られ、ここで、ｙ０（ｎ）が非効率となるため、これが
次第に勢いをつける．Ｔ　（Ｓ，　”）はこの関数の膝
ポイントを決定するスロープ係数α及び飽和レベルｆに
よって制御される。直感的に、この膝の横軸は、Ｓ，の
ダイナミック　レンジの中央の回りに横たわるべきであ
る。

第４図は、Ｓ，の典型的な時間進化を示すが、これは、
約１．０から１０．０ｄＢのダイナξツク　レンジを示
す。Ｓ０が高いとき、Ｓ０は、このＳＮＲの結果ノイズ
性の励起が聞こえなくなるようにする目的で２４ｄＢ以
上にされる。符号化された音声を聞くことから得られる
これらパラメータに対する一例としての値は、α＝６．
０及びｆ＝２４．０ｄＢである。

励起を制約するための手順は、後に詳細に説明されるが
、非常に単純である。つまり、システムは、現フレーム
に対するＳＰを計算し、Ｔ（．）を使用して域値を決定
し、モして式ａ濠の制約下において最良励起ｃ　（ｎ）
及び最良利得ｇを選択する。

この目的は、弐〇′５の制約下において、対応するコ・
−ドブックから最良利得及び励起ベクトルを見つけるこ
とにある。上の制約下においてＭＳＥを最少にすること
は有効なことである。

非スケール励起応答ｃ，（ｎ）＝ｃ（ｎ）”　ｈ（ｎ）
を定義することにより、この最少化問題は、従って以下
のように記述することができる（式（８））。

尚、（ｌ４）式は（１５）式に依存するものとする。

ここで、最少化レンジは、利得及び励起コードブックの
全ての項目のセットである。この問題の二次形式から固
定された励起ｃ　　（ｎ）に対して、最良利得は、最適
利得を以下の弐〇〇のように量子化することによって得
られることは明らかである。

従って、任意のｃ　（ｎ）に対して、最良利得は、式０
９の制約化において、以下によって与えられる。

此＝ａｒｍｉｎｌｌｇ−ｇ”ｌｌ　　　　　　　（１７
）８尚、（１７）式は（１５）式に依存するものとする。

このサーチ手順は、個々の励起ベクトルに対して、弐〇
力のようにして最適利得を得て、結果としての歪を記録
し、そして最も低い歪に対応するペアｇ，ｃ　（ｎ）を
選択することにある。

第５図は、簡略図にて、上に説明の一例としての音声符
号化プロセスに従う処理の幾つかの重要な局面を要約す
る。スイッチ５００は処理の二つのフェーズに対応する
二つの位置を持つ。

スイッチ５００の第一の位置１は、ピッチ　パラメータ
β及びＰに対する値のブロック５１０における決定に対
する位置に対応する．この決定に対して、ｇ＝ｏの値が
想定される。つまり、励起信号は、ゼロの振幅を持つも
のと想定される。こうして、ビソチ　ループが入力信号
がいかに良く表わすかについての測定が行われる。つま
り、ｙｏ（フィルター１／Ａの“ゼロ　メモリー　ハン
グオーバゞあるいは初期状態応答）とβｒ′（ｎ−Ｐ）
のｈ　（ｎ）との畳み込みがなされるときの寄与が式（
４）のようにして、ｇ＝０の値のときのｙ　（ｎ）を評
価するために使用される。

処理のフェーズ２において、スイッチ５００が位置２に
置かれた状態において、処理のフェーズ１から得られた
制約に基づいて、ブロック５２０においてｊ及びｇに対
する最良値が決定される．ここでは、メモリ５３０から
の励起コードがフェーズ１のオペランドとともに使用さ
れる。

ＣＳＥＣコーダーの主観的性能がＡ−Ｂ比較リスニング
　テトスによって測定される。この主観的テストにおい
ては、セットの音声セグメントがコーダーＡ及びコーダ
ーＢによって処理される。

個々のセンテンスの二つのバージョンが再生され、リス
ナーは、彼あるいは彼女の判断に従って、良く響くと思
われるコーダーを採択する。これらテストの結果は、当
分野において周知の基本ＣＥＬＰ符号化法と比較して明
らかな全体としての改良を示す．ＣＳＥＣコーダーの複雑さは、ＣＥＬＰの複雑さと、両
者のコーダーにおいて、同一のタイプ及び量のコード　
プック　サーチ計算が要求されるために、本質的に同一
である．また、ＣＥＬＰアルゴリズムに対して提案され
ている殆どの複雑さを低減するための“トリック”は、
ＣＳＥＣ法とも組合わせることができる。従って、ＣＳ
ＥＣ法は、ＣＥＬＰアルゴリズムのコストを伴なわない
改良型である。

ＣＥＬＰ復合器には、励起利得がコーダーによって供給
されるコード化されたパラメータに応答する励起利得で
あるべきだという要件以外は特別な変更を必要としない
．本発明の上の説明は、主に、周知の設計の標準ＣＥＬＰ
コーダーからの改良点について行なわれる。従って、小
さなハードウェア設計の選択及び本発明の改良されたア
ルゴリズムのプログラム実現を越えた追加の構造は要求
されない．同様に、特別なプログラム言語あるいはプロ
セッサについても示唆されない。音声及び関連する信号
の符号化技術に熟練するものは、本明細書の教示に従っ
て本発明を実現するために有効な様々なプロセッサ及び
言語になじみ深いものである。

本発明の上の説明は、音声の符号化との関連でなされた
が、デジタル信号処理分野において熟練するものは、こ
の教示の他の特定のコンテクストへの適用性を認識でき
るものである。例えば、イメージあるいは他の形式の情
報の符号化も本発明を使用して改良することができるも
のである。

【図面の簡単な説明】

第１図は先行技術によるＣＥＬＰコーダーを示す図；第２図は先行技術による復合器を示す図；第３図は本発
明の一つの実施態様において効果的に使用することがで
きる域値関数を示す図；第４図は、典型的な入力に対し
てピンチ　ルーブ　サブシステムによる符号化の効率の
重要な測定値がいかに変動するかを示す図；そして第５
図は本発明の要素を要約的に示す図である。〈主要部の符号の説明〉５００−スイッチ５１０−ピッチパラメータβおよびＰに対する値のブロ
ック５　１　５一遅延十周期的遅延の遅延のブロック５３（
Ｌ−一一励起コードメモリＦＩＧ．　３１てＳＰ）［ｃｌＢコＦＩＧ．　４ＦＩＧ．　５

Claims

【特許請求の範囲】１、ＣＥＬＰ復合器内において複合されるべき情報を符
号化するための方法において、該方法が複数の予測パラ
メータおよび励起信号を同定するためのインデックスパ
ラメータを誘導するステップを含み、改良点が復合器の
所の予測器に加えられるべき励起信号の振幅を制御する
ために適応的利得パラメータを形成するステップから成
ることを特徴とする方法。２、請求項１に記載の方法において、該利得パラメータ
が一つあるいは複数の該予測器パラメータの該情報を低
エラーにて符号化する効率と反比例することを特徴とす
る方法。３、請求項２に記載の方法において、該情報が音声であ
り、該一つあるいは複数の予測器パラメータが該ＣＥＬ
Ｐ復合器のピッチ予測パラメータであることを特徴とす
る方法。４、請求項２に記載の方法において、該情報が値のシー
ケンス、つまり、ｘ（ｎ）、ｎ＋１、２、、、、、Ｎと
して表わされ、該励起信号ｅ（ｎ）、ｎ＝１、２、、、
、、Ｎが値のシーケンスであり、これらの比Ｓｅ、つま
り：Ｓ＿ｅ＝‖ｘ（ｎ）‖／‖ｅ（ｎ）‖ が以下の関係を満たし、Ｓｅ≧Ｔ（Ｓｐ）、ここで、Ｔ（Ｓ＿ｐ）が該一つあるいは複数のパラメー
タ符号ｘ（ｎ）がいかに効率的であるかの測定値Ｓ＿ｐ
の単調非減少関数であることを特徴とする方法。５、請求項４記載の方法において、該予測パラメータが
線型予測フィルターを特性化し、ｘ（ｎ）が音声サンプ
ルであり、Ｓ＿ｐが以下によって与えられるＳ／Ｎ比の
測定値、つまり、Ｓ＿ｐ＝‖ｘ（ｎ）‖／‖ｘ（ｎ）−
ｙ＿０（ｎ）−ｐ（ｎ））‖であり、ここで、ｙ＿０（
ｎ）が励起を持たないフィルターに対する初期応答であ
り、そしてｐ（ｎ）がピッチパラメータの関数であることを特徴とする方法。６、改良されたＣＥＬＰ通信方法において、入力信号シ
ーケンスｘ（ｎ）が複数の予測パラメータ及び格納され
た複数の励起信号の一つを表わすインデックスによって
特性化され、該予測パラメータの一つあるいは複数と関
連する追加の適応的利得パラメータが該元の入力信号を
さらに特性化するために使用される該励起信号の相対振
幅を示すために生成されることを特徴とする方法。７、請求項６に記載の方法において、該適応的利得パラ
メータをＣＥＬＰ復合器内の線型予測フィルターに加え
られる励起のレベルを制御するために使用するステップ
がさらに含まれることを特徴とする方法。８、請求項６に記載の方法において、該利得パラメータ
が該予測パラメータが該入力信号を低エラーにて表わす
のに効率的であるときは相対的に小さく、該予測パラメ
ータが該入力信号を低エラーにて表わすのにあまり効率
的でないときは比較的大きくされることを特徴とする方
法。