JPH03211599A

JPH03211599A - ４．８ｋｂｐｓの情報伝送速度を有する音声符号化／復号化器

Info

Publication number: JPH03211599A
Application number: JP2333475A
Authority: JP
Inventors: Forrest F-T Tzeng; フォーレスト　フェン‐ツァー　チェン
Original assignee: Comsat Corp
Current assignee: Comsat Corp
Priority date: 1989-11-29
Filing date: 1990-11-29
Publication date: 1991-09-17
Also published as: GB2238696B; CA2031006C; AU652134B2; GB9025960D0; CA2031006A1; AU6485894A; GB2238696A; US5307441A; AU6707490A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［従来技術］自動車等の移動通信、音声専用通信（電話帯音声）、秘
密音声等の技術分野において、４．８ｋｂｐｓ以下の低
情報伝送速度（ビットレート）を有する高音質音声符号
・復号化処理が要求されている。しかし、このような低
情報伝送速度で高音質の音声を形成するための音声符号
化技術はいまだ開発されていない。２．４ｋｂｐｓのビ
ットレートで駆動する米国合衆国規格のＬＰＧ−１０で
も自然の音声を作り出すことはできない。１ｏｋｂｐｓ
以上の高ビットレートで成功をおさめた音声符号化技術
も、４．８ｋｂｐｓ以下の使用では完全に脱帽せざるを
得なかった。このような状況から、４．８ｋｂｐｓでの
自然音声に近い音質を得るための新しい音声符号化処理
技術が要求されている。

低情報伝送速度（ビットレート）での高音質音声符号化
処理技術として合成分析法の使用が考えられる。これを
基に、符号化励振線形予測法（ＣＥＬＰ）として知られ
る有効な音声符号化方法がシュロエダーとＢ、　　Ｓ、
　　エイタルにより提案された。この符号化励振線形予
測法は、音響、音声及び信号処理に関するＩ　ＥＥＥイ
ンターナショナルコンファレンスの９３７−９４０ペー
ジのパ超低速ピットレー１・での高質音声”で述べられ
ている。

ＣＥＬＰは中間帯域と狭帯域では有効であることが分か
っている。　　Ｎ＝１ｆ３０のサンプル数を持つ各音声
フレーム中にし＝４の励振サブフレームがあると仮定す
ると、このＣＥＬＰにより原音声と識別できない程度の
音声を作り出すには、１０２４個の４０次元ランダムガ
ウス型符号語からなる励振符号帳（コードブック）で十
分である。

［発明が解決しようとする課題］しかしこの方法を実際に利用するためには、いくつかの
問題が解決されなければならない。

第一に、基本的に、伝送されるパラメータのほとんどは
、励振信号を除いて符号化されないままになっていた。

さらに、パラメータ更新速度は高いものと仮定されてい
た。　　従って、パラメータの正確な符号化と高速の更
新に対して十分なビット情報がない様な、低情報伝送速
度（低速ビットレート）を有する分野においては、１０
２４（ｉｔの励振符号語は不十分になる。また、完全符
号化ＣＢＬＰの符号化／浚号化器により原音声と同一の
音質を得るためには、１０ｋｂｐｓに近い情報伝送速度
（ビットレート）が必要となる。

第二に、典型的なＣＥＬＰ符号化器はランダムガウス型
ベクトル、ラプラス型ベクトル、均一パルス型ベクトル
若しくはこれらの組み合わせたものを用いて励振符号帳
を作成していた。この符号帳から最良の励振ベクトルを
見つけだすために、完全探索、合成分析処理が利用され
ている。この方法の重大な欠点は、最良の励振ベクトル
を探索するのに極めて高度の計算が要求されていること
である。その結果、実時間処理に対して、最小のハード
ウェアを用いた場合、励振符号帳の大きさが例えば１０
２４以下に限定しなければならなくなる。

第三に、１０２４個の４０次元ランダムガウス型符号語
を有する励振符号帳を用いた場合、１０２４ｘ４０＝４
０９６０のメモリー容量がコンピュータに必要となる。

励振符号帳に要求されるこのメモリー容量は、すでに市
販されているほとんどのＤＳＰ（ディジタル信号処理）
用チツフの記憶容量を越えている。従って、ＣＥＬＰ符
号化器のほとんどはより小さい大きさの励振符号帳を持
つように設計されねばならない。これによＬ、符号化器
の性能が、とりわけ無声音領域は制限されることになる
。従って符号化器の性能を高めるために、計算上の複雑
さ（メモリー容量の増加）を伴わずに符号帳の大きさを
増加する有効な方法が求められている。

上述したように、４．８ｋｂｐｓ以２下の情報伝送速度
では、正確に励振表示するために必要な十分なビット情
報を得ることができない。ＣＥＬＰ励振信号と、短項（
ＳＨＯＲＴ−ＴＥＲＭ）及び長唄（ＬＯＮＧ−ＴＥＲＭ
）フィルター処理後の残差信号である理想的な励振信号
とを比較すると、無視できない程度の相違（ズレ）があ
る。従って、ＣＥＬＰ符号化器を構成する要素の内、特
に重要な要素の設計には十分な考慮が必要となる。例え
ば、　　短項（ＳＨＯＲＴ−ＴＥＲＭ）フィルタの正確
な符号化処理は励振による補償不足ということから、重
要なものであることが知られている。さらに、　（更新
速度という点から要求される）長唄フィルターと（符号
帳の大きさという点から要求される）励振信号への適当
なビット情報の割当が、符号化器の性能を向上するため
に必要なものであることが分かっている。しかし、たと
え襟雑な符号化方法を用いたとしても、音質は依然改善
されないままである。

ＩＣＡＳＳＰ、６１４−６１７ページのパ低ビットレー
トでの自然音声を作り出すためのＬＰＣ励振法の新しい
モデルパでＢ、　　Ｓ、　　エイタルトＪ。

Ｒ，レムデにより提案されたマルチパルス励振法が線形
予測符号化器に有効なモデルであることが確かめられて
いる。このモデルは有声音と無声音両方に有効なもので
あＬ、しかも理想的な励振信号を極めて圧縮されたビッ
ト情報で表現可能となっている。従って、符号化という
観点からすれば、マルチパルス励振法は優れた励振信号
を作り出すことができる。しかしながら、典型的なスカ
ラー量子化法を用いた場合、必要とされる情報伝送速度
は１Ｏｋｂｐｓ以上となる。情報伝送速度を下げるには
、例えば１．Ｍ、ｈランヌコソ、Ｌ。

Ｂ、アルメイダ及びＪ、　Ｍ、　　ｈリボレットによる
”周波数領域における高調波モデル化法を用いたボール
ゼロマルチパルス音声表示”（ＩＣＡＳＳＰ、　　　Ｐ
Ｐ、　　７．　８．　１−７．８．４．　　　１９８５
）で述べれているように、ＬＰＣスペクトルフィルター
により励振パルスの数を減らし、゛がっ／または、より
有効な符号化方法を利用しなげればならない。例えば、
Ａ、ブゾ、Ａ、　　Ｈ，グレイ、Ｒ，Ｍ、　　グレイ及
びＪ、　　Ｐ、　　マーケットによる゛ベクトル量子化
に基づいた音声符号化法”（ＩＥＥＥ　　Ｔｒａｎｓ、
音響、音声及ヒ信号処１１、ｐｐ、　　５Ｅ３２−５７
４．１８８０年１０月）で述べられているベクトル量子
化を直接的にマルチパルスベクトルに適応する方法は、
後者の一解決策である。しかしながら、適当な歪量を定
義し、マルチパルスベクトルの群からそれらの中心を求
めるといった幾つかの問題が低ビットレート領域でのマ
ルチパルス励振法の利用を妨げている。

従って、ＣＥＬＰ符号化符号化／復合化器８ｋｂｐｓで
の音声符号化に利用するためには、折衷的なシステム設
計と有効なパラメータ符号化技術が必要となる。

そこで、本発明は従来の音声符号化／ｆ１号化器の上述
の欠点を解決するために成されたものであＬ、より詳細
には自然音声に近い音質を可能とした４、８ｋｂｐｓの
情報伝送速度を有する音声符号化／復号化器を提供する
ことにある。

［課題を解決するための手段］これらの目的は以下で示される新規な特徴の少なくとも
一つを用いて達成される。

低情報伝送速度で音声符号化処理するためのパラメータ
を結合して最適化する反復法、米国合衆国規格ＬＰＣ−
１０で利用されている４１−ビットスペクトルフィルタ
ー符号化法と同一の性能を有する２６−ビットスペクト
ルフィルター符号化法、励振符号帳だめの記憶容量の減少を達成するための、例
えば、励振信号として利用されるマルチパルスベクトル
を位置及び強度の符号語に分解する、分解マルチパルス
励振モデルの使用、中間帯域（例えば、７．２−９．６
ｋｂｐｓ）での音声符号化処理へのマルチパルスベクト
ル符号化処理の適用、記憶領域に対して過負荷なく性能を高めるための拡張マ
ルチパルス励振符号帳、演算に対して過負荷なく性能を高めるために拡張励振符
号帳から最良の励振ベクトルを選択するための、動的重
み付け歪量を選択的に用いた、関連型高速探索法。

非影響性ピッチ合成器から取り除かれた余剰ビット情報
と励振信号を動的に割当て、利用すること、改良された無音検出器、適応型後段フィルター（ポスト
フィルター）、及び自動利得制ｔｍｉ閲、スペルトルフ
ィルター平滑化処理のための補間技術、スペクトルフィルターの安定性（不動性）確認用の単純
方法、ピッチ利得と励振利得のための特別に設計されたスカラ
ー量子化器、再構成された音声の音質への寄与度を確かめるための、
ピッチ合成器と励振ベクトルの影響性（意義）を調べる
ためのマルチプル法、並びに最適の符号化／復号化器の
性能を得るための、ビット割当処理から見たシステム設
計。

［作用］入力された音声信号をピッチ、ピッチ利得ｂ、Ｃｔ、Ｇ
のような複数の符号化信号部に符号化する符号化装置装
置は、符号化信号部のうちのピッチ、ピッチ利ｆＩ４ｂ
のような少なくとも第１の符号化信号部を発生するため
該入力音声信号に応答する第１の手段と、複数の符号化
信号部のうちｃ１、Ｑのような少なくとも第２の符号化
信号部を発生するため該入力音声信号と少なくとも該第
１の符号化信号部とに応答する第２の手段とを有してい
る。

ここで、第１の手段は、反復演算による最適化手段を有
しておＬ、この最適化手段は、第１工程から第５工程ま
でを実行する。即ち、第１工程では、励振信号が存在し
ないことを前提として第１の符号化信号部の最適値を決
定し、また最適値に対応する第１の出力を発生する。ま
た第２工程では第１の出力に基づき第２の符号化信号部
の最適値を決定し、また最適値に対応する第２の出力を
発生する。次に第３工程では、第２の出力が励振信号で
あることを前提として第１の符号化信号部の新たな最適
値を決定し、また新たな最適値に対応する新たな第１の
出力を発生する。そして第４工程では、新たな第１の出
力に基づき第２の符号化信号部の新たな最適値を決定し
、それに対応する第２の新たな出力を発生する。最後に
第５工程では、第１、第２の符号化信号部の最適化がな
されるまで第３、第４工程を繰り返し実行するのである
。

［実施例コ音声符号化／ｆ１号化の復号化側のブロック図を第１図
に示す。例えば、８　Ｋ）Ｉｚでサンプルされた入力音
声フレームは無音検出回路１０に供給され音声フレーム
か無音フレームかの検出がされる。無音フレームの場合
、符号化・復号化プロセス全体をバイパスして演算を省
略する。この場合、白色ガウス雑音が１！号化側におい
て出力音声として発生する。以下、無音検出のアルゴリ
ズムについて説明する。

無音検出回路ＩＯにおいて音声フレームを検出スルト、
スペクトルフィルタ分析回路１２ｋおいてスペクトルフ
ィルタ分析が行われる。ここで、１０次全極フィルタモ
ードであると仮定し、ノンオーバーラツプハミング窓音
声を用いた自己相関法に基づいて分析を行う。１０個の
フィルタ係数が次にスペク］・ルフィルタ符号化回路１
４において、以下に説明するように２６ビットで量子化
される。得られたスペクトルフィルタ係数は次の分析で
用いられる。以下、スペクトルフィルタの符号化アルゴ
リズムを詳細に説明する。

ピッチ及びピッチ利得をピッチ／ピッチ利得演算回路１
６において閉ループ構成を用いた演算を行う。一般に、
三次ピッチフィルタの方が一次ピッチフィルタよりも特
に音声の高周波成分に対して優れた特性を有するが、演
算量を考慮して一次フィルタを用いても良い。ピッチ及
びピッチ利得はともに１フレームにつき３度更新される
。

ピッチ／ピッチ利得符号化回路１８において、１θかも
１４３のサンプルのピッチレンジに対してピッチ値を７
ビットで正確に符号化し、Ｓビットスカラー量子化器を
用いてピッチ利得を量子化する。

励振信号と利得項Ｇは共に閉ループ構成での演算が行わ
れる。閉ループは、励振符号帳２０、利得Ｇの増幅器２
２、増幅された利得信号、ピッチ及びピッチ利得を入力
し、合成ピッチを出力するピッチシンセサイザ２４、合
成ピッチとスペクトルフィルタ係数（ａ、）を入力し、
入力合成ピッチの合成スペクトルを出力するスペクトル
シンセサイザ２６、及び合成スペクトルを入力し、知覚
的に重みづけされた予夕１１値を減算器３０に出力する
知覚重みづけ回路２８とからなＬ、減算器３０カ）らの
残差信号は励振符号帳２０に帰還するよう構成されてい
る。励振信号コードワードＣ３及び利得項Ｇは共に１フ
レームにつき３度更新される。

利得項Ｇは５ビットスカラー量子化器を用いて符号化回
路３２ｋよって量子化される。励振符号帳は以下に詳述
するように分解したマルチパルス信号の集合であＬ、ふ
たつの励振符号帳構成を用いることができる。一つは全
体サーチ機能を有する非拡張符号帳であり最良の励振符
号帳を選定する。使用する符号帳構成により励振信号の
符号化に対して異なるデータビット数が割り当てられる
。

更に音声の質を向上させるには、符号化及び分析のため
に別の二つの技法を用いることかできる。

第一の技法は、ダイナミックアロケーション法であＬ、
重要でないピッチフィルタ（及び／叉は励振信号）から
省略したデータビットを必要ないくつかの励振信号に再
割当するものであＬ、第二の技法は、反復法であＬ、音
声符号化／複合化パラメータ全部を最適化するものであ
る。最適化を行うには、以下に詳細に説明するように、
スペクトルフィルタ係数、ピッチフィルタパラメータ、
励振利得及び励振信号の反ｆｌ　ｉｌｌ算が必要となる
。

第２図に示されているように、復号化側において、選択
された励振符号語ＣＩは増幅器５０において利得項Ｇに
より０倍に増幅され、ピッチ合成語５４の入力信号とさ
れる。ピッチ合成器５４の出力はスペクトル合成基５６
の入力となる。４．８ｋｂｐｓにおいて、再構築された
音声の受容クォリティを高めるためにポストフィルタ５
６が必要になる。ポストフィルタがほぼ同じくなる前後
の音声パワーを補償するために自動利得制御法を用いる
。ポストフィルタ及び自動利得制御を行うためのアルゴ
リズムにつきたは以下詳細に説明する。

拡張もしくは非拡張励振符号帳の使用に応じて、次に示
すテーブルｌのようないくつかの異なるビット割当法が
決定される。

サンプルレートフレームサイズ（サンプル）使用ビットスペクトルフィルタピッチピッチ利得励振利得励振フレーム同期ビット一般に、非拡張励振符号帳を用いた符号化／復号化の特
性は優れているとはいえないが、ハード化を図るには簡
易である。ここで、同じ構成に基づいて他のビット割当
法も導くことがで着るが、それらの特性は極めて近似し
たものとなる。

音声活動検出最も実用的な状況において、音声信号にはノイズが含ま
れておＬ、このノイズレベルは時間と共に変動する。ノ
イズレベルが大きくなればなるほど、音声のオンセット
及び終了を正確に決定する作業及び音声活動の検出がま
すます困難になる。

好ましい音声活動の検出アルゴリズムは各フレームのフ
レームエネルギーＥと雑音エネルギーしきい値Ｎ、ｈと
の比較に基づく。雑音エネルギーしきい値は雑音レベル
のバラツキを追跡できるようにするためフレーム毎に更
新される。

第３図に音声活動検出アルゴリズムのフローチャートを
示す。ステップ１００において、平均エネルギーＥを演
算し、ステップ１０２ｋおいてＮ＝ｉｏｏフレームにわ
たる最小エネルギーを決定する。次に、ステップ１０４
において、雑音のしき（′値をＥ１、、を基準に３ｄＢ
上に設定する。

音声スパー１・長の統計値を用いてＮＩｈに適合させる
ために窓長（Ｎ、＝１００フレーム）の決定を行う。音
声スパートの平均長は約１．３秒となる。

１００フレームの窓は２秒以上に相当し、従って窓が純
粋な無音もしくは雑音フレームをいくつか含んでいる可
能性が高い。

ステップ１０６においてエネルギーレベルＥをしきい値
Ｎｌｈと比較し信号が無音もしくは音声であるかの判定
を行う。音声である場合にはステップ１０８において現
フレーム（すなわちＮＰＲ）直前の連続音声フレーム数
が２もしくは２以上であるかどうかの判定を行う。２も
しくは２以上であればステップ１１０においてハングオ
ーバー値を８の値に設定する。ＮＦＲが２未満である場
合にはステップ＋１２ｋおいてハングオーバー値を１の
値に設定する。

ステップ１０ｆ３においてエネルギーレベルＥがしきい
値を越えなければステップ１１４においてハングオーバ
ー値がＯであるかどうかの判定を行う、もしＯでなけれ
ば音声状態の検出がなかったものとしてステップｌｌＧ
においてハングオーバー値を減少させる。ステップ１１
０もしくは１１２ｋおいてＭ終的に設定された値がいく
つであってもハングオーバー値がＯになるまでこの処理
を継続する。そしてステップ１１４においてハングオー
バー値が０の場合には無音検出であると判定する。

ハングオーバーメカニズムには２つの機能がある。第１
の機能は音声スパート内に生ずる音節間ポーズの橋渡し
をすることである。音節間ポーズ期間に関する統計値に
基づき選択される８フレームが決定される。第２の機能
は音声スパー１の終わりにおいて音声の脱落が生じない
ようにすることであＬ、この場合エネルギーは無音レベ
ルまで徐々に減衰する。少なくとも３フレームにわたっ
てフレームエネルギーがしきい値まで上昇し、しきい値
以上を保持する以前に１フレームのハングオーバー期間
を短くしておくのはインパルスノイズのバーストが短い
ために誤音声と認定されるのを避けるためである。

スペクトルフィルターコーディング（符号化）音声の二
つの連続するフレームのスペクトル形状が近似している
という観察結果並びに音声波形の形状が限定されるとい
う事実に基づき、スペクトルフィルターコーディングの
ためにベクトル量子化を用いたフレーム間予測法を適用
することができる。この方法のフローチャートを第４図
（ａ）に示す。

フレーム間予タリ符号化法は以下のように表すことがで
きる。

現フレームのパラメーター郡及び１０７＆スペクトルフ
イルター用のＦｎ＝（ｆｉ、′Ｉ１．ｆｉ、′２′、　１、、　　ｆ
ｉ＋１°））゛が与えられると予測パラメター群は次ぎ
ように表すことができる。

Ｐ、ｌ＝　Ａ　Ｆｌ１、　　　　　　　　　　　　（ｒ
）ここで、Ａは最適予ｐ１マトリクスを表しこれは平均
予測二乗誤差を最小にするものであり以下の式によって
表される。

＾＝　Ｅ［（Ｆ、Ｆ’、ｌ）］［Ｅ　　（Ｆｎ−＋Ｆｎ
−＋）ＪＴ　−１（２）ここでＥは予測演に値を表す。

フレーム間の変化がスムーズであるため、例えば１９８
４年１１月のＮＲＬレボ−）８８５７におけるａ、　　
Ｓ、　　ハング、Ｌ、　　Ｊ、　　フランセンの「線ス
ペクトル周波数（ＬＳＦｓ）に基づく低ピッ）ｌエンコ
ーダ」に説明されているように、線スペクトル周波数（
ＬＳＦｓ）をパラメータ群として選定する。音声の各フ
レームに対してステップ１２０において線予測分析を行
い、Ｌｏｌｌの予測係数（ＰＣｓ）を抽出する。次に、
ステップ１２２ｋおいてこれらの係数を対応するＬＳＦ
パラメータに変換する。フレーム間予測を行うためにス
テップ１２４において多数の音声データベースを用いて
あらかじめ演算した平均ＬＳＦベクトルを現フレームの
ＬＳＰベクトルから減算する。ステップ１２８において
、同じ音声データベースを用いて同様にあらかじめ演算
された（ＩＯＸＩＯ）の予測マトリクスからなる６ビッ
トの符号帳をサーチし、平均二乗予１１ＶＩ＋誤差を最
小にする。

次にステップ１３０において現フレームに対する予測Ｌ
ＳＦベクトルを演算するとともに、現フレームＬＳＦベ
クトルＦｎと予ｉ！ｌ’ｌ　Ｌ　Ｓ　ＦベクトルＦ１、
　どの差に基づく残余ＬＳＦベクトルを演算する。ステ
ップ１３２及びステップ１３４において残余ＬＳＦベク
トルは二段ベクトル量子化器によって量子化される。各
ベクトル量子化器は１０２４（１０ビット）のベクトル
を有する。特性を向上させるためには、各ＬＳＦパラメ
タのスペクトル感度及び人間の聴感ファクターに基づく
重み付けされた平均二乗誤差歪量を用いることがでとる
。もしくは、最初の二つのＬ　Ｓ　Ｆパラメタに二倍の
重み付けするする重み付けベクトル［２，２，１、１、
１．１．１．１、■、１、コな用いても良い。

２４ビット符号化法を第４図（ａ）及び（ｂ）を参照し
ながら説明する。

ステップ１２８において予測マトリクス八を選択すると
、上記式（１）に基づき予佛Ｉ　Ｌ　Ｓ　ＦベクトルＦ
、ｌを演算することができる。減算器１４０において実
際のＬＳＦベクトルＦ。から予測しＳＦベクトルＦ。を
減算すると、第４図（ｂ）においてＥ７として表される
残余ＬＳＦベクトルが得られる。

この残余ベクトルＥ１、は１０２４（１０ビット）個の
ベクトルを有する初段量子電離１２４に供給され、１０
２４ｍのベクトルから残余しＳＦベクトルＥ、ｌに最も
近い（１０ビット）ベクトルが選定される。選定された
ベクトルは第４図（ｂ）においてＥ７として表され、減
算器１４４に供給されて第１の残余信号Ｅ。とその近似
値Ｅ、ｌの差を表す第２の残余ベクトルＤゎの演算が行
われる。この第２の残余信号は初段量子電話１４２と同
様な２段目量子化器１４６に供給される。２段目量子化
器１４６は１０２４（１０ビット）個のベクトルな有し
。

そこから第２の残余信号Ｌ、、に最も近いベクトルが選
定される。第４１２Ｉ（ｂ）において二段目量子化器１
４６によって選定されたベクトルはり。とじて表されて
いる。

現ＬＳＦベクトルを復号化するには、復号電器必要があ
る。

Ｄ１、及びＥ、１はともに工Ｏビットベクトルであり合
計で２０ビットである。Ｆ１、はＦ。−１と上式（１）
のＡから得られる。Ｐｎ−１は複号弱においてすでに求
まっているので、ステップ１２８において選定されたマ
トリクスを表す６ビットコードだけが必要となＬ、その
ため合計で２６ビットとなる。

符号化されたＬ、ＳＦ（直はステップ１３６において一
連の逆演算により演算される。次にステップ１３８にお
いてスペクトルフィルター用の予測係数に再び変換され
る。

スペクトルフィルターコーディングを行うには、多くの
訓練により得られた音声データベースを用いて数種類の
符号化帳をあらかじめ演算しておく必要がある。これら
の符号化帳にはしＳＦ平均ベクトル符号化帳の他、２段
のベクトル化器用の２つの符号化帳が含まれる。全体の
処理を行うには、一連のステップを遂行する必要がある
が、その際各ステップにおいては所望の符号化帳を作成
するために前のステップから得られたデータを用い、次
のステップに必要なデータベースな作成する。

ＬＰＣ−１０に用いる４１ビットの符号化法を比較する
と符号〔ヒ困ｙ１度はより高いがデータ圧縮は十分であ
る。

符号化特性を向上させるためには、知覚重み付けファク
ターを２段ベクトル量子化邸に用いる歪量に含めておか
なければならない、歪量は次式により定義される。

Ｄ＝　Σ　町（Ｘビ　丁、）２１＝１ここで、Ｘｗ及びγ、はそれぞれ被量子化ＬＳＦベグレ
ープクトルの成分及び符号化帳における各符号電画の対
応する成分を表ず。ωは対応する知覚重み付けファクタ
ーであり次式により定義される。

ここで、ｕ（ｆ＋）ｌよ高岡１１量子化に対する人間の耳の不感
度を考慮したフ１ククーである。ｆｌは現フレームに対
する線スペクトルのｉ番目成分を表ず。

Ｄ、はＦ、４こ文１するグループａ延をミリ秒で表した
ものである＠　　Ｄｓｎｘは最大グループ遅延を表し、
これは実験的に２０ミリ秒ＩＦＩ　ｒｆｉであることが
知られている。グループ遅延Ｌ、はき周波数ｆｉの特定
のスペクトル感度を考慮したものであり同時に音声スペ
クトルのフォルフン８１Ｍ成に連関している。

フｔルマント閉域の近傍周波数領域においてはグループ
遅延が大とい、従ってこれらの周波数領域においてはよ
り正確な量子化が必要となＬ、よって重み付けファクタ
ーを大きくする必要がある。

グループ遅延Ｄｉは−ｎｒ（ｎ＝１．２、・・・１０）
における比率フィルターの位相角の傾ぎとして容易に演
算することができる。この位相角はスペクトルフィルタ
ーの予測係数を対応する線スペクトル周波数に変換する
過積において演算される。

各フレームにおけるスペクトルパラメタの演算をブロッ
ク処理で行っているためスペクトルフィルターのパラメ
タは音声信号の移行期間中、隣接フレームにおいて急峻
な変化を示す。個の急峻な変化を平滑化するためにスペ
クトルフィルターの補間法が用いられる。

補間には量子化された線スペクトル周波数しＳＦが用い
られる。ピッチフィルターと励Ｗｔ演算を同期化するた
めに、各フレームにおけるスペクトルフィルターのパラ
メタが三つの異なる値で補間される。音声フレームの最
初の３分の１については、現フレームと前フレームにお
けるＬＳＰの間の線補間によって新たなスペクトルフィ
ルターのパラメタが演算される。音声フレームの真ん中
の３分ｌについてはスペクトルフィルターのパラメタに
変化はない。音声フレームの最後の３分のｌについては
現フレームと後続フレームにおけるＬＳＰ間の線補間に
よって新たなスペクトルフィルターバラメタが演算され
る。補間用に量子化された線スペクトル周波数を用いて
いるので、複号器には余計な側情報は不要となる。

スペクトルフィルターの安定化制御のためには、量子化
線スペクトル周波数（ｆｉ、ｆ２、・・ｆｌ。）の強ｇ
殺定か予−り係数に再変換される前に確認される。強度
設定が適切でない場合、すなわちｆｉ・＜ｆｉ−、の場
合には２つの周波数の交換を行う。

Ｆ、　　Ｋ、　　スーング及びＢ、ジュアングにょるＩ
ＥＥＥ　　Ｐｒｏｃ、ＩＣＡＳＳＰ−８４、ｐｐ。

１．１０．１−１．１０．４にお＋ｆるｒ線スペクトル
対（ＬＳＰ）及び音声データ圧縮Ｊに記載されている方
法に基づき別の３６ビット符号化法が行われる。基本的
には１０個の予測係数をまず（ｆｉ、・・・ｆ　＋ｏ）
で表される対応する線スペクトル周波数に変換する。量
子化法は（１）ｆｉをＦ、に量子化しｉ＝１に設定する。

（２）△ｆ＋”ｆ＋＋１、　ｆ＋を演算しく３）△ｆｉ
を△ｆｉに量子化し、（４）ｆｌ＋１＝ｆｌ＋△ｆｉを再構成し、（５）ｉ＝
ｌＯならば停止しそれ以外ならば（２）へ進む。

低次の線スペクトル周波数は高いスペクトル感度を有す
るためにそれらに対してより多くのデータビットを付与
する必要がある。△ｆｉ−Δｆ６の各々に対して４ビッ
トを割当て、更に△ｆ７−△。

０の各々に対して３ビットを割当てるビット割当法がス
ペクトルの正確さを維持するに十分であることが知られ
ている。この方法ではより多くのデータビットを必要と
するが、スカラー量子電話のみを用いているためハード
ウェアで実現するには簡単な構成で済む。

ピッチ　びビッヂｆ１′１算４．８ｋｂｐｓで演算するＣＥＬＰ音声符音声符号化性
を向上するためのピッチループトラッキングの二つの方
法を以下に説明する。

第１の方法では閉ループピッチフィルター分析法を用い
る。第２の方法ではピッチフィルターパラメタの更新周
波数を増加することを目的とする。

コンビユーターンユミレーンヨン及び聴感試験の結果、
再構成された音声の品質が大幅に向上したことが明らか
になった。

又、以下の説明から明らかなように、最適な励振符号死
語の選定のための閉ループ法は基本的にピッチフィルタ
ー分析の為の閉ループ法と同じである。

ピッチフィルター分析のための閉ループ法の説明に先立
って間ループ法について説明する。間ループフィルター
分析は短項フィルター処理によって得られる残余信号（
ｅ１、）に基づき得られる。

般に、１次もしくは３次ピッチフィルターを用いる。こ
こで、閉ループ法との特性比較のために１次ピッチフィ
ルターを用いている。ピッチ周期Ｍ（サンプル数によっ
て決定される）及びピッチフィルター係数すは次式で定
義される予測残余エネルギーＥ　（Ｍ）を最小化するこ
とにより決定されるここで、Ｎはピッチ予ハリに対する分析フレーム長を表
す。簡略化を図るべく、最小値Ｂ　（Ｍ）に対するＭ及
び１１１の１１１！を得るのに、次の方法が用いられる
。ｂの（直は７欠式より得られる。

ｂ　”　Ｉｔ　１４／　Ｒ。

（４）ここで（４）式にオ、１ノるｂを（３）式に代入すると、Ｅ　
（Ｍ）を最小にすることとＲ，４２／　Ｒｏを最大にす
ることが等洒であることが明かとなる。この項は１θか
ら１４３のリンプルから選択される範囲のＭのそれぞれ
の１戸に対して演算される。この項を最大にするＭの値
をピッデイ４として選定する０次に（４）式に基づきピ
ッチフィルター係数を演算する。閉ループピッチ分析法
は最初にＳ、シングハール及びＢ、　　Ｓ、　　アター
ルにより提案され、ＩＣＡＳＳＰ、　　ｐｐ、　　１．
　３．　１−１．　３．　４．１９８４年出版０「低ビ
ットレートにおけるマルチパルスＬＰＣ符号化器の改良
特性」に述べられておＬ、ピッチ予測を用いてマルチパ
ルス分析を行っている。しかしこれは直接的にＣＥＬＰ
符号化器にも適用するこができる。ピッチフィルター分
析のためのこの方法では、元の音声と再構成された音声
間の重み付け歪量（一般にはＭＳＥ）を最小化すること
によりピッチ値及びピッチフィルターパラメタが決定さ
れる。同様に、励振サーチ用の閉ループ法においては元
の音声と再構成された音声の間の重み付け歪量を最小化
することにより最適励振信号の決定が行われる。

ＣＥＬＰシンセサイザーを第５図番こ示す。同図におい
て、Ｃは選定された励振符号語であＬ、Ｇは増幅ｔｉ１
５ｃｌ）利得項、ｌ／Ｐ　（Ｚ）　及Ｕ１／Ａ　（Ｚ）
はそれぞれピッチシンセサイザー１５２とスベクトルン
ンセサイザー１６４を表す。閉ループ分析を行うために
、合成された音声Ｓ　（ｎ）が決められた重み付け歪１
（例：ＭＳＥ）の点から元の歪量Ｓ　（ｎ）に最も近く
なるように符号語Ｃい利得項Ｇ、ピッチ値Ｍ及びピッチ
フィルターパラメタを決定する。

第６図に閉ループピッデフイルター分析の処理を示す。

ピッチシンセサイザ−１５２への入力信号をＯとする。

ｉ＊Ｗを簡略化するために１次ピッチフィルター、すな
わちＰ　（Ｚ）＝ｌ−ｂＺ−”を用いる。スペクトル重
みイすけフィルター１５Ｅｉ及び１５８は次式で与えら
れる伝送関数を有する。

Ｗ　（Ｚ）＝Ａ　　（Ｚ）／Ａ　　（Ｚ／　ｒ）　　　
　　（Ｃ３ａ）ここでｒはスペクトル重みＩＬけ制御の定数な表し、般に８　
Ｋ　）Ｉ　ｚでリンプルされた音声信号について０．８
程度に）π定される。

第６図の等簡ブロック図を第７図に示す。入力が０の場
合（こＸ　（ｎ）はＸ　（ｎ）　＝ｂＸ　（ｎ　−Ｍ）
で与えられる。Ｙｗ（ｎ）を入力Ｘ　（ｎ）に対するフ
ィルター１５４及び１５８の応答とするとＹｗ（ｎ）　
＝　ｂ　Ｙｗ　（ｎ　　Ｍ）となる。ピッチ値Ｍとピッ
デフイルターＩＮ：　ｇｋ、　ｂは、Ｙ、（ｎ）とＺｗ
（ｎ）間の歪が最小となるように決定される。ここで、
Ｚ　ｗ　（ｎ　）は減算１１６０において重み付け音声
信号からフィルターＡ　（Ｚ）の重み付けメモリを減算
した浚の残余信号として定義される。次いで。

減界器１６２ｋおいてＺ　ｗ　（ｎ　）がらＹｗ（ｎ）
が減算され、Ｙ、１（ｎ）とＺ−（ｎ）の間の歪量が次
のように定義さ１Ｌる。

ここでＮは分析フレームを表す。最適な特性を得る為に
は、最小１ａＥｗ（Ｍ、ｂ）に対してピッチ値Ｍとピッ
デフイルター係ｎｂを同時にサーチする必要がある。し
かしながら、Ｍ及びｂを簡単なシーケンスで得れば特性
が大幅には悪化しないことが知られている。ｂの最適値
は次式で与えられる。

Ｅ、（Ｍ、ｂ）の最小値は次式で与えられる。

（ｑ）第１の項は定数であるのでＥｗ（Ｍ）ｔ！：ｊ％小とす
ると第２の項が最大となる。この第２の項を所定の範囲
（１８−１４３サンプル数）における間のそれぞれの値
に対し演五を行い、この第２の項を最大とする値をピッ
チ値として選定する。ピッチフィルター係数すは上式（
８）から得られる。

１次ピッチフィルターについては量子化すべき二つのパ
ラメタがある。一方はピッチであＬ、他方はピッチ利得
である。ピッチの量子化は１６ｈ１ら１４３サンプル数
の範囲にあるピッチに対して７ビット・を用いて直接行
う。ピッチ利得はスカラー的に５ビットを用いて量子化
を行う。５ビット量子化器はベクトル量子化器の設定に
おいて用いられるクラスター法を用いて設定される。即
ち、符号化により多量の音声ベースからピッチ利得の基
準データベースを収拾し、ベクトル量子化器の符号帳を
設Ｚ１するのに用いるのと同じ方法を用いて、ピッチｆ
ｌｌ　ｉ尋用のコードブックを生成する。ピッチ利得の
精度を維持するには５ビットで十分であることが知られ
ている。

ピッチフィルターが時として不安定になることが知られ
ている。特に、音声信号のパワーレベルが急峻な変化を
示す過渡期（例えば、無音フレームから音声フレームに
移行する場合）において顕著である。フィルター安定度
を高めるには、ピッチ利得を所定のしきい値（例えば、
１、４）に制限すれば良い。この制約はピッチ利得用の
基準データベースを生成する過程で必要となる。従って
、最終的に得られるピッチ利得符号帳には、しきい値以
上の大ぎな値は含まれていない。この制約によって符号
化特性が何らかの影響を受けることはない。

最適な励振符号語をサーチするための閉ループ法はピッ
チフィルター分析用の閉ループ法と極めて近似している
。第８図に閉ループ励振符号語サーチを行うためのブロ
ック図を示す。第９図は第８図の等価ブロック図である
。Ｚｗ（ｎ）とＹｗ（ｎ）との間の歪量は次式によって
与えられる。

ここで、Ｚ−（ｎ）は、減１■８０において重み付けさ
れたｆｆ声（３号からフィルター１７２及び１７４の重
みけ：）された記ｉｔ値を減算した陵の残差信号を表１
゜Ｙｗ（ｎ）は入力信号Ｃ１に対するフィルター１７２
，１７４及び１７８の応答を表す、ＣＩは１午となって
いる符号語を表す。

閉ループピッチフィルター分析において用いられている
ように、Ｅｗ（０，Ｃ：＋）を最小にするＧ及びＣ３の
最も好ましい組み合わせを抽出するために、最適と見な
せるシーケンシャルな方法が用いられる。ＧのＰＩＡ埴
は次式によって与えられる。

− （１１）Ｅｗ（Ｇ、ＣＩ）の最小値は次式によって与えられる。

前に述べたようにＥｗ（ＣＩ）を最小にすると前式（１
２）の第２の項が最大となる。この第２の項を励振コー
ドブックにおける各符号１ｍ　ＣＩに対して演旅する。

この項を最大にする符号語ＣＩを最適励振符号ｌｎとし
て選択する。次に、前式（ｌ　ｌ）に基づき刊ｍ　ＪＪ
Ｔ　Ｏの１寅算を行う。

励振利得のｍ子化はビッヂの量子化と同様に行われる。

即ち、符号化をこより多量の音声ベースから励振利得の
基中データベースを収拾し、ベクトル量子化式のｒＴ′
ｉ′ｊ帳を股１１するのに用いるのと同じ方法を用いて
、励振利１り用のコードブックを生成する。音声ｉ′Ｔ
り化特性の精度を維持するには５ビットで十分であるこ
とが知られている。

Ｍ、　　Ｒ，スクロエダー及びＢ、　　Ｓ、　　アクー
ルによる［符η励県線形子ｉｔ！ＩＩ（ＣＥＬＰ）：超
ローピッ、トレードにお１ノる高音質音声Ｊ、音響・音
声・信号処理国際会講訪（ＩＣＡＳＳＰ）、ｐＰ、９３
７−９４０．１９８４年版によれば、ＣＥＬＰ符号化器
を用いれば高品質音声が得られることが述べられている
。しかしながら、かかる方法によれば、励振符号帳（１
０ビットランダムガウス符号帳）を除いて伝送すべきす
べてのパラメタが符号化されないままになる。また、パ
ラメタの更新周波数は高いものとされる。即ち、　（１
６次）短項フィルターは１０ミリ秒につき一度更新され
る。

要項フィルターは５ミリ秒につぎ一度更新される。

４．８ｋｂｐｓにおけるＣＥＬＰ音声符号化については
、１フレーム（約２０から３０ミリ秒）につき−度以上
短項フイルターを更新すべき十分なデータビットが存在
しない。しかしながら、システム設計を適宜行うことに
よＬ、■フレームにつき一度以上長唄フイルターを更新
することが可能となる。

異なるピッチフィルターの更新周波数の間ループもしく
は閉ループピッチフィルター分析法を用いたＣＥＬＰｉ
Ｆ号化器につい電器発明者はコンビューターシュミレイ
ション及び非公式な［！！宜テストを行った。符号化ｎ
は次のようなものを用いる。

ＣＰ　ｉ　Ａ　：開ループ・更新ＩＣＰＩＢ：閉ループ・更新１ＣＰ４Ａ　：開ループ・更新４ＣＰ４Ｂ　：閉ループ・更新４第１０図（ａ）から第１０図（ｃ）にＣＥＬＰ符号化雛
のブロック図を示す。第１Ｏ図（ｄ）に複合化器のフロ
ック図を示す。第６図に用いられている閉ループ法を用
いて、ピッチ及びピッチ利得を決定し、第８図に示され
ている閉ループ法２より励振符号語サーチが行われてい
る。、４つの符号化器に対するビット割当を下記テーブ
ルに示す。

短項フィルター分析については以下に述べる３つの理由
により共変法のうち自己相関法が選択される。第１の理
由は聴感テストによりこれら二つの方法の間には顕著な
差がないからである。第２ｋ理由は自己相関法にはフィ
ルターの安定にかかわる問題がないからである。第３の
理由は固定点計算を用いて自己相関法の実現が可能だか
らである。線スペクトル周波数における１０個のフィル
ター係数は２０ビットかつ２段構成のベクトル量子化器
（マトリクスＡを指定するのに４ビットのみを用いる場
合を除く上述した２６ビット法と同じ方法〕により２４
ビットフレ一ム間予測法を用いて符号化される。もしく
は前述したスカラー量子化器な用いて３６ビット法で符
号化される。しかしながら、増加したビットを収容する
ためには音声フレームの強度を増加させる必要がある。

ピッチ値及びピッチフィルター係数はそれぞれ７ビット
及び５ビットで符号化されている。利得項及び励振信号
はｌフレームにつき４度更新されている。各利得項は６
ビットで符号化されている。

励振符号帳は以下に説明する分解マルチパルス信号を用
いたものが知られている。１０ビット励振符号帳はＣＰ
ＩＡ及びＣＰＩＢ符号化器に対して用いられ、９ビット
励振符号帳はＣＰ４Ａ及びＣＰ４Ｂ符号化器に対して用
いられる。

まず、ＣＰ　ＩＡ及びＣＰＩＢ符号化器の比較が非公式
聴覚テストを用いて行われる。ＣＰＩＢ符号化器はによ
る音声の方がＣＰＩＡ符号化器によるものより劣ること
が知られている。ピッチフィルター更新周波数を励振（
利得）更新周波数は異なるため、最適励振信号をサーチ
するために用いられループ、ピッチフィルターメモリー
と閉ループピッデフイルター分析に用いられるピッチフ
ィルターメモリーは異なることとなる。その結果、閉ル
ープピッチフィルター分析による利点は失われる。

ＣＰ４Ａ及びＣＰ４Ｂ符号化閲はこの問題を回避してい
る。この場合フレームサイズが大きいため、分解マルチ
パルス信号においてより多くのパルスを用いると励振モ
デルにより符号化器の特性を向上でとるかどうかの判定
が行われた。　　Ｎ。

（Ｎｐ＝　１６．１０）の２つの値について行われた。

Ｎ、は各励振符号語におけるパルス数を示す。フレーム
ＳＮＲについてのシュミレーションの結果第１１図に示
す。同図よＬ、Ｎ、が１０を越えると符号化式の特性の
改善には寄与しないことがわかる。

従ってＮｐ”１０に設定する。

ＣＰ４Ａ及びＣＰ４Ｂ符号化訝のフレームＳＮＲに対す
る特性比較を第１２図に示ず。同図から明らかなように
閉ループ法の方が間ループ法に比べ特性が優れているこ
とがわかる。ＳＮＲと知覚した符号化器の特性との相関
関係は、特に符号化器の設計において知覚的重み付けを
用いた場合には薄いが、ＳＮＲ曲線はこの場合正しい値
を示している。非公式聴覚テストの結果から、ＣＰ４Ｂ
符号化器による音の方が残りの三つの符号化器のいずれ
よりもスムーズであり鮮明であることがわかった。再構
成された音質は自然音声に近いと見なせる。

マルチパルス分解Ｐ、クローンおよびＢ、　　Ｓ、　　アタールによるｒ
ＣＥＬＰＣＰ４Ｂ符号化器励振用量子化法」ＩＣＡＳＳ
Ｐ、ｐｐ、３３．８−３３．１１．１９８７年版による
とＣＥＬＰ符号化話において励振符号化帳の基準作成方
法によって大きな差異は生じない、即ち、複数手段によ
って基準化された１０２４個の符号語を有する符号帳は
、ランダムなガウス数によるもの、ランダムな一定数に
よる者、マルチパルスベクトルよるものであっても、再
生される音声はほとんど同一となる。マルチパルス励振
ベクトルの特性がまばらであると（多くの０項を有する
場合）、記憶量？減らすための励振モデルとして好まし
いものとなる。

以下の説明は、特性を悪化させることなくメモリーを相
当量減らす為に、従来用いられていたランダムなガウス
励振モデルを変えて本発明による励振モデルを用いたも
のである。励振サブフレームにＮ１個のサンプルがある
とすれば、Ｂビットガウス符号帳用の必要なメモリーは
２”ＸＮｆワードとなる。各マルチパルス励振コード符
号語中にＮＰｌｌのパルスが含まれているとすれば、パ
ルスの強度と位置を含む必要なメモリーは（２ｋＸ２Ｘ
Ｎ、）ワードとなる。一般に、Ｎ−よＮ、よりはるかに
小さいため、マルチパルス励振モデルを用いればメモリ
ーの削減を行うことができる。

メモリーを更に削減するためには分解マルチパルス励振
モデルを用いることが考えられる。２６のマルチパルス
符号語をランダムに生成されたパルスの強度及び位置に
直接使用するかわりに、２Ｂ／２のマルチパルス強度符
号語及び２６／２のマルチパルス位置符号語が別々に生
成される。次いで、各マルヂバルス励振符号語が２ｂ／
２のマルチパルス強度符号語の１つと、２１／２のマル
チパルス位置符号語の１つを用いることにより構成され
る。合計で２６個の異なる組み合わせが得られる。符号
帳の大きさは等しいが、この場合必要なメモリーはたか
だか（２Ｘ２”’）ＸＮ、ワードとなる。

分解マルチパルス励振モデルが有効な励振モデルである
ことを立証すべく、３つの異なる励振モデノ呟　即ちラ
ンダムなガウスモデル、ランダムなマルチパルスモデル
及び分解マルチパルス励振モデルの異なる３つの異なる
励振モデルを用いてコンピューターシュミレイションを
行った。ガウス符号帳はＮ（０、■）ガウスランダム数
発生弱す用いて生成した。マルチパルス符号帳はそれぞ
れパルス位置とパルス強度に対して一定ランダム数発生
器及びガウスランダム数発生器を用いて生成した０分解
マルチパルス符号帳はマルチパルス符号帳と同じ方法で
生成した。音声フレームの大きさをサンプル数１６０に
設定した。これは８ＫＨ２でサンプルされる音声信号に
対する２０ミリ秒の期間に対応する。１０次の短項フィ
ルター及び３次の長唄フィルターを用いた。両フィルタ
ー及びピッチ値はｌフレーム毎に更新した。各音声フレ
ームを４つの励振サブフレームに分解した。１０２４個
のｒ：ＦＩ＋語を有する符号帳を励振用に用いた。

ランダムなマルチパルスモデル対しては、二つの値のＮ
、（８及び１６）を採用した。　　この場合Ｎ、＝８の
場合はＮ、＝　１６の場合と同様な結果を得た。そこで
、Ｎ２＝８を選択した。３つのモデルに対する必要なメ
モリーは以下の通りである。

ガウス励振：　１０２４Ｘ４０＝４０９６０ワードマル
チパルス励振：　ｌ０２４Ｘ　２Ｘ　８＝１６３８４ワ
一ド分解マルチパルス励振：　（３２＋３２）　Ｘ　８
＝５１２ワード上記よりメモリーの削減が十分であるこ
とがわかる。一方、第１３図乃至第１６図に示したよう
に、異なる励振モデルを使用したために符号化器の特性
がほぼ等しくなっている。よって、マルチパルス分解に
より極めて簡単であるがＣＥＬＰ励振符号帳に対するメ
モリー削減を有効に行う励振モデルが提供される。また
、コンピューターシュミレイションによＬ、本発明にか
かる励振モデルがＣＥＬＰ符号化閲用のランダムなガウ
ス励振モデルとしても有効であることが実証された。こ
の励振モデルでは、メモリーの過負荷の問題を生ずるこ
となく、符号化器の特性を向上するために符号帳の大き
さを拡張することができる。しかしながら、演算の壇雑
さを回避するために拡張した符号帳から最適な励振符号
語を抽出するための対応する高速サーチ法が必要となる
。

直接ベクトル量子化を用いたマルチパルス励ｔｌ符ｉ景１、マルチベクトル発生以下の説明は、ベク］・ル量子化を直接マルチパルス励
振符号化に適用する為の簡単かつ有効な方法を述べたも
のである。パルス強度とパルス位置とともにマルチパル
スベクトルを多次元空間における点として処理すること
が基本的な考え方である。適宜変換を行うことにより一
般的なベクトル量子化技術を直接的に適用することがで
とる。この方法は、典型的ＣＥＬＰ符号化監よ電話相当
に大きい符号帳を有するＣＥＬＰ符号化器用のマルチパ
ルス励振符号帳の設定にも拡張して用いることができる
。最適な励振ベクトルサーチを行うためには、合成によ
る分析法を直接用いるかわりに、ベクトル量子化と合成
による分析法を組み合わせた形で用いる。励振符号帳を
拡張すると符号止器の特性が向上し、一方、高速サーチ
法を用いることにより演算の複雑さが通常のＣＥＬＰ符
号化監の電話に比べるとはるかに複雑さが減少する。

Ｔ、アラゼキ、に、オサワ、Ｓ、オノ及びＫ。

オチアイによる「最大相互相関リーチアルゴリズムに基
づくマルチパルス励振音声符号死語」、グローバル・デ
レコミニュニケイションズ会議、ｐｐ、７３１７３８．
１８８３年版には、相互相関分析に基づくマルチパルス
励振信号発生の有効な方法が述べられている。同様な技
術を基準マルチパルス励振ベクトルを生成するために用
いても良い。この基準マルヂ励振ベクトルは本発明によ
るマルチ・パルス励振符号帳を得るために用いられるも
のである。第１７図にそのブロック図を示す。

Ｘ　（ｎ）を前フレームから過剰分を差し引いた接のＮ
サンプルフレーム中の音声信号とし、■−１パルスがあ
る位置及びある強度を有しているとすると、１番目のパ
ルスはｌ欠のようになる。　ｒｎｌ及びｇＩをそれぞれ
ｉ番目のパルスの位置及び強度とし、ｈ（ｎ）を合成フ
ィルターのインパルス応答とする１合成フィルターの出
力Ｙ　（ｎ）は次式で与えられる。

Ｘ　（ｎ）及びＮ（ｎ）間の瓜み付け誤差は次式％式％（）（（）（））（）（１４）（））ここで、＊は腎み込み演ｎを表し、Ｘｗ（ｎ）及びｈｗ
（ｎ）はそれぞれＸ　（ｎ）及びｂ（ｎ）の重み付けさ
れたＩＭ　号を表す、ｍみ付けフィルター特性は２軸変
換喪記法により次のように表される。

ここでｎｋは１）イ欠のしＰＣスペクトルフィルタ−の
予測係数であＬ、γは知見重み付け制御を行うための定
数である。γの１直は８　Ｋ　ｔｌ　ｚでサンプルされ
た音声信Ｖｌｊに対して約０．　　８である。

最小にずべきｌイｉ差パワーＰｗは次式により定義され
る。

！−１パルスが決定されると、１番目のパルス位置ｍ−
よ１番［」の強度ｇー二関して誤差パワーＰｖの微分１
ｍＧｌ≦川，≦Ｎに対してＯに設定することにより得ら
れ、１番目の強度ｇ１は次式で表される。

上記２つの式Ｊ、り最適パルス位置はｇ，の絶対値が最
大になる点…１になることがわかる。よってパルス位置
は複雑な前ｎを多く行わないで得ることができる．フレ
ームエツジを適宜処理することより上式を更に簡略して
次式を用いることができる。

（１日）ここでＲｈ１．（ｎ　）はｈ　ｗ　（ｎ　）と自動相関
の関１！、にあＬ、Ｒ＋、（１１）はｈ　ｗ　（ｎ　）
及びＸｗ（ｎ）間の相互相関の凹１ｇＩにある。従って
、最適パルス位置ｍ、は式（１８）からｇ＋の絶対最大
点をサーチすることにより決定される。初期化のため、
第１のパルスの最適位Ｍ　ｍ　ＨはＲｈｘ（ｎ）がその
最大値に到達したｆつ置にある。最適強度は次式により
与えられる。

マルチパルス励振信号の発生のために、ＬＰＣスペクト
ルフィルター（Δ（Ｚ））を単独で用いるか、もしくは
スペクトルフィルターとピッチフィルター（ｒ’　（Ｚ
）　）の組み合わせを用いることができる。例えば、第
１７図に示すように、１／Ａ　（Ｚ）　＊　ｌ　／　Ｐ
　（Ｚ）　ハ２つノフ４　／Ｌクーのインパルス応答の
畳み込みを示す。コンピューターシュミレイション及び
非公式聴覚試験結果から、特殊なフィルター東独な場合
には高品質音声を生成するには１フレームにつき約３２
−６４のパルスで十分であることがわかった。１フレー
ムにつぎ６４パルスの場合には再構成された音声が元音
声と区別できない。ｌフレームにつき３２パルスの場合
には再構成された音声は良好であるが元音声に比べると
質的に低下する。スペクトルフィルター及びピッチフィ
ルターの両方を使用するとパルス数を差励振に減少せし
めることができる。

パルス位置を固定したとすれば、複数あるパルス強度を
併せて再最適化することにより符号化器の特性が改善さ
れる。Ｌを１フレームにおける総パルス数としたとき、
最終的なマルチパルス励振信号は単一のマルチパルスベ
クトルＶ＝　（ｍ４、・・、ｍＬ、ｇ４、・・・・、ｇ
Ｌ）により特徴づけられる。

２、マルチパルスベクトルの　　化　環マルチパルスベ
クトル符号化にとって重要なことは、ベクトルＶ＝（ｍ
ｉ、　−−−＋　ｍＬ＋　　ｇ　＋、−。

、＋　　ｇＬ）を数値ベクトルか、もしくは２Ｌ次元空
間での幾何学的な点として取り援うことである。

適当な変換によＬ、有効なベクトル量子化の方法が直接
的に利用できる。

いくつかの符号帳をマルチパルスベクトル符号化のため
に予め作っておく。最初に、パルス位置平均ベクトル（
ＰＰＭＶ）とパルス位置分散ベクトル（ＰＰＶＶ）を音
声データベースモデルを用いて計算される。−組の列マ
ルチパルスベクトル（Ｖ＝（ｍ、＋１、１、ｒｎＬ、　
ｇＩ、・・・＋・−−＋　ｇし））を与えた場合、　　
ＰＰＭＶ及びｐｐｖｖは以下の様に定義されるＰＰＭＶ＝　　　（Ｅ　　（ｍ＋）、−１，、Ｅ　　（
ｍ＋））ＰＰＶＶ　　＝　　　（ｃｒ（ｒｒ＋＋）１、
１、、σ　（ｍ＋））（２０）ここで、Ｅ（、）及びσ（、）は各々引数の平均と凛準
＠差を表している。さらに各列マルチパルスベクトルＶ
は対応するベクトルｖ”　（ｍ＋、−ｍＬ５　ｇＩ、・
・・ｌｏｌｌｇ−に変換される。ここで、ｍ　　＝　　
　（ｍ、−Ｅ　　（ｒｒ＋＋）　）　／σ　（ｍ、）λ
ｉ　　＝　　ｇｉｌｏ１、、（２１）ここで、Ｇは以下の式により与えられた利？得項を表し
ている。

各ベクトル■はいくつかの情報圧縮処理を用いてさらに
変換される。これにより得られた列ベクトルはマルチパ
ルスベクトル量子化のための符号帳を設計するために利
用される。

ここで、式（２１）の変換処理は何等情報圧縮効果を得
るものではないことに注意すべきである。

この変換処理！は設８１されたベクトル量子化腑が、例
えば異なった→ノブセットの位置ベクトルかもしくは異
なる音声パワーレベルのような、異なった条件に適応す
ることができるように利用されているに過ぎない。この
ｔＩＩ、ｌ′ｉのＩＬ！情報伝送速度用音声符号化分野
への応用に極めて有効なベクトル量子化による分解能は
（固定端ｌ１ｉＪ伝送速度与えると）、ベクトルＶの良
好な情報圧縮変換により改良されることができる。しか
しながら、現在のところ有効な変換方法はいまだ見いだ
されていない。　利用される情報伝送速度とベクトル量
子化器の分析上の要求に応じて、異なった構造の量子化
器を利用することができる。例えば、予測ベクトル量子
化器、多段ベクトル量子化器等が利用することができる
。マルチパルスベクトルを数値ベクトルとみなすと、単
純な重みを付けたユークリッド空間での距離がベクトル
量子化器の設計上の歪量として利用することができる。

各セルの中心・ベクトルは単紳な平均処理な施すことで
求められる。

オンラインマルチパルスベクトル符号化に対しては１、
各ヘクトルＶは最初に式（２１）で与え設計されたべり
ｌ・ル量子電器により量子化される。

量子化されたべりトルはｑ　（Ｖ）　＝　　（ｑ　（ｍ
、）、　。

−１＋ｑ（■Ｌ）、ｑ（ｇ＋）１、１、、ｑ（ｇＬ））
として表される。（夏号化側では、符号化されたマルチ
パルスベクトルはベクトルｖ＝　（ｍｗ　−−ｍＬ、　
　　ｇ　ｌ＋　−−、＋　ｇ　Ｌ）として再構成される
。

ここで、ｍ、　＝　［ｑ（ｍ、）ｃｒ（ｍ、）＋Ｅ（ｍ、）］ｑ
、　＝　ｑ（ｑ、）ｑ（Ｇ＞ｑ　（Ｇ）はＧの量子化された値を表しておＬ、最良の
励振信号を得るために行われる閉ループ処理により求め
られた利得項である。（、）は引数に最も近い整数を表
している。

一般に、２Ｌｉｋ元ベクトルは有効なベクトル量子化器
を股Ｒ１するのには余りに大きすぎるので、ベクトルを
づブベクトルに分割する必要がある。

さらに各→ノ°フベクトルは分離ベクトル量子化器を用
いて符号化される。　　　この点から、一定の情報伝送
速度を与えると、各フレームにおけるパルス数の増加と
マルチパルスベクトル量子化器の分解能の改良に関して
シスデム殺計上の折衷策があることが分かる。　　最良
の折衷策は実験により見つけだすことができる。

マルチパルスベクトル量子化法はＣＥＬＰ符号化閲（も
しくは−股部なマルチパルス励振線形予測符号死語）用
の励振符号帳の設計に拡張することができる。目障とす
る情報伝送速度は４．８ｋｂｐｓ、　　これを達成する
ために、第一に性能向上のために励振符号帳の大きさを
増加し、第二に現フレーム用の（理想的な）非量子化マ
ルチパルスベクトルが励振高速ｔマ素処理のための参照
ベクトルとしてＩｌｌ用できるようにマルチパルスベク
トル量子化処理の分解能を十分に高くＭ持することが目
障とされている。高速探索処理は小サブセットの候補励
振ヘクトルを選ぶために基準マルチベクトルを利用して
いる。このサブセットから最良の励振ベク）・ルを見つ
けだすために合成分析法が弓き続き行われる。二段階方
式のベクトル量子化処理と合成分析法の組み合わせを採
用する理由は、このような低速の情報伝送速度では、マ
ルチパルスベクトル量子化の分解能が比較的粗くなＬ、
（重み付けした）ユークリッド空間での距離という点か
らみた場合に基準マルチパルスベクトルに最近接してい
る励振ベクトルが、重み付け歪量という点からのみた場
合に原音声に最も近い再構成音声を作り出すための励振
ベクトルではなくなるからである。従って重要なことは
、符号語の性能を最大にする、設計上の妥協策を見いだ
すことである。

良好な一妥協策として、４．８ｋｂｐｓでの目障とする
全ての情報伝送速度に対して各音声フレームでのパルス
Ｆ１．Ｌを、符号器の性能と高速探索のためのベクトル
量子化器の分解のという観点から、３０に設定すること
である。ピッチフィルター更新速度を調和するために（
１フレームあたり３回）、各々ｔ＝Ｌ／３のパルスを持
つ３つのマルチパルス励振ベク］・ルを各フレーム毎に
求める。

変ｍされた各マルチパルスベクトルＶは強度ベク分解さ
れている。二つの、８ピツト、１０次元完全探索ベクト
ル量量子化器■ゆと■６を符号化するために各々用いら
れている。

異なる上記ベクトルの組み合わせを用いる場合、各組み合わせたベクトルＶ
−とＶ６のための励振符号帳の有効な大きさは２５ｅＸ
２５ｅ＝６５，５３６となる。これは典型的なＣＥ　Ｌ
　Ｐ符号色間で用いられる励振符号帳（通常は１０２４
以下）の対応する大きさよりもかなり大きな１直である
。これに加えて、この場合での励振符号帳に対する計算
容量は（２５６＋２５ｆ３）ＸＩ　Ｏ＝５１２０語であ
る。典型的なＣＥＬＰ符号化≧３で１吏用されているｌ
Ｏビットランダムガウス型符号帳に要求される語数（近
似的に１０２４Ｘ４０＝４０９６０）に比べると、記憶
容量の少なさも重要な点である。

さらに、３つの励振サブフレームの各々のフレームにお
ける最良励振マルチパルスの探索を実行するために、２
段階の高速探索処理が続いて行われる。高速探ｆ法のブ
ロシク図が図２７で示されている。　最初に、現在のサ
ブフレームのｔ：めの非量子化マルチパルス信号である
基準マルチパルスベクトルが、前文で引用したアラゼッ
キ等による文献中に述べられた相互相関分析法を用いて
作成すれる。基準マルチベクトルは位置ベクトル■カと
強度ベクトル■６に分解され、さらにこれらのベクトル
はふたつの股言１されたベクトル量子化器を用いて強度
と位置の符号帳に従って量子化される。ベク）・ルＶ。

から予め定義した最小の歪量な有する　Ｎ、ｆｉＮの符
号語と、ベクトルＶ、から予め定義された最小の歪量を
有するＮ２個の符号語が選ばれる。これによＬ、合計Ｎ
、ＸＮ２個の候補マルｇ＋＋−、−＋ｇＬ）が形成され
る。これらの励振ベクトルは一つずつ、ＣＥＬＰ符号化
器で使用される合成分析処理を用いて、現在の励振サブ
フレームのための最良のマルチパルス励振ベクトルを選
び出すために試される。１フレーム（４つのサブフレー
ムと１０２４の励振符号ベクトルがあると仮定する）中
に４Ｘ１０２４の合成分析工程を必要とする典型的なＣ
ＥＬＰ符号化器と比べて、上記方法では計算上の複雑さ
はかなり低減されている。さらに、マルチパルス励振を
使用することは、また、合成分析処理で必要な合成工程
を容易にしている。

ランタム励振符号帳を用いれは、ＣＥＬＰ符号化器は４
．８ｋｂｐｓでの良質な音声を作り出すことができるか
、自然音声に近い音質を作り出すことはほとんどできな
い。ＣＥＬＰ音声符号化器の性能はマルチパルス励振符
号帳と上述した高速探索法を使用することで高めること
ができる。

符号化麗とＩＱ号化電器ブロック図を図１８（ａ）と１
８（ｂ）に示した。サンプリング速度は、１フレーム当
たり２１０のサンプル数を有するフレーム構造では８ｋ
Ｈｚでよい。また、４．８ｋｂｐｓで、利用可能なデー
タビットは１フレーム当たり２６ビツ１である。まず、
入力された音声信号が無音検出器２００により音声フレ
ームか無音声フレームとして検出される。無声音フレー
ムの場合、全ての符号化／１１号化処理が省略され、適
当なレベルの白色雑音のフレームが復号化側で作られる
。音声フレームに対しては、自己相関法に基づく線形Ｔ
−ｉ１．１＋分析を利用することで、１０次スペクトル
フィルターの予測係数をハミング窓音声を用いて抽出す
る。ピッチ値並びにピッチフィルター係数が以下で述べ
る閉ループ処理に基づいて演算される。さらに、マルチ
パルスベクトルの生成を単純化するために、１次ピッチ
フィルターを用いる。

スペクトルフィルターはフレーム毎に一度更新され、ピ
ッデフイルターはフレーム毎に３回更新される。ピッデ
フイルターの安定性（不動性）はピッチフィルター係数
の大きさな制限することで制御されている。スペクトル
フィルターの安定性（不動性）は線スペクトル周波数の
自然順番付け処理（ナチュラルオーダリング）を確実に
することで制御されている。３つのマルチパルス励振ベ
クトルがスペクトルフィルターとピッチフィルターの組
み合わせインパルス応答を用いてフレーム毎に求められ
る。変換の後に、マルチパルスベクトルが前述したよう
に符号化される。しかるｆ＆に、非量子化マルヂバルス
ベクトルを基準ベクトルとして用いた高速探索処理が行
われ、最良の励振信号が得られる。

スペクトルフィルターＡ　（Ｚ）の（糸数ベクトルが、
Ｆ、イタクラの°゛音声信号の線形予測係数の線スペク
トル表示″（日本音響学会ｕ５”Ｌ、補遺Ｎｏ、１、５
３５．　　１９７５）及びＧ、　Ｓ、カングとＬ、　　
Ｊ、　　フランセルによる゛°線スペクトル周波数（Ｌ
ＳＦｓ）に基づく低ビットレート用音声符号化器”　（
ＮＲＬ報告　８８５７．１９８４年１１月）で開示され
ているように、線スペクトル周波数に変換され、しかる
後に二段階（１０Ｘ１０）ベクトル量子化器を用いた２
４ビットのインターフレーム予測により符号化される。

インターフレーム子１１１１は、Ｍ、ヤング、Ｇ、デビ
ッドソン並びにＡ、ガーンヨによるパ切り替え最適型イ
ンクフレームベクトル予ｉｔ！Ｉ＋　ヲ用いたＬＰＧス
ペクトルパラメータの符号化”　　（ＩＣＡＳＳＰ、ｐ
ｐ４０１−４０５．１９８８）で報告されたものとＭｌ
している。サンプル数が１１３−１４３の範囲にあるピ
ッチ値は７ビットにより各々直接的に符号化することが
できる。また、ピッチフィルター係数は各々５ビットに
よりスカラー量子化されることができる。マルチパルス
利得項も６ビットによりスカラー量子化が可能である。

３つのマルヂバルスベクトノし符号化に対しては４８ビ
ットが割り当てられている。

復号化側では、マルチパルス励振信号が再構成され、ス
ペクトルフィルターとピッチフィルターを有する合成器
への入力信号として利用される。

典型的なＣＥＬＰ符号器と同様に、■、ラマムーシーと
Ｎ、　　Ｓ、　　　ンエイアントによる′°適応型後段
フィルタ処理によるＡＤＰＣＭ音声の向上゛（Ａ　Ｔ　
＆　Ａ　　ヘル研究所、ジャーナル、ＶｏｌＥ１３．Ｎ
ｏ、８．Ｉ）Ｉ）、１４ｅ５−１４７５１９８４　１０
月）及びＪ、ｌ（、チェノ及びＡ。

ガーショによるパ適応型後段フィルタ処理を用いた４　
８００　ｂ　Ｉ）　Ｓでの実時間ベクトルＡＰＣ音声符
号化”（ＩＣＡＳＳＰ、ｐｐ、　　　２１８５−２１８
８、　　１９８７）で開示されている適応型後段フィル
ターを用いて知覚可能な程度に音質を向上させることが
できる。単純な利得制御法を用いて、出力音声のパワー
レベルを後段フィルター処理前のパワーレベルにほぼ等
しく維持することもできる。

比較のために、図１０　（ａ）−１０（ｄ）で示された
符号化器／１１号化処理用い、フレームの大きさをサン
プルＦ２２２０とした場合、４．８ｋｂｐｓでのデータ
ビットの数は１フレーム当たり１３２ビットであった。

スペクトルフィルター係数は２４ビットで符号化され、
ピッチ、ピッデフイルター、利１畳項、並びにに励振信
号は全て１フレーム当たり４回更新された。また、各々
７．５．６．９ビットで符号化された。使用された励振
信号は上述した分解マルチパルス励振モデルであった。

両符処理監の性能は、音声データベースモデルの内部と
外部の音声信号に対して実験的に評価されたが、非公式
的な聴覚テストによると、Ｅ−ＣＥＬＰ方がＣＥＬＰよ
りも幾分滑らかで明瞭であった。

マルチパルス励振法は有声音に対して周期的な励振成分
を作ることができるので、ピッチフィルターを省略する
ためにさらに改良が可能である。

１扛１立豆旦１１上述した実施例では、平均二乗誤差（ＭＳＥ）歪量が高
速励振深索に利用されていた。ＭＳＥの欠点は２つあＬ
、一つはかなりの計算量が必要な点と、他の点はそれ自
身重み付けられていないので、全てのパルスが同一なも
のとして扱われてしまう点にある。しかしながら、主観
テストからは、マルチパルス励振ベクトルでの強度が大
きいパルスは再構成された音声の音質への寄与という観
点から重要なものであることが判明している。従・って
、重み付けしていないＭＳＥによる歪量を利用すること
は妥当ではない。

この欠点を解決するために、ここでは単純な歪量を導入
する。計算を容易にするための絶対誤差なる概念を導入
しているので、特に動的重み付けをほどこした歪量を利
用している。パルス強度に応じて求められる動的重み付
けを利用することで、より大きな強度を有するパルスが
より忠実に再構成されることになることが確かめられる
。歪量Ｄと重み付け因子ω、は以下のように定義される
。

ここで、ここで、Ｘｗはマルチパルス強度（もしくは位置）ベク
トルの成分、ｙ、はこれに対応するマルチパルス強度（
もしくは位置）の符号語の成分、ｇＩ、・・・はマルチ
パルス強度及び乙はマルチパルス強度（位置）ベクトル
の（火元を表している。高速探索処理の最初の工程で［
Ｌ較的粗く量子化された強度の低いパルスの再構成は高
速探索処理の第二の工程で考慮されている。

コンビュータノユミレーンヨンによＬ、重み付けされた
絶対誤差歪量と重み付けされたＭＳＥ歪量を用いた場合
では、これらの性能はほぼ同一であったが、前者の方が
計算上の撞雑さにおいてはかなり低減されていることが
分かっている。この場合も、高速探索処理の第一工程で
比較的粗く量子化された低強度のパルスの再構成が第二
の工程で考慮されている。

動的ビット割当多数の無声音要素を含む発声音に対して、ピッチ合成器
は有効でないが、不変の音声要素に対してはかなり有効
なものであることが分かっている。

従って、低速の情報伝送速度で音声符号化／（夏処理器
の性能を高めるためには、ピッチ合成器と励振信号の音
質への１留性（を義、有効性）を調べることが有益であ
る。もしこれらが再構成された音声の音質にあまり影響
しないもの（有効でない）であれば、ピッ１データをこ
れらに依存するパラメータに割り当てる。

ピッチ合成器の影響性を検査する方法として、間ループ
法と開ループ法の２つの方法が提案されている。間ルー
プ法は閉ループ法に比べてあまり演算を必要としないが
、性能において劣っている。

ピッチ合成器の影響性検査のための間ループ法の原理が
図２０に示されている。この方法で、特に残差信号ｒ、
（ｎ）とｒ２（ｎ）の平均パワーが求められ、各々ＰＩ
、Ｐ２で表されている。もしＰ２＞ｒＰｌ　　（ｒは設
計パラメータ、Ｏ＜ｒ＜１）ならば、ピッチ合成器は影
響性がないと判定される。

ビッヂ合成２Ｎの影響性検査のための閉ループ法は図２
１に示されている。ｒ、（ｎ）は、ピッチ並びにスペク
トル合成器３００及び３１０の記憶容量に起因する音声
信号とその応答とのズレ（差）に知覚可能な程度の重み
付けをしたものを表している。また、！・２（ｎ）はス
ペクトル合成器３１２のみの記憶容量の起因した音声信
号とその応答とのズし・（差）に知覚可能な程度に重み
付けしたものな表している。Ｐ、とＰ２ｋより各々表さ
れる、ｒ、（ｎ）とｒ２ｃｎ）のパワーを求め、もしｐ
２＞ｒＰ、　　（ｒは設計パラメータ、０＜ｒ＜ｉ）で
あれば、ピッチ合成器を影響性なしと判定する。

ピッチ合成器の場合と同様、励振信号の影響性検査でも
間ループ法と閉ループ法の２つの方法が提案されておＬ
、間ループは演算の点では閉ループよりは容易だが、性
能の点では閉ループに劣っている。上述した高速励振探
索処理に利用されている基準マルヂバルスベクトルは相
互相関分析法により求められている。（０互相関とマル
ヂバルス抽出後の残差相互相関の流れが図２２ｋ示され
ている。この図よＬ、以下で示される励振信号の影響性
検査のための単純な開ループ法が利用できる。

すなわち、Ｐ１、Ｐ２で表されたｒ＋（ｎ）とｒ２（ｎ
）の平均パワーを求め、もしＰ２＞ｒＰ、もしくはＰＩ
＜Ｐｒ　　（ｒ、Ｐｒは設計パラメータ、Ｑ＜ｒ＜１）
であれば、励振信号は影響なしと判定される。

励振信号の影響性検査に対する閉ループ法が図２３に示
されている。ｒ、（ｎ）は２つの合成フィルターによる
音声信号とＧＣ５とのズレ（差）に知覚重み付けを行っ
たものである（　Ｃ＋は励振符号語で、Ｇは利得項であ
る）。また、ｒ２（ｎ）は２つの合成フィルターによる
音声信号とゼロ励振の応答とのズレ（差）に知覚重み付
けを行ったものである。Ｐｉ、Ｐ２ｋより表されたｒｌ
（ｎ）とｒ２（ｎ）の各々の平均パワーを求め、さらに
もしＰ＋＞ｒＰ２であれば（ｒは設計パラメータであり
。

Ｑ＜ｒ＜１）、励振信号は影響性ありと判定される。

本発明の音声符号化／復号化器の一実施例ではピッチ合
成２３と励振信号は１フレーム毎に数回（例えば３−４
回）同期して更新されている。これらの更新間隔はここ
ではサブフレームに対応している。各サブフレームでは
図２４で示される３つの事象が有り得る。一つの事象は
、ピッチ合成器が影響性なしと判定される場合で、この
場合は励振信号は重要である（影響性あり）と判定され
る。第二のｉｔとしては、ピッチ合成語と励振信号が共
に影響性ありと判定される場合である。第三の事象とし
ては、励振信号が影響性なしとして判定される場合であ
る。ピッチ合成器と励振信号が共に影響性なしと判定さ
れる事象はありえない。

これは１０次スペクトル合成器は原音声信号に十分に適
合させることができないからである。

もし、特定のサブフレームでのピッチ合成器が影響性な
しと判定されるならば、これに割り当てられるビットは
ない。また、ピッチとピッチ利得のためのビットを含む
データビットＢ、は同一のサブフレームか引き続くサブ
フレームの内の一つのフレームのために除去記憶される
。もし、特定のサブフレームの励振信号が影響性なしと
判定されるならば、これに割り当てられるビットもない
。

利得環のための８６ビットと励振それ自身のためのＢ、
ビットを含むデータビットＢＧ＋Ｂ、は引き続くサブフ
レームの内の一つの励振信号のために除去記憶される。

また、上述した３つの事象を各フレーム毎に特定するた
めに２ビットが割り当てられておＬ、さらに現在と引き
続くサブフレームで利用可能なＬ、とＢ。十Ｂ、の数を
特定するために送信側と受信側に２つのフラッグが同期
して保持されている。

引き続くサブフレームの励振信号のために記憶されたデ
ータビットが励振符号語Ｃ１１ｌＣＩ２の探索と利得環
Ｇ１、Ｇ、の演算にための二段階閉ループスキーム（数
字１．２は第−段階及び第二段階を表す）としてｆｌｌ
用されている。第一段階では、図９で示される閉ループ
法が利用されている（ここで、ｌ／Ｐ　（ｚ）、１／Ａ
　（ｚ）　　及びＷ（ｚ）はピッチ合成器、スペクトル
合成器及び知覚重み付けフィルターを各々表している。

また、Ｚｗ（ｎ）はスペクトル合成器とピッチ合成器の
重み付けされた記憶を差し引いた／＆の腫み付けされた
音声残差を表し、さらにＹＷ（ｎ）は励振信号ＧＣ，を
ゼロに設定されたピッチ合成器への通過応答を表してい
る。各符号語Ｃ８が試され、Ｚｗ（ｎ）とＹｗ（ｎ）間
の最小二乗誤差歪量を作り出す符号語Ｃ０が最良の励振
符号語Ｃ１ｌとして選ばれる。しかる接、対応するｉ１
１得項がＧｌとして求められる。されに第二段階で同一
の処理がＣ１□と０２を求めるために行われる。第一段
階と第二段階の唯一の相違は以下の点である。

（１）Ｚｗ（ｎ）がスペクトル合成器、ピッチ合成語並
びに　　（第一段階で選ばれた励振信号ＧいＣＩ＋によ
って作られた）Ｙｗ（ｎ）の腫み付けされた記憶を差し
引いた後の重み付けされた音声残差である。

（２）図２４で示される第二段階でのＢ、やＢ。

Ｂｏのような励を辰信号のために利用できる余剰のビッ
トに依存して、励振符合幅が異なる。もし、Ｂ、ビット
が利用できれば、同一の励振符合幅が第二段階でも利用
できる。もしＢ−Ｂａビットが利用できれば〔通常はＢ
、−８゜はＢ、よりも小さい〕、２　”個の符合語以外
の最初の２８Ｐ−８０個の符合語のみが使用されている
。

図２４に戻って、ピッチ合成器が影響性なしと判定され
る第一の事象では、励振信号が重要なものとなる。従っ
て、もしＢ。十Ｂ、の余剰ビットが前のサブフレームか
ら入手可能なものであれば、ここでそれらを利用する。

入手不可能であれば、前のサブフレームもしくは現在の
サブフレームから記憶されたＢ、ビットが利用される。

また、ピッチ合成器と励振信号が共に影響性ありと判定
される第二の事象では、３つの場合が有り得る。すなわ
ち、前のサブフレームからはなんの余剰ビットも利用で
きない場合と、Ｂ、ビット利用できる場合と、　　ＢＧ
＋Ｂ−のピッ；・が利用できる場合である。

この場合、第二段階でゼロビットを割当で次のサブフレ
ームでの第一段階のために余剰のビットを除去記憶する
ようにしても良い。もしくは、両方のビットが利用でき
る場合、ＢＯ＋Ｂ、のビットでなくＢ、のビットをｆｌ
＋用し、ＢＧ＋Ｂ、は引き続くサブフレームでの第一段
階で利用するために記憶することも可能である。いずれ
にせよ、最良の選択は実験的に確かめることができる。

音声符号パラメーターの反復結合量　化法第２図に示さ
れた合成器の構成に適用すべき最適化法であって、ＩＩ
Ｉ用できる伝送速度のものを行うためには、全パラメー
ターを演算して、原音声と再構成された音声との知覚可
能な程度に重みづけされた歪量を最小化する結合最適化
を行う必要がある。このパラメーターには、スペクトル
合成係数、ピッチ１直、ビッヂｆＩ＋得、励振符号語　
Ｃい利得型　Ｇ、ボスｉ・フィルター係数が含まれる。

しかし、かかる結合最適化法は、膨大な量の一連の非線
形方程式の解な求めなければならない。従って、この方
法によると、音質を極めて良好にすることができるが、
現実には、実施不可能なものである。

一方、音質をそれ程には良好なものとしない方法として
は、いくつかの準最適化方法がある。第２５図は、その
−例を示すものである。この例では、結合最適画法はピ
ッチ合成語と励振信号のみを含むような規漠でおこなわ
れる。そして、直接結合最適化法の代わりに、反１！結
合最適化法が用いられる。まず、第１０（ｂ）図に示す
ように、初期化の為、ゼロ励振で、ピッチ値とピッチ利
得を閉ループ法で演算する。次に、ピッチ合成器を固定
して、閉ループ法で最適励振符号語Ｃ２とこれに対応す
る利得型Ｇを演算する。その後、第２５図に示されたス
イッチを駆動して、図の下方のループを閉じる。この結
果、演算された最適励振（ＧＣ＋）が今度は入力として
用いられ、ピッチ値とピッチ利得を再度演ｎする。この
操作は、歪量からみた音質についてもはや意味のある程
度の改良がなされなくなる、いわゆるしとい僅に達する
まで、続けられる。この反復方法を用いることによＬ、
演算をＩＩ　ＩＩにすることなく、再構成された音質を
良好にすることができる。

第２６図に示すように、同様な操作は、第１０（Ｃ）図
に示されたタイプのスペクトル合成語についても行わせ
ることができる。ここで、１／Ｐ（ｚ）、１／Δ（Ｚ）
、及び１／Ｗ（Ｚ）は、それぞれ、ピッチ合成器、スペ
クトル合成語、及び、知覚可能に瓜み付けするフィルタ
を示し、式（６ａ）及び（６ｂ）で定義されるものであ
る。そして、ｌ／Ａ　（Ｚ）及びＷ　（Ｚ）に対する結
合伝送関数は、以下の式で表されるｌ／Ａ’　　（Ｚ）
である。

初期化のため、Ａ　（Ｚ）は典型的な線形予測符号化法
によって１貫芹される。すなわち、自己相関法または共
変法を用いて演算する。Ａ　（Ｚ）が与えられると、ピ
ッチ合成器は記述のように閉ループ法で演算する。そし
て、励振信号ＣＩ及び利得型Ｇを演算した後、再び、第
２６図に示すように反復結合量適法をｎｌいてスペクト
ル合成器を再ｉ＊算する。この演算な簡単に行う為には
、出発点として、既に演算されたスペクトル合成器係数
（ａ、）を用いた佳、傾斜探索法を用いればよい。この
方法については、Ｂ、ウィドロー及びＳ、　　Ｄ、　　
ステアーンによる″適応型信号処理パ（プレンティスホ
ール、１９８５）に開示されている。この演算の結果、
５ｖ（ｎ）とＹ、（ｎ）との間の歪を最小とする一郡の
ＩＬ数を新たに見つけることかできる。

以上の過程を式で表すと以下のようになる。

ここで、Ｎは、分析フレーム長である。そして、１渾が
移動するといった複雑な問題を回避するため、開ループ
法により演算されたスペクトル合成器係数に基づいて、
音声信号に対する重み付けフィルターＷ（Ｚ）が固定し
ているものと仮定する。

そして、スペクトル合成器１／Ａ　（Ｚ）に対する重み
づけフィルターＷ　（Ｚ）だけが、スペクトル合成２ｇ
に同期して更ｔ１１されるものと仮定する。こうして、
ビッヂ合成器と励振信号が一定のしきい値の段階に達す
るまで再演算される。

尚、スペクトルフィルタでは、ピッチフィルターとは異
なＬ、その安定性を上記の再演算の間じゆう、維持しな
（Ｊればならない。また、ここに掃案じた反１夏結合ｆ
ｚｉａ化方法は、低伝送速度の音声符号語にも広く適用
できるものである。

適用型ボストフィルターｐ　（ｚ）は、次式によって表
される。

Ｐ（Ｚ）！［（１−μ２　）（Ｚ／β）］Ａ１（Ｚ／α）（２２）ここで、（Ｚ）はである。

この式において、ａ、′は、スペクトルフィルタの予測
係数である。α、βおよびμは、設計定数であって、そ
れぞれ、０．７に＋、０．５に＋、及び、０．３５に＋
である。ここで、Ｋ、は、第一反射係数である。一方、
自動利得調整については。

そのブロック図を第１９図に示す。ここで、ポストフィ
ルタ処理される前の音声信号の平均パワーは、ステップ
２１０で１宵算され、また、ポストフィルタ処理接の音
声信号の平均パワーは、ステップ２１２で演ｎされる。

この自動利得調整では、利得項は、音声信号のポストフ
ィルタ処理前後の平均パワーの比として、演算される。

再構成音声は、かかる利得項でポストフィルタ処理され
た各音声サンプルを、増倍することによって得ることに
なる。

尚、本発明は、以上詳述した実施例に限定されるもので
はなく、その趣旨を逸脱しない範囲において挿々の変更
を加えることがでとる。

［効果コ本発明は、以上述べた特徴の一部または全部を有する符
号ｆシ′復処理雌をｔ１供するものであＬ、これらの特
徴によＬ、特に４．８ｋｂｓの範囲で優れた効果を発揮
させることがでとる。

【図面の簡単な説明】

第１図は、音声の合成による分析に基づいた符号化／（
ν帰化のｔｒ号号器器側ブロック図、第２図は、音声の
合成による分析に基づいた符号化／ＩＩ号化の陵処理訝
部のブロック図、第３図は１本発明による音声活動測定
を説明するフローチャー１・、第４図（ａ）は、本発明によるフレーム間予測符号化構
成を説明するフローチャート、第４図（ｂ）は、第４図
（ａ）のフレーム間予；（ＩＩＩ符号化構成を更に説明
するブロック図、第５図は、符号化励振線形予−り法に
よる音声合成基のブロック図、第６図は、本発明による閉ループピッチフィルター分析
の手順？説明するブロック図、第７図は、第６図のブロ
ック図と等価なプロ・ンク図、第８図は、本発明による閉ループ励振符号語探索の手順
を説明するブロック図、第９図は、第８図のブロック図と等価なブロック図、第１０図（ａ）、第１０図（ｂ）、第１０図（ｃ）、及
び、第１０図（ｄ）は、本発明による符号化励振線形予
♂１１法による符号化器をまとめて説明する図、第１１図は、単位フレーム当たり４回のピッチフィルタ
ー更新周波数での閉ループ構成のピッチフィルター分析
法を用いた符号化式のＳ／Ｎ比を説明する図、第１２図は、単位フレーム当たり４回のピッチフィルタ
ー更新周波数を有する複数の符号化器のフレームＳ／Ｎ
比を説明する図であって、−の符号化器は間ループ構成
のピッチフィルター分析法を用い、他の−の符号化器は
閉ループ構成のピッチフィルター分析法を用いたもので
あるもの、第１３図は、各励振符号語内のパルス数Ｎ、
が異なっているマルチパルス励振を用いた符号化器のフ
レームＳ／Ｎ比を説明する図、第１４図は、ガウス数で母集団化された符号帳を用いた
ーの符号化器と、マルチパルスベクトルで母集団化され
た符号帳を用いた他の−の符号化器とのフレームＳ／Ｎ
比を説明する図、第１５図は、カラス数で母集団化され
た符号帳を用いたーの符号化器と、分解されたマルチパ
ルスベクトルで母集団化された符号帳を用いた他の−の
符号化器とのフレームＳ／Ｎ比を説明する図、第１６図
は、マルチパルスベクトルで母集団化された符号帳を用
いたーの符号化器と、分解されたマルチパルス励振）・
ルで母集団化された符号帳を用いた他の−の符号化器と
のフレームＳ／Ｎ比を説明する図。第１７図は、本発明のマルチパルスベクトル生成方法の
ブロック図、第１８図（ｎ）、及び、第１８図（ｂ）は、展開した励
振符号帳を用いた符号化弱な説明する図、第１９図は、
本発明による自動利得制御方法を説明するブロック図、第２０図は、本発明によるピッチ合成器に対して行う間
ループ構成の影響性（有効性）試験の方法を説明する簡
単なブロック図、第２１図は、本発明によるピッチ合成器に対して行う閉
ループ構成の影響性（有効性）試験の方法を説明する簡
単なブロック図、第２２図は、マルチパルス励振信号に対する間ループ構
成の影響性（有効性）試験の方法を説明する図、第２３図は、励振信号筒対する間ループ構成の影響性（
有効性）試験の方法を説明する図、第２４図は、本開明
による動的ビット割当方法を説明する図、第２５図は、本発明による反復結合最適化方法を説明す
る図、第２６図は、スペクトル合成語を含むように結合最適化
方法を応用する方法を説明する図、第２７図は、本発明
による励振符号帳高速探索方法を説明する図である。図中１０・１２・４１６．２０　・４２Ｇ　・２８　・３２　・・・音声検出回路、・・スペクトルフィルタ分析回路、・・スペクトルフィルタ符号化回路、１８・・・ピッチ／ピッチ利得演算回路、・　・Ｈ１ｌ＋辰符号帳、・・ピッチシンセサイザ・スペクトルシンセサイザ、知１を重み付け回路・ｆす得符号化回路。

Claims

【特許請求の範囲】

（１）入力された音声信号をピッチ、ピッチ利得ｂ、ｃ
＿１、Ｇのような複数の符号化信号部に符号化する符号
化装置であって、該符号化装置は、該符号化信号部のう
ちのピッチ、ピッチ利得ｂのような少なくとも第１の符
号化信号部を発生するため該入力音声信号に応答する第
１の手段（１６）と、該複数の符号化信号部のうちｃ＿１、Ｇのような少なく
とも第２の符号化信号部を発生するため該入力音声信号
と少なくとも該第１の符号化信号１とに応答する第２の
手段（２０〜３２）を有し、該第１の手段は反復演算に
よる最適化手段を有しており、該最適化手段は励振信号が存在しないことを前提として該第１の符号化
信号部の最適値を決定し、また該最適値に対応する第１
の出力を発生する第１工程と、該第１の出力に基づき該
第２の符号化信号部の最適値を決定し、また該最適値に
対応する第２の出力を発生する第２工程と、該第２の出力が励振信号であることを前提として該第１
の符号化信号部の新たな最適値を決定し、また新たな最
適値に対応する新たな第１の出力を発生する第３工程と
、該新たな第１の出力に基づき該第２の符号化信号部の新
たな最適値を決定し、それに対応する第２の新たな出力
を発生する第４工程と、該第１、第２の符号化信号部の最適化がなされるまで該
第３、第４工程を繰り返し行う第５工程とを実行するこ
とを特徴とする符号化装置。
（２）前記第２の手段は、前記音声信号の予測値を発生
し該予測値と該入力音声信号とを比較することにより前
記第２の符号化信号部を発生し、また、前記第３第４工
程は該予測値と該入力信号との間の歪が最小となるまで
繰り返し実行されることを特徴とする請求項１記載の符
号化装置。
（３）前記複数の符号化信号部はスペクトルフィルタ係
数を包含しており、また前記反復演算による最適化手段
は、最初に初期のスペクトルフィルタ係数群を演算し、
次に前記第１工程から第５工程に基づいて得られた前記
第１、第２の符号化信号部の最適値を誘導し、そして次
に少なくとも該第１第２の最適化された符号化信号部と
該初期のスペクトルフィルタ係数群とによりスペクトル
フィルタ係数群の最適値を誘導するための手段を有する
ことを特徴とする請求項１記載の符号化装置。
（４）複数の連続的な分析期間を具備する原入力音声信
号から各分析期間における予測係数群を誘導する工程と
、該予測係数群を符号化して該予測係数群を符号表示化
する工程と、該予測係数群の符号表示化値を復号器に転
送し該予測係数の該符号表示化値に基づき原入力音声信
号を合成する工程とを有する音声分析合成方法において
、特定の分析期間における該予測係数群をパラメータ群の
うちのパラメータに変換してパラメータベクトルを生成
する工程と、該パラメータベクトルから多数の音声データベースによ
り事前に決定されている実効ベクトルを減算する工程と
、 ■＿ｎを該特定の分析期間のときの予測パラメータベク
トルとし、Ｆ＿ｎ＿−＿１を先行する直前の分析期間の
ときのパラメータベクトルとし、Ａを予測マトリクスと
したとき、該多数の音声データベースにより事前に用意
されている２＾Ｌ入力のコードブックから、■＿ｎ＝Ａ
Ｆ＿ｎ＿−＿１となるように予測マトリクスＡを選択す
る工程と、該特定の分析期間の予測パラメータベクトルを演算し、
また該予測パラメータベクトルと該パラメータベクトル
との差分から構成される残差ベクトルを演算する工程と
、２＾Ｍ第１の量子化ベクトル群のうちのいずれか１個を
選択することにより初段ベクトル量子化器の該残差パラ
メータベクトルを量子化して中間量子化ベクトルを得る
工程と、該中間量子化ベクトルと該残差パラメータベクトルとの
差分により構成される残差量子化ベクトルを演算する工
程と、２＾Ｎ第２の量子化ベクトル群のうちのいずれか１個を
選択することにより第２段ベクトル量子化器の該中間量
子化ベクトルを量子化して最終量子化ベクトルを得る工
程と、該予測マトリクスＡを意味するＬビット値と該中間量子
化ベクトルを意味するＭビット値と該最終量子化ベクト
ルを意味するＮビット値とを組み合わせることにより該
予測係数の該符号化表示値を生成する工程とを有するこ
とを特徴とする音声分析合成方法。
（５）前記パラメータ群は線スペクトル周波数により構
成されていることを特徴とする請求項４記載の音声分析
合成方法。
（６）前記Ｌ、Ｍ、Ｎがそれぞれ６ビット、１０ビット
、１０ビットであることを特徴とする請求項４記載の音
声分析合成方法。
（７）複数の連続的な分析期間を具備する原入力音声信
号から各分析期間における予測係数群を誘導する工程と
、該予測係数群を符号化して該予測係数群を符号表示化
する工程と、該予測係数群の符号表示化値を復号器に転
送し該予測係数の該符号表示化値に基づき原入力音声信
号を合成する工程とを有する音声分析合成方法において
、特定の分析期間の予測係数群に対応し各々が特定の周波
数に対応する多成分入力ベクトルを生成する工程と、量子化ベクトル記憶手段から複数の多成分量子化ベクト
ルを選択することにより該入力ベクトルを量子化する工
程と、各々の該入力ベクトル成分と各々の対応する選択
された量子化ベクトル成分との差並びに各々の該入力ベ
クトル成分に関連すし該入力ベクトル成分に対応する周
波数に基づき各入力ベクトル成分ごとに決定される重み
付けファクタとに基づいて、各々の選択された量子化ベ
クトルについて歪量を演算する工程と、量子化出力として該複数の選択された量子化ベクトルの
うちのいずれか一つを選択して最小の歪量を得る工程と
を有することを特徴とする音声分析合成方法。
（８）前記重み付けファクタは、入力ベクトルのｉ番目
の成分により表される周波数をｆ＿ｉとし、ｆ＿ｉのグ
ループ遅れを単位ミリ秒のＤ＿ｉとし、Ｄ＿ｍ＿ａ＿ｘ
を最大のグループ遅れとしたとき、▲数式、化学式、表
等があります▼ ただし、 ▲数式、化学式、表等があります▼ の式によってあらわさせることを特徴とする請求項７記
載の音声分析合成方法。
（９）前記歪量は、入力ベクトル成分群並びに選択され
た量子化ベクトルの対応する成分をそれぞれＸ＿ｉ、γ
＿ｉとし、対応する重み付けファクタをωとしたとき、 ▲数式、化学式、表等があります▼ の式にてあらわされることを特徴とする請求項８記載の
音声分析合成方法。
（１０）入力音声信号の複数の分析期間の各々について
、各分析期間内に強度と位置を有する一連の励振パルス
からなるマルチパルス励振信号を発生するための励振信
号発生手段と、該マルチパルス励振信号によってそれに引き続き音声信
号を再生成する手段とを有する音声分析合成システムで
あって、該励振信号発生手段は複数のパルス強度符号語を記憶す
る手段と、複数のパルス位置符号語を記憶する手段と、励振パルス
を形成するためにパルス強度符号語とパルス位置符号語
を読み込む手段とを有することを特徴とする音声分析合
成システム。
（１１）入力音声信号の複数の分析期間の各々について
、各分析期間内に強度と位置を有する一連の励振パルス
を表すマルチパルス励振ベクトルを発生する工程と、該マルチパルス励振ベクトルによってそれに引き続き音
声信号を再生成する工程とを有する音声分析合成方法で
あって、該マルチパルス励振ベクトルを発生する工程は記憶され
ている複数のパルス位置符号語から特定のパルス位置符
号語を選択する工程と、記憶されている複数のパルス強度符号語から特定のパル
ス強度符号語を選択する工程と、該マルチパルス励振ベクトルを発生するために該パルス
位置符号語とパルス強度符号語とを組み合わせる工程と
を有することを特徴とする音声分析合成方法。
（１２）各々のマルチパルス励振ベクトルはＶ＝（ｍ＿
Ｉ、・・・、ｍ＿Ｌ、ｇ＿Ｉ、・・・、ｇ＿Ｌ）という
式にて表され、ここでＬは該ベクトルにより表される励
振パルスの総数であり、ｍ＿Ｌとｇ＿Ｌはそれぞれ該ベ
クトル内のＬ番目の励振パルスに対応するパルス位置符
号語とパルス強度符号語であり、更に、該パルス位置符
号語を選択する工程は、Ｉ番目の励振パルスの位置と強
度をそれぞれｍ＿Ｉ、ｇ＿Ｉとしたときｇ＿Ｉの絶対値
が最大値となる分析期間内の位置ｍ＿Ｉを決定する工程
と、決定された値ｍ＿Ｉに基づきＩ番目の励振パルスのパル
ス位置符号語ｍ＿Ｉを選択する工程とを有することを特
徴とする請求項１１記載の音声分析合成方法。
（１３）前記パルス強度符号語を選択する工程は、前記
決定された位置Ｍ＿Ｉに基づきＩ番目の励振パルスの強
度ｇ＿Ｉを演算する工程を有することを特徴とする請求
項１２記載の音声分析合成方法。
（１４）前記音声信号は合成フィルタを用いて表され、前記ｇ＿Ｉは、重み付けされた音声信号をＸ＿ｗ（ｎ）
とし、該合成フィルタの重み付けされたインパルスレス
ポンスをｈ＿ｗ（ｎ）としたとき ▲数式、化学式、表等があります▼ の式により与えられることを特徴とする請求項１２記載
の音声分析合成方法。
（１５）前記音声信号は合成フィルタを用いて表され、前記ｇ＿Ｉは、該合成フィルタの重み付けされたインパ
ルスレスポンスをｈ＿ｗ（ｎ）とし、ｈ＿ｗ（ｎ）の自
己相関をＲ＿ｈ＿ｈ（ｍ）としｈ＿ｗ（ｎ）とＸ＿ｗ（
ｎ）との間の相互相関をＲ＿ｈ＿ｘ（ｍ）とし、重み付
けされた音声信号をＸ＿ｗ（ｎ）としたとき ▲数式、化学式、表等があります▼ の式により与えられることを特徴とする請求項１２記載
の音声分析合成方法。
（１６）前記パスル位置符号語を選択する工程は、前記
合成フィルタの重み付けされたインパルスレスポンスｈ
＿ｗ（ｎ）と重み付けされた音声信号Ｘ＿ｗ（ｎ）との
間の相互相関をＲ＿ｈ＿ｘ（ｍ）としたとき、Ｒ＿ｈ＿
ｘ（ｍ）が最大値となるときの分析期間内の位置ｍ＿１
を決定する工程と、決定された該位置ｍ＿１に基づきパルス位置符号語を選
択する工程を有することを特徴とする請求項１２記載の
音声分析合成方法。
（１７）前記パルス強度符号語を選択する工程はｈ＿ｗ
（Ｏ）の自己相関をＲ＿ｈ＿ｈ（Ｏ）としたときｇ＿１
＝Ｒ＿ｈ＿ｘ（ｍ＿１）／Ｒ＿ｈ＿ｈ（Ｏ）の式に基づ
く前記第１の励振パルスの強度ｇ＿１の値を決定する工
程を有することを特徴とする請求項１６記載の音声分析
合成方法。
（１８）入力音声信号の複数の分析期間の各々について
、各分析期間内に強度と位置を有する一連の励振パルス
を表すマルチパルス励振ベクトルを発生する工程と、該マルチパルス励振ベクトルを符号化する工程と、該マルチパルス励振ベクトルを復号化する工程と、該復号化されたマルチパルス励振ベクトルによってそれ
に引き続き音声信号を再生成する工程とを有する音声分
析合成方法であって、該符号化工程は各マルチパルス励振ベクトルに関して各
マルチパルス励振ベクトルと基準マルチパルス励振ベク
トルとの差の関数である差分励振ベクトルを発生する工
程と、該差分励振ベクトルを量子化する工程とを有することを
特徴とする音声分析合成方法。
（１９）各々のマルチパルス励振ベクトルはＶ＝（ｍ＿
ｉ、・・・、ｍ＿Ｌ、ｇ＿ｉ、・・・、ｇ＿Ｌ）という
式にて表され、ここでＬは該ベクトルにより表される励
振パルスの総数であり、ｍ＿ｉとｇ＿ｉは（ただし１≦
ｉ≦Ｌ）それぞれ該ベクトル内のｉ番目の励振パルスに
対応するパルス位置符号語とパルス強度符号語であり、更に、多数の音声データベースより事前に得られた第１
第２の基準ベクトルＶ’＝（ｍ’＿１、・・・、ｍ’＿
Ｌ’、ｇ＿Ｉ’、・・・ｇ’＿ＬとＶ”＝（ｍ”＿１、
・・・ｍ”＿Ｌ、ｇ”＿１、・・・ｇ”＿Ｌ）とから導
出された値をｍ’＿１、ｍ’とし、Ｇを ▲数式、化学式、表等があります▼ の式により与えられた利得項であるとして、■＿１と■
＿１がｍ＿１＝（ｍ＿１−ｍ’＿１）／ｍ”＿１）並び
に■＿１＝ｇ＿１／Ｇの関係を有するとき、前記差分励
振ベクトルは、 ■＝（■＿１、・・・、■＿Ｌ、■＿１、・・・、■＿
Ｌ）の式にて表されることを特徴とする請求項１８記載
の音声分析合成方法。
（２０）前記Ｍ’＿１は、前記多数の音声データベース
内のすべての値ｍ＿１の平均値であることを特徴とする
請求項１９記載の音声分析合成方法。
（２１）前記ｍ”＿１は多数の音声データベース内のす
べての値ｍ＿１の標準偏差値であることを特徴とする請
求項２０記載の音声分析合成方法。
（２２）前記符号化工程は、前記差分ベクトルを位置サ
ブベクトル（■＿１、・・・■＿Ｌ）と強度ベクトル（
■＿１、・・・■＿Ｌ）とに分離する工程と、しかる後
に第１の量子化器において該位置サブベクトルを第２の
量子化器において該強度サブベクトルを量子化する工程
とを更に有することを特徴とする請求項１９記載の音声
分析合成方法。
（２３）入力音声信号の複数の分析期間の各々について
、Ｌをベクトルにより表される励振パルスの総数とし、
ｍ＿１とｇ＿１を１≦ｉ≦Ｌの条件のもとでそれぞれ該
ベクトル内のｉ番目の励振パルスに対応する位置関連項
と強度関連項としたとき、各分析期間内に強度と位置を
有する一連の励振パルスを表しているＶ＝（ｍ＿１、・
・・、ｍ＿Ｌ、ｇ＿１、・・・、ｇ＿Ｌ）という式にて
示されるベクトルを発生する工程と、該ベクトルを符号化する工程と、該符号化されたベクトルを復号化する工程と、該復号化
されたベクトルによって引き続き音声信号を再生成する
工程とを有する音声分析合成方法であって、該符号化工程は、該ベクトルを位置サブベクトル（■＿
１、・・・■＿Ｌ）と強度ベクトル（■＿１、・・・■
＿Ｌ）とに分離する工程と、しかる後に第１の量子化器
において該位置サブベクトルを第２の量子化器において
該強度サブベクトルを量子化する工程とを有することを
特徴とする音声分析合成方法。
（２４）Ｌをベクトルにより表される励振パルスの総数
とし、ｍ＿１とｇ＿１を１≦ｉ≦Ｌの条件のもとでそれ
ぞれ該ベクトル内のｉ番目の励振パルスに対応する位置
関連項と強度関連項としたとき、前記各々のマルチパル
ス励振ベクトルはＶ＝（ｍ＿１、・・・、ｍ＿Ｌ、ｇ＿１、・・・、ｇ＿
Ｌ）という式にて表され、前記音声分析合成方法は、該ベクトルを符号化する工程
と、前記再生成工程以前に該ベクトルを復号化する工程
とを更に有し、該符号化工程は該ベクトルＶから位置基準サブベクトル
■＿ｍと強度基準サブベクトル■＿■とを生成する工程
と、該位置基準サブベクトルに基づき位置符号帳より複数の
位置符号語を選択する工程と、該強度基準サブベクトルに基づき強度符号帳より複数の
強度符号語を選択する工程と、該選択された位置符号語並びに強度符号語の種々の組み
合わせにより複数の位置符号語強度符号語組を生成する
工程と、該マルチパルス励振ベクトルと各々の該位置符号語強度
符号語組との間の歪量を演算する工程と、最小の歪量を
もたらす特定の位置符号語強度符号語組を選択する工程
とを有することを特徴とする請求項１１記載の音声分析
合成方法。
（２５）入力音声信号の複数の分析期間の各々について
、Ｌをベクトルにより表される励振パルスの総数とし、
ｍ＿１とｇ＿１を１≦ｉ≦Ｌの条件のもとでそれぞれ該
ベクトル内のｉ番目の励振パルスに対応する位置関連項
と強度関連項としたとき、各分析期間内に強度と位置を
有する一連の励振パルスを表しているＶ＝（ｍ＿１、・
・・、ｍ＿Ｌ、ｇ＿１、・・・、ｇ＿Ｌ）という式にて
示されるベクトルを発生する工程と、該ベクトルを符号化する工程と、該符号化されたベクトルを復号化する工程と、該復号化
されたベクトルに基づき引き続き該音声信号を再生成す
る工程とを有する音声分析合成方法であって、該符号化工程は該ベクトルＶから位置基準サブベクトル
■＿ｍと強度基準サブベクトル■＿■とを生成する工程
と、該位置基準サブベクトルに基づき位置符号帳より複数の
位置符号語を選択する工程と、該強度基準サブベクトルに基づき強度符号帳より複数の
強度符号語を選択する工程と、該選択された位置符号語並びに強度符号語の種々の組み
合わせにより複数の位置符号語強度符号語組を生成する
工程と、該ベクトルと各々の該位置符号語強度符号語組との間の
歪量を演算する工程と、最小の歪量をもたらす特定の位置符号語強度符号語組を
選択する工程とを有することを特徴とする音声分析合成
方法。
（２６）前記歪量は、動的に重み付けされた歪量であり
、該動的重み付けされた歪量は、各々の位置符号語強度
符号語組における各々の強度項の強度の関数である重み
付け関数に基づいて重み付けされていることを特徴とす
る請求項２５記載の音声分析合成方法。
（２７）前記ベクトルの成分をｘ＿１とし、それに対応
する位置符号語強度符号語組の成分をｙ＿１とし、それ
らにより ▲数式、化学式、表等があります▼ の式によって与えられる重み付け関数をω＿１としたと
き、前記動的に重み付けされた歪量Ｄは ▲数式、化学式、表等があります▼ の式によって与えられることを特徴とする請求項２６記
載の音声分析合成方法。
（２８）入力信号から、ピッチ値とピッチ利得値とを含
むピッチ信号部と励振符号語と励振利得信号とを含む励
振信号部とから少なくとも構成される複数の分析信号を
生成する工程と、該分析信号を符号化する工程と、それ
に引き続き該分析信号を復号化する工程と、該復号化さ
れた分析信号に基づいて該音声信号を合成する工程とを
有する音声分析合成方法であって、該符号化工程は、各々の該ピッチ信号部と該励振信号部
とが有効か否かを類別する工程と、該類別工程の類別結
果に基づき多数の符号ビットを各々の該ピッチ信号部並
びに利得信号部に割り当てる工程と、割り当てられた多数のビットに基づき各々の該ピッチ信
号と励振信号とを符号化する工程とを有することを特徴
とする音声分析合成方法。
（２９）前記割当工程は、有効であると類別されたピッ
チ信号部に対しては有効でないと類別されたピッチ信号
部に対するよりもより多くのビット数を割当てる工程と
、有効であると類別された励振信号部に対しては有効で
ないと類別された励振信号部に対するよりもより多くの
ビット数を割当てる工程とを有していることを特徴とす
る請求項２８記載の音声分析合成方法。
（３０）前記割当工程は、有効でないと類別されたピッ
チ信号部に対してはゼロビット数を割当てる工程と、有
効でないと類別された励振信号部に対してはゼロビット
数を割当てる工程とを有していることを特徴とする請求
項２９記載の音声分析合成方法。
（３１）それぞれの複数の連続的な間隔に亘って入力信
号の音声または非音声特性を決定するために音声部並び
に非音声部とを有する入力信号を符号化する装置に用い
られる音声変動検出装置であって、該間隔のうちの特定の間隔にわたり該入力信号の平均の
エネルギーを決定する手段と、所定数の間隔にわたり該平均エネルギーの最小値を決定
する手段と、該最小値に基づいてしきい値を決定する手段と、該特定
の間隔の入力信号が音声かまたは非音声かを決定するた
めに、該特定の間隔にわたる入力信号の平均のエネルギ
ーと該しきい値とを比較する手段とを有することを特徴
とする音声変動検出装置。
（３２）前記特定の間隔は、所定数の間隔のうちの最後
の間隔であることを特徴とする請求項３１記載の音声変
動検出装置。
（３３）前記しきい値が平均のエネルギーを越えている
一連の間隔数に基づいてハングオーバー値を設定するた
めに、前記特定のフレームにおける平均のエネルギーが
該しきい値を越えているとの決定応答する手段と、該ハングオーバー値が所定の値である場合には該入力信
号が非音声部を表してるという内容を決定するために、
該特定の間隔の平均のエネルギーが該しきい値を越えて
いないとの決定に応答し、該しきい値が所定の値でない
ときは該ハングオーバー値を減少させる手段とを更に有
していることを特徴とする請求項３１記載の音声変動検
出装置。
（３４）入力信号の音声間隔と非音声間隔とを区別する
為の音声検出装置において、現在の間隔の入力信号が少なくとも音声表示信号の第１
の基準特性に合致しているか否かを決定する第１の手段
と、該入力信号が該第１の基準特性を満たしていたと決定さ
れる一連の多数の間隔に基づいて所定のハングオーバー
時間を設定するために、該第１の手段による音声内容の
決定に反応する第２の手段と、該基準が満たされなかった一連の多数の間隔、並びに該
第２の手段により設定されたハングオーバー時間に基づ
いて、非音声であるとの決定をするために第１の手段に
より該入力信号が該基準を満たしていないという決定結
果に反応する第３の手段とを有することを特徴とする音
声検出装置。
（３５）各々のフレームには第１部分、第２部分、第３
部分を有しており、現在のフレーム、前回のフレーム、
次回のフレームを含んだ複数の連続的なフレーム群を有
する原入力信号から各フレームの合成パラメータ群を導
く工程と、該合成パラメータを復号器に転送する工程と、該合成パ
ラメータにより原入力音声信号を合成する工程とを有す
る音声分析合成方法において、該合成パラメータを導く
符号化工程は、該入力信号の各フレームに対応する第１のパラメータ群
を形成する工程を有し、一定のフレームの該１のパラメ
ータ群の各々は該一定のフレームの該第１、第２、第３
部分に対応する第１、第２、第３の副群を有しており、
更に現在の該第１の副群と前回の第１の副群との間を補間す
ることにより補間された第１のパラメータ副群を形成す
る工程と、現在の該第３の副群と次回の第３の副群との間を補間す
ることにより補間された第３のパラメータ副群を形成す
る工程と、現在のフレームの合成パラメータ群を形成するために、
該補間された第１の副群と、該第２の副群と、該補間さ
れた第３の副群とを組み合わせる工程とを有することを
特徴とする音声分析合成方法。
（３６）前記第１のパラメータ群は線スペクトル周波数
であることを特徴とする請求項３５記載の音声分析合成
方法。
（３７）一連の複数のフレームを有する原入力信号から
各フレームに関するスペクトルフィルタ係数群を導出す
る工程と、該スペクトルフィルタ係数をｎを整数とするｎ秩序周波
数パラメータ群（ｆ＿１、ｆ＿２、・・・、ｆ＿ｎ）に
変換する工程と、例えばｆ＿１＜ｆ＿Ｉ−１のように大きさの順序が乱さ
れているか否かを決定する工程と、もし大きさの順序が乱されている場合には２個の周波数
ｆ＿１とｆ＿Ｉ＿１との順序を逆にする工程と、該周波
数パラメータをスペクトルフィルタ係数に逆変換する工
程と、該逆変換工程により得られたスペクトルフィルタ係数に
基づいて、該原入力信号を合成する工程とを有すること
を特徴とする音声分析合成方法。
（３８）前記周波数パラメータは線スペクトル周波数で
あることを特徴とする音声分析合成方法。
（３９）入力信号から、ピッチ値とピッチ利得値と励振
符号語と励振利得信号とを少なくとも有している複数の
分析信号を生成する工程と、該分析信号を量子化する工
程と、該量子化された分析信号を復号器に与える工程と
、復号器において量子化された信号に基づき該音声信号
を合成する工程とを有する音声分析合成方法であって、該量子化工程は、類別値をｍ量子化ビットで表し、ｍを
整数とするとき、該ピッチ値を複数の２＾ｍの値の範囲
のいずれかに類別することにより該ピッチ値を直接量子
化する工程と、選択された符号語をｎ量子化ビットで表し、ｎを整数と
するとき、２＾ｎ符号語から対応する符号語を選択する
ことにより該ピッチ利得を量子化する工程とを有するこ
とを特徴とする音声分析合成方法。
（４０）ｎ＜ｍの関係を有することを特徴とする請求項
３９記載の音声分析合成方法。
（４１）２＾ｋ符号語から該励振符号語が選ばれ、前記
量子化工程は、２＾ｋ符号語のいずれかを意味するｋビ
ットにて該励振符号語を表す工程と、選択された励振利得符号語をι量子化ビットで表し、ι
を整数とするとき、前もって演算された２＾ι励振利得
符号語から対応する符号語を選択することにより該励振
利得を量子化する工程とを更に有することを特徴とする
請求項３９記載の音声分析合成方法。
（４２）ι＜ｋの関係を有していることを特徴とする請
求項４１記載の音声分析合成方法。