JPH11249696A

JPH11249696A - 音声符号化／復号化方法

Info

Publication number: JPH11249696A
Application number: JP10047248A
Authority: JP
Inventors: Ko Amada; 皇天田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-02-27
Filing date: 1998-02-27
Publication date: 1999-09-17

Abstract

(57)【要約】【課題】原音との一致性は多少失われるが聴覚的に自然
な低レート音声符号化方法を実現する。【解決手段】入力音声をＬＰＣ分析部１１１と駆動信号
分析部１１２で分析して得られるＬＰＣ係数と駆動信号
を符号化する際、予測部１４１，１４２でＬＰＣ係数お
よび駆動信号の予測値を求め、評価部１５０においてＬ
ＰＣ係数および駆動信号の各々について分析値と予測値
の比較を行うことにより、予測値を復号音声の生成に用
いた場合の聴覚的な自然性に与える影響の度合を評価
し、この評価結果に基づきＬＰＣ係数、駆動信号の量子
化部１２１，１２２のうちビット配分部１６０で影響の
度合いがより大きい方を量子化する方により多くの量子
化ビットを配分させ、ＬＰＣ係数量子化インデックス１
００１と駆動信号量子化インデックス１００２およびビ
ット配分情報１００３を伝送する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声符号化方法およ
び音声復号化方法に係り、特にディジタル電話、ボイス
メモなどに用いられる低レートの音声符号化／復号化方
方法に関する。

【０００２】

【従来の技術】近年、携帯電話やインターネットなどの
通信手段の発達によって、音声信号や楽音信号を少ない
情報量に圧縮して伝送または蓄積するための符号化技術
が盛んに研究されている。時間領域ではＣＥＬＰ(Code
Excited Linear Prediction)、周波数領域ではサブバン
ド符号化などの手法がある。

【０００３】Code Excited Linear Prediction (M.R.Sc
hroeder and B.S.Atal, “Code Excited Linear Predic
tion(CELP):High Quality Speech at Very LoW Bit Rat
es,”Proc.ICASSP, pp.937-940,1985（文献１）、およ
びW.S.Kleijin,D.J.Krasinski et al.“Improved Speec
h Quality and Efficient Vector Quantization in SEL
P,” Proc.ICASSP,pp.155-158,1988（文献２））などに
記載されているＣＥＬＰ方式は、線形予測分析に基づく
符号化方式である。

【０００４】ＣＥＬＰ方式によると、入力音声信号は線
形予測分析によって音韻情報を表す線形予測係数と音の
高さ等を表す予測残差信号という二つのパラメータに分
解され、これらのパラメータが符号化される。線形予測
係数は、再帰型のディジタルフィルタで構成される合成
フィルタのフィルタ係数として用いられる。復号化側で
は、この合成フィルタに予測残差信号を入力することに
より、元の入力音声信号が得られる。

【０００５】この場合、低レートで符号化するために
は、予測残差信号をできるだけ少ない情報で表す必要が
ある。ＣＥＬＰ方式の特徴は、この予測残差信号の候補
である励振信号と呼ばれる信号を符号帳に何種類も格納
しておき、各励振信号を合成フィルタに通して生成され
る合成音声信号と入力音声信号がどの程度近いかを評価
し、入力音声信号に最も近い合成音声信号を生成する励
振信号を選ぶという構成にある。従って、符号化レート
を上げて励振信号の数を増やすに従い、復号音声信号の
波形は入力音声信号の波形に近づいてゆき、結果として
入力音声信号に近い復号音声信号が得られる。

【０００６】ＣＥＬＰ方式のバリエーションの一つとし
て、マルチモードＣＥＬＰが知られている。ＣＥＬＰ方
式では、先に述べたように入力音声信号を線形予測係数
（フィルタ係数）や予測残差信号（励振信号）を表すパ
ラメータに分解して符号化する。入力音声の性質は一定
でなく、例えば有声区間と無声区間とでは異なるように
時々刻々変化する。そこで、マルチモードＣＥＬＰ方式
では、入力音声の性質に合わせて各パラメータの符号化
のビット配分や、符号帳の内容の異なる複数種類の符号
化系を用意しておき、これらを入力音声に応じて使い分
けることで効率を上げることができる。

【０００７】一方、このマルチモードＣＥＬＰとは別
に、入力音声に応じて符号化のビット配分を変える符号
化方式として、ＭＰＥＧオーディオなどで用いられてい
るサブバンド符号化方式が知られている。サブバンド符
号化は、入力音声信号を周波数領域に変換し、複数のバ
ンドに分割してバンド毎に符号化する方式であり、各バ
ンドの成分に対する符号化ビット数は、その成分のパワ
が大きいほど多く配分されるようになっている。マスキ
ング効果が考慮されるので、必ずしもパワのみで配分さ
れる訳ではないが、基本的には性質の変動する入力音声
信号に対して適応的にビット配分を行うことで、符号化
効率を上げている。

【０００８】マルチモードＣＥＬＰ方式やサブバンド符
号化方式で上述のようにビット配分を適応化している目
的は、入力音声に対して聴覚的により近い復号音声を得
るためである。そのため入力音声に含まれているパラメ
ータ（フォルマント、ピッチ周期、ゲインなど）の変化
や細かな揺らぎまで忠実に再現せざるを得ない構造にな
っており、このことが符号化効率のさらなる向上（低レ
ート化）の妨げとなっている。

【０００９】しかし、例えば同一の文章を２度発話した
場合、人間の耳には同じに聞こえても音声波形レベルで
は異なっているという事実からも分かるように、入力音
声に含まれているパラメータの変化や細かな揺らぎとい
った情報は、聴覚的な自然性という面からは必ずしも伝
送する必要がないと考えられる。さらに、２度の発話を
聞き比べれば聴覚的な差異が認められる場合でも、その
差が問題になるほど大きなものでないこともある。

【００１０】

【発明が解決しようとする課題】上述したように、符号
化効率を向上させるためにビット配分の適応化を行うマ
ルチモードＣＥＬＰ、サブバンド符号化といった従来の
低レート音声符号化技術では、聴覚的な自然性という面
からは必ずしも必要のない入力音声に含まれているパラ
メータの変化や細かな揺らぎなどの情報をも忠実に再現
しており、符号化効率のさらなる向上の妨げとなってい
た。

【００１１】本発明は、このような事情を考慮してなさ
れたもので、入力音声と聴覚的に同一の復号音声を得る
ことを目標とせず、聴覚的に僅かな差異が認められても
自然性のある復号音声を得ることが可能な音声符号化／
復号化方法を提供することを目的とする。

【００１２】

【課題を解決するための手段】上記の課題を解決するた
め、本発明に係る音声符号化方法は、入力音声を分析し
て得られる複数のパラメータを符号化する音声符号化方
法であって、各パラメータの予測値を過去の符号化デー
タから求め、各パラメータについて分析値と予測値の比
較を行うことにより、予測値を復号音声の生成に用いた
場合の聴覚的な自然性に与える影響の度合を評価し、こ
の評価結果に基づき、該影響の度合いがより大きいパラ
メータにより多くの符号化ビットを配分し、各パラメー
タの符号化データおよび各パラメータへの符号化ビット
の配分を示すビット配分情報を伝送することを特徴とす
る。

【００１３】また、この音声符号化方法に対応する本発
明に係る音声復号化方法は、入力音声を分析して得られ
る複数のパラメータについて、該パラメータの符号化デ
ータと、該パラメータの予測値を用いて復号音声を生成
した場合の聴覚的な自然性に与える影響の度合の評価結
果に基づき該影響の度合いがより大きいパラメータによ
り多く配分されるように決定された符号化ビットの配分
を示すビット配分情報を入力し、符号化データをビット
配分情報に従って復号化して復号音声を生成することを
特徴とする。

【００１４】本発明に係る他の音声符号化方法は、入力
音声を分析して得られる複数のパラメータを符号化する
音声符号化方法であって、各パラメータの各々の予測値
を過去の符号化データから求め、各パラメータについて
分析値と予測値の比較を行うことにより、予測値を復号
音声の生成に用いた場合の聴覚的な自然性に与える影響
の度合を評価し、この評価結果に基づき、該影響の度合
いがより大きいパラメータのみを選択して該パラメータ
の分析値の符号化データを伝送するとともに、選択した
パラメータの種類を示す選択情報を伝送することを特徴
とする。

【００１５】また、この音声符号化方法に対応する本発
明に係る他の音声復号化方法は、入力音声を分析して得
られる複数のパラメータについて、該パラメータの予測
値を用いて復号音声を生成した場合の聴覚的な自然性に
与える影響の度合の評価結果に基づき選択された前記影
響の度合いがより大きいパラメータの分析値の符号化デ
ータと、選択されたパラメータの種類を示す選択情報を
入力し、選択情報に基づいて、選択されたパラメータに
ついては分析値の符号化データを復号化して復号音声を
生成し、選択されなかったパラメータについては予測値
をそのまま用いて復号音声を生成することを特徴とす
る。

【００１６】このように本発明では、入力音声に含まれ
る異なる性質のパラメータの変化をそれぞれ予測し、予
測値をそのまま復号音声の生成に用いた場合に聴覚的に
不自然になる種類のパラメータに対しては、より多くの
符号化ビットを配分するか、または全符号化ビットを配
分し、入力音声と差異が認められても不自然にならない
種類のパラメータについては、より少ないビット数で符
号化を行うか、または全く符号化ビットを配分させず、
予測値をそのまま復号音声の生成に用いるようにする。
さらに、各パラメータの符号化データに対するビット配
分は、入力音声の性質により時々刻々変化させるように
することが望ましい。その結果、復号音声と元の入力音
声との一致性は僅かに犠牲になるが、従来よりも遥かに
低レートの音声符号化／復号化が可能になる。

【００１７】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。なお、本発明の音声符号化／復号
化方法は多くの場合、コンピュータを用いたソフトウェ
アにより実現されるが、以下の説明ではブロック図を用
いて音声符号化／復号化システムとして述べるものとす
る。このような説明によっても、本発明による音声符号
化／復号化方法としての手順は当業者が明確に理解でき
るものと考えられる。

【００１８】（第１の実施形態）＜符号化側について＞図１に、本発明の第１の実施形態
に係る音声符号化システムの構成を示す。この音声符号
化システムは、入力端子１００からの入力音声信号を分
析するＬＰＣ分析部１１１および駆動信号分析部１１２
からなる分析部１１０、ＬＰＣ係数および駆動信号の量
子化をそれぞれ行う第１、第２の量子化部１２１，１２
２、ＬＰＣ係数および駆動信号の量子化値をそれぞれ遅
延させる第１、第２の遅延部１３１，１３２、ＬＰＣ係
数および駆動信号の予測をそれぞれ行う第１、第２の予
測部１４１，１４２、予測部１４１，１４２からの予測
値をそのまま復号音声の生成に用いた場合の聴覚的な自
然性に与える度合いを評価する評価部１５０、および評
価部１５０の評価結果に基づき量子化部１２１，１２２
への量子化ビット数（符号化ビット数）の配分を行うビ
ット配分部１６０から構成される。

【００１９】次に、この音声符号化システムの動作につ
いて説明する。入力端子１００には、音声信号が１フレ
ーム単位で入力され、これに同期してＬＰＣ分析部１１
１では線形予測分析が行われて声道特性に相当するＬＰ
Ｃ係数の分析値が出力され、駆動信号分析部１１２から
は声帯波形に相当する駆動信号の分析値が出力される。

【００２０】第１の量子化部１２１は、予測部１４１の
出力であるＬＰＣ係数の予測値を利用して、ＬＰＣ分析
部１１１からのＬＰＣ係数の分析値をビット配分部１６
０によって配分された量子化ビット数で量子化し、ＬＰ
Ｃ係数量子化インデックス１００１を出力すると同時
に、ＬＰＣ係数の量子化値を次フレームの予測のために
遅延部１３１に供給する。

【００２１】第２の量子化部１２２は、同様に第２の予
測部１４２の出力である駆動信号の予測値を利用して、
駆動信号分析部１１２からの駆動信号の分析値をビット
配分部１６０によって配分された量子化ビット数で量子
化し、駆動信号量子化インデックス１００２を出力する
と同時に、駆動信号の量子化値を次フレームの予測のた
めに遅延部１３２に供給する。

【００２２】評価部１５０では、まずＬＰＣ分析部１１
１で得られたＬＰＣ係数の分析値を基に、第１の予測部
１４１で得られたＬＰＣ係数の予測値をそのまま合成フ
ィルタのフィルタ係数として用いた場合の復号音声の声
質への影響（聴覚的な自然性に与える影響）の度合が求
められる。

【００２３】さらに、評価部１５０では、駆動信号分析
部１１２で得られた駆動信号の分析値を基に、第２の予
測部１４２で得られた駆動信号の予測値をそのまま合成
フィルタの入力に用いた場合の復号音声の音質への影響
（聴覚的な自然性に与える影響）の度合も求められる。

【００２４】そして、評価部１５０からは上記の二種類
の影響の度合を示す情報がビット配分部１６０に送られ
る。ビット配分部１６０では、この情報に基づいて影響
の度合が大きい方により多くの量子化ビットを配分する
ように、第１、第２の量子化器１２１，１２２の量子化
ビット数の配分を決める。同時にビット配分部１６０か
らは、第１、第２の量子化器１２１，１２２の各々に配
分した量子化ビット数の情報であるビット配分情報１０
０３が出力される。

【００２５】この音声符号化システムから出力される符
号化データは、ＬＰＣ係数量子化インデックス１００
１、駆動信号量子化１００２およびビット配分情報１０
０３であり、これらが伝送路や記録媒体を介して後述す
る音声復号化システムへ伝送される。

【００２６】次に、本実施形態におけるＬＰＣ係数の符
号化方法について説明する。第１の遅延部１３１には、
第１の量子化部１２１において過去のフレームで量子化
されたＬＰＣ係数の量子化値が格納されている。第１の
予測部１４１では、この遅延部１３１に格納された過去
のフレームのＬＰＣ係数の量子化値を用いて現在のフレ
ームのＬＰＣ係数の値を予測する。仮に、このＬＰＣ係
数の予測値がＬＰＣ分析部１１１で入力音声信号を分析
することで得られたＬＰＣ係数の分析値と同じであった
場合、ＬＰＣ係数の情報は全く伝送する必要がない。復
号化側も同じ予測アルゴリズムを備えているので、過去
の量子化値から符号化側と同じ現在の予測値を得ること
ができるからである。

【００２７】実際にはＬＰＣ係数の予測値が分析値と同
じになることは稀であり、多くの場合は違いが生じるた
め、その違いを量子化して伝送する必要があるが、その
時に割り当てる量子化ビット数を他のパラメータ（本実
施形態では、ＬＰＣ係数と同様の構成で求められた駆動
信号の予測値）との入力音声信号に対する重要度の違い
に応じて分配を決めるのが特徴である。

【００２８】ここで、本実施形態では従来のマルチモー
ドＣＥＬＰなどのように各パラメータに対するビット配
分を変えて、入力音声信号に対する歪みがより小さくな
るようなビット分配方法を選ぶのではなく、入力音声信
号と聴覚的に差異が感じられても自然に聞こえるように
ビット配分を行う。例えば、ＬＰＣ係数は分析窓の位置
により定常区間でも値が変わることがあるが、マルチモ
ードＣＥＬＰではこのような違いも忠実に再現できるよ
うに符号化を行っていたため、例えばＬＰＣ係数の符号
化データに異なる２種類の符号Ａと符号Ｂが交互に現わ
れるＡＢＡＢ…のような符号パターンになる現象が起こ
り得た。

【００２９】本実施形態では、このＡＢＡＢ…のような
符号パターンが出現する場合、全て符号Ａまたは全て符
号Ｂと置き換えることで、ＬＰＣ係数の予測値を伝送し
続けるようにする。ＡＢＡＢ…、ＡＡＡＡ…、ＢＢＢＢ
…の各符号パターンの間には、聴覚的な差異は若干存在
すると思われる。しかし、それぞれの符号パターンから
生成された復号音声を聞いた場合、問題となる差異では
ない。符号伝送量を考えた場合、ＡＢＡＢ…の符号パタ
ーンは符号Ａと符号Ｂの差を毎フレーム伝送し続けなく
てはならないのに対し、ＡＡＡＡ…やＢＢＢＢ…の符号
パターンは、先頭の値を一旦得てしまえば、後は同じ値
を予測することで、その後のフレームの伝送量は０に抑
えることができ、ビットレート削減の効果が大きい。こ
のように復号音声の原音声である入力音声信号との一致
性を僅かに犠牲にすることで、ビットレートの大きな削
減が可能となる。

【００３０】上記ではＬＰＣ係数の量子化について説明
したが、駆動信号の量子化についても同様のことが言え
る。ここで、本実施形態のポイントはＬＰＣ係数と駆動
信号で聴覚的に影響の大きい方により多くの符号化ビッ
トを配分する点である。上述したＬＰＣ係数の符号化デ
ータの伝送法において、ＡＢＡＢ…の符号パターンがＡ
ＡＡＡ…やＢＢＢＢ…の符号パターンよりも確かに原音
声に近い復号音声が得られるので、可能であれば多くの
ビットを割り当ててＡＢＡＢ…の符号パターンを伝送し
たいところである。

【００３１】ＡＢＡＢ…の符号パターンを伝送するか、
ＡＡＡＡ…やＢＢＢＢ…の符号パターンに簡略化して伝
送するかは、駆動信号の変化の度合いよって決まる。駆
動信号のピッチ周期やゲインなどがあまり変化していな
い場合は、ＬＰＣ係数の符号化に多くのビットを割り当
ててＡＢＡＢ…の符号パターンとして伝送し、より原音
声に忠実な復号音声を生成することが可能になる。逆
に、駆動信号の変化が大きく聴覚的に影響が大きい場合
は、駆動信号の符号に多くのビットを割り当て、ＬＰＣ
係数はＡＡＡＡ…やＢＢＢＢ…の符号パターンで我慢す
るようにする。このとき、復号音声と原音声との一致性
は多少犠牲になるが、聴覚的な自然性は保たれる点が大
きな利点である。

【００３２】ＬＰＣ係数は声道特性を表すパラメータの
代表であり、例えばｋパラメータ、ＬＳＰ、ＬＰＣケプ
ストラムなど様々な表現方法がある。また、ＬＰＣ係数
以外のパラメータで声道特性を表すことも可能である。
本実施形態では、ＬＰＣ係数を声道特性を表すパラメー
タの一例として用いたが、他のパラメータを用いてもよ
く、この点は以下に述べる他の実施形態についても同様
である。＜復号化側について＞図２に、図１の音声符号化システ
ムに対応する音声復号化システムの構成を示す。この音
声復号化システムは、入力端子２０１，２０２に入力さ
れるＬＰＣ係数量子化インデックス１００１および駆動
信号量子化インデックス１００２をそれぞれ逆量子化す
る第１，第２の逆量子化部２２１，２２２、入力端子２
０３に入力されるビット配分情報１００３に基づいて逆
量子化部２２１，２２２へのビット配分を決定するビッ
ト配分部２１０、逆量子化部２２１，２２２で逆量子化
されたＬＰＣ係数および駆動信号をそれぞれ遅延させる
第１、第２の遅延部２３１，２３２、ＬＰＣ係数および
駆動信号の予測をそれぞれ行う第１、第２の予測部２４
１，２４２、および逆量子化部２２１，２２２で逆量子
化されたＬＰＣ係数および駆動信号から復号音声信号を
生成する合成部２５０からなる。

【００３３】合成部２５０は、より具体的には逆量子化
されたＬＰＣ係数がフィルタ係数として与えられるＬＰ
Ｃ合成フィルタを用いて構成され、このＬＰＣ合成フィ
ルタに逆量子化された駆動信号を入力することにより、
復号音声信号を生成する。

【００３４】（第２の実施形態）＜符号化側について＞図３に、本発明の第２の実施形態
に係る音声符号化システムを示す。この音声符号化シス
テムは、図１に示した第１の実施形態の音声符号化シス
テムにおけるビット配分部１６０を取り除き、評価部１
５０の評価結果に応じて第１、第２の量子化部１２１，
１２２からのＬＰＣ係数および駆動信号の量子化インデ
ックスのいずれを伝送すべき符号化パラメータとして選
択するかを決定する符号化パラメータ選択制御部１７０
と、この符号化パラメータ選択制御部１７０によって制
御され、量子化部１２１，１２２からのＬＰＣ係数およ
び駆動信号の量子化インデックスのいずれか（ＬＰＣ係
数／駆動信号量子化インデックス）を符号化パラメータ
１００５として取り出す切り替えスイッチ１８０に置き
換えた構成になっている。

【００３５】符号化パラメータ選択制御部１７０から
は、ＬＰＣ係数および駆動信号の量子化インデックスの
いずれの符号化パラメータを選択したかを示す符号化パ
ラメータ選択情報１００４が出力される。

【００３６】第１の実施形態では、ＬＰＣ係数と駆動信
号の予測値に応じてＬＰＣ係数と駆動信号の符号化デー
タへのビット配分を変える方法を述ベたが、本実施形態
ではこれをさらに押し進め、符号化ビットをＬＰＣ係数
と駆動信号のいずれか一方に全て割り当てる。その結
果、フレーム毎にＬＰＣ係数の符号化データを伝送する
か駆動信号の符号化データを伝送するかが変わることに
なる。＜復号化側について＞図４に、図３の音声符号化システ
ムに対応する音声復号化システムを示す。この音声復号
化システムでは、入力端子２０４に入力される符号化パ
ラメータ選択情報１００４に従って、入力端子２０５に
入力される符号化パラメータ（ＬＰＣ係数／駆動信号量
子化インデックス）が逆量子化部２２１，２２２のいず
れかに振り分けて入力される。すなわち、ＬＰＣ係数量
子化インデックスは逆量子化部２２１に、駆動信号量子
化インデックスは逆量子化部２２２にそれぞれ入力され
る。これ以後の動作は、図２と同様である。

【００３７】このように本実施形態によると、復号化側
においてＬＰＣ係数の符号化データが伝送されたフレー
ムでは、駆動信号には予測値をそのまま用い、駆動信号
の符号化データが伝送されたフレームでは、ＬＰＣ係数
には予測値をそのまま用いることで復号音声を生成する
ため、復号音声の原音声との一致性が第１の実施形態よ
りも失われる代わりに、より低レートの符号化が可能と
なる。

【００３８】（第３の実施形態）＜符号化側について＞図５に、本発明の第３の実施形態
に係る音声符号化システムを示す。この音声符号化シス
テムでは、第１の実施形態における分析部１１０がピッ
チ周期分析部１９１とピッチ波形分析部１９２とからな
る分析部１９０に置き換えられ、さらにＬＰＣ分析部１
１１とＬＰＣ係数の分析値を量子化するＬＰＣ量子化部
３２０が分析部３１０の外に設けられている。

【００３９】さらに、本実施形態ではピッチ周期および
ピッチ波形の量子化をそれぞれ行う第１、第２の量子化
部３２１，３２２、ピッチ周期およびピッチ波形の量子
化値をそれぞれ遅延させる第１、第２の遅延部３３１，
３３２、ピッチ周期およびピッチ波形の予測をそれぞれ
行う第１、第２の予測部３４１，３４２、予測部３４
１，３４２からの予測値を復号音声の生成に用いた場合
の聴覚的な自然性に与える度合いを評価する評価部３５
０、および評価部３５０の評価結果に基づいて量子化部
３２１，３２２への量子化ビット数の配分を行うビット
配分部３６０が設けられている。

【００４０】次に、本実施形態の音声符号化システムの
動作について説明する。入力端子１００には音声信号が
１フレーム単位で入力され、これに同期して線形予測分
析が行われてＬＰＣ係数と駆動信号が分離されて符号化
される。すなわち、ＬＰＣ分析部１１１からはＬＰＣ係
数の分析値が出力され、分析部１９０では、駆動信号が
ピッチ周期分析部１９１とピッチ波形分析部１９２でそ
れぞれピッチ周期と１ピッチ分のピッチ波形に分離され
る。ＬＰＣ分析部１１１から出力されるＬＰＣ係数の分
析値はＬＰＣ量子化部３２０で量子化され、ＬＰＣ係数
量子化インデックス１００１が伝送される。

【００４１】第１の量子化部３２１は、予測部３４１の
出力であるピッチ周期の予測値を利用して、ピッチ周期
分析部１９１からのピッチ周期の分析値をビット配分部
３６０によって配分された量子化ビット数で量子化し、
ピッチ周期量子化インデックス１０１１を出力すると同
時に、ピッチ周期の量子化値を次フレームの予測のため
に遅延部３３１に供給する。

【００４２】第２の量子化部３２２は、同様に第２の予
測部３２２の出力であるピッチ波形の予測値を利用し
て、ピッチ波形分析部１９２からのピッチ波形の分析値
をビット配分部３６０によって配分された量子化ビット
数で量子化し、ピッチ波形量子化インデックス１０１２
を出力すると同時に、ピッチ波形の量子化値を次フレー
ムの予測のために遅延部３３２に供給する。

【００４３】評価部３５０では、まずピッチ周期分析部
１９１で得られたピッチ周期の分析値を基に、第１の予
測部３２１で得られたピッチ周期の予測値をそのまま復
号音声の生成に用いた場合の復号音声の声質への影響の
度合が求められる。また、評価部３５０では、ピッチ波
形駆動信号分析部３１２で得られたピッチ波形の分析値
を基に、第２の予測部３２２で得られたピッチ波形の予
測値を復号音声の生成に用いた場合の復号音声の音質へ
の影響の度合も求められる。

【００４４】そして、評価部３５０からは上記の二種類
の影響の度合を示す情報がビット配分部３６０に送られ
る。ビット配分部３６０では、この情報に基づいて影響
の度合が大きい方により多くの量子化ビットを配分する
ように、第１、第２の量子化器３２１，３２２の量子化
ビット数の配分を決める。同時にビット配分部３６０か
らは、第１、第２の量子化器３４１，３４２の各々に配
分した量子化ビット数の情報であるビット配分情報１０
１３が出力される。

【００４５】この音声符号化システムから出力される符
号化データは、ＬＰＣ係数量子化インデックス１００
１、ピッチ周期量子化インデックス１０１１、ピッチ波
形量子化インデックス１０１２およびビット配分情報１
０１３であり、これらが伝送路や記録媒体を介して後述
する音声復号化システムへ伝送される。

【００４６】第１の実施形態では、ＬＰＣ係数と駆動信
号に関して符号化データのビット配分を変える例を述べ
たが、本実施形態ではピッチ周期とピッチ波形の符号化
データに対してビット配分を変えるようにしたものであ
る。

【００４７】まず、ピッチ周期に関して説明すると、ピ
ッチ周期は平坦で変化の少ない区間や、急激に上下する
など変化の大きな区間が存在し、また平坦な区間でも僅
かな揺らぎが存在する。従来は、このようなピッチ周期
の変化を忠実に符号化していた。

【００４８】これに対し、本実施形態では入力音声信号
のピッチ周期と必ずしも一致させることを目的とせず、
聴覚的に自然に聞こえるピッチパターンを予測する。予
測が適当であれば、ピッチ周期の情報を伝送する必要は
ない。復号化側も同じ予測アルゴリズムを備えているた
め、過去の量子化値から符号化側と同じ予測値を生成で
きるからである。予測から外れ聴覚上問題がある場合
は、多くの符号化ビットを割り当てて、より入力音声信
号のピッチ周期に近いピッチ周期を伝送する。ピッチ波
形についても同様である。

【００４９】さらに、本実施形態ではピッチ周期とピッ
チ波形で聴覚的に影響の大きい方により多くの符号化ビ
ットを配分する。ピッチ周期がほぼ一定の場合は、ピッ
チ波形に、逆にピッチ周期が変化しているがピッチ波形
は変わらない場合は、ピッチ周期により多くの符号化ビ
ットを配分する。このようにすることで、ピッチ周期の
原音との一致性は多少犠牲になるが、駆動信号を低レー
トで符号化することが可能になる。＜復号化側について＞図６に、図５の音声符号化システ
ムに対応する音声復号化システムの構成を示す。この音
声復号化システムは、入力端子２０１，２１１、２１２
にそれぞれ入力されるＬＰＣ係数量子化インデックス１
００１、ピッチ周期量子化インデックス１０１１、ピッ
チ波形量子化インデックス１０１２を逆量子化する逆量
子化部４２０，４２１，４２２、入力端子２１３に入力
されるビット配分情報１０１３に基づいて逆量子化部４
２１，４２２へのビット配分を決定するビット配分部４
１０、逆量子化部４２１，４２２で逆量子化されたピッ
チ周期およびピッチ波形をそれぞれ遅延させる第１、第
２の遅延部４３１，４３２、ピッチ周期およびピッチ波
形の予測をそれぞれ行う第１、第２の予測部４４１，４
４２、および逆量子化部４０２，４２１，４２２で逆量
子化されたＬＰＣ係数、ピッチ周期およびピッチ波形か
ら復号音声信号を生成する合成部４５０からなる。

【００５０】合成部４５０は、より具体的には逆量子化
されたＬＰＣ係数がフィルタ係数として与えられるＬＰ
Ｃ合成フィルタを用いて構成され、このＬＰＣ合成フィ
ルタに逆量子化されたピッチ周期およびピッチ波形から
生成される駆動信号を入力することにより、復号音声信
号を生成する。

【００５１】（第４の実施形態）図７に、本発明の第４
の実施形態に係る音声符号化システムを示す。この音声
符号化システムは、図５に示した第３の実施形態の音声
符号化システムから、ＬＰＣ分析部１１１とＬＰＣ量子
化部３２０を取り去った構成になっている。第３の実施
形態では、入力音声信号を線形予側分析し、ＬＰＣ係数
と駆動信号に分離して符号化しているが、本実施形態で
は分離せずに符号化している。

【００５２】具体的には、第３の実施形態では駆動信号
のピッチ周期およびピッチ波形が抽出されるのに対し、
本実施形態ではピッチ周期分析部３１１で入力音声信号
のピッチ周期が抽出され、ピッチ波形分析部３１２で入
力音声信号のピッチ波形が切り出される。

【００５３】本実施形態によると、第１〜第３の実施形
態で必要であったＬＰＣ分析が不要となり、ＬＰＣ分析
の効果が薄い入力音声信号に対しても本発明を適用する
ことができる。以降の実施形態ではＬＰＣ分析を行わな
い例を示しているが、本実施形態と第３の実施形態との
関係と同様に、ＬＰＣ分析を行う場合にも適用可能であ
る。＜復号化側について＞図８は、図７の音声符号化システ
ムに対応する音声復号化システムの構成を示す図であ
り、図６に示した第３の実施形態の音声復号化システム
から、ＬＰＣ逆量子化部４２０を取り去った構成となっ
ている。この場合、合成部４５０では逆量子化されたピ
ッチ波形を逆量子化されたピッチ周期で適当な手法でつ
なぎ合わせることで、復号音声信号を生成する。

【００５４】（第５の実施形態）図９に、本発明の第５
の実施形態に係る音声符号化システムを示す。この音声
符号化システムは、図７に示した第５の実施形態の音声
符号化システムにおける第１、第２の予測部３４１，３
４２および評価部３５０の構成を詳細に示したものであ
り、他の構成要素やその動作に関しては第４の実施形態
と同じである。予測部３４１は比較部３４１１とピッチ
パターン符号帳３４１２からなり、予測部３４２は比較
部３４２１と波形パターン符号帳３４２２からなる。ま
た、評価部３５０は二つの誤差積分部３５１１，３５２
２からなる。

【００５５】まず、第１の予測部３４１について説明す
る。予測部３４１のピッチパターン符号帳３４１２に
は、多くの音声から学習によって得られたピッチパター
ンと、そのパターンの次に出現する後続ピッチ周期の組
が複数格納されている。ここで、ピッチパターンとは音
声のピッチ周期の変化を表すもので、ここでは過去Ｎフ
レーム分のピッチ周期とする。符号化時には、遅延部３
３１に格納された過去のＮ個の量子化ピッチ周期とピッ
チパターン符号帳３４１２に格納されたピッチパターン
（Ｎ個のピッチ周期）を比較部３４１１で比較してピッ
チ周期の変化の形が最も近い候補を探し、これと組にな
っている後続ピッチ周期を予測ピッチ周期として出力す
る。

【００５６】次に、第２の予測部３４２について説明す
る。予測部３４２は、扱うパラメータが予測部３４１の
ピッチ周期からピッチ波形に代わっただけで、動作は同
じである。すなわち、遅延部３３２に蓄えられて過去Ｍ
個のピッチ波形と、波形パターン符号帳３４２２に格納
されたＭ個のピッチ波形を比較して最も近いものを探
し、これと組になっている後続ピッチ波形を予測ピッチ
波形として出力する。

【００５７】次に、評価部３５０について説明する。評
価部３５０の誤差積分部３５１１ではピッチ分析部３１
１で得られたピッチ周期の分析値と、予測部３４１から
出力されたピッチ周期の予測値を入力とし、その違いを
評価する。このとき、現フレームのピッチ周期の違いだ
けではなく、過去数フレームに遡って全体のピッチ周期
の変化がどれ程度ずれているかを評価する。この変化の
ずれをここでは積分値と呼ぶことにする。

【００５８】ピッチ周期は、一時的にずれても聴覚的な
自然性という観点からは問題はないが、長期にわたって
ずれ続けると不自然なイントネーションとなって自然性
を損なう。そこで、誤差積算部３５１１では、ピッチ周
期の分析値と予測値が長期にわたってずれているほど差
が大きいと判断し、その情報を誤差情報としてビット配
分部３６０に送る。

【００５９】誤差積算部３５１２は、扱う情報がピッチ
周期でなくピッチ波形である点を除けば誤差積算部３５
１１と同じである。すなわち、ピッチ波形の予測値と分
析値の時間変化を比較し、長期にわたってずれ続けてい
る場合ほど大きな値の誤差情報をビッ卜配分部３６０に
出力する。

【００６０】ビット配分部３６０では、誤差積分部３５
１１，３５１２からの誤差情報を基にピッチ周期とピッ
チ波形の量子化ビット数を決定し、量子化部３２１、３
２２にビット数を出力する。

【００６１】量子化部３２１では、割り当てられたビッ
ト数でピッチ周期分析部３１１より得られたピッチ周期
の分析値と比較部３４１１より得られたピッチの予測値
を基に現フレームのピッチ周期を決定する。通常、ピッ
チ周期の分析値により近い値になるように現フレームの
ピッチ周期を決定し、これを示すインデックスを出力す
ると同時に、次のフレームで用いるため量子化値を遅延
部３３１に供給して格納しておく。

【００６２】量子化部３２２も、同様にピッチ波形の量
子化を行う。量子化には多くの場合符号帳を用いるが、
この符号帳はピッチパターン符号帳３４１２や波形パタ
ーン符号帳３４２２とは別のものであり、図９では量子
化部３２２に含まれており、陽には示していない。

【００６３】このように本実施形態では、長期にわたる
ピッチ周期およびピッチ波形の変化のずれを評価するこ
とで、聴覚的により自然に聞こえる復号音声が得られる
低レート符号化が可能になる。また、ピッチパターン符
号帳３４１１の作成においてメモリ量を削減するためピ
ッチ周期を正規化することは効果的である。＜復号化側について＞図１０は、図９の音声符号化シス
テムに対応する音声復号システムの構成を示す図であ
り、図８に示した第５の実施形態の音声復号化システム
における第１，第２の予測部４４１，４４２の構成を詳
細に示したものである。すなわち、予測部４４１は比較
部４４１１とピッチパターン符号帳３４１２からなり、
予測部４４２は比較部４４２１と波形パターン符号帳４
４２２からなる。

【００６４】次に、この音声復号化システムの動作につ
いて説明する。ビット配分部４１０において、入力端子
２１３に入力されたビット配分情報から、図９中の量子
化部３２１，３２２に配分された量子化ビット数が求め
られ、これらが逆量子化部４２１，４２２にそれぞれ与
えられる。

【００６５】入力端子３０１にはピッチ周期インデック
スが入力され、このインデックスと第１の予測部４４１
から出力されたピッチ周期の予測値を基に逆量子化部４
２１でピッチ周期が復号され、合成部４５０に入力され
ると同時に、次のフレームの処理に備えて遅延部４３１
に入力される。予測部４４１は、符号帳も含め図９の音
声符号化システムの予測部３３１と全く同じ構成になっ
ているので、予測部３３１と同じ出力をサイド情報なし
で得ることができる。

【００６６】入力端子２１５にはピッチ波形インデック
スが入力され、このインデックスと第２の予測部４４２
から出力されたピッチ波形の予測値を基に逆量子化部４
２２でピッチ周期が復号され、合成部４５０に入力され
ると同時に、次のフレームの処理に備えて遅延部４３２
に入力される。

【００６７】合成部４５０では、ピッチ波形をピッチ周
期で適当な手段を用いてつなぎ合わせることで復号音声
を生成する。（第６の実施形態）＜符号化側について＞図１１に、本発明の第５の実施形
態に係る音声符号化システムを示す。この音声符号化シ
ステムは、図７に示した第４の実施形態の音声符号化シ
ステムにおけるビット配分部３６０を取り除き、評価部
３５０の評価結果に応じて第１、第２の量子化部３２
１，３２２からのピッチ周期およびピッチ波形の量子化
値のいずれを符号化パラメータとして選択するかを決定
する符号化パラメータ選択制御部３７０と、この符号化
パラメータ選択制御部３７０によって制御され、第１、
第２の量子化部３２１，３２２からのピッチ周期および
ピッチ波形の量子化インデックスのいずれか（ピッチ周
期／ピッチ波形量子化インデックス）を符号化パラメー
タ１０１５として取り出す切り替えスイッチ３８０に置
き換えた構成になっている。符号化パラメータ選択制御
部３７０からは、ピッチ周期およびピッチ波形の量子化
インデックスのいずれを符号化パラメータとして選択し
たかを示す符号化パラメータ選択情報１０１４が出力さ
れる。

【００６８】そして、フレーム毎にピッチ周期かピッチ
波形のいずれか一方を選択し、その選択した方に配分可
能な符号化ビットを全て割り当て符号化を行う。符号化
ビットがは配分されなかった方は、予測値をそのまま用
いる。＜復号化側について＞図１２は、図１１の音声符号化シ
ステムに対応する音声復号化システムを示す図である。
この音声復号化システムでは、入力端子２１４に入力さ
れる符号化パラメータ選択情報１０１４に従って、入力
端子２１５に入力される符号化パラメータ（ピッチ周期
／ピッチ波形量子化インデックス）が逆量子化部４２
１，４２２のいずれかに振り分けて入力される。すなわ
ち、ピッチ周期量子化インデックスは逆量子化部４２１
に、ピッチ波形量子化インデックスは逆量子化部４２２
にそれぞれ入力される。これ以後の動作は、図８と同様
である。

【００６９】このように本実施形態によると、ピッチ周
期の符号化データが伝送されたフレームでは、ピッチ波
形には予測値を復号音声の生成に用い、ピッチ波形の符
号化データが伝送されたフレームでは、ピッチ周期には
予測値を復号音声の生成に用いることで、復号音声の原
音声との一致性が第４の実施形態よりも失われる代わり
に、より低レートの符号化が可能となる。

【００７０】（第８の実施形態）図１３に、本発明の第
８の実施形態に係る音声復号化システムを示す。本実施
形態は、第１の実施形態と第４の実施形態を組み合わ
せ、さらに分析部５１０においてピッチ形状分析部５１
１とゲイン分析部５１２を設けて、ピッチ波形を形状と
ゲインに分解して分析し、ピッチ周期、ピッチ形状、ゲ
インおよびＬＰＣ係数という全部で４種類のパラメータ
を入力音声信号から抽出する構成になっている。以降の
処理はこれまでの実施形態と同様であり、予測値が聴覚
上不自然に聞こえる可能性のあるパラメータほど多くの
ビットを割り当てて符号化を行う。

【００７１】このように音声信号のパラメータをより細
かく分類分けすることによって、必要なパラメータに集
中してビットを配分することができ、符号化の効率がさ
らに上がる。図１３の音声符号化システムに対応する音
声復号化システムについては特に図示しないが、これま
での実施形態から明らかであるので、詳細な説明を省略
する。

【００７２】

【発明の効果】以上説明したように、本発明によると原
音声との一致性は多少失われるが、聴覚的に自然な復号
音声が得られる低レート音声符号化／復号化を実現する
ことができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声符号化シス
テムの構成を示すブロック図

【図２】本発明の第１の実施形態に係る音声復号化シス
テムの構成を示すブロック図

【図３】本発明の第２の実施形態に係る音声符号化シス
テムの構成を示すブロック図

【図４】本発明の第２の実施形態に係る音声復号化シス
テムの構成を示すブロック図

【図５】本発明の第３の実施形態に係る音声符号化シス
テムの構成を示すブロック図

【図６】本発明の第３の実施形態に係る音声復号化シス
テムの構成を示すブロック図

【図７】本発明の第４の実施形態に係る音声符号化シス
テムの構成を示すブロック図

【図８】本発明の第４の実施形態に係る音声復号化シス
テムの構成を示すブロック図

【図９】本発明の第５の実施形態に係る音声符号化シス
テムの構成を示すブロック図

【図１０】本発明の第５の実施形態に係る音声復号化シ
ステムの構成を示すブロック図

【図１１】本発明の第６の実施形態に係る音声符号化シ
ステムの構成を示すブロック図

【図１２】本発明の第６の実施形態に係る音声復号化シ
ステムの構成を示すブロック図

【図１３】本発明の第７の実施形態に係る音声符号化シ
ステムの構成を示すブロック図

【符号の説明】

１００…音声信号入力端子１１０，３１０，５１０…分析部１１１…ＬＰＣ分析部１１２…駆動信号分析部１２１，１２２，３２１，３２２，５２１，５２２…量
子化部１３１，１３２，３３１，３３２，５３１，５３２…遅
延部１４１，１４２，３４１，２４２，５４１，５４２…予
測部１５０，３５０，５５０…評価部１６０，３６０，５６０…ビット配分部１７０，３７０…符号化パラメータ選択制御部１８０，３８０…切り替えスイッチ１９０…分析部１９１…ピッチ周期分析部１９２…ピッチ波形分析部２１０，４１０…ビット配分部２２１，２２２，４２１，４２２…逆量子化部２３１，２３２，４３１，４３２…遅延部２４１，２４２，４４１，４４２…予測部２５０，４５０…合成部２６０，４６０…切り替えスイッチ３１１…ピッチ周期分析部３１２…ピッチ波形分析部３１３…ゲイン分析部３２０…ＬＰＣ量子化部５１１…ピッチ形状分析部５１２…ゲイン分析部１００１…ＬＰＣ係数量子化インデックス１００２…駆動信号量子化インデックス１００３…ビット配分情報１００４…符号化パラメータ選択情報１００５…ＬＰＣ係数／駆動信号量子化インデックス１０１１…ピッチ周期量子化インデックス１０１２…ピッチ波形量子化インデックス１０１３，１０１８…ビット配分情報１０１４…符号化パラメータ選択情報１０１５…ピッチ周期／ピッチ波形量子化インデックス１０１６…ピッチ形状量子化インデックス１０１７…ゲイン量子化インデックス１０２０…復号音声信号３４１１，３４２１…ピッチパターン符号帳３４１２，３４２２…波形パターン符号帳３５１１，３５１２…誤差積分部４４１１，４４２１…ピッチパターン符号帳４４１２，４４２２…波形パターン符号帳

Claims

【特許請求の範囲】

【請求項１】入力音声を分析して得られる複数のパラメ
ータを符号化する音声符号化方法において、各パラメータの予測値を過去の符号化データから求め、前記各パラメータについて分析値と予測値の比較を行う
ことにより、予測値を復号音声の生成に用いた場合の聴
覚的な自然性に与える影響の度合を評価し、この評価結果に基づき、前記影響の度合いがより大きい
パラメータにより多くの符号化ビットを配分し、前記各パラメータの前記符号化データおよび前記各パラ
メータへの符号化ビットの配分を示すビット配分情報を
伝送することを特徴とする音声符号化方法。
【請求項２】入力音声を分析して得られる複数のパラメ
ータについて、該パラメータの符号化データと、該パラ
メータの予測値を用いて復号音声を生成した場合の聴覚
的な自然性に与える影響の度合の評価結果に基づき前記
影響の度合いがより大きいパラメータにより多く配分さ
れるように決定された符号化ビットの配分を示すビット
配分情報を入力し、前記符号化データを前記ビット配分情報に従って復号化
して復号音声を生成することを特徴とする音声復号化方
法。
【請求項３】入力音声を分析して得られる複数のパラメ
ータを符号化する音声符号化方法において、各パラメータの各々の予測値を過去の符号化データから
求め、前記各パラメータについて分析値と予測値の比較を行う
ことにより、予測値を復号音声の生成に用いた場合の聴
覚的な自然性に与える影響の度合を評価し、この評価結果に基づき、前記影響の度合いがより大きい
パラメータのみを選択して該パラメータの分析値の符号
化データを伝送するとともに、選択したパラメータの種
類を示す選択情報を伝送することを特徴とする音声符号
化方法。
【請求項４】入力音声を分析して得られる複数のパラメ
ータについて、該パラメータの予測値を用いて復号音声
を生成した場合の聴覚的な自然性に与える影響の度合の
評価結果に基づき選択された前記影響の度合いがより大
きいパラメータの分析値の符号化データと、選択された
パラメータの種類を示す選択情報を入力し、前記選択情報に基づいて、選択されたパラメータについ
ては前記分析値の符号化データを復号化して復号音声を
生成し、選択されなかったパラメータについては前記予
測値をそのまま用いて復号音声を生成することを特徴と
する音声復号化方法。