JPH08123493A

JPH08123493A - 符号励振線形予測音声符号化装置

Info

Publication number: JPH08123493A
Application number: JP6264235A
Authority: JP
Inventors: Sachiko Hosaka; 祥子保坂; Akitoshi Kataoka; 章俊片岡; Takehiro Moriya; 健弘守谷; Shinji Hayashi; 伸二林
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1994-10-27
Filing date: 1994-10-27
Publication date: 1996-05-17

Abstract

(57)【要約】【目的】音声のみならず、音声に背景雑音や音楽等が
加わっても自然な復号音が得られる符号励振線形予測音
声符号化装置を提供すること。【構成】形状励振源符号帳を備える符号励振線形予測
音声符号化装置において、形状励振源符号帳は、複数の
サブ符号帳から構成され、各サブ符号帳(106a,106b)
は、雑音を含まない音声を用いて学習した信号源ベクト
ルから構成される音声部(106a-1,106b-1)と、音声以外
の非音声を利用して学習した信号源ベクトル又は学習を
行わないランダム信号源ベクトルから構成される非音声
部(106a-2,106b-2)とからなることを特徴とする。【効果】サブ符号帳を音声部のみあるいは非音声部の
みのベクトルで構成するよりも品質を向上させることが
できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、２ｋｂｉｔ／ｓ−１
６ｋｂｉｔ／ｓ程度のビットレートで使われる符号励振
線形予測（ＣＥＬＰ）音声符号化方式、残差駆動線予測
（ＲＥＬＰ）音声符号化方式などの、音声合成フィルタ
を励振信号源で駆動する形式の音声符号化方式に適用
し、音声のみならず、音声に背景雑音や音楽等が加わっ
ても自然な復号音が得られる符号励振線形予測音声符号
化装置に関するものである。

【０００２】

【従来の技術】近年、ディジタル移動通信などの技術分
野においては、電波を有効利用するなどの目的で、種々
の高能率符号化方式が用いられている。８ｋｂｉｔ／ｓ
程度の符号化速度で音声を符号化する高能率符号化方式
の一つに、符号励振線形予測（ＣＥＬＰ）符号化方式が
ある。この符号励振線形予測符号化方式は、人間の音声
の生成機構をモデル化する線形予測分析合成にベクトル
量子化技術とＡｂＳ（合成を利用した分析）技術を組み
合せた周知の技術である。また、符号励振線形予測符号
化方式のなかには、２つのサブ符号帳によって形状励振
源符号帳を構成した、共役構造ＣＥＬＰ（ＣＳ−ＣＥＬ
Ｐ）と呼ばれる構造のものがある（なお、共役構造ＣＥ
ＬＰについては、本願出願人の出願による特願平−７０
５３４「音声の符号化方法」に詳細に説明されてい
る）。

【０００３】ここで、図３を参照して、共役構造を持つ
符号励振線形予測符号化方式の一例について説明する。
図３は、共役構造ＣＥＬＰ符号化方式による符号励振線
形予測音声符号化装置の一構成例を示すブロック図であ
り、この図において、符号１は、入力端子であり、この
入力端子１からは、アナログの音声信号をサンプリング
周波数８ｋＨｚでサンプリングして生成したデジタルの
音声データが入力される。入力端子１から入力された入
力信号は、ＬＰＣ（線形予測）分析器２へ入力される。
このＬＰＣ分析器２は、入力信号を、窓かけ、自己相関
関数計算、斉次連立方程式の求解等の周知の手法によっ
て、線形予測分析し、音声合成フィルタ４の予測係数と
音声分析フィルタ３の予測係数を求める。そして、音声
合成フィルタ４の予測係数（線形予測係数）は、一度量
子化され、伝送に適した形に変換された後、再度復号さ
れて、音声合成フィルタ４に設定される。また、音声分
析フィルタ３の予測係数も、同様にして設定される。

【０００４】音声分析フィルタ３は、音声合成フィルタ
４における合成作用と逆の作用をなすフィルタであり、
音声合成フィルタ４の出力信号（複合音声）を、ＬＰＣ
分析器２によって設定された予測係数に基づいて分析す
ることによって、線形予測残差信号を求める。そして、
線形予測残差信号に基いて、音声の基本周期（ピッチ）
成分をあらわす適応励振源符号帳５の記憶データが設定
される。この適応励振源符号帳５は、ピッチ周期時間と
ピッチパルスの振幅をピッチ周期ベクトルとして表し、
記憶した符号帳であり、音声のピッチ変化に追従して適
応的に変化するものである。

【０００５】６ａおよび６ｂは、形状励振源符号帳を構
成するサブ符号帳であり、残差信号からピッチ成分を除
いた残りの波形である形状励振源成分を、励振ベクトル
として表し、記憶した符号帳である。サブ符号帳６ａ、
６ｂからなる形状励振源符号帳は、非周期的励振に対応
するものであり、時間と共に変化しない。

【０００６】そして、適応励振源符号帳５ならびにサブ
符号帳６ａ、６ｂからは、後述する最小歪み計算部８に
よって選択されたピッチ周期ベクトルおよび励振ベクト
ルが取り出され、適応励振源符号帳５から取り出された
ピッチ周期ベクトルには、利得部１０において、ピッチ
ゲインが乗算され、一方、サブ符号帳６ａ、６ｂから取
り出された各励振ベクトルは、互いに加算されて励振ベ
クトル３０として合成された後、利得部１１において、
ゲインアダプタ９によって設定された予測ゲインが乗算
され、さらに利得部１３において、形状ゲインが乗算さ
れる。

【０００７】そして、利得部１０の出力ベクトルと利得
部１３の出力ベクトルは、互いに加算された後、音声合
成フィルタ４に供給され、音声合成フィルタ４におい
て、上述したようにしてＬＰＣ分析器２によって設定さ
れた線形予測係数に基づいて合成される。なお、上記の
利得部１０におけるピッチゲインは、ピッチ周期の励振
に対する振幅のゲインであり、音声合成フィルタ４に入
力されるベクトルに応じて設定されるものである。他
方、利得部１１における予測ゲインは、形状励振に対す
る振幅のゲインであり、ゲインアダプタ９において、過
去の励振ベクトル３０ａのパワーに基づいて線形予測分
析を行うことによって設定されるものである。

【０００８】そして、入力端子１から入力された入力信
号ベクトルから、音声合成フィルタ４の出力ベクトルが
減算されて歪データが求められ、この歪データが、聴覚
重み付けフィルタ７において、人間の聴覚の特性に対応
した係数によって重み付けされた後、最小歪み計算部８
へ入力される。そして、最小歪み計算部８において、聴
覚重み付けフィルタ７から出力された歪データのパワー
が計算され、この歪データのパワーが最も小さくなるよ
うに適応励振源符号帳５ならびにサブ符号帳６ａ、６ｂ
から、それぞれピッチ周期ベクトルおよび励振ベクトル
が選択される。なお、通常、上記の聴覚重み付けフィル
タ７は、移動平均自己回帰型の１０次程度のフィルタで
あり、フォルマントの山の部分をやや強調するような特
性を持つように構成されたものであり、最小歪み計算部
８は、２乗誤差最小の計算を行うように構成されたもの
である。

【０００９】そして、符号出力部１２において、上述し
た予測係数、ピッチ周期ベクトルおよび励振ベクトルそ
れぞれに対して選択されたコード、利得等が、ビット系
列の符号に変換され、さらに必要に応じて訂正符号が付
加され、符号出力部１２から伝送路へ向けて出力され
る。すなわち、符号化の際は、入力信号の波形に対し、
合成波形（音声合成フィルタ４の出力ベクトル）の聴覚
重み付け自乗誤差が最小となるような励振源の組み合せ
が、適応励振源符号帳５ならびにサブ符号帳６ａ、６ｂ
からなる形状励振源符号帳から選ばれるのである。

【００１０】上述したように、共役構造ＣＥＬＰ（ＣＳ
−ＣＥＬＰ）において、形状励振源符号帳は、２つのサ
ブ符号帳６ａ、６ｂに分かれて構成されている。各サブ
符号帳６ａ、６ｂは、相互に他を補完する機能を果た
し、仮に伝送路の符号誤りにより、復号器（図示せず）
において、一方のサブ符号帳の形状励振ベクトルが誤っ
て選ばれても、他方のサブ符号帳のベクトルとの和をと
るため、結果として大きな誤差を生じないという特徴が
ある。

【００１１】ところで、サブ符号帳６ａ、６ｂからなる
形状励振源符号帳に記憶される形状励振源成分を求める
際にも、上述した適応励振源符号帳５を設定する場合と
同様に、ベクトル量子手法が適用される。しかし、音声
の変化に応じて形状励振源符号帳を適応的に変化させる
には、あまりにも分散が大きいため、形状励振源成分を
求める場合には、予め尤もらしい波形をベクトルとして
複数用意して、符号帳に記憶させておくことが行われ
る。ただし、伝送の際、実際に伝送されるのは、ベクト
ルの指標のみである。

【００１２】この尤もらしい符号帳を構成する手法の一
つが学習である。図３に示す形状励振源符号帳の場合、
雑音を表すベクトルの一群を初期状態として、予め音声
データベースを用いて学習がなされる。学習は、各励振
源に合成フィルタを畳み込み、振幅（ゲイン）を乗じて
得た合成波形と目標音声信号との誤差の、符号帳中の全
ての励振源についての総和が最小となるよう各形状励振
源符号帳のサブ符号帳のベクトルを決定するものであ
る。

【００１３】ここで、図４を参照して、従来の形状励振
源符号帳の学習においてサブ符号帳に設定される励振ベ
クトルの構成について説明する。通常の音声データーベ
ースは、背景雑音や背景音楽等を含まないため、このよ
うな音声データーベースを用いた場合、学習済みの形状
励振源符号帳は、図４（ａ）に示すように、それを構成
する２つのサブ符号帳６ａ−１、６ｂ−１が、共に雑音
を含まない音声データの信号源ベクトルからなる音声部
のみで構成される。一方、学習をしない場合（例えばガ
ウス雑音からなる符号帳の場合）、あるいは、音声以外
すなわち非音声である背景音声等を利用して学習した符
号帳の場合、図４（ｂ）に示すように、２つのサブ符号
帳６ａ−２、６ｂ−２が、共に学習を行わないランダム
信号源ベクトルもしくは音声以外の非音声を利用して学
習した信号源ベクトルからなる非音声部のみで構成され
る。

【００１４】

【発明が解決しようとする課題】背景雑音や背景音楽等
を含まない音声データベースによって学習済みの形状励
振ベクトル信号すなわちサブ符号帳６ａ−１、６ｂ−１
の出力から合成した励振ベクトル３０−１（図４（ａ）
参照）は、雑音の無い入力音声に最適なものとなる。し
たがって、結果的に、このような学習済みの符号帳を有
する符号化装置は、雑音の無い入力に対して高品質であ
るが、音声の背景に雑音や音楽などが加わると極めて明
らかな品質劣化を生じるという問題点があった。

【００１５】一方、学習をしない、例えばガウス雑音か
らなる符号帳あるいは音声以外の非音声である背景音声
等を利用して学習した符号帳から合成される励振ベクト
ル３０−２（図４（ｂ）参照）は、雑音のある場合の入
力音声に最適なものとなる。したがって、付加雑音によ
る品質劣化が少ないものの、雑音の無い環境下の音声に
対してあまり品質が上がらないという欠点があった。

【００１６】本発明は、上記の問題点に鑑みてなされた
ものであり、音声のみならず、音声に背景雑音や音楽等
が加わっても自然な復号音が得られる符号励振線形予測
音声符号化装置を提供することを目的とする。

【００１７】

【課題を解決するための手段】請求項１記載の発明は、
形状励振源符号帳を備える符号励振線形予測音声符号化
装置において、前記形状励振源符号帳は、複数のサブ符
号帳から構成され、前記各サブ符号帳は、雑音を含まな
い音声又は雑音を含まない音声と雑音を含む音声の両方
を用いて学習した信号源ベクトルから構成される音声部
と、音声以外の非音声を利用して学習した信号源ベクト
ル又は学習を行わないランダム信号源ベクトルから構成
される非音声部とからなることを特徴とする。

【００１８】また、請求項２記載の発明は、形状励振源
符号帳を備える符号励振線形予測音声符号化装置におい
て、前記形状励振源符号帳は、第１および第２のサブ符
号帳から構成され、前記第１のサブ符号帳は、雑音を含
まない音声又は雑音を含まない音声と雑音を含む音声の
両方を用いて学習した信号源ベクトルのみから構成さ
れ、前記第２のサブ符号帳は、音声以外の非音声を利用
して学習した信号源ベクトルのみ又は学習を行わないラ
ンダム信号源ベクトルのみで構成されることを特徴とす
る。

【００１９】

【作用】以上の構成によれば、各サブ符号帳を構成する
音声部と非音声部のベクトルの分布が異なっているた
め、音声部と非音声部をうまくカバーするように両者か
ら選んでサブ符号帳を構成することにより、雑音を含ま
ない音声入力に対しても背景音楽を含む音声入力に対し
てもそれぞれ最適なベクトルが選択されるため、総合的
に考えるとサブ符号帳を音声部のみあるいは非音声部の
みのベクトルで構成するよりも品質が向上する。

【００２０】

【実施例】以下、図面を参照してこの発明による一実施
例を説明する。なお、本発明は、図３を参照して説明し
た符号励振線形予測符号化方式等に設けられている形状
励振源符号帳の構成に係り、その初期値の設定に特徴が
あるものである。したがって、符号励振線形予測音声符
号化装置のそれ以外の構成については、従来のものと同
様であり、以下の説明では、形状励振源符号帳の構成に
ついて詳細に記述する。

【００２１】図１は、この発明による符号励振線形予測
音声符号化装置の形状励振源符号帳の構成を示す構成図
であり、一例として、図３に示すものと同様に、２つの
サブ符号帳を有する場合の形状励振源符号帳を示したも
のである。この図に示すサブ符号帳１０６ａ、１０６ｂ
は、図３に示すサブ符号帳６ａ、６ｂに対応するもので
あり、それぞれを構成するベクトルは、実際の構成にお
いて、例えば、各４０次元で１２８個であるが、この図
においては、それぞれを８個のベクトルによって簡略し
て表している。

【００２２】サブ符号帳１０６ａ、１０６ｂを学習させ
るのに先立ち、まず、雑音を含まない音声又は雑音を含
まない音声と雑音を含む音声の両方を使って学習するこ
とによって得られた符号帳と音声以外の非音声例えば付
加雑音や背景音楽を使って学習することによって得られ
た符号帳を用意する。

【００２３】次に音声入力の環境（例えば車の中）を考
慮し、（音声部のベクトル個数）＋（非音声部のベクト
ル個数）＝１２８個になるように予め用意した符号帳の
音声部と非音声部のベクトルの中から適切なベクトルを
選ぶことによって、各サブ符号帳１０６ａ、１０６ｂ
が、それぞれ音声部１０６ａ−１または１０６ｂ−１と
非音声部１０６ａ−２または１０６ｂ−２を持つ複合形
状の符号帳となるように、サブ符号帳１０６ａ、１０６
ｂそれぞれに音声部のベクトルと非音声部のベクトルを
記憶させる。

【００２４】各１２８ベクトルの内、例えば６４ベクト
ルを音声部、残り６４ベクトルを非音声部に振り分ける
ことができる。ただし、この比率は１対１に限らず、使
用状況に応じた入力音声の性質を見込んで自由に設定す
ることができる。

【００２５】符号励振線形予測音声符号化装置の実際の
動作においては、上述したように、各サブ符号帳１０６
ａ、１０６ｂの中のベクトルの選択に当たって、聴覚重
みづけを考慮して歪最小となるベクトルが選ばれるか
ら、一方、雑音を含まない入力音声の場合は、２つとも
音声部（１０６ａ−１および１０６ｂ−１）のベクトル
が選ばれ、励振ベクトル１３０が合成され、他方、入力
音声が背景音声等を含んでいる場合には２つとも非音声
部（１０６ａ−２および１０６ｂ−２）が選ばれて励振
ベクトル１３０が合成される可能性が高い。したがっ
て、従来の場合すなわち背景雑音や背景音楽等を含まな
い音声データベースによって学習済みサブ符号帳を用い
て音声の背景に雑音や音楽などが加わった入力信号を符
号化する場合、あるいは、学習をしない符号帳もしくは
音声以外の非音声である背景音声等を利用して学習した
符号帳を用いて付加雑音による品質劣化が少ないものも
しくは雑音の無い環境下の音声を符号化する場合と比較
して、励振ベクトル１３０（図３に示す励振ベクトル３
０に対応するもの）として、入力信号の特性により適合
したものが選択されることになるので、音声品質を向上
させることができる。

【００２６】次に、本発明による他の実施例を図２を参
照して説明する。この図において、形状励振源符号帳
は、図１に示す各サブ符号帳１０６ａ、１０６ｂに代え
て、音声部のみからなるサブ符号帳２０６ａと非音声部
のみからなるサブ符号帳２０６ｂから構成されている。
この場合、サブ符号帳２０６ｂを構成する非音声部は、
雑音波形の時系列のベクトルまたは雑音や非音声信号か
らなるデータベースを用いたベクトル１２８個から構成
されたものであり、一方、サブ符号帳２０６ａを構成す
る音声部は、同様の雑音ベクトルを初期値として、雑音
を含まない音声又は雑音を含まない音声と雑音を含む音
声の両方のデータベースを用いて学習した結果得られた
１２８個の励振ベクトルから構成されたものである。

【００２７】この図に示すようにして各サブ符号帳２０
６ａ、２０６ｂを構成した場合、各サブ符号帳が、それ
ぞれ１２８個の音声部あるいは非音声部からなる励振ベ
クトルによって構成されるので、図１に示した場合と比
較して、一方、サブ符号帳２０６ａでは、付加雑音によ
る品質劣化が少ないものもしくは雑音の無い環境下の音
声に対して適切な励振ベクトルの選択の範囲が広がり、
他方、サブ符号帳２０６ｂでは、音声の背景に雑音や音
楽などが加わった入力信号に対する適切な励振ベクトル
の選択の範囲が広がる。したがって、各サブ符号帳から
選択された励振ベクトルの合成ベクトルである励振ベク
トル２３０（図３に示す励振ベクトル３０に対応するも
の）は、図１に示す実施例と同様、従来の場合に比較
し、結果として音声品質の向上を図ることができる。

【００２８】なお、以上の実施例では、形状励振源符号
帳を２つに分けたＣＳ−ＣＥＬＰの例を示したが、更に
多数の符号帳に分ける構成にも、また、１つのみの符号
帳を用いる場合も本複合符号帳の構成手法を適用するこ
とができる。

【００２９】また、符号帳のメモリを削減するため、一
つまたは数個のベクトルを循環的に使用する方法も矛盾
なく組み合せることができる。また、演算量削減のため
符号帳ベクトルの非重要成分を０として、数点の代表パ
ルスのみを残すスパース励振ベクトルの採用も本方式と
併用することが出来、効果を損なわない。このとき、音
声部符号帳のみにスパース励振ベクトルを適用し、非音
声部符号帳はすべての標本に値を持つように設定するこ
とが可能で、品質を保ちつつ演算量やメモリを削減出来
る点で実用的に有効である。

【００３０】さらに、雑音励振部分の検索において数個
の励振パルスを順次予め決った位置に立てて歪みの少な
いパルス列を求める代数的符号励振ＣＥＬＰ（Ａ−ＣＥ
ＬＰ）と組み合せても効果を発揮することは明らかであ
る。

【００３１】本発明を適用した場合を、従来技術による
場合（形状励振源符号帳に全て音声部ベクトルを用いた
場合、及び、非音声部ベクトルのみを用いた場合）と比
較した効果を以下に示す。 ○従来技術（音声部ベクトルのみの場合）全ての励振音源を学習し
た方式では、雑音を含まない入力音声に対して好ましい
品質を示すものの、背景に雑音の混じった音声では、背
景の雑音が変形し違和感のある妨害音となって聴感上の
劣化がはげしい。（非音声部ベクトルのみの場合）入力信号が雑音のない
音声、雑音や音楽などが含まれる音声に対しても重大な
差のない品質が得られる。ただし、同一のビットレート
で学習音源を用いたものを、本発明による一実施例と比
較した場合、復号音声の信号対雑音比で１．０−２．０
ｄＢ程度劣り、８ｋｂｉｔ／ｓ程度の符号化では、聴感
上ざらざらした雑音感がぬぐえないという実験結果が得
られた。

【００３２】○本発明背景に雑音のないときは最適な音声部のベクトルが選択
されるため、音声部のみと同程度の品質感が得られ雑音
感は避けられる。また、背景雑音が存在するときは最適
な非音声部ベクトルが選択されるため、雑音が変化して
違和感をあたえることを避けられる。よって、広範囲の
入力音声条件に対して高品質な音声の符号化が可能であ
る。

【００３３】

【発明の効果】請求項１記載の発明によれば、入力信号
が雑音を含まない音声であれば従来構成例と同様な音声
部のベクトルが選ばれるので、従来に比べ劣化がない。
また、入力信号に付加雑音や背景音楽などを含んでいれ
ば、非音声部符号帳のベクトルが選ばれるので、従来に
比べ品質を向上させることができる。すなわち、音声部
と非音声部のベクトルの分布が異なっているため、音声
部と非音声部をうまくカバーするように両者から選んで
サブ符号帳を構成することによって、雑音を含まない音
声入力に対しても背景音楽等を含む音声入力に対しても
それぞれ最適なベクトルが選択されるため、総合的に考
えるとサブ符号帳を音声部のみあるいは非音声部のみの
ベクトルで構成するよりも品質が向上する、という効果
を得ることができる。

【００３４】また、請求項２記載の発明によれば、雑音
を含まない音声入力に対しては、雑音を含まない音声又
は雑音を含まない音声と雑音を含む音声の両方を用いて
学習した信号源ベクトルのみから構成された第１のサブ
符号帳から最適なベクトルが選択され、背景音楽等を含
む音声入力に対しては、音声以外の非音声を利用して学
習した信号源ベクトルのみ又は学習を行わないランダム
信号源ベクトルのみで構成された第２のサブ符号帳から
最適なベクトルが選択されるので、総合的に考えると２
つのサブ符号帳を音声部のみあるいは非音声部のみのベ
クトルで構成するよりも品質を向上させることができ
る。

【図面の簡単な説明】

【図１】本発明の一実施例による形状励振源符号帳の構
成を示す構成図である。

【図２】本発明の他の実施例による形状励振源符号帳の
構成を示す構成図である。

【図３】従来の符号励振線形予測音声符号化装置の構成
を示すブロック図である。

【図４】従来の形状励振源符号帳の構成を示す構成図で
ある。

【符号の説明】

１０６ａ，１０６ｂ，２０６ａ，２０６ｂサブ符号帳１０６ａ−１，１０６ｂ−１音声部ベクトル１０６ａ−２，１０６ｂ−２非音声部ベクトル

フロントページの続き (72)発明者林伸二東京都千代田区内幸町１丁目１番６号日本電信電話株式会社内

Claims

【特許請求の範囲】

【請求項１】形状励振源符号帳を備える符号励振線形
予測音声符号化装置において、前記形状励振源符号帳は、複数のサブ符号帳から構成さ
れ、前記各サブ符号帳は、雑音を含まない音声又は雑音を含
まない音声と雑音を含む音声の両方を用いて学習した信
号源ベクトルから構成される音声部と、音声以外の非音
声を利用して学習した信号源ベクトル又は学習を行わな
いランダム信号源ベクトルから構成される非音声部とか
らなることを特徴とする符号励振線形予測音声符号化装
置。
【請求項２】形状励振源符号帳を備える符号励振線形
予測音声符号化装置において、前記形状励振源符号帳は、第１および第２のサブ符号帳
から構成され、前記第１のサブ符号帳は、雑音を含まない音声又は雑音
を含まない音声と雑音を含む音声の両方を用いて学習し
た信号源ベクトルのみから構成され、前記第２のサブ符
号帳は、音声以外の非音声を利用して学習した信号源ベ
クトルのみ又は学習を行わないランダム信号源ベクトル
のみで構成されることを特徴とする符号励振線形予測音
声符号化装置。