JPH0497199A - 音声符号化方式 - Google Patents
音声符号化方式Info
- Publication number
- JPH0497199A JPH0497199A JP2209337A JP20933790A JPH0497199A JP H0497199 A JPH0497199 A JP H0497199A JP 2209337 A JP2209337 A JP 2209337A JP 20933790 A JP20933790 A JP 20933790A JP H0497199 A JPH0497199 A JP H0497199A
- Authority
- JP
- Japan
- Prior art keywords
- filter
- signal
- zero
- encoding method
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[発明の目的]
(産業上の利用分野)
この発明は音声信号等を高能率に圧縮する音声符号化方
式に係り、特に低ビットの伝送レートにおける音声符号
化方式に関する。
式に係り、特に低ビットの伝送レートにおける音声符号
化方式に関する。
(従来の技術)
音声信号を低ビットの伝送レートで伝送する場合におい
て、例えば1okb/s程度以下の伝送情報量で符号化
する効果的な方法として、マルチモードCELP(Co
de Excited Linear Predict
ion)符号化方式が知られている。この詳細は198
9年のグタスゴーで行われたICASSPの論文(第1
の論文) rMultiwode coding:
Application to CELPTomohi
ko Taniguchi、 S higeyuki
Unagan+i andRobert M、 Gra
yJに記載されている。この内容を簡単に説明する。第
6図はそれぞれ前記論文に記載されたマルチモード符号
化の原理を説明する図、第7図はマルチモードCELP
符号化器の処理を示すブロック図である。
て、例えば1okb/s程度以下の伝送情報量で符号化
する効果的な方法として、マルチモードCELP(Co
de Excited Linear Predict
ion)符号化方式が知られている。この詳細は198
9年のグタスゴーで行われたICASSPの論文(第1
の論文) rMultiwode coding:
Application to CELPTomohi
ko Taniguchi、 S higeyuki
Unagan+i andRobert M、 Gra
yJに記載されている。この内容を簡単に説明する。第
6図はそれぞれ前記論文に記載されたマルチモード符号
化の原理を説明する図、第7図はマルチモードCELP
符号化器の処理を示すブロック図である。
第6図において、符号側は、m個の符号化器510.5
20,530 (符号化器#1〜符号化器tfm)を
備え、各符号化器は予め駆動信号パラメータとスペクト
ルパラメータに対して異なるビット割りあてを与えるよ
うに設定されている。
20,530 (符号化器#1〜符号化器tfm)を
備え、各符号化器は予め駆動信号パラメータとスペクト
ルパラメータに対して異なるビット割りあてを与えるよ
うに設定されている。
各符号化器はフレーム単位で評価と最適符号化器の決定
部550で人力音声信号を並列的に処理し、入力音声信
号を用いて、各符号化器の与える合成音声信号(複合音
声信号)の品質を評価し、セレクタ540で最適な符号
化器のインテ・ソクスn(nは1,2.・・・mのうち
のいずれか)を用いて、伝送する駆動信号パラメータ及
びスペクトルパラメータを選択し伝送すると共に、イン
デックスnの情報も複合側に伝送する。複合側では、符
号化器のインデックスnを基に、符号化器1tnに対応
する複合化器560(複合化器#n)を用いることによ
り合成音声信号を出力する。
部550で人力音声信号を並列的に処理し、入力音声信
号を用いて、各符号化器の与える合成音声信号(複合音
声信号)の品質を評価し、セレクタ540で最適な符号
化器のインテ・ソクスn(nは1,2.・・・mのうち
のいずれか)を用いて、伝送する駆動信号パラメータ及
びスペクトルパラメータを選択し伝送すると共に、イン
デックスnの情報も複合側に伝送する。複合側では、符
号化器のインデックスnを基に、符号化器1tnに対応
する複合化器560(複合化器#n)を用いることによ
り合成音声信号を出力する。
以上が前記論文で示されたマルチモード符号化の概要で
ある。このマルチモード符号化の考えをCELP方式に
応用したものか第7図に示されるマルチモードCELP
符号化器である。
ある。このマルチモード符号化の考えをCELP方式に
応用したものか第7図に示されるマルチモードCELP
符号化器である。
CELP方式は、駆動信号のベクトル量子化を合成音の
レベルで行う音声符号化方式であり、公知な技術である
。又、CELP方式についての詳細はrM、R,5ch
roeder and B、S、 Atal、 ”Co
deexcitedlinear predicti
on CELP): High quality
5peechat very low bit r
ates、2 Proc、 IcAs5P 85. p
p。
レベルで行う音声符号化方式であり、公知な技術である
。又、CELP方式についての詳細はrM、R,5ch
roeder and B、S、 Atal、 ”Co
deexcitedlinear predicti
on CELP): High quality
5peechat very low bit r
ates、2 Proc、 IcAs5P 85. p
p。
937−940 Jに記載されている。
第7図のマルチモード符号化方式は、上記のマルチモー
ド符号化方式を2つのモードという最も簡単な形でCE
LPに適用したものである。すなわちAモードは、従来
の公知なCELP方式で、駆動信号ノくラメータ、スペ
クトルパラメータ(LPG)ぐラメータ)を伝送し、さ
らに1ビ・ントのモード情報をフレーム毎に伝送する。
ド符号化方式を2つのモードという最も簡単な形でCE
LPに適用したものである。すなわちAモードは、従来
の公知なCELP方式で、駆動信号ノくラメータ、スペ
クトルパラメータ(LPG)ぐラメータ)を伝送し、さ
らに1ビ・ントのモード情報をフレーム毎に伝送する。
一方、Bモードはスペクトルパラメータを伝送せずに、
前のフレームと同じスペクトルノくラメツを用いること
で、駆動信号パラメータに割りあてる量子化ビット数を
増加させた構成となっている。各フレームにおいて、A
/Bのモード決定は、それぞれのモードの合成音声信号
の品質評価(SNR等を用いる)に基づいて行われ、伝
送情報の割りあては2つのモード間のスイッチングによ
りダイナミックにコントロールされる。第7図において
、AモードではLPC分析部100は入力音声信号から
スペクトルパラメータ(LPGパラメータ)を摘出し、
切り換え端子A及び短時間合成フィルタ110に出力す
る。長時間合成フィルタ150のノくラメータ及びコー
ドブック(小)170から選択されるベクトルの波形(
コードブック内のベクトルに付されるインデックス+符
号)及びゲインは入力音声と短時間合成フィルタ110
(合成フィルタ)で合成された合成信号との誤差信号を
、重みフィルタ120で重み付けした重み付き誤差信号
の電力が最小化するよう閉ループ的に求める。
前のフレームと同じスペクトルノくラメツを用いること
で、駆動信号パラメータに割りあてる量子化ビット数を
増加させた構成となっている。各フレームにおいて、A
/Bのモード決定は、それぞれのモードの合成音声信号
の品質評価(SNR等を用いる)に基づいて行われ、伝
送情報の割りあては2つのモード間のスイッチングによ
りダイナミックにコントロールされる。第7図において
、AモードではLPC分析部100は入力音声信号から
スペクトルパラメータ(LPGパラメータ)を摘出し、
切り換え端子A及び短時間合成フィルタ110に出力す
る。長時間合成フィルタ150のノくラメータ及びコー
ドブック(小)170から選択されるベクトルの波形(
コードブック内のベクトルに付されるインデックス+符
号)及びゲインは入力音声と短時間合成フィルタ110
(合成フィルタ)で合成された合成信号との誤差信号を
、重みフィルタ120で重み付けした重み付き誤差信号
の電力が最小化するよう閉ループ的に求める。
一方、Bモードでは、スペクトルパラメータメモリ24
0がAモードと決定された場合のみ端子Aに接続されス
ペクトルパラメータを更新する構成となっており、スペ
クトルパラメータメモリ240に蓄積されるスペクトル
パラメータはBモードである間は更新されずに同じもの
が使用される。長時間合成フィルタ160のパラメータ
及びコードブック(大)180の波形及びゲインはAモ
ードで行ったのと同様の方法で決定される。モード決定
部230はAモード、Bモードで計算された各モードの
誤差電力の最小値を入力し、誤差電力の小さい方のモー
ドを決定されたモードとして出力する。
0がAモードと決定された場合のみ端子Aに接続されス
ペクトルパラメータを更新する構成となっており、スペ
クトルパラメータメモリ240に蓄積されるスペクトル
パラメータはBモードである間は更新されずに同じもの
が使用される。長時間合成フィルタ160のパラメータ
及びコードブック(大)180の波形及びゲインはAモ
ードで行ったのと同様の方法で決定される。モード決定
部230はAモード、Bモードで計算された各モードの
誤差電力の最小値を入力し、誤差電力の小さい方のモー
ドを決定されたモードとして出力する。
以上か第7図のマルチモードCELP方式(従来方式)
の説明である。
の説明である。
この方式は、従来のCELP方式に比べて4.8kbi
t/S及び8kbit/sの伝送レートにおいて、約2
dBのセグメンタルSNRの改善かあることが上記第1
の論文でも示されている。
t/S及び8kbit/sの伝送レートにおいて、約2
dBのセグメンタルSNRの改善かあることが上記第1
の論文でも示されている。
この音声符号化方式は、入力信号に応してAモードBモ
ードと切りかわることにより駆動信号とスペクトルパラ
メータのビット割り当てがフレム毎に可変であった。
ードと切りかわることにより駆動信号とスペクトルパラ
メータのビット割り当てがフレム毎に可変であった。
そしてフレームを一定の符号量で伝送する際、Aモート
ではスペクトルパラメータへのビットの割りあてが多く
なり、駆動信号パラメータにはあまりビットを割りあて
ることかできない。このため、Aモードでは従来のCE
LP方式と同一であり、Bモードが使われる音声の区間
では前のフレームと同じスペクトルパラメータを用いる
ことにより駆動符号信号パラメータにより多くの量子化
ビットを割りあてることができる。よって、Bモートで
はCELP方式における音声品質の改善がなされる。
ではスペクトルパラメータへのビットの割りあてが多く
なり、駆動信号パラメータにはあまりビットを割りあて
ることかできない。このため、Aモードでは従来のCE
LP方式と同一であり、Bモードが使われる音声の区間
では前のフレームと同じスペクトルパラメータを用いる
ことにより駆動符号信号パラメータにより多くの量子化
ビットを割りあてることができる。よって、Bモートで
はCELP方式における音声品質の改善がなされる。
一方、Bモードは現フレームのスペクトルパラメータの
代りに前フレームのスペクトルパラメタを使用できるよ
うな音声区間、すなわち、時間的にスペクトルの変化の
少ないような母音の区間で選択されやすいことは明白で
ある。
代りに前フレームのスペクトルパラメタを使用できるよ
うな音声区間、すなわち、時間的にスペクトルの変化の
少ないような母音の区間で選択されやすいことは明白で
ある。
ところがこのような音声区間は一般に駆動信号の周期的
くり返しによる冗長度も高いため、通常のCELP方式
でも高いSN比の合成音声が得られる。
くり返しによる冗長度も高いため、通常のCELP方式
でも高いSN比の合成音声が得られる。
このような音声区間にBモードの符号化を行うと、CE
LP方式よりもさらに高いSN比の合成音声が得られる
ことが期待されるが聴感的にはある程度高いSN比をク
リアしている音声の違いはわかりにくい。
LP方式よりもさらに高いSN比の合成音声が得られる
ことが期待されるが聴感的にはある程度高いSN比をク
リアしている音声の違いはわかりにくい。
また、母音以外のスペクトルの変化の大きな音声区間は
Aモード(通常のCELP方式)が選択されやすいので
、聴感的には通常のCELP方式による音声品質の劣化
は改善されないという問題点があった。
Aモード(通常のCELP方式)が選択されやすいので
、聴感的には通常のCELP方式による音声品質の劣化
は改善されないという問題点があった。
(発明が解決しようとする課題)
上述したように、従来の音声符号化方式は、現フレーム
のスペクトルパラメータを使うモードと、前フレームの
スペクトルパラメータを使うモードとの2つのモードの
切り換えにより、駆動信号パラメータとスペクトルパラ
メータのビット割りあてがフレーム毎に可変であるが、
スペクトルの時間的変化の大きな子音等の音声区間では
前フレームのスペクトルパラメータを使用するモードは
使用されにくくなるため、低レートでは結局、従来の音
声符号化方式であるCELP方式における非定常区間の
音声品質の劣化は改善されないという問題点がある。
のスペクトルパラメータを使うモードと、前フレームの
スペクトルパラメータを使うモードとの2つのモードの
切り換えにより、駆動信号パラメータとスペクトルパラ
メータのビット割りあてがフレーム毎に可変であるが、
スペクトルの時間的変化の大きな子音等の音声区間では
前フレームのスペクトルパラメータを使用するモードは
使用されにくくなるため、低レートでは結局、従来の音
声符号化方式であるCELP方式における非定常区間の
音声品質の劣化は改善されないという問題点がある。
本発明は、このような問題点を解決するためになされた
ものであり、その目的は、低ビットの伝送レートで高品
質の合成音声を得ることのできる音声符号化方式を提供
することである。
ものであり、その目的は、低ビットの伝送レートで高品
質の合成音声を得ることのできる音声符号化方式を提供
することである。
[発明の構成]
(課題を解決するための手段)
上述した目的を達成するため、本発明の音声符号化方式
は、極フィルタ及び零フィルタからなる合成フィルタを
駆動信号で駆動して合成音声信号を得る音声符号化方式
において、前記零フィルタの係数情報を格納する手段を
有し、前記係数情報を用いて前記合成音声信号を得るこ
とを特徴とするものである。
は、極フィルタ及び零フィルタからなる合成フィルタを
駆動信号で駆動して合成音声信号を得る音声符号化方式
において、前記零フィルタの係数情報を格納する手段を
有し、前記係数情報を用いて前記合成音声信号を得るこ
とを特徴とするものである。
(作 用)
上述した構成を有する本発明の音声符号化方式によれば
、極フィルタ及び零フィルタからなる合成フィルタのう
ち、該零フィルタの係数情報を格納する手段を有し、こ
の係数情報を用いて合成音声信号を得るので、スペクト
ルの変化か大きな子音等の音声区間でも、該区間の音声
にあったフィルタを選択するができる。よって高品質で
安定した合成音声を得ることかできる。
、極フィルタ及び零フィルタからなる合成フィルタのう
ち、該零フィルタの係数情報を格納する手段を有し、こ
の係数情報を用いて合成音声信号を得るので、スペクト
ルの変化か大きな子音等の音声区間でも、該区間の音声
にあったフィルタを選択するができる。よって高品質で
安定した合成音声を得ることかできる。
(実施例)
以下、図面を参照して本発明の符号化方式について詳細
に述べる。
に述べる。
第1図、第2図は本発明の音声符号化方式を行なうため
のブロック図である。第1図において入力音声信号はL
PC分析部100により線形予測とピッチ検出あ行なわ
れ、これを短時間合成フィルタ110及び長時間合成フ
ィルタ150に出力する。そしてコードブックA175
から選択されるベクトルの波形(該コードブックA内の
ベクトルに付されるインデックス+符号)及びゲインが
乗算回路190を介して長時間合成フィルタ150に入
力される。長時間合成フィルタ150では、入力音声信
号のピッチの周期性を除去する。これを短時間合成フィ
ルタ(以下合成フィルタという)110に入力すると、
前記LPC分析部100の線形予測による予測パラメー
タ(合成フィルタ(極フィルタ)110の係数情報)か
ら合成音声信号を生成する。ここで本発明によれば、合
成フィルタを極零形フィルタで構成するので、零フィル
タ115を有する。モして零フィルタ115はコートブ
ック8176に零フィルタの係数情報を有している。よ
って零フィルタ 115及び極フィルタからなる合成フ
ィルタ +13から出力される合成音声信号と前記入力
信号との誤差信号に対して、重みフィルタ120て重み
付けした重み付は誤差信号の電力を、前記コードブクA
175及びコードブックB176内の係数を閉ループ的
に変化させる。そして歪み比較器210はこれら重み付
けした誤差か最小となると、該最小となる時のコートブ
ックA175内の係数のインデックス及びコードブック
B176内の係数のインデックスを入力音声信号に対応
する符号化信号として出力する。なお、第1図の零フィ
ルタ115に対応する第2図のB(Z)かB(Z)−1
の場合、零フィルタの係数の情報はない。ここで固定レ
ートで伝送を行なう際、伝送できる駆動信号パラメータ
及び零フィルタのパラメータは決まってしまう。しかし
、定の符号量であればこれらに対するビットの割りあて
は任意でもかまわない。したがって上述したようにB(
Z)−1の場合には零フィルタのパラメータは送る必要
かなく、駆動信号パラメータにより多くのビットを割り
あてることかできる。反対にB(Z)−1の場合は、零
フィルタの係数も伝送しなければならないので、駆動信
号パラメータのビット割りあては少なくなる。
のブロック図である。第1図において入力音声信号はL
PC分析部100により線形予測とピッチ検出あ行なわ
れ、これを短時間合成フィルタ110及び長時間合成フ
ィルタ150に出力する。そしてコードブックA175
から選択されるベクトルの波形(該コードブックA内の
ベクトルに付されるインデックス+符号)及びゲインが
乗算回路190を介して長時間合成フィルタ150に入
力される。長時間合成フィルタ150では、入力音声信
号のピッチの周期性を除去する。これを短時間合成フィ
ルタ(以下合成フィルタという)110に入力すると、
前記LPC分析部100の線形予測による予測パラメー
タ(合成フィルタ(極フィルタ)110の係数情報)か
ら合成音声信号を生成する。ここで本発明によれば、合
成フィルタを極零形フィルタで構成するので、零フィル
タ115を有する。モして零フィルタ115はコートブ
ック8176に零フィルタの係数情報を有している。よ
って零フィルタ 115及び極フィルタからなる合成フ
ィルタ +13から出力される合成音声信号と前記入力
信号との誤差信号に対して、重みフィルタ120て重み
付けした重み付は誤差信号の電力を、前記コードブクA
175及びコードブックB176内の係数を閉ループ的
に変化させる。そして歪み比較器210はこれら重み付
けした誤差か最小となると、該最小となる時のコートブ
ックA175内の係数のインデックス及びコードブック
B176内の係数のインデックスを入力音声信号に対応
する符号化信号として出力する。なお、第1図の零フィ
ルタ115に対応する第2図のB(Z)かB(Z)−1
の場合、零フィルタの係数の情報はない。ここで固定レ
ートで伝送を行なう際、伝送できる駆動信号パラメータ
及び零フィルタのパラメータは決まってしまう。しかし
、定の符号量であればこれらに対するビットの割りあて
は任意でもかまわない。したがって上述したようにB(
Z)−1の場合には零フィルタのパラメータは送る必要
かなく、駆動信号パラメータにより多くのビットを割り
あてることかできる。反対にB(Z)−1の場合は、零
フィルタの係数も伝送しなければならないので、駆動信
号パラメータのビット割りあては少なくなる。
次に第3図は第1図に示した音声符号化方式を複数用い
た方式を示したブロック図である。第3図ではB(Z)
〜1の場合、零フィルタ115はコードブックB176
を有しているため、零フィルタ116のB(Z)−1の
場合における駆動信号パラメータのコードブック180
より小さくなってしまう。
た方式を示したブロック図である。第3図ではB(Z)
〜1の場合、零フィルタ115はコードブックB176
を有しているため、零フィルタ116のB(Z)−1の
場合における駆動信号パラメータのコードブック180
より小さくなってしまう。
さらに第4図は本発明の一実施例に係る符号化方式を符
号化装置に適用した場合のブロック図を示す。
号化装置に適用した場合のブロック図を示す。
第4図において、入力端子1GからA/D変換された人
力音声信号の系列か入力される。フレームバッファ11
は入力音声信号を1フレ一ム分蓄積する回路である。第
4図の各ブロックはフレーム単位又はフレームを複数個
に分割したサブフレーム単位に以下の処理を行う′。
力音声信号の系列か入力される。フレームバッファ11
は入力音声信号を1フレ一ム分蓄積する回路である。第
4図の各ブロックはフレーム単位又はフレームを複数個
に分割したサブフレーム単位に以下の処理を行う′。
予/IIIJハラメータ計算回路12は、予測パラメー
タを公知の方法を用いて計算する。予測フィルタが第5
図に示すような長時間予測フィルタ41と短時間予測フ
ィルタ42を縦続持続して構成される場合、予測パラメ
ータ計算回路12はピッチ周期ピッチ予測係数および線
形予測係数(αパラメータまたはにパラメータ:総して
LPCパラメータと称す)を自己相関法や共分散法等の
公知の方法で計算する。
タを公知の方法を用いて計算する。予測フィルタが第5
図に示すような長時間予測フィルタ41と短時間予測フ
ィルタ42を縦続持続して構成される場合、予測パラメ
ータ計算回路12はピッチ周期ピッチ予測係数および線
形予測係数(αパラメータまたはにパラメータ:総して
LPCパラメータと称す)を自己相関法や共分散法等の
公知の方法で計算する。
計算法については、例えば(古井貞照著「ディジタル音
声処理J 19B5年東海大学比版会発行)に記述され
ている。計算された予測パラメータは、予測パラメータ
符号化回路13へ入力される。予測パラメータ符号化回
路13は、予測パラメータを予め定められた量子化ビッ
ト数に基づいて符号化し、この符号をマルチプレクサ2
5に出力すると共に、ゲイン計算回路15、合成フィル
タ18、重みフィルタ20へそれぞれ出力する。
声処理J 19B5年東海大学比版会発行)に記述され
ている。計算された予測パラメータは、予測パラメータ
符号化回路13へ入力される。予測パラメータ符号化回
路13は、予測パラメータを予め定められた量子化ビッ
ト数に基づいて符号化し、この符号をマルチプレクサ2
5に出力すると共に、ゲイン計算回路15、合成フィル
タ18、重みフィルタ20へそれぞれ出力する。
ゲイン計算回路15は後述する零フィルタ係数コードブ
ック14からの零フィルタの係数と、係数検索回路24
から出力される係数更新信号と、符号化回路13からの
予測パラメータ(極フィルタの係数情報)をもとに極零
形の合成フィルタH(Z)を構成する。この逆フィルタ
1/H(Z)を予測フィルタとして入力音声信号を予測
し、予測残差信号を作成する。次にゲイン計算回路15
は予測残差信号の平均パワーを計算してこれをゲインと
して符号化回路16へ出力する。前記予測残差信号の平
均パワーとしては、例えば標準偏差を用いることができ
る。
ック14からの零フィルタの係数と、係数検索回路24
から出力される係数更新信号と、符号化回路13からの
予測パラメータ(極フィルタの係数情報)をもとに極零
形の合成フィルタH(Z)を構成する。この逆フィルタ
1/H(Z)を予測フィルタとして入力音声信号を予測
し、予測残差信号を作成する。次にゲイン計算回路15
は予測残差信号の平均パワーを計算してこれをゲインと
して符号化回路16へ出力する。前記予測残差信号の平
均パワーとしては、例えば標準偏差を用いることができ
る。
符号化回路IBはゲインを予め定められた量子化ビット
数に基づいて符号化し、この符号をマルチプレクサ25
および乗算回路17へ出力する。零フィルタ係数コード
ブック14は予め定められた次数と、量子化ビット数M
に対応した2M種類の零フィルタのフィルタ係数情報を
格納するものである。また、零フィルタ係数コードブッ
ク14に格納される零フィルタB(Z)の1つにB(Z
)−1となるフィルタ情報を格納すれば、零フィルタを
用いない全極形の合成フィルタH(Z)が自動的に同一
の構成で作成できる。
数に基づいて符号化し、この符号をマルチプレクサ25
および乗算回路17へ出力する。零フィルタ係数コード
ブック14は予め定められた次数と、量子化ビット数M
に対応した2M種類の零フィルタのフィルタ係数情報を
格納するものである。また、零フィルタ係数コードブッ
ク14に格納される零フィルタB(Z)の1つにB(Z
)−1となるフィルタ情報を格納すれば、零フィルタを
用いない全極形の合成フィルタH(Z)が自動的に同一
の構成で作成できる。
本実施例では、零フィルタ係数コードブック14は、2
ト1種類の零フィルタ係数情報を格納し、その第1番の
コードベクトルを用いて作成される零フィルタB(Z)
は、B(Z)−1となるように予めコードブック14か
作成されているものとする。
ト1種類の零フィルタ係数情報を格納し、その第1番の
コードベクトルを用いて作成される零フィルタB(Z)
は、B(Z)−1となるように予めコードブック14か
作成されているものとする。
零フィルタ係数コートブック14は、係数探索回路24
から入力されるコード更新信号に基つき、該零フィルタ
コードブック14に格納された零フィルタ係数(コード
ベクトル)をゲイン計算回路15、合成フィルタ18へ
出力すると共に、零フィルタB、(Z)がB(Z)−1
かB(Z) 壓1 カッ情報PZをコートブック21へ
出力する。
から入力されるコード更新信号に基つき、該零フィルタ
コードブック14に格納された零フィルタ係数(コード
ベクトル)をゲイン計算回路15、合成フィルタ18へ
出力すると共に、零フィルタB、(Z)がB(Z)−1
かB(Z) 壓1 カッ情報PZをコートブック21へ
出力する。
コードブック21はコードブック14からの情報Pzに
応じて予め設定される制限された数のコートベクトルを
乗算回路17へ出力する。このときのコドベクトルの出
力は、コード探索回路23から入力されるコード更新信
号によって制御される。コードブック21内のコードベ
クトルの検索範囲の制限は例えば次のように決めること
かできる。
応じて予め設定される制限された数のコートベクトルを
乗算回路17へ出力する。このときのコドベクトルの出
力は、コード探索回路23から入力されるコード更新信
号によって制御される。コードブック21内のコードベ
クトルの検索範囲の制限は例えば次のように決めること
かできる。
コードブックからの情報PZが零フィルタB(Z)−1
を示す情報である場合は、零フィルタ係数の情報は無い
ので、その分駆動信号に多くのビット数割りあてて、駆
動信号の形状を表すコートブック21内のコードベクト
ルの検索範囲を広げることができる。
を示す情報である場合は、零フィルタ係数の情報は無い
ので、その分駆動信号に多くのビット数割りあてて、駆
動信号の形状を表すコートブック21内のコードベクト
ルの検索範囲を広げることができる。
逆に、該情報PZが零フィルタB(Z)41を示す情報
である場合は零フィルタ係数の情報を伝送する必要があ
るので、その分駆動信号に少ないビ・ソト数を割りあて
て、コードブック21内のコードベクトルの検索範囲を
せばめるものとする。
である場合は零フィルタ係数の情報を伝送する必要があ
るので、その分駆動信号に少ないビ・ソト数を割りあて
て、コードブック21内のコードベクトルの検索範囲を
せばめるものとする。
乗讃回路17は、コードブック21から出力されるコー
ドベクトルに符号化されたゲインを乗じて駆動信号の候
補となるベクトルを生成し、合成フィルタ18へ入力す
る。
ドベクトルに符号化されたゲインを乗じて駆動信号の候
補となるベクトルを生成し、合成フィルタ18へ入力す
る。
合成フィルタ18は零フィルタ係数コードブック14と
符号化回路13とより、零フィルタの係数情報および極
フィルタの係数情報(これをまとめてスペクトルパラメ
ータと呼んでいる)をそれぞれ入力し、合成フィルタH
(Z)を構成し、乗算回路17よりの駆動信号の候補ベ
クトルを入力信号として合成音声信号を出力する。
符号化回路13とより、零フィルタの係数情報および極
フィルタの係数情報(これをまとめてスペクトルパラメ
ータと呼んでいる)をそれぞれ入力し、合成フィルタH
(Z)を構成し、乗算回路17よりの駆動信号の候補ベ
クトルを入力信号として合成音声信号を出力する。
減算回路19は人力音声信号と上述の合成音声信号を入
力し、その誤差信号を出力する。
力し、その誤差信号を出力する。
重みフィルタ20は上述の誤差信号に予測パラメタから
作成される重みを付けて出力する。重みフィルタ20は
伝達関数か A(Z) W(Z)−(0≦γ≦1) (1)A (Z/γ) で表されるフィルタで、聴覚のマスキング効果を利用し
て、複合時に合成音声に含まれる符号化ノイズを聞こえ
にくくする効果があることが知られている。(1)式に
おいて、A(Z)は予測パラメータから作成される予測
フィルタを表している。
作成される重みを付けて出力する。重みフィルタ20は
伝達関数か A(Z) W(Z)−(0≦γ≦1) (1)A (Z/γ) で表されるフィルタで、聴覚のマスキング効果を利用し
て、複合時に合成音声に含まれる符号化ノイズを聞こえ
にくくする効果があることが知られている。(1)式に
おいて、A(Z)は予測パラメータから作成される予測
フィルタを表している。
2乗誤差計算回路22は、重み付けされた誤差信号の2
乗和をコードブック21から出力されるコーベクトル毎
に計算し、その結果をコード検索回路23へ出力すると
共に、誤差信号の2乗和を1フレ一ム分計算した値を係
数検索回路24へ出力する。
乗和をコードブック21から出力されるコーベクトル毎
に計算し、その結果をコード検索回路23へ出力すると
共に、誤差信号の2乗和を1フレ一ム分計算した値を係
数検索回路24へ出力する。
コード検索回路23は後述する係数検索回路24から出
力される現在検索中の零フィルタのコード番号を入力し
、その零フィルタのコード番号ごとに各サブフレームの
2乗誤差が最小となるコードをコートブック21から検
索し、このコードを保持する。係数検索回路24で最終
的に零フィルタのコード番号か決定すると、この番号を
入力し保持していた駆動信号のコードのうち、零フィル
タのコド番号に対応して保持していたコードをマルチプ
レクサ25へ出力する。
力される現在検索中の零フィルタのコード番号を入力し
、その零フィルタのコード番号ごとに各サブフレームの
2乗誤差が最小となるコードをコートブック21から検
索し、このコードを保持する。係数検索回路24で最終
的に零フィルタのコード番号か決定すると、この番号を
入力し保持していた駆動信号のコードのうち、零フィル
タのコド番号に対応して保持していたコードをマルチプ
レクサ25へ出力する。
係数検索回路24は2乗誤差計算回路22から入力され
る各零フィルタのコード番号毎にフレーム単位で計算さ
れた誤差信号の2乗和を比較してこれが最小となる零フ
ィルタのコード番号を選択し、このコード番号をマルチ
プレクサ25およびコード検索回路23へ出力する。も
し検索された零フィルタ係数のコード番号が1ならば上
述したように、零フィルタは非使用であることがわかる
ので、このときは、コード検索回路23から出力される
駆動信号のコードは零フィルタ使用時に比べてより大き
なビット数で表されている。係数検索回路24は零フィ
ルタの使用・非使用の情報も同時にマルチプレクサ25
へ出力する。第1表に本実施例における駆動信号とスペ
クトルパラメータとの間のビット配分の例を示す。
る各零フィルタのコード番号毎にフレーム単位で計算さ
れた誤差信号の2乗和を比較してこれが最小となる零フ
ィルタのコード番号を選択し、このコード番号をマルチ
プレクサ25およびコード検索回路23へ出力する。も
し検索された零フィルタ係数のコード番号が1ならば上
述したように、零フィルタは非使用であることがわかる
ので、このときは、コード検索回路23から出力される
駆動信号のコードは零フィルタ使用時に比べてより大き
なビット数で表されている。係数検索回路24は零フィ
ルタの使用・非使用の情報も同時にマルチプレクサ25
へ出力する。第1表に本実施例における駆動信号とスペ
クトルパラメータとの間のビット配分の例を示す。
第1表
第1表において、使用する合成フィルタは零フィルタが
B(Z)−1とB(Z)+1の場合により、全極フィル
タと極零フィルタとに分けることができる。
B(Z)−1とB(Z)+1の場合により、全極フィル
タと極零フィルタとに分けることができる。
今、フレームあたりのビット数をRビットとする時、ス
ペクトルパラメータ用ビット数は極フィルタのビット数
にビットのみとなり、駆動信号要ビット数は当然R−に
ビットとなる。よってフレームあたりのビット数は常に
R一定となる。また、極零フィルタを用いた場合には、
零フィルタにもスペクトルパラメータ用ビットとしてM
ビットを割りふるので、残りを駆動用信号とするもので
ある。
ペクトルパラメータ用ビット数は極フィルタのビット数
にビットのみとなり、駆動信号要ビット数は当然R−に
ビットとなる。よってフレームあたりのビット数は常に
R一定となる。また、極零フィルタを用いた場合には、
零フィルタにもスペクトルパラメータ用ビットとしてM
ビットを割りふるので、残りを駆動用信号とするもので
ある。
マルチプレクサ25は入力されるコード情報を多重化し
、端子26より伝送路へコード情報を出力する。
、端子26より伝送路へコード情報を出力する。
このように、本発明の音声符号化によれば、入力音声信
号の音質の変化に適応して、スペクトル包絡を表すフィ
ルタと駆動信号のパラメータのビット配分がフレーム単
位で変化するだけでなく、このフィルタを極零形で表し
、零フィルタのフィルタ係数の量子化、つまりコードブ
ックの選択を、入力音声信号と合成音声信号の聴感重み
付けした誤差が最小となるように行っている。このため
、スペクトルお時間的変化が大きな音声区間に対しても
、その区間に適合したフィルタを選択できるので、合成
音声の品質を安定して向上させることができる。
号の音質の変化に適応して、スペクトル包絡を表すフィ
ルタと駆動信号のパラメータのビット配分がフレーム単
位で変化するだけでなく、このフィルタを極零形で表し
、零フィルタのフィルタ係数の量子化、つまりコードブ
ックの選択を、入力音声信号と合成音声信号の聴感重み
付けした誤差が最小となるように行っている。このため
、スペクトルお時間的変化が大きな音声区間に対しても
、その区間に適合したフィルタを選択できるので、合成
音声の品質を安定して向上させることができる。
なお、ここで説明した実施例は本発明の一実施
第1図 第2図は本発明の音声符号化方式を行なうため
ブロック図、第3図は複数の音声符号化方式に本発明の
音声符号化方式を用いたブロック図、第4図は本発明の
一実施例に係る音声符号化方式を符号化装置に適用した
構成を示すブロック図、第5図は第4図を用いた実施例
に記載される予測フィルタの一構成例を示すブロック図
、第6図、第7図は従来技術による符号化装置の構成を
示すブロック図である。 110・・短時間合成フィルタ(極フィルタ)113・
・・合成フィルタ 115・・・零フィルタ 175.176・・・フードブック 195・・・駆動信号発生部 以上詳述したように本発明の音声符号化方式によれば、
高品質で安定した合成音声を得ることができる。
ブロック図、第3図は複数の音声符号化方式に本発明の
音声符号化方式を用いたブロック図、第4図は本発明の
一実施例に係る音声符号化方式を符号化装置に適用した
構成を示すブロック図、第5図は第4図を用いた実施例
に記載される予測フィルタの一構成例を示すブロック図
、第6図、第7図は従来技術による符号化装置の構成を
示すブロック図である。 110・・短時間合成フィルタ(極フィルタ)113・
・・合成フィルタ 115・・・零フィルタ 175.176・・・フードブック 195・・・駆動信号発生部 以上詳述したように本発明の音声符号化方式によれば、
高品質で安定した合成音声を得ることができる。
Claims (6)
- (1)極フィルタ及び零フィルタからなる合成フィルタ
を駆動信号で駆動して合成音声信号を得る音声符号化方
式において、前記零フィルタの係数情報を格納する手段
を有し、前記係数情報を用いて前記合成音声信号を得る
ことを特徴とする音声符号化方式。 - (2)極フィルタ及び零フィルタからなる合成フィルタ
と駆動信号で駆動して合成音声信号を得る音声符号化方
式において、前記フィルタの係数情報を格納する手段を
有し、前記係数情報を用いて合成音声信号を生成し、こ
の合成音声信号と入力音声信号とのひずみにもとづいて
前記零フィルタの係数情報の選択を行なうことを特徴と
する音声符号化方式。 - (3)駆動信号パラメータと、極フィルタ及び零フィル
タからなる合成フィルタのパラメータのビット割りあて
が異なる複数種類の符号化方式から各符号化方式による
合成音声信号と入力音声信号のひずみを計算して1つの
符号化方式を選択する音声符号化方式において、前記複
数個の符号化方式のうち少なくとも1つの符号化方式は
前記零フィルタの係数情報を格納する手段を有し、前記
係数情報を用いて合成音声信号を生成し、この合成音声
信号と入力音声信号とのひずみにもとづいて前記零フィ
ルタの係数の選択を行なうことを特徴とする音声符号化
方式。 - (4)前記駆動信号パラメータと前記スペクトルパラメ
ータのビット割りあてが、前記合成フィルタ中に、前記
零フィルタを用いるか用いないかに依存して、決まるこ
とを特徴とする請求項2及び3記載の音声符号化方式。 - (5)前記合成フィルタ中の前記極フィルタが、各符号
化方式で共通であることを特徴とする請求項2及び3記
載の音声符号化方式。 - (6)前記合成フィルタのうち、前記零フィルタのフィ
ルタ係数を入力音声信号と合成音声信号との聴感重み付
誤差に基づいて選択することを特徴とする請求項2及び
3記載の音声符号化方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2209337A JP3065638B2 (ja) | 1990-08-09 | 1990-08-09 | 音声符号化方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2209337A JP3065638B2 (ja) | 1990-08-09 | 1990-08-09 | 音声符号化方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0497199A true JPH0497199A (ja) | 1992-03-30 |
| JP3065638B2 JP3065638B2 (ja) | 2000-07-17 |
Family
ID=16571281
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2209337A Expired - Lifetime JP3065638B2 (ja) | 1990-08-09 | 1990-08-09 | 音声符号化方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3065638B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6859775B2 (en) | 2001-03-06 | 2005-02-22 | Ntt Docomo, Inc. | Joint optimization of excitation and model parameters in parametric speech coders |
| US7130796B2 (en) | 2001-02-27 | 2006-10-31 | Mitsubishi Denki Kabushiki Kaisha | Voice encoding method and apparatus of selecting an excitation mode from a plurality of excitation modes and encoding an input speech using the excitation mode selected |
-
1990
- 1990-08-09 JP JP2209337A patent/JP3065638B2/ja not_active Expired - Lifetime
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7130796B2 (en) | 2001-02-27 | 2006-10-31 | Mitsubishi Denki Kabushiki Kaisha | Voice encoding method and apparatus of selecting an excitation mode from a plurality of excitation modes and encoding an input speech using the excitation mode selected |
| US6859775B2 (en) | 2001-03-06 | 2005-02-22 | Ntt Docomo, Inc. | Joint optimization of excitation and model parameters in parametric speech coders |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3065638B2 (ja) | 2000-07-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3346765B2 (ja) | 音声復号化方法及び音声復号化装置 | |
| US6594626B2 (en) | Voice encoding and voice decoding using an adaptive codebook and an algebraic codebook | |
| RU2233010C2 (ru) | Способы и устройства для кодирования и декодирования речевых сигналов | |
| KR19980024631A (ko) | 음성 복호화 방법 및 장치 | |
| JPWO2001020595A1 (ja) | 音声符号化及び音声復号化装置 | |
| EP0186763B1 (en) | Method of and device for speech signal coding and decoding by vector quantization techniques | |
| WO2002043052A1 (en) | Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound | |
| JPH0990995A (ja) | 音声符号化装置 | |
| JPH0944195A (ja) | 音声符号化装置 | |
| JPH0497199A (ja) | 音声符号化方式 | |
| JP3232701B2 (ja) | 音声符号化方法 | |
| JP3299099B2 (ja) | 音声符号化装置 | |
| JP2736157B2 (ja) | 符号化装置 | |
| JPH07168596A (ja) | 音声符号化装置 | |
| JP2000029499A (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
| JP3024467B2 (ja) | 音声符号化装置 | |
| JP3192051B2 (ja) | 音声符号化装置 | |
| JP3103108B2 (ja) | 音声符号化装置 | |
| JPH03245197A (ja) | 音声符号化方式 | |
| JP3563400B2 (ja) | 音声復号化装置及び音声復号化方法 | |
| JPH01258000A (ja) | 音声信号符号化復号化方法並びに音声信号符号化装置及び音声信号復号化装置 | |
| JPH02160300A (ja) | 音声符号化方式 | |
| JP3144244B2 (ja) | 音声符号化装置 | |
| JPH01257999A (ja) | 音声信号符号化復号化方法及び音声信号符号化装置 | |
| Sridharan et al. | Speech Coding |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090512 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090512 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100512 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110512 Year of fee payment: 11 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110512 Year of fee payment: 11 |