JPH08123493A - 符号励振線形予測音声符号化装置 - Google Patents
符号励振線形予測音声符号化装置Info
- Publication number
- JPH08123493A JPH08123493A JP6264235A JP26423594A JPH08123493A JP H08123493 A JPH08123493 A JP H08123493A JP 6264235 A JP6264235 A JP 6264235A JP 26423594 A JP26423594 A JP 26423594A JP H08123493 A JPH08123493 A JP H08123493A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- codebook
- noise
- voice
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【目的】 音声のみならず、音声に背景雑音や音楽等が
加わっても自然な復号音が得られる符号励振線形予測音
声符号化装置を提供すること。 【構成】 形状励振源符号帳を備える符号励振線形予測
音声符号化装置において、形状励振源符号帳は、複数の
サブ符号帳から構成され、各サブ符号帳(106a,106b)
は、雑音を含まない音声を用いて学習した信号源ベクト
ルから構成される音声部(106a-1,106b-1)と、音声以外
の非音声を利用して学習した信号源ベクトル又は学習を
行わないランダム信号源ベクトルから構成される非音声
部(106a-2,106b-2)とからなることを特徴とする。 【効果】 サブ符号帳を音声部のみあるいは非音声部の
みのベクトルで構成するよりも品質を向上させることが
できる。
加わっても自然な復号音が得られる符号励振線形予測音
声符号化装置を提供すること。 【構成】 形状励振源符号帳を備える符号励振線形予測
音声符号化装置において、形状励振源符号帳は、複数の
サブ符号帳から構成され、各サブ符号帳(106a,106b)
は、雑音を含まない音声を用いて学習した信号源ベクト
ルから構成される音声部(106a-1,106b-1)と、音声以外
の非音声を利用して学習した信号源ベクトル又は学習を
行わないランダム信号源ベクトルから構成される非音声
部(106a-2,106b-2)とからなることを特徴とする。 【効果】 サブ符号帳を音声部のみあるいは非音声部の
みのベクトルで構成するよりも品質を向上させることが
できる。
Description
【0001】
【産業上の利用分野】この発明は、2kbit/s−1
6kbit/s程度のビットレートで使われる符号励振
線形予測(CELP)音声符号化方式、残差駆動線予測
(RELP)音声符号化方式などの、音声合成フィルタ
を励振信号源で駆動する形式の音声符号化方式に適用
し、音声のみならず、音声に背景雑音や音楽等が加わっ
ても自然な復号音が得られる符号励振線形予測音声符号
化装置に関するものである。
6kbit/s程度のビットレートで使われる符号励振
線形予測(CELP)音声符号化方式、残差駆動線予測
(RELP)音声符号化方式などの、音声合成フィルタ
を励振信号源で駆動する形式の音声符号化方式に適用
し、音声のみならず、音声に背景雑音や音楽等が加わっ
ても自然な復号音が得られる符号励振線形予測音声符号
化装置に関するものである。
【0002】
【従来の技術】近年、ディジタル移動通信などの技術分
野においては、電波を有効利用するなどの目的で、種々
の高能率符号化方式が用いられている。8kbit/s
程度の符号化速度で音声を符号化する高能率符号化方式
の一つに、符号励振線形予測(CELP)符号化方式が
ある。この符号励振線形予測符号化方式は、人間の音声
の生成機構をモデル化する線形予測分析合成にベクトル
量子化技術とAbS(合成を利用した分析)技術を組み
合せた周知の技術である。また、符号励振線形予測符号
化方式のなかには、2つのサブ符号帳によって形状励振
源符号帳を構成した、共役構造CELP(CS−CEL
P)と呼ばれる構造のものがある(なお、共役構造CE
LPについては、本願出願人の出願による特願平−70
534「音声の符号化方法」に詳細に説明されてい
る)。
野においては、電波を有効利用するなどの目的で、種々
の高能率符号化方式が用いられている。8kbit/s
程度の符号化速度で音声を符号化する高能率符号化方式
の一つに、符号励振線形予測(CELP)符号化方式が
ある。この符号励振線形予測符号化方式は、人間の音声
の生成機構をモデル化する線形予測分析合成にベクトル
量子化技術とAbS(合成を利用した分析)技術を組み
合せた周知の技術である。また、符号励振線形予測符号
化方式のなかには、2つのサブ符号帳によって形状励振
源符号帳を構成した、共役構造CELP(CS−CEL
P)と呼ばれる構造のものがある(なお、共役構造CE
LPについては、本願出願人の出願による特願平−70
534「音声の符号化方法」に詳細に説明されてい
る)。
【0003】ここで、図3を参照して、共役構造を持つ
符号励振線形予測符号化方式の一例について説明する。
図3は、共役構造CELP符号化方式による符号励振線
形予測音声符号化装置の一構成例を示すブロック図であ
り、この図において、符号1は、入力端子であり、この
入力端子1からは、アナログの音声信号をサンプリング
周波数8kHzでサンプリングして生成したデジタルの
音声データが入力される。入力端子1から入力された入
力信号は、LPC(線形予測)分析器2へ入力される。
このLPC分析器2は、入力信号を、窓かけ、自己相関
関数計算、斉次連立方程式の求解等の周知の手法によっ
て、線形予測分析し、音声合成フィルタ4の予測係数と
音声分析フィルタ3の予測係数を求める。そして、音声
合成フィルタ4の予測係数(線形予測係数)は、一度量
子化され、伝送に適した形に変換された後、再度復号さ
れて、音声合成フィルタ4に設定される。また、音声分
析フィルタ3の予測係数も、同様にして設定される。
符号励振線形予測符号化方式の一例について説明する。
図3は、共役構造CELP符号化方式による符号励振線
形予測音声符号化装置の一構成例を示すブロック図であ
り、この図において、符号1は、入力端子であり、この
入力端子1からは、アナログの音声信号をサンプリング
周波数8kHzでサンプリングして生成したデジタルの
音声データが入力される。入力端子1から入力された入
力信号は、LPC(線形予測)分析器2へ入力される。
このLPC分析器2は、入力信号を、窓かけ、自己相関
関数計算、斉次連立方程式の求解等の周知の手法によっ
て、線形予測分析し、音声合成フィルタ4の予測係数と
音声分析フィルタ3の予測係数を求める。そして、音声
合成フィルタ4の予測係数(線形予測係数)は、一度量
子化され、伝送に適した形に変換された後、再度復号さ
れて、音声合成フィルタ4に設定される。また、音声分
析フィルタ3の予測係数も、同様にして設定される。
【0004】音声分析フィルタ3は、音声合成フィルタ
4における合成作用と逆の作用をなすフィルタであり、
音声合成フィルタ4の出力信号(複合音声)を、LPC
分析器2によって設定された予測係数に基づいて分析す
ることによって、線形予測残差信号を求める。そして、
線形予測残差信号に基いて、音声の基本周期(ピッチ)
成分をあらわす適応励振源符号帳5の記憶データが設定
される。この適応励振源符号帳5は、ピッチ周期時間と
ピッチパルスの振幅をピッチ周期ベクトルとして表し、
記憶した符号帳であり、音声のピッチ変化に追従して適
応的に変化するものである。
4における合成作用と逆の作用をなすフィルタであり、
音声合成フィルタ4の出力信号(複合音声)を、LPC
分析器2によって設定された予測係数に基づいて分析す
ることによって、線形予測残差信号を求める。そして、
線形予測残差信号に基いて、音声の基本周期(ピッチ)
成分をあらわす適応励振源符号帳5の記憶データが設定
される。この適応励振源符号帳5は、ピッチ周期時間と
ピッチパルスの振幅をピッチ周期ベクトルとして表し、
記憶した符号帳であり、音声のピッチ変化に追従して適
応的に変化するものである。
【0005】6aおよび6bは、形状励振源符号帳を構
成するサブ符号帳であり、残差信号からピッチ成分を除
いた残りの波形である形状励振源成分を、励振ベクトル
として表し、記憶した符号帳である。サブ符号帳6a、
6bからなる形状励振源符号帳は、非周期的励振に対応
するものであり、時間と共に変化しない。
成するサブ符号帳であり、残差信号からピッチ成分を除
いた残りの波形である形状励振源成分を、励振ベクトル
として表し、記憶した符号帳である。サブ符号帳6a、
6bからなる形状励振源符号帳は、非周期的励振に対応
するものであり、時間と共に変化しない。
【0006】そして、適応励振源符号帳5ならびにサブ
符号帳6a、6bからは、後述する最小歪み計算部8に
よって選択されたピッチ周期ベクトルおよび励振ベクト
ルが取り出され、適応励振源符号帳5から取り出された
ピッチ周期ベクトルには、利得部10において、ピッチ
ゲインが乗算され、一方、サブ符号帳6a、6bから取
り出された各励振ベクトルは、互いに加算されて励振ベ
クトル30として合成された後、利得部11において、
ゲインアダプタ9によって設定された予測ゲインが乗算
され、さらに利得部13において、形状ゲインが乗算さ
れる。
符号帳6a、6bからは、後述する最小歪み計算部8に
よって選択されたピッチ周期ベクトルおよび励振ベクト
ルが取り出され、適応励振源符号帳5から取り出された
ピッチ周期ベクトルには、利得部10において、ピッチ
ゲインが乗算され、一方、サブ符号帳6a、6bから取
り出された各励振ベクトルは、互いに加算されて励振ベ
クトル30として合成された後、利得部11において、
ゲインアダプタ9によって設定された予測ゲインが乗算
され、さらに利得部13において、形状ゲインが乗算さ
れる。
【0007】そして、利得部10の出力ベクトルと利得
部13の出力ベクトルは、互いに加算された後、音声合
成フィルタ4に供給され、音声合成フィルタ4におい
て、上述したようにしてLPC分析器2によって設定さ
れた線形予測係数に基づいて合成される。なお、上記の
利得部10におけるピッチゲインは、ピッチ周期の励振
に対する振幅のゲインであり、音声合成フィルタ4に入
力されるベクトルに応じて設定されるものである。他
方、利得部11における予測ゲインは、形状励振に対す
る振幅のゲインであり、ゲインアダプタ9において、過
去の励振ベクトル30aのパワーに基づいて線形予測分
析を行うことによって設定されるものである。
部13の出力ベクトルは、互いに加算された後、音声合
成フィルタ4に供給され、音声合成フィルタ4におい
て、上述したようにしてLPC分析器2によって設定さ
れた線形予測係数に基づいて合成される。なお、上記の
利得部10におけるピッチゲインは、ピッチ周期の励振
に対する振幅のゲインであり、音声合成フィルタ4に入
力されるベクトルに応じて設定されるものである。他
方、利得部11における予測ゲインは、形状励振に対す
る振幅のゲインであり、ゲインアダプタ9において、過
去の励振ベクトル30aのパワーに基づいて線形予測分
析を行うことによって設定されるものである。
【0008】そして、入力端子1から入力された入力信
号ベクトルから、音声合成フィルタ4の出力ベクトルが
減算されて歪データが求められ、この歪データが、聴覚
重み付けフィルタ7において、人間の聴覚の特性に対応
した係数によって重み付けされた後、最小歪み計算部8
へ入力される。そして、最小歪み計算部8において、聴
覚重み付けフィルタ7から出力された歪データのパワー
が計算され、この歪データのパワーが最も小さくなるよ
うに適応励振源符号帳5ならびにサブ符号帳6a、6b
から、それぞれピッチ周期ベクトルおよび励振ベクトル
が選択される。なお、通常、上記の聴覚重み付けフィル
タ7は、移動平均自己回帰型の10次程度のフィルタで
あり、フォルマントの山の部分をやや強調するような特
性を持つように構成されたものであり、最小歪み計算部
8は、2乗誤差最小の計算を行うように構成されたもの
である。
号ベクトルから、音声合成フィルタ4の出力ベクトルが
減算されて歪データが求められ、この歪データが、聴覚
重み付けフィルタ7において、人間の聴覚の特性に対応
した係数によって重み付けされた後、最小歪み計算部8
へ入力される。そして、最小歪み計算部8において、聴
覚重み付けフィルタ7から出力された歪データのパワー
が計算され、この歪データのパワーが最も小さくなるよ
うに適応励振源符号帳5ならびにサブ符号帳6a、6b
から、それぞれピッチ周期ベクトルおよび励振ベクトル
が選択される。なお、通常、上記の聴覚重み付けフィル
タ7は、移動平均自己回帰型の10次程度のフィルタで
あり、フォルマントの山の部分をやや強調するような特
性を持つように構成されたものであり、最小歪み計算部
8は、2乗誤差最小の計算を行うように構成されたもの
である。
【0009】そして、符号出力部12において、上述し
た予測係数、ピッチ周期ベクトルおよび励振ベクトルそ
れぞれに対して選択されたコード、利得等が、ビット系
列の符号に変換され、さらに必要に応じて訂正符号が付
加され、符号出力部12から伝送路へ向けて出力され
る。すなわち、符号化の際は、入力信号の波形に対し、
合成波形(音声合成フィルタ4の出力ベクトル)の聴覚
重み付け自乗誤差が最小となるような励振源の組み合せ
が、適応励振源符号帳5ならびにサブ符号帳6a、6b
からなる形状励振源符号帳から選ばれるのである。
た予測係数、ピッチ周期ベクトルおよび励振ベクトルそ
れぞれに対して選択されたコード、利得等が、ビット系
列の符号に変換され、さらに必要に応じて訂正符号が付
加され、符号出力部12から伝送路へ向けて出力され
る。すなわち、符号化の際は、入力信号の波形に対し、
合成波形(音声合成フィルタ4の出力ベクトル)の聴覚
重み付け自乗誤差が最小となるような励振源の組み合せ
が、適応励振源符号帳5ならびにサブ符号帳6a、6b
からなる形状励振源符号帳から選ばれるのである。
【0010】上述したように、共役構造CELP(CS
−CELP)において、形状励振源符号帳は、2つのサ
ブ符号帳6a、6bに分かれて構成されている。各サブ
符号帳6a、6bは、相互に他を補完する機能を果た
し、仮に伝送路の符号誤りにより、復号器(図示せず)
において、一方のサブ符号帳の形状励振ベクトルが誤っ
て選ばれても、他方のサブ符号帳のベクトルとの和をと
るため、結果として大きな誤差を生じないという特徴が
ある。
−CELP)において、形状励振源符号帳は、2つのサ
ブ符号帳6a、6bに分かれて構成されている。各サブ
符号帳6a、6bは、相互に他を補完する機能を果た
し、仮に伝送路の符号誤りにより、復号器(図示せず)
において、一方のサブ符号帳の形状励振ベクトルが誤っ
て選ばれても、他方のサブ符号帳のベクトルとの和をと
るため、結果として大きな誤差を生じないという特徴が
ある。
【0011】ところで、サブ符号帳6a、6bからなる
形状励振源符号帳に記憶される形状励振源成分を求める
際にも、上述した適応励振源符号帳5を設定する場合と
同様に、ベクトル量子手法が適用される。しかし、音声
の変化に応じて形状励振源符号帳を適応的に変化させる
には、あまりにも分散が大きいため、形状励振源成分を
求める場合には、予め尤もらしい波形をベクトルとして
複数用意して、符号帳に記憶させておくことが行われ
る。ただし、伝送の際、実際に伝送されるのは、ベクト
ルの指標のみである。
形状励振源符号帳に記憶される形状励振源成分を求める
際にも、上述した適応励振源符号帳5を設定する場合と
同様に、ベクトル量子手法が適用される。しかし、音声
の変化に応じて形状励振源符号帳を適応的に変化させる
には、あまりにも分散が大きいため、形状励振源成分を
求める場合には、予め尤もらしい波形をベクトルとして
複数用意して、符号帳に記憶させておくことが行われ
る。ただし、伝送の際、実際に伝送されるのは、ベクト
ルの指標のみである。
【0012】この尤もらしい符号帳を構成する手法の一
つが学習である。図3に示す形状励振源符号帳の場合、
雑音を表すベクトルの一群を初期状態として、予め音声
データベースを用いて学習がなされる。学習は、各励振
源に合成フィルタを畳み込み、振幅(ゲイン)を乗じて
得た合成波形と目標音声信号との誤差の、符号帳中の全
ての励振源についての総和が最小となるよう各形状励振
源符号帳のサブ符号帳のベクトルを決定するものであ
る。
つが学習である。図3に示す形状励振源符号帳の場合、
雑音を表すベクトルの一群を初期状態として、予め音声
データベースを用いて学習がなされる。学習は、各励振
源に合成フィルタを畳み込み、振幅(ゲイン)を乗じて
得た合成波形と目標音声信号との誤差の、符号帳中の全
ての励振源についての総和が最小となるよう各形状励振
源符号帳のサブ符号帳のベクトルを決定するものであ
る。
【0013】ここで、図4を参照して、従来の形状励振
源符号帳の学習においてサブ符号帳に設定される励振ベ
クトルの構成について説明する。通常の音声データーベ
ースは、背景雑音や背景音楽等を含まないため、このよ
うな音声データーベースを用いた場合、学習済みの形状
励振源符号帳は、図4(a)に示すように、それを構成
する2つのサブ符号帳6a−1、6b−1が、共に雑音
を含まない音声データの信号源ベクトルからなる音声部
のみで構成される。一方、学習をしない場合(例えばガ
ウス雑音からなる符号帳の場合)、あるいは、音声以外
すなわち非音声である背景音声等を利用して学習した符
号帳の場合、図4(b)に示すように、2つのサブ符号
帳6a−2、6b−2が、共に学習を行わないランダム
信号源ベクトルもしくは音声以外の非音声を利用して学
習した信号源ベクトルからなる非音声部のみで構成され
る。
源符号帳の学習においてサブ符号帳に設定される励振ベ
クトルの構成について説明する。通常の音声データーベ
ースは、背景雑音や背景音楽等を含まないため、このよ
うな音声データーベースを用いた場合、学習済みの形状
励振源符号帳は、図4(a)に示すように、それを構成
する2つのサブ符号帳6a−1、6b−1が、共に雑音
を含まない音声データの信号源ベクトルからなる音声部
のみで構成される。一方、学習をしない場合(例えばガ
ウス雑音からなる符号帳の場合)、あるいは、音声以外
すなわち非音声である背景音声等を利用して学習した符
号帳の場合、図4(b)に示すように、2つのサブ符号
帳6a−2、6b−2が、共に学習を行わないランダム
信号源ベクトルもしくは音声以外の非音声を利用して学
習した信号源ベクトルからなる非音声部のみで構成され
る。
【0014】
【発明が解決しようとする課題】背景雑音や背景音楽等
を含まない音声データベースによって学習済みの形状励
振ベクトル信号すなわちサブ符号帳6a−1、6b−1
の出力から合成した励振ベクトル30−1(図4(a)
参照)は、雑音の無い入力音声に最適なものとなる。し
たがって、結果的に、このような学習済みの符号帳を有
する符号化装置は、雑音の無い入力に対して高品質であ
るが、音声の背景に雑音や音楽などが加わると極めて明
らかな品質劣化を生じるという問題点があった。
を含まない音声データベースによって学習済みの形状励
振ベクトル信号すなわちサブ符号帳6a−1、6b−1
の出力から合成した励振ベクトル30−1(図4(a)
参照)は、雑音の無い入力音声に最適なものとなる。し
たがって、結果的に、このような学習済みの符号帳を有
する符号化装置は、雑音の無い入力に対して高品質であ
るが、音声の背景に雑音や音楽などが加わると極めて明
らかな品質劣化を生じるという問題点があった。
【0015】一方、学習をしない、例えばガウス雑音か
らなる符号帳あるいは音声以外の非音声である背景音声
等を利用して学習した符号帳から合成される励振ベクト
ル30−2(図4(b)参照)は、雑音のある場合の入
力音声に最適なものとなる。したがって、付加雑音によ
る品質劣化が少ないものの、雑音の無い環境下の音声に
対してあまり品質が上がらないという欠点があった。
らなる符号帳あるいは音声以外の非音声である背景音声
等を利用して学習した符号帳から合成される励振ベクト
ル30−2(図4(b)参照)は、雑音のある場合の入
力音声に最適なものとなる。したがって、付加雑音によ
る品質劣化が少ないものの、雑音の無い環境下の音声に
対してあまり品質が上がらないという欠点があった。
【0016】本発明は、上記の問題点に鑑みてなされた
ものであり、音声のみならず、音声に背景雑音や音楽等
が加わっても自然な復号音が得られる符号励振線形予測
音声符号化装置を提供することを目的とする。
ものであり、音声のみならず、音声に背景雑音や音楽等
が加わっても自然な復号音が得られる符号励振線形予測
音声符号化装置を提供することを目的とする。
【0017】
【課題を解決するための手段】請求項1記載の発明は、
形状励振源符号帳を備える符号励振線形予測音声符号化
装置において、前記形状励振源符号帳は、複数のサブ符
号帳から構成され、前記各サブ符号帳は、雑音を含まな
い音声又は雑音を含まない音声と雑音を含む音声の両方
を用いて学習した信号源ベクトルから構成される音声部
と、音声以外の非音声を利用して学習した信号源ベクト
ル又は学習を行わないランダム信号源ベクトルから構成
される非音声部とからなることを特徴とする。
形状励振源符号帳を備える符号励振線形予測音声符号化
装置において、前記形状励振源符号帳は、複数のサブ符
号帳から構成され、前記各サブ符号帳は、雑音を含まな
い音声又は雑音を含まない音声と雑音を含む音声の両方
を用いて学習した信号源ベクトルから構成される音声部
と、音声以外の非音声を利用して学習した信号源ベクト
ル又は学習を行わないランダム信号源ベクトルから構成
される非音声部とからなることを特徴とする。
【0018】また、請求項2記載の発明は、形状励振源
符号帳を備える符号励振線形予測音声符号化装置におい
て、前記形状励振源符号帳は、第1および第2のサブ符
号帳から構成され、前記第1のサブ符号帳は、雑音を含
まない音声又は雑音を含まない音声と雑音を含む音声の
両方を用いて学習した信号源ベクトルのみから構成さ
れ、前記第2のサブ符号帳は、音声以外の非音声を利用
して学習した信号源ベクトルのみ又は学習を行わないラ
ンダム信号源ベクトルのみで構成されることを特徴とす
る。
符号帳を備える符号励振線形予測音声符号化装置におい
て、前記形状励振源符号帳は、第1および第2のサブ符
号帳から構成され、前記第1のサブ符号帳は、雑音を含
まない音声又は雑音を含まない音声と雑音を含む音声の
両方を用いて学習した信号源ベクトルのみから構成さ
れ、前記第2のサブ符号帳は、音声以外の非音声を利用
して学習した信号源ベクトルのみ又は学習を行わないラ
ンダム信号源ベクトルのみで構成されることを特徴とす
る。
【0019】
【作用】以上の構成によれば、各サブ符号帳を構成する
音声部と非音声部のベクトルの分布が異なっているた
め、音声部と非音声部をうまくカバーするように両者か
ら選んでサブ符号帳を構成することにより、雑音を含ま
ない音声入力に対しても背景音楽を含む音声入力に対し
てもそれぞれ最適なベクトルが選択されるため、総合的
に考えるとサブ符号帳を音声部のみあるいは非音声部の
みのベクトルで構成するよりも品質が向上する。
音声部と非音声部のベクトルの分布が異なっているた
め、音声部と非音声部をうまくカバーするように両者か
ら選んでサブ符号帳を構成することにより、雑音を含ま
ない音声入力に対しても背景音楽を含む音声入力に対し
てもそれぞれ最適なベクトルが選択されるため、総合的
に考えるとサブ符号帳を音声部のみあるいは非音声部の
みのベクトルで構成するよりも品質が向上する。
【0020】
【実施例】以下、図面を参照してこの発明による一実施
例を説明する。なお、本発明は、図3を参照して説明し
た符号励振線形予測符号化方式等に設けられている形状
励振源符号帳の構成に係り、その初期値の設定に特徴が
あるものである。したがって、符号励振線形予測音声符
号化装置のそれ以外の構成については、従来のものと同
様であり、以下の説明では、形状励振源符号帳の構成に
ついて詳細に記述する。
例を説明する。なお、本発明は、図3を参照して説明し
た符号励振線形予測符号化方式等に設けられている形状
励振源符号帳の構成に係り、その初期値の設定に特徴が
あるものである。したがって、符号励振線形予測音声符
号化装置のそれ以外の構成については、従来のものと同
様であり、以下の説明では、形状励振源符号帳の構成に
ついて詳細に記述する。
【0021】図1は、この発明による符号励振線形予測
音声符号化装置の形状励振源符号帳の構成を示す構成図
であり、一例として、図3に示すものと同様に、2つの
サブ符号帳を有する場合の形状励振源符号帳を示したも
のである。この図に示すサブ符号帳106a、106b
は、図3に示すサブ符号帳6a、6bに対応するもので
あり、それぞれを構成するベクトルは、実際の構成にお
いて、例えば、各40次元で128個であるが、この図
においては、それぞれを8個のベクトルによって簡略し
て表している。
音声符号化装置の形状励振源符号帳の構成を示す構成図
であり、一例として、図3に示すものと同様に、2つの
サブ符号帳を有する場合の形状励振源符号帳を示したも
のである。この図に示すサブ符号帳106a、106b
は、図3に示すサブ符号帳6a、6bに対応するもので
あり、それぞれを構成するベクトルは、実際の構成にお
いて、例えば、各40次元で128個であるが、この図
においては、それぞれを8個のベクトルによって簡略し
て表している。
【0022】サブ符号帳106a、106bを学習させ
るのに先立ち、まず、雑音を含まない音声又は雑音を含
まない音声と雑音を含む音声の両方を使って学習するこ
とによって得られた符号帳と音声以外の非音声例えば付
加雑音や背景音楽を使って学習することによって得られ
た符号帳を用意する。
るのに先立ち、まず、雑音を含まない音声又は雑音を含
まない音声と雑音を含む音声の両方を使って学習するこ
とによって得られた符号帳と音声以外の非音声例えば付
加雑音や背景音楽を使って学習することによって得られ
た符号帳を用意する。
【0023】次に音声入力の環境(例えば車の中)を考
慮し、(音声部のベクトル個数)+(非音声部のベクト
ル個数)=128個になるように予め用意した符号帳の
音声部と非音声部のベクトルの中から適切なベクトルを
選ぶことによって、各サブ符号帳106a、106b
が、それぞれ音声部106a−1または106b−1と
非音声部106a−2または106b−2を持つ複合形
状の符号帳となるように、サブ符号帳106a、106
bそれぞれに音声部のベクトルと非音声部のベクトルを
記憶させる。
慮し、(音声部のベクトル個数)+(非音声部のベクト
ル個数)=128個になるように予め用意した符号帳の
音声部と非音声部のベクトルの中から適切なベクトルを
選ぶことによって、各サブ符号帳106a、106b
が、それぞれ音声部106a−1または106b−1と
非音声部106a−2または106b−2を持つ複合形
状の符号帳となるように、サブ符号帳106a、106
bそれぞれに音声部のベクトルと非音声部のベクトルを
記憶させる。
【0024】各128ベクトルの内、例えば64ベクト
ルを音声部、残り64ベクトルを非音声部に振り分ける
ことができる。ただし、この比率は1対1に限らず、使
用状況に応じた入力音声の性質を見込んで自由に設定す
ることができる。
ルを音声部、残り64ベクトルを非音声部に振り分ける
ことができる。ただし、この比率は1対1に限らず、使
用状況に応じた入力音声の性質を見込んで自由に設定す
ることができる。
【0025】符号励振線形予測音声符号化装置の実際の
動作においては、上述したように、各サブ符号帳106
a、106bの中のベクトルの選択に当たって、聴覚重
みづけを考慮して歪最小となるベクトルが選ばれるか
ら、一方、雑音を含まない入力音声の場合は、2つとも
音声部(106a−1および106b−1)のベクトル
が選ばれ、励振ベクトル130が合成され、他方、入力
音声が背景音声等を含んでいる場合には2つとも非音声
部(106a−2および106b−2)が選ばれて励振
ベクトル130が合成される可能性が高い。したがっ
て、従来の場合すなわち背景雑音や背景音楽等を含まな
い音声データベースによって学習済みサブ符号帳を用い
て音声の背景に雑音や音楽などが加わった入力信号を符
号化する場合、あるいは、学習をしない符号帳もしくは
音声以外の非音声である背景音声等を利用して学習した
符号帳を用いて付加雑音による品質劣化が少ないものも
しくは雑音の無い環境下の音声を符号化する場合と比較
して、励振ベクトル130(図3に示す励振ベクトル3
0に対応するもの)として、入力信号の特性により適合
したものが選択されることになるので、音声品質を向上
させることができる。
動作においては、上述したように、各サブ符号帳106
a、106bの中のベクトルの選択に当たって、聴覚重
みづけを考慮して歪最小となるベクトルが選ばれるか
ら、一方、雑音を含まない入力音声の場合は、2つとも
音声部(106a−1および106b−1)のベクトル
が選ばれ、励振ベクトル130が合成され、他方、入力
音声が背景音声等を含んでいる場合には2つとも非音声
部(106a−2および106b−2)が選ばれて励振
ベクトル130が合成される可能性が高い。したがっ
て、従来の場合すなわち背景雑音や背景音楽等を含まな
い音声データベースによって学習済みサブ符号帳を用い
て音声の背景に雑音や音楽などが加わった入力信号を符
号化する場合、あるいは、学習をしない符号帳もしくは
音声以外の非音声である背景音声等を利用して学習した
符号帳を用いて付加雑音による品質劣化が少ないものも
しくは雑音の無い環境下の音声を符号化する場合と比較
して、励振ベクトル130(図3に示す励振ベクトル3
0に対応するもの)として、入力信号の特性により適合
したものが選択されることになるので、音声品質を向上
させることができる。
【0026】次に、本発明による他の実施例を図2を参
照して説明する。この図において、形状励振源符号帳
は、図1に示す各サブ符号帳106a、106bに代え
て、音声部のみからなるサブ符号帳206aと非音声部
のみからなるサブ符号帳206bから構成されている。
この場合、サブ符号帳206bを構成する非音声部は、
雑音波形の時系列のベクトルまたは雑音や非音声信号か
らなるデータベースを用いたベクトル128個から構成
されたものであり、一方、サブ符号帳206aを構成す
る音声部は、同様の雑音ベクトルを初期値として、雑音
を含まない音声又は雑音を含まない音声と雑音を含む音
声の両方のデータベースを用いて学習した結果得られた
128個の励振ベクトルから構成されたものである。
照して説明する。この図において、形状励振源符号帳
は、図1に示す各サブ符号帳106a、106bに代え
て、音声部のみからなるサブ符号帳206aと非音声部
のみからなるサブ符号帳206bから構成されている。
この場合、サブ符号帳206bを構成する非音声部は、
雑音波形の時系列のベクトルまたは雑音や非音声信号か
らなるデータベースを用いたベクトル128個から構成
されたものであり、一方、サブ符号帳206aを構成す
る音声部は、同様の雑音ベクトルを初期値として、雑音
を含まない音声又は雑音を含まない音声と雑音を含む音
声の両方のデータベースを用いて学習した結果得られた
128個の励振ベクトルから構成されたものである。
【0027】この図に示すようにして各サブ符号帳20
6a、206bを構成した場合、各サブ符号帳が、それ
ぞれ128個の音声部あるいは非音声部からなる励振ベ
クトルによって構成されるので、図1に示した場合と比
較して、一方、サブ符号帳206aでは、付加雑音によ
る品質劣化が少ないものもしくは雑音の無い環境下の音
声に対して適切な励振ベクトルの選択の範囲が広がり、
他方、サブ符号帳206bでは、音声の背景に雑音や音
楽などが加わった入力信号に対する適切な励振ベクトル
の選択の範囲が広がる。したがって、各サブ符号帳から
選択された励振ベクトルの合成ベクトルである励振ベク
トル230(図3に示す励振ベクトル30に対応するも
の)は、図1に示す実施例と同様、従来の場合に比較
し、結果として音声品質の向上を図ることができる。
6a、206bを構成した場合、各サブ符号帳が、それ
ぞれ128個の音声部あるいは非音声部からなる励振ベ
クトルによって構成されるので、図1に示した場合と比
較して、一方、サブ符号帳206aでは、付加雑音によ
る品質劣化が少ないものもしくは雑音の無い環境下の音
声に対して適切な励振ベクトルの選択の範囲が広がり、
他方、サブ符号帳206bでは、音声の背景に雑音や音
楽などが加わった入力信号に対する適切な励振ベクトル
の選択の範囲が広がる。したがって、各サブ符号帳から
選択された励振ベクトルの合成ベクトルである励振ベク
トル230(図3に示す励振ベクトル30に対応するも
の)は、図1に示す実施例と同様、従来の場合に比較
し、結果として音声品質の向上を図ることができる。
【0028】なお、以上の実施例では、形状励振源符号
帳を2つに分けたCS−CELPの例を示したが、更に
多数の符号帳に分ける構成にも、また、1つのみの符号
帳を用いる場合も本複合符号帳の構成手法を適用するこ
とができる。
帳を2つに分けたCS−CELPの例を示したが、更に
多数の符号帳に分ける構成にも、また、1つのみの符号
帳を用いる場合も本複合符号帳の構成手法を適用するこ
とができる。
【0029】また、符号帳のメモリを削減するため、一
つまたは数個のベクトルを循環的に使用する方法も矛盾
なく組み合せることができる。また、演算量削減のため
符号帳ベクトルの非重要成分を0として、数点の代表パ
ルスのみを残すスパース励振ベクトルの採用も本方式と
併用することが出来、効果を損なわない。このとき、音
声部符号帳のみにスパース励振ベクトルを適用し、非音
声部符号帳はすべての標本に値を持つように設定するこ
とが可能で、品質を保ちつつ演算量やメモリを削減出来
る点で実用的に有効である。
つまたは数個のベクトルを循環的に使用する方法も矛盾
なく組み合せることができる。また、演算量削減のため
符号帳ベクトルの非重要成分を0として、数点の代表パ
ルスのみを残すスパース励振ベクトルの採用も本方式と
併用することが出来、効果を損なわない。このとき、音
声部符号帳のみにスパース励振ベクトルを適用し、非音
声部符号帳はすべての標本に値を持つように設定するこ
とが可能で、品質を保ちつつ演算量やメモリを削減出来
る点で実用的に有効である。
【0030】さらに、雑音励振部分の検索において数個
の励振パルスを順次予め決った位置に立てて歪みの少な
いパルス列を求める代数的符号励振CELP(A−CE
LP)と組み合せても効果を発揮することは明らかであ
る。
の励振パルスを順次予め決った位置に立てて歪みの少な
いパルス列を求める代数的符号励振CELP(A−CE
LP)と組み合せても効果を発揮することは明らかであ
る。
【0031】本発明を適用した場合を、従来技術による
場合(形状励振源符号帳に全て音声部ベクトルを用いた
場合、及び、非音声部ベクトルのみを用いた場合)と比
較した効果を以下に示す。 ○従来技術 (音声部ベクトルのみの場合)全ての励振音源を学習し
た方式では、雑音を含まない入力音声に対して好ましい
品質を示すものの、背景に雑音の混じった音声では、背
景の雑音が変形し違和感のある妨害音となって聴感上の
劣化がはげしい。 (非音声部ベクトルのみの場合)入力信号が雑音のない
音声、雑音や音楽などが含まれる音声に対しても重大な
差のない品質が得られる。ただし、同一のビットレート
で学習音源を用いたものを、本発明による一実施例と比
較した場合、復号音声の信号対雑音比で1.0−2.0
dB程度劣り、8kbit/s程度の符号化では、聴感
上ざらざらした雑音感がぬぐえないという実験結果が得
られた。
場合(形状励振源符号帳に全て音声部ベクトルを用いた
場合、及び、非音声部ベクトルのみを用いた場合)と比
較した効果を以下に示す。 ○従来技術 (音声部ベクトルのみの場合)全ての励振音源を学習し
た方式では、雑音を含まない入力音声に対して好ましい
品質を示すものの、背景に雑音の混じった音声では、背
景の雑音が変形し違和感のある妨害音となって聴感上の
劣化がはげしい。 (非音声部ベクトルのみの場合)入力信号が雑音のない
音声、雑音や音楽などが含まれる音声に対しても重大な
差のない品質が得られる。ただし、同一のビットレート
で学習音源を用いたものを、本発明による一実施例と比
較した場合、復号音声の信号対雑音比で1.0−2.0
dB程度劣り、8kbit/s程度の符号化では、聴感
上ざらざらした雑音感がぬぐえないという実験結果が得
られた。
【0032】○本発明 背景に雑音のないときは最適な音声部のベクトルが選択
されるため、音声部のみと同程度の品質感が得られ雑音
感は避けられる。また、背景雑音が存在するときは最適
な非音声部ベクトルが選択されるため、雑音が変化して
違和感をあたえることを避けられる。よって、広範囲の
入力音声条件に対して高品質な音声の符号化が可能であ
る。
されるため、音声部のみと同程度の品質感が得られ雑音
感は避けられる。また、背景雑音が存在するときは最適
な非音声部ベクトルが選択されるため、雑音が変化して
違和感をあたえることを避けられる。よって、広範囲の
入力音声条件に対して高品質な音声の符号化が可能であ
る。
【0033】
【発明の効果】請求項1記載の発明によれば、入力信号
が雑音を含まない音声であれば従来構成例と同様な音声
部のベクトルが選ばれるので、従来に比べ劣化がない。
また、入力信号に付加雑音や背景音楽などを含んでいれ
ば、非音声部符号帳のベクトルが選ばれるので、従来に
比べ品質を向上させることができる。すなわち、音声部
と非音声部のベクトルの分布が異なっているため、音声
部と非音声部をうまくカバーするように両者から選んで
サブ符号帳を構成することによって、雑音を含まない音
声入力に対しても背景音楽等を含む音声入力に対しても
それぞれ最適なベクトルが選択されるため、総合的に考
えるとサブ符号帳を音声部のみあるいは非音声部のみの
ベクトルで構成するよりも品質が向上する、という効果
を得ることができる。
が雑音を含まない音声であれば従来構成例と同様な音声
部のベクトルが選ばれるので、従来に比べ劣化がない。
また、入力信号に付加雑音や背景音楽などを含んでいれ
ば、非音声部符号帳のベクトルが選ばれるので、従来に
比べ品質を向上させることができる。すなわち、音声部
と非音声部のベクトルの分布が異なっているため、音声
部と非音声部をうまくカバーするように両者から選んで
サブ符号帳を構成することによって、雑音を含まない音
声入力に対しても背景音楽等を含む音声入力に対しても
それぞれ最適なベクトルが選択されるため、総合的に考
えるとサブ符号帳を音声部のみあるいは非音声部のみの
ベクトルで構成するよりも品質が向上する、という効果
を得ることができる。
【0034】また、請求項2記載の発明によれば、雑音
を含まない音声入力に対しては、雑音を含まない音声又
は雑音を含まない音声と雑音を含む音声の両方を用いて
学習した信号源ベクトルのみから構成された第1のサブ
符号帳から最適なベクトルが選択され、背景音楽等を含
む音声入力に対しては、音声以外の非音声を利用して学
習した信号源ベクトルのみ又は学習を行わないランダム
信号源ベクトルのみで構成された第2のサブ符号帳から
最適なベクトルが選択されるので、総合的に考えると2
つのサブ符号帳を音声部のみあるいは非音声部のみのベ
クトルで構成するよりも品質を向上させることができ
る。
を含まない音声入力に対しては、雑音を含まない音声又
は雑音を含まない音声と雑音を含む音声の両方を用いて
学習した信号源ベクトルのみから構成された第1のサブ
符号帳から最適なベクトルが選択され、背景音楽等を含
む音声入力に対しては、音声以外の非音声を利用して学
習した信号源ベクトルのみ又は学習を行わないランダム
信号源ベクトルのみで構成された第2のサブ符号帳から
最適なベクトルが選択されるので、総合的に考えると2
つのサブ符号帳を音声部のみあるいは非音声部のみのベ
クトルで構成するよりも品質を向上させることができ
る。
【図1】本発明の一実施例による形状励振源符号帳の構
成を示す構成図である。
成を示す構成図である。
【図2】本発明の他の実施例による形状励振源符号帳の
構成を示す構成図である。
構成を示す構成図である。
【図3】従来の符号励振線形予測音声符号化装置の構成
を示すブロック図である。
を示すブロック図である。
【図4】従来の形状励振源符号帳の構成を示す構成図で
ある。
ある。
106a,106b,206a,206b サブ符号帳 106a−1,106b−1 音声部ベクトル 106a−2,106b−2 非音声部ベクトル
フロントページの続き (72)発明者 林 伸二 東京都千代田区内幸町1丁目1番6号 日 本電信電話株式会社内
Claims (2)
- 【請求項1】 形状励振源符号帳を備える符号励振線形
予測音声符号化装置において、 前記形状励振源符号帳は、複数のサブ符号帳から構成さ
れ、 前記各サブ符号帳は、雑音を含まない音声又は雑音を含
まない音声と雑音を含む音声の両方を用いて学習した信
号源ベクトルから構成される音声部と、音声以外の非音
声を利用して学習した信号源ベクトル又は学習を行わな
いランダム信号源ベクトルから構成される非音声部とか
らなることを特徴とする符号励振線形予測音声符号化装
置。 - 【請求項2】 形状励振源符号帳を備える符号励振線形
予測音声符号化装置において、 前記形状励振源符号帳は、第1および第2のサブ符号帳
から構成され、 前記第1のサブ符号帳は、雑音を含まない音声又は雑音
を含まない音声と雑音を含む音声の両方を用いて学習し
た信号源ベクトルのみから構成され、前記第2のサブ符
号帳は、音声以外の非音声を利用して学習した信号源ベ
クトルのみ又は学習を行わないランダム信号源ベクトル
のみで構成されることを特徴とする符号励振線形予測音
声符号化装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6264235A JPH08123493A (ja) | 1994-10-27 | 1994-10-27 | 符号励振線形予測音声符号化装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6264235A JPH08123493A (ja) | 1994-10-27 | 1994-10-27 | 符号励振線形予測音声符号化装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH08123493A true JPH08123493A (ja) | 1996-05-17 |
Family
ID=17400372
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6264235A Pending JPH08123493A (ja) | 1994-10-27 | 1994-10-27 | 符号励振線形予測音声符号化装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH08123493A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6928406B1 (en) | 1999-03-05 | 2005-08-09 | Matsushita Electric Industrial Co., Ltd. | Excitation vector generating apparatus and speech coding/decoding apparatus |
-
1994
- 1994-10-27 JP JP6264235A patent/JPH08123493A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6928406B1 (en) | 1999-03-05 | 2005-08-09 | Matsushita Electric Industrial Co., Ltd. | Excitation vector generating apparatus and speech coding/decoding apparatus |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0878790A1 (en) | Voice coding system and method | |
| EP0926660B1 (en) | Speech encoding/decoding method | |
| JPH09127991A (ja) | 音声符号化方法及び装置、音声復号化方法及び装置 | |
| JPH1091194A (ja) | 音声復号化方法及び装置 | |
| HK1040807B (zh) | 可变速率语音编码 | |
| WO2000025298A1 (en) | A method and device for adaptive bandwidth pitch search in coding wideband signals | |
| CN101578508A (zh) | 用于对语音信号中的过渡帧进行编码的方法和设备 | |
| WO2002043052A1 (en) | Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound | |
| JP3616432B2 (ja) | 音声符号化装置 | |
| EP1103953B1 (en) | Method for concealing erased speech frames | |
| EP1204092B1 (en) | Speech decoder capable of decoding background noise signal with high quality | |
| JP3179291B2 (ja) | 音声符号化装置 | |
| JP3583945B2 (ja) | 音声符号化方法 | |
| JP3916934B2 (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置 | |
| JP3163206B2 (ja) | 音響信号符号化装置 | |
| JPH08123493A (ja) | 符号励振線形予測音声符号化装置 | |
| JP3232701B2 (ja) | 音声符号化方法 | |
| JPH11259098A (ja) | 音声符号化/復号化方法 | |
| JP2853170B2 (ja) | 音声符号化復号化方式 | |
| JP3274451B2 (ja) | 適応ポストフィルタ及び適応ポストフィルタリング方法 | |
| JP2947788B1 (ja) | 音声および音響信号の高速な符号化方法および装置および記録媒体 | |
| JP3192051B2 (ja) | 音声符号化装置 | |
| JP3192999B2 (ja) | 音声符号化方法および音声符号化方法 | |
| JP3063087B2 (ja) | 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置 | |
| JP2946528B2 (ja) | 音声符号化復号化方法及びその装置 |