JPH06195098A - 音声符号化方法 - Google Patents
音声符号化方法Info
- Publication number
- JPH06195098A JPH06195098A JP4345902A JP34590292A JPH06195098A JP H06195098 A JPH06195098 A JP H06195098A JP 4345902 A JP4345902 A JP 4345902A JP 34590292 A JP34590292 A JP 34590292A JP H06195098 A JPH06195098 A JP H06195098A
- Authority
- JP
- Japan
- Prior art keywords
- pulse
- codebook
- sound source
- search
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【目的】 本発明の目的は、4kbps以下の低ビット
レートでも高品質な合成音声を得ることの出来る、音声
符号化方法を提供することにある。 【構成】 入力音声を音響分類部31で分析し、分析結
果から検索コードブック選択部34において、パルス情
報コードブック33とパルス発生部34、パルス音源検
索部32で構成したパルス音源コードブックと、雑音情
報コードブック42と雑音音源検索部37で構成した雑
音音源コードブックから検索処理を行うコードブックを
選択し、検索結果から使用音源選択部35において使用
音源を選択し、入力音声の音響的特徴に対応した符号化
を行う。パルス音源に関しては検索演算量の軽減を行
い、可能な組合せの全パルス音源を検索することによ
り、最適な音源パルスを選択する。 【効果】 音声の周期成分の再現性と音響的特徴への対
応性が改善され、低ビットレートでも高品質な音声が、
低処理量で得られる。
レートでも高品質な合成音声を得ることの出来る、音声
符号化方法を提供することにある。 【構成】 入力音声を音響分類部31で分析し、分析結
果から検索コードブック選択部34において、パルス情
報コードブック33とパルス発生部34、パルス音源検
索部32で構成したパルス音源コードブックと、雑音情
報コードブック42と雑音音源検索部37で構成した雑
音音源コードブックから検索処理を行うコードブックを
選択し、検索結果から使用音源選択部35において使用
音源を選択し、入力音声の音響的特徴に対応した符号化
を行う。パルス音源に関しては検索演算量の軽減を行
い、可能な組合せの全パルス音源を検索することによ
り、最適な音源パルスを選択する。 【効果】 音声の周期成分の再現性と音響的特徴への対
応性が改善され、低ビットレートでも高品質な音声が、
低処理量で得られる。
Description
【0001】
【産業上の利用分野】本発明は、低ビットレートで高品
質な合成音声を得るに好適な音声符号化方法に関し、特
に比較的少ない処理量で4kbps以下のビットレート
に適用できる音声符号化方法に係る。
質な合成音声を得るに好適な音声符号化方法に関し、特
に比較的少ない処理量で4kbps以下のビットレート
に適用できる音声符号化方法に係る。
【0002】
【従来の技術】合成音声と原音声の重み付き誤差を評価
し、その誤差を最小化するように符号化パラメータを決
定する、「合成による分析」手法を取り入れた音声符号
化方式が最近提案され、低ビットレートにおいても比較
的良好な音声品質を得ることに成功している。代表的な
ものとして符号駆動線形予測符号化(CELP)方式
(例えば、M. R. Schroeder and B. S. Atal: "Code-ex
cited linear prediction(CELP)", Proc. ICASSP 85 (1
985.3))があり、4.8kbpsで実用的な音声品質を
達成している。また、CELP方式の改良方式も多数提
案されており、例えばベクトル和駆動線形予測符号化
(VSELP)方式(例えば、I. A. Gersonand M. A.
Jasiuk: "Vector sum excited linear prediction (VSE
LP) speechcoding at 8kbps", Proc. ICASSP 90 (1990.
4))は、処理量やメモリ容量、ビット誤り耐性の点で優
れている。
し、その誤差を最小化するように符号化パラメータを決
定する、「合成による分析」手法を取り入れた音声符号
化方式が最近提案され、低ビットレートにおいても比較
的良好な音声品質を得ることに成功している。代表的な
ものとして符号駆動線形予測符号化(CELP)方式
(例えば、M. R. Schroeder and B. S. Atal: "Code-ex
cited linear prediction(CELP)", Proc. ICASSP 85 (1
985.3))があり、4.8kbpsで実用的な音声品質を
達成している。また、CELP方式の改良方式も多数提
案されており、例えばベクトル和駆動線形予測符号化
(VSELP)方式(例えば、I. A. Gersonand M. A.
Jasiuk: "Vector sum excited linear prediction (VSE
LP) speechcoding at 8kbps", Proc. ICASSP 90 (1990.
4))は、処理量やメモリ容量、ビット誤り耐性の点で優
れている。
【0003】一方、移動無線通信のディジタル化が本格
化し、周波数の有効活用の観点から、より低ビットレー
ト(4kbps以下)の音声符号化方式の開発が望まれ
ている。CELPやVSELPを単純に低ビットレート
化しようとすると、品質劣化が大きくなり、限界があ
る。これは適応コードブック検索による長期予測精度が
低下し、周期成分の再現性が低下する結果、復号音声の
雑音感が強くなるためである。そこで、従来の統計音源
(雑音性音源)の他に、パルス音源を導入し、周期性の
再現性を高める方式が提案されている。
化し、周波数の有効活用の観点から、より低ビットレー
ト(4kbps以下)の音声符号化方式の開発が望まれ
ている。CELPやVSELPを単純に低ビットレート
化しようとすると、品質劣化が大きくなり、限界があ
る。これは適応コードブック検索による長期予測精度が
低下し、周期成分の再現性が低下する結果、復号音声の
雑音感が強くなるためである。そこで、従来の統計音源
(雑音性音源)の他に、パルス音源を導入し、周期性の
再現性を高める方式が提案されている。
【0004】このような方式としては、有声音では位相
と振幅を制御したシングルパルス、無声音ではCELP
を用いる「SPE−CELP」方式(W. Granzow and
B. S.Atal: "High-quality digital speech at 4 kb/
s", Proc. GLOBECOM 90 (1990.12))や、周期パルスと
雑音を切り替えて使用する「パルス/雑音選択型CEL
P」方式(吉田、他2:”低ビットレートCELP符号
化へのパルス音源探索の適用”、信学技報 SP91−
68(1991.10)、あるいは、田中、板倉:”C
ELP音声符号化方式におけるパルス音源導入による音
声品質の向上”、信学技報 EA92−24(199
2.5))等がある。
と振幅を制御したシングルパルス、無声音ではCELP
を用いる「SPE−CELP」方式(W. Granzow and
B. S.Atal: "High-quality digital speech at 4 kb/
s", Proc. GLOBECOM 90 (1990.12))や、周期パルスと
雑音を切り替えて使用する「パルス/雑音選択型CEL
P」方式(吉田、他2:”低ビットレートCELP符号
化へのパルス音源探索の適用”、信学技報 SP91−
68(1991.10)、あるいは、田中、板倉:”C
ELP音声符号化方式におけるパルス音源導入による音
声品質の向上”、信学技報 EA92−24(199
2.5))等がある。
【0005】
【発明が解決しようとする課題】上記パルス音源を使用
した音声符号化方式は、従来方式に比べると低ビットレ
ート化しても周期成分の再現性の向上が図れるが、次の
ような問題がある。
した音声符号化方式は、従来方式に比べると低ビットレ
ート化しても周期成分の再現性の向上が図れるが、次の
ような問題がある。
【0006】「SPE−CELP」方式は1ピッチ周期
あたり1本のパルスしか用いないため、その位置や振幅
が音声品質に極めて大きな影響を与える。パルス位置の
決め方はかなり複雑で、入力音声信号に対するロバスト
性に問題がある。また、符号化音声がブザー的になる場
合があるとの報告もある。
あたり1本のパルスしか用いないため、その位置や振幅
が音声品質に極めて大きな影響を与える。パルス位置の
決め方はかなり複雑で、入力音声信号に対するロバスト
性に問題がある。また、符号化音声がブザー的になる場
合があるとの報告もある。
【0007】一方、「パルス/雑音選択型CELP」方
式は、パルス音源と雑音音源を個別に用いたときの誤差
を評価し、誤差の小さい方の音源を選択したり、入力音
声の有声無声判定により使用する音源を選択したりす
る。これらの方法では長期予測(適応コードブック検
索)を併用するので、パルス音源は長期予測ベクトルを
補完する意味合いが強い。しかし、上記の文献ではパル
ス間隔を長期予測ラグ、またはピッチ周期に限定してい
るため、十分な音声品質が得られていないという問題が
ある。
式は、パルス音源と雑音音源を個別に用いたときの誤差
を評価し、誤差の小さい方の音源を選択したり、入力音
声の有声無声判定により使用する音源を選択したりす
る。これらの方法では長期予測(適応コードブック検
索)を併用するので、パルス音源は長期予測ベクトルを
補完する意味合いが強い。しかし、上記の文献ではパル
ス間隔を長期予測ラグ、またはピッチ周期に限定してい
るため、十分な音声品質が得られていないという問題が
ある。
【0008】また、「SPE−CELP」方式も「パル
ス/雑音選択型CELP」方式もパルス音源と雑音音源
との切り替えを行っているため、符号化音声に、音源の
切り替えに起因する音色の変化(不連続感)があるとい
う問題もある。
ス/雑音選択型CELP」方式もパルス音源と雑音音源
との切り替えを行っているため、符号化音声に、音源の
切り替えに起因する音色の変化(不連続感)があるとい
う問題もある。
【0009】また、音源としてパルス成分だけを用いた
方式では、摩擦音等の残差波形が雑音的になる部分で
は、パルス音源による残差波形の近似が困難であり、復
号音声の劣化が目立ち、パルス音源だけを用いるのは問
題がある。
方式では、摩擦音等の残差波形が雑音的になる部分で
は、パルス音源による残差波形の近似が困難であり、復
号音声の劣化が目立ち、パルス音源だけを用いるのは問
題がある。
【0010】本発明の第1の目的は、低ビットレート化
しても音声品質の劣化が少い符号化方式を提供すること
である。また、本発明の第2の目的は、比較的低処理量
で第1の目的を実現することである。
しても音声品質の劣化が少い符号化方式を提供すること
である。また、本発明の第2の目的は、比較的低処理量
で第1の目的を実現することである。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、本発明では、音声符号器に入力された音声は、まず
フレーム、およびサブフレームに分割される。短期予測
分析部では、フレームごとにスペクトルパラメータ(短
期予測係数)が抽出され、量子化される。次に、聴覚重
み付け誤差を評価するための準備として、入力音声に聴
覚重み付けがなされる。また、重み付け合成フィルタに
ゼロ信号を入力し、零入力応答を求め、重み付けられた
入力信号から減算する。これは、合成フィルタの内部状
態に依存する過去の影響を取り除くためである。さら
に、重み付け合成フィルタのインパルス応答も計算して
おく。
め、本発明では、音声符号器に入力された音声は、まず
フレーム、およびサブフレームに分割される。短期予測
分析部では、フレームごとにスペクトルパラメータ(短
期予測係数)が抽出され、量子化される。次に、聴覚重
み付け誤差を評価するための準備として、入力音声に聴
覚重み付けがなされる。また、重み付け合成フィルタに
ゼロ信号を入力し、零入力応答を求め、重み付けられた
入力信号から減算する。これは、合成フィルタの内部状
態に依存する過去の影響を取り除くためである。さら
に、重み付け合成フィルタのインパルス応答も計算して
おく。
【0012】次に長期予測分析部において、サブフレー
ム単位で、適応コードブックから最適な長期予測ラグと
利得を求める。重み付けられた入力信号から零入力応答
を減算した信号から、さらに利得を乗じた重み付け長期
予測ベクトルを差し引いた信号を作製し、検索コードブ
ック選択部に入力する。
ム単位で、適応コードブックから最適な長期予測ラグと
利得を求める。重み付けられた入力信号から零入力応答
を減算した信号から、さらに利得を乗じた重み付け長期
予測ベクトルを差し引いた信号を作製し、検索コードブ
ック選択部に入力する。
【0013】音響分類部は上記入力音声をフレームある
いはサブフレーム単位で分析し、音響的特徴を表す音響
パラメータを求め、分析結果を検索コードブック選択部
と使用音源選択部に出力する。(A) 検索コードブック選択部は、音響分類部からの入力情報
によって、検索を行うコードブックを複数のコードブッ
クの中から選択し、各検索コードブックに前述の検索対
象信号を入力する。コードブックは、パルス音源と雑音
音源など異なった特性の音源が複数個用意されており、
入力音声の音響的特徴に基づいて、適当なコードブック
が検索処理の対象として選択される。(B) パルス音源の検索では、まずパルス情報コードブックか
らパルス間隔と先頭パルス位置の情報を読みだし、パル
ス発生部でパルス列を発生させる。この時、パルス間隔
の情報は、長期予測の検索結果等による限定は行わず、
予め設定した値の全てをパルス列発生に用いる。このパ
ルス列を音源ベクトルとみなし、重み付け合成フィルタ
のインパルス応答の畳み込みにより、重み付けする。こ
れらの重み付けベクトルに対して重み付け誤差を順次評
価し、誤差を最小化するパルス音源ベクトルと利得を決
定する。(C) 雑音音源の検索では、雑音情報コードブックから雑音情
報を読みだして音源ベクトルを作成し、その音源ベクト
ルに対して重み付けを行った重み付けベクトルの重み付
け誤差を評価し、誤差を最小にする雑音音源ベクトルと
利得を決定する。(D) 使用音源選択部では、検索コードブック選択部によって
選択された各検索コードブックの検索結果、音響分類部
の分析結果、長期予測器の検索結果等から使用音源コー
ドブックを選択し、そのコードブックの検索結果を音源
ベクトルとして出力し、使用するコードブックを表す使
用音源指標を出力する。(E) 利得量子化部では、長期予測ベクトルと音源ベクトルの
利得を同時に最適化し、量子化する。
いはサブフレーム単位で分析し、音響的特徴を表す音響
パラメータを求め、分析結果を検索コードブック選択部
と使用音源選択部に出力する。(A) 検索コードブック選択部は、音響分類部からの入力情報
によって、検索を行うコードブックを複数のコードブッ
クの中から選択し、各検索コードブックに前述の検索対
象信号を入力する。コードブックは、パルス音源と雑音
音源など異なった特性の音源が複数個用意されており、
入力音声の音響的特徴に基づいて、適当なコードブック
が検索処理の対象として選択される。(B) パルス音源の検索では、まずパルス情報コードブックか
らパルス間隔と先頭パルス位置の情報を読みだし、パル
ス発生部でパルス列を発生させる。この時、パルス間隔
の情報は、長期予測の検索結果等による限定は行わず、
予め設定した値の全てをパルス列発生に用いる。このパ
ルス列を音源ベクトルとみなし、重み付け合成フィルタ
のインパルス応答の畳み込みにより、重み付けする。こ
れらの重み付けベクトルに対して重み付け誤差を順次評
価し、誤差を最小化するパルス音源ベクトルと利得を決
定する。(C) 雑音音源の検索では、雑音情報コードブックから雑音情
報を読みだして音源ベクトルを作成し、その音源ベクト
ルに対して重み付けを行った重み付けベクトルの重み付
け誤差を評価し、誤差を最小にする雑音音源ベクトルと
利得を決定する。(D) 使用音源選択部では、検索コードブック選択部によって
選択された各検索コードブックの検索結果、音響分類部
の分析結果、長期予測器の検索結果等から使用音源コー
ドブックを選択し、そのコードブックの検索結果を音源
ベクトルとして出力し、使用するコードブックを表す使
用音源指標を出力する。(E) 利得量子化部では、長期予測ベクトルと音源ベクトルの
利得を同時に最適化し、量子化する。
【0014】以上のようにして求められたスペクトルパ
ラメータや利得の量子化コード、長期予測ラグ、使用音
源指標、音源ベクトルの指標が伝送パラメータとして復
号器へ伝送される。
ラメータや利得の量子化コード、長期予測ラグ、使用音
源指標、音源ベクトルの指標が伝送パラメータとして復
号器へ伝送される。
【0015】復号器では、上記伝送パラメータから駆動
音源が計算され、短期予測係数をフィルタ係数とする合
成フィルタに入力されることによって、復号化音声が得
られる。
音源が計算され、短期予測係数をフィルタ係数とする合
成フィルタに入力されることによって、復号化音声が得
られる。
【0016】
【作用】前記(A)の音響分類部は、入力音声の分析を
行い、音響的特徴を表すパラメータを求め、それに基づ
き音響的分類を行う。そして入力音声の音響パラメータ
と分類結果を検索コードブック選択部と使用音源選択部
に出力する。
行い、音響的特徴を表すパラメータを求め、それに基づ
き音響的分類を行う。そして入力音声の音響パラメータ
と分類結果を検索コードブック選択部と使用音源選択部
に出力する。
【0017】前記(B)の検索コードブック選択部は、
前記(A)の音響分類部の分析結果従って、検索処理を
行うコードブック選択し、限定する。これによって、コ
ードブック検索に要する演算量を削減することができ、
しかも入力音声に適当なコードブックを選択することに
より合成音声の音質を保つ。
前記(A)の音響分類部の分析結果従って、検索処理を
行うコードブック選択し、限定する。これによって、コ
ードブック検索に要する演算量を削減することができ、
しかも入力音声に適当なコードブックを選択することに
より合成音声の音質を保つ。
【0018】音源コードブックとして、前記(C)のパ
ルス音源と前記(D)の雑音音源という特性の異なった
コードブックを複数用意することによって、定常部、非
定常部など入力音声の音響的特徴の違いに対応すること
ができ、駆動音源の近似精度の低下を防ぐとともに、符
号化効率を向上させ、合成音声の音質を向上させる。
ルス音源と前記(D)の雑音音源という特性の異なった
コードブックを複数用意することによって、定常部、非
定常部など入力音声の音響的特徴の違いに対応すること
ができ、駆動音源の近似精度の低下を防ぐとともに、符
号化効率を向上させ、合成音声の音質を向上させる。
【0019】前記(C)のパルス音源では、検索するパ
ルス列の先頭パルス位置とパルス間隔の範囲を予め決め
ておき、長期予測やピッチ予測の結果に係らず、範囲全
体を検索することによって、駆動音源の近似精度を向上
させ、低ビットレート化に伴う長期予測利得と周期性の
再現性の低下を補償し、合成音の音質を向上させる。ま
たパルス音源検索処理において、合成フィルタのインパ
ルス応答の打切りと最小パルス間隔の設定を行い、隣接
パルス間の影響を無くすことによって演算量の低減を行
うことができる。また、パルス列を発生させるためのパ
ルス情報コードブックは、波形ベクトル自体の情報では
なく、先頭パルス位置とパルス間隔の2つの情報しか持
たないため、コードブックに必要なメモリー量の削減が
可能である。
ルス列の先頭パルス位置とパルス間隔の範囲を予め決め
ておき、長期予測やピッチ予測の結果に係らず、範囲全
体を検索することによって、駆動音源の近似精度を向上
させ、低ビットレート化に伴う長期予測利得と周期性の
再現性の低下を補償し、合成音の音質を向上させる。ま
たパルス音源検索処理において、合成フィルタのインパ
ルス応答の打切りと最小パルス間隔の設定を行い、隣接
パルス間の影響を無くすことによって演算量の低減を行
うことができる。また、パルス列を発生させるためのパ
ルス情報コードブックは、波形ベクトル自体の情報では
なく、先頭パルス位置とパルス間隔の2つの情報しか持
たないため、コードブックに必要なメモリー量の削減が
可能である。
【0020】前記(E)の使用音源選択部は、検索コー
ドブック選択部の選択結果、各コードブックの検索結
果、音響分類部の分析結果などから使用音源の選択を行
う。これによって最適な駆動音源を選択し、駆動音源の
近似精度を向上させることができる。
ドブック選択部の選択結果、各コードブックの検索結
果、音響分類部の分析結果などから使用音源の選択を行
う。これによって最適な駆動音源を選択し、駆動音源の
近似精度を向上させることができる。
【0021】
【実施例】以下、図面を用いて本発明の一実施例を説明
する。本発明の実施例の音声符号化部のブロック図を図
1に、音声復号化部のブロック図を図2に示す。
する。本発明の実施例の音声符号化部のブロック図を図
1に、音声復号化部のブロック図を図2に示す。
【0022】本発明は、符号駆動線形予測(CELP)
音声符号化方式に基づいているので、具体的な実施例の
説明に先立って、まずCELP方式の原理について説明
する。図3はCELPの符号化部における駆動音源決定
の原理図である。同図では、音源の周期性を表す成分と
して適応コードブック108の出力である長期予測ベク
トル110と、周期性以外の成分(ランダム性、雑音
性)として統計コードブック109の出力であるコード
ベクトル111にそれぞれの利得112、113を乗じ
て加算した荷重和114を駆動音源としている。
音声符号化方式に基づいているので、具体的な実施例の
説明に先立って、まずCELP方式の原理について説明
する。図3はCELPの符号化部における駆動音源決定
の原理図である。同図では、音源の周期性を表す成分と
して適応コードブック108の出力である長期予測ベク
トル110と、周期性以外の成分(ランダム性、雑音
性)として統計コードブック109の出力であるコード
ベクトル111にそれぞれの利得112、113を乗じ
て加算した荷重和114を駆動音源としている。
【0023】最適な駆動音源を得るためのコードブック
の検索は次のようにしてなされる。一般に駆動音源を合
成フィルタに入力して得られる合成音声が、原音声(入
力音声)に一致するような駆動音源が得られれば良い
が、実際にはなんらかの誤差(量子化歪)を伴う。した
がってこの誤差を最小化するように駆動音源を決定すれ
ば良いことになるが、人間の聴覚特性は必ずしも誤差量
と音声の主観品質の対応が取れないことが知られてい
る。そこで聴覚特性との対応が良くなるように重み付け
した誤差を用いるのが一般的である。聴覚重み付けにつ
いては、例えば次の文献に記載されている。B. S. Atal
and J. R. Remde: "A new model of LPC excitation f
or producing natural-sounding speech at low bit ra
tes", Proc.ICASSP 82 (1982.5)。
の検索は次のようにしてなされる。一般に駆動音源を合
成フィルタに入力して得られる合成音声が、原音声(入
力音声)に一致するような駆動音源が得られれば良い
が、実際にはなんらかの誤差(量子化歪)を伴う。した
がってこの誤差を最小化するように駆動音源を決定すれ
ば良いことになるが、人間の聴覚特性は必ずしも誤差量
と音声の主観品質の対応が取れないことが知られてい
る。そこで聴覚特性との対応が良くなるように重み付け
した誤差を用いるのが一般的である。聴覚重み付けにつ
いては、例えば次の文献に記載されている。B. S. Atal
and J. R. Remde: "A new model of LPC excitation f
or producing natural-sounding speech at low bit ra
tes", Proc.ICASSP 82 (1982.5)。
【0024】この聴覚重み付け誤差を評価するために、
駆動音源114は重み付け合成フィルタ105に入力さ
れ、重み付け合成音声116を得る。入力音声101も
聴覚重み付けフィルタ104を通して重み付け入力音声
115を得、重み付け合成音声116との差を取って重
み付け誤差波形117を得る。なお、聴覚重み付けフィ
ルタ104と重み付け合成フィルタ105のフィルタ係
数は、あらかじめ入力音声101をLPC(線形予測)
分析部102に入力して得られたLPCパラメータ10
3によって決められる。
駆動音源114は重み付け合成フィルタ105に入力さ
れ、重み付け合成音声116を得る。入力音声101も
聴覚重み付けフィルタ104を通して重み付け入力音声
115を得、重み付け合成音声116との差を取って重
み付け誤差波形117を得る。なお、聴覚重み付けフィ
ルタ104と重み付け合成フィルタ105のフィルタ係
数は、あらかじめ入力音声101をLPC(線形予測)
分析部102に入力して得られたLPCパラメータ10
3によって決められる。
【0025】重み付け誤差波形117は、2乗誤差計算
部118において誤差評価区間にわたって2乗和を計算
され、重み付け2乗誤差119が得られる。前述のよう
に駆動音源は長期予測ベクトルと統計コードベクトルと
の荷重和であるから、駆動音源の決定は、各コードブッ
クからどのコードベクトルを選択するかを決めるコード
ベクトル指標の決定に帰着する。すなわち、長期予測ラ
グ106とコードベクトル指標107を順次変えて重み
付け2乗誤差119算出し、誤差最小化部120におい
て重み付け誤差が最小となるものを選択すれば良い。こ
のような駆動音源決定法を「合成による分析」法と呼ん
でいる。
部118において誤差評価区間にわたって2乗和を計算
され、重み付け2乗誤差119が得られる。前述のよう
に駆動音源は長期予測ベクトルと統計コードベクトルと
の荷重和であるから、駆動音源の決定は、各コードブッ
クからどのコードベクトルを選択するかを決めるコード
ベクトル指標の決定に帰着する。すなわち、長期予測ラ
グ106とコードベクトル指標107を順次変えて重み
付け2乗誤差119算出し、誤差最小化部120におい
て重み付け誤差が最小となるものを選択すれば良い。こ
のような駆動音源決定法を「合成による分析」法と呼ん
でいる。
【0026】この様にして最適な駆動音源が決定した
ら、長期予測ラグ106、コードブック指標107、利
得112、113、及びLPCパラメータ103を伝送
パラメータとして多重化部121において多重化し、送
信データ122とする。また、この時の駆動音源114
を用いて、適応コードブック108の状態が更新され
る。
ら、長期予測ラグ106、コードブック指標107、利
得112、113、及びLPCパラメータ103を伝送
パラメータとして多重化部121において多重化し、送
信データ122とする。また、この時の駆動音源114
を用いて、適応コードブック108の状態が更新され
る。
【0027】上述の「合成による分析」法を忠実に実行
しようとすると、すなわち毎回重み付け誤差を評価しな
がら長期予測ラグと統計コードベクトルの指標を同時に
最適化しようとすると、膨大な処理量となる。そのた
め、実際には逐次最適化等の手法が用いられる。
しようとすると、すなわち毎回重み付け誤差を評価しな
がら長期予測ラグと統計コードベクトルの指標を同時に
最適化しようとすると、膨大な処理量となる。そのた
め、実際には逐次最適化等の手法が用いられる。
【0028】一方、復号部における処理は、まず受信デ
ータ222が多重分離部221で各種パラメータに分離
される。長期予測ラグ206に基づき適応コードブック
208を検索し、長期予測ベクトル210を出力する。
また、コードブック指標207に基づき統計コードブッ
ク209を検索し、音源ベクトル211を出力する。長
期予測ベクトル210と音源ベクトル211にそれぞれ
の利得212と213を乗じ、加算した信号を駆動音源
214として合成フィルタ230に入力する。合成フィ
ルタのフィルタ係数は、LPCパラメータ203によっ
て決まる。ポストフィルタ231は必須ではないが、合
成音声の主観的品質を改善するために多用され、その出
力が出力音声232となる。
ータ222が多重分離部221で各種パラメータに分離
される。長期予測ラグ206に基づき適応コードブック
208を検索し、長期予測ベクトル210を出力する。
また、コードブック指標207に基づき統計コードブッ
ク209を検索し、音源ベクトル211を出力する。長
期予測ベクトル210と音源ベクトル211にそれぞれ
の利得212と213を乗じ、加算した信号を駆動音源
214として合成フィルタ230に入力する。合成フィ
ルタのフィルタ係数は、LPCパラメータ203によっ
て決まる。ポストフィルタ231は必須ではないが、合
成音声の主観的品質を改善するために多用され、その出
力が出力音声232となる。
【0029】本発明の一実施例の音声符号化部のブロッ
ク図を図1に、音声復号化部のブロック図を図2に示
す。以下、本実施例の動作の概要を説明する。
ク図を図1に、音声復号化部のブロック図を図2に示
す。以下、本実施例の動作の概要を説明する。
【0030】音声符号化部では、所定の標本化周波数
(通常8kHz)でA/D変換されたディジタル音声信
号11が入力される。
(通常8kHz)でA/D変換されたディジタル音声信
号11が入力される。
【0031】短期予測分析部(LPC分析部)12は分
析フレーム長の音声データ11を読みだし、短期予測係
数13を出力する。フレーム長は、例えば40ms(3
20サンプル)程度である。
析フレーム長の音声データ11を読みだし、短期予測係
数13を出力する。フレーム長は、例えば40ms(3
20サンプル)程度である。
【0032】短期予測係数13は、短期予測係数量子化
部14において量子化される。量子化符号が短期予測係
数量子化指標18として、伝送パラメータとして出力さ
れる。また、短期予測係数の量子化値17が、次段以降
の処理で参照される。
部14において量子化される。量子化符号が短期予測係
数量子化指標18として、伝送パラメータとして出力さ
れる。また、短期予測係数の量子化値17が、次段以降
の処理で参照される。
【0033】さらに、入力音声11は聴覚重み付けフィ
ルタ19で重み付けられ、重み付け音声20が得られ
る。一方、重み付け合成フィルタ21にフレーム長分
の、値が0の信号(零入力)22を入力し、零入力応答
23を得る。これを重み付け入力音声20から減算し、
重み付け合成フィルタの過去の内部状態の影響を取り除
いた重み付け入力音声24が得られる。また、重み付け
合成フィルタのインパルス応答29も求めておく。
ルタ19で重み付けられ、重み付け音声20が得られ
る。一方、重み付け合成フィルタ21にフレーム長分
の、値が0の信号(零入力)22を入力し、零入力応答
23を得る。これを重み付け入力音声20から減算し、
重み付け合成フィルタの過去の内部状態の影響を取り除
いた重み付け入力音声24が得られる。また、重み付け
合成フィルタのインパルス応答29も求めておく。
【0034】長期予測分析は、サブフレームごとに適応
コードブックの検索によって実行されるので、以下では
適応コードブック検索と呼ぶ。ここで、サブフレーム長
は、例えば10ms(80サンプル)程度である。適応
コードブック検索部25において、音声の周期性を表す
パラメータである長期予測ラグが抽出され、長期予測ラ
グの指標30と長期予測ベクトル58が出力される。
コードブックの検索によって実行されるので、以下では
適応コードブック検索と呼ぶ。ここで、サブフレーム長
は、例えば10ms(80サンプル)程度である。適応
コードブック検索部25において、音声の周期性を表す
パラメータである長期予測ラグが抽出され、長期予測ラ
グの指標30と長期予測ベクトル58が出力される。
【0035】音響分類部31では、入力音声11をフレ
ームおよびサブフレーム単位で分析し、音響分類パラメ
ータ33を検索コードブック選択部34と使用音源選択
部35に出力する。
ームおよびサブフレーム単位で分析し、音響分類パラメ
ータ33を検索コードブック選択部34と使用音源選択
部35に出力する。
【0036】検索コードブック選択部33は、音響分類
部31からの音響分類パラメータ33と前フレームまで
の分析結果、符号化結果に従って、検索対象コードブッ
クを複数個のコードブックの中から選択する。この際、
各コードブックの一部もコードブックとみなして検索対
象とする。このように検索対象コードブックを限定する
ことによって、コードベクトル検索に必要な演算量を削
減しつつ、駆動音源の近似精度を保つ。
部31からの音響分類パラメータ33と前フレームまで
の分析結果、符号化結果に従って、検索対象コードブッ
クを複数個のコードブックの中から選択する。この際、
各コードブックの一部もコードブックとみなして検索対
象とする。このように検索対象コードブックを限定する
ことによって、コードベクトル検索に必要な演算量を削
減しつつ、駆動音源の近似精度を保つ。
【0037】検索コードブック選択部34がパルス音源
を選択すると、パルス発生部40はパルス情報コードブ
ック38からパルス間隔と先頭パルス位置の情報39を
読みだし、その情報に基づきパルス列41を生成する。
パルス音源検索部36では、パルス列41を音源ベクト
ルとみなし、重み付け合成フィルタのインパルス応答2
9の畳み込みにより、重み付けする。重み付けられた入
力信号20から零入力応答23を減算した信号24か
ら、さらに利得を乗じた重み付け長期予測ベクトル28
を差し引いた信号に対し、最適なパルス音源ベクトル4
6を検索する。最適なパルス音源ベクトル46に対応す
るパルス情報コードブック38の指標44を出力する。
を選択すると、パルス発生部40はパルス情報コードブ
ック38からパルス間隔と先頭パルス位置の情報39を
読みだし、その情報に基づきパルス列41を生成する。
パルス音源検索部36では、パルス列41を音源ベクト
ルとみなし、重み付け合成フィルタのインパルス応答2
9の畳み込みにより、重み付けする。重み付けられた入
力信号20から零入力応答23を減算した信号24か
ら、さらに利得を乗じた重み付け長期予測ベクトル28
を差し引いた信号に対し、最適なパルス音源ベクトル4
6を検索する。最適なパルス音源ベクトル46に対応す
るパルス情報コードブック38の指標44を出力する。
【0038】検索コードブック選択部34が雑音音源を
選択すると、雑音音源検索部37では、雑音情報コード
ブック42から雑音情報43を読みだし、雑音ベクトル
を生成し、この雑音ベクトルを音源ベクトルとみなし、
短期予測係数の量子化値17から重み付け合成フィルタ
21と同じフィルタ係数を計算し、その係数によって重
み付けを行う。そして、重み付けられた入力信号20か
ら零入力応答23を減算した信号24から、さらに利得
を乗じた重み付け長期予測ベクトル28を差し引いた信
号に対し、最適な雑音音源ベクトル47を検索する。最
適な雑音音源ベクトル47に対応する雑音情報コードブ
ック42の指標45を出力する。
選択すると、雑音音源検索部37では、雑音情報コード
ブック42から雑音情報43を読みだし、雑音ベクトル
を生成し、この雑音ベクトルを音源ベクトルとみなし、
短期予測係数の量子化値17から重み付け合成フィルタ
21と同じフィルタ係数を計算し、その係数によって重
み付けを行う。そして、重み付けられた入力信号20か
ら零入力応答23を減算した信号24から、さらに利得
を乗じた重み付け長期予測ベクトル28を差し引いた信
号に対し、最適な雑音音源ベクトル47を検索する。最
適な雑音音源ベクトル47に対応する雑音情報コードブ
ック42の指標45を出力する。
【0039】使用音源選択部35では、音響分類部31
から出力された音響分類パラメータ33と検索コードブ
ック選択部34の選択結果32と検索対象コードブック
の検索結果44、45、46、47から、音源のコード
ブック指標32と音源コードベクトル50と音源コード
ベクトルの指標49を出力する。
から出力された音響分類パラメータ33と検索コードブ
ック選択部34の選択結果32と検索対象コードブック
の検索結果44、45、46、47から、音源のコード
ブック指標32と音源コードベクトル50と音源コード
ベクトルの指標49を出力する。
【0040】利得最適化・量子化部51では、長期予測
ベクトル58、及び、音源ベクトル50の利得の最適値
を計算し、量子化する。その時の量子化コード52を出
力する。
ベクトル58、及び、音源ベクトル50の利得の最適値
を計算し、量子化する。その時の量子化コード52を出
力する。
【0041】以上のようにして求められた短期予測係数
や利得の量子化コード18、52、長期予測ラグの指標
30や使用音源指標32や音源情報コードブックの指標
49が伝送パラメータとして音声復号部へ伝送される。
や利得の量子化コード18、52、長期予測ラグの指標
30や使用音源指標32や音源情報コードブックの指標
49が伝送パラメータとして音声復号部へ伝送される。
【0042】音声復号化部では、長期予測ラグの指標6
3を用いて適応コードブック68から長期予測ベクトル
69が読みだされ、パルス発生部73は音源コードブッ
ク指標64を用いてパルス情報コードブック70からパ
ルス間隔と先頭パルス位置に関する情報71が読みだ
し、パルス音源ベクトル74を発生する。雑音情報コー
ドブック75は、音源コードブック指標64を用いて雑
音音源ベクトル76を生成する。そして、使用音源選択
部70によって音源の切替が行われ、音源ベクトル77
が出力される。また、利得コードブック指標66を用い
て、利得コードブック78から各利得79、80が再生
される。各コードベクトル69、77に各利得79、8
0を乗じて加算し、駆動音源ベクトル84が生成され
る。
3を用いて適応コードブック68から長期予測ベクトル
69が読みだされ、パルス発生部73は音源コードブッ
ク指標64を用いてパルス情報コードブック70からパ
ルス間隔と先頭パルス位置に関する情報71が読みだ
し、パルス音源ベクトル74を発生する。雑音情報コー
ドブック75は、音源コードブック指標64を用いて雑
音音源ベクトル76を生成する。そして、使用音源選択
部70によって音源の切替が行われ、音源ベクトル77
が出力される。また、利得コードブック指標66を用い
て、利得コードブック78から各利得79、80が再生
される。各コードベクトル69、77に各利得79、8
0を乗じて加算し、駆動音源ベクトル84が生成され
る。
【0043】上記駆動音源84を、合成フィルタ85に
入力することによって、合成音声86が得られる。合成
フィルタ85のフィルタ係数は、短期予測パラメータの
量子化指標67に基づいて短期予測パラメータ量子化コ
ードブック81から読みだされた短期予測パラメータ8
2が用いられる。最後に主観的な音質を向上させる目的
で、合成音声86が適応ポストフィルタ87に入力さ
れ、最終的な復号音声88が得られる。
入力することによって、合成音声86が得られる。合成
フィルタ85のフィルタ係数は、短期予測パラメータの
量子化指標67に基づいて短期予測パラメータ量子化コ
ードブック81から読みだされた短期予測パラメータ8
2が用いられる。最後に主観的な音質を向上させる目的
で、合成音声86が適応ポストフィルタ87に入力さ
れ、最終的な復号音声88が得られる。
【0044】復号音声(ディジタル信号)はDA変換さ
れ、アナログ音声に変換され、出力される。
れ、アナログ音声に変換され、出力される。
【0045】以上、本実施例の概要を説明したので、次
に主要部分の詳細な機能について説明する。
に主要部分の詳細な機能について説明する。
【0046】短期予測分析部(LPC分析部)12は、
フレームごとに音声データ11から音声のスペクトル包
絡を表す短期予測係数13を抽出する。短期予測係数1
3は最も一般的には線形予測係数であるが、それから導
出される等価なパラメータである偏自己相関係数(PA
RCOR係数、反射係数)や線スペクトル対(LSPパ
ラメータ)に容易に変換される。
フレームごとに音声データ11から音声のスペクトル包
絡を表す短期予測係数13を抽出する。短期予測係数1
3は最も一般的には線形予測係数であるが、それから導
出される等価なパラメータである偏自己相関係数(PA
RCOR係数、反射係数)や線スペクトル対(LSPパ
ラメータ)に容易に変換される。
【0047】線形予測係数の導出方法としては、Dur
bin・Levinsonの反復法(斎藤、中田著、
「音声情報処理の基礎」、オーム社、昭和56年に紹介
されている)が一般的であり、反射係数の導出方法は、
上記以外にもFLATアルゴリズム(電波システム開発
センター策定、「デジタル方式自動車電話システム標準
規格RCR STD−27」(以下、「RCR規格書」
と略す)に開示されている)やLeRoux法(斎藤、
中田著、前出書に記載)などが提案されている。また、
線形予測係数からLSPパラメータへの変換方法も、斎
藤、中田著の前出書に記載されている。
bin・Levinsonの反復法(斎藤、中田著、
「音声情報処理の基礎」、オーム社、昭和56年に紹介
されている)が一般的であり、反射係数の導出方法は、
上記以外にもFLATアルゴリズム(電波システム開発
センター策定、「デジタル方式自動車電話システム標準
規格RCR STD−27」(以下、「RCR規格書」
と略す)に開示されている)やLeRoux法(斎藤、
中田著、前出書に記載)などが提案されている。また、
線形予測係数からLSPパラメータへの変換方法も、斎
藤、中田著の前出書に記載されている。
【0048】線形予測係数13は本実施例ではLSPパ
ラメータに変換された後、量子化部14によってベクト
ル量子化され、量子化値17に変換される(LSPコー
ドブック15からコードベクトル16が順次読みださ
れ、最も誤差の小さいものが量子化値となる)。LSP
パラメータは線形予測係数を直接量子化するよりも量子
化特性が良い(同一のビット数で量子化しても、スペク
トル歪が小さい)ことが知られている。量子化方法は、
許容されるビット数によって、スカラー量子化や多段ベ
クトル量子化、ベクトル・スカラー量子化等が用いられ
ることもある。量子化指標18は伝送パラメータとして
出力される。
ラメータに変換された後、量子化部14によってベクト
ル量子化され、量子化値17に変換される(LSPコー
ドブック15からコードベクトル16が順次読みださ
れ、最も誤差の小さいものが量子化値となる)。LSP
パラメータは線形予測係数を直接量子化するよりも量子
化特性が良い(同一のビット数で量子化しても、スペク
トル歪が小さい)ことが知られている。量子化方法は、
許容されるビット数によって、スカラー量子化や多段ベ
クトル量子化、ベクトル・スカラー量子化等が用いられ
ることもある。量子化指標18は伝送パラメータとして
出力される。
【0049】次に聴覚重み付け誤差を計算するための前
処理について説明する。重み付け誤差を算出するため
に、まず入力音声11に聴覚重み付けフィルタ19で重
み付けがなされ、重み付け音声20を得る。重み付けフ
ィルタ19は短期予測係数(または等価なパラメータ)
の量子化値17から構成されるが、その具体形式は次の
通りである。
処理について説明する。重み付け誤差を算出するため
に、まず入力音声11に聴覚重み付けフィルタ19で重
み付けがなされ、重み付け音声20を得る。重み付けフ
ィルタ19は短期予測係数(または等価なパラメータ)
の量子化値17から構成されるが、その具体形式は次の
通りである。
【0050】
【数1】
【0051】ここにαiはフィルタ係数(線形予測係
数)、Npはフィルタ次数でたとえばNp=10、λは
重み付けパラメータで通常λ=0.8である。
数)、Npはフィルタ次数でたとえばNp=10、λは
重み付けパラメータで通常λ=0.8である。
【0052】一般に合成フィルタの出力は過去の状態の
影響を受けるが、ここでは演算量を削減するために、予
め重み付け音声20から過去の合成フィルタの影響を取
り除いておく。すなわち、重み付け合成フィルタ21に
フレーム長に相当する、値が0のデータ(零入力22)
を入力し、零入力応答23を計算し、重み付け音声20
から減算し、過去の影響を取り除いた重み付け音声24
を得る。ここで用いる重み付け合成フィルタ21の伝達
関数は次の通りである。
影響を受けるが、ここでは演算量を削減するために、予
め重み付け音声20から過去の合成フィルタの影響を取
り除いておく。すなわち、重み付け合成フィルタ21に
フレーム長に相当する、値が0のデータ(零入力22)
を入力し、零入力応答23を計算し、重み付け音声20
から減算し、過去の影響を取り除いた重み付け音声24
を得る。ここで用いる重み付け合成フィルタ21の伝達
関数は次の通りである。
【0053】
【数2】
【0054】この合成フィルタ21は重み付けパラメー
タλを含んでいる点が、復号側の合成フィルタと異なる
点である。また、この重み付け合成フィルタ21のイン
パルス応答29も同時に求めておく。この時、(数2)
のαとしては、線形予測パラメータの量子化値17が用
いられる。
タλを含んでいる点が、復号側の合成フィルタと異なる
点である。また、この重み付け合成フィルタ21のイン
パルス応答29も同時に求めておく。この時、(数2)
のαとしては、線形予測パラメータの量子化値17が用
いられる。
【0055】初めに説明したとおり、長期予測分析は適
応コードブックの検索とみなされ、合成波形と原音声と
の聴覚重み付け誤差の最小化によって長期予測ラグ(適
応コードブックの指標)が選択される。ここでは適応コ
ードブック検索とパルス音源検索は逐次的に行われる場
合について説明する。すなわち、パルス音源を用いない
と仮定して、最適な長期予測ラグの指標30を決定す
る。
応コードブックの検索とみなされ、合成波形と原音声と
の聴覚重み付け誤差の最小化によって長期予測ラグ(適
応コードブックの指標)が選択される。ここでは適応コ
ードブック検索とパルス音源検索は逐次的に行われる場
合について説明する。すなわち、パルス音源を用いない
と仮定して、最適な長期予測ラグの指標30を決定す
る。
【0056】次に、適応コードブック検索部25につい
て説明する。検索の対象となる長期予測ラグに対応し
て、適応コードブック26から読みだされたコードベク
トル27の重み付け合成は、重み付け合成フィルタのイ
ンパルス応答29との畳み込みによって実現する。この
ようにして得られた合成出力(重み付き長期予測ベクト
ル)28は合成フィルタの過去の状態には依存しないの
で、零状態応答と呼ばれる。検索範囲にある各ラグに対
する長期予測ベクトル28を計算し、過去の影響を取り
除いた重み付け音声24との相関が計算され、相関の最
大値を与える(最適な)長期予測ベクトル58と、その
時の長期予測ラグを量子化した長期予測ラグ指標30が
出力される。長期予測分析方法の詳細や演算量削減のた
めの手法等については、前出のRCR規格書を参照され
たい。
て説明する。検索の対象となる長期予測ラグに対応し
て、適応コードブック26から読みだされたコードベク
トル27の重み付け合成は、重み付け合成フィルタのイ
ンパルス応答29との畳み込みによって実現する。この
ようにして得られた合成出力(重み付き長期予測ベクト
ル)28は合成フィルタの過去の状態には依存しないの
で、零状態応答と呼ばれる。検索範囲にある各ラグに対
する長期予測ベクトル28を計算し、過去の影響を取り
除いた重み付け音声24との相関が計算され、相関の最
大値を与える(最適な)長期予測ベクトル58と、その
時の長期予測ラグを量子化した長期予測ラグ指標30が
出力される。長期予測分析方法の詳細や演算量削減のた
めの手法等については、前出のRCR規格書を参照され
たい。
【0057】次に、パルス音源と雑音音源の併用とパル
ス音源ベクトルの生成について説明する。
ス音源ベクトルの生成について説明する。
【0058】本発明では、従来のCELPの統計音源の
代わりに複数個のコードブックを具備し、その中にパル
スコードブックと雑音コードブックを少なくとも一つず
つ有し、それらを併用し、そのうちパルスコードブック
については長期予測分析等の結果とは独立に全検索する
点に特徴がある。パルス音源と雑音音源の併用は、入力
音声の音響的性質によって、駆動音源が近似しようとす
る残差波形も性質が異なることから行われる。例えば図
5に示すように、音声波形はおおまかに定常部と非定常
部に分けることができるが、残差波形は音声波形から短
期的性質の成分を取り除いたものであり長期的な周期成
分と考えられるが、、定常部と非定常部では残差波形の
性質が異なっていると考えられる。この性質の異なる残
差波形の近似をパルス音源、あるいは雑音音源どちらか
だけで行うのは困難である。そこで、入力音声の音響的
特徴によって検索対象とする音源コードブックを変化さ
せることによって、符号化音声の音質の向上を図ってい
る。
代わりに複数個のコードブックを具備し、その中にパル
スコードブックと雑音コードブックを少なくとも一つず
つ有し、それらを併用し、そのうちパルスコードブック
については長期予測分析等の結果とは独立に全検索する
点に特徴がある。パルス音源と雑音音源の併用は、入力
音声の音響的性質によって、駆動音源が近似しようとす
る残差波形も性質が異なることから行われる。例えば図
5に示すように、音声波形はおおまかに定常部と非定常
部に分けることができるが、残差波形は音声波形から短
期的性質の成分を取り除いたものであり長期的な周期成
分と考えられるが、、定常部と非定常部では残差波形の
性質が異なっていると考えられる。この性質の異なる残
差波形の近似をパルス音源、あるいは雑音音源どちらか
だけで行うのは困難である。そこで、入力音声の音響的
特徴によって検索対象とする音源コードブックを変化さ
せることによって、符号化音声の音質の向上を図ってい
る。
【0059】本発明では使用音源の選択は、入力音声の
音響的特徴を分析し分類を行う音響分類部31と、検索
対象とする音源コードブックを選択する検索コードブッ
ク選択部34、使用する音源コードブックを選択する使
用音源選択部35によって行う。本実施例では、検索対
象コードブックを検索コードブック選択部34で複数選
択し、使用音源選択部35が一つのコードブックを使用
音源として選択する方法であるが、検索コードブック選
択部34と使用音源選択部35それぞれの選択方法を組
み合わせることによって本実施例の他にもいくつかの使
用音源選択法が考えられる。検索コードブックの選択で
は、全コードブックあるいは一部のコードブックを複数
選択する方法や、各コードブックのサブセットを検索コ
ードブックの中に含める含める方法も考えられる。また
音響分類部などの出力結果によってトップダウン式に検
索コードブックを一つに限定する方法も考えられ、この
場合は選択コードブック選択部が使用音源選択部を兼ね
ており、検索コードブックの選択結果が自動的に使用音
源指標となる。また検索音源の選択評価方法では、フレ
ームあるいはサブフレーム等の単位で行った音響分類の
結果で選択を行う方法や、前フレームまでの符号化を行
った結果から選択を行う方法、それらを組み合わせて選
択を行う方法などが考えられる。使用音源の選択では、
複数コードブックの検索結果からボトムアップ式に使用
音源を選択する方法や、複数コードブックの検索結果に
音響分類部などの結果を考慮して選択する方法などが考
えられる。
音響的特徴を分析し分類を行う音響分類部31と、検索
対象とする音源コードブックを選択する検索コードブッ
ク選択部34、使用する音源コードブックを選択する使
用音源選択部35によって行う。本実施例では、検索対
象コードブックを検索コードブック選択部34で複数選
択し、使用音源選択部35が一つのコードブックを使用
音源として選択する方法であるが、検索コードブック選
択部34と使用音源選択部35それぞれの選択方法を組
み合わせることによって本実施例の他にもいくつかの使
用音源選択法が考えられる。検索コードブックの選択で
は、全コードブックあるいは一部のコードブックを複数
選択する方法や、各コードブックのサブセットを検索コ
ードブックの中に含める含める方法も考えられる。また
音響分類部などの出力結果によってトップダウン式に検
索コードブックを一つに限定する方法も考えられ、この
場合は選択コードブック選択部が使用音源選択部を兼ね
ており、検索コードブックの選択結果が自動的に使用音
源指標となる。また検索音源の選択評価方法では、フレ
ームあるいはサブフレーム等の単位で行った音響分類の
結果で選択を行う方法や、前フレームまでの符号化を行
った結果から選択を行う方法、それらを組み合わせて選
択を行う方法などが考えられる。使用音源の選択では、
複数コードブックの検索結果からボトムアップ式に使用
音源を選択する方法や、複数コードブックの検索結果に
音響分類部などの結果を考慮して選択する方法などが考
えられる。
【0060】パルス音源は、基本的には周期パルス列の
一部(サブフレーム長分)を取りだしたものである。し
かし、先頭パルス位置は図6に示すように、パルス間隔
によらずサブフレームの最初のサンプルから最後のサン
プルまで取りうるようにしている。これは低ビットレー
ト化にともないサブフレーム長が長くなることによっ
て、長期予測ベクトルではカバーしきれない、音声の立
上りの特徴をパルス音源により再現するためである。ま
た、パルス間隔は長期予測ラグの検索範囲と同様に、人
間の発声のピッチ周期の変動範囲をほぼカバーする程度
にするのが良い。本実施例では最小パルス間隔をLmi
n=20、最大パルス間隔をLmax=146としてい
る。
一部(サブフレーム長分)を取りだしたものである。し
かし、先頭パルス位置は図6に示すように、パルス間隔
によらずサブフレームの最初のサンプルから最後のサン
プルまで取りうるようにしている。これは低ビットレー
ト化にともないサブフレーム長が長くなることによっ
て、長期予測ベクトルではカバーしきれない、音声の立
上りの特徴をパルス音源により再現するためである。ま
た、パルス間隔は長期予測ラグの検索範囲と同様に、人
間の発声のピッチ周期の変動範囲をほぼカバーする程度
にするのが良い。本実施例では最小パルス間隔をLmi
n=20、最大パルス間隔をLmax=146としてい
る。
【0061】パルス情報コードブック38には、図7に
示すようにパルス間隔と先頭パルス位置が格納されてい
る。図6から分かるように、パルス間隔をL、サブフレ
ーム長をNとしたとき(本実施例ではN=80)、L≧
Nの場合はサブフレーム内のパルス数は1本である。L
<Nの場合は、先頭パルス位置によって1本または2本
以上となる。1本の場合は、L≧Nの場合と重複するの
で、パルス情報コードブックにはパルス列の重複が生じ
ないようにパルス間隔と先頭パルス位置を配置する。す
なわち、L<Nの場合は、先頭パルス位置はサブフレー
ム内に2本以上のパルスが存在するような範囲とし、L
≧Nについては、L=Nで代表させ、先頭パルス位置は
0からN−1とする。本実施例ではN=80、Lmin
=20としているので、重複のないパルス列の種類は1
910通りとなるが、先頭パルス位置を2サンプル毎に
することによって、パルス列の種類は1010種類とな
り、10ビットで表現できる。これは送出ビット数削減
を目的としたものだが、実験の結果、復号音声88の劣
化は少なく、音声符号化部の性能上問題はない。
示すようにパルス間隔と先頭パルス位置が格納されてい
る。図6から分かるように、パルス間隔をL、サブフレ
ーム長をNとしたとき(本実施例ではN=80)、L≧
Nの場合はサブフレーム内のパルス数は1本である。L
<Nの場合は、先頭パルス位置によって1本または2本
以上となる。1本の場合は、L≧Nの場合と重複するの
で、パルス情報コードブックにはパルス列の重複が生じ
ないようにパルス間隔と先頭パルス位置を配置する。す
なわち、L<Nの場合は、先頭パルス位置はサブフレー
ム内に2本以上のパルスが存在するような範囲とし、L
≧Nについては、L=Nで代表させ、先頭パルス位置は
0からN−1とする。本実施例ではN=80、Lmin
=20としているので、重複のないパルス列の種類は1
910通りとなるが、先頭パルス位置を2サンプル毎に
することによって、パルス列の種類は1010種類とな
り、10ビットで表現できる。これは送出ビット数削減
を目的としたものだが、実験の結果、復号音声88の劣
化は少なく、音声符号化部の性能上問題はない。
【0062】パルス発生部40では、パルス情報コード
ブック38から読みだされたパルス間隔と先頭パルス位
置の情報39に基づき、図8に示すようなパルスを生成
する。パルスの振幅は1、パルスの存在しないサンプル
の振幅は0とする。
ブック38から読みだされたパルス間隔と先頭パルス位
置の情報39に基づき、図8に示すようなパルスを生成
する。パルスの振幅は1、パルスの存在しないサンプル
の振幅は0とする。
【0063】以上はパルス情報コードブック38とパル
ス発生部40によってパルス音源ベクトル41を生成す
る場合であるが、全てのパルス音源ベクトルをコードブ
ックに格納しておくことももちろん可能である。ただし
その場合は、パルス生成の処理が省略できる反面、コー
ドブックの記憶容量は、パルス情報コードブック38で
は1ベクトルあたりパルス間隔と先頭パルス位置の2ワ
ードで済んでいたのに対し、Nワード必要になる。
ス発生部40によってパルス音源ベクトル41を生成す
る場合であるが、全てのパルス音源ベクトルをコードブ
ックに格納しておくことももちろん可能である。ただし
その場合は、パルス生成の処理が省略できる反面、コー
ドブックの記憶容量は、パルス情報コードブック38で
は1ベクトルあたりパルス間隔と先頭パルス位置の2ワ
ードで済んでいたのに対し、Nワード必要になる。
【0064】次にパルス音源の検索について説明する。
【0065】まず、適応コードブック検索の結果出力さ
れた最適な長期予測ベクトル58をbL(n)、その重み付
けられた信号(bL(n)の零状態応答)28をb'L(n)、
利得をβとする。また、過去の影響を取り除いた重み付
け入力音声24をp(n)とする。ここで次式のようにp'
(n)を定義する。
れた最適な長期予測ベクトル58をbL(n)、その重み付
けられた信号(bL(n)の零状態応答)28をb'L(n)、
利得をβとする。また、過去の影響を取り除いた重み付
け入力音声24をp(n)とする。ここで次式のようにp'
(n)を定義する。
【0066】
【数3】
【0067】これは理想的な合成音声から長期予測ベク
トルの寄与分を差し引いた成分を表しており、パルス音
源によってカバーしようとする成分である。
トルの寄与分を差し引いた成分を表しており、パルス音
源によってカバーしようとする成分である。
【0068】生成したパルス音源をfi(n)、その重み付
け合成音声をf'i(n)とすると、誤差E、
け合成音声をf'i(n)とすると、誤差E、
【0069】
【数4】
【0070】を最小化するようなf'i(n)を求めればよ
い。ここでγiは利得、iはパルス情報コードブックの
指標(インデクス)を表す。
い。ここでγiは利得、iはパルス情報コードブックの
指標(インデクス)を表す。
【0071】(数4)をγで偏微分して0とおくと、誤
差Eを最小化するγiは
差Eを最小化するγiは
【0072】
【数5】
【0073】となり、この時のEは
【0074】
【数6】
【0075】となる。ここで(数6)の右辺第1項は
f'i(n)によらず正の一定値となるので、右辺第2項を
最大化するf'i(n)、すなわちパルス音源fi(n)を求め
ることに帰着する。
f'i(n)によらず正の一定値となるので、右辺第2項を
最大化するf'i(n)、すなわちパルス音源fi(n)を求め
ることに帰着する。
【0076】以上の処理は、基本的には従来のCELP
における統計コードブック検索と同じであり、処理量の
大きな部分である。本発明では、パルス音源の特徴を利
用し、次数を打ち切ったインパルス応答を用いること
で、検索の処理量を大幅に低減している。
における統計コードブック検索と同じであり、処理量の
大きな部分である。本発明では、パルス音源の特徴を利
用し、次数を打ち切ったインパルス応答を用いること
で、検索の処理量を大幅に低減している。
【0077】一般にインパルス応答の畳み込みにより音
声を合成する場合、インパルス応答の次数打切りは誤差
の原因となる。しかし、(数2)で表される重み付け合
成フィルタのインパルス応答は図9に示すように、重み
付けなしのインパルス応答に比べて減衰が急峻であり、
次数打切りの影響は小さい。打切り次数を20次(2.
5ms)位に設定すれば、ほとんどの場合打切りによる
影響は無視できる。そこで本発明では、打切り次数をパ
ルス音源の最小パルス間隔であるLmin(20サンプ
ル)にする。
声を合成する場合、インパルス応答の次数打切りは誤差
の原因となる。しかし、(数2)で表される重み付け合
成フィルタのインパルス応答は図9に示すように、重み
付けなしのインパルス応答に比べて減衰が急峻であり、
次数打切りの影響は小さい。打切り次数を20次(2.
5ms)位に設定すれば、ほとんどの場合打切りによる
影響は無視できる。そこで本発明では、打切り次数をパ
ルス音源の最小パルス間隔であるLmin(20サンプ
ル)にする。
【0078】ここでCi、Giを次式のように定義する。
【0079】
【数7】
【0080】Ciはp'(n)とf'i(n)の相互相関であり、
またGiはf'i(n)のパワーであるので、本来ならばf'i
(n)が変わるごとに(指標iを更新するごとに)計算し
なおす必要がある。一方、p'(n)(0≦n≦N−1、N
はサブフレームのサンプル数)とインパルス応答h(n)
はあるサブフレームでは一定である。ここで次数をLm
inで打ち切ったインパルス応答をh'(n)(0≦n≦L
min)とし、次式で表されるaj(0≦j≦N−1)
をあらかじめ計算しておく。
またGiはf'i(n)のパワーであるので、本来ならばf'i
(n)が変わるごとに(指標iを更新するごとに)計算し
なおす必要がある。一方、p'(n)(0≦n≦N−1、N
はサブフレームのサンプル数)とインパルス応答h(n)
はあるサブフレームでは一定である。ここで次数をLm
inで打ち切ったインパルス応答をh'(n)(0≦n≦L
min)とし、次式で表されるaj(0≦j≦N−1)
をあらかじめ計算しておく。
【0081】
【数8】
【0082】ajは図10に示すように、h'(n)の位置
を1サンプルずつシフトしたときの、h'(n)に対応する
p'(n)の部分との相互相関を示してしている。
を1サンプルずつシフトしたときの、h'(n)に対応する
p'(n)の部分との相互相関を示してしている。
【0083】h'(n)はLminで打ちきられているの
で、検索対象のいかなるパルス音源に対してもパルス間
でのオーバラップが生じない。したがって、(数7)の
Ciを求めるには、例えば図11に示すように、パルス
音源fi(n)のパルス位置がP1、P2、P3だったとす
ると、あらかじめ計算してあるajのうち、aP1と
aP2、aP3の和を計算すれば良いことになる。よって、
f'i(n)が変わるごとに行うべきインパルス応答の畳み
込みの計算が、あらかじめサブフレームに1回計算して
ある部分相互相関の和に置き換えられることにより、処
理量の大幅な低減が可能となった。
で、検索対象のいかなるパルス音源に対してもパルス間
でのオーバラップが生じない。したがって、(数7)の
Ciを求めるには、例えば図11に示すように、パルス
音源fi(n)のパルス位置がP1、P2、P3だったとす
ると、あらかじめ計算してあるajのうち、aP1と
aP2、aP3の和を計算すれば良いことになる。よって、
f'i(n)が変わるごとに行うべきインパルス応答の畳み
込みの計算が、あらかじめサブフレームに1回計算して
ある部分相互相関の和に置き換えられることにより、処
理量の大幅な低減が可能となった。
【0084】同様な手法が(数7)のGiについても適
用できる。すなわち、あらかじめ次式で定義されるgj
を計算しておく。
用できる。すなわち、あらかじめ次式で定義されるgj
を計算しておく。
【0085】
【数9】
【0086】なお、(数9)の示すとおり、0≦j≦N
−Lminの場合はgjの値は一定になるので、g0のみ
計算しておけば良い。Giの計算もCiの場合と同様に、
fi(n)のパルス位置に対応したgjの和を求めることに
よって実現できる。
−Lminの場合はgjの値は一定になるので、g0のみ
計算しておけば良い。Giの計算もCiの場合と同様に、
fi(n)のパルス位置に対応したgjの和を求めることに
よって実現できる。
【0087】なお、この様にして最適な(Ci 2/Giを
最大化する)パルス音源fi(n)が求まったら、次数打切
りをしないインパルス応答h(n)を用いることにより、
fi(n)の厳密な重み付け信号f'i(n)を計算しておく。
最大化する)パルス音源fi(n)が求まったら、次数打切
りをしないインパルス応答h(n)を用いることにより、
fi(n)の厳密な重み付け信号f'i(n)を計算しておく。
【0088】パルスコードブックを用いる従来の方法
(前述の吉田等の文献、及び、田中等の文献)ではパル
ス間隔は長期予測ラグ、または、ピッチ抽出をして求め
たピッチ周期としている。そのため、入力音声の周期性
の低い部分ではパルス音源を使用すると音質が劣化して
いた。本発明では、可能な組合せのパルス音源の全検索
を行っているため、この様な部分でも長期予測ベクトル
を補完し、良好な音質が得られる。
(前述の吉田等の文献、及び、田中等の文献)ではパル
ス間隔は長期予測ラグ、または、ピッチ抽出をして求め
たピッチ周期としている。そのため、入力音声の周期性
の低い部分ではパルス音源を使用すると音質が劣化して
いた。本発明では、可能な組合せのパルス音源の全検索
を行っているため、この様な部分でも長期予測ベクトル
を補完し、良好な音質が得られる。
【0089】本実施例では、雑音音源として少数の基底
ベクトルの2値の荷重付き線形結合を用いており、雑音
音源の検索は、少数の基底ベクトルの2値の荷重付き線
形結合の荷重値の組合せを検索することによって行って
いる。この方法はRCR規格のフルレート音声符号化方
法に用いられている方法であり、処理量と必要メモリー
量の点で大きな改良がされている。実際の処理の手順に
関してはRCR規格書を参照されたい。
ベクトルの2値の荷重付き線形結合を用いており、雑音
音源の検索は、少数の基底ベクトルの2値の荷重付き線
形結合の荷重値の組合せを検索することによって行って
いる。この方法はRCR規格のフルレート音声符号化方
法に用いられている方法であり、処理量と必要メモリー
量の点で大きな改良がされている。実際の処理の手順に
関してはRCR規格書を参照されたい。
【0090】音声符号化部における最終段の処理は利得
の最適化と量子化である。利得最適化・量子化部51
に、厳密に重み付けられた(次数打切りのないインパル
ス応答の畳み込みによって求められた)長期予測ベクト
ルb'L(n)28と音源ベクトルf'i(n)50、及び、過去
の影響を取り除かれた重み付け入力音声p(n)24が入
力される。ここで改めて利得をβ、γとすると、次式の
重み付け誤差Eを最小化するようにβとγを決定する。
の最適化と量子化である。利得最適化・量子化部51
に、厳密に重み付けられた(次数打切りのないインパル
ス応答の畳み込みによって求められた)長期予測ベクト
ルb'L(n)28と音源ベクトルf'i(n)50、及び、過去
の影響を取り除かれた重み付け入力音声p(n)24が入
力される。ここで改めて利得をβ、γとすると、次式の
重み付け誤差Eを最小化するようにβとγを決定する。
【0091】
【数10】
【0092】具体的には、(数10)をβとγで偏微分
して0とおいてできる連立方程式を解くことによる。
して0とおいてできる連立方程式を解くことによる。
【0093】利得の量子化は、βとγを直接スカラー量
子化したり、別の変数に変換後スカラー量子化あるいは
ベクトル量子化するなどの方法がある。本実施例では後
者の方法によりスカラー量子化する。
子化したり、別の変数に変換後スカラー量子化あるいは
ベクトル量子化するなどの方法がある。本実施例では後
者の方法によりスカラー量子化する。
【0094】β及びγの量子化値をβq53、γq54と
すると、それぞれを重み付けられていない長期予測ベク
トル50と音源ベクトル50に乗じ、駆動音源55を作
製する。この駆動音源55は、適応コードブック26の
更新に用いられる。
すると、それぞれを重み付けられていない長期予測ベク
トル50と音源ベクトル50に乗じ、駆動音源55を作
製する。この駆動音源55は、適応コードブック26の
更新に用いられる。
【0095】次に図2に戻り、本実施例の音声復号化部
について説明する。
について説明する。
【0096】受信データ61は、多重分離部62におい
て、短期予測パラメータ量子化指標67、長期予測ラグ
指標63、使用音源指標65、音源情報コードブック指
標64、利得量子化指標66に多重分離される。
て、短期予測パラメータ量子化指標67、長期予測ラグ
指標63、使用音源指標65、音源情報コードブック指
標64、利得量子化指標66に多重分離される。
【0097】復号化処理の第1段階は、各パラメータ値
の復号化である。短期予測パラメータの指標67に基づ
いて、短期予測パラメータ量子化コードブック81から
短期予測パラメータ値82が復号される。同様に適応コ
ードブック68では、長期予測ラグ指標63に基づいて
長期予測ベクトル69を復号する。利得コードブック7
8では、利得量子化指標66に基づいて量子化利得7
9、80を復号する。パルス音源では、音源情報コード
ブック指標64に基づいて、パルス情報コードブック7
1からパルス間隔と先頭パルス位置の情報72が読みだ
され、パルス生成部73によってパルス音源ベクトル
(パルス列)74が復号される。雑音音源では、音源情
報コードブック指標64に基づいて、雑音情報コードブ
ック75によって、基底ベクトルを2値の荷重付き線形
結合を行った雑音音源ベクトル76が出力される。次
に、使用音源指標65に基づいて使用音源選択部70が
使用音源を選択し、音源ベクトル77を出力する。
の復号化である。短期予測パラメータの指標67に基づ
いて、短期予測パラメータ量子化コードブック81から
短期予測パラメータ値82が復号される。同様に適応コ
ードブック68では、長期予測ラグ指標63に基づいて
長期予測ベクトル69を復号する。利得コードブック7
8では、利得量子化指標66に基づいて量子化利得7
9、80を復号する。パルス音源では、音源情報コード
ブック指標64に基づいて、パルス情報コードブック7
1からパルス間隔と先頭パルス位置の情報72が読みだ
され、パルス生成部73によってパルス音源ベクトル
(パルス列)74が復号される。雑音音源では、音源情
報コードブック指標64に基づいて、雑音情報コードブ
ック75によって、基底ベクトルを2値の荷重付き線形
結合を行った雑音音源ベクトル76が出力される。次
に、使用音源指標65に基づいて使用音源選択部70が
使用音源を選択し、音源ベクトル77を出力する。
【0098】復号化処理の第2段階は、駆動音源の生成
である。適応コードブック68から長期予測ラグ指標6
3に対応して読みだされた長期予測ベクトル69と、音
源ベクトル77のそれぞれに、利得79、80が乗ぜら
れ、加算されて駆動音源84が生成される。駆動音源8
4は合成フィルタ85に入力されるとともに、適応コー
ドブック68の状態更新にも用いられる。
である。適応コードブック68から長期予測ラグ指標6
3に対応して読みだされた長期予測ベクトル69と、音
源ベクトル77のそれぞれに、利得79、80が乗ぜら
れ、加算されて駆動音源84が生成される。駆動音源8
4は合成フィルタ85に入力されるとともに、適応コー
ドブック68の状態更新にも用いられる。
【0099】復号化処理の最後の段階は、音声合成であ
る。合成フィルタ85では、復号された短期予測パラメ
ータ82をフィルタ係数とし、駆動音源84を入力する
ことによってディジタル合成音声86を合成出力する。
さらに、主観的音質を高めるために、合成フィルタ85
の出力86をポストフィルタ87に通し、その出力であ
る最終的なディジタル合成音声88を得る。これはバッ
ファメモリを介して連続的にDA変換器に送られ、アナ
ログ合成音声に変換される。
る。合成フィルタ85では、復号された短期予測パラメ
ータ82をフィルタ係数とし、駆動音源84を入力する
ことによってディジタル合成音声86を合成出力する。
さらに、主観的音質を高めるために、合成フィルタ85
の出力86をポストフィルタ87に通し、その出力であ
る最終的なディジタル合成音声88を得る。これはバッ
ファメモリを介して連続的にDA変換器に送られ、アナ
ログ合成音声に変換される。
【0100】以上で、本発明の実施例の音声入力から符
号化、復号化、音声出力までの動作を説明した。以上の
説明では、音声のフレームエネルギー(パワー)には特
に言及しなかった。これはフレームエネルギーは駆動音
源の利得に反映されているためであるが、利得の量子化
を考慮すると、利得のダイナミックレンジを抑えるため
にあらかじめフレームエネルギーで正規化しておく方が
有利である。フレームエネルギーは線形予測パラメータ
の計算時に容易に求められるので、フレームエネルギー
は別途量子化して、その指標を伝送する。また、長期予
測分析の際に、適応コードブックを補間あるいは長期予
測評価関数を補間し、サブサンプル単位での長期予測を
行うフラクショナルピッチを用いることによって符号化
音声、特に女声など周期が比較的短い音声の品質を向上
させることができる。また長期予測で、適応コードブッ
クや長期予測ベクトルを波形的に伸縮させ、周期成分の
時間的な変化に対応することによって符号化音声の品質
が向上する。これらの処理を行う場合には、復号化部に
フラクショナルピッチあるいは波形伸縮の処理の有無の
情報を送らなければならない。
号化、復号化、音声出力までの動作を説明した。以上の
説明では、音声のフレームエネルギー(パワー)には特
に言及しなかった。これはフレームエネルギーは駆動音
源の利得に反映されているためであるが、利得の量子化
を考慮すると、利得のダイナミックレンジを抑えるため
にあらかじめフレームエネルギーで正規化しておく方が
有利である。フレームエネルギーは線形予測パラメータ
の計算時に容易に求められるので、フレームエネルギー
は別途量子化して、その指標を伝送する。また、長期予
測分析の際に、適応コードブックを補間あるいは長期予
測評価関数を補間し、サブサンプル単位での長期予測を
行うフラクショナルピッチを用いることによって符号化
音声、特に女声など周期が比較的短い音声の品質を向上
させることができる。また長期予測で、適応コードブッ
クや長期予測ベクトルを波形的に伸縮させ、周期成分の
時間的な変化に対応することによって符号化音声の品質
が向上する。これらの処理を行う場合には、復号化部に
フラクショナルピッチあるいは波形伸縮の処理の有無の
情報を送らなければならない。
【0101】このようにした場合のビット割当ての例を
次に示す。
次に示す。
【0102】標本化周波数を8kHz、フレーム長を4
0ms(320サンプル)、サブフレーム長を10ms
(80サンプル)とする。フレームエネルギーと線形予
測パラメータはフレーム単位で更新し、他のパラメータ
はサブフレーム単位で更新するものとする。なお、フレ
ームエネルギーと線形予測パラメータは、サブフレーム
単位で補間して用いた方が、合成音声の品質向上に有効
である。量子化は27ビットの多段ベクトル量子化を行
うとすれば、線形予測パラメータの量子化指標は27ビ
ットとなる。フレームエネルギーは5ビットでスカラー
量子化する。よって、フレーム当りの伝送ビット数は3
2ビットである。
0ms(320サンプル)、サブフレーム長を10ms
(80サンプル)とする。フレームエネルギーと線形予
測パラメータはフレーム単位で更新し、他のパラメータ
はサブフレーム単位で更新するものとする。なお、フレ
ームエネルギーと線形予測パラメータは、サブフレーム
単位で補間して用いた方が、合成音声の品質向上に有効
である。量子化は27ビットの多段ベクトル量子化を行
うとすれば、線形予測パラメータの量子化指標は27ビ
ットとなる。フレームエネルギーは5ビットでスカラー
量子化する。よって、フレーム当りの伝送ビット数は3
2ビットである。
【0103】サブフレーム単位のパラメータは、長期予
測ラグの指標が7ビットで、これは長期予測ラグの範囲
が19サンプル(421Hz)から146サンプル(5
5Hz)に対応する。音源を2種類用いるとすると音源
切替指標は1ビットである。パルスおよび雑音情報コー
ドブックのコードブックサイズを10ビット(1010
コードベクトル)とすればコードベクトル指標は10ビ
ットである。利得は、長期予測ベクトルに対するものと
統計コードベクトルに対するものを別のパラメータに変
換した上、ベクトル量子化して8ビットで表す。よっ
て、サブフレーム当りの伝送ビット数は25ビットとな
る。以上により、トータルビットレートは3300bp
sとなる。
測ラグの指標が7ビットで、これは長期予測ラグの範囲
が19サンプル(421Hz)から146サンプル(5
5Hz)に対応する。音源を2種類用いるとすると音源
切替指標は1ビットである。パルスおよび雑音情報コー
ドブックのコードブックサイズを10ビット(1010
コードベクトル)とすればコードベクトル指標は10ビ
ットである。利得は、長期予測ベクトルに対するものと
統計コードベクトルに対するものを別のパラメータに変
換した上、ベクトル量子化して8ビットで表す。よっ
て、サブフレーム当りの伝送ビット数は25ビットとな
る。以上により、トータルビットレートは3300bp
sとなる。
【0104】以上説明したように、本発明の実施例で
は、低ビットレート化しても周期成分の再現性が向上
し、高品質化が図れる。また、次数を打ち切ったインパ
ルス応答の組合せによる音源コードブック検索により、
処理量を従来のCELPに比べ低減することができる。
は、低ビットレート化しても周期成分の再現性が向上
し、高品質化が図れる。また、次数を打ち切ったインパ
ルス応答の組合せによる音源コードブック検索により、
処理量を従来のCELPに比べ低減することができる。
【0105】
【発明の効果】本発明によれば、CELP符号化方法を
低ビットレート化したときに問題となる周期成分の再現
性が改善され、また雑音音源との併用を行うため、4k
bps以下のビットレートでも良好な音声品質の音声符
号器を提供できる。また、パルス音源の検索処理量を低
減できるので、低処理量の音声符号器を提供できる。
低ビットレート化したときに問題となる周期成分の再現
性が改善され、また雑音音源との併用を行うため、4k
bps以下のビットレートでも良好な音声品質の音声符
号器を提供できる。また、パルス音源の検索処理量を低
減できるので、低処理量の音声符号器を提供できる。
【図1】本発明の第1の実施例の符号化部のブロック
図。
図。
【図2】本発明の第1の実施例の復号化部のブロック
図。
図。
【図3】従来のCELP符号器の原理説明図。
【図4】従来のCELP復号器の原理説明図。
【図5】音声波形と残差波形の対応図。
【図6】パルス音源の例。
【図7】パルス情報コードブックの構成。
【図8】パルス音源ベクトル発生の原理説明図。
【図9】重み付けの有無によるインパルス応答波形の比
較。
較。
【図10】部分相互相関計算法の説明図。
【図11】簡略化畳み込み演算の説明図。
12…線形予測分析部、14…線形予測パラメータ量子
化部、15,81…線形予測パラメータ量子化コードブ
ック、19…聴覚重み付けフィルタ、21…重み付け合
成フィルタ、25…適応コードブック検索部、26,6
8…適応コードブック、31…音響分類部、34…検索
コードブック検索部、35,70…使用音源選択部、3
6…パルス音源検索部、40,73…パルス発生部、3
8,71…パルス情報コードブック、37…雑音音源検
索部、42,75…雑音情報コードブック、51…利得
最適化・量子化部、59,78…利得コードブック、8
5…合成フィルタ、87…ポストフィルタ。
化部、15,81…線形予測パラメータ量子化コードブ
ック、19…聴覚重み付けフィルタ、21…重み付け合
成フィルタ、25…適応コードブック検索部、26,6
8…適応コードブック、31…音響分類部、34…検索
コードブック検索部、35,70…使用音源選択部、3
6…パルス音源検索部、40,73…パルス発生部、3
8,71…パルス情報コードブック、37…雑音音源検
索部、42,75…雑音情報コードブック、51…利得
最適化・量子化部、59,78…利得コードブック、8
5…合成フィルタ、87…ポストフィルタ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 石川 敦義 東京都小平市上水本町五丁目20番1号 株 式会社日立製作所半導体設計開発センタ内
Claims (8)
- 【請求項1】入力音声信号を予め定めた時間長のフレー
ムに分割し、前記音声信号のスペクトル包絡を示すスペ
クトルパラメータを求めて出力し、前記フレームを予め
定められた時間長のサブフレームに分割し、過去の音源
から前記音声信号との誤差が最小になるよう長期予測パ
ラメータを求めて出力し、前記サブフレームごとに駆動
音源として予め用意されたコードブックの中から最適な
コードベクトルを選択するCELP音声符号化方法にお
いて、前記コードブックは複数個のコードブックからな
り、前記複数個のコードブックの少なくとも一つは雑音
成分であり、少なくとも一つは一定振幅で等間隔のパル
ス成分であることを特徴とする、音声符号化方法。 - 【請求項2】前記コードベクトルの選択は、前記音声信
号の音響的分析の結果によって検索処理を行うコードブ
ックを前記複数個のコードブックの中から選択し、各検
索処理対象コードブックで選択されたコードベクトルの
中から最適なコードブックを選択することによって行う
ことを特徴とする、請求項1記載の音声符号化方法。 - 【請求項3】前記検索コードブックの選択は、前記複数
コードブックの各コードブックの全体あるいは各コード
ブックの一部を検索処理対象コードブックとすることを
特徴とする、請求項1から請求項2記載の音声符号化方
法。 - 【請求項4】前記パルス成分のコードブックは、パルス
列の情報として先頭パルスの位置とパルス間隔の情報を
格納しており、前記パルス列のコードベクトルは、前記
情報から生成されることを特徴とする、請求項1から請
求項3記載の音声符号化方法。 - 【請求項5】前記パルス成分の最適なコードベクトルの
選択は、前記コードブックの全探索によることを特徴と
する、請求項1記載から請求項4記載の音声符号化方
法。 - 【請求項6】前記パルス列の間隔は、人間の発声のピッ
チ周期の変動範囲をほぼカバーする範囲であることを特
徴とする、請求項1記載から請求項5記載の音声符号化
方法。 - 【請求項7】前記パルス列の前記サブフレームにおける
先頭パルス位置は、前記パルス間隔によらず、前記サブ
フレームの先頭から最終点まで取りうることを特徴とす
る、請求項1から請求項6記載の音声符号化方法。 - 【請求項8】前記パルス成分のコードベクトルの選択
は、長さを前記パルス列の間隔の最小値以下に打ち切っ
た、重み付け合成フィルタのインパルス応答の組合せに
基づいて行われることを特徴とする、請求項1から請求
項7記載の音声符号化方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP34590292A JP3232728B2 (ja) | 1992-12-25 | 1992-12-25 | 音声符号化方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP34590292A JP3232728B2 (ja) | 1992-12-25 | 1992-12-25 | 音声符号化方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH06195098A true JPH06195098A (ja) | 1994-07-15 |
| JP3232728B2 JP3232728B2 (ja) | 2001-11-26 |
Family
ID=18379772
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP34590292A Expired - Fee Related JP3232728B2 (ja) | 1992-12-25 | 1992-12-25 | 音声符号化方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3232728B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR960042522A (ko) * | 1995-05-30 | 1996-12-21 | 다까노 야스아끼 | 음성 부호화 장치 |
| WO2012008330A1 (ja) * | 2010-07-16 | 2012-01-19 | 日本電信電話株式会社 | 符号化装置、復号装置、これらの方法、プログラム及び記録媒体 |
-
1992
- 1992-12-25 JP JP34590292A patent/JP3232728B2/ja not_active Expired - Fee Related
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR960042522A (ko) * | 1995-05-30 | 1996-12-21 | 다까노 야스아끼 | 음성 부호화 장치 |
| WO2012008330A1 (ja) * | 2010-07-16 | 2012-01-19 | 日本電信電話株式会社 | 符号化装置、復号装置、これらの方法、プログラム及び記録媒体 |
| JP5320508B2 (ja) * | 2010-07-16 | 2013-10-23 | 日本電信電話株式会社 | 符号化装置、復号装置、これらの方法、プログラム及び記録媒体 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3232728B2 (ja) | 2001-11-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR100873836B1 (ko) | Celp 트랜스코딩 | |
| KR100264863B1 (ko) | 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법 | |
| US6427135B1 (en) | Method for encoding speech wherein pitch periods are changed based upon input speech signal | |
| US7788105B2 (en) | Method and apparatus for coding or decoding wideband speech | |
| JP2004510174A (ja) | Celp型音声符号化装置用の利得量子化 | |
| JPH0353300A (ja) | 音声符号化装置 | |
| JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
| KR100499047B1 (ko) | 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법 | |
| JP3531780B2 (ja) | 音声符号化方法および復号化方法 | |
| JPH05265496A (ja) | 複数のコードブックを有する音声符号化方法 | |
| JP2003044099A (ja) | ピッチ周期探索範囲設定装置及びピッチ周期探索装置 | |
| JP3232701B2 (ja) | 音声符号化方法 | |
| JPWO2000063878A1 (ja) | 音声符号化装置、音声処理装置及び音声処理方法 | |
| JP3050978B2 (ja) | 音声符号化方法 | |
| JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
| JP3232728B2 (ja) | 音声符号化方法 | |
| KR0155798B1 (ko) | 음성신호 부호화 및 복호화 방법 | |
| JP3583945B2 (ja) | 音声符号化方法 | |
| JPH08234795A (ja) | 音声符号化装置 | |
| JPH0258100A (ja) | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 | |
| JP3292227B2 (ja) | 符号励振線形予測音声符号化方法及びその復号化方法 | |
| JPH11259098A (ja) | 音声符号化/復号化方法 | |
| JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
| JP3192051B2 (ja) | 音声符号化装置 | |
| JP2853170B2 (ja) | 音声符号化復号化方式 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |