JPH1020895A

JPH1020895A - 音声符号化装置および記録媒体

Info

Publication number: JPH1020895A
Application number: JP8171485A
Authority: JP
Inventors: Takuya Kawashima; 嶋拓也河
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-07-01
Filing date: 1996-07-01
Publication date: 1998-01-23

Abstract

(57)【要約】【課題】ディレイドディシジョン法を常時適用する場
合の処理量の増加を低減し、かつ聴感的に劣化の無い符
号化音声を得る。【解決手段】聴覚重み付け合成フィルタ１０８からの
合成音声と聴覚重み付けフィルタ１０３からの聴覚重み
付けされた入力音声との誤差が最小となる候補系列を各
コードブック１０５、１０６、１０７から選択するため
の評価情報を２乗誤差最小化制御手段１０９が出力し、
この評価情報をもとに、ディレイドディシジョン制御手
段１１０が、パワー分析器１０４からの音声信号レベル
や有音・無音情報によりそれ以降のディレイドディシ
ジョンの必要度を計算して実行するか否かの制御を行
う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、移動体通信に用い
られ、入力音声信号を一定区間のフレームに分割し、声
道情報と音源情報とに分離し、声道情報を線形予測パラ
メータ、音源情報を数種のコードブックにより表現する
音声符号化装置に関する。

【０００２】

【従来の技術】従来、この種の音声符号化装置として、
4 〜8kbps 程度のビットレートので符号化するＣＥＬＰ
(Code Excited Linear Prediction coding: 線形予測符
号化)方式がある。ＣＥＬＰ方式は、入力音声信号をあ
らかじめ定められた時間長の音声フレームに分割し、各
音声フレームを線形予測分析器により分析して線形予測
係数を算出し、この線形予測係数により構成される聴覚
重み付け合成フィルタを、コードブックから選択した音
源信号により励振することによって合成音声信号を得る
方法である。コードブックとしては、過去の音源信号を
蓄えておき、入力信号のピッチ周期に応じて切り出して
用いる適応コードブックと、あらかじめ学習により作成
した音源信号を格納していて、その中から音源信号とし
て最もふさわしいものを取り出して用いる雑音コードブ
ックとを有し、これらコードブックの線形和を音源信号
として聴覚重み付け合成フィルタに入力し、符号化音声
を得る。

【０００３】以下、図３を参照してこの種の音声符号化
装置について説明する。まず、ピッチ分析器３０１によ
り算出されたピッチ候補に応じて、適応コードブック３
０５に蓄えられた過去の音源信号から適応コードブック
候補を選択する。選択された適応コードブック候補と雑
音コードブック３０６の雑音コードブック候補との線形
和により表される駆動音源候補を生成し、この駆動音源
候補と線形予測分析器３０２により入力信号から算出さ
れた線形予測係数とから聴覚重み付け合成フィルタ３０
８により合成音声を得る。この合成音声と聴覚重み付け
フィルタ３０３を通した入力音声との誤差が最小となる
ように、２乗誤差最小化手段３０９によりコードブック
候補系列が選ばれる。ただし、聴覚重み付けされた入力
音声と聴覚重み付けされた合成音声との誤差を、各コー
ドブックの全組合せについて計算するには膨大な演算が
必要であるため、実際には各コードブックについて逐次
的に最適なコードブックを決定していく方法がとられ
る。上記構成例を用いて説明すると、まず第一段階とし
て適応コードブック３０５の候補を決定し、第二段階と
して、その候補に対して最適な組合せとなる雑音コード
ブック３０６の候補を選択し、最終段階として誤差が最
小となるゲインをゲインコードブック３０７で決定する
ことにより、コードブックの候補系列を決定している。
そして、これらコードブックからのインデックスと線形
予測係数とパワー分析器３０４からの入力音声のパワー
とをマルチプレクサ３１０で合成して符号化音声を出力
する。

【０００４】

【発明が解決しようとする課題】しかしながら、このよ
うな逐次的な選択方法では、最適なコードブックの組合
せを得ることは保証されないため、ＰＤＣハーフレート
音声符号化方式であるＰＳＩ−ＣＥＬＰ方式（ＲＣＲ−
２７Ｄ）のように、第一段階である適応コードブックの
候補を２候補残し、それぞれの候補に対して誤差が最小
となるように、雑音コードブック、ゲインコードブック
の候補が選択され、最終的に誤差が少ない適応コードブ
ック、雑音コードブック、ゲインコードブックの候補の
組が選択されるディレイドディシジョン法が適用されて
いるが、このような最終ステップにおいてそれぞれの候
補の組み合わせの誤差が最小となる候補系列を選択する
ディレイドディシジョン法を常時適用していたのでは、
通常第一段階に候補を決定する適応コードブックにおい
て、２種類の候補を残すだけでも処理量が大幅に増えて
しまうという問題点を有していた。

【０００５】本発明は、上記従来の問題を解決するもの
で、音声信号の音声レベルやコードベクトル決定時の評
価値等を用いて、サブフレーム毎にディレイドディシジ
ョンを実行するか否かを決定することにより、常にディ
レイドディシジョンを行う場合と比較して、処理量を効
果的に低減し、なおかつ聴感的に劣化の無い符号化音声
を得ることのできる音声符号化装置を提供することを目
的とする。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に本発明は、従来のＣＥＬＰ符号化装置に音声信号の音
声レベルや音源コードブック候補決定時の評価値から、
それ以後のディレイドディシジョンの必要度を計算して
実行するか否かの制御を行うディレイドディシジョン制
御手段を備えたものである。これにより、処理量を効果
的に低減し、なおかつ常にディレイドディシジョンを行
う場合と比較しても、聴感的に劣化の無い符号化音声を
得ることができる。

【０００７】

【発明の実施の形態】本発明の請求項１に記載の発明
は、入力音声信号を一定区間のフレームに分割し、声道
情報と音源情報とに分離し、声道情報を線形予測パラメ
ータ、音源情報を数種のコードブックにより表現する音
声符号化装置において、入力音声信号からピッチ候補を
算出するピッチ分析器と、入力音声信号から線形予測係
数を算出する線形予測分析器と、入力音声信号に対して
聴覚重み付けを行う聴覚重み付けフィルタと、入力音声
信号の音声レベルを求めるパワー分析器と、過去の音源
信号を蓄積してピッチ分析器からのピッチ候補に応じて
適応コードブック候補を選択する適応コードブックと、
あらかじめ学習により作成された音源信号を蓄積した雑
音コードブックと、適応コードブック候補および雑音コ
ードブック候補のゲインを選択するゲインコードブック
と、線形予測分析器からの線形予測係数と各コードブッ
ク候補の線形和とから合成音声を生成する聴覚重み付け
合成フィルタと、聴覚重み付け合成フィルタからの合成
音声と聴覚重み付けフィルタからの聴覚重み付けされた
入力音声との誤差が最小となる候補系列を各コードブッ
クから選択するための評価情報を出力する２乗誤差最小
化制御手段と、出力された評価情報をもとに適応コード
ブックおよび雑音コードブックからコードブック候補を
選択するとともに、その評価情報とパワー分析器からの
音声信号レベルや有音・無音情報により、それ以降のデ
ィレイドディシジョンの必要度を計算して実行するか否
かの制御を行うディレイドディシジョン制御手段とを備
えた音声符号化装置であり、常時ディレイドディシジョ
ンを行なう場合に比べ、処理量を削減しつつ、かつ音質
劣化の無い合成音声を得ることができる。

【０００８】また、請求項２に記載の発明は、請求項１
に記載の音声符号化装置を、信号処理プロセッサを用い
てソフトウェアで実現するためのプログラムを記憶させ
た記憶媒体であり、例えば、プログラムをＲＯＭや磁気
ディスク等に記憶させることにより、パーソナルコンピ
ュータ等の汎用信号処理装置上で、ソフトウェアにより
本発明の音声符号化装置を実現できるものである。

【０００９】以下、本発明の実施の形態について、図１
および図２を用いて説明する。（実施の形態）図１は本発明の形態における音声符号化
装置の構成を示すものであり、従来のＣＥＬＰ符号化装
置に、入力音声レベルや各コードブックにおける候補選
択時の評価値によりディレイドディシジョンの制御を行
なう構成を付加したものである。図１において、１０１
は入力音声からピッチ候補を算出するピッチ分析器、１
０２は入力音声から線形予測係数を算出する線形予測分
析器、１０３は入力音声に対して聴覚重み付けを行う聴
覚重み付けフィルタ、１０４は入力音声の音声レベルを
求めるパワー分析器、１０５は過去の音源信号を蓄積し
てピッチ分析器１０１からのピッチ候補に応じて適応コ
ードブック候補を選択する適応コードブック、１０６は
あらかじめ学習により作成された音源信号を蓄積した雑
音コードブック、１０７は適応コードブック候補および
雑音コードブック候補のゲインを選択するゲインコード
ブック、１０８は線形予測分析器１０２からの線形予測
係数と各コードブック候補の線形和とから合成音声を生
成する聴覚重み付け合成フィルタ、１０９は聴覚重み付
け合成フィルタ１０８からの合成音声と聴覚重み付けフ
ィルタ１０３からの聴覚重み付けされた入力音声との誤
差が最小となる候補系列を各コードブック１０５、１０
６、１０７から選択するための評価情報を出力する２乗
誤差最小化制御手段、１１０は出力された評価情報をも
とに適応コードブック１０５および雑音コードブック１
０６からコードブック候補を選択するとともに、その評
価情報とパワー分析器１０４からの音声信号レベルや有
音・無音情報により、それ以降のディレイドディシジョ
ンの必要度を計算して実行するか否かの制御を行うディ
レイドディシジョン制御手段、１１１は適応コードブッ
ク１０５、雑音コードブック１０６およびゲインコード
ブック１０７から選択された各コードブック候補と線形
予測分析器１０２からの線形予測係数とパワー分析器１
０４からの音声信号レベル情報を合成して符号化音声を
出力するマルチプレクサである。

【００１０】次に、上記のように構成された音声符号化
装置の動作を図２を参照しながら説明する。図１におい
て、入力音声は線形予測分析器１０２により線形予測係
数を算出し、この係数を用いて聴覚重み付け合成フィル
タ１０８を構成する。音源コードベクトルの出力は、聴
覚重み付け合成フィルタ１０８を通すことにより合成音
声が合成され、この合成音声と入力音声を聴覚重み付け
フィルタ１０３によって聴覚重み付けされたターゲット
ベクトルとの差が最小となるものが、２乗誤差最小化制
御手段１０９により選択される。具体的には、式（１）
に示す評価値を最小とする音源コードブックの候補が選
択される。Ｅ²＝｜ｔ−ｇ_c・Ｈ・ｃ_j｜² ・・・（１）ここで、ｔは入力音声を聴覚重み付けフィルタ１０３に
よって聴覚重み付けされたターゲットベクトル、ｇ_cは
ゲイン、ｃ_jは音源コードベクトル、ｊは音源コードベ
クトルインデクス、Ｈは聴覚重み付けフィルタを表す。
複数のコードブックから逐次的にコードベクトルを選択
するには、ターゲットベクトルｔから前段階で選択した
コードベクトルの値を減算するか、または選択しようと
するコードブックのコードベクトルを、前段階で選択し
たコードベクトルに対して直行化させてから選択する。
ＰＳＩ−ＣＥＬＰにおいては、適応コードブック候補を
選択する場合に、誤差Ｅ²が最小のもの２つを常に残
し、それぞれの候補に対して、雑音コードブック、ゲイ
ンコードブックの候補を選択し、最終的にＥ²が最小の
候補系列を一つ選択する。

【００１１】次に図２を用いて、ディレイドディシジョ
ン制御手段１１０における制御手順について説明する。
説明の簡単のため、音源コードブックは、適応コードブ
ック１０５、雑音コードブック１０６、ゲインコードブ
ック１０７により構成され、この順で候補が確定するも
のとする。また、適応コードブック１０５の候補を最大
２つ残すものとし、雑音コードブック１０６、ゲインコ
ードブック１０７は適応コードブック候補一つに対し、
唯一決定するものとする。まず、ステップ２０１で音声
レベルの判定を行なう。一般に音声レベルが小さい場合
には、聴感上影響が小さいため、高音質であることに固
執する必要が無い。これより、閾値をε _sとおくと、音
声レベルがε_sより大きい場合にはステップ２０４へ、
つまり適応コードブック候補を２つ残し、それ以外であ
る時には、ステップ２０２、つまり適応コードブック候
補を１つのみ残すものとする。ステップ２０２を選択し
た場合には、ステップ２０３で雑音コードブック候補、
ステップ２０８でゲインコードブックの候補をそれぞれ
一つずつ選択し、音源コードブック候補系列が決定す
る。

【００１２】次に、ステップ２０４を選択した場合の説
明をする。ステップ２０５において残された２つの適応
コードブック候補を選択する際に算出された選択評価値
を比較する。ここでは式（１）に示すＥ²を選択評価値
とし、この評価値が最小のものからが第一候補、第二候
補、・・・として選ばれるとする。この時、２つの候補
の選択評価値がある程度の差内である場合には、どちら
の候補が最終的に選択されるか判断できないため、ステ
ップ２０６で２候補とも選択するものとする。一方、２
つの候補の選択評価値がある程度差が大きい場合には、
第１候補の適応度が十分高いと考え、ステップ２０７で
適応コードブックの第一候補のみ残すものとする。ステ
ップ２０７の場合には、ステップ２０２で行った場合と
同様に雑音コードブック候補、ゲインコードブック候補
を一意に決定する。またステップ２０６の場合には、各
適応コードブック候補に対して、それぞれ雑音コードブ
ック候補、ゲインコードブック候補を一意に決定し、最
終的に誤差の少ない候補系列を選択するものとする。こ
のようにして、音声信号の音声レベルや音源コードブッ
ク候補決定時の評価値から、それ以後のディレイドディ
シジョンの必要度を計算して実行するか否かの制御を行
う。

【００１３】なお以上の説明では、ディレイドディシジ
ョン選択基準として音声レベル、適応コードブック候補
選択評価値を用いた例で説明したが、その他の音声パラ
メータを用いたり、ニューラルネットワークにより、あ
らかじめ音声パターンとディレイドディシジョン実行率
等を学習させておき、ニューラルネットワークにより制
御する方法を用いても同様の効果を期待できる。

【００１４】

【発明の効果】以上のように、本発明は、従来のＣＥＬ
Ｐ符号化装置にディレイドディシジョン制御手段を設け
ることにより、処理量を大幅に増やすことなく、音声品
質を向上させることができるという効果が得られる。

【図面の簡単な説明】

【図１】本発明の実施の形態における音声符号化装置の
ブロック図

【図２】本発明の実施の形態におけるディレイドディシ
ジョン制御手段の動作説明のためのフロー図

【図３】従来のＣＥＬＰ方式音声符号化装置のブロック
図

【符号の説明】

１０１ピッチ分析器１０２線形予測分析器１０３聴覚重み付けフィルタ１０４パワー分析器１０５適応コードブック１０６雑音コードブック１０７ゲインコードブック１０８聴覚重み付け合成フィルタ１０９自乗誤差最小化制御手段１１０ディレイドディシジョン制御手段１１１マルチプレクサ

Claims

【特許請求の範囲】

【請求項１】入力音声信号を一定区間のフレームに分
割し、声道情報と音源情報とに分離し、声道情報を線形
予測パラメータ、音源情報を数種のコードブックにより
表現する音声符号化装置において、入力音声信号からピ
ッチ候補を算出するピッチ分析器と、入力音声信号から
線形予測係数を算出する線形予測分析器と、入力音声信
号に対して聴覚重み付けを行う聴覚重み付けフィルタ
と、入力音声信号の音声レベルを求めるパワー分析器
と、過去の音源信号を蓄積してピッチ分析器からのピッ
チ候補に応じて適応コードブック候補を選択する適応コ
ードブックと、あらかじめ学習により作成された音源信
号を蓄積した雑音コードブックと、適応コードブック候
補および雑音コードブック候補のゲインを選択するゲイ
ンコードブックと、線形予測分析器からの線形予測係数
と各コードブック候補の線形和とから合成音声を生成す
る聴覚重み付け合成フィルタと、聴覚重み付け合成フィ
ルタからの合成音声と聴覚重み付けフィルタからの聴覚
重み付けされた入力音声との誤差が最小となる候補系列
を各コードブックから選択するための評価情報を出力す
る２乗誤差最小化制御手段と、出力された評価情報をも
とに適応コードブックおよび雑音コードブックからコー
ドブック候補を選択するとともに、その評価情報とパワ
ー分析器からの音声信号レベルや有音・無音情報によ
り、それ以降のディレイドディシジョンの必要度を計算
して実行するか否かの制御を行うディレイドディシジョ
ン制御手段とを備えた音声符号化装置。
【請求項２】請求項１記載の音声符号化装置を、信号処
理プロセッサを用いてソフトウェアで実現するためのプ
ログラムを記憶させた記憶媒体。