JPH11249696A - 音声符号化/復号化方法 - Google Patents

音声符号化/復号化方法

Info

Publication number
JPH11249696A
JPH11249696A JP10047248A JP4724898A JPH11249696A JP H11249696 A JPH11249696 A JP H11249696A JP 10047248 A JP10047248 A JP 10047248A JP 4724898 A JP4724898 A JP 4724898A JP H11249696 A JPH11249696 A JP H11249696A
Authority
JP
Japan
Prior art keywords
speech
parameter
pitch
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10047248A
Other languages
English (en)
Inventor
Ko Amada
皇 天田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10047248A priority Critical patent/JPH11249696A/ja
Publication of JPH11249696A publication Critical patent/JPH11249696A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】原音との一致性は多少失われるが聴覚的に自然
な低レート音声符号化方法を実現する。 【解決手段】入力音声をLPC分析部111と駆動信号
分析部112で分析して得られるLPC係数と駆動信号
を符号化する際、予測部141,142でLPC係数お
よび駆動信号の予測値を求め、評価部150においてL
PC係数および駆動信号の各々について分析値と予測値
の比較を行うことにより、予測値を復号音声の生成に用
いた場合の聴覚的な自然性に与える影響の度合を評価
し、この評価結果に基づきLPC係数、駆動信号の量子
化部121,122のうちビット配分部160で影響の
度合いがより大きい方を量子化する方により多くの量子
化ビットを配分させ、LPC係数量子化インデックス1
001と駆動信号量子化インデックス1002およびビ
ット配分情報1003を伝送する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声符号化方法およ
び音声復号化方法に係り、特にディジタル電話、ボイス
メモなどに用いられる低レートの音声符号化/復号化方
方法に関する。
【0002】
【従来の技術】近年、携帯電話やインターネットなどの
通信手段の発達によって、音声信号や楽音信号を少ない
情報量に圧縮して伝送または蓄積するための符号化技術
が盛んに研究されている。時間領域ではCELP(Code
Excited Linear Prediction)、周波数領域ではサブバン
ド符号化などの手法がある。
【0003】Code Excited Linear Prediction (M.R.Sc
hroeder and B.S.Atal, “Code Excited Linear Predic
tion(CELP):High Quality Speech at Very LoW Bit Rat
es,”Proc.ICASSP, pp.937-940,1985(文献1)、およ
びW.S.Kleijin,D.J.Krasinski et al.“Improved Speec
h Quality and Efficient Vector Quantization in SEL
P,” Proc.ICASSP,pp.155-158,1988(文献2))などに
記載されているCELP方式は、線形予測分析に基づく
符号化方式である。
【0004】CELP方式によると、入力音声信号は線
形予測分析によって音韻情報を表す線形予測係数と音の
高さ等を表す予測残差信号という二つのパラメータに分
解され、これらのパラメータが符号化される。線形予測
係数は、再帰型のディジタルフィルタで構成される合成
フィルタのフィルタ係数として用いられる。復号化側で
は、この合成フィルタに予測残差信号を入力することに
より、元の入力音声信号が得られる。
【0005】この場合、低レートで符号化するために
は、予測残差信号をできるだけ少ない情報で表す必要が
ある。CELP方式の特徴は、この予測残差信号の候補
である励振信号と呼ばれる信号を符号帳に何種類も格納
しておき、各励振信号を合成フィルタに通して生成され
る合成音声信号と入力音声信号がどの程度近いかを評価
し、入力音声信号に最も近い合成音声信号を生成する励
振信号を選ぶという構成にある。従って、符号化レート
を上げて励振信号の数を増やすに従い、復号音声信号の
波形は入力音声信号の波形に近づいてゆき、結果として
入力音声信号に近い復号音声信号が得られる。
【0006】CELP方式のバリエーションの一つとし
て、マルチモードCELPが知られている。CELP方
式では、先に述べたように入力音声信号を線形予測係数
(フィルタ係数)や予測残差信号(励振信号)を表すパ
ラメータに分解して符号化する。入力音声の性質は一定
でなく、例えば有声区間と無声区間とでは異なるように
時々刻々変化する。そこで、マルチモードCELP方式
では、入力音声の性質に合わせて各パラメータの符号化
のビット配分や、符号帳の内容の異なる複数種類の符号
化系を用意しておき、これらを入力音声に応じて使い分
けることで効率を上げることができる。
【0007】一方、このマルチモードCELPとは別
に、入力音声に応じて符号化のビット配分を変える符号
化方式として、MPEGオーディオなどで用いられてい
るサブバンド符号化方式が知られている。サブバンド符
号化は、入力音声信号を周波数領域に変換し、複数のバ
ンドに分割してバンド毎に符号化する方式であり、各バ
ンドの成分に対する符号化ビット数は、その成分のパワ
が大きいほど多く配分されるようになっている。マスキ
ング効果が考慮されるので、必ずしもパワのみで配分さ
れる訳ではないが、基本的には性質の変動する入力音声
信号に対して適応的にビット配分を行うことで、符号化
効率を上げている。
【0008】マルチモードCELP方式やサブバンド符
号化方式で上述のようにビット配分を適応化している目
的は、入力音声に対して聴覚的により近い復号音声を得
るためである。そのため入力音声に含まれているパラメ
ータ(フォルマント、ピッチ周期、ゲインなど)の変化
や細かな揺らぎまで忠実に再現せざるを得ない構造にな
っており、このことが符号化効率のさらなる向上(低レ
ート化)の妨げとなっている。
【0009】しかし、例えば同一の文章を2度発話した
場合、人間の耳には同じに聞こえても音声波形レベルで
は異なっているという事実からも分かるように、入力音
声に含まれているパラメータの変化や細かな揺らぎとい
った情報は、聴覚的な自然性という面からは必ずしも伝
送する必要がないと考えられる。さらに、2度の発話を
聞き比べれば聴覚的な差異が認められる場合でも、その
差が問題になるほど大きなものでないこともある。
【0010】
【発明が解決しようとする課題】上述したように、符号
化効率を向上させるためにビット配分の適応化を行うマ
ルチモードCELP、サブバンド符号化といった従来の
低レート音声符号化技術では、聴覚的な自然性という面
からは必ずしも必要のない入力音声に含まれているパラ
メータの変化や細かな揺らぎなどの情報をも忠実に再現
しており、符号化効率のさらなる向上の妨げとなってい
た。
【0011】本発明は、このような事情を考慮してなさ
れたもので、入力音声と聴覚的に同一の復号音声を得る
ことを目標とせず、聴覚的に僅かな差異が認められても
自然性のある復号音声を得ることが可能な音声符号化/
復号化方法を提供することを目的とする。
【0012】
【課題を解決するための手段】上記の課題を解決するた
め、本発明に係る音声符号化方法は、入力音声を分析し
て得られる複数のパラメータを符号化する音声符号化方
法であって、各パラメータの予測値を過去の符号化デー
タから求め、各パラメータについて分析値と予測値の比
較を行うことにより、予測値を復号音声の生成に用いた
場合の聴覚的な自然性に与える影響の度合を評価し、こ
の評価結果に基づき、該影響の度合いがより大きいパラ
メータにより多くの符号化ビットを配分し、各パラメー
タの符号化データおよび各パラメータへの符号化ビット
の配分を示すビット配分情報を伝送することを特徴とす
る。
【0013】また、この音声符号化方法に対応する本発
明に係る音声復号化方法は、入力音声を分析して得られ
る複数のパラメータについて、該パラメータの符号化デ
ータと、該パラメータの予測値を用いて復号音声を生成
した場合の聴覚的な自然性に与える影響の度合の評価結
果に基づき該影響の度合いがより大きいパラメータによ
り多く配分されるように決定された符号化ビットの配分
を示すビット配分情報を入力し、符号化データをビット
配分情報に従って復号化して復号音声を生成することを
特徴とする。
【0014】本発明に係る他の音声符号化方法は、入力
音声を分析して得られる複数のパラメータを符号化する
音声符号化方法であって、各パラメータの各々の予測値
を過去の符号化データから求め、各パラメータについて
分析値と予測値の比較を行うことにより、予測値を復号
音声の生成に用いた場合の聴覚的な自然性に与える影響
の度合を評価し、この評価結果に基づき、該影響の度合
いがより大きいパラメータのみを選択して該パラメータ
の分析値の符号化データを伝送するとともに、選択した
パラメータの種類を示す選択情報を伝送することを特徴
とする。
【0015】また、この音声符号化方法に対応する本発
明に係る他の音声復号化方法は、入力音声を分析して得
られる複数のパラメータについて、該パラメータの予測
値を用いて復号音声を生成した場合の聴覚的な自然性に
与える影響の度合の評価結果に基づき選択された前記影
響の度合いがより大きいパラメータの分析値の符号化デ
ータと、選択されたパラメータの種類を示す選択情報を
入力し、選択情報に基づいて、選択されたパラメータに
ついては分析値の符号化データを復号化して復号音声を
生成し、選択されなかったパラメータについては予測値
をそのまま用いて復号音声を生成することを特徴とす
る。
【0016】このように本発明では、入力音声に含まれ
る異なる性質のパラメータの変化をそれぞれ予測し、予
測値をそのまま復号音声の生成に用いた場合に聴覚的に
不自然になる種類のパラメータに対しては、より多くの
符号化ビットを配分するか、または全符号化ビットを配
分し、入力音声と差異が認められても不自然にならない
種類のパラメータについては、より少ないビット数で符
号化を行うか、または全く符号化ビットを配分させず、
予測値をそのまま復号音声の生成に用いるようにする。
さらに、各パラメータの符号化データに対するビット配
分は、入力音声の性質により時々刻々変化させるように
することが望ましい。その結果、復号音声と元の入力音
声との一致性は僅かに犠牲になるが、従来よりも遥かに
低レートの音声符号化/復号化が可能になる。
【0017】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。なお、本発明の音声符号化/復号
化方法は多くの場合、コンピュータを用いたソフトウェ
アにより実現されるが、以下の説明ではブロック図を用
いて音声符号化/復号化システムとして述べるものとす
る。このような説明によっても、本発明による音声符号
化/復号化方法としての手順は当業者が明確に理解でき
るものと考えられる。
【0018】(第1の実施形態) <符号化側について>図1に、本発明の第1の実施形態
に係る音声符号化システムの構成を示す。この音声符号
化システムは、入力端子100からの入力音声信号を分
析するLPC分析部111および駆動信号分析部112
からなる分析部110、LPC係数および駆動信号の量
子化をそれぞれ行う第1、第2の量子化部121,12
2、LPC係数および駆動信号の量子化値をそれぞれ遅
延させる第1、第2の遅延部131,132、LPC係
数および駆動信号の予測をそれぞれ行う第1、第2の予
測部141,142、予測部141,142からの予測
値をそのまま復号音声の生成に用いた場合の聴覚的な自
然性に与える度合いを評価する評価部150、および評
価部150の評価結果に基づき量子化部121,122
への量子化ビット数(符号化ビット数)の配分を行うビ
ット配分部160から構成される。
【0019】次に、この音声符号化システムの動作につ
いて説明する。入力端子100には、音声信号が1フレ
ーム単位で入力され、これに同期してLPC分析部11
1では線形予測分析が行われて声道特性に相当するLP
C係数の分析値が出力され、駆動信号分析部112から
は声帯波形に相当する駆動信号の分析値が出力される。
【0020】第1の量子化部121は、予測部141の
出力であるLPC係数の予測値を利用して、LPC分析
部111からのLPC係数の分析値をビット配分部16
0によって配分された量子化ビット数で量子化し、LP
C係数量子化インデックス1001を出力すると同時
に、LPC係数の量子化値を次フレームの予測のために
遅延部131に供給する。
【0021】第2の量子化部122は、同様に第2の予
測部142の出力である駆動信号の予測値を利用して、
駆動信号分析部112からの駆動信号の分析値をビット
配分部160によって配分された量子化ビット数で量子
化し、駆動信号量子化インデックス1002を出力する
と同時に、駆動信号の量子化値を次フレームの予測のた
めに遅延部132に供給する。
【0022】評価部150では、まずLPC分析部11
1で得られたLPC係数の分析値を基に、第1の予測部
141で得られたLPC係数の予測値をそのまま合成フ
ィルタのフィルタ係数として用いた場合の復号音声の声
質への影響(聴覚的な自然性に与える影響)の度合が求
められる。
【0023】さらに、評価部150では、駆動信号分析
部112で得られた駆動信号の分析値を基に、第2の予
測部142で得られた駆動信号の予測値をそのまま合成
フィルタの入力に用いた場合の復号音声の音質への影響
(聴覚的な自然性に与える影響)の度合も求められる。
【0024】そして、評価部150からは上記の二種類
の影響の度合を示す情報がビット配分部160に送られ
る。ビット配分部160では、この情報に基づいて影響
の度合が大きい方により多くの量子化ビットを配分する
ように、第1、第2の量子化器121,122の量子化
ビット数の配分を決める。同時にビット配分部160か
らは、第1、第2の量子化器121,122の各々に配
分した量子化ビット数の情報であるビット配分情報10
03が出力される。
【0025】この音声符号化システムから出力される符
号化データは、LPC係数量子化インデックス100
1、駆動信号量子化1002およびビット配分情報10
03であり、これらが伝送路や記録媒体を介して後述す
る音声復号化システムへ伝送される。
【0026】次に、本実施形態におけるLPC係数の符
号化方法について説明する。第1の遅延部131には、
第1の量子化部121において過去のフレームで量子化
されたLPC係数の量子化値が格納されている。第1の
予測部141では、この遅延部131に格納された過去
のフレームのLPC係数の量子化値を用いて現在のフレ
ームのLPC係数の値を予測する。仮に、このLPC係
数の予測値がLPC分析部111で入力音声信号を分析
することで得られたLPC係数の分析値と同じであった
場合、LPC係数の情報は全く伝送する必要がない。復
号化側も同じ予測アルゴリズムを備えているので、過去
の量子化値から符号化側と同じ現在の予測値を得ること
ができるからである。
【0027】実際にはLPC係数の予測値が分析値と同
じになることは稀であり、多くの場合は違いが生じるた
め、その違いを量子化して伝送する必要があるが、その
時に割り当てる量子化ビット数を他のパラメータ(本実
施形態では、LPC係数と同様の構成で求められた駆動
信号の予測値)との入力音声信号に対する重要度の違い
に応じて分配を決めるのが特徴である。
【0028】ここで、本実施形態では従来のマルチモー
ドCELPなどのように各パラメータに対するビット配
分を変えて、入力音声信号に対する歪みがより小さくな
るようなビット分配方法を選ぶのではなく、入力音声信
号と聴覚的に差異が感じられても自然に聞こえるように
ビット配分を行う。例えば、LPC係数は分析窓の位置
により定常区間でも値が変わることがあるが、マルチモ
ードCELPではこのような違いも忠実に再現できるよ
うに符号化を行っていたため、例えばLPC係数の符号
化データに異なる2種類の符号Aと符号Bが交互に現わ
れるABAB…のような符号パターンになる現象が起こ
り得た。
【0029】本実施形態では、このABAB…のような
符号パターンが出現する場合、全て符号Aまたは全て符
号Bと置き換えることで、LPC係数の予測値を伝送し
続けるようにする。ABAB…、AAAA…、BBBB
…の各符号パターンの間には、聴覚的な差異は若干存在
すると思われる。しかし、それぞれの符号パターンから
生成された復号音声を聞いた場合、問題となる差異では
ない。符号伝送量を考えた場合、ABAB…の符号パタ
ーンは符号Aと符号Bの差を毎フレーム伝送し続けなく
てはならないのに対し、AAAA…やBBBB…の符号
パターンは、先頭の値を一旦得てしまえば、後は同じ値
を予測することで、その後のフレームの伝送量は0に抑
えることができ、ビットレート削減の効果が大きい。こ
のように復号音声の原音声である入力音声信号との一致
性を僅かに犠牲にすることで、ビットレートの大きな削
減が可能となる。
【0030】上記ではLPC係数の量子化について説明
したが、駆動信号の量子化についても同様のことが言え
る。ここで、本実施形態のポイントはLPC係数と駆動
信号で聴覚的に影響の大きい方により多くの符号化ビッ
トを配分する点である。上述したLPC係数の符号化デ
ータの伝送法において、ABAB…の符号パターンがA
AAA…やBBBB…の符号パターンよりも確かに原音
声に近い復号音声が得られるので、可能であれば多くの
ビットを割り当ててABAB…の符号パターンを伝送し
たいところである。
【0031】ABAB…の符号パターンを伝送するか、
AAAA…やBBBB…の符号パターンに簡略化して伝
送するかは、駆動信号の変化の度合いよって決まる。駆
動信号のピッチ周期やゲインなどがあまり変化していな
い場合は、LPC係数の符号化に多くのビットを割り当
ててABAB…の符号パターンとして伝送し、より原音
声に忠実な復号音声を生成することが可能になる。逆
に、駆動信号の変化が大きく聴覚的に影響が大きい場合
は、駆動信号の符号に多くのビットを割り当て、LPC
係数はAAAA…やBBBB…の符号パターンで我慢す
るようにする。このとき、復号音声と原音声との一致性
は多少犠牲になるが、聴覚的な自然性は保たれる点が大
きな利点である。
【0032】LPC係数は声道特性を表すパラメータの
代表であり、例えばkパラメータ、LSP、LPCケプ
ストラムなど様々な表現方法がある。また、LPC係数
以外のパラメータで声道特性を表すことも可能である。
本実施形態では、LPC係数を声道特性を表すパラメー
タの一例として用いたが、他のパラメータを用いてもよ
く、この点は以下に述べる他の実施形態についても同様
である。 <復号化側について>図2に、図1の音声符号化システ
ムに対応する音声復号化システムの構成を示す。この音
声復号化システムは、入力端子201,202に入力さ
れるLPC係数量子化インデックス1001および駆動
信号量子化インデックス1002をそれぞれ逆量子化す
る第1,第2の逆量子化部221,222、入力端子2
03に入力されるビット配分情報1003に基づいて逆
量子化部221,222へのビット配分を決定するビッ
ト配分部210、逆量子化部221,222で逆量子化
されたLPC係数および駆動信号をそれぞれ遅延させる
第1、第2の遅延部231,232、LPC係数および
駆動信号の予測をそれぞれ行う第1、第2の予測部24
1,242、および逆量子化部221,222で逆量子
化されたLPC係数および駆動信号から復号音声信号を
生成する合成部250からなる。
【0033】合成部250は、より具体的には逆量子化
されたLPC係数がフィルタ係数として与えられるLP
C合成フィルタを用いて構成され、このLPC合成フィ
ルタに逆量子化された駆動信号を入力することにより、
復号音声信号を生成する。
【0034】(第2の実施形態) <符号化側について>図3に、本発明の第2の実施形態
に係る音声符号化システムを示す。この音声符号化シス
テムは、図1に示した第1の実施形態の音声符号化シス
テムにおけるビット配分部160を取り除き、評価部1
50の評価結果に応じて第1、第2の量子化部121,
122からのLPC係数および駆動信号の量子化インデ
ックスのいずれを伝送すべき符号化パラメータとして選
択するかを決定する符号化パラメータ選択制御部170
と、この符号化パラメータ選択制御部170によって制
御され、量子化部121,122からのLPC係数およ
び駆動信号の量子化インデックスのいずれか(LPC係
数/駆動信号量子化インデックス)を符号化パラメータ
1005として取り出す切り替えスイッチ180に置き
換えた構成になっている。
【0035】符号化パラメータ選択制御部170から
は、LPC係数および駆動信号の量子化インデックスの
いずれの符号化パラメータを選択したかを示す符号化パ
ラメータ選択情報1004が出力される。
【0036】第1の実施形態では、LPC係数と駆動信
号の予測値に応じてLPC係数と駆動信号の符号化デー
タへのビット配分を変える方法を述ベたが、本実施形態
ではこれをさらに押し進め、符号化ビットをLPC係数
と駆動信号のいずれか一方に全て割り当てる。その結
果、フレーム毎にLPC係数の符号化データを伝送する
か駆動信号の符号化データを伝送するかが変わることに
なる。 <復号化側について>図4に、図3の音声符号化システ
ムに対応する音声復号化システムを示す。この音声復号
化システムでは、入力端子204に入力される符号化パ
ラメータ選択情報1004に従って、入力端子205に
入力される符号化パラメータ(LPC係数/駆動信号量
子化インデックス)が逆量子化部221,222のいず
れかに振り分けて入力される。すなわち、LPC係数量
子化インデックスは逆量子化部221に、駆動信号量子
化インデックスは逆量子化部222にそれぞれ入力され
る。これ以後の動作は、図2と同様である。
【0037】このように本実施形態によると、復号化側
においてLPC係数の符号化データが伝送されたフレー
ムでは、駆動信号には予測値をそのまま用い、駆動信号
の符号化データが伝送されたフレームでは、LPC係数
には予測値をそのまま用いることで復号音声を生成する
ため、復号音声の原音声との一致性が第1の実施形態よ
りも失われる代わりに、より低レートの符号化が可能と
なる。
【0038】(第3の実施形態) <符号化側について>図5に、本発明の第3の実施形態
に係る音声符号化システムを示す。この音声符号化シス
テムでは、第1の実施形態における分析部110がピッ
チ周期分析部191とピッチ波形分析部192とからな
る分析部190に置き換えられ、さらにLPC分析部1
11とLPC係数の分析値を量子化するLPC量子化部
320が分析部310の外に設けられている。
【0039】さらに、本実施形態ではピッチ周期および
ピッチ波形の量子化をそれぞれ行う第1、第2の量子化
部321,322、ピッチ周期およびピッチ波形の量子
化値をそれぞれ遅延させる第1、第2の遅延部331,
332、ピッチ周期およびピッチ波形の予測をそれぞれ
行う第1、第2の予測部341,342、予測部34
1,342からの予測値を復号音声の生成に用いた場合
の聴覚的な自然性に与える度合いを評価する評価部35
0、および評価部350の評価結果に基づいて量子化部
321,322への量子化ビット数の配分を行うビット
配分部360が設けられている。
【0040】次に、本実施形態の音声符号化システムの
動作について説明する。入力端子100には音声信号が
1フレーム単位で入力され、これに同期して線形予測分
析が行われてLPC係数と駆動信号が分離されて符号化
される。すなわち、LPC分析部111からはLPC係
数の分析値が出力され、分析部190では、駆動信号が
ピッチ周期分析部191とピッチ波形分析部192でそ
れぞれピッチ周期と1ピッチ分のピッチ波形に分離され
る。LPC分析部111から出力されるLPC係数の分
析値はLPC量子化部320で量子化され、LPC係数
量子化インデックス1001が伝送される。
【0041】第1の量子化部321は、予測部341の
出力であるピッチ周期の予測値を利用して、ピッチ周期
分析部191からのピッチ周期の分析値をビット配分部
360によって配分された量子化ビット数で量子化し、
ピッチ周期量子化インデックス1011を出力すると同
時に、ピッチ周期の量子化値を次フレームの予測のため
に遅延部331に供給する。
【0042】第2の量子化部322は、同様に第2の予
測部322の出力であるピッチ波形の予測値を利用し
て、ピッチ波形分析部192からのピッチ波形の分析値
をビット配分部360によって配分された量子化ビット
数で量子化し、ピッチ波形量子化インデックス1012
を出力すると同時に、ピッチ波形の量子化値を次フレー
ムの予測のために遅延部332に供給する。
【0043】評価部350では、まずピッチ周期分析部
191で得られたピッチ周期の分析値を基に、第1の予
測部321で得られたピッチ周期の予測値をそのまま復
号音声の生成に用いた場合の復号音声の声質への影響の
度合が求められる。また、評価部350では、ピッチ波
形駆動信号分析部312で得られたピッチ波形の分析値
を基に、第2の予測部322で得られたピッチ波形の予
測値を復号音声の生成に用いた場合の復号音声の音質へ
の影響の度合も求められる。
【0044】そして、評価部350からは上記の二種類
の影響の度合を示す情報がビット配分部360に送られ
る。ビット配分部360では、この情報に基づいて影響
の度合が大きい方により多くの量子化ビットを配分する
ように、第1、第2の量子化器321,322の量子化
ビット数の配分を決める。同時にビット配分部360か
らは、第1、第2の量子化器341,342の各々に配
分した量子化ビット数の情報であるビット配分情報10
13が出力される。
【0045】この音声符号化システムから出力される符
号化データは、LPC係数量子化インデックス100
1、ピッチ周期量子化インデックス1011、ピッチ波
形量子化インデックス1012およびビット配分情報1
013であり、これらが伝送路や記録媒体を介して後述
する音声復号化システムへ伝送される。
【0046】第1の実施形態では、LPC係数と駆動信
号に関して符号化データのビット配分を変える例を述べ
たが、本実施形態ではピッチ周期とピッチ波形の符号化
データに対してビット配分を変えるようにしたものであ
る。
【0047】まず、ピッチ周期に関して説明すると、ピ
ッチ周期は平坦で変化の少ない区間や、急激に上下する
など変化の大きな区間が存在し、また平坦な区間でも僅
かな揺らぎが存在する。従来は、このようなピッチ周期
の変化を忠実に符号化していた。
【0048】これに対し、本実施形態では入力音声信号
のピッチ周期と必ずしも一致させることを目的とせず、
聴覚的に自然に聞こえるピッチパターンを予測する。予
測が適当であれば、ピッチ周期の情報を伝送する必要は
ない。復号化側も同じ予測アルゴリズムを備えているた
め、過去の量子化値から符号化側と同じ予測値を生成で
きるからである。予測から外れ聴覚上問題がある場合
は、多くの符号化ビットを割り当てて、より入力音声信
号のピッチ周期に近いピッチ周期を伝送する。ピッチ波
形についても同様である。
【0049】さらに、本実施形態ではピッチ周期とピッ
チ波形で聴覚的に影響の大きい方により多くの符号化ビ
ットを配分する。ピッチ周期がほぼ一定の場合は、ピッ
チ波形に、逆にピッチ周期が変化しているがピッチ波形
は変わらない場合は、ピッチ周期により多くの符号化ビ
ットを配分する。このようにすることで、ピッチ周期の
原音との一致性は多少犠牲になるが、駆動信号を低レー
トで符号化することが可能になる。 <復号化側について>図6に、図5の音声符号化システ
ムに対応する音声復号化システムの構成を示す。この音
声復号化システムは、入力端子201,211、212
にそれぞれ入力されるLPC係数量子化インデックス1
001、ピッチ周期量子化インデックス1011、ピッ
チ波形量子化インデックス1012を逆量子化する逆量
子化部420,421,422、入力端子213に入力
されるビット配分情報1013に基づいて逆量子化部4
21,422へのビット配分を決定するビット配分部4
10、逆量子化部421,422で逆量子化されたピッ
チ周期およびピッチ波形をそれぞれ遅延させる第1、第
2の遅延部431,432、ピッチ周期およびピッチ波
形の予測をそれぞれ行う第1、第2の予測部441,4
42、および逆量子化部402,421,422で逆量
子化されたLPC係数、ピッチ周期およびピッチ波形か
ら復号音声信号を生成する合成部450からなる。
【0050】合成部450は、より具体的には逆量子化
されたLPC係数がフィルタ係数として与えられるLP
C合成フィルタを用いて構成され、このLPC合成フィ
ルタに逆量子化されたピッチ周期およびピッチ波形から
生成される駆動信号を入力することにより、復号音声信
号を生成する。
【0051】(第4の実施形態)図7に、本発明の第4
の実施形態に係る音声符号化システムを示す。この音声
符号化システムは、図5に示した第3の実施形態の音声
符号化システムから、LPC分析部111とLPC量子
化部320を取り去った構成になっている。第3の実施
形態では、入力音声信号を線形予側分析し、LPC係数
と駆動信号に分離して符号化しているが、本実施形態で
は分離せずに符号化している。
【0052】具体的には、第3の実施形態では駆動信号
のピッチ周期およびピッチ波形が抽出されるのに対し、
本実施形態ではピッチ周期分析部311で入力音声信号
のピッチ周期が抽出され、ピッチ波形分析部312で入
力音声信号のピッチ波形が切り出される。
【0053】本実施形態によると、第1〜第3の実施形
態で必要であったLPC分析が不要となり、LPC分析
の効果が薄い入力音声信号に対しても本発明を適用する
ことができる。以降の実施形態ではLPC分析を行わな
い例を示しているが、本実施形態と第3の実施形態との
関係と同様に、LPC分析を行う場合にも適用可能であ
る。 <復号化側について>図8は、図7の音声符号化システ
ムに対応する音声復号化システムの構成を示す図であ
り、図6に示した第3の実施形態の音声復号化システム
から、LPC逆量子化部420を取り去った構成となっ
ている。この場合、合成部450では逆量子化されたピ
ッチ波形を逆量子化されたピッチ周期で適当な手法でつ
なぎ合わせることで、復号音声信号を生成する。
【0054】(第5の実施形態)図9に、本発明の第5
の実施形態に係る音声符号化システムを示す。この音声
符号化システムは、図7に示した第5の実施形態の音声
符号化システムにおける第1、第2の予測部341,3
42および評価部350の構成を詳細に示したものであ
り、他の構成要素やその動作に関しては第4の実施形態
と同じである。予測部341は比較部3411とピッチ
パターン符号帳3412からなり、予測部342は比較
部3421と波形パターン符号帳3422からなる。ま
た、評価部350は二つの誤差積分部3511,352
2からなる。
【0055】まず、第1の予測部341について説明す
る。予測部341のピッチパターン符号帳3412に
は、多くの音声から学習によって得られたピッチパター
ンと、そのパターンの次に出現する後続ピッチ周期の組
が複数格納されている。ここで、ピッチパターンとは音
声のピッチ周期の変化を表すもので、ここでは過去Nフ
レーム分のピッチ周期とする。符号化時には、遅延部3
31に格納された過去のN個の量子化ピッチ周期とピッ
チパターン符号帳3412に格納されたピッチパターン
(N個のピッチ周期)を比較部3411で比較してピッ
チ周期の変化の形が最も近い候補を探し、これと組にな
っている後続ピッチ周期を予測ピッチ周期として出力す
る。
【0056】次に、第2の予測部342について説明す
る。予測部342は、扱うパラメータが予測部341の
ピッチ周期からピッチ波形に代わっただけで、動作は同
じである。すなわち、遅延部332に蓄えられて過去M
個のピッチ波形と、波形パターン符号帳3422に格納
されたM個のピッチ波形を比較して最も近いものを探
し、これと組になっている後続ピッチ波形を予測ピッチ
波形として出力する。
【0057】次に、評価部350について説明する。評
価部350の誤差積分部3511ではピッチ分析部31
1で得られたピッチ周期の分析値と、予測部341から
出力されたピッチ周期の予測値を入力とし、その違いを
評価する。このとき、現フレームのピッチ周期の違いだ
けではなく、過去数フレームに遡って全体のピッチ周期
の変化がどれ程度ずれているかを評価する。この変化の
ずれをここでは積分値と呼ぶことにする。
【0058】ピッチ周期は、一時的にずれても聴覚的な
自然性という観点からは問題はないが、長期にわたって
ずれ続けると不自然なイントネーションとなって自然性
を損なう。そこで、誤差積算部3511では、ピッチ周
期の分析値と予測値が長期にわたってずれているほど差
が大きいと判断し、その情報を誤差情報としてビット配
分部360に送る。
【0059】誤差積算部3512は、扱う情報がピッチ
周期でなくピッチ波形である点を除けば誤差積算部35
11と同じである。すなわち、ピッチ波形の予測値と分
析値の時間変化を比較し、長期にわたってずれ続けてい
る場合ほど大きな値の誤差情報をビッ卜配分部360に
出力する。
【0060】ビット配分部360では、誤差積分部35
11,3512からの誤差情報を基にピッチ周期とピッ
チ波形の量子化ビット数を決定し、量子化部321、3
22にビット数を出力する。
【0061】量子化部321では、割り当てられたビッ
ト数でピッチ周期分析部311より得られたピッチ周期
の分析値と比較部3411より得られたピッチの予測値
を基に現フレームのピッチ周期を決定する。通常、ピッ
チ周期の分析値により近い値になるように現フレームの
ピッチ周期を決定し、これを示すインデックスを出力す
ると同時に、次のフレームで用いるため量子化値を遅延
部331に供給して格納しておく。
【0062】量子化部322も、同様にピッチ波形の量
子化を行う。量子化には多くの場合符号帳を用いるが、
この符号帳はピッチパターン符号帳3412や波形パタ
ーン符号帳3422とは別のものであり、図9では量子
化部322に含まれており、陽には示していない。
【0063】このように本実施形態では、長期にわたる
ピッチ周期およびピッチ波形の変化のずれを評価するこ
とで、聴覚的により自然に聞こえる復号音声が得られる
低レート符号化が可能になる。また、ピッチパターン符
号帳3411の作成においてメモリ量を削減するためピ
ッチ周期を正規化することは効果的である。 <復号化側について>図10は、図9の音声符号化シス
テムに対応する音声復号システムの構成を示す図であ
り、図8に示した第5の実施形態の音声復号化システム
における第1,第2の予測部441,442の構成を詳
細に示したものである。すなわち、予測部441は比較
部4411とピッチパターン符号帳3412からなり、
予測部442は比較部4421と波形パターン符号帳4
422からなる。
【0064】次に、この音声復号化システムの動作につ
いて説明する。ビット配分部410において、入力端子
213に入力されたビット配分情報から、図9中の量子
化部321,322に配分された量子化ビット数が求め
られ、これらが逆量子化部421,422にそれぞれ与
えられる。
【0065】入力端子301にはピッチ周期インデック
スが入力され、このインデックスと第1の予測部441
から出力されたピッチ周期の予測値を基に逆量子化部4
21でピッチ周期が復号され、合成部450に入力され
ると同時に、次のフレームの処理に備えて遅延部431
に入力される。予測部441は、符号帳も含め図9の音
声符号化システムの予測部331と全く同じ構成になっ
ているので、予測部331と同じ出力をサイド情報なし
で得ることができる。
【0066】入力端子215にはピッチ波形インデック
スが入力され、このインデックスと第2の予測部442
から出力されたピッチ波形の予測値を基に逆量子化部4
22でピッチ周期が復号され、合成部450に入力され
ると同時に、次のフレームの処理に備えて遅延部432
に入力される。
【0067】合成部450では、ピッチ波形をピッチ周
期で適当な手段を用いてつなぎ合わせることで復号音声
を生成する。 (第6の実施形態) <符号化側について>図11に、本発明の第5の実施形
態に係る音声符号化システムを示す。この音声符号化シ
ステムは、図7に示した第4の実施形態の音声符号化シ
ステムにおけるビット配分部360を取り除き、評価部
350の評価結果に応じて第1、第2の量子化部32
1,322からのピッチ周期およびピッチ波形の量子化
値のいずれを符号化パラメータとして選択するかを決定
する符号化パラメータ選択制御部370と、この符号化
パラメータ選択制御部370によって制御され、第1、
第2の量子化部321,322からのピッチ周期および
ピッチ波形の量子化インデックスのいずれか(ピッチ周
期/ピッチ波形量子化インデックス)を符号化パラメー
タ1015として取り出す切り替えスイッチ380に置
き換えた構成になっている。符号化パラメータ選択制御
部370からは、ピッチ周期およびピッチ波形の量子化
インデックスのいずれを符号化パラメータとして選択し
たかを示す符号化パラメータ選択情報1014が出力さ
れる。
【0068】そして、フレーム毎にピッチ周期かピッチ
波形のいずれか一方を選択し、その選択した方に配分可
能な符号化ビットを全て割り当て符号化を行う。符号化
ビットがは配分されなかった方は、予測値をそのまま用
いる。 <復号化側について>図12は、図11の音声符号化シ
ステムに対応する音声復号化システムを示す図である。
この音声復号化システムでは、入力端子214に入力さ
れる符号化パラメータ選択情報1014に従って、入力
端子215に入力される符号化パラメータ(ピッチ周期
/ピッチ波形量子化インデックス)が逆量子化部42
1,422のいずれかに振り分けて入力される。すなわ
ち、ピッチ周期量子化インデックスは逆量子化部421
に、ピッチ波形量子化インデックスは逆量子化部422
にそれぞれ入力される。これ以後の動作は、図8と同様
である。
【0069】このように本実施形態によると、ピッチ周
期の符号化データが伝送されたフレームでは、ピッチ波
形には予測値を復号音声の生成に用い、ピッチ波形の符
号化データが伝送されたフレームでは、ピッチ周期には
予測値を復号音声の生成に用いることで、復号音声の原
音声との一致性が第4の実施形態よりも失われる代わり
に、より低レートの符号化が可能となる。
【0070】(第8の実施形態)図13に、本発明の第
8の実施形態に係る音声復号化システムを示す。本実施
形態は、第1の実施形態と第4の実施形態を組み合わ
せ、さらに分析部510においてピッチ形状分析部51
1とゲイン分析部512を設けて、ピッチ波形を形状と
ゲインに分解して分析し、ピッチ周期、ピッチ形状、ゲ
インおよびLPC係数という全部で4種類のパラメータ
を入力音声信号から抽出する構成になっている。以降の
処理はこれまでの実施形態と同様であり、予測値が聴覚
上不自然に聞こえる可能性のあるパラメータほど多くの
ビットを割り当てて符号化を行う。
【0071】このように音声信号のパラメータをより細
かく分類分けすることによって、必要なパラメータに集
中してビットを配分することができ、符号化の効率がさ
らに上がる。図13の音声符号化システムに対応する音
声復号化システムについては特に図示しないが、これま
での実施形態から明らかであるので、詳細な説明を省略
する。
【0072】
【発明の効果】以上説明したように、本発明によると原
音声との一致性は多少失われるが、聴覚的に自然な復号
音声が得られる低レート音声符号化/復号化を実現する
ことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声符号化シス
テムの構成を示すブロック図
【図2】本発明の第1の実施形態に係る音声復号化シス
テムの構成を示すブロック図
【図3】本発明の第2の実施形態に係る音声符号化シス
テムの構成を示すブロック図
【図4】本発明の第2の実施形態に係る音声復号化シス
テムの構成を示すブロック図
【図5】本発明の第3の実施形態に係る音声符号化シス
テムの構成を示すブロック図
【図6】本発明の第3の実施形態に係る音声復号化シス
テムの構成を示すブロック図
【図7】本発明の第4の実施形態に係る音声符号化シス
テムの構成を示すブロック図
【図8】本発明の第4の実施形態に係る音声復号化シス
テムの構成を示すブロック図
【図9】本発明の第5の実施形態に係る音声符号化シス
テムの構成を示すブロック図
【図10】本発明の第5の実施形態に係る音声復号化シ
ステムの構成を示すブロック図
【図11】本発明の第6の実施形態に係る音声符号化シ
ステムの構成を示すブロック図
【図12】本発明の第6の実施形態に係る音声復号化シ
ステムの構成を示すブロック図
【図13】本発明の第7の実施形態に係る音声符号化シ
ステムの構成を示すブロック図
【符号の説明】
100…音声信号入力端子 110,310,510…分析部 111…LPC分析部 112…駆動信号分析部 121,122,321,322,521,522…量
子化部 131,132,331,332,531,532…遅
延部 141,142,341,242,541,542…予
測部 150,350,550…評価部 160,360,560…ビット配分部 170,370…符号化パラメータ選択制御部 180,380…切り替えスイッチ 190…分析部 191…ピッチ周期分析部 192…ピッチ波形分析部 210,410…ビット配分部 221,222,421,422…逆量子化部 231,232,431,432…遅延部 241,242,441,442…予測部 250,450…合成部 260,460…切り替えスイッチ 311…ピッチ周期分析部 312…ピッチ波形分析部 313…ゲイン分析部 320…LPC量子化部 511…ピッチ形状分析部 512…ゲイン分析部 1001…LPC係数量子化インデックス 1002…駆動信号量子化インデックス 1003…ビット配分情報 1004…符号化パラメータ選択情報 1005…LPC係数/駆動信号量子化インデックス 1011…ピッチ周期量子化インデックス 1012…ピッチ波形量子化インデックス 1013,1018…ビット配分情報 1014…符号化パラメータ選択情報 1015…ピッチ周期/ピッチ波形量子化インデックス 1016…ピッチ形状量子化インデックス 1017…ゲイン量子化インデックス 1020…復号音声信号 3411,3421…ピッチパターン符号帳 3412,3422…波形パターン符号帳 3511,3512…誤差積分部 4411,4421…ピッチパターン符号帳 4412,4422…波形パターン符号帳

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】入力音声を分析して得られる複数のパラメ
    ータを符号化する音声符号化方法において、 各パラメータの予測値を過去の符号化データから求め、 前記各パラメータについて分析値と予測値の比較を行う
    ことにより、予測値を復号音声の生成に用いた場合の聴
    覚的な自然性に与える影響の度合を評価し、 この評価結果に基づき、前記影響の度合いがより大きい
    パラメータにより多くの符号化ビットを配分し、 前記各パラメータの前記符号化データおよび前記各パラ
    メータへの符号化ビットの配分を示すビット配分情報を
    伝送することを特徴とする音声符号化方法。
  2. 【請求項2】入力音声を分析して得られる複数のパラメ
    ータについて、該パラメータの符号化データと、該パラ
    メータの予測値を用いて復号音声を生成した場合の聴覚
    的な自然性に与える影響の度合の評価結果に基づき前記
    影響の度合いがより大きいパラメータにより多く配分さ
    れるように決定された符号化ビットの配分を示すビット
    配分情報を入力し、 前記符号化データを前記ビット配分情報に従って復号化
    して復号音声を生成することを特徴とする音声復号化方
    法。
  3. 【請求項3】入力音声を分析して得られる複数のパラメ
    ータを符号化する音声符号化方法において、 各パラメータの各々の予測値を過去の符号化データから
    求め、 前記各パラメータについて分析値と予測値の比較を行う
    ことにより、予測値を復号音声の生成に用いた場合の聴
    覚的な自然性に与える影響の度合を評価し、 この評価結果に基づき、前記影響の度合いがより大きい
    パラメータのみを選択して該パラメータの分析値の符号
    化データを伝送するとともに、選択したパラメータの種
    類を示す選択情報を伝送することを特徴とする音声符号
    化方法。
  4. 【請求項4】入力音声を分析して得られる複数のパラメ
    ータについて、該パラメータの予測値を用いて復号音声
    を生成した場合の聴覚的な自然性に与える影響の度合の
    評価結果に基づき選択された前記影響の度合いがより大
    きいパラメータの分析値の符号化データと、選択された
    パラメータの種類を示す選択情報を入力し、 前記選択情報に基づいて、選択されたパラメータについ
    ては前記分析値の符号化データを復号化して復号音声を
    生成し、選択されなかったパラメータについては前記予
    測値をそのまま用いて復号音声を生成することを特徴と
    する音声復号化方法。
JP10047248A 1998-02-27 1998-02-27 音声符号化/復号化方法 Pending JPH11249696A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10047248A JPH11249696A (ja) 1998-02-27 1998-02-27 音声符号化/復号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10047248A JPH11249696A (ja) 1998-02-27 1998-02-27 音声符号化/復号化方法

Publications (1)

Publication Number Publication Date
JPH11249696A true JPH11249696A (ja) 1999-09-17

Family

ID=12769958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10047248A Pending JPH11249696A (ja) 1998-02-27 1998-02-27 音声符号化/復号化方法

Country Status (1)

Country Link
JP (1) JPH11249696A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107415A (ja) * 2006-10-23 2008-05-08 Fujitsu Ltd 符号化装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107415A (ja) * 2006-10-23 2008-05-08 Fujitsu Ltd 符号化装置
US8612219B2 (en) 2006-10-23 2013-12-17 Fujitsu Limited SBR encoder with high frequency parameter bit estimating and limiting

Similar Documents

Publication Publication Date Title
US5778335A (en) Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
KR100566713B1 (ko) 음향 파라미터 부호화, 복호화 방법, 장치 및 프로그램, 음성 부호화, 복호화 방법, 장치 및 프로그램
JPH1130997A (ja) 音声符号化復号装置
JPH10187196A (ja) 低ビットレートピッチ遅れコーダ
US7634402B2 (en) Apparatus for coding of variable bitrate wideband speech and audio signals, and a method thereof
US6768978B2 (en) Speech coding/decoding method and apparatus
EP0856185B1 (en) Repetitive sound compression system
CA2440820A1 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
WO2002021091A1 (en) Noise signal analyzer, noise signal synthesizer, noise signal analyzing method, and noise signal synthesizing method
JP3353852B2 (ja) 音声の符号化方法
RU2248619C2 (ru) Способ и устройство преобразования речевого сигнала методом линейного предсказания с адаптивным распределением информационных ресурсов
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JPH09261065A (ja) 量子化装置及び逆量子化装置及び量子化逆量子化システム
JP3050978B2 (ja) 音声符号化方法
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP3232701B2 (ja) 音声符号化方法
JP3153075B2 (ja) 音声符号化装置
JPH11249696A (ja) 音声符号化/復号化方法
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
KR101377667B1 (ko) 오디오/스피치 신호의 시간 도메인에서의 부호화 방법
Sun et al. Speech compression
JP3006790B2 (ja) 音声符号化復号化方法及びその装置
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP3232728B2 (ja) 音声符号化方法