JPH10312198A - 音声符号化方法 - Google Patents
音声符号化方法Info
- Publication number
- JPH10312198A JPH10312198A JP10059516A JP5951698A JPH10312198A JP H10312198 A JPH10312198 A JP H10312198A JP 10059516 A JP10059516 A JP 10059516A JP 5951698 A JP5951698 A JP 5951698A JP H10312198 A JPH10312198 A JP H10312198A
- Authority
- JP
- Japan
- Prior art keywords
- codebook
- noise
- bit
- gain
- bits
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
音声品質を劣化させずにビットレートを低減する。 【解決手段】 G.729 に従ったACELP 音声符号化方法で
あり、雑音成分ベクトルの符号化において、各フレーム
を構成する2つのサブフレームに対し雑音符号帳を構成
する各雑音成分ベクトルをサブフレーム毎に3つ以下の
単位振幅のパルスで構成し、それらの位置を各サブフレ
ーム内で予め決めた取り得る複数の位置から歪が最小と
なるように決める。
Description
s音声符号化方式CS-ACRELP(G.729)と同じ構成を有し、
更に低いビットレートの音声符号化を行うための符号化
方法に関するものである。
の有効利用等を図るため、種々高能率符号化方法が用い
られている。8kbit/s程度の情報量で符号化する方法と
しては、CELP(符号駆動型線形予測)、VSELP(ベクトル
加算駆動型線形予測)、CS-ACELP等が知られている。
r and B.S. Atal "Code-Excited Linear Prediction(CE
LP):High quality Speech at Very Low Rates" Proc. I
CASSP'85, 25.1.1, pp.937-940, 1985(文献1)、 I.
A.Gerson and M.A.Jasiuk:"Vector Sum Excited Linear
Prediction (VSELP) Speech Coding at 8kps" Proc IC
ASSP'90, S9,3, pp.461-464, 1990(文献2)、 A.Kata
oka et al "ITU-T8kbit/s Standard Speech Codec for
Personal Communication Services" Int. Conf.on Univ
ersal Personal communication, pp.818-822, 1995(文
献3)等に述べられている。特に、8kbit/s国際標準G.7
29(CS-ACELP)については、ITU-T Recommendation: G.72
9 Coding of speech at 8kbit/s using conjugate-stru
cture algebraic code excited linear prediction (CS
-ACELP), COM15-152-E, July,1995(文献4)に詳細に述
べられている。
例を示すもので、図中、11は入力端子、12は加算
器、13は減算器、14はフィルタ係数決定部、15は
フィルタ係数量子化部、16は合成フィルタ、17は聴
覚重み付けフィルタ、18は歪みパワー計算部、19は
符号出力部、21は適応符号帳、22は雑音符号帳、2
3は予測利得部、24は利得部、25は利得予測部、2
6は符号帳探索部、27は利得符号帳、28はLSP符
号帳である。
入力音声信号波形のサンプル列から10msのフレーム毎に
取り込んだ所定数のサンプル(以下音声波形ベクトルと
呼ぶ)によりフィルタ係数決定部14で線形予測係数
(LPC係数と呼ぶ)を計算し、フィルタ係数量子化部
15でLPC係数をLSP係数に変換してからLSP符
号帳28を参照して量子化し、量子化LSP係数の量子
化符号Isp を出力すると共に、その量子化LSP係数を
LPC係数に変換し、フィルタ係数として合成フィルタ
16に設定する。
の励振ベクトルを適応的に変化するピッチ成分ベクトル
として保持しており、これら複数のピッチ成分ベクトル
から選択したピッチ成分ベクトル候補Pと、雑音符号帳
22の複数の固定的な雑音成分ベクトル(乱数ベクト
ル)から選択した雑音成分ベクトル候補Cとに利得符号
帳27から選択した利得ベクトル候補g=(gP, gN)を
構成する利得gP,gNを利得部24の乗算器24P,2
4Nでそれぞれ乗算した後、加算器12で加算して合成
フィルタ16に励振ベクトルとして供給し、音声を合成
する。利得予測部25は過去の雑音成分ベクトルよりお
およその利得を予測して、予測利得部23にセットす
る。
トルXから減算され、得られた誤差ベクトルは聴覚重み
付けフィルタ17により聴覚重み付けされ、歪パワー計
算部18に与えられる。歪パワー計算部18は聴覚重み
付き誤差(歪)のパワーを計算し、符号帳探索部26
で、歪パワーが最も小さくなるように適応符号帳21、
雑音符号帳22、利得符号帳27のそれぞれの候補ベク
トルを選択し、符号出力部19は選択したベクトルを表
すそれぞれのインデックスIP,IN,IGを量子化LSP係
数を表す符号ISP と共に符号化結果として出力する。
一例を示すもので、図中、31は入力端子、32は加算
器、33はフィルタ係数復号化部、34は合成フィル
タ、35は適応符号帳、36は雑音符号帳、37は予測
利得部、38は利得部、39は利得予測部、41は利得
符号帳である。図2において、受信した符号ISP からフ
ィルタ係数復号部33でLSP係数を復号し、それをL
PC係数に変換して合成フィルタ34にフィルタ係数と
して設定する。受信した符号IGは利得符号帳41で利得
ベクトル(gP, gN)に復号され、利得部38の乗算部3
8P,38Nに利得gP,gNとして設定される。
ぞれ適応符号帳35、雑音符号帳36からピッチ成分ベ
クトルP、雑音成分ベクトルCが読み出される。ピッチ
成分ベクトルPは利得部38で利得gP が乗算され、雑
音成分ベクトルCは利得予測部39で予測された利得で
予測利得部37により適応的に利得調整され、更に利得
部38で利得gN が乗算される。利得部38からのこれ
ら利得制御されたピッチ成分ベクトルと雑音成分ベクト
ルは加算部32で合成され、励振ベクトルとして合成フ
ィルタ34に与えられ、復号音声が出力される。
タに対する符号化のためのビット分配を示す。G.729 で
はフレーム長は10msであり、フレーム当たり80ビット
が使用される。そのうちLSP係数の符号化には18ビ
ットが割り当てられる。LSP係数の符号化は図4に示
すように、2段のベクトル量子化により量子化される。
1段目のベクトル量子化では、128候補(7ビット)
を有する第1段目のLSP符号帳を使った10次元ベク
トル量子化を行う。2段目では、10ビットのベクトル
量子化を行うものであり、それぞれ32候補(5ビッ
ト)を有する高次側と低次側の2つのLSP符号帳を用
い、それぞれ5次元ベクトル量子化を行う。予測係数の
選択には1ビットが割り当てられている。
ルの符号化には、フレームを5ms の第1サブフレームと
5ms の第2サブフレームに分け、第1サブフレームには
8ビットとパリティ1ビットが割り当てられ、第2サブ
フレームには5ビットが割り当てられる。雑音符号帳2
2を使った雑音成分ベクトルの符号化には各サブフレー
ムに4つのパルスの極性に対する4ビットを含む17ビ
ットが割り当てられている。
雑音成分ベクトルの符号化に使用されている雑音励振パ
ルス構造を各サブフレームに4つのパルスで実現する場
合の、4つのパルスの取り得る予め決めた位置を示す。
即ち、40msのサブフレーム内で例えば1ms 間隔で0〜3
9番までの位置を規定し、これら40個の位置をパルス
#0〜#3に対し、G.729 による図5の表で示すように
分配している。この表から明らかなように、パルス#
0,#1,#2に対してはトラック0、1、2でそれぞ
れ8つの取り得る位置が割り当てられているので、それ
ぞれ3ビットで位置を表すことができ、パルス#3に対
しては2つのトラック3、4で16個の取り得る位置が
割り当てられているので、4ビットでその位置を表すこ
とができる。従って、各サブフレームの4つのパルスの
位置情報は13ビットで表される。13ビットのこれら
位置情報に加え、4つのパルスのそれぞれのサイン(極
性)をそれぞれ1ビットで表しているので、各サブフレ
ーム全体では17ビットが使われている。
号帳27を使った利得ベクトルの符号化には、図3で示
すように各サブフレームで7ビットずつ、計14ビット
が割り当てられている。
ITU国際標準G.729 を用いたコーデックによる通信を行
う際、伝送路の状態によって伝送容量が十分確保できな
いことがあり、通信不能になってしまうという問題があ
った。また、この場合、より伝送容量の少ない符号化方
法によって通信を行うことも考えられるが、その場合に
は全く別の符号化器及び復号器が必要になるという問題
があった。従って、国際標準G.729 と同様の符号構成を
使い、音声品質をそれほど低下させずに信号のビットレ
ートを低減することが望まれるが、音声品質を低下させ
ずに符号構成のどの部分に対するビット割当を有効に削
減することが可能なのか知られていなかった。
た音声符号化において、音声品質をそれほど劣化させる
ことなくビットレートを低減できる音声符号化方法を提
供することである。
P係数と、ピッチ成分ベクトルと、雑音成分ベクトル
と、上記ピッチ成分ベクトルと雑音成分ベクトルに対す
る利得ベクトルとをそれぞれLSP符号帳、適応符号
帳、雑音符号帳、及び利得符号帳を使用してフレーム毎
に入力音声波形ベクトルに対する歪が最小となるよう符
号化するACELP による音声符号化方法であり、上記雑音
成分ベクトルを符号化するステップは各フレームを構成
する2つのサブフレームに対し雑音符号帳を構成する各
雑音成分ベクトルをサブフレーム毎に3つ以下の単位振
幅のパルスで構成し、それらの位置を各サブフレーム内
で予め決めた取り得る複数の位置から合成音声の歪が最
小となるように決める。
9 で使われている図1に示した符号化器の使用を前提に
している。国際標準G.729 は図1の符号化システムにお
いてフレームが10msでフレーム当たり80ビットの符号
化を用いているが、必要に応じてこれを例えば同じフレ
ームサイズで6.4kbit/s の符号化を実現するためには符
号化に使用するビット数をフレーム当たり64ビットに削
減しなければならない。即ち、フレーム当たり16ビット
削減しなければならない。そこで、G.729 で使用される
図3に示した各フレームの符号構成において、どのパラ
メータに対するビット割当を削減すれば音声品質の劣化
を感知できない範囲で有効に削減でき、6.4kbit/s で最
適な符号構成を実現することができるかを検討する必要
がある。ただ、6.4kbit/s 符号化は8kbit/s 符号化(G.
729)の拡張として動作するため、両者の切り換えがスム
ーズに行わなければならない。つまり、6.4kbit/sでも
良い品質であり、8kbit/sとの切り換え時に明らかな異
音が感知されないようにする必要があり、そのような構
成を実現する必要がある。
けるビット削減 ピッチ成分ベクトルは復号音声品質に大きな影響を及ぼ
すので、6.4kbit/s 符号化で高品質を実現するため13
ビットのピッチ情報に付いてはビット削減を行わない。
G.729 では第1サブフレームの8ビットピッチ情報の上
位6ビットを1ビットのパリティで保護している。つま
り、伝送された来たビットが伝送路の途中で誤ったとき
にはパリティによってその誤りを検出し、前回のサブフ
レームのピッチ周期を現サブフレームのピッチ周期とし
て用いる。このパリティビットは誤りがないときには無
駄になるので、このパリティビットを削除する。
ト削減 G.729 は18ビットのLSP量子化器を用いている。L
SP量子化器は4次のフレーム間予測を用いた2ステー
ジのLSP符号帳によって構成されている(文献4)。
第nフレームの量子化されたLSP係数Ωn は次式
予測係数の対角行列、Iは単位行列、Sn は第nフレー
ム(現フレーム)におけるLSP符号帳を使った第2段
目ベクトル量子化出力である。
は、 Sn=S1j + S2j L for j = 0,…,4 =S1j + S2j H for j = 5,…,9 (2) のように2つの符号帳の和で表される。ここで、S1jは
第1段目のLSP符号帳の出力(7ビット)であり、S
2j L は図3の表で説明した第2段目の低次の出力(5ビ
ット)、S2j H は第2段目の高次の出力(5ビット)で
ある。
LSP係数から得られる重み係数である。これらのビッ
トのうち、第1段目のLSP符号帳Sijと予測係数Fi
は性能を大きく左右する。また、LSP係数は低次の係
数ほど音声品質に重要である。
の寄与が少ないと思われる第2段目のLSP符号帳より
ビットを削減する。第2段目のLSP符号帳は入力LS
Pから第1段目のLSP符号帳の出力を引いた残り成分
を量子化するため、第2段目のLSP符号帳はランダム
な値である。LSP係数は0〜πの範囲の値を取る。 ケース(1): 第2段目の高次のLSP符号帳S2j H のビ
ットを5ビットから1ビット削減して4ビットとし、イ
ンデックス番号0〜15の16個の符号により形成す
る。この4ビットのLSP符号帳として8kbit/s 用の5
ビットのLSP符号帳から、6.4kbit/s 用の4ビットの
LSP符号帳として用いるのにふさわしいコードを選ん
で用いてもよい。あるいは5ビットLSP符号帳のイン
デックス0〜31の符号から、単に順番にインデックス
番号0〜15の符号を用いてもよい。
SP符号帳を5ビットで最適になるように設計してあ
る。そこで、第2段目のLSP符号帳を4ビットによっ
て最適になるように再学習してもよい。その場合、8kbi
t/s 用の第2段目高次のLSP符号帳以外に6.4kbit/s
用の第2段目高次のLSP符号帳が必要になる。新しい
符号帳に必要なメモリの増加は80ワードである(5次
元ベクトル×16=80)。
P符号帳のビットを2ビット削減する(5ビット符号帳
を3ビット符号帳にする)。上記と同様に、元のLSP
符号帳の一部を用いることも可能であり、再学習によっ
て第2段目の高次のLSP符号帳を3ビットで最適なも
のを作成、用いることもできる。 ケース(3): 第2段目の高次のLSP符号帳S2j H ビッ
トを1ビット削減し、低次のLSP符号帳S2j L のビッ
トを1ビット削減する(それぞれ5ビット符号帳を4ビ
ット符号帳にする)。
帳の一部を用いることも可能であり、再学習によって第
2段目の高次のLSP符号帳と低次のLSP符号帳をそ
れぞれ4ビットで最適なものを作成し、用いることもで
きる。また、それらを組み合わせることも可能である。
例えば、低次符号帳は再学習を行い、高次符号帳は元の
符号帳の一部を用いる。
場合 G.729 では図5の表に示したように、各サブフレームの
雑音成分ベクトルを4つのパルスで表し、それら4パル
ス#0〜#3の取り得る位置がそれぞれ8、8、8、1
6個規定されている。これらの位置を表すのに13ビッ
ト、各パルスの極性に各1ビットを用いている。この発
明では復号音声品質の劣化を感知できない程度に抑えて
有効にビット削減を達成できる最も効果的なビット削減
の方法として、雑音成分ベクトルの符号化に割り当てる
ビットの削減を以下のいくつかのケースに示すように行
う。
成分ベクトルを各サブフレーム毎に2つのパルス#0、
#1で表し、パルス#0は4ビットにより16個の取り
得る位置を与え、パルス#1には5ビットにより32個
の取り得る位置を与える。これらパルス#0、#1に対
しそれぞれ1ビットの極性ビットを与える。従って、各
サブフレームに4+5+2=11ビットが割り当てられる。これ
により、1フレームで雑音成分ベクトルの符号化に割り
当てるビット数はG.729 の34ビットから22ビットに
削減される。
トルの符号帳は211 個のベクトルを有し、パルス位置の
探索は、雑音成分ベクトルCを励振ベクトルとして合成
フィルタ16で合成した音声の、入力音声波形ベクトル
(ターゲットベクトル)Xに対する歪dr が最小となる
ように行われる。この歪dr は合成フィルタ16のイン
パルス応答行列をHとすると、次式
ルd=HTX であり、ΦはHの相関行列Φ=HTH であ
る。dとΦは予め計算しておき、各ベクトル候補Ck に
付いてdr=(dTCk)2/Ck TΦCkを計算し、最も小さく
なる励振ベクトル(雑音成分ベクトル)Ck を雑音符号
帳22から選択する。励振ベクトルCk は振幅が0、±
1のパルスからなるため、式(4) の計算は極性の掛け算
と足し算のみでできることは文献(4) のG.729 の場合と
同様である。この様な励振ベクトルの形状符号帳をalge
braic 符号帳と呼ぶ。
トラック1、2の全ての組み合わせに付いてdTCkを計
算すれば、最適解が発見できるが、演算量を更に削減す
るため、トラック0のみの位置を先に決定するなどの、
簡略化も可能である。 ケース(2): 図7に示す9ビットの雑音符号帳を用い
る。その励振パルス構造は図7に示すように、各サブフ
レームに互いに極性が逆の2つのパルスを設け、各パル
スは16個の取り得る位置が与えられている。また、取
ることのできない位置が8個規定されている。従って、
2つのパルスの位置はそれぞれ4ビットで表され、それ
ら2つのパルスの極性を同時に反転するビットが1ビッ
ト設けられている。これにより、各サブフレームには9
ビットが割り当てられるので、9ビットの雑音符号帳を
用いることにより、ビットをサブフレーム当たり8ビッ
ト、フレーム当たり16ビット削減できる。9ビットの
雑音符号帳としては、8ビットの形状符号帳と1ビット
の極性ビットの構成を用いる。その時、形状符号帳の励
振ベクトルとして、ランダム信号をそのまま用いるもの
や学習によって励振ベクトルを生成することもできる。
割して、励振ベクトルを2つのサブベクトルの和で表現
する共役構造の符号帳を用いることもできる。例えば、
3ビット形状符号帳と1ビット符号、4ビット形状符号
帳と1ビット符号の構成を用いる。また、G.729と同様
に励振ベクトルを振幅1のパルスで表現することも可能
である。
符号帳を用いる。図8に示す10ビットの雑音符号帳も
図7の場合と同様に各サブフレームが2つのパルスによ
り成る雑音成分ベクトルで構成されているが、図8の場
合、2つのパルスの極性は互いに独立に選択できるよう
各パルスに対し1ビットの極性ビットが設けられてい
る。この雑音符号帳を用いることにより、ビットをサブ
フレーム当たり7ビット、フレーム当たり14ビット削
減できる。10ビットの雑音符号帳としては、9ビット
の形状符号帳と各パルスに1ビットの極性ビットの構成
を用いる。その時、形状符号帳の励振ベクトルとして、
ランダム信号をそのまま用いるものや学習によって励振
ベクトルを得ることもできる。
割して、励振ベクトルを2つのサブベクトルの和で表現
する供役構造の符号帳を用いることもできる。例えば、
4ビット第1形状サブ符号帳と1ビット符号、4ビット
第2形状サブ符号帳と1ビット符号の構成を用いる。ま
た、G.729 と同様に励振ベクトルを振幅1のパルスで表
現することも可能である。
符号帳を用いる。図9の例ではサブフレームを3つのパ
ルスで構成し、パルス#0と#1にはそれぞれ8つの取
り得る位置を与え、パルス#2には16個の取り得る位
置を与えている。従って、これら3つのパルスの位置に
3+3+4=10ビットが割り当てられている。3つのパルスの
相対極性は予め決められており、例えばパルスi0、i1が
正、パルスi2が負であり、これら3つのパルスの極性を
同時に反転制御するビットが1ビット設けられている。
この11ビットの雑音符号帳を用いることにより、ビッ
トをサブフレーム当たり6ビット、フレーム当たり12
ビット削減できる。11ビットの雑音符号帳としては、
10ビットの形状符号帳と1ビットの符号ビットの構成
を用いる。その時、形状符号帳の励振ベクトルとして、
ランダム信号をそのまま用いるものや学習によって励振
ベクトルを得ることもできる。
割して、励振ベクトルを2つのサブベクトルの和で表現
する供役構造の符号帳を用いることもできる。例えば、
5ビット形状符号帳と1ビット符号、4ビット形状符号
帳と1ビット符号の構成を用いる。また、G.729 と同様
に励振ベクトルを振幅1のパルスで表現することも可能
である。
ではなく、2パルス或いは3パルス用としても用いるこ
ともできる。図10にその場合の配置の例を示す。つま
り、ポジション38にはパルスは設定せず、i2が38を
示すときにはi0とi1のみを用いることを意味する。ま
た、i1が37の時には、i0とi2のみを用いることを意味
する。この時、i2は38には設定しない。さらに、i0が
35の時には、i1とi2のみを用いることを意味する。但
し、この時、i1は37には設定しない。このような規則
に従って探索を行うことにより、2パルス或いは3パル
スの組み合わせの中から最適なものを探す。
クトルの探索に条件付き直交化を導入する。CELP符号化
では雑音符号帳の探索を行う時、前述のように雑音符号
帳22の第k番目の雑音成分ベクトルCk を励振ベクト
ルとして合成フィルタ16に与え(即ち利得gP=0,
gN=1に設定する)、その出力合成音声HCk の、入
力音声ベクトル(ターゲットベクトル)Xに対する前述
の式(4) で与えられる歪が最も少なくなる励振ベクトル
(雑音成分ベクトル)Ck を選択する。
合成して使用し、入力音声を符号化する場合、ピッチ成
分ベクトルを決定した後にそれを考慮して最適な雑音成
分ベクトルを雑音符号帳から探索するため、合成フィル
タ16の出力において雑音成分ベクトル中に含まれてい
るピッチ成分ベクトルと平行な成分を除去する(直交化
する)ことにより合成音声の品質を高めることができる
ことが知られている。
た雑音励振ベクトルH^Ck は次式で与えられる。
ゲットベクトルXと合成音声の間の歪dr は
の第2項
の分子は
ピッチ成分ベクトルPによる励振出力HPに対して直交
化したものと等価である。この変形によって式(4)の分
子と同等の演算となる。
おくことによって式(6)は
をパルスの数だけ足せば求めることができる。以上、直
交化することによる演算量の増加はA(ETCk)2の成分
だけであり、わずかである。
交化によって音声品質は向上する。しかし、例えば、図
6乃至10のようなalgebraic (形状)符号帳を雑音符
号帳として用いた場合には、探索の演算量が少ない代わ
りに、雑音励振ベクトルのパルス位置の制約が大きいの
で、必ずしも品質が向上するとは限らない。そのため、
直交化による探索が望ましい場合のみ式(7)による探索
を行い、それ以外は式(4)による探索を行うこととす
る。その切り換えの条件として、ピッチの最適利得g
P opt を用いる。最適ピッチ利得はで与えられる。
いので、ピッチ成分ベクトルに対する直交化は有効であ
る。そのため、 gP opt≧gth (12) の条件を満たす時にのみ直交化探索を行う。閾値gthの
値としては、例えば0.5を用いる。また、切り換えの条
件として、 Pr = 20 log{‖X‖2/‖X−HP‖2} (13) で表されるピッチの予測利得を用いても良い。ここで、
Xは入力音声波形ベクトル、HPはピッチ波形ベクトル
である。上記と同様にピッチの予測利得が大きい時のみ
直交化探索を行う。
を用いてピッチ利得と雑音励振ベクトルの利得を量子化
している。それぞれの利得gP,gNは2つのサブ符号帳
の和によって表現されている。また、この符号帳を作成
する際には、伝送路誤りを考慮して学習を行っている。
誤りを考慮した学習を行うことによって、ゲインを表す
符号のビットが伝送路の途中で誤っても、その影響は少
なくてすむ。その代償として、伝送路誤りのない条件で
の性能が、伝送路誤りを考慮しないで作成した符号帳を
使用した場合に比べて劣化する。
ットを削除して、6ビットのゲイン符号帳を作成する。
その場合、符号帳のビットが削減されるため、再生音声
により品質劣化が生じるので、この実施例ではG.729 の
ゲイン符号帳の作成に用いた誤り率err(=0.5%)より小さ
い誤り率を用いてゲイン符号帳を作成することによっ
て、7ビット符号帳の場合に比べて、品質の劣化を少な
く押さえることができる。また、この新しい符号帳は6
ビット一括のベクトル量子化を行う1つの符号帳として
構成してもよいし、G.729 と同様に、3ビットずつの2
つの符号帳に分割して構成してもよい。2つの符号帳を
用いる場合には、新しいゲイン符号帳によりメモリ量の
増加はわずか32ワードである(8*2*2=32)。
音符号帳のみからビットを削減して9ビットの雑音符号
帳を用いる。図11のCoder A に、雑音符号帳に9ビッ
ト(形状に8ビット、極性に1ビット)のシングル雑音
符号帳を用いた場合のそれぞれのパラメータの符号化に
対するビット割当の例を示す。図12のCoder D に、雑
音符号帳に9ビット(形状に4+3ビット、極性に1+
1ビット)の供役構造の雑音符号帳を用いた場合のそれ
ぞれのパラメータの符号化に対するビット割当の例を示
す。図13のCoder G に、雑音符号帳に9ビット(2パ
ルス、各パルス位置に4ビット、2本のパルスに対する
極性に1ビット)の雑音符号帳を用いた場合のビット割
当の例を示す。
SP符号帳の第2段目の高次のビットを1ビット削減し
て4ビットとし、10ビットの雑音符号帳を用いる。図
11のCoder B に、雑音符号帳に10ビット(形状に9
ビット、極性に1ビット)のシングル雑音符号帳を用い
た場合のビット割当の例を示す。図12のCoder E に、
雑音符号帳に10ビット(形状に4+4ビット、極性に
1+1ビット)の供役構造の雑音符号帳を用いた例を示
す。図13のCoder H に、雑音符号帳に10ビット(2
パルス、各パルス位置に4ビット、各パルスに対する極
性に各1ビット)の雑音符号帳を用いた場合のビット割
当の例を示す。
SP符号帳の第2段目の高次のビットを1ビット削減し
て4ビットとし、ゲイン符号帳を1ビット削減して6ビ
ットとし、11ビットの雑音符号帳を用いる。図11の
Coder C に、雑音符号帳に11ビット(形状に10ビッ
ト、極性に1ビット)のシングル雑音符号帳を用いた場
合のビット割当の例を示す。図12のCoder F に、雑音
符号帳に11ビット(形状に4+5ビット、極性に1+
1ビット)の供役構造の雑音符号帳を用いた場合のビッ
ト割当の例を示す。図13のCoder I に、雑音符号帳に
11ビット(3パルス、各パルス位置に3+3+4ビッ
ト、3本のパルスに対する極性に1ビット)の雑音符号
帳を用いた場合のビット割当の例を示す。この時、11
ビットの雑音符号帳として、図10の2、3パルス型を
用いることもできる。また、利得符号帳は6ビット一括
の符号帳と3+3の供役構造の符号帳のいずれも用いる
ことができる。
て、パリティビットを削減する代わりにLSP符号帳の
第2段目の高次のビットをさらに1ビット、計2ビット
削減する構成も可能である(図14のcoder J, K)。 ケース(5): 上記ケース(2),(3) において、パリティビ
ットを削減する代わりにLSP符号帳の第2段目の低次
ビットを1ビット削減し4ビットとする構成も可能であ
る(図15のCoder L, M)。
て、従来の雑音励振ベクトルの探索[式(4) による探
索]を行うこともでき、あるいはピッチ波形に対する直
交化探索[式(7) による探索]を行うこともでき、或い
は条件によって両者を切り換えて行うこともできる。 評価実験 上記のケース(3) のCoder I のビット配分において、1
1ビットの雑音符号帳に2、3パルス型を用い、ピッチ
の最適ゲインによる探索の切り換えを行う符号化法につ
いて主観評価でその性能を評価した。評価は1〜5の5
段階評価で、被験者は24名である。
kbit/sのADPCM, 8kbit/sのG.729 及び6.3kbit/s のG.72
3.1 を用いた。G.723.1 はフレーム長が30msと長く、先
読み7.5ms による符号化である。今回の6.4kbit/s 符号
化法はフレーム長が10ms、先読み5ms である。結果を図
16に示す。基準の入力音声レベル(-26dB) に対して、
本発明による方法は雑音成分ベクトルを表すパルス数を
3以下に減らし、符号化のビット割当を大きく削減して
もG.723.1 と同等の品質を実現していることがわかる。
また、レベルが変動した場合(-16dB,-36dB) でも同等の
品質を実現している。また、ランダムビット誤り0.1%の
結果より、ピッチパリティを用いなくても大きな劣化が
見られない。さらに、10ms毎に6.4kbit/sと8kbit/sを切
り換えたときの結果より、切り換えによる劣化が少ない
ことがわかる。
雑音符号帳を構成する各雑音成分ベクトルの第1及び第
2サブベクトルを表すパルスの数を3以下に減らすこと
により、音声品質を大きく劣化させずに符号化割当ビッ
ト数を減らすことができる。これをG.729(8kbit/s)の他
のパラメータに対する符号化のモジュールとテーブルの
変更による割当ビットの削減と組み合わせることによ
り、6.4kbit/s 符号化を実現でき、回線の容量や用途に
応じてどちらかのビットレートを選択することができ
る。これにより、伝送容量が十分確保できない時でも通
信を可能にし、また、G.729 と共通のモジュールを用い
て符号化を実現することによって、メモリ等の増加を少
なく抑えながら、必要に応じてビットレートを選択可能
とする。
LP符号化器のブロック図。
図。
符号化に対するビット割当を示す表。
ビット割当の詳細を示す表。
表。
例を示す表。
表。
示す表。
合のそれぞれのパラメータに対する符号化のビット割当
を示す表。
場合のそれぞれのパラメータに対する符号化のビット割
当を示す表。
ぞれのパラメータに対する符号化のビット割当を示す
表。
に削減した場合のそれぞれのパラメータに対する符号化
のビット割当を示す表。
に削減した場合のそれぞれのパラメータに対する符号化
のビット割当を示す表。
方法に付いて主観評価による性能比較結果を示す表。
Claims (24)
- 【請求項1】 LSP係数と、ピッチ成分ベクトルと、
雑音成分ベクトルと、上記ピッチ成分ベクトルと雑音成
分ベクトルに対する利得ベクトルとをそれぞれLSP符
号帳、適応符号帳、雑音符号帳、及び利得符号帳を使用
してフレーム毎に入力音声波形ベクトルに対する歪が最
小となるよう符号化するACELP による音声符号化方法で
あり、 上記雑音成分ベクトルを符号化するステップは各フレー
ムを構成する2つのサブフレームに対し雑音符号帳を構
成する各雑音成分ベクトルをサブフレーム毎に3つ以下
の単位振幅のパルスで構成し、それらの位置を各サブフ
レーム内で予め決めた取り得る複数の位置から歪が最小
となるように決める。 - 【請求項2】 請求項1の音声符号化方法において、上
記雑音符号帳として、ランダム信号又は学習により生成
されたパルス位置を規定する励振ベクトルからなる形状
符号帳と、それらのパルスの極性とから構成された雑音
符号帳を使用する。 - 【請求項3】 請求項1の音声符号化方法において、上
記雑音符号帳として2つのサブベクトルで表現する共役
構造の雑音符号帳を用いる。 - 【請求項4】 請求項1の音声符号化方法において、上
記雑音符号帳の各雑音成分ベクトルは2つのサブベクト
ルからなり、それぞれのサブベクトルは単位振幅の2つ
のパルスから構成されている。 - 【請求項5】 請求項1の音声符号化方法において、上
記雑音符号帳の各雑音成分ベクトルは2つのサブベクト
ルからなり、それぞれのサブベクトルは単位振幅の3つ
のパルスから構成されている。 - 【請求項6】 請求項1の音声符号化方法において、上
記雑音符号帳の各雑音成分ベクトルは2つのサブベクト
ルからなり、それら2つのサブベクトルはそれぞれ単位
振幅の2つのパルスと3つのパルスから構成されてい
る。 - 【請求項7】 請求項1の音声符号化方法において、上
記雑音符号帳での上記雑音成分ベクトルの探索は、最適
なピッチ利得の値が予め決めた値を越えた場合に、上記
雑音成分ベクトルをピッチ成分ベクトルに対し直交化し
て探索を行い、上記ピッチ利得が上記予め決めた値を越
えない場合は直交化を行わないで探索を行う。 - 【請求項8】 請求項2〜6のいずれかの音声符号化方
法において、上記雑音符号帳に対するビット割当てだけ
を削減して6.4kbit/s の音声符号化を実施する。 - 【請求項9】 請求項1の音声符号化方法において、上
記利得符号帳として6ビットのベクトル量子化された利
得符号帳を使用する。 - 【請求項10】 請求項1の音声符号化方法において、
上記利得符号帳として共役構造の3+3ビットの利得符
号帳を使用する。 - 【請求項11】 請求項9又は10の音声符号化方法に
おいて、上記利得符号帳は、上記G.729 による符号帳作
成に使用された伝送路誤り率より小さい誤り率を使って
学習により作成されたものを使用する。 - 【請求項12】 請求項11の音声符号化方法におい
て、上記利得符号帳の作成に使用される伝送路誤り率は
0.5%より小である。 - 【請求項13】 請求項1の音声符号化方法において、
上記ピッチ成分ベクトルの符号に対しパリティビット無
しでビットを割り当てる。 - 【請求項14】 請求項1又は13の音声符号化方法に
おいて、上記LSP符号化は、第1のLSP符号帳を使
用する第1段目の符号化ステップと、第2のLSP符号
帳を使用する第2段目の符号化ステップを含み、上記第
2のLSP符号帳のビット数はG.729 における第2LS
P符号帳のビット数10より小とされている。 - 【請求項15】 請求項14の音声符号化方法におい
て、上記第2のLSP符号帳として、上記G.729 におけ
る第2LSP符号帳の一部を使用する。 - 【請求項16】 請求項14の音声符号化方法におい
て、上記第2のLSP符号帳として、学習により新たに
生成したLSP符号帳を使用する。 - 【請求項17】 請求項14、15又は16の音声符号
化方法において、上記第2のLSP符号帳を構成する各
ベクトルはその低次側及び高次側の一方又は両方のビッ
ト数が5ビットより小とされている。 - 【請求項18】 請求項17の音声符号化方法におい
て、上記雑音符号帳として、ランダム信号又は学習によ
り生成されたパルス位置を規定する励振ベクトルからな
る形状符号帳と、それらのパルスの極性とから構成され
た雑音符号帳を使用し、全体として6.4kbit/s 音声符号
化を実現している。 - 【請求項19】 請求項17の音声符号化方法におい
て、上記雑音符号帳として2つのサブベクトルで表現す
る共役構造の雑音符号帳を用いており、全体として6.4k
bit/s 音声符号化を実現している。 - 【請求項20】 請求項17の音声符号化方法におい
て、上記雑音符号帳の各雑音成分ベクトルは2つのサブ
ベクトルからなり、それぞれのサブベクトルは単位振幅
の2つのパルスから構成されており、全体として6.4kbi
t/s 音声符号化を実現している。 - 【請求項21】 請求項17の音声符号化方法におい
て、上記雑音符号帳の各雑音成分ベクトルは2つのサブ
ベクトルからなり、それぞれのサブベクトルは単位振幅
の3つのパルスから構成されており、全体として6,4kbi
t/s 音声符号化を実現している。 - 【請求項22】 請求項17の音声符号化方法におい
て、上記雑音符号帳の各雑音成分ベクトルは2つのサブ
ベクトルからなり、それら2つのサブベクトルはそれぞ
れ単位振幅の2つのパルスと3つのパルスから構成され
ており、全体として6.4kbit/s 音声符号化を実現してい
る。 - 【請求項23】 請求項17の音声符号化方法におい
て、上記利得符号帳として共役構造の3+3ビットの利
得符号帳を使用する。 - 【請求項24】 請求項17の音声符号化方法におい
て、上記雑音符号帳での上記雑音成分ベクトルの探索
は、最適なピッチ利得の値が予め決めた値を越えた場合
に、上記雑音成分ベクトルをピッチ成分ベクトルに対し
直交化して探索を行い、上記ピッチ利得が上記予め決め
た値を越えない場合は直交化を行わないで探索を行う。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP05951698A JP3582693B2 (ja) | 1997-03-13 | 1998-03-11 | 音声符号化方法 |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5946697 | 1997-03-13 | ||
| JP9-59466 | 1997-03-13 | ||
| JP05951698A JP3582693B2 (ja) | 1997-03-13 | 1998-03-11 | 音声符号化方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH10312198A true JPH10312198A (ja) | 1998-11-24 |
| JP3582693B2 JP3582693B2 (ja) | 2004-10-27 |
Family
ID=26400515
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP05951698A Expired - Lifetime JP3582693B2 (ja) | 1997-03-13 | 1998-03-11 | 音声符号化方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3582693B2 (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003506764A (ja) * | 1999-08-06 | 2003-02-18 | モトローラ・インコーポレイテッド | 情報コード化のための階乗パッキング方法及び装置 |
| JP2006510063A (ja) * | 2002-12-17 | 2006-03-23 | クゥアルコム・インコーポレイテッド | サブサンプルされた励起波形コードブック |
| US7047184B1 (en) | 1999-11-08 | 2006-05-16 | Mitsubishi Denki Kabushiki Kaisha | Speech coding apparatus and speech decoding apparatus |
| USRE43209E1 (en) | 1999-11-08 | 2012-02-21 | Mitsubishi Denki Kabushiki Kaisha | Speech coding apparatus and speech decoding apparatus |
| WO2015025454A1 (ja) | 2013-08-22 | 2015-02-26 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声符号化装置およびその方法 |
-
1998
- 1998-03-11 JP JP05951698A patent/JP3582693B2/ja not_active Expired - Lifetime
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003506764A (ja) * | 1999-08-06 | 2003-02-18 | モトローラ・インコーポレイテッド | 情報コード化のための階乗パッキング方法及び装置 |
| US7047184B1 (en) | 1999-11-08 | 2006-05-16 | Mitsubishi Denki Kabushiki Kaisha | Speech coding apparatus and speech decoding apparatus |
| EP2028649A2 (en) | 1999-11-08 | 2009-02-25 | Mitsubishi Denki Kabushiki Kaisha | Pulse location search for speech coding |
| EP2028650A2 (en) | 1999-11-08 | 2009-02-25 | Mitsubishi Denki Kabushiki Kaisha | Speech pulse location search for speech coding |
| EP2154682A2 (en) | 1999-11-08 | 2010-02-17 | Mitsubishi Denki Kabushiki Kaisha | Speech coding methods |
| USRE43190E1 (en) | 1999-11-08 | 2012-02-14 | Mitsubishi Denki Kabushiki Kaisha | Speech coding apparatus and speech decoding apparatus |
| USRE43209E1 (en) | 1999-11-08 | 2012-02-21 | Mitsubishi Denki Kabushiki Kaisha | Speech coding apparatus and speech decoding apparatus |
| JP2006510063A (ja) * | 2002-12-17 | 2006-03-23 | クゥアルコム・インコーポレイテッド | サブサンプルされた励起波形コードブック |
| WO2015025454A1 (ja) | 2013-08-22 | 2015-02-26 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声符号化装置およびその方法 |
| US9747916B2 (en) | 2013-08-22 | 2017-08-29 | Panasonic Intellectual Property Corporation Of America | CELP-type speech coding apparatus and method using adaptive and fixed codebooks |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3582693B2 (ja) | 2004-10-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3346765B2 (ja) | 音声復号化方法及び音声復号化装置 | |
| KR100938017B1 (ko) | 벡터 양자화 장치 및 방법 | |
| US5729655A (en) | Method and apparatus for speech compression using multi-mode code excited linear predictive coding | |
| JP3354138B2 (ja) | 音声符号化 | |
| US5142584A (en) | Speech coding/decoding method having an excitation signal | |
| JP3196595B2 (ja) | 音声符号化装置 | |
| US5970444A (en) | Speech coding method | |
| US5659659A (en) | Speech compressor using trellis encoding and linear prediction | |
| US5727122A (en) | Code excitation linear predictive (CELP) encoder and decoder and code excitation linear predictive coding method | |
| JPH11327597A (ja) | 音声符号化装置及び音声復号化装置 | |
| KR100561018B1 (ko) | 음성 부호화 장치와 방법, 및 음성 복호화 장치와 방법 | |
| US20030225576A1 (en) | Modification of fixed codebook search in G.729 Annex E audio coding | |
| Ohmuro et al. | Coding of LSP parameters using interframe moving average prediction and multi-stage vector quantization | |
| JP3582693B2 (ja) | 音声符号化方法 | |
| CA2336360C (en) | Speech coder | |
| EP1154407A2 (en) | Position information encoding in a multipulse speech coder | |
| US6856955B1 (en) | Voice encoding/decoding device | |
| JP2613503B2 (ja) | 音声の励振信号符号化・復号化方法 | |
| JP3299099B2 (ja) | 音声符号化装置 | |
| JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
| JP3874851B2 (ja) | 音声符号化装置 | |
| JP2808841B2 (ja) | 音声符号化方式 | |
| JP2775533B2 (ja) | 音声の長期予測装置 | |
| KR100955126B1 (ko) | 벡터 양자화 장치 | |
| JPH0612097A (ja) | 音声の予測符号化方法および装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040120 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040319 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040629 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20040722 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040722 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100806 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100806 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110806 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120806 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130806 Year of fee payment: 9 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| EXPY | Cancellation because of completion of term |