JPH0527798A - 音声の線形予測パラメータ符号化方法 - Google Patents
音声の線形予測パラメータ符号化方法Info
- Publication number
- JPH0527798A JPH0527798A JP3180819A JP18081991A JPH0527798A JP H0527798 A JPH0527798 A JP H0527798A JP 3180819 A JP3180819 A JP 3180819A JP 18081991 A JP18081991 A JP 18081991A JP H0527798 A JPH0527798 A JP H0527798A
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- representative
- stage
- matrices
- quantization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
記憶量を削減する。 【構成】 P個の音声の線スペクトル対をmフレーム分
ごとにm×pの入力行列とし、これと、第1符号帳11
に保持するR1 個の代表行列Cij (1) (r)との距離
(歪み)を歪み判定部12で順次計算し、最も歪みの小
さい順にU個の代表行列Cij (1) (ru),(u=1,
2,…,U)を1段目の量子化候補値として2段目量子
化部へ送る。2段目量子化部はその第2符号帳14に保
持するR2 個の代表行列のr番目のものCij (2) (r)
を、第u番目の量子化候補値に行列加算器15で加え、
この行列と入力行列Fij(k′)との歪みが最小となる
uを歪み判定部16で選ぶ。このようにして選んだ歪み
が小さい順のU個の行列を2段目の量子化候補値とす
る。以下同様のことを各段で行う。
Description
性を表す線形予測パラメータを複数フレーム分蓄えて行
列形式とし、この行列形式のパラメータを、あらかじめ
決められた代表行列で表現して量子化する符号化する方
法に関する。
クトル包絡特性を表す線形フィルタの係数は、線形予測
分析を一定時間間隔で行って計算され、偏自己相関(P
ARCOR)係数や、線スペクトル対(LSP)などの
パラメータに変換、量子化され、ディジタル符号に変換
した後、記憶、または伝送された。これらの方法の詳細
は、例えば、古井貞煕著“ディジタル音声処理”(東海
大学出版会)に記載されている。
間隔を長くとれば、記憶または伝送のための情報量を減
らすことができるが、あまり長くしすぎると音声を合成
するときに記憶または伝送しなかった時間におけるフィ
ルタ係数の推定精度が低下し、再生音声の品質劣化につ
ながった。そこで、一般には上記時間間隔を20ミリ秒
程度以下に設定している。
行うための方法として、マトリクス量子化と呼ばれる方
法がある。これは、線形予測分析は短い時間間隔、例え
ば10ミリ秒から20ミリ秒程度の間隔で行っておき、
数組の分析結果をひとまとめにして量子化する方法であ
る。線形予測パラメータは、時間方向、およびパラメー
タの次元方向にそれぞれ相関性がある。マトリクス量子
化はこの相関性をうまく利用して量子化の効率をあげる
方法である。
て、直接数組の予測パラメータを量子化しようとする
と、非常に多くの計算量と、符号帳のための多くの記憶
とが必要になり、現実的なハードウェア規模のもとでは
それほど能率をあげることができない。この発明の目的
は、マトリクス量子化が量子化歪みを小さくする観点で
高能率であるという利点を生かしつつ、現実的な計算量
と記憶量のもとでの高能率な線形予測パラメータの符号
化方法を提供することにある。
じめ決められた代表行列のうちで、入力行列との誤差が
最小となる第1段の代表行列を決定し、2以上の任意の
数Nについてあらかじめ決められた代表行列のうちで、
既に決定されている第1段〜第N−1段までの代表行列
の和で表現される行列に、第N段の代表行列を加算した
行列と、入力行列との誤差が最小となるように第N段の
代表行列を決定し、入力行列の量子化値を第1段〜第N
段までの代表行列の和で表現する。
リクス量子化において、量子化の手順を複数の簡易な手
順の組に分解することにより、計算量と記憶量とを現実
的なハードウェア規模において実現可能なレベルにまで
低減する。しかも簡易な手順の組に分解する際に、量子
化効率の低下を極力抑えるように、各段の間に、ディレ
イドディシジョンと呼ばれる手法を用いる。これは、各
段ごとに最適な量子化値をひとつに決定してしまうので
はなく、いくつかの量子化候補を残しておき、全段にお
ける最適量子化値をダイナミックプログラミングの手法
によって決定する。このとき、残しておく候補数は多い
ほど量子化性能の低下を防ぐことができるが、逆に計算
量は候補数に比例して増加するため、目的とするハード
ウェア規模とのかねあいになる。一般には4〜8個あれ
ば十分である。
て、請求項3の発明によれば、2段またはそれ以上に分
割し、2段のときは2段目を、それ以上のときは2段目
以降の任意の段を複数のサブマトリクスに区分けし、各
サブマトリクスごとに最適量子化する。一般に線形予測
パラメータを次元方向と時間方向とに並べたマトリクス
の各行、各列の要素の間には相関性が大きいが、適当な
ビット数のマトリクス量子化器で量子化した、誤差マト
リクスの各要素は、ガウス分布に従い、相関性はないか
または最初のマトリクスに比べて非常に小さいものと考
えられる。従って、2段目以降の量子化には、最初のマ
トリクスを適当なサイズに区分けして、それぞれに最適
量子化をしても、品質の劣化は小さい。しかも1段目と
2段目の間に前記ディレイドディシジョンを用いれば、
更に劣化を小さく抑えることができる。
して、適当なビット数を割り当てることによって量子化
効率の低下を抑えながら計算量の低減を実現することが
できる。なお、簡易な手順の組に処理を分ける際に、細
かく割れば割るほど計算量は低減できるが、除々に量子
化品質が劣化することはやむを得ない。
後の各サブマトリクスの重要性(聴覚への影響など)の
違いによって、ビット数の割当を不均一にして効果を上
げることもできる。
説明する。図1にこの発明による音声の線形予測パラメ
ータ符号化法の実施例を適用した符号化装置の構成例を
示す。入力端子1からは、標本化されたデジタル化され
た音声信号s(t)が入力される。線形予測分析部2で
は、音声信号s(t)のN個のサンプルをいったんデー
タバッファに蓄えた後、これらのサンプルに対して線形
予測分析を行って、一組の線形予測係数ai (k),
(i=1,2,…,p)を算出する。ここで、パラメー
タpは分析次数と呼ばれ、一般には10〜16程度の値
が用いられる。また上記Nサンプルの単位はフレーム更
新周期または単にフレーム周期と呼ばれる。この結果、
N個の入力サンプルに対してp個の線形予測係数が出力
されることになる。そこでここでは、線形予測係数の時
刻を表す単位として、N個のサンプルを単位とした時間
単位をkで表し、「第kフレームのi次の線形予測係数
ai (k)」などと呼ぶことにする。なお、各フレーム
時刻kにおいて、p個ずつの線形予測係数が得られるこ
とは言うまでもない。これらの処理方法の詳細は、前述
の古井の著書に記載されている。
予測係数を同じくp個の線スペクトル対、fi (k)に
変換する。この実施例において線形予測係数を線スペク
トル対に変換したのは、線スペクトル対の性質が、この
発明における前述の手順の分割に対して、品質の劣化が
少ないという利点を利用するためである。しかしこの発
明においては、この線スペクトル対算出部3は必ずしも
必要ではなく、線形予測係数ai (k)を直接バッファ
部4に入力してもよい。また、線スペクトル対のほか、
偏自己相関(PARCOR)係数など、線形予測係数と
相互変換が可能な任意のパラメータに変換してもよい。
をmフレーム分、即ちm×p個のパラメータ fi (k−j),i=1,2,…,p j=m−1,m−2,…,1,0 を蓄え、mフレーム分たまった時点で、これらの値をマ
トリクス量子化部5に供給する。図1では説明を簡単に
するため、m=4の場合について示した。
たm×p個のパラメータの組すなわちマトリクス
た形式に符号化され、伝送または蓄積される。ここで、
時刻を表すインデックスとしてk′を用いたのは、イン
デックスkで表されるmフレーム分を1単位とする時間
単位であるためである。
の線スペクトル対に戻した後、バッファ部9に蓄える。
バッファ部9は、mフレーム分の線スペクトル対を1フ
レームずつ線形予測係数変換部10に送る。線形予測係
数変換部10は、受け取った線スペクトル対の量子化値
を線形予測係数ai * (k)に変換して出力する。
を、簡易な(小規模な)マトリクス量子化器の縱続接続
で実現した一例である。図は簡単のため、3段の構成を
示す。ここで、図1におけるマトリクス量子化部5への
入力 fi (k−j),i=1,2,…,p j=m−1,m−2,…,1,0 をマトリクス形式に並べたものを Fij(k′) と表す。段数をNとすると図2に示すように、N組の符
号帳11,14,18、歪判定部12,16,20、
(N−1)組の行列加算器15,19の縱続的な組み合
わせからなる。行列加算器は1段目が不要である。
各コードマトリクス(代表行列)C ij (1) (r)を順に
歪み判定部12に送る。歪み判定部12では予め定義さ
れた歪み尺度に基づいて入力行列Fij(k′)とコード
マトリクスCij (1) (r)との歪みを計算し、最も歪み
の小さい順にU個のコードマトリクスC
ij (1) (ru ),(u=1,2,…,U)を1段目の量
子化候補値
任意の尺度を用いてよいが、通常は線スペクトル対のユ
ークリッド距離や、いったんケプストラムと呼ばれるパ
ラメータに変換したのち、ユークリッド距離をはかる等
の尺度が用いられる。上記2つの尺度では、後者の方が
人間の聴覚特性に似ているという観点から、一般に優れ
ていると言われている。次に2段目の量子化部では、第
2符号帳14の保持するR2 個のコードマトリクス(代
表行列)のうち、r番目のマトリクスをCij (2) (r)
とし、これを1段目の第u番目の量子化候補値
ず入力行列 Fij(k′) と
らに、 Fij(k′) と
保持する。以後、各段において同様の手順を繰り返すこ
とにより、N段の小規模マトリクス量子化器の縱続接続
によるひとつのマトリクス量子化器を構成する。なお、
最終段においては、U個の量子化候補を保持する必要が
なく、最も歪みの小さい最適な量子化値に決定してよ
い。
減するための構成の一例である。図3の構成は、図2の
構成において、段数を2段にし、第2段目を変形した形
になっている。1段目量子化部39は図2における1段
目と全く同様にして、U個の量子化候補値
部40に送る。2段目の量子化部40では、まず、サブ
マトリクス分割部24で1段目の量子化(候補)マトリ
クスを、適当なサイズのサブマトリクスに区分けする。
図3では、簡単のため4つに区分けしたものとして示し
た。区分けする個数及び区分けされたサブマトリクスの
サイズは、量子化の品質(能率)という観点からすれ
ば、個数は少なく、サイズは大きい方が優れている。し
かし、この発明では、計算量をハードウェア規模に見合
った量に削減することを目的としているので、ハードウ
ェア規模によって個数とサイズが制約されることにな
る。現在のハードウェア技術の進歩を考慮すれば、1段
目も含めて、各小規模マトリクス量子化器に割り当てる
ビット数が、8〜10ビット程度になるようなサブマト
リクスの個数と、サイズに設定すれば、実時間処理が可
能であると考えられる。ただし、ハードウェア価格を下
げたい場合には、さらに多くのサブマトリクスに区分け
しても良い。ここでは、一例として、図4に示すように
区分けされたものとする。また、区分けするときに、必
ずしも連続する行、および連続する列でサブマトリクス
をつくる必要はなく、例えば、もとのマトリクスの1行
目と8〜10行目、1列目と4列目で4×2のサブマト
リクスを作っても良い。
分割部41で入力マトリクス Fij(k′) も同様の区分けをする。各サブマトリクスに区分けされ
た Fij(k′) と
し、それぞれ
補サブマトリクスは、それぞれs番目の行列加算器に送
られる。第2,5符号帳はps ×ms のコードマトリク
ス(代表行列)をR2s個蓄えている。これを Cij (2s)(r) とする。これらを順に行列加算器に送り、 Fsij(k′) と
sについて1段目の第u番目の量子化候補に対する最適
量子化サブマトリクスを決定した後、すべてのサブマト
リクスは、マトリクス合成部37に送られ、もとのマト
リクス形式に戻される。これを
な候補uを歪み判定部38で決定し、マトリクス量子化
器5の出力とする。
を省略したが、LBGアルゴリズムによって高性能な符
号帳を設計することができる。LBGアルゴリズムにつ
いては、文献Y.Linde,A.Buzo,R.M.
Gray:“AnAlgorithm for Vec
tor Quantizer Design”,IEE
E Trans.Commum.COM−28,p.p
84−951980に記載されている。
音声認識や話者認識などの、線形予測パラメータを音声
の特徴量として用いるアプリケーションへの応用が可能
である。またこの発明は、その一部または、全部を論理
回路の組み合わせによるハードウェアで実現してもよい
し、一部または全部をソフトウェアプログラムの形で実
現してもよい。
が削減されるかを次の例によって示す。例えば、10次
元の線形予測パラメータを時間方向に4つまとめたマト
リクスを作り、これを量子化するために40ビットを与
えたとする。これをそのままマトリクス量子化しようと
すると、記憶パターンは 240(パターン) 計算量は、 80×240(回) の加減算、 40×240(回) の乗算と、 240(回) の比較演算が必要となり、現実的なハードウェア規模の
もとでは実現不可能である。
に示す構成によって、10ビットずつ4段に分割したと
すると、ディレイドディシジョンを用いない、即ち候補
が1つの場合の記憶量は、 210×4=4096(パターン) 計算量は、 80×210×4=327680(回) の加減算、 40×210×4=163840(回) の乗算と、 210×4=4096(個) の比較演算となり、十分実現可能である。ディレイドデ
ィシジョンを用いても、加減算、乗算、比較演算が候補
数に比例して増えるのみであるから、4〜8個の候補で
あれば十分可能である。ハードウェアが許せば、分割す
る段数は少ない方が分割による品質の劣化が少ない。
構成によって、1段目のマトリクス量子化に10ビッ
ト、2段目を図4の様に6×2のマトリクスを2つと、
4×4のマトリクス1つに区分けし、それぞれに10ビ
ットを割り当てて量子化をしたとすると、ディレイドデ
ィシジョンを用いない、即ち候補が1つの場合の記憶量
は、 210×4=4096(パターン) 計算量は、 (80+32+24×2)×210=163840(回) の加減算、 (40+16+12×2)×210=81920(回) の乗算と、 210×4=4096(個) の比較演算となり、ビットの分割が上記ひとつめの方法
と同じでも、計算量はさらに半分になっている。上記例
ではビットの分割を同じにして計算量の比較ができるよ
うにしたが、実際にはもっと細かく割ってもよく、細か
く割るほど計算量は低減される。その特別な例として、
サブマトリクスが時間方向1次、パラメータ次元方向全
次元のベクトルになるように分割すれば、マトリクス量
子化の誤差に対して、ベクトル量子化を適用することに
なり、さらに小さく分割して1行列要素ごとになるよう
に分割すれば、マトリクス量子化の誤差に対してスカラ
量子化を適用したことになる。
が低減できるのみならず、2段目の計算を並列処理プロ
セッサによって、並列処理することが可能になる。マト
リクス量子化において最も計算量がかかるのが、コード
マトリクスを加算して、歪みを判定し、最適コードを決
定する処理である。ひとつめの構成は縱続接続であるた
め、前から順に処理しなければならないが、2つめの方
法では、並列処理ができるため、並列化した分さらに高
速に処理することができる。
メータ符号化法の一般的構成例を示すブロック図。
マトリクス量子化器を縱続に接続して符号化するマトリ
クス量子化部の一例を示すブロック図。
続し、さらに2段目を複数のサブマトリクスに区分けし
て符号化するマトリクス量子化部の一例を示すブロック
図。
す図。
Claims (3)
- 【請求項1】 音声スペクトル包絡特性を表す線形予測
パラメータを、フレームと呼ばれる一定時間間隔で算出
し、 そのパラメータを、複数フレーム分蓄えて行列形式に変
換し、 その行列形式で表現されたパラメータ(入力行列)を、
あらかじめ決められた代表行列で表現して量子化する線
形予測パラメータ符号化方法において、 あらかじめ決められた代表行列のうちで、上記入力行列
との誤差が最小となる第1段の代表行列を決定し、 2以上の任意の数Nについて、上記あらかじめ決められ
た代表行列のうちで、既に決定されている第1段〜第N
−1段までの代表行列の和で表現される行列に、第N段
の代表行列を加算した行列と、上記入力行列との誤差が
最小となるように第N段の代表行列を決定し、 上記入力行列の量子化値を上記第1段〜第N段までの代
表行列の和で表現することを特徴とした音声の線形予測
パラメータ符号化方法。 - 【請求項2】 上記第1段〜第N−1段までの代表値を
決定する際に、最適な代表行列ただ1つに決定してしま
うのではなく、いくつかの候補を残した後、第N段の代
表行列を決定した時点で、第1段〜第N段までの代表行
列の和で表される行列と、入力行列との誤差が最小とな
るように第1段〜第N段までの代表行列を決定すること
を特徴とする請求項1記載の音声の線形予測パラメータ
符号化方法。 - 【請求項3】 上記第N段の代表行列を決定する際に、
第1段〜第N−1段までの代表行列の和で表される行列
と入力行列とを、それぞれより小さいサイズの行列に区
分けし、 それぞれ区分けされた小さいサイズの行列をあらかじめ
決められた小さいサイズの代表行列で表し、 第N段の代表値を上記小さいサイズの行列の組で表現す
ることを特徴とする請求項1または2記載の音声の線形
予測パラメータ符号化方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3180819A JP2897940B2 (ja) | 1991-07-22 | 1991-07-22 | 音声の線形予測パラメータ符号化方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3180819A JP2897940B2 (ja) | 1991-07-22 | 1991-07-22 | 音声の線形予測パラメータ符号化方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0527798A true JPH0527798A (ja) | 1993-02-05 |
| JP2897940B2 JP2897940B2 (ja) | 1999-05-31 |
Family
ID=16089915
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3180819A Expired - Lifetime JP2897940B2 (ja) | 1991-07-22 | 1991-07-22 | 音声の線形予測パラメータ符号化方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2897940B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH086597A (ja) * | 1994-06-21 | 1996-01-12 | Nec Corp | 音声の励振信号符号化装置および方法 |
| JP2008242029A (ja) * | 2007-03-27 | 2008-10-09 | Casio Comput Co Ltd | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60224341A (ja) * | 1984-04-20 | 1985-11-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方法 |
| JPH02144598A (ja) * | 1988-11-25 | 1990-06-04 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化法 |
-
1991
- 1991-07-22 JP JP3180819A patent/JP2897940B2/ja not_active Expired - Lifetime
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60224341A (ja) * | 1984-04-20 | 1985-11-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方法 |
| JPH02144598A (ja) * | 1988-11-25 | 1990-06-04 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化法 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH086597A (ja) * | 1994-06-21 | 1996-01-12 | Nec Corp | 音声の励振信号符号化装置および方法 |
| JP2008242029A (ja) * | 2007-03-27 | 2008-10-09 | Casio Comput Co Ltd | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2897940B2 (ja) | 1999-05-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6952671B1 (en) | Vector quantization with a non-structured codebook for audio compression | |
| US5208862A (en) | Speech coder | |
| JP3114197B2 (ja) | 音声パラメータ符号化方法 | |
| AU703046B2 (en) | Speech encoding method | |
| JPH04363000A (ja) | 音声パラメータ符号化方式および装置 | |
| EP2200023B1 (en) | Multichannel signal coding method and apparatus and program for the methods, and recording medium having program stored thereon. | |
| EP0786762B1 (en) | Vector encoding method and encoder/decoder using the method | |
| JP3143956B2 (ja) | 音声パラメータ符号化方式 | |
| JP2800618B2 (ja) | 音声パラメータ符号化方式 | |
| KR101083291B1 (ko) | 벡터 양자화를 위한 방법 및 장치 | |
| US5926785A (en) | Speech encoding method and apparatus including a codebook storing a plurality of code vectors for encoding a speech signal | |
| JPWO2006003993A1 (ja) | 多チャネル信号符号化方法、その復号化方法、これらの装置、プログラム及びその記録媒体 | |
| JP2655046B2 (ja) | ベクトル量子化装置 | |
| JPH0722957A (ja) | 副バンドコーディングシステムの信号処理装置 | |
| JP2626492B2 (ja) | ベクトル量子化装置 | |
| JP2897940B2 (ja) | 音声の線形予測パラメータ符号化方法 | |
| JPH0783316B2 (ja) | 多量ベクトル量子化方法及びその装置 | |
| JP3793111B2 (ja) | 分割型スケーリング因子を用いたスペクトル包絡パラメータのベクトル量子化器 | |
| JPH09190199A (ja) | 音声パラメータのベクトル量子化を実行する方法および装置 | |
| JP3088163B2 (ja) | Lsp係数の量子化方法 | |
| JP3255189B2 (ja) | 音声パラメータの符号化方法および復号方法 | |
| JP3296363B2 (ja) | 音声の線形予測パラメータ符号化方法 | |
| JP3052274B2 (ja) | Lsp量子化方法 | |
| GB2199215A (en) | A stochastic coder | |
| JP3420222B2 (ja) | 利得形状ベクトル量子化方法とこれを用いた音声符号化方法及び装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090312 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090312 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100312 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110312 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110312 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120312 Year of fee payment: 13 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120312 Year of fee payment: 13 |