JPH0771045B2 - 音声符号化方法、音声復号方法、およびこれらを使用した通信方法 - Google Patents
音声符号化方法、音声復号方法、およびこれらを使用した通信方法Info
- Publication number
- JPH0771045B2 JPH0771045B2 JP2006511A JP651190A JPH0771045B2 JP H0771045 B2 JPH0771045 B2 JP H0771045B2 JP 2006511 A JP2006511 A JP 2006511A JP 651190 A JP651190 A JP 651190A JP H0771045 B2 JPH0771045 B2 JP H0771045B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- gain
- vector
- voice
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B14/00—Transmission systems not characterised by the medium used for transmission
- H04B14/02—Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
- H04B14/06—Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using differential modulation, e.g. delta modulation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0003—Backward prediction of gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
ビット速度から低ビット速度で低い符号化遅れと高忠実
度を実現することが求められる通信システムにおける音
声信号または音響信号のデジタル符号化、即ち圧縮に関
する。
の対数PCMか、または32Kb/sのADPCM(適応差動パルス符
号変調)などの高ビット速度の符号化器による以外にな
かった。最近では、16Kb/sのビット速度で料金に見合う
か、または「ほぼ料金どおり」の音質の音声を達成した
符号化方式もある。これらの方式の中に符号励起線形予
測(CELP)があるが、これは、音響・音声信号処理に関
するIEEE国際会議会報(Proc.IEEE Int.Conf.Acoust.Sp
eech.Signal Processing)(1985年)のエム・アール・
シュレーダー(M.R.Schroeder)他による論文(p.937-
p.940)「符号励起線形予測−極めて低いビット速度に
おける高品質音声の実現(Code-Excited Linear Predic
tion(CELP):high quality speech at very low bit r
ates)」、1988年1月19日発行の米国特許第Re32,580号
に開示されたようなマルチパルス線形予測符号化(MPLP
C)通信に関するIEEE会報COM-30(4)(1982年)のビ
ー・エス・エィタルB.S.Atalによる論文(p.600-p.61
4)「低ビット速度における音声の予測符号化(Predict
ive coding of speech at low rates)」で説明された
ような適応予測符号化(APC)、そして音響・音声信号
処理に関するIEEE会報ASSP-25(1977年)のアール・ゼ
リンスキー(R.Zelinski)とピー・ノル(P.No11)の論
文(p.299-p.309)「音声信号の適応変換符号化(Adapt
ive transform coding of speech signals)」および音
響・音声信号処理に関するIEEE国際会議会報(1986年)
のエフ・ケー・サング(F.K.Soong)他による論文(p.2
387-p.2390)「後向き適応予測器を備え最適な時間周波
数ビットを割り当てる高品質サブバンド音声符号化(A
high quality subband speech coder with backward ad
aptive predictor and optimal time-frequency bit as
signment)」に説明されたシステムなどの概念を実現し
たものである。
うとすると、何れの方式も、一般に40msから60msの範囲
の大きな符号化遅れを避けられない。これらの符号化器
が、音声を充分にバッファリングし、さらにバッファリ
ングした音声の波形の冗長性を利用するには、大きな符
号化遅れを必要とする一方で、たいていの音声符号化の
アプリケーションでは、そのような遅れは許されない。
1ないし2ms以下の符号化遅れで16Kb/sの高品質音声を
実現することは、音声研究者にとって依然として重要な
研究課題である。
DPCMの標準化以来、16Kb/sの基準に対する要求が最近益
々高まっている。現在、特定のアプリケーション用に地
域的に定められた16Kb/s音声符号化基準は、既にいくつ
か存在している。異なった16Kb/s基準が急増し、異なる
基準間の相互動作が困難になるのを未然に防ぐため、CC
ITTは、1988年6月に、アプリケーション一般に対する
共通の16Kb/s音声符号化基準を制定する可能性を1991年
半ばまでに調査することを決定した。もし可能であるこ
とが確かめられれば、この基準が、あらゆる種類のアプ
リケーション、例えば、テレビ電話、コードレス電話、
ダイヤル・アップ電話通信網(PSTN:Public Switched T
elephone Network)、ISDN、音声メッセージ、およびデ
ジタル移動無線などに使用されることになる。
するために、CCITTは、性能上の厳密な必要条件、およ
び候補となる符号化器に対する目標を決定した。基本的
には、主な必要条件として、この16Kb/sの基準がもたら
す音声品質は、次の4条件、即ち(1)1段の符号化、
(2)直列式符号化の3つの同期役、(3)10-3以下の
ビット誤り率(BER)のランダム・ビット・エラー、お
よび(4)10-2以下のビット誤り率のランダム・ビット
・エラーに対して、CCITTの32Kb/sADPCM基準の音声品質
と同等でなければならない。さらに、符号化器/復号器
の一方向の遅れは、5ms以下でなければならず、その目
標値は、2ms以下である。このように短い符号化遅れで
前記の音声品質の必要条件を満足することは、非常に困
難である。
中には、音声品質の必要条件を達成する可能性を持つも
のもあるが、何れも現在の形式で使用することはできな
い。これらの定着した符号化器をすべて除外すれば、新
たな方法が必要である。
れている。ジェイヤン(Jayant)およびラマムァシー
(Ramamoorthy)(米国特許第4,617,676号および第4,72
6,037号を参照のこと)は、16Kb/sADPCMの音声を向上さ
せるために適応後置フィルタを用いて、ほぼゼロの符号
化遅れで3.5のオピニオン平均値(MOS:mean opinion sc
ore)を達成した。アール・ブイ・コックス(R.V.Co
x)、エス・エル・ゲイ(S.L.Gay)、ワイ・ショウハム
(Y.Shoham)、エス・アール・カッケンブッシュ(S.R.
Quackenbush)、エヌ・セシャドリ(N.Seshadri)、お
よびエヌ・エス・ジェイヤン(N.S.Jayant)は、1988年
2月のIEEEジャーナル特選分野Comm.6(2)の「サブバ
ンド符号化における新手法(New directions in subban
d coding)」(p.391-P.409)において、サブバンド符
号化とベクトル量子化(VQ)を結合して、15msの符号化
遅れで約3.5〜3.7のオピニオン平均値(後置フィルタを
使用すれば、さらに0.2高くなるものと思われる)を達
成した、ベルーチ(Berouti)らは、1986年の音響・音
声信号処理に関するIEEE国際会議(IEEE Int.Conf.Acou
st.,Speech,Signal Processing)の「16Kb/sのマルチパ
ルス符号化において信号の遅れを軽減する(Reducing s
ignal delay in multipulse coding at 16Kb/s)」(p.
3043-p.3046)において、フレームの大きさを1msに小さ
くすることによりMPLPC(マルチパルス線形予測符号
化)符号化器の符号化遅れは、2msまで軽減した。しか
し、音声品質が、5.5ビット対数PCMに相当し、これは著
しい悪化である。タニグチ(Taniguchi)らは、1987年
の音響・音声信号処理に関するIEEE国際会議会報(Pro
c.IEEE Int.Conf.Acoust.,Speech,Signal Processing)
の「多元量子化器による16Kb/s適応差分パルス符号変調
(ADPCM-MQ)符号化器およびデジタル信号プロセッサに
よるその実現(A 16Kb/s ADPCM with multi-quantizer
(ADPCM-MQ) coder and its implementation by digit
al signal processor)」(p.1340-p.1343)において、
2.5msごとに最良の量子化器を選択するようにして複数
の量子化器を用いたADPCM(適応差分パルス符号変調)
符号化器を開発した。彼らが試作した実時間符号化器の
符号化遅れは、8.3msであった。この符号化器の音声品
質は、「ほぼ7ビットのμ規則PCMに相当した」が、こ
れは、後置フィルタによって達成されたものであり、し
かも標本化速度は、6.4KHzと非標準的であり、その結
果、音声信号も非標準的な帯域となった。ジェイ・ディ
・ギブソン(J.D.Gibson)およびジー・ビー・ハスチク
(G.B.Haschke)は、1988年4月の音響・音声信号処理
に関するIEEE国際会議会報の「音声の16Kb/sの後向き適
応木符号化(Backward adaptive tree coding of speec
h at 16 Kbps)」(p.251-p.254)において、またエム
・ダブル・マーサリン(M.W.Marcellin)、テー・アー
ル・フィッシャー(T.R.Fischer)、およびジェイ・デ
ィ・ギブソン(J.D.Gibson)は、1988年4月の音響・音
声信号処理に関するIEEE国際会議会報の「音声の予測ト
レリス符号化量子化器(Predictive trellis coded qua
ntization of speech)」(p.247-p.250)において、低
遅延であるべき後向き適応予測木符号化および予測トレ
リス符号化の研究を行った。彼らは、符号化送れと主観
的な音声品質については、残念ながら明確な報告をして
いない。エル・ワッツ(L.Watts)およびブイ・キュー
パマン(V.Cuperman)は、1988年12月のIEEE世界通信会
議会報の「16Kb/s音声符号化のためのベクトルADPCMの
解析・統合構造(A vector ADPCM analysis-by-synthes
is configuration)」(p.275-p.279)において、遅れ
が1msのベクトルADPCM符号化器を開発した。しかし、彼
らも、主観的な音声品質については触れていない。
(P.Kabal)も、1988年4月の音響・音声信号処理に関
するIEEE国際会議会報の「低遅延16Kb/s音声符号化器
(A low delay 16 Kbit/sec speech coder)」(p.243-
p.246)において、符号化遅れが1msの後向き適応予測木
符号化器を開発した。この符号化器は、予測残差に対し
8階層の木符号化を行う「後向き適応型のAPC(適応予
測符号化)」符号化器とみなされる。正式な主観試験に
よって、この符号化器の音声品質が7ビット対数PCMに
相当することが示されているが、これは、一般に4.0程
度のオピニオン平均値(MOS)である。1987年の音響・
音声信号処理に関するIEEE国際会議会報の「後置フィル
タを用いる4800h/sの実時間ベクトル適応予測音声符号
化(Real-time vector APC speech coding at 4800 bps
with adaptive postfiltering)」(p.2185-p.2188)
において、ジェイ・エイチ・チェン(J.H.Chen)および
エィ・ガーショウ(A.Gersho)は、さらに音声品質を改
善するために、後になってこの符号化器に適応後置フィ
ルタを付け加えた。
LP)符号化器の符号化遅れを低減する研究が行われてい
る。これについては、1986年9月のIECE国内会議録(IE
CE Nat′l Convention Rec.)第184号におけるテー・タ
ニグチ(T.Taniguchi)、ケー・エケダ(K.Ikeda)、エ
ス・ウナガミ(S.Unagami)およびエフ・アマノ(F.Ama
no)による論文「グラジアント法を用いた符号励起LPC
(線形予測符号化)の研究(A Study of Code Excited
LPC with Gradient Method)」(日本語)、および1987
年3月のIECE国内会議録第1346号におけるテー・タニグ
チ(K.Taniguchi)、ケー・オカザキ(K.Okazaki)、エ
フ・アマノ(F.Amano)、およびエス・ウナガミ(S.Una
gami)による「後向き予測を用いた4.8Kb/sCELP符号化
(4.8Kbps CELP coding with backward prediction)」
(日本語)を参照すること。しかし、彼らの研究は、4.
8Kb/sおよび8Kb/sの符号化に的を絞ったものではなく、
期待された符号化遅れは、15ms程度であり、CCITTの16K
b/sの基準からすれば高すぎる。また、上述のADPCM−MQ
符号化器と同様に、標準的でない6.4KHzの標本化周波数
が使用されている。
一つ(即ち、「スカラー」)の適応量子化と適応予測に
よって低遅延が達成されている。適応量子化器は、逆向
きに適応しチャネル・エラーに耐性のある(強力な)利
得適応化アルゴリズムに基づいている。この適応スカラ
ー量子化器は、1973年9月のベル・システム技術ジャー
ナル(Bell Syst.Tech.J.)の「一語長メモリによる適
応量子化(Adaptive quantization with a one word me
mory)」(p.1119-p.1144)においてエヌ・エス・ジェ
イヤン(N.S.Jayant)が、また1975年11月の通信に関す
るIEEE会報(IEEE Trans.Commun.)の「強力適応量子化
器(A robust adaptive quantizer)」(p.1362-p.136
5)においてデー・ジェイ・グッドマン(D.J.Goodman)
およびアール・エム・ウィルキンソン(M.R.Wilkinso
n)が、最初に提案したものである。さらに最近では、1
987年9月の通信に関するIEEE会報の「音声の符号化に
応用する利得適応型ベクトル量子化(Gain-adaptive ve
ctor quantization with application to speech codin
g)」(p.918-p.930)においてジェイ・エィチ・チェン
(J.H.Chen)およびエィ・ガーショウ(A.Gersho)によ
って、前記の適応スカラー量子化器が多次元(即ち、ベ
クトル)の場合に一般化された。スカラー量子化に対す
るベクトル量子化(VQ)の理論的優位性のため、この強
力利得適応ベクトル量子化器は、スカラーのものに比較
し著しい性能上の改善が得られる。しかし、この種の利
得適応ベクトル量子化器は、低遅延ベクトル符号化シス
テムの構成要素として使用することはできるが、単独で
使用した場合、16Kb/sの速度で高品質の音声を得るには
不十分である。
の性能条件が現在の音声符号化器によって達成できると
は、思われない。従って、低符号化遅延で高品質の16Kb
/sの音声を実現するためには、新たな音声符号化器を開
発しなければならない。
実現するべく比較的効率的に後向き適応するCELP(符号
励起線形予測)型の符号化器によって達成することが可
能であることを発見した。
号器の両方において、後向き適応の原理を選択的に適応
することによって達成される。
送る代わりに符号化器および復号器の各々について局所
的に既に量子化された音声から取り出す点を例外とし
て、符号励起線形予測符号化器の原理を用いることによ
り、遅れの少ない(低遅延の)被認識性に優れた音声品
質が低いビット速度で実現される。このように純粋に後
向き適応を行うので、20msというような大きな音声フレ
ームをバッファリングする必要がなく、従って、符号化
遅れが相当軽減される。
(タニグチ(taniguchi)の後向き適応CELP、ワッツ(W
atts)およびキューパマン(Cuperman)のベクトルADPC
M、またはイーエンガー(Iyengar)およびカバル(Kaba
l)の後向き適応APCの場合のような)グラジアント法に
よって得るのではなく、それに代わって、既に量子化し
た音声ブロックに対し線形予測解析(「LPC解析」と称
することもある)を行うことによって取り出す。
が、後向き利得適応ベクトル量子化器によって行われる
が、この量子化器は、既に量子化された励起状態に基づ
いて励起利得を適合させるので、その利得を送る必要が
ない。いくつかの選択すべき「あてにならない」利得適
応アルゴリズムの1つと共に、この後向き利得適応ベク
トル量子化器を装備することにより、チャネル・エラー
による如何なる利得の不整合も結果的にゼロまで減少す
るように励起利得をチャネル・エラーに対し耐性に(即
ち「強く」)することができる。
起ベクトルの利得の対数値に基づいて現在の励起利得を
発生させるために適応線形予測器が使用される。最初に
前記の対数値に対して線形予測解析を行い、次のその結
果の予測器係数をエラー耐久性が増すように適切に修正
することによって、この線形予測器は更新される。一
方、励起利得も、前記のジェイヤン(Jayant)の強力な
利得適応アルゴリズムを一般化したものを新規に実現す
ることによって、適応させることができる。2つの型の
利得適応励起ベクトル量子化器は、前述の(タニグチ、
ワッツとキューパマン、およびイーエンガーとカバルら
の)木符号化器の何れに使用されている量子化器とも明
らかに異なるものである。
で、励起ベクトルの「形」を符号化することに、より多
くのビットを使用することができる。その結果、従来の
CELP(符号励起線形予測)符号化器に比較して、短い励
起ベトクルを本利得適応ベクトル量子化器に使用しても
音声品質を損なうことがない。このベクトル量子化器で
使用されるブロック・サイズは、16Kb/sの符号化に対し
ベクトルあたり僅かに4または5標本である。従って、
一方向の符号化遅れは、一般にブロック・サイズの2倍
から3倍であるから、1から2ms程度に過ぎない。この
数字は、CCITTの16Kb/s基準の遅延条件である5msを上回
るのみならず、実に目標の2msも満足している。
得適応ベクトル量子化器の代表的な符号ベクトルの表
(即ち、「コードブック」)は、選択した利得適応アル
ゴリズムや後向き適応予測器の影響をすべて考慮しつ
つ、仕込用音声データベースに基づいて最適化される。
さらに、チャネル・エラーの影響を少なくするために、
最適化されたコードブックの符号ベクトルが、偽グレイ
符号化(pseudo-Gray coding)の原理に従って、チャネ
ル・インデックスに割り当てられる。偽グレイ符号化の
説明は、1987年6月の通信に関するIEEE国際会議会報
(Proc.IEEE Int. Conf. Communications)の「2進法
のインデックスを多次元量子化器の符号ベクトルに割り
当てるアルゴリズム(An algorithm for assigning bin
ary indices to the codevectors of a multi-dimensio
nal quantizer)」(p.1128-p.1132)または1988年12月
13日発行の米国特許第4、791、654号においてジェイ・
アール・ビー・デ・マルカ(J.R.B.De Marca)およびエ
ヌ・エス・ジェイヤン(N.S.Jayant)によって為され、
また1987年6月のエレクトロニック・レター(Electron
ic Letters)23(12)の「ベクトル量子化器におけるゼ
ロ冗長チャネル符号化(Zero Redundancy channel codi
ng in vector quantization)」(p.654-p.656)におい
てケー・エィ・ゼガー(K.A.Zeger)およびエィ・ガー
ショウ(A.Gersho)によって行われている。
符号化器は、非常に良好で高知覚性の音声品質を、都合
よく後フィルタ処理なしに達成している。前記のほとん
どの低遅延16Kb/s符号化器は、音声品質を改善するため
に後フィルタ処理に依存しているが、本発明において
は、次の2つの理由から後フィルタ処理を避けている。
第1に、後フィルタ処理によって導入される僅かな音声
の歪が、直列な符号化処理の間に蓄積し、結果的に音声
の歪が酷くなるからである。第2に、後置フィルタによ
って、必然的に位相歪が導入されるからである。1200b/
sの差動位相転移キーイングのモデム信号は、その位相
に合わせて情報を伝達するが、このような非音声信号を
伝送する通信網において後置フィルタ付きの符号化器を
使用すれば、この後置フィルタが原因となってモデムの
受信部に問題を起こすことになる。
したものであるが、符号化器の少しのパラメータを変更
するだけで、他のビット速度で動作することも可能であ
る。さらに、本符号化器は、オーディオ信号または音楽
信号の符号化にも使用することができる。説明の便宜の
ために、以下において、符号化器が音声信号を符号化す
るかオーディオ信号を符号化するかによって、音声信号
やオーディオ信号を指す場合、「音声」という1つの語
を用いることにする。
を、それぞれ第1図および第2図に示す。説明を簡単化
するために、以下において、コンピュータ・シミュレー
ションで使用した符号化器のパラメータの実際の値を引
用する。しかしながら、強調しなければならないのは、
以下の説明が、本発明に従う特定の符号化器の例を引用
しているに過ぎないことと、符号化器の全パラメータ
(例えば、フィルタの順序、ベクトルの長さ、コードブ
ックの大きさ、フィルタの更新周期、および漏れ因子な
ど)を自由に変更して、異なるビット速度で動作させた
り、符号化器の複雑度と性能との間の配分を変えたりす
ることが本質的にできると言う意味で、本発明が実際に
はさらに一般的なものである、と言うことである。
各ブロックの説明に入る前に、まず用語をいくつか定義
し、望ましい実施例の重要な点を指摘する。
復号を、(ADPCMなどのより一般的な符号化器の場合に
ように)標本ごとではなく、ブロックごとに行う。符号
化器および復号器には、入力および出力の音声の他に、
中間信号がいくつかある。信号の各ブロックには、その
信号の隣接する標本がいくつか含まれる。このような隣
接する標本のクラスタを「ベクトル」と称する。ベクト
ル内の標本数を、ベクトルの「長さ」または「次元」と
称する。このベクトルの次元は、符号化器の設計パラメ
ータであり、一度選択され決定されると、符号化器のあ
らゆる種類の信号に適用される。例えば、以下の詳細説
明では、ベクトルの次元を5と仮定しているが、これ
は、5つの隣接した音声標本で音声ベクトルを形成し、
5つの励起状態標本で励起ベクトルを形成することなど
を意味する。現在、符号化または復号されるべき音声ベ
クトルと同時に発生する信号ベクトルを、その信号の
「現在の」ベクトルと称する。
スが、符号化器から復号器に表だって伝送される唯一の
情報である。各音声ベクトルに対して、このコードブッ
クのインデックスが、コードブック探索手順によって決
定される。このコードブックのインデックスの他に、周
期的に更新される3つの基本情報、即ち、(1)励起利
得、(2)合成フィルタ係数、および(3)聴覚加重
(重み付け)フィルタ係数がある。これらは、伝送はさ
れないが、その代わり、後向き適応の要領で引き出され
る、即ち、これらの情報は、現在の信号ベクトルの前に
起こった信号から引き出される。これらの3つの情報の
うち、励起利得は、各ベクトルにつき1回ずつ更新され
るが、合成フィルタ係数と聴覚加重フィルタ係数は、各
ベクトルごとか、または数ベクトルに1回、更新され
る。更新頻度が増すほど、性能は向上するが、符号化器
は複雑になる。以下に例として説明する符号化器では、
複雑度を低くするために、これらの係数は、8音声ベク
トル(40標本)につき1回更新する。デジタル電話で標
準的に使用される8KHz標本化速度に対しては、これは5m
sの更新周期に相当する。
ることができる。概念的には、符号化器は、各入力音声
ベクトルに対し、対応する量子化された音声ベクトルを
得るために、コードブックの中の1024個の候補ベクトル
(以降、「符号ベクトル」と称する)の各々を利得段21
および合成フィルタ22に通す。次に、その結果得られた
1024個の候補の量子化音声ベクトルの中から、入力音声
ベクトルに(頻度で重み付けした自乗平均誤差の意味
で)「最も近い」ものを識別する。そして、対応する最
良符号ベクトル(これが、最良の量子化音声ベクトルと
なる)のコードブック・インデックスが、復号器に送ら
れる。復号器では、この受信したコードブック・インデ
ックスを使用するだけで、対応する最良符号ベクトルを
抽出し、さらに最良量子化音声ベクトルを再生すること
ができる。
雑である。第1図に示した符号化器の望ましい実施例
は、数学的には同等であるが、算出方法としては一段と
効率的である。この望ましい実施例の詳細な説明は、次
のとおりである。
ルタ1を通る。このフィルタ1は、アプリケーションに
よって、低域通過フィルタか帯域通過フィルタでよい。
次に、信号は、アナログ/デジタル(A/D)変換器2に
よってデジタル形式(離散的な波形標本)に変換され
る。結果のデジタル音声信号は、1組の聴覚加重フィル
タ係数を決定するために聴覚加重フィルタ・アダプタ3
によって使用される。聴覚加重フィルタの目的は、量子
化雑音が音声によって部分的にマスキング(遮蔽)され
て人の耳に聞こえ難くなるように、符号化器の量子化雑
音の周波数スペクトラムを音声スペクトラムに応じて動
的に整形することである。
は、必ずしも、線によって他のブロックと接続される個
別回路として実現する必要はないことに注意を要する。
むしろ、ほとんどのブロックは、デジタル信号プロセッ
サ(DSP)内のソフトウェア・プログラム・モジュール
によって容易に実現することができる。
示す。音声のデジタル標本が、遅延ユニットを経てバッ
ファ36(例えば、デジタル信号プロセッサ内のRAMメモ
リ空間)に順番に格納される。次に、線形予測解析モジ
ュール37が、バッファに格納された音声標本を解析し
て、A/D変換器2の出力における量子化前の無修正の音
声に合わせて10次元LPC(線形予測符号化)予測器の係
数を決定する。線形予測解析は、自己相関法、共分散
法、またはラティス法などの有効な方法であれば何れを
用いても、行うことができる。これらの方法の詳細に付
いては、1975年4月のIEEE会報のジェイ・マコール(J.
Makhoul)による論文「線形予測:チュートリアル・レ
ビュー(linear prediction: a tutorial review)」
(p.561-p.580)を参照。望ましい方法は、符号化する
べき現在の音声ベクトルの前に発生した音声標本のフレ
ームに20msのハミング窓を設定した自己相関法である。
数によって表されるものとする。
ジュール37により、出力としてqi、i=1,2,...,10が生
成される。次に、加重フィルタ係数算出器38において、
これらのqiを用いて、次の式より、聴覚加重フィルタの
係数を算出する。
タの伝達関数である。γ1=0.9とγ2=0.4との組み合
わせによって、知覚される符号化器の符号化雑音は、か
なり軽減される。
よって定義される分子係数および分母係数を有する10次
の極ゼロ・フィルタである。これらの係数は、8音声ベ
クトルにつき1回ずつ更新され、更新ごとの間の期間は
一定に維持される。さらに、この更新は、後向き合成フ
ィルタ・アダプタ23によって行われる更新と「同期」が
とられている。換言すれば、後向き合成フィルタ・アダ
プタ23が、8番目、16番目、24番目の音声ベクトルとい
うように、各々に対して予測器の更新値を生成するなら
ば、聴覚加重フィルタ・アダプタ3も、それらの音声ベ
クトルの時点でW(z)の更新値を生成する。
ると、線形予測解析モジュール37において、20msのハミ
ング窓が使用されるので、バッファ36は、最低160の音
声標本、即ち32音声ベクトルを記憶する必要がある。符
号化システム全体に電源が投入されたとき、バッファ内
にあるこれら160の標本は、ゼロに初期化される。この
ゼロ・バッファの場合、聴覚加重フィルタは、定義によ
りW(z)=1を受信する。そして、音声ベクトルが次
々と符号化されるにつれて、これらの音声ベクトルは、
バッファに順番に送り込まれ、最終的にバッファは一杯
になる。
重フィルタ・アダプタ3が、k番目の音声ベクトルs
(k)の時にW(z)を更新するものとする。すると、
線形予測解析モジュール37は、バッファに格納されてい
る以前の32個の音声ベクトルs(n-32),s(n-3
1),...,s(k-1)に基づいてLPC解析を行う。W(z)
が更新されると、s(k),s(k+1),...,s(k+
7)に対し、これらの8個の音声ベクトルが1つずつバ
ッファにシフトされる間、W(z)は一定に維持され
る。次に、(k+8)番目の音声ベクトルの時に、W
(z)は、音声ベクトルs(n-24),s(n-23),...,s
(k+7)に基づくLPC解析によって、再び更新され
る。そして、他の音声ベクトルに対して同様の手順が繰
り返される。
全体に電源が投入されると、音声バッファが、すべてゼ
ロに初期化されるのみならず、全フィルタおよび予測器
の内部「メモリ」(即ち、「状態」)も、(別途、記載
しない限り)ゼロに初期化される。これにより、符号化
器も復号器も共に、後向き適応のために、異様な動作モ
ードに「はまる」ことなく、「休止状態」で始動するこ
とが保証される。
る。以下において、現在の音声ベクトルが第1図の符号
化器により如何にして符号化されるかを説明し、次に、
第2図の復号器により如何にして復号されるかを説明す
る。初期化された後は、各音声ベクトルに対して同様の
手順が繰り返される。
は、式(2)から(4)に従って、W(z)の係数を周
期的に更新し、さらに、それらをインパルス応答ベクト
ル算出器12ならびに聴覚加重フィルタ4および10に与え
る。
入力音声ベクトルs(n)が、聴覚加重フィルタ4を通
ると、加重(された)音声ベクトルv(n)となる。音
声ベクトルs(n)がフィルタ4に与えられる前は、仮
にフィルタ4の係数が時刻nに更新された直後であって
も、前の音声ベクトルs(n−1)が過された後の残
り(のベクトル)がフィルタ4のメモリに含まれている
ことに注意を要する。換言すれば、起動中にゼロに初期
化した後は、如何なる場合もフィルタ4のメモリをゼロ
に初期化してはならない。
ギング」ベクトルr(n)が生成される。このために、
まず、スイッチ5を開く、即ちスイッチを接点6に設定
する。これは、接点7から合成フィルタ9に行く信号が
ゼロであるということである。次に、合成フィルタ9お
よび聴覚加重フィルタ10を5標本(1ベクトル)分だけ
「鳴らす」。これは、5つの標本に対し接点7で与えら
れるゼロ信号で過動作を続けることを意味する。結果
的に、聴覚加重フィルタ10の出力は、所望のリンギング
・ベクトルr(n)となる。
す動作を開始する前に、フィルタ9および10のメモリ内
容を、後で使用できるように、退避させる必要がある。
また、フィルタ9および10のメモリは、初期化直後のベ
クトルを除いて、一般にゼロではないので、仮に接点7
からのフィルタ入力がゼロであっても、出力ベクトルr
(n)も一般にゼロではない。実際には、このリンギン
グ・ベクトルr(n)は、以前に利得倍された励起ベク
トルe(n-1),e(n-2),...に対する2つのフィルタの
応答である。
ンギング・ベクトルr(n)が引き算されて、「コード
ブック探索目的ベクトル」x(n)が得られる。コード
ブックの探索を行う前に加重音声ベクトルv(n)から
リンギング・ベクトルr(n)を引くことには、フィル
タの励起効果からフィルタ・メモリの影響を分離する利
点がある。これにより、コードブックの探索は、フィル
タの励起効果に集中するのみとなるため、コードブック
探索の複雑さが軽減される。
明する。これらの係数は、第5図にさらに詳しく示した
後向き合成フィルタ・アダプタ23によって更新される。
第5図に移る。アダプタ23は、量子化された音声を入力
として受け取り、一組の合成フィルタ係数を出力として
生成する。この動作は、聴覚加重フィルタ・アダプタと
全く同様である。
ル50の動作は、次の3つの相違点を除けば、第3図のそ
れぞれの対応要素(36および37)と全く同じである。第
1に、ここでの入力信号は、量子化前の入力音声ではな
く、量子化された音声である。第2に、予測器の次元
が、ここでは10ではなく50である(50では複雑すぎる場
合は、次元を40にし、本質的に同じ性能を得ることがで
きる)。第3に、白色雑音補正法が、LPC解析の自己相
関法とともに使用される。
る条件が悪くならないように、スペクトル・ダイナミッ
ク・レンジを減少させる方法である。これを行うには、
正規方程式を解く前に、トウプリッツ行列(Toeplitz m
atrix)の主対角項の値を0.01%増加させるだけでよ
い。実際には、これによって、スペクトル・ダイナミッ
ク・レンジが、約40dBに「固定」される。これにより、
数値線形代数理論に従えば、最悪の場合でも10進で約4
桁の精度を損なうだけであり、32ビット浮動小数点演算
の7ビット精度としては過大な害ではない。この符号化
器を16ビット固定小数点プロセッサを用いて実現する場
合は、トウプリッツ行列の主対角項をさらに大きくする
ことができる。これにより、スペクトル・ダイナミック
・レンジがさらに小さくなり、方程式を解く過程におけ
る精度の損失も抑えられる。この白色雑音補正は、純粋
に安全策として行われる。じじつ、このような補正をし
なくても、符号化器の量子化過程において雑音余裕が相
当高められるので、量子化された音声のスペクトル・ダ
イナミック・レンジは、量子化されていない元の音声よ
りはるかに小さい、希望により、この白色雑音補正法を
聴覚加重フィルタ・アダプタ3にも使用することができ
る。
数であり、以前に量子化された音声に対応している。こ
のLPC予測器の伝達関数を(z)とすれば、(z)
は、次の形で表される。
数を合成フィルタ9および22で直接使用することもでき
るが、チャネル・エラーに対する高い抵抗力を持たせる
ためには、これらの係数を補正して、LPCスペクトラム
が若干広めの帯域となるようにする必要がある。このよ
うな帯域拡張処理によって、極めて急峻な波形のピーク
が滑らかになり、量子化された音声が時として耳障りな
高音になることが防止される。さらに、この処理によ
り、合成フィルタのインパルス応答の実効長が減少し、
これによって、復号音声におけるチャネル・エラーの影
響の伝播が軽減される。
のように行われる。帯域拡張を行うには、所与のLPC予
測器係数iに対し、iをai=λ1 i、i=1,
2,...,50 (6) で置換すればよい。
張B Hzに対し、λは、 によって与えられる。これは、合成フィルタのすべての
極を半径方向に原点に向かって、0と1の間の因数λだ
け移動する効果がある。極は単位円から離れて移動され
るので、周波数応答の波形のピークが、広げられる。適
切な帯域拡張量は、30Hzである。
式で与えられる。
与えられる。また、これらの係数は、インパルス応答ベ
クトル算出器12にも与えられる。
C予測器を備えた帰還ループから成る。この合成フィル
タの伝達関数は、 である。
PC型の全極フィルタと仮定してきたが、フィルタの更新
にグラジアント法を使用するか、あるいは、この全極フ
ィルタを極ゼロ・フィルタで置き換えても、この符号化
システムは動作する。
度ごとに合成フィルタ9および22を更新して、性能を高
めるようにしてもよい。しかしながら、符号化器が複雑
にならないように、ここでは8ベクトルに1回だけ更新
する。複雑度を最大限抑えるには、前記のように、合成
フィルタの更新は、聴覚加重フィルタの更新に同期する
必要がある。
23の副産物として得る方法もあることに注目を要する。
これは、次のようにして行う。本発明の50次元自己相関
LPC解析のダービンの再帰法(Durbin recusion)におい
て、1次元から50次元まで進む過程で、10次元目で中断
し、50次元回帰の副産物として10次元LPC予測器を引き
出すことができる。そして、この10次元LPC予測器の係
数を加重フィルタ係数算出器38に与えて、10次元加重フ
ィルタを駆動することができる。このようにして、ブロ
ック36および37がバイパスされ、これに相当する複雑さ
を避けることができる。しかしながら、結果としての聴
覚加重フィルタは、量子化される前の本来の音声ではな
く量子化された音声に基づいているので、このフィルタ
は、本来の方法で得られるものとは異なる。この新たな
方法で得られる聴覚加重フィルタは、理論的に、雑音の
多い音声に基づいており、入力音声の正確なスペクトル
情報を持っていない可能性があるので、本来の方法によ
るものより幾分劣ることになる。従って、ブロック36お
よび37の複雑さを真に避ける必要がない限り、本来の方
法の方が望ましい。
で、ここで再び第1図に戻る。これまで説明した符号化
器の動作は、すべて本質的に、励起状態コードブック探
査の準備である。コードブック探査の前に行うべき最後
の動作は、次の述べる利得適応である。
を尺度調整するための倍率因子である。利得σ(n)
は、スカラー量、つまり、幾つかの数からなるベクトル
ではなく単一の数値である。励起利得σ(n)は、後向
きベクトル利得アダプタ20によって、各ベクトル毎に
(即ち、すべての時刻インデックスに対して)更新され
る。この後向きベクトル利得アダプタ20の望ましい実施
例を第4図に示す。
た励起ベクトルe(n)を入力として受け取り、励起利
得σ(n)を出力として生成する。基本的に、このアダ
プタ20は、対数利得変域において適応線形予測を用いる
ことによって、e(n-1,e(n-2),...の利得に基づくe
(n)の利得の「予測」を試みる。このようにしてe
(n)の予測利得を得ると、これを出力の励起利得σ
(n)として使用する。このような利得アダプタはチャ
ネル・エラーに強いことを以下に示す。
遅延ユニット67により、前の利得倍された励起ベクトル
e(n−1)が利用できるようになる。そこで、2乗平
均(RMS:root-mean-square)算出器39は、ベクトルe
(n−1)のRMS値を計算する。ベクトルのRMS値の計算
は次のように行う。まず、ベクトルの全要素の平方をと
る。次に、これらの平方値の和を、要素の個数、即ちベ
クトルの次元で割る。この結果の数の平方根が、そのベ
クトルのRMS値である。
数を計算する。対数関数は、逆対数算出器47が同一の底
を使用して正確に逆の動作を行う限り、10、2、または
eの何れを底としても差し支えない。
が、決定されて対数利得オフセット値ホルダー41に格納
される。このオフセット値を適用するのは、一般に対数
利得がゼロ平均信号でないことに起因する不都合な影響
を軽減するためである。この対数利得オフセット値は、
音声波形の重要な部分の期間中にそのような不都合な影
響が最小になるように適切に選択される。例えば、対数
算出器40がその入力のdB値を計算する(例えば、10を底
とする対数をとった後、その結果に20を掛ける)ものと
し、さらに、その入力音声標本が、16ビット整数(‐32
768〜+32767)によって表されるものと仮定する。この
場合、適当な対数利得オフセット値は、50dBである。こ
の値は、音声のピーク強度が飽和以下およそ−6dBの場
合における発声期間中の(dBによる)平均励起利得レベ
ルにほぼ等しい。
数利得から、この対数利得オフセット値が引かれる。そ
の結果オフセットが取り除かれた対数利得δ(n−1)
は、遅延ユニット/バッファ43および線形予測解析モジ
ュール44を通る。やはり、ブロック43および44も、解析
される信号が入力音声ではなくオフセットを削除された
対数利得であることを除けば、聴覚加重フィルタ・アダ
プタ・モジュール3(第3図)内のブロック36および37
と全く同様に動作する。(5つの音声標本につき1つの
利得値が生成される。) 線形予測解析モジュール44により、オフセットを削除し
た以前の対数利得に100標本分のハミング窓を置いて10
次元自己相関LPC解析が行われる。(z)をLPC予測器
の伝達関数とすると、 次に、帯域拡張モジュール45により、第5図のモジュー
ル51と同様にして、この多項式の根が半径方向にz平面
の原点に向けて移動される。さらに具体的に説明するた
めに、帯域が拡張されたLPC予測器の伝達関数を、 とする。ここで、この係数は次のように計算される。
をチャネル・エラーに対しさらに強くすることができ
る。これらのαは、対数利得線形予測器46の係数として
使用される。
標本に対して更新を行って、より高い性能を達成するこ
とが可能である。望ましい実施例では、8つの対数利得
標本(5msに相当)につき1回の割合で、この予測器の
更新を行った。この更新動作は、聴覚加重フィルタおよ
び合成フィルタに同期させることができるが、その必要
はない。
の予測器は、δ(n-1),δ(n-2),.....,δ(n-10)
の線形結合に基づいてδ(n)を予測しようとする。δ
(n)を予測した結果は、 で示すと、次の式によって与えられる。
が元のように加えられる。次に、この結果得られた値
は、逆対数算出器47に送られ、そこで、対数算出器40と
逆の動作が行われ、利得は対数変域から線形変域に変換
される。そして、この線形利得が大きすぎたり小さすぎ
る場合は、この利得は、利得制限器によってクリップさ
れる。16ビットの整数入力(0〜32767)に対応する大
きさの範囲に対する適当なクリッピング・レベルは、1
および10000である。その他の入力の大きさの範囲に対
しては、クリッピング・レベルを相応に調節する必要が
ある。
れた励起利得は、利得尺度調整ユニット21およびコード
ブック探査モジュール24において使用される。本発明に
おいては、第6図から第8図に示す後向きベクトル利得
アダプタも代替となるように開発した。しかし、代わり
の利得アダプタを説明する前に、第1図および第2図の
符号化器および復号器の説明をまず終わらせることにす
る。
24が構成される。このコードブック探査モジュールは、
励起VQコードブックにある候補としての1024個の符号ベ
クトルを繰り返し探査して、入力音声ベクトルに最も近
い量子化音声ベクトルを与える最良符号ベクトルのイン
デックスを見つける。第1図に示したコードブック探査
モジュールは、コードブック探査を効率的に実現した特
定例に過ぎず、コードブックを探査する同様な方法は他
にも多数存在するので、注意が必要である。
されているものと仮定する。複雑さを減らすために、こ
のような構造化コードブックを導入した。例えば、ベク
トルの次元が5標本であり、かつ16Kb/sのビット速度ま
たは2ビット/標本で8000標本/sである場合、コードブ
ック19は、1024個の符号ベクトルを有し、各符号ベクト
ルは、10ビットのアドレス(以下、「コードブック・イ
ンデックス」と称する)によって特定することができ
る。原則として、可能な最高の性能を達成するために、
1024の独立な符号ベクトルを完全に使用することも可能
である。しかし、そうすると極めて複雑になる。コード
ブック探査の複雑さを軽減するに、10ビットのコードブ
ックを2つの小さいコードブックに分解することにす
る。即ち、128個の独立な符号ベクトルから成る7ビッ
トの「波形コードブック」、およびゼロに関して対象な
8個のスカラー値から成る3ビット(即ち、1ビットが
符号で、2ビットが大きさである)の「利得コードブッ
ク」である。最終的な出力符号ベクトルは、最良波形符
号ベクトル(7ビットの波形コードブックから)と最良
利得符号(3ビットの利得コードブックから)との積で
ある。この10ビット利得波形構造コードブックによれ
ば、コードブックの探査複雑度は、7ビット完全独立コ
ードブックの探査複雑度より若干高いだけである。
に、以下に、このモジュールの原理を説明する。原則と
して、コードブック探査モジュール24は、1024個の候補
符号ベクトルの各々を現在の励起利得σ(n)で尺度調
整を行い、結果としての1024個のベクトルを、合成フィ
ルタF(z)および聴覚加重フィルタW(z)から成る
縦続接続されたフィルタ(以下、「継続フィルタ」と称
する)に一度に1つずつ通す。このフィルタのメモリ
は、このモジュールから新たな符号ベクトルを与えられ
るたびごとに、ゼロに初期化される。この継続フィルタ
の伝達関数は、次式によって与えられる。
表される。yjを7ビット波形コードブックにおけるj番
目の符号ベクトルとし、giを2ビット強度コードブック
におけるi番目のレベルとする。さらに、正負符号ビッ
トの結果は、正負符号乗数ηkによって表され、k=0
または1なるkに対しηk=1または−1である。{h
(n)}によって縦続フィルタのインパルス応答シーケ
ンスを示すものとする。すると、コードブック・インデ
ックスi、j、およびkによって指定された符号ベクト
ルが縦続フィルタH(z)に与えられた場合、このフィ
ルタの出力は、次にように表される。
ンデックスの最良の組み合わせを発見することである。
即ち、最良波形符号ベクトルを特定する2ビット強度コ
ードブック・インデックスj、最良の強度値を特定する
2ビット強度コードブック・インデックス・および選択
した強度値に掛けるのに使用する数は+1であるべきか
または−1であるべきかを決定する1ビット正負符号イ
ンデックスの3つである。さらに具体的には、このモジ
ュールは、次式で示す平均自乗誤差(MSE:mean-squared
error)による歪を最小とする3つの最良なインデック
スi、j、およびkを求めて探査する。
j+σ2(n)▲g2 i▼‖Hyj‖2 (17) 項‖x(n)‖2は、コードブック探査の間は不変であ
るから、Dを最小にすることは、次の式を最小にするこ
とと同じである。
g2 i▼Ej (18) ここで、p(n)=HTx(n) (19) Ej=‖Hyj‖2 (20) 歪の算出で最も計算的に集中する部分は、ノルム自乗項
‖Hyj‖2=Ejおよび内積項pT(n)yjである。Ejは、
実際にはj番目に過された波形符号ベクトルのエネル
ギーであり、VQの目的ベクトルx(n)には依存しない
ことに注意を要する。また、波形符号ベクトルyjは固定
であり、また、行列Hは合成フィルタおよび加重フィル
タに依存するだけであるが、これらのフィルタは8音声
ベクトルの期間にわたって不変である。結果的に、Ejも
8音声ベクトルの期間にわたって不変である。これらの
情報に基づけば、前記の2つのフィルタが更新された場
合、(128個の波形符号ベクトルに対応する(128個の可
能なエネルギー項Ej、j=0.1,2,....,127を計算して、
記憶することにより、次の8音声ベクトルの期間中に、
それらのエネルギー項をコードブック探査に繰り返し使
用することができる。この手順により、コードブック探
査の複雑度がかなり軽減される。
対してコードブック探査を開始する前に、次の2つの配
列を予め計算し、記憶しておけばよい。即ち、i=0,1,
2,3として、bi=2σ(n)gi (21) および ci=σ2(n)gi 2 (22) この計算により、ごくわずかな複雑さは免れないが、コ
ードブック探査中の計算は省かれる。ここで、は、次
のように表すことができる。
て、コードブック探査モジュールは、式(19)に基づい
てベクトルp(n)を計算し、さらにi、j、およびk
の各組み合わせに対して、式(23)に従ってを評価す
る。最小のに対応する3つのインデックスi、j、お
よびkは、連結されて、コードブック探査モジュールの
出力、つまり単一かつ最良の10ビットコードブック・イ
ンデックスを形成する。
ック探査モジュール24の動作を次に説明する。合成フィ
ルタ9および聴覚加重フィルタが更新されるたびごと
に、インパルス応答ベクトル算出器12において、縦続フ
ィルタF(z)W(z)のインパルス応答の最初の5個
の標本が計算される。インパルス応答ベクトルを計算す
るために、最初に縦続フィルタのメモリをゼロに設定
し、次に、このフィルタを入力シーケンス{1,0,0,0,
0}によって励起する。入力に対応するフィルタの5個
の出力標本は、h(0),h(1),...,h(4)であり、
所望のインパルス応答ベクトルを成す。このインパルス
応答ベクトルが計算されると、これは一定に保たれて、
フィルタ9および10が再び更新されるまでの後続の8個
の音声ベクトルに対して、コードブック探査に使用され
る。
て、j=0,1,2,...,127に対する128個のベクトルHyjが
計算される。換言すれば、、モジュール14は、j=0,1,
2,...,127に対する各波形符号ベクトルyiをインパルス
応答シーケンスh(0),h(1),...,h(4)によって
たたみ込み処理を行う。このたたみ込み処理は、最初の
5個の標本に対して行われるだけである。次に、エネル
ギー・テーブル算出器15により、この結果得られる128
個のベクトルのエネルギーが、式(20)に従って計算さ
れ記憶される。ベクトルのエネルギーは、ベクトルの各
要素を2乗した値の和として定義される。
ベクトルに対して1回のみ行われる一方、コードブック
探査モジュールの他のブロックは、各音声ベクトルに対
して計算を行うことに注意を要する。
およびciテーブルが、式(21)および(22)に従って計
算される。励起利得σ(n)が、すべての新たな音声ベ
クトルに対して更新されるため、biおよびciのテーブル
も、すべての新たな音声ベクトルに対して更新される。
しかし、そのようにテーブルを更新しても、各テーブル
には項目が4つしかないので、その複雑さは、無視する
ことができる。
ルp(n)=HTx(n)が算出される。この動作は、最
初にコードブック探査目的ベクトルx(n)の要素の順
序を逆にし、次にこの結果得られるベクトルをインパル
ス応答ベクトルでたたみ込み処理を行い、さらにその要
素の順序を再び逆にすることに等しい。
れていて、さらにベクトルp(n)も計算されると、後
は、エラー算出器17および最良コードブック・インデッ
クス選択器18の協力動作によって、次の効率的なコード
ブック探査アルゴリズムが実行される。
(24)の「正負符号乗数」ηkが+1でなければならな
いので、正負符号ビットkを0に設定して、ステップ6
に進む。
いので、正負符号ビットkを1に設定して、ステップ6
に進む。
では歪が以前に見つかった最小の歪より大きくなるの
で、次のiを調べるためにステップ10に進む。
つけたことになる。そこで、min=iとすることに
より最小の歪を再設定し、また、このi、j、およびk
の組み合わせをimin=i、jmin=j、kmin=kとするこ
とによって記憶する。ステップ10に進む。
き、それ以外の場合はステップ11に進む。
行き、それ以外の場合はステップ12に進む。
24個の可能な組み合わせが、全て探査される。この結果
得られるimin、jmin、kminが、それぞれ正負符号、強
度、および波形に対する所望のインデックスである。出
力としての最良コードブック・インデックス(10ビッ
ト)は、これらの3つのインデックスを連結したもので
あり、それに対応する最良励起符号ベクトルは、y
(n)=ηkmingiminyjminである。
形符号ベクトルを1つ1つ進み、各波形符号ベクトルに
対して、先に、内積pT(n)yjの正負符号によって正負
符号ビットを決定し、次に、与えられた波形符号ベクト
ルを求めて4つの強度レベルを探査することによって強
度ビットが決定される。進みながら、最低の歪とこの最
低の歪を与えるチャネル・インデックスとの記録を保持
する。利得と波形との可能な組み合わせをすべて調べ通
すと、最終的なチャネル・インデックスが、即座に利用
可能となる。Ej、bi、およびciの各項を予め算出して記
憶しているので、相当な量の計算を省くことができる。
よる特許、ならびにゼガー(Zeger)およびガーショウ
(Gersho)による論文において説明されているように、
本発明においては、グレイ符号化の原理を使用すること
によって、チャネル・エラーに対して最良コードブック
・インデックスを部分的に保護する。このグレイ符号化
法によって、冗長ビットを一切追加しなくてもチャネル
・エラーの影響が減少する。グレイ符号化を7ビット波
形コードブックにのみ適用するだけで、エラー感度をか
なり低減することができる。この場合、設計段階におい
て、グレイ符号化を用いて7ビット波形コードブックを
慎重に配分すれば、実際に音声を符号化する際には、選
択された最良波形コードブック・インデックスが自動的
にグレイ符号化されて得られるので、グレイ符号化のた
めにわざわざマッピングする必要はない。同様に、2ビ
ット強度コードブックも別個にグレイ符号化することが
できる。しかし、本質的には、最良コードブック・イン
デックスの10ビット全体に対して最適にグレイ符号化を
適用すれば、さらにエラー感度を下げることができる。
この場合には、10ビットの最良なコードブック・インデ
ックスから対応する10ビット・グレイ符号にマッピング
する必要がある。このマッピング機能を行うのがオプシ
ョンのグレイ・コード符号化器25である。
された最良コードブック・インデックスは、ビット・ス
トリームとなって通信チャネルを介して直接送出され
る。これに対して、いくつかの同様な音声符号化器が同
じ通信チャネルを共有している場合は、通常、別々の音
声符号化器から来るビット・ストリームを多重化する必
要がある。この場合に、このマッピング作用を果たすの
が、オプションのマルチプレクサ26である。
ックスを識別し、送信するところまで説明したが、次の
音声ベクトルの符号化に備えて行う必要のある仕事が、
まだいくつか有る。まず、最良コードブック・インデッ
クスを励起VQコードブックに与えて、前記のコードブッ
ク探査のステップ12において定義された対応する最良符
号ベクトルy(n)を抽出する。次に、利得役21におい
て、この最良符号ベクトルを現在の励起利得σ(n)に
よって尺度調整を行う。この結果得られる尺度調整され
た励起ベクトルが、e(n)=σ(n)y(n)であ
る。
より、現在の量子化された音声ベクトルs(n)が得ら
れる。ブロック19から23によって模擬復号器8が形成さ
れていることに注目する必要がある。従って、チャネル
・エラーが存在しなければ、量子化された音声ベクトル
s(n)は、実際には模擬的に復号された音声ベクトル
である。本発明の符号化器にこの模擬復号器8が必要な
のは、この符号化器は、復号器が生成する量子化音声に
追従することによって、ブロック23で生成された合成フ
ィルタの更新値が復号器内部の最新情報と同じになるよ
うにする必要があるからである。同じように、信号e
(n)が復号器における相当信号と同じ場合に限り、後
向きベクトル利得アダプタ20も、復号器内部の最新情報
と同じ励起利得更新値を生成することができる。
し実際には、2つのアダプタ20および23は、いずれもチ
ャネル・エラーに強いので、ビット・エラーにより符号
化器と復号器との間に信号の不整合が起こっても、その
不整合は減少して結局ゼロになる。換言すれば、ビット
・エラーの後、いずれ符号化器と復号器とは再び互いに
追従し合うようになる。従って、やはり前記の説明は当
てはまる。
き最後の仕事は、合成フィルタ9および聴覚加重フィル
タ10のメモリを更新することである。これを行うため
に、まず前述のリンギング過を行った後に、フィルタ
・メモリに残った内容を捨てる。リンギング過動作の
前に格納されていたフィルタ・メモリの内容を、その2
つのフィルタにコピーして戻す。次に、スイッチ5を閉
じ、即ち接点7に接続し、前段で算出されたばかりの利
得倍された励起ベクトルe(n)を2つのフィルタ9お
よび10に通す。これに対応する出力ベクトルは捨てられ
るが、e(n)を過した後の最終的なフィルタ・メモ
リ内容は、保持される。このフィルタ・メモリ内容の集
合は、次の音声ベクトルの符号化中に、リンギング過
を行うのに使用される。
クトルを符号化する方法を条件として述べた。音声波形
全体の符号化は、すべての音声ベクトルについて前記の
動作を繰り返すことにより行われる。
ビットのコードブック・インデックスの境界を知ってい
るものとし、また合成フィルタを更新するべき時期(こ
のフィルタは8ベクトルごとに更新される)も知ってい
るものと仮定した。実際には、送信される16Kb/sのビッ
ト・ストリームの先頭に同期ビットを別に追加すること
によって、復号器に同期情報を使用できるようにするこ
とができる。しかし、同期ビットを16Kb/sのビット・ス
トリームの中に挿入する必要のあるアプリケーションが
多い。これは、「ビット・ロビング(bit-robbing)」
によって行うことができる。具体的には、同期ビットを
N個の音声ベクトルにつき1回挿入しなければならない
とすると、N個ごとの各入力音声ベクトルに対しては、
波形コードブックの半分だけを探査し、6ビットの波形
コードブック・インデックスを生成することができる。
このようにして、N個ごとに送信される各コードブック
・インデックスから1ビットだけ取り去って、代わりに
同期ビットを挿入する。希望により、同様にして信号ビ
ットを挿入することも可能である。
ク・インデックスから任意に1ビットを取ることはでき
ないことである。そのかわり、符号化器は、ビットを取
り去る予定の音声ベクトルを知ったうえで、それらの音
声ベクトルに対してはコードブックを半分だけ探査する
必要がある。このようにしないと、復号器は、それらの
音声ベクトルに対して、同様に復号された励起符号ベク
トルを持たなくなる。
る場合は、ビットを取り去るベクトル間隔Nは、任意の
正の数でよい。本実施例においては、合成フィルタが8
ベクトルごとに更新されるので、復号器が何れのベクト
ルの時に合成フィルタを更新するべきかを容易に決定で
きるように、Nを8か、または8の倍数にするのが適当
である。Nの値が適切であれば、結果としての音声品質
の低下は極僅かであると予想される。
に、符号化器でマルチプレクサが使用されている場合、
通信チャネルからのビット・ストリームが、デマルチプ
レクサ27で多重化が解除される。次に、ビット・ストリ
ームの一部として同期ビットが挿入されている場合、同
期ビットが検出されて、取り出される。音声符号化器で
グレイ・コード符号化器が使用されている場合は、残っ
た信号符号化ビットは、グレイ・コード復号器を通る。
このグレイ・コード復号器は、グレイ・コード符号化器
の逆写像を行う。
て、励起VQコードブック29に格納されている対応する最
良符号ベクトルy(n)が抽出されるが、コードブック
29は、符号化器のコードブック19と同じである。次に、
ベクトルy(n)が利得段31および合成フィルタ32を通
ることにより、復号された音声ベクトルs(n)が生成
される。受信されたコードブック・インデックスは、ビ
ット・エラーのために送信されたコードブック・インデ
ックスとは異なる場合がある。しかし、利得段31、合成
フィルタ32、後向きベクトル利得アダプタ30、および後
向き合成フィルタ・アダプタ33は、いずれも符号化器に
おける対応要素(それぞれ、ブロック21、22、20、およ
び23)と全く同様に動作する。従って、これらのブロッ
クの動作は、ここでは省略する。
た音声ベクトルs(n)の5個の標本が変換されて、デ
ジタル形式からアナログ形式に戻される。結果としての
アナログ信号は、次にアンチ・イメージ・アナログ・フ
ィルタ35(典型的には低域通過フィルタ)によって過
される。これで、本発明に従う望ましい実施例の詳細説
明を終える。
の代案実施例を説明する。この代案の後向きベクトル利
得アダプタを第6図から第8図に3つの同じ形式で示
す。この後向きベクトル利得アダプタは、CCITTの32Kb/
sのADPCM符号化基準に使用されている強力なジェイヤン
(Jayant)利得アダプタ(ジェイヤンによる論文、およ
びグッドマン(Goodman)およびウィルキンソン(Wilki
nson)による論文を参照)をベクトルに一般化したもの
である。その基本的概念は、先に述べたチェンおよびガ
ーショウの1987年9月の論文に提案されているが、第6
図から第8図の後向きベクトル利得アダプタは、そのよ
うな概念の新奇な実現である。
この代案の利得アダプタは、僅かに性能が劣る。しか
し、この代案の利得アダプタの利点は、極めて複雑度が
低いことである。従って、符号化器のデジタル回路に、
符号化器の望ましい実施例全体を実現するだけの十分な
処理能力がある場合には、第4図の利得アダプタを使用
するべきである。一方、その処理能力がそれほど十分で
ない場合は、この代案の利得アダプタの方が望ましいこ
とがある。
で、以下においては、代案の後向きベクトル利得アダプ
タの背後にある研究的に興味深い面ではなく、その動作
を中心に説明する。
換えることが可能であるが、第7図や第8図のアダプタ
ほど効率的ではない。基本的には、最初に、利得倍され
た現在の励起ベクトルe(n)を1ベクトル遅延ユニッ
ト52およびRMS算出器53に通して、σe(n−1)、即
ちe(n)のRMS値を生成する。そして、乗算器54にお
いて、この値は、前の励起利得σ(n−1)の逆数によ
って乗算される。この結果得られる値σy(n−1)
は、実際に、前の利得倍されていない励起符号ベクトル
y(n−1)のRMS値である。次に、利得乗数算出器55
において、利得乗数M(n−1)が、σy(n−1)の
関数として計算される。
合、パラメータの値としては、σmin=1、σav=150、
β=(31/32)5=0.853、c1=1n(Mmax)/3、c2=−1n(M
min、Mmax=1.8、Mmin=0.8とするのが適当である。入
力強度の範囲が16ビット整数と異なる場合、σminおよ
びσavは、それに応じて変更しなければならないが、そ
の他のパラメータは、このままの方がよい。
利得回帰算出器56において、現在の励起利得σ(n)
が、 σ(n)=M(n−1)σβ(n−1) (26) として算出される。次に、σ(n)が大きすぎたり、小
さすぎる場合は、1または10000の値でクリップされる
(ここで、この利得制限作用はブロック56の一部として
考える)。この結果としての出力σ(n)が、所望の励
起利得である。また、この利得が、1標本遅延ユニット
57および逆数モジュール58を通って、ループが完結す
る。
必要とするので、余り実用的ではない。これをここで説
明したのは、この一般化した強力ジェイヤン利得アダプ
タが、第4図の利得アダプタと直接置き換えが効くよう
に実現できることを示すためである。
ルe(n−1)から算出する必要はない。このようにせ
ず、前の利得倍されていない励起ベクトルy(n−1)
から直接算出して、計算を省くことができる。この点を
変更すれば、第7図に示すようなアダプタを実現するこ
とができる。第7図の利得アダプタは、第6図のものと
等価ではあるが、この利得アダプタへの入力が、利得倍
された励起ベクトルe(n)ではなく利得倍されていな
い励起符号ベクトルy(n)となるため、第4図の利得
アダプタと直接置き換えることはできない。
びに逆数モジュール58および乗算器54が無いことを除け
ば、第6図のものと本質的に同じ動作をする。第7図の
その他のブロックは、第6図の対応するブロックと正確
に同じ動作を行う。従って、各ブロックの説明は、ここ
では省略する。
ることが可能であり、その結果、第8図に示すように、
計算上さらに効率的に利得アダプタを実現することがで
きる。この単純化は、以下の経験的情報に基づくもので
ある。
パラメータは、一度決定され固定されると、利得乗数M
(n−1)は、時刻(n−1)における最良励起符号ベ
クトルのRMS値σy(n−1)にのみ依存することに気
づく。また、コードブック・インデックスの10ビットの
うちの1つは正負符号ビットであることから、1024個の
候補符号ベクトルは、多くても512個のRMS値しか取り得
ないことが分かる。従って、符号ベクトルの512個の可
能なRMS値を予め算出した後、それらに対応する512個の
可能な利得乗数を式(25)に従って予め算出しておくこ
とができる。これらの512個の可能な利得乗数をテーブ
ルに格納することができる。ここで格納された利得乗数
の9ビットのインデックスのうち、7ビットは、波形コ
ードブック・インデックスに対応し、2ビットは、その
利得乗数を生じさせる2つの符号ベクトルの2ビット強
度コードブック・インデックスに対応する。従って、こ
の利得乗数テーブルは、選択された符号ベクトルの波形
および強度のコードブック・インデックスによって、直
接アドレス指定することができる。換言すれば、利得乗
数を算出する必要はなく、単に最良コードブック・イン
デックスを使用するだけで、そのに対応する利得乗数を
抽出することができる。
(n−1)では7つの波形コードブック・インデックス
および2つの強度コードブック・インデックスを使用し
て、テーブル参照を行い、対応する利得乗数を抽出す
る。他の2つのブロック(65および66)は、第7図にお
ける相当ブロックと同様の動作を行う。
対メモリ)の妥協(trade-off:取引)例を示した。一方
で、少ない計算または高速処理を希望するならば、第8
図を採用するのがよい。他方で、利得乗数テーブル64に
512ワードのメモリ空間を余分に割くことができなけれ
ば、第7図の方がメモリ効率がよい。事実上、第8図
は、ADPCM符号化器に使用されている強力ジェイヤン利
得アダプタを直接一般化したものであるが、第7図は、
選択された励起VQ符号ベクトルに基づいて利得乗数を
「立て続けに」算出する新規な概念を実現したものであ
る。
波形コードブックおよび強度コードブックを最適化する
方法を説明する。このコードブックの最適化によって、
一般に、信号対雑音比(SNR)が1から2dB向上し、また
聴覚的な音声品質も著しく向上する。
るIEEE会報(IEEE Trans.Commun.)COM-28の「ベクトル
量子化器設計のアルゴリズム(An algorithm for vecto
r quantizer design)」(p.84-p.95)においてワイ・
リンド(Y.Linde)、エィ・バゾ(A.Buzo)、およびア
ール・エム・グレイ(R.M.Gray)によって説明されたよ
うな、LGBアルゴリズムに類似した反復アルゴリズムを
用いて行うことができる。しかし、このコードブック設
計における歪の評価基準は、通常のMSEによる基準でな
く、実際には符号化器からみた(即ち、予測器のループ
を閉じた)加重されたMSE歪である。基本概念は、LBGア
ルゴリズムと同じである。仕込用のセットおよび大きさ
Nの初期コードブックが与えられると、仕込用のセット
を符号化し、その仕込用ベクトルを「最近傍」符号化規
制に基づいてN個のクラスタに分割する。次に、各クラ
スタの「重心ベクトル(centroid)」を算出し、これを
用いてそのクラスタを代表する符号ベクトルと置換す
る。そして、算出した直後の重心ベクトルを含む新たな
コードブックを用いて、再び仕込用セットを符号化し、
N個の新たなクラスタの各々について、再び重心ベクト
ルを算出する。この処理は、終了基準が満たされるま
で、反復される。
るかどうかは、N個の各クラスタの重心ベクトルを算出
する方法を発見できるかどうかによる。この「重心ベク
トル条件」が分かると、コードブック設計アルゴリズム
の他の部分は、比較的簡単である。閉ループ励起VQコー
ドブックの設計の重心ベクトル条件は、以下のようにし
て得られる。
応答行列(式(15))をH(n)、評価された励起利得
をσ(n)、選択されたVQ符号ベクトルの強度レベルを
g(n)、そして「正負符号乗数」をη(n)(ここ
で、η(n)は、正符号のとき+1、負符号のとき−1
である)と仮定する。また、yjはj番目の波形符号ベク
トルであり、Nは仕込用セットの符号化中に最良波形符
号ベクトルとしてyがそれに対して選択された時刻イン
デックスの集合であるとする。そこで、仕込用セット全
体を一度符号化すると、yjに対応するj番目のクラスタ
の総積算歪が、次の式で与えられる。
ルyj *は、次の正規方程式を満たす。
の2つの総数は、この符号化器を用いて仕込用音声を符
号化しつつ、N個の波形符号ベクトルに対して別個に積
算される。そして、仕込用のセット全体に対する符号化
を終了したのち、その結果得られるN個のj=1,2,...,
N-1に対する正規方程式をといて、N個の重心ベクトル
を得る。次に、古いコードブックをこれらの重心ベクト
ルで置換し、仕込用のセットを再び開始する。このコー
ドブックの更新処理は、終了基準が満たされるまで繰り
返される。
ゴリズムでは、全体の歪および更新されるコードブック
は、特定の仕込用ベクトルの最適条件に収束することが
保証される。このように収束するための基本条件は、コ
ードブックの更新の繰り返しにおいて、仕込用ベクトル
が終始不変であることである。これが、直接VQのコード
ブックの設計の場合である。
クの設計では、収束は保証されない。これは、予測ルー
プを閉じるため、各ループにおいて異なった仕込用ベク
トルのセット{X(n)}を扱うからである。仕込用ベ
クトルが繰り返しのたびに変化するので、歪およびコー
ドブックは、一般に収束しなくなる(これは、飛行中の
的を射るようなものである)。しかし、実際のコードブ
ックの設計では、最初の数回の繰り返し時には必ずと言
えるほど全体的な歪が増加するので、符号化器から見た
全体的な歪はまだ減少する可能性がある。そこで、後向
き利得適応のために提案されたものと類似の反復終了基
準(前記の1987年9月のチェンおよびガーショウによる
論文を参照)を使用した。
ゴリズムによって、外部仕込用セットの音声において約
1から1.5dBのSNR改善が得られる。通常、(初期コード
ブックが既によい状態で始まらない限り)この聴覚音声
品質の改善は、実に顕著である。この最適化方式が一般
に十分役に立つことを発見した。
において、符号化器に第7図の一般化したジェイヤン利
得アダプタを用いた場合に初期コードブックを生成する
方法を説明する。代わりに第4図の利得アダプタを用い
た場合にも、同様の方法を使用することができる。
るために高次の後向き利得LPC予測を行う。次に、このL
PC残差に強力利得適応アルゴリズムを適用し、また、見
積もった利得を用いて残差ベクトルを正規化する。VQコ
ードブックはまだ使用できないので、選択したVQ符号ベ
クトルのRMS値ではなく正規化残差ベクトルのRMS値を式
(25)の変数xとして使用して、利得乗数を決定する。
次に、正規化残差ベクトルのRMS値を2ビットの利得強
度コードブックによって量子化し、対応する強度量子化
器出力を使用して、既に正規化された残差ベクトルをさ
らに再正規化する。このように二重に正規化することに
よって、励起VQ波形コードブックの仕込に適した残差
「波形」ベクトルが与えられる。一度、このような残差
「波形」仕込用ベクトルが仕込用のセットから得られる
と、希望によりチェンおよびガーショウ(1987年9月)
によて提案された開ループ・コードブック設計アルゴリ
ズムを用いて初期コードブックに設計することができ
る。しかし、簡単にするために、実施例では単にN個の
残差波形仕込用ベクトルを(時間軸について)一様に標
本化し、初期コードブックとして収集した。
化器から見た実際の加重MSE歪に基づいて行うことも可
能である。強度コードブックの重心ベクトルの条件を得
るには、前記の方法を僅かに変更するだけで済む。
とする。また、強度コードブックのi番目の項目をgi、
仕込用のセットの符号化中に選択される強度giに対応す
る時刻インデックスの集合をNiとする。この場合、gに
関係付けられた歪は、 giに関する偏導関数をゼロと置くと、 ここで、E(n)=‖H(n)y(n)‖2は、VQコー
ドブック探査中に式(20)において算出される。従っ
て、Diを最小化する重心ベクトルgi *は、次式で与えら
れる。
される間に、各強度レベル・インデックスiに対して、
2つの総和が求められている。仕込用セット全体が符号
化されたのち、この2つの総和として新たな重心ベクト
ルが算出される。そして、この新たな重心ベクトルが古
いコードブックに置き換えられ、終了条件が満たされる
まで繰り返される。この閉ループ強度コードブック最適
化によって、符号化器の性能をさらに改善することがで
きる。
化器の望ましい実施例を示すブロック図、 第2図は、前記符号化器に対応し、本発明に従う復号器
の望ましい実施例を示すブロック図、 第3図は、第1図に一ブロックとして現れる聴覚加重フ
ィルタ・アダプタを示すブロック図、 第4図は、第1図および第2図に一ブロックとして現れ
る後向きベクトル利得アダプタを示すブロック図、 第5図は、第1図および第2図に一ブロックとして現れ
る後向き合成フィルタ・アダプタを示すブロック図、 第6図は、第4図の代わりに使用可能な別な代わりの後
向きベクトル利得アダプタを示すブロック図、 第7図は、第6図に相当するもう一つの代わりの後向き
ベクトル利得アダプタを示すブロック図、 第8図は、第6図および第7図における後向きベクトル
利得アダプタの計算方法的に効率的な実現を示すブロッ
ク図、 第9図は、第1A図と第1B図との関係を示す図である。
Claims (24)
- 【請求項1】再生用復号器と通信を行う音声符号化方法
において、 各々が複数の標本を有しかつ前記音声の一部分を表す音
声フレームに、前記音声をグループ分けするステップ、 音声の現在のフレームである音声フレームの少なくとも
一部に応じて、音声関連情報の目的集合を形成する形成
ステップ、 音声フレームの少なくとも一部に応じて、合成フィルタ
係数の集合を決定する合成フィルタ係数集合決定ステッ
プ、 前記の合成フィルタ係数の集合から合成フィルタを表す
情報を算出するステップ、 テーブルに格納された励起情報の複数の候補集合に対
し、前記のフィルタ情報、前記の各候補集合、および前
記の音声関連情報の目的集合に応じてエラー値を繰り返
し算出する反復算出ステップ、 前記反復算出ステップに含まれ、それぞれのエラー値の
算出に先立ち、各候補集合に掛け合わせるために適応化
した利得を計算するステップ、 最小のエラー値を生成するものとして、前記の励起情報
の候補集合の1つを選択する選択ステップ、および 音声の現在のフレームに対する前記音声を再生するため
に、前記の励起情報の候補集合のうちの選択された集合
のテーブルにおける位置を表す情報を含む情報を伝達す
る通信ステップ、 を備え、特に、 前記形成ステップが、音声の現在のフレームの一部分で
ある現在の音声ベクトルに応じて音声関連情報の目的集
合を形成するステップを含み、 前記通信ステップにおいて、前記の合成フィルタ係数の
集合の通信が除外され、さらに、前記合成フィルタ係数
集合決定ステップが、現在の音声ベクトルの前に発生し
たベクトルを模擬的に復号した音声のフレームの少なく
とも一部を表す音声ベクトルから線形予測解析によって
合成フィルタ係数の集合を決定するステップを含む ことを特徴とする音声符号化方法。 - 【請求項2】前記フィルタ係数集合決定ステップに、第
1のフレーム以降のすべてのフレームに対して、すべて
のフレームのすべての音声ベクトルごとにフィルタ係数
の集合を送ることが設計ビット速度では非現実的で符号
化器の精度を要求するような個数と精度のフィルタ係数
集合を決定することが含まれる ことを特徴とする請求項1記載の音声符号化方法。 - 【請求項3】前記反復算出ステップおよび前記選択ステ
ップが、励起情報の候補集合を利得因数により乗算する
ステップ、および前に選択されたベクトルに関係付けら
れて前に算出された利得の加重(重み付き)平均を生成
する対数に基づいた計算によって前記利得因数を繰り返
し更新する更新ステップを備え、さらにこの利得更新ス
テップが、加重平均のための加重(重み付け)因数を更
新するステップを備えた ことを特徴とする請求項1記載の音声符号化方法。 - 【請求項4】前記利得更新ステップが、安定な利得特性
を与える加重因数を前記の対数に基づいた計算に与える ことを特徴とする請求項3記載の音声符号化方法。 - 【請求項5】前記合成フィルタ係数集合決定ステップ
に、複数の追加ベクトルに対して前記合成フィルタ係数
集合を一定に保つことも含まれ、さらに 前記通信ステップにおいて、前記反復算出選択ステップ
から利用可能な全利得情報より少ない利得情報の伝達も
行われる ことを特徴とする請求項4記載の音声符号化方法。 - 【請求項6】前記通信ステップに、前記利得情報の一部
として正負符号ビットを伝達することも含まれる ことを特徴とする請求項5記載の音声符号化方法。 - 【請求項7】前記通信ステップに、励起情報の伝達され
る集合に関係付けられた利得因数と区別可能な利得の大
きさの調整値を伝達することも含まれる ことを特徴とする請求項5記載の音声符号化方法。 - 【請求項8】テーブルに格納するために、前記の励起情
報の候補集合を、効率的に通信できるインデックスに関
係付け、さらに、前記の各インデックスの通信における
1ビット・エラー発生時の不正確さを制限するために、
このインデックスの割り付けを調整する ことを特徴とする請求項1から7までのいずれかに記載
の音声符号化方法。 - 【請求項9】再生用符号器と通信を行う音声符号化方法
において、 各々が少なくとも4つの標本を有しかつ前記音声の一部
分を表す音声フレームに、前記音声をグループ分けする
ステップ、 前記音声フレームの現在のフレームに応じて、励起情報
の目的集合を形成する形成ステップ、 開始信号または前記現在の音声フレームの前に発生した
音声フレームに応じて、フィルタ係数の集合を決定する
フィルタ係数集合決定ステップ、 前記フィルタ係数集合から有限長インパルス応答を表す
情報を算出するステップ、 テーブルに格納されかつ音声の前の符号化における使用
頻度に基づく順序で選択された励起情報の複数の候補集
合の各々に対し、前記の有限長インパルス応答のフィル
タ情報、前記の各候補集合、および前記の励起情報の目
的集合に応じてエラー値を繰り返し算出し、この操作
に、前記の各候補集合に利得因数を乗じる過程が含ま
れ、乗じる利得因数が異なる場合には単一の候補集合が
使用される反復算出ステップ、 励起情報の候補集合および所定の値以下のエラー値を生
成する利得因数を選択する選択ステップ、および 前記の励起情報の候補集合のうちの選択された集合のテ
ーブルにおける位置を表す情報を含む情報を伝達し、こ
の伝達情報がフィルタ係数の集合に関して如何なる情報
も含まない通信ステップを備えた ことを特徴とする音声符号化方法。 - 【請求項10】前記フィルタ係数集合決定ステップに、
第1のフレーム以降のすべてのフレームに対して、すべ
てのフレームごとにフィルタ係数の集合を送ることが設
計ビット速度では非現実的で符号化器の精度を要求する
ような個数と精度のフィルタ係数集合を決定することが
含まれる ことを特徴とする請求項9記載の音声符号化方法。 - 【請求項11】前記反復算出ステップおよび前記選択ス
テップが、前に選択されたベクトルに関係付けられて前
に算出された利得の加重平均を生成する対数に基づいた
計算によって前記利得因数を繰り返し更新し、さらに前
記の各候補集合にこの更新された利得因数を乗じる利得
更新ステップを備えたことを特徴とする請求項9記載の
音声符号化方法。 - 【請求項12】前記利得更新ステップが、安定な利得特
性を与える加重因数を前記の対数に基づいた計算に与え
る ことを特徴とする請求項11記載の音声符号化方法。 - 【請求項13】前記合成フィルタ係数集合決定ステップ
に、複数の追加フレームに対して前記合成フィルタ係数
集合を一定に保つことも含まれ、さらに 前記通信ステップにおいて、前記反復算出ステップおよ
び前記選択ステップから利用可能な全利得情報より少な
い利得情報の伝達も行われる ことを特徴とする請求項9記載の音声符号化方法。 - 【請求項14】前記通信ステップに、正負符号ビットを
伝達することも含まれることを特徴とする請求項9記載
の音声符号化方法。 - 【請求項15】前記通信ステップに、励起情報の伝達さ
れる集合に関係付けられた利得因数と区別可能な利得の
大きさの調整値を伝達することも含まれる ことを特徴とする請求項9記載の音声符号化方法。 - 【請求項16】テーブルに格納するために、前記の励起
情報の候補集合を、効率的に通信できるインデックスに
関係付け、さらに、前記の各インデックスの通信におけ
る1ビット・エラー発生時の不正確さを制限するため
に、このインデックスの割り付けを調整する ことを特徴とする請求項9から15までのいずれかに記載
の音声符号化方法。 - 【請求項17】テーブルに格納するために、励起情報の
複数かつ多数の集合の中から複数の候補集合を繰り返し
予め選択するために、 前記の複数かつ多数の各集合に多数の候補利得因数の各
々を乗じるステップ、 精度のために、仕込用の音声標本の集合の原型の生成に
おいて前記の積の試験を行うステップ、および テーブルに格納するために、この試験ステップの結果に
基づいて、前記の複数かつ多数から前記の複数に減らす
ステップからなる、事前選択ステップをさらに備えた ことを特徴とする請求項3、5、6または7に記載の音
声符号化方法。 - 【請求項18】前記フィルタ係数集合決定ステップに、
少なくとも20のフィルタ係数集合を決定することが含ま
れる ことを特徴とする請求項1または9記載の音声符号化方
法。 - 【請求項19】前記符号化方法の前記合成フィルタに安
定に整合した合成フィルタを初期化するステップ、 前記符号化方法によって生成された信号を受信するステ
ップ、 励起情報の集合を生成するために、前記受信信号を復号
する復号ステップ、 前記合成フィルタおよび前記復号ステップからの前記励
起情報の組み合わせによって、各々が出力音声の複数の
標本からなる出力音声フレームを構成するステップ、 前記の構成された出力音声フレームの少なくとも1つに
応じて適切なときに、構成フィルタ係数の集合を決定す
るステップ、および 前記受信信号の後続分に備えて、前記フィルタ係数集合
から合成フィルタを表す情報を算出するステップを備え
た ことを特徴とする請求項1から7、9から15、および17
記載の何れかの前記方法に従って符号化された音声を復
号する音声復号方法。 - 【請求項20】前記符号化方法の反復算出ステップが、
複数のフレームにわたる繰り返し周期に、前記符号化テ
ーブルに格納された前記の励起情報の候補集合の半分に
対する算出を省略する省略ステップを含み、 前記通信ステップが、前記省略ステップの発生ごとに同
期ビットを挿入するステップを含み、さらに 前記復号方法が、前記同期ビットを検出するステップを
備えた ことを特徴とする請求項1から7、9から15、および17
記載の何れかの音声符号化方法およびそれに対応する音
声復号方法を使用した通信方法。 - 【請求項21】再生用復号器と通信を行う音声符号化方
法において、 各々が複数の標本を有しかつ前記音声の一部分を表す音
声フレームに、前記音声をグループ分けするステップ、 音声の現在のフレームである音声フレームの少なくとも
一部に応じて、音声関連情報の目的集合を形成する形成
ステップ、 音声フレームの少なくとも一部に応じて、合成フィルタ
係数の集合を決定する合成フィルタ係数集合決定ステッ
プ、 前記の合成フィルタ係数の集合から合成フィルタを表す
情報を算出するステップ、 テーブルに格納された励起情報の複数の候補集合に対
し、前記のフィルタ情報、前記の各候補集合、および前
記の励起情報の目的集合に応じてエラー値を繰り返し算
出する反復算出ステップ、 前記反復算出ステップに含まれ、それぞれのエラー値の
算出に先立ち、前記の励起情報の各候補集合に対し、各
候補集合に掛け合わせるために適応化した利得を計算す
るステップ、 前記の適応化した利得を乗じたときに、最小のエラー値
を有するものとして、前記の励起情報の候補集合の1つ
を選択する選択ステップ、および 音声の現在のフレームに対する前記音声を再生するため
に、前記の励起情報の候補集合のうちの選択された集合
のテーブルにおける位置を表す情報を含む情報を伝達す
る通信ステップ、 を備え、特に、 前記形成ステップが、音声の現在のフレームの一部分で
ある現在の音声ベクトルに応じて音声関連情報の目的集
合を形成するステップを含み、 前記通信ステップにおいて、前記の合成フィルタ係数の
集合および前記の適応化した利得の指定に必要な情報の
少なくとも一部を伝達することが除外され、 前記フィルタ係数集合決定ステップが、現在の音声ベク
トルの前に発生したベクトルを模擬的に復号した音声の
フレームの少なくとも一部を表す少なくとも1つの音声
ベクトルから前記の合成フィルタ係数の集合を決定する
ステップを含み、さらに、 前記利得算出ステップが、前記現在の音声ベクトルに先
行する音声ベクトルに対して前記の励起情報の選択され
た集合に乗じた先行する前記の適応化された利得から、
前記の適応化された利得を少なくとも部分的に指定する
のに必要な前記の情報の一部を算出すると共に、前記の
先行する利得を繰り返しとは独立な加重因数によって乗
じるステップを備えた ことを特徴とする音声符号化方法。 - 【請求項22】前記フィルタ係数集合決定ステップが、
少なくとも20次までのフィルタ係数を決定するステップ
を含むことを特徴とする請求項21記載の音声符号化方
法。 - 【請求項23】再生用復号器と通信を行う音声符号化器
において、 各々が複数の標本を有しかつ前記音声の一部分を表す音
声フレームに、前記音声をグループ分けするステップ、 音声の現在のフレームである音声フレームの少なくとも
一部に応じて、音声関連情報の目的集合を形成する形成
ステップ、 音声フレームの少なくとも一部に応じて、合成フィルタ
係数の集合を決定する合成フィルタ係数集合決定ステッ
プ、 前記の合成フィルタ係数の集合から合成フィルタを表す
情報を算出するステップ、 テーブルに格納された励起情報の複数の候補集合に対
し、前記のフィルタ情報、前記の各候補集合、および前
記の励起情報の目的集合に応じてエラー値を繰り返し算
出する反復算出ステップ、 前記反復算出ステップに含まれ、それぞれのエラー値の
算出に先立ち、前記の励起情報の各候補集合に対し、各
候補集合に掛け合わせるために適応化した利得を計算す
るステップ、 前記の適応化した利得を乗じたときに、最小のエラー値
を有するものとして、前記の励起情報の候補集合の1つ
を選択する選択ステップ、および 音声の現在のフレームに対する前記音声を再生するため
に、前記の励起情報の候補集合のうちの選択された集合
のテーブルにおける位置を表す情報を含む情報を伝達す
る通信ステップ、 を備え、特に、 前記形成ステップが、音声の現在のフレームの一部分で
ある現在の音声ベクトルに応じて音声関連情報の目的集
合を形成するステップを含み、 前記通信ステップにおいて、前記の合成フィルタ係数の
集合および前記の適応化した利得の指定に必要な情報の
少なくとも一部を伝達することが除外され、さらに 前記フィルタ係数集合決定ステップが、現在の音声ベク
トルの前に発生したベクトルを模擬的に復号した音声の
フレームの少なくとも一部を表す少なくとも1つの音声
ベクトルから、少なくとも20次の合成を行うためのフィ
ルタ係数の集合を決定するステップを含む ことを特徴とする音声符号化方法。 - 【請求項24】前記利得算出ステップが、前記現在の音
声ベクトルに先行する音声ベクトルに対して前記の励起
情報の選択された集合に乗じた先行する前記の適応化さ
れた利得から、前記の適応化された利得を少なくとも部
分的に指定するのに必要な前記の情報の一部を算出する
と共に、前記の先行する利得を繰り返しとは独立な加重
因数によって乗じるステップを備えた ことを特徴とする請求項23記載の音声符号化方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US29845189A | 1989-01-17 | 1989-01-17 | |
| US298451 | 1989-01-17 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH02231825A JPH02231825A (ja) | 1990-09-13 |
| JPH0771045B2 true JPH0771045B2 (ja) | 1995-07-31 |
Family
ID=23150578
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006511A Expired - Lifetime JPH0771045B2 (ja) | 1989-01-17 | 1990-01-17 | 音声符号化方法、音声復号方法、およびこれらを使用した通信方法 |
Country Status (6)
| Country | Link |
|---|---|
| EP (1) | EP0379296B1 (ja) |
| JP (1) | JPH0771045B2 (ja) |
| KR (1) | KR0161971B1 (ja) |
| CA (1) | CA2005115C (ja) |
| DE (1) | DE69026843T2 (ja) |
| ES (1) | ES2087124T3 (ja) |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FR2668288B1 (fr) * | 1990-10-19 | 1993-01-15 | Di Francesco Renaud | Procede de transmission, a bas debit, par codage celp d'un signal de parole et systeme correspondant. |
| DE69233794D1 (de) * | 1991-06-11 | 2010-09-23 | Qualcomm Inc | Vocoder mit veränderlicher Bitrate |
| FI90477C (fi) * | 1992-03-23 | 1994-02-10 | Nokia Mobile Phones Ltd | Puhesignaalin laadun parannusmenetelmä lineaarista ennustusta käyttävään koodausjärjestelmään |
| IT1257065B (it) * | 1992-07-31 | 1996-01-05 | Sip | Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi. |
| FI95086C (fi) * | 1992-11-26 | 1995-12-11 | Nokia Mobile Phones Ltd | Menetelmä puhesignaalin tehokkaaksi koodaamiseksi |
| FI96248C (fi) * | 1993-05-06 | 1996-05-27 | Nokia Mobile Phones Ltd | Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin |
| FI98164C (fi) * | 1994-01-24 | 1997-04-25 | Nokia Mobile Phones Ltd | Puhekooderin parametrien käsittely tietoliikennejärjestelmän vastaanottimessa |
| FR2729245B1 (fr) * | 1995-01-06 | 1997-04-11 | Lamblin Claude | Procede de codage de parole a prediction lineaire et excitation par codes algebriques |
| SE504010C2 (sv) * | 1995-02-08 | 1996-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för prediktiv kodning av tal- och datasignaler |
| KR100389895B1 (ko) * | 1996-05-25 | 2003-11-28 | 삼성전자주식회사 | 음성 부호화 및 복호화방법 및 그 장치 |
| JP4698593B2 (ja) | 2004-07-20 | 2011-06-08 | パナソニック株式会社 | 音声復号化装置および音声復号化方法 |
| GB201005764D0 (en) | 2010-04-07 | 2010-05-26 | Icera Inc | Gain adjuster |
| CN103730112B (zh) * | 2013-12-25 | 2016-08-31 | 讯飞智元信息科技有限公司 | 语音多信道模拟与采集方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4817157A (en) * | 1988-01-07 | 1989-03-28 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
-
1989
- 1989-12-11 CA CA002005115A patent/CA2005115C/en not_active Expired - Lifetime
-
1990
- 1990-01-10 DE DE69026843T patent/DE69026843T2/de not_active Expired - Lifetime
- 1990-01-10 EP EP90300255A patent/EP0379296B1/en not_active Expired - Lifetime
- 1990-01-10 ES ES90300255T patent/ES2087124T3/es not_active Expired - Lifetime
- 1990-01-16 KR KR1019900000457A patent/KR0161971B1/ko not_active Expired - Fee Related
- 1990-01-17 JP JP2006511A patent/JPH0771045B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| DE69026843T2 (de) | 1996-11-14 |
| EP0379296A2 (en) | 1990-07-25 |
| AU4775390A (en) | 1990-07-26 |
| AU607363B2 (en) | 1991-02-28 |
| ES2087124T3 (es) | 1996-07-16 |
| CA2005115C (en) | 1997-04-22 |
| EP0379296B1 (en) | 1996-05-08 |
| DE69026843D1 (de) | 1996-06-13 |
| JPH02231825A (ja) | 1990-09-13 |
| KR900012451A (ko) | 1990-08-04 |
| CA2005115A1 (en) | 1990-07-17 |
| KR0161971B1 (ko) | 1998-12-01 |
| EP0379296A3 (en) | 1991-11-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4868867A (en) | Vector excitation speech or audio coder for transmission or storage | |
| JP3042886B2 (ja) | ベクトル量子化器の方法および装置 | |
| US5327520A (en) | Method of use of voice message coder/decoder | |
| US5208862A (en) | Speech coder | |
| US5371853A (en) | Method and system for CELP speech coding and codebook for use therewith | |
| US6055496A (en) | Vector quantization in celp speech coder | |
| US4817157A (en) | Digital speech coder having improved vector excitation source | |
| US5359696A (en) | Digital speech coder having improved sub-sample resolution long-term predictor | |
| US5903866A (en) | Waveform interpolation speech coding using splines | |
| US5717824A (en) | Adaptive speech coder having code excited linear predictor with multiple codebook searches | |
| HK1040807A1 (zh) | 可變速率語音編碼 | |
| EP1353323A1 (en) | Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound | |
| JPH08263099A (ja) | 符号化装置 | |
| WO1992005541A1 (en) | Voice coding system | |
| US5924061A (en) | Efficient decomposition in noise and periodic signal waveforms in waveform interpolation | |
| JPH0771045B2 (ja) | 音声符号化方法、音声復号方法、およびこれらを使用した通信方法 | |
| JP3343082B2 (ja) | Celp型音声符号化装置 | |
| JP2002268686A (ja) | 音声符号化装置及び音声復号化装置 | |
| US5692101A (en) | Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques | |
| JP3916934B2 (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置 | |
| JP3232701B2 (ja) | 音声符号化方法 | |
| JP3252285B2 (ja) | 音声帯域信号符号化方法 | |
| Hagen | Robust LPC spectrum quantization-vector quantization by a linear mapping of a block code | |
| JP3192051B2 (ja) | 音声符号化装置 | |
| JP3232728B2 (ja) | 音声符号化方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080731 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090731 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100731 Year of fee payment: 15 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100731 Year of fee payment: 15 |