JPH0744200A - 音声符号化方式 - Google Patents
音声符号化方式Info
- Publication number
- JPH0744200A JPH0744200A JP5187937A JP18793793A JPH0744200A JP H0744200 A JPH0744200 A JP H0744200A JP 5187937 A JP5187937 A JP 5187937A JP 18793793 A JP18793793 A JP 18793793A JP H0744200 A JPH0744200 A JP H0744200A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- code vector
- gain
- source code
- circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 111
- 238000001228 spectrum Methods 0.000 claims abstract description 41
- 230000003044 adaptive effect Effects 0.000 claims abstract description 15
- 238000013139 quantization Methods 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000003595 spectral effect Effects 0.000 claims description 25
- 230000005284 excitation Effects 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 22
- 230000005236 sound signal Effects 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 abstract description 7
- 230000004044 response Effects 0.000 description 13
- 238000001914 filtration Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- QEVHRUUCFGRFIF-UHFFFAOYSA-N 6,18-dimethoxy-17-[oxo-(3,4,5-trimethoxyphenyl)methoxy]-1,3,11,12,14,15,16,17,18,19,20,21-dodecahydroyohimban-19-carboxylic acid methyl ester Chemical compound C1C2CN3CCC(C4=CC=C(OC)C=C4N4)=C4C3CC2C(C(=O)OC)C(OC)C1OC(=O)C1=CC(OC)=C(OC)C(OC)=C1 QEVHRUUCFGRFIF-UHFFFAOYSA-N 0.000 description 2
- 101100533283 Dictyostelium discoideum serp gene Proteins 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
送路誤りに敏感でなく、4.8kb/s以下で音質の良
好な音声符号化方式の提供。 【構成】音声信号のサブフレームのスペクトルパラメー
タを求める回路200と、これを量子化する回路210
と、適応コードブックによりサブフレーム毎に音声信号
のピッチ周期を求める回路300と、音源コードブック
により歪の小さい順に一定個数の音源コードベクトルを
選択する回路350と、この音源コードベクトルをピッ
チ周期に等しい遅延を有する一定の次数と重み係数の非
再帰形フイルタに通した後に最良の音源コードベクトル
を選択する回路356と、ゲインコードブックにより回
路356の出力に対応するゲインコードベクトルを探索
し最良のゲインコードベクトルを選択する回路365と
を含んでいる。
Description
特に音声信号を4.8kb/s以下の低いビットレート
で高品質に符号化するための音声符号化方式に関する。
ットレートで符号化する方式としては、例えば、エム.
シュレーダー氏とビー.アタル氏(M.Schroed
erand B.Atal)による″コード イクサイ
テド リニア プレデイクション:ハイ クオリテイ
スピーチ アト ベリ ロウ ビット レイツ(Cod
e−excited linear predicti
on:High quality speech at
very low bit rates)″(Pro
c.ICASSP,pp.937−940,1985
年)と題した論文(文献1)や、クレイン(Kleij
n)氏らによる″インプルーブド スピーチ クオリテ
イ アンド エフイシェント ベクトル クワンチゼイ
ションイン セルプ(Improved speech
quality and efficient ve
ctor quantization in SEL
P″(Proc.ICASSP,pp.155−15
8,1988年)と題した論文(文献2)等に記載され
ているCELP(Code Excited LPCC
oding)が知られている。
(例えば20ms)に音声信号から線形予測(LPC)
分析を用いて、音声信号のスペクトル特性を表すスペク
トルパラメータを抽出し、フレームをさらにサブフレー
ム(例えば5ms)に分割し、サブフレーム毎に過去の
音源信号をもとに適応コードブックにおけるパラメータ
(遅延パラメータとゲインパラメータ)を抽出し、適応
コードブックにより前記サブフレームの音声信号をピッ
チ予測し、ピッチ予測して求めた残差信号に対して、予
め定められた種類の雑音信号からなる音源コードブック
(ベクトル量子化コードブック)から最適音源コードベ
クトルを選択し最適なゲインを計算する。音源コードベ
クトルの選択の仕方は、選択した雑音信号により合成し
た信号と、前記残差信号との誤差電力を最小化するよう
に行なう。そして選択されたコードベクトルの種類を表
すインデクスとゲインならびに、前記スペクトルパラメ
ータと適応コードブックのパラメータを伝送する。受信
側の説明は省略する。
従来の音声符号化方式では、ビットレートを低減化する
とコードブックのサイズが小さくなり、特に女性音の音
質が急激に劣化するという問題点があった。
源信号に対してコムフイルタリングを行ない、音源信号
のピッチ性を強調させることにより音質を改善する方法
が提案されている。
(S.Wang)氏らによる″インプルーブド イクサ
イテイション フオア フオネテイカリ−セグメンテド
ブイエックスシー スピーチ コーデイング ベロウ
4kb/s(Improved Excitatio
n for Phonetically−Segmen
ted VXC Speech Coding Bel
ow 4kb/s″(Proc.GLOBECOM,p
p.946−950,1990)と題した論文(文献
3)等を参照できる。
れるものもあるが、適応コードブックと音源コードブッ
クの両者の探索の時に、全てのコードベクトルにコムフ
イルタリングを施しているので、演算量が膨大になるこ
と、伝送路誤りによりピッチ情報が誤ったときには、受
信側で、大幅な音質劣化が生ずるなどの問題点があっ
た。
し、比較的少ない演算量およびメモリ量により、伝送路
誤りに敏感でなく、4.8kb/s以下で音質の良好な
音声符号化方式を提供することにある。
方式は、音声信号を入力し予め定められた時間長のフレ
ームに分割し前記フレームの音声信号をフレームよりも
時間的に短い複数個のサブフレームに分割し少なくとも
一つのサブフレームに対して前記音声信号のスペクトル
的特徴を表すスペクトルパラメータを求めるスペクトル
パラメータ計算手段と、前記スペクトルパラメータを量
子化するスペクトルパラメータ量子化手段と、適応コー
ドブックを使用してサブフレーム毎に音声信号のピッチ
周期を求めるピッチ周期生成手段と、音源コードブック
を使用して歪の小さい順に予め定められた個数の音源コ
ードベクトルを選択する音源量子化手段と、前記予備選
択した音源コードベクトルを前記ピッチ周期に等しい遅
延を有する予め定められた次数と重み係数の非再帰形フ
イルタに通した後に最良の音源コードベクトルを探索選
択するフイルタ手段と、ゲインコードブックを使用して
前記フイルタ手段の出力に対応するゲインコードベクト
ルを探索し最良のゲインコードベクトルを選択するゲイ
ン量子化手段とを含んで構成される。
を入力し予め定められた時間長のフレームに分割し前記
フレームの音声信号をフレームよりも時間的に短い複数
個のサブフレームに分割し少なくとも一つのサブフレー
ムに対して前記音声信号のスペクトル的特徴を表すスペ
クトルパラメータを求めるスペクトルパラメータ計算手
段と、前記スペクトルパラメータを量子化するスペクト
ルパラメータ量子化手段と、適応コードブックを使用し
てサブフレーム毎に音声信号のピッチ周期を求めるピッ
チ周期生成手段と、音源コードブックを使用して歪の小
さい順に予め定められた個数の音源コードベクトルを選
択する音源量子化手段と、前記予備選択した音源コード
ベクトルを前記ピッチ周期に等しい遅延を有する予め定
められた次数と重み係数の非再帰形フイルタに通すフイ
ルタ手段と、ゲインコードブックを使用して前記フイル
タ手段の各出力に対応するゲインコードベクトルを探索
し最良の音源コードベクトルとゲインコードベクトルの
組み合せを選択するゲイン量子化手段とを含んで構成さ
れる。
を入力し予め定められた時間長のフレームに分割し前記
フレームの音声信号をフレームよりも時間的に短い複数
個のサブフレームに分割し少なくとも一つのサブフレー
ムに対して前記音声信号のスペクトル的特徴を表すスペ
クトルパラメータを求めるスペクトルパラメータ計算手
段と、前記スペクトルパラメータを量子化するスペクト
ルパラメータ量子化手段と、適応コードブックを使用し
てサブフレーム毎に音声信号のピッチ周期を求めるピッ
チ周期生成手段と、音源コードブックを使用して歪の小
さい順に予め定められた個数の音源コードベクトルを選
択する音源量子化手段と、ゲインコードブックから供給
されるゲインコードベクトルの値から決定された重み係
数を有しかつ前記ピッチ周期に等しい遅延を有する予め
定められた次数の非再帰形フイルタに前記予備選択した
音源コードベクトルを通した後に最良の音源コードベク
トルとゲインコードベクトルの組み合せを選択するフイ
ルタ手段とを含んで構成される。
る。
分割し、さらに、サブフレーム(例えば8ms)に分割
する。フレーム毎に音声のスペクトル的特徴を表すスペ
クトルパラメータを計算し量子化する。
に、適応コードブックを使用して音声のピッチ周期に対
応する遅延を計算する。
探索を行ない、歪の小さい順に複数個(例えばM個)の
音源コードベクトルを予備選択する。
に対して、下式により非再帰形フイルタ(以下MA形コ
ムフイルタと呼ぶ)に通すことによりコムフイルタリン
グを行なう。
チ周期に応じた遅延とする。また、コムフイルタの次数
は予め定められた次数とする。以下では、簡単のため
に、次数=1とし、その場合についてのコムフイルタリ
ングした音源コードベクトルcjz(n)は下式で示され
る。
コードベクトル、ηはMA形コムフイルタの重み係数で
あり、予め定められた値を有する。Tはピッチ周期生成
手段において求められた遅延である。
いて(1)式によりコムフイルタリングを行ない、コム
フイルタリングされた音源コードベクトルcjz(n)の
中から、次式の歪を最小化する最良の音源コードベクト
ルを1種類選択する。
回路の出力、v(n−T)はピッチ周期生成手段の出
力、βはピッチ周期生成手段のゲイン、γは音源コード
ブックの最適ゲイン、hw (n)は聴感重み付け合成フ
イルタのインパルス応答である。
コードブックを用いてゲイン(β,γ)を量子化する。
数個予備選択し、複数個に対して、各々の音源コードベ
クトルに対してゲインコードベクトルを探索するとき
に、(1)式で音源コードベクトルをコムフイルタリン
グして行なう。
インコードベクトルと音源コードベクトルの組を1組選
択する。
インコードベクトルである。ここでゲインコードベクト
ルは2次元のものを使用している。
ηとして、第1および第2の発明のように予め定められ
た値を用いるのではなく、ゲインコードブックの探索の
時に、ゲインコードベクトルから得られる値を用いるこ
とを特徴とする。
するように、ゲインコードベクトル(β’k ,γ’k )
と音源コードベクトルcj (n)の組を選択する。
ードベクトル(β’k ,γ’k )の第1次目を用いて求
めたコムフイルタの重み係数である。ここで、εは予め
定められた定数である。
て説明する。
施例を示すブロック図である。
号を入力し、フレーム分割回路110では音声信号をフ
レーム(例えば40ms)毎に分割し、サブフレーム分
割回路120では、フレームの音声信号をフレームより
も短いサブフレーム(例えば8ms)に分割する。
は、少なくとも一つのサブフレームの音声信号に対し
て、サブフレーム長よりも長い窓(例えば24ms)を
かけて音声を切り出してスペクトルパラメータを予め定
められた次数(例えばP=10次)計算する。
間での過渡区間では時間的に大きく変化するので、短い
時間毎に分析する方が望ましいが、そのようにすると分
析に必要な演算量が増大するため、ここでは、フレーム
中のいずれかL個(L>1)のサブフレーム(例えばL
=3とし、第1、3、5サブフレーム)に対してスペク
トルパラメータを計算することにする。
(ここでは第2、4サブフレーム)では、それぞれ、第
1と第3サブフレーム、第3と第5サブフレームのスペ
クトルパラメータを後述のLSP上で直線補間したもの
をスペクトルパラメータとして使用する。
周知のLPC分析や、Burg分析等を用いることがで
きる。ここでは、Burg分析を用いることとする。B
urg分析の詳細については、中溝著による″信号解析
とシステム同定″と題した単行本(コロナ社1988年
刊)の82〜87頁(文献4)に記載されているので説
明は略する。
0では、Burg法により計算された線形予測係数αi
(i=1〜10)を量子化や補間に適したLSPパラメ
ータに変換する。ここで、線形予測係数からLSPへの
変換は、菅村他による″線スペクトル対(LSP)音声
分析合成方式による音声情報圧縮″と題した論文(電子
通信学会論文誌、J64−A、pp.599−606、
1981年)(文献5)を参照することができる。
rg法により求めた線形予測係数をLSPパラメータに
変換し、第2、4サブフレームのLSPを直線補間によ
り求めて、第2、4サブフレームのLSPを逆変換して
線形予測係数に戻し、第1〜5サブフレームの線形予測
係数αil(i=1〜10,l=1〜5)を聴感重み付け
回路230に出力する。また第1〜5サブフレームのL
SPをスペクトルパラメータ量子化回路210へ出力す
る。
は、LSPコードブック211を使用して、予め定めら
れたサブフレームのLSPパラメータを効率的に量子化
する。以下では、量子化法として、ベクトル量子化を用
いるものとし、第5サブフレームのLSPパラメータを
量子化するものとする。
は周知の手法を用いることができる。具体的な方法は、
例えば、特開平4−171500(文献6)や特開平4
−363000(文献7)や、特開平5−6199(文
献8)や、野村氏他による「LSPパラメータの効率的
な量子化、補間法の検討」(電子情報通信学会秋季全
大、1993年9月)と題した論文(文献9)等を参照
できるのでここでは説明は略する。
10では、第5サブフレームで量子化したLSPパラメ
ータをもとに、第1〜第4サブフレームのLSPパラメ
ータを復元する。ここでは、現フレームの第5サブフレ
ームの量子化LSPパラメータと1つ過去のフレームの
第5サブフレームの量子化LSPを直線補間して、第1
〜第4サブフレームのLSPを復元する。
SPとの誤差電力を最小化するコードベクトルをLSP
コードブック211から1種類選択した後に、直線補間
により第1〜第4サブフレームのLSPを復元できる。
さらに性能を向上させるためには、前記誤差電力を最小
化するコードベクトルを複数候補選択したのちに、各々
の候補について、累積歪を評価し、累積歪を最小化する
候補と補間LSPの組を選択するようにすることができ
る。
のLSPと第5サブフレームの量子化LSPをサブフレ
ーム毎に線形予測係数α’il(i=1〜10,l=1〜
5)に変換し、インパルス応答計算回路310へ出力す
る。また、第5サブフレームの量子化LSPのコードベ
クトルを表すインデクスをマルチプレクサ400に出力
する。
Pの補間パターンを予め定められたビット数(例えば2
ビット)分用意しておき、これらのパターンの各々に対
して1〜4サブフレームのLSPを復元して累積歪を最
小化するコードベクトルと補間パターンの組を選択する
ようにしてもよい。このようにすると補間パターンのビ
ット数だけで伝送情報が増加するが、LSPのフレーム
内での時間的な変化をより精密に表すことができる。
のLSPデータを用いて予め学習して作成してもよい
し、予め定められたパターンを格納しておいてもよい。
予め定められたパターンとしては、例えば、テー.タニ
グチ他(T.Taniguchet al)による″イ
ンプルーブド セルプ スピーチ コーデイング アト
4kb/s アンド べロウ(Improved CE
LP speechcoding at 4kb/s
and below)″と題した論文(Proc.IC
SLP,pp.41−44,1992)(文献10)等
に記載のパターンを用いることができる。
間パターンを選択した後に、予め定められたサブフレー
ムにおいて、LSPの真の値とLSPの補間値との誤差
信号を求め、前記誤差信号をさらに誤差コードブックで
表すようにしてもよい。詳細は、前記文献9等を参照で
きる。
行なうときの特徴量として、スペクトルパラメータの予
測誤差電力を用いる。スペクトルパラメータ計算回路2
00により計算された線形予測係数を5サブフレーム分
入力し、kパラメータに変換し、5サブフレーム分の累
積予測誤差電力Eを計算する。Eの値を予め定められた
しきい値と比較して、複数種類のモードに分類する。例
えば、Eの小さい順にモード0〜3の4種類のモードに
分類するときは、3種類のしきい値と比較することによ
り行なう。
生成回路300へ出力すると共に、モード情報を表すイ
ンデクス(4種類のモード情報のときは2ビット)をマ
ルチプレクサ400へ出力する。
ラメータ計算回路200から、各サブフレーム毎に量子
化前の線形予測係数αil(i=1〜10,l=1〜5)
を入力し、サブフレームの音声信号に対して聴感重み付
けを行ない、聴感重み付け信号を出力する。
ラメータ計算回路200から、各サブフレーム毎に線形
予測係数αilを入力し、スペクトルパラメータ量子化回
路210から、量子化、補間して復元した線形予測係数
α’ilをサブフレーム毎に入力し、保存されているフイ
ルタメモリの値を用いて、入力信号d(n)=0とした
応答信号を1サブフレーム分計算し、減算器235へ出
力する。ここで、応答信号xz (n)は下式で表され
る。
み係数であり、下記の(8)式のγと同一の値である。
また、y(n)は聴感重み付け合成フイルタの出力信号
である。
け信号から応答信号を1サブフレーム分減算したxw ’
(n)をピッチ周期生成回路300へ出力する。
が下式で表される聴感重み付け合成フイルタのインパル
ス応答hw (n)を予め定められた点数Lだけ計算し、
ピッチ周期生成回路300、音源量子化回路350へ出
力する。
ブックを使用して、モード分類回路250からのモード
情報を入力し、予め定められたモード(例えばモード1
〜3)のときのみピッチパラメータを求める。そして、
求めたサブフレーム毎の遅延値に対応するインデクスを
マルチプレクサ400に出力する。
出力信号、ピッチ周期生成回路300の出力信号、イン
パルス応答計算回路310の出力信号を入力し、音源コ
ードブックの探索を行なう。ここで、音源コードブック
の段数は2とし、図1では2段のベクトル量子化コード
ブックを音源コードブック3511 〜3512 として表
している。各段のコードベクトルの探索は(9)式を最
小化するように行なう。
力信号である。βはピッチ周期生成回路300のゲイ
ン、q(n)はピッチ周期生成回路300の出力信号で
ある。
00を使用しないため、(9)式のかわりに(10)式
を最小化するコードベクトルを探索する。
2段目の音源コードブックの最適ゲインである。
1段目、2段目のコードベクトルの探索法は種々ある
が、ここでは、探索に要する演算量を低減化するため
に、1段目、2段目から複数種類(M)の候補を選択
し、選択後に、1、2段目の候補のM*Mの組み合わせ
探索を行ない、(9)式の歪を最小化する候補の組み合
わせを複数個(L)選択し出力する。具体的な探索法は
前記文献7を参照できる。また、1段目、2段目の音源
コードベクトルは、前述の探索法を考慮して、予め多量
の音声データベースを用いて設計しておく。具体的な設
計法は、前記文献7を参照できる。
ド1〜3において、選択されたL個の音源コードベクト
ル候補の各々に対して、(1)式に従い、MA形コムフ
イルタを通す。以下の説明では、コムフイルタの次数を
1とする。また、コムフイルタの重み係数は、予め定め
られた値を用いるが、モード毎に異なる値を用いること
もできる。
フイルタを通した信号cjz(n)を用いて下式の歪を評
価し、歪を最小化する音源コードベクトルを1種選択し
出力する。
ードベクトルのインデクスIc1、Ic2をマルチプレクサ
400に出力する。
ブック355の探索、ゲインの量子化を行なう。ゲイン
コードブック355は、ピッチ周期生成回路300を使
用するモード1〜3では、音源コードブックの決定され
たインデクスを用いて下式を最小化するようにゲインコ
ードブック355を使用してゲインコードベクトルを探
索する。
ぞれ、適応コードベクトル、1段目、2段目の音源コー
ドベクトルの量子化されたゲインを示す。ここで、
(β’k,γ’1k,γ’2k)はそのk番目のコードベク
トルである。
てのゲインコードベクトル(k=0,……,2B −1)
に対して(12)式を計算し、(12)式を最小化する
ゲインコードベクトルを求めてもよいし、ゲインコード
ベクトルの候補を複数種類予備選択しておき、その複数
種類のなかから、(12)式を最小化するものを選択し
てもよい。
ゲインコードベクトルを示すインデクスIg を出力す
る。一方、ピッチ周期生成回路300を用いないモード
では、下式を最小化するようにゲインコードブック35
5を探索する。ここでは2次元のゲインコードブックを
使用する。
ルパラメータ計算回路200の出力パラメータおよび、
それぞれのインデクスを入力し、インデクスからそれに
対応するコードベクトルを読みだし、まず下式にもとづ
き駆動音源信号v(n)を求める。
しないモードでは、β’=0とする。
0の出力パラメータ、スペクトルパラメータ量子化回路
210の出力パラメータを用いて下式により、重み付け
信号sw (n)をサブフレーム毎に計算し、応答信号計
算回路240へ出力する。
タの出力信号である。
説明を終える。
施例を示すブロック図である。図1の実施例と同一の参
照番号を付した構成要素は、図1と同様の動作を行なう
ので説明を省略する。
は、モード1〜3では、音源コードベクトルのL個の候
補の各々に対して、(1)式に従いMA形コムフイリタ
リングを行ない、L個のコムフイリタリングされた信号
をゲイン量子化回路366に出力する。モード0ではコ
ムフイルタリングは行なわない。ここで、モード1〜3
でのコムフイルタの重み係数は、予め定められた値を用
いるが、モード毎に異なる値を用いることもできる。
では、L個のコムフイルタリングされた信号の各々に対
して、下式を最小化するように3次元のゲインコードブ
ック355を使用してゲインコードベクトルを探索す
る。
ぞれ、適応コードベクトル、1段目、2段目の音源コー
ドベクトルの量子化されたゲインを示す。ここで、
(β’k,γ’1k,γ’2k)はそのk番目のコードベク
トルである。
てのゲインコードベクトル(k=0,……,2B −1)
に対して(16)式を計算し、(16)式を最小化する
ゲインコードベクトルを求めてもよいし、ゲインコード
ベクトルの候補を予め複数種類予備選択しておき、その
複数種類のなかから、(16)式を最小化するものを選
択してもよい。
し、歪を最小化する信号cz (n)とゲインコードベク
トルとの組み合わせを1種類選択し出力する。
いモードでは、下式を最小化するようにゲインコードブ
ック355を探索する。ここでは2次元のゲインコード
ブックを使用する。
する。
施例を示すブロック図である。図1の実施例と同一の参
照番号を付した構成要素は、図1と同様の動作を行なう
ので説明を省略する。
では、音源コードベクトルのL個の候補の各々に対し
て、(1)式に従いMA形コムフイルタリングを行なう
が、このときに、ゲインコードブック355からゲイン
コードベクトルを入力して、ゲインコードベクトルから
得られる値を用いてコムフイルタの重み係数を求め、
(5)式により、L個の音源コードベクトルの各々に対
してコムフイルタリングを行ない、cj ’z (n)を求
める。ここで、(5)式のεは、予め定められた定数で
あり、モードによらず一定値としてもよいし、モード毎
に異なる値としてもよい。
々に対して、(18)式を最小化するように、ゲインコ
ードベクトルを求め、それらの中から、(18)式の歪
が最も小さいゲインコードベクトルと音源コードベクト
ルとの組み合わせを1種類選択し、マルチプレクサ40
0へ出力する。
ルパラメータ計算回路200の出力パラメータおよびそ
れぞれのインデクスを入力し、インデクスからそれに対
応するコードベクトルを読みだし、まず、下式にもとづ
き駆動音源信号v(n)を求める。
しないモードでは、β’=0とする。
終了する。
実施例以外にも種々の変形が可能である。
の周知なパラメータを用いることができる。
フレーム中で少なくとも1つのサブフレームでスペクト
ルパラメータを計算するときに、前のサブフレームと現
在のサブフレームとのRMSの変化あるいはパワの変化
を測定し、これらの変化が大きな複数個のサブフレーム
に対してスペクトルパラメータを計算するようにしても
よい。このようにすると、音声の変化点では必ずスペク
トルパラメータを分析することになり、分析するサブフ
レーム数を低減しても性能の劣化を防ぐことができる。
トル量子化、スカラ量子化、ベクトル−スカラ量子化な
ど周知な方法を用いることができる。
おける補間パターンの選択には、他の周知な距離尺度を
用いることができる。
他の周知なものを用いることができる。例えば、ピッチ
予測による予測ゲインを用いることができる。
イルタ回路356、357および358における遅延
は、整数値でも小数値でもよい。
(9)〜(17)式で、ゲインγ1 とγ2 を同一とする
こともできる。このときは、ゲインコードブック355
はピッチ周期生成回路300を用いるモードでは、
(β’,γ’)の2次元ゲインとなり、ピッチ周期生成
回路300を用いないモードでは(γ’)の1次元ゲイ
ンとなる。
数、あるいは各段の音源コードブックのビット数、ゲイ
ンコードブックのビット数を変えることもできる。例え
ば、モード0は3段で、モード1〜3は2段とすること
もできる。
ば、2段構成のときに、1段目のコードベクトルに対応
させて2段目のコードブックを設計しておき、1段目で
選択されたコードベクトルに応じて2段目で探索するコ
ードブックを切り換えるようにすると、メモリ量は増大
するが、性能はさらに改善される。
ス構成とすることにより、探索に必要な演算量、格納に
必要なメモリ量を低減化できる。
学習のときの距離尺度は、他の周知な尺度を用いること
もできる。
58の次数は、高次(例えば3次)とすることもでき
る。このようにすると、演算量がやや増加するが、性能
はさらに改善される。
ビット数よりも全体で数倍大きなサイズのコードブック
をあらがじめ学習し、予め定められたモード毎に前記コ
ードブックの一部の領域を使用領域としてアサインして
おき、符号化するときは、モードに応じて使用領域を切
り換えて使用することもできる。
索、ならびに音源量子化回路360での探索には、それ
ぞれ、(9)〜(12)式のように、インパルス応答h
w (n)を用いて畳み込み演算を行なったが、これは、
伝達特性が(8)式で表されるような重み付けフイルタ
を用いてフイルタリング演算により行なうこともでき
る。このようにすると、演算量は増大するが、性能はさ
らに向上する。
化方式によれば、予備選択された複数個の音源コードベ
クトルに対して、非再帰形コムフイルタを通し、歪を最
小化する音源コードベクトルを選択するか、非再帰形コ
ムフイルタを通してゲインコードベクトルと音源コード
ベクトルの組み合わせを選択するかしているので、低ビ
ットレートでも比較的少ない演算量で音質の改善を行な
うことができるという効果がある。さらに、非再帰形コ
ムフイルタを使用しているので、伝送路誤りによる音質
の劣化が少ないという効果がある。
ブロック図である。
ブロック図である。
ブロック図である。
Claims (3)
- 【請求項1】 音声信号を入力し予め定められた時間長
のフレームに分割し前記フレームの音声信号をフレーム
よりも時間的に短い複数個のサブフレームに分割し少な
くとも一つのサブフレームに対して前記音声信号のスペ
クトル的特徴を表すスペクトルパラメータを求めるスペ
クトルパラメータ計算手段と、前記スペクトルパラメー
タを量子化するスペクトルパラメータ量子化手段と、適
応コードブックを使用してサブフレーム毎に音声信号の
ピッチ周期を求めるピッチ周期生成手段と、音源コード
ブックを使用して歪の小さい順に予め定められた個数の
音源コードベクトルを選択する音源量子化手段と、前記
予備選択した音源コードベクトルを前記ピッチ周期に等
しい遅延を有する予め定められた次数と重み係数の非再
帰形フイルタに通した後に最良の音源コードベクトルを
探索選択するフイルタ手段と、ゲインコードブックを使
用して前記フイルタ手段の出力に対応するゲインコード
ベクトルを探索し最良のゲインコードベクトルを選択す
るゲイン量子化手段とを含むことを特徴とする音声符号
化方式。 - 【請求項2】 音声信号を入力し予め定められた時間長
のフレームに分割し前記フレームの音声信号をフレーム
よりも時間的に短い複数個のサブフレームに分割し少な
くとも一つのサブフレームに対して前記音声信号のスペ
クトル的特徴を表すスペクトルパラメータを求めるスペ
クトルパラメータ計算手段と、前記スペクトルパラメー
タを量子化するスペクトルパラメータ量子化手段と、適
応コードブックを使用してサブフレーム毎に音声信号の
ピッチ周期を求めるピッチ周期生成手段と、音源コード
ブックを使用して歪の小さい順に予め定められた個数の
音源コードベクトルを選択する音源量子化手段と、前記
予備選択した音源コードベクトルを前記ピッチ周期に等
しい遅延を有する予め定められた次数と重み係数の非再
帰形フイルタに通すフイルタ手段と、ゲインコードブッ
クを使用して前記フイルタ手段の各出力に対応するゲイ
ンコードベクトルを探索し最良の音源コードベクトルと
ゲインコードベクトルの組み合せを選択するゲイン量子
化手段とを含むことを特徴とする音声符号化方式。 - 【請求項3】 音声信号を入力し予め定められた時間長
のフレームに分割し前記フレームの音声信号をフレーム
よりも時間的に短い複数個のサブフレームに分割し少な
くとも一つのサブフレームに対して前記音声信号のスペ
クトル的特徴を表すスペクトルパラメータを求めるスペ
クトルパラメータ計算手段と、前記スペクトルパラメー
タを量子化するスペクトルパラメータ量子化手段と、適
応コードブックを使用してサブフレーム毎に音声信号の
ピッチ周期を求めるピッチ周期生成手段と、音源コード
ブックを使用して歪の小さい順に予め定められた個数の
音源コードベクトルを選択する音源量子化手段と、ゲイ
ンコードブックから供給されるゲインコードベクトルの
値から決定された重み係数を有しかつ前記ピッチ周期に
等しい遅延を有する予め定められた次数の非再帰形フイ
ルタに前記予備選択した音源コードベクトルを通した後
に最良の音源コードベクトルとゲインコードベクトルの
組み合せを選択するフイルタ手段とを含むことを特徴と
する音声符号化方式。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5187937A JP2624130B2 (ja) | 1993-07-29 | 1993-07-29 | 音声符号化方式 |
| CA002129161A CA2129161C (en) | 1993-07-29 | 1994-07-29 | Comb filter speech coding with preselected excitation code vectors |
| US08/791,547 US5797119A (en) | 1993-07-29 | 1997-02-03 | Comb filter speech coding with preselected excitation code vectors |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5187937A JP2624130B2 (ja) | 1993-07-29 | 1993-07-29 | 音声符号化方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0744200A true JPH0744200A (ja) | 1995-02-14 |
| JP2624130B2 JP2624130B2 (ja) | 1997-06-25 |
Family
ID=16214793
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5187937A Expired - Fee Related JP2624130B2 (ja) | 1993-07-29 | 1993-07-29 | 音声符号化方式 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US5797119A (ja) |
| JP (1) | JP2624130B2 (ja) |
| CA (1) | CA2129161C (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001003115A1 (en) * | 1999-06-30 | 2001-01-11 | Matsushita Electric Industrial Co., Ltd. | Audio decoder and coding error compensating method |
| WO2002054386A1 (en) * | 2000-12-26 | 2002-07-11 | Mitsubishi Denki Kabushiki Kaisha | Voice encoding system, and voice encoding method |
| US7425362B2 (en) | 2002-09-06 | 2008-09-16 | E.Pak International, Inc. | Plastic packaging cushion |
Families Citing this family (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1124590C (zh) * | 1997-09-10 | 2003-10-15 | 三星电子株式会社 | 改善话音信号编码器性能的方法 |
| AU732401B2 (en) | 1997-12-24 | 2001-04-26 | Blackberry Limited | A method for speech coding, method for speech decoding and their apparatuses |
| US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
| WO2000022606A1 (en) * | 1998-10-13 | 2000-04-20 | Motorola Inc. | Method and system for determining a vector index to represent a plurality of speech parameters in signal processing for identifying an utterance |
| US6587816B1 (en) * | 2000-07-14 | 2003-07-01 | International Business Machines Corporation | Fast frequency-domain pitch estimation |
| JP3426207B2 (ja) * | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
| PL2515299T3 (pl) | 2009-12-14 | 2018-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie do kwantyzacji wektorowej, urządzenie do kodowania głosu, sposób kwantyzacji wektorowej i sposób kodowania głosu |
| CN102906812B (zh) * | 2010-04-08 | 2016-08-10 | Lg电子株式会社 | 处理音频信号的方法和装置 |
| CN110534122B (zh) * | 2014-05-01 | 2022-10-21 | 日本电信电话株式会社 | 解码装置、及其方法、记录介质 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03243999A (ja) * | 1990-02-22 | 1991-10-30 | Nec Corp | 音声符号化装置 |
| JPH04171500A (ja) * | 1990-11-02 | 1992-06-18 | Nec Corp | 音声パラメータ符号化方法 |
| JPH04363000A (ja) * | 1991-02-26 | 1992-12-15 | Nec Corp | 音声パラメータ符号化方式および装置 |
| JPH056199A (ja) * | 1991-06-27 | 1993-01-14 | Nec Corp | 音声パラメータ符号化方式 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4868867A (en) * | 1987-04-06 | 1989-09-19 | Voicecraft Inc. | Vector excitation speech or audio coder for transmission or storage |
| US4907276A (en) * | 1988-04-05 | 1990-03-06 | The Dsp Group (Israel) Ltd. | Fast search method for vector quantizer communication and pattern recognition systems |
| US5208862A (en) * | 1990-02-22 | 1993-05-04 | Nec Corporation | Speech coder |
| JP2626223B2 (ja) * | 1990-09-26 | 1997-07-02 | 日本電気株式会社 | 音声符号化装置 |
| US5271089A (en) * | 1990-11-02 | 1993-12-14 | Nec Corporation | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
| US5173941A (en) * | 1991-05-31 | 1992-12-22 | Motorola, Inc. | Reduced codebook search arrangement for CELP vocoders |
| US5248845A (en) * | 1992-03-20 | 1993-09-28 | E-Mu Systems, Inc. | Digital sampling instrument |
| US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
-
1993
- 1993-07-29 JP JP5187937A patent/JP2624130B2/ja not_active Expired - Fee Related
-
1994
- 1994-07-29 CA CA002129161A patent/CA2129161C/en not_active Expired - Fee Related
-
1997
- 1997-02-03 US US08/791,547 patent/US5797119A/en not_active Expired - Lifetime
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03243999A (ja) * | 1990-02-22 | 1991-10-30 | Nec Corp | 音声符号化装置 |
| JPH04171500A (ja) * | 1990-11-02 | 1992-06-18 | Nec Corp | 音声パラメータ符号化方法 |
| JPH04363000A (ja) * | 1991-02-26 | 1992-12-15 | Nec Corp | 音声パラメータ符号化方式および装置 |
| JPH056199A (ja) * | 1991-06-27 | 1993-01-14 | Nec Corp | 音声パラメータ符号化方式 |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001003115A1 (en) * | 1999-06-30 | 2001-01-11 | Matsushita Electric Industrial Co., Ltd. | Audio decoder and coding error compensating method |
| US7171354B1 (en) | 1999-06-30 | 2007-01-30 | Matsushita Electric Industrial Co., Ltd. | Audio decoder and coding error compensating method |
| US7499853B2 (en) | 1999-06-30 | 2009-03-03 | Panasonic Corporation | Speech decoder and code error compensation method |
| WO2002054386A1 (en) * | 2000-12-26 | 2002-07-11 | Mitsubishi Denki Kabushiki Kaisha | Voice encoding system, and voice encoding method |
| US7454328B2 (en) | 2000-12-26 | 2008-11-18 | Mitsubishi Denki Kabushiki Kaisha | Speech encoding system, and speech encoding method |
| US7425362B2 (en) | 2002-09-06 | 2008-09-16 | E.Pak International, Inc. | Plastic packaging cushion |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2624130B2 (ja) | 1997-06-25 |
| US5797119A (en) | 1998-08-18 |
| CA2129161A1 (en) | 1995-01-30 |
| CA2129161C (en) | 1999-05-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2746039B2 (ja) | 音声符号化方式 | |
| JP3094908B2 (ja) | 音声符号化装置 | |
| JP3114197B2 (ja) | 音声パラメータ符号化方法 | |
| JP3196595B2 (ja) | 音声符号化装置 | |
| JP2800618B2 (ja) | 音声パラメータ符号化方式 | |
| JPH056199A (ja) | 音声パラメータ符号化方式 | |
| JP2624130B2 (ja) | 音声符号化方式 | |
| JP2002268686A (ja) | 音声符号化装置及び音声復号化装置 | |
| JPH09319398A (ja) | 信号符号化装置 | |
| JP2970407B2 (ja) | 音声の励振信号符号化装置 | |
| JP3308764B2 (ja) | 音声符号化装置 | |
| JP3153075B2 (ja) | 音声符号化装置 | |
| JP3360545B2 (ja) | 音声符号化装置 | |
| JP3003531B2 (ja) | 音声符号化装置 | |
| JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
| JP3144284B2 (ja) | 音声符号化装置 | |
| JP3299099B2 (ja) | 音声符号化装置 | |
| JP3192051B2 (ja) | 音声符号化装置 | |
| JP3471542B2 (ja) | 音声符号化装置 | |
| JPH08320700A (ja) | 音声符号化装置 | |
| JP2907019B2 (ja) | 音声符号化装置 | |
| JP3092654B2 (ja) | 信号符号化装置 | |
| JP3144244B2 (ja) | 音声符号化装置 | |
| JP2808841B2 (ja) | 音声符号化方式 | |
| JPH08194499A (ja) | 音声符号化装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19970204 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080411 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090411 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100411 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110411 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120411 Year of fee payment: 15 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120411 Year of fee payment: 15 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130411 Year of fee payment: 16 |
|
| LAPS | Cancellation because of no payment of annual fees |