JPH03102921A - 条件付き確率的励起符号化法 - Google Patents
条件付き確率的励起符号化法Info
- Publication number
- JPH03102921A JPH03102921A JP2226785A JP22678590A JPH03102921A JP H03102921 A JPH03102921 A JP H03102921A JP 2226785 A JP2226785 A JP 2226785A JP 22678590 A JP22678590 A JP 22678590A JP H03102921 A JPH03102921 A JP H03102921A
- Authority
- JP
- Japan
- Prior art keywords
- excitation
- signal
- parameter
- parameters
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005284 excitation Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000006872 improvement Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 claims 3
- 108010076504 Protein Sorting Signals Proteins 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 14
- 238000012545 processing Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 3
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 3
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 3
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 102100036432 Calcineurin subunit B type 2 Human genes 0.000 description 2
- 101710158087 Calcineurin subunit B type 2 Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 240000008100 Brassica rapa Species 0.000 description 1
- 101100446727 Caenorhabditis elegans flh-3 gene Proteins 0.000 description 1
- 206010019133 Hangover Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000002079 cooperative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000008080 stochastic effect Effects 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0003—Backward prediction of gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
め要約のデータは記録されません。
Description
おいて確率的要素を持つものとして表わすことができる
情報、例れば、音声の効率的な符号化に関する。
cited Predictive , CBLP)符
号化が低速度、例えば、8Kb/sにおけるデジタル音
声通信に対する主要な技術として出現し、今日において
は、デジタル移動電話及び秘密音声通信における符号化
に対する主要候補であると見なされている。これに関し
ては、例えば、B.S.アタル(B.S.Atal)及
びM.R.シュローダー(M.R.Schroeder
)によって、Proceedin s IEEE In
t,Conf.Comm. ,1 9 8 4年5月号
、ページ48.1に掲載の論文『非常に低ビット速度に
おける音声信号の確率的符号化(Stochastic
Coding of Speech Signals
at VeryLow Bit Rates) J
: M.R.シュローダー( M.R.Schroed
er)及びB.S.アタル(B.S,Atal)によっ
て、Proc.IEEE Int.Conf.ASSP
.. 1 9 8 5年、ページ937−940に掲
載の論文『コード励起線型予測(Code−Excit
ed Linear Predictive , CE
LP) :非常に低ビット速度における高品質音声(
}IighQuality Speech ar Ve
ry row Bit Rates) J ;P.クル
ーン(P.Kroon)及びε.F.デプレンテル(E
,F.Deprettere)によって、IEEE J
,on Set,Area in Comm.SAC−
6(2) 、1 9 8 8年2月号、ページ353−
363に掲載の論文rあるクラスの4.8から16Kb
/sの間の速度における高品質音声符号化のための分析
一合或予測コーダー(AClass of Analy
sis−by−Synthesis Predicti
veCoders for High−Quality
Speech Coding at RateBet
ween 4.8 and 16Kb/s) J ;
P.クルーン( P.Kroon)及びB.S.アタル
(B.S.Atal)によって、Proc.IEEf!
Int.Conf.ASSP.. 1 9 8 7
年、ページ1650−1654に掲載の論文’ 4.
8 Kb/ sCELPコーダーに対する電子化手順(
ロuantizationProcedures fo
r 4.8 Kb/s CELP Coders) J
;及び1989年3月17日付けで8.アタル(B.
Atal)らに交付され、本発明の受託者に譲渡された
合衆国特許第4,827,517号を参照すること。
品質の音声を提供することができるが、4. 8 Kb
/ sにおけるこの性能は、幾つかのアプリケーション
に対しては、まだ、満足できるものではない。CELP
符号化概念の特徴、つまり、線型フィルターの確率的励
起は、また、潜在的な弱点を持つ。つまり、確率的励起
は、一般的には、音声合或プロセスに寄与することなく
、また、フィルターによって完全に除去することができ
ないノイズ性或分を含む。従って、CELP符号化の低
ビット特性を保持する一方において、符号化された音声
が復合されたときの再生された音声の知覚品質を改良す
ることが要求される。
、線型予測フィルター(Iinearpredicti
vesfilter + LPF) システムへの入
力として提供される確率的励起のレベルをこのレベルを
長期(ピソチ ルーブ)サブシステムの性能インデック
スにリンクすることによって適応的に制約すると良いこ
とが証明される。より具体的には、励起信号のレベルに
対する利得係数が、確率的励起の寄与なしにLPFコー
ダーによって達威されるエラーの低減の関数として適応
的に調節される。つまり、ピッチ ループ及びフィルタ
ー パラメータが人力に対する十分に良好な近似を与え
るときは、確率的励起の実際のレベルが低く規定される
。ビフチ ループ及びLPFパラメータがエラーを許容
できるレベルに低減するのに十分でないときは、確率的
励起のレベルが高く設定される。この動作は、確率的励
起のノイズ効果を低減し、合戒された音声の周期性を向
上させ、従って、コーダーの知覚品質を向上させる。
び測定によって(少なくとも近似的に)明示的決定が可
能な第一のセットのパラメータと、(ii)全体として
のシステムあるいはプロセスに悪影響(並びに良い影響
)を持つ確率的プロセスを表わす第二のセットのパラメ
ータの組合わせとして表わすことができる他のシステム
及びプロセスに適用することができる。本発明は、従っ
て、確率的寄与を反映する組合わせの戒分の強調を、こ
の強調の軽減がシステム全体として見たときのプロセス
性能を向上するようなときは、これが持つ良い影響を犠
牲にしてでも適応的に低下させ、これにより、悪影響を
低減することを図る。
いては従来の励起フィルター モデル(excitat
ion−fiiter model)を採用する標準の
コードプソク励起線型予測( Codebook−Ex
citedLinear Predictive ,
CELP)コーダーに基づく。
明する。上に引用の参考文献を含む様々な文献を見るこ
とによってこれら周知のシステムのより完全な理解を得
ることができる。
パターンは、ここで、音声信号に変換されるが、これは
、当業者において周知の方法にて、フィルター及びサン
ブラー105内において、帯域ろ波及びサンプリングさ
れる。結果としてのサンプルがアナログ/デジタル変換
器110によってデジタル符号に変換され、デジタル的
に符号化された音声信号s (n)が生戒される。信
号s (n)は、LPG及びピッチ予測分析器115内
で処理される。この処理には、符号化されたサンプルを
一連の連続する音声フレーム期間に分割する作業が含ま
れる。この説明を通じて、時間軸の原点が現フレームの
開始の所と整合し、全ての処理は、時間ウインドウ(n
=o、、、、、N−1) (Nはフレーム サイズ、
つまり、フレーム内のサンプルの数である)内において
遂行されるものと想定される。分析器115による処理
は、さらに、個々の一連のフレーム内の信号s (n)
に対応するセットのパラメータの生或を含む。第1図に
おいて、a (1)、a (2)’,.,, a (
p)として示されるパラメータ信号は、その間隔の音声
パターンの短遅延相関あるいはスペクトル関連特性を表
わし、そして、パラメータ信号β(1),β(2),β
(3),及びmは、その音声パターンの長遅延相関ある
いはピッチ関連特性を示す。このタイプのコーダーにお
いては、音声信号フレームあるいはブロフクは、典型的
には、5マイクロ秒、つまり、40サンプルの継続期間
を持つ。このようなブロックに対しては、確率的コード
メモリー120は、個々が一連の40個のランダム数
から戒る1024個のランダム ホワイト ガウスコー
ド語シーケンスを含む。個々のコード語は、ろ波の前に
、スケーラ−125内においてこの5ミリ秒ブロックに
対して一定である係数γにてスケーリングされる。音声
適応化は反復フィルター135及び145内において遂
行される。
秒)を持つ予測器を使用して合或音声信号内に音声周期
性を導入し、フィルター145は、短いメモリー(2ξ
り秒以下)を使用してスペクトル包洛線を導入する。こ
のようなフィルターは、B.S.アタル(B,S.At
al)によって、I EEE トランザクション オン
コミニケーション( IEEETransactio
n on Coaugunications)、Vol
. C O S30、ベージ600−614.1982
年4月号に発表の論文『低ビット速度での音声の予測符
号化( Predictive Coding of
Speech at Low BitRates) J
において説明されている。ディファレンサ−150に加
えられた元の音声信号s (n)とフィルター145
から加えられた合或音声信号/\ s (n)との間の差を表わすエラーがさらに、線型
フィルター155によって、これらエラーが知覚的にあ
まり重要でないときは、それら周波数或分を減衰し、こ
れらエラーが知覚的に重要な場合はそれら周波数威分を
増幅するように処理される。
リー120からの確率的コード信号とこれに対応する最
適スケール係数Tは、メモリー120内の1024個の
コード語シーケンスの全てがピーク ピッカー170に
よって処理された後にはじめて選択される。
最終的な再生のために復合器に送られる。
ール係数γによって励起シーケンスがLPGフィルター
に加えられるが、このフィルターのパラメータはフレー
ム毎に符号器によって供給される。このフィルタリング
の出力は、要求される再生信号を提供する。
り良く理解するために、上に概説されたCBLPプロセ
スについてより詳細に分析を行なう。より具体的には、
s (n)が極ゼロ ノイズ重み付け線型フィルター
によってX (2) =S (z) A (z} /A
゜(z)を得るためにろ波される。つまり、X(z)(
時間領域におけるx (n) )は符号化プロセスにお
いて使用される目標信号である。A (z)は、現フレ
ームに対応する標準LPG多項式であり、係数a= +
”=0+ ,− .+M (ao =1.0)を持
つ。A゜(Z )は、A (z)からゼロを2一平面内
の原点に向けてシフトすることによって、つまり、0<
r<1 (典型的な値:< = 0. 8 )を使用
することによって得られる修正された多項式である。こ
の事前フィルタリング動作は、符号化された音声スペク
トルの谷内の量子化ノイズを低下させ、コーダーの知覚
性能を向上させる。このような事前フィルタリングにつ
いては、IEEEI−ランス. A S S P (
IEEE Trans.ASSP) . Vol.AS
SP−2. flh3. 1 9 7 9年6月号に掲
載のB.S.アトル(B.S.Atal)らによって掲
載の論文『音声信号の予測符号化及び主観的エラー基準
(Predictive Coding of Spe
ech andSubjective Error C
riteia) Jにおいて説明されている。
G分析によって得られる全ポール フィルターの量子化
バージョンであると見なされる。しC分析器内において
遂行されるLPG分析及び量子化プロセスは、CELP
アルゴリズムの他の部分とは独立される。これに関して
は、上に引用の文献及びA.Vオペンハイマ−(A.V
.Oppenhei+++er)、Ed.によって19
78年にプレンティス ホール(Prentice−H
all)社、ニュージャーシー、エンジェルウッド ク
リフ所在、から出版された著書『デジタル信号処理のア
プリケーション(Applfcatton of Di
gital Signal Processing)』
を参照すること。
reerror + M S E)の点からできる限り
目標信号x (n)に近い信号y (n)を合或するこ
とを試みる。この合成アルゴリズムは以下の単純な式に
基づく。
チ ラッグである。gは励起利得であり、c (n)は
励起信号である。利得信号gは、これに上の説明におい
て使用されるγ記号から本発明に従ってこれに与えられ
る適応品質を反映するために変えられている.これら適
応品質については以下に詳細に説明される。個々の実体
β,p,g.c (n)は、所定の有限テーブルからの
値を取る。
ーブル(励起コードブック〉は、セットのN一次元コー
ド ベクトルを保持する。
離を最少にするようにこれらテーブルから実体の(最適
でないまでも)良好な選択を行なうことにある.テーブ
ルのサイズは、符号化信号y (n)を合或するために
システムに提供できるビット数を決定する。
Kleijn)らによってProc.rf!EE Co
nf. A S S P 1 9 8 8生、ページ
155−159に発表の論文rcELPニおける改良さ
れた音声品質及び効率的ベクトル量子化(Improv
ed Speech Quality and Eff
icientVector Quantizati−o
n) Jにおいて説明されている(周期的延長を持つ〉
一次ピッチ ルーブを表わすことに注意する。より高次
のピッチ ループを使用することもできるが、但し、有
限数のビットを1ピノチ ループ以上のパラメータを伝
送するために広げることは、より高い性能を与えないこ
とが発見された。一次ビッチ ルーブの使用は、本発明
のアプリケーションに重大な影響を与えないばかりか、
これは、本分析、動作及び計算の複雑さを少なくする。
おいては、より高次のビッチ ループが使用できること
は理解できることである。
示される実際の出力信号は、ノイズ重み付けフィルター
の逆数を使用することによって得られる。
計算することによって達威されるが、ここで、R (z
)は、r (n)の2−領域の片割れである。
離を最少にすることは、入力s (n)と出力z
(n)との間のMSEを最少にすることを意味しないこ
とに注意する。但し、ノイズ重み付けフィルタリングは
、CELPコーダーの知覚性能を大きく向上させること
が発見されている。
ックから良好なセットのパラメータを選択する戦略であ
る。全体的な広範に渡るサーチは、原理上は可能ではあ
るが、但し、非常に複雑になる。従って、実際には、幾
つかの次善の最適手順が使用される。一般的で意味ある
戦略は、ピッチパラメータP及びβを励起パラメータg
及びc (n)から分離し、これら二つのグループを独
立的に選択する方法である。これは、これがシステムの
冗長(周期、periodic)部分を非冗長(刷新、
innovative)部分から分離するためにこの問
題を扱うための“自然な”方法である。P及びβが最初
に見つけられ、次に、このような固定された選択に対し
て、最適のg及びc (n)が見つけられる。第(1)
− (31式に見られる合或規則の定義は、この分離を
単純な方法にて行なうことを可能にする。
式に結合することを可能にする。
+gc(n)”h(n) (4)ここで、y
o(n)は、入力が存在しないフィルター初期状態に応
答し、h (n)は、レンジ〔0,...N−1)にお
ける1 /A’ のインパルス応答である。記号”はコ
ンポリューション動作を示す。最良のP及びβは、以下
によって与えられる.ジ(20,...147)(7ビ
ット)内にある.βに対するテーブルは、典型的には、
近似レンジ(0, 4, . . . 1.5)内
の8個の離散値(3ビット)を含む。
最初にβが最適(非量子化)値を取れるようにし、そし
て最良Pを見つけ、次に、最良Pに対応する最適βを量
子化することによって独立的に見つけられる。このケー
スにおいては、(Pに対する)最適問題は以下によって
解決される。
全ての項目を通じて行なわれる.記号11.11は対応
する時間シーケンスのユークリット形式を示す。Pに対
する値は、典型的には、整数レンここで、<., .>
は、引数の内積を示す。最良ピッチP′″に対する最適
βは、以下によって与えられる。
子化され、これによって、βが得られる。
下を解くことによって、結果としてのエラー信号d (
n)=x (n)−yo(n)一βr′(n,P” )
” h (n)に対する最良一致を探すことを試みる。
ソクの全ての項目を通じて遂行される。ビッチ ループ
に関しては、g.c (n)に関するサーチは、最初に
、非制約(非量子化)利得を持つ最適励起に対するサー
チを行ない、次に、この利得を量子化することによって
簡素化できる。このケースにおいては、以下のようにな
る。
れる。
ョンである。同一システムの様々な他のバージョンが文
献において提案されているが、これらは、計算の複雑さ
を、時には、コーディング品質を犠牲にして低減するた
めの様々な技術とともに使用される。これら技術の殆ど
は、本発明にも組み込むことができる。
ained Stochastic Excitati
on Code .CSEC)システムは、上に説明の
標準のCELPとg及びc (n)選択の段階から差が
でる。CSECシシステムにおいては、これらパラメー
タは、励起のレベルを制約し、これを長期サブシステム
の性能に適応させるような方法にて選択される。このア
プローチの背景の概念が以下に説明される。
(z)A′(z)(1−βz − P )の結果とし
ての残留信号が真にランダムであり、それが持つその根
底となるソース信号に関するどのような残留情報もX
(z)に対する良好な推定値を再合戒するために重要で
ないという基本的な前提に基づく。換言すれば、この残
留信号は、合成プロセスにおいて(他の点では全く異な
る)類似する確率的特性を持つ他の信号と置換すること
ができる。
ガウス プロセスとして特性化できるという観察に基づ
く。
るペナルティーを“ダム(dumb) ”励起に対し
て幾つかの制約を与えることによって軽減する。これは
、音声信号とは全く無関係のノイズ状の外来信号を導入
することによる悪影響を低減するという考えによる。
を持つ。良い戒分は、より良い出力に寄与し、悪い戒分
は、システムにノイズを加える。
ことができないため、我々は、全ての励起信号が“悪い
”つまり、望ましくないノイズ状の戒分が優勢であり、
従って、このような励起信号の使用は制約されるべきで
あるという悲観的な発想を採用する。
の二つの戒分は、“ピッチ”信号p (n) =βr”
h (n)及びろ波された励起e (n) =gc (
n)” h (n)である。p (n)は、ソースの周
期性を利用しようとする試みの結果である。
が遅延P及びスケール係数βを修正することによって導
入される。従って、これは、励起ノイズ性或分e (
n)よりも一層知覚的に魅力的であると期待される。幸
いなことに、音声(周期性)領域においては、p (n
)は、優勢或分であり、これがCELP法の或功に関す
る重要な理由である。
roc IEEII!ICASSP−86 .ページ4
53−456 (1986年)に掲載の論文『自己励起
ボーコダー;4800bpsにおける市外品質への代替
アプローチ(The−Exci tedVocoder
; an Alternate Approach
to TollQuality at 4800 bp
s) Jにおいては、確率的励起が完全に削除できるこ
とが示唆される。自己励起ポーコーダ(Self−Ex
cited Vocoder , S E V)におい
ては、r (n)の部分がLPG合或フィルターを励起
するために使用される唯一の信号である(つまり、g=
Oである〉。但し、このコーダーは、特に遷移領域にお
いては、初期化の後、新たな情報を説明するために刷新
励起( innovationexci ta tio
n)が使用されないために性能が悪いことが知られてい
る。この問題意識のために、SEνの開発者らは、二つ
の他の戒分を6自己励起(selfexci tati
on)に加えた.つまり、基本CELPにおける正規確
率的励起及び多重パルスLPC符号化におけるインパル
ス励起がこれである。゜純粋な” SEVは実際には使
用されたことがない。これら三つの励起或分の各々は、
上に説明の標準のMSE手順によって、全体としての励
起を知覚的に向上させる試みをすることなく最適化され
てきた。
ッチ信号p (n)に対して、より重い再生負担が課せ
られる。但し、p (n>は出力の再生において常に効
率的であるは言えないため、特に音声の存在しない及び
遷移領域においては効率的でないために、励起低減の量
は、p (n)の効率に依存する。p (n)の効率は
そのx (n)への接近度を反映し、様々な方法にて定
義することができる。この効率の有効な尺度は以下によ
って与えられる。
述の如く、励起は本質的にノイズ性或分として知覚され
るため、我々は、S/N励起比を以下のように定義する
。
(sp)より低いことである。
T(SP)が第3図に示される。これは、線型傾斜(d
Bスケール)に続く平坦な領域から或る。SPが高いと
き、つまり、出力を効率的に再生する能力があるときは
、S@が高くされ、e (n)は出力には殆ど寄与しな
い。SPが下がると、e (n)に関する制約が緩め
られ、ここで、y0(n)が非効率となるため、これが
次第に勢いをつける.T (S, ”)はこの関数の膝
ポイントを決定するスロープ係数α及び飽和レベルfに
よって制御される。直感的に、この膝の横軸は、S,の
ダイナミック レンジの中央の回りに横たわるべきであ
る。
約1.0から10.0dBのダイナξツク レンジを示
す。S0が高いとき、S0は、このSNRの結果ノイズ
性の励起が聞こえなくなるようにする目的で24dB以
上にされる。符号化された音声を聞くことから得られる
これらパラメータに対する一例としての値は、α=6.
0及びf=24.0dBである。
、非常に単純である。つまり、システムは、現フレーム
に対するSPを計算し、T(.)を使用して域値を決定
し、モして式a濠の制約下において最良励起c (n)
及び最良利得gを選択する。
−ドブックから最良利得及び励起ベクトルを見つけるこ
とにある。上の制約下においてMSEを最少にすること
は有効なことである。
を定義することにより、この最少化問題は、従って以下
のように記述することができる(式(8))。
全ての項目のセットである。この問題の二次形式から固
定された励起c (n)に対して、最良利得は、最適
利得を以下の弐〇〇のように量子化することによって得
られることは明らかである。
9の制約化において、以下によって与えられる。
)8 尚、(17)式は(15)式に依存するものとする。
力のようにして最適利得を得て、結果としての歪を記録
し、そして最も低い歪に対応するペアg,c (n)を
選択することにある。
号化プロセスに従う処理の幾つかの重要な局面を要約す
る。スイッチ500は処理の二つのフェーズに対応する
二つの位置を持つ。
β及びPに対する値のブロック510における決定に対
する位置に対応する.この決定に対して、g=oの値が
想定される。つまり、励起信号は、ゼロの振幅を持つも
のと想定される。こうして、ビソチ ループが入力信号
がいかに良く表わすかについての測定が行われる。つま
り、yo(フィルター1/Aの“ゼロ メモリー ハン
グオーバゞあるいは初期状態応答)とβr′(n−P)
のh (n)との畳み込みがなされるときの寄与が式(
4)のようにして、g=0の値のときのy (n)を評
価するために使用される。
置かれた状態において、処理のフェーズ1から得られた
制約に基づいて、ブロック520においてj及びgに対
する最良値が決定される.ここでは、メモリ530から
の励起コードがフェーズ1のオペランドとともに使用さ
れる。
テトスによって測定される。この主観的テストにおい
ては、セットの音声セグメントがコーダーA及びコーダ
ーBによって処理される。
ナーは、彼あるいは彼女の判断に従って、良く響くと思
われるコーダーを採択する。これらテストの結果は、当
分野において周知の基本CELP符号化法と比較して明
らかな全体としての改良を示す. CSECコーダーの複雑さは、CELPの複雑さと、両
者のコーダーにおいて、同一のタイプ及び量のコード
プック サーチ計算が要求されるために、本質的に同一
である.また、CELPアルゴリズムに対して提案され
ている殆どの複雑さを低減するための“トリック”は、
CSEC法とも組合わせることができる。従って、CS
EC法は、CELPアルゴリズムのコストを伴なわない
改良型である。
されるコード化されたパラメータに応答する励起利得で
あるべきだという要件以外は特別な変更を必要としない
. 本発明の上の説明は、主に、周知の設計の標準CELP
コーダーからの改良点について行なわれる。従って、小
さなハードウェア設計の選択及び本発明の改良されたア
ルゴリズムのプログラム実現を越えた追加の構造は要求
されない.同様に、特別なプログラム言語あるいはプロ
セッサについても示唆されない。音声及び関連する信号
の符号化技術に熟練するものは、本明細書の教示に従っ
て本発明を実現するために有効な様々なプロセッサ及び
言語になじみ深いものである。
が、デジタル信号処理分野において熟練するものは、こ
の教示の他の特定のコンテクストへの適用性を認識でき
るものである。例えば、イメージあるいは他の形式の情
報の符号化も本発明を使用して改良することができるも
のである。
明の一つの実施態様において効果的に使用することがで
きる域値関数を示す図;第4図は、典型的な入力に対し
てピンチ ルーブ サブシステムによる符号化の効率の
重要な測定値がいかに変動するかを示す図;そして第5
図は本発明の要素を要約的に示す図である。 〈主要部の符号の説明〉 500−スイッチ 510−ピッチパラメータβおよびPに対する値のブロ
ック 5 1 5一遅延十周期的遅延の遅延のブロック53(
L−一一励起コードメモリ FIG. 3 1てSP)[clBコ FIG. 4 FIG. 5
Claims (1)
- 【特許請求の範囲】 1、CELP復合器内において複合されるべき情報を符
号化するための方法において、該方法が複数の予測パラ
メータおよび励起信号を同定するためのインデックスパ
ラメータを誘導するステップを含み、改良点が復合器の
所の予測器に加えられるべき励起信号の振幅を制御する
ために適応的利得パラメータを形成するステップから成
ることを特徴とする方法。 2、請求項1に記載の方法において、該利得パラメータ
が一つあるいは複数の該予測器パラメータの該情報を低
エラーにて符号化する効率と反比例することを特徴とす
る方法。 3、請求項2に記載の方法において、該情報が音声であ
り、該一つあるいは複数の予測器パラメータが該CEL
P復合器のピッチ予測パラメータであることを特徴とす
る方法。 4、請求項2に記載の方法において、該情報が値のシー
ケンス、つまり、x(n)、n+1、2、、、、、Nと
して表わされ、該励起信号e(n)、n=1、2、、、
、、Nが値のシーケンスであり、これらの比Se、つま
り:S_e=‖x(n)‖/‖e(n)‖ が以下の関係を満たし、 Se≧T(Sp)、 ここで、T(S_p)が該一つあるいは複数のパラメー
タ符号x(n)がいかに効率的であるかの測定値S_p
の単調非減少関数であることを特徴とする方法。 5、請求項4記載の方法において、該予測パラメータが
線型予測フィルターを特性化し、x(n)が音声サンプ
ルであり、S_pが以下によって与えられるS/N比の
測定値、つまり、S_p=‖x(n)‖/‖x(n)−
y_0(n)−p(n))‖であり、ここで、y_0(
n)が励起を持たないフィルターに対する初期応答であ
り、そしてp(n)がピッチパラメータの関数である ことを特徴とする方法。 6、改良されたCELP通信方法において、入力信号シ
ーケンスx(n)が複数の予測パラメータ及び格納され
た複数の励起信号の一つを表わすインデックスによって
特性化され、該予測パラメータの一つあるいは複数と関
連する追加の適応的利得パラメータが該元の入力信号を
さらに特性化するために使用される該励起信号の相対振
幅を示すために生成されることを特徴とする方法。 7、請求項6に記載の方法において、該適応的利得パラ
メータをCELP復合器内の線型予測フィルターに加え
られる励起のレベルを制御するために使用するステップ
がさらに含まれることを特徴とする方法。 8、請求項6に記載の方法において、該利得パラメータ
が該予測パラメータが該入力信号を低エラーにて表わす
のに効率的であるときは相対的に小さく、該予測パラメ
ータが該入力信号を低エラーにて表わすのにあまり効率
的でないときは比較的大きくされることを特徴とする方
法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US40200689A | 1989-09-01 | 1989-09-01 | |
| US402,006 | 1989-09-01 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03102921A true JPH03102921A (ja) | 1991-04-30 |
| JP3062226B2 JP3062226B2 (ja) | 2000-07-10 |
Family
ID=23590155
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2226785A Expired - Lifetime JP3062226B2 (ja) | 1989-09-01 | 1990-08-30 | 条件付き確率的励起符号化法 |
Country Status (8)
| Country | Link |
|---|---|
| US (2) | US5481642A (ja) |
| EP (1) | EP0415675B1 (ja) |
| JP (1) | JP3062226B2 (ja) |
| KR (1) | KR100204740B1 (ja) |
| CA (1) | CA2021514C (ja) |
| DE (1) | DE69017801T2 (ja) |
| FI (1) | FI97580C (ja) |
| NO (1) | NO303475B1 (ja) |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2021514C (en) * | 1989-09-01 | 1998-12-15 | Yair Shoham | Constrained-stochastic-excitation coding |
| JPH04264597A (ja) * | 1991-02-20 | 1992-09-21 | Fujitsu Ltd | 音声符号化装置および音声復号装置 |
| US5434947A (en) * | 1993-02-23 | 1995-07-18 | Motorola | Method for generating a spectral noise weighting filter for use in a speech coder |
| AU675322B2 (en) * | 1993-04-29 | 1997-01-30 | Unisearch Limited | Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems |
| US5642464A (en) * | 1995-05-03 | 1997-06-24 | Northern Telecom Limited | Methods and apparatus for noise conditioning in digital speech compression systems using linear predictive coding |
| US5668925A (en) * | 1995-06-01 | 1997-09-16 | Martin Marietta Corporation | Low data rate speech encoder with mixed excitation |
| US5649051A (en) * | 1995-06-01 | 1997-07-15 | Rothweiler; Joseph Harvey | Constant data rate speech encoder for limited bandwidth path |
| TW317051B (ja) * | 1996-02-15 | 1997-10-01 | Philips Electronics Nv | |
| CA2185053C (en) * | 1996-06-24 | 2002-04-16 | Frank B. Norman | Interactive reverse channel for direct broadcast satellite system |
| US5839098A (en) | 1996-12-19 | 1998-11-17 | Lucent Technologies Inc. | Speech coder methods and systems |
| FR2761512A1 (fr) * | 1997-03-25 | 1998-10-02 | Philips Electronics Nv | Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif |
| DE69736446T2 (de) * | 1997-12-24 | 2007-03-29 | Mitsubishi Denki K.K. | Audio Dekodierverfahren und -vorrichtung |
| JP3842432B2 (ja) * | 1998-04-20 | 2006-11-08 | 株式会社東芝 | ベクトル量子化方法 |
| DE19845888A1 (de) * | 1998-10-06 | 2000-05-11 | Bosch Gmbh Robert | Verfahren zur Codierung oder Decodierung von Sprachsignalabtastwerten sowie Coder bzw. Decoder |
| GB2348342B (en) * | 1999-03-25 | 2004-01-21 | Roke Manor Research | Improvements in or relating to telecommunication systems |
| FI116992B (fi) | 1999-07-05 | 2006-04-28 | Nokia Corp | Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi |
| US6721701B1 (en) * | 1999-09-20 | 2004-04-13 | Lucent Technologies Inc. | Method and apparatus for sound discrimination |
| DE10120231A1 (de) * | 2001-04-19 | 2002-10-24 | Deutsche Telekom Ag | Verfahren und Anordnung zur einkanaligen Geräuschreduktion für gestörte Sprachsignale |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6337724A (ja) * | 1986-07-31 | 1988-02-18 | Fujitsu Ltd | 符号化伝送装置 |
| JPS63214032A (ja) * | 1987-03-02 | 1988-09-06 | Fujitsu Ltd | 符号化伝送装置 |
| JPS6413199A (en) * | 1987-04-06 | 1989-01-18 | Boisukurafuto Inc | Inprovement in method for compression of speed digitally coded speech or audio signal |
| JPS6413200A (en) * | 1987-04-06 | 1989-01-18 | Boisukurafuto Inc | Improvement in method for compression of speech digitally coded |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
| US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
| US4899385A (en) * | 1987-06-26 | 1990-02-06 | American Telephone And Telegraph Company | Code excited linear predictive vocoder |
| CA2021514C (en) * | 1989-09-01 | 1998-12-15 | Yair Shoham | Constrained-stochastic-excitation coding |
-
1990
- 1990-07-19 CA CA002021514A patent/CA2021514C/en not_active Expired - Lifetime
- 1990-08-17 NO NO903641A patent/NO303475B1/no unknown
- 1990-08-24 DE DE69017801T patent/DE69017801T2/de not_active Expired - Lifetime
- 1990-08-24 EP EP90309335A patent/EP0415675B1/en not_active Expired - Lifetime
- 1990-08-30 JP JP2226785A patent/JP3062226B2/ja not_active Expired - Lifetime
- 1990-08-31 FI FI904303A patent/FI97580C/fi active IP Right Grant
- 1990-08-31 KR KR1019900013571A patent/KR100204740B1/ko not_active Expired - Fee Related
-
1994
- 1994-08-08 US US08/287,636 patent/US5481642A/en not_active Expired - Lifetime
-
1996
- 1996-10-07 US US08/726,620 patent/US5719992A/en not_active Expired - Lifetime
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6337724A (ja) * | 1986-07-31 | 1988-02-18 | Fujitsu Ltd | 符号化伝送装置 |
| JPS63214032A (ja) * | 1987-03-02 | 1988-09-06 | Fujitsu Ltd | 符号化伝送装置 |
| JPS6413199A (en) * | 1987-04-06 | 1989-01-18 | Boisukurafuto Inc | Inprovement in method for compression of speed digitally coded speech or audio signal |
| JPS6413200A (en) * | 1987-04-06 | 1989-01-18 | Boisukurafuto Inc | Improvement in method for compression of speech digitally coded |
Also Published As
| Publication number | Publication date |
|---|---|
| NO903641D0 (no) | 1990-08-17 |
| NO903641L (no) | 1991-03-04 |
| EP0415675A2 (en) | 1991-03-06 |
| JP3062226B2 (ja) | 2000-07-10 |
| FI97580B (fi) | 1996-09-30 |
| CA2021514A1 (en) | 1991-03-02 |
| DE69017801D1 (de) | 1995-04-20 |
| FI904303A0 (fi) | 1990-08-31 |
| US5719992A (en) | 1998-02-17 |
| CA2021514C (en) | 1998-12-15 |
| KR100204740B1 (ko) | 1999-06-15 |
| EP0415675B1 (en) | 1995-03-15 |
| KR910007291A (ko) | 1991-04-30 |
| DE69017801T2 (de) | 1995-07-13 |
| US5481642A (en) | 1996-01-02 |
| NO303475B1 (no) | 1998-07-13 |
| EP0415675A3 (en) | 1991-04-24 |
| FI97580C (fi) | 1997-01-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| RU2262748C2 (ru) | Многорежимное устройство кодирования | |
| US6862567B1 (en) | Noise suppression in the frequency domain by adjusting gain according to voicing parameters | |
| US6604070B1 (en) | System of encoding and decoding speech signals | |
| US6574593B1 (en) | Codebook tables for encoding and decoding | |
| US6961698B1 (en) | Multi-mode bitstream transmission protocol of encoded voice signals with embeded characteristics | |
| RU2428747C2 (ru) | Системы, способы и устройство для широкополосного кодирования и декодирования неактивных кадров | |
| US7529660B2 (en) | Method and device for frequency-selective pitch enhancement of synthesized speech | |
| US6334105B1 (en) | Multimode speech encoder and decoder apparatuses | |
| JP4176349B2 (ja) | マルチモードの音声符号器 | |
| US6098036A (en) | Speech coding system and method including spectral formant enhancer | |
| US6078880A (en) | Speech coding system and method including voicing cut off frequency analyzer | |
| US6067511A (en) | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech | |
| US6081776A (en) | Speech coding system and method including adaptive finite impulse response filter | |
| JPH03102921A (ja) | 条件付き確率的励起符号化法 | |
| JP3234609B2 (ja) | 32Kb/sワイドバンド音声の低遅延コード励起線型予測符号化 | |
| US6138092A (en) | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency | |
| JPH09127991A (ja) | 音声符号化方法及び装置、音声復号化方法及び装置 | |
| JPH09127996A (ja) | 音声復号化方法及び装置 | |
| JP4040126B2 (ja) | 音声復号化方法および装置 | |
| JP3357795B2 (ja) | 音声符号化方法および装置 | |
| US10672411B2 (en) | Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy | |
| JPH11504733A (ja) | 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器 | |
| JP4295372B2 (ja) | 音声符号化装置 | |
| JPH05232996A (ja) | 音声符号化装置 | |
| JPH041800A (ja) | 音声帯域信号符号化方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080428 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110428 Year of fee payment: 11 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110428 Year of fee payment: 11 |