JPH03102921A - 条件付き確率的励起符号化法 - Google Patents

条件付き確率的励起符号化法

Info

Publication number
JPH03102921A
JPH03102921A JP2226785A JP22678590A JPH03102921A JP H03102921 A JPH03102921 A JP H03102921A JP 2226785 A JP2226785 A JP 2226785A JP 22678590 A JP22678590 A JP 22678590A JP H03102921 A JPH03102921 A JP H03102921A
Authority
JP
Japan
Prior art keywords
excitation
signal
parameter
parameters
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2226785A
Other languages
English (en)
Other versions
JP3062226B2 (ja
Inventor
Yair Shoham
ヤイア ショハム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH03102921A publication Critical patent/JPH03102921A/ja
Application granted granted Critical
Publication of JP3062226B2 publication Critical patent/JP3062226B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0003Backward prediction of gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技歪公立 本発明は情報の符号化、より詳細には、幾つかの状況に
おいて確率的要素を持つものとして表わすことができる
情報、例れば、音声の効率的な符号化に関する。
見峡坐宜量 過去数年間の間に、コード励起予測( Code−Ex
cited Predictive , CBLP)符
号化が低速度、例えば、8Kb/sにおけるデジタル音
声通信に対する主要な技術として出現し、今日において
は、デジタル移動電話及び秘密音声通信における符号化
に対する主要候補であると見なされている。これに関し
ては、例えば、B.S.アタル(B.S.Atal)及
びM.R.シュローダー(M.R.Schroeder
)によって、Proceedin s IEEE In
t,Conf.Comm. ,1 9 8 4年5月号
、ページ48.1に掲載の論文『非常に低ビット速度に
おける音声信号の確率的符号化(Stochastic
 Coding of Speech Signals
 at VeryLow Bit Rates) J 
: M.R.シュローダー( M.R.Schroed
er)及びB.S.アタル(B.S,Atal)によっ
て、Proc.IEEE Int.Conf.ASSP
..  1 9 8 5年、ページ937−940に掲
載の論文『コード励起線型予測(Code−Excit
ed Linear Predictive , CE
LP) :非常に低ビット速度における高品質音声( 
}IighQuality Speech ar Ve
ry row Bit Rates) J ;P.クル
ーン(P.Kroon)及びε.F.デプレンテル(E
,F.Deprettere)によって、IEEE J
,on Set,Area in Comm.SAC−
6(2) 、1 9 8 8年2月号、ページ353−
363に掲載の論文rあるクラスの4.8から16Kb
/sの間の速度における高品質音声符号化のための分析
一合或予測コーダー(AClass of Analy
sis−by−Synthesis Predicti
veCoders for High−Quality
 Speech Coding at RateBet
ween 4.8 and 16Kb/s) J ; 
P.クルーン( P.Kroon)及びB.S.アタル
(B.S.Atal)によって、Proc.IEEf!
 Int.Conf.ASSP..  1 9 8 7
年、ページ1650−1654に掲載の論文’ 4. 
8 Kb/ sCELPコーダーに対する電子化手順(
ロuantizationProcedures fo
r 4.8 Kb/s CELP Coders) J
 ;及び1989年3月17日付けで8.アタル(B.
Atal)らに交付され、本発明の受託者に譲渡された
合衆国特許第4,827,517号を参照すること。
CELPコーダーは、8Kb/sおいては、かなり良い
品質の音声を提供することができるが、4. 8 Kb
/ sにおけるこの性能は、幾つかのアプリケーション
に対しては、まだ、満足できるものではない。CELP
符号化概念の特徴、つまり、線型フィルターの確率的励
起は、また、潜在的な弱点を持つ。つまり、確率的励起
は、一般的には、音声合或プロセスに寄与することなく
、また、フィルターによって完全に除去することができ
ないノイズ性或分を含む。従って、CELP符号化の低
ビット特性を保持する一方において、符号化された音声
が復合されたときの再生された音声の知覚品質を改良す
ることが要求される。
発班旦黴翌 本発明の一面によると、音声符号化システム内において
、線型予測フィルター(Iinearpredicti
vesfilter + LPF)  システムへの入
力として提供される確率的励起のレベルをこのレベルを
長期(ピソチ ルーブ)サブシステムの性能インデック
スにリンクすることによって適応的に制約すると良いこ
とが証明される。より具体的には、励起信号のレベルに
対する利得係数が、確率的励起の寄与なしにLPFコー
ダーによって達威されるエラーの低減の関数として適応
的に調節される。つまり、ピッチ ループ及びフィルタ
ー パラメータが人力に対する十分に良好な近似を与え
るときは、確率的励起の実際のレベルが低く規定される
。ビフチ ループ及びLPFパラメータがエラーを許容
できるレベルに低減するのに十分でないときは、確率的
励起のレベルが高く設定される。この動作は、確率的励
起のノイズ効果を低減し、合戒された音声の周期性を向
上させ、従って、コーダーの知覚品質を向上させる。
より一般的な局面においては、本発明は、(i)分析及
び測定によって(少なくとも近似的に)明示的決定が可
能な第一のセットのパラメータと、(ii)全体として
のシステムあるいはプロセスに悪影響(並びに良い影響
)を持つ確率的プロセスを表わす第二のセットのパラメ
ータの組合わせとして表わすことができる他のシステム
及びプロセスに適用することができる。本発明は、従っ
て、確率的寄与を反映する組合わせの戒分の強調を、こ
の強調の軽減がシステム全体として見たときのプロセス
性能を向上するようなときは、これが持つ良い影響を犠
牲にしてでも適応的に低下させ、これにより、悪影響を
低減することを図る。
註胤星裟班 本発明の符号化システムは、一例としての実施態様にお
いては従来の励起フィルター モデル(excitat
ion−fiiter model)を採用する標準の
コードプソク励起線型予測( Codebook−Ex
citedLinear Predictive , 
CELP)コーダーに基づく。
最初に、この先行技術によるシステムについて簡単に説
明する。上に引用の参考文献を含む様々な文献を見るこ
とによってこれら周知のシステムのより完全な理解を得
ることができる。
第1図において、マイクロホン101に加えられる音声
パターンは、ここで、音声信号に変換されるが、これは
、当業者において周知の方法にて、フィルター及びサン
ブラー105内において、帯域ろ波及びサンプリングさ
れる。結果としてのサンプルがアナログ/デジタル変換
器110によってデジタル符号に変換され、デジタル的
に符号化された音声信号s  (n)が生戒される。信
号s (n)は、LPG及びピッチ予測分析器115内
で処理される。この処理には、符号化されたサンプルを
一連の連続する音声フレーム期間に分割する作業が含ま
れる。この説明を通じて、時間軸の原点が現フレームの
開始の所と整合し、全ての処理は、時間ウインドウ(n
=o、、、、、N−1)  (Nはフレーム サイズ、
つまり、フレーム内のサンプルの数である)内において
遂行されるものと想定される。分析器115による処理
は、さらに、個々の一連のフレーム内の信号s (n)
に対応するセットのパラメータの生或を含む。第1図に
おいて、a (1)、a (2)’,.,,  a (
p)として示されるパラメータ信号は、その間隔の音声
パターンの短遅延相関あるいはスペクトル関連特性を表
わし、そして、パラメータ信号β(1),β(2),β
(3),及びmは、その音声パターンの長遅延相関ある
いはピッチ関連特性を示す。このタイプのコーダーにお
いては、音声信号フレームあるいはブロフクは、典型的
には、5マイクロ秒、つまり、40サンプルの継続期間
を持つ。このようなブロックに対しては、確率的コード
 メモリー120は、個々が一連の40個のランダム数
から戒る1024個のランダム ホワイト ガウスコー
ド語シーケンスを含む。個々のコード語は、ろ波の前に
、スケーラ−125内においてこの5ミリ秒ブロックに
対して一定である係数γにてスケーリングされる。音声
適応化は反復フィルター135及び145内において遂
行される。
フィルター135は、大きなメモリー(2から15ミリ
秒)を持つ予測器を使用して合或音声信号内に音声周期
性を導入し、フィルター145は、短いメモリー(2ξ
り秒以下)を使用してスペクトル包洛線を導入する。こ
のようなフィルターは、B.S.アタル(B,S.At
al)によって、I EEE トランザクション オン
 コミニケーション( IEEETransactio
n on Coaugunications)、Vol
. C O S30、ベージ600−614.1982
年4月号に発表の論文『低ビット速度での音声の予測符
号化( Predictive Coding of 
Speech at Low BitRates) J
において説明されている。ディファレンサ−150に加
えられた元の音声信号s  (n)とフィルター145
から加えられた合或音声信号/\ s  (n)との間の差を表わすエラーがさらに、線型
フィルター155によって、これらエラーが知覚的にあ
まり重要でないときは、それら周波数或分を減衰し、こ
れらエラーが知覚的に重要な場合はそれら周波数威分を
増幅するように処理される。
最少平均2乗主観エラー信号E (k)を生或するメモ
リー120からの確率的コード信号とこれに対応する最
適スケール係数Tは、メモリー120内の1024個の
コード語シーケンスの全てがピーク ピッカー170に
よって処理された後にはじめて選択される。
これらパラメータ、並びにLPG分析器出力は、次に、
最終的な再生のために復合器に送られる。
このような先行技術による復合器が第2図に示される。
図面からわかるように、励起パラメータK11及びスケ
ール係数γによって励起シーケンスがLPGフィルター
に加えられるが、このフィルターのパラメータはフレー
ム毎に符号器によって供給される。このフィルタリング
の出力は、要求される再生信号を提供する。
本発明を使用することによって得られる向上の背景をよ
り良く理解するために、上に概説されたCBLPプロセ
スについてより詳細に分析を行なう。より具体的には、
s  (n)が極ゼロ ノイズ重み付け線型フィルター
によってX (2) =S (z) A (z} /A
゜(z)を得るためにろ波される。つまり、X(z)(
時間領域におけるx (n) )は符号化プロセスにお
いて使用される目標信号である。A (z)は、現フレ
ームに対応する標準LPG多項式であり、係数a= +
  ”=0+ ,− .+M (ao =1.0)を持
つ。A゜(Z )は、A (z)からゼロを2一平面内
の原点に向けてシフトすることによって、つまり、0<
r<1  (典型的な値:< = 0. 8 )を使用
することによって得られる修正された多項式である。こ
の事前フィルタリング動作は、符号化された音声スペク
トルの谷内の量子化ノイズを低下させ、コーダーの知覚
性能を向上させる。このような事前フィルタリングにつ
いては、IEEEI−ランス. A S S P ( 
IEEE Trans.ASSP) . Vol.AS
SP−2. flh3. 1 9 7 9年6月号に掲
載のB.S.アトル(B.S.Atal)らによって掲
載の論文『音声信号の予測符号化及び主観的エラー基準
(Predictive Coding of Spe
ech andSubjective Error C
riteia) Jにおいて説明されている。
LPGフィルターA (Z)は、標準の自己相関法LP
G分析によって得られる全ポール フィルターの量子化
バージョンであると見なされる。しC分析器内において
遂行されるLPG分析及び量子化プロセスは、CELP
アルゴリズムの他の部分とは独立される。これに関して
は、上に引用の文献及びA.Vオペンハイマ−(A.V
.Oppenhei+++er)、Ed.によって19
78年にプレンティス ホール(Prentice−H
all)社、ニュージャーシー、エンジェルウッド ク
リフ所在、から出版された著書『デジタル信号処理のア
プリケーション(Applfcatton of Di
gital Signal Processing)』
を参照すること。
コーダーは、通常、平均2乗誤差(mean squa
reerror + M S E)の点からできる限り
目標信号x (n)に近い信号y (n)を合或するこ
とを試みる。この合成アルゴリズムは以下の単純な式に
基づく。
Σa/, y(n−i) = r(n)トQ (1) バn)=ロr’(n,P) + gc(n)(2) β及びPは、それぞれいわゆるピッチ タップ及びピン
チ ラッグである。gは励起利得であり、c (n)は
励起信号である。利得信号gは、これに上の説明におい
て使用されるγ記号から本発明に従ってこれに与えられ
る適応品質を反映するために変えられている.これら適
応品質については以下に詳細に説明される。個々の実体
β,p,g.c (n)は、所定の有限テーブルからの
値を取る。
より具体的には、励起シーケンスc (n)に対するテ
ーブル(励起コードブック〉は、セットのN一次元コー
ド ベクトルを保持する。
コーダーのタスクは、目標と合威された信号との間の距
離を最少にするようにこれらテーブルから実体の(最適
でないまでも)良好な選択を行なうことにある.テーブ
ルのサイズは、符号化信号y (n)を合或するために
システムに提供できるビット数を決定する。
式(2)及び(3)は、一.B.クレイジン(W.B.
Kleijn)らによってProc.rf!EE Co
nf. A S S P  1 9 8 8生、ページ
155−159に発表の論文rcELPニおける改良さ
れた音声品質及び効率的ベクトル量子化(Improv
ed Speech Quality and Eff
icientVector Quantizati−o
n) Jにおいて説明されている(周期的延長を持つ〉
一次ピッチ ルーブを表わすことに注意する。より高次
のピッチ ループを使用することもできるが、但し、有
限数のビットを1ピノチ ループ以上のパラメータを伝
送するために広げることは、より高い性能を与えないこ
とが発見された。一次ビッチ ルーブの使用は、本発明
のアプリケーションに重大な影響を与えないばかりか、
これは、本分析、動作及び計算の複雑さを少なくする。
当業者においては、幾つかの特定のアプリケーションに
おいては、より高次のビッチ ループが使用できること
は理解できることである。
z (n)(z領域における(Z (z) )によって
示される実際の出力信号は、ノイズ重み付けフィルター
の逆数を使用することによって得られる。
これは、単に、Z(z)=R(z)(1/A(z))を
計算することによって達威されるが、ここで、R (z
)は、r (n)の2−領域の片割れである。
一般的には、x (n)とy (n)との間のMSE距
離を最少にすることは、入力s  (n)と出力z  
(n)との間のMSEを最少にすることを意味しないこ
とに注意する。但し、ノイズ重み付けフィルタリングは
、CELPコーダーの知覚性能を大きく向上させること
が発見されている。
CELP符号化における重要な問題は、様々なコードブ
ックから良好なセットのパラメータを選択する戦略であ
る。全体的な広範に渡るサーチは、原理上は可能ではあ
るが、但し、非常に複雑になる。従って、実際には、幾
つかの次善の最適手順が使用される。一般的で意味ある
戦略は、ピッチパラメータP及びβを励起パラメータg
及びc (n)から分離し、これら二つのグループを独
立的に選択する方法である。これは、これがシステムの
冗長(周期、periodic)部分を非冗長(刷新、
innovative)部分から分離するためにこの問
題を扱うための“自然な”方法である。P及びβが最初
に見つけられ、次に、このような固定された選択に対し
て、最適のg及びc (n)が見つけられる。第(1)
− (31式に見られる合或規則の定義は、この分離を
単純な方法にて行なうことを可能にする。
システムの線型性は、(1)と(2)式とを、以下の形
式に結合することを可能にする。
y(n) =yo(n)+βr’(n,P)”h(n)
+gc(n)”h(n)      (4)ここで、y
o(n)は、入力が存在しないフィルター初期状態に応
答し、h (n)は、レンジ〔0,...N−1)にお
ける1 /A’ のインパルス応答である。記号”はコ
ンポリューション動作を示す。最良のP及びβは、以下
によって与えられる.ジ(20,...147)(7ビ
ット)内にある.βに対するテーブルは、典型的には、
近似レンジ(0,  4, . . .  1.5)内
の8個の離散値(3ビット)を含む。
もっと複雑でないアプローチにおいては、P及びβが、
最初にβが最適(非量子化)値を取れるようにし、そし
て最良Pを見つけ、次に、最良Pに対応する最適βを量
子化することによって独立的に見つけられる。このケー
スにおいては、(Pに対する)最適問題は以下によって
解決される。
ここで、このサーチは、β及びPに対するテーブル内の
全ての項目を通じて行なわれる.記号11.11は対応
する時間シーケンスのユークリット形式を示す。Pに対
する値は、典型的には、整数レンここで、<., .>
は、引数の内積を示す。最良ピッチP′″に対する最適
βは、以下によって与えられる。
この値は、3ビット コードブフクから最も近い値に量
子化され、これによって、βが得られる。
いったんβ及びP“が見つけられると、コーダーは、以
下を解くことによって、結果としてのエラー信号d (
n)=x (n)−yo(n)一βr′(n,P” )
” h (n)に対する最良一致を探すことを試みる。
ここで、このサーチは、利得テーブル及び励起コードブ
ソクの全ての項目を通じて遂行される。ビッチ ループ
に関しては、g.c (n)に関するサーチは、最初に
、非制約(非量子化)利得を持つ最適励起に対するサー
チを行ない、次に、この利得を量子化することによって
簡素化できる。このケースにおいては、以下のようにな
る。
そして、g*が利得テーブル内の最も近い値に量子化さ
れる。
上に説明のシステムは、CELPコーダーの基本バージ
ョンである。同一システムの様々な他のバージョンが文
献において提案されているが、これらは、計算の複雑さ
を、時には、コーディング品質を犠牲にして低減するた
めの様々な技術とともに使用される。これら技術の殆ど
は、本発明にも組み込むことができる。
き     −  されたCELP 本発明による条件付き確率的励起コード(Constr
ained Stochastic Excitati
on Code .CSEC)システムは、上に説明の
標準のCELPとg及びc (n)選択の段階から差が
でる。CSECシシステムにおいては、これらパラメー
タは、励起のレベルを制約し、これを長期サブシステム
の性能に適応させるような方法にて選択される。このア
プローチの背景の概念が以下に説明される。
CELP符号化アプローチは、逆フィルタリング動作X
 (z)A′(z)(1−βz − P )の結果とし
ての残留信号が真にランダムであり、それが持つその根
底となるソース信号に関するどのような残留情報もX 
(z)に対する良好な推定値を再合戒するために重要で
ないという基本的な前提に基づく。換言すれば、この残
留信号は、合成プロセスにおいて(他の点では全く異な
る)類似する確率的特性を持つ他の信号と置換すること
ができる。
この想定は、この残留信号が本質的にホワイトであり、
ガウス プロセスとして特性化できるという観察に基づ
く。
本発明によれば、我々は、我々の無視に対して支払われ
るペナルティーを“ダム(dumb)  ”励起に対し
て幾つかの制約を与えることによって軽減する。これは
、音声信号とは全く無関係のノイズ状の外来信号を導入
することによる悪影響を低減するという考えによる。
全ての励起信号は、その中に“良い”及び“悪い”或分
を持つ。良い戒分は、より良い出力に寄与し、悪い戒分
は、システムにノイズを加える。
上に述べた如く、我々は、これら二つの戒分を分離する
ことができないため、我々は、全ての励起信号が“悪い
”つまり、望ましくないノイズ状の戒分が優勢であり、
従って、このような励起信号の使用は制約されるべきで
あるという悲観的な発想を採用する。
式(4)内のソースに関する新たな情報を運ぶy(n)
の二つの戒分は、“ピッチ”信号p (n) =βr”
h (n)及びろ波された励起e (n) =gc (
n)” h (n)である。p (n)は、ソースの周
期性を利用しようとする試みの結果である。
この中には加算性のノイズ或分は存在せず、新たな情報
が遅延P及びスケール係数βを修正することによって導
入される。従って、これは、励起ノイズ性或分e  (
n)よりも一層知覚的に魅力的であると期待される。幸
いなことに、音声(周期性)領域においては、p (n
)は、優勢或分であり、これがCELP法の或功に関す
る重要な理由である。
R.C.ローズ(R.C.Rose)  らによってP
roc IEEII!ICASSP−86 .ページ4
53−456 (1986年)に掲載の論文『自己励起
ボーコダー;4800bpsにおける市外品質への代替
アプローチ(The−Exci tedVocoder
 ; an Alternate Approach 
to TollQuality at 4800 bp
s) Jにおいては、確率的励起が完全に削除できるこ
とが示唆される。自己励起ポーコーダ(Self−Ex
cited Vocoder , S E V)におい
ては、r (n)の部分がLPG合或フィルターを励起
するために使用される唯一の信号である(つまり、g=
Oである〉。但し、このコーダーは、特に遷移領域にお
いては、初期化の後、新たな情報を説明するために刷新
励起( innovationexci ta tio
n)が使用されないために性能が悪いことが知られてい
る。この問題意識のために、SEνの開発者らは、二つ
の他の戒分を6自己励起(selfexci tati
on)に加えた.つまり、基本CELPにおける正規確
率的励起及び多重パルスLPC符号化におけるインパル
ス励起がこれである。゜純粋な” SEVは実際には使
用されたことがない。これら三つの励起或分の各々は、
上に説明の標準のMSE手順によって、全体としての励
起を知覚的に向上させる試みをすることなく最適化され
てきた。
本発明によると、ノイズ性の励起がさらに減少され、ピ
ッチ信号p (n)に対して、より重い再生負担が課せ
られる。但し、p (n>は出力の再生において常に効
率的であるは言えないため、特に音声の存在しない及び
遷移領域においては効率的でないために、励起低減の量
は、p (n)の効率に依存する。p (n)の効率は
そのx (n)への接近度を反映し、様々な方法にて定
義することができる。この効率の有効な尺度は以下によ
って与えられる。
MS,が励起のレベルを制御するために使用される。前
述の如く、励起は本質的にノイズ性或分として知覚され
るため、我々は、S/N励起比を以下のように定義する
ここでの基本要件は、S.がある単調非減少値関数’r
 (sp)より低いことである。
S6≧T(S,) (13) 本議論において、一例として使用される有効な経験関数
T(SP)が第3図に示される。これは、線型傾斜(d
Bスケール)に続く平坦な領域から或る。SPが高いと
き、つまり、出力を効率的に再生する能力があるときは
、S@が高くされ、e (n)は出力には殆ど寄与しな
い。SPが下がると、e  (n)に関する制約が緩め
られ、ここで、y0(n)が非効率となるため、これが
次第に勢いをつける.T (S, ”)はこの関数の膝
ポイントを決定するスロープ係数α及び飽和レベルfに
よって制御される。直感的に、この膝の横軸は、S,の
ダイナミック レンジの中央の回りに横たわるべきであ
る。
第4図は、S,の典型的な時間進化を示すが、これは、
約1.0から10.0dBのダイナξツク レンジを示
す。S0が高いとき、S0は、このSNRの結果ノイズ
性の励起が聞こえなくなるようにする目的で24dB以
上にされる。符号化された音声を聞くことから得られる
これらパラメータに対する一例としての値は、α=6.
0及びf=24.0dBである。
励起を制約するための手順は、後に詳細に説明されるが
、非常に単純である。つまり、システムは、現フレーム
に対するSPを計算し、T(.)を使用して域値を決定
し、モして式a濠の制約下において最良励起c (n)
及び最良利得gを選択する。
この目的は、弐〇′5の制約下において、対応するコ・
−ドブックから最良利得及び励起ベクトルを見つけるこ
とにある。上の制約下においてMSEを最少にすること
は有効なことである。
非スケール励起応答c,(n)=c(n)” h(n)
を定義することにより、この最少化問題は、従って以下
のように記述することができる(式(8))。
尚、(l4)式は(15)式に依存するものとする。
ここで、最少化レンジは、利得及び励起コードブックの
全ての項目のセットである。この問題の二次形式から固
定された励起c  (n)に対して、最良利得は、最適
利得を以下の弐〇〇のように量子化することによって得
られることは明らかである。
従って、任意のc (n)に対して、最良利得は、式0
9の制約化において、以下によって与えられる。
此=arminllg−g”ll       (17
)8 尚、(17)式は(15)式に依存するものとする。
このサーチ手順は、個々の励起ベクトルに対して、弐〇
力のようにして最適利得を得て、結果としての歪を記録
し、そして最も低い歪に対応するペアg,c (n)を
選択することにある。
第5図は、簡略図にて、上に説明の一例としての音声符
号化プロセスに従う処理の幾つかの重要な局面を要約す
る。スイッチ500は処理の二つのフェーズに対応する
二つの位置を持つ。
スイッチ500の第一の位置1は、ピッチ パラメータ
β及びPに対する値のブロック510における決定に対
する位置に対応する.この決定に対して、g=oの値が
想定される。つまり、励起信号は、ゼロの振幅を持つも
のと想定される。こうして、ビソチ ループが入力信号
がいかに良く表わすかについての測定が行われる。つま
り、yo(フィルター1/Aの“ゼロ メモリー ハン
グオーバゞあるいは初期状態応答)とβr′(n−P)
のh (n)との畳み込みがなされるときの寄与が式(
4)のようにして、g=0の値のときのy (n)を評
価するために使用される。
処理のフェーズ2において、スイッチ500が位置2に
置かれた状態において、処理のフェーズ1から得られた
制約に基づいて、ブロック520においてj及びgに対
する最良値が決定される.ここでは、メモリ530から
の励起コードがフェーズ1のオペランドとともに使用さ
れる。
CSECコーダーの主観的性能がA−B比較リスニング
 テトスによって測定される。この主観的テストにおい
ては、セットの音声セグメントがコーダーA及びコーダ
ーBによって処理される。
個々のセンテンスの二つのバージョンが再生され、リス
ナーは、彼あるいは彼女の判断に従って、良く響くと思
われるコーダーを採択する。これらテストの結果は、当
分野において周知の基本CELP符号化法と比較して明
らかな全体としての改良を示す. CSECコーダーの複雑さは、CELPの複雑さと、両
者のコーダーにおいて、同一のタイプ及び量のコード 
プック サーチ計算が要求されるために、本質的に同一
である.また、CELPアルゴリズムに対して提案され
ている殆どの複雑さを低減するための“トリック”は、
CSEC法とも組合わせることができる。従って、CS
EC法は、CELPアルゴリズムのコストを伴なわない
改良型である。
CELP復合器には、励起利得がコーダーによって供給
されるコード化されたパラメータに応答する励起利得で
あるべきだという要件以外は特別な変更を必要としない
. 本発明の上の説明は、主に、周知の設計の標準CELP
コーダーからの改良点について行なわれる。従って、小
さなハードウェア設計の選択及び本発明の改良されたア
ルゴリズムのプログラム実現を越えた追加の構造は要求
されない.同様に、特別なプログラム言語あるいはプロ
セッサについても示唆されない。音声及び関連する信号
の符号化技術に熟練するものは、本明細書の教示に従っ
て本発明を実現するために有効な様々なプロセッサ及び
言語になじみ深いものである。
本発明の上の説明は、音声の符号化との関連でなされた
が、デジタル信号処理分野において熟練するものは、こ
の教示の他の特定のコンテクストへの適用性を認識でき
るものである。例えば、イメージあるいは他の形式の情
報の符号化も本発明を使用して改良することができるも
のである。
【図面の簡単な説明】
第1図は先行技術によるCELPコーダーを示す図; 第2図は先行技術による復合器を示す図;第3図は本発
明の一つの実施態様において効果的に使用することがで
きる域値関数を示す図;第4図は、典型的な入力に対し
てピンチ ルーブ サブシステムによる符号化の効率の
重要な測定値がいかに変動するかを示す図;そして第5
図は本発明の要素を要約的に示す図である。 〈主要部の符号の説明〉 500−スイッチ 510−ピッチパラメータβおよびPに対する値のブロ
ック 5 1 5一遅延十周期的遅延の遅延のブロック53(
L−一一励起コードメモリ FIG. 3 1てSP)[clBコ FIG. 4 FIG. 5

Claims (1)

  1. 【特許請求の範囲】 1、CELP復合器内において複合されるべき情報を符
    号化するための方法において、該方法が複数の予測パラ
    メータおよび励起信号を同定するためのインデックスパ
    ラメータを誘導するステップを含み、改良点が復合器の
    所の予測器に加えられるべき励起信号の振幅を制御する
    ために適応的利得パラメータを形成するステップから成
    ることを特徴とする方法。 2、請求項1に記載の方法において、該利得パラメータ
    が一つあるいは複数の該予測器パラメータの該情報を低
    エラーにて符号化する効率と反比例することを特徴とす
    る方法。 3、請求項2に記載の方法において、該情報が音声であ
    り、該一つあるいは複数の予測器パラメータが該CEL
    P復合器のピッチ予測パラメータであることを特徴とす
    る方法。 4、請求項2に記載の方法において、該情報が値のシー
    ケンス、つまり、x(n)、n+1、2、、、、、Nと
    して表わされ、該励起信号e(n)、n=1、2、、、
    、、Nが値のシーケンスであり、これらの比Se、つま
    り:S_e=‖x(n)‖/‖e(n)‖ が以下の関係を満たし、 Se≧T(Sp)、 ここで、T(S_p)が該一つあるいは複数のパラメー
    タ符号x(n)がいかに効率的であるかの測定値S_p
    の単調非減少関数であることを特徴とする方法。 5、請求項4記載の方法において、該予測パラメータが
    線型予測フィルターを特性化し、x(n)が音声サンプ
    ルであり、S_pが以下によって与えられるS/N比の
    測定値、つまり、S_p=‖x(n)‖/‖x(n)−
    y_0(n)−p(n))‖であり、ここで、y_0(
    n)が励起を持たないフィルターに対する初期応答であ
    り、そしてp(n)がピッチパラメータの関数である ことを特徴とする方法。 6、改良されたCELP通信方法において、入力信号シ
    ーケンスx(n)が複数の予測パラメータ及び格納され
    た複数の励起信号の一つを表わすインデックスによって
    特性化され、該予測パラメータの一つあるいは複数と関
    連する追加の適応的利得パラメータが該元の入力信号を
    さらに特性化するために使用される該励起信号の相対振
    幅を示すために生成されることを特徴とする方法。 7、請求項6に記載の方法において、該適応的利得パラ
    メータをCELP復合器内の線型予測フィルターに加え
    られる励起のレベルを制御するために使用するステップ
    がさらに含まれることを特徴とする方法。 8、請求項6に記載の方法において、該利得パラメータ
    が該予測パラメータが該入力信号を低エラーにて表わす
    のに効率的であるときは相対的に小さく、該予測パラメ
    ータが該入力信号を低エラーにて表わすのにあまり効率
    的でないときは比較的大きくされることを特徴とする方
    法。
JP2226785A 1989-09-01 1990-08-30 条件付き確率的励起符号化法 Expired - Lifetime JP3062226B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US40200689A 1989-09-01 1989-09-01
US402,006 1989-09-01

Publications (2)

Publication Number Publication Date
JPH03102921A true JPH03102921A (ja) 1991-04-30
JP3062226B2 JP3062226B2 (ja) 2000-07-10

Family

ID=23590155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2226785A Expired - Lifetime JP3062226B2 (ja) 1989-09-01 1990-08-30 条件付き確率的励起符号化法

Country Status (8)

Country Link
US (2) US5481642A (ja)
EP (1) EP0415675B1 (ja)
JP (1) JP3062226B2 (ja)
KR (1) KR100204740B1 (ja)
CA (1) CA2021514C (ja)
DE (1) DE69017801T2 (ja)
FI (1) FI97580C (ja)
NO (1) NO303475B1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2021514C (en) * 1989-09-01 1998-12-15 Yair Shoham Constrained-stochastic-excitation coding
JPH04264597A (ja) * 1991-02-20 1992-09-21 Fujitsu Ltd 音声符号化装置および音声復号装置
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
AU675322B2 (en) * 1993-04-29 1997-01-30 Unisearch Limited Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems
US5642464A (en) * 1995-05-03 1997-06-24 Northern Telecom Limited Methods and apparatus for noise conditioning in digital speech compression systems using linear predictive coding
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
US5649051A (en) * 1995-06-01 1997-07-15 Rothweiler; Joseph Harvey Constant data rate speech encoder for limited bandwidth path
TW317051B (ja) * 1996-02-15 1997-10-01 Philips Electronics Nv
CA2185053C (en) * 1996-06-24 2002-04-16 Frank B. Norman Interactive reverse channel for direct broadcast satellite system
US5839098A (en) 1996-12-19 1998-11-17 Lucent Technologies Inc. Speech coder methods and systems
FR2761512A1 (fr) * 1997-03-25 1998-10-02 Philips Electronics Nv Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif
DE69736446T2 (de) * 1997-12-24 2007-03-29 Mitsubishi Denki K.K. Audio Dekodierverfahren und -vorrichtung
JP3842432B2 (ja) * 1998-04-20 2006-11-08 株式会社東芝 ベクトル量子化方法
DE19845888A1 (de) * 1998-10-06 2000-05-11 Bosch Gmbh Robert Verfahren zur Codierung oder Decodierung von Sprachsignalabtastwerten sowie Coder bzw. Decoder
GB2348342B (en) * 1999-03-25 2004-01-21 Roke Manor Research Improvements in or relating to telecommunication systems
FI116992B (fi) 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
US6721701B1 (en) * 1999-09-20 2004-04-13 Lucent Technologies Inc. Method and apparatus for sound discrimination
DE10120231A1 (de) * 2001-04-19 2002-10-24 Deutsche Telekom Ag Verfahren und Anordnung zur einkanaligen Geräuschreduktion für gestörte Sprachsignale

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6337724A (ja) * 1986-07-31 1988-02-18 Fujitsu Ltd 符号化伝送装置
JPS63214032A (ja) * 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPS6413199A (en) * 1987-04-06 1989-01-18 Boisukurafuto Inc Inprovement in method for compression of speed digitally coded speech or audio signal
JPS6413200A (en) * 1987-04-06 1989-01-18 Boisukurafuto Inc Improvement in method for compression of speech digitally coded

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
CA2021514C (en) * 1989-09-01 1998-12-15 Yair Shoham Constrained-stochastic-excitation coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6337724A (ja) * 1986-07-31 1988-02-18 Fujitsu Ltd 符号化伝送装置
JPS63214032A (ja) * 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPS6413199A (en) * 1987-04-06 1989-01-18 Boisukurafuto Inc Inprovement in method for compression of speed digitally coded speech or audio signal
JPS6413200A (en) * 1987-04-06 1989-01-18 Boisukurafuto Inc Improvement in method for compression of speech digitally coded

Also Published As

Publication number Publication date
NO903641D0 (no) 1990-08-17
NO903641L (no) 1991-03-04
EP0415675A2 (en) 1991-03-06
JP3062226B2 (ja) 2000-07-10
FI97580B (fi) 1996-09-30
CA2021514A1 (en) 1991-03-02
DE69017801D1 (de) 1995-04-20
FI904303A0 (fi) 1990-08-31
US5719992A (en) 1998-02-17
CA2021514C (en) 1998-12-15
KR100204740B1 (ko) 1999-06-15
EP0415675B1 (en) 1995-03-15
KR910007291A (ko) 1991-04-30
DE69017801T2 (de) 1995-07-13
US5481642A (en) 1996-01-02
NO303475B1 (no) 1998-07-13
EP0415675A3 (en) 1991-04-24
FI97580C (fi) 1997-01-10

Similar Documents

Publication Publication Date Title
RU2262748C2 (ru) Многорежимное устройство кодирования
US6862567B1 (en) Noise suppression in the frequency domain by adjusting gain according to voicing parameters
US6604070B1 (en) System of encoding and decoding speech signals
US6574593B1 (en) Codebook tables for encoding and decoding
US6961698B1 (en) Multi-mode bitstream transmission protocol of encoded voice signals with embeded characteristics
RU2428747C2 (ru) Системы, способы и устройство для широкополосного кодирования и декодирования неактивных кадров
US7529660B2 (en) Method and device for frequency-selective pitch enhancement of synthesized speech
US6334105B1 (en) Multimode speech encoder and decoder apparatuses
JP4176349B2 (ja) マルチモードの音声符号器
US6098036A (en) Speech coding system and method including spectral formant enhancer
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
US6067511A (en) LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
JPH03102921A (ja) 条件付き確率的励起符号化法
JP3234609B2 (ja) 32Kb/sワイドバンド音声の低遅延コード励起線型予測符号化
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
JPH09127991A (ja) 音声符号化方法及び装置、音声復号化方法及び装置
JPH09127996A (ja) 音声復号化方法及び装置
JP4040126B2 (ja) 音声復号化方法および装置
JP3357795B2 (ja) 音声符号化方法および装置
US10672411B2 (en) Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy
JPH11504733A (ja) 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器
JP4295372B2 (ja) 音声符号化装置
JPH05232996A (ja) 音声符号化装置
JPH041800A (ja) 音声帯域信号符号化方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080428

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 11