JPH05232995A - 一般化された合成による分析音声符号化方法と装置 - Google Patents
一般化された合成による分析音声符号化方法と装置Info
- Publication number
- JPH05232995A JPH05232995A JP4284808A JP28480892A JPH05232995A JP H05232995 A JPH05232995 A JP H05232995A JP 4284808 A JP4284808 A JP 4284808A JP 28480892 A JP28480892 A JP 28480892A JP H05232995 A JPH05232995 A JP H05232995A
- Authority
- JP
- Japan
- Prior art keywords
- original signal
- trial
- signal
- encoding
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Abstract
るための一般化された合成による分析方法を提供するこ
とを目的とする。 【構成】 本件発明の分析方法は、原信号に基づいて試
行原信号が発生し、該試行原信号が符号化されそれを表
現するパラメータを生じ、これらのパラメータから該試
行原信号の推定値が合成され、該合成された推定値と該
試行原信号の間の誤差を判定し、該原信号の符号化され
た表現をその誤差が誤差評価プロセスを満足した該試行
原信号のパラメータと決定する段階からなる。
Description
合成による分析音声符号化システムの帯域要求の減少に
関する。
ネットワークを通してひとつあるいはそれ以上のシステ
ム受信機に通信するために音声信号の符号語による表現
を提供する。各システム受信機は受信された符号語から
音声信号を再構成する。与えられた時間の中でシステム
によって通信される符号語情報の量がシステムの帯域幅
を規定し、システム受信機によって再生される音声の品
質に影響を与える。
け小さい帯域幅を利用して高品質の音声再生能力を求め
る。しかし高品質音声の要求と低帯域幅の要求とは相反
するものであり、従って設計過程でのかね合いが必要で
ある。しかし、本音声符号化手法は許容できる音声品質
を減少したチャネル帯域幅で提供するように開発された
ものである。その中には、合成による分析音声符号化手
法が含まれている。
信号は波形一致手続によって符号化される。候補となる
音声信号は、ひとつあるいはそれ以上のパラメータから
合成されて符号化されるべき元の音声信号と比較され
る。パラメータを変化させて異る合成された候補音声信
号が判定される。最も良く一致する候補音声信号のパラ
メータを元の音声信号を表わすために使用する。
励振線形予測(CELP)符号器は音声信号の長期相関
をモデル化するために長期予測器(LTP)を使用する
(ここで“音声信号”という用語は実際の音声あるいは
合成による分析符号器のいずれかの励振信号を意味す
る。)。一般的に、相関によって過去の音声信号を現在
の音声信号の近似として使うことができる。LPTによ
っていくつかの過去の音声信号(これはすでに符号化さ
れている)を現在の(元の)音声信号と比較できる。こ
のような比較によって、LTPは過去の信号の中のいず
れが、元の信号に最も良く一致するかを判定する。過去
の音声信号は遅延によって識別できるが、これはどの位
の過去にその信号があったかを示すものである。LTP
を用いた符号器は、最も整合する過去の音声信号のスケ
ーリングしたもの(すなわち最適近似)を現在の音声信
号から引算信号(これは残留分あるいは励振と呼ばれ
る)を減少した長期相関と共に生ずる。この信号は次に
典型的には固定統計的コードブック(FSCB)で符号
化される。FSCBインデクスとLTP遅延は、他の情
報と共にCELP復号器に送信され、これは元の音声信
号の指定値をこれらのパラメータから回復する。
て、復号器における再生された音声の品質を向上するこ
とができる。しかしこの改善は帯域の大幅な増大なしに
は達成されない。例えば、音声の長期相関をモデル化す
るために、従来のCELP符号器は5ミリ秒あるいは
7.5ミリ秒(これをサブフレームと呼ぶ)ごとに8ビ
ットの遅延情報を伝送する。このような時間変化をする
遅延パラメータは、例えば帯域で1kb/s から2kb/s
を増大することになる。LTP遅延の変化は、時間的に
予測できないかもしれないから(すなわち、LTP遅延
の値のシーケンスは統計的性質を持つから)、遅延パラ
メータの符号化によって追加の帯域の要求を削減するこ
とは困難かもしれない。
分の帯域を必要とすることを減少する方法のひとつは、
LTP遅延値をより低頻度で伝送し内挿によって中間の
LTP遅延を決定することである。しかし、内挿を行な
えば音声信号の個々のサブフレームでLTPによって部
分最適の遅延値が使用されることになる。例えば、もし
遅延が部分最適であれば、LTPは過去の音声信号を現
在の音声信号に部分最適に写像することになる。この結
果として、残留励振信号は他の場合に比べて大きくな
る。この場合FSCBは、波形を整えるというその通常
の機能を実行するのではなく、その部分最適の時間シフ
トの効果を修正するように動作しなければならない。こ
のような修正が行なわれなければ、耳に聴える大幅な歪
みが生ずることになる。
テムにおける帯域要求を減少する方法と装置を提供す
る。本発明は符号化されるべき実際の原信号(original
signal)に基づいて、多数の試行原信号(trial origin
al signal)を提供する。これらの試行原信号は実際の原
信号に似た聴取特性を持つように制約され、符号化に際
して実際の原信号の代りにあるいはその補助として使用
される。原信号、従って試行原信号は実際の音声信号の
形をとっても良いし、合成による分析符号器に存在する
励振信号の形をとっても良い。本発明によって元の音声
信号の変化を許して符号化誤差とビット周波数とを削減
することにより、一般化された合成による分析符号化を
可能にする。本発明は他の応用と共に、セル状の、ある
いは通常の電話ネットワークのような音声情報通信用の
ネットワークに適用できる。
は符号化プロセスと合成プロセスで使用され、再構成さ
れた原信号を生ずる。試行原信号と再構成された信号と
の間の誤差信号が形成される。最小の誤差を生ずると判
定された試行原信号は、符号化と受信機への通信のため
の符号化の基礎として使用される。この方法で誤差を小
さくすることによって、所望のシステム帯域を減少する
ように符号化プロセスが変更される。
実施例においては、実際の原信号に対してタイムワープ
のコードブックを応用することによって、ひとつあるい
はそれ以上の試行原信号が与えられる。CELP符号器
のLTP手続においては、試行原信号は適応コードブッ
クによって提供される過去の音声信号の候補と比較され
る。候補に最も近い試行原信号が識別される。LTPプ
ロセスの一部として、候補は識別された試行原信号から
引算されて、残余を形成する。次にこの残余が固定統計
的コードブックを適用して符号化される。LTP手続に
おいて多数の試行原信号を使用する結果として、本発明
の一実施例は過去の信号の現在の信号への写像を改善
し、その結果として残留誤差を小さくする。このように
して残留誤差を小さくすることによってLTP遅延情報
の伝送頻度を低くすることができ、再構成された音声の
劣化なしに、あるいはわずかの劣化で遅延内挿ができる
ようになる。
によって多数の試行原信号を提供する。
されるべき原信号s(i) は試行原信号発生器10に与え
られる。
原信号を変化することを認めることによって、本発明は
従来の合成による分析符号器を一般化することになる。
従って符号器/合成器15は従来のCELPのような任
意の従来の合成による分析符号器でよい。
る。標本化された音声信号s(i) (iはサンプルの添
字)が現在の音声セグメントについて最適化されたN次
の短期線形予測フィルタ(STP)20に与えられる。
信号x(i) はSTPによるフィルタの後の励振である。
えられる。Nは通常10サンプル程度であるから(8kH
z のサンプリング周波数の場合)、励振信号x(i) は原
信号s(i) の長期周期性を保存している。LTP30は
この冗長性を除くために設けられる。
各ブロックはサブフレームと呼ばれる。線形予測係数a
n は分析器10によってフレーム毎に決定される。フレ
ームは固定長を持ち、これは一段にサブフレーム長の整
数倍で、通常20−30ミリ秒の長さを持つ。an のサ
ブフレームの値は通常は内挿によって決定される。
遅延d(i) を決定する。
わちLTPパラメータλ(i) とd(i) およびFSCBイ
ンデクスはフレームに等しいサブフレームの数だけ集め
られる(典型的には2,4あるいは6)。係数an と共
に、このデータのフレームはCELP復号器に通知さ
れ、ここでこれを利用して音声の再構成が行なわれる。
に関連した誤差条件を使っても良い。これは人間の聴覚
に存在するスペクトルマスクを利用して行なうことがで
きる。このようにして、原音声信号と再構成された音声
信号の差を使う代りに、この誤差条件は知覚で重み付け
られた差を使うことになる。
ーマットにデ・エンファシスを与えることになる。この
例では、フォーマットはスペクトルのデ・エンファシス
を極を内側に移動して実現するような全極フィルタとし
て記述できる。これは予測係数a1,a2,・・・,aN を持つ
フィルタを係数γa1,γ2 a2,・・・,γN aN を持つフィ
ルタに置き換えることに対応するが、ここでγは知覚重
み付け係数である。(通常0.8程度の値をとる。)
された誤差信号g(i) は
ムごとに形成される。Lサンプル長のサブフレームでは
一般に使用される条件は
トルのデ・エンファシスによって全極フィルタのインパ
ルス応答が速く減衰するようになる。実際的には、8kH
z のサンプリング周波数の場合γ=0.8ではインパル
ス応答は20サンプル先には意味のあるエネルギーは持
たなくなる。
て、全極フィルタのインパルス応答1/(1−γa1z-1
・・・ γN a N z -N) は有限インパルス応答フィルタで近
似できることになる。このフィルタのインパルス応答を
h0,h1, ・・・, hR-1 で表わすことにしよう。これによっ
て知覚重み付けした音声に対する誤差条件の操作をベク
トル表示することができることになる。符号器はサブフ
レームごとに動作するから、サブフレームの長さに合せ
てベクトルをそのサンプルLで定義するのが便利であ
る。例えば、励振信号については
のように定義される。
(8)は式(4)を近似することになり、これは元々の
CELPに使われているような一般の共分散条件に近づ
く。
合を図示する。サンプルされた音声信号s(i) が符号化
のために与えられる。信号s(i) は線形予測係数an を
生ずる線形予測分析器100に与えられる。信号s(i)
はまたSTP120に与えられ、これは式(1)に示す
プロセスに従って動作する。信号s(i)は遅延推定器1
40にも与えられる。
(例えば過去の20と160の間のサンプル)を探索
し、符号化されるべき現在の音声のサブフレームs(i)
に最も良く整合する連続した過去のサンプルの集合(サ
ブフレーム長に等しい長さの)を決定する。遅延推定器
140は現在のサブフレームとi−160<i<i−2
0の過去のサンプルs(i) の値の連続した集合との相関
手続きを通してその判定を行なうかもしれない。相関技
法の例としてはCELP符号器に用いられる通常のオー
プンループLTPによって使用される手法を使っても良
い(ここでオープンループという用語は再生された過去
の音声信号ではなく、原信号を使用するLTP遅延推定
プロセスについて述べている。又、再生された音声信号
を使う遅延推定プロセスはクローズドループと呼
ぶ。)。遅延推定器140は上述した手続きによってフ
レームに1回遅延推定値を決定する。遅延推定器140
はフレーム境界で決められた遅延値の内挿によって各サ
ンプルフレームの遅延の値Mを計算する。
された音声の長期相関を小さくするために、現在の音声
信号と最も良く整合する過去の音声信号を識別するよう
に動作する。図3の実施例において、多数の試行原信号
がLTPプロセスに与えられる。このような多数の試行
原信号はタイムワープ機能130によって与えられる。
号に適用するためのタイムワープ(TWCB)用のコー
ドブック133を与え多数の試行原信号を生ずる。原理
的にはタイムワープ関数130のコードブック133は
任意のタイムワープ
い。
レームjの開始を含む。
に、主要なピッチパルスがサブフレームの右方の境界の
近くに入ることが望ましい。これはこのようなサブフレ
ームの境界を、周知の手法を使用してこのようなパルス
のちょうど右方に入るように定義することによって実現
される。符号化されるべき音声信号のピッチパルスが境
界点にあると仮定すれば、ワーピング関数が次式を満足
するようにすることが望ましい。
れば、ζ(t) はその終りの値をサブフレーム境界の近傍
に保つようにするべきである。もし式(10)が満足さ
れないときには振動的なワープとなる。タイムワープの
コードブックを実現するために次のようなタイムワープ
関数のファミリーを使用しても良い。
増大するにつれてタイムワープ関数はAに収束する。t
j ではワーピング関数の値はA+Bである。Cの値は式
(10)を正確に満足するのに使用される。連続タイム
ワープのコードブックは1)Aの値を選択する(典型的
には0.95と1.05の間)、2)σBとσC の値を
選択する(典型的には2.5m秒)、3)tj の境界条
件を満足するようBを使用する(ここでζ(tj )=A
+B)、4)式(10)の境界条件を満足するようCを
選択する、ことによって発生される。ワーピイングコー
ドブックに関する情報は伝送されないことに注意してい
ただきたい。その大きさは計算上の要求によってだけ決
められる。
り、式(12)は正規化されており、従って最小平方誤
差プロセスは形の差にだけ感度を持つようになってい
る。
スケールファクタ値λおよびM、FSCBインデクスお
よび線形予測係数an は回線を通して復号器に与えられ
て、従来のCELP受信機によって再構成される。しか
し、本発明の図示の実施例によって実現される誤差の低
下のために(符号化プロセスにおける)、LTP遅延情
報はサブフレームに1回でなく、フレームに1回送信す
ればよいことになる。Mのサブフレーム値は送信機の遅
延推定器140によって行なわれると同様の方法で、遅
延値を内挿することによって受信機で提供される。
なく、フレームごとに送信することによって、遅延に関
連した帯域要求は大幅に小さくなる。
ブフレームの境界で不連続的に変化する。この不連続的
な振舞はステップ遅延輪郭と呼ばれる。ステップ遅延輪
郭を持つ場合には、サブフレーム間の遅延の不連続な変
化は過去の励振の現在に対するLTP写像の不連続性に
対応する。このような不連続性は内挿によって変更で
き、円滑に変化するピッチサイクル波形を持つ信号の再
生を妨げないようにする。上述した実施例では、遅延値
の内挿が要求されるから、内挿を便利にするために連続
的遅延輪郭を有するLTPを与えることが有利であるこ
とが言える。この再構成されたLTPは、不連続性のな
い遅延輪郭を与えるから、これは連続遅延輪郭のLTP
と呼ばれる。
郭の遅延値を与えるプロセスは上述した遅延推定器にと
って代る。LTPの連続遅延輪郭を与えるために現在の
サブフレームの可能な輪郭の最良の集合が選択される。
各々の輪郭は先のサブフレームd(tj )の遅延輪郭の
終りの値で開始する。現在の実施例においては、集合の
各々の遅延輪郭はサブフレーム内で線形であるように選
択される。従って現在のNサンプルのサブフレームjで
は(サンプリング間隔Tの間をおいている)、tj <t
<tj+1 の間にあるが、瞬時遅延d(t) は次の形をと
る。
音声信号(LTP利得でスケーリングしていない)のL
TPによる現在への写像は、
ための連続遅延輪郭と共にLTPを使用するときには、
遅延輪郭の勾配を1より小さくd(t) <1としておくこ
とが望ましい。もしこの条件が乱されると、写像された
波形の時間反転が生ずるかもしれない。また、連続遅延
輪郭ではピッチダブリングを正確に記述できない。ピッ
チダブリングをモデル化するためには、遅延輪郭は不連
続でなければならない。再び式(14)の遅延輪郭を考
える。各々のピッチ周期は通常エネルギーのひとつの大
きな中心(ピッチパルス)に支配されるから、遅延輪郭
にはピッチサイクル毎にひとつの自由度が存在すること
が望ましい。従って、図示の連続遅延輪郭LTPは、ほ
ぼ1ピッチサイクルの適応的長さを持つサブフレームを
与える。この適応的長さはピッチパルスの直後に置かれ
るサブフレーム境界を与えるのに使用される。このよう
にすることによって、振動的な遅延輪郭が生ずることを
防止する。LTPパラメータは固定時間間隔で送信され
るから、サブフレームの大きさはビット周波数に影響す
ることはない。図示の実施例においては、ピッチパルス
すなわち遅延フレーム境界を位置決めする周知の手法が
適正できる。これらの手法は適応コードブックプロセス
150の一部として応用される。
例 上述したタイムワーピングの実施例に加えて、本発明の
タイムシフトの実施例を用いることもできる。図示の例
としては、タイムシフトの実施例は図5に示される。こ
れは図3と類似しているが、タイムワープ関数130が
タイムシフト関数200に置き換えられている。
シフト関数200は符号化されるべき原信号と聴覚的に
類似した多数の試行原信号を与える。タイムワープ関数
130と同様に、タイムシフト関数200はどの試行原
信号が識別された過去の音声信号と最も近い形を持つか
を判定する。しかしタイムワープ関数130とは異り、
タイムシフト関数は原音声信号、望ましいことには励振
信号をθ min <θ<θmax の範囲にある時間θだけ時間
的にずらし、過去の音声信号と比較したときに最小誤差
を生ずるような原信号の位置を決定するように動作する
(典型的には|θmin |=|θmax |=2.5サンプル
で、アップサンプリングが行なわれるときに達成され
る。)。原音声信号のシフトをθだけ右に(すなわち時
間的に遅らせる)移動することは前のサブフレームの長
さθの最後の区間を繰返し、これによって原音声サブフ
レームの左のエッジにパッドすることによって実行され
る。原音声信号をθだけ左にシフトする動作は単にサブ
フレームの左縁からθに等しい長さの信号を除く(すな
わち省略する)ここによって実行される。
としておく必要はないことに注意していただきたい。し
かし、サブフレームの大きさを常にピッチ周期より小さ
くしておくことが望ましい。こうすれば、各ピッチパル
スの位置を独立に決定することができる。2.5ミリ秒
の大きさのサブフレームも使用できる。LTPパラメー
タは固定時間間隔で送信されるから、サブフレームの大
きさがビット周波数に影響することはない。サブフレー
ムがピッチパルスの間に入ることを防止するために、シ
フトの変更は適切に制約しておく必要がある(2.5ミ
リ秒のサブフレームに対して0.25ミリ秒程度)。こ
の代りに周囲のサブフレームよりエネルギーが大幅に小
さいサブフレームについては遅延を一定に保つことがで
きる。
する。関数200は上述したタイムワープ関数130に
似ているか、パッド/省略プロセス232がワーピング
プロセス132と関連するコードブック133の代りに
設けられている。関数200によって実行されるシフト
手続きは、
始である。閉ループあてはめ手続きが式(12)に似た
誤り条件を最小化するθ min <θ<θmax の値を探索す
る。
てε′を決定する)と誤り評価器135(これはε′
min を決定する)によって実行される。
応するそのθであり、θj と表記される。サブフレーム
長Lsubframe については原音声のサブフレームj+1
の開始は次式で決定される。
る。
スケーリングと遅延情報、線形予測係数および通常のC
ELP受信機の固定統計的コードブックインデクスを与
える。この場合にも、本発明による符号化誤差の低下の
ために、遅延情報は各サブフレームではなく、各フレー
ムに送信される。受信機は遅延情報を内挿し、受信機の
遅延推定器140で行なわれたように個々のサブフレー
ムについて遅延値を決定する。
行される。tA とtB で原信号についての現在の内挿期
間のはじめと終りを表わす。さらにインテックスjA で
現在の内挿期間の第1のLTPサブフレームを、jB で
次の内挿期間の第1のLTPサブフレームを表わす。ま
ず現在の内挿間隔dB の終りで、遅延の開ループ推定値
は、例えば、過去の音声信号と現在の音声信号の相互相
関プロセスによって得られる(実際、この目的のための
tB に使用する値は推定値である。なぜならその最終的
な値は内挿の終りで得られる。)。先の内挿期間の終り
での遅延をdAで表現する。このときには、サブフレー
ムjの遅延は単に
いない寄与分は次式で与えられる。
jのはじめである。
似していると遅延の2倍化、半分化といった現象が生じ
やすい。しかし、本発明に関しては、遅延の2倍化と半
分化は次のようにして対処される。第1ステップとして
今の内挿期間の終端におけるオープンループ遅延推定値
が先の内挿間隔の最終の遅延に比較される。これが先の
内挿期間の終端の値の倍数もしくは約数に近いときに
は、遅延の倍数化あるいは約数化が生じたと考えられ
る。次下には遅延の2倍化と半分化について述べるが、
これ以外の倍数化についても同様に扱うことができる。
遅延のオープンループ推定値をd2(τB )とする。ここ
で添字2は2ピッチサイクルに対応する遅延を表わす。
d1(τA )で1ピッチサイクルに対応する遅延を表わ
す。一般に、2倍化された遅延と標準の遅延の間には次
の関係がある。
示している。ピッチ周期が一定でなければ、遅延を単に
2倍しても正しい写像は得られない。次に現在の内挿期
間でd1(τ)がリニアである場合を考える。
あることを示している。しかし、一般にτA <τ<τA
+d1(τ) の範囲ではd2(τ) はリニアではない。遅延
の2倍化のためには次のような手続が使える。はじめに
d1(τA )とd2(τB )が知られている。式(24)で
τ=τB を使ってβが求められる。
の遅延d1(τ)は全内挿期間の中で式(23)を満足す
る。d2(τ) については式(22)は全内挿期間内で有
効であるが、式(24)は制限された部分だけで有効で
あることに注意していただきたい。
分が、、標準の遅延から2倍化遅延に対する平滑化され
た変化によってこれで得られたことになる。
れた平坦な関数があり、これは現在の内挿期間を線形化
するものである。この手続は内挿期間が2倍化された遅
延より本質的に大きいことを仮定している。
向に利用される。境界条件d2(τA)とd1(τA ) を仮
定する。τA <τ<τB について式(22)が使えるよ
うになるには、d1(τA )はτA −d1(τA )<τ<τ
A の範囲で定義されなければならない。適切な定義によ
って音声の品質が保たれる。2倍化遅延は先の内挿期間
では線形であるから、この範囲でd1(τ)の適切な定義
を得るために式(24)を使うことができる。線形の遅
延輪郭の場合、d2(τ)は次式を満足する。
τA であることに注意)を示し、η′は定義である。こ
れを式(24)と比較すれば、前の内挿期間の最後の部
分のd1(τ)は
1(τA )を与える。この値とd1(τB )から、式(2
3)のβの値を求めることができる。再び式(22)は
現在の内挿期間のd2(τ)を計算するのに使用できる。
d2(τ)からd1(τ)への変化は再び式(22)によっ
て行なわれる。しかしこの場合はΨ(τ)は内挿期間内
で1から0に減少する。
る。
る。
る。
Claims (23)
- 【請求項1】 原信号を符号化する方法において、該方
法は、原信号に基づいて複数の試行原信号を発生し、 試行原信号を符号化してそれを表わすひとつあるいはそ
れ以上のパラメータを発生し、 ひとつあるいはそれ以上のパラメータから試行原信号の
推定値を発生し、 試行原信号と試行原信号の合成された推定値の間の誤差
を判定し、 誤差評価プロセスを満足した誤差を持つ試行原信号のひ
とつあるいはそれ以上のパラメータを原信号の符号化表
現として選択する段階からなることを特徴とする原信号
を符号化する方法。 - 【請求項2】 請求項1に記載の方法において、複数の
試行原信号を発生する段階は、原信号にひとつあるいは
それ以上のタイムワープを適用する段階からなることを
特徴とする原信号を符号化する方法。 - 【請求項3】 請求項1に記載の方法において、複数の
試行原信号を発生する段階は、原信号のひとつあるいは
それ以上の時間シフトを実行する段階からなることを特
徴とする原信号を符号化する方法。 - 【請求項4】 請求項1に記載の方法において、試行原
信号を符号化する段階は合成による分析符号化を実行す
る段階からなることを特徴とする原信号を符号化する方
法。 - 【請求項5】 請求項4に記載の方法において、合成に
よる分析符号化を実行する段階はコード励振線形予測符
号化を実行する段階からなることを特徴とする原信号を
符号化する方法。 - 【請求項6】 請求項1に記載の方法において、誤差を
判定する該段階はフィルタされた試行原信号とフィルタ
されたその合成信号の間の差のサンプルの自乗和を判定
する段階からなることを特徴とする原信号を符号化する
方法。 - 【請求項7】 請求項6に記載の方法において、誤差評
価プロセスはサンプルの複数の自乗和からサンプルの自
乗和の最小値を判定する段階からなることを特徴とする
原信号を符号化する方法。 - 【請求項8】 請求項1に記載の方法において、誤差を
判定する該段階は知覚的に重み付けされた試行原信号と
知覚的に重み付けられたその合成された推定値の間の差
サンプルの自乗和を判定する段階からなることを特徴と
する原信号を符号化する方法。 - 【請求項9】 請求項8に記載の方法において、該誤差
評価プロセスはサンプルの複数の自乗和の中からサンプ
ルの最小の自乗和を判定する段階からなることを特徴と
する原信号を符号化する方法。 - 【請求項10】 請求項1に記載の方法において、原信
号の符号化された表現を選択する該段階はそれに伴う誤
差が最小である試行原信号を判定する段階からなること
を特徴とする原信号を符号化する方法。 - 【請求項11】 原信号を符号化する装置において、該
装置は、原信号に基づいて複数の試行原信号を発生する
手段と;該発生手段に結合され、試行原信号を符号化し
てそれを表現するひとつあるいはそれ以上のパラメータ
を発生する手段と、 該符号化手段に結合され、ひとつあるいはそれ以上のパ
ラメータから試行原信号の推定値を合成する手段と;該
符号化手段と該発生手段とに結合され、試行原信号と試
行原信号の合成された推定値との間の誤差を判定する手
段と、 原信号の符号化された表現として、その誤差が誤り評価
プロセスを満足した試行原信号のひとつあるいはそれ以
上のパラメータを選択する手段と、 からなることを特徴とする原信号を符号化する装置。 - 【請求項12】 請求項11に記載の装置において、複
数の試行原信号を発生する手段は原信号に対してひとつ
あるいはそれ以上のタイムワープを適用する手段を含む
ことを特徴とする原信号を符号化する装置。 - 【請求項13】 請求項11に記載の装置において、複
数の試行原信号を発生する手段はタイムワープのコード
ブックからなることを特徴とする原信号を符号化する装
置。 - 【請求項14】 請求項11に記載の装置において、複
数の試行原信号を発生する装置は原信号のひとつあるい
はそれ以上の時間シフトを行なう手段からなることを特
徴とする原信号を符号化する装置。 - 【請求項15】 請求項11に記載の装置において、試
行原信号を符号化する手段は合成による分析符号化を実
行する手段からなることを特徴とする原信号を符号化す
る装置。 - 【請求項16】 請求項15に記載の装置において、合
成による分析符号化を実行する手段は符号励振線形予測
符号器からなることを特徴とする原信号を符号化する装
置。 - 【請求項17】 請求項11に記載の装置において、試
行原信号の推定値を合成する手段は固定統計的コードブ
ックからなることを特徴とする原信号を符号化する装
置。 - 【請求項18】 請求項17に記載の装置において、試
行原信号の推定値を合成する手段はさらに適応コードブ
ックからなることを特徴とする原信号を符号化する装
置。 - 【請求項19】 請求項11に記載の装置において、誤
差を判定する該手段は、試行原信号とその合成された推
定値との差のサンプルの自乗和を判定する手段からなる
ことを特徴とする原信号を符号化する装置。 - 【請求項20】 請求項19に記載の装置において、該
誤差評価プロセスは該サンプルの複数の自乗和の中から
サンプルの自乗和が最小であるものを判定することを特
徴とする原信号を符号化する装置。 - 【請求項21】 請求項19に記載の装置において、原
信号とその合成された推定値との差は知覚により重み付
けられることを特徴とする原信号を符号化する装置。 - 【請求項22】 請求項11に記載の装置において、原
信号の符号化された表現を選択する手段はそれに関連す
る誤差が最小である試行原信号を判定する手段からなる
ことを特徴とする原信号を符号化する装置。 - 【請求項23】 原信号を通信するネットワークにおい
て、該ネットワークは、通信回線、 通信回線に接続され、原信号の符号化された表現を送信
する送信機であって、 原信号に基付いて複数の試行原信号を発生する手段と、 該発生手段に結合され、試行原信号を符号化してそれを
表現するひとつあるいはそれ以上のパラメータを生ずる
符号化手段と、 該符号化手段に結合され、該ひとつあるいはそれ以上の
パラメータから試行原信号の推定値を合成する手段と、 該符号化手段と該発生手段とに接続され、該試行原信号
と試行原信号の合成された推定値との間の誤差を決定す
る手段と、 誤差評価プロセスを満足する関連する誤差を有する試行
原信号のひとつあるいはそれ以上のパラメータを原信号
の符号化された表現として選択する手段とからなる送信
機、及び通信回線に接続され、送信機から受信した原信
号の符号化された表現を復号するための受信機からなる
ことを特徴とする原信号を通信するネットワーク。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US78268691A | 1991-10-25 | 1991-10-25 | |
| US782686 | 1991-10-25 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH05232995A true JPH05232995A (ja) | 1993-09-10 |
| JP3662597B2 JP3662597B2 (ja) | 2005-06-22 |
Family
ID=25126860
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP28480892A Expired - Lifetime JP3662597B2 (ja) | 1991-10-25 | 1992-10-23 | 一般化された合成による分析音声符号化方法と装置 |
Country Status (4)
| Country | Link |
|---|---|
| EP (1) | EP0539103B1 (ja) |
| JP (1) | JP3662597B2 (ja) |
| DE (1) | DE69225293T2 (ja) |
| ES (1) | ES2115646T3 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002525662A (ja) * | 1998-09-11 | 2002-08-13 | モトローラ・インコーポレイテッド | 遅延輪郭調整を利用して情報信号を符号化する方法および装置 |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2102080C (en) * | 1992-12-14 | 1998-07-28 | Willem Bastiaan Kleijn | Time shifting for generalized analysis-by-synthesis coding |
| US5704003A (en) * | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
| DE69516522T2 (de) * | 1995-11-09 | 2001-03-08 | Nokia Mobile Phones Ltd., Salo | Verfahren zur Synthetisierung eines Sprachsignalblocks in einem CELP-Kodierer |
-
1992
- 1992-10-16 EP EP92309442A patent/EP0539103B1/en not_active Expired - Lifetime
- 1992-10-16 DE DE69225293T patent/DE69225293T2/de not_active Expired - Lifetime
- 1992-10-16 ES ES92309442T patent/ES2115646T3/es not_active Expired - Lifetime
- 1992-10-23 JP JP28480892A patent/JP3662597B2/ja not_active Expired - Lifetime
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002525662A (ja) * | 1998-09-11 | 2002-08-13 | モトローラ・インコーポレイテッド | 遅延輪郭調整を利用して情報信号を符号化する方法および装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0539103B1 (en) | 1998-04-29 |
| EP0539103A3 (en) | 1993-08-11 |
| ES2115646T3 (es) | 1998-07-01 |
| EP0539103A2 (en) | 1993-04-28 |
| DE69225293T2 (de) | 1998-09-10 |
| JP3662597B2 (ja) | 2005-06-22 |
| DE69225293D1 (de) | 1998-06-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
| RU2417457C2 (ru) | Способ конкатенации кадров в системе связи | |
| EP0409239B1 (en) | Speech coding/decoding method | |
| US7260521B1 (en) | Method and device for adaptive bandwidth pitch search in coding wideband signals | |
| US6427135B1 (en) | Method for encoding speech wherein pitch periods are changed based upon input speech signal | |
| JP3359506B2 (ja) | 改良型弛緩コード励起線形予測コーダ | |
| EP1273005B1 (en) | Wideband speech codec using different sampling rates | |
| JP2017526950A (ja) | 低遅延符号化/復号のための補間による音声信号のリサンプリング | |
| JPS5912186B2 (ja) | 雑音の影響を減少した予測音声信号符号化 | |
| US5675701A (en) | Speech coding parameter smoothing method | |
| JP2004163959A (ja) | 汎用AbS音声符号化方法及びそのような方法を用いた符号化装置 | |
| US6169970B1 (en) | Generalized analysis-by-synthesis speech coding method and apparatus | |
| Cuperman et al. | Backward adaptation for low delay vector excitation coding of speech at 16 kbit/s | |
| JP3179291B2 (ja) | 音声符号化装置 | |
| JP3662597B2 (ja) | 一般化された合成による分析音声符号化方法と装置 | |
| JPH0782360B2 (ja) | 音声分析合成方法 | |
| JPH07168597A (ja) | 音声装置の周期性を強化する方法 | |
| KR0155798B1 (ko) | 음성신호 부호화 및 복호화 방법 | |
| JP3249144B2 (ja) | 音声符号化装置 | |
| JP3089967B2 (ja) | 音声符号化装置 | |
| JP3749838B2 (ja) | 音響信号符号化方法、音響信号復号方法、これらの装置、これらのプログラム及びその記録媒体 | |
| JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
| JPH0774642A (ja) | 線形予測係数補間装置 | |
| JP3192051B2 (ja) | 音声符号化装置 | |
| JPH08211895A (ja) | ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20040106 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20040114 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040406 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040818 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041116 |
|
| A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050131 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050228 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050324 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080401 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090401 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100401 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110401 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130401 Year of fee payment: 8 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130401 Year of fee payment: 8 |