JPH04502675A - 改良されたロングターム予測器を有するデジタル音声コーダ - Google Patents

改良されたロングターム予測器を有するデジタル音声コーダ

Info

Publication number
JPH04502675A
JPH04502675A JP2509641A JP50964190A JPH04502675A JP H04502675 A JPH04502675 A JP H04502675A JP 2509641 A JP2509641 A JP 2509641A JP 50964190 A JP50964190 A JP 50964190A JP H04502675 A JPH04502675 A JP H04502675A
Authority
JP
Japan
Prior art keywords
vector
excitation vector
samples
excitation
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2509641A
Other languages
English (en)
Other versions
JP3268360B2 (ja
Inventor
ジャーソン・イラ アラン
ジャシウク・マーク エイ
Original Assignee
モトローラ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=23590969&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JPH04502675(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by モトローラ・インコーポレーテッド filed Critical モトローラ・インコーポレーテッド
Publication of JPH04502675A publication Critical patent/JPH04502675A/ja
Application granted granted Critical
Publication of JP3268360B2 publication Critical patent/JP3268360B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Analogue/Digital Conversion (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Near-Field Transmission Systems (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 改良されたロングターム予測器を 有するデジタル音声フード 発明の背景 この発明は、1988年6月28日に出願され今は放棄されている、米国出願番 号第07/212,455号の一部継続出願である、1989年9月1日に出願 されかつ今は放棄されている、米国出願番号第07/402.206号の継続出 願である。
コード励起リニア予測(code−exc i t edlinear pre diction:CELP)は低いビットレート、すなわち、4.8〜9.6キ ロビツト/秒(Kbps)における高品質の合成音声を生成できる可能性を有す る音声コーディング技術である。このクラスの音声符号化は、またベクトル励起 リニア予測または推計符号化(stochastic coding)として知 られているが、数多くの音声通信および音声合成の用途に最もよく用いられる。
CELPは音声品質、データレート、大きさおよびコストが重要な要素であるデ ジタル音声暗号化およびデジタル無線電話通信システムに特に適用可能であるこ とが分っている。
[符号励起(code−exc i t ed)Jまたはベクトル励起(vec tor−excited)Jという用語は音声フードのための励起シーケンスが ベクトル量子化されている、すなわち単一のコード語(codeword)が励 起サンプルのシーケンス、ベクトルを表すのに用いられるという事実からきてい る。このようにして、毎サンプルにつき1ビツトより小さなデータレートが励起 シーケンスを符号化するために可能となる。記憶された励起符号ベクトルは一般 に独立のランダムなホワイトガウスシーケンスからなる。フードブックからの1 つのコードベクトルはN個の励起サンプルの各ブロックを表すのに用いられる。
各々の記憶されたコードベクトルはコード語、すなわちコードベクトルメモリの ロケーションのアドレスによって表される。受信機において音声フレームを再構 成するために通信チャネルを介して音声シンセサイザに引き続き送られるのはこ のコード語である。エム・アール・シュローダおよびビー・ニス・アタルによる 、「コード励起リニア予測(CELP)、非常に低いビットレートにおける高品 質音声」、音響に関するI EEE国際会議紀要、音声および信号処理(ICA SSP)、第3巻、PP、937−40.1985年3月、をCELPのより詳 細な説明のために参照。
CELP音声コーダにおいては、コードブックからの励起コードベクトルは入力 音声信号の特性を作る2個の時間変動リニアフィルタに印加される。第1のフィ ルタはそのフィードバックループにロングターム予測器を含み、これは有声音( vojced 5peech)のピッチの周期性を導入するために使用される、 長い遅延、すなわち、2〜15ミリセカンドを有している。第2のフィルタはそ のフィードバックループにショートターム予測器を含み、これはスペクトル的な エンベロープまたはフォーマット構造を導入するために使用される、短い遅延、 すなわち、2ミリセカンドより短い遅延、を有している。音声の各フレームに対 して、音声コーグはそれぞれの個々のコードベクトルをフィルタに印加して再構 成された音声信号を発生し、元の入力音声信号を該再構成された信号と比較して エラー信号を発生する。このエラー信号は次に人間の聴覚に基づく応答を有する 重み付はフィルタを通すことにより重み付けされる。最適の励起信号は現在のフ レームに対して最小のエネルギを有する重み付はエラー信号を生成するコードベ クトルを選択することにより決定される。最適のコードベクトルに対するコード 語は次に通信チャネルによって送信される。
CELP音声合成器においては、チャネルから受信されたコード語は励起ベクト ルのコードブックをアドレスするために使用される。単一のコードベクトルは次 にゲインファクタによって乗算され、ロングタームおよびショートタームフィル タによってろ波され再構成された音声ベクトルを得る。ゲインファクタおよび予 測器パラメータはまた該チャネルから得られる。より良好な品質の合成信号は合 成器によって使用される実際のパラメータが解析段において使用され、従って量 子化誤差を最小化することにより発生できることが分っている。従って、より高 い品質の音声を生成するためにCELP音声解析段においてこれらの合成パラメ ータを使用することはアナリシス・パイ・シンセシス音声コーディングと称され ている。
ショートターム予測器は次の式に従って、直前の出力サンプル5(n−i)のリ ニアな組み合わせにより現在の出力サンプルs (n)を予測しようと試みる。
s (n) =a s (n−1) +a2s (n−2)+・・・+α s  (n−p) +e (n)この式で、pはショートターム予測器の次数(ord er)であり、e (n)は予測残差(predict、1onresidua l)、すなわち、p個の先のサンプルの重み付けされた和によって表すことので きないs (n)の部分、である。予測器の次数pは典型的には、8キロヘルツ (KHz)のサンプリングレートを仮定すると、8〜12の範囲にわたっている 。この式における重みC1,C2゜α は予測器係数と呼ばれている。ショート ターム予測器係数は伝統的なリニア予測コーディング(L P G)技術を用い て音声信号から決定される。ショートタームフィルタの出力応答は2変換表現で 次のように表される。
A (z) −−−一−−−−−−−−−−−−−−−ショートタームフィルタ パラメータのその他の説明に関しては、「低ビツトレートにおける音声の予測的 コーディング」と題する、I EEE紀要、通信、C0M−30、pp、600 −14.1982年4月、ビー・ニス・アタルによる論文を参照。
これに対し、ロングタームフィルタはずっと長い期間にわたり延在する先行サン プルから次の出力サンプルを予測しなければならない。予測器において単一の過 去のサンプルのみが使用されれば、予測器は単一タップ予測器である。
典型的には、1〜3タツプが使用される。単一タップ、ロングターム予測器を導 入したロングタームフィルタのための出力応答はZ変換表示で次のように与えら れる。
B (z) =−−−−−−−−−−−−−−−−1−βz−L この出力応答はフィルタの遅延またはラグLおよびフィルタ係数βのみの関数で あることに注意を要する。有声音に対しては、ラグLは典型的には音声のピッチ 期間、あるいはその倍数である。8KHzのサンプリングレートにおいては、ラ グLの適切な範囲は16と143の間であり、これは500Hzから56Hzの 間のピッチレンジに対応する。
ロングターム予測器のラグLおよびロングターム予測器の係数βは開ループまた は閉ループ構成のいずれかから決定できる。開ループ構成を用いると、ラグLお よび係数βは入力信号(またはその残差)から直接計算される。閉ループ構成で は、ラグL1および係数βはロングタームフィルタの過去の出力を表す符号化デ ータおよび入力音声信号からフレームレートで計算される。符号化データを使用 する場合における、ロングターム予測器のラグ決定は合成器において存在する実 際のロングタームフィルタの状態に基づいている。従って、閉ループ構成が開ル ープ方法よりもより良好な性能を与えるが、それはピッチフィルタそれ自体がエ ラー信号の最適化に貢献するからである。さらに、単一タップの予測器は閉ルー プ構成で非常に良好に作動する。
閉ループ構成を使用すると、ロングタームフィルタの出力応答b (n)はロン グタームフィルタからの過去の出力サンプルのみから、かつ次の式による現在の 入力音声サンプルs (n)から決定される。
b (n) =s (n)+βb(n−L)この技術はフレーム長Nより大きな ピッチラグしに対し、すなわち、LANの場合に、直接的であるが、それは項b (n−L)は常にすべてのサンプル番号n、O≦n≦N−1に対し過去のサンプ ルを表すからである。さらに、L〉Nの場合、励起ゲインファクタγおよびロン グターム予測器係数βはラグLおよびコード語iの与えられた値に対し同時に最 適化することができる。この組み合わされた最適化技術は音声品質の注目すべき 改善をもたらすことが発見されている。
しかしながら、もしロングターム予測器のフレーム長Nより小さなラグLを収容 しなければならない場合には、閉ループ手法は不都合である。この問題は高いピ ッチの女性の声の場合に容易に起こり得る。たとえば250Hzのピッチ周波数 に対応する女性の音声は4ミリセカンド(msec)に等しいロングターム予測 器ラグLを必要とする。
8KHzのサンプリングレートにおける250Hzのピッチは32サンプルのロ ングターム予測器のラグLに対応する。しかしながら、4ミリセカンドより小さ なフレーム長Nを用いることは望ましくなく、これはCELP励起ベクトルはよ り長いフレーム長が用いられる場合により効率的に符号化できるからである。従 って、8KHzのサンプリングレートにおける7、5ミリセカンドのフレーム長 時間を用いると、フレーム長Nは60サンプルに等しくなるであろう。これはフ レームの次の60サンプルを予測するために32の過去のサンプルのみが利用で きることを意味する。従って、もしロングターム予測器のラグLがフレーム長N より小さければ、必要とされるNサンプルの内のLの過去のサンプルのみが規定 される。
フレーム長Nより小さなピッチラグLの問題に対処するため従来技術においてい くつかの別の手法がとられている。
ロングターム予測器のラグLおよび係数βを組み合わせて最適化する試みにおい て、第1の手法はなんらの励起信号も存在しないと仮定して方程式を直接解くよ う試みることである。この手法は「規則的なパルス励起−音声の有効かつ効率的 な多重パルス符号化」、クルーン他、音響、音声および信号処理に関するI E EE紀要、ASSP−34巻、第5号、1986年10月、pp、1054−1 063の論文に説明されている。しかしながら、この手法に従うと、単一のパラ メータβにおける非線形方程式を解かなければならない。βにおける2次方程式 または3次方程式の解を解かなければならない。βにおける2次方程式または3 次方程式の解は計算機的に実際的でない。その上、利得ファクタγと係数βとを 一緒にして最適化することはこの手法では依然として不可能である。
ロングターム予測器遅延りをフレーム長Nより大きいものと限定することによる 、第2の解法は、シングハルおよびアタルにより提案された論文「低いビットレ ートにおける多重パルスLPGコーダの性能の改善J1音響、音声、および信号 処理に関するI EEE国際会議の紀要、第1巻、1984年3月19−21日 、pp、1.3. 1−1.3゜4において提案されている。ピッチラグしに対 するこの人工的な制約はしばしばピッチ情報を正確に表さない。従って、この手 法を用いると音声品質が高いピッチの音声に対し劣化する。
第3の解法はフレーム長Nの大きさを低減することである。より短いフレーム長 により、ロングターム予測器のラグLは常に過去のサンプルから決定することが できる。しかしながら、この手法は厳しいビットレートのペナルティを被る。よ り短いフレーム長では、より大きな数のロングターム予測器パラメータおよび励 起ベクトルを符号化しなければならず、かつ従ってチャネルのビットレートは余 分のコーディングを収容するためにより大きくなければならない。
第2の問題は高いピッチの話者に対して存在する。コーグにおいて使用されるサ ンプリングレートは単一タップのピッチ予測器の性能に対し上限を設ける。たと えば、もしピッチ周波数が実際には485Hzであれば、最も近いラグ値は16 でありこれは500Hzに対応する。これは音声品質を劣化させる基本ピッチ周 波数に対し15Hzのエラーを生ずる結果となる。このエラーは該ピッチ周波数 の高調波に対し増倍されさらに劣化を引き起こす。
従って、ロングターム予測器のラグLを決定するための改良された方法を提供す る必要性が存在する。最適の解法は高いピッチの音声のコーディングに対し計算 機的な複雑性および音声品質の双方に向けられなければならない。
発明の概要 従って、本発明の一般的な目的は、低いビットレートにおいて高い品質の音声を 生成する改良されたデジタル音声コーディング技術を提供することにある。
本発明のより特定的な目的は、閉ループ手法を用いたロングターム予測器のパラ メータを決定するための方法を提供することにある。
本発明の他の目的は、ロングターム予測器のラグパラメータLが非整数である場 合にロングターム予測器の出力応答を決定するための改良された方法を提供する ことにある。
本発明のさらに他の目的は、最適の励起コードベクトルのためのコードブックサ ーチの間に利得ファクタγおよびロングターム予測器係数βの組み合わされた最 適化を許容する改良されたCELP音声コーダを提供することにある。
本発明の新規な見地によれば、パラメータLの分解能(resolution) はLが整数でない値をとることを許容することにより増大される。これはロング ターム予測器の状態の補間されたサンプルを提供するために補間フィルタを使用 することにより達成される。閉ループ構成においては、ロングターム予測器の状 態の将来のサンプルは補間フィルタにとって利用できない。この問題はロングタ ーム予測器の状態を補間フィルタによる使用のために将来にわたってピッチ同期 的に延長することにより回避される。
次のフレームに対する実際の励起サンプルが利用できるようになると、ロングタ ーム予測器の状態が(ピッチ同期的に延長されたサンプルに基づくものに置き代 わる)実際の励起サンプルを反映するために更新される。たとえば、補間は各々 の存在するサンプルの間の1つのサンプルを補間するために使用でき従ってLの 分解能をサンプルの半分に倍加する。3または4のような、より高い補間ファク タもまた選択でき、これはLの分解能を1つのサンプルの3分の1または4分の 1に増加するであろう。
図面の簡単な説明 新規であると信じられる本発明の特徴は特に添付の請求の範囲に記載されている 。本発明は、そのさらに他の目的および利点とともに、添付の図面を取り入れて 以下の説明を参照することにより最もよく理解でき、そのいくつかの図面におい ては同様の参照数字は同様の要素を表わし、かつ各図面において、 第1図は、本発明とともに使用するためのロングタームフィルタの位置を示す、 コード励起リニア予測音声コーグの一般的なブロック図であり、 第2A図は、第1図のロングタームフィルタの1実施例を示す詳細なブロック図 であり、フィルタのラグLが整数である場合のロングターム予測器の応答を示し ており、第2B図は、第2A図におけるロングターム予測器の動作を説明するた めに用いることができるシフトレジスタを示す概略図であり、 第2C図は、第1図のロングタームフィルタの他の実施例を示す詳細なブロック 図であり、フィルタのラグLが整数である場合のロングターム予測器の応答を示 しており、第3図は、第2A図のロングタームフィルタにより達成される動作を 説明する詳細なフローチャートであり、第4図は、本発明に従って使用するため の音声合成器の一般的なブロック図であり、 第5図は、第1図のロングタームフィルタの詳細なブロック図であり、本発明に 従いサブサンプルの分解能のロングターム予測器応答を示しており、 第6A図および第6B図は、第5図のロングタームフィルタにより行われる動作 を説明する詳細なフローチャートであり、そして 第7図は、第4図における音声合成器のショートタームフィルタおよびD/Aコ ンバータを相互結合するためのピッチポストフィルタを示す詳細なブロック図で ある。
好ましい実施例の詳細な説明 次に第1図を参照すると、本発明に係わるロングタームフィルタを利用するコー ド励起リニア予測音声コーグ100の一般的なブロック図が示されている。分析 されるべき音響入力信号はマイクロホン102において音声コーグ100に印加 される。典型的には音声信号である、入力信号は次にフィルタ104に印加され る。フィルタ104は一般的にはバンドパスフィルタ特性を示す。しかしながら 、もし音声の帯域幅がすでに適切であれば、フィルタ104は直接的なワイヤ接 続であってもよい。
フィルタ104からのアナログ音声信号は次に−続きのNパルスのサンプルに変 換され、かつ各パルスサンプルの振幅は次に、技術上知られているように、アナ ログ−デジタル(A/D)コンバータ108においてデジタル符号により表され る。サンプリングレートはサンプルクロックSCにより決定され、これは好まし い実施例においては8゜0kHzのレートを呈する。サンプルクロックSCはク ロック112によってフレームクロックFCとともに発生される。
A/D 108のデジタル出力は、入力音声ベクトル5(n)として表されるが 、次に係数アナライザ110に印加される。この入力音声ベクトルs (n)は 別々のフレーム、すなわち、その長さがフレームクロックFCによって決定され る、時間のブロック、において反復的に得られる。
好ましい実施例においては、入力音声ベクトルs (n)、0≦n≦N−1、は N=60サンプルを含む7.5ミリセカンドのフレームを表し、この場合者サン プルはデジタルコードの12〜16ビツトによって表される。この実施例におい ては、音声の各ブロックに際し、−組のリニア予測コーディング(L P G) パラメータがオープンループ構成の係数アナライザー10によって生成される。
ショトターム予測器パラメータα0、ロングターム予測器係数β、公称ロングタ ーム予測器うグパラメータL1重み付はフィルタパラメータWFP、および励起 利得ファクタγ(後に説明する最善の励起コード語Iとともに)はマルチプレク サ150に印加されかつ音声合成器による使用のためチャネルによって送られる 。この実施例のためにこれらのパラメータを発生する代表的な方法については、 ビー・ニス・アタルによる、1982年4月、pp、600−14、C0M−3 0巻、I EEE通信紀要、[低いビットレートにおける音声の予測コーディン グ」と題する論文を参照。入力音声ベクトルs (n)はまた減算器130にも 印加され、その機能は後に説明する。
コードブックROMI20は一組のM個の励起ベクトルu、(n)を含み、ここ で1≦i≦Mであり、各々N個のサンプルから成り、この場合0≦n≦N−1で ある。コードブツクROM120は好ましくはここに参照のため導入される、米 国特許第4,817.157号に述べられたようにして実施される。コードブッ クROM120は一組の励起コード語iの内の特定の1つに応じてこれらの擬似 ランダム励起ベクトルを発生する。M個の励起ベクトルの各々は−続きのランダ ムなホワイトガウスサンプルから成るが、他の形式の励起ベクトルも本発明とと もに使用することができる。もし励起信号が60サンプルの各々に対しサンプル ごとに0. 2ビツトのレートで符号化されたならば、可能な励起ベクトルに対 応する4096のコード語iがある。
各々の個々の励起ベクトルu、(n)に対し、再構成された音声ベクトルs’  、(n)が入力音声ベクトルs (n)に対する比較のために発生される。利得 ブロック122には、フレームに対する内容である、励起利得ファクタγにより 励起ベクトルu、(n)を尺度変更(scale)する。励起利得ファクタγは 係数アナライザー10によってあらかじめ計算されかつ第1図に示されるように すべての励起ベクトルを解析するために使用され、あるいは最善の励起コード語 rのサーチと組み合わせて最適化されかっコードブックサーチコントローラー4 0により発生される。
尺度変更された励起信号γu−(n)は次に再構成された音声ベクトルs’ 、 (n)を発生するためにロングタームフィルター24およびショートタームフィ ルタ126によりろ波される。フィルター24は音声の周期性を導入するために ロングターム予測器パラメータβおよびLを利用し、かつフィルタ126は上に 述べたように、スペクトル的なエンベロープを導入するためにショートターム予 測器パラメータα1を利用する。ロングタームフィルター24は以下の図面にお いて詳細に説明する。ブロック124および126は実際にはそれぞれのフィー ドバック経路にロングターム予測器およびショートターム予測器を含む再帰(r ecursive)フィルタである。
i番目の励起コードベクトルに対する再構成された音声ベクトルs’ −(n) は入力音声ベクトルs (n)の同じブロックとこれら2つの信号を減算器13 0において減算することにより比較される。差分ベクトルe、(n)は音声の元 のおよび再構成されたブロックの間の差を表す。差分ベクトルは係数アナライザ ー10によって発生される重み付はフィルタのパラメータWTPを利用して、重 み付はフィルター32により知覚的に重み付けされる。代表的な重み付はフィル タの伝達関数に対する先の参照物を参照されたい。知覚的な重み付けはエラーが 知覚的に人間の耳にとってより重要な周波数を強調し、かつ他の周波数を減衰さ せる。
エネルギ計算機134は重み付は差分ベクトルe/ 。
(n)のエネルギを計算し、かつこのエラー信号E、をコードブックサーチコン トローラー40に印加する。該サーチコントローラは現在の励起ベクトルu、( n)に対するi番目のエラー信号を先のエラー信号に対して比較し最小のエラー を生成する励起ベクトルを決定する。最小のエラーを有するi番目の励起ベクト ルのコードは次にチャネルによって最善の励起コードIとして出力される。ある いは、サーチコントローラー40は、あらかじめ規定されたエラーしきい値に合 致するような、何等かの所定の基準を有するエラー信号を提供する特定のコード 語を決定することができる。
第1図は、コード励起リニア予測音声コーグに対する本発明の1実施例を示す。
この実施例においては、ロングタームフィルタのパラメータLおよびβは係数ア ナライザー10によってオープンループ構成で決定される。あるいは、ロングタ ームフィルタのパラメータは先に述べたシングハルおよびアタルの参照文献に述 べられているように閉ループ構成で決定することができる。一般に、音声コーグ の性能は閉ループ構成で決定されるロングタームフィルタのパラメータを使用す ることにより改善される。本発明に係わるロングターム予測器の新規な構造はフ レーム長Nより小さなラグLに対するこれらのパラメータの閉ループ決定の使用 に大いに便宜を与える。
第2A図は、第1図のロングタームフィルター24の1実施例を示し、この場合 しは整数に限定されている。第1図は尺度変更された励起ベクトルγu−(n) が利得プロツク122からロングタームフィルター24へ入力されるものとして 示されているが、第2A図においては説明の目的で代表的な入力音声ベクトルs  (n)が使用されている。
従って、入力音声ベクトルs (n)のN個のサンプルのフレームが加算器21 0に印加される。加算器210の出力はロングタームフィルター24のための出 力ベクトルb(n)を生成する。出力ベクトルb (n)はロングターム予測器 の遅延ブロック230にフィードバックされる。公称ロングターム予測器ラグパ ラメータLもまた遅延ブロック230に入力される。ロングターム予測器遅延ブ ロックは出力ベクトルq (n)をロングターム予測器の乗算器ブロック220 に提供し、これはロングターム予測器の係数βによりロングターム予測器の応答 を尺度変更する。尺度変更された出力βq (n)は次に再帰フィルタのフィー ドバックループを完成させるために加算器210に印加される。
ロングタームフィルター24の出力応答H(z)はZ変換表示で次のように定義 される。
この場合、nはN個のサンプルを含むフレームのサンプル数を表し、0≦n≦N −1であり、βはフィルタ係数を表し、Lはロングターム予測器の公称ラグまた は遅延を表かまたは等しい最も近い整数を表す。ロングターム予測器の遅延 1 (n、+L) /LJ Lはサンプル数nの関数として変化する。従って、本発 明によれば、実際のロングターム予測器の遅延はkLになり、この場合りは基本 的なまたは公称のロングターム予測器のラグであり、かっkはサンプル数nの関 数として組み(1,2,3,4,、、iから選択された整数である。従って、ロ ングタームフィルタの出力応答b (n)は公称ロングターム予測器のラグパラ メータLおよびフレームの始めに存在するフィルタ状態FSの関数である。この ステートメントはピッチラグLがフレーム長Nより小さい問題の場合に対してさ え、Lのすべての値に対して当−Cはまる。
ロングターム予測器の遅延ブロック230の機能は将来のサンプルを予測するた めに現在の入力サンプルを記憶するこ、とである。第2B図は、シフトレジスタ の単純化した図であり、これは第2A図のロングターム予測器遅延ブロック23 0の動作を理解する上で有用であろう。n=1(エル)のようなサンプル数1  (エル)に対し、現在の出力サンプルb (n)がシフトレジスタの入力に印加 され、これは第2B図の右側に示されている。次のサンプルn=1+1に対して は、先のサンプルb (n)は左にシフトレジスタの中にシフトされる。このサ ンプルは今や最初の過去のサンプルb(n−1)となる。次のサンプルn=1+ 2に対しては、b (n)の他のサンプルがレジスタ中にシ多 フトされ、かつ 元のサンプルが再び左にシフトされて第2の過去のサンプルb(n−2)になる 。L個のサンプルがシフトされた後、元のサンプルはLの回数圧にシフトされて おり従ってそれはb (n−L)として表すことができる。
上に述べたように、ラグLは典型的には有声音のピッチ期間またはその倍数であ ろう。もしラグLが少なくともフ; レーム長Nと同じぐらい長ければ、十分な 数の過去のサンプルが音声の次のフレームを予測するためにシフト入力されかつ 記憶されている。L=Nかつn=N−1の極端な場合でも、b(n−L)はb( −1)であり、これは真に過去のサンプルである。従って、サンプルb(n−L )は出力サンプルq (n)としてシフトレジスタから出力されるであろう。
しかしながら、もしロングターム予測器のラグパラメータLがフレーム長Nより 短ければ、不十分な数のサンプルが次のフレームの開始までにシフトレジスタ中 にシフト入力される。250Hzのピッチ期間の上の例を用いると、ピッチラグ Lは32に等しくなる。従って、L=32かっN=60の場合、かつに=N−1 =59の場合、b(n−L)は通常b(27)となり、これは60サンプルのフ ルームの始めに関して将来のサンプルを表す。言い換えれば、完全なロングター ム予測器応答を提供するためには不十分な過去のサンプルが格納されていること になる。予測器パラメータの閉ループ解析が達成できるようにフレームの始めに おいて完全なロングターム予測器の応答が必要である。
その場合本発明によれば、同じ記憶されたサンプルb(n−L)、O≦n≦L1 が繰り返されそれによりロングターム予測器の出力応答は常に現在のフレームの 開始に先立ちロングターム予測器の遅延ブロックに入力されたサンプルの関数で ある。第2B図に関しては、ロングターム予測器の遅延ブロック230の構造を 変更することを示す、他のkLサンプルの記憶のためにシフトレジスタが延長さ れている。従って、該シフトレジスタが新しいサンプルb (n)で満たされる から、kはb(n−kL)がフレームの開始に先立ちシフトレジスタ中に存在す るサンプルを表すように選択されなければならない。L=32およびN=60の 先の例を用いると、出力サンプルq(32)はサンプルq(0)の繰り返しであ り、これはb (0−L) =b (32−2L)またはb(−32)である。
従って、ロングターム予測器遅延ブロック230の出力応答q (n)は、 q (n) =b (n−kL) に対応し、ここで0≦n≦N−1であり、kは(n −k L)が負になるよう に選択された最も小さな整数である。より特定的にはもしs (n)のNサンプ ルのフレームがロングターム予測器フィルタ124に入力されると、各サンプル 番号nはj≦n≦N+j−1であり、ここでjはNサンプルのフレームの最初の サンプルに対するインデックスである。従って、変数には(n−kL)が常にj より小さくなるように変化する。このことはロングターム予測器が出力応答を予 測するために該フレームの開始に先立ち利用できるサンプルのみを利用すること を保証する。
第2A図のロングタームフィルタ124の動作を第3図のフローチャートに従っ て説明する。ステップ350においてスタートすると、サンプル番号nはステッ プ351において0に初期化される。公称ロングターム予測器ラグパラメータL およびロングターム予測器係数βはステップ352において係数アナライザ11 0から入力される。ステップ353において、サンプル数または番号nがテスト され全フレームが出力されたかを見る。もしn=Nであれば、動作はステップ3 61において終了する。もしすべてのサンプルがまだ計算されておらなければ、 ステップ354において信号サンプルs (n)が入力される。ステップ355 において、ロングターム予測器遅延ブロック230の出力応答が次の式に従って 計算される。
いかまたは等しい最も近い整数を表す。たとえば、もしn=56かつL=32で あれば、 巨+L)/LJL)は1(56+32/32J Lとなり、これは  L(2,75)」Lまたは2Lとなる。ステップ356において、ロングターム フィルタの出力応答b (n)は次の式に従って計算される。
b (n) =βq (n) +s (n)これは乗算器220および加算器2 10の機能を表す。
ステップ357において、b(n−2)およびb(n−LMAX)の間のすべて のレジスタのロケーションに対して、シフトレジスタのサンプルが左に1ポジシ ヨンシフトされ、ここでL は割り当て可能な最大のロングターム予測AX 器ラグを表す。好ましい実施例においては、L はIAX 43に等しい。ステップ358において、出力サンプルb(n)がシフトレジス タの最初のロケーションb(n−1)に入力される。ステップ359はろ渡され たサンプルb(n)を出力する。サンプル数nは次にステップ360において増 分され、かつ次にステップ353においてテストされる。すべてのNサンプルが 計算されたとき、処理はステップ361において終了する。
第2C図は本発明を導入したロングタームフィルタの別の実施例である。フィル タ124′は第2A図の再帰(recursive)フィルタ構成のフィードフ ォワード反転板である。入力ベクトルs (n)は減算器240およびロングタ ーム予測器遅延ブロック260の双方に印加される。遅延されたベクトルq ( n)は乗算器250に出力され、該乗算器250はロングターム予測器係数βに よって該ベクトルを尺度変更する。デジタルフィルタ124′の出力応答H(z )は2変換表示で次のように与えられる。
この式において、nはNのサンプルを含むフレームのサンプル番号を表し、0≦ n≦N−1であり、βはロングタームフィルタの係数を表し、Lはロングターム 予測器の公(n+L)/’Lより小さいかまたはこれに等しい最も近い整数を表 す。フィルタ124′の出力信号b (n)はまた入力信号s (n)に関し次 のように規定できる。
この場合、0≦n≦N−1である。当業者に理解できるように、ロングターム予 測器の構造は再びロングターム予測器のラグLがフレーム長Nより小さい場合に 該ロングターム予測器の同じ記憶されたサンプルを繰り返し出力するように変更 されている。
次に第5図を参照すると、第1図のロングタームフィルタ124の好ましい実施 例が示されており、これはラグパラメータLに対するサブサンプルの分解能を許 容する。入力音声ベクトルs (n)のNサンプルのフレームが加算器510に 印加される。加算器510の出力はロングタームフィルタ124に対する出力ベ クトルb (n)を生成する。
出力ベクトルb (n)はロングターム予測器の遅延されたベクトル発生器ブロ ック530にフィードバックされる。
公称ロングターム予測器ラグパラメータLもまた遅延ベクトル発生器ブロック5 30に入力される。ロングターム予測器ラグパラメータLは非整数有理数の値を 取り得る。好ましい実施例はLが2分の1の倍数である値を取ることを許容する 。本発明のサブサンプル分解能ロングターム予測器の別の構成は3分の1または 4分の1あるいは任意の他の有理分数の倍数である値を許容することができる。
好ましい実施例においては、遅延ベクトル発生器530はb (n)の過去のサ ンプルを保持するメモリを含む。さらに、b (n)の補間されたサンプルもま た遅延ベクトル発生器530で計算されかつそのメモリ内に格納される。
好ましい実施例においては、遅延ベクトル発生器530に含まれるロングターム 予測器の状態(s t a t e)はb(n)の各々の記憶されたサンプルに 対し2つのサンプルを有している。1つのサンプルはb (n)に対するもので ありかつ他のサンプルは2つの連続するb (n)のサンプルの間の補間された サンプルを表す。このようにして、b(n)のサンプルは整数の遅延またはハー フサンプルの遅延の倍数に対応する遅延ベクトル発生器530から得ることがで きる。この補間は、1983年に、プレンティス・ホール・ルーピン・ドナリー により出版された、アール・クロチーアおよびエル・ラビナーによる「多重レー ト・デジタル信号処理」に述べられている補間有限インパルス応答フィルタを用 いて行われる。ベクトル遅延発生器530の動作は第6A図および第6B図のフ ローチャートに関連してさらに詳細に説明される。
遅延ベクトル発生器530はロングターム乗算器ブロック520に出力ベクトル q (n)を提供し、該ロングターム乗算器ブロック520はロングターム予測 器係数βによりロングターム予測器応答を尺度変更する。尺度変更された出力β q (n)は次に加算器510に印加され第5図における再帰フィルタ124の フィードバックループを完成する。
第6A図および第6B図を参照すると、第5図のロングタームフィルタにより行 われる動作を詳細に説明するための詳細フローチャートが示されている。本発明 の好ましい実施例によれば、ロングターム予測器メモリの分解能はNポイントの シーケンスb (n)を、2Nポイントのベクトルex (i)にマツピングす ることにより拡張される。ex (i)の負のインデックスされたサンプルはロ ングタームフィルタ出力b(n)、励起、または拡張分解能ロングタームヒスト リの拡張された分解能の過去の値を含む。該マツピング処理はそれが印加される 各時間ごとに、ロングターム予測器メモリの一時的な分解能を倍加する。ここで は簡単化のために単一段のマツピングが説明されているが、付加的な段も本発明 の他の実施例においては実施することができる。
第6A図におけるステップ602のスタートに入ると、フローチャートはステッ プ604に進み、そこでL1βおよびs (n)が入力される。ステップ608 において、ベクトルq (n)が次の式に従って構成される。
この式において i(n+L)/LJは(n+L)/Lより小さいかまたは等し い最も近い整数を表し、かつLはロングターム予測器ラグである。有声音に対し ては、ロングターム予測器ラグLはピッチ期間またはピッチ期間の倍数である。
Lは整数または好ましい実施例においてはその少数部分が0. 5である実数で ある。Lの少数部分が0.5である場合、Lはサンプルの半分の実効分解能を有 する。
ステップ610において、ロングタームフィルタのベクトルb (n)は次の式 によって計算される。
b (n) =βQ (n) +s (n)但し、0≦n≦N−1 ステップ612において、ロングタームフィルタのベクトルb (n)が出力さ れる。ステップ614において、拡張された分解能の状態ex(n)が更新され q (n)の補間値が発生されかつ遅延ベクトル発生器530のメモリ内に格納 される。ステップ614は第6B図により詳細に示されている。次に、ステップ 616において処理は完了しかつ停止する。
第6BIIのステップ622におけるスタートに入ると、フローチャートはステ ップ624に進み、そこでこのサブフレームにおいて計算されるべきex (i )におけるサンプルが0に合わせられ、すなわちi =−M、 −M+2. 、  。
、、2N−1に対しex (i)=0とされ、ここでMは2M+1次のフィルタ のために奇数に選択される。たとえば、フィルタの次数が39であれば、Mは1 9である。もちろんMは単純化のために奇数であるとして選択されているが、M はまた偶数でもよい。ステップ626において、i=0゜2、、、、.2(N− 1)に対するex (i)の1つおきのサンプルが次の式に従いb (n)のサ ンプルで初期化される。
ex (2i) =b (f) 但し、i=0.1.、、、、N−1゜ 従って、j=0. 2. 、 、 、 、 2 (N−1)に対するex (i )はその偶数の指数に対しマツピングされた現在のサブフレームに対する出力ベ クトルb (n)を保持し、一方i=1. 3. 、 、 、 、 2 (N− 1) +1に対するexd(i)の奇数の指数は0で初期化されている。
ステップ628において、0に初期化されたex (i)の補間されたサンプル がそのようなFIRフィルタの次数が上に述べたように2M+1であると仮定し て、対称、ゼロ位相シフトフィルタを使用し、FIR補間により再構成される。
FIRフィルタの係数はa (Dであり、ここでj=−M、−M+2.、、、、 M−1,Mおよびa (D=a(−j)である。FIRフィルタのタップに向け られた偶数サンプルのみがサンプル再構成において使用されるが、それは奇数サ ンプルは0にセットされているからである。その結果、2M+1サンプルの代わ りにM+1サンプルが実際に重み付けられかつ各々の再構成されたサンプルのた めに加算される。FIR補間は次の式に従って行われる。
(M+]) et(i)= 2Σ”2j−1[ex(i−2i+I)+ex(i+2i−1)  ]j・1 但し、i=−M、 −11+2. 、 、 、 、2 (N−1) −M−2, 2(N〜1)−M再構成されるべき最初のサンプルはex(−M)であり、期待 するようにex(1)ではないことに注意を要する。
これは、指数−M、 −M+2. 、 、 、 、−1における補間されたサン プルは現在のフレームにおける励起の評価を用いて先のフレームにおいて再構成 されたからであり、それは実際の励起サンプルはその時規定されていなかったか らである。現在のフレームにおいてこれらのサンプルは知られており(我々はb  (n)を有している)、かつ従ってi=−M、−M+、、、、、−1に対する ex(i)のサンプルは今や再び再構成され、フィルタのタップは実際のかつ評 価されていない値b (n)に向けられている。
上の式においてiの最大の値は2 (N−1)−Mである。
これは、i =2N−M、2N−M+2. 、 、 、 、 2 (N −1) +1に対し、ex (i)の(M+1)/2の奇数サンプルが依然として再構成 されるべきであることを意味する。
しかしながら、指数(index)iのこれらの値に対し、補間フィルタのより 上のタップはまだ規定されていない励起の将来のサンプルを指示している。これ らの指数に対するex (i)の値を計算するためには、1=2N、2N+2. 、、、.2N+Mに対するex (i) (7)将来の状態カステップ630に おいて評価することにより拡張される。
ex (i)=λex(i−2L) 但し、1=2N、2N+2.、、、.2N+M−1この機構において使用される べき2Lの最小値は2M+1である。この束縛は次のように規定することにより 解放できる。
ex (i)=λex (F (i−2L) )但し、1=2N、2N+2.、 、、.2N+M−1この場合、奇数に等しい1−2Lに対し、F (i−2L) は次式で与えられる。
また、偶数に等しい1−2Lに対するF(i−2L)は次式により与えられる。
パラメータλ、すなわちヒストリ拡張スケールファクタは、ピッチ予測器係数で ある、βに等しくセットすることができ、あるいは1にセットされる。
励起ヒストリがこのように拡張されると、ステップ632において、現行の拡張 されたレゾリュージョンのサブフレームの最後の(M+1)/2のゼロサンプル は次式を用いて計算される。
(M+1) ex(i)= 2Σ ’2i−1[ex(i−2i+1)+ex(i+2i−1 ) ]i=1 但し、i・2N−M、 2N−M+2. 、 、 、 、2 (N−1) +1 これらのサンプルは、1=2N、2N+2.、、、.2N+M−1に対するex  (f)のための実際の励起サンプルが一旦利用可能になると、次のサブフレー ムで再計算されるであろう。
従って、n=0.N−1に対し、b (n)がベクトルex (i)にマツピン グされ、ここでi=o、2.、、、。
2 (N−1)である。失われたゼロ化サンプルはFIR補間フィルタを用いて 再構成されている。FIR補間は失われたサンプルにのみ適用されることに注意 を要する。これはex (i)の偶数の指数に格納されている、知られたサンプ ルに何等のひずみも無用に導入されないことを保証する。失われたサンプルのみ を処理する付加的な利点は補間に関連する計算が半分になることである。
ステップ634において、最後にロングターム予測器ヒストリが2Nポイントに より拡張されたレゾリュージョン励起ベクトルex (i)の内容をシフトダウ ンすることにより更新される。
ex (i)=ex (i+2N) 但し、i=2Max L、−1 ここで、MaxLは用いられる最大のロングターム予測器遅延である。次に、ス テップ636において、処理は完了しかつ停止する。
次に第4図を参照すると、音声合成器(speechsynthesizor) のブロック図が本発明のロングタームフィルタを用いて図示されている。シンセ サイザ400はデマルチプレクサ450を介し、チャネルから受信したショート ターム予測器パラメータα1、ロングターム予測器パラメータβおよびL1励起 利得ファクタγおよびコード語■を得る。コード語IはコードブックROM42 0に印加され励起ベクトルのコードブックをアドレスする。
コードブックROM420は好ましくは、ここに参照のため導入される、米国特 許第4,817,157号に述べられているようにして実施される。単一の励起 ベクトルu■(n)が次にブロック422において利得ファクタγにより乗算さ れ、ロングターム予測器フィルタ424およびショートターム予測器フィルタ4 26によりろ波され再構成された音声ベクトルs’ 1(n)を得る。再構成さ れた音声のフレームを表す、このベクトルは次にアナログ−デジタル(A/D) コンバータ408に印加され再構成されたアナログ信号を生成し、これは次にフ ィルタ404によりエイリアシングを低減するために低域ろ波され、かつスピー カ402のような出力変換器に印加される。従って、このCELPシンセサイザ は第1図のCELPアナライザと同じコードブック、利得ブロック、ロングター ムフィルタ、およびショートタームフィルタを用いる。
第7図は、第4図における音声シンセサイザのショートタームフィルタ426お よびD/Aコンバータ408を相互結合するためのピッチポストフィルタの詳細 なブロック図である。ピッチポストフィルタは音声品質をフィルタ424および 426により導入されるノイズを除去することにより増大する。Nサンプルの再 構成された音声ベクトルs’ 1 (n)のフレームが加算器710に印加され る。加算器710の出力はピッチポストフィルタのための出力ベクトルs”(n )を生成する。出力ベクトルs″ (n)はピッチポストフィルタの遅延サンプ ル発生器ブロック630にフィードバックされる。公称(nominal)ロン グターム予測器ラグパラメータLもまた遅延サンプル発生器ブロック730に入 力される。Lは本発明に対しては非整数値をとることができる。もしLが非整数 であれば、補間FIRフィルタが使用され必要とされる分数的サンプル遅延を発 生する。遅延サンプル発生器730は出力ベクトルq (n)を乗算器ブロック 720に提供し、該乗算器ブロック720はピッチポストフィルタ応答をロング ターム予測器係数βの関数である係数Rによって尺度変更する。
尺度変更された出力Rq (n)は次に加算器710に印加され第7図のピッチ ポストフィルタのフィードバックループを、完成する。
本発明に係わるロングターム予測器応答を利用する際に、励起利得ファクタγお よびロングターム予測器係数βは閉ループ構成におけるLのすべての値に対し同 時に最適化することができる。この結合された最適化技術はL<Nの値に対して は今までは実際的ではなかったが、それは結合最適化方程式が単一パラメータβ において非線形となるからであった。本発明はロングターム予測器の構造を変更 しリニアな結合最適化方程式を許容する。さらに、本発明はロングターム予測器 ラグが1サンプルより良好な分解能を持つことを許容し、それによりその性能を 増強する。
さらに、フードブックサーチ手順がさらに単純化されるが、それはロングターム フィルタのゼロ状態応答がフレーム長より小さなラグに対しゼロになるからであ る。この付加的な特徴は当業者がロングタームフィルタの効果をフードブックサ ーチ手順から除去することを許容する。従って、実際の実施上の利点および低い ビットレートを維持しながらすべてのピッチレートに対しより高い品質の音声を 提供できるCELP音声コーダコーされた。
本発明の特定の実施例が示されかつ説明されたが、その広い見地における本発明 から離れることなくさらに別の変更および改良を行うことができる。例えば、任 意の形式の音声コーディング(例えば、RELP、マルチパルス、RPE、LP G、その他)をここに述べたサブサンプル分解能ロングターム予測器ろ波技術と ともに用いることができる。さらに、サブサンプル分解能のロングターム予測器 構造の付加的な等画構成を上に述べたものと同じ計算を行うように構成すること ができる。
FIG、6B 閑瞭膿査報告 1ms□IA″″−“’pCw10cQn/(IM25

Claims (4)

    【特許請求の範囲】
  1. 1.再生のために音声シンセサイザに通信するための音声のエンコード方法であ って、前記音声はNが1より大きな整数であるとし、各々N個のサンプルを有す る音声ベクトルのフレームを具備し、前記方法は、メモリ手段に各々複数のサン プルを有する複数の励起ベクトルを格納する段階であって、前記励起ベクトルの 第1の部分は各々N個より少ないサンプルを有しかつ前記励起ベクトルの第2の 部分は各々N個のサンプルを有し、かつ各々の励起ベクトルは異なるデジタルコ ード語および1より大きくかつ所定の最大数より小さな整数である異なる遅延パ ラメータに関連するもの、 前記励起ベクトルを現在の音声ベクトルでサーチし前記現在の音声ベクトルに最 もよく整合する励起ベクトルのコード語および遅延パラメータを決定する段階で あって、該決定は、 前記メモリ手段から前記励起ベクトルのサンプルを読み取る段階、 前記第1の部分における前記励起ベクトルのサンプルを反復しそれにより前記第 1の部分の各励起ベクトルがN個のサンプルを有するようにする段階、各々の励 起ベクトルに対応する少なくとも1つの補間励起ベクトルを発生する段階であっ て、前記補間励起ベクトルのサンプルは対応する励起ベクトルのサンプルから補 間され、該補間された励起ベクトルは前記対応する励起ベクトルと同じコード語 および前記対応する励起ベクトルの遅延パラメータに関連する非整数有理数であ る遅延パラメータを有するもの、 前記励起ベクトルおよび前記補間された励起ベクトルのサンプルを前記現在の音 声ベクトルと比較しそれらの間の差を決定する段階、そして 前記励起ベクトルまたは補間励起ベクトルであって前記現在の音声ベクトルから の差が最小のもののコード語および遅延パラメータを選択する段階、によって行 われるもの、および 前記音声シンセサイザによる前記現在の音声ベクトルの再生のために前記メモリ 手段における前記決定された励起ベクトルのロケーションを識別するために前記 決定されたコード語および遅延パラメータを通信する段階、を具備する音声シン セサイザに通信するための音声のエンコード方法。
  2. 2.少なくとも1つの補間励起ベクトルを発生する前記段階は対応するベクトル の2つの連続するサンプルを平均化して前記補間された励起ベクトルの対応する サンプルを発生する段階を含む請求の範囲第8項に記載の方法。
  3. 3.再生のために音声シンセサイザに通信ずるために音声をエンコードする装置 であって、前記音声は、Nが1より大きな整数であるとしてN個のサンプルを各 々有する音声ベクトルのフレームを備え、前記装置は、各々複数のサンプルを有 する複数の励起ベクトルを記憶するための手段であって、前記励起ベクトルの第 1の部分は各々N個より少ないサンプルを有しかつ前記励起ベクトルの第2の部 分は各々N個のサンプルを有し、かつ各励起ベクトルは異なるデジタルコード語 および1より大きくかつ所定の最大数より小さな整数である異なる遅延パラメー タと関連しているもの、 前記励起ベクトルを現在の音声ベクトルによってサーチし前記現在の音声ベクト ルに最もよく整合する励起ベクトルのコード語および遅延パラメータを決定する ための手段であって、前記決定は、 前記記憶手段からの前記励起ベクトルのサンプルを読み取り、 前記第1の部分における前記励起ベクトルのサンプルを反復して前記第1の部分 の各励起ベクトルがN個のサンプルを有するようにし、 各励起ベクトルに対応する少なくとも1つの補間励起ベクトルを発生し、この場 合該補間励起ベクトルのサンプルは対応する励起ベクトルのサンプルから補間さ れ、前記補間励起ベクトルは対応する励起ベクトルと同じコード語および前記対 応する励起ベクトルの遅延パラメータに関連する非整数有理数である遅延パラメ ータを有するようにし、 前記励起ベクトルおよび前記補間された励起ベクトルのサンプルを前記現在の音 声ベクトルのサンプルと比較しそれらの間の差を決定し、かつ 前記励起ベクトルまたは補間された励起ベクトルであって前記現在の音声ベクト ルからの差が最も少ないもののコード語および遅延パラメータを選択する、こと により行われるもの、および 前記音声シンセサイザによる前記現在の音声ベクトルの再生のために前記記憶手 段における前記決定された励起ベクトルのロケーションを識別するために前記決 定されたコード語および遅延パラメータを通信するための手段、を具備する音声 シンセサイザに通信するために音声をエンコードする装置。
  4. 4.前記サーチ手段は補間された励起ベクトルの各サンプルを対応するベクトル の2つの連続する対応するサンプルを平均することにより発生する請求の範囲第 10項に記載の装置。
JP50964190A 1989-09-01 1990-06-25 改良されたロングターム予測器を有するデジタル音声コーダ Expired - Lifetime JP3268360B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US40220689A 1989-09-01 1989-09-01
US402,206 1989-09-01

Publications (2)

Publication Number Publication Date
JPH04502675A true JPH04502675A (ja) 1992-05-14
JP3268360B2 JP3268360B2 (ja) 2002-03-25

Family

ID=23590969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50964190A Expired - Lifetime JP3268360B2 (ja) 1989-09-01 1990-06-25 改良されたロングターム予測器を有するデジタル音声コーダ

Country Status (12)

Country Link
EP (1) EP0450064B2 (ja)
JP (1) JP3268360B2 (ja)
CN (1) CN1026274C (ja)
AT (1) ATE191987T1 (ja)
AU (1) AU634795B2 (ja)
CA (1) CA2037899C (ja)
DE (1) DE69033510T3 (ja)
DK (1) DK0450064T4 (ja)
ES (1) ES2145737T5 (ja)
MX (1) MX167644B (ja)
SG (1) SG47028A1 (ja)
WO (1) WO1991003790A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687284A (en) * 1994-06-21 1997-11-11 Nec Corporation Excitation signal encoding method and device capable of encoding with high quality
WO2002059877A1 (en) * 2001-01-25 2002-08-01 Sony Corporation Data processing device
WO2002059876A1 (en) * 2001-01-25 2002-08-01 Sony Corporation Data processing apparatus

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FR2702590B1 (fr) * 1993-03-12 1995-04-28 Dominique Massaloux Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP.
FI96248C (fi) 1993-05-06 1996-05-27 Nokia Mobile Phones Ltd Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin
DE4421853A1 (de) * 1994-06-22 1996-01-04 Philips Patentverwaltung Mobilfunkendgerät
GB9408037D0 (en) * 1994-04-22 1994-06-15 Philips Electronics Uk Ltd Analogue signal coder
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2729244B1 (fr) * 1995-01-06 1997-03-28 Matra Communication Procede de codage de parole a analyse par synthese
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
CN104025191A (zh) * 2011-10-18 2014-09-03 爱立信(中国)通信有限公司 用于自适应多速率编解码器的改进方法和设备
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
WO2020250369A1 (ja) * 2019-06-13 2020-12-17 日本電信電話株式会社 音信号受信復号方法、音信号復号方法、音信号受信側装置、復号装置、プログラム及び記録媒体
CN113113033B (zh) * 2021-04-29 2025-03-07 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63214032A (ja) * 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPS63249200A (ja) * 1987-04-06 1988-10-17 日本電信電話株式会社 ベクトル量子化方式

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL168669C (nl) * 1974-09-16 1982-04-16 Philips Nv Interpolerend digitaal filter met ingangsbuffer.
US4080660A (en) * 1975-07-11 1978-03-21 James Nickolas Constant Digital signal time scale inversion
US4020332A (en) * 1975-09-24 1977-04-26 Bell Telephone Laboratories, Incorporated Interpolation-decimation circuit for increasing or decreasing digital sampling frequency
NL8105801A (nl) * 1981-12-23 1983-07-18 Philips Nv Recursief digitaal filter.
US4573135A (en) * 1983-04-25 1986-02-25 Rca Corporation Digital lowpass filter having controllable gain
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
JPH01177227A (ja) * 1988-01-05 1989-07-13 Toshiba Corp 音声コーデック

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63214032A (ja) * 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPS63249200A (ja) * 1987-04-06 1988-10-17 日本電信電話株式会社 ベクトル量子化方式

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687284A (en) * 1994-06-21 1997-11-11 Nec Corporation Excitation signal encoding method and device capable of encoding with high quality
WO2002059877A1 (en) * 2001-01-25 2002-08-01 Sony Corporation Data processing device
WO2002059876A1 (en) * 2001-01-25 2002-08-01 Sony Corporation Data processing apparatus
US7269559B2 (en) 2001-01-25 2007-09-11 Sony Corporation Speech decoding apparatus and method using prediction and class taps
US7467083B2 (en) 2001-01-25 2008-12-16 Sony Corporation Data processing apparatus

Also Published As

Publication number Publication date
EP0450064B1 (en) 2000-04-19
MX167644B (es) 1993-03-31
CA2037899A1 (en) 1991-03-02
CA2037899C (en) 1996-09-17
CN1050633A (zh) 1991-04-10
DE69033510T2 (de) 2000-11-23
WO1991003790A1 (en) 1991-03-21
DK0450064T3 (da) 2000-10-02
EP0450064A4 (en) 1995-04-05
SG47028A1 (en) 1998-03-20
AU634795B2 (en) 1993-03-04
ATE191987T1 (de) 2000-05-15
DE69033510D1 (de) 2000-05-25
EP0450064A1 (en) 1991-10-09
AU5952590A (en) 1991-04-08
DE69033510T3 (de) 2007-06-06
ES2145737T3 (es) 2000-07-16
DK0450064T4 (da) 2006-09-04
EP0450064B2 (en) 2006-08-09
ES2145737T5 (es) 2007-03-01
CN1026274C (zh) 1994-10-19
JP3268360B2 (ja) 2002-03-25

Similar Documents

Publication Publication Date Title
US5359696A (en) Digital speech coder having improved sub-sample resolution long-term predictor
JPH04502675A (ja) 改良されたロングターム予測器を有するデジタル音声コーダ
US6694292B2 (en) Apparatus for encoding and apparatus for decoding speech and musical signals
JP4005359B2 (ja) 音声符号化及び音声復号化装置
USRE43099E1 (en) Speech coder methods and systems
JPWO2001020595A1 (ja) 音声符号化及び音声復号化装置
CN100527225C (zh) 基于celp的语音代码之间的代码转换方案
JP3541680B2 (ja) 音声音楽信号の符号化装置および復号装置
SE521600C2 (sv) Lågbittaktskodek
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
JP4008607B2 (ja) 音声符号化/復号化方法
JP2645465B2 (ja) 低遅延低ビツトレート音声コーダ
JP3531780B2 (ja) 音声符号化方法および復号化方法
JP3168238B2 (ja) 再構成音声信号の周期性を増大させる方法および装置
JP2000132193A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JPH05273998A (ja) 音声符号化装置
JP4007730B2 (ja) 音声符号化装置、音声符号化方法および音声符号化アルゴリズムを記録したコンピュータ読み取り可能な記録媒体
JP4293005B2 (ja) 音声音楽信号の符号化装置および復号装置
JP3274451B2 (ja) 適応ポストフィルタ及び適応ポストフィルタリング方法
JP2000305597A (ja) 音声圧縮のコード化
WO2001009880A1 (en) Multimode vselp speech coder
JP3715417B2 (ja) 音声圧縮符号化装置,音声圧縮符号化方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Kao Low Complexity CELP Speech Coding at 4.8 kbps

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100118

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 9

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 9