JP2007509363A

JP2007509363A - オーディオ符号化方法及び装置

Info

Publication number: JP2007509363A
Application number: JP2006534861A
Authority: JP
Inventors: セーデンブリンカーアルベルトゥス; イェーゲリッツアンドレアス
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-10-13
Filing date: 2004-10-04
Publication date: 2007-04-12
Also published as: EP1676263B1; EP1676263A1; ES2337903T3; DE602004024703D1; JP2011203752A; CN1867969B; ATE452401T1; US20070100639A1; CN1867969A; US7725310B2; WO2005036529A1

Abstract

連続的な複数の時間セグメント毎の、サンプルされた信号値（ｘ(ｔ)）の各組によって表現されるオーディオ信号(ｘ)の符号化を開示する。サンプルした信号値を分析して、連続的な複数のセグメント毎に１つ以上の正弦波成分を特定する。これらの正弦波成分を連続的な複数のセグメントにわたって連結させて正弦波トラックを提供し、各トラックは複数のフレームから成る。符号化信号(ＡＳ)が生成され、この符号化信号は、フレーム毎の表現レベル(ｒ)を含む正弦波コード(Ｃ_S)を含むか、あるいは、所定フレームがランダムアクセス・フレームとして指定されている際には、この符号化信号が含む正弦波コード(Ｃ_S)の一部は、この所定フレームについての位相(ψ)、周波数(ω)及び量子化テーブル(Ｑ)を含む。本発明は、量子化器における量子化精度の長い適応及び／または大きなビットストリームの必要性を回避しつつ、改善されたオーディオ品質を維持したままで、トラック内のランダムアクセスを可能にする。

Description

（発明の分野）
本発明は、特定オーディオ信号中の広帯域信号の符号化及び復号化に関するものである。本発明は、エンコーダ（符号化器）及びデコーダ（復号化器）に共に関するものであり、そして本発明により符号化したオーディオストリーム、及びこうしたオーディオストリームを記憶するデータ記録媒体に関するものである。

（発明の背景）
広帯域信号、例えば音声のようなオーディオ信号を伝送する際には、圧縮または符号化技術を用いて信号の帯域またはビットレートを低減する。

国際特許出願WO 01/69593 欧州特許出願02080002.5

図１に、本発明において使用する既知のパラメトリック符号化方式、特に正弦波エンコーダを示し、この符号化方式は国際特許出願WO 01/69593及び欧州特許出願02080002.5（PHNL021216）に記載されている。このエンコーダでは、入力オーディオ信号ｘ(ｔ)が（できれば互いに重複した）いくつかの時間セグメントまたはフレームに分割され、この時間セグメントまたはフレームは、代表的なものとして各20msの持続時間を有する。各セグメントは、過渡成分、正弦波成分、及びノイズ（雑音）成分に分解される。入力オーディオ信号の他の成分、例えば複素高調波を導出することも可能であるが、これらの成分は本発明の目的とは無関係である。

図１の正弦波アナライザ（分析器）１３０では、セグメント毎の信号ｘ2が、振幅、周波数及び位相のパラメータによって表わされる複数の正弦波を用いてモデル化される。この情報は通常、分析期間中にフーリエ変換（ＦＴ：Fourier Transformation）を実行することによって抽出され、フーリエ変換は、この期間の、周波数、周波数毎の振幅、及び周波数毎の位相を含むスペクトル表現を提供し、ここで各位相は「ラップ」（巡回）し、即ち｛−π；π｝の範囲内にある。一旦、セグメントについての正弦波情報が推定されると、トラッキング・アルゴリズムを開始する。このアルゴリズムはコスト関数を用いて、異なるセグメントをセグメント毎のベースで互いに連結（リンク）させて、いわゆるトラックを得る。従って、このトラッキング・アルゴリズムは、特定瞬時に始まり、複数の時間セグメントにわたる特定期間中に進展し、そして停止する正弦波トラックから成る正弦波コードＣ_sを生じさせる。

こうした正弦波符号化では、エンコーダ内で形成されたトラックについての情報を伝送するのが通常である。このことは簡単な方法かつ低コストで行うことができる、というのは、これらのトラックは低速で変化する周波数しか持たないからである。従って、周波数情報は時間差符号化によって効率的に伝送することができる。一般に、振幅も長い時間にわたって差分的に符号化することができる。

周波数とは対照的に、位相は時間と共により急速に変化する。周波数が（ほぼ）一定であれば、位相は時間と共に（ほぼ）直線的に変化し、この直線からの位相の偏差（ずれ）に応じた周波数変化が生じる。トラック・セグメントのインデックス（指標）の関数として位相はほぼ直線的な挙動を有する。従って、符号化された位相の伝送はより複雑になる。しかし、伝送される際には、フーリエ変換によって提供される位相は｛π；−π｝の範囲に限定され、即ち位相は「ラップ」される。こうした位相のモジュロ２πでの表現により、構造的なフレーム間の位相関係が失われ、第一印象ではランダムに変化するように見える。

しかし、位相は周波数の積分であるので、位相は冗長であり、原則的に伝送する必要はない。これによりビットレートが大幅に低減される。デコーダでは、位相連続と呼ばれるプロセスによって位相が復元される。

位相連続では、符号化された周波数のみ伝送され、位相はデコーダにおいて、位相と周波数との積分関係を利用することによって周波数から復元される。しかし、位相連続を用いる際には、位相を完全に復元することができないことが知られている。例えば、周波数の測定誤差によるか、あるいは量子化ノイズによる周波数誤差が発生すれば、積分関係を用いて再構成される位相は一般に、ドリフト（ゆらぎ）の特性を有する誤差を示す。このことは、周波数誤差がランダムに近いことによる。低周波数の誤差は積分によって増幅され、結果的に、復元される位相は実測された位相から外れてドリフトしがちになる。このことは可聴のアーティファクト（歪み）をもたらす。

このことを図２ａに示し、ここでΩ及びΨは、あるトラックについてのそれぞれ実周波数及び実位相である。エンコーダ及びデコーダの両方において、周波数と位相とは積分関係を有し、これを文字”Ｉ”で表わす。エンコーダにおける量子化プロセスは付加ノイズｎとしてモデル化される。従って、デコーダでは、復元された位相Ψは２つの成分：即ち実位相Ψ及びノイズ成分ε₂を含み、ここで復元された位相のスペクトル及びノイズε₂のパワースペクトル密度関数は共に明らかな低周波数の特性を有する。

従って、位相連続では、復元される位相は低周波数信号自体であることがわかる、というのは、復元される位相は低周波数信号の積分であるからである。しかし、再構成プロセス中に導入されるノイズも、この低周波数範囲において支配的である。従って、符号化中に導入されるノイズｎをフィルタで除去する観点でこれらのソース（信号とノイズ）を分離することは困難である。

さらに、位相連続では、ビットレートを節減するために、各トラックの第１正弦波のみがトラック毎に伝送される。続きの各位相は、初期位相及びトラックの周波数から計算される。周波数は量子化され、必ずしも非常に正確には推定されないので、連続位相は測定位相から外れる。位相連続はオーディオ信号の品質を劣化させることが実験で示されている。

欧州特許出願02080002.5（PHNL021216）は、周波数／位相の結合量子化器を提案することによってこれらの問題に応え、ここで正弦波トラックの測定された位相は−π〜πの値を有し、測定された周波数及び連結（リンク）情報を用いることによってアンラップ（非巡回）にされ、トラックに沿って単調増加するアンラップの位相が生じる。エンコーダでは、アンラップの位相が、適応差分パルス符号変調（ＡＤＰＣＭ：Adaptive Differential Pulse Code Modulation）量子化器を用いることによって量子化されてデコーダに伝送される。デコーダは正弦波トラックの周波数及び位相を、アンラップの位相軌跡から導出する。

例として、ＡＤＰＣＭ量子化器を以下に述べるように構成することができる。トラックの第１連続については、アンラップの位相を表１に従って量子化する：

量子化境界はこの表に従って、｛−∞；２・Ｔ（ｒ＝１），０，２・Ｔ（ｒ＝２），∞｝によって規定される。これに続く連続毎に、この表をスケールする（スケール係数＝倍率を乗じる）。表現レベルが外側レベルであれば、この表に２^1/2を乗じて、量子化の精度をより粗くする。さもなければ、表現レベルは内側レベルであり、表を２^-1/4倍して量子化精度をより細かくする。さらに、内側レベルには上限及び下限の境界が存在し、即ち３π／４及びπ／６４である。

上記方法におけるアンラップの位相軌跡の量子化は連続的なプロセスであり、ここで量子化精度はトラックに沿って適応される。従って、トラックを復号化するためには、復号化プロセスをトラックの出発点または始点から開始しなければならず、即ち、デコーダはトラック全体の量子化を元に戻すことしかできず、トラックの一部分を復号化することは不可能である。従って、ランダムアクセスを可能にする特別な方法をエンコーダ及びデコーダに追加しなければならない。ランダムアクセスは、例えば、オーディオ信号を「スキップ（飛越し）」または「早送り」するために用いることができる。

ランダムアクセスを実行する第１の直接的な方法は、エンコーダ／量子化器においてランダムアクセス・フレーム（またはリフレッシュ点）を規定し、デコーダではこれらのランダムアクセス・フレームにおいてＡＤＰＣＭ量子化器を再始動させることである。ランダムアクセス・フレームについては、初期テーブルを用いる。従って、リフレッシュは通常発生のビットと同じくらい高価になる。従って、最初には、量子化精度が粗すぎてトラックの不連続を生じさせるか、あるいは、量子化精度が細かすぎて、大きな量子化誤差を生じさせることがある。このことは、ランダムアクセス・フレームを使用せずに符号化した信号に比べてオーディオ品質の劣化もたらす。

第２の直接的な方法は、ＡＤＰＣＭ量子化器のすべての状態（即ち、欧州特許出願02080002.5（PHNL021216）に記載の、予測器における量子化精度及びメモリー）を伝送することである。従って、予測器はランダムアクセス・フレームありまたはなしの場合と同様の出力を有する。こうすれば、音質はほとんど損なわれない。しかし、すべての情報を伝送するための追加的なビットレートは相当のものである。特に、予測器のメモリーの内容は、ＡＤＰＣＭ量子化器の量子化精度に応じて量しかしなければならないからである。

本発明はこれらの問題に応えるものである。

（発明の概要）
本発明は、広帯域信号、特にオーディオ信号または音声信号を低いビットレートを用いて符号化する方法を提供する。より詳細には、本発明はオーディオ信号を符号化する方法を提供し、この方法は：連続的な複数の時間セグメント毎の、サンプル（標本化）された信号値の各組を提供するステップと；これらのサンプルされた信号値を分析して、前記連続的な複数のセグメント毎に１つ以上の正弦波成分を特定するステップと；前記連続する複数のセグメントにわたってこれらの正弦波成分を連結（リンク）させて、各トラックが複数のフレームから成る正弦波トラックを提供するステップと；０個またはそれ以上の数のフレームについての表現レベルを具えた正弦波コードを含む符号化された信号を発生するステップであって、これらのコードの一部は、所定フレームがランダムアクセス・フレームとして指定されている際の、この所定フレームについての位相、周波数、及び量子化テーブルを具えている。

このようにして、ランダムアクセスが可能になり、例えば、従来技術の量子化器、例えばＡＤＰＣＭ量子化器における量子化精度の長い適応を回避しつつ、トラックを通してのスキップが可能になる、というのは、（一部の）量子化状態は（量子化テーブル（表）の形で）デコーダに伝送されるからである。

さらに、デフォルトの初期テーブルを用いる上記第１の直接的な方法に比べて、量子化テーブルを高速にすべく適応させることができる。これに加えて、上記第２の直接的な方法に比べて、本発明はより低いビットレートを提供する。

本発明は、量子化精度のみを伝送することによって、上記２つの（直接的な）方法の良い折衷案を提供し、これにより低いビットレートで良好な品質を提供する。

本発明の好適例では、各量子化テーブルがインデックスによって表わされ、このインデックスは、量子化テーブルの代わりにランダムアクセス・フレームで、エンコーダからデコーダへ伝送される。

ランダムアクセス・テーブル用の位相（φ）及び周波数（ω）は、トラックの始点を量子化するために用いるデフォルトの方法に従って量子化されたリフレッシュ・フレーム内で測定された位相及び測定された周波数であることが好ましい。これらの位相及び周波数は、それぞれφ(０)及びω(０)とも称される。

（好適な実施例の詳細な説明）
以下、本発明の好適な実施例を図面を参照しながら説明し、図面では、同様の構成要素は、特に断わりのない限り同じ参照番号で表わし、同様の機能を実行する。

図１に従来技術のエンコーダを示し、このエンコーダにおいて本発明の実施例を実現する。本発明の好適な実施例では、エンコーダ１は、国際特許出願WO 01/69593の図１、及び欧州特許出願02080002.5（PHNL021216）に記載の種類の正弦波エンコーダである。この従来技術のエンコーダ、及びこれに対応するデコーダの動作は良く説明されており、本明細書では、本発明に関係する部分のみ説明を行う。

従来技術及び本発明の好適な実施例では共に、オーディオエンコーダ１は入力オーディオ信号を特定のサンプリング周波数でサンプルして、このオーディオ信号のディジタル表現ｘ(ｔ)を生成する。そしてエンコーダ１は、サンプルされた入力信号を３つの成分：即ち過渡信号成分、持続的な確定成分、及び持続的な確率成分に分離する。オーディオエンコーダ１は、過渡エンコーダ１１、正弦波エンコーダ１３、及びノイズエンコーダ（ＮＡ）１４を具えている。

過渡エンコーダ１１は、過渡検出器（ＴＤ：Transient Detector）１１０、過渡分析器（アナライザ）（ＴＡ：Transient Analyzer）１１１、及び過渡合成器（シンセサイザ）（ＴＳ：Transient Synthesizer）１１２を具えている。まず、信号ｘ(ｔ)が過渡検出器１１０に入る。この検出器１１０は、過渡信号成分が存在するか否か、及びその位置を推定する。この情報は過渡分析器（ＴＡ）１１１に供給される。過渡信号成分の位置が特定されれば、過渡分析器（ＴＡ）１１１は、この過渡信号成分（の主要部分）を抽出しようとする。過渡分析器１１１は、形状関数を、好適には推定した開始位置から始まる信号セグメントに当てはめ、例えば複数（少数）の正弦波成分を用いることによって、この形状関数下にある内容を特定する。この情報は過渡コードＣ_T内に含まれ、過渡コードＣ_Tの生成についてのより詳細な情報はWO 01/69593中に提供されている。

過渡コードＣ_Tは、過渡合成器（ＴＳ）１１２に提供される。合成された過渡信号成分は減算器１６において入力信号ｘ(ｔ)から減算されて、信号ｘ1が生じる。ゲイン（利得）制御メカニズムＧＣ（１２）を用いてｘ1からｘ2を生成する。

信号ｘ2は正弦波エンコーダ１３に供給され、この信号は正弦波エンコーダ１３内の正弦波分析器（ＳＡ：Sinusoidal Analyzer）１３０において分析され、正弦波分析器１３０は（確定的な）正弦波成分を特定する。従って、過渡分析器は存在することが望ましいが不必要であり、本発明はこうした分析器なしに実現することができることがわかる。あるいはまた、上述したように、本発明は、例えば高調波複素分析器で実現することもできる。簡単に言えば、この正弦波エンコーダは入力信号ｘ2を、１つのフレームセグメントから次のフレームセグメントに連結される正弦波成分のトラックとして分析する。

ここで図３ａを参照しながら説明する。好適な実施例では、従来技術と同様の方法で、入力信号ｘ2の各セグメントをフーリエ変換（ＦＴ）ユニット４０において周波数領域に変換する。セグメント毎に、ＦＴユニット４０は測定した振幅Ａ、位相φ、及び周波数ωを提供する。前述したように、フーリエ変換によって提供される位相の範囲は−π≦φ＜πに限定される。トラッキング（追跡）アルゴリズム（ＴＲＡ：Tracking Algorithm）ユニット４２は、セグメント毎の情報を取得し、適切なコスト関数を用いることによって１つのセグメントから次のセグメントへ正弦波どうしを連結させ、これにより、一連の測定された位相φ(ｋ)及び周波数ω(ｋ)をトラック毎に生成する。

正弦波コードＣ_Sは最終的に分析器１３０によって生成され、位相情報を含み、周波数はデコーダにおいてこの情報から再構成され、このことは欧州特許出願02080002.5（PHNL021216）に記載されている。本発明によれば、処理中の所定サブフレームがランダムアクセス・フレームである際に、表現レベルｒの代わりに、量子化テーブル（Ｑ）、あるいは好適には量子化テーブルを表現するインデックス（ＩＮＤ）を分析器１３０によって生成し、これについては図３ｂを参照しながらより詳細に説明する。

しかし、上述したように、測定された位相φ(ｋ)はラップ（巡回）しており、このことは、位相はモジュロ２πの表現に限定されることを意味する。従って、好適な実施例では、分析器は位相アンラッパ（非巡回化器）（ＰＵ）４４を具え、ここでモジュロ２πの位相表現がアンラップされて、トラックに対して構造的なフレーム間位相挙動Ψが現われる。正弦波トラック内の周波数はほぼ一定であるので、アンラップ（非巡回）の位相は一般に線形増加（または減少）関数に近く、このことは安価な、即ち低いビットレートでの位相の伝送を可能にすることがわかる。アンラップの位相Ψは位相エンコーダ（ＰＥ：Phase Encoder）４６への入力として提供され、位相エンコーダ４６は、（所定サブフレームがランダムアクセス・フレームでない際の）伝送に適した量子化された表現レベルｒを出力として提供する。

ここで、位相アンラッパ４４の動作を参照すれば、上述したように、あるトラックに対する瞬時位相Ψと瞬時周波数Ωとは次式によって関係付けられる：

ここに、Ｔ₀は基準瞬時である。

フレームｋ＝Ｋ，Ｋ＋１...Ｋ＋Ｌ−１内の正弦波トラックは、測定された周波数ω(ｋ)（１秒当たりのラジアンで表わされる）及び測定された位相φ(ｋ)（ラジアンで表わされる）を有する。フレームの中心間の距離はＵ（秒で表わされる更新レート）で与えられる。測定された周波数は、仮定された基になるω(ｋ)＝Ω(ｋＵ)なる連続時間の周波数トラックΩのサンプルであると考えられ、同様に、測定された位相は、関連するψ(ｋ)＝Ψ(ｋＵ)mod(２π)なる連続時間位相トラックΨのサンプルであると考えられる。正弦波符号化のために、Ωはほぼ一定の関数であるものと仮定する。

周波数はセグメント内でほぼ一定であるものと仮定すれば、式(1)は次式のように近似することができる：

従って、所定セグメントについての位相及び周波数、及び次のセグメントの周波数を知れば、次のセグメントについてのアンラップの位相値を推定することができ、トラック内のセグメント毎に同様にすることができる。

好適な実施例では、位相アンラッパ４４は瞬時ｋにおけるアンラップ係数ｍ(ｋ)を次式により決定する：
Ψ(ｋＵ)＝φ(ｋ)＋ｍ(ｋ)２π (３)

アンラップ係数ｍ(ｋ)は、位相アンラッパ４４に、アンラップの位相を得るために加算しなければならないサイクル数を伝える。

式(２)と(３)とを組み合わせれば、位相アンラッパ４４は増分的なアンラップ係数ｅ(ｋ)を次式により決定する：
２πｅ(k)＝２π{ｍ(k)−ｍ(k−1)}＝{ω(k)＋ω(k−1)}Ｕ／２−{ψ(k)−φ(k−1)}
ここに、ｅは整数であるべきである。しかし、測定及びモデル誤差により、増分アンラップ係数は正確な整数とはならず、従って次式のようになる：
ｅ(ｋ)＝丸め（[{ω(ｋ)＋ω(ｋ−１)}Ｕ／２−{φ(ｋ)−φ(ｋ−１)}]／(２π)）
ここで、モデル及び測定誤差は小さいものと仮定する。

増分アンラップ係数ｅを持てば、式(３)からのｍ(ｋ)は累計として計算され、ここで、一般性を失うことなしに、位相アンラッパはｍ(Ｋ)＝０なる第１フレームＫにおいて始まり、そしてｍ(ｋ)及びφ(ｋ)から、（アンラップの）位相Ψ(ｋＵ)が決まる。

実際には、サンプルされたデータΨ(ｋＵ)及びΩ(ｋＵ)は測定誤差による歪みが次式のように加わる：
φ(ｋ)＝Ψ(ｋＵ)＋ε₁(ｋ)
ω(ｋ)＝Ω(ｋＵ)＋ε₂(ｋ)
ここに、ε₁及びε₂はそれぞれ位相及び周波数誤差である。アンラップ係数の決定があいまいになることを防ぐために、測定データは十分な精度で測定する必要がある。従って、好適な実施例では、トラッキングを次式のように制限し：
δ(ｋ)＝ｅ(ｋ)−[{ω(ｋ)＋ω(ｋ−１)}Ｕ／２−{φ(ｋ)−φ(ｋ−１)}]／(２π)＜δ
ここに、δは丸め操作における誤差である。誤差δは主に、Ｕとの乗算によるωにおける誤差によって決まる。ωは、入力信号をサンプリング周波数Ｆ_Sでサンプルしたバージョンからのフーリエ変換の絶対値の最大値から決まり、そしてフーリエ変換の分解能は２π／Ｌ_aであり、ここにＬ_aは分析サイズであるものと仮定する。考慮する境界内に入るようにするために、次式を得る：

このことは、高精度であるようにアンラップするためには、分析サイズを更新サイズの何倍かにすべきことを意味し、例えば、δ₀＝１／４に設定すれば、（位相測定における誤差ε₁を無視すれば）分析サイズは更新サイズの４倍にすべきである。

丸め操作における決定誤差を回避するために採ることのできる第２の予防策は、トラックを適切に規定することである。トラッキング・ユニット４２では、正弦波トラックは一般に、振幅差及び周波数差を考慮することによって規定される。これに加えて、連結（リンク）基準において位相情報を考慮することも可能である。例えば、位相予測誤差εを、測定値と次式による予測値

との差として定義することができ、

ここで、予測値は次式のように求めることができる：

従って、トラッキング・ユニット（ＴＲＡ）４２は、εが特定値（例えばε＞π／２）であるトラックを禁止して、ｅ(ｋ)の明確な定義を生じさせることが好ましい。

これに加えて、エンコーダは、デコーダにおいて利用可能な位相及び周波数を計算することができる。デコーダにおいて利用可能な位相または周波数が、エンコーダ内に存在する位相及び／または周波数と過度に異なれば、エンコーダはトラックを中断すること、即ち、トラックの終了を信号通知し、現在の周波数及び位相、及びこれらにリンクされた正弦波データを用いて新たなトラックを開始することを決定することができる。

位相アンラッパ（ＰＵ）４４によって生成された、サンプルされたアンラップの位相Ψ(ｋＵ)は、位相エンコーダ（ＰＥ）４６の入力として供給されて、所定サブフレームがランダムアクセス・フレーム内で処理／伝送されている際に、表現レベルｒの組（あるいは本発明によれば、量子化テーブル（Ｑ）または量子化テーブル（Ｑ）を表現するインデックス（ＩＮＤ））が生成される。アンラップの位相のような概ね単調に変化する特性の効率的な伝送のための技術は既知である。

図３ｂに、位相エンコーダ（ＰＥ）４６の好適な実施例を示す。好適な実施例では、適応差分パルス符号変調（ＡＤＰＣＭ）を採用する。ここでは、予測器（ＰＦ）４８を用いて、次のトラック・セグメントの位相を推定し、量子化器（ＱＴ：Quantizer）５０内で差分のみを符号化する。Ψはほぼ直線的な関数であるものと想定され、また簡単のため、予測器４８は次式の形の２次フィルタとして選定する：
ｙ(ｋ＋１)＝２ｘ(ｋ)−ｘ(ｋ−１)
ここに、ｘは入力であり、ｙは出力である。しかし、（より高次の関係を含む）他の関数関係をとることもでき、そして、フィルタ係数の（後向きまたは前向きの）適応を含めることもできることがわかる。好適な実施例では、簡単のため、後向き適応制御メカニズム（ＱＣ）５２を用いて量子化器（ＱＴ）５０を制御する。前向き適応制御も可能であるが、特別なビットレートを必要とする。

以上からわかるように、トラックに対するエンコーダ（及びデコーダ）の初期化は、開始位相φ(０)及び開始周波数ω(０)を知ることにより始まる。これらの位相及び周波数は、別個のメカニズムによって量子化され伝送されている。これに加えて、エンコーダの量子化コントローラ（ＱＣ）５２、及びこれに対応するデコーダ（図５ｂ）内のコントローラ６２において用いられる初期量子化ステップは、エンコーダ及びデコーダにおいて共に、伝送されるか特定値に設定されるかのいずれかである。最後に、トラックの終端は、別個のサイドストリーム中で信号通知することも、位相のビットストリーム中の一意的なシンボル（記号）として信号通知することもできる。

アンラップの位相の開始周波数は、エンコーダ及びデコーダにおいて共に既知である。量子化精度は、この周波数に基づいて選定される。低周波数で始まるアンラップの位相軌跡に対しては、より高い周波数で始まる位相軌跡よりも高精度、即ち高分解能の量子化グリッド（格子）を選定する。

ＡＤＰＣＭ量子化器では、アンラップの位相Ψ(ｋ)（ｋはトラック内の番号を表わす）は、トラック内の先行する位相から予測／推定される。そして、予測された位相

とアンラップの位相Ψ(ｋ)との差が量子化され伝送される。この量子化器は、トラック内のすべてのアンラップの位相に適応されている。予測誤差が小さい際には、量子化器は可能な値の範囲を限定し、量子化をより高精度にすることができる。他方では、予測誤差が大きい際には、量子化器はより粗い量子化を用いる。

図３ｂの量子化器Ｑは予測誤差Δを量子化し、Δは次式により計算される：

予測誤差Δは、ルックアップ・テーブル（早見表）を用いることによって量子化することができる。この目的のために、テーブルＱを維持する。例えば、２ビットのＡＤＰＣＭ量子化器については、Ｑ用の初期テーブルは表２に示すテーブルのようにすることができる：

量子化は次のように行われる。予測誤差Δを境界ｂと比較して、次式を満足するようにする：
ｂl_i＜Δ≦ｂu_i

上式の関係を満足する値ｉより、表現レベルｒをｒ＝ｉによって算出する。

関連する表現レベルは表現テーブルＲ中に記憶され、これを表３に示す：

トラック内の次の正弦波成分の量子化のために、テーブルＱ及びテーブルＲのエントリには係数ｃが乗算される：
Ｑ(ｋ＋１)＝Ｑ(ｋ)・ｃ
Ｒ(ｋ＋１)＝Ｒ(ｋ)・ｃ

トラックの復号化中には、両方のテーブルに、生成された表現レベルｒに応じたスケール係数を乗じる。現在のサブフレームについてｒが１または２のいずれか（内側レベル）であれば、量子化テーブルに対するスケール係数はｃ＝２^-1/4に設定する。

ｃ＜１であるので、トラック内の次の正弦波はより高精度になる。ｒが０または３（外側レベル）であれば、スケール係数はｃ＝２^1/2に設定する。

ｃ＞１であるので、トラック内の次の正弦波の量子化精度は低下する。これらの係数を用いれば、１回のアップスケーリング（倍増）は２回のダウンスケーリング（逓減）によって帳消しにすることができる。アップスケール（倍増）係数とダウンスケール（逓減）係数との差は、アップスケーリングの速い着手をもたらすのに対し、対応するダウンスケーリングは２回のステップを必要とする。

量子化テーブルにおける非常に小さいかあるいは非常に大きいエントリを回避するために、内側レベルの絶対値がπ／６４〜３π／４である場合のみに適応を行う。内側レベルがπ／６４以下であるか、あるいは３π／４以上である場合には、スケール係数ｃは１に設定する。

デコーダでは、テーブルＲを維持して、受信した表現レベルｒを量子化された予測誤差に変換しなければならない。この逆量子化（量子化を元に戻す）動作は、図５ｂ内のブロック（ＤＱ）６０によって実行される。

上記設定を用いて、再構成された音質を改善する必要がある。複数のアンラップの位相トラックに対して、開始周波数に応じて異なる初期テーブルを用いることができる。このことはより良好な音質を生じさせる。このことは次のように行う。初期テーブルＱ及びＲを、トラックの最初の周波数に基づいてスケールする。表４では、スケール係数を周波数範囲と共に与える。トラックの最初の周波数が特定周波数範囲内にある場合には、適切なスケール係数を選択して、テーブルＲ及びＱをこのスケール係数で除算する。終点もトラックの最初の周波数に依存し得る。デコーダでは、対応する手順を実行して、適正な初期テーブルＲで開始する。

表４に、２ビットのＡＤＰＣＭ量子化器用の、周波数依存のスケール係数、及びこれに対応する初期テーブルＱ及びＲの例を示す。オーディオ周波数範囲０〜２２０５０Ｈｚを４つの周波数副範囲に分割する。低い周波数範囲では高い周波数範囲に比べて位相精度が改善されていることがわかる。

周波数副範囲及び周波数依存のスケール係数の数は変化し得るものであり、個別の目的及び要求に合わせて選定することができる。上述したように、表４中の周波数依存の初期テーブルＱ及びＲを動的にアップスケール（倍増）またはダウンスケール（逓減）して、１つの時間セグメントから次の時間セグメントへの進展に適応させることができる。

例えば３ビットのＡＤＰＣＭ量子化器では、３ビットによって規定される８つの量子化間隔の初期境界は次のように規定することができ：
Ｑ＝{-∞, -1.41, -0.707, -0.35, 0, 0.35, 0.707, 1.41, ∞}
そして最小グリッドサイズπ／６４、及び最大グリッドサイズπ／２を有することができる。表現テーブルＲは次のようにすることができる：
Ｒ＝{-2.117, -1.0585, -0.5285, -0.1750, 0.1750, 0.5285, 1.0585, 2.117}
この場合には、図４に示すものと同様のテーブルＱ及びＲの周波数依存の初期化を用いることができる。

以上では、欧州特許出願02080002.5（PHNL021216）と同様の方法でプロセスを説明してきた。

本発明によれば、量子化器（ＱＴ）５０、予測器（ＰＦ）４８、及び後向き適応制御メカニズム（ＱＣ）５２はさらに、処理中の所定フレームがランダムアクセス・フレームであることを示す（外部）トリガ信号（Ｔｒｉｇ）を受信することができる。トリガ信号（Ｔｒｉｇ）を受信しない際には、プロセスは通常のように機能し、表現レベルｒのみがデコーダに伝送される。（ランダムアクセス・フレームを表わす）トリガ（Ｔｒｉｇ）を受信すると、表現レベルｒは伝送されないが、その代わりに、量子化テーブル（Ｑ）、あるいは量子化テーブル（Ｑ）を表わすインデックス（ＩＮＤ）が、現在位相（φ(０)）及び現在周波数（ω(０)）と共に伝送される。

量子化パラメータの適切な設定によって、限定数の量子化テーブルのみが可能になる。例えば、表１が与えられれば、可能な量子化テーブルは２２個しか存在せず、これらを以下の表５に、インデックス番号と共に列挙する。表５中のエントリは1.5・2^k/4の値を丸めたものであり、ここにｋは-23, -22,..., 5, 6の範囲にわたる。

結果的に、好適な実施例では、伝送するデータ量を低減するために、所定の量子化テーブル（Ｑ）を表現／識別／指示するインデックスのみをエンコーダに伝送して、エンコーダではこのインデックスを用いて、初期テーブルとして用いる適切な量子化テーブルを検索し、これについては図５ｂを参照してより詳細に説明する。

このインデックスは、周知のハフマン符号化を用いて生成することが好ましい。表５に対しては、こうしたハフマン符号化に基づくインデックスは以下の表６に列挙するようにすることができる：

好適な実施例では、所定の量子化テーブルまたは量子化状態（例えば、Ｔ1＝-0.1577；Ｔ2＝-0.0394；Ｔ3＝0.0394；Ｔ4＝0.1577）を送る代わりに、インデックス（ＩＮＤ）（例えば０１０００１）のみを伝送して、これによりビットレートを節約する。そして、このインデックスを用いて、本発明で用いる適切な量子化テーブル（例えば１９）を検索する。

このようにして、量子化器における高精度への長い適応を回避しつつランダムアクセスを可能にすることができる、というのは、量子化テーブルの現在の精度を記憶し、（所定の量子化テーブル（Ｑ）を伝送することによって直接的に、あるいは、所定の量子化テーブル（Ｑ）を参照する／一意的に識別する／指示するインデックス（ＩＮＤ）を送信することによって間接的に、のいずれかで）デコーダに伝送する際に、量子化器の再始動が必要でないからである。さらに、量子化テーブルをより高速になるように、かつ／あるいはより低いビットレートが得られるように適応させる。

ランダムアクセス・フレームは、例えば、適切な点を選択するためのオーディオ分析を用いて、トラック中のＮの倍数番目のすべてのフレームを（即ちＮ−１フレームおきに）選択すること等によって、選択または識別することができる。ランダムアクセス・フレーム毎に、当該ランダムアクセス・フレームの処理中に、トリガ信号が量子化器（ＱＴ）５０（及び（ＰＦ）４８及び（ＱＣ）５２）に供給される。

正弦波エンコーダによって生成された正弦波コードＣ_Sから、正弦波合成器（ＳＳ：Sinusoidal Synthesizer）１３１によって、デコーダの正弦波合成器（ＳＳ）３２について説明したのと同じ方法で正弦波信号成分が再構成される。この信号は減算器１７において、正弦波エンコーダ１３への入力ｘ2から減算されて残差信号ｘ3となる。正弦波エンコーダ１３によって生成される残差信号ｘ3は、好適な実施例のノイズ分析器（アナライザ）１４に渡され、ノイズ分析器１４はこのノイズを表現するノイズコードＣ_Nを生成し、
国際特許出願番号PCT/EP00/04599

正弦波エンコーダによって生成された正弦波コードＣ_Sから、正弦波合成器（ＳＳ：Sinusoidal Synthesizer）１３１によって、デコーダの正弦波合成器（ＳＳ）３２について説明したのと同じ方法で正弦波信号成分が再構成される。この信号は減算器１７において、正弦波エンコーダ１３への入力ｘ2から減算されて残差信号ｘ3となる。正弦波エンコーダ１３によって生成される残差信号ｘ3は、好適な実施例のノイズ分析器（アナライザ）１４に渡され、ノイズ分析器１４はこのノイズを表現するノイズコードＣ_Nを生成し、これについては、例えば国際特許出願番号PCT/EP00/04599に記載されている。

最後に、マルチプレクサ（多重化器）１５では、コードＣ_T、Ｃ_S及びＣ_Nを含むオーディオストリームＡＳが構成される。オーディオストリームＡＳは、例えばデータバス、アンテナシステム、記憶媒体、等に供給される。

図４に、例えば図１のエンコーダによって生成され、データバス、アンテナシステム、記憶媒体、等から得られるオーディオストリームＡＳ’を復号化するのに適したオーディオプレーヤ３を示す。オーディオシステムＡＳ’はデマルチプレクサ（多重分離器）３０において多重分離され、コードＣ_T、Ｃ_S及びＣ_Nが得られる。これらのコードはそれぞれ、過渡合成器（ＴＳ：Transient Synthesizer）３１、正弦波合成器（ＳＳ）３２、及びノイズ合成器（ＮＳ：Noise Synthesizer）３３に供給される。過渡合成器（ＴＳ）３１では、過渡コードＣ_Tから過渡信号成分が計算される。過渡コードが形状関数を示す場合には、受信したパラメータに基づいて形状を計算する。さらに、正弦波成分の周波数及び振幅に基づいて形状内容を計算する。過渡コードＣ_Tが停止を示す場合には、過渡状態は計算しない。合計過渡信号ｙ_Tはすべての過渡状態の総和である。

分析器１３０によって符号化された情報を含む正弦波コードＣ_Sは正弦波合成器３２によって使用され、信号ｙ_Sが生成される。ここで図５ａ及び５ｂを参照しながら説明する。正弦波合成器３２は、位相エンコーダ４６に整合する位相デコーダ（ＰＤ：Phase Decoder）５６を具えている。ここでは、逆量子化器（ＤＱ：Dequantizer）６０は二次予測フィルタ（ＰＦ）６４と協働して、アンラップの位相（の推定値）

を、表現レベルｒ；予測フィルタ（ＰＦ：Prediction Filter）６４に提供される現在の情報φ(０)、ω(０)；及び量子化コントローラ６２における初期量子化ステップから生成する。フレームがランダムアクセス・フレームである場合には、逆量子化器（ＤＱ）６０では、表現レベルｒの代わりにエンコーダから受信した量子化テーブル（Ｑ）を初期テーブルとして用い、これについては以下でより詳細に説明する。

図２ｂに示すように、周波数はアンラップの位相

から微分によって復元することができる。デコーダにおける位相誤差がほぼ白色（雑音）であると仮定すれば、そして微分は高い周波数を増幅するので、微分をローパス（低域通過）フィルタと組み合わせてノイズを低減し、これにより、デコーダにおいて周波数の正確な推定値を得ることができる。

好適な実施例では、フィルタリングユニット（ＦＲ）５８が微分を近似し、このことは、前進差分、後退差分、または中心差分のような手続きによってアンラップの位相から周波数

を得るために必要である。このことは、符号化された信号の正弦波成分を従来の方法で合成するために使用可能な位相

及び周波数

を、デコーダが出力として生成することを可能にする。

同時に、信号の正弦波成分の合成中に、ノイズコードＣ_Nがノイズ合成器（ＮＳ）３３に供給され、ノイズ合成器３３は主としてフィルタであり、ノイズのスペクトルに近い周波数応答を有する。ＮＳ３３は、ホワイトノイズ（白色雑音）信号をノイズコードＣ_Nでフィルタリング（フィルタ処理）することによって、再構成されたノイズｙ_Nを生成する。合計信号ｙ(ｔ)は、過渡信号ｙ_Tと、正弦波信号ｙ_Sとノイズ信号ｙ_Nとの合計に振幅伸長（ｇ）を乗じた積との総計から成る。オーディオプレーヤは、それぞれの信号を合計するための２つの加算器３６及び３７を具えている。この合計信号は出力ユニット３５に供給され、出力ユニット３５は例えばスピーカである。

本発明によれば、ランダムアクセス・フレームについては、表現レベルｒの代わりに、エンコーダから伝送される量子化テーブル（Ｑ）またはインデックス（ＩＮＤ）を受信する。受信したフレームがランダムアクセス・フレームであることを示すものは、例えば、表６に示す例のような適切なインデックスを具えたビットストリーム・シンタックス中に追加的なフィールドを加えて、これにより、使用すべき特定の量子化テーブル（Ｑ）を識別することによって実現することができる。このインデックスはハフマン符号から得られる。このインデックスは、表５に示すようなＡＤＰＣＭに使用されるテーブルを示す。このテーブルは、すべての可能な量子化テーブルＱを含む。可能な量子化テーブルの数は、アップスケール及びダウンスケール係数、及び内側レベルの最小値及び最大値に依存する。

現在フレームがランダムアクセス・フレームであれば、このことは、サブフレームＫが、このサブフレーム内の正弦波毎に、（（ＱＣ）６２、（ＤＱ）６０、及び（ＰＦ）６４にトリガ信号（Ｔｒｉｇ）として供給される）ハフマン符号の値を有するビットストリーム・シンタックスの追加的フィールドを含むことを意味する。さらに、サブフレームＫは、エンコーダによって指定された正弦波毎に直接量子化した振幅、周波数、及び位相を含む。上記ビットストリーム・シンタックスのフィールドはハフマン符号化され、そして適切なテーブルＴが表５に従って選択される。そしてこのテーブルは、次のサブフレーム（Ｋ＋１）において逆量子化器（ＤＱ）６０によって用いられる。予測フィルタ（ＰＦ）６４は、最初の連続に対して行ったのと同じ方法で、次式のようにサブフレームＫ＋１のために再初期化される：
Ψr(Ｋ−１)＝φ(Ｋ)−ω(Ｋ)・Ｕ
ここに、Ｕは更新間隔である。ここでφ及びωはそれぞれ、サブフレームＫにおいて伝送される位相及び周波数である。復号化は上述した従来の方法で継続される。

図６に本発明によるオーディオシステムを示し、このシステムは、図１に示すオーディオエンコーダ１、及び図４に示すオーディオプレーヤ３を具えている。こうしたシステムは、再生及び録音機能を提供する。オーディオストリームＡＳは、オーディオエンコーダ１から通信チャンネル２経由でオーディオプレーヤ３に供給され、通信チャンネル２は無線接続、データバス２０、あるいは記憶媒体とすることができる。通信チャンネル２が記憶媒体である場合には、この記憶媒体はシステム内に固定することができ、あるいはリムーバブル（着脱可能型）ディスク、メモリーカードまたはチップ、あるいは他の固体メモリーとすることもできる。通信チャンネル２はオーディオシステムの一部分とすることができるが、オーディオシステムの外部にあることが多い。

図７ａ及び７ｂはそれぞれ、従来技術及び本発明によるエンコーダから送信され、デコーダにおいて受信される情報を示す。図７ａは複数のフレーム（７０１；７０３）を、そのフレーム番号及び周波数と共に示す。この図はさらに、従来技術により（サブ）フレーム毎にエンコーダからデコーダへ伝送される情報またはパラメータを示す。図からわかるように、初期位相（φ(０)）及び初期周波数（ω(０)）はトラックの出発点または始点のフレーム７０１について伝送され、表現レベルｒは、このトラックに属する他のフレーム７０３毎に伝送される。

図７ｂに、本発明による複数のフレーム（７０１、７０２、７０３）をそのフレーム番号及び周波数と共に示し、並びに、（サブ）フレーム毎にエンコーダからデコーダへ伝送される情報またはパラメータを示す。図からわかるように、初期位相（φ(０)）及び初期周波数（ω(０)）は図７ａと同様に、トラックの出発点または始点のフレーム７０１について伝送され、表現レベルｒは、このトラックに属するランダムアクセス・フレーム７０２以外の他のフレーム７０３毎に伝送される。ランダムアクセス・フレーム７０２については、現在位相（φ(０)）及び現在周波数（ω(０)）がエンコーダからデコーダへ、関係する量子化テーブル（Ｑ）（または前に説明したようにインデックス）と共に伝送される。このようにして、量子化状態の少なくとも一部がエンコーダからデコーダへ伝送され、これにより、前に説明したように、必要なビットレートを過度に拡大することなしに可聴のアーティファクト（歪み）を回避することができる。

本発明の実施例を実現する、従来技術のオーディオエンコーダを示す図である。従来技術のシステムにおける位相と周波数との関係を示す図である。位相符号化を用いたオーディオシステムにおける位相と周波数との関係を示す図である。図３ａ及び図３ｂは、本発明による図１のオーディオエンコーダの正弦波エンコーダ構成要素の好適な具体例を示す図である。本発明の実施例を実現したオーディオプレーヤを示す図である。図５ａ及び図５ｂは、本発明による図４のオーディオプレーヤの正弦波シンセサイザ構成要素の好適な具体例を示す図である。図６は、本発明によるオーディオエンコーダ及びオーディオプレーヤを具えたシステムを示す図である。図７ａ及び図７ｂはそれぞれ、従来技術及び本発明によるエンコーダから送信されデコーダで受信される情報を示す図である。

Claims

オーディオ信号を符号化する方法において、
連続的な複数の時間セグメント毎の、サンプルされた信号値の各組を提供するステップと；
前記サンプルされた信号値を分析して、前記連続的な複数のセグメント毎に１つ以上の正弦波成分を特定するステップと；
前記正弦波成分を前記連続的な複数のセグメントにわたって連結させて、各々が複数のフレームから成る正弦波トラックを提供するステップと；
正弦波コードを含む符号化された信号を生成するステップであって、前記正弦波コードは０個以上のフレームについての表現レベルを含み、所定フレームがランダムアクセス・フレームとして指定されている際には、前記正弦波コードの一部は前記所定フレームについての位相、周波数、及び量子化テーブルを含むステップと
を具えていることを特徴とするオーディオ信号の符号化方法。
フレームについての表現レベルを含む前記正弦波コードと、フレームについての位相、周波数、及び量子化テーブルを含む前記正弦波コードとの間の選択を、トリガ信号に応じて行うことを特徴とする請求項１に記載の方法。
前記量子化テーブルの各々がインデックスによって表わされ、前記ランダムアクセス・フレームにおいては、前記量子化テーブルを伝送する代わりに、前記インデックスをエンコーダからデコーダへ伝送することを特徴とする請求項１または２に記載の方法。
前記インデックスが、ハフマン符号化を用いて生成または表現されることを特徴とする請求項３に記載の方法。
前記ランダムアクセス・フレームについての前記位相及び前記周波数は、それぞれ現在の位相及び現在の周波数であることを特徴とする請求項１〜４に記載の方法。
符号化されたオーディオストリームを復号化する方法において、
前記符号化されたオーディオストリームを受信するステップを具え、前記オーディオストリームは正弦波コードのトラックを具え、前記正弦波コードは０個以上のフレームについての表現レベルを含み、所定フレームがランダムアクセス・フレームとして指定されている際には、前記正弦波コードの一部は前記所定フレームについての位相、周波数、及び量子化テーブルを含むことを特徴とする符号化オーディオストリーム復号化方法。
前記量子化テーブルの各々がインデックスによって表わされ、前記ランダムアクセス・フレームにおいては、前記量子化テーブルを受信する代わりに、前記インデックスをエンコーダから受信することを特徴とする請求項６に記載の方法。
前記インデックスを、ハフマン符号化を用いて生成または表現することを特徴とする請求項７に記載の方法。
前記ランダムアクセス・フレームについての前記位相及び前記周波数は、それぞれ現在の位相及び現在の周波数であることを特徴とする請求項６〜８に記載の方法。
連続する複数の時間セグメント毎の、サンプルされた信号値の各組を処理すべく構成されたオーディオエンコーダにおいて、
前記サンプルされた信号値を処理して、前記連続的な複数のセグメント毎に１つ以上の正弦波成分を特定する分析器と；
前記正弦波成分を前記連続的な複数のセグメントにわたって連結させて、各々が複数のフレームから成る正弦波トラックを提供するリンカと；
正弦波コードを含む符号化された信号を供給する手段とを具えて、前記正弦波コードは０個以上のフレームについての表現レベルを含み、所定フレームがランダムアクセス・フレームとして指定されている際には、前記正弦波コードの一部は前記所定フレームについての位相、周波数、及び量子化テーブルを含む
ことを特徴とするオーディオエンコーダ。
符号化されたオーディオストリームを含む信号を受信する受信手段であって、前記オーディオストリームは正弦波コードのトラックを具え、前記正弦波コードは０個以上のフレームについての表現レベルを含み、所定フレームがランダムアクセス・フレームとして指定されている際には、前記正弦波コードの一部は前記所定フレームについての位相、周波数、及び量子化テーブルを含む受信手段と；
前記受信手段によって受信した０個以上の表現レベル、及び所定フレームがランダムアクセス・フレームとして指定されている際には、前記受信手段によって受信した前記所定フレームについての位相、周波数、及び量子化テーブルを用いて、オーディオ信号の正弦波成分を合成すべく構成された合成器と
を具えていることを特徴とするオーディオプレーヤ。
請求項１０に記載のオーディオエンコーダ及び請求項１１に記載のオーディオプレーヤを具えたオーディオシステム。
連続的な複数のオーディオ信号の時間セグメントにわたって連結された正弦波成分のトラックを表現する正弦波コードを含むオーディオストリームであって、前記正弦波コードは０個以上のフレームについての表現レベルを含み、所定フレームがランダムアクセス・フレームとして指定されている際には、前記正弦波コードの一部は前記所定フレームについての位相、周波数、及び量子化テーブルを含むことを特徴とするオーディオストリーム。
請求項１３に記載のオーディオストリームを記憶する記憶媒体。