JP4347698B2 - パラメトリックオーディオ符号化 - Google Patents

パラメトリックオーディオ符号化 Download PDF

Info

Publication number
JP4347698B2
JP4347698B2 JP2003568933A JP2003568933A JP4347698B2 JP 4347698 B2 JP4347698 B2 JP 4347698B2 JP 2003568933 A JP2003568933 A JP 2003568933A JP 2003568933 A JP2003568933 A JP 2003568933A JP 4347698 B2 JP4347698 B2 JP 4347698B2
Authority
JP
Japan
Prior art keywords
frequency
common
amplitude
audio signal
parameter representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003568933A
Other languages
English (en)
Other versions
JP2005517987A (ja
JP2005517987A5 (ja
Inventor
デ パル スティヴン エル ジェイ ディ イー ファン
アルミン ジー コウルラウシ
ブリンケル アルベルトゥス シー デン
エリック ジー ピー シュイエルス
シエインデル ニコレ エイチ ファン
Original Assignee
アイピージー エレクトロニクス 503 リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイピージー エレクトロニクス 503 リミテッド filed Critical アイピージー エレクトロニクス 503 リミテッド
Publication of JP2005517987A publication Critical patent/JP2005517987A/ja
Publication of JP2005517987A5 publication Critical patent/JP2005517987A5/ja
Application granted granted Critical
Publication of JP4347698B2 publication Critical patent/JP4347698B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Description

本発明はパラメトリックオーディオ符号化に関する。
Heiko Purnhagenによる「Advances in parametric audio coding」(「Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio Acoustics」(New Paltz、New York、1999年10月17−20日))は、パラメトリックモデリングが、一般的なオーディオ信号の効率的な表現を提供し、非常に低いビットレートのオーディオ符号化において利用されることを開示している。パラメトリックモデリングは、適切なソースのモデルによって記述され(純音の周波数及び振幅のような)モデルパラメータによって表される成分への、オーディオ信号の分解に基づく。信号分解及びモデルパラメータ符号化においては知覚モデルが利用される。
本発明の目的は、多チャネルの(例えばステレオの)オーディオ信号の有利なパラメータ化を提供することにある。
この目的のため本発明は、独立請求項において定義されるような符号化の方法、符号化器、装置、符号化されたオーディオ信号、記憶媒体、復号化の方法、復号化器及び受信器又は再生装置を提供する。有利な実施例は従属請求項において定義される。
ステレオのオーディオ符号化自体は先行技術において知られていることに留意されたい。例えば2つのチャネル、左(L)及び右(R)は独立して符号化され得る。このことは、並列に配置された2つの独立した符号化器によって、又は1つの復号化器において時間多重によって為され得る。通常2つのチャネルは、信号におけるチャネル間の相関(及び無関係性)を利用して効率的に符号化されることができる。ジョイントステレオ符号化を開示するMPEG−2オーディオ規格(ISO/IEC13818−3、5〜6頁)を参照されたい。ジョイントステレオ符号化は、オーディオビットレートを低減させるために左チャネルと右チャネルとの間の冗長性を利用する。ジョイントステレオ符号化の2つの形態がとられ得る。即ち、MSステレオ及びインテンシティステレオ(intensity stereo)である。MSステレオは、左(L)及び右(R)チャネルの代わりに、和信号(L+R)及び差信号(L−R)の符号化に基づく。インテンシティ符号化は、高周波において右(R)及び左(L)チャネルのエネルギーエンベロープのみ保持することに基づく。サブバンド符号化においてではなくパラメトリック符号化においてMSステレオ符号化原理を直接適用することは、パラメータ化された和信号及びパラメータ化された差信号をもたらす。符号化の前に和信号及び差信号を形成することは、符号化されるべきオーディオ信号中の付加的な周波数成分の生成を引き起こし、パラメトリック符号化の効率を減少させ得る。パラメトリック符号化方式にインテンシティステレオ符号化原理を直接適用することは、独立して符号化されたチャネルを持つ低周波部分と右及び左チャネルのエネルギーエンベロープのみを含む高周波部分とをもたらす。
本発明の第1の態様によれば、前記オーディオ信号の少なくとも2つのチャネルにおいて共通の周波数が決定され、前記共通の周波数は前記少なくとも2つのチャネルのうちの少なくとも2つにおいて存在し、与えられた共通の周波数における各チャネルにおけるそれぞれの正弦波成分は、前記与えられた共通の周波数の表現及び前記与えられた共通の周波数における前記それぞれの正弦波成分のそれぞれの振幅の表現によって表現される。本態様は、所定のソースによって生成された所定の周波数が、前記チャネルのそれぞれにおいて成分を持つ高い可能性を持つという洞察に基づく。これらの信号成分は、共通して該成分の周波数を持つ。記録機器を介した音源から聴取者への伝達において起こり得る信号の変換は、通常種々の又は全てのチャネルにおける周波数成分に別個に影響を与えないため、このことは真である。従って、前記種々のチャネル中の共通の成分は、単一の共通の周波数によって表現されることができる。各前記チャネル中のそれぞれの成分のそれぞれの振幅(及び位相)は異なり得る。従って、共通の周波数及び前記それぞれの振幅の表現を用いて前記正弦波を符号化することにより、前記オーディオ信号の効率的な圧縮符号化が達成される。即ち(種々のチャネルにおいて存在する)与えられた共通の周波数を符号化するために1つのパラメータのみが必要とされる。更に、かようなパラメータ化は、適切な音響心理学モデルを用いて適切に適用される。
ひとたび共通の周波数が見出されると、各チャネル中の成分を記述する他のパラメータが表現されることができる。例えば、正弦波成分を用いて表現されるステレオ信号については、前記振幅の平均値及び差(更に任意にそれぞれの位相)が符号化されることができる。更なる実施例においては、異なる振幅と共に最も大きな振幅が符号化されたオーディオストリームに符号化される。ここでは、振幅の差の符号が当該周波数についての主チャネルを決定し得る。
前記左チャネルと右チャネルとの間には、ある程度の相関がある見込みが高いため、前記正弦波のパラメータのエントロピー符号化が利用されることができ、前記ステレオ信号のより効率的な符号化に帰着する。加えて、共通の成分の表現内の無関係な情報は削除されることができる。例えば、高周波における両耳間位相差(interaural phase difference)は聴こえないものであり、ゼロに設定されることができる。
前記チャネルに共通の周波数として存在するいずれの周波数をも符号化することが可能である。あるチャネルに存在する周波数が他のチャネルに存在しない場合には、前記周波数が存在しないチャネルについてゼロの振幅に帰着するように振幅表現が符号化されるべきである。例えば、多チャネルのアプリケーションにおいて、前記周波数が4つチャネルのうち3つにおいて存在する場合には、前記周波数は共通の周波数として符号化されることができ、このとき前記周波数が存在しないチャネルにおいて振幅をゼロとする。
前記それぞれのチャネルにおいて、共通でない周波数もまた独立した正弦波として表現され得る。共通でない周波数は、別個のパラメータブロックにおいて符号化されることができる。全てのチャネルに共通する共通の周波数を含む第1のパラメータブロック、全てのチャネルのうちの(所定の)サブセットに共通する周波数を含む第2のパラメータブロック、及び全てのチャネルのうちの更なる(所定の)サブセットに共通する周波数を含む第3のパラメータブロック等を、1つのチャネルのみにおいて存在し独立に符号化される周波数を含む最後のパラメータブロックまで生成することが更に可能である。
共通の周波数は、絶対周波数値として表現されても良いが、例えば1次導関数∂f/∂tのような、時間で変化する周波数として表現されても良い。更に前記共通の周波数は、他の共通の周波数に比べて異なって符号化されても良い。
共通の周波数は、同時に2以上のチャネルを考慮することによって周波数を推定することにより見出されることができる。
第1の実施例において、周波数はそれぞれのチャネルについて別個に決定され、前記共通の周波数を決定するために比較ステップが後続する。前記それぞれのチャネルにおいて存在する前記周波数の決定は、従来のマッチング追跡(matching pursuit、例えばS.G.Mallat及びZ.Zhangによる「Matching pursuits with time-frequency dictionaries」(「IEEE trans. on Signal Processing」、Vol.41、no.12、3397−3415頁)を参照のこと)、又はピークピッキング(例えばR.McAulay及びT.Quatieriによる「Speech Analysis/Synthesis Based on a Sinusoidal Representation」(「IEEE Trans. ASSP」、Vol.34、No.4、744−754頁、1986年8月)を参照のこと)によって実行されても良い。
前記共通の周波数を決定するための第2の実施例においては、組み合わせられたマッチング追跡アルゴリズムが利用される。例えば、前記少なくとも2つのチャネルのそれぞれのパワー又はエネルギー表現が、共通の表現を得るために組み合わせられる。次いで前記共通の表現に基づいて前記共通の周波数が決定される。好ましくは、前記少なくとも2つのチャネルのパワースペクトルが、共通のパワースペクトルを得るために加算される。従来のマッチング追跡は、当該加算されたスペクトル中の周波数を決定するために利用される。当該加算されたパワースペクトルにおいて見出された周波数は、共通の周波数であるとして決定される。
前記共通の周波数を決定するための第3の実施例においては、加算されたパワースペクトルにおけるピークピッキングが利用される。当該共通のパワースペクトルにおいて見出される最大の周波数が、前記共通の周波数として利用されることができる。対数パワースペクトルが線形パワースペクトルの代わりに加算されることもできる。
好ましくは、前記共通の周波数のそれぞれの成分の位相も符号化される。共通の位相と差分位相とが、符号化されたオーディオ信号に含められても良い。ここで前記共通の位相は、前記チャネル中の位相の平均位相又は最大の振幅を持つチャネルの位相であっても良い。有利にも前記差分位相は、所定の閾値周波数(例えば1.5kHz又は2kHz)までのみ符号化される。当該閾値よりも高い周波数については、差分位相は符号化されない。このことは著しく品質を低下させることなく可能である。なぜなら、当該閾値を超える周波数については、両耳間位相差に対する人間の感度は低いからである。それ故、前記所定の閾値を超える周波数については、差分位相パラメータは必要ではない。復号化の際には、前記閾値を超える周波数については、差分位相パラメータがゼロであるとみなすことができる。復号化器は、かような信号を受信するように構成される。前記閾値周波数を超えた周波数においては、前記復号化器は差分位相のためのいずれの符号をも予期しない。前記差分位相は実際の実施においては識別子を備えられないため、前記復号化器にとって、いつ差分位相を予期すべきか又はそうでないかを知ることは重要である。更に、人間の耳は大きな両耳間強度差(interaural intensity difference)に対して感度が低いため、一定の閾値(例えば10dB)よりも大きな差分振幅は無限大とみなすことができる。従って、この場合においても、両耳間位相差は符号化される必要はない。
所定の閾値よりも小さく異なる、異なるチャネルにおける周波数は、共通の周波数によって表現されても良い。この場合には、前記異なる周波数は同一のソース周波数に起因することが考えられる。実際の実施においては、前記閾値はマッチング追跡又はピークピッキングアルゴリズムの精度に関連する。
実際の実施においては、本発明によるパラメータ化はフレーム毎に利用される。
本発明は、音声信号を含むいずれのオーディオ信号にも適用されることができる。
本発明のこれらの及び他の態様は、添付する図を参照しながら以下に説明され明らかとなるであろう。
図は、本発明の実施例を理解するために必要である要素を示しているにすぎない。
図1は、本発明の実施例による符号化器11を示す。多チャネルオーディオ信号が前記符号化器に入力される。本実施例においては、前記多チャネルオーディオ信号は、左チャネルL及び右チャネルRを持つステレオオーディオ信号である。符号化器11は2つの入力部を持つ。一方の入力部は左チャネル信号L用のものであり、他方の入力部は右チャネル信号R用のものである。代替としては、前記符号化器はチャネルL及びRの両方用の1つの入力部を持ち、この場合には前記チャネルは多重化された形式で符号化器11に供給される。符号化器11は、両方のチャネルから正弦波を抽出し、共通の周波数fcomを決定する。符号化器11において実行される符号化処理の結果は、符号化されたオーディオ信号である。前記符号化されたオーディオ信号は共通の周波数fcomを含み、また共通の周波数fcom毎に、例えば最大の又は平均の振幅A及び差分(デルタ)振幅ΔAの形をとる、各前記チャネルにおけるそれぞれの振幅の表現を含む。
以下、前記共通の周波数がどのように決定され得るか、マッチング追跡を利用する第1の実施例、及びピークピッキングを利用する第2の実施例が説明される。
「マッチング追跡」を利用する実施例
本方法は、既存のマッチング追跡アルゴリズムの拡張である。マッチング追跡は本分野において良く知られている。マッチング追跡は反復的なアルゴリズムである。該アルゴリズムは、時間−周波数波形のリダンダントディクショナリ(redundant dictionary)から選択されたマッチングディクショナリの要素に前記信号を投射する。前記投射は、次の繰り返しにおいて近づけられるべき信号から減じられる。かくして既存のマッチング追跡アルゴリズムにおいては、前記オーディオ信号のフレームの「投射された」パワースペクトルのピークを繰り返し決定することによりパラメータ化が実行され、ピーク周波数に相当する最適な振幅及び位相が得られ、分析下のフレームから対応する正弦曲線を抽出する。この処理は、前記オーディオ信号の十分なパラメータ化が得られるまで反復的に繰り返される。多チャネルオーディオ信号における共通の周波数を導出するため、前記左及び右チャネルのパワースペクトルが加算され、この合計のパワースペクトルのピークが決定される。これらのピーク周波数は、前記左及び右(又は更に他の)チャネルの最適な振幅及び任意に位相を決定するために利用される。
本発明の実践的な実施例による多チャネルマッチング追跡アルゴリズムは、短い持続時間(例えば10ms)のオーバラップするフレームに前記多チャネル信号を分割するステップと、停止条件が満たされるまで前記フレームのそれぞれに対して以下のステップを繰り返し適用するステップとを有する:
1.前記多チャネルフレームの各チャネルのパワースペクトルが算出される。
2.共通のパワースペクトルを得るために前記パワースペクトルが加算される。
3.前記共通の「投射された」パワースペクトルが最大である周波数が決定される。
4.ステップ3において決定された周波数について、各チャネルに対して、最適なマッチング正弦波の振幅及び位相が決定され、これらのパラメータの全てが保存される。これらのパラメータは、それぞれの振幅の表現と共に前記共通の周波数を利用して符号化され、これによりチャネル間の相関及び無関係性を利用する。
5.ステップ1において次の多チャネルフレームとして働く更新された残りの信号を得るため、対応する現在の多チャネルフレームから前記正弦波が減算される。
「ピークピッキング」を利用する実施例
代替として、ピークピッキングが利用されても良い。ピークピッキングは例えば以下のステップを含む:
1.前記多チャネルフレームの各チャネルのパワースペクトルが算出される。
2.共通のパワースペクトルを得るために前記パワースペクトルが加算される。
3.前記パワースペクトル内の全てのピークに対応する周波数が決定される。
4.これら決定された周波数について、最良の振幅及び最良の位相が得られる。
図2は、図1の符号化器のとり得る実装を示す。ここでは、前記共通の周波数を得るために、前記チャネルの共通の(加算された)パワースペクトルを利用する。算出ユニット110において、L及びRチャネルから得られた共通のパワースペクトルを利用して、上述したようなマッチング追跡処理又はピークピッキング処理が実行される。前記決定された共通の周波数fcomは符号化ユニット111に供給される。当該符号化ユニットは、与えられた共通の周波数における、種々のチャネル中の正弦波のそれぞれの振幅(及び好ましくは位相)を決定する。
代替として、それぞれのチャネルは、各チャネルについてパラメータ化された正弦波のセットを得るために独立に符号化される。これらのパラメータはその後、共通の周波数のために照合される。かような実施例は図3に示される。図3は図1の符号化器11の代替の実装を示す。本実装においては、符号化器11は2つの独立したパラメトリック符号化器112及び113を有する。これらの独立した符号化器において得られるパラメータf及びA並びにf及びAは、更なる符号化ユニット114に供給される。符号化ユニット114は、これら2つのパラメータ化された信号における共通の周波数fcomを決定する。
ステレオオーディオ信号の符号化の例
以下の特性を持つステレオオーディオ信号が与えられた場合を仮定する:
Figure 0004347698
実際には、この場合においては、チャネル間の振幅の差は、与えられた周波数において+15dB又は−15dBであり、当該周波数は主チャネルにおいてのみ存在するとみなされる。
独立に符号化
以下のパラメータ化は、前記ステレオ信号例を独立に符号化するために利用されることができる。
L(f,A)=(50,30),(100,50),(250,40),(500,40)
R(f,A)=(50,20),(100,60),(200,30),(500,35)
このパラメータ化は16個のパラメータを必要とする。
共通の周波数及び共通でない周波数を利用
共通の周波数は50Hz、100Hz及び500Hzである。この信号を符号化するためには、
(Fcom,Amax,ΔA)=(50,30,10),(100,60,−10),(500,40,5)、
(Fnon−com,A)=(200,−30),(250,40)
である。本例においては、共通の及び共通でない周波数を利用した前記オーディオステレオ信号例の符号化は、13個のパラメータを必要とする。独立に符号化された多チャネル信号と比較して、共通の周波数の利用は符号化パラメータの数を減少させる。更に、差分振幅についての値は、前記独立に符号化される多チャネル信号において与えられたような絶対振幅についての値よりも小さい。このことは更にビットレートを減少させる。
差分振幅ΔAにおける符号は、(2つの信号間の)主チャネルを決定する。上述の例においては、正の振幅は、左チャネルが主であることを意味する。前記符号はまた、前記周波数がどの信号に対して有効であるかを示すために、共通でない周波数表現においても利用されることができる。同様の規則がここで利用され、正が左(主)である。代替として、差分振幅と共に平均振幅を与えること、又は他のチャネルに対する差分振幅を持つ所定のチャネルの振幅を一貫して与えることも可能である。
前記主チャネルを決定するために差分振幅ΔAにおける符号を利用する代わりに、前記主チャネルを示すためのビットストリーム中のビットを利用することも可能である。このことは、符号ビットについてもまたそうであるように、1ビットを必要とする。当該ビットはビットストリームに含まれ、復号化器において利用される。オーディオ信号が2より多いチャネルを用いて符号化される場合、前記主チャネルを示すために1より多いビットが必要とされる。この実装は単純である。
共通の周波数のみの利用
共通の周波数に基づく表現のみが利用される場合、該周波数において正弦波が存在しないチャネルにおける前記共通の周波数の振幅がゼロとなるように、共通でない周波数が符号化される。実際には、現在の周波数の正弦波が所定のチャネルに存在しないことを示すために、差分振幅について例えば+15dB又は−15dBの値が利用されることができる。差分振幅ΔAにおける符号は(2つの信号間の)主チャネルを決定する。本例においては、正の振幅は、左チャネルが主であることを意味する。
(Fcom,A,ΔA)=(50,30,10),(100,60,−10),(200,30,−15),(250,40,15),(500,40,5)
このパラメータ化は15個のパラメータを必要とする。本例については、共通の周波数のみの利用は、共通及び共通でない周波数の利用に比べて有利ではない。
周波数平均及び差分
(Fav,ΔF,Aav,ΔA)=(50,0,25,5),(100,0,55,−5),(225,25,35,5),(500,0,30,10)
このパラメータ化は16個のパラメータを必要とする。
これは前記信号中の正弦波成分が平均周波数及び平均振幅で表される代替の符号化である。当該符号化の戦略に比べても、共通の周波数の利用が有利であることは明らかである。平均周波数及び平均振幅の利用は、本出願の範囲外の別個の発明と見られることができることに留意されたい。
結果の符号化されたオーディオストリームのビットレートに対しては、パラメータの数だけでなく、むしろパラメータ毎のビットの数が重要である。この点に関して、差分符号化は通常、相関する信号成分に対してビットレートの減少を提供する。
共通の周波数パラメータ及びそれぞれの振幅(及び任意にそれぞれの位相)を用いた表現は、共通の周波数、平均又は最大の振幅、前記平均又は最大の振幅の位相(任意)といったパラメータ中に取り込まれたモノラル表現として、及び差分振幅及び差分位相(任意)といったパラメータ中に取り込まれた多チャネル拡張とみなされることができる。モノラルのパラメータは、モノラルの正弦波符号化器において得ることができる標準的なパラメータとして取り扱われることができる。従ってこれらモノラルのパラメータは、以降のフレームにおける正弦波間のリンクを生成して、これらリンクに従って異なるようにパラメータを符号化し、位相の連続を実行するために利用されることができる。付加的な多チャネルパラメータが、両耳の聴覚特性を更に利用する上述の戦略に従って符号化されても良い。差分パラメータ(差分振幅及び差分位相)もまた、前記モノラルのパラメータに基づいて生成されたリンクに基づいて異なるように符号化されても良い。更に、スケーラブルなビットストリームを提供するため、前記モノラルのパラメータは基本レイヤに含まれても良く、一方多チャネルパラメータは拡張レイヤに含まれる。
モノラル成分のトラッキングにおいて、コスト関数(又は類似度)は、周波数についてのコスト、振幅についてのコスト及び(任意に)位相についてのコストの組み合わせである。ステレオ成分については、コスト関数は、共通の周波数についてのコスト、平均又は最大の振幅についてのコスト、位相についてのコスト、差分振幅についてのコスト及び差分位相についてのコストの組み合わせである。代替として、ステレオ成分についてのコスト関数、即ち共通の周波数、それぞれの振幅及びそれぞれの位相を利用しても良い。
有利にも、共通の周波数とそれぞれのチャネルにおける当該周波数のそれぞれの振幅の表現とを利用する正弦波パラメータ化は、国際特許出願公開WO01/69593−A1(整理番号PHNL000120)において記載されているように、モノラルの一時的なパラメータ化と組み合わせられる。このことは更に、国際特許出願公開WO01/88904(整理番号PHNL000288)において記載されているように、ノイズについてのモノラルの表現と組み合わせられても良い。
上述の実施例の多くは2チャネルのオーディオ信号に関連するが、3以上のチャネルのオーディオ信号への拡張は簡単である。
既に符号化されたオーディオ信号への追加チャネルの追加は、以下のように有利に為されることができる。符号化されたオーディオ信号において付加的なチャネルが存在することを識別し、前記追加チャネル中に存在する共通の周波数の振幅の表現と共通でない周波数の表現とを前記符号化されたオーディオ信号に追加すれば十分である。任意に、前記符号化されたオーディオ信号に位相情報が含まれても良い。
実践的な実施例においては、共通の周波数における平均又は最大の振幅及び最大の振幅の平均位相は、他のチャネルについての共通の周波数における差分振幅及び差分位相のそれぞれの量子化と同様に量子化される。前記量子化についての実際的な値は以下のとおりである:
共通の周波数 0.5%の分解能
振幅、差分振幅 1dBの分解能
位相、差分位相 0.25ラジアンの分解能
提案される多チャネルオーディオ符号化は、独立なチャネルの符号化に比べて、ビットレートの減少を提供する。
図4は、本発明の実施例によるシステムを示す。前記システムは、符号化されたオーディオ信号[S]を送信又は保存するための装置1を有する。装置1は、少なくとも2チャネルのオーディオ信号Sを受信するための入力ユニット10を有する。入力ユニット10はアンテナ、マイクロフォン、ネットワーク接続等であっても良い。装置1は更に、例えば(fcom,Aav,ΔA)又は(fcom,Amax,ΔA)のような、本発明によるパラメータ化を用いて符号化されたオーディオ信号を得るために、オーディオ信号Sを符号化するための、図1に示されたような符号化器11を有する。前記符号化されたオーディオ信号パラメータ化は出力ユニット12に供給される。出力ユニット12は、前記符号化されたオーディオ信号を伝送媒体又は記憶媒体2を介した伝送又は保存のために適切なフォーマット[S]に変換する。前記システムは更に、入力ユニット30において符号化されたオーディオ信号[S]を受信する受信又は再生装置3を有する。入力ユニット30は、符号化されたオーディオ信号[S]から、パラメータ(fcom,Aav,ΔA)又は(fcom,Amax,ΔA)を抽出する。これらのパラメータは復号化器31に供給される。復号化器31は、復号化されたオーディオ信号S’の2つのチャネルL及びRを得るために、それぞれの振幅を持つ共通の周波数を生成することにより、受信されたパラメータに基づいて復号化されたオーディオ信号を合成する。2つのチャネルL及びRは、復号化されたオーディオ信号S’を供給する出力ユニット32に供給される。出力ユニット32は、復号化されたオーディオ信号S’を再生するためのスピーカのような再生ユニットであっても良い。出力ユニット32はまた、例えば家庭内ネットワーク等を介して復号化されたオーディオ信号S’を更に送信するための送信器であっても良い。
上述の実施例は本発明を限定するものではなく説明するものであって、当業者は添付される請求項の範囲から逸脱することなく多くの代替実施例を設計することが可能であろうことは留意されるべきである。請求項において、括弧に囲まれたいずれの参照記号も、請求の範囲を限定するものとして解釈されるべきではない。「有する(comprising)」という語は、請求項に列挙されたもの以外の要素又はステップの存在を除外するものではない。本発明は、幾つかの別個の要素を有するハードウェアによって、及び適切にプログラムされたコンピュータによって実施化されることができる。幾つかの手段を列記する装置請求項において、これら手段の幾つかは同一のハードウェアのアイテムによって実施化されても良い。特定の手段が相互に異なる従属請求項に列挙されているという単なる事実は、これらの手段の組み合わせが有利に利用されることができないということを示すものではない。
本発明の実施例による符号化器を示す。 図1の符号化器のとり得る実装を示す。 図1の符号化器の代替の実装を示す。 本発明の実施例によるシステムを示す。

Claims (17)

  1. 少なくとも2つのチャネルにおける任意の周波数のオーディオ信号を符号化する方法であって、前記方法は、
    それぞれのチャネルについて別個に、それぞれのオーディオ信号に与えられている周波数か、又は当該それぞれのオーディオ信号のパワースペクトルを判別することにより、前記オーディオ信号の少なくとも2つのチャネルにおける共通の周波数を決定するステップを有し、ここで前記共通の周波数は前記オーディオ信号の前記少なくとも2つのチャネルのうちの少なくとも2つにおいて存在し、
    前記方法は更に、
    与えられた共通の周波数における各チャネル中のそれぞれの正弦波成分を、前記与えられた共通の周波数を表すパラメータ及び前記与えられた共通の周波数における前記それぞれの正弦波成分のそれぞれの振幅を表すパラメータによって表現するステップと、
    共通でない周波数を符号化するステップとを有する方法。
  2. 前記それぞれの振幅を表すパラメータ前記それぞれの正弦波成分の平均振幅及び振幅差を有する、請求項1に記載の方法。
  3. 前記それぞれの振幅を表すパラメータ前記それぞれの正弦波成分の最大振幅及び振幅差を有する、請求項1に記載の方法。
  4. 共通でない周波数が共通の周波数として符号化され、前記それぞれの振幅を表すパラメータは、前記周波数が存在しない少なくとも1つのチャネルを示すための示唆を含む、請求項1に記載の方法。
  5. 前記共通の周波数に加えて共通でない周波数が独立して符号化される、請求項1に記載の方法。
  6. 前記共通でない周波数は、別個のブロック中の符号化されたオーディオストリームにグルーピングされる、請求項5に記載の方法。
  7. 前記共通の周波数は、共通でない周波数のブロックに先行する符号化されたオーディオ信号にグルーピングされ含まれる、請求項6に記載の方法。
  8. 前記共通の周波数における正弦波成分を表すパラメータは基本レイヤに含められ、共通でない周波数における正弦波成分を表すパラメータは拡張レイヤに含められる、請求項6に記載の方法。
  9. 前記共通の周波数における正弦波成分を表すパラメータ及び最大振幅又は平均振幅の前記振幅を表すパラメータが基本レイヤに含まれ、振幅差を表すパラメータが拡張レイヤに含まれる、請求項1に記載の方法。
  10. 前記与えられた共通の周波数における前記それぞれの正弦波成分のそれぞれの位相が決定され、前記それぞれの位相を表すパラメータが前記符号化されたオーディオ信号に含まれる、請求項1に記載の方法。
  11. 前記それぞれの位相を表すパラメータ前記それぞれの正弦波成分の平均位相及び位相差を含む、請求項1に記載の方法。
  12. 前記それぞれの位相を表すパラメータは、前記それぞれの正弦波成分の大振幅を持つチャネルの位相、及び位相差を含む、請求項10に記載の方法。
  13. 前記それぞれの位相を表すパラメータは、所定の閾値周波数までの周波数を持つ正弦波についての信号にのみ含められる、請求項10に記載の方法。
  14. 前記所定の閾値周波数は約2kHzである、請求項13に記載の方法。
  15. 前記それぞれの位相を表すパラメータは、所定の振幅閾値までの少なくとも1つの他のチャネルとの振幅差を持つ正弦波についての信号にのみ含められる、請求項10に記載の方法。
  16. 前記振幅の閾値は10dBである、請求項15に記載の方法。
  17. 少なくとも2つのチャネルにおける任意の周波数のオーディオ信号を符号化するための符号化器であって、
    前記符号化器は、
    それぞれのチャネルについて別個に、それぞれのオーディオ信号に与えられている周波数か、又は当該それぞれのオーディオ信号のパワースペクトルを判別する判別手段と、
    該判別手段によって判別した出力値から、前記オーディオ信号の少なくとも2つのチャネルにおける共通の周波数を決定する決定手段であって、ここで前記共通の周波数は前記オーディオ信号の前記少なくとも2つのチャネルのうちの少なくとも2つにおいて存在する決定手段と、
    与えられた共通の周波数における各チャネル中のそれぞれの正弦波成分を、前記与えられた共通の周波数を表すパラメータ及び前記与えられた共通の周波数における前記それぞれの正弦波成分のそれぞれの振幅を表すパラメータによって表現するパラメータ化手段と、
    共通でない周波数を符号化する符号化手段と、
    を有する符号化器。
JP2003568933A 2002-02-18 2003-01-17 パラメトリックオーディオ符号化 Expired - Fee Related JP4347698B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02075639 2002-02-18
PCT/IB2003/000108 WO2003069954A2 (en) 2002-02-18 2003-01-17 Parametric audio coding

Publications (3)

Publication Number Publication Date
JP2005517987A JP2005517987A (ja) 2005-06-16
JP2005517987A5 JP2005517987A5 (ja) 2006-03-02
JP4347698B2 true JP4347698B2 (ja) 2009-10-21

Family

ID=27675723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003568933A Expired - Fee Related JP4347698B2 (ja) 2002-02-18 2003-01-17 パラメトリックオーディオ符号化

Country Status (10)

Country Link
US (1) US20050078832A1 (ja)
EP (1) EP1479071B1 (ja)
JP (1) JP4347698B2 (ja)
KR (1) KR20040080003A (ja)
CN (1) CN1705980A (ja)
AT (1) ATE315823T1 (ja)
AU (1) AU2003201097A1 (ja)
DE (1) DE60303209T2 (ja)
ES (1) ES2255678T3 (ja)
WO (1) WO2003069954A2 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7583805B2 (en) 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
SE527866C2 (sv) * 2003-12-19 2006-06-27 Ericsson Telefon Ab L M Kanalsignalmaskering i multikanalsaudiosystem
US7835916B2 (en) 2003-12-19 2010-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems
CN101552007B (zh) * 2004-03-01 2013-06-05 杜比实验室特许公司 用于对编码音频信道和空间参数进行解码的方法和设备
AU2012208987B2 (en) * 2004-03-01 2012-12-20 Dolby Laboratories Licensing Corporation Multichannel Audio Coding
ATE390683T1 (de) 2004-03-01 2008-04-15 Dolby Lab Licensing Corp Mehrkanalige audiocodierung
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
ATE474310T1 (de) * 2004-05-28 2010-07-15 Nokia Corp Mehrkanalige audio-erweiterung
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
KR101236259B1 (ko) 2004-11-30 2013-02-22 에이저 시스템즈 엘엘시 오디오 채널들을 인코딩하는 방법 및 장치
JP5106115B2 (ja) 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
US7848932B2 (en) * 2004-11-30 2010-12-07 Panasonic Corporation Stereo encoding apparatus, stereo decoding apparatus, and their methods
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1866913B1 (en) * 2005-03-30 2008-08-27 Koninklijke Philips Electronics N.V. Audio encoding and decoding
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
EP1927102A2 (en) 2005-06-03 2008-06-04 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
RU2433489C2 (ru) * 2005-07-06 2011-11-10 Конинклейке Филипс Электроникс Н.В. Параметрическое многоканальное декодирование
KR101340233B1 (ko) * 2005-08-31 2013-12-10 파나소닉 주식회사 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR20090008611A (ko) * 2007-07-18 2009-01-22 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
KR101346771B1 (ko) * 2007-08-16 2013-12-31 삼성전자주식회사 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치
US8385556B1 (en) * 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
KR101425354B1 (ko) * 2007-08-28 2014-08-06 삼성전자주식회사 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치
CN105225667B (zh) 2009-03-17 2019-04-05 杜比国际公司 编码器系统、解码器系统、编码方法和解码方法
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
JP6163545B2 (ja) 2012-06-14 2017-07-12 ドルビー・インターナショナル・アーベー 可変数の受信チャネルに基づくマルチチャネル・オーディオ・レンダリングのためのなめらかな構成切り換え
CN107924683B (zh) * 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
US10553224B2 (en) * 2017-10-03 2020-02-04 Dolby Laboratories Licensing Corporation Method and system for inter-channel coding
CN112216301B (zh) * 2020-11-17 2022-04-29 东南大学 基于对数幅度谱和耳间相位差的深度聚类语音分离方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3732375A (en) * 1969-01-24 1973-05-08 Nippon Electric Co Paired signal transmission system utilizing quadrature modulation
US4124779A (en) * 1977-09-12 1978-11-07 Stephen Berens Dual channel communications system particularly adapted for the AM broadcast band
US4490840A (en) * 1982-03-30 1984-12-25 Jones Joseph M Oral sound analysis method and apparatus for determining voice, speech and perceptual styles
US4852175A (en) * 1988-02-03 1989-07-25 Siemens Hearing Instr Inc Hearing aid signal-processing system
US5031230A (en) * 1988-10-24 1991-07-09 Simulcomm Partnership Frequency, phase and modulation control system which is especially useful in simulcast transmission systems
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
JPH05509409A (ja) * 1990-06-21 1993-12-22 レイノルズ ソフトウエア,インコーポレイティド 波動分析・事象認識方法およびその装置
JP3099892B2 (ja) * 1990-10-19 2000-10-16 リーダー電子株式会社 ステレオ信号の位相関係判定に使用する方法及び装置
US5214708A (en) * 1991-12-16 1993-05-25 Mceachern Robert H Speech information extractor
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5586126A (en) * 1993-12-30 1996-12-17 Yoder; John Sample amplitude error detection and correction apparatus and method for use with a low information content signal
AU5663296A (en) * 1995-04-10 1996-10-30 Corporate Computer Systems, Inc. System for compression and decompression of audio signals fo r digital transmission
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
GB2319379A (en) * 1996-11-18 1998-05-20 Secr Defence Speech processing system
JP3415398B2 (ja) * 1997-08-07 2003-06-09 パイオニア株式会社 音声信号処理装置
US6081777A (en) * 1998-09-21 2000-06-27 Lockheed Martin Corporation Enhancement of speech signals transmitted over a vocoder channel
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
FI113147B (fi) * 2000-09-29 2004-02-27 Nokia Corp Menetelmä ja signaalinkäsittelylaite stereosignaalien muuntamiseksi kuulokekuuntelua varten
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification

Also Published As

Publication number Publication date
ATE315823T1 (de) 2006-02-15
KR20040080003A (ko) 2004-09-16
EP1479071A2 (en) 2004-11-24
CN1705980A (zh) 2005-12-07
AU2003201097A8 (en) 2003-09-04
ES2255678T3 (es) 2006-07-01
WO2003069954A3 (en) 2003-11-13
US20050078832A1 (en) 2005-04-14
EP1479071B1 (en) 2006-01-11
JP2005517987A (ja) 2005-06-16
DE60303209T2 (de) 2006-08-31
WO2003069954A2 (en) 2003-08-21
DE60303209D1 (de) 2006-04-06
AU2003201097A1 (en) 2003-09-04

Similar Documents

Publication Publication Date Title
JP4347698B2 (ja) パラメトリックオーディオ符号化
CN111656442B (zh) 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法
US9355645B2 (en) Method and apparatus for encoding/decoding stereo audio
EP1851997B1 (en) Near-transparent or transparent multi-channel encoder/decoder scheme
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
JP4521032B2 (ja) 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
KR101056325B1 (ko) 복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법
CN101044550B (zh) 产生编码多通道信号的设备和方法、对编码多通道信号进行解码的设备和方法
JP5292498B2 (ja) 周波数領域のウィナーフィルターを用いた空間オーディオコーディングのための時間エンベロープの整形
JP4601669B2 (ja) マルチチャネル信号またはパラメータデータセットを生成する装置および方法
CN101868821B (zh) 用于处理信号的方法和装置
KR101680953B1 (ko) 인지 오디오 코덱들에서의 고조파 신호들에 대한 위상 코히어런스 제어
KR101183857B1 (ko) 다중 채널 오디오 신호를 인코딩/디코딩하기 위한 방법 및 장치
Johnston Perceptual transform coding of wideband stereo signals
EP3762923B1 (en) Audio coding
JP2000515266A (ja) オーディオ信号コーディング中にノイズ置換を信号で知らせる方法
JPH07199993A (ja) 音響信号の知覚符号化
JP2015528926A (ja) マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
JP2022084671A (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
KR20070001139A (ko) 오디오 분배 시스템, 오디오 인코더, 오디오 디코더 및이들의 동작 방법들
US20080059203A1 (en) Audio Encoding Device, Decoding Device, Method, and Program
KR20080066537A (ko) 부가정보를 가지는 오디오신호의 부호화/복호화 방법 및장치
CN103733256A (zh) 音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端
Li et al. Efficient stereo bitrate allocation for fully scalable audio codec
Yang et al. Design of progressive syntax-rich multichannel audio codec

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090430

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090630

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090716

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees