JP6231093B2

JP6231093B2 - オーディオ信号の符号化及び復号

Info

Publication number: JP6231093B2
Application number: JP2015521121A
Authority: JP
Inventors: アーノルドゥスウェルナーヨハネスオーメン; ジェロエンジェラルドゥスヘンリクスコッペンス; エリックゴスイヌスペトルススハイエルス
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2012-07-09
Filing date: 2013-07-09
Publication date: 2017-11-15
Anticipated expiration: 2033-07-09
Also published as: MX2015000113A; EP3748632A1; CN104428835B; US9478228B2; EP2870603A2; RU2015104074A; MX342150B; BR112015000247A2; WO2014009878A3; ZA201500888B; WO2014009878A2; CN104428835A; EP2870603B1; US20150142453A1; BR112015000247B1; RU2643644C2; JP2015527609A

Description

本発明は、複数のオーディオ信号の符号化及び復号に係り、専らではないが特には複数のオーディオオブジェクトの符号化及び復号に関する。

デジタル信号表現及び通信がアナログ表現及び通信に次第に置き換わっているので、種々のソース信号のデジタル符号化は過去数十年にわたって益々重要になってきている。例えば、音声及び音楽等のオーディオコンテンツは、益々、デジタルコンテンツ符号化に基づくものとなっている。

オーディオ符号化フォーマットは、益々、能力があり、多様で且つ柔軟なオーディオサービスを提供するために開発されており、特に、空間的オーディオサービスをサポートするオーディオ符号化フォーマットが開発されている。

ＤＴＳ及びドルビデジタル等の良く知られた空間オーディオ符号化技術は、空間イメージを聴者の周囲の固定位置に配置された複数のチャンネルとして表す符号化された多チャンネルオーディオ信号を生成する。当該多チャンネル信号に対応する設定とは異なるスピーカ設定に対しては、空間イメージは次善（準最適）のものとなる。また、これらのチャンネルに基づくオーディオ符号化システムは、典型的に、異なる数のスピーカに対処することができない。

斯様な従来の方法における方法が、図１に図示されている（該図で、文字ｃはオーディオチャンネルを示す）。入力チャンネル（例えば、5.1チャンネル）がエンコーダに供給され、該エンコーダはチャンネル間関係を利用するためにマトリクス化を実行し、次いで該マトリクス化された信号をビットストリームに符号化する。更に、マトリクス化情報をデコーダに対して当該ビットストリームの一部として伝達することもできる。デコーダ側では、この処理が逆転される。

ＭＰＥＧサラウンドは、既存のモノ又はステレオ型コーダが多チャンネルオーディオアプリケーションに拡張されることを可能にする多チャンネルオーディオ符号化ツールを提供する。図２は、ＭＰＥＧサラウンドシステムの構成要素の一例を示す。オリジナルの多チャンネル入力の解析により得られる空間パラメータを用いて、ＭＰＥＧサラウンドデコーダは、多チャンネル出力信号を得るために、モノ又はステレオ信号の制御されたアップミックスにより空間イメージを再生することができる。

多チャンネル入力信号の空間イメージはパラメータ化されるので、ＭＰＥＧサラウンドは、多チャンネルスピーカ設備を使用しないレンダリング装置により同じ多チャンネルビットストリームの復号が可能である。一例はヘッドフォン上での仮想サラウンド再生であり、これはＭＰＥＧサラウンド両耳復号処理と称される。このモードでは、通常のヘッドフォンを使用しながら、現実的なサラウンド体験を提供することができる。他の例は、より高次の多チャンネル出力（例えば、7.1チャンネル）の、より低次の設備（例えば、5.1チャンネル）への変換である。

ＭＰＥＧサラウンドの方法（及び両耳キュー符号化又はパラメータステレオ等の同様のパラメータ的多チャンネル符号化方法）が図３に図示されている。離散又は波形符号化方法とは対照的に、入力チャンネルはダウンミックスされる（例えば、ステレオ混合に）。このダウンミックスは、次いで、ＡＡＣ型コーデック等の従来の符号化技術を用いて符号化される。該符号化されたダウンミックスに加えて、空間イメージの表現もビットストリームで伝送される。デコーダは、該処理の逆を行う。

もっと柔軟性のあるオーディオ表現を提供するために、ＭＰＥＧは“空間オーディオオブジェクト符号化”（MPEG-D SAOC）として知られているフォーマットを標準化した。ＤＴＳ、ドルビデジタル及びＭＰＥＧサラウンド等の多チャンネルオーディオ符号化システムとは対照的に、ＳＡＯＣは、オーディオチャンネルというよりは個々のオーディオオブジェクトの効率的な符号化を提供する。ＭＰＥＧサラウンドでは、各スピーカチャンネルはサウンドオブジェクトの異なる混合から発すると考えることができるが、ＳＡＯＣは、図４に示されるように、個々のサウンドオブジェクトをデコーダ側で対話的操作のために利用可能にする。ＳＡＯＣにおいては、複数のサウンドオブジェクトがモノ又はステレオダウンミックスにパラメータ的データと一緒に符号化され、これらサウンドオブジェクトがレンダリング側において抽出されることを可能にし、これにより、個々のサウンドオブジェクトが例えばエンドユーザによる操作のために利用可能となるようにする。

ＭＰＥＧサラウンドと同様に、ＳＡＯＣも確かにモノ又はステレオダウンミックスを作成する。更に、オブジェクトパラメータが計算され、含められる。デコーダ側では、ユーザは、これらパラメータを操作して、位置、レベル、等化（イコライゼーション）等の個々のオブジェクトの種々のフィーチャを制御し、又は残響（リバーブ）等の効果を付与することさえできる。図５は、ユーザがＳＡＯＣビットストリームに含まれる個々のオブジェクトを制御することを可能にする対話インターフェースを図示している。レンダリングマトリクスにより、個々のサウンドオブジェクトはスピーカチャンネル上にマッピングされる。

図６は、ＳＡＯＣ（又は類似のオブジェクト符号化システム）のパラメータ的方法の高いレベルでのブロック図を示す。オブジェクト信号（ｏ）はダウンミックスされ、結果としてのダウンミックスは符号化される。更に、パラメータ的オブジェクトデータがビットストリームで伝送され、個々のオブジェクトをダウンミックスに関係づける。デコーダ側では、オブジェクトが復号され、スピーカ構成に従ってチャンネルにレンダリングされる。典型的に、このような方法においては、オブジェクトの復号及びスピーカレンダリングを組み合わせることが一層効率的である。

近年、益々多くの再生フォーマットが主流の消費者に対して利用可能になるにつれて、空間サウンドのレンダリングのためのレンダリング構成の変化及び柔軟性が著しく増加した。このことは、オーディオの柔軟性のある表現を必要とする。ＭＰＥＧサラウンドコーデックの導入に対して重要なステップがとられた。それにも拘わらず、オーディオは、依然として、特定のスピーカ設備に対して生成され伝送されている。異なる設備に対する及び非標準の（即ち、柔軟性のある又はユーザ定義の）スピーカ設備に対する再生は定められていない。

この問題は、再生チャンネルの代わりにオーディオオブジェクトを伝送するＳＡＯＣによって部分的に解決することができる。このＳＡＯＣは、当該空間がスピーカにより適切にカバーされるならば、空間内の任意の位置にオーディオオブジェクトを配置することを可能にする。このようにして、伝送されるオーディオと再生設備との間には関係が存在せず、従って任意のスピーカ設備を使用することができる。これは、スピーカが居間の配置により殆ど意図した箇所には位置することがない、例えば典型的な居間における家庭用映画設備にとり有益である。ＳＡＯＣにおいては、音場の何処にオブジェクトが配置されるかはデコーダ側において決定される。このことは、芸術的観点からは、しばしば、望ましいことではなく、従って、ＳＡＯＣ規格は、デフォルトのレンダリングマトリクスをビットストリームで伝送する方法を提供し、デコーダの責任を取り除くようにしている。これらのレンダリングマトリクスも、特定のスピーカ構成に縛られる。

ＳＡＯＣにおいては、ダウンミックスの結果として、オブジェクトの抽出は特定の限界内のみで動作する。例えばカラオケの使用の場合においては、典型的に、再生のために他のオブジェクトから十分に高い分離度で単一のオブジェクトを抽出することは該他のオブジェクトなしでは不可能である。更に、パラメータ化のために、ＳＡＯＣ技術はビットレートと良く対応しない。特に、ダウンミックスすると共にオーディオオブジェクトを抽出する（アップミックスする）方法は、結果として、非常に高いビットレートにおいてさえも完全に補償されることのない固有の情報損失を生じる。このように、ビットレートが増加されても、結果としてのオーディオ品質は典型的に劣化され、符号化／復号処理が完全に透明になることを妨げる。

これに対処するために、ＳＡＯＣは限られた群のオブジェクト（４つまで、設計上の選択である）に適用することが可能な所謂残差符号化をサポートする。残差符号化は、基本的に、エラー信号を限られた数のオブジェクトが高度のオブジェクト分離度で抽出され得るように符号化する追加のビットストリーム成分を伝送する。残差波形成分は、品質を徐々に増加させることができるように特定の周波数まで供給することができる。このように、結果としてのオブジェクトは、パラメータ的成分と波形成分との組み合わせである。

３Ｄオーディオ用のオーディオフォーマットのための他の規格は、ＳＲＳ（サウンド再生システム）研究所により起こされた産業同盟である３Ｄオーディオ連盟（３ＤＡＡ）により開発されている。３ＤＡＡは、“現在のスピーカ供給枠組みから柔軟性のあるオブジェクトに基づく方法への移行を促進する”、３Ｄオーディオの伝送のための規格を開発することに専念している。３ＤＡＡにおいては、個々のサウンドオブジェクトを伴う旧来の多チャンネルダウンミックスの伝送を可能にするビットストリームフォーマットが定義されねばならない。加えて、オブジェクト配置データが含まれる。３ＤＡＡオーディオストリームを発生する原理が、図７に図示されている。

３ＤＡＡ方法では、サウンドオブジェクトが拡張ストリームにおいて別個に入力され、これらは多チャンネルダウンミックスから抽出することができる。結果としての多チャンネルダウンミックスは、個別に利用可能なオブジェクトと一緒にレンダリングされる。

３ＤＡＡにおいて、多チャンネル基準混合は、選択されたオーディオオブジェクトと共に伝送することができる。３ＤＡＡは各オブジェクトに関して３Ｄ位置データを伝送する。この場合、オブジェクトは３Ｄ位置データを用いて抽出することができる。他の例として、オブジェクトと基準混合との間の関係を記述した逆混合マトリクスを伝送することもできる。図６の図示例は、３ＤＡＡの方法に対応すると考えることもできる。

ＳＡＯＣ及び３ＤＡＡ方法の両者は、デコーダ側で個々に操作することが可能な個々のオーディオオブジェクトの伝送を組み込んでいる。該２つの方法の間の違いは、ＳＡＯＣはオーディオオブジェクトに関する情報をダウンミックスに対してオブジェクトを特徴付けるパラメータを供給することにより（即ち、オーディオオブジェクトがデコーダ側においてダウンミックスから発生されるように）供給するが、３ＤＡＡはオーディオオブジェクトを完全且つ別個のオーディオオブジェクト（即ち、デコーダ側においてダウンミックスとは独立に発生することができるもの）として供給することである。

ＭＰＥＧにおいては、３Ｄオーディオに対する新たな作業項目が作業中である。これは、ＭＰＥＧ−３Ｄオーディオと称され、ＨＥＶＣビデオ符号化及びＤＡＳＨシステムと一緒にＭＰＥＧ−Ｈスイートの一部となることが意図されている。図８は、意図されるＭＰＥＧ３Ｄオーディオシステムの高レベルブロック図を示す。

従来のチャンネルに基づくフォーマットに加えて、該方法はオブジェクトに基づく及び音場（シーン）に基づくフォーマットもサポートすることを意図している。該システムの重要な側面は、ビットレートを増加させる場合、品質も透明性に対して増加すべきであること、即ち、データレートが増加するにつれて、符号化及び復号により生じる劣化は目立たなくなるまで減少し続けるべきであることである。しかしながら、斯様な要件は、過去において相当に重要に使用されていたパラメータ符号化技術（即ち、HE-AAC v2、ＭＰＥＧサラウンド、ＳＡＯＣ、ＵＳＡＣ）にとっては面倒になりがちである。特に、個々の信号に関する情報損失の補償は、非常に高いビットレートにおいてさえも、パラメータデータにより完全には補償されない傾向がある。確かなことに、品質はパラメータモデルの固有の品質により制限される。

ＭＰＥＧ−３Ｄオーディオは、更に、再生設備とは独立した結果的ビットストリームを提供することを追求している。想定される再生の可能性は、柔軟性のある２２.２チャンネルまでのスピーカ設備、並びにヘッドフォン及び近接したスピーカ上での仮想サウンドを含む。

他の方法は、ＤｉｒＡＣ：指向性オーディオ符号化（DirAC）として知られているもので、該符号化は、ダウンミックスが合成側における空間イメージの再生を可能にするパラメータと一緒に送信されるという意味で、ＭＰＥＧサラウンド及びＳＡＯＣに類似している。DirACにおいて、これらパラメータは方向及び拡散分析（アジマス、仰角及び拡散Ψ(t/f)）の結果を表す。合成の間において、ダウンミックスは２つのストリームに、即ち非拡散音に対応する一方（重み√(１−Ψ)）と、拡散音に対応する他方（重み√Ψ）とに、動的に分割される。非拡散音ストリームは点状音源を狙う技術により再生され、拡散音ストリームは目立った方向のない音の知覚を狙う技術により再生される。DirACの方法が、図９に示されている。

DirACは、図１０の方法に従う、記録に基づく符号化／復号システムと考えることができる。該システムにおいて、マイクロフォン信号（ｍ）は符号化される。これは、例えば、パラメータ方法と同様にダウンミックス及び空間情報の符号化を用いて実行することができる。デコーダにおいて、上記マイクロフォン信号は再生することができ、供給されるスピーカ構成に基づいて、これらマイクロフォン信号はチャンネルにレンダリングすることができる。効率の理由により、復号及びレンダリング処理は単一のステップに統合することができることに注意されたい。

文献Proc.MPCA-2002, Louvain, Belgium, November 15, 2002におけるM. Kelly 他による論文“The continuity illusion revisited: coding of multiple concurrent sound sources”には、パラメータ符号化及びダウンミックスを使用せず、代わりに個々のオーディオオブジェクトを離散／波形符号化を個別に用いて符号化することが推奨されている。この方法が図１１に示されている。図示されたように、全てのオブジェクトは同時に符号化され、デコーダに伝送される。デコーダ側では、上記オブジェクトは復号され、スピーカ構成に従ってチャンネルにレンダリングされる。該方法は、改善されたオーディオ品質を提供することができ、特に透明性に対するスケーリングの能力を有する。しかしながら、該システムは高い符号化効率をもたらすことはなく、低いオーディオ品質のためでさえも相対的に高いデータレートを必要とする。

このように、効率的なオーディオ符号化を提供することを追求する多数の異なる方法が存在する。

オーディオコンテンツは、今日では、増加しつつある多数の異なる再生装置間で共用される。例えば、オーディオは、ヘッドフォン、小型スピーカ上で、ドッキングステーションを介して、及び／又は種々の多チャンネル装置を介して体験することができる。多チャンネル設備の場合、従来は公称のスピーカ装置と見なされていたＩＴＵ推奨の５.１スピーカ装置でさえ、しばしば、オーディオコンテンツをレンダリングする際に殆ど利用されない。例えば、当該設備に従う５つの空間スピーカの正確な配置は、典型的な居間において殆ど見られない。スピーカは、推奨される角度及び距離の代わりに、都合良い位置に配置される。更に、４.１、６.１、７.１又は２２.２構成さえもの代替装置を使用することもできる。これらの再生方式の全てにおいて最良の体験を提供するために、オブジェクト符号化又は音場（シーン）符号化に向かう傾向が見られる。このような方法は、各オーディオチャンネルが公称位置に関連される従来のオーディオチャンネル方法を置換するために益々導入されている（現在のところは主に映画用途のためであるが、家庭での使用も一層普通になると予想される）。

再生チャンネル（即ち、スピーカ）の数及び位置が未知である場合、音響シーンは当該シーンにおける個々のオーディオオブジェクトにより最も良く表すことができる。この場合、デコーダ側において、オブジェクトは空間的知覚（空間認識）が意図する知覚に最も近くなるように再生チャンネル上で各々別個にレンダリングすることができる。

オブジェクトを別個のオーディオ信号／ストリームとして符号化することは、相対的に高いビットレートを必要とする。利用可能な解決策（即ち、ＳＡＯＣ、DirAC、３ＤＡＡ等）は、ダウンミックスされたオブジェクト信号、及びこのダウンミックスからオブジェクト信号を再生するための手段を伝送する。この結果、ビットレートは大幅に減少する。

ＳＡＯＣは、オブジェクト抽出パラメータを伴う、ダウンミックスにおける効率的なオブジェクト符号化によりスピーカに依存しないオーディオを供給し、３ＤＡＡは、シーンがオブジェクト位置に関して記述されたフォーマットを定義する。DirACは、Ｂフォーマットダウンミックスを用いることによりオーディオオブジェクトの効率的な符号化を試みる。

このように、これらのシステムはオーディオコンテンツの効率的且つ柔軟性のある符号化及びレンダリングに適している。大幅なデータレートの低減を達成することができ、従って相対的に低いデータレートの構成さえも妥当な又は良好なオーディオ品質をもたらすことができる。しかしながら、このようなシステムの問題は、オーディオ品質がパラメータ符号化及びダウンミックスにより本来的に制限されるということである。利用可能なデータレートが増加されたとしても、符号化／復号処理の影響を検出することができないような完全な透明性を達成することは不可能である。特に、オブジェクトは、高いデータレートにおいてさえも他のオブジェクトからのクロストーク無しで再生することはできない。この結果、オブジェクトが空間的再生において分離される（即ち、異なる位置でレンダリングされる）場合の空間的知覚及びオーディオ品質の低下が生じる。他の欠点は、空間的知覚を生じさせるための重要な特性であるオブジェクト間コヒーレンスが殆ど適切に再生されないことである。該コヒーレンスを再生する試みは、逆相関器の使用に基づくものであり、準最適なオーディオ品質となる傾向がある。

オーディオオブジェクトを個別に波形符号化する代替方法は、高いデータレートにおいて高品質を可能にすることができ、特に完全に透明な符号化／復号を含む完全なスケーラビリティを提供することができる。しかしながら、このような方法は、効率的な符号化をもたらさない低いデータレートには適していない。

このように、パラメータ的ダウンミックスに基づく符号化は低データレート及び低データレートに向かうスケーラビリティには適している一方、波形オブジェクト符号化は高データレート及び高データレートに向かうスケーラビリティに適している。

スケーラビリティは将来のオーディオシステムにとり非常に重要な評価基準であり、従って、非常に低いデータレート及び非常に高いデータレートの両方まで延びるような、特に完全な透明性に対しての効率的なスケーラビリティを有することが極めて望ましい。更に、このようなスケーラビリティは、スケーラビリティの小さな細分性を有することが望ましい。

従って、改善されたオーディオ符号化／復号方法が有利であり、特に柔軟性の増加、複雑さの低減、スケーラビリティの改善及び／又は性能の改善を可能にするシステムが有利であろう。

従って、本発明は好ましくは上述した欠点の１以上を単独又は何らかの組み合わせで軽減、緩和又は除去しようとするものである。

本発明の一態様によればデコーダが提供され、該デコーダは：複数のオーディオ信号を表す符号化データ信号を受信する受信器１４０１であって、前記符号化データ信号は前記複数のオーディオ信号に関する符号化時間周波数タイルを有し、これら符号化時間周波数タイルは非ダウンミックス時間周波数タイル及びダウンミックス時間周波数タイルを有し、各ダウンミックス時間周波数タイルは前記複数のオーディオ信号の少なくとも２つの時間周波数タイルのダウンミックスであり、各非ダウンミックス時間周波数タイルは前記複数のオーディオ信号の１つのみの時間周波数タイルを表し、前記符号化データ信号は前記複数のオーディオ信号の時間周波数タイルに関するダウンミックス指示情報を更に有し、該ダウンミックス指示情報が、前記複数のオーディオ信号の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示す受信器と；前記符号化時間周波数タイルから一群の出力信号を発生する発生器１４０３であって、該出力信号の発生が、前記ダウンミックス指示情報によりダウンミックス時間周波数タイルであると示された符号化時間周波数タイルに対するアップミックス処理を有する発生器と、を有する。

本発明は、改善されたオーディオ復号を可能にすることができ、特に多くの実施態様において改善されたスケーラビリティを可能にし得る。特に、本発明は多くの実施態様において透明性に対するデータレートのスケーラビリティを可能にし得る。特に、より高いデータレートにおけるパラメータ符号化に関して知られている符号化アーチファクトを、多くの筋書きにおいて、回避又は軽減することができる。

当該方法は、更に、効率的な符号化を提供することができ、特に一層低いデータレートにおいて効率的な符号化を提供することができる。高度のスケーラビリティを達成することができ、特に、一層低いデータレートにおける効率的符号化に対するスケーラビリティ及び高いデータレートにおける非常に高い品質（及び特に透明性）を達成することができる。

本発明は、高度の適応化及び最適化が可能な非常に柔軟なシステムを提供することができる。符号化及び復号処理は、オーディオ信号の全体的特性に対してのみならず、個々の時間周波数タイルの特性にも適応させることができる。従って、高い効率の符号化を達成することができる。

ダウンミックス時間周波数タイルのアップミックス処理は、別個の処理とすることができるか、又は他の処理と統合することもできる。例えば、該アップミックス処理は、時間周波数タイルの信号値をマトリクス（ベクトル）係数と乗算するマトリクス（ベクトル）演算の一部とすることができ、ここで、上記マトリクス（ベクトル）係数はアップミックス処理を反映することができるが、出力レンダリングチャンネルに対するマッピング等の他の処理を更に反映することもできる。該アップミックス処理は、ダウンミックスの全ての成分のアップミックス処理である必要はない。例えば、該アップミックスは、当該ダウンミックスに含まれる時間周波数タイルの１つのみを発生するための部分的アップミックスとすることもできる。

時間周波数タイルは、時間周波数間隔である。出力信号の時間周波数タイルは、同一の時間間隔及び周波数間隔をカバーする符号化時間周波数タイルから発生することができる。同様に、各ダウンミックス時間周波数タイルは、オーディオ信号の同一の時間間隔及び周波数間隔をカバーする時間周波数タイルのダウンミックスであり得る。時間周波数間隔は、一様なマス目上のものとすることができるか、又は、例えば、特に周波数次元に関して不均一なマス目上のものとすることもできる。このような不均一なマス目は、例えば、人の聴覚の対数的感度を利用及び反映するために使用することができる。

ダウンミックス時間周波数タイルであると示されていない符号化時間周波数タイルに対して、出力信号の発生はアップミックスを含む必要は（含むことは）ない。

前記複数のオーディオ信号の幾つかの時間周波数タイルは、符号化時間周波数タイルに表されないこともある。前記複数のオーディオ信号の時間周波数タイルは、符号化ダウンミックス時間周波数タイル又は非ダウンミックス時間周波数タイルの何れかに表されないこともある。

幾つかの実施態様において、前記複数のオーディオ信号の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかの指示は、符号化時間周波数タイルに関して供給することができる。幾つかの実施態様において、ダウンミックス指示値は、前記複数のオーディオ信号の時間周波数タイルに関して個々に供給することができる。等価的に、幾つかの実施態様では、ダウンミックス指示値は、前記複数のオーディオ信号の一群の時間周波数タイルに関して供給することもできる。

非ダウンミックス時間周波数タイルはオーディオ信号の１つのみの時間周波数タイルに関するデータを表す一方、ダウンミックス時間周波数タイルはオーディオ信号の２以上の時間周波数タイルを表す。ダウンミックス時間周波数タイル及び非ダウンミックス時間周波数タイルは、異なる実施態様では、例えば各タイルが別個に符号化される、幾つか又は全てが一緒に符号化される、等を含み、当該符号化データ信号に異なる態様で符号化することができる。

本発明のオプション的フィーチャによれば、前記符号化データ信号はパラメータアップミックスデータを更に有し、前記発生器は該パラメータアップミックスデータに応じて前記アップミックス処理を適応化するように構成される。

この構成は、改善された性能を提供し、特に一層低いデータレートにおいて改善されたオーディオ品質を提供することができる。本発明は、例えば波形及びパラメータ符号化の柔軟な適応化及び相互作用を可能にして、極めてスケーラブルなシステム、特に高いデータレートに対して非常に高いオーディオ品質を提供する一方、より低いデータレートでは効率的な符号化を提供することができるシステムを提供する。

前記発生器は、前記ダウンミックス指示情報によりダウンミックス時間周波数タイルであると示された符号化時間周波数タイルに対して（前記ダウンミックス指示情報により符号化ダウンミックス時間周波数タイルでないと示された符号化時間周波数タイルに対してではなく）、前記パラメータアップミックスデータに応答して前記出力信号を発生することができる。

本発明のオプション的フィーチャによれば、前記発生器１４０３は、前記複数のオーディオ信号に関する時間周波数タイルを、空間音源構成に対応する出力信号にマッピングするように構成されたレンダリングユニットを有する。

この構成は、所与の空間的音源（典型的には、スピーカ）構成によるレンダリングに適したオーディオ信号の効率的発生をもたらし得る。斯かるアップミックス処理及びレンダリングマッピング処理は、幾つかの実施態様では、例えば単一のマトリクス乗算等の単一の統合された演算として実行することができる。

幾つかの実施態様において、前記発生器は、前記符号化時間周波数タイルから復号オーディオ信号を発生すると共に、該復号オーディオ信号を前記一群の出力信号に空間的にマッピングすることによりオーディオ信号を発生するように構成され、該一群の出力信号は空間的音源設備に対応する。

本発明のオプション的フィーチャによれば、前記発生器１４０３は前記符号化時間周波数タイルに対してマトリクス演算を適用することにより前記一群の出力信号のための時間周波数タイルを発生するように構成され、該マトリクス演算の係数は、前記符号化時間周波数タイルが非ダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示す符号化時間周波数タイルに対してではなく、前記符号化時間周波数タイルがダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示す符号化時間周波数タイルに対してアップミックス成分を含む。

この構成は、特に効率的な処理を提供する。上記マトリクス演算は前記符号化時間周波数タイルの信号サンプルに対して適用することができる。これら信号サンプルは復号処理により発生することができる。

本発明のオプション的フィーチャによれば、少なくとも１つのオーディオ信号は、復号された信号において、少なくとも１つの非ダウンミックス時間周波数タイル及び少なくとも１つのダウンミックス時間周波数タイルにより表される。

個々のオーディオ信号は、ダウンミックス時間周波数タイル及び非ダウンミックス時間周波数タイルの両方により表すことができる。前記オーディオ信号の各時間周波数タイルは、全ての時間周波数タイルが同じ態様で表されることを要せずに、ダウンミックス時間周波数タイル又は非ダウンミックス時間周波数タイルにより表すことができる。この方法は、高度の柔軟性及び最適化を可能にし得ると共に、改善されたオーディオ品質、符号化効率及び／又はスケーラビリティをもたらす。

本発明のオプション的フィーチャによれば、少なくとも１つのダウンミックス時間周波数タイルに関する前記ダウンミックス指示情報は、前記複数のオーディオ信号の時間周波数タイルと符号化されたダウンミックス時間周波数タイルとの間のリンクを有する。

この構成は、多くの実施態様において、符号化が時間周波数タイル毎に柔軟に最適化されることを可能にする。該方法は、高度の柔軟性及び最適化を可能にすることができ、その結果、改善されたオーディオ品質、符号化効率及び／又はスケーラビリティが得られ得る。

本発明のオプション的フィーチャによれば、前記複数のオーディオ信号のうちの少なくとも１つのオーディオ信号は、該複数のオーディオ信号のうちの異なる組のオーディオ信号のダウンミックスである２つのダウンミックス時間周波数タイルにより表される。

本発明のオプション的フィーチャによれば、前記複数のオーディオ信号のうちの少なくとも１つのオーディオ信号は、非ダウンミックス時間周波数タイル又はダウンミックス時間周波数タイルでない少なくとも１つの符号化時間周波数タイルを含む符号化時間周波数タイルにより表される。

この構成は、幾つかの実施態様において改善された符号化効率を可能にし得る。非ダウンミックス時間周波数タイル又はダウンミックス時間周波数タイルでない上記符号化時間周波数タイルは、例えば零時間周波数タイル（信号データを有さない空時間周波数タイルとして符号化された）として符号化することができるか、又は例えば正面／側面符号化（mid/side encoding）等の他の技術を用いて符号化することができる。

本発明のオプション的フィーチャによれば、少なくとも１つのダウンミックス時間周波数タイルは、音源レンダリング構成の公称音源位置に関連付けられていないオーディオオブジェクト及び音源レンダリング構成の公称音源位置に関連付けられたオーディオチャンネルのダウンミックスである。

この構成は、改善された柔軟性及び／又は一層効率的な符号化をもたらし得る。特に、上記ダウンミックス時間周波数タイルはオーディオオブジェクト及びオーディオチャンネルの時間周波数タイルのダウンミックスを含むことができる。

本発明のオプション的フィーチャによれば、前記非ダウンミックス時間周波数タイルの少なくとも幾つかは波形符号化される。

この構成は効率的で且つ潜在的に高品質な符号化／復号を可能にし得る。多くの筋書きにおいて、該構成は改善されたスケーラビリティ、特には透明性に対するスケーラビリティを可能にし得る。

本発明のオプション的フィーチャによれば、前記ダウンミックス時間周波数タイルの少なくとも幾つかは波形符号化される。

この構成は、効率的で且つ潜在的に高品質な符号化／復号を可能にし得る。

本発明のオプション的フィーチャによれば、前記発生器１４０３は前記ダウンミックス時間周波数タイルをアップミックスして、ダウンミックス時間周波数タイルの前記複数のオーディオ信号の少なくとも１つに関するアップミックスされた時間周波数タイルを発生するように構成され、前記発生器は前記一群の出力信号のための時間周波数タイルを、前記符号化時間周波数タイルがダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示すタイルに関する前記アップミックスされた時間周波数タイルを用いて発生するよう構成される。

この構成は、実施化を容易にし、及び／又は高性能をもたらし得る。

本発明の他の態様によれば、復号する方法は：複数のオーディオ信号を表す符号化データ信号を受信するステップであって、前記符号化データ信号は前記複数のオーディオ信号に関する符号化時間周波数タイルを有し、これら符号化時間周波数タイルは非ダウンミックス時間周波数タイル及びダウンミックス時間周波数タイルを有し、各ダウンミックス時間周波数タイルは前記複数のオーディオ信号の少なくとも２つの時間周波数タイルのダウンミックスであり、各非ダウンミックス時間周波数タイルは前記複数のオーディオ信号の１つのみの時間周波数タイルを表し、前記符号化データ信号は前記複数のオーディオ信号の時間周波数タイルに関するダウンミックス指示情報を更に有し、該ダウンミックス指示情報が、前記複数のオーディオ信号の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すステップと；前記符号化時間周波数タイルから一群の出力信号を発生するステップであって、該出力信号の発生が、前記ダウンミックス指示情報によりダウンミックス時間周波数タイルであると示された符号化時間周波数タイルに対するアップミックス処理を有するステップと、を有する。

本発明の他の態様によれば、エンコーダは：各々が複数の時間周波数タイルを有する複数のオーディオ信号を入力する入力部１３０１と；前記複数の時間周波数タイルのうちのダウンミックスされるべき第１部分群を選択する選択器１３０３と；前記第１部分群の時間周波数タイルをダウンミックスして、ダウンミックス時間周波数タイルを発生するダウンミキサ１３０５と；前記ダウンミックス時間周波数タイルを符号化することにより符号化ダウンミックス時間周波数タイルを発生する第１エンコーダ１３０７と；前記オーディオ信号の時間周波数タイルの第２部分群を該第２部分群の時間周波数タイルをダウンミックスせずに符号化することにより符号化非ダウンミックス時間周波数タイルを発生する第２エンコーダ１３０９と；前記第１部分群及び前記第２部分群の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すダウンミックス指示情報を発生するユニット１３１１と；前記複数のオーディオ信号を表す符号化オーディオ信号を発生する出力部１３１３であって、該符号化オーディオ信号が前記符号化非ダウンミックス時間周波数タイル、前記符号化ダウンミックス時間周波数タイル及び前記ダウンミックス指示情報を有する出力部と、を有する。

本発明は、改善されたオーディオ符号化を可能にし、特に多くの実施態様において改善されたスケーラビリティを可能にする。特に、本発明は多くの実施態様において透明性に対するデータレートのスケーラビリティを可能にする。特に、より高いデータレートにおけるパラメータ符号化に関して知られている符号化アーチファクトを、多くの筋書きにおいて、回避又は軽減することができる。

当該方法は、効率的な符号化を更に提供することができ、特に、より低いデータレートにおいて効率的な符号化を提供することができる。高度のスケーラビリティを達成することができ、特に、より低いデータレートにおける効率的な符号化に対するスケーラビリティ及び高いデータレートにおける非常に高い品質（及び特に透明性）を達成することができる。

前記ダウンミキサは、更に、前記ダウンミックス時間周波数タイルからダウンミックスされている時間周波数タイルを復元するためのパラメータデータを発生するように構成することができ、前記出力部は前記符号化時間周波数タイルに該パラメータデータを含めるように構成することができる。

前記第１及び第２エンコーダは、例えば、恐らくは同一の符号化アルゴリズムを用いて前記ダウンミックスを順次に符号化する単一のエンコーダとして実施化することができる。

当該符号化処理は、効率及び品質を改善するために、一群のダウンミックス時間周波数タイル及び個々の時間周波数タイルを考慮に入れることができる。

本発明のオプション的フィーチャによれば、前記選択器１３０１は、前記第１部分群の時間周波数タイルを前記符号化オーディオ信号に対する目標データレートに応じて選択するように構成される。

この構成は、改善された性能をもたらすことができ、特に符号化オーディオ信号の効率的なスケーリングを可能にし得る。

本発明のオプション的フィーチャによれば、前記選択器１３０３は、前記第１部分群の時間周波数タイルを：前記時間周波数タイルのエネルギ；前記時間周波数タイルの空間的特徴；及び前記時間周波数タイルの対の間のコヒーレンス特性のうちの少なくとも１つに応じて選択するように構成される。

この構成は、多くの実施態様において且つ多くの信号に対して改善された性能をもたらし得る。

本発明の他の態様によれば、符号化する方法は：各々が複数の時間周波数タイルを有する複数のオーディオ信号を入力するステップと；前記複数の時間周波数タイルのうちのダウンミックスされるべき第１部分群を選択するステップと；前記第１部分群の時間周波数タイルをダウンミックスして、ダウンミックス時間周波数タイルを発生するステップと；前記ダウンミックス時間周波数タイルを符号化することにより符号化ダウンミックス時間周波数タイルを発生するステップと；前記オーディオ信号の時間周波数タイルの第２部分群を該第２部分群の時間周波数タイルをダウンミックスせずに符号化することにより符号化非ダウンミックス時間周波数タイルを発生するステップと；前記第１部分群及び前記第２部分群の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すダウンミックス指示情報を発生するステップと；前記複数のオーディオ信号を表す符号化オーディオ信号を発生するステップであって、該符号化オーディオ信号が前記符号化非ダウンミックス時間周波数タイル、前記符号化ダウンミックス時間周波数タイル及び前記ダウンミックス指示情報を有するステップと、を有する。

本発明の他の態様によれば、符号化・復号システムは、上述したエンコーダ及びデコーダを有する。

本発明の上記及び他の態様、フィーチャ及び利点は、後述する実施態様から明らかとなり斯かる実施態様を参照して解説されるであろう。

図１は、従来技術による多チャンネル信号のオーディオ符号化の原理の一例を示す。図２は、従来技術によるＭＰＥＧサラウンドシステムの構成要素の一例を示す。図３は、従来技術によるＭＰＥＧサラウンドシステムの構成要素の一例を示す。図４は、従来技術によるＳＡＯＣシステムの構成要素の一例を示す。図５は、ユーザがＳＡＯＣビットストリームに含まれる個々のオブジェクトを制御することを可能にする対話型インターフェースを示す。図６は、従来技術によるＳＡＯＣシステムの構成要素の一例を示す。図７は、従来技術による３ＤＡＡのオーディオ符号化の原理の一例を示す。図８は、従来技術によるＭＰＥＧ３Ｄオーディオステムの構成要素の一例を示す。図９は、従来技術によるDirACシステムの構成要素の一例を示す。図１０は、従来技術によるDirACシステムの構成要素の一例を示す。図１１は、従来技術によるオーディオシステムの構成要素の一例を示す。図１２は、本発明の幾つかの実施態様によるオーディオシステムの構成要素の一例を示す。図１３は、本発明の幾つかの実施態様によるエンコーダの構成要素の一例を示す。図１４は、本発明の幾つかの実施態様によるデコーダの構成要素の一例を示す。図１５は、本発明の幾つかの実施態様によるオーディオシステムデコーダの構成要素の一例を示す。図１６は、本発明の幾つかの実施態様によるオーディオ信号の時間周波数タイルのダウンミックス又は非ダウンミックス時間周波数タイルとしての符号化の一例を示す。図１７は、本発明の幾つかの実施態様によるオーディオシステムデコーダの構成要素の一例を示す。

以下、本発明の実施態様を、図面を参照して例示としてのみ説明する。

図１２は、本発明の幾つかの実施態様によるオーディオレンダリングシステムの一例を示す。該システムは、符号化（エンコード）されるべきオーディオ信号を入力するエンコーダ１２０１を有している。符号化されたオーディオデータは適切な通信媒体１２０５を介してデコーダ１２０３に伝送される。

エンコーダ１２０１に供給されるオーディオ信号は、異なる形態で供給され、異なる方法で発生することができる。例えば、該オーディオ信号は、マイクロフォンで捕捉されたオーディオであり得、及び／又は例えばコンピュータゲームアプリケーション等のための合成により発生されたオーディオであり得る。該オーディオ信号は、例えば、単一の楽器等の特定のオーディオ源を捕捉するように配置されたマイクロフォン又は特定の合成により発生されたオーディオオブジェクト等の、個々のオーディオオブジェクトとして符号化することができる複数の成分を含むことができる。

各オーディオオブジェクトは、典型的には、単一の音源に対応する。このように、オーディオオブジェクトは、オーディオチャンネル（特には従来の空間多チャンネル信号のオーディオチャンネル）とは対照的に、典型的には、実質的に異なる位置を有し得る複数の音源からの成分は有することがない。同様に、各オーディオオブジェクトは、典型的に、当該音源の全表現を供給する。このように、各オーディオオブジェクトは、典型的に、単一の音源のみに関する空間位置データに関連付けられる。更に詳細には、各オーディオオブジェクトは、典型的に、音源の単一で完全な表現と見なすことができ、単一の空間位置に関連付けることができる。

オーディオオブジェクトは如何なる特定のレンダリング構成にも関連されず、特にサウンドトランスジューサ／スピーカの如何なる特定の空間構成にも関連されることがない。このように、特定の空間スピーカ設備（例えば、サラウンドサウンド設備）等のレンダリング構成と関連されるサウンドチャンネルとは対照的に、オーディオオブジェクトは如何なる特定の空間レンダリング構成に対しても規定されない。

このように、オーディオオブジェクトは、典型的に、例えば歌手、楽器又は合唱団等の個々のインスタンスとして扱われる単一又は組み合わせ音源である。典型的に、オーディオオブジェクトは、該オーディオオブジェクトに関する固有の位置、特には該オーディオオブジェクトに関する点源位置を定める関連する空間位置情報を有する。しかしながら、この位置は固有のレンダリング設備とは無関係である。オブジェクト（オーディオ）信号は、オーディオオブジェクトを表す信号である。オブジェクト信号は、例えば時間的に同時でない複数のオブジェクトを含むことができる。

対照的に、オーディオチャンネルは公称のオーディオ源位置に関連付けられる。このように、オーディオチャンネルは、典型的に、関連する位置データは有することはなく、公称の関連するスピーカ構成におけるスピーカの公称位置に関連付けられる。このように、オーディオチャンネルは関連する構成におけるスピーカ位置に関連付けられるが、オーディオオブジェクトは如何なるスピーカ構成にも関連付けられない。このように、オーディオチャンネルは、レンダリングが公称スピーカ構成を用いて実行される際に所与の公称位置からレンダリングされるべき組み合わせ音声を表す。このように、オーディオチャンネルは、公称スピーカ構成が当該音声源を空間的にレンダリングするために、当該チャンネルに関連付けられた公称位置からレンダリングされるべき音成分を必要とする当該オーディオシーンの全ての音声源を表す。対照的に、オーディオオブジェクトは、典型的に、如何なる特定のレンダリング構成にも関連付けられず、代わりに、１つの音源位置からレンダリングされるべき音声を供給して、関連する音成分が該位置から発するものと知覚されるようにする。

空間オーディオ符号化装置１２０１は、該空間オーディオ符号化装置１２０１に供給されたオーディオ信号（即ち、オーディオオブジェクト及び／又はオーディオチャンネル）を表す符号化されたデータを含む符号化された信号を発生するように構成される。

該符号化されたオーディオストリームは、直接通信又はブロードキャストリンクを含む如何なる好適な通信媒体を介しても伝送することができる。例えば、伝送（通信）はインターネット、データネットワーク、ラジオ放送等を介したものとすることができる。上記通信媒体は、代わりに又は更に、ＣＤ、ブルーレイ（商標）ディスク、メモリカード等の物理的記憶媒体を介するものとすることができる。

以下の説明は、オーディオオブジェクトの符号化に焦点を合わせるが、説明される原理は、適宜、例えばオーディオチャンネル信号等にも適用することができることが理解されよう。

図１３は、エンコーダ１２０１の構成要素を一層詳細に示す。該例において、エンコーダ１２０１は複数のオーディオ信号を入力する。該特定の例において、これらオーディオ信号はオーディオオブジェクトである（該特定の例においては、４つのオーディオオブジェクトＯ_１〜Ｏ_４が示されているが、これらは如何なる複数のオーディオオブジェクトをも表すものに過ぎないことが分かる）。

上記オーディオオブジェクトはエンコーダ受信器（入力部）１３０１により入力され、該エンコーダ受信器は、該オーディオオブジェクトに関する時間周波数タイル（time-frequency tiles）を該エンコーダ１２０１の残部に供給する。当業者により既知のように、信号に関する時間周波数タイルは所与の時間間隔及び所与の周波数間隔内の信号に対応する。このように、信号を時間周波数タイルで表すことは、該信号が、各タイルが関連する周波数間隔及び関連する時間間隔を有するような複数のタイルで表されることを意味する。各時間周波数タイルは、当該信号値を関連する時間間隔及び周波数間隔で反映する単一の（典型的には、複素の）値を供給することができる。しかしながら、時間周波数タイルは複数の信号値を供給することもできる。信号は、しばしば、一様な時間周波数タイルに分割される。即ち、時間及び／又は周波数間隔は、しばしば、全ての時間周波数タイルに対して同じサイズのものである。しかしながら、幾つかの筋書き又は実施態様では、一様でない時間周波数タイルを、例えば、周波数間隔のサイズが周波数の増加に対して増加するような時間周波数タイルを用いることにより、用いることができる。

多くの実施態様において、オーディオ信号は既に時間周波数タイル表現としてエンコーダに供給することができる。しかしながら、幾つかの実施態様では、エンコーダ受信器１３０１は斯様な表現を発生することができる。このことは、典型的に、当該信号を時間セグメント（例えば、20msec期間の）に分割し、各セグメントに対してＦＦＴ等の時間／周波数変換を実行することにより実施することができる。結果としての周波数ドメイン値は、各々、時間周波数タイルを直接表すことができ、又は、幾つかの場合には、複数の隣接する周波数ビン（時間及び／又は周波数で隣接する）を時間周波数タイルに組み合わせることができる。

簡略化のために、以下の説明は時間周波数タイルを“タイル”なる略語を用いて示す。

エンコーダ受信器１３０１は選択器１３０３に結合され、該選択器は上記オーディオオブジェクトのタイルを入力する。この場合、該選択器１３０３はダウンミックスタイル（ダウンミックスされたタイル）として符号化される幾つかのタイル及び非ダウンミックスタイル（ダウンミックスされないタイル）として符号化される幾つかのタイルを選択するように構成される。ダウンミックスタイルは典型的には少なくとも２つのオーディオオブジェクトから少なくとも２つのタイルをダウンミックスすることにより発生されるタイルであり、非ダウンミックスタイルは如何なるダウンミックスもなしで符号化される。このように、非ダウンミックスタイルは、符号化されるオーディオオブジェクト／信号の１つのタイルのみからのデータを有する。このように、非ダウンミックスタイルは１つのオーディオオブジェクトからのみの寄与分を含む一方、ダウンミックスタイルは少なくとも２つのタイル及び典型的には少なくとも２つのオーディオオブジェクトからの成分／寄与分を含む。即ち、非ダウンミックスタイルは、２以上のタイルのダウンミックスではないタイルである。

選択器１３０３はダウンミキサ１３０５に結合され、該ダウンミキサには選択器１３０３により選択されたタイルが供給される。この場合、該ダウンミキサは、これらタイルからダウンミキサタイルを発生する。例えば、ダウンミックスされる対象となる異なるオーディオオブジェクトからの２つの対応する（同一の周波数間隔及び時間間隔の）タイルは、ダウンミキサ１３０５により単一のダウンミキサタイルを発生するようにダウンミックスされる。この方法は前記複数のタイルに対して実行され、これにより、各ダウンミックスタイルが典型的には少なくとも２つのオーディオオブジェクトからの少なくとも２つのタイルを表す、一群のダウンミックスタイルを発生する。

多くの実施態様において、ダウンミキサ１３０５は更にパラメータ（アップミックス）データを発生し、該データは上記ダウンミックスタイルのアップミックスを実行することによりオリジナルのオーディオオブジェクトタイルを再生するために使用することができる。例えば、ダウンミキサ１３０５は、当業者により良く知られているように、オブジェクト間レベル差（ＩＬＤ）、オブジェクト間時間差（ＩＴＤ）、オブジェクト間位相差（ＩＰＤ）及び／又はオブジェクト間コヒーレンス係数（ＩＣＣ）を発生することができる。

上記ダウンミックスタイルは第１エンコーダ１３０７に供給され、該第１エンコーダは各ダウンミックスタイルを符号化して符号化ダウンミックスタイルを発生する。該符号化は、例えば当該ダウンミックスタイルの値の単純な量子化とすることができ、特には当該ダウンミックスタイルにより表される波形を維持する符号化とすることができる。

多くの実施態様において、前記アップミックスパラメータも第１エンコーダ１３０７に供給することができ、該エンコーダは、これらを何らかの好適な符号化方法を用いて符号化することができる。

前記選択器１３０３は更に第２エンコーダ１３０９にも結合され、該第２エンコーダには非ダウンミックスタイルであるべきタイルが供給される。この場合、該第２エンコーダは、これらタイルを符号化する。

図１３は第１及び第２エンコーダ１３０７及び１３０９を別個の機能ユニットとして図示しているが、これらエンコーダは単一のエンコーダとして構成することができ、同一の符号化アルゴリズムをダウンミックスタイル及び非ダウンミックスタイルの両方に適用することができることが理解されよう。

適切な符号化データ信号を発生するためにダウンミックス及び非ダウンミックスタイルの如何なる符号化も用いることができることが理解される。例えば、幾つかの実施態様では、全てのタイルを別個に符号化することができる。例えば、個々の符号化はタイル毎に如何なる他のタイルも考慮せずに又は如何なる他のタイルからの影響もなしに実行することができる。即ち、各タイルに関する符号化されたデータは、他のタイルとは独立に発生することができる。特定の例として、量子化及びチャンネル符号化は、当該符号化データを発生すべく結合されるデータを発生するために各タイルに対して別個に実行することができる（ダウンミックス又は非ダウンミックスに拘わらず）。

他の実施態様において、タイルの何らかの共同符号化を用いることができる。即ち、ダウンミックスタイル及び／又は非ダウンミックスタイルの選択群を、当該タイル及び／又は該タイルにより表されるオブジェクトの特定の特性及び／又は相関を利用することにより、一緒に符号化して効率を改善することができる。

選択器１３０３は更に指示プロセッサ１３１１に結合され、該指示プロセッサはどのタイルがダウンミックスタイルとして符号化され、どのタイルが非ダウンミックスであるかの情報を入力する。この場合、指示プロセッサ１３１１は、オーディオオブジェクトの当該タイルがダウンミックスタイルとして符号化されるか又は非ダウンミックスタイルとして符号化されるかを示すダウンミックス指示情報を発生する。該ダウンミックス指示情報は、例えば、オーディオオブジェクトの各々の各タイルに関するデータを有することができ、その場合、所与のタイルに関するデータは、このタイルが非ダウンミックスであったか又はダウンミックスとして符号化されたかを示す。後者の場合、該データは、更に、どの他のオーディオオブジェクトが同じダウンミックスにダウンミックスされたかを示すことができる。このようなデータは、デコーダが、符号化されたデータ信号のうちのどのデータが特定のタイルを復号するために使用されるべきかを識別することを可能にし得る。

第１エンコーダ１３０７、第２エンコーダ１３０９及び指示プロセッサ１３１１は出力プロセッサ１３１３に結合され、該出力プロセッサは、非ダウンミックスタイル、ダウンミックス符号化タイル及びダウンミックス指示情報を含む符号化オーディオ信号を発生する。典型的に、前記アップミックスパラメータも含まれる。

図１４は、前記デコーダ１２０３の構成要素を一層詳細に図示する。

該デコーダ１２０３は受信器１４０１を含み、該受信器は前記エンコーダ１２０１から符号化信号を入力する。このように、該受信器は複数のオーディオオブジェクトを表す符号化データ信号を入力するのもで、該符号化データ信号はダウンミックスタイル又は非ダウンミックスタイルの何れかとして符号化された符号化タイルを有する。更に、該符号化データ信号は、オリジナルのオーディオタイルの異なるタイプの符号化タイルへの分割がどの様になされたかを示すダウンミックス指示情報も含む。典型的に、アップミックスパラメータも含まれる。

受信器１４０１は発生器１４０３に結合され、該発生器には入力されたタイル及びダウンミックス指示情報が供給され、これに応答して該発生器は一群の出力信号を発生する。該出力信号は、例えば、復号されたオーディオオブジェクトであり得、該復号オーディオオブジェクトは次いで後処理動作において処理され又は操作することができる。幾つかの実施態様において、発生器１４０３は、所与のレンダリング設備（及び特別なスピーカ構成）に適した出力信号を直接発生することができる。このように、発生器１４０３は、幾つかの筋書きでは、当該オーディオオブジェクトを特定のレンダリング構成のオーディオチャンネル上へマッピングする機能を有することができる。

発生器１４０３は、符号化タイルを、これらがダウンミックスタイルであるか又は非ダウンミックスタイルであるかに従い異なって処理するように構成されている。詳細には、前記ダウンミックス指示情報によりダウンミックスタイルであると示されたタイルに対しては、出力信号のためのタイルの発生はアップミックス処理を有する。このように、アップミックス処理は、オーディオオブジェクトタイルがダウンミックスされているダウンミックスタイルからのオーディオオブジェクトに関するタイルの抽出又は再生に固有に対応し得る。

当該データ信号がパラメータアップミックスデータを含む実施態様において、このデータは、ダウンミックスタイルのアップミックス処理において使用される。

一例として、発生器１４０３はオリジナルのオーディオオブジェクトを再生する再生発生器１４０５を有することができる。該再生発生器１４０５は、例えば、各オーディオオブジェクトを一度に１つずつ、各オーディオオブジェクトが一度に１つのタイルが処理されるように処理することができる。

例えば、再生発生器１４０５は、所与の（時間）セグメントの間にオーディオオブジェクト１のタイル１（例えば、最低周波数のタイル）で開始することができる。次いで、ダウンミックス指示情報がオブジェクト１のタイル１に対して評価される。該ダウンミックス指示情報が、オブジェクト１のタイル１の符号化されたタイルが非ダウンミックスであることを示す場合、該符号化タイルは復号されてオブジェクト１のタイル１を直接供給する。しかしながら、該ダウンミックス指示情報が、オブジェクト１のタイル１の符号化されたタイルがダウンミックス符号化されていることを示す場合、該符号化タイルは先ず復号されてダウンミックスタイルを形成し、次いでアップミックスされてオーディオオブジェクト１のオリジナルのタイル１を再生する。このように、この（符号化された）ダウンミックスタイルのアップミックスは、エンコーダにおいてダウンミックスされる前のオーディオオブジェクト１の（概算値）を形成する。該アップミックスは、特には、利用可能な場合は前記パラメータアップミックスデータを使用することができる。しかしながら、このようなデータが供給されない場合、上記アップミックスは盲的なアップミックスになり得る。このように、オブジェクト１の符号化タイル１に適用される該アップミックス処理の結果は、エンコーダ１２０１に供給されたオーディオオブジェクト１のタイル１（の概算値）である。

このように、上記処理の結果はオブジェクト１のタイル１であり、その場合、該タイルの発生は当該ダウンミックス指示情報が、このタイルがダウンミックスとして符号化されているか又は非ダウンミックスタイルとして符号化されているかを示すことに依存する。

再生発生器１４０５は、次いで、オーディオオブジェクト１のタイル２に対して正確に同じ処理を実行し、これにより、オーディオオブジェクト１の復号されたタイル２が得られる。

上記処理はオーディオオブジェクト１の全てのタイルに対して繰り返され、かくして、発生されたタイルの結果的な収集はオーディオオブジェクト１の時間周波数タイル表現を提供することになる。この情報は再生発生器１４０５（若しくは発生器１４０３）により出力することができるか、又は、例えば時間ドメイン信号が必要な場合は、周波数／時間ドメイン変換（例えば、ｉＦＦＴ）を適用することができる。

次いで、全てのオーディオオブジェクトが発生されるまで、同様の方法がオーディオオブジェクト２、次いでオーディオオブジェクト３等々に対して繰り返される。

この例においては、各符号化ダウンミックスタイルに対して複数のアップミックス処理が適用されることが理解されるであろう。例えば、所与の符号化ダウンミックスタイルが例えばオーディオオブジェクト１及び３のタイルのダウンミックスである場合、アップミックス処理は、オーディオオブジェクト１が発生される場合及びオーディオオブジェクト３が発生される場合の両方の場合に実行される。該アップミックス処理は異なるアップミックスパラメータ（即ち、特定のオーディオに対して供給されるパラメータ）を使用するであろう。

幾つかの実施態様において、アップミックス処理はアップミックスタイルの両方（又は全て）を同時に供給することができることが理解されよう。例えば、オーディオオブジェクト１及び３の両方に関してアップミックスされたタイルを直接発生するために、マトリクス演算を用いることができる。全体のアップミックス処理は、例えば、当該アルゴリズムが所与の符号化ダウンミックスタイルに遭遇する場合に（例えば、オブジェクト１を処理する場合に）実行することができる。他のオブジェクトに関する結果としてのアップミックスされたタイルは、符号化ダウンミックスタイルにダウンミックスされる他のタイルが遭遇される場合に（例えば、当該特定の例ではオブジェクト３を処理する場合に）別途のアップミックス処理が必要とされないように、記憶することができる。

幾つかの実施態様又は筋書きでは、再生発生器１４０５のアップミックス処理により、１つの符号化ダウンミックスタイルから１つのアップミックスタイルのみが発生され得ることが理解される。例えば、再生発生器１４０５によりオブジェクト１のみが発生される場合、所与のダウンミックスタイルのアップミックス処理は、オブジェクト１に関するアップミックスタイルを供給するのみでよい。

幾つかの実施態様において、復号されたオーディオオブジェクトは当該発生器１４０３から直接出力することができる。しかしながら、図１４の例においては、該復号オーディオオブジェクトはレンダリングプロセッサ１４０７に供給され、該レンダリングプロセッサは特定のレンダリング設備に、特には特定のスピーカ構成に対応する出力信号を発生するように構成される。このように、該レンダリングプロセッサ１４０７は上記オーディオオブジェクトを、各々が公称のサウンドレンダリング位置に関連付けられた出力チャンネルにマッピングする。例えば、複数のオーディオオブジェクトを５.１サラウンドサウンドスピーカ設備のオーディオチャンネルにマッピングすることができる。

当業者であれば、オーディオオブジェクトを特定の空間スピーカ構成のためのオーディオチャンネルにマッピングするための異なるアルゴリズムを承知しており、如何なる好適な方法を使用することもできることが理解される。

図１４の例では、発生器１４０３はオーディオオブジェクトを発生するため及びこれらをレンダリングするために、別個の機能を有するように示されている。しかしながら、多くの実施態様では、再生発生器１４０５及びレンダリングプロセッサ１４０７の機能は単一の統合機能又は処理へと組み合わせることができる。このように、該発生器は、オーディオオブジェクトを明確な中間信号として発生することなしに、符号化データからレンダリング出力を直接発生することができる。

例えば、上記アップミックス処理はマトリクス演算／乗算として（又は、単一のアップミックス値のみを発生しなければならない場合、複素乗算としてさえ）実行することができる。同様に、レンダリングマッピングはマトリクス演算／乗算として実行することができる。１以上のマトリクス演算／乗算は、特には、ベクトル演算／乗算（即ち、１つの列又は行のみを有するマトリクスを使用する）とすることができる。２つの連続する乗算は、符号化タイルのタイル値に適用される単一のマトリクス乗算へと結合することができることが分かる。このことは、アップミックス処理（実行されるなら）及びレンダリングマッピング処理の両方を反映するようなマトリクス係数を持つマトリクス乗算により達成することができる。このようなマトリクスは、例えば、単にアップミックス処理及びレンダリングマッピング処理に関連する個々のマトリクスを乗算することにより発生することができる。このように、斯かる筋書きにおいては、アップミックス処理は、アップミックスタイル値又はオーディオオブジェクトを中間信号として明確に発生することを要せずに、単一のマトリクス演算の一体部分として実行される。従って、このような実施態様においては、マトリクス係数は、非ダウンミックスタイルであると示されたタイルに対してではなく、ダウンミックスタイルであると示されたタイルに対してアップミックス処理を反映／含むことができる。詳細には、マトリクス係数は、前記ダウンミックス指示情報が当該タイルは非ダウンミックスタイルであることを示す場合ではなく、当該タイルがダウンミックスタイルであることを示す場合に、符号化データ信号で受信されたアップミックスパラメータに依存することができる。

図１２のシステムの方法を、図１５により図示することができる。図示されたように、或る部分群のオーディオオブジェクトは符号化のために直接供給され、非ダウンミックスタイルとして（即ち、如何なるダウンミックス処理もなしで）符号化される。しかしながら、他の部分群（上記第１の部分群とは切り離された）のオーディオオブジェクトは符号化のために直接供給されるのではなく、先ずダウンミックス部において他のオーディオオブジェクトと組み合わされる。該例においては、４つのオーディオオブジェクトが対状にダウンミックスされて２つのダウンミックスとなる。上記ダウンミックス部は、更に、当該ダウンミックスからオリジナルのオーディオオブジェクトをどの様に発生することができるかを記述／定義するパラメータアップミックスデータ（オブジェクトデータ）を発生する。このようなパラメータは一層長い期間に関して供給することができ、従って該ダウンミックス及びパラメータデータはオリジナルの信号と比較してデータの減少をもたらすことが理解される。上記ダウンミックスは、次いで、上記パラメータデータと一緒に符号化される。デコーダ側においては、先ず上記符号化が解消されて、非ダウンミックス信号のための及びアップミックスのための信号値が発生される。結果としての信号は、次いで、適切な出力チャンネルを発生するために処理される。この処理は、前記ダウンミックスのためのアップミックス処理（前記パラメータアップミックスデータに基づく）、及びオーディオオブジェクトの特定のスピーカ構成へのマッピングを含む。

当該システムにおいて、信号は時間周波数タイル表現において、特には時間周波数タイルドメインで処理することにより処理される。更に、ダウンミックス指示情報が供給され、該指示情報は、個々のタイルに関して、個々のオーディオオブジェクトタイルがダウンミックスタイルとして符号化されているか又は非ダウンミックスタイルとして符号化されているかを示すことができる。このダウンミックス指示情報は、エンコーダからデコーダに通知され、従って、タイルのダウンミックスタイル又は非ダウンミックスタイルとしての割り当てがタイル毎に実行されることを可能にする。このように、図１５は、特定のタイルに対して、即ち特定の時間及び周波数間隔に関して当該方法を表すものと考えることができる。しかしながら、他のタイルに関しても、同じオーディオオブジェクトをダウンミックス符号化タイル及び非ダウンミックスタイルへのタイルの異なる割り当てを用いて符号化することができる。このように、当該システムは非常に柔軟性のある符号化法を提供することができ、高度に細分的方法が、所与の目標レートに対する実質的な最適化を、該最適化が特定の信号特性に対して固有のものとなるようにして可能にすることができる。

当該方法は、ダウンミックス符号化及び非ダウンミックス符号化の相対的利点の間の（従って、パラメータ符号化及び波形符号化の相対的利点の間の）非常に効率的な取引を可能にする。例えば、より低いデータレートに対しては、相対的に多数のタイルを、関連するパラメータを伴うダウンミックスタイルとしてパラメータ的に符号化することができる。しかしながら、重要なタイルは依然として如何なるダウンミックスもなしに符号化し、これによりパラメータ符号化の可能性のある品質劣化を低減することができる。目標／利用可能なデータレートが増加されるにつれて、増加する数のタイルを非ダウンミックスタイルとし、これにより品質を上昇させることができる（即ち、オーディオオブジェクトは、益々、パラメータ的に符号化されるよりは波形符号化されるようになり、特にオーディオオブジェクトのクロストークを低減することができる）。このような傾向は、全てのタイルが非ダウンミックスタイルとなるまで継続することができ、全体としての符号化及び復号方法が透明となる。このように、高度に効率的な符号化及び透明性に対するスケーラビリティを達成することができる。

このように、図１２のシステムは、ダウンミックスタイル及び付随するパラメータ情報への利用可能なタイルの部分群の事前の組み込みを用いるハイブリッド型波形／パラメータ方法と見ることができる。残りのタイルは上記ダウンミックスタイルと一緒に伝統的な波形符号化タイルを用いて符号化することができる。上記パラメータ情報は、ダウンミックスタイルをオーディオオブジェクトタイルに関係づける。更に、各オブジェクトがどの様に表されるか（純粋に波形又は波形＋パラメータ情報；即ち、非ダウンミックス又はダウンミックス符号化）についての情報も、符号化データ信号で伝達される。これらのフィーチャは、特に、符号化信号のデータレートの改善されたスケーラビリティを可能にする。

１つの特別な例は、拡散音場の符号化である。該拡散音場が確かに全方向性であるとの仮定の下では、このことは実質的に無限の数のオブジェクトが該拡散音場を表すことを必要とする。典型的に、人の聴覚系の制限により、拡散音場を非常に多数のオブジェクト／チャンネルを用いて表す必要はない。利用可能なビットレートに依存して、当該拡散音場を表す大きな数のオブジェクト／チャンネルを、パラメータ情報が付随する一層小さな数のオブジェクト／チャンネルにダウンミックスすることができる。

図１５の例では、８個のオブジェクトが符号化される。エンコーダは、どのオブジェクトタイルがダウンミックスタイルに組み込まれるべきかを決定する。該ダウンミックスに加えて、ダウンミックスタイルとオリジナルのオブジェクトタイルとの間の関係を表すオブジェクトデータも導出される。オリジナルオブジェクトの各タイルをどの様に導出することができるかについての情報も導出される。ダウンミックスされていないオブジェクトタイル、オブジェクトデータが付随する（部分的に）ダウンミックスされたオブジェクトタイル、及び上記導出情報（ダウンミックス指示情報）からなる結果的情報は、全て符号化される。これらオブジェクトタイル（ダウンミックスされているか否かによらず）は伝統的な波形符号化技術を用いて符号化することができる。

デコーダは１以上のダウンミックスタイルを入力し、その場合、各ダウンミックスタイルは前記オーディオオブジェクトの１以上からの１以上のタイルのダウンミックスを表している。更に、該デコーダはダウンミックスタイルにおけるオブジェクトタイルに関連したパラメータデータも入力する。また、該デコーダは前記オブジェクト信号の１以上から、上記ダウンミックスタイルには存在しない１以上のタイルも入力する。該デコーダは、更に、所与のオブジェクトタイルが非ダウンミックスタイルとして符号化されているか又はパラメータデータを伴うダウンミックスタイルとして符号化されているかを示した情報を供給するダウンミックス指示情報も入力する。この情報に基づいて、該デコーダは、ダウンミックスタイル＋パラメータ情報又は非ダウンミックスタイルの何れかを用いて出力信号のためのタイルを発生することができる。

幾つかの実施態様において、全ての処理は対応するタイルに対して実行される。即ち、当該処理は各タイルの周波数間隔及び時間間隔に関して別個に実行される。詳細には、出力信号は、出力信号タイルを同一の時間及び周波数間隔をカバーする符号化タイルに基づいて発生することにより発生される。しかしながら、幾つかの実施態様では、何らかの周波数又は時間変換を当該処理の一部として実行することができる。例えば、複数の符号化タイルを組み合わせて、より大きな周波数間隔をカバーする出力タイルを発生することもできる。

また、典型的に、ダウンミックス処理は同一の周波数間隔及び時間間隔をカバーするタイルについてのものであろう。しかしながら、幾つかの実施態様では、ダウンミックスは、重なり合う又は離れた異なる間隔をカバーするタイルのものであり得る。確かなことに、幾つかの実施態様及び筋書きでは、ダウンミックスは同一の信号の２つのタイルのものでさえあり得る（例えば、周波数次元に沿って隣接している２つのタイル）。

ダウンミックス指示情報の使用及び通知は、オーディオオブジェクトの符号化及び、特に、オーディオオブジェクトを符号化処理の一部としてどの様にして組み合わせる（又は組み合わせない）かの選択の非常に高度の柔軟性を提供する。当該方法は、個々の信号セグメント（個々のタイル）が、当該信号の一部のみの特性に依存して他の信号セグメントと組み合わせるために柔軟に選択されることを可能にし得る。確かなことに、どの信号又はオブジェクトを一緒にダウンミックスすることができるかを単に選択することより、タイルに基づくダウンミックス指示情報の当該適用は、このような考察が個々の信号セグメントに対して、特には個々のタイルに対して実行されることを可能にする。

幾つかの実施態様において、上記ダウンミックス指示情報は各オブジェクトの各タイルに関して別個の指示情報を含むことができ、前記エンコーダは、各タイルに関して、当該タイルがダウンミックスされるかを決定することができ、もしそうなら、該エンコーダはどの他のタイル又は複数のタイルと共に該ダウンミックス処理があるべきかを決定することができる。このように、斯様な実施態様では、全てのタイルに対して、ダウンミックス処理の個々のタイルに基づく最適化を実施することができる。確かなことに、所与の目標レートに対する最高のオーディオ品質を達成するために全体の最適化処理を実行することができる。

当該方法は、特に所与のオブジェクトの幾つかのタイルが他のタイルと一緒にダウンミックスされることを可能にし、該オブジェクトの他のタイルは如何なるダウンミックス処理もなしに符号化される。このように、１つのオブジェクトの符号化は、ダウンミックスタイル及び非ダウンミックスタイルの両方を含むことができる。このことは、符号化効率及び／又は品質を大幅に改善し得る。

例えば、２つのオーディオオブジェクトは、所与の時間セグメントにおいて、知覚的に余り重要でない（例えば、小さな信号値のために）幾つかの周波数間隔を含む一方、他の周波数間隔は知覚的に一層重要であることがあり得る。この場合、上記の知覚的に余り重要でない間隔内のタイルは一緒にダウンミックスすることができる一方、上記の知覚的に一層重要な間隔はクロストークを防止すると共に品質を改善するために別にとっておく。

また、異なるダウンミックスに含まれるオブジェクトを変化させることもできることが理解されよう。例えば、所与のオブジェクトに関して、或るタイルは或る他のオブジェクトとダウンミックスすることができる一方、他のタイルは他のオブジェクトとダウンミックスすることができる。特定の例として、より低い周波数に対しては、オブジェクト１及び２をダウンミックスすることが有利であり得る一方、より高い周波数に対してはオブジェクト１及び３をダウンミックスすることが有利であり得る（例えば、オブジェクト１が高い及び低い両周波数において低い信号エネルギを有し、オブジェクト２が低い周波数では低い信号エネルギを有するが高い周波数では高い信号エネルギを有し、オブジェクト３が高い周波数では低い信号エネルギを有するが低い周波数では高い信号エネルギを有する例において）。

所与のダウンミックスタイルにダウンミックスされるタイルの数は、多くの実施態様では、２つのタイルに限定されるものではなく、幾つかの実施態様及び筋書きでは、確かなことに、１以上のダウンミックスタイルを、３、４又はもっと多くのタイルをダウンミックスすることにより発生することができる。

上記柔軟性は更に時間方向にも広がり、タイルのダウンミックス及び非ダウンミックスタイルへの分布は、確かに、時間的に変化させることができる。このように、該分布は動的に変化させることができ、特に、時間セグメント毎に新たな分布／割り当てを決定することができる。

全てのオブジェクトがダウンミックスされた１以上のタイルを含むことは必ずしも必要とされないことも分かるであろう。オブジェクトの１以上の全てのタイルが非ダウンミックスタイルであり、これにより、これらオブジェクトの高いオーディオ品質を提供することも確かに可能である。このことは、或るオブジェクトが特に知覚的に重要なものである（音楽オーディオシーンのためのボーカル等）場合に、特に適切であり得る。同様に、１以上のオーディオオブジェクトの全タイルが完全にダウンミックスタイルとして符号化されることも可能である。

可能性のある柔軟性の一例が図１６に示されており、該図は１つの時間セグメント内でのタイルの分布を示している。図１６において、各列は所与のオーディオ入力信号のタイルからなり、各行は特定の周波数間隔（タイルに対応する）である。該例は、５つのオーディオオブジェクト（文字ｏにより示されている）及び２つのオーディオチャンネル信号（文字ｃにより示されている）を示す。更に、該例は、各周波数間隔に関して２つのダウンミックス（文字ｄにより示されている）を含むことができるセグメントの符号化に基づいている。

該例において、第１周波数間隔（即ち、第１行）は２つのダウンミックスタイルのみを用いて符号化される。即ち、この間隔においては、最も左側の３つのオブジェクト及び２つのオーディオチャンネルを第１ダウンミックスへと組み合わせることができ、最も右側の２つのオブジェクトのタイルを第２ダウンミックスタイルへと組み合わせることができる。

次の周波数間隔／行においては、全てのタイルが非ダウンミックスタイルとして符号化される。次の周波数間隔／行においては、２つのオーディオチャンネルの２つのタイルが１つのダウンミックスタイルにダウンミックスされる一方、全てのオブジェクトタイルは非ダウンミックスタイルとして符号化される。次の周波数間隔／行においては、最も右の２つのオブジェクトの２つのタイルが１つのダウンミックスタイルにダウンミックスされる一方、他の全てのタイルは非ダウンミックスタイルとして符号化される等々となる。

結果としての信号／タイルの効率的な符号化のために、例えば疎行列記憶（sparse matrix storage）等の既存の技術を用いることができる。加えて又は代わりに、当該タイルの符号化におけるビットレート効率を改善するために種々の技術を採用することができる。例えば、所与のオブジェクト／タイルに対する量子化レベルを、当該シーンにおける他のオブジェクト／タイルによる空間的マスキングにより増加させることができる。極端なケースでは、例えば、所与のタイルは全く伝送しなくてもよい（即ち、零に量子化される）。

どのタイルが（及びどのダウンミックスに）ダウンミックスされるかを選択するために異なる方法、アルゴリズム又は評価基準を用いることもできることが理解されよう。

多くの実施態様において、前記選択器１３０３は、符号化されるオーディオ信号のための目標データレートに応じて、ダウンミックスするためのタイルを選択することができる。特に、ダウンミックスされるタイルの数、及び／又は符号化オーディオ信号に含まれるダウンミックスの数は、利用可能な（即ち、目標）データレートに依存し得る。このように、より低いデータレートに対しては、相対的に多数のダウンミックスが発生される。目標データレートが増加するにつれて、ダウンミックスの数は減少され、データレートが十分に高い場合、当該システムは如何なるダウンミックスも実行しないように選択することができる。極端に低いビットレートにおいて、ダウンミックスの数は小さくすることはできるが、各ダウンミックスは多数のタイルのダウンミックスとなり得る。このように、相対的に少数のダウンミックスが、複数のオーディオ信号のうちの殆どの（全部ではなくても）周波数タイルを表すことができる。

選択器１３０３は、タイルのエネルギに応じて（も）選択を実行することができる。詳細には、当該タイルにおける信号成分の一層低いエネルギを表すタイルはダウンミックスすることができる一方、当該タイルにおける信号の成分の一層高いエネルギを示すタイルは非ダウンミックスタイルとして符号化することができる。より低いエネルギは余り知覚的に重要ではない傾向があるので、ダウンミックス符号化の影響（クロストーク等）は、それに応じて減少され得る。幾つかの筋書きにおいては、所与のダウンミックスに組み合わされるタイルのエネルギを平衡させることが有利であり得る。このことは、例えば、信号が該所与のタイルにおいて一層似たものとなるのでクロストークを減少させ得る。

幾つかの実施態様において、上記選択はタイルの空間的特徴に応じたものとすることができる。例えば、オーディオオブジェクトは互いに近くに配置されそうなオーディオオブジェクトを表し得、従って、これらのタイルは一緒にダウンミックスされるように選択することができる。多くの実施態様において、空間的に隣接したオブジェクトは組み合わされるであろう。この根拠は、オブジェクトの間に一層大きな分離が必要とされるほど、一層大きな空間的露呈（unmasking）が生じるということである。特に、空間的に互いに離れた２つのオーディオ源に対するよりも、２つの接近したオーディオ源の間である場合の方が、クロストークは余り知覚されそうにない。

幾つかの実施態様において、上記選択は、タイルの対の間のコヒーレンス特性に応じたものとすることができる。密に相関された信号の間のクロストークは、非常に緩くしか相関されていない信号の間におけるよりも、余り知覚されそうにない。

前記ダウンミックス指示情報による情報の固有の表現は、個々の実施態様の固有の要件及び優先度に依存し得る。

一例として、予め決められる制限は、オーディオオブジェクトが特定の対でのみ一緒にダウンミックスされ得るということであり得る。例えば、オブジェクト１のタイルはオブジェクト２のタイル（同一の周波数及び時間間隔における）とのみ一緒にダウンミックスすることができ、オブジェクト３のタイルはオブジェクト４のタイルとのみダウンミックスすることができ、等々である。このような場合、前記ダウンミックス指示情報はどのタイルがダウンミックスされたかを単に示せばよく、特定のダウンミックスにダウンミックスされたタイルの識別情報を明示的に示す必要はない。例えば、ダウンミックス指示情報はオブジェクト１及び２の各周波数間隔に対して１ビットを含めばよく、その場合において、該ビットは当該タイルがダウンミックスされたか否かを単に示す。デコーダは、該ビットを解釈し、当該タイルがダウンミックスであることを該ビットが示す場合、該タイルのアップミックスを実行してオブジェクト１及び２のタイルを発生することができる。

ダウンミックス指示情報は、明示的である必要はなく、他のデータにより供給することができる。特に、ダウンミックスがパラメータデータを発生する実施態様の場合、タイルがダウンミックスタイルであるとの指示情報は、単にパラメータアップミックスデータの存在により供給することができる。このように、符号化タイルからアップミックスタイル（又は複数のアップミックスタイル）をどの様に発生するかを記述するパラメータが当該オーディオ信号において供給される場合、このことは、当該タイルが確かにダウンミックスタイルであるとの指示情報を供給することになる。

多くの実施態様において、ダウンミックス指示情報は、どのオブジェクトタイルが所与のダウンミックスタイルにダウンミックスされたかを示すことができる。ダウンミックス指示情報は、ダウンミックスタイルとして符号化された１以上の（恐らくは、全ての）タイルに関して、当該ダウンミックスタイルとオーディオオブジェクトのタイルとの間のリンクを提供することができる。該リンクは、当該ダウンミックスにダウンミックスされたタイルを識別することができる。例えば、該リンクデータは、所与のダウンミックスタイルに関して該タイルが、例えば、オブジェクト１及び２のダウンミックスであることを示すことができ、他のダウンミックスタイルに関しては該タイルが、例えば、オブジェクト２、４及び７のダウンミックスであることを示すことができ、等々である。

ダウンミックスタイルにダウンミックスされたオブジェクトタイルの識別情報を含めることは、柔軟性を増加させることができ、どのタイルをダウンミックスすることができるかについての予め決められる制限の如何なる必要性も回避することができる。当該方法は、ダウンミックスのタイルを、所与のデータレートに対して最適化された（知覚的に）オーディオ品質を提供するために如何なる組み合わせにおいてもダウンミックスすることができる完全に自由な最適化を可能にし得る。

ダウンミックス指示情報は、異なる実施態様では異なって構成することもできることが分かる。特に、ダウンミックス指示情報はオリジナルのオブジェクトタイル（もっと一般的には、符号化されたオーディオ信号のタイル）に関して供給することができることが分かる。例えば、各オブジェクトの各タイルに対して、パラメータアップミックスデータの存在は、該タイルがダウンミックスタイルであることを示すことができる。このタイルに関して、該タイルを特定の符号化ダウンミックスタイルにリンクするデータが供給される。例えば、該データは、符号化データ信号における、対応するダウンミックスタイルが符号化されているデータ位置に対するポインタを供給することができる。

等価的に、ダウンミックス指示情報は、符号化されたタイルに（及び、特にオーディオ信号の符号化ダウンミックスタイルに）関して供給することができる。例えば、オーディオ信号の符号化タイルに対して、オーディオ信号はどのオブジェクトを当該ダウンミックスタイルが表すかを識別するデータ部を含むことができる。

これらの方法は等価であって、符号化タイルを固有に参照するダウンミックス指示情報はオブジェクトタイルに関するダウンミックス指示情報も供給することが分かる。例えば、
オブジェクトＡのタイルＮは符号化タイルＸにダウンミックスされる、
オブジェクトＢのタイルＭは符号化タイルＸにダウンミックスされる、
ことを示すデータ（即ち、オブジェクトタイルを参照するデータ）により供給される情報は、
符号化タイルＸはオブジェクトＡのタイルＮ及びオブジェクトＢのタイルＭのダウンミックスである、
ことを示すデータ（即ち、符号化タイルを参照するデータ）と正確に同じ情報を供給する。

符号化データ信号におけるデータの配置は、特定の実施態様に依存し得る。例えば、幾つかの実施態様において、ダウンミックス指示情報を表すデータは、符号化データタイル及びパラメータ最新情報とは別の１つのデータ部内で供給することができる。他の実施態様において、該データは散在され得、例えば各符号化データタイルには、アップミックスパラメータ及びダウンミックスに含まれるオブジェクトタイルの識別情報を有するフィールドが付随する。

例えば、符号化オーディオ信号は、データストリーム内に連続して配置されたオブジェクト信号により構成することができる。このように、第１データはオブジェクト１のために供給することができる。このデータは、複数の連続したデータ区域を有することができ、これらデータ区域の各々が１つのタイルを表す（例えば、増加する周波数の順に）。このように、第１区域はオブジェクト１のタイル１のための符号化タイルを含み、次の区域はオブジェクト１のタイル２のための符号化タイルを含み、等々とすることができる。

或る区域が非ダウンミックスタイルである符号化タイルを有する場合、該区域には符号化タイルデータのみが含まれる。しかしながら、当該タイルがダウンミックスタイルとして符号化されている場合、該区域は符号化ダウンミックスデータ、即ちダウンミックスタイルを有する。しかしながら、該区域は、加えて、該ダウンミックスタイルからオブジェクト１のためのタイルを発生するためのパラメータアップミックスパラメータを含むフィールドを有する。これは、当該区域がダウンミックスタイルを含むことを示す。更に、どの他のタイル（又は複数のタイル）が当該ダウンミックスに組み合わされているかを識別するフィールドが含まれる（例えば、該フィールドはオブジェクト２の対応するタイルも当該ダウンミックスにより表されていることを示すデータを含むことができる）。

このように、符号化オーディオ信号は第１オーディオオブジェクトの全てのタイルのための連続した区域を含むことができる。

次いで、同じ方法が次のオーディオオブジェクトに対して繰り返される。即ち、オブジェクト１に関する符号化データに続いて、オブジェクト２に関する符号化データが、各々が１つのタイルに対応する複数の区域で供給される。しかしながら、この場合、先の区域（例えば、前のオブジェクトに関する）において既に供給されたダウンミックス符号化データは含まれない。例えば、ダウンミックスがオブジェクト１及び２のタイル２に関して発生される場合、この符号化ダウンミックスデータはオブジェクト１のタイル２に関して既に供給されているので、オブジェクト２のタイル２のためのデータ区域は如何なる符号化データも含まない。しかしながら、幾つかの実施態様では、上記データ区域は当該ダウンミックスタイルからオブジェクト２のタイル２を発生するためのアップミックスパラメータを有することができる。他の実施態様では、このデータは供給されなくてもよい（即ち、盲的アップミックスを用いることができる）か、又は符号化タイルデータと共に供給されてもよい（即ち、オブジェクト１のタイル２のためのデータ区域において）。このような実施態様において、現在の区域は空とするか又は跳ばすことができる。

この方法は、符号化されたダウンミックスデータは符号化データ信号の連続するタイル配置に最初に出会った時のみ含まれるという原則で全てのオブジェクトに対して継続することができる。各時間セグメントに対する符号化データは、時間セグメントが符号化オーディオ信号において連続的に配置される形で、上述した様に供給することができる。

多くの他の配置が可能であり、如何なる好適な配置も使用することができることが分かる。

上記説明は、オーディオオブジェクトに焦点を合わせた。しかしながら、本方法は他のオーディオ信号にも適用可能であることが分かる。詳細には、本方法は、空間多チャンネル信号のオーディオ信号／チャンネル及び／又は公称スピーカ構成における公称位置に関連するチャンネルのためのオーディオ信号の符号化に適用することができる。特に、先の説明におけるオーディオオブジェクトの参照は、適宜、オーディオ信号の参照であると考えることができる。

本方法は、確かに、ハイブリッドなチャンネル／オブジェクトに基づくシステムにおいて使用することができる。このような例が図１７に示されている。該例においては、オーディオチャンネル及びオブジェクトの両方が、オーディオオブジェクトに関して前述したのと同様の方法で処理される。エンコーダはオブジェクト及び／又はチャンネルのどのタイルが組み合わされるべきかを決定する。この選択は、オーディオチャンネル及びオブジェクトのタイルを（ハイブリッド）ダウンミックスタイルに固有に組み合わせることができる。

上述した説明は、明瞭化のために、本発明の実施態様を異なる機能回路、ユニット及びプロセッサに関して説明したことが理解される。しかしながら、異なる機能回路、ユニット又はプロセッサの間での如何なる好適な分散も、本発明を損なうことなく使用することができることが分かる。例えば、別個のプロセッサ又はコントローラにより実行されるべきものとして図示された機能は、同一のプロセッサ又はコントローラにより実行することができる。従って、特定の機能ユニット又は回路の参照は、正確な論理的又は物理的構成又は編成を示すというより、記載した機能を提供するための適切な手段の参照としてのみ見られるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウエア又はこれらの組み合わせを含む如何なる好適な形態で実施化することもできる。本発明は、オプションとして、少なくとも部分的に１以上のデータプロセッサ及び／又はデジタル信号プロセッサ上で動作するコンピュータプログラムとして実施化することもできる。本発明の一実施態様の構成要素及び構成部品は、物理的に、機能的に及び論理的に如何なる好適な態様で実施化することもできる。確かなことに、当該機能は単一のユニットで、複数のユニットで又は他の機能ユニットの一部として実施化することができる。かくして、本発明は単一のユニットで実施化することができるか、又は異なるユニット、回路及びプロセッサの間に物理的に及び機能的に分散させることができる。

以上、本発明を幾つかの実施態様に関連して説明したが、これは、ここに記載した特定の形態に限定することを意図するものではない。むしろ、本発明の範囲は添付請求項によってのみ限定されるものである。更に、或るフィーチャは特定の実施態様に関連して説明されているように見えるかも知れないが、当業者であれば、記載された実施態様の種々のフィーチャは本発明に従って組み合わせることができることを認識するであろう。尚、請求項において、有するなる文言は、他の構成要素又はステップの存在を除外するものではない。

更に、個別に掲載されているが、複数の手段、エレメント、回路又は方法ステップは、例えば単一の回路、ユニット又はプロセッサにより実施化することができる。更に、個々のフィーチャは異なる請求項に含まれているかもしれないが、これらは有利に組み合わせることができ、異なる請求項に含まれることは、フィーチャの組み合わせが可能及び／又は有利でないことを意味するものではない。また、或るフィーチャを或る分類の請求項に含めることは、この分類への限定を意味するものではなく、むしろ、該フィーチャが他の請求項分類にも、適宜、等しく適用可能であることを示すものである。更に、請求項におけるフィーチャの順序は、斯かるフィーチャが実施されるべき如何なる特定の順序を意味するものではなく、特に、方法の請求項における個々のステップの順序は、これらステップが該順序で実行されるべきであることを意味するものではない。むしろ、これらステップは如何なる好適な順序で実行することもできる。更に、単数形の参照は複数を排除するものではない。このように、“或る”、“第１”、“第２”等の参照は、複数を排除するものではない。また、請求項における符号は明瞭化のための例として単に設けられたもので、如何なる形でも当該請求項の範囲を限定するものと見なしてはならない。

Claims

複数のオーディオ信号を表す符号化データ信号を受信する受信器であって、前記符号化データ信号は前記複数のオーディオ信号に関する符号化時間周波数タイルを有し、これら符号化時間周波数タイルは非ダウンミックス時間周波数タイル及びダウンミックス時間周波数タイルを有し、各ダウンミックス時間周波数タイルは前記複数のオーディオ信号の少なくとも２つの時間周波数タイルのダウンミックスであり、各非ダウンミックス時間周波数タイルは前記複数のオーディオ信号の１つのみの時間周波数タイルを表し、前記符号化時間周波数タイルのダウンミックス時間周波数タイル又は非ダウンミックス時間周波数タイルとしての割り当ては、時間周波数タイルの空間的特徴を反映し、前記符号化データ信号は前記複数のオーディオ信号の時間周波数タイルに関するダウンミックス指示情報を更に有し、該ダウンミックス指示情報が、前記複数のオーディオ信号の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示す受信器と、
前記符号化時間周波数タイルから一群の出力信号を発生する発生器であって、該出力信号の発生が、前記ダウンミックス指示情報によりダウンミックス時間周波数タイルであると示された符号化時間周波数タイルに対するアップミックス処理を有する発生器と、
を有し、
前記複数のオーディオ信号のうちの少なくとも１つのオーディオ信号が、前記複数のオーディオ信号のうちの異なる組のオーディオ信号のダウンミックスである２つのダウンミックス時間周波数タイルにより表され、
少なくとも１つのダウンミックス時間周波数タイルが、音源レンダリング構成の公称音源位置に関連付けられていないオーディオオブジェクトと音源レンダリング構成の公称音源位置に関連付けられたオーディオチャンネルとのダウンミックスである、デコーダ。
前記符号化データ信号がパラメータアップミックスデータを更に有し、前記発生器が該パラメータアップミックスデータに応じて前記アップミックス処理を適応化する、請求項１に記載のデコーダ。
前記発生器が、前記複数のオーディオ信号に関する時間周波数タイルを、空間音源構成に対応する出力信号にマッピングするレンダリングユニットを有する、請求項１に記載のデコーダ。
前記発生器は前記符号化時間周波数タイルに対してマトリクス演算を適用することにより前記一群の出力信号のための時間周波数タイルを発生し、該マトリクス演算の係数は、前記符号化時間周波数タイルが非ダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示す符号化時間周波数タイルに対してではなく、前記符号化時間周波数タイルがダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示す符号化時間周波数タイルに対してアップミックス成分を含む、請求項１に記載のデコーダ。
少なくとも１つのオーディオ信号が、復号された信号において、少なくとも１つの非ダウンミックス時間周波数タイル及び少なくとも１つのダウンミックス時間周波数タイルにより表される、請求項１に記載のデコーダ。
少なくとも１つのダウンミックス時間周波数タイルに関する前記ダウンミックス指示情報が、前記複数のオーディオ信号の時間周波数タイルと符号化されたダウンミックス時間周波数タイルとの間のリンクを有する、請求項１に記載のデコーダ。
前記複数のオーディオ信号のうちの少なくとも１つのオーディオ信号が、非ダウンミックス時間周波数タイル又はダウンミックス時間周波数タイルでない少なくとも１つの符号化時間周波数タイルを含む符号化時間周波数タイルにより表される、請求項１に記載のデコーダ。
前記非ダウンミックス時間周波数タイルの少なくとも幾つかが波形符号化される、請求項１に記載のデコーダ。
前記ダウンミックス時間周波数タイルの少なくとも幾つかが波形符号化される、請求項１に記載のデコーダ。
前記発生器は前記ダウンミックス時間周波数タイルをアップミックスして、ダウンミックス時間周波数タイルの前記複数のオーディオ信号の少なくとも１つに関するアップミックスされた時間周波数タイルを発生し、前記発生器は前記一群の出力信号のための時間周波数タイルを、前記符号化時間周波数タイルがダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示すタイルに関する前記アップミックスされた時間周波数タイルを用いて発生する、請求項１に記載のデコーダ。
複数のオーディオ信号を表す符号化データ信号を受信するステップであって、前記符号化データ信号は前記複数のオーディオ信号に関する符号化時間周波数タイルを有し、これら符号化時間周波数タイルは非ダウンミックス時間周波数タイル及びダウンミックス時間周波数タイルを有し、各ダウンミックス時間周波数タイルは前記複数のオーディオ信号の少なくとも２つの時間周波数タイルのダウンミックスであり、各非ダウンミックス時間周波数タイルは前記複数のオーディオ信号の１つのみの時間周波数タイルを表し、前記符号化時間周波数タイルのダウンミックス時間周波数タイル又は非ダウンミックス時間周波数タイルとしての割り当ては、時間周波数タイルの空間的特徴を反映し、前記符号化データ信号は前記複数のオーディオ信号の時間周波数タイルに関するダウンミックス指示情報を更に有し、該ダウンミックス指示情報が、前記複数のオーディオ信号の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すステップと、
前記符号化時間周波数タイルから一群の出力信号を発生するステップであって、該出力信号の発生が、前記ダウンミックス指示情報によりダウンミックス時間周波数タイルであると示された符号化時間周波数タイルに対するアップミックス処理を有するステップと、
を有し、前記複数のオーディオ信号のうちの少なくとも１つのオーディオ信号が、前記複数のオーディオ信号のうちの異なる組のオーディオ信号のダウンミックスである２つのダウンミックス時間周波数タイルにより表され、少なくとも１つのダウンミックス時間周波数タイルが、音源レンダリング構成の公称音源位置に関連付けられていないオーディオオブジェクトと音源レンダリング構成の公称音源位置に関連付けられたオーディオチャンネルとのダウンミックスである、復号する方法。
各々が複数の時間周波数タイルを有する複数のオーディオ信号を入力する入力部と、
前記複数の時間周波数タイルのうちのダウンミックスされるべき第１部分群を選択する選択器と、
前記第１部分群の時間周波数タイルをダウンミックスして、ダウンミックス時間周波数タイルを発生するダウンミキサと、
前記ダウンミックス時間周波数タイルを符号化することにより符号化ダウンミックス時間周波数タイルを発生する第１エンコーダと、
前記オーディオ信号の時間周波数タイルの第２部分群を該第２部分群の時間周波数タイルをダウンミックスせずに符号化することにより符号化非ダウンミックス時間周波数タイルを発生する第２エンコーダと、
前記第１部分群及び前記第２部分群の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すダウンミックス指示情報を発生するユニットと、
前記複数のオーディオ信号を表す符号化オーディオ信号を発生する出力部であって、該符号化オーディオ信号が前記符号化非ダウンミックス時間周波数タイル、前記符号化ダウンミックス時間周波数タイル及び前記ダウンミックス指示情報を有する出力部と、
を有し、
前記選択器が、前記第１部分群の時間周波数タイルを該時間周波数タイルの空間的特徴に応じて選択し、前記複数のオーディオ信号のうちの少なくとも１つのオーディオ信号が、前記複数のオーディオ信号のうちの異なる組のオーディオ信号のダウンミックスである２つのダウンミックス時間周波数タイルにより表され、少なくとも１つのダウンミックス時間周波数タイルが、音源レンダリング構成の公称音源位置に関連付けられていないオーディオオブジェクトと音源レンダリング構成の公称音源位置に関連付けられたオーディオチャンネルとのダウンミックスである、エンコーダ。
前記選択器が、前記第１部分群の時間周波数タイルを前記符号化オーディオ信号に対する目標データレートに応じて選択する、請求項１２に記載のエンコーダ。
前記選択器が、前記第１部分群の時間周波数タイルを：
前記時間周波数タイルのエネルギ；及び
前記時間周波数タイルの対の間のコヒーレンス特性、
のうちの少なくとも１つに応じて選択する、請求項１２に記載のエンコーダ。
各々が複数の時間周波数タイルを有する複数のオーディオ信号を入力するステップと、
前記複数の時間周波数タイルのうちのダウンミックスされるべき第１部分群を選択するステップと、
前記第１部分群の時間周波数タイルをダウンミックスして、ダウンミックス時間周波数タイルを発生するステップと、
前記ダウンミックス時間周波数タイルを符号化することにより符号化ダウンミックス時間周波数タイルを発生するステップと、
前記オーディオ信号の時間周波数タイルの第２部分群を該第２部分群の時間周波数タイルをダウンミックスせずに符号化することにより符号化非ダウンミックス時間周波数タイルを発生するステップと、
前記第１部分群及び前記第２部分群の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すダウンミックス指示情報を発生するステップと、
前記複数のオーディオ信号を表す符号化オーディオ信号を発生するステップであって、該符号化オーディオ信号が前記符号化非ダウンミックス時間周波数タイル、前記符号化ダウンミックス時間周波数タイル及び前記ダウンミックス指示情報を有するステップと、
を有し、
前記選択するステップが、前記第１部分群の時間周波数タイルを該時間周波数タイルの空間的特徴に応じて選択するステップを含み、前記複数のオーディオ信号のうちの少なくとも１つのオーディオ信号が、前記複数のオーディオ信号のうちの異なる組のオーディオ信号のダウンミックスである２つのダウンミックス時間周波数タイルにより表され、少なくとも１つのダウンミックス時間周波数タイルが、音源レンダリング構成の公称音源位置に関連付けられていないオーディオオブジェクトと音源レンダリング構成の公称音源位置に関連付けられたオーディオチャンネルとのダウンミックスである、符号化する方法。
請求項１２に記載のエンコーダ及び請求項１に記載のデコーダを有する、符号化・復号システム。
コンピュータ上で実行された場合に、請求項１１又は請求項１５に記載の方法における全てのステップを実行するコンピュータプログラムコード手段を有する、コンピュータプログラム。