JP2017507365A

JP2017507365A - 複数のオブジェクトオーディオのポスト符号化ビットレート低減

Info

Publication number: JP2017507365A
Application number: JP2016555722A
Authority: JP
Inventors: ゾーランフェジゾ
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2014-03-06
Filing date: 2015-02-26
Publication date: 2017-03-16
Anticipated expiration: 2035-02-26
Also published as: KR20160129876A; CN106233380A; EP3114681B1; JP6620108B2; WO2015134272A1; CN106233380B; PL3114681T3; KR102451342B1; US20160099000A1; EP3114681A1; EP3114681A4; US9564136B2; EP3416165B1; US20150255076A1; EP3416165A1; US9984692B2

Abstract

単一の符号化プレナリーファイルから１より多いスケール圧縮ビットストリームを生成するためのポスト符号化ビットレート低減システム及び方法。プレナリーファイルは、細粒度スケーラビリティを有するスケーラブル符号化処理を使用して別々に符号化された複数のオーディオオブジェクトファイルを包含する。ある期間の符号化オーディオオブジェクトファイルのデータフレームのアクティビティは相互に比較され、データフレームアクティビティ比較を取得する。データフレームアクティビティ比較及び対応する階層メタデータに基づいて利用可能なビットプールからのビットは、データフレームの全てに割り当てられる。プレナリーファイルは、ビット割り当てを順守するためにデータフレームのビットをトランケートすることによってスケールダウンされる。一部の実施形態では、フレームアクティビティは無音閾値と比較され、フレームアクティビティが閾値より小さいか又は等しい場合にデータフレームは無音を包含し、最小ビットは、無音フレームを表すために使用される。【選択図】図８

Description

関連出願の相互参照
本出願は、開示内容全体が引用により本明細書に組み込まれている２０１４年３月６日出願の米国特許出願１４／１９９，７０６号「複数のオブジェクトオーディオのポスト符号化ビットレート低減」に対する優先権を主張する。

オーディオ圧縮技術は、入力オーディオ信号の表現を作成するために使用されるデジタルビット数を最小にする。非圧縮高品質デジタルオーディオ信号は大量のデータを包含することが多い。これらの非圧縮信号の真のサイズは、記憶及び送信にとって望ましくない又は適していないことが多い。

圧縮技術を使用してデジタル信号のファイルサイズを低減することができる。これらの圧縮技術は、将来の再生又は送信のためにオーディオ信号を記憶するのに必要なデジタル記憶スペースを低減する。また、これらの技術を使用して低減されたファイルサイズでオーディオ信号の信頼できる表現を生成することができる。従って、このオーディオ信号の低ビットレートバージョンは制限された帯域幅のネットワークチャネルを通じて低ビットレートで送信することができる。このオーディオ信号の圧縮バージョンは送信後に解凍され、入力オーディオ信号の音響的に許容可能な表現を再構成するようになっている。

一般的な規則として、再構成されるオーディオ信号の品質は、入力オーディオ信号を符号化するために使用されるビット数に反比例する。換言すると、オーディオ信号を符号化するのに使用されるビットが少ない程、再構成されたオーディオ信号と入力オーディオ信号との間の差異が大きくなる。従来のオーディオ圧縮技術は、ビットレート、従って圧縮符号化の際のオーディオ品質レベルを固定する。ビットレートは、時間周期ごとに入力オーディオ信号を符号化するのに使用されるビット数である。低ビットレートで入力オーディオ信号を再コード化するか又は圧縮オーディオ信号を解凍して次に低ビットレートで解凍された信号を再圧縮しないとなれば、ビットレートの更なる低減は達成されない。これらの従来技術は、様々なアプリケーションが様々なビットレートで符号化されるビットストリームを要求する状況に対処するよう「スケーラブル」ではない。

スケーラブルビットストリームを作成するために使用される１つの技術が差分コード化である。差分コード化は、低ビットレートのビットストリームのサブセットから構成される高ビットレートビットストリームとして入力オーディオ信号を符号化する。次に低ビットレートビットストリームを使用して高ビットレートビットストリームを構成する。差分コード化は、スケールされるビットストリームの詳細な分析を必要とし、計算集約的である。この計算集約性は、実時間性能を達成するために著しい処理能力を必要とする。

別のスケーラブルコード化技術は、複数の圧縮方法を使用してレイヤードスケーラブルビットストリームを作成する。この方式は、複合型の圧縮技術を使用して、スケーラブルビットレートの所望の範囲をカバーする。しかしながら、制限されたスケーラビリティ範囲及び制限された解像度が、このレイヤード方式を多くのタイプのアプリケーションに不適切なものにする。これらの理由で、単一の圧縮オーディオビットストリームを記憶して異なるビットレートでこの単一のビットストリームからコンテンツを配信する望ましいシナリオを実現することが難しい場合が多い。

米国特許第７，３３３，９２９号明細書米国特許第７，５４８，８５３号明細書

この概要は、以下の詳細な説明の欄で説明される、単純化された形式での概念の選択を紹介するために提示する。この概要は、請求される主題の主要な特徴又は基本的な特徴を識別することを意図するものではなく、そしてまた請求される主題の範囲を制限するために使用されることを意図するものでもない。

ポスト符号化ビットレート低減システム及び方法の実施形態は、単一のプレナリーファイルから１又は２以上のスケール圧縮ビットストリームを生成する。プレナリーファイルは、別々に符号化された複数のオーディオオブジェクトファイルを包含する。従って、プレナリーファイルの処理は、オーディオオブジェクトファイルがプレナリーファイルのスケーラビリティ特性を使用して符号化された後に実行される。

各符号化オーディオファイルのための符号化処理はスケーラブルであり、これによってビットを符号化オーディオファイルのフレームからトランケートしてファイルサイズを低減することができる。このスケーラビリティは、データが特定のビットレートで符号化されるのを可能にし、符号化データの何らかの割合は、符号化データを適正に復号する能力を保持しながらカットオフ又はドロップさせることができる。例えば、データがビットレートＺで符号化される場合、フレームの半分がカットオフ又はドロップされ、ビットレートの半分（Ｚ／２）を取得し適正に復号することができる。

この細粒度スケーラビリティ及び単一の符号化プレナリーファイルからの作業が大切である１つの事例は、様々な帯域幅デバイスにストリーミングする場合である。例えば、サーバに位置付けられた複数のオーディオオブジェクトファイルのシッティング（sitting）が存在する場合、本システム及び方法の実施形態は、コンテンツプロバイダが達成しようと考える高ビットレートでこれらのオーディオオブジェクトファイルを別々に符号化する。しかしながら、このコンテンツが、携帯電話、自動車、テレビジョンなどの様々な低帯域幅デバイスにストリーミングされる場合には、ビットレートを低減する必要がある。一方で、単一の符号化プレナリーファイルからの作動によって、本システム及び方法の実施形態は、ビットレートが各個々のデバイスのビットレートに対して調節されるようにする。従って、各配信は別々に作り変えられるが、単一のファイルは、様々なビットレートのビットストリームを配信するために使用される。さらに、符号化オーディオオブジェクトファイルは、再符号化する必要はない。

オーディオオブジェクトファイルを再符号化する代わりに、本システム及び方法の実施形態は、符号化プレナリーファイルの単一のバージョンを処理し、次にビットレートをスケールダウンする。ビットレートのスケーリングは、プレナリーファイルをその未圧縮形態にまず復号して次に異なるビットレートで結果として得られた未圧縮データを再符号化する必要なく行われる。これは全て、符号化オーディオオブジェクトファイルを再符号化する必要なく達成することができる。

符号化及び圧縮は、計算コストが高い処理であるが、本システム及び方法の実施形態のポスト符号化ビットレートスケーリングは非常に軽量な処理である。これは、本システム及び方法の実施形態が、各異なるチャネルビットレートを提供するために同時マルチ符号化を実行する既存のシステム及び方法と比較して小さなサーバ要件しか必要としないことを意味する。

本システム及び方法の実施形態は、単一のプレナリーファイルからスケール圧縮ビットストリームを生成する。プレナリービットレートのプレナリーファイルは、複数の別々に符号化されたオーディオオブジェクトファイルを結合することによって作成される。オーディオオブジェクトは、特定のサウンド又はサウンドの組合せのソース信号である。一部の実施形態では、プレナリーファイルは、符号化オーディオオブジェクトファイルに対応する階層メタデータを含む。この階層メタデータは、他の符号化オーディオオブジェクトファイルに対する各符号化オーディオオブジェクトファイルの優先順位情報を包含する。例えば、映画のサウンドトラックのダイアログオーディオオブジェクトは、街頭雑音のオーディオオブジェクト（同じ期間中）よりも大きな加重付けを行うことができる。一部の実施形態では、各符号化オーディオオブジェクトファイルの全体的な時間の長さがプレナリーファイルで使用される。これは、符号化オーディオオブジェクトファイルが無音期間を含む場合でも符号化オーディオオブジェクトファイルがプレナリーファイルに含まれることを意味する。

オーディオオブジェクトファイルの各々は、データフレームにセグメント化される。期間が選択され、その指定された期間の符号化オーディオファイルの各々のデータフレームのデータフレームアクティビティが互いに比較される。これは、選択された期間の符号化オーディオファイルの全てに対するデータフレームアクティビティ比較を与える。次に、データフレームアクティビティ比較及び場合によっては階層メタデータに基づいて選択された期間中の符号化オーディオオブジェクトファイルのデータフレームの各々に利用可能なビットプールからビットが割り当てられる。これは選択された期間のビット割り当てをもたらす。一部の実施形態では、階層メタデータは、ファイルがユーザの優先順位で又は重要度の順序でランク付けされるように符号化オーディオオブジェクトファイル優先順位を包含する。利用可能なビットプールからのビットは、選択された期間のデータフレームの全て及び符号化オーディオオブジェクトファイルの全てに割り当てられる点に留意されたい。換言すると、所与の期間に、各々の及び全てのオーディオオブジェクトファイル及びそのフレームは、ビットを受け取るが、一部のファイルは、そのフレームアクティビティ及び他の要因に基づいて他より多くのビットを受け取る。

データフレームアクティビティの測定は、符号化ビットストリームで利用可能な任意の数のパラメータにも基づくことができる。例えば、オーディオレベル、ビデオアクティビティ、及びフレームアクティビティの他の尺度を使用して、データフレームアクティビティを測定することができる。また、本システム及び方法の一部の実施形態では、データフレームアクティビティが符号器側で測定され、１フレーム当たりの１つの数値（one number）などのビットストリームに埋め込まれる。他の実施形態では、復号フレームをフレームアクティビティのために分析することができる。

一部の実施形態では、データフレームアクティビティは、フレーム間で比較される。多くの場合、期間中、一部のデータフレームに大きなアクティビティが存在し、他のデータフレームはアクティビティが小さいことになる。データフレーム比較は、期間を選択し、次に期間中のデータフレーム内のデータフレームアクティビティを測定することを含む。符号化オーディオオブジェクトの各々のフレームは、選択された期間中に調べられる。次に、データフレームの各々のデータフレームアクティビティは他のフレームと比較され、データフレームアクティビティ比較を取得する。この比較は、期間中の他のデータフレームに対する特定のデータフレームのアクティビティの尺度である。

次に、本システム及び方法の実施形態は、ビット割り当てに従ってデータフレームのビットをトランケートすることによってプレナリーファイルをスケールダウンして削減フレームを生成する。このビットトランケーションは、プレナリーファイルのスケーラビリティを使用して逆ランキング順でデータフレームのビットをトランケートする。これはビット割り当てにおけるデータフレームに割り当てられるビット数をもたらし、低ランキングビットは、高ランキングビットの前にトランケートされるようになっている。一部の実施形態では、符号化オーディオオブジェクトファイル内のフレームのスケーラビリティは、オーディオオブジェクトファイルの周波数領域表現から音色を抽出することを含み、少なくとも一部の音色が取り除かれたオーディオオブジェクトファイルを表わす時間領域残余信号を取得する。抽出された音色及び時間領域残余信号は複数のデータチャンクにフォーマット化され、各データチャンクは複数のデータバイトを含む。符号化オーディオオブジェクトファイルのデータフレームにおけるデータチャンク及びデータチャンクのビットの両方は、心理音響的重要度の順序で順序付けされ、最も重要なビットから重要でないビットまでのランキング順を取得する。

ビット低減符号化オーディオオブジェクトファイルは、削減フレームから取得される。次に、各ビット低減符号化オーディオオブジェクトファイルは一緒に多重化され、単一のプレナリーファイルのポスト符号化ビットレート低減を助長するためにスケール圧縮ビットストリームがプレナリービットレートより低い又はこれに等しいターゲットビットレートを有するように、スケール圧縮ビットストリームにパックされる。

選択された期間の各データフレームに対する測定されたデータフレームアクティビティは、無音閾値と比較され、データフレームのいずれかにアクティビティの最小量が存在するか否かを決定する。特定のデータフレームのデータフレームアクティビティが無音閾値より小さいか又は等しい場合には、そのデータフレームは無音データフレームとして指定される。さらに、そのデータフレームを表わすために使用されるビット数は、ビットの何らかの低減なしに保持される。他方、特定のデータフレームのデータフレームアクティビティが無音閾値より大きい場合には、データフレームアクティビティをフレームアクティビティバッファに記憶する。選択された期間に関する利用可能なビットプールは、選択された期間に割り当てられたビット数から、選択された期間中の無音データフレームによって使用されたビットを差し引くことによって決定される。

一部の実施形態では、スケール圧縮ビットストリームが、ターゲットビットレートより小さいか又は等しいビットレートでネットワークチャネルを通じて送信される。ビットストリームは、受信デバイスによって受信され、次に、復号オーディオオブジェクトファイルを取得するために解凍される。一部のシナリオでは、復号オーディオオブジェクトファイルはミキシングされオーディオオブジェクトミックスを作成する。ユーザは、復号オーディオオブジェクトを手動で又は自動的にミキシングして、オーディオオブジェクトミックスを作成する。加えて、階層メタデータにおける符号化オーディオオブジェクトファイルは、オーディオオブジェクトミックスにおける空間位置に基づいて優先順位付けすることができる。さらに、復号オーディオオブジェクトファイルの２又は３以上は、ミックスにおけるその位置に基づく空間マスキングのために相互に依存することができる。

本システム及び方法の実施形態は、単一のプレナリーファイルから複数のスケール圧縮ビットストリームを取得するために使用することもできる。これは、複数のオーディオオブジェクトファイルを別々に符号化することによって行われ、細粒度スケーラビリティを有するスケーラブルビットストリーム符号器を使用してプレナリービットレートの複数の符号化オーディオオブジェクトファイルを取得する。この細粒度スケーラビリティ特性は、人間の聴覚に対する心理音響的重要度の順序で符号化オーディオオブジェクトファイルの各データフレームのビットをランキングする。プレナリーファイルは、複数の単独で符号化されたオーディオオブジェクトファイル及び対応する階層メタデータを結合することによって生成される。複数の符号化オーディオオブジェクトファイルの各々は、プレナリーファイルの全持続時間に永続的に存在する。

第１のターゲットビットレートの第１のスケール圧縮ビットストリームは、プレナリーファイル並びに第２のターゲットビットレートの第２のスケール圧縮ビットストリームから構成される。これは、複数の符号化オーディオオブジェクトファイルの何らかの再符号化なしに、単一のプレナリーファイルから様々なターゲットビットレートの複数のスケールビットストリームをもたらす。さらに、第１のターゲットビットレート及び第２のターゲットビットレートは互いに異なり、両者はプレナリービットレートよりも小さい。第１のターゲットビットレートは、第１のスケール圧縮ビットストリームがネットワークチャネルを通じて送信される最大ビットレートである。

上述のように、選択された期間の複数の符号化オーディオファイルの各々のデータフレームのデータフレームアクティビティは相互に比較され、データフレームアクティビティ比較を取得するようになっている。このデータフレームアクティビティ比較及び第１のターゲットビットレートは、選択された期間に基づいて符号化オーディオオブジェクトファイルのデータフレームの各々にビットを割り当てるために使用され、選択された期間に対するビット割り当てを取得するようになっている。プレナリーファイルは、ビット割り当てに従ってデータフレームのビットをトランケートすることによってスケールダウンされ、第１のターゲットビットレートを達成しかつビット低減符号化オーディオオブジェクトファイルを取得するようになっている。これらのビット低減符号化オーディオオブジェクトファイルは一緒に多重化され、ビット低減オーディオオブジェクトファイルは、第１のターゲットビットレートで第１のスケール圧縮ビットストリームにパックされる。第１のスケール圧縮ビットストリームは、第１のターゲットビットレートで受信デバイスに送信され、復号オーディオオブジェクトを取得するために復号される。これらの復号オーディオオブジェクトは、ミキシングされオーディオオブジェクトミックスを作成する。

代替的な実施形態が可能であり、本明細書で論じるステップ及び要素を特定の実施形態に応じて変更、追加、又は削除できる点に留意されたい。これらの代替的な実施形態は、本発明の範囲から逸脱することなく使用できる代替的なステップ及び代替的な要素、並びに実施可能な構造的変更を含む。

同じ参照番号が全体を通して対応する部品を表わす図面を参照する。

ポスト符号化ビットレート低減システム及び方法の実施形態の概要を示すブロック図である。単一のプレナリーファイルから複数のスケール圧縮ビットストリームを取得するポスト符号化ビットレート低減システムの実施形態の概要を示すブロック図である。図１及び２に示したポスト符号化ビットレート低減システムの第１の実施形態の詳細を示すブロック図である。図１及び２に示したポスト符号化ビットレート低減システムの第２の実施形態の詳細を示すブロック図である。図１及び４に示したスケーラブルビットストリーム符号器の例示的な実施形態を示すブロック図である。ネットワーキング環境で実施されるポスト符号化ビットレート低減システム及び方法の実施形態の例示的な例を示すブロック図である。図３に示したフレーム毎の階層ビット割り当てモジュールの詳細を示すブロック図である。図１−７に示したポスト符号化ビットレート低減システム及び方法の実施形態の一般的な動作を示す流れ図である。図１−８に示したポスト符号化ビットレート低減システム及び方法の実施形態の第１の実施形態の詳細を示す流れ図である。図１−９に示したポスト符号化ビットレート低減システム及び方法の一部の実施形態によるオーディオフレームを示す図である。図１に示したスケーラブルビットストリーム符号器によって生成されるデータのスケーラブルフレームの例示的な実施形態を示す図である。プレナリーファイルを複数のフレーム及び期間に分割する段階の例の例示的な実施形態を示す図である。期間内のプレナリーファイルのフレームの詳細を示す図である。

ポスト符号化ビットレート低減システム及び方法の実施形態の以下の説明では、添付の図面を参照する。これらの図面は、ポスト符号化ビットレート低減システム及び方法の実施形態がどのように実施されるかの特定の例を例証によって示す。他の実施形態を利用できること及び請求される主題の範囲から逸脱することなく構造的な変更を行い得ることを理解されたい。

Ｉ．序文
オーディオオブジェクトは、特定の音又は音の組合せのソース信号である。状況によっては、オーディオオブジェクトが、それに関連付けられるレンダリングメタデータを含むこともある。レンダリングメタデータは、オーディオオブジェクトが再生中にオーディオ空間にどのようにレンダリングされるかを指示するオーディオオブジェクトに伴うデータである。このメタデータは、多次元オーディオ空間情報、空間内の位置情報、及びサラウンド配列情報を含むことができる。

オーディオオブジェクトは、個々の楽器及びボーカルなどの様々なタイプの音源を表わすことができる。さらに、オーディオオブジェクトは、サブミックス、サブグループ、又はバス（ｂｕｓ）と呼ばれる場合もあるオーディオステムを含むことができる。オーディオステムは、弦楽器セクション、管楽器セクション、又は街頭騒音などのオーディオコンテンツのグルーピングを包含する単一トラックとすることもできる。

従来のオーディオコンテンツ製作環境では、オーディオオブジェクトが録音される。次に専門のオーディオエンジニアがオーディオオブジェクトを最終的なマスタミックスにミキシングする。次に結果として得られたミックスが最終ユーザに配信されて再生される。一般的に、オーディオオブジェクトのこのミックスが最終版であり、エンドユーザはミックスの変更を仮想的に行うことができない。

従来のオーディオコンテンツ製作とは対照的に、マルチオブジェクトオーディオ（又は「マルチオブジェクトオーディオ」）は、エンドユーザが配信後にオーディオオブジェクトをミキシングするのを可能にする。特定の又は提案される方法でこのポスト配信ミキシングを制御及び指示する１つの方法は、オーディオコンテンツと共に送信される埋込みメタデータを使用することによる。別の方法は、エンドユーザがオーディオオブジェクトを直接処理及びミキシングするのを可能にするユーザ制御を提供することによる。マルチオブジェクトオーディオは、エンドユーザが独特の及び高度に個別化されたオーディオ表現を作成するのを可能にする。

マルチオブジェクトオーディオは、記憶デバイスにファイルとして記憶して、次に要求時にビットストリームで送信することができる。オーディオビットストリームを圧縮又は符号化して、ビットストリームを送信するのに必要なビットレート及びファイルを記憶するのに必要な記憶スペースを低減することができる。一般的に、例証であり限定ではなく、ビットストリームの圧縮は、ビットストリームを表現するために情報があまり使用されないことを意味する。他方、ビットストリームの符号化は、ビットストリームが例えば記号を使用して別の形態で表現されることを意味する。しかしながら、符号化は常にビットストリームを圧縮するわけではない。

符号化ビットストリームは、有限帯域幅ネットワークチャネル上で送信される。ポスト符号化ビットレート低減システム及び方法の実施形態は、別々に符号化されたオーディオオブジェクトを取得し、これを互いに及び付加的なデータと結合して符号化ビットストリームを生成する。別々に符号化されたオーディオオブジェクトが送信される際に、符号化オーディオオブジェクトを包含する符号化ビットストリームの帯域幅は、ネットワークチャネルの容量を超える場合が多い。このような場合、特定のアプリケーションに不適切な低ビットレートを有するビットストリームをネットワークチャネル上で送信することができる。これは、受信されたオーディオデータの低品質につながる可能性がある。

この品質の低下は、オーディオデータの複数のストリーム（マルチオーディオオブジェクトなど）が共通ネットワークチャネル上の同時又はほぼ同時の送信のために多重化される場合に特に問題になる。これは、場合によっては各符号化されたオーディオオブジェクトの帯域幅が比例的に低下するためであり、各オーディオオブジェクト又はオーディオオブジェクトのグループの関係のあるコンテンツを考慮に入れない可能性がある。例えば、１つのオーディオオブジェクトは音楽を包含する場合があり、別のオーディオオブジェクトは街頭騒音を包含する場合がある。各オーディオオブジェクトの帯域幅を比例的に低下させることは、街頭騒音よりも音楽データに悪影響を及ぼす可能性がある。

符号化されたビットストリームが特定のビットレートでネットワークチャネルを通じて送信されチャネル状態が変化する可能性がある期間がある。例えば、チャネルの帯域幅が妨げられて低送信ビットレートを要求する可能性がある。これらの状況では、ポスト符号化ビットレート低減システム及び方法の実施形態が、符号化ビットストリームビットレートのスケーリングを調節することによってネットワーク状態のこの変化に対応することができる。例えば、ネットワークチャネルの帯域幅が制限された場合に、符号化ビットストリームのビットレートは、ネットワークチャネルを通じた送信が継続されるように降下する。オーディオオブジェクトを再符号化する代わりに、本システム及び方法の実施形態は、符号化ビットストリームの単一バージョンを処理し、次にビットレートをスケールダウンする。次に結果として得られたスケールビットストリームは、低減されたビットレートでネットワークチャネルを通じて送信することができる。

種々のネットワークチャネルを通じて様々なビットレートで単一の符号化ビットストリームを送信することが望ましいシナリオが発生することがある。例えばネットワークチャネルの各々が様々な容量及び帯域幅を有する場合に又はビットストリームが様々な容量を有するデバイスによって受信される場合に、これが発生する可能性がある。この状況では、本システム及び方法の実施形態は、各チャネルに対して個々に符号化又は圧縮する必要性を軽減する。代わりに、符号化ビットストリームの単一のバージョンが使用され、ビットレートのスケーリングが各チャネルの容量に応じて調節される。

符号化ビットストリームは、リアルタイムで又は実質的にリアルタイムで処理することができる。例えば、ライブスポーツイベントの放送時等の、全オーディオファイル又はプログラムへのアクセスを必要とすることなく、実質的にリアルタイムで発生することができる。加えて、オーディオデータは、オフラインで処理してリアルタイムで再生することができる。これは、ビデオオンデマンドアプリケーション等による全オーディオファイル又はプログラムへのアクセスが存在する場合に発生する。符号化オーディオビットストリームの場合、これは複数のオーディオオブジェクトを含むことができ、その一部又は全部は、音情報及び関連のメタデータを含む。このメタデータは、限定されるわけではないが、空間における位置、速度、軌跡などを含む位置情報、広がり、放射パラメータなどを含む音響特性を含むことができる。

各オーディオオブジェクト又はオーディオオブジェクトのグループは、同一の又は異なる符号化技術を使用して別々に符号化することができる。符号化は、ビットストリームのフレーム又はブロックで実行することができる。「フレーム」は、オーディオ信号の圧縮及びコード化で使用されるデータの時間的な個別セグメントである。これらのデータフレームは、連続シーケンスで逐次（映写スライドのように）配置することができ、圧縮オーディオビットストリームを作成する。各フレームは固定サイズであり、一定の時間間隔を含むことを表わす。フレームサイズは、パルスコード変調（ＰＣＭ）サンプルレート及びコード化ビットレートに依存する。

データの各フレームは、典型的には、後続のデータに関する情報を包含するヘッダが先行する。ヘッダの後にエラー検出及び訂正データが続き、フレームの残りがオーディオデータを包含する。オーディオデータは、特定の時点でのＰＣＭデータ及び振幅（音量）情報を含む。明瞭な音を生成するために、何万ものフレームが順次再生され周波数を生成する。

特定のアプリケーションの目的に応じて、様々なフレーム（例えば同じオブジェクトのフレームであるが異なる時間で発生するフレーム）を、例えばフレームのオーディオコンテンツに基づく様々なビットレートを使用して符号化することができる。この方式は、符号化データのサイズが経時的に変化するので可変ビットレート（ＶＢＲ）コード化と呼ばれる。このような方式は、融通性を提供して符号化データの品質対帯域幅比を改善することができる。代わりに、同じビットレートを使用してフレームを符号化することができる。この方式は、符号化データのサイズが経時的に一定であるので一定ビットレート（ＣＢＲ）コード化と呼ばれる。

分離を維持するために非符号化及び非圧縮方式で単独でオーディオオブジェクトを送信することが可能ではあるが、これは、通常大きなファイルを送信するのに一般的に必要な大きな帯域幅要件のために、普通は実現可能ではない。従って、オーディオ圧縮及び頻繁な符号化の幾つかの形態を使用して、マルチオブジェクトオーディオのエンドユーザへの経済的な配信を促進する。各オーディオオブジェクトの間の適切な音響分離を維持しながら、ビットレートを低減するためにオーディオオブジェクトを包含するオーディオ信号を符号化することは難しいことが分かっている。

例えば、複数のオーディオオブジェクトのための一部の既存のオーディオ圧縮技術は、各オブジェクトの依存関係に基づく。特に、結合符号化技術は、位置、空間マスキング、及び周波数マスキングなどの因子に基づくオーディオオブジェクトの依存関係を頻繁に使用する。しかしながら、これらの結合符号化技術に伴う１つの問題は、その配置が配信の前に知られていない場合にオブジェクト間の空間及び周波数マスキングを予測するのが難しいことである。

既存のオーディオ圧縮技術の別のタイプは、一般的には計算コストが高い復号及びレンダリングシステム、並びにマルチオーディオオブジェクトを別々に伝達するための高い伝送速度又はデータ記憶速度を必要とする離散的なオブジェクトベースのオーディオシーンコーディングである。マルチオブジェクトオーディオを配信するための符号化技術の別のタイプは、マルチチャネル空間オーディオコーディングである。しかしながら、離散的なオブジェクトベースのオーディオシーンコーディング技術とは異なり、この空間オーディオコーディング方式は分離可能なオーディオオブジェクトを定義しない。結果的に、空間オーディオ復号器は、ダウンミックスオーディオ信号の各オーディオオブジェクトの寄与を分離することができない。

マルチオーディオオブジェクトをコード化するためのさらに別の技術は、空間オーディオオブジェクトコーディング（ＳＡＯＣ）である。しかしながら、ＳＡＯＣ技術は、時間−周波数領域で同時に起こるダウンミックス信号のオーディオオブジェクトを十分に分離することができない。結果的に、ＳＡＯＣ復号器によるオブジェクトの大規模な増幅又は減衰は、対話型ユーザ制御に必要なので、再生されたシーンのオーディオ品質における顕著な劣化を起こす可能性がある。

教育的な目的及び例証の容易さに関して、本明細書は主にオーディオデータの使用に言及することに留意されたい。しかしながら、本明細書に記載の特徴は、映像データ並びに地震及び医療データなどの時系列信号を包含するデータを含む他の形態のデータにも適用することができる。加えて、本明細書に記載の特徴は、データの記憶及びデータの送信などのいずれのタイプのデータの操作にも仮想的に適用することができる。

ＩＩ．システムの概要
ポスト符号化ビットレート低減システム及び方法の実施形態は、一部のプレナリービットレートで複数のオーディオオブジェクトファイルを別々にかつ独立して符号化する。次に本システム及び方法の実施形態は、これらの符号化オーディオオブジェクトファイルをそれに関連する階層化メタデータと結合してプレナリーファイルを生成する。複数のビットストリームは、単一のプレナリーファイルから取得することができる。これらの複数のビットストリームは、プレナリービットレートより小さいか又は等しいターゲットビットレートである。スケーリングとして公知であるこのビットレート変更は、最適品質が各スケールビットレートで維持されることを保証する。さらに、ビットレートのスケーリングは、最初にプレナリーファイルをその非圧縮形式に戻し、次に結果として得られた非圧縮データを異なるビットレートで再符号化することを必要とせずに達成される。

以下に詳しく説明するように、このスケーリングはその一部が以下のように達成される。第１に、オーディオオブジェクトファイルは、各フレームのビットを、心理音響的重要度に基づいて順序付けるスケーラブルビットストリーム符号器を使用して、別々に符号化される。また、このスケーラブル符号化は、フレームの中のビットを取り除くことによってファインスケール方式でビットレートの変更を可能にする。第２に、各フレーム時間間隔で、オブジェクトファイルの各々の中の対応するフレームアクティビティが検討される。次に、これらのフレームアクティビティ尺度の間の相対的な関係に基づいて、本システム及び方法の実施形態は、各圧縮オブジェクトファイルのどのフレームペイロードが維持されるかを決定する。換言すると、オーディオオブジェクトファイルの各フレームペイロードは、その測定されたマルチメディアフレームアクティビティ及び共に多重化される全ての他のオーディオオブジェクトファイルにおける全てのフレームアクティビティとの関係に基づいてスケールされる。

図１は、ポスト符号化ビットレート低減システム１００の実施形態の概要を示すブロック図である。システム１００はサーバコンピュータデバイス１１０に配置される。システム１００の実施形態は、入力としてオーディオ信号１２０を受信する。オーディオ信号１２０は多種多様な形態及び種類の様々なタイプのコンテンツを包含することができる。さらに、オーディオ信号１２０は、アナログ、デジタル、又は他の形態とすることができる。そのタイプは、連続するストリーム又は何らかの他のタイプの、反復的な離散的総量で発生する信号とすることができる。入力信号のコンテンツは、オーディオデータ、ビデオデータ、又は双方を含む仮想的なものとすることができる。一部の実施形態では、オーディオ信号１２０は、複数のオーディオオブジェクトファイルを包含する。

システム１００の実施形態は、オーディオ信号１２０に包含されるオーディオオブジェクトファイルの各々を個々に符号化するスケーラブルビットストリーム符号器１３０を含む。スケーラブルビットストリーム符号器１３０は、複数の符号器とすることができる点に留意されたい。図１に示すように、スケーラブルビットストリーム符号器１３０からの出力は、符号化オーディオオブジェクトファイル（１）から符号化オーディオオブジェクトファイル（Ｍ）を含む、独立して符号化されたＭ数のオーディオオブジェクトファイルであり、Ｍはゼロではない正の整数である。符号化オーディオオブジェクトファイル（１）から（Ｍ）は、関連した階層メタデータと結合されてプレナリーファイル１４０が得られる。

特定のターゲットビットレート１６０を有するビットストリームが望まれる場合は必ず、プレナリーファイル１４０は、ビット低減モジュール１５０によって処理され所望のビットストリームを生成する。ビット低減モジュール１５０は、プレナリーファイル１４０を処理して、ターゲットビットレート１６０より小さいか又は等しいビットレートを有するスケール圧縮ビットストリーム１７０を生成する。スケール圧縮ビットストリーム１７０が生成された状態で、次に受信デバイス１８０に送信される。サーバコンピュータデバイス１１０は、ネットワーク１８５を通じて他のデバイス（受信デバイス１８０等）と通信する。サーバコンピュータデバイス１１０は、第１の通信リンク１９０を使用してネットワーク１８５にアクセスし、受信デバイス１８０は第２の通信リンク１９５を使用してネットワーク１８５にアクセスする。このように、スケール圧縮ビットストリーム１７０は、受信デバイス１８０によって要求され受信デバイス１８０に送信される。

図１に示した実施形態では、ネットワークチャネルは、第１の通信リンク１９０、ネットワーク１８５、及び第２の通信リンク１９５を含む。ネットワークチャネルは、特定の最大帯域幅を有し、ターゲットビットレート１６０としてビット低減モジュールに伝えられる。スケール圧縮ビットストリーム１７０は、チャネルの最大帯域幅を超えないようにターゲットビットレートで又はそれより下でネットワークチャネルを通じて送信される。

上述のように、状況によっては多様な容量を有する複数のネットワークチャネルを通じて様々なビットレートで単一のプレナリーファイルを送信することが望ましい場合がある。図２は、単一のプレナリーファイル１４０から複数のスケール圧縮ビットストリームを取得するポスト符号化ビットレート低減システム１００の実施形態の概要を示すブロック図である。図２に示すように、プレナリーファイル１４０は、特定のプレナリービットレートのＭ数の符号化オーディオオブジェクトファイルを包含する。具体的には、図２は、プレナリービットレートでの符号化オーディオオブジェクトファイル（１）、プレナリービットレートでの符号化オーディオオブジェクトファイル（２）、プレナリービットレートでの符号化オーディオオブジェクトファイル（３）、及びプレナリービットレートで符号化オーディオオブジェクトファイル（Ｍ）を含むあらゆる付加的な符号化オーディオオブジェクトファイルを示す（省略記号で示す）。

符号化オーディオオブジェクトファイル（１）から符号化オーディオオブジェクトファイル（Ｍ）は、プレナリービットレートでスケーラブルビットストリーム符号器１３０によって単独で符号化される。プレナリービットレートはターゲットビットレート１６０より高い。典型的にはターゲットビットレート１６０は、チャネルの利用可能な帯域幅を超えることなくネットワークチャネルを通じてコンテンツを送信するために使用されるビットレートである。

一部の実施形態では、プレナリーファイル１４０は、Ｍ個の単独符号化オーディオオブジェクトファイルを符号化するために高ビットレートを使用し、レナリーファイル１４０のサイズがかなり大きい。プレナリーファイル１４０のコンテンツが制限された帯域幅を有するネットワークチャネルを通じて送信される場合にこれは問題になる。以下に詳しく説明するように、制限された帯域幅チャネルを通じて大きなサイズのファイル（プレナリーファイル１４０など）を送信することに関わる問題を軽減するために、符号化オーディオオブジェクトファイル（１）から（Ｍ）は、ビット低減モジュール１５０によって処理され、単一のプレナリーファイル１４０から複数のスケール符号化ビットストリームを作成する。これは、ビット割り当てに基づいてデータフレームの順序付けられたデータのチャンクを取り除くことによって一部達成される。

図１には単一のターゲットビットレート１６０が示されているが、シナリオによっては、複数のターゲットビットレートが存在する場合がある。例えば、プレナリーファイル１４０を、各々が様々なビットレートを有する様々なネットワークチャネルを通じて送信することが望ましい場合がある。図２に示すように、Ｎ数のターゲットビットレート２００が存在し、ここでＮは正のゼロではない整数である。ターゲットビットレート２００は、ターゲットビットレート（１）、ターゲットビットレート（２）など、最大ターゲットビットレート（Ｎ）までを含む。

ビット低減モジュール１５０は、プレナリーファイル１４０のビットレートをスケール調整するためにターゲットビットレート１６０を受信し、結果として得られたスケール符号化ビットストリームは、特定の制限された帯域幅チャネルに適合することになる。ターゲットビットレート２００は、典型的には、インターネットサービスプロバイダ（ＩＳＰ）から送信され、本システム１００及び方法の実施形態に、ビットストリームが送信されるネットワークチャネルの帯域幅のニーズ及び容量を通知する。ターゲットビットレート２００は、プレナリービットレートより小さいか又はこれに等しい。

図２の例示的な実施形態では、ターゲットビットレート２００はＮの異なるターゲットビットレートを含み、ここでＮは、Ｍに等しい、Ｍより小さい、又はＭより大きいとすることができるゼロではない正の整数である。ターゲットビットレート２００は、ターゲットビットレート（１）、ターゲットビットレート（２）、場合によっては付加的なターゲットビットレート（省略記号で示す）、及びターゲットビットレート（Ｎ）を含む。典型的には、ターゲットビットレート２００は互いに異なることができるが、一部の実施形態では同様とすることもできる。また、ターゲットビットレート２００の各々は、一緒に又は経時的に独立して送信できる点に留意されたい。

図２に示したスケール圧縮ビットストリームは、ターゲットビットレート２００に対応する。例えば、ターゲットビットレート（１）は、ターゲットビットレート（１）でスケール圧縮ビットストリーム（１）を生成するために使用され、ターゲットビットレート（２）は、ターゲットビットレート（２）でスケール圧縮ビットストリーム（２）を生成するために使用され、場合によってはターゲットビットレートで付加的なスケール圧縮ビットストリーム（省略記号で示す）及びスケール符号化ファイル（Ｎ）を生成し、ここでＮは、上述のように同じゼロでない正の整数である。一部の実施形態では、個々のターゲットビットレートは、類似又は同一とすることができるが、一般的には個々のターゲットビットレートは互いに異なる。

教育的な目的で、特定の数の符号化オーディオオブジェクトファイル、ターゲットビットレート、及びスケール圧縮ビットストリーム（図２に示す）が存在する点に留意されたい。しかしながら、Ｎ＝１、Ｍ＝１の場合も存在でき、単一のスケール圧縮ビットストリームがプレナリーファイル１４０から取得される。他の実施形態では、Ｎを大きな数にすることができ幾つかのスケール圧縮ビットストリームがプレナリーファイル１４０から取得される。さらに、スケール圧縮ビットストリームは、クライアントからの要求に応じてオンザフライで生成することができる。代わりに、スケール圧縮ビットストリームは、事前に生成して記憶デバイスに記憶することができる。

ＩＩＩ．システムの詳細
ポスト符号化ビットレート低減システム１００の実施形態の構成要素のシステム詳細をここで説明する。これらの構成要素は、ビット低減モジュール１５０、スケーラブルビットストリーム符号器１３０、及びフレーム毎の階層ビット割り当てモジュールを含む。加えて、受信デバイス１８０のスケール圧縮ビットストリーム１７０の復号を説明する。本システムを実施できる幾つかの方法のうちの幾つかを以下に詳述する点に留意されたい。多くの変形例が可能である。

図３は、図１及び２に示したポスト符号化ビットストリーム低減システム１００の第１の実施形態の詳細を示すブロック図である。この特定の実施形態では、オーディオオブジェクトファイルが前もって単独で及び別々に符号化されており、プレナリーファイル１４０に包含される。プレナリーファイル１４０は、ポスト符号化ビットレート低減システム１００の実施形態に入力される。システム１００は、更なる処理のためにプレナリービットレートで個々に符号化されたオーディオオブジェクトファイル３００を受信する。

個々に符号化されたオーディオオブジェクトファイル３００は、ビット低減モジュール１５０によって処理される。以下に詳しく説明するように、ビット低減モジュール１５０は、ターゲットビットレート２００を達成するために符号化オーディオオブジェクトファイルを表わすために使用されるビット数を低減する。ビット低減モジュール１５０は個々に符号化されたオーディオオブジェクトファイル３００を受信して、これをフレーム毎の階層ビット割り当てモジュール３１０を使用して処理する。このモジュール３１０は、階層ビット割り当て方式に基づいてフレームの各々のビット数を低減する。モジュール３１０の出力は、ビット低減符号化オーディオオブジェクトファイル３２０である。

統計的マルチプレクサ３３０は、ビット低減符号化オーディオオブジェクトファイル３２０を取得してこれを結合する。一部の実施形態では、統計的マルチプレクサ３３０は、チャネル容量又は帯域幅（ビット数で測定）を、少なくとも部分的に階層ビット割り当て方式に基づいて各符号化オーディオオブジェクトファイル１からＭに割り当てる。一部の実施形態では、符号化オーディオオブジェクトファイルは可変ビットレート（ＶＢＲ）符号化データであり、統計的マルチプレクサ３３０は固定ビットレート（ＣＢＲ）符号化データを出力する。

一部の実施形態では、統計的マルチプレクサ３３０は、ビット割り当て中に符号化オーディオオブジェクトファイルの他の特徴を考慮する。例えば、符号化オーディオオブジェクトファイルのオーディオコンテンツ（音楽、会話、雑音など）が該当する。単純な衝突音（雑音など）に関連付けられる符号化オーディオオブジェクトファイルは、音楽トラックに関連付けられるオブジェクトよりも小さな帯域幅を必要とする場合がある。別の実施例として、オブジェクトの音量は、帯域幅割り当てに使用することができる（これによって音量の大きなオブジェクトは、より多くのビット割り当ての恩恵を受けることができる）。さらに別の実施例として、オブジェクトに関連付けられるオーディオデータの周波数は、同様にビット割り当てに使用することができる（これによって広帯域オブジェクトは、より多くのビット割り当ての恩恵を受けることができる）。

次に、ビットストリームパッカー３４０は、多重化ビット低減符号化オーディオオブジェクトファイル３２０を処理して、これを送信するためにフレーム及びコンテナにパックする。ビットストリームパッカー３４０の出力は、可変サイズのフレームペイロードを包含するスケール圧縮ビットストリーム１７０である。スケール圧縮ビットストリーム１７０は、ターゲットビットレート１６０より小さいか又は等しいビットレートである。

一部の実施形態では、オーディオオブジェクトファイルはまだ符号化されていない。図４は、図１及び２に示したポスト符号化ビットレート低減システム１００の第２の実施形態の詳細を示すブロック図である。符号化されていないオーディオオブジェクトファイル４００は、システム１００の実施形態によって受信される。スケーラブルビットストリーム符号器１３０は、プレナリーファイル１４０を取得するためにオーディオオブジェクトファイル４００の各々を単独で符号化する。

プレナリーファイル１４０は、ビット低減モジュール１５０に入力される。フレーム毎の階層ビット割り当てモジュール３１０は、プレナリーファイル１４０を処理してビット低減符号化オーディオオブジェクトファイル３２０を取得する。統計的マルチプレクサ３３０は、ビット低減符号化オーディオオブジェクトファイル３２０を取得し、これを結合する。次にビットストリームパッカー３４０は、多重化ビット低減符号化オーディオオブジェクトファイル３２０を処理して、これを送信するためにフレーム及びコンテナにパックする。ビットストリームパッカー３４０の出力は、可変サイズのフレームペイロードを包含するスケール圧縮ビットストリーム１７０である。スケール圧縮ビットストリーム１７０は、ターゲットビットレート１６０より小さいか又は等しいビットレートである。

図５は、図１及び４に示したスケーラブルビットストリーム符号器１３０の例示的な実施形態を示すブロック図である。スケーラブルビットストリーム符号器１３０のこれらの実施形態は、複数のスケーラブルビットストリーム符号器を包含する。図５に示した例示的な実施形態では、スケーラブルビットストリーム符号器５００Ｍ復号器、すなわちスケーラブルビットストリーム符号器（１）からスケーラブルビットストリーム符号器（Ｍ）であり、ここでＭはゼロではない正の整数である。スケーラブルビットストリーム符号器５００への入力はオーディオ信号１２０である。これらの実施形態では、オーディオ信号１２０は複数のオーディオオブジェクトファイルを包含する。特に、オーディオ信号１２０は、オーディオオブジェクトファイル（１）からオーディオオブジェクトファイル（Ｍ）を含むＭ数のオーディオオブジェクトファイルを含む。

図５に示した例示的な実施形態では、スケーラブルビットストリーム符号器５００は、Ｍ数のオーディオオブジェクトファイルの各々のためのＭ数の符号器を包含する。従って、各オーディオオブジェクトに対して１つの符号器が存在する。しかしながら、他の実施形態では、スケーラブルビットストリーム符号器の数は、オーディオオブジェクトファイルの数より小さくすることができる。スケーラブルビットストリーム符号器の数に関わりなく、複数の符号器の各々は、複数のオーディオオブジェクトファイルの各々を個々に符号化して、個々に符号化されたオブジェクトファイル３００、すなわち個々に符号化されたオーディオオブジェクトファイル（１）から個々に符号化されたオーディオオブジェクトファイル（Ｍ）を取得する。

図６は、ネットワーキング環境で実施されるポスト符号化ビットレート低減システム１００及び方法の実施形態の例示的な実施例を示すブロック図である。図６には、媒体データベースサーバ６００の形態のコンピュータデバイスで実施されるシステム１００及び方法の実施形態が図示されている。媒体データベースサーバ６００は、デスクトップコンピュータ、ノートブックコンピュータ、及び移動電話などの組込式デバイスなどのプロセッサを含む仮想的な何らかのデバイスとすることができる。

一部の実施形態では、システム１００及び方法は、クロスアプリケーション、クロスデバイスアクセスのためのクラウドベースのサービスとして媒体データベースサーバ６００に記憶される。サーバ６００はネットワーク１８５を通じて他のデバイスと通信する。一部の実施形態では、他のデバイスの１つは受信デバイス１８０である。媒体データベースサーバ６００は、第１の通信リンク１９０を使用してネットワーク１８５にアクセスし、受信デバイス１８０は、第２の通信リンク１９５を使用してネットワーク１８５にアクセスする。このように媒体データベースサーバ６００及び受信デバイス１８０は互いの間でデータを伝送及び転送することができる。

符号化オーディオオブジェクトファイル（１）から（Ｍ）を包含するプレナリーファイル１４０は、媒体データベースサーバ６００に位置付けられる。プレナリーファイル１４０は、ビット低減モジュール１５０によって処理され、ビット低減符号化オーディオオブジェクトファイル３２０を取得するようになっている。ビット低減符号化オーディオオブジェクトファイル３２０は、統計的マルチプレクサ３３０及びビットストリームパッカー３４０によって処理され、ターゲットビットレート又はそれ未満でスケール圧縮ビットストリーム１７０を生成する。ターゲットビットレートは、図２に示したターゲットビットレート２００から取得される。

図６に示した実施形態では、媒体データベースサーバ６００に記憶されたプレナリーファイル１４０が図示されている。上述のように、プレナリーファイル１４０は、プレナリービットレートで個々に符号化されたＭ数の符号化オーディオオブジェクトファイルを包含する。本明細書で使用するビットレートは、通信リンク又はチャネルを介した２進数の流れの速度として定義される。換言すると、ビットレートは、ビットが１つの位置から別の位置に転送される速度を表わす。ビットレートは、一般的には１秒当たりのビット数として表される。

ビットレートは、ダウンロード速度を表すことができ、所与のビットレートに関して、ダウンロード時間は、３ギガバイト（Ｇｂ）ファイルよりも１Ｇｂファイルのほうが短い。ビットレートは、媒体ファイルの品質を表すこともできる。例示的に、１秒当たり１９２キロビット（Ｋｂｐｓ）で圧縮されるオーディオファイルは、一般的には１２８Ｋｂｐｓで圧縮される同じオーディオファイルよりも良好な又は高い品質（より大きなダイナミックレンジ及び明瞭度の形態）を有することになる。これは、多くのビットが毎秒の再生データを表すために使用されるからである。従って、マルチメディアファイルの品質がそれに関連付けられるビットレートによって測定及び指示される。

図１−５に示した実施形態では、符号化オーディオオブジェクトファイルは、ターゲットビットレート２００のいずれよりも大きなプレナリービットレートで符号化される。これは、プレナリーファイル１４０の符号化オーディオオブジェクトファイルが、ターゲットビットレート２００のいずれにおけるスケール圧縮ビットストリーム１７０に包含される符号化オーディオオブジェクトファイルより高い品質であることを意味する。

プレナリーファイル１４０及び符号化オーディオオブジェクトファイルの各々は、ポスト符号化ビットレート低減システム１００及び方法の実施形態に入力される。以下に詳しく説明するように、システム１００及び方法の実施形態は、フレーム毎のビット低減を使用して、符号化オーディオオブジェクトファイルを表わすために使用されるビット数を低減する。これはオブジェクトを再符号化する必要なく達成される。これは、複数のビット低減符号化オーディオオブジェクトファイル３２０を包含するビット低減ファイル（図示せず）をもたらす。これは、プレナリーファイル１４０の符号化オーディオオブジェクトファイルの少なくとも一部が、プレナリーファイル１４０と比較して低減されたビット数によってビット低減符号化オーディオオブジェクトファイル３２０として表現されることを意味する。次に、個々のビット低減符号化オーディオオブジェクトファイル３２０は、統計的マルチプレクサ３３０によって単一の信号に処理され、ビットストリームパッカー３４０によってスケール圧縮ビットストリーム１７０にパックされる。スケール圧縮ビットストリーム１７０は、ターゲットビットレートより小さいか又は等しいビットレートである。さらに、ターゲットビットレートは、プレナリービットレートより小さい。

スケール圧縮ビットストリーム１７０は、ネットワーク１８５を通じて受信デバイス１８０に送信される。この送信は、一般的には受信デバイス１８０による要求に応じて発生するが、媒体データベースサーバ６００にファイルとして記憶されるスケール圧縮ビットストリーム１７０を有することを含む、多数の他のシナリオが発生する場合もある。受信デバイス１８０は、スケール圧縮ビットストリーム１７０を記憶又は再生することができる何らかのネットワーク対応コンピュータデバイスとすることができる。受信デバイス１８０は、ポスト符号化ビットレート低減システム１００及び方法の実施形態とは異なるコンピュータデバイスに常駐するものとして図６に示しているが、一部の実施形態では、これらを同じコンピュータデバイス（媒体データベースサーバ６００など）に常駐させることができる点に留意されたい。

受信デバイス１８０は、符号化オーディオオブジェクトファイルをその個々の成分に分離するためにデマルチプレクサ６１０を使用することによって、受信されたスケール圧縮ビットストリーム１７０を処理する。図６に示すように、これらの個々の成分は、符号化オーディオオブジェクトファイル（１）、符号化オーディオオブジェクトファイル（２）、符号化オーディオオブジェクトファイル（３）、最大かつ符号化オーディオオブジェクトファイル（Ｍ）を含む他の符号化オーディオオブジェクトファイルの存在（省略記号で示す）を含む。これらの別々の符号化オーディオオブジェクトファイルの各々は、符号化オーディオオブジェクトファイルを復号することができるスケーラブルビットストリーム復号器６２０に送信される。一部の実施形態では、スケーラブルビットストリーム復号器６３０は、符号化オーディオオブジェクトファイルの各々のための別々の復号器を包含する。

図６に示すように、一部の実施形態では、スケーラブルビットストリーム復号器６２０は、スケーラブル復号器（１）（符号化オーディオオブジェクトファイル（１）を復号するために使用される）、スケーラブル復号器（２）（符号化オーディオオブジェクトファイル（２）を復号するために使用される）、スケーラブル復号器（３）（符号化オーディオオブジェクトファイル（３）を復号するために使用される）、必要とされる他のスケーラブル復号器（省略で示す）、及びスケーラブル復号器（Ｍ）（符号化オーディオオブジェクトファイル（Ｍ）を復号するために使用される）を含む。他の実施形態では、任意の数のスケーラブル復号器を使用して符号化オーディオオブジェクトファイルを復号できる点に留意されたい。

スケーラブルビットストリーム復号器６２０の出力は、複数の復号オーディオオブジェクトファイルである。具体的には、複数の復号オーディオオブジェクトファイルは、復号オーディオオブジェクトファイル（１）、復号オーディオオブジェクトファイル（２）、復号オーディオオブジェクトファイル（３）、必要とされる可能性のある他の復号オーディオオブジェクトファイル（省略で示す）、及び復号オーディオオブジェクトファイル（Ｍ）を含む。この時点で、復号オーディオオブジェクトファイルは、後で使用するために記憶するか又は直ちに使用することができる。どちらにしても、復号オーディオオブジェクトファイルの少なくとも一部分はミキシングデバイス６３０に入力される。一般的には、ミキシングデバイス６３０は、復号オーディオオブジェクトファイルをミキシングして個別化されたオーディオオブジェクトミックス６４０を生成するユーザによって制御される。しかしながら、他の実施形態では、復号オーディオオブジェクトファイルのミキシングは、本システム１００及び方法の実施形態によって自動的に行うことができる。他の実施形態では、オーディオオブジェクトミックス６４０は、サードパーティベンダによって作成される。

図７は、図３に示したフレーム毎の階層ビット割り当てモジュール３１０の詳細を示すブロック図である。モジュール３１０は、プレナリービットレートで符号化された個々に符号化されたオーディオオブジェクトファイル３００を受信する。特定の期間に、その期間の各符号化オーディオオブジェクトファイルの各フレームは、特定の期間の符号化オーディオオブジェクトファイル700の全てにわたって調べられる。階層情報７１０は階層モジュール７２０に入力される。階層情報７１０は、フレームをどのように優先順位付けすべきか及び最終的にフレーム間にビットをどのように割り当てるべきかに関するデータを含む。

ビットプールからの利用可能なビット７３０は、割り当てモジュール７４０によって使用され、期間中にフレーム間に分散するのに利用できるビット数を決定する。階層情報７１０に基づいて、割り当てモジュール７４０は、その期間においてフレーム間にビットを割り当てる。これらのビットは、階層情報７１０に基づいて、符号化オーディオオブジェクトファイル、サブバンド、及びフレームにわたって割り当てられる。

割り当てモジュール７４０は、特定の期間の各フレームに割り当てられたビット数を指図するビット割り当て７５０を生成する。ビット割り当てに基づいて、低減モジュール７６０は、必要に応じて各フレームからビットを削減（pare down）して、その特定のフレームに関するビット割り当て７５０に応じる。これは、所与の期間の削減(pared down)フレーム７７０をもたらす。これらの削減フレームは結合されてビット低減符号化オーディオオブジェクトファイル３２０を生成する。

ＩＶ．動作の概要
図８は、図１−７に示したポスト符号化ビットレート低減システム１００及び方法の実施形態の一般的な動作を示す流れ図である。動作は複数のオーディオオブジェクトファイルを入力することによって開始する（ボックス８００）。これらのオーディオオブジェクトファイルは、それに関連付けられるレンダリングメタデータと結合したソース信号を含むことができ、様々な音源を表現することができる。これらの音源は、個々の楽器及びボーカル、及びドラムキットの個々の構成要素の複数のトラックを包含するドラムキットのオーディオオブジェクトなどの音源のグループを含むことができる。

次に、システム１００及び方法の実施形態は、オーディオオブジェクトファイルの各々を単独で及び別々に符号化する（ボックス８１０）。この符号化は、細粒度スケーラビリティ特性を有する１又は２以上のスケーラブルビットストリーム符号器を利用する。細粒度スケーラビリティ特性を有するスケーラブルビットストリーム符号器の例は、２００８年２月１９日出願の米国特許第７，３３３，９２９号明細書「モジュラースケーラブル圧縮オーディオデータストリーム」、及び２００９年６月１６日出願の米国特許第７，５４８，８５３号明細書「階層フィルタバンク及びマルチチャネルジョイントコーディングを使用したスケーラブル圧縮オーディオビットストリーム及びコーデック」に示されている。

システム１００及び方法は、複数の別々に符号化されたオーディオファイル並びに何らかの階層メタデータ７１０を結合してプレナリーファイル１４０を生成する（ボックス８２０）。プレナリーファイル１４０はプレナリービットレートで符号化される。各オーディオオブジェクトファイルは、複数のオーディオオブジェクトファイルの間の分離及び隔離を維持するために個々に符号化されることが強調される。

階層メタデータは、階層又は優先順位の少なくとも３つのタイプを包含することができる。これらのタイプの優先順位の１つ又は任意の組合せは、階層メタデータに含むことができる。優先順位の第１のタイプは、フレームの中のビット優先順位である。こうした状況では、ビットは、人間の聴覚に対する心理音響的な重要度の順序で配置される。優先順位の第２のタイプは、オーディオオブジェクトファイルの中のフレーム優先順位である。こうした状況では、フレームの重要度又は優先順位は、フレームのアクティビティに基づく。フレームアクティビティがフレーム時間間隔中の他のフレームと比較して高い場合、低アクティビティフレームよりも階層で高くランク付けされる。

優先順位の第３のタイプは、プレナリーファイルの中のオーディオオブジェクトファイル優先順位である。これは、クロスオブジェクトマスキング及びユーザ定義の優先順位の両方を含む。クロスオブジェクトマスキングでは、オーディオオブジェクトは、オーディオ空間でレンダリングされる場所に基づいて、特定のオーディオオブジェクトファイルを別のオーディオオブジェクトファイルによってマスキングすることができる。この状況では、１つのオーディオオブジェクトファイルは、マスクされたオーディオオブジェクトファイルを上回る優先順位を有する。ユーザ定義の優先順位では、ユーザは、１つのオーディオオブジェクトファイルが別のオーディオオブジェクトファイルより重要であることを定義できる。例えば、映画のオーディオサウンドトラックでは、ダイアログを包含するオーディオオブジェクトファイルが、街頭雑音を包含するオーディオオブジェクト又は背景音楽を包含するオーディオオブジェクトファイルよりもユーザにとって高い重要度を有することができる。

所望のターゲットビットレートに基づいて、プレナリーファイル１４０は、ビット低減モジュール１５０によって処理されスケール圧縮ビットストリーム１７０を生成する。スケール圧縮ビットストリームはいずれの再符号化なしに生成される。さらに、スケール圧縮ビットストリームは、ターゲットビットレート又はそれより小さいビットレートでネットワークチャネルを通じた送信のためにデザインされる。

ターゲットビットレートは、常にプレナリービットレートよりも小さい。オーディオオブジェクトの各々は、ターゲットビットレート２００のいずれかを超えるプレナリービットレートで単独で符号化される点に留意されたい。ターゲットビットレートが符号化の前に知られていない状況では、オーディオオブジェクトの各々は、最大利用可能ビットレートで、又は送信中に使用される最高予想ターゲットビットレートを超えるビットレートで符号化される。

スケール圧縮ビットストリームを取得するために、システム１００及び方法の実施形態は、プレナリーファイル１４０を一連のフレームに分割する。一部の実施形態では、プレナリーファイル１４０のオーディオオブジェクトファイルの各々は、ファイル１４０の持続時間全体にわたって存在する。これは、オーディオオブジェクトファイルが再生中の無音期間を包含する場合でも真である。

図８を再度参照すると、システム１００及び方法の実施形態はフレーム時間間隔（又は期間）を選択して、選択された期間中のフレームのフレームアクティビティを比較する（ボックス８３０）。このフレーム時間間隔は、オーディオオブジェクトの各々からのフレームを含む。選択された期間のフレーム毎の比較は、その期間のデータフレームアクティビティ比較を生成する。一般的に、フレームアクティビティは、フレームのオーディオを符号化することがどんなに難しいかの尺度である。フレームアクティビティは複数の方法で決定することができる。一部の実施形態では、フレームアクティビティは、複数の抽出された音色（tonal）及び結果として得られたフレーム残余エネルギに基づく。他の実施形態は、フレームのエントロピーを計算することでフレームアクティビティに到達する。

選択された期間のフレームの間で利用可能なビットプール（ｂｉｔｐｏｏｌ）からビットがアサイン又は割り当てられる（ボックス８４０）。ビットは、データフレームアクティビティ及び階層メタデータに基づいて割り当てられる。選択された期間のフレーム間のビット割り当てが分かると、ビットがフレーム間に分配される。次に、各フレームは、フレームのビット割り当てを超えるビットを削減することによって、そのビット割り当てを順守して削減フレームを取得する（ボックス８５０）。以下に詳しく説明するように、このビット低減は、最高優先順位及び重要度を有するビットが最後に削減されるように順序付けられた方式で実行される。

このビット低減は、複数の符号化オーディオオブジェクトファイルの複数の削減されたフレームに引き継がれ、ビット低減符号化オーディオオブジェクトファイル３２０を生成する（ボックス８６０）。次に、各ビット低減符号化オーディオオブジェクトファイル３２０は、一緒に多重化される（ボックス８７０）。次に、システム１００及び方法は、ビットストリームパッカー３４０を使用して多重化ビット低減符号化オーディオオブジェクトファイル３２０をパックして、ターゲットビットレートのスケール圧縮ビットストリーム１７０を取得する（ボックス８８０）。

状況によっては、幾つかの異なるビットレートで符号化オーディオオブジェクトを送信する必要性が発生する可能性がある。例えば、プレナリーファイルが媒体データベースサーバ６００に記憶される場合、各々が異なる帯域幅要件を有する幾つかのクライアントによってプレナリーファイルが要求される可能性がある。この場合、複数のスケール圧縮ビットストリームは、単一のプレナリーファイル１４０から取得することができる。さらに、ターゲットビットレートの各々がプレナリービットレートより小さい場合、スケール圧縮ビットストリームの各々は、異なるターゲットビットレートとすることができる。これは全て、符号化オーディオオブジェクトファイルを再符号化する必要なく達成することができる。

システム１００及び方法の実施形態は、スケール圧縮ビットストリームの１又は２以上を、ターゲットビットレートに等しいか又は小さいビットレートで受信デバイス１８０に送信することができる。次に、受信デバイス１８０は受信したスケール圧縮ビットストリームをデマルチプレックスして複数のビット低減符号化オーディオオブジェクトを取得する。次に、システム１００及び方法は、少なくとも１つのスケーラブルビットレート復号器を使用してこれらのビット低減符号化オーディオオブジェクトを復号し、複数の復号オーディオオブジェクトファイルを取得する。次に、復号オーディオオブジェクトファイルは、エンドユーザ、コンテンツプロバイダによって、又は自動的にミキシングして、オーディオオブジェクトミックス６４０を生成することができる。

Ｖ．動作の詳細
ポスト符号化ビットレート低減システム１００及び方法の実施形態は、オーディオの無音期間を処理する実施形態、及び単一のプレナリーファイルを多種多様な異なる帯域幅ネットワークチャネルに配信する実施形態を含む。無音期間の実施形態は、幾つかのオーディオオブジェクトファイルが、オーディオが無音であるかなりの期間を有するか又は他のオーディオオブジェクトファイルに比べて非常に低レベルである場合に向けられる。例えば、音楽を包含するオーディオコンテンツは、ボーカルトラックが無音又は非常に低レベルである長期間を有する可能性がある。固定ビットレートオーディオコーデックを使用してこのようなオーディオオブジェクトファイルをコーディングする場合、かなりの量のデータペイロードが無音期間のコーディングに浪費される。

システム１００及び方法は、各符号化オーディオオブジェクトファイルの細粒度スケーラビリティを利用して、無音期間中のデータ（又はフレーム）ペイロードの何らかの浪費を軽減する。これは、再構成された圧縮オーディオの品質に影響を与えることなく全体的な圧縮データペイロードの低減を達成する。一部の実施形態では、符号化オーディオオブジェクトファイルは、開始及び停止時間を有する。開始時間は、無音状態が始まった時間を示し、停止時間は、無音状態が終了した場合を示す。こうした状況では、システム１００及び方法は、ヌルフレームとして開始及び停止時間の間のフレームにフラグを立てることができる。これによって、ビットは、期間中の他のオーディオオブジェクトファイルのフレームに割り当てることができる。

他のシナリオでは、オンザフライビットレート低減方式が、無音期間の実施形態に加えて又はこの代わりに必要とされる。例えば、複数のオーディオオブジェクトファイルを包含する単一の高品質符号化オーディオファイル又はビットストリームが、様々な接続帯域幅をもつクライアントに同時にサービスを提供する必要があるサーバに記憶される場合、このことが起こる可能性がある。多種多様な異なる帯域幅ネットワークチャネルへの単一プレナリーファイルの実施形態は、オーディオファイル又はビットストリームの細粒度スケーラビリティ特性を使用して、全体的な品質を可能な限り維持しながら符号化オーディオオブジェクトファイルの全体的なビットレートをスケールダウンする。

システム１００及び方法の実施形態の動作の詳細をここで説明する。図９は、図１−８に示したポスト符号化ビットレート低減システム１００及び方法の実施形態の第１の実施形態の詳細を示す流れ図である。動作は、複数の別々に符号化されたオーディオオブジェクトファイルを包含するプレナリーファイルを入力することによって始まる（ボックス９００）。複数の符号化オーディオオブジェクトファイルの各々がデータフレームにセグメント化される（ボックス９０５）。

次に、システム１００及び方法は、プレナリーファイルの開始の期間を選択する（ボックス９１０）。この期間は、理想的には、個々のフレームの時間的長さと一致する。選択された期間は、プレナリーファイルの開始時に始まる。本方法は、選択された期間のデータフレームを処理して、次に期間を時間的な順序で取り出すことによってデータフレームの残りを順次処理する。換言すると、選択された次の期間は、前の期間に時間的に隣接している期間であり、上記及び以下に説明する方法は、各期間中のデータフレームを処理するために使用される。

次に、システム１００及び方法は、選択された期間中の複数の符号化オーディオオブジェクトファイルのデータフレームを選択する（ボックス９１５）。フレームアクティビティは、選択された期間中のオーディオオブジェクトファイルのデータフレームの各々に対して測定される（ボックス９２０）。上述のように、多種多様な技術を使用してフレームアクティビティを測定することができる。

期間中の各データフレームに対して、システム１００及び方法は、測定されたフレームアクティビティが無音閾値よりも大きいか否かの決定を行う（ボックス９２５）。大きい場合、データフレームのフレームアクティビティはフレームアクティビティバッファに記憶される（ボックス９３０）。測定されたフレームアクティビティが無音閾値より小さいか又は等しい場合、データフレームは無音データフレームとして指定される（ボックス９３５）。この指定は、データフレームが既に最小ペイロードに低減されており、そのフレームのビット数が更なる低減なしにデータフレームを表わすために使用されることを意味する。次に、無音データフレームはフレームアクティビティバッファに記憶される（ボックス９４０）。

次に、システム１００及び方法は、選択された期間のデータフレームの各々のフレームアクティビティバッファに記憶されたデータフレームアクティビティを現在の期間の他のデータフレームと比較する（９４５）。これはデータフレームアクティビティ比較をもたらす。次に、システム１００及び方法は、期間中のいずれかの無音フレームによって使用される、利用可能なビット数を決定する（ボックス９５０）。次に、期間中の残りのデータフレームに割り当てることができる利用可能なビット数が決定される。これは、期間中に使用されるよう割り当てられたビット数から、何らかの無音データフレームによって使用されるビットを差し引くことによって行われる（ボックス９５５）。

残りのデータフレーム間のビット割り当ては、利用可能なビットを選択された期間の符号化オーディオオブジェクトファイルの各々からのデータフレームに割り当てることによって行われる（ボックス９６０）。このビット割り当ては、データフレームアクティビティ比較及び階層メタデータに基づいて行われる。次に、データフレームの順序付けられたビットが削減され、ビット割り当てを順守する（ボックス９６５）。換言すると、重要なビットが最後に取り除かれ最も重要でないビットが最初に取り除かれるように、ビットがデータフレームから取り除かれる。これは、特定のフレームに割り当てられたビット数だけが残るまで継続される。結果として削減されたデータフレームになる。

このような削減データフレームは記憶され（ボックス９７０）かつ他に期間があるか否かの決定が行われる（ボックス９７５）。次に、期間がある場合、次の順次期間が選択される（ボックス９８０）。処理は、新しい期間の複数の符号化オーディオオブジェクトファイルのためのデータフレームを選択することによって再度開始する（ボックス９１５）。そうでなければ、削減データフレームがスケーラブル圧縮ビットストリームにパックされる（ボックス９８５）。

Ｖ．Ａ．フレーム及びコンテナ
上述のように、一部の実施形態では、プレナリーファイル１４０は複数の符号化オーディオオブジェクトファイルを含む。このような符号化オーディオオブジェクトファイルの一部又は全部は、オーディオデータ、サウンド情報、及び関連付けられるメタデータの何らかの組合せを包含することができる。さらに、一部の実施形態では、符号化オーディオオブジェクトファイルは、データフレームに分割又は区分化することができる。データフレーム（単数又は複数）の使用は、ストリーミングアプリケーションに有効とすることができる。一般的に、「フレーム」は、コーデックによって作成され、符号化及び復号に使用される別個のデータセグメントである。

図１０は、図１−９に示したポスト符号化ビットレート低減システム１００及び方法の一部の実施形態によるオーディオフレーム１０００を示している。フレーム１０００は、フレーム１０００の開始を指示するよう構成することができるフレームヘッダ１０１０と、フレーム１０００の終了を指示するよう構成することができるフレームエンド１０２０を含む。また、フレーム１０００は、１又は２以上の符号化オーディオデータブロック１０３０及び対応するメタデータ１０４０を含む。メタデータ１０４０は、新しいメタデータセグメントの開始を指示するよう構成することができる１又は２以上のフラグメントヘッダ１０５０ブロックを含む。このメタデータ１０４０は、階層モジュール７２０によって使用される階層メタデータ７１０を含むことができる。

グループ化されていないオーディオオブジェクトは、オブジェクトフラグメント１０６０として含むことができる。グループ化されたオーディオオブジェクト１０７０は、グループ開始及び終了ブロックを含むことができる。これらのブロックは、新しいグループの開始及び終了を指示するよう構成することができる。加えて、グループ化されたオーディオオブジェクト１０７０は、１又は２以上のオブジェクトフラグメントを含むことができる。一部の実施形態では、次にフレーム１０００をコンテナ（ＭＰ４など）にエンキャプスレートすることができる。

一般的には、「コンテナ」又はラッパーフォーマットはメタファイルフォーマットであり、その仕様は、様々なデータ要素及びメタデータがどのようにコンピュータファイルに共存するかを記述する。コンテナは、使用されるコード化方式に関わらず、データがファイル内に編成される方法を指す。さらに、コンテナは、複数のビットストリームを一緒に「ラップ」する機能を果たし、フレームが適正な順序で提示されるようにフレームを同期させる。また、コンテナは、必要とされる場合、ストリーミングサーバのための情報の追加を管理することができ、ストリーミングサーバは、ファイルのどの部分をいつ送信するかを知ることができる。図１０に示すように、フレーム１０００は、コンテナ１０８０にパックすることができる。コンテナ１０８０に使用することができるデジタルコンテナフォーマットの実施例は、トランスポートストリーム（ＴＳ）、マテリアルエクスチェンジフォーマット（ＭＸＦ）、ムービングピクチャーズエクスポートグループ、パート１４（ＭＰ４）などを含む。

Ｖ．Ｂ．細粒度ビットストリームスケーラビリティ
スケール圧縮ビットストリーム１７０に配置された要素の構造及び順序は、ビットストリーム１７０のワイドビットレンジ及び細粒度スケーラビリティを提供する。この構造及び順序は、ビットストリーム１７０がビット低減モジュール１５０などの外部機構によってスムーズにスケールされるのを可能にする。

図１１は、図１に示したスケーラブルビットストリーム符号器１３０によって生成されるデータのスケーラブルフレームの例示的な実施形態を示す。他の分解規則に基づくオーディオ圧縮コーデックの１又は２以上の他のタイプを使用してポスト符号化ビットレート低減システム１００及び方法の実施形態に細粒度スケーラビリティを提供できる点に留意されたい。こうした状況では、他のコードが心理音響的に関係のある要素の異なるセットを提供することになる。

図１１の実施例で使用されるスケーラブル圧縮ビットストリーム１７０は、幾つかの資源交換ファイルフォーマット（ＲＩＦＦ）データ構造（「チャンク」と呼ばれる）から作られる。これは例示的な実施形態であり、他のタイプのデータ構造を使用できる点に留意されたい。当業者によって公知であるこのＲＩＦＦファイルフォーマットは、チャンクによって運ばれるデータのタイプ並びにチャンクによって運ばれるデータの量の識別を可能にする。その定義されたビットストリームデータ構造で運ばれるデータの量及びタイプに関する情報を運ぶ何らかのビットストリームフォーマットは、本システム１００及び方法の実施形態と共に使用できる点に留意されたい。

図１１は、グリッド１チャンク１１０５、音色１チャンク１１１０、音色２チャンク１１１５、音色３チャンク１１２０、音色４チャンク１１２５、音色５チャンク１１３０を含むサブチャンクと共にスケーラブルビットレートフレームチャンク１１００のレイアウトを示す。サブチャンクは、高解像度グリッドチャンク１１３５、時間サンプル１チャンク１１４０、及び時間サンプル２チャンク１１４５を含む。これらのチャンクはフレームチャンク１１００内で運ばれる心理音響的データを作り上げる。図１１はフレームチャンク１１００のチャンク識別（ＩＤ）及びチャンク長だけを示しているが、サブチャンクＩＤ及びサブチャンク長データは、各サブチャンクに含まれる。

図１１は、スケーラブルビットストリームのフレームにおけるチャンクの順序を示す。これらのチャンクは、図１に示したスケーラブルビットストリーム符号器１３０によって生成される心理音響的オーディオ要素を包含する。心理音響的重要度で並べられたチャンクに加えて、チャンクのオーディオ要素も心理音響的重要度で並べられる。

フレームの最後のチャンクは、ヌルチャンク１１５０である。これは、フレームが一定又は特定のサイズであることを要求される場合にチャンクを埋めるために使用される。従って、ヌルチャンク１１５０は心理音響的な関連性を持たない。図１１に示すように、最も重要でない心理音響的チャンクは時間サンプル２チャンク１１４５である。対照的に、最も重要な心理音響的チャンクはグリッド１チャンク１１０５である。動作中、スケーラブルビットレートフレームチャンク１１００をスケールダウンする必要がある場合、ビットストリームの最後の最も心理音響的に関連性のないチャンク（時間サンプル２チャンク１１４５）から始まり心理音響的関連性ランキングを上方に移動してデータが取り除かれる。これは図１１の右から左に進む。これは、スケーラブルビットレートフレームチャンク１１００で最高品質の可能性を有する最も心理音響的に関連性のあるチャンク（グリッド１チャンク１１０５）は、取り除かれる可能性が最も低いことを意味する。

また、ビットストリームによってサポートされ得る最高ターゲットビットレート（最高オーディオ品質と合わせて）が符号化の時に定義される点に留意されたい。しかしながら、スケーリング後の最低ビットレートは、アプリケーションでの使用を満たすオーディオ品質レベルによって定義することができる。取り除かれた各心理音響的要素は、同じ数のビットを利用しない。例示的に、図１１に示した例示的な実施形態のスケーリング解像度は、最低心理音響的重要度の要素に関する１ビットから最高心理音響的重要度の要素に関する３２ビットに及ぶ。

ビットストリームをスケーリングするための機構は、一度に全チャンクを取り除く必要がない点に留意されたい。前述したように、各チャンク内のオーディオ要素は、最も心理音響的に重要なデータがスケーラブルビットレートフレームチャンク１１００の最初に位置付けられるように並べられる（図１１の右側に最も近い）。この理由で、スケーリング機構によって一度に１つのオーディオ要素をチャンクの最後から取りに除くことができ、スケーラブルビットレートフレームチャンク１１００から各要素が取り除くことができるようにして最高オーディオ品質を維持する。これが「細粒度スケーラビリティ」が意味する内容である。

システム１００及び方法は、要求される場合にチャンク内のオーディオ要素を取り除き、次にオーディオ要素が取り除かれた特定のチャンクのチャンク長フィールドを更新する。さらに、本システム１００及び方法は、フレームチャンク長１１５５及びフレームチェックサム１１６０を更新する。スケールされた各チャンクの更新されたチャンク長フィールド並びに更新されたフレームチャンク長１１５５及び更新されたフレームチェックサム情報によって、復号器は、スケールされたビットストリームを適正に処理及び復号することができる。加えて、オーディオ要素が失われているビットストリーム内のチャンク及びビットストリームから完全に失われているチャンクがあるとしても、本システム１００及び方法は、固定データレートオーディオ出力信号を自動的に生成することができる。加えて、フレームチャンク識別（フレームチャンクＩＤ１１６５）は、識別目的のためにスケーラブルビットレートフレームチャンク１１００に包含される。さらに、フレームチャンクデータ１１７０は、ヌルチャンク１１５０からチェックサム１１６０を包含する（右から左に移動する）。

Ｖ．Ｃ．ビット割り当て
期間中のフレーム間のビットの割り当ての実施例をここで説明する。これは、ビット割り当てを実行することができる複数の方法の１つにすぎない点に留意されたい。図１２は、プレナリーファイル１４０を複数のフレーム及び期間に分割する実施例の例示的な実施形態を示す。図１２に示すように、プレナリーファイル１４０は、複数のオーディオオブジェクトの複数のフレームに分割されて図示されている。ｘ軸は時間軸、ｙ軸は符号化オーディオオブジェクトファイル数である。この実施例では、Ｍ数の符号化オーディオオブジェクトがあり、ここでＭは正のゼロでない整数である。また、この例示的な実施例では、各符号化オーディオオブジェクトファイルは、プレナリーファイル１４０の全持続時間に存在する。

時間軸を左から右に見ると、各符号化オーディオオブジェクト（数１からＭ）がＸ数のフレームに分割されているのが分かり、ここでＸは正のゼロではない整数である。ボックスの各々は、記号表示Ｆ_M,Xによって示され、ここでＦがフレームであり、Ｍがオーディオオブジェクトファイル数であり、Ｘがフレーム数である。例えば、フレームＦ_1,2は、符号化オーディオオブジェクトファイル（１）の２番目のフレームを示す。

図１２に示すように、フレームの長さに対応する期間１２００は、プレナリーファイル１４０に対して定義される。図１３は、期間１２００内のプレナリーファイル１４０のフレームの詳細を示す。各フレーム内には、プレナリーファイル１４０の品質に対するその相対的な重要度に関する順序付けられた周波数成分が示されている。ｘ軸が周波数（ｋＨｚ）でありｙ軸が特定の周波数の大きさ（デシベル）を表わす点に留意されたい。例えば、Ｆ_1,1では、７ｋＨｚが最も重要な周波数成分（この例では）であり、次に６ｋＨｚ及び８ｋＨｚ周波数成分などがそれぞれ続くことが見て分かる。従って、各オーディオオブジェクトの各フレームはこのようなランク付け周波数成分を包含する。

ターゲットビットレートは、期間１２００に対する利用可能なビット数を決定するために使用される。一部の実施形態では、音響心理学（マスキング曲線など）が使用され、周波数成分全体にわたって一様ではない方式で利用可能なビットを分配する。例えば、１、１９、及び２０ｋＨｚ周波数成分の各々に対する利用可能なビット数は６４ビットとすることができ、２０４８ビットが、７、８、及び９ｋＨｚ周波数成分の各々に利用可能である。これは、マスキング曲線に従って人間の耳は、７、８、及び９ｋＨｚ周波数成分を最も敏感であるが、人間の耳は、非常に低い及び非常に高い成分、すなわち１ｋＨｚ及びそれより下の周波数成分及び１９及び２０ｋＨｚ周波数成分に対しては相対的に鈍感であるという理由による。音響心理学は、周波数範囲全体にわたる利用可能なビットの分配を決定するために使用されるが、多くの他の様々な技術を使用して利用可能なビットを分配できる点に留意されたい。

ポスト符号化ビットレート低減システム１００及び方法の実施形態は、各符号化オーディオオブジェクトファイルのための対応する期間１２００の各フレームのフレームアクティビティを測定する。期間１２００における符号化オーディオオブジェクトファイルの各々のデータフレームの各々のフレームアクティビティは、互いに比較される。これは、期間１２００中の他のフレームに対するフレームアクティビティであるデータフレームアクティビティ比較として公知である。

一部の実施形態では、フレームにはフレームアクティビティ数の数値が割り当てられる。例示的に、オーディオオブジェクトファイルの数は、フレームアクティビティ数値が１から１０になるように１０と仮定する。この実施例では、１０は、最大フレームアクティビティを有する期間１２００中のフレームを意味し、１が、最小のアクティビティを有するフレームを意味する。多くの他の技術を使用して期間１２００中のフレームの各々の中のフレームアクティビティをランク付けすることができる点に留意されたい。データフレームアクティビティ比較及びビットプールからの利用可能なビットに基づいて、次に、システム１００及び方法の実施形態は、期間１２００の符号化オーディオオブジェクトファイルの各フレームの間に利用可能なビットを割り当てる。

利用可能なビット数及びデータフレームアクティビティ比較は、システム１００及び方法によって使用され、必要に応じてフレームのビットを削減して割り当てられたビットを順守する。システム１００及び方法は、細粒度スケーラビリティ特性及びビットが階層メタデータに基づく重要度の順序でランク付けされるという事実を利用する。例えば、図１３を参照すると、Ｆ_1、1に対して最初の４つの周波数成分を表わすのに十分な割り当てビットだけが存在すると仮定する。これは、７、６、８、及び３ｋＨｚ周波数成分がビット低減ビットストリームに含まれることを意味する。Ｆ_1、1の５ｋＨｚ周波数成分及び順番で低いその周波数成分は廃棄される。

一部の実施形態では、データフレームアクティビティ比較は、オーディオオブジェクト重要度によって重み付けされる。この情報は、階層メタデータ７１０に包含される。例示的に、符号化オーディオオブジェクトファイル＃２がオーディオ信号に重要であると仮定すると、これは、オーディオが映画のサウンドトラックであり、符号化オーディオオブジェクトファイル＃２がダイアログトラックである場合に起こる可能性がある。符号化オーディオオブジェクトファイル＃９が１０の最高相対フレームアクティビティランキングにすることができ、符号化オーディオオブジェクトファイル＃２が７のランキングを有するとしても、符号化オーディオオブジェクトファイル＃２のランキングは、オーディオオブジェクト重要度による重み付けのために１０に上げることができる。上記の技術及び他の技術の多くの変形例を使用してビットを割り当てることができる点に留意されたい。

ＶＩ．代替的な実施形態及び例示的な動作環境
本明細書に記載する以外の他の変形形態が明らかになるであろう。例えば、実施形態によっては、本明細書で説明した何らかの方法及びアルゴリズムの特定の動作、事象、又は機能を異なる順序で実行することができ、追加、統合、又は完全に省略することができる（従って、ここで説明する全ての動作又は事象が、本方法及びアルゴリズムの実施に必要というわけではない）。さらに、特定の実施形態において、動作又は事象は、連続的ではなく、例えば、マルチスレッド型処理、割り込み処理、もしくはマルチプロセッサ又はプロセッサコアによって、又は他の並列アーキテクチャ上で同時に実行することができる。加えて、様々なタスク又は処理は、一緒に機能することができる異なるマシン及びコンピューティングシステムによって実行することができる。

本明細書で開示した実施形態に関連して説明する様々な例示的な論理ブロック、モジュール、方法、及びアルゴリズム処理、及び手順は、電子ハードウェア、コンピュータソフトウェア、又はこの両方の組合せとして実施することができる。ハードウェア及びソフトウェアのこの互換性について明確に例証するために、上記では、様々な例示的な構成要素、ブロック、モジュール、及び処理動作がこれらの機能性に関して一般的に説明されている。このような機能性をハードウェア又はソフトウェアとして実装するか否かは、特定の用途及びシステム全体に課されたデザイン上の制約に依存する。記載された機能性は、特定の用途の各々に関して異なる方法で実装することができるが、このような実装の決定は、本明細書の範囲からの逸脱をもたらすと解釈すべきではない。

本明細書で開示した実施形態に関連して説明する様々な例示的な論理ブロック及びモジュールは、汎用プロセッサ、処理デバイス、１又は２以上の処理デバイスを有するコンピューティングデバイス、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、又は他のプログラム可能論理デバイス、離散ゲート又はトランジスタ論理、離散的ハードウェア構成要素、又は本明細書で説明する機能を実行するよう設計されたこれらのいずれかの組合せのようなマシンによって実施し又は実行することができる。汎用プロセッサ及び処理デバイスは、マイクロプロセッサとすることができるが、代替形態において、プロセッサは、コントローラ、マイクロコントローラ、又は状態マシン、これらの組合せ、又は同様のものとすることができる。プロセッサは、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連動する１又は２以上のマイクロプロセッサ、又はいずれかの他のこのような構成のような、コンピューティングデバイスの組合せとしても実施可能である。

本明細書で説明したポスト符号化ビットレート低減システム１００及び方法の実施形態は、多数のタイプの汎用又は特定用途コンピュータシステム環境又は構成の中で動作可能である。一般的に、コンピュータ環境は、限定されるわけではないが、例を挙げると、１又は２以上のマイクロプロセッサに基づくコンピュータシステム、メインフレームコンピュータ、デジタル信号プロセッサ、携帯式コンピュータデバイス、パーソナルオーガナイザ、デバイスコントローラ、機器内のコンピュータエンジン、移動電話、デスクトップコンピュータ、移動コンピュータ、タブレットコンピュータ、スマートフォン、及び埋込式コンピュータを備えた機器を含むいずれのタイプのコンピュータシステムも含むことができる。

このようなコンピューティングデバイスは、限定されるものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドコンピューティングデバイス、ラップトップ又はモバイルコンピュータ、携帯電話及びＰＤＡのような通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、オーディオ又はビデオ媒体プレーヤ、及びその他を含む、少なくとも何らかの最低限の計算能力を有するデバイスに通常、見出すことができる。一部の実施形態において、コンピューティングデバイスは、１又は２以上のプロセッサを含むことになる。各プロセッサは、デジタルシグナルプロセッサ（ＤＳＰ）、超長命令語（ＶＬＩＷ）、又は他のマイクロコントローラのような特殊なマイクロプロセッサとすることができ、或いは、マルチコアＣＰＵ内の特殊なグラフィックス処理ユニット（ＧＰＵ）ベースのコアを含む、１又は２以上のプロセッシングコアを有する従来型の中央処理ユニット（ＣＰＵ）とすることができる。

本明細書で開示した実施形態に関連して説明する方法、処理、又はアルゴリズムの処理動作は、ハードウェアで直接的に、プロセッサによって実行されるソフトウェアモジュールで、又はこの２つのいずれかの組合せで具現化することができる。ソフトウェアモジュールは、コンピューティングデバイスによってアクセス可能なコンピュータ可読媒体内に含めることができる。コンピュータ可読媒体は、取り外し可能、取り外し不可のいずれかである揮発性及び不揮発性媒体、又は何らかのこれらの組合せを含む。コンピュータ可読媒体は、コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュール、又は他のデータのような情報を格納するために用いられる。例示的かつ非限定的に、コンピュータ可読媒体は、コンピュータストレージ媒体及び通信媒体を含むことができる。

コンピュータストレージ媒体は、限定されるものではないが、Ｂｌｕｒａｙディスク（ＢＤ）、デジタル多用途ディスク（ＤＶＤ）、コンパクトディスク（ＣＤ）、フロッピー（登録商標）ディスク、テープドライブ、ハードドライブ、光ドライブ、固体メモリデバイス、ＲＡＭメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、フラッシュメモリ、又は他のメモリ技術、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気ストレージデバイス、又は所望の情報を格納するために使用可能で１又は２以上のコンピューティングデバイスによってアクセス可能ないずれかの他のデバイスのような、コンピュータ又はマシン可読媒体又はストレージデバイスを含む。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、取り外し可能ディスク、ＣＤ−ＲＯＭ、又は当該技術で公知の非一時的コンピュータ可読ストレージ媒体、メディア、又は物理コンピュータストレージのいずれかの他の形式内に常駐することができる。例示的なストレージ媒体は、プロセッサがストレージ媒体から情報を読み出して、そこに情報を書き込むことができるように、プロセッサに結合することができる。代替形態では、ストレージ媒体は、プロセッサに一体化することができる。プロセッサ及びストレージ媒体は、特定用途向け集積回路（ＡＳＩＣ）内に常駐することができる。ＡＳＩＣは、ユーザ端末内に常駐することができる。代替的に、プロセッサ及びストレージ媒体は、ユーザ端末内の個別構成要素として常駐することができる。

本明細書で使用する場合、語句「非一時的」は、「永続的又は長寿命の」を意味する。語句「非一時的コンピュータ可読媒体」は、ありとあらゆるコンピュータ可読媒体を含み、唯一の例外は一時的な伝搬信号である。これは、例示的かつ非限定的に、レジスタメモリ、プロセッサキャッシュ、及びランダムアクセスメモリ（ＲＡＭ）のような非一時的コンピュータ可読媒体を含む。

コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュール、及びその他のような情報の保持は、１又は２以上の変調データ信号、電磁波（搬送波のような）、又は他の伝送機構又は通信プロトコルをエンコードするための様々な通信媒体を用いることによって実現することができ、いずれかの有線又は無線情報配信機構を含む。一般に、これらの通信媒体は、信号内の情報又は命令をエンコードするような方法で設定又は変更される自己の特性の１又は２以上を有する信号を参照する。例えば、通信媒体は、１又は２以上の変調データ信号を搬送する有線ネットワーク又はダイレクト有線接続のような有線媒体、及び音響、無線周波数（ＲＦ）、赤外線、レーザーのような無線媒体、及び１又は２以上の変調データ信号又は電磁波を送信、受信、又は送受信するための他の無線媒体を含む。上記のいずれかの組合せも、通信媒体の範囲内に含まれるべきである。

さらに、本明細書で説明したポスト符号化ビットレート低減システム１００及び方法又はその一部の様々な実施形態の一部又は全てを具現化するソフトウェア、プログラム、コンピュータプログラム製品のうちの１又はいずれかの組合せは、コンピュータ可読命令又は他のデータ構造の形式で、コンピュータ又はマシン可読媒体又はストレージデバイス及び通信媒体のあらゆる所望の組合せに格納、受信、送信、又はそこから読み出すことができる。

本明細書で説明したポスト符号化ビットレート低減システム１００及び方法の実施形態は、コンピューティングデバイスによって実行されるプログラムモジュールのようなコンピュータ実行可能命令という一般的状況でさらに説明することができる。一般に、プログラムモジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、及びその他を含。また、本明細書で説明した実施形態は、１又は２以上の通信ネットワークを通じてリンクされた１又は２以上のリモート処理デバイスによって、又は１又は２以上のデバイスのクラウド内でタスクが実行される、分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、メディアストレージデバイスを含む、ローカル及びリモートの両方のコンピュータストレージ媒体内に、プログラムモジュールを配置することができる。さらに、上記の命令は、プロセッサを含むこともあれば含まないこともある、ハードウェア論理回路として部分的に又は全体的に実施することができる。

本明細書で使用する条件語、とりわけ、「できる（ｃａｎ）」「してよい（ｍｉｇｈｔ）」「できる（ｍａｙ）」「例えば（ｅ．ｇ．）」及び同様のものは、他に明確に言及されていない限り、又は用いられる文脈でそれ以外に理解されない限り、一般に、特定の実施形態が特定の特徴、要素、及び／又は状態を含むが、他の実施形態は含まないことを伝えるものである。従って、このような条件語は、特徴、要素、及び／又は状態が、１又は２以上の実施形態にとって必ず必須であること、或いは、作成者の入力又は指示があってもなくても、これらの特徴、要素、及び／又は状態が含まれるか又はいずれかの特定の実施形態で実行されるべきかどうかを決めるためのロジックを、１又は２以上の実施形態が必ず含むことを一般に示唆するものではない。用語「含む（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、及び同様のものは、同義であり、包含的かつオープンエンド（ｏｐｅｎ−ｅｎｄ）方式で使用され、付加的な要素、特徴、動作、操作、及びその他を除外しない。また、用語「ｏｒ」は、包括的な意味で（排他的意味ではなく）用いられ、従って、例えば、要素のリストをつなぐために使用されるとき、用語「ｏｒ」は、リスト内の要素のうちの１つ、いくつか、又は全てを意味する。

上記の詳細な説明は、種々の実施形態に適用される場合に新規の特徴を示し、説明し、及び指摘するが、本開示の精神から逸脱することなく、例証されたデバイス又はアルゴリズムの形式及び詳細において、様々な省略、置換、及び変更を加えることができる点を理解されたい。理解できるように、一部の特徴は、他の特徴とは別に使用すること又は実施することができるので、本明細書で説明する本発明の特定の実施形態は、本明細書に示した特徴及び利点の全てを提供しない形態の範囲内で具現化することができる。

さらに、主題は、構造的特徴及び方法論的動作に特有の用語で説明してきたが、添付の請求項に記載する主題は、上記で説明した特定の特徴又は動作に必ずしも限定されるわけではないことを理解されたい。むしろ、上記で説明した特定の特徴及び動作は、請求項を実施する例示的な形態として開示される。

１００ポスト符号化ビットレート低減システム
８００複数のオーディオオブジェクトファイルを入力する
８１０オーディオオブジェクトファイルの各々を別々に符号化する
８２０複数の別々に符号化されたオーディオオブジェクトファイルと対応する階層メタデータを結合して、プレナリービットレートのプレナリーファイルを生成する
８３０別々に符号化されたオーディオファイルの各々のデータフレームのアクティビティを相互に比較して、選択された期間のデータフレームアクティビティ比較を取得する
８４０データフレームアクティビティ比較及び階層メタデータに基づいて利用可能なビットプールからビットを割り当ててビット割り当てを取得する
８５０ビット割り当てに従って別々に符号化されたオーディオオブジェクトファイルからビットを削減して、ペアードダウンフレームを生成する
８６０ペアードダウンフレームからビット低減符号化オーディオオブジェクトファイルを生成する
８７０ビット低減符号化オーディオオブジェクトファイルを一緒に多重化する
８８０多重化ビット低減符号化オーディオオブジェクトファイルをスケール圧縮ビットストリームにパックする

Claims

単一のプレナリーファイルからスケール圧縮ビットストリームを生成するための１又は２以上の処理デバイスによって実行される方法であって、
複数の別々に符号化されたオーディオオブジェクトファイルを結合することによってプレナリービットレートを有するプレナリーファイルを作成する段階であって、オーディオオブジェクトは、特定のサウンド又はサウンドの組合せのソース信号である、段階と、
前記符号化オーディオオブジェクトファイルの各々をデータフレームにセグメント化する段階と、
選択された期間の前記符号化オーディオファイルの各々のデータフレームのデータフレームアクティビティを相互に比較して、前記選択された期間の前記符号化オーディオファイルの全てのデータフレームアクティビティ比較を取得する段階と、
前記データフレームアクティビティ比較に基づいて、前記選択された期間中に、利用可能なビットプールから前記符号化オーディオオブジェクトファイルのデータフレームの各々にビットを割り当てて、前記選択された期間のビット割り当てを取得する段階と、
前記ビット割り当てに従って、前記データフレームのビットをトランケートすることによって前記プレナリーファイルをスケールダウンして、削減フレームを生成する段階と、
前記削減フレームからビット低減符号化オーディオオブジェクトファイルを取得して前記ビット低減符号化オーディオオブジェクトファイルを一緒に多重化する段階と、
前記単一のプレナリーファイルのポスト符号化ビットレート低減を助長するために前記プレナリービットレートより低いか又は等しいターゲットビットレートを前記スケール圧縮ビットストリームが有するように、前記多重化ビット低減符号化オーディオオブジェクトファイルを前記スケール圧縮ビットストリームにパックする段階と、
を含む方法。
前記複数の別々に符号化されたオーディオオブジェクトファイルと対応する階層メタデータとを結合することによって前記プレナリーファイルを作成する段階であって、前記階層メタデータが、他の符号化オーディオオブジェクトファイルに関する各符号化オーディオオブジェクトファイルの優先順位情報を包含する、段階と、
前記データフレームアクティビティ比較及び前記階層メタデータに基づいて、前記データフレームの各々に前記利用可能なビットプールからビットを割り当てて、前記選択された期間のビット割り当てを取得する段階と、
をさらに含む、請求項１に記載の方法。
前記符号化オーディオオブジェクトファイルの各々の全時間長は、前記プレナリーファイルを作成するために使用される、請求項１に記載の方法。
前記利用可能なビットプールから、前記選択された期間の前記データフレームの全て及び前記符号化オーディオオブジェクトファイルの全てに対してビットを割り当てる段階をさらに含む、請求項１に記載の方法。
前記選択された期間の前記データフレームの各々のデータフレームアクティビティを測定する段階と、
各データフレームの前記データフレームアクティビティを無音閾値と比較して、前記データフレームのいずれかに最小量のアクティビティがあるか否かを決定する段階と、
をさらに含む、請求項２に記載の方法。
特定のデータフレームの前記データフレームアクティビティが前記無音閾値よりも小さいか又は等しい場合に、前記特定のデータフレームを、最小量のアクティビティを有する無音データフレームとして指定して、ビットの何らかの低減なしに前記無音データフレームを表現するために使用されるビット数を同じに維持する段階と、
特定のデータフレームのデータフレームアクティビティが前記無音閾値より大きい場合に、前記データフレームアクティビティをフレームアクティビティバッファに記憶する段階と、
をさらに含む、請求項５に記載の方法。
前記選択された期間に割り当てられたビット数から、前記選択された期間中の無音データフレームによって使用されたビットを差し引くことによって、前記選択された期間の利用可能なビットプールを決定する段階をさらに含む、請求項６に記載の方法。
前記ビット割り当てにおいて前記データフレームに割り当てられるビット数を達成するよう、逆ランキング順でデータフレームのビットをトランケートする段階をさらに含み、前記ランクの低いビットが前記ランクの高いビットの前にトランケートされるようになる、請求項２に記載の方法。
オーディオオブジェクトファイルの周波数領域表現から音色を抽出して、少なくとも一部の音色が取り除かれた前記オーディオオブジェクトファイルを表現する、時間領域残余信号を取得する段階と、
前記抽出された音色及び前記時間領域残余信号を複数のデータチャンクにフォーマット化する段階であって、各データチャンクが複数のデータバイトを含む、段階と、
心理音響的に重要な順序で前記オーディオオブジェクトファイルのデータフレームのデータチャンク及び前記データチャンクのビットの両方を順序付けして、最も重要なビットから最も重要でないビットのランキング順を取得する段階と、
をさらに含む、請求項８に記載の方法。
前記ターゲットビットレートより小さいか又は等しいビットレートでネットワークチャネルを通じて前記スケール圧縮ビットストリームを送信する段階と、
前記スケール圧縮ビットストリームを受信及び復号して復号オーディオオブジェクトファイルを取得する段階と、
をさらに含む、請求項２に記載の方法。
前記復号オーディオオブジェクトファイルをミキシングしてオーディオオブジェクトミックスを作成する段階をさらに含み、前記復号オーディオオブジェクトファイルの２又は３以上は、前記ミックスにおける位置に基づく空間マスキングのために相互に依存する、請求項１０に記載の方法。
オーディオオブジェクトミックスにおける空間位置決めに基づいて前記階層メタデータの前記符号化オーディオオブジェクトファイルを優先順位付けする段階をさらに含む、
ことを特徴とする請求項２に記載の方法。
オーディオオブジェクトミックスにおける各オーディオオブジェクトファイルのユーザに対する重要度に基づいて、前記符号化オーディオオブジェクトファイルの優先順位付けを行う段階をさらに含む、請求項２に記載の方法。
単一のプレナリーファイルから複数のスケール圧縮ビットストリームを取得するための方法であって、
複数のオーディオオブジェクトファイルを別々に符号化して、人間の聴覚に対する心理音響的重要度の順で前記符号化オーディオオブジェクトファイルの各データフレームのビットをランキングする細粒度スケーラビリティを有するスケーラブルビットストリーム符号器を使用して、プレナリービットレートの複数の符号化オーディオオブジェクトファイルを取得する段階と、
前記複数の単独で符号化されたオーディオオブジェクトファイルと対応する階層メタデータを結合することによって、前記プレナリービットレートの前記プレナリーファイルを生成する段階と、
前記プレナリーファイルから第１のターゲットビットレートの第１のスケール圧縮ビットストリームを構成する段階と、
異なるターゲットビットレートの複数のスケールビットストリームが、前記複数の符号化オーディオオブジェクトファイルのいずれの再符号化なしに前記単一のプレナリーファイルから取得されるように、前記プレナリーファイルから第２のターゲットビットレートの第２のスケール圧縮ビットストリームを構成する段階と、
を含み、
前記第１のターゲットビットレート及び前記第２のターゲットビットレートは、互いに異なり、両方とも前記プレナリービットレートよりも小さい、ことを特徴とする方法。
前記第１のターゲットビットレートは、前記第１のスケール圧縮ビットストリームが送信される最大ビットレートである、請求項１４に記載の方法。
前記複数の符号化オーディオオブジェクトファイルの各々は、永続的であり、前記プレナリーファイルの全持続時間に存在する、請求項１５に記載の方法。
選択された期間の前記複数の符号化オーディオファイルの各々のデータフレームのデータフレームアクティビティを相互に比較してデータフレームアクティビティ比較を取得する段階と、
前記データフレームアクティビティ比較及び前記第１ターゲットビットレートに基づいて、前記選択された期間の前記符号化オーディオオブジェクトファイルのデータフレームの各々にビットを割り当てて、前記選択された期間のビット割り当てを取得する段階と、
前記ビット割り当てに従って前記データフレームのビットをトランケートすることによって、前記プレナリーファイルをスケールダウンして、前記第１のターゲットビットレートを達成しかつビット低減符号化オーディオオブジェクトファイルを取得する段階と、
前記ビット低減オーディオオブジェクトファイルを一緒に多重化して前記第１のターゲットビットレートの前記第１のスケール圧縮ビットストリームにパックする段階と、
をさらに含む、請求項１６に記載の方法。
前記第１のスケール圧縮ビットストリームを前記第１のターゲットビットレートで受信デバイスに送信する段階と、
前記第１のスケール圧縮ビットストリームを復号して復号オーディオオブジェクトを取得する段階と、
をさらに含む、請求項１７に記載の方法。
前記復号オーディオオブジェクトをミキシングしてオーディオオブジェクトミックスを作成する段階をさらに含む、請求項１８に記載の方法。
ポスト符号化ビットレート低減システムであって、
プレナリーファイルであって、該プレナリーファイルを形成するよう、プレナリービットレートで符号化されかつ対応する階層メタデータと一緒に結合されている別々に符号化されたオーディオオブジェクトファイルを包含する、プレナリーファイルと、
選択された期間において前記オーディオオブジェクトファイルの各々のデータフレームの各々のデータフレームアクティビティ比較に基づいて符号化オーディオオブジェクトファイルのデータフレームに割り当てられたビット数を低減して、ビット低減符号化オーディオオブジェクトを取得する、ビット低減モジュールと、
コンピュータネットワークを通じた伝送のためのコンテナにビット低減符号化オーディオオブジェクトのデータフレームを配置するためのビットストリームパッカーと、
前記ビット低減符号化オーディオを包含するコンテナを結合して、ターゲットビットレートのスケール圧縮ビットストリームを生成するためのマルチプレクサと、
を含み、
前記ターゲットビットレートがプレナリービットレートよりも小さい、ことを特徴とするポスト符号化ビットレート低減システム。
ターゲットビットレートでネットワークを通じて受信されたスケール圧縮ビットストリームであって、前記ビットストリームは、コンピュータデバイスに常駐するスケーラブルビットストリーム符号器を使用して別々に符号化され、データフレームアクティビティ比較及び対応する階層メタデータに基づいてトランケートされたプレナリービットレートで符号化されたプレナリーファイルのデータフレームのビットを有する複数のビット低減符号化オーディオオブジェクトファイルを包含し、前記ターゲットビットレートは、前記プレナリービットレートより小さいか又は等しい、スケール圧縮ビットストリームと、
前記スケール圧縮ビットストリームを複数の符号化オーディオオブジェクトファイルに分離するためのデマルチプレクサと、
前記符号化オーディオオブジェクトを復号して復号オーディオオブジェクトを取得するスケーラブルビットストリーム復号器と、
を含む、オーディオ信号受信システム。
前記復号オーディオオブジェクトファイルをミキシングしてオーディオオブジェクトミックスを生成するよう使用されるミキシングデバイスをさらに含む、請求項２２に記載のオーディオ信号受信システム。