JP2017520785A

JP2017520785A - 高次アンビソニック係数の閉ループ量子化

Info

Publication number: JP2017520785A
Application number: JP2016567848A
Authority: JP
Inventors: キム、モ・ユン; ペーターズ、ニルス・ガンザー; セン、ディパンジャン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-05-16
Filing date: 2015-05-15
Publication date: 2017-07-27
Also published as: EP3143618A1; US20150332681A1; KR20170010792A; CN106471576A; WO2015175953A1; US9959876B2; EP3143618B1; CN106471576B

Abstract

概して、音場の３次元表現を与えるＨＯＡ係数の閉ループ量子化のための技法が説明される。オーディオ符号化デバイスは、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、オーディオオブジェクトの閉ループ量子化を実行することができる。オーディオ復号デバイスは、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、閉ループ量子化されたオーディオオブジェクトを取得し、オーディオオブジェクトを逆量子化することができる。

Description

[0001]本出願は、以下の米国仮出願、すなわち、
２０１４年５月１６日に出願された「ＣＬＯＳＥＤＬＯＯＰＱＵＡＮＴＩＺＡＴＩＯＮＯＦＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」という名称の米国仮出願第６１／９９４，４９３号、
２０１４年５月１６日に出願された「ＣＬＯＳＥＤＬＯＯＰＱＵＡＮＴＩＺＡＴＩＯＮＯＦＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」という名称の米国仮出願第６１／９９４，７８８号、および
２０１４年５月２８日に出願された「ＣＬＯＳＥＤＬＯＯＰＱＵＡＮＴＩＺＡＴＩＯＮＯＦＨＩＧＨＥＲＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」という名称の米国仮出願第６２／００４，０８２号
の利益を主張し、上記に記載された米国仮出願の各々は、それらのそれぞれの全体として本明細書に記載されたかのように、参照により組み込まれる。

[0002]本開示はオーディオデータに関し、より詳細には、高次アンビソニックオーディオデータの量子化に関する。

[0003]高次アンビソニックス（ambisonic）（ＨＯＡ）信号（複数の球面調和係数（ＳＨＣ）または他の階層的な要素によってしばしば表される）は、音場の３次元表現である。このＨＯＡ表現またはＳＨＣ表現は、ＳＨＣ信号からレンダリングされるマルチチャネルオーディオ信号を再生するために使用されるローカルスピーカーの幾何学的配置に依存しない方法で、音場を表し得る。ＳＨＣ信号は、５．１オーディオチャネルフォーマットまたは７．１オーディオチャネルフォーマットなどのよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、ＳＨＣ信号はまた、下位互換性を容易にし得る。したがって、ＳＨＣ表現は、下位互換性にも対応する、音場のより良い表現を可能にし得る。

[0004]概して、音場の３次元表現を与えるＨＯＡ係数の閉ループ量子化のための技法が説明される。オーディオエンコーダは、開ループ量子化プロセスを用いて、オーディオオブジェクトおよびオーディオオブジェクトに関連付けられる指向性情報（いずれも、ＨＯＡ係数から分解され得る）の個別の独立した量子化を実行する代わりに、オーディオオブジェクトに関連付けられる量子化された指向性情報に少なくとも部分的に基づいて、オーディオオブジェクトを量子化し得る。このようにして、量子化されたオーディオオブジェクトは、オーディオオブジェクトに関連付けられる指向性情報を量子化することから生じる量子化誤差を補償し得る。さらに、閉ループ量子化を介して符号化された音場の３次元表現は、開ループ量子化を介して符号化された音場の３次元表現より相対的に少ない量子化誤差でデコーダによって再構成され得る。

[0005]一態様では、フォアグラウンドオーディオ信号を量子化するための方法が、少なくとも１つのプロセッサによって、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、オーディオオブジェクトの閉ループ量子化を実行することを備える。

[0006]別の態様では、フォアグラウンドオーディオ信号を量子化するためのデバイスはメモリを含む。そのデバイスはさらに、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、オーディオオブジェクトの閉ループ量子化を実行するように構成される少なくとも１つのプロセッサを含む。

[0007]別の態様では、オーディオオブジェクトを逆量子化するための方法が、少なくとも１つプロセッサにおいて、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行する結果に少なくとも部分的に基づいて閉ループ量子化されたオーディオオブジェクトを取得することと、少なくとも１つのプロセッサによって、オーディオオブジェクトを逆量子化することとを備える。

[0008]別の態様では、オーディオオブジェクトを逆量子化するためのデバイスがメモリを含む。そのデバイスはさらに、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて閉ループ量子化されたオーディオオブジェクトを取得し、オーディオオブジェクトを逆量子化するように構成される少なくとも１つのプロセッサを含む。

[0009]本技法の１つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。本技法の他の特徴、目的、および利点は、その説明および図面、ならびに特許請求の範囲から明らかになろう。

[0010]様々な次数および副次数の球面調和基底関数を示す図。 [0011]本開示で説明される技法の様々な態様を実行し得るシステムを示す図。 [0012]本開示で説明される技法の様々な態様を実行し得る、図２の例に示されるオーディオ符号化デバイスの一例をより詳細に示すブロック図。 [0013]図２のオーディオ復号デバイスをより詳細に示すブロック図。 [0014]本開示で説明されるベクトルベース合成技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。 [0015]本開示で説明されるコーディング技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。 [0016]本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。 [0017]本開示で説明されるコーディング技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。 [0018]ＨＯＡ信号圧縮のための、１つまたは複数のＶベクトルの形の指向性情報と、フォアグラウンド信号の形のオーディオオブジェクトとの閉ループ量子化を示すブロック図。ＨＯＡ信号圧縮のための、１つまたは複数のＶベクトルの形の指向性情報と、フォアグラウンド信号の形のオーディオオブジェクトとの閉ループ量子化を示すブロック図。 [0019]図３の例に示されるオーディオ符号化デバイスの量子化ユニットの一例をさらに詳細に示すブロック図。 [0020]図３の例に示されるオーディオ符号化デバイスの量子化補償ユニットの一例をさらに詳細に示すブロック図。

[0021]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカーへのフィードを暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している５．１フォーマット（これは、次の６つのチャネル、すなわち、フロントレフト（ＦＬ）と、フロントライト（ＦＲ）と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果（ＬＦＥ）とを含む）、発展中の７．１フォーマット、７．１．４フォーマットおよび２２．２フォーマット（たとえば、超高精細度テレビジョン規格とともに使用するための）などのハイトスピーカーを含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」と呼ばれることが多い（対称な、および非対称な幾何学的配置の）任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂二十面体の角の座標に配置される３２個のラウドスピーカーを含む。

[0022]将来のＭＰＥＧエンコーダへの入力は、任意選択で、次の３つの可能なフォーマット、すなわち、（ｉ）あらかじめ指定された位置でラウドスピーカーを通じて再生されることが意図される、（上で論じられたような）従来のチャネルベースオーディオ、（ｉｉ）（情報の中でも）位置座標を含む関連付けられたメタデータを有する単一オーディオオブジェクトのための離散的なパルス符号変調（ＰＣＭ）データを伴うオブジェクトベースオーディオ、および（ｉｉｉ）球面調和基底関数の係数（「球面調和係数」すなわちＳＨＣ、「高次アンビソニックス」すなわちＨＯＡ、および「ＨＯＡ係数」とも呼ばれる）を使用して音場を表すことを伴うシーンベースオーディオのうちの１つである。将来のＭＰＥＧエンコーダは、２０１３年１月にスイスのジュネーブで発表された、ｈｔｔｐ：／／ｍｐｅｇ．ｃｈｉａｒｉｇｌｉｏｎｅ．ｏｒｇ／ｓｉｔｅｓ／ｄｅｆａｕｌｔ／ｆｉｌｅｓ／ｆｉｌｅｓ／ｓｔａｎｄａｒｄｓ／ｐａｒｔｓ／ｄｏｃｓ／ｗ１３４１１．ｚｉｐにおいて入手可能な、ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ／ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ（ＩＳＯ）／（ＩＥＣ）ＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ１３４１１による「ＣａｌｌｆｏｒＰｒｏｐｏｓａｌｓｆｏｒ３ＤＡｕｄｉｏ」と題される文書においてより詳細に説明され得る。

[0023]市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらのフォーマットは、たとえば、５．１ホームシアターシステム（リビングルームに進出するという点でステレオ以上に最も成功した）からＮＨＫ（ＮｉｐｐｏｎＨｏｓｏＫｙｏｋａｉすなわち日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ作成者（たとえば、ハリウッドスタジオ）は、一度に映画のサウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置（と数）および（レンダラを伴う）再生のロケーションにおける音響条件に適応可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。

[0024]コンテンツ作成者にそのような柔軟性を提供するために、要素の階層セットが音場を表すために使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細なものになり、分解能は向上する。

[0025]要素の階層セットの一例は、球面調和係数（ＳＨＣ）のセットである。次の式は、ＳＨＣを使用する音場の記述または表現を示す。

[0026]この式は、時間ｔにおける音場の任意の点｛ｒ_r，θ_r，φ_r｝における圧力ｐ_iが、ＳＨＣ、Ａ^ｍ _n（ｋ）によって一意に表され得ることを示す。ここで、

であり、ｃは音速（約３４３ｍ／ｓ）であり、｛ｒ_r，θ_r，φ_r｝は基準点（または観測点）であり、ｊ_n（・）は次数ｎの球ベッセル関数であり、Ｙ^ｍ _ｎ（θ_r，φ_r）は次数ｎおよび副次数ｍの球面調和基底関数である。角括弧内の項は、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換などの様々な時間周波数変換によって近似され得る信号の周波数領域表現（すなわち、Ｓ（ω，ｒ_r，θ_r，φ_r））であることが認識できよう。階層セットの他の例は、ウェーブレット変換係数のセット、および多分解能基底関数の係数の他のセットを含む。

[0027]図１は、０次（ｎ＝０）から４次（ｎ＝４）までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図１の例では明示的に示されていない副次数ｍの拡張が存在する。

[0028]ＳＨＣＡ^ｍ _n（ｋ）は、様々なマイクロフォンアレイ構成によって物理的に獲得（たとえば、録音）されることができ、または代替的に、それらは音場のチャネルベースまたはオブジェクトベースの記述から導出されることができる。ＳＨＣはシーンベースのオーディオを表し、ここで、ＳＨＣは、より効率的な送信または記憶を促し得る符号化されたＳＨＣを取得するために、オーディオエンコーダに入力され得る。たとえば、（１＋４）²個の（２５個の、したがって４次の）係数を伴う４次表現が使用され得る。

[0029]上述されたように、ＳＨＣは、マイクロフォンアレイを使用したマイクロフォン録音から導出され得る。ＳＨＣがマイクロフォンアレイからどのように導出され得るかの様々な例は、Ｐｏｌｅｔｔｉ，Ｍ、「Ｔｈｒｅｅ−ＤｉｍｅｎｓｉｏｎａｌＳｕｒｒｏｕｎｄＳｏｕｎｄＳｙｓｔｅｍｓＢａｓｅｄｏｎＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓ」、Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．、Ｖｏｌ．５３、Ｎｏ．１１、２００５年１１月、１００４〜１０２５ページにおいて説明されている。

[0030]ＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数Ａ^ｍ _n（ｋ）は、

と表され得、ただし、ｉは、

であり、ｈ^（２） _ｎ（・）は次数ｎの（第２種）球ハンケル関数であり、｛ｒ_s，θ_s、φ_s｝はオブジェクトのロケーションである。周波数の関数として（たとえば、ＰＣＭストリームに対して高速フーリエ変換を実行するなど、時間周波数分析技法を使用して）オブジェクトソースエネルギーｇ（ω）を知ることで、各ＰＣＭオブジェクトと対応するロケーションとをＳＨＣＡ^ｍ _n（ｋ）に変換することが可能となる。さらに、各オブジェクトについてのＡ^ｍ _n（ｋ）係数は、（上式は線形および直交の分解であるので）加法的であることが示され得る。このようにして、多数のＰＣＭオブジェクトがＡ^ｍ _n（ｋ）係数によって（たとえば、個々のオブジェクトについての係数ベクトルの和として）表され得る。本質的に、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含んでおり、上記は、観測点｛ｒ_r，θ_r，φ_r｝の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの数字は、以下でオブジェクトベースのオーディオコーディングおよびＳＨＣベースのオーディオコーディングの文脈で説明される。

[0031]図２は、本開示で説明される技法の様々な態様を実行し得るシステム１０を示す図である。図２の例に示されるように、システム１０は、コンテンツ作成者デバイス１２と、コンテンツ消費者デバイス１４とを含む。コンテンツ作成者デバイス１２およびコンテンツ消費者デバイス１４の文脈で説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、ＳＨＣ（ＨＯＡ係数とも呼ばれ得る）または音場の任意の他の階層的表現が符号化される任意の文脈で実施され得る。その上、コンテンツ作成者デバイス１２は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。同様に、コンテンツ消費者デバイス１４は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。

[0032]コンテンツ作成者デバイス１２は、コンテンツ消費者デバイス１４などのコンテンツ消費者デバイスのオペレータによる消費のためのマルチチャネルオーディオコンテンツを生成し得る、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例では、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を圧縮することを望む個人ユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともに、オーディオコンテンツを生成する。コンテンツ消費者デバイス１４は、個人によって操作され得る。コンテンツ消費者デバイス１４は、マルチチャネルオーディオコンテンツとしての再生のためにＳＨＣをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム１６を含み得る。

[0033]コンテンツ作成者デバイス１２は、オーディオ編集システム１８を含む。コンテンツ作成者デバイス１２は、様々なフォーマットのライブ録音７（ＨＯＡ係数として直接含む）とオーディオオブジェクト９とを取得し、コンテンツ作成者デバイス１２は、オーディオ編集システム１８を使用してこれらを編集し得る。マイクロフォン５はライブ録音７をキャプチャし得る。コンテンツ作成者は、編集プロセスの間に、オーディオオブジェクト９からのＨＯＡ係数１１をレンダリングし、さらなる編集を必要とする音場の様々な態様を特定しようとして、レンダリングされたスピーカーフィードを聞き得る。コンテンツ作成者デバイス１２は次いで、（潜在的に、上記で説明された方法でソースＨＯＡ係数がそれから導出され得るオーディオオブジェクト９のうちの様々なオブジェクトの操作を通じて間接的に）ＨＯＡ係数１１を編集し得る。コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を生成するためにオーディオ編集システム１８を採用し得る。オーディオ編集システム１８は、オーディオデータを編集し、このオーディオデータを１つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。

[0034]編集プロセスが完了すると、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１に基づいてビットストリーム２１を生成し得る。すなわち、コンテンツ作成者デバイス１２は、ビットストリーム２１を生成するために、本開示で説明される技法の様々な態様に従って、ＨＯＡ係数１１を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス２０を含む。オーディオ符号化デバイス２０は、一例として、有線チャネルまたはワイヤレスチャネル、データ記憶デバイスなどであり得る送信チャネルを介した送信のために、ビットストリーム２１を生成し得る。ビットストリーム２１は、ＨＯＡ係数１１の符号化されたバージョンを表し得、主要ビットストリームと、サイドチャネル情報とも呼ばれ得る別のサイドビットストリームとを含み得る。

[0035]図２では、コンテンツ消費者デバイス１４に直接的に送信されるものとして示されているが、コンテンツ作成者デバイス１２は、コンテンツ作成者デバイス１２とコンテンツ消費者デバイス１４との間に配置された中間デバイスにビットストリーム２１を出力し得る。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス１４に後で配信するために、ビットストリーム２１を記憶し得る。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにビットストリーム２１を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、ビットストリーム２１を要求するコンテンツ消費者デバイス１４などの加入者にビットストリーム２１を（場合によっては対応するビデオデータビットストリームを送信するとともに）ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在し得る。

[0036]代替的に、コンテンツ作成者デバイス１２は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にビットストリーム２１を記憶し得、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ば得る。この文脈において、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指し得る（および、小売店と他の店舗ベースの配信機構とを含み得る）。したがって、いずれにしても、本開示の技法は、この点に関して図２の例に限定されるべきではない。

[0037]図２の例にさらに示されるように、コンテンツ消費者デバイス１４は、オーディオ再生システム１６を含む。オーディオ再生システム１６は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム１６は、いくつかの異なるレンダラ２２を含み得る。レンダラ２２は各々、異なる形態のレンダリングを提供し得、異なる形態のレンダリングは、ベクトルベース振幅パンニング（ＶＢＡＰ：vector-base amplitude panning）を実行する様々な方法の１つもしくは複数、および／または音場合成を実行する様々な方法の１つもしくは複数を含み得る。本明細書で使用される場合、「Ａおよび／またはＢ」は、「ＡまたはＢ」、または「ＡとＢ」の両方を意味する。

[0038]オーディオ再生システム１６は、オーディオ復号デバイス２４をさらに含み得る。オーディオ復号デバイス２４は、ビットストリーム２１からＨＯＡ係数１１’を復号するように構成されたデバイスを表し得、ＨＯＡ係数１１’は、ＨＯＡ係数１１と類似し得るが、損失のある演算（たとえば、量子化）および／または送信チャネルを介した送信が原因で異なり得る。オーディオ再生システム１６は、ＨＯＡ係数１１’を取得するためにビットストリーム２１を復号した後、ラウドスピーカーフィード２５を出力するためにＨＯＡ係数１１’をレンダリングし得る。ラウドスピーカーフィード２５は、１つまたは複数のラウドスピーカー（説明を簡単にするために図２の例には示されていない）を駆動し得る。

[0039]適切なレンダラを選択するために、またはいくつかの場合には、適切なレンダラを生成するために、オーディオ再生システム１６は、ラウドスピーカーの数および／またはラウドスピーカーの空間的な幾何学的配置を示すラウドスピーカー情報１３を取得し得る。いくつかの場合には、オーディオ再生システム１６は、基準マイクロフォンを使用してラウドスピーカー情報１３を取得し、ラウドスピーカー情報１３を動的に決定するような方法でラウドスピーカーを駆動し得る。他の場合には、またはラウドスピーカー情報１３の動的な決定とともに、オーディオ再生システム１６は、オーディオ再生システム１６とインターフェースをとりラウドスピーカー情報１３を入力するようにユーザに促し得る。

[0040]オーディオ再生システム１６は次いで、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを選択し得る。いくつかの場合には、オーディオ再生システム１６は、ラウドスピーカー情報１３において指定された幾何学的配置に対する何らかの閾値に類似した尺度（ラウドスピーカーの幾何学的配置に関する）内にいずれのオーディオレンダラ２２もないとき、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを生成し得る。オーディオ再生システム１６は、いくつかの場合には、オーディオレンダラ２２のうちの既存の１つを選択することを最初に試みることなく、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを生成し得る。その際、１つまたは複数のスピーカー３は、レンダリングされたラウドスピーカーフィード２５を再生し得る。

[0041]図３は、本開示で説明される技法の様々な態様を実行し得る、図２の例に示されるオーディオ符号化デバイス２０の一例をより詳細に示すブロック図である。オーディオ符号化デバイス２０は、コンテンツ分析ユニット２６と、ベクトルベース分解ユニット２７と、指向性ベース分解ユニット２８とを含む。以下で手短に説明されるが、オーディオ符号化デバイス２０に関するより多くの情報、およびＨＯＡ係数を圧縮またはさもなければ符号化する様々な態様は、２０１４年５月２９に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0042]コンテンツ分析ユニット２６は、ＨＯＡ係数１１がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを特定するために、ＨＯＡ係数１１のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット２６は、ＨＯＡ係数１１が実際の音場の録音から生成されたか人工的なオーディオオブジェクトから生成されたかを決定し得る。いくつかの場合には、フレーム化されたＨＯＡ係数１１が録音から生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１をベクトルベース分解ユニット２７に渡す。いくつかの場合には、フレーム化されたＨＯＡ係数１１が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１を指向性ベース分解ユニット２８に渡す。指向性ベース分解ユニット２８は、指向性ベースビットストリーム２１を生成するためにＨＯＡ係数１１の指向性ベース合成を実行するように構成されたユニットを表し得る。

[0043]図３の例に示されるように、ベクトルベース分解ユニット２７は、線形可逆変換（ＬＩＴ）ユニット３０と、パラメータ計算ユニット３２と、並べ替えユニット３４と、フォアグラウンド選択ユニット３６と、エネルギー補償ユニット３８と、聴覚心理オーディオコーダユニット４０と、ビットストリーム生成ユニット４２と、音場分析ユニット４４と、係数低減ユニット４６と、バックグラウンド（ＢＧ）選択ユニット４８と、空間時間的補間ユニット５０と、量子化ユニット５２とを含み得る。

[0044]線形可逆変換（ＬＩＴ）ユニット３０は、ＨＯＡチャネルの形態でＨＯＡ係数１１を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連付けられた係数のブロックまたはフレーム（ＨＯＡ［ｋ］と示され得、ただし、ｋはサンプルの現在のフレームまたはブロックを示し得る）を表す。ＨＯＡ係数１１の行列は、次元Ｄ：Ｍ×（Ｎ＋１）²を有し得る。

[0045]ＬＩＴユニット３０は、特異値分解と呼ばれるある形態の分析を実行するように構成されたユニットを表し得る。ＳＶＤに関して説明されているが、本開示で説明される技法は、線形的に無相関な、エネルギーが圧縮された出力のセットを提供する任意の類似の変換または分解に対して実行されてよい。また、本開示における「セット」への言及は、一般的に、それとは反対に特に明記されていない限り、非０のセットを指すことが意図され、いわゆる「空集合」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「ＰＣＡ」と呼ばれることが多い、主成分分析を備え得る。文脈に応じて、ＰＣＡは、いくつかの例を挙げれば、離散カルーネン−レーベ変換、ホテリング変換、固有直交分解（ＰＯＤ）、および固有値分解（ＥＶＤ）などのいくつかの異なる名前によって呼ばれ得る。オーディオデータを圧縮するという背後にある目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「無相関化」である。

[0046]いずれにしても、ＬＩＴユニット３０が、例として、特異値分解（やはり「ＳＶＤ」と呼ばれ得る）を実行すると仮定すると、ＬＩＴユニット３０は、ＨＯＡ係数１１を、変換されたＨＯＡ係数の２つ以上のセットに変換し得る。変換されたＨＯＡ係数の「セット」は、変換されたＨＯＡ係数のベクトルを含み得る。図３の例では、ＬＩＴユニット３０は、いわゆるＶ行列と、Ｓ行列と、Ｕ行列とを生成するために、ＨＯＡ係数１１に関してＳＶＤを実行し得る。ＳＶＤは、線形代数学では、ｙ×ｚの実行列または複素行列Ｘ（ここで、Ｘは、ＨＯＡ係数１１などのマルチチャネルオーディオデータを表し得る）の因数分解を以下の形で表し得る。
Ｘ＝ＵＳＶ^＊
Ｕはｙ×ｙの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｕのｙ個の列は、マルチチャネルオーディオデータの左特異ベクトルとして知られる。Ｓは、対角線上に非負実数をもつｙ×ｚの矩形対角行列を表し得、ここで、Ｓの対角要素の値は、マルチチャネルオーディオデータの特異値として知られる。Ｖ^＊（Ｖの共役転置を示し得る）はｚ×ｚの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｖ^＊のｚ個の列は、マルチチャネルオーディオデータの右特異ベクトルとして知られる。

[0047]いくつかの例では、上で参照されたＳＶＤ数式中のＶ^＊行列は、複素数を備える行列にＳＶＤが適用され得ることを反映するために、Ｖ行列の共役転置として示される。実数のみを備える行列に適用されるとき、Ｖ行列の複素共役（すなわち、言い換えれば、Ｖ^＊行列）は、Ｖ行列の転置であると見なされ得る。以下では、説明を簡単にするために、ＨＯＡ係数１１が実数を備え、その結果、Ｖ^＊行列ではなくＶ行列がＳＶＤによって出力されると仮定される。その上、本開示ではＶ行列として示されるが、Ｖ行列への言及は、適切な場合にはＶ行列の転置を指すものとして理解されるべきである。Ｖ行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するＨＯＡ係数１１に適用され得、ここで、ＳＶＤの出力はＶ^＊行列である。したがって、本技法は、この点について、Ｖ行列を生成するためにＳＶＤの適用を提供することのみに限定されるべきではなく、Ｖ^＊行列を生成するために複素成分を有するＨＯＡ係数１１へのＳＶＤの適用を含み得る。

[0048]このようにして、ＬＩＴユニット３０は、次元Ｄ：Ｍ×（Ｎ＋１）²を有するＵＳ［ｋ］ベクトル３３（ＳベクトルとＵベクトルとの組み合わされたバージョンを表し得る）と、次元Ｄ：（Ｎ＋１）²×（Ｎ＋１）²を有するＶ［ｋ］ベクトル３５とを出力するために、ＨＯＡ係数１１に関してＳＶＤを実行し得る。ＵＳ［ｋ］行列中の個々のベクトル要素はＸ_ps（ｋ）とも呼ばれ得、一方、Ｖ［ｋ］行列の個々のベクトルはｖ（ｋ）とも呼ばれ得る。

[0049]Ｕ行列、Ｓ行列、およびＶ行列の分析は、それらの行列がＸによって上で表される背後の音場の空間的および時間的な特性を伝え、または表すということを明らかにし得る。（Ｍ個のサンプルの長さの）Ｕの中のＮ個のベクトルの各々は、（Ｍ個のサンプルによって表される時間期間の間は）時間の関数として、互いに直交しておりあらゆる空間特性（指向性情報とも呼ばれ得る）とは切り離されている、正規化された分離されたオーディオ信号を表し得る。空間的な形状と位置（ｒ、θ、φ）とを表す空間特性は代わりに、（各々が（Ｎ＋１）²の長さの）Ｖ行列の中の個々のｉ番目のベクトル、ｖ⁽ⁱ⁾（ｋ）によって表され得る。ｖ⁽ⁱ⁾（ｋ）ベクトルの各々の個々の要素は、関連付けられたオーディオオブジェクトのための音場の形状（幅を含む）と位置とを記述するＨＯＡ係数を表し得る。Ｕ行列中のベクトルとＶ行列中のベクトルの両方が、それらの２乗平均エネルギーが１に等しくなるように正規化される。したがって、Ｕの中のオーディオ信号のエネルギーは、Ｓの中の対角線要素によって表される。したがって、ＵＳ［ｋ］（個々のベクトル要素Ｘ_PS（ｋ）を有する）を形成するために、ＵとＳとを乗算することは、エネルギーを有するオーディオ信号を表す。（Ｕにおける）オーディオ時間信号と、（Ｓにおける）それらのエネルギーと、（Ｖにおける）それらの空間特性とを切り離すＳＶＤ分解の能力は、本開示で説明される技法の様々な態様を支援し得る。さらに、背後のＨＯＡ［ｋ］係数ＸをＵＳ［ｋ］とＶ［ｋ］とのベクトル乗算によって合成するモデルは、「ベクトルベース分解」という用語を生じさせ、それは本文書全体で使用される。さらに、本明細書全体を通して、エネルギーを伴うオーディオ信号を表すＵＳ［ｋ］は、「オーディオオブジェクト」または「フォアグラウンドオーディオ信号」という用語で呼ばれ得、Ｖ［ｋ］は、「オーディオオブジェクトに関連付けられる指向性情報」または「フォアグラウンド信号に関連付けられる指向性情報」と呼ばれ得る。ＨＯＡ［ｋ］係数は、ＨＯＡ係数と呼ばれ得、ＨＯＡ係数＝ＵＳ［ｋ］^*Ｖ［ｋ］であるか、または言い換えると、ＨＯＡ係数は、オーディオオブジェクト（ＵＳ［ｋ］）とオーディオオブジェクトに関連付けられる指向性情報（Ｖ［ｋ］）との積である。

[0050]ＨＯＡ係数１１に関して直接実行されるものとして説明されるが、ＬＩＴユニット３０は、線形可逆変換をＨＯＡ係数１１の派生物に適用し得る。たとえば、ＬＩＴユニット３０は、ＨＯＡ係数１１から導出された電力スペクトル密度行列に関してＳＶＤを適用し得る。ＨＯＡ係数自体ではなくＨＯＡ係数の電力スペクトル密度（ＰＳＤ）に関してＳＶＤを実行することによって、ＬＩＴユニット３０は潜在的に、プロセッササイクルおよび記憶空間のうちの１つまたは複数に関してＳＶＤを実行することの計算的な複雑さを低減しつつ、ＳＶＤがＨＯＡ係数に直接適用されたかのように同じソースオーディオ符号化効率を達成し得る。

[0051]パラメータ計算ユニット３２は、相関パラメータ（Ｒ）、指向性特性パラメータ（θ、φ、ｒ）、およびエネルギー特性（ｅ）などの様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、Ｒ［ｋ］、θ［ｋ］、φ［ｋ］、ｒ［ｋ］、およびｅ［ｋ］として示され得る。パラメータ計算ユニット３２は、パラメータを特定するために、ＵＳ［ｋ］ベクトル３３に関してエネルギー分析および／または相関（もしくはいわゆる相互相関）を実行し得る。パラメータ計算ユニット３２はまた、以前のフレームのためのパラメータを決定することができ、ここで、以前のフレームパラメータは、ＵＳ［ｋ−１］ベクトルおよびＶ［ｋ−１］ベクトルの以前のフレームに基づいて、Ｒ［ｋ−１］、θ［ｋ−１］、φ［ｋ−１］、ｒ［ｋ−１］、およびｅ［ｋ−１］と示され得る。パラメータ計算ユニット３２は、現在のパラメータ３７と以前のパラメータ３９とを並べ替えユニット３４に出力し得る。

[0052]パラメータ計算ユニット３２によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット３４によって使用され得る。並べ替えユニット３４は、第１のＵＳ［ｋ］ベクトル３３からのパラメータ３７の各々を、第２のＵＳ［ｋ−１］ベクトル３３のためのパラメータ３９の各々に対して順番ごとに比較し得る。並べ替えユニット３４は、並べ替えられたＵＳ［ｋ］行列３３’（数学的には

として示され得る）と、並べ替えられたＶ［ｋ］行列３５’（数学的には

として示され得る）とをフォアグラウンドサウンド（または支配的サウンド−ＰＳ（predominant sound））選択ユニット３６（「フォアグラウンド選択ユニット３６」）およびエネルギー補償ユニット３８に出力するために、現在のパラメータ３７および以前のパラメータ３９に基づいて、ＵＳ［ｋ］行列３３およびＶ［ｋ］行列３５内の様々なベクトルを（一例として、ハンガリー法を使用して）並べ替え得る。

[0053]音場分析ユニット４４は、目標ビットレート４１を潜在的に達成するために、ＨＯＡ係数１１に関して音場分析を実行するように構成されたユニットを表し得る。音場分析ユニット４４は、その分析および／または受信された目標ビットレート４１に基づいて、聴覚心理コーダのインスタンス化の総数（環境またはバックグラウンドチャネルの総数（ＢＧ_TOT）とフォアグラウンドチャネル、または言い換えれば支配的なチャネルの数との関数であり得る）を決定し得る。聴覚心理コーダのインスタンス化の総数は、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓとして示されることができる。

[0054]音場分析ユニット４４はまた、やはり目標ビットレート４１を潜在的に達成するために、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド（または言い換えれば環境的な）音場の最小次数（Ｎ_BG、または代替的にはＭｉｎＡｍｂＨＯＡｏｒｄｅｒ）と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数（ｎＢＧａ＝（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²）と、送るべき追加のＢＧＨＯＡチャネルのインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３として総称的に示され得る）とを決定し得る。バックグラウンドチャネル情報４３は、環境チャネル情報４３とも呼ばれ得る。ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓ−ｎＢＧａで残るチャネルの各々は、「追加のバックグラウンド／環境チャネル」、「アクティブなベクトルベースの支配的なチャネル」、「アクティブな指向性ベースの支配的な信号」、または「完全に非アクティブ」のいずれかであり得る。一態様では、チャネルタイプは、２ビットによって（「ＣｈａｎｎｅｌＴｙｐｅ」として）示されたシンタックス要素であり得る（たとえば、００：指向性ベースの信号、０１：ベクトルベースの支配的な信号、１０：追加の環境信号、１１：非アクティブな信号）。バックグラウンド信号または環境信号の総数、ｎＢＧａは、（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²＋（上記の例における）インデックス１０がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。

[0055]音場分析ユニット４４は、目標ビットレート４１に基づいて、バックグラウンド（または言い換えれば環境）チャネルの数とフォアグラウンド（または言い換えれば支配的な）チャネルの数とを選択し、目標ビットレート４１が比較的高いとき（たとえば、目標ビットレート４１が５１２Ｋｂｐｓ以上であるとき）はより多くのバックグラウンドチャネルおよび／またはフォアグラウンドチャネルを選択し得る。一態様では、ビットストリームのヘッダセクションにおいて、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓは８に設定され得るが、一方で、ＭｉｎＡｍｂＨＯＡｏｒｄｅｒは１に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分または環境部分を表すために４つのチャネルが確保され得るが、一方で、他の４つのチャネルは、フレームごとに、チャネルのタイプに応じて変化してよく、たとえば、追加のバックグラウンド／環境チャネルまたはフォアグラウンド／支配的なチャネルのいずれかとして使用され得る。フォアグラウンド／支配的な信号は、上記で説明されたように、ベクトルベースの信号または指向性ベースの信号のいずれかの１つであり得る。

[0056]いくつかの場合には、フレームのためのベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてＣｈａｎｎｅｌＴｙｐｅインデックスが０１である回数によって与えられ得る。上記の態様では、各々の追加のバックグラウンド／環境チャネル（たとえば、１０というＣｈａｎｎｅｌＴｙｐｅに対応する）に対して、（最初の４つ以外の）あり得るＨＯＡ係数のいずれがそのチャネルにおいて表され得るかの対応する情報。その情報は、４次のＨＯＡコンテンツについては、ＨＯＡ係数５〜２５を示すためのインデックスであり得る。最初の４つの環境ＨＯＡ係数１〜４は、ｍｉｎＡｍｂＨＯＡｏｒｄｅｒが１に設定されるときは常に送られ得、したがって、オーディオ符号化デバイスは、５〜２５のインデックスを有する追加の環境ＨＯＡ係数のうちの１つを示すことのみが必要であり得る。その情報はしたがって、「ＣｏｄｅｄＡｍｂＣｏｅｆｆＩｄｘ」として示され得る、（４次のコンテンツのための）５ビットのシンタックス要素を使用して送られ得る。いずれにしても、音場分析ユニット４４は、バックグラウンドチャネル情報４３とＨＯＡ係数１１とをバックグラウンド（ＢＧ）選択ユニット３６に、バックグラウンドチャネル情報４３を係数低減ユニット４６およびビットストリーム生成ユニット４２に、ｎＦＧ４５をフォアグラウンド選択ユニット３６に出力する。

[0057]バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報（たとえば、バックグラウンド音場（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ）と）に基づいて、バックグラウンドまたは環境ＨＯＡ係数４７を決定するように構成されたユニットを表し得る。たとえば、Ｎ_BGが１に等しいとき、バックグラウンド選択ユニット４８は、１以下の次数を有するオーディオフレームの各サンプルのＨＯＡ係数１１を選択し得る。バックグラウンド選択ユニット４８は次いで、この例では、インデックス（ｉ）のうちの１つによって特定されるインデックスを有するＨＯＡ係数１１を、追加のＢＧＨＯＡ係数として選択することができ、ここで、ｎＢＧａは、図２および図４の例に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスがビットストリーム２１からバックグラウンドＨＯＡ係数４７を解析することを可能にするために、ビットストリーム２１において指定されるために、ビットストリーム生成ユニット４２に提供される。バックグラウンド選択ユニット４８は次いで、環境ＨＯＡ係数４７をエネルギー補償ユニット３８に出力し得る。環境ＨＯＡ係数４７は、次元Ｄ：Ｍ×［（Ｎ_BG＋１）²＋ｎＢＧａ］を有し得る。環境ＨＯＡ係数４７はまた、「環境ＨＯＡ係数４７」と呼ばれ得、ここで、環境ＨＯＡ係数４７の各々は、聴覚心理オーディオコーダユニット４０によって符号化されるべき別個の環境ＨＯＡチャネルに対応する。

[0058]フォアグラウンド選択ユニット３６は、（フォアグラウンドベクトルを特定する１つまたは複数のインデックスを表し得る）ｎＦＧ４５に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたＵＳ［ｋ］行列３３’と並べ替えられたＶ［ｋ］行列３５’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット３６は、（並べ替えられたＵＳ［ｋ］_1,...,nFG４９、ＦＧ_1,...,nfG［ｋ］４９、またはＸ^{（１．．ｎＦＧ）} _ＰＳ（ｋ）４９として示され得る）ｎＦＧ信号４９を、量子化補償ユニット７０に出力することができ、ここで、ｎＦＧ信号４９は次元Ｄ：Ｍ×ｎＦＧを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット３６はまた、音場のフォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’（またはｖ^(1..nFG)（ｋ）３５’）を空間時間的補間ユニット５０に出力することができ、ここで、フォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’のサブセットは、次元Ｄ：（Ｎ＋１）²×ｎＦＧを有するフォアグラウンドＶ［ｋ］行列５１_kとして示され得る（これは、

として数学的に示され得る）。

[0059]エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡチャネルのうちの様々なチャネルの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を実行するように構成されたユニットを表し得る。エネルギー補償ユニット３８は、並べ替えられたＵＳ［ｋ］行列３３’、並べ替えられたＶ［ｋ］行列３５’、ｎＦＧ信号４９、フォアグラウンドＶ［ｋ］ベクトル５１_k、および環境ＨＯＡ係数４７のうちの１つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー補償された環境ＨＯＡ係数４７’を生成するために、そのエネルギー分析に基づいてエネルギー補償を実行し得る。エネルギー補償ユニット３８は、エネルギー補償された環境ＨＯＡ係数４７’を聴覚心理オーディオコーダユニット４０に出力し得る。

[0060]空間時間的補間ユニット５０は、ｋ番目のフレームのためのフォアグラウンドＶ［ｋ］ベクトル５１_kと以前のフレームに関する（したがってｋ−１という表記である）フォアグラウンドＶ［ｋ−１］ベクトル５１_k-1とを受信し、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために空間時間的補間を実行するように構成されたユニットを表し得る。空間時間的補間ユニット５０は、並べ替えられたフォアグラウンドＨＯＡ係数を復元するために、ｎＦＧ信号４９をフォアグラウンドＶ［ｋ］ベクトル５１_kと再び組み合わせ得る。空間時間的補間ユニット５０は次いで、補間されたｎＦＧ信号４９’を生成するために、補間されたＶ［ｋ］ベクトルによって、並べ替えられたフォアグラウンドＨＯＡ係数を分割し得る。空間時間的補間ユニット５０はまた、オーディオ復号デバイス２４などのオーディオ復号デバイスが補間されたフォアグラウンドＶ［ｋ］ベクトルを生成しそれによってフォアグラウンドＶ［ｋ］ベクトル５１_kを復元できるように、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kを出力し得る。補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kは、残りのフォアグラウンドＶ［ｋ］ベクトル５３として示される。同じＶ［ｋ］およびＶ［ｋ−１］がエンコーダおよびデコーダにおいて（補間されたベクトルＶ［ｋ］を作成するために）使用されることを保証するために、ベクトルの量子化された／逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用され得る。空間時間的補間ユニット５０は、補間されたｎＦＧ信号４９’を聴覚心理オーディオコーダユニット４０に出力し、補間されたフォアグラウンドＶ［ｋ］ベクトル５１_kを係数低減ユニット４６に出力し得る。

[0061]係数低減ユニット４６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を量子化ユニット５２に出力するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行するように構成されたユニットを表し得る。低減されたフォアグラウンドＶ［ｋ］ベクトル５５は、次元Ｄ：［（Ｎ＋１）²−（Ｎ_BG＋１）²−ＢＧ_TOT］×ｎＦＧを有し得る。係数低減ユニット４６は、この点において、残りのフォアグラウンドＶ［ｋ］ベクトル５３における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット４６は、指向性情報をほとんどまたはまったく有しない（残りのフォアグラウンドＶ［ｋ］ベクトル５３を形成する）フォアグラウンドＶ［ｋ］ベクトルにおける係数を除去するように構成されたユニットを表し得る。いくつかの例では、（Ｎ_BGと示され得る）１次および０次の基底関数に対応する、明瞭な、または言い換えればフォアグラウンドＶ［ｋ］ベクトルの係数は、指向性情報をほとんど提供せず、したがって、（「係数低減」と呼ばれ得るプロセスを通じて）フォアグラウンドＶベクトルから除去され得る。この例では、対応する係数Ｎ_BGを特定するだけではなく、追加のＨＯＡチャネル（変数ＴｏｔａｌＯｆＡｄｄＡｍｂＨＯＡＣｈａｎによって示され得る）を［（Ｎ_BG＋１）²＋１，（Ｎ＋１）²］のセットから特定するために、より大きい柔軟性が与えられ得る。

[0062]量子化ユニット５２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮するための任意の形態の量子化を実行し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をビットストリーム生成ユニット４２に出力するように構成されたユニットを表し得る。動作において、量子化ユニット５２は、音場の空間成分、すなわちこの例では低減されたフォアグラウンドＶ［ｋ］ベクトル５５の１つまたは複数を圧縮するように構成されたユニットを表し得る。量子化ユニット５２は、「ＮｂｉｔＱ」で表される量子化モードシンタックス要素によって示されるような、以下の１２の量子化モードのうちのいずれか１つを実行し得る。
ＮｂｉｔＱ値量子化モードのタイプ
０〜３：予約済み
４：ベクトル量子化
５：ハフマンコーディングなしのスカラー量子化
６：ハフマンコーディングありの６ビットスカラー量子化
７：ハフマンコーディングありの７ビットスカラー量子化
８：ハフマンコーディングありの８ビットスカラー量子化
１６：ハフマンコーディングありの１６ビットスカラー量子化
量子化ユニット５２は、また、前述のタイプの量子化モードのいずれかの量子化モードの予測されたバージョンを実行し得、ここで、以前のフレームのＶベクトルの要素（またはベクトル量子化が実行されるときの重み）と、現在のフレームのＶベクトルの要素（またはベクトル量子化が実行されるときの重み）との間の差が決定される。量子化ユニット５２は、その際、現在のフレーム自体のＶベクトルの要素の値ではなく、現在のフレームの要素または重みと、以前のフレームの要素または重みとの間の差を量子化し得る。

[0063]量子化ユニット５２は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の複数の符号化されたバージョンを取得するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５のそれぞれに対して複数の形の量子化を実行し得る。量子化ユニット５２は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７として、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の符号化されたバージョンのうちの１つまたは複数を選択し得る。量子化ユニット５２は、言い換えれば、本開示で説明される基準の任意の組合せに基づいて、出力切替えされ量子化されたＶベクトルとして使用するために、予測されないベクトル量子化されたＶベクトル、予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの１つを選択し得る。いくつかの例では、量子化ユニット５２は、ベクトル量子化モードと１つまたは複数のスカラー量子化モードとを含む、量子化モードのセットから量子化モードを選択し、選択されたモードに基づいて（または従って）、入力Ｖベクトルを量子化し得る。量子化ユニット５２は次いで、（たとえば、重み値またはそれを示すビットに関して）予測されないベクトル量子化されたＶベクトル、（たとえば、誤差値またはそれを示すビットに関して）予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの選択されたものを、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７としてビットストリーム生成ユニット４２に与え得る。量子化ユニット５２はまた、量子化モードを示すシンタックス要素（たとえば、ＮｂｉｔｓＱシンタックス要素）と、Ｖベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与え得る。

[0064]オーディオ符号化デバイス２０に含まれる量子化補償ユニット７０は、補間されたフォアグラウンドＶ［ｋ］ベクトル５３を量子化することから生じる量子化誤差を補償するために、空間時間的補間ユニット５０から補間されたｎＦＧ信号４９’および補間されたフォアグラウンドＶ［ｋ］ベクトル５３を、そして、量子化ユニット５２からコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を受信し、ｎＦＧ信号４９’に関する量子化補償を実行するように構成されるユニットを表し得る。量子化補償ユニット７０は、量子化補償されたｎＦＧ信号６０を生成し、聴覚心理オーディオコーダユニット４０に出力し得る。

[0065]量子化補償されたｎＦＧ信号６０を決定するために、量子化補償ユニット７０は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７は行列であるので、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の擬似逆行列を得るために、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７に関する擬似逆行列関数を実行し得る。擬似逆行列関数は、いくつかの例において、一般化逆行列関数、またはムーア−ペンローズの擬似逆行列関数とし得る。量子化補償ユニット７０は、中間的な量子化補償されたｎＦＧ信号を決定するために、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の擬似逆行列と、フォアグラウンドＨＯＡ係数との積を計算し得る。たとえば、量子化補償ユニット７０は、補間されたｎＦＧ信号４９’と補間されたフォアグラウンドＶ［ｋ］ベクトル５３との積として、フォアグラウンドＨＯＡ係数を決定し得る。中間的な量子化補償されたｎＦＧ信号は、補間されたフォアグラウンドＶ［ｋ］ベクトル５３の代わりに、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７に少なくとも部分的に基づいて計算されるので、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の擬似逆行列とフォアグラウンドＨＯＡ係数との積の結果として生成されることによって、量子化補償ユニット７０によって生成される中間的な量子化補償されたｎＦＧ信号は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７によって導入される量子化誤差を補償し得る。したがって、オーディオ符号化デバイス２０は、それにより、量子化補償されたｎＦＧ信号６０を量子化する際に、補間されたフォアグラウンドＶ［ｋ］ベクトル５３を量子化する際に導入される任意の誤差を補償し得る。

[0066]量子化補償ユニット７０はさらに、量子化補償されたｎＦＧ信号６０を生成するために、現在のフレームｋの中間的な量子化補償されたｎＦＧ信号の一部を、以前のフレームｋ−１の中間的な量子化補償されたｎＦＧ信号の一部とクロスフェードさせ得る。たとえば、量子化補償ユニット７０は、１０２４×２のサイズの量子化補償されたｎＦＧ信号６０を生成するために、現在のフレームｋの中間的な量子化補償されたｎＦＧ信号の最初の２５６サンプルと、以前のフレームｋ−１の中間的な量子化補償されたｎＦＧ信号の最後の２５６サンプルとクロスフェードさせ得る。いくつかの例では、量子化補償ユニット７０は、現在のフレームｋの中間的な量子化補償されたｎＦＧ信号を、以前のフレームｋ−１の中間的な量子化補償されたｎＦＧ信号とクロスフェードさせない場合がある。この場合、量子化補償されたｎＦＧ信号６０は、中間的な量子化補償されたｎＦＧ信号と同じであり得る。

[0067]オーディオ符号化デバイス２０内に含まれる聴覚心理オーディオコーダユニット４０は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために、エネルギー補償された環境ＨＯＡ係数４７’および量子化補償されたｎＦＧ信号６０の各々の異なるオーディオオブジェクトまたはＨＯＡチャネルを符号化するために使用される。符号化された環境ＨＯＡ係数５９を生成することは、エネルギー補償された環境ＨＯＡ係数４７’の量子化を実行することを含み得、符号化されたｎＦＧ信号６１を生成することは、量子化補償されたｎＦＧ信号６０の量子化を実行することを含み得る。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とをビットストリーム生成ユニット４２に出力し得る。

[0068]オーディオ符号化デバイス２０内に含まれるビットストリーム生成ユニット４２は、既知のフォーマット（復号デバイスによって知られているフォーマットを指し得る）に適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム２１を生成するユニットを表す。ビットストリーム２１は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット４２は、いくつかの例ではマルチプレクサを表し得、マルチプレクサは、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とを受信し得る。ビットストリーム生成ユニット４２は次いで、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいて、ビットストリーム２１を生成し得る。このようにして、ビットストリーム生成ユニット４２は、それにより、図７の例に関して以下により詳細に説明されるように、ビットストリーム２１を取得するために、ビットストリーム２１内のベクトル５７を指定し得る。ビットストリーム２１は、主要またはメインビットストリームと、１つまたは複数のサイドチャネルビットストリームとを含み得る。

[0069]図３の例には示されないが、オーディオ符号化デバイス２０はまた、現在のフレームが指向性ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス２０から出力されるビットストリームを（たとえば、指向性ベースのビットストリーム２１とベクトルベースのビットストリーム２１との間で）切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、（ＨＯＡ係数１１が合成オーディオオブジェクトから生成されたことを検出した結果として）指向性ベース合成が実行されたか、または（ＨＯＡ係数が録音されたことを検出した結果として）ベクトルベース合成が実行されたかを示す、コンテンツ分析ユニット２６によって出力されるシンタックス要素に基づいて、切替えを実行し得る。ビットストリーム出力ユニットは、ビットストリーム２１の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定し得る。

[0070]その上、上述されたように、音場分析ユニット４４は、ＢＧ_TOT環境ＨＯＡ係数４７を特定し得、それは、フレームごとに変化し得る（が、時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。ＢＧ_TOTにおける変化は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５において表された係数への変化となり得る。ＢＧ_TOTにおける変化は、フレームごとに変化する（「環境ＨＯＡ係数」と呼ばれることもある）バックグラウンドＨＯＡ係数となり得る（が、この場合も時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。この変化は、しばしば、追加の環境ＨＯＡ係数の追加または除去と、対応する、低減されたフォアグラウンドＶ［ｋ］ベクトル５５からの係数の除去またはそれに対する係数の追加とによって表される、音場の態様のためのエネルギーの変化となる。

[0071]結果として、音場分析ユニット４４は、いつ環境ＨＯＡ係数がフレームごとに変化するかをさらに決定し、音場の環境成分を表すために使用されることに関して、環境ＨＯＡ係数への変化を示すフラグまたは他のシンタックス要素を生成し得る（ここで、この変化はまた、環境ＨＯＡ係数の「遷移」または環境ＨＯＡ係数の「遷移」と呼ばれ得る）。具体的には、係数低減ユニット４６は、（ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎフラグまたはＡｍｂＣｏｅｆｆＩｄｘＴｒａｎｓｉｔｉｏｎフラグとして示され得る）フラグを生成し、そのフラグが（場合によってはサイドチャネル情報の一部として）ビットストリーム２１中に含まれ得るように、そのフラグをビットストリーム生成ユニット４２に与え得る。

[0072]係数低減ユニット４６は、環境係数の遷移のフラグを指定することに加えて、低減されたフォアグラウンドＶ［ｋ］ベクトル５５が生成される方法を修正し得る。一例では、環境ＨＯＡ環境係数のうちの１つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット４６は、遷移中の環境ＨＯＡ係数に対応する低減されたフォアグラウンドＶ［ｋ］ベクトル５５のＶベクトルの各々について、（「ベクトル要素」または「要素」とも呼ばれ得る）ベクトル係数を指定し得る。この場合も、遷移中の環境ＨＯＡ係数は、ＢＧ_TOTからバックグラウンド係数の総数を追加または除去し得る。したがって、バックグラウンド係数の総数において生じた変化は、環境ＨＯＡ係数がビットストリーム中に含まれるか含まれないか、および、Ｖベクトルの対応する要素が、上記で説明された第２の構成モードおよび第３の構成モードにおいてビットストリーム中で指定されたＶベクトルのために含まれるか否かに影響を及ぼす。係数低減ユニット４６が、エネルギーにおける変化を克服するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を指定することができる方法に関するより多くの情報は、２０１５年１月１２日に出願された「ＴＲＡＮＳＩＴＩＯＮＩＮＧＯＦＡＭＢＩＥＮＴＨＩＧＨＥＲ＿ＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」という名称の米国特許出願第１４／５９４，５３３号において提供されている。

[0073]図４は、図２のオーディオ復号デバイス２４をより詳細に示すブロック図である。図４の例に示されているように、オーディオ復号デバイス２４は、抽出ユニット７２と、指向性ベース再構成ユニット９０と、ベクトルベース再構成ユニット９２とを含み得る。以下で説明されるが、オーディオ復号デバイス２４に関するより多くの情報、およびＨＯＡ係数を解凍またはさもなければ復号する様々な態様は、２０１４年５月２９日に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0074]抽出ユニット７２は、ビットストリーム２１を受信し、ＨＯＡ係数１１の様々な符号化されたバージョン（たとえば、指向性ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン）を抽出するように構成されたユニットを表し得る。抽出ユニット７２は、ＨＯＡ係数１１が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述されたシンタックス要素から決定し得る。指向性ベース符号化が実行されたとき、抽出ユニット７２は、ＨＯＡ係数１１の指向性ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素（図４の例では指向性ベース情報９１として示される）とを抽出し、指向性ベース情報９１を指向性ベース再構成ユニット９０に渡し得る。指向性ベース再構成ユニット９０は、指向性ベース情報９１に基づいてＨＯＡ係数１１’の形態でＨＯＡ係数を再構成するように構成されたユニットを表し得る。ビットストリームおよびビットストリーム内のシンタックス要素の構成が、以下で図７Ａ〜図７Ｊの例に関してより詳細に説明される。

[0075]ＨＯＡ係数１１がベクトルベース合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７（コーディングされた重みおよび／もしくはインデックス６３またはスカラー量子化されたＶベクトルを含み得る）と、符号化された環境ＨＯＡ係数５９と、対応するオーディオオブジェクト６１（符号化されたｎＦＧ信号６１と呼ばれる場合もある）とを抽出し得る。オーディオオブジェクト６１はそれぞれベクトル５７のうちの１つに対応する。抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をＶベクトル再構成ユニット７４に渡し、符号化された環境ＨＯＡ係数５９を符号化されたｎＦＧ信号６１とともに聴覚心理オーディオ復号ユニット８０に渡し得る。

[0076]Ｖベクトル再構成ユニット７４（逆量子化ユニットとしても知られる）は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７から、Ｖベクトル（たとえば、低減されたフォアグラウンドＶ［ｋ］ベクトル５５_k）を再構成するように構成されるユニットを表し得る。Ｖベクトル再構成ユニット７４は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７を逆量子化し、低減されたフォアグラウンドＶ［ｋ］ベクトル５５_kを生成するために、量子化ユニット５２の動作と逆の方法で動作し得る。

[0077]いくつかの例では、Ｖベクトル再構成ユニット７４は、クロスフェードされ、量子化されたＶ［ｋ］ベクトルを生成するために、現在のフレームのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の一部を、以前のフレームのコーディングされたフォアグラウンドＶ［ｋ−１］ベクトルの一部とクロスフェードさせ得る。たとえば、抽出ユニット７２は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５_kを生成するために、現在のフレームｋのコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の最初の２５６サンプルを、以前のフレームｋ−１の量子化されたフォアグラウンドＶ［ｋ］ベクトルの最後の２５６サンプルとクロスフェードさせ、クロスフェードし、量子化されたフォアグラウンドＶ［ｋ］ベクトルを逆量子化し得る。

[0078]聴覚心理オーディオ復号ユニット８０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを復号し、それによってエネルギー補償された環境ＨＯＡ係数４７’と補間されたｎＦＧ信号４９’（補間されたｎＦＧオーディオオブジェクト４９’とも呼ばれ得る）とを生成するために、図３の例に示される聴覚心理オーディオコーダユニット４０とは逆の方法で動作し得る。聴覚心理オーディオ復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’をフェードユニット７７０に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡すことができる。

[0079]空間時間的補間ユニット７６は、空間時間的補間ユニット５０に関して上記で説明されたものと同様の方法で動作し得る。空間時間的補間ユニット７６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５_kを受信し、また、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’を生成するために、フォアグラウンドＶ［ｋ］ベクトル５５_kおよび低減されたフォアグラウンドＶ［ｋ−１］ベクトル５５_k-1に関して空間時間的補間を実行し得る。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送し得る。

[0080]抽出ユニット７２はまた、いつ環境ＨＯＡ係数のうちの１つが遷移中であるかを示す信号７５７を、フェードユニット７７０に出力し得、フェードユニット７７０は次いで、ＳＣＨ_BG４７’（ここで、ＳＣＨ_BG４７’は、「環境ＨＯＡチャネル４７’」または「環境ＨＯＡ係数４７’」とも呼ばれ得る）および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定し得る。いくつかの例では、フェードユニット７７０は、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の各々に関して、反対に動作し得る。すなわち、フェードユニット７７０は、環境ＨＯＡ係数４７’のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を実行し得、一方で、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行し得る。フェードユニット７７０は、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力し、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’をフォアグラウンド編成ユニット７８に出力し得る。この点において、フェードユニット７７０は、ＨＯＡ係数またはその派生物の様々な態様に関して、たとえば、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の形態で、フェード動作を実行するように構成されたユニットを表す。

[0081]フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を生成するために、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’および補間されたｎＦＧ信号４９’に関して行列乗算を実行するように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット７８は、フォアグラウンド、または言い換えると、ＨＯＡ係数１１’の支配的態様を再構成するために、オーディオオブジェクト４９’（それは、補間されたｎＦＧ４９’を表す別の方法である）をベクトル５５_k’’’と組み合わせ得る。フォアグラウンド編成ユニット７８は、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’による補間されたｎＦＧ信号４９’の行列乗算を実行し得る。

[0082]ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、ＨＯＡ係数１１’がＨＯＡ係数１１と同様であるが同じではないことがあることを反映している。ＨＯＡ係数１１とＨＯＡ係数１１’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。

[0083]図５Ａは、本開示で説明されるベクトルベース合成技法の様々な態様を実行する際の、図３の例に示されるオーディオ符号化デバイス２０などのオーディオ符号化デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ符号化デバイス２０は、ＨＯＡ係数１１を受信する（１０６）。オーディオ符号化デバイス２０はＬＩＴユニット３０を呼び出すことができ、ＬＩＴユニット３０は、変換されたＨＯＡ係数（たとえば、ＳＶＤの場合、変換されたＨＯＡ係数はＵＳ［ｋ］ベクトル３３とＶ［ｋ］ベクトル３５とを備え得る）を出力するためにＨＯＡ係数に関してＬＩＴを適用し得る（１０７）。

[0084]オーディオ符号化デバイス２０は次に、上記で説明された方法で様々なパラメータを特定するために、ＵＳ［ｋ］ベクトル３３、ＵＳ［ｋ−１］ベクトル３３、Ｖ［ｋ］ベクトルおよび／またはＶ［ｋ−１］ベクトル３５の任意の組合せに関して上記で説明された分析を実行するために、パラメータ計算ユニット３２を呼び出し得る。すなわち、パラメータ計算ユニット３２は、変換されたＨＯＡ係数３３／３５の分析に基づいて少なくとも１つのパラメータを決定し得る（１０８）。

[0085]オーディオ符号化デバイス２０は次いで、並べ替えユニット３４を呼び出し得、並べ替えユニット３４は、上記で説明されたように、並べ替えられた変換されたＨＯＡ係数３３’／３５’（または言い換えれば、ＵＳ［ｋ］ベクトル３３’およびＶ［ｋ］ベクトル３５’）を生成するために、パラメータに基づいて、変換されたＨＯＡ係数（この場合も、ＳＶＤの文脈では、ＵＳ［ｋ］ベクトル３３とＶ［ｋ］ベクトル３５とを指し得る）を並べ替え得る（１０９）。オーディオ符号化デバイス２０は、前述の演算または後続の演算のいずれかの間に、音場分析ユニット４４を呼び出し得る。音場分析ユニット４４は、上記で説明されたように、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド音場の次数（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３としてまとめて示され得る）とを決定するために、ＨＯＡ係数１１および／または変換されたＨＯＡ係数３３／３５に関して音場分析を実行し得る（１０９）。

[0086]オーディオ符号化デバイス２０はまた、バックグラウンド選択ユニット４８を呼び出し得る。バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報４３に基づいて、バックグラウンドまたは環境ＨＯＡ係数４７を決定し得る（１１０）。オーディオ符号化デバイス２０はさらに、フォアグラウンド選択ユニット３６を呼び出し得、フォアグラウンド選択ユニット３６は、ｎＦＧ４５（フォアグラウンドベクトルを特定する１つまたは複数のインデックスを表し得る）に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたＵＳ［ｋ］ベクトル３３’と並べ替えられたＶ［ｋ］ベクトル３５’とを選択し得る（１１２）。

[0087]オーディオ符号化デバイス２０は、エネルギー補償ユニット３８を呼び出し得る。エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡ係数のうちの様々なものの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を実行し（１１４）、それによって、エネルギー補償された環境ＨＯＡ係数４７’を生成し得る。

[0088]オーディオ符号化デバイス２０はまた、空間時間的補間ユニット５０を呼び出し得る。空間時間的補間ユニット５０は、補間されたフォアグラウンド信号４９’（「補間されたｎＦＧ信号４９’」とも呼ばれ得る）と残りのフォアグラウンド指向性情報５３（「Ｖ［ｋ］ベクトル５３」とも呼ばれ得る）とを取得するために、並べ替えられた変換されたＨＯＡ係数３３’／３５’に関して空間時間的補間を実行し得る（１１６）。オーディオ符号化デバイス２０は次いで、係数低減ユニット４６を呼び出し得る。係数低減ユニット４６は、低減されたフォアグラウンド指向性情報５５（低減されたフォアグラウンドＶ［ｋ］ベクトル５５とも呼ばれ得る）を取得するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行し得る（１１８）。

[0089]オーディオ符号化デバイス２０は次いで、上記で説明された方法で、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために、量子化ユニット５２を呼び出し得る（１２０）。

[0090]オーディオ符号化デバイス２０は、量子化補償ユニット７０を呼び出し得る。量子化補償ユニット７０は、量子化補償されたｎＦＧ信号６０を生成するために、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の量子化誤差を補償し得る（１２１）。

[0091]オーディオ符号化デバイス２０はまた、聴覚心理オーディオコーダユニット４０を呼び出し得る。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために、エネルギー補償された環境ＨＯＡ係数４７’および補間されたｎＦＧ信号４９’の各ベクトルを聴覚心理コーディングし得る。オーディオ符号化デバイスは次いで、ビットストリーム生成ユニット４２を呼び出し得る。ビットストリーム生成ユニット４２は、コーディングされたフォアグラウンド指向性情報５７と、コーディングされた環境ＨＯＡ係数５９と、コーディングされたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいて、ビットストリーム２１を生成し得る。

[0092]図５Ｂは、本開示で説明されるコーディング技法を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャートである。図５Ｂに示されるように、オーディオ符号化デバイス２０のＬＩＴユニット３０は、ＨＯＡ係数を、オーディオオブジェクトと、オーディオオブジェクトに関連付けられる指向性情報とに分解し得る（１５０）。オーディオオブジェクトは、複数の球面調和係数の左特異ベクトルを表すＵ行列と、複数の球面調和係数の特異値を表すＳ行列との積を備え得る。オーディオオブジェクトに関連付けられる指向性情報は、複数の球面調和係数の右特異ベクトルを表すＶ行列を備え得る。

[0093]オーディオ符号化デバイス２０の聴覚心理オーディオコーダユニット４０は、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、オーディオオブジェクトの閉ループ量子化を実行し得る（１５２）。オーディオ符号化デバイス２０は、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行し、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、オーディオオブジェクトの量子化を実行することによって、オーディオオブジェクトの閉ループ量子化を実行し得る。オーディオ符号化デバイス２０は、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行する（すなわち、指向性情報を量子化する）ことから生じる量子化誤差に少なくとも部分的に基づいて、オーディオオブジェクトの量子化を実行する（すなわち、オーディオオブジェクトを量子化する）ことによって、オーディオオブジェクトの量子化を実行（すなわち、オーディオオブジェクトを量子化する）し得る。

[0094]オーディオ符号化デバイス２０は、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行することから生じる量子化誤差を補償することによって、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行することから生じる量子化誤差に少なくとも部分的に基づいて、オーディオオブジェクトの量子化を実行し得る。オーディオ符号化デバイス２０は、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果の擬似逆行列に少なくとも部分的に基づいて、量子化補償されたオーディオオブジェクトを決定し、量子化補償されたオーディオオブジェクトの量子化を実行することによって、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行することから生じる量子化誤差を補償し得る。

[0095]オーディオ符号化デバイス２０は、高次アンビソニック（ＨＯＡ）係数と、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果の擬似逆行列との積として量子化補償されたオーディオオブジェクトを決定することによって、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果の擬似逆行列に少なくとも部分的に基づいて、量子化補償されたオーディオオブジェクトを決定し得る。

[0096]図６Ａは、本開示で説明される技法の様々な態様を実行する際の、図４に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ復号デバイス２４は、ビットストリーム２１を受信し得る（１３０）。ビットストリームを受信すると、オーディオ復号デバイス２４は抽出ユニット７２を呼び出し得る。説明の目的で、ベクトルベース再構成が実行されるべきであることをビットストリーム２１が示すと仮定すると、抽出デバイス７２は、上述された情報を取り出すためにビットストリームを解析し、その情報をベクトルベース再構成ユニット９２に渡し得る。

[0097]言い換えれば、抽出ユニット７２は、コーディングされたフォアグラウンド指向性情報５７（この場合も、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７とも呼ばれ得る）と、コーディングされた環境ＨＯＡ係数５９と、コーディングされたフォアグラウンド信号（コーディングされたフォアグラウンドｎＦＧ信号６１またはコーディングされたフォアグラウンドオーディオオブジェクト５９とも呼ばれ得る）とを、上記で説明された方法でビットストリーム２１から抽出し得る（１３２）。

[0098]オーディオ復号デバイス２４はさらに、Ｖベクトル再構成ユニット７４を呼び出し得る。Ｖベクトル再構成ユニット７４は、低減されたフォアグラウンド指向性情報５５_kを取得するために、コーディングされたフォアグラウンド指向性情報５７をエントロピー復号および逆量子化し得る（１３６）。オーディオ復号デバイス２４はまた、聴覚心理オーディオ復号ユニット８０を呼び出し得る。聴覚心理オーディオ復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’と補間されたフォアグラウンド信号４９’とを取得するために、符号化された環境ＨＯＡ係数５９と符号化されたフォアグラウンド信号６１とを復号／逆量子化し得る（１３８）。聴覚心理オーディオ復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’をフェードユニット７７０に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡し得る。

[0099]オーディオ復号デバイス２４は次に、空間時間的補間ユニット７６を呼び出し得る。空間時間的補間ユニット７６は、並べ替えられたフォアグラウンド指向性情報５５_k’を受信し、また、補間されたフォアグラウンド指向性情報５５_k’’を生成するために、低減されたフォアグラウンド指向性情報５５_k／５５_k-1に関して空間時間的補間を実行し得る（１４０）。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送し得る。

[0100]オーディオ復号デバイス２４は、フェードユニット７７０を呼び出し得る。フェードユニット７７０は、エネルギー補償された環境ＨＯＡ係数４７’がいつ遷移中であるかを示すシンタックス要素（たとえば、ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎシンタックス要素）を（たとえば、抽出ユニット７２から）受信またはさもなければ取得し得る。フェードユニット７７０は、遷移シンタックス要素と維持された遷移状態情報とに基づいて、エネルギー補償された環境ＨＯＡ係数４７’をフェードインまたはフェードアウトし、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力し得る。フェードユニット７７０はまた、シンタックス要素と維持された遷移状態情報とに基づいて、および、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の対応する１つまたは複数の要素をフェードアウトまたはフェードインし、フォアグラウンド編成ユニット７８に調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’を出力し得る（１４２）。

[0101]オーディオ復号デバイス２４は、フォアグラウンド編成ユニット７８を呼び出し得る。フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を取得するために、調整されたフォアグラウンド指向性情報５５_k’’’による行列乗算ｎＦＧ信号４９’を実行し得る（１４４）。オーディオ復号デバイス２４はまた、ＨＯＡ係数編成ユニット８２を呼び出し得る。ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に加算し得る（１４６）。

[0102]図６Ｂは、本開示で説明されるコーディング技法を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャートである。図６Ｂに示されるように、オーディオ復号デバイス２４の抽出ユニット７２が、ビットストリームを受信し得る（１６０）。オーディオ復号デバイス２４は、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、閉ループ量子化されたオーディオオブジェクトを取得し得る（１６２）。たとえば、オーディオ復号デバイス２４の抽出ユニット７２は、閉ループ量子化されたオーディオオブジェクトと、量子化された指向性情報とを取得するように、ビットストリームを復号し得る。オーディオオブジェクトを取得するのに応答して、オーディオ復号デバイス２４は、オーディオオブジェクトを逆量子化し得る（１６４）。

[0103]いくつかの例では、オーディオオブジェクトは、オーディオオブジェクトに関連付けられる指向性情報を量子化し、オーディオオブジェクトに関連付けられる指向性情報を量子化した結果に少なくとも部分的に基づいてオーディオオブジェクトを量子化することによって、閉ループ量子化される。いくつかの例では、オーディオオブジェクトは、オーディオオブジェクトに関連付けられる指向性情報を量子化し、オーディオオブジェクトに関連付けられる指向性情報を量子化することから生じる量子化誤差に少なくとも部分的に基づいてオーディオオブジェクトを量子化することによって、閉ループ量子化される。

[0104]いくつかの例では、オーディオオブジェクトは、オーディオオブジェクトに関連付けられる指向性情報を量子化し、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行することから生じる量子化誤差を補償することを含む、オーディオオブジェクトに関連付けられる指向性情報を量子化することから生じる量子化誤差に少なくとも部分的に基づいてオーディオオブジェクトを量子化することによって、閉ループ量子化される。いくつかの例では、オーディオオブジェクトは、オーディオオブジェクトに関連付けられる指向性情報を量子化し、オーディオオブジェクトに関連付けられる指向性情報を量子化した結果の逆擬似行列に少なくとも部分的に基づいて、量子化補償されたオーディオオブジェクトを決定し、量子化補償されたオーディオオブジェクトを量子化することによって、閉ループ量子化される。

[0105]いくつかの例では、オーディオオブジェクトは、高次アンビソニック（ＨＯＡ）係数と、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果の擬似逆行列との積として、オーディオオブジェクトを決定することによって、閉ループ量子化される。いくつかの例では、オーディオオブジェクトおよび指向性情報は高次アンビソニック係数から分解され、オーディオオブジェクトは、複数の球面調和係数の左特異ベクトルを表すＵ行列と、複数の球面調和係数の特異値を表すＳ行列との積を備え、オーディオオブジェクトに関連付けられる指向性情報は、複数の球面調和係数の右特異ベクトルを表すＶ行列を備える。

[0106]図７Ａは、ＨＯＡ信号圧縮のためのＶベクトルおよびフォアグラウンド信号の閉ループ量子化を示すブロック図である。そのような閉ループ量子化は、図３の例に示されるオーディオ符号化デバイス２０と、図４の例に示されるオーディオ復号デバイス２４とによって実行され得る。量子化誤差を低減するために、Ｖベクトルが量子化され得、そのＶベクトルの量子化誤差を補償することによって、ＵＳベクトルが量子化され得る。オーディオ符号化デバイス２０は、Ｖベクトルを量子化してＱ（Ｖ）にし得、Ｈとｐｉｎｖ（Ｑ（Ｖ））との積として新たなターゲット信号Ｔ（ＵＳ）を生成し得、ただし、ｐｉｎｖ（Ａ）は、Ａの擬似逆行列である。オーディオ符号化デバイス２０は、Ｔ（ＵＳ）をＱ（Ｔ（ＵＳ））に量子化し得る。オーディオ復号デバイス２４は、Ｑ（Ｔ（ＵＳ））_*Ｑ（Ｖ）’によって生成される量子化されたＨＯＡ係数Ｑ（Ｈ）に基づいて、ＨＯＡ係数１１’を再構成し得る。このようにして、ＵＳベクトルは、Ｖベクトルの量子化誤差に基づいて量子化され得る。

[0107]図７Ａに示されるように、Ｈ_FGは、図７Ａの例では、１２８０×２１のサイズを有するフォアグラウンドＨＯＡ係数４００を表し得る。フォアグラウンドＨＯＡ係数４００は、Ｕ_FGと、Ｓ_FGと、Ｖ_FGとの積に等しくし得、ただし、Ｕ_FGは１２８０×２のサイズを有し得、Ｓ_FGは２×２のサイズを有し得、Ｖ_FGは２１×２のサイズを有し得る。ＶベクトルＶ_FG４０２は、図７Ａの例では、２１×２のサイズを有する、図３の低減されたフォアグラウンドＶ［ｋ］ベクトル５５とし得る。元のターゲットＷ_FG＝Ｕ_FG ^*Ｓ_FG４０４は、図７Ａの例では、１２８０×２のサイズを有する、図３の補間されたｎＦＧ信号４９’とし得る。

[0108]オーディオ符号化デバイス２０は、後にさらに詳細に論じられるように、以前のフレーム

４０８の量子化されたＶベクトルに少なくとも部分的に基づいて、ＶベクトルＶ_FG４０２に関する符号変更４０６を実行するか否かを決定し得る。このようにして、オーディオ符号化デバイス２０は、以前のフレームの遅延した量子化されたＶベクトル

４０８に少なくとも部分的に基づいて、現在のフレームのＶベクトルＶ_FG４０２の符号を変更するか否かを決定し得る。オーディオ符号化デバイス２０は、符号変更されないＶベクトルＶ_FG４０２または符号変更されたＶベクトル

４１０のいずれかが結果として生じるように、ＶベクトルＶ_FG４０２を符号変更４０６するか否かを決定し得る。オーディオ符号化デバイス２０は、図３のコーディングされたフォアグラウンドＶ［ｋ］ベクトル５７であり得る、量子化されたフォアグラウンドＶベクトル

４１４を生成するために、オーディオ符号化デバイス２０の量子化ユニット５２を使用することなどによって、符号変更されないＶベクトルＶ_FG４０２または符号変更されたＶベクトル

４１０のいずれかを量子化４１２し得る。オーディオ符号化デバイス２０が、次のフレームに関するＶベクトルＶ_FGで符号変更を実行するか否かを決定するように、次のフレームにおいて、量子化されたＶベクトル

を利用し得るために、オーディオ符号化デバイスは、遅延された量子化Ｖベクトル

４０８を生成するように１フレームだけ量子化されたフォアグラウンドＶベクトル

４１４を遅延させ得る。

[0109]オーディオ符号化デバイス２０は、遅延した量子化されたＶベクトル

４０８に基づいて、

４１８を決定し、それはフォアグラウンドＨＯＡ係数４００と、遅延した量子化されたＶベクトル

４０８の擬似逆行列である

との積である。また、オーディオ符号化デバイス２００は、

４２０も決定し得、それは、Ｗ_FG＝Ｕ_FG ^*Ｓ_FG４０４と、

４１８との積である。

４２０を決定することに少なくとも部分的に基づいて、オーディオ符号化デバイス２０は、ＶベクトルＶ_FG４０２に関する符号変更４０６を実行し得る。たとえば、オーディオ符号化デバイス２０は、

４２０の符号が負である場合には、ＶベクトルＶ_FG４０２に関する符号変更４０６を実行し得る。

[0110]オーディオ符号化デバイス２０は、量子化されたＶベクトル

４０８に少なくとも部分的に基づいて、

の積である新たなターゲット４２２

を生成し得、それは、量子化されたＶベクトル

４０８の擬似逆行列と、フォアグラウンドＨＯＡ係数４００を表し得るＨ_FGとの積であり、それにより、新たなターゲット４２２

になる。オーディオ符号化デバイス２０は、先行するターゲット４２６

を生成するように、１フレームだけ新たなターゲット４２２

を遅延させ、図３の量子化補償されたｎＦＧ信号６０に類似の、量子化補償されたターゲット信号を生成するように、新たなターゲット４２２

の、最初の２５６サンプルのような第１の部分を、先行するターゲット４２６

の、最後の２５６サンプルのような最後の部分と、クロスフェード４２８させ得る。オーディオ符号化デバイス２０は、オーディオ復号デバイス２４に出力される量子化されたフォアグラウンド信号４３２

を生成するように、図３の聴覚心理オーディオコーダユニット４０を用いることなどによって、量子化補償されたターゲット信号を量子化４３０し得る。

[0111]オーディオ復号デバイス２４は、たとえば、オーディオ符号化デバイス２０から、量子化されたフォアグラウンドＶベクトル

４１４を受信し得、遅延した量子化されたＶベクトル

４０８を生成するように、１フレームだけ量子化されたフォアグラウンドＶベクトル

４１４を遅延４１６させ得る。オーディオ復号デバイス２４は、現在のフレームの量子化されたフォアグラウンドＶベクトル

４１４の第１の数のサンプルを、遅延した量子化されたＶベクトル

４０８の最後の数のサンプルとクロスフェードさせることができ、量子化されたフォアグラウンドＨＯＡ係数４３８

を生成するように、クロスフェードした量子化されたフォアグラウンドＶ［ｋ］ベクトル４３６

と、量子化されたフォアグラウンド信号４３２

との積を決定し得る。たとえば、オーディオ復号デバイス２４は、現在のフレームの量子化されたフォアグラウンドＶベクトル

４１４の最初の２５６サンプルを、遅延した量子化されたＶベクトル

４０８の最後の２５６サンプルとクロスフェードさせることができ、量子化されたフォアグラウンドＨＯＡ係数４３８

と、量子化されたフォアグラウンド信号４３２

との積を決定し得る。スピーカーが、量子化されたフォアグラウンドＨＯＡ係数４３８から分解された逆量子化されたオーディオオブジェクトからレンダリングされたラウドスピーカーフィードを再生し得るように、オーディオ復号デバイス２４は、フォアグラウンドＨＯＡ係数４３８を分解および逆量子化し得る。

[0112]図７Ｂは、ＨＯＡ信号圧縮のためのＶベクトルおよびフォアグラウンド信号の閉ループ量子化を示すブロック図である。図７Ｂに示されるようなオーディオ復号デバイス２４は、現在のフレームの量子化されたフォアグラウンドＶベクトル

４０８の最後の数のサンプルとクロスフェードさせないという点で、図７Ｂは図７Ａとは異なる。また、図７Ｂに示されるようなオーディオ符号化デバイス２０は、先行するターゲットを生成するために新たなターゲット４２２

を１フレームだけ遅延させず、それゆえ、量子化補償されたターゲット信号を生成するために、新たなターゲット４２２

の第１の部分を、先行するターゲット４の最後の部分とクロスフェードさせないという点で、図７Ｂは図７Ａとは異なる。

[0113]フォアグラウンドＨＯＡ係数４００は、Ｕ_FGと、Ｓ_FGと、Ｖ_FGとの積に等しくあり得、ここで、Ｕ_FGは１２８０×２のサイズを有し得、Ｓ_FGは２×２のサイズを有し得、Ｖ_FGは２１×２のサイズを有し得る。ＶベクトルＶ_FG４０２は、図７Ａの例では、２１×２のサイズを有する、図３の低減されたフォアグラウンドＶ［ｋ］ベクトル５５であり得る。元のターゲットＷ_FG＝Ｕ_FG ^*Ｓ_FG４０４は、図７Ａの例では、１２８０×２のサイズを有する、図３の補間されたｎＦＧ信号４９’であり得る。

[0114]オーディオ符号化デバイス２０は、後にさらに詳細に論じられるように、以前のフレーム

４１４を生成するように、オーディオ符号化デバイス２０の量子化ユニット５２を使用することなどによって、符号変更されないＶベクトルＶ_FG４０２または符号変更されたＶベクトル

４１０のいずれかを量子化４１２し得る。オーディオ符号化デバイス２０は、次のフレームに関するＶベクトルＶ_FGに関する符号変更を実行するか否かを決定するために、次のフレームにおいて、量子化されたＶベクトル

を用い得るように、オーディオ符号化デバイスは、遅延した量子化されたＶベクトル

４０８を生成するために、１フレームだけ量子化されたフォアグラウンドＶベクトル

４１４を遅延させ得る。

[0115]オーディオ符号化デバイス２０は、遅延した量子化されたＶベクトル

４０８に基づいて、

４０８の擬似逆行列である、

４２０も決定し得、それは、Ｗ_FG＝Ｕ_FG ^*Ｓ_FG４０４と、

４１８との積である。

４２０を決定することに少なくとも部分的に基づいて、オーディオ符号化デバイス２０は、ＶベクトルＶ_FG４０２で符号変更４０６を実行し得る。たとえば、オーディオ符号化デバイス２０は、

[0116]オーディオ符号化デバイス２０は、量子化されたＶベクトル

４０８に少なくとも部分的に基づいて、新たなターゲット４２２

のような、量子化されたＶベクトル

４０８の擬似逆行列である、

と、フォアグラウンドＨＯＡ係数４００を表し得る、Ｈ_FGとの積である新たなターゲット４２２

を生成し得る。オーディオ符号化デバイス２０は、量子化されたフォアグラウンド信号４３２

を生成するように、新たなターゲット４２２

を量子化４３０し得る。オーディオ復号デバイス２４は、たとえば、オーディオ符号化デバイス２０から、量子化されたフォアグラウンドＶベクトル

４１４を受信し得、量子化されたフォアグラウンドＨＯＡ係数４３８

を生成するように、量子化されたフォアグラウンドＶベクトル

４１４と、量子化されたフォアグラウンド信号４３２

との積を決定し得る。スピーカーが、逆量子化されたフォアグラウンドＨＯＡ係数４３８から分解された逆量子化されたオーディオオブジェクトからレンダリングされたラウドスピーカーフィードを再生できるようにするように、オーディオ復号デバイス２４は、フォアグラウンドＨＯＡ係数４３８を分解および逆量子化することができる。

[0117]図８は、図３の例に示されるオーディオ符号化デバイス２０の量子化ユニット５２をより詳細に示すブロック図である。図８の例では、量子化ユニット５２は、一様量子化ユニット２３０と、ｎｂｉｔｓユニット２３２と、予測ユニット２３４と、予測モードユニット２３６（「ＰｒｅｄＭｏｄｅＵｎｉｔ２３６」）と、カテゴリおよび残差コーディングユニット２３８と、ハフマンテーブル選択ユニット２４０と、遅延ユニット３００と、符号変更ユニット３０２とを含む。一様量子化ユニット２３０は、空間成分の１つ（低減されたフォアグラウンドＶ［ｋ］ベクトル５５の任意の１つを表し得る）に関して上で説明された一様量子化を実行するように構成されるユニットを表す。ｎｂｉｔｓユニット２３２は、ｎｂｉｔｓパラメータまたはｎｂｉｔｓ値を決定するように構成されるユニットを表す。

[0118]遅延ユニット３００は、一様量子化ユニット２３０の結果を１フレームだけ遅延させ得、それにより、一様量子化ユニット２３０が低減されたフォアグラウンドＶ［ｋ］ベクトル５５に作用する前に、符号変更ユニット３０２が、量子化されたフォアグラウンドＶ［ｋ］ベクトルに少なくとも部分的に基づいて、低減されたフォアグラウンドＶ［ｋ］ベクトル５５に関する符号変更を実行するか否かを決定し得るようにする。符号変更ユニット３０２は、言い換えると、低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちの１つまたは複数のための符号を（正から負に、または負から正に）反転させるように構成されるユニットを表し得る。線形可逆変換の性質を考えると、Ｖ［ｋ］ベクトル５５は、以前のフレーム（または第（ｋ−１）のフレーム）のＶ［ｋ−１］ベクトル５５のうちの対応する１つまたは複数が符号に関して反転するように、第ｋのフレームのためのＨＯＡ係数１１から分解され得る。この点において、フレーム境界を越えて符号を変更する必要があり得る。したがって、現在のフレームの低減されたフォアグラウンドＶ［ｋ］ベクトル５５の符号を変更することが必要であるか否かは、以前のフレームの量子化されたＶベクトルに依存し得る。具体的には、量子化ユニット５４は、遅延したフォアグラウンド信号を生成するように、第ｋのフレームのためのＨＯＡ係数１１と、以前のフレーム（ｋ−１フレーム）の量子化されたＶベクトルとを乗算し得る。。量子化ユニット５４は、遅延したフォアグラウンド信号を、補間されたｎＦＧ信号４９’と乗算し得る。遅延したフォアグラウンド信号を、補間されたｎＦＧ信号４９’と乗算した結果が負である場合には、符号変更ユニット３０２が、低減されたフォアグラウンドＶ［ｋ］ベクトル５５に関する符号変更を実行し得る。

[0119]図９は、図３の例に示されるオーディオ符号化デバイス２０の量子化補償ユニット７０をより詳細に示すブロック図である。量子化補償ユニット７０は、中間補償ユニット３０４と、遅延ユニット３０６と、クロスフェードユニット３０８とを含み得る。中間補償ユニット３０４は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の擬似逆行列を取得するように、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７に関する擬似逆行列関数を実行し得る。中間補償ユニット３０４はさらに、中間的な量子化補償されたｎＦＧ信号を決定するように、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の擬似逆行列と、フォアグラウンドＨＯＡ係数との積を計算し得る。一例では、中間補償ユニット３０４は、補間されたｎＦＧ信号４９’と、補間されたフォアグラウンドＶ［ｋ］ベクトル５３との積として、フォアグラウンドＨＯＡ係数を決定し得る。

[0120]遅延ユニット３０６は、中間補償ユニット３０４によって生成された中間的な量子化補償されたｎＦＧ信号を、１フレームだけ遅延させ得る。クロスフェードユニット３０８は、量子化補償されたｎＦＧ信号６０を生成するように、中間補償ユニット３０４によって出力された現在のフレームｋの中間的な量子化補償されたｎＦＧ信号の一部を、遅延ユニット３０６によって出力された以前のフレームｋ−１の中間的な量子化補償されたｎＦＧ信号の一部とクロスフェードさせ得る。たとえば、クロスフェードユニット３０８は、１０２４×２のサイズの量子化補償されたｎＦＧ信号６０を生成するように、現在のフレームｋの中間的な量子化補償されたｎＦＧ信号の最初の２５６サンプルと、以前のフレームｋ−１の中間的な量子化補償されたｎＦＧ信号の最後の２５６サンプルとクロスフェードさせ得る。

[0121]上記の技法は、任意の数の異なる状況およびオーディオエコシステムに関して実行され得る。いくつかの例示的な状況が以下で説明されるが、本技法はそれらの例示的な状況に限定されるべきではない。１つの例示的なオーディオエコシステムは、オーディオコンテンツと、映画スタジオと、音楽スタジオと、ゲーミングオーディオスタジオと、チャネルベースオーディオコンテンツと、コーディングエンジンと、ゲームオーディオステムと、ゲームオーディオコーディング／レンダリングエンジンと、配信システムとを含み得る。

[0122]映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信することができる。いくつかの例では、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション（ＤＡＷ）を使用することなどによって、（たとえば、２．０、５．１、および７．１の）チャネルベースオーディオコンテンツを出力することができる。音楽スタジオは、ＤＡＷを使用することなどによって、（たとえば、２．０、および５．１の）チャネルベースオーディオコンテンツを出力し得る。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、チャネルベースオーディオコンテンツベースの１つまたは複数のコーデック（たとえば、ＡＡＣ、ＡＣ３、ＤｏｌｂｙＴｒｕｅＨＤ、ＤｏｌｂｙＤｉｇｉｔａｌＰｌｕｓ、およびＤＴＳＭａｓｔｅｒＡｕｄｉｏ）を受信し符号化し得る。ゲーミングオーディオスタジオは、ＤＡＷを使用することなどによって、１つまたは複数のゲームオーディオステムを出力し得る。ゲームオーディオコーディング／レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングし得る。本技法が実行され得る別の例示的な状況は、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、ＨＯＡオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、ＴＶ、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。

[0123]放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、ＨＯＡオーディオフォーマットを使用して、それらの出力をコーディングし得る。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、ＴＶ、およびアクセサリ、ならびにカーオーディオシステムを使用して再生され得る単一の表現へと、ＨＯＡオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム１６など、汎用的なオーディオ再生システムにおいて（すなわち、５．１、７．１などの特定の構成を必要とすることとは対照的に）再生され得る。

[0124]本技法が実行され得る状況の他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、有線および／またはワイヤレス獲得デバイス（たとえば、Ｅｉｇｅｎマイクロフォン）、オンデバイスサラウンドサウンドキャプチャ、ならびにモバイルデバイス（たとえば、スマートフォンおよびタブレット）を含み得る。いくつかの例では、有線および／またはワイヤレス獲得デバイスは、有線および／またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。

[0125]本開示の１つまたは複数の技法によれば、モバイルデバイスが音場を獲得するために使用され得る。たとえば、モバイルデバイスは、有線および／もしくはワイヤレス獲得デバイス、ならびに／またはオンデバイスサラウンドサウンドキャプチャ（たとえば、モバイルデバイスに統合された複数のマイクロフォン）を介して、音場を獲得し得る。モバイルデバイスは次いで、再生要素のうちの１つまたは複数による再生のために、獲得された音場をＨＯＡ係数へとコーディングし得る。たとえば、モバイルデバイスのユーザは、ライブイベント（たとえば、会合、会議、劇、コンサートなど）を録音し（その音場を獲得し）、録音をＨＯＡ係数へとコーディングし得る。

[0126]モバイルデバイスはまた、ＨＯＡコーディングされた音場を再生するために、再生要素のうちの１つまたは複数を利用し得る。たとえば、モバイルデバイスは、ＨＯＡコーディングされた音場を復号し、再生要素のうちの１つまたは複数に信号を出力することができ、このことは再生要素のうちの１つまたは複数に音場を再作成させる。一例として、モバイルデバイスは、１つまたは複数のスピーカー（たとえば、スピーカーアレイ、サウンドバーなど）に信号を出力するために、ワイヤレスおよび／またはワイヤレス通信チャネルを利用し得る。別の例として、モバイルデバイスは、１つもしくは複数のドッキングステーションおよび／または１つもしくは複数のドッキングされたスピーカー（たとえば、スマート自動車および／またはスマート住宅の中のサウンドシステム）に信号を出力するために、ドッキング解決手段を利用し得る。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、たとえばリアルなバイノーラルサウンドを作成するために、ヘッドフォンレンダリングを利用し得る。

[0127]いくつかの例では、特定のモバイルデバイスは、３Ｄ音場を獲得することと、より後の時間に同じ３Ｄ音場を再生することの両方を行い得る。いくつかの例では、モバイルデバイスは、３Ｄ音場を獲得し、３Ｄ音場をＨＯＡへと符号化し、符号化された３Ｄ音場を再生のために１つまたは複数の他のデバイス（たとえば、他のモバイルデバイスおよび／または他の非モバイルデバイス）に送信し得る。

[0128]本技法が実行され得るまた別の状況は、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、ＨＯＡ信号の編集をサポートし得る１つまたは複数のＤＡＷを含み得る。たとえば、１つまたは複数のＤＡＷは、１つまたは複数のゲームオーディオシステムとともに動作する（たとえば、機能する）ように構成され得る、ＨＯＡプラグインおよび／またはツールを含み得る。いくつかの例では、ゲームスタジオは、ＨＯＡをサポートする新しいステムフォーマットを出力し得る。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングし得るレンダリングエンジンに、コーディングされたオーディオコンテンツを出力し得る。

[0129]本技法はまた、例示的なオーディオ獲得デバイスに関して実行され得る。たとえば、本技法は、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る、Ｅｉｇｅｎマイクロフォンに関して実行され得る。いくつかの例では、Ｅｉｇｅｎマイクロフォンの複数のマイクロフォンは、約４ｃｍの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例では、オーディオ符号化デバイス２０は、マイクロフォンから直接ビットストリーム２１を出力するために、Ｅｉｇｅｎマイクロフォンに統合され得る。

[0130]別の例示的なオーディオ獲得状況は、１つまたは複数のＥｉｇｅｎマイクロフォンなど、１つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図３のオーディオ符号化デバイス２０などのオーディオエンコーダを含み得る。

[0131]モバイルデバイスはまた、いくつかの場合には、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、Ｘ、Ｙ、Ｚのダイバーシティを有し得る。いくつかの例では、モバイルデバイスは、モバイルデバイスの１つまたは複数の他のマイクロフォンに関してＸ、Ｙ、Ｚのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図３のオーディオ符号化デバイス２０などのオーディオエンコーダを含み得る。

[0132]耐衝撃性のビデオキャプチャデバイスは、３Ｄ音場を録音するようにさらに構成され得る。いくつかの例では、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。たとえば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周りのすべての活動（たとえば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など）を表す３Ｄ音場をキャプチャし得る。

[0133]本技法はまた、アクセサリで増強されたモバイルデバイスに関して実行され得、それは、３Ｄ音場を録音するように構成され得る。いくつかの例では、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、１つまたは複数のアクセサリが追加されている。たとえば、Ｅｉｇｅｎマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述されたモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの３Ｄ音場をキャプチャすることができる。

[0134]本開示で説明される本技法の様々な態様を実行し得る例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の１つまたは複数の技法によれば、スピーカーおよび／またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として３Ｄ音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、有線接続またはワイヤレス接続のいずれかを介してオーディオ復号デバイス２４に結合され得る。本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。

[0135]いくつかの異なる例示的なオーディオ再生環境はまた、本開示で説明される技法の様々な態様を実行するために好適であり得る。たとえば、５．１スピーカー再生環境、２．０（たとえば、ステレオ）スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う９．１スピーカー再生環境、２２．２スピーカー再生環境、１６．０スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を実行するために好適な環境であり得る。

[0136]本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダードが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。たとえば、設計上の考慮事項が、７．１スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合（たとえば、右側のサラウンドスピーカーを配置することが可能ではない場合）、本開示の技法は、再生が６．１スピーカー再生環境で達成され得るように、レンダーが他の６つのスピーカーとともに補償することを可能にする。

[0137]その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見得る。本開示の１つまたは複数の技法によれば、スポーツの試合の３Ｄ音場が獲得され得（たとえば、１つまたは複数のＥｉｇｅｎマイクロフォンが野球場の中および／または周りに配置され得）、３Ｄ音場に対応するＨＯＡ係数が取得されデコーダに送信され得、デコーダがＨＯＡ係数に基づいて３Ｄ音場を再構成して、再構成された３Ｄ音場をレンダラに出力することができ、レンダラが再生環境のタイプ（たとえば、ヘッドフォン）についての指示を取得し、再構成された３Ｄ音場を、ヘッドフォンにスポーツの試合の３Ｄ音場の表現を出力させる信号へとレンダリングし得る。

[0138]上記で説明された様々な場合の各々において、オーディオ符号化デバイス２０は、ある方法を実行し、またはさもなければ、オーディオ符号化デバイス２０が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの場合には、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ符号化デバイス２０が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0139]１つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体上の１つまたは複数の命令またはコード上に記憶され、またはこれを介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実装のために命令、コードおよび／またはデータ構造を取り出すために、１つまたは複数のコンピュータあるいは１つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0140]同様に、上記で説明された様々な場合の各々において、オーディオ復号デバイス２４は、ある方法を実行し、またはさもなければ、オーディオ復号デバイス２４が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの場合には、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ復号デバイス２４が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0141]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ここで、ディスク（disk）は、通常、データを磁気的に再生し、一方、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲の中に含まれるべきである。

[0142]命令は、１つもしくは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは他の同等の集積回路またはディスクリート論理回路などの１つもしくは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成されるか、または複合コーデックに組み込まれる、専用のハードウェアモジュールおよび／またはソフトウェアモジュール内で提供され得る。また、本技法は、１つもしくは複数の回路または論理要素で十分に実装され得る。

[0143]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）もしくはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置で実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットが説明されるが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、上で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記の１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。

[0144]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。

Claims

フォアグラウンドオーディオ信号を量子化するための方法であって、
少なくとも１つのプロセッサによって、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、前記オーディオオブジェクトの閉ループ量子化を実行することを備える、方法。
前記オーディオオブジェクトの前記閉ループ量子化を実行することがさらに、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行することと、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、前記オーディオオブジェクトの量子化を実行することと、
を備える、請求項１に記載の方法。
前記オーディオオブジェクトの量子化を実行することがさらに、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行することから生じる量子化誤差に少なくとも部分的に基づいて、前記オーディオオブジェクトの量子化を実行することを備える、請求項２に記載の方法。
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行することから生じる前記量子化誤差に少なくとも部分的に基づいて、前記オーディオオブジェクトの量子化を実行することがさらに、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行することから生じる前記量子化誤差を補償することを備える、請求項３に記載の方法。
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行することから生じる前記量子化誤差を補償することがさらに、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行した結果の擬似逆行列に少なくとも部分的に基づいて、量子化補償されたオーディオオブジェクトを決定することと、
前記量子化補償されたオーディオオブジェクトの量子化を実行することと、
を備える、請求項４に記載の方法。
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行した結果の前記擬似逆行列に少なくとも部分的に基づいて、前記量子化補償されたオーディオオブジェクトを決定することがさらに、
高次アンビソニック（ＨＯＡ）係数と、前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行した前記結果の前記擬似逆行列との積として、前記量子化補償されたオーディオオブジェクトを決定することを備える、請求項５に記載の方法。
前記オーディオオブジェクトおよび前記指向性情報が、高次アンビソニック係数から分解され、
前記オーディオオブジェクトが、複数の球面調和係数の左特異ベクトルを表すＵ行列と、前記複数の球面調和係数の特異値を表すＳ行列との積を備え、
前記オーディオオブジェクトに関連付けられる前記指向性情報が、前記複数の球面調和係数の右特異ベクトルを表すＶ行列を備える、請求項１に記載の方法。
フォアグラウンドオーディオ信号を量子化するためのデバイスであって、
オーディオオブジェクトと、前記オーディオオブジェクトに関連付けられる指向性情報とを記憶するように構成されるメモリと、
少なくとも１つのプロセッサであって、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、前記オーディオオブジェクトの閉ループ量子化を実行する、ように構成されるプロセッサと、
を備える、デバイス。
前記少なくとも１つのプロセッサがさらに、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行し、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、前記オーディオオブジェクトの量子化を実行する、
ように構成される、請求項８に記載のデバイス。
前記オーディオオブジェクトの量子化を実行することがさらに、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行することから生じる量子化誤差に少なくとも部分的に基づいて、前記オーディオオブジェクトの量子化を実行することを備える、請求項９に記載のデバイス。
前記少なくとも１つのプロセッサがさらに、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行することから生じる前記量子化誤差を補償するように構成される、請求項１０に記載のデバイス。
前記少なくとも１つのプロセッサがさらに、
前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行した結果の擬似逆行列に少なくとも部分的に基づいて、量子化補償されたオーディオオブジェクトを決定し、
前記量子化補償されたオーディオオブジェクトの量子化を実行する、
ように構成される、請求項１１に記載のデバイス。
前記少なくとも１つのプロセッサがさらに、
高次アンビソニック（ＨＯＡ）係数と、前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行した前記結果の前記擬似逆行列との積として、前記オーディオオブジェクトを決定するように構成される、請求項１２に記載のデバイス。
前記ＨＯＡ係数を示すオーディオデータをキャプチャするように構成されるマイクロフォンをさらに備える、請求項１３に記載のデバイス。
オーディオオブジェクトを逆量子化するための方法であって、
少なくとも１つのプロセッサによって、オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、閉ループ量子化された前記オーディオオブジェクトを取得することと、
前記少なくとも１つのプロセッサによって、前記オーディオオブジェクトを逆量子化することと、
を備える、方法。
前記オーディオオブジェクトは、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することと、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化した結果に少なくとも部分的に基づいて前記オーディオオブジェクトを量子化することとによって、閉ループ量子化される、請求項１５に記載の方法。
前記オーディオオブジェクトは、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することと、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することから生じる量子化誤差に少なくとも部分的に基づいて前記オーディオオブジェクトを量子化することとによって、閉ループ量子化される、請求項１５に記載の方法。
前記オーディオオブジェクトは、
前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することと、前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行することから生じる前記量子化誤差を補償することを含む、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することから生じる前記量子化誤差に少なくとも部分的に基づいて前記オーディオオブジェクトを量子化することとによって、閉ループ量子化される、請求項１５に記載の方法。
前記オーディオオブジェクトは、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することと、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化した結果の逆擬似行列に少なくとも部分的に基づいて、量子化補償されたオーディオオブジェクトを決定することと、前記量子化補償されたオーディオオブジェクトを量子化することとによって、閉ループ量子化される、請求項１５に記載の方法。
前記オーディオオブジェクトは、高次アンビソニック（ＨＯＡ）係数と、前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行した前記結果の前記擬似逆行列との積として、前記量子化補償されたオーディオオブジェクトを決定することによって、閉ループ量子化される、請求項１９に記載の方法。
前記オーディオオブジェクトおよび前記指向性情報は、高次アンビソニック係数から分解され、
前記オーディオオブジェクトは、複数の球面調和係数の左特異ベクトルを表すＵ行列と、前記複数の球面調和係数の特異値を表すＳ行列との積を備え、
前記オーディオオブジェクトに関連付けられる前記指向性情報は、前記複数の球面調和係数の右特異ベクトルを表すＶ行列を備える、
請求項１５に記載の方法。
ビットストリームを受信することと、
前記閉ループ量子化されたオーディオオブジェクトおよび前記量子化された指向性情報を取得するために、前記ビットストリームを復号することと、
をさらに備える、請求項１５に記載の方法。
フォアグラウンドオーディオ信号を逆量子化するためのデバイスであって、
オーディオオブジェクトを記憶するように構成されるメモリと、
少なくとも１つのプロセッサであって、
前記オーディオオブジェクトに関連付けられる指向性情報の量子化を実行した結果に少なくとも部分的に基づいて、閉ループ量子化された前記オーディオオブジェクトを取得し
前記オーディオオブジェクトを逆量子化する、
ように構成されるプロセッサと、
を備えるデバイス。
前記オーディオオブジェクトは、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することと、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化した結果に少なくとも部分的に基づいて前記オーディオオブジェクトを量子化することとによって、閉ループ量子化される、請求項２３に記載のデバイス。
前記オーディオオブジェクトは、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することと、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することから生じる量子化誤差に少なくとも部分的に基づいて前記オーディオオブジェクトを量子化することとによって、閉ループ量子化される、請求項２３に記載のデバイス。
前記オーディオオブジェクトは、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することと、前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行することから生じる前記量子化誤差を補償することを含む、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することから生じる前記量子化誤差に少なくとも部分的に基づいて前記オーディオオブジェクトを量子化することとによって、閉ループ量子化される、請求項２３に記載のデバイス。
前記オーディオオブジェクトは、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化することと、前記オーディオオブジェクトに関連付けられる前記指向性情報を量子化した結果の逆擬似行列に少なくとも部分的に基づいて、量子化補償されたオーディオオブジェクトを決定することと、前記量子化補償されたオーディオオブジェクトを量子化することとによって、閉ループ量子化される、請求項２３に記載のデバイス。
前記オーディオオブジェクトは、高次アンビソニック（ＨＯＡ）係数と、前記オーディオオブジェクトに関連付けられる前記指向性情報の量子化を実行した前記結果の前記擬似逆行列との積として、前記量子化補償されたオーディオオブジェクトを決定することによって、閉ループ量子化される、請求項２７に記載のデバイス。
前記逆量子化されたオーディオオブジェクトからレンダリングされたラウドスピーカーフィードを再生するように構成されるスピーカーをさらに備える、請求項２３に記載のデバイス。
前記少なくとも１つのプロセッサがさらに、
ビットストリームを受信し、
前記閉ループ量子化されたオーディオオブジェクトおよび前記量子化された指向性情報を取得するために、前記ビットストリームを復号する、
ように構成される、請求項２３に記載のデバイス。