JP7741334B2

JP7741334B2 - オーディオ処理方法および端末

Info

Publication number: JP7741334B2
Application number: JP2024544814A
Authority: JP
Inventors: 建策丁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-01-28
Filing date: 2022-12-20
Publication date: 2025-09-17
Anticipated expiration: 2042-12-20
Also published as: JP2025504944A; KR102951818B1; CN116567516A; WO2023142783A1; EP4456568A1; EP4456568A4; US20240388866A1; KR20240138108A

Description

本出願は、2022年1月28日に中国国家知識産権局に提出された、「オーディオ処理方法および端末」と題する中国特許出願第202210109139．4号の優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、オーディオ技術分野に関し、特に、オーディオ処理方法および端末に関する。

オーディオミキシングは、音楽制作において必須の工程であり、オーディオミキシングの質は音楽作品の成否を決定する。オーディオミキシング後のオーディオ出力は、視聴者が、ライブ録音時には聞き取られることができない繊細で階層化された音楽効果を聞き取ることを可能にし、音楽をより表現豊かにする。

仮想現実（virtual reality、VR）技術が音楽分野に徐々に適用され、VR音楽シーンが出現する。現在、VR音楽シーンを制作するプロセスにおいて、音楽信号を混合するとき、クリエータは通常、ユーザがスイートエリアに位置し、位置が変化しないままであると仮定される。したがって、このタイプのVR音楽シーンは、ユーザの頭部回転（例えば、3自由度（three degree of freedom、3DoF））効果を実現することができる。ユーザは、スイートエリア内にいるときにのみ、良好な音楽体験を得ることができる。ユーザの位置が変更された場合、ユーザの聴取効果は低下し、ユーザの音楽体験がさらに影響を受ける。

本出願の実施形態は、ユーザが自由に移動するときに得られる聴取効果を改善するための、オーディオ処理方法および端末を提供する。

前述の技術的問題を解決するために、本出願の実施形態は以下の技術的解決策を提供する。

第1の態様によれば、本出願の一実施形態は、
オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の復号されたオーディオデータを取得するためにオーディオビットストリームを復号するステップであって、オーディオ最適化メタデータが、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータを含み、Mが、正の整数である、ステップと、
M個のレンダリングされたオーディオデータを取得するために、ユーザの現在位置および基本オーディオメタデータに基づいてM個の復号されたオーディオデータをレンダリングするステップと、
現在位置が第1の最適化された聴取エリア内にあるときに、M個の第1のオーディオミキシングデータを取得するために、第1の復号オーディオミキシングパラメータに基づいてM個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行うステップと、
第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータを混合するステップと
を含む、オーディオ処理方法を提供する。

前述の解決策において、本出願のこの実施形態では、第1の最適化された聴取エリアのメタデータおよび第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータが取得され得、M個のレンダリングされたオーディオデータを取得するために、ユーザの現在位置および基本オーディオメタデータに基づいてM個の復号されたオーディオデータがレンダリングされる。次いで、ユーザの現在位置が第1の最適化された聴取エリア内にあると決定されたときに、M個の第1のオーディオミキシングデータを取得するために、第1の復号オーディオミキシングパラメータに基づいてM個のレンダリングされたオーディオデータに対して第1のオーディオミキシングが行われる。最後に、第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータが混合される。したがって、本出願のこの実施形態では、ユーザの現在位置が第1の最適化された聴取エリア内に位置するときに、第1の最適化された聴取エリアに対応するオーディオデータを使用することによって、オーディオミキシングとデータ混合の両方が実施され、そのため、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

1つの可能な実施態様では、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第2の復号オーディオミキシングパラメータをさらに含む。

方法は、第1の最適化された聴取エリアに対応する第2のオーディオミキシングデータを取得するために、第2の復号オーディオミキシングパラメータに基づいて混合されたオーディオデータに対して第2のオーディオミキシングを行うステップをさらに含む。

前述の解決策では、第2の復号オーディオミキシングパラメータを取得した後に、復号端末は、第1の最適化された聴取エリアに対応する第2のオーディオミキシングデータを取得するために、第1の最適化された聴取エリアに対応する第2の復号オーディオミキシングパラメータに基づいて、第1の最適化された聴取エリアに対応する混合されたオーディオデータに対して第2のオーディオミキシングをさらに行い得る。第2のオーディオミキシングデータは、第2のオーディオミキシングを介して取得されることができる。第2のオーディオミキシングデータが再生されるときに、ユーザの聴取効果が改善されることができる。

1つの可能な実施態様では、第2の復号オーディオミキシングパラメータは、第2のオーディオミキシングデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータ、のうちの少なくとも1つを含む。

前述の解決策では、第2の復号オーディオミキシングパラメータは、第2のオーディオミキシングデータの識別子を含み得る。第2の復号オーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。Q値は、等化フィルタのパラメータであり、等化フィルタの品質係数を表し、等化フィルタの帯域幅を記述するために使用され得る。第2の復号オーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第2の復号オーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

1つの可能な実施態様では、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第2の復号オーディオミキシングパラメータに関する、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアに対応するN－1個の第2の復号オーディオミキシングパラメータのN－1個の差分パラメータであって、Nが、正の整数である、N－1個の差分パラメータ、をさらに含む。

前述の解決策では、差分パラメータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアのN－1個の第2の復号オーディオミキシングパラメータと、第1の最適化された聴取エリアに対応する第2の復号オーディオミキシングパラメータとの間の差分部分のパラメータである。差分パラメータは、N－1個の最適化された聴取エリアのN－1個の第2の復号オーディオミキシングパラメータではない。オーディオ最適化メタデータは差分パラメータを搬送し、そのため、オーディオ最適化メタデータのデータ量が削減されることができ、データ伝送効率および復号効率が改善されることができる。

1つの可能な実施態様では、第1の復号オーディオミキシングパラメータは、レンダリングされたオーディオデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータ、のうちの少なくとも1つを含む。

前述の解決策では、第1の復号オーディオミキシングパラメータは、レンダリングされたオーディオデータの識別子、例えば、M個のレンダリングされたオーディオデータの識別子を含み得る。第1の復号オーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。第1の復号オーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第1の復号オーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

1つの可能な実施態様では、方法は、
復号されたビデオ画像データおよびビデオ画像メタデータを取得するためにビデオ画像ビットストリームを復号するステップであって、ビデオ画像メタデータが、ビデオメタデータおよび画像メタデータを含む、ステップと、
レンダリングされたビデオ画像データを取得するために、ビデオ画像メタデータに基づいて復号されたビデオ画像データをレンダリングするステップと、
レンダリングされたビデオ画像データに基づいて仮想シーンを確立するステップと、
レンダリングされたビデオ画像データおよびオーディオ最適化メタデータに基づいて仮想シーン内で第1の最適化された聴取エリアを識別するステップと
をさらに含む。

前述の解決策では、復号端末は、レンダリングされたビデオ画像データを取得するために、ビデオ画像メタデータに基づいて復号されたビデオ画像データをレンダリングし、復号端末は、レンダリングされたビデオ画像データを使用することによって仮想シーンを確立し得る。最後に、復号端末は、レンダリングされたビデオ画像データおよびオーディオ最適化メタデータに基づいて仮想シーン内で第1の最適化された聴取エリアを識別し、これにより、復号端末側は、仮想シーン内に第1の最適化された聴取エリアを表示し、最適化された聴取エリアで音楽を体験するようユーザを誘導し、それによって、ユーザの聴取効果を改善する。

1つの可能な実施態様では、第1のメタデータは、第1の最適化された聴取エリアの基準座標系、第1の最適化された聴取エリアの中心位置座標、および第1の最適化された聴取エリアの形状、のうちの少なくとも1つを含む。

前述の解決策では、第1の最適化された聴取エリアのメタデータは、基準座標系を含む場合もあるし、または第1の最適化された聴取エリアのメタデータは、基準座標系を含まない場合もある。例えば、第1の最適化された聴取エリアは、デフォルトの座標系を使用する。第1の最適化された聴取エリアのメタデータは、第1の最適化された聴取エリアを記述するための記述情報、例えば、第1の最適化された聴取エリアの中心位置座標、および第1の最適化された聴取エリアの形状を記述するための情報を含み得る。本出願のこの実施形態では、第1の最適化された聴取エリアの複数の形状があってもよい。例えば、形状は、球体、立方体、柱、または他の任意の形状であってもよい。

1つの可能な実施態様では、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータに関する、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアに対応するN－1個の第1の復号オーディオミキシングパラメータのN－1個の差分パラメータであって、Nが、正の整数である、N－1個の差分パラメータ、を含む。

前述の解決策では、差分パラメータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアのN－1個の第1の復号オーディオミキシングパラメータと、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータとの間の差分部分のパラメータである。差分パラメータは、N－1個の最適化された聴取エリアのN－1個の第1の復号オーディオミキシングパラメータではない。オーディオ最適化メタデータは差分パラメータを搬送し、そのため、オーディオ最適化メタデータのデータ量が削減されることができ、データ伝送効率および復号効率が改善されることができる。

第2の態様によれば、本出願の一実施形態は、
オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータを受信するステップであって、オーディオ最適化メタデータが、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを含み、Mが、正の整数である、ステップと、
オーディオビットストリームを取得するために、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータに対して圧縮符号化を行うステップと、
オーディオビットストリームを送信するステップと
を含む、オーディオ処理方法をさらに提供する。

前述の解決策では、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータがまず受信され、オーディオ最適化メタデータは、第1の最適化された聴取エリアのメタデータおよび第1の最適化された聴取エリアの第1のオーディオミキシングパラメータを含む。したがって、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

1つの可能な実施態様では、オーディオ最適化メタデータは、第2のオーディオミキシングパラメータ変更識別子をさらに含む。

第2のオーディオミキシングパラメータ変更識別子は、現在のフレームの第1のオーディオデータに対応する第2のオーディオミキシングパラメータが、前のフレームの第1のオーディオデータに対応する第2のオーディオミキシングパラメータと比較して変化したかどうかを指示する。

前述の解決策では、送信端末は、オーディオ最適化メタデータにおいて第2のオーディオミキシングパラメータ変更識別子を設定し得る。第2のオーディオミキシングパラメータ変更識別子は、第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータが変化したかどうかを指示する。したがって、復号端末は、第2のオーディオミキシングパラメータ変更識別子に基づいて、第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータが変化したかどうかを決定する。例えば、現在のフレームの第1のオーディオデータに対応する第2のオーディオミキシングパラメータが、前のフレームの第1のオーディオデータに対応する第2のオーディオミキシングパラメータと比較して変化した場合、第2のオーディオミキシングパラメータ変更識別子は真であり、送信端末は、第1のオーディオデータに対応する第2のオーディオミキシングパラメータの変更情報をさらに送信し得る。復号端末は、第1のオーディオデータに対応する第2のオーディオミキシングパラメータの変更情報を受信し、変更情報に基づいて、現在のフレームの第1のオーディオデータに対応する変更された第2のオーディオミキシングパラメータを取得する。

1つの可能な実施態様では、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータをさらに含む。

前述の解決策では、制作端末がオーディオミキシングを2回行う場合、制作端末によって取得されるオーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータ、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータ、および第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータを含み得る。オーディオ最適化メタデータが復号端末によって取得された後に、復号端末もまた、オーディオミキシングを2回行う必要があり、ユーザの聴取効果は、オーディオミキシングを2回行うことによって改善されることができる。

1つの可能な実施態様では、オーディオ最適化メタデータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータ、および第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータに関する、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアに対応するN－1個の第2のオーディオミキシングパラメータのN－1個の差分パラメータであって、Nが、正の整数である、N－1個の差分パラメータをさらに含む。

前述の解決策では、差分パラメータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアのN－1個の第2のオーディオミキシングパラメータと、第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータとの間の差分部分のパラメータである。差分パラメータは、N－1個の最適化された聴取エリアのN－1個の第2のオーディオミキシングパラメータではない。オーディオ最適化メタデータは差分パラメータを搬送し、そのため、オーディオ最適化メタデータのデータ量が削減されることができ、データ伝送効率および復号効率が改善されることができる。

1つの可能な実施態様では、第2のオーディオミキシングパラメータは、第1のオーディオデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータ、のうちの少なくとも1つを含む。

前述の解決策では、第2のオーディオミキシングパラメータは、M個の第1のオーディオデータの識別子、例えば、第1のオーディオデータの識別子を含み得る。第2のオーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。第2のオーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第2のオーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

1つの可能な実施態様では、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータに関する、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアに対応するN－1個の第1のオーディオミキシングパラメータのN－1個の差分パラメータ、をさらに含む。

前述の解決策では、差分パラメータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアのN－1個の第1のオーディオミキシングパラメータと、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータとの間の差分部分のパラメータである。差分パラメータは、N－1個の最適化された聴取エリアのN－1個の第1のオーディオミキシングパラメータではない。オーディオ最適化メタデータは差分パラメータを搬送し、そのため、オーディオ最適化メタデータのデータ量が削減されることができ、データ伝送効率および復号効率が改善されることができる。

1つの可能な実施態様では、第1のオーディオミキシングパラメータは、第1のオーディオデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータ、のうちの少なくとも1つを含む。

前述の解決策では、第1のオーディオミキシングパラメータは、第1のオーディオデータの識別子、例えば、M個の第1のオーディオデータの識別子を含み得る。第1のオーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。第1のオーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第1のオーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

1つの可能な実施態様では、第1の最適化された聴取エリアの第1のメタデータは、第1の最適化された聴取エリアの基準座標系、第1の最適化された聴取エリアの中心位置座標、および第1の最適化された聴取エリアの形状、のうちの少なくとも1つを含む。

1つの可能な実施態様では、オーディオ最適化メタデータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリアの中心位置座標、および第1の最適化された聴取エリアの中心位置座標に関する、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアの中心位置座標の位置オフセットであって、Nが、正の整数である、位置オフセット、をさらに含む。

前述の解決策では、位置オフセットは、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアの中心位置座標と、N－1個の最適化された聴取エリアの中心位置座標以外ではない、第1の最適化された聴取エリアの中心位置座標との間のオフセットである。オーディオ最適化メタデータは位置オフセットを搬送し、そのため、オーディオ最適化メタデータのデータ量が削減されることができ、データ伝送効率および復号効率が改善されることができる。

1つの可能な実施態様では、オーディオ最適化メタデータは、最適化された聴取エリア変更識別子、および／または第1のオーディオミキシングパラメータ変更識別子をさらに含む。

最適化された聴取エリア変更識別子は、第1の最適化された聴取エリアが変化したかどうかを指示する。

第1のオーディオミキシングパラメータ変更識別子は、現在のフレームの第1のオーディオデータに対応する第1のオーディオミキシングパラメータが、前のフレームの第1のオーディオデータに対応する第1のオーディオミキシングパラメータと比較して変化したかどうかを指示する。

前述の解決策では、送信端末は、オーディオ最適化メタデータにおいて第1のオーディオミキシングパラメータ変更識別子を設定し得る。第1のオーディオミキシングパラメータ変更識別子は、現在のフレームの第1のオーディオデータに対応する第1のオーディオミキシングパラメータが、前のフレームの第1のオーディオデータに対応する第1のオーディオミキシングパラメータと比較して変化したかどうかを指示し、そのため、復号端末は、第1のオーディオミキシングパラメータ変更識別子に基づいて、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータが変化したかどうかを決定する。また、送信端末は、オーディオ最適化メタデータにおいて最適化された聴取エリア変更識別子を設定し得る。最適化された聴取エリア変更識別子は、制作端末によって決定された最適化された聴取エリアが変化したかどうかを指示し、そのため、復号端末は、最適化された聴取エリア変更識別子に基づいて、最適化された聴取エリアが変化したかどうかを決定する。

第3の態様によれば、本出願の一実施形態は、
基本オーディオメタデータおよびN個の最適化された聴取エリアのメタデータを取得するステップであって、Nが、正の整数であり、N個の最適化された聴取エリアが第1の最適化された聴取エリアを含む、ステップと、
第1の最適化された聴取エリアに対応するM個のレンダリングされたオーディオデータを取得するために、第1の最適化された聴取エリアおよび基本オーディオメタデータに基づいて、M個の処理対象のオーディオデータをレンダリングするステップであって、Mが、正の整数である、ステップと、
M個の第1のオーディオミキシングデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを取得するために、M個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行うステップと、
第1の最適化された聴取エリアの第1のメタデータおよび第1のオーディオミキシングパラメータに基づいてオーディオ最適化メタデータを生成するステップであって、オーディオ最適化メタデータが、第1のメタデータおよび第1のオーディオミキシングパラメータを含む、ステップと
を含む、オーディオ処理方法をさらに提供する。

前述の解決策では、本出願のこの実施形態におけるオーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータおよび第1のオーディオミキシングパラメータを含む。したがって、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

1つの可能な実施態様では、方法は、
第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータを混合するステップと、
第1の最適化された聴取エリアに対応する第2のオーディオミキシングデータおよび第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータを取得するために、混合されたオーディオデータに対して第2のオーディオミキシングを行うステップと
をさらに含み、
第1の最適化された聴取エリアの第1のメタデータおよび第1のオーディオミキシングパラメータに基づいてオーディオ最適化メタデータを生成するステップは、
第1の最適化された聴取エリアの第1のメタデータ、第1のオーディオミキシングパラメータ、および第2のオーディオミキシングパラメータに基づいてオーディオ最適化メタデータを生成するステップ
を含む。

前述の解決策では、制作端末がオーディオミキシングを2回行う場合、制作端末によって取得されるオーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータ、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータ、および第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータを含み得る。オーディオ最適化メタデータが復号端末によって取得された後に、復号端末もまた、オーディオミキシングを2回行う必要があり、ユーザの聴取効果は、オーディオミキシングを2回行うことによってさらに改善されることができる。

1つの可能な実施態様では、第2のオーディオミキシングパラメータは、第2のオーディオミキシングデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータを含む。

前述の解決策では、第2のオーディオミキシングパラメータは、第2のオーディオミキシングデータの識別子を含み得る。第2のオーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。第2のオーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第2のオーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

1つの可能な実施態様では、第1のオーディオミキシングパラメータは、第1のオーディオミキシングデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータを含む。

前述の解決策では、第1のオーディオミキシングパラメータは、第1のオーディオミキシングデータの識別子、例えば、M個の第1のオーディオミキシングデータの識別子を含み得る。第1のオーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。第1のオーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第1のオーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

1つの可能な実施態様では、N個の最適化された聴取エリアのメタデータを取得するステップは、
ビデオ画像メタデータおよびビデオ画像データを取得するステップであって、ビデオ画像メタデータがビデオメタデータおよび画像メタデータを含み、ビデオ画像データがビデオデータおよび画像データを含む、ステップと、
ビデオシーン情報を取得するために、ビデオ画像メタデータに基づいてビデオ画像データをレンダリングするステップと、
ビデオシーン情報に基づいてN個の最適化された聴取エリアのメタデータを取得するステップと
を含む。

前述の解決策では、制作端末は、生成されたビデオシーン情報に基づいてN個の最適化された聴取エリアを構成し、その結果、N個の最適化された聴取エリアのメタデータが生成されることができる。ビデオシーン情報は、N個の最適化された聴取エリアのメタデータを生成するために使用される。したがって、ビデオシーンにより良く一致した最適化された聴取エリアが選択されることができる。

1つの可能な実施態様では、第1の最適化された聴取エリアおよび基本オーディオメタデータに基づいてM個の処理対象のオーディオデータをレンダリングするステップは、
調整された基本オーディオメタデータを取得するために、第1の最適化された聴取エリアに対応する混合されたオーディオデータに基づいて基本オーディオメタデータを調整するステップであって、混合されたオーディオデータが、M個の第1のオーディオミキシングデータを混合することによって取得される、ステップと、
第1の最適化された聴取エリアおよび調整された基本オーディオメタデータに基づいてM個の処理対象のオーディオデータをレンダリングするステップと
を含む。

前述の解決策では、制作端末は、調整された基本オーディオメタデータを取得するために、第1の最適化された聴取エリアに対応する混合されたオーディオデータに基づいて基本オーディオメタデータを調整する。例えば、オーディオデータ内の1つまたは複数のオーディオ信号の周波数応答や、基本オーディオメタデータ内のオーディオ信号の位置およびゲインなどのパラメータが調整され、これにより、オーディオデータの位置およびゲインなどのパラメータが調整されることができる。基本オーディオメタデータを調整することにより、ユーザの聴取効果がさらに改善されることができる。

第4の態様によれば、本出願の一実施形態は、
オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の復号されたオーディオデータを取得するためにオーディオビットストリームを復号するように構成された復号モジュールであって、オーディオ最適化メタデータが、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータを含み、Mが、正の整数である、復号モジュールと、
M個のレンダリングされたオーディオデータを取得するために、ユーザの現在位置および基本オーディオメタデータに基づいてM個の復号されたオーディオデータをレンダリングするように構成された、レンダリングモジュールと、
現在位置が第1の最適化された聴取エリア内にあるときに、M個の第1のオーディオミキシングデータを取得するために、第1の復号オーディオミキシングパラメータに基づいてM個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行うように構成された、オーディオミキシングモジュールと、
第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータを混合するように構成された、ミキシングモジュールと
を含む、復号端末をさらに提供する。

本出願の第4の態様では、復号端末に含まれるモジュールは、第1の態様および可能な実施態様に記載されるステップをさらに行い得る。詳細については、第1の態様および可能な実施態様の説明を参照されたい。

第5の態様によれば、本出願の一実施形態は、
オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータを受信するように構成された受信モジュールであって、オーディオ最適化メタデータが、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを含み、Mが、正の整数である、受信モジュールと、
オーディオビットストリームを取得するために、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータに対して圧縮符号化を行うように構成された、符号化モジュールと、
オーディオビットストリームを送信するように構成された、送信モジュールと
を含む、送信端末をさらに提供する。

本出願の第5の態様では、送信端末に含まれるモジュールは、第2の態様および第2の態様の可能な実施態様に記載されるステップをさらに行い得る。詳細については、第2の態様および可能な実施態様の説明を参照されたい。

第6の態様によれば、本出願の一実施形態は、
基本オーディオメタデータおよびN個の最適化された聴取エリアのメタデータを取得するように構成された取得モジュールであって、Nが、正の整数であり、N個の最適化された聴取エリアが第1の最適化された聴取エリアを含む、取得モジュールと、
第1の最適化された聴取エリアに対応するM個のレンダリングされたオーディオデータを取得するために、第1の最適化された聴取エリアおよび基本オーディオメタデータに基づいて、M個の処理対象のオーディオデータをレンダリングするように構成されたレンダリングモジュールであって、Mが、正の整数である、レンダリングモジュールと、
M個の第1のオーディオミキシングデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを取得するために、M個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行うように構成された、オーディオミキシングモジュールと、
第1の最適化された聴取エリアの第1のメタデータおよび第1のオーディオミキシングパラメータに基づいてオーディオ最適化メタデータを生成するように構成された生成モジュールであって、オーディオ最適化メタデータが、第1のメタデータおよび第1のオーディオミキシングパラメータを含む、生成モジュールと
を含む、制作端末をさらに提供する。

本出願の第6の態様では、制作端末に含まれるモジュールは、第3の態様および可能な実施態様に記載されるステップをさらに行い得る。詳細については、第3の態様および可能な実施態様の説明を参照されたい。

第7の態様によれば、本出願の一実施形態は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は、命令を記憶する。命令がコンピュータ上で実行されると、コンピュータは、第1の態様から第3の態様による方法を行うことを可能にされる。

第8の態様によれば、本出願の一実施形態は、命令を含むコンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で動作すると、コンピュータは、第1の態様から第3の態様による方法を行うことが可能にされる。

第9の態様によれば、本出願の一実施形態は通信装置を提供する。通信装置は、端末デバイスやチップなどのエンティティを含んでもよく、通信装置は、プロセッサとメモリとを含む。メモリは、命令を格納するように構成され、プロセッサは、通信装置が第1の態様から第3の態様のいずれかによる方法を行うように、メモリ内の命令を実行するように構成される。

第10の態様によれば、本出願はチップシステムを提供する。チップシステムは、前述の態様における機能を実施する際に、例えば、前述の方法においてデータおよび／または情報を送信または処理する際に、復号端末、送信端末、および制作端末をサポートするように構成されたプロセッサを含む。1つの可能な設計では、チップシステムは、メモリをさらに含み、メモリは、復号端末、送信端末、および制作端末に必要なプログラム命令およびデータを記憶するように構成される。チップシステムは、チップを含んでもよいし、またはチップと別のディスクリートコンポーネントとを含んでもよい。

第11の態様によれば、本出願は、第2の態様の任意の実施態様による方法を使用することによって取得されたビットストリームを受信するように構成された、受信機と、受信機によって受信されたビットストリームを記憶するように構成された、メモリとを含む、デバイスを提供する。

第12の態様によれば、本出願は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は、第2の態様の任意の実施態様による方法を使用することによって取得されたビットストリームを記憶する。

前述の技術的解決策によれば、本出願の実施形態は以下の利点を有することが分かる。

本出願の一実施形態では、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の復号されたオーディオデータを取得するためにオーディオビットストリームが復号され、オーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータを含み、Mは、正の整数である。M個のレンダリングされたオーディオデータを取得するために、ユーザの現在位置および基本オーディオメタデータに基づいてM個の復号されたオーディオデータがレンダリングされる。ユーザの現在位置が第1の最適化された聴取エリア内にあるときに、M個の第1のオーディオミキシングデータを取得するために、第1の復号オーディオミキシングパラメータに基づいてM個のレンダリングされたオーディオデータに対して第1のオーディオミキシングが行われる。第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータが混合される。本出願のこの実施形態では、第1の最適化された聴取エリアのメタデータおよび第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータが取得され得、M個のレンダリングされたオーディオデータを取得するために、ユーザの現在位置および基本オーディオメタデータに基づいてM個の復号されたオーディオデータがレンダリングされる。次いで、ユーザの現在位置が第1の最適化された聴取エリア内にあると決定されたときに、M個の第1のオーディオミキシングデータを取得するために、第1の復号オーディオミキシングパラメータに基づいてM個のレンダリングされたオーディオデータに対して第1のオーディオミキシングが行われる。最後に、第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータが混合される。したがって、本出願のこの実施形態では、ユーザの現在位置が第1の最適化された聴取エリア内に位置するときに、第1の最適化された聴取エリアに対応するオーディオデータを使用することによって、オーディオミキシングとデータ混合の両方が実施され、そのため、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

本出願の別の実施形態では、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータが受信され、オーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを含み、Mは、正の整数である。オーディオビットストリームを取得するために、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータに対して圧縮符号化が行われる。オーディオビットストリームが送信される。本出願のこの実施形態では、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータがまず受信され、オーディオ最適化メタデータは、第1の最適化された聴取エリアのメタデータおよび第1の最適化された聴取エリアの第1のオーディオミキシングパラメータを含む。したがって、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

本出願のさらに別の実施形態では、基本オーディオメタデータおよびN個の最適化された聴取エリアのメタデータが取得され、Nは、正の整数であり、N個の最適化された聴取エリアは、第1の最適化された聴取エリアを含む。第1の最適化された聴取エリアに対応するM個のレンダリングされたオーディオデータを取得するために、第1の最適化された聴取エリアおよび基本オーディオメタデータに基づいて、M個の処理対象のオーディオデータがレンダリングされ、Mは、正の整数である。M個の第1のオーディオミキシングデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを取得するために、M個のレンダリングされたオーディオデータに対して第1のオーディオミキシングが行われる。第1の最適化された聴取エリアの第1のメタデータおよび第1のオーディオミキシングパラメータに基づいてオーディオ最適化メタデータが生成され、オーディオ最適化メタデータは、第1のメタデータおよび第1のオーディオミキシングパラメータを含む。本出願のこの実施形態では、オーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータおよび第1のオーディオミキシングパラメータを含む。したがって、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

本出願の一実施形態によるオーディオ処理システムの構成構造の概略図である。本出願の一実施形態による、制作端末と、送信端末と、復号端末との間のインタラクションの概略フローチャートである。本出願の一実施形態による、制作端末と、送信端末と、復号端末との間のインタラクションの概略フローチャートである。本出願の一実施形態による、仮想現実ストリーミングサービスシステムにおけるストリーミングデータ処理の概略フローチャートである。本出願の一実施形態による、6DoFVR音楽シーンのエンドツーエンドフローチャートである。本出願の一実施形態による、6DoFをサポートするVRコンサートシーンの概略図である。本出願の一実施形態による、別の6DoFVR音楽シーンのエンドツーエンドフローチャートである。本出願の一実施形態による復号端末の構成構造の概略図である。本出願の一実施形態による送信端末の構成構造の概略図である。本出願の一実施形態による制作端末の構成構造の概略図である。本出願の一実施形態による別の復号端末の構成構造の概略図である。本出願の一実施形態による別の送信端末の構成構造の概略図である。本出願の一実施形態による別の制作端末の構成構造の概略図である。

以下は、添付の図面を参照して本出願の実施形態を説明する。

本出願の明細書、特許請求書の範囲、および添付の図面では、「第1」、「第2」などの用語は、同様の対象を区別するためのものであり、必ずしも特定の順序または順番を指示するものではない。そのように使用される用語は適切な状況において交換可能であり、本出願の実施形態において同じ属性を有する対象が説明されるときに使用される区別方式にすぎないことを理解されたい。また、「含む（include）」および「有する（have）」という用語、ならびにそれらの任意の変形は、一連のユニットを含むプロセス、方法、システム、製品、またはデバイスが、必ずしもそれらのユニットに限定されず、明示的に列挙されていないか、またはそのようなプロセス、方法、システム、製品、もしくはデバイスに固有ではない他のユニットを含み得るように、非排他的包含を対象として含むことを意図されている。

音楽作品の制作プロセスは、以下の工程、すなわち、作詞、アレンジ、録音、オーディオミキシング、マスタテープなどを含む。オーディオミキシングは、音楽制作において必須の工程であり、オーディオミキシングの質は音楽作品の成否を決定する。

オーディオミキシングは、バイオリン音、ドラム音、人の音、または別の録音された音であり得る、複数の音源からの音の、シングル、ステレオ、またはマルチチャネルトラックへの統合である。オーディオミキシングのプロセスでは、各オーディオトラックの信号を最適化するために、各原信号の周波数、ダイナミクス、音質、配置、および音場が別々に調整される必要がある。最後に、混合信号の聴覚効果を最適化するために、混合信号の周波数およびダイナミクスが調整される。混合器は、等化器、圧縮器、および残響器などを含む。オーディオミキシングは、視聴者が、ライブ録音時には聞き取られることができない繊細で階層化された音楽効果を聞き取ることを可能にし、音楽をより表現豊かにする。

仮想現実（virtual reality、VR）、拡張現実（augmented reality、AR）、および複合現実（mixed reality、MR）の分野の発展に伴い、仮想現実技術が音楽分野にも徐々に適用されている。VR音楽のMVシーン、VRコンサートのライブシーン、VR音楽の様々な番組など、様々なVR音楽シーンが出現している。伝統的な音楽と比較して、これらのVR音楽シーンは、3D空間音楽効果とVR視覚体験とを組み合わせたものであり、よりライブ感があって没入的であり、ユーザの音楽体験を大幅に向上させる。ほとんどの現在のVR音楽シーンでは、3DoFシーンの音楽効果は、ユーザの頭部回転効果のみをサポートし、6自由度（6DoF）シーンをサポートしていない。

VRハードウェアデバイスはますます成熟している。また、ユーザは、音楽体験に対するより高い要件を有する。したがって、6DoFをサポートするVR音楽シーンは、将来の音楽分野のトレンドになる。伝統的な音楽制作方式では、通常、制作側のオーディオミキシング中にユーザはデザート位置におり、ユーザの位置は不変であると仮定される。オーディオミキシングは音楽信号が送信される前に完了され、送信された音楽信号は、オーディオミキシングによって取得された混合信号である。ユーザ側（言い換えれば、オーディオ復号器側）では、オーディオレンダラは、ユーザの再生デバイスを適合させるだけでよく、その結果、ユーザは完全な音楽効果を体験することができる。6DoFをサポートするVR音楽シーンでは、ユーザはシーン内を自由に移動することができる。一例としてバイオリン音源が使用される。バイオリンから3メートル（m）離れた位置と0．5メートル離れた位置とでユーザによって聞き取られるバイオリン音の音量、音色、および残響は大きく異なる。ユーザの位置が変化し続けるので、オーディオミキシング中にユーザの実際の位置が決定されることができない。したがって、従来の音楽制作方式は、ユーザが自由に移動するときにユーザが完全な音楽効果を聞き取れることを保証することができず、6DoFをサポートするVR音楽シーンにおけるユーザ体験が大きく影響を受ける可能性がある。

本出願の実施形態によれば、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。例えば、ユーザが仮想現実シーンまたは拡張現実シーン内を自由に移動するときに、ユーザの聴取効果が改善されることができる。以下は、本出願の実施形態を詳細に説明する。図1に示されるように、本出願の一実施形態は、制作端末101と、送信端末102と、復号端末103とを含む、オーディオ処理システム100を提供する。制作端末101は、仮想シーンから1つまたは複数の最適化された聴取エリアを選択することができる。最適化された聴取エリアは「スイートスポット」と呼ばれる場合もあり、最適化された聴取エリアは仮想シーンから予め選択された聴取エリアである。制作端末101は、最適化された聴取エリアごとにオーディオ最適化メタデータを構成する、具体的には、聴取者が、最適化された聴取エリアにおけるオーディオミキシングによって取得される音楽信号の音楽効果を確実に聞き取ることができるようにするために、最適化された聴取エリアごとに対応するオーディオミキシングパラメータのセットを生成し得る。このようにして、6DoF音楽シーンにおけるユーザの音楽体験が改善される。

制作端末101は、送信端末102と通信し得、送信端末102は、復号端末103と通信し得、送信端末102は、制作端末101から各最適化された聴取エリアのオーディオ最適化メタデータを受信し得、送信端末102は、オーディオビットストリームを取得するために、オーディオ最適化メタデータに対して圧縮符号化を行う。送信端末102は、オーディオビットストリームを復号端末103に送信し得る。復号端末103は、各最適化された聴取エリアのオーディオ最適化メタデータを取得し得、復号端末103は、ユーザの現在位置に基づいて、現在位置と一致する最適化された聴取エリアを選択する（例えば、一致する最適化された聴取エリアは第1の最適化された聴取エリアと呼ばれる）。次いで、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータを使用することによってオーディオミキシングが行われ、その結果、ユーザは、オーディオミキシングによって取得された音楽信号の音楽効果を聞き取り、それによって、6DoF音楽シーンにおけるユーザの音楽体験を改善する。

本出願のこの実施形態では、制作端末は、6DoFオーディオVR音楽ソフトウェア、3Dオーディオエンジンなどを含み得る。制作端末は、VR端末デバイス、チップ、および無線ネットワークデバイスで使用され得る。

送信端末は、オーディオ通信を必要とする端末デバイス、またはトランスコーディングを必要とする無線デバイスおよびコアネットワークデバイスで使用され得る。例えば、送信端末は、端末デバイス、無線デバイス、またはコアネットワークデバイスのオーディオ符号器であってもよい。例えば、オーディオ符号器は、無線アクセスネットワーク、コアネットワーク内のメディアゲートウェイ、トランスコーディングデバイス、メディアリソースサーバ、モバイル端末、固定ネットワーク端末などを含んでもよい。代替的に、オーディオ符号器は、仮想現実技術におけるストリーミング（streaming）メディアサービスに適用されるオーディオ符号器であってもよい。

同様に、復号端末は、オーディオ通信を必要とする端末デバイス、またはトランスコーディングを必要とする無線デバイスおよびコアネットワークデバイスで使用され得る。例えば、復号端末は、端末デバイス、無線デバイス、またはコアネットワークデバイスのオーディオ復号器であってもよい。

本出願の一実施形態で提供されるオーディオ処理方法がまず説明される。オーディオ処理方法は、図1のオーディオ処理システムに基づいて実施される。図2Aおよび図2Bは、本出願の一実施形態による、制作端末と、送信端末と、復号端末との間のインタラクションの概略フローチャートである。制作端末は、送信端末と通信し得、送信端末は、復号端末と通信し得る。制作端末は、以下のステップ201からステップ204を行い、送信端末は、以下のステップ205からステップ207を行い、復号端末は、以下のステップ208からステップ211を行う。

201：制作端末は、基本オーディオメタデータおよびN個の最適化された聴取エリアのメタデータを取得し、Nは、正の整数であり、N個の最適化された聴取エリアは第1の最適化された聴取エリアを含む。

基本オーディオメタデータは、VR音楽シーンが制作されるときに必要とされる基本メタデータであり、基本オーディオメタデータの構成要素および内容は限定されない。例えば、表1に示されるように、基本オーディオメタデータは、音源メタデータ、物理モデルメタデータ、音響メタデータ、移動物体メタデータ、インタラクションメタデータ、およびリソースメタデータ、のうちの少なくとも1つを含む。

具体的には、音源メタデータは、音源の属性を記述するために使用される。例えば、音源メタデータは、対象オーディオメタデータ、マルチチャネルオーディオメタデータ、およびシーンオーディオメタデータを含んでもよい。対象オーディオメタデータおよびマルチチャネルオーディオメタデータは、基準座標系、位置、ゲイン、音量、形状、指向性、減衰モード、音源の再生制御などの情報を含む。シーンオーディオメタデータは、シーンマイクロフォンの位置および基準座標系、シーンオーディオのゲイン、有効面積、再生サポート自由度タイプ（0／3／6DoF）、減衰モード、および再生制御を含む。

物理モデルメタデータは、球体モデル、円柱モデル、立方体モデル、三角形メッシュモデルなどを含む。球体モデル、円柱モデル、および立方体モデルは、仮想ルーム内の物体の形状などを記述するために使用される。三角形メッシュモデルは、シーン内の任意の形状の部屋および不規則な物体を記述するために使用されることができる。

音響メタデータは、音響材料メタデータおよび音響環境メタデータを含む。音響材料メタデータは、シーン内の物体および部屋の表面材料の音響特性を記述するために使用され、音響環境メタデータは、VRシーン内の部屋の残響情報などを記述するために使用される。

移動物体メタデータは、シーン内の音源、物体などの動き情報を記述するために使用される。インタラクションメタデータは、ユーザとVRシーンとの間のインタラクション挙動を記述するために使用される。

リソースメタデータは、VRシーンにおいて必要とされるリソース情報などを記述するために用いられる。

ほとんどのVR音楽シーンで使用されるメタデータが、前述の表1のメタデータによって具体的にカバーされ得る。

また、本出願のこの実施形態では、基本オーディオメタデータを取得することに加えて、制作端末は、仮想シーンからN個の最適化された聴取エリアをさらに取得し得る。Nの値は限定されない。例えば、Nは1に等しくてもよいし、またはNは1より大きい。制作端末は、N個の最適化された聴取エリアのメタデータを取得する。最適化された聴取エリアのメタデータは、最適化された聴取エリアの構成パラメータを含む。例えば、構成パラメータは、聴取エリアのサイズ、形状、または中心位置などのパラメータであってもよい。最適化された聴取エリアのメタデータに含まれる構成パラメータは限定されない。

例えば、N個の最適化された聴取エリアは、ユーザの異なる位置をカバーしてもよく、N個の最適化された聴取エリアは、第1の最適化された聴取エリアを含み、第1の最適化された聴取エリアは、ユーザの現在位置と一致する最適化された聴取エリアを指してもよい。

本出願のいくつかの実施形態では、第1の最適化された聴取エリアは、N個の最適化された聴取エリアのうちの任意の最適化された聴取エリアであり得る。第1の最適化された聴取エリアの第1のメタデータは、第1の最適化された聴取エリアの基準座標系、第1の最適化された聴取エリアの中心位置座標、および第1の最適化された聴取エリアの形状、のうちの少なくとも1つを含む。

具体的には、第1の最適化された聴取エリアのメタデータは、基準座標系を含む場合もあるし、または第1の最適化された聴取エリアのメタデータは、基準座標系を含まない場合もある。例えば、第1の最適化された聴取エリアは、デフォルトの座標系を使用する。

第1の最適化された聴取エリアのメタデータは、第1の最適化された聴取エリアを記述するための記述情報、例えば、第1の最適化された聴取エリアの中心位置座標、および第1の最適化された聴取エリアの形状を記述するための情報を含み得る。本出願のこの実施形態では、第1の最適化された聴取エリアの複数の形状があってもよい。例えば、形状は、球体、立方体、柱、または他の任意の形状であってもよい。

本出願のいくつかの実施形態では、ステップ201で制作端末がN個の最適化された聴取エリアのメタデータを取得することは、以下のステップを含む。

A1：制作端末は、ビデオ画像メタデータおよびビデオ画像データを取得し、ビデオ画像メタデータはビデオメタデータおよび画像メタデータを含み、ビデオ画像データはビデオデータおよび画像データを含む。

制作端末は、仮想シーンにおけるビデオ画像メタデータおよびビデオ画像データをさらに取得し得る。ビデオ画像メタデータは、ビデオおよび画像メタデータと呼ばれる場合もあり、ビデオ画像データは、ビデオおよび画像データと呼ばれる場合もある。ビデオ画像データは、ビデオおよび画像のデータコンテンツを含み、ビデオ画像メタデータは、ビデオおよび画像コンテンツの属性を記述するために使用される情報である。

A2：制作端末は、ビデオシーン情報を取得するために、ビデオ画像メタデータに基づいてビデオ画像データをレンダリングする。

制作端末は、ビデオシーン情報を取得するために、ビデオ画像メタデータを使用することによってビデオ画像データに対してビデオシーンレンダリングを行う。例えば、ビデオシーンは仮想シーンであってもよい。

A3：制作端末は、ビデオシーン情報に基づいてN個の最適化された聴取エリアのメタデータを取得する。

制作端末は、生成されたビデオシーン情報に基づいてN個の最適化された聴取エリアを構成し、その結果、N個の最適化された聴取エリアのメタデータが生成されることができる。ビデオシーン情報は、N個の最適化された聴取エリアのメタデータを生成するために使用される。したがって、ビデオシーンにより良く一致した最適化された聴取エリアが選択されることができる。

202：制作端末は、第1の最適化された聴取エリアに対応するM個のレンダリングされたオーディオデータを取得するために、第1の最適化された聴取エリアおよび基本オーディオメタデータに基づいて、M個の処理対象のオーディオデータをレンダリングし、Mは、正の整数である。

制作端末は、M個の処理対象の第1のオーディオデータを取得する。M個の処理対象の第1のオーディオデータは、復号端末に送信される必要があるオーディオデータである。Mの値は限定されない。例えば、Mは1に等しくてもよいし、またはMは1より大きい。

M個の処理対象のオーディオデータを取得した後に、制作端末は、各最適化された聴取エリアに対応するレンダリングされたオーディオデータを取得するために、各最適化された聴取エリアをレンダリングする。例えば、制作端末は、N個の最適化された聴取エリア内の第1の最適化された聴取エリアに対応するM個のレンダリングされたオーディオデータを取得するために、N個の最適化された聴取エリア内の第1の最適化された聴取エリアおよび基本オーディオメタデータに基づいて、M個の処理対象のオーディオデータをレンダリングする。

レンダリングによって取得される第2のオーディオデータは、シングルチャネル信号であってもよいし、またはバイノーラルレンダリング信号であってもよいことに留意されたい。N個の最適化された聴取エリアは、レンダリングによって取得された合計N＊M個の第2のオーディオデータを有し、＊は、乗算演算記号を指示する。

第1の最適化された聴取エリアに加えて、N個の最適化された聴取エリアは、第2の最適化された聴取エリアをさらに含み得ることに留意されたい。本出願のこの実施形態において提供される方法は、以下のステップをさらに含み得る。

制作端末は、第2の最適化された聴取エリアに対応するM個のレンダリングされたオーディオデータを取得するために、第2の最適化された聴取エリアおよび基本オーディオメタデータに基づいて、M個の処理対象のオーディオデータをレンダリングし、Mは、正の整数である。

第2の最適化された聴取エリアに基づいて制作端末によって行われるレンダリングは、ステップ201において第1の最適化された聴取エリアに基づいて行われるレンダリングと同様であり、ここでは詳細は再度説明されない。同様に、後続のステップ203およびステップ204もまた、第1の最適化された聴取エリアに対して行われる処理であり、ステップ203およびステップ204の処理と同様の処理が第2の最適化された聴取エリアに対しても行われ得る。ここでは詳細は再度説明されない。

203：制作端末は、M個の第1のオーディオミキシングデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを取得するために、M個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行う。

第1の最適化された聴取エリアに対応するM個のレンダリングされたオーディオデータを取得した後に、制作端末は、M個の第1のオーディオミキシングデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを取得するために、第1の最適化された聴取エリアについて、第1の最適化された聴取エリアに対応するM個のレンダリングされたオーディオデータに対して第1のオーディオミキシングをさらに行い得る。第1のオーディオミキシングパラメータは、第1のオーディオミキシング中に使用されるオーディオミキシングパラメータを記録するために使用され、オーディオミキシングパラメータは、「オーディオミキシングメタデータ」と呼ばれる場合もある。前述のオーディオミキシングステップは、VR音楽シーン制作端末によって、またはオーディオミキシング端末によって完了され得る。これはここでは限定されない。

ステップ203のM個の第1のオーディオミキシングデータは、制作端末によって、第1のオーディオミキシングを行うことによって取得されるオーディオデータであることに留意されたい。M個の第1のオーディオミキシングデータと、続いて復号端末によって、第1のオーディオミキシングを行うことによって取得されるM個の第1のオーディオミキシングデータとは、異なるオーディオデータである。

本出願のいくつかの実施形態では、第1のオーディオミキシングパラメータは、第1のオーディオミキシングデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータ、のうちの少なくとも1つを含む。

第1のオーディオミキシングパラメータは、第1のオーディオミキシングデータの識別子、例えば、M個の第1のオーディオミキシングデータの識別子を含み得る。第1のオーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。Q値は、等化フィルタのパラメータであり、等化フィルタの品質係数を表し、等化フィルタの帯域幅を記述するために使用され得る。第1のオーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第1のオーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

204：制作端末は、第1の最適化された聴取エリアの第1のメタデータおよび第1のオーディオミキシングパラメータに基づいてオーディオ最適化メタデータを生成し、オーディオ最適化メタデータは、第1のメタデータおよび第1のオーディオミキシングパラメータを含む。

第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを取得した後に、制作端末は、第1の最適化された聴取エリアのためのオーディオ最適化メタデータを生成し得る。オーディオ最適化メタデータは、前述の基本オーディオメタデータとは異なり、オーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータ、および第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータ、を含む。オーディオ最適化メタデータは、音楽信号の音楽効果を改善するために、その現在位置が第1の最適化された聴取エリア内にあるユーザによって聞き取られる音楽信号を最適化するために使用される。

本出願のいくつかの実施形態では、制作端末によって行われ得るオーディオ処理方法は、以下のステップをさらに含む。

B1：制作端末は、第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータを混合する。

B2：第1の最適化された聴取エリアに対応する第2のオーディオミキシングデータおよび第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータを取得するために、混合されたオーディオデータに対して第2のオーディオミキシングを行う。

具体的には、ステップ203で制作端末が第1のオーディオミキシングを行った後に、オーディオデータのオーディオミキシング効果をさらに改善するために、制作端末は、ステップB1およびステップB2をさらに行い得る。第1の最適化された聴取エリアに対して、制作端末は、第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータを混合し得る。次いで、制作端末は、第1の最適化された聴取エリアに対応する第2のオーディオミキシングデータおよび第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータを取得するために、混合されたオーディオデータに対して第2のオーディオミキシングを行い得る。前述のオーディオミキシングステップは、VR音楽シーン制作端末によって、またはオーディオミキシング端末によって完了され得る。これはここでは限定されない。

ステップB1およびステップB2を行う実施シナリオにおいて、ステップ204で、制作端末が、第1の最適化された聴取エリアの第1のメタデータおよび第1のオーディオミキシングパラメータに基づいてオーディオ最適化メタデータを生成することは、以下を含む。

制作端末は、第1のメタデータ、第1のオーディオミキシングパラメータ、および第2のオーディオミキシングパラメータに基づいてオーディオ最適化メタデータを生成する。

制作端末がオーディオミキシングを2回行う場合、制作端末によって取得されるオーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータ、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータ、および第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータを含み得る。オーディオ最適化メタデータが復号端末によって取得された後に、復号端末もまた、オーディオミキシングを2回行う必要があり、ユーザの聴取効果は、オーディオミキシングを2回行うことによってさらに改善されることができる。

本出願のいくつかの実施形態では、第2のオーディオミキシングパラメータは、第2のオーディオミキシングデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータを含む。

第2のオーディオミキシングパラメータは、第2のオーディオミキシングデータの識別子を含み得る。第2のオーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。第2のオーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第2のオーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

C1：制作端末は、M個の第1のオーディオデータ、基本オーディオメタデータ、およびオーディオ最適化メタデータを送信端末に送信する。

制作端末は、M個の第1のオーディオデータ、基本オーディオメタデータ、およびオーディオ最適化メタデータを一緒に送信端末に送信してもよいし、または制作端末は、M個の第1のオーディオデータ、基本オーディオメタデータ、およびオーディオ最適化メタデータを別々に送信端末に送信してもよい。具体的な送信方式は、本明細書において限定されない。送信端末は、M個の第1のオーディオデータ、基本オーディオメタデータ、およびオーディオ最適化メタデータを復号端末にさらに送信し得、復号端末は、M個の第1のオーディオデータ、基本オーディオメタデータ、およびオーディオ最適化メタデータを受信する。

本出願のいくつかの実施形態では、制作端末は、基本オーディオメタデータをさらに調整し得る。具体的には、前述のステップ202における、第1の最適化された聴取エリアおよび基本オーディオメタデータに基づいてM個の処理対象のオーディオデータがレンダリングされるは、以下のステップを含む。

D1：制作端末は、調整された基本オーディオメタデータを取得するために、第1の最適化された聴取エリアに対応する混合されたオーディオデータに基づいて基本オーディオメタデータを調整し、混合されたオーディオデータは、M個の第1のオーディオミキシングデータを混合することによって取得される。

D2：制作端末は、第1の最適化された聴取エリアおよび調整された基本オーディオメタデータに基づいてM個の処理対象のオーディオデータをレンダリングする。

具体的には、D1において、第1の最適化された聴取エリアに対して、制作端末は、第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータを混合し得る。制作端末は、調整された基本オーディオメタデータを取得するために、第1の最適化された聴取エリアに対応する混合されたオーディオデータに基づいて基本オーディオメタデータを調整する。例えば、オーディオデータ内の1つまたは複数のオーディオ信号の周波数応答や、基本オーディオメタデータ内のオーディオ信号の位置およびゲインなどのパラメータが調整され、これにより、オーディオデータの位置およびゲインなどのパラメータが調整されることができ、ユーザによって最終的に聞き取られる音楽信号の音楽効果が調整されることができる。D2において、制作端末は、第1の最適化された聴取エリアおよび調整された基本オーディオメタデータを使用することによってM個の処理対象のオーディオデータをレンダリングする。ユーザの聴取効果は、基本オーディオメタデータを調整することによってさらに改善されることができる。

制作端末は、前述のステップ201からステップ204を行うことによってオーディオ最適化メタデータを取得し得、次いで、制作端末は、オーディオ最適化メタデータを送信端末に送信する。送信端末は、後続のステップ205からステップ207を行う。

205：送信端末は、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータを受信し、オーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを含み、Mは、正の整数である。

オーディオ最適化メタデータの生成プロセスは、制作端末によって行われるステップ201からステップ204に詳細に説明されている。制作端末がオーディオ最適化メタデータを生成した後に、制作端末は、オーディオ最適化メタデータを送信端末にさらに送信し得、送信端末は、制作端末からオーディオ最適化メタデータを受信する。また、制作端末は、基本オーディオメタデータおよびM個の第1のオーディオデータを送信端末にさらに送信し得、送信端末は、制作端末から基本オーディオメタデータおよびM個の第1のオーディオデータを受信する。

206：送信端末は、オーディオビットストリームを取得するために、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータに対して圧縮符号化を行う。

オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータを受信した後に、送信端末は、オーディオビットストリームを取得するために、予め設定された符号化アルゴリズムを使用することによって、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータに対して圧縮符号化を行い得る。使用される符号化アルゴリズムは、本出願のこの実施形態では限定されない。

207：送信端末は、オーディオビットストリームを送信する。

送信端末は、送信端末と復号端末との間の伝送チャネルを使用することによってオーディオビットストリームを送信する。

本出願のいくつかの実施形態では、送信端末によって行われ得るオーディオ処理方法は、以下のステップをさらに含む。

E1：送信端末は、制作端末からビデオ画像メタデータおよびビデオ画像データを受信し、ビデオ画像メタデータはビデオメタデータおよび画像メタデータを含み、ビデオ画像データはビデオデータおよび画像データを含む。

E2：送信端末は、ビデオ画像ビットストリームを取得するために、ビデオ画像メタデータおよびビデオ画像データに対して圧縮符号化を行う。

E3：送信端末は、ビデオ画像ビットストリームを復号端末に送信する。

制作端末は、ビデオ画像メタデータおよびビデオ画像データを送信端末にさらに送信し得る。ビデオ画像メタデータおよびビデオ画像データを受信した後に、送信端末は、ビデオ画像ビットストリームを生成し得る。ビデオ画像ビットストリームは、ビデオ画像メタデータおよびビデオ画像データを搬送する。したがって、送信端末からビデオ画像ビットストリームを受信した後に、復号端末は、ビデオ画像メタデータおよびビデオ画像データを取得し得る。

本出願のいくつかの実施形態では、オーディオ最適化メタデータは、第2のオーディオミキシングパラメータ変更識別子をさらに含む。

送信端末は、オーディオ最適化メタデータにおいて第2のオーディオミキシングパラメータ変更識別子を設定し得る。第2のオーディオミキシングパラメータ変更識別子は、第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータが変化したかどうかを指示する。したがって、復号端末は、第2のオーディオミキシングパラメータ変更識別子に基づいて、第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータが変化したかどうかを決定する。例えば、現在のフレームの第1のオーディオデータに対応する第2のオーディオミキシングパラメータが、前のフレームの第1のオーディオデータに対応する第2のオーディオミキシングパラメータと比較して変化した場合、第2のオーディオミキシングパラメータ変更識別子は真であり、送信端末は、第1のオーディオデータに対応する第2のオーディオミキシングパラメータの変更情報をさらに送信し得る。復号端末は、第1のオーディオデータに対応する第2のオーディオミキシングパラメータの変更情報を受信し、変更情報に基づいて、現在のフレームの第1のオーディオデータに対応する変更された第2のオーディオミキシングパラメータを取得する。

本出願のいくつかの実施形態では、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータをさらに含む。

制作端末がオーディオミキシングを2回行う場合、制作端末によって取得されるオーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータ、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータ、および第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータを含み得る。オーディオ最適化メタデータが復号端末によって取得された後に、復号端末もまた、オーディオミキシングを2回行う必要があり、ユーザの聴取効果は、オーディオミキシングを2回行うことによって改善されることができる。

本出願のいくつかの実施形態では、オーディオ最適化メタデータは、N個の最適化された聴取エリアのうちの第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータ、および第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータに関する、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアのN－1個の第2のオーディオミキシングパラメータの差分パラメータを含む。

差分パラメータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアのN－1個の第2のオーディオミキシングパラメータと、第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータとの間の差分部分のパラメータである。差分パラメータは、N－1個の最適化された聴取エリアのN－1個の第2のオーディオミキシングパラメータではない。例えば、第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータは、パラメータ1、パラメータ2、およびパラメータ3を含む。N－1個の最適化された聴取エリアに対応するN－1個の第2のオーディオミキシングパラメータの各々に対応する第2のオーディオミキシングパラメータが、パラメータ1、パラメータ2、およびパラメータ4を含む場合、N－1個の最適化された聴取エリアに対応するN－1個の第2のオーディオミキシングパラメータと、第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータとの間の差分パラメータは、パラメータ4を含む。オーディオ最適化メタデータは差分パラメータを搬送し、そのため、オーディオ最適化メタデータのデータ量が削減されることができ、データ伝送効率および復号効率が改善されることができる。

本出願のいくつかの実施形態では、第2のオーディオミキシングパラメータは、第1のオーディオデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータを含む。

第2のオーディオミキシングパラメータは、第1のオーディオデータの識別子、例えば、M個の第1のオーディオデータの識別子を含み得る。第2のオーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。第2のオーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第2のオーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

本出願のいくつかの実施形態では、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータに関する、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアに対応するN－1個の第1のオーディオミキシングパラメータのN－1個の差分パラメータ、をさらに含む。

差分パラメータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアのN－1個の第1のミキシングパラメータと、第1の最適化された聴取エリアに対応する第1のミキシングパラメータとの間の差分部分のパラメータである。差分パラメータは、N－1個の最適化された聴取エリアのN－1個の第1のミキシングパラメータではない。例えば、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータは、パラメータ1、パラメータ2、およびパラメータ3を含む。N－1個の最適化された聴取エリアに対応するN－1個の第1のオーディオミキシングパラメータの各々に対応する第1のオーディオミキシングパラメータが、パラメータ1、パラメータ2、およびパラメータ4を含む場合、N－1個の最適化された聴取エリアに対応するN－1個の第1のオーディオミキシングパラメータと、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータとの間の差分パラメータは、パラメータ4を含む。オーディオ最適化メタデータは差分パラメータを搬送し、そのため、オーディオ最適化メタデータのデータ量が削減されることができ、データ伝送効率および復号効率が改善されることができる。

本出願のいくつかの実施形態では、第1のオーディオミキシングパラメータは、第1のオーディオデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータを含む。

第1のオーディオミキシングパラメータは、第1のオーディオデータの識別子、例えば、M個の第1のオーディオデータの識別子を含み得る。第1のオーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。第1のオーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第1のオーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

本出願のいくつかの実施形態では、第1の最適化された聴取エリアのメタデータは、第1の最適化された聴取エリアの基準座標系、第1の最適化された聴取エリアの中心位置座標、および第1の最適化された聴取エリアの形状、のうちの少なくとも1つを含む。

本出願のいくつかの実施形態では、オーディオ最適化メタデータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリアの中心位置座標、および第1の最適化された聴取エリアの中心位置座標に関する、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアの中心位置座標の位置オフセット、をさらに含む。

位置オフセットは、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアの中心位置座標と、N－1個の最適化された聴取エリアの中心位置座標以外ではない、第1の最適化された聴取エリアの中心位置座標との間のオフセットである。オーディオ最適化メタデータは位置オフセットを搬送し、そのため、オーディオ最適化メタデータのデータ量が削減されることができ、データ伝送効率および復号効率が改善されることができる。

本出願のいくつかの実施形態では、オーディオ最適化メタデータは、最適化された聴取エリア変更識別子、および／または第1のオーディオミキシングパラメータ変更識別子をさらに含む。

送信端末は、オーディオ最適化メタデータにおいて第1のオーディオミキシングパラメータ変更識別子を設定し得る。第1のオーディオミキシングパラメータ変更識別子は、現在のフレームの第1のオーディオデータに対応する第1のオーディオミキシングパラメータが、前のフレームの第1のオーディオデータに対応する第1のオーディオミキシングパラメータと比較して変化したかどうかを指示し、そのため、復号端末は、第1のオーディオミキシングパラメータ変更識別子に基づいて、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータが変化したかどうかを決定する。また、送信端末は、オーディオ最適化メタデータにおいて最適化された聴取エリア変更識別子を設定し得る。最適化された聴取エリア変更識別子は、制作端末によって決定された最適化された聴取エリアが変化したかどうかを指示し、そのため、復号端末は、最適化された聴取エリア変更識別子に基づいて、最適化された聴取エリアが変化したかどうかを決定する。例えば、最適化された聴取エリアメタデータ変更識別子および第1のオーディオミキシングパラメータ変更識別子は、6DoFオーディオ最適化メタデータの伝送効率を改善するために、符号化された6DoFオーディオ最適化メタデータに付加される。VR音楽シーンが初期設定されるとき、初期オーディオ最適化メタデータが送信される。VRシーンが変化し、最適化された聴取エリアの位置および形状情報が変化したとき、最適化された聴取エリア変更識別子は真であり、最適化された聴取エリアの変更情報が送信される。現在のフレームの第1のオーディオミキシングパラメータが変化したとき、第1のオーディオミキシングパラメータ変更識別子は真であり、第1のオーディオミキシングパラメータの変更情報が送信される。

送信端末は前述のステップ205からステップ207を行い、復号端末は後続のステップ208からステップ211を行う。復号端末によって行われるオーディオ処理プロセスは、制作端末によって行われるオーディオ処理プロセスと同様であることが理解されよう。以下は、復号端末によって行われるオーディオ処理プロセスを説明する。

208：復号端末は、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の復号されたオーディオデータを取得するためにオーディオビットストリームを復号し、オーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータを含み、Mは、正の整数である。

オーディオビットストリームの生成プロセスは、送信端末によって行われるステップ205からステップ207に詳細に説明されている。送信端末は、オーディオビットストリームを復号端末に送信し、復号端末は、M個の復号されたオーディオデータ、オーディオ最適化メタデータ、および基本オーディオメタデータを取得するために、送信端末からオーディオビットストリームを受信する。M個の復号されたオーディオデータは、制作端末側のM個の処理対象のオーディオデータに対応している。M個の復号されたオーディオデータ、オーディオ最適化メタデータ、および基本オーディオメタデータの説明については、前述の実施形態を参照されたく、ここでは詳細は再度説明されない。

209：復号端末は、M個のレンダリングされたオーディオデータを取得するために、ユーザの現在位置および基本オーディオメタデータに基づいてM個の復号されたオーディオデータをレンダリングする。

復号端末がM個の復号されたオーディオデータ、オーディオ最適化メタデータ、および基本オーディオメタデータを取得した後に、復号端末は、M個のレンダリングされたオーディオデータを取得するために、ユーザの現在位置および基本オーディオメタデータに基づいてM個の復号されたオーディオデータをレンダリングする。

ステップ209におけるM個のレンダリングされたオーディオデータは、レンダリングを行うことによって復号端末によって取得されるオーディオデータであることに留意されたい。M個のレンダリングされたオーディオデータと、制作端末によってレンダリングを行うことによって取得されるM個のレンダリングされたオーディオデータとは、異なるオーディオデータである。

210：ユーザの現在位置が第1の最適化された聴取エリア内にあるときに、復号端末は、M個の第1のオーディオミキシングデータを取得するために、第1の復号オーディオミキシングパラメータに基づいてM個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行う。

復号端末は、ユーザの現在位置に基づいてN個の最適化された聴取エリアから、現在位置と一致する最適化された聴取エリアを取得し、現在位置と一致する最適化された聴取エリアは、第1の最適化された聴取エリアと呼ばれる。ステップ208において、復号端末は、オーディオ最適化メタデータを取得し、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータを含む。したがって、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータは、オーディオ最適化メタデータから取得され得る。復号端末は、第1の最適化された聴取エリアに対応するM個の第1のオーディオミキシングデータを取得するために、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータに基づいてM個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行う。第1の復号オーディオミキシングパラメータは、制作端末側の第1のオーディオミキシングパラメータに対応しており、第1のオーディオミキシングパラメータは、制作端末が第1のオーディオミキシングを行うときに使用されるオーディオミキシングパラメータを記録するために使用される。前述のオーディオミキシングステップは、VR音楽シーン制作端末によって、またはオーディオミキシング端末によって完了され得る。これはここでは限定されない。

211：復号端末は、第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータを混合する。

第1の最適化された聴取エリアに対応するM個の第1のオーディオミキシングデータを取得した後に、復号端末は、第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、第1の最適化された聴取エリアに対応するM個の第1のオーディオミキシングデータを混合する。第1の最適化された聴取エリアは、ユーザの現在位置を含む最適化された聴取エリアであるので、復号端末は、第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、第1の最適化された聴取エリアに対応するM個の第1のオーディオミキシングデータを混合する。第1の最適化された聴取エリアは、ユーザの実際の位置に適合されることができる。したがって、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

混合されたオーディオデータは、再生に直接使用されてもよく、混合されたオーディオデータが再生されるとき、ユーザの聴取効果は改善されることができることに留意されたい。

本出願のいくつかの実施形態では、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第2の復号オーディオミキシングパラメータをさらに含む。

第2の復号オーディオミキシングパラメータは、制作端末側の第2のオーディオミキシングパラメータに対応しており、第2のオーディオミキシングパラメータは、第2のオーディオミキシング中に使用されるオーディオミキシングパラメータを記録するために使用される。

復号端末によって行われ得るオーディオ処理方法は、以下のステップをさらに含む。

F1：復号端末は、第1の最適化された聴取エリアに対応する第2のオーディオミキシングデータを取得するために、第2の復号オーディオミキシングパラメータに基づいて混合されたオーディオデータに対して第2のオーディオミキシングを行う。

第2の復号オーディオミキシングパラメータを取得した後に、復号端末は、第1の最適化された聴取エリアに対応する第2のオーディオミキシングデータを取得するために、第2の復号オーディオミキシングパラメータに基づいて混合されたオーディオデータに対して第2のオーディオミキシングをさらに行い得る。第2のオーディオミキシングデータは、第2のオーディオミキシングを介して取得されることができる。第2のオーディオミキシングデータが再生されるときに、ユーザの聴取効果が改善されることができる。オーディオミキシングステップは、VR音楽シーン制作端末によって、またはオーディオミキシング端末によって完了され得る。これはここでは限定されない。

制作端末がオーディオミキシングを2回行う場合、制作端末によって取得されるオーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータ、第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータ、および第1の最適化された聴取エリアに対応する第2のオーディオミキシングパラメータを含み得る。オーディオ最適化メタデータが復号端末によって取得さられた後に、復号端末もまた、オーディオミキシングを2回行う必要があり、ユーザの聴取効果は、オーディオミキシングを2回行うことによって改善されることができる。

本出願のいくつかの実施形態では、第2の復号オーディオミキシングパラメータは、第2のオーディオミキシングデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータを含む。

第2の復号オーディオミキシングパラメータは、第2のオーディオミキシングデータの識別子を含み得る。第2の復号オーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。第2の復号オーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第2の復号オーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

本出願のいくつかの実施形態では、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第2の復号オーディオミキシングパラメータに関する、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアに対応するN－1個の第2の復号オーディオミキシングパラメータのN－1個の差分パラメータであって、Nが、正の整数である、N－1個の差分パラメータ、をさらに含む。

差分パラメータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアのN－1個の第2の復号オーディオミキシングパラメータと、第1の最適化された聴取エリアに対応する第2の復号オーディオミキシングパラメータとの間の差分部分のパラメータである。差分パラメータは、N－1個の最適化された聴取エリアのN－1個の第2の復号オーディオミキシングパラメータではない。例えば、第1の最適化された聴取エリアに対応する第2の復号オーディオミキシングパラメータは、パラメータ1、パラメータ2、およびパラメータ3を含む。N－1個の最適化された聴取エリアに対応するN－1個の第2の復号オーディオミキシングパラメータの各々に対応する第2の復号オーディオミキシングパラメータが、パラメータ1、パラメータ2、およびパラメータ4を含む場合。N－1個の最適化された聴取エリアに対応するN－1個の第2の復号オーディオミキシングパラメータと、第1の最適化された聴取エリアに対応する第2の復号オーディオミキシングパラメータとの間の差分パラメータは、パラメータ4を含む。オーディオ最適化メタデータは差分パラメータを搬送し、そのため、オーディオ最適化メタデータのデータ量が削減されることができ、データ伝送効率および復号効率が改善されることができる。

本出願のいくつかの実施形態では、第1の復号オーディオミキシングパラメータは、レンダリングされたオーディオデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータ、のうちの少なくとも1つを含む。

第1の復号オーディオミキシングパラメータは、レンダリングされたオーディオデータの識別子、例えば、M個のレンダリングされたオーディオデータの識別子を含み得る。第1の復号オーディオミキシングパラメータは、等化パラメータをさらに含み得る。例えば、等化パラメータは、等化パラメータ識別子、各周波数帯域のゲイン値、およびQ値を含んでもよい。第1の復号オーディオミキシングパラメータは、圧縮器パラメータをさらに含み得る。例えば、圧縮器パラメータは、圧縮器識別子、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含んでもよい。第1の復号オーディオミキシングパラメータは、残響器パラメータをさらに含み得る。例えば、残響器パラメータは、残響タイプ、残響時間、遅延時間、および直接音対残響音比を含んでもよい。

本出願のいくつかの実施形態では、オーディオ最適化メタデータは、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータに関する、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアに対応するN－1個の第1の復号オーディオミキシングパラメータのN－1個の差分パラメータであって、Nが、正の整数である、N－1個の差分パラメータ、をさらに含む。

差分パラメータは、N個の最適化された聴取エリア内の第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアのN－1個の第1の復号ミキシングパラメータと、第1の最適化された聴取エリアに対応する第1の復号ミキシングパラメータとの間の差分部分のパラメータである。差分パラメータは、N－1個の最適化された聴取エリアのN－1個の第1の復号ミキシングパラメータではない。例えば、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータは、パラメータ1、パラメータ2、およびパラメータ3を含む。N－1個の最適化された聴取エリアに対応するN－1個の第1の復号オーディオミキシングパラメータの各々に対応する第1の復号オーディオミキシングパラメータが、パラメータ1、パラメータ2、およびパラメータ4を含む場合。N－1個の最適化された聴取エリアに対応するN－1個の第1の復号オーディオミキシングパラメータと、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータとの間の差分パラメータは、パラメータ4を含む。オーディオ最適化メタデータは差分パラメータを搬送し、そのため、オーディオ最適化メタデータのデータ量が削減されることができ、データ伝送効率および復号効率が改善されることができる。

本出願のいくつかの実施形態では、復号端末によって行われ得るオーディオ処理方法は、以下のステップをさらに含む。

G1：復号端末は、復号されたビデオ画像データおよびビデオ画像メタデータを取得するためにビデオ画像ビットストリームを復号し、ビデオ画像メタデータは、ビデオメタデータおよび画像メタデータを含む。

G2：復号端末は、レンダリングされたビデオ画像データを取得するために、ビデオ画像メタデータに基づいて復号されたビデオ画像データをレンダリングする。

G3：復号端末は、レンダリングされたビデオ画像データに基づいて仮想シーンを確立する。

G4：復号端末は、レンダリングされたビデオ画像データおよびオーディオ最適化メタデータに基づいて仮想シーン内で第1の最適化された聴取エリアを識別する。

送信端末は、ビデオ画像メタデータおよびビデオ画像データに基づいてビデオ画像ビットストリームを生成し得、ビデオ画像ビットストリームはビデオ画像メタデータおよびビデオ画像データを搬送する。したがって、送信端末からビデオ画像ビットストリームを受信した後に、復号端末は、ビデオ画像メタデータおよび復号されたビデオ画像データを取得し得る。復号端末は、レンダリングされたビデオ画像データを取得するために、ビデオ画像メタデータに基づいて復号されたビデオ画像データをレンダリングし、復号端末は、レンダリングされたビデオ画像データを使用することによって仮想シーンを確立し得る。最後に、復号端末は、レンダリングされたビデオ画像データおよびオーディオ最適化メタデータに基づいて仮想シーン内で第1の最適化された聴取エリアを識別し、これにより、復号端末側は、仮想シーン内に第1の最適化された聴取エリアを表示し、最適化された聴取エリアで音楽を体験するようユーザを誘導し、それによって、ユーザの聴取効果を改善する。

例えば、復号端末は、レンダリングされたビデオ画像データおよびオーディオ最適化メタデータに基づいて仮想シーン内で第1の最適化された聴取エリアを識別する。第1の最適化された聴取エリアの処理方式と同様の処理方式で、復号端末は、仮想シーン内のN個の最適化された聴取エリアをさらに識別し得る。復号端末は、仮想シーン内で識別されたN個の最適化された聴取エリアに基づいてオーディオ体験ルートを生成して、6DoF音楽をよりより良く体験するようユーザを誘導する。

前述の実施形態で説明された例から、復号端末は、オーディオ最適化メタデータを受信し得ることが分かる。本出願のこの実施形態では、オーディオ最適化メタデータは、第1の最適化された聴取エリアのメタデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを含む。第1の最適化された聴取エリアは、ユーザの現在位置に基づいて決定される。したがって、オーディオミキシングを行うために、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータが取得されることができる。したがって、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

本出願の実施形態における前述の解決策をより良く理解し実施するために、以下で、対応する適用シナリオを例として使用することによって、具体的な説明が提供される。

本出願のこの実施形態では、最適化された聴取エリアは、スイートスポットとして表現され得る。本出願のこの実施形態におけるオーディオ処理方法では、制作端末は、VRシーンから1つまたは複数のスイートスポットを選択する。各スイートスポットにおいてユーザによって聞き取られるレンダリングされた音楽信号の音楽効果が最適化され、それによって、6DoF音楽シーンにおけるユーザの音楽体験を改善する。

具体的には、制作端末側で、6DoF仮想音楽シーン製造方法が行われる。VRビデオシーン制作、オーディオ収集、6DoF基本オーディオメタデータ制作などのプロセスが、6DoF音楽シーンにおいて完了されていると仮定される。本出願のこの実施形態では、VRシーンにおいていくつかのスイートスポットが選択され、スイートスポットは、ユーザが関心を持つ聴取エリアと可能な限り一致する必要がある。スイートスポットごとに、スイートスポットの中心位置における各オーディオ信号のレンダリング信号が、オーディオ信号および6DoF基本オーディオメタデータに基づいて生成され、次いで、周波数、ダイナミクス、音質、配置、音場などを調整するために各レンダリング信号に対してオーディオミキシングが行われる。各オーディオ信号に対応する各オーディオミキシングステップのオーディオミキシングパラメータが予約される。最後に、混合されたオーディオ信号に対してオーディオミキシングが行われ、混合信号に対応する各オーディオミキシングステップのオーディオミキシングパラメータが予約される。

制作端末によって生成される6DoFオーディオ最適化メタデータは、スイートスポットメタデータ、および各スイートスポットに対応するオーディオミキシングパラメータを含む。スイートスポットメタデータは、各スイートスポットの中心位置座標や、スイートスポットの形状などの情報を含む。各スイートスポットメタデータは、単一のオーディオ信号に対応するオーディオミキシングパラメータ信号のオーディオミキシングパラメータを含むオーディオミキシングメタデータのグループに対応する。制作端末は、6DoFオーディオ最適化メタデータを送信端末に送信し、送信端末は、6DoFオーディオ最適化メタデータに基づいてオーディオビットストリームを生成し、オーディオビットストリームを復号端末に送信する。

任意選択で、スイートスポット位置変更識別子およびオーディオミキシングパラメータ変更識別子が、6DoFオーディオ最適化メタデータに付加される。VR音楽シーンが初期設定されるとき、初期オーディオ最適化メタデータが送信される。VRシーンが変化し、スイートスポットの位置および形状情報が変化したとき、スイートスポットメタデータ変更識別子が真であり、スイートスポットの変更情報が送信される。現在のフレームのオーディオミキシングメタデータが変化したとき、オーディオミキシングパラメータ変更識別子は真であり、オーディオミキシングメタデータの変更情報が送信される。

復号端末は、ビデオレンダラおよびオーディオレンダラを含んでもよく、復号端末は、6DoF音楽シーンオーディオレンダリング方法を行い得る。具体的には、ビデオレンダラは、復号されたスイートスポットメタデータに基づいてスイートスポットを識別し、6DoF音楽を適切に体験するようユーザを誘導する。ユーザの現在位置がスイートスポット内にあるとき、オーディオレンダラは、ユーザにより良い音楽体験を提供するために、ユーザの位置情報、6DoF基本オーディオメタデータ、および6DoFオーディオ最適化メタデータに基づいてオーディオ信号をレンダリングする。オーディオ最適化メタデータは、特定の適用範囲を有する。適用範囲は、現在のスイートスポットの形状に基づいて決定され、その形状は、音楽制作シーンに基づいて予め決定される。ユーザの現在位置がスイートスポット外にあるとき、オーディオレンダラは、ユーザの位置情報および6DoF基本オーディオメタデータに基づいてオーディオ信号をレンダリングする。

本出願のこの実施形態は、VR、AR、またはMR用途におけるシーン制作、オーディオメタデータ送信、およびユーザ側のオーディオおよびビデオレンダリングに適用可能である。本出願のこの実施形態における端末は、6DoFオーディオ、3Dオーディオエンジンなどを含むVR音楽ソフトウェアに特に適用される。例えば、端末は、VR端末デバイス、チップ、無線ネットワークデバイスなどを含み得る。

図3は、本出願の一実施形態による、仮想現実ストリーミングサービスシステムにおけるストリーミングデータ処理の概略フローチャートである。本出願のこの実施形態は、ARまたはVRなどの用途における6DoFオーディオレンダリングモジュール（audio binaural rendering）に適用可能であり、具体的には、図3のオーディオデータ前処理モジュール、オーディオデータ符号化モジュール、オーディオデータ復号モジュール、およびオーディオレンダリングモジュールに適用される。エンドツーエンドオーディオ信号処理プロセスは以下の通りである。オーディオ信号がVRシーン収集または制作モジュールを通過した後に、オーディオ信号に対して前処理（audio preprocessing）動作が行われる。前処理動作は、信号内の50Hz未満の低周波成分を除去することと、（6DoF基本オーディオメタデータ、6DoFオーディオ最適化メタデータなどを含む）6DoFオーディオメタデータを抽出することとを含む。次いで、前処理されたオーディオ信号に対して符号化（audio encoding）およびカプセル化（file／segment encapsulation）が行われ、処理された信号は復号器側に配信（delivery）される。復号器側は、カプセル化解除（file／segment decapsulation）をまず行い、次いで復号（audio decoding）を行う。復号されたオーディオ信号に対してレンダリング（audio rendering）が行われ、レンダリング信号が、聴取者のスピーカまたはヘッドセットデバイスにマップされる。ヘッドセットデバイスは、独立したヘッドセットであってもよいし、または眼鏡デバイス上のヘッドセットであってもよい。

図4は、本出願の一実施形態による、6DoFVR音楽シーンのエンドツーエンドフローチャートである。制作端末、送信端末、および復号端末が主に含まれる。以下は、異なる端末側の観点からの例を使用することによって説明を別々に提供する。

制作端末によって行われるプロセスは、VRビデオシーンおよびメタデータ制作、オーディオデータおよび6DoF基本オーディオメタデータ制作、スイートスポット選択、オーディオミキシングおよびオーディオミキシングパラメータ抽出、オーディオ最適化メタデータ制作など、を含む。

制作端末は、VRビデオおよび画像データモジュールと、VRビデオおよび画像メタデータモジュールと、VRオーディオデータモジュールと、6DoF基本オーディオメタデータモジュールと、ビデオ・レンダラ・レンダリング・モジュールと、スイートスポット取得モジュールと、オーディオレンダラ事前レンダリングモジュールと、オーディオミキシングモジュールと、オーディオ最適化メタデータモジュールとを含む。

VRビデオおよび画像データモジュールは、送信対象のビデオおよび画像データを取得するように構成される。

VRビデオおよび画像メタデータモジュールは、VRシーンで制作されるビデオおよび画像メタデータを取得するように構成される。

VRオーディオデータモジュールは、送信対象のオーディオデータを取得するように構成される。各オーディオデータは、対象ベースのオーディオ（object－based audio）データであってもよいし、マルチチャネルベースのオーディオ（channel－based audio）データであってもよいし、またはシーンベースのオーディオ（scene－based audio）データであってもよい。

6DoF基本オーディオメタデータモジュールは、VRシーンで制作される6DoF基本オーディオメタデータを取得するように構成される。例えば、6DoF基本オーディオメタデータに含まれ得るメタデータタイプは、表1の1つまたは複数のタイプのメタデータであってもよい。

ビデオ・レンダラ・レンダリング・モジュールは、第1のVRビデオシーンを生成するために、VRビデオおよび画像データならびにVRビデオおよび画像メタデータに基づいてレンダリングを行うように構成される。

スイートスポット取得モジュールは、VRシーン内のスイートスポット情報を取得するように構成される。スイートスポットは、レンダリングされたVRビデオシーンに基づいて選択される。1個またはN個のスイートスポットが存在する。スイートスポット情報は、基準座標系、中心位置座標、形状、および他の情報を含む。任意選択で、スイートスポット情報は、中心位置座標および形状を含む。スイートスポットの形状は、球体、立方体、柱、または他の任意の形状であってもよい。

オーディオレンダラ事前レンダリングモジュールは、（第2のオーディオデータと表記される）M個のレンダリングされたオーディオデータを取得するために、スイートスポットの中心位置座標、VRオーディオデータ、および6DoF基本オーディオメタデータに基づいて、スイートスポットごとに（第1のオーディオデータと表記される）M個のオーディオデータに対して第1のレンダリングを別々に行うように構成される。第1のレンダリングによって取得されるオーディオ信号は、シングルチャネル信号であってもよいし、またはバイノーラルレンダリング信号であってもよい。N個のスイートスポットは、第1のレンダリングによって取得された合計N＊M個のオーディオ信号を有する。

オーディオミキシングモジュールは、第1のレンダリングによって取得された各オーディオ信号に対して第1のオーディオミキシングを行い、オーディオミキシングプロセスにおける各オーディオ信号の各オーディオミキシングステップのパラメータを抽出するように構成され、パラメータは第1のオーディオミキシングパラメータと表記される。オーディオミキシングによって取得されたオーディオデータは、第3のオーディオデータと表記される。第3のオーディオデータ内のすべてのオーディオ信号が、第4のオーディオ信号を取得するために混合される。第4のオーディオ信号に対して第2のオーディオミキシングが行われ、各オーディオミキシングステップのパラメータが予約される。このパラメータは、第2のオーディオミキシングパラメータと表記される。オーディオミキシングステップは、VR音楽シーン制作端末によって完了され得るか、またはオーディオミキシング端末によって完了され得る。

オーディオ最適化メタデータモジュールは、スイートスポット情報、第1のオーディオミキシングパラメータ、および第2のオーディオミキシングパラメータを取得し、特定のデータ構造に従ってオーディオ最適化メタデータを生成するように構成される。

送信端末によって行われるプロセスは、ビデオシーンおよびメタデータの圧縮符号化および送信、オーディオデータの圧縮符号化および送信、6DoF基本オーディオメタデータの圧縮符号化および伝送、ならびにオーディオ最適化メタデータを圧縮符号化および送信、を含む。

送信端末は、ビデオおよび画像メタデータ圧縮および送信モジュールと、ビデオ圧縮および送信モジュールと、画像圧縮および送信モジュールと、オーディオ最適化メタデータ圧縮および送信モジュールと、オーディオ圧縮および送信モジュールと、6DoF基本オーディオメタデータ圧縮および送信モジュールとを含む。

ビデオおよび画像メタデータ圧縮および送信モジュールは、ビデオおよび画像メタデータに対して圧縮符号化を行い、生成されたビットストリームを送信するように構成される。

ビデオ圧縮および送信モジュールは、VRシーン内のビデオデータに対して圧縮符号化を行い、ビットストリームを送信するように構成される。

画像圧縮および送信モジュールは、VRシーン内の画像データに対して圧縮符号化を行い、ビットストリームを送信するように構成される。

オーディオ最適化メタデータ圧縮および送信モジュールは、本出願のこの実施形態で提供されるオーディオ最適化メタデータに対して圧縮符号化を行い、ビットストリームを送信するように構成される。

オーディオ圧縮および送信モジュールは、VRシーン内のオーディオデータに対して圧縮符号化を行い、ビットストリームを送信するように構成される。

6DoF基本オーディオメタデータ圧縮および送信モジュールは、6DoF基本オーディオメタデータに対して圧縮符号化を行い、ビットストリームを送信するように構成される。

復号端末（言い換えれば、ユーザ側）によって行われるプロセスは、ユーザの6DoF位置情報取得、6DoFビデオレンダリング、6DoFオーディオレンダリングなど、を含む。本出願のこの実施形態では、復号されたオーディオ最適化メタデータは、6DoFビデオレンダリングおよび6DoFオーディオレンダリングに使用される。

復号端末は、オーディオおよびビデオ復号器と、ビデオレンダラと、オーディオレンダラとを含む。

オーディオおよびビデオ復号器は、復号されたVRビデオおよび画像データ、ビデオおよび画像メタデータ、オーディオデータ、6DoF基本オーディオメタデータ、ならびにオーディオ最適化メタデータを取得するためにビットストリームを復号するように構成される。

ビデオレンダラは、復号されたビデオおよび画像データ、復号されたビデオおよび画像メタデータ、ならびにユーザの位置情報に基づいてVRビデオシーンをレンダリングするように構成される。

任意選択で、ビデオレンダラは、復号されたオーディオ最適化メタデータ内のスイートスポット情報に基づいてスイートスポットを識別し、推奨される6DoF音楽体験ルートを識別して、6DoF音楽をより良く体験するようユーザを誘導する。体験ルートは、スイートスポット間の接続線などであってもよい。これは、本出願のこの実施形態で限定されない。

制作端末の事前レンダリングおよびオーディオミキシングプロセスと同様に、オーディオレンダラは、ユーザの位置情報およびオーディオ最適化メタデータ内のスイートスポット情報に基づいて、ユーザがスイートスポット内にいるかどうかを決定するように構成される。

ユーザの現在位置がスイートスポット内にある場合、オーディオレンダラは、レンダリング信号を取得するために、6DoF基本オーディオメタデータおよびユーザの位置情報に基づいて各オーディオ信号をレンダリングするように構成される。オーディオミキシングは、各復号されたオーディオ信号に対応するオーディオミキシングパラメータに基づいてレンダリング信号に対して行われる。すべてのオーディオ信号に対してオーディオミキシングが行われた後に、オーディオミキシングによって取得されたすべてのオーディオが混合される。混合信号のオーディオミキシングパラメータに基づいて最終的なオーディオミキシングが行われ、処理されたオーディオ信号が、ユーザのヘッドセットなどのオーディオデバイスに送信される。

ユーザがスイートスポット内にいない場合、オーディオレンダラは、6DoF基本オーディオメタデータおよびユーザの位置情報に基づいて各オーディオ信号をレンダリングし、すべてのレンダリングされたオーディオを直接混合して再生用の最終的なバイノーラル信号を生成するように構成される。

以下は、2つの具体的な実施形態を使用することによって、本出願の実施形態におけるオーディオ処理方法を詳細に説明する。

実施形態1
図5は、本出願の一実施形態による、6DoFをサポートするVRコンサートシーンの概略図である。本出願のこの実施形態における技術的解決策を詳細に説明するための例として、6DoFをサポートする典型的なVRコンサートシーンが使用される。コンサートシーンは2つの部分、すなわち、ステージエリアと観客エリアとを含み、対象音源の4つのタイプ、すなわち、人の声、バイオリン音、チェロ音、およびドラム音がある。すべての音源は静的音源であると仮定され、VRシーンにおける音源の位置は図5に示されている。

この実施形態では、制作端末、送信端末から復号端末への、VRコンサートシーンのエンドツーエンドプロセスが行われる。実施形態1の具体的なプロセスは、以下のステップを主に含む。

ステップS01～ステップS05は、VR音楽シーンにおける制作端末のプロセスであり、ステップS06は、VR音楽シーンにおける送信端末のプロセスであり、ステップS07およびステップS08は、VR音楽シーンにおける復号端末のプロセスである。

S01：制作端末は、VRビデオおよび画像データ、VRビデオおよび画像メタデータ、VRシーンオーディオデータ、ならびに6DoF基本オーディオメタデータを取得する。

VRビデオおよび画像データ、VRビデオおよび画像メタデータ、VRシーンオーディオデータ、ならびに6DoF基本オーディオメタデータは、VR音楽シーンにおいて予め制作される。

S02：制作端末は、スイートスポットメタデータを取得する。

制作端末は、VRビデオおよび画像データならびにVRビデオおよび画像メタデータに基づいてVRシーンをレンダリングし、次いで、制作端末は、VRシーン内のスイートスポットを選択し、各スイートスポットの中心位置座標および形状情報を記録する。スイートスポットの数量はNであってもよく、制作端末によって選択されるスイートスポットは、ユーザが関心を持つ聴取エリアと一致する必要がある。最後に、制作端末は、特定のデータ構造に従ったスイートスポット情報に基づいて、スイートスポットメタデータを生成する。

スイートスポットメタデータは、スイートスポットの基準座標系、中心位置座標、および形状情報を含む。スイートスポットメタデータのデータ構造の一例は以下の通りである。
＜スイートスポット識別子＞
＜スイートスポット1識別子＞
＜基準座標系＞
＜中心位置座標＞
＜形状情報＞
＜スイートスポット2識別子＞
＜基準座標系＞
＜中心位置座標＞
＜形状情報＞
…
＜スイートスポットN識別子＞
＜基準座標系＞
＜中心位置座標＞
＜形状情報＞

また、各スイートスポットの形状は、球体、円柱、三角形メッシュによって形成された任意の形状などであってもよい。スイートスポットメタデータは、スイートスポットの基準座標系および中心位置座標を含み、形状情報は、制作端末および復号端末によってデフォルト設定された形状情報である。スイートスポットメタデータの他のデータ構造の一例は以下の通りである。
＜スイートスポット識別子＞
＜スイートスポット1識別子＞
＜基準座標系＞
＜中心位置座標＞
＜スイートスポット2識別子＞
＜基準座標系＞
＜中心位置座標＞
…
＜スイートスポットN識別子＞
＜基準座標系＞
＜中心位置座標＞

スイートスポットメタデータに含まれるデータおよびデータ構造は、前述の2つのタイプに限定されない。例えば、スイートスポット2からスイートスポットNの中心位置情報は、スイートスポット1に対する位置情報であってもよい。

S03：スイートスポットごとに、制作端末は、M個のレンダリングされたオーディオデータ（第2のオーディオデータと表記される）を取得するために、スイートスポットメタデータ、VRオーディオデータ、および6DoF基本オーディオメタデータに基づいて、M個のオーディオデータ（第1のオーディオデータと表記される）に対して1つずつ第1のレンダリングを行う。第1のレンダリングによって取得されるオーディオ信号は、シングルチャネル信号であってもよいし、またはバイノーラルレンダリング信号であってもよい。N個のスイートスポットは、第1のレンダリングによって取得された合計N＊M個のオーディオ信号を有する。これらのオーディオ信号は、第2のオーディオデータと表記される。各第1のオーディオ信号は、対象ベースの信号、マルチチャネルベースのオーディオ信号、またはシーンベースのオーディオ信号であってもよい。

S04：制作端末は、各レンダリングされたオーディオ信号に対してオーディオミキシングを行って各スイートスポットにおける第1のオーディオミキシングパラメータを取得し、最終的な混合信号に対してオーディオミキシングを行って第2のオーディオミキシングパラメータを取得する。

制作端末は、各第2のオーディオ信号に対して第1のオーディオミキシングを行い、オーディオミキシングプロセスにおいて各オーディオ信号の各オーディオミキシングステップのパラメータを抽出し、そのパラメータは、第1のオーディオミキシングパラメータと表記される。オーディオミキシングによって取得されたオーディオデータは、第3のオーディオデータと表記される。

任意選択で、第3のオーディオデータ内のすべてのオーディオ信号が、第4のオーディオ信号を取得するために混合される。第4のオーディオ信号に対して第2のオーディオミキシングが行われ、各オーディオミキシングステップのパラメータが予約される。このパラメータは、第2のオーディオミキシングパラメータと表記される。2つのオーディオミキシングステップは、VR音楽シーンにおいて制作端末によって完了され得る。

第1のオーディオミキシングパラメータおよび第2のオーディオミキシングパラメータの各々は、オーディオ信号の識別番号、等化パラメータ、圧縮器パラメータ、および残響器パラメータを含む。等化パラメータは、周波数帯域、ゲイン値、およびQ値を含む。Q値は、等化フィルタのパラメータであり、等化フィルタの品質係数を表し、等化フィルタの帯域幅を記述するために使用され得る。圧縮器パラメータは、閾値、圧縮比、開始時刻、解放時刻、およびゲイン補償値を含む。残響器パラメータは、残響時間、遅延時間、および直接音対残響音比を含む。

任意選択で、重要なオーディオミキシングステップのオーディオミキシングパラメータは、特定の適用シナリオに基づいて予約されてもよい。第1のオーディオミキシングパラメータおよび第2のオーディオミキシングパラメータに含まれるオーディオミキシングパラメータタイプは異なり得る。

S05：制作端末は、特定のデータ構造に従って、スイートスポットメタデータおよび各スイートスポットに対応するオーディオミキシングパラメータに基づいて6DoFオーディオ最適化メタデータを生成する。ステップS04におけるスイートスポットメタデータおよびオーディオミキシングパラメータは、互いに独立したデータ構造の形態で記憶され送信され得る。スイートスポットメタデータのデータ構造は、ステップS02に示されている。オーディオミキシングパラメータのデータ構造の一例は以下の通りである。
＜オーディオミキシングメタデータ識別子＞
＜スイートスポット1識別子＞
＜オーディオ信号1識別id＞
＜等化パラメータ識別子＞
＜周波数帯域1＞
＜ゲイン値＞
＜Q値＞
…
＜周波数帯域P＞
＜ゲイン値＞
＜Q値＞
＜圧縮器パラメータ識別子＞
＜閾値＞
＜圧縮率＞
＜開始時刻＞
＜解放時刻＞
＜ゲイン補償値＞
＜残響器パラメータ＞
＜残響タイプ＞
＜残響時間＞
＜遅延時間＞
＜直接音対残響音比＞
＜…＞
…
…
＜オーディオ信号M識別id＞
＜等化パラメータ識別子＞
＜周波数帯域1＞
＜ゲイン値＞
＜Q値＞
…
＜周波数帯域P＞
＜ゲイン値＞
＜Q値＞
＜圧縮器パラメータ識別子＞
＜閾値＞
＜圧縮率＞
＜開始時刻＞
＜解放時刻＞
＜ゲイン補償値＞
＜残響器パラメータ＞
＜残響タイプ＞
＜残響時間＞
＜遅延時間＞
＜直接音対残響音比＞
＜…＞
…
＜第2のオーディオミキシングパラメータ識別子＞
＜等化パラメータ識別子＞
＜周波数帯域1＞
＜ゲイン値＞
＜Q値＞
…
＜周波数帯域P＞
＜ゲイン値＞
＜Q値＞
＜圧縮器パラメータ識別子＞
＜閾値＞
＜圧縮率＞
＜開始時刻＞
＜解放時刻＞
＜ゲイン補償値＞
＜残響器パラメータ＞
＜残響タイプ＞
＜残響時間＞
＜遅延時間＞
＜直接音対残響音比＞
…
＜スイートスポットN識別子＞
…

スイートスポット1のスイートスポットN識別子とオーディオミキシングパラメータとは同じデータ構造を有することに留意されたい。

前述のデータ構造では、スイートスポット1からスイートスポットNにおけるオーディオミキシングパラメータのタイプは完全に同じである。

任意選択で、スイートスポット1に記憶されたパラメータタイプは前述のデータ構造と同じであり、スイートスポット2からスイートスポットNのオーディオミキシングパラメータは、スイートスポット1のオーディオミキシングパラメータに対する差分パラメータであり、それによって、6DoFオーディオ最適化メタデータのパラメータの数量を削減する。

任意選択で、スイートスポットメタデータのデータ構造とオーディオミキシングパラメータのデータ構造とは、同じデータ構造に統合され、それによって、6DoFオーディオ最適化メタデータのパラメータの数量を削減する。

S06：VRビデオおよび画像データ、VRビデオおよび画像メタデータ、オーディオデータ、ならびに6DoF基本オーディオメタデータを符号化して送信することに加えて、送信端末はさらに、6DoFオーディオ最適化メタデータを符号化して送信する必要がある。

任意選択で、6DoFオーディオ最適化メタデータの伝送効率を改善するために、スイートスポットメタデータ変更識別子およびオーディオミキシングパラメータ変更識別子が、符号化された6DoFオーディオ最適化メタデータに付加される。VR音楽シーンが初期設定されるとき、初期オーディオ最適化メタデータが送信される。VRシーンが変化し、スイートスポットの位置および形状情報が変化したとき、スイートスポットメタデータ変更識別子が真であり、スイートスポットの変更情報が送信される。現在のフレームのオーディオミキシングメタデータが変化したとき、オーディオミキシングパラメータ変更識別子は真であり、オーディオミキシングメタデータの変更情報が送信される。

S07：復号端末において、ユーザのVRヘッドマウントデバイスなどは、ユーザの6DoF位置情報を取得し、ビデオレンダラは、復号されたVRビデオおよび画像データ、VRビデオおよび画像メタデータ、ならびにユーザの位置情報に基づいてビデオをレンダリングする。また、スイートスポットは、復号されたスイートスポットメタデータに基づいて識別される。任意選択で、6DoF音楽をより良好に体験するようユーザを誘導するために、推奨される6DoF音楽体験ルートがさらに識別され得る。

S08：復号端末において、ユーザのVRヘッドマウントデバイスは、ユーザの6DoF位置情報を取得し、オーディオ復号器は、オーディオビットストリームを復号して、第1の復号されたオーディオデータ、復号された6DoF基本オーディオメタデータ、および復号された6DoFオーディオ最適化メタデータを取得する。オーディオレンダラは、ユーザの位置情報および復号されたスイートスポットメタデータに基づいて、ユーザがスイートスポット内に位置するかどうかを決定する。

ユーザの現在位置がスイートスポット内にある場合、M個のレンダリングされたオーディオ信号（第2の復号器側オーディオ信号と表記される）を取得するために、6DoF基本オーディオメタデータおよびユーザの位置情報に基づいて、各第1の復号器側オーディオ信号がレンダリングされる。M個の第3の復号器側オーディオ信号を取得するために、復号された第1のオーディオミキシングパラメータに基づいて、各第2の復号器側オーディオ信号に対してオーディオミキシングが行われる。M個の第3の復号器側オーディオ信号は、6DoF基本オーディオメタデータに基づいて混合され、復号された第2のオーディオミキシングパラメータが存在する場合、最終的な音楽信号を取得するために、混合信号に対して第2のオーディオミキシングが行われる。ユーザの現在位置がスイートスポット内にあるとき、最適な没入音楽体験がユーザに提供されることができる。

ユーザの現在位置がスイートスポット外にある場合、オーディオレンダラは、M個のレンダリングされたオーディオ信号（第2の復号器側オーディオ信号と表記される）を取得するために、6DoF基本オーディオメタデータおよびユーザの位置情報に基づいて、各第1の復号器側オーディオ信号を別々にレンダリングする。最終的な音楽信号を取得するために、M個の第2の復号器側オーディオ信号が混合される。

任意選択で、各スイートスポットにおいて遷移距離が設定され、ユーザがスイートスポットの内外を自由に移動するときに、聞き取られる音楽信号が確実に自然に遷移できるようにするために、平滑化アルゴリズムが使用される。平滑化アルゴリズムは、本出願のこの実施形態では限定されない。

例えば、スイートスポットの縁部から特定の距離（すなわち、遷移距離）だけ離れたエリアが、遷移エリアとして設定されてもよい。遷移エリアでは、6DoFオーディオ最適化メタデータの各パラメータが徐々に変化して0になり、そのため、ユーザによって聞き取られる音楽効果は、自然に遷移されることができる。

実施形態2
図6は、本出願の一実施形態による、別の6DoFVR音楽シーンのエンドツーエンドフローチャートである。

実施形態2と実施形態1との主な違いは、6DoF音楽シーンにおける制作側のプロセスが異なることにある。実施形態1では、ステップS04のオーディオミキシング中に、制作されたVRビデオメタデータ、VRビデオデータ、オーディオデータ、および6DoF基本オーディオメタデータが変更されないままである間に、オーディオミキシングメタデータを抽出するためにオーディオミキシングが行われる。

実施形態2では、ステップS04のオーディオミキシングプロセスにおいて、制作されたVRビデオメタデータ、VRビデオデータ、オーディオデータ、および6DoF基本オーディオメタデータは、調整および最適化されてもよく、オーディオミキシングメタデータは同時に抽出される。例えば、ステップS04のオーディオミキシングプロセスにおいて、VRシーン制作端末は、オーディオ周波数応答およびゲインを調整してもよく、対象音源の位置、部屋の音響パラメータなどを調整してもよい。

実施形態1と比較して、実施形態2のオーディオミキシングメタデータは実施形態1のオーディオミキシングメタデータよりも少なく、オーディオミキシング後の3D没入音楽効果も実施形態1の3D没入音楽効果よりも良好であり得る。実施形態1に示された制作プロセスでは、基本6DoFオーディオメタデータは修正されず、新たなオーディオ最適化メタデータのみが生成される。しかしながら、実施形態2では、6DoF基本オーディオメタデータは調整される。例えば、真正面の楽器の音が調和して聞こえない場合、その楽器の位置がVRビデオシーン内で調整されてもよく、6DoF基本オーディオメタデータ内のその楽器に対応する音源位置情報が修正される。

任意選択で、ユーザによって聞き取られる音楽信号の残響効果は、6DoF基本オーディオメタデータ内の部屋の音響パラメータを調整することによって調整され、実施形態1の第1のオーディオミキシングパラメータおよび第2のオーディオミキシングパラメータは、残響器パラメータを含まない場合もある。

任意選択で、ユーザによって最終的に聞き取られる音楽信号の効果を調整するために、図6のオーディオデータ内の1つもしくは複数のオーディオ信号の周波数応答、または図6の6DoF基本オーディオメタデータのオーディオ信号の位置およびゲインなどのパラメータが調整される。実施形態1における第1のオーディオミキシングパラメータは、これらの信号に対応する等化パラメータを含まない場合もある。

前述の実施形態の例示的な説明を使用することによって、本出願の一実施形態は、6DoF仮想音楽シーンを制作、送信、およびレンダリングするための方法を提供することが分かる。復号端末は、6DoF音楽シーンをより程よく体験するようユーザを誘導し、音楽の個人的な美意識をユーザに効果的に伝えることができる。ユーザは、各スイートスポットにおいてより完全な3D没入音楽を聞くことができ、ユーザは異なるスイートスポットにおいて異なる音楽体験を有する。また、本出願のこの実施形態では、6DoFオーディオ最適化メタデータにスイートスポット位置変更識別子およびオーディオミキシングパラメータ変更識別子が付加されてもよく、これにより、6DoFオーディオ最適化メタデータの伝送効率が効果的に改善されることができることが提案されている。

説明を簡潔にするために、前述の方法実施形態は一連の動作として表現されていることに留意されたい。しかしながら、本出願によれば、一部のステップは他の順序で、または同時行われ得るため、本出願は、それらの動作の記載された順序に限定されないことを当業者は理解するはずである。本明細書で説明された実施形態はすべて例示的な実施形態に属し、関与する動作およびモジュールは必ずしも本出願によって必要とされないことを当業者は理解するはずである。

本出願の実施形態の解決策をより良く実施するために、解決策を実施するための関連装置が、以下でさらに提供される。

図7を参照されたい。本出願の一実施形態で提供される復号端末700は、復号モジュール701と、レンダリングモジュール702と、オーディオミキシングモジュール703と、ミキシングモジュール704とを含み得る。

復号モジュールは、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の復号されたオーディオデータを取得するためにオーディオビットストリームを復号するように構成される。オーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータを含み、Mは、正の整数である。

レンダリングモジュールは、M個のレンダリングされたオーディオデータを取得するために、ユーザの現在位置および基本オーディオメタデータに基づいてM個の復号されたオーディオデータをレンダリングするように構成される。

オーディオミキシングモジュールは、現在位置が第1の最適化された聴取エリア内にあるときに、M個の第1のオーディオミキシングデータを取得するために、第1の復号オーディオミキシングパラメータに基づいてM個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行うように構成される。

ミキシングモジュールは、第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、M個の第1のオーディオミキシングデータを混合するように構成される。

本出願の前述の実施形態では、本出願のこの実施形態のオーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータ、および第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを含み、第1の最適化された聴取エリアは、ユーザの現在位置に基づいて決定される。したがって、オーディオミキシングを行うために、第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータが取得されることができる。したがって、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

図8を参照されたい。本出願の一実施形態で提供される送信端末800は、受信モジュール801と、符号化モジュール802と、送信モジュール803とを含み得る。

受信モジュールは、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータを受信するように構成される。オーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを含み、Mは、正の整数である。

符号化モジュールは、オーディオビットストリームを取得するために、オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の第1のオーディオデータに対して圧縮符号化を行うように構成される。

送信モジュールは、オーディオビットストリームを送信するように構成される。

本出願の前述の実施形態では、制作端末からのオーディオ最適化メタデータがまず受信され、オーディオ最適化メタデータに基づいてオーディオビットストリームが生成され、オーディオビットストリームは復号端末に送信される。復号端末は、オーディオビットストリームを使用することによってオーディオ最適化メタデータを取得し得る。オーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを含む。したがって、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

図9を参照されたい。本出願の一実施形態で提供される制作端末900は、取得モジュール901と、レンダリングモジュール902と、オーディオミキシングモジュール903と、生成モジュール904とを含み得る。

取得モジュールは、基本オーディオメタデータおよびN個の最適化された聴取エリアのメタデータを取得し、Nが、正の整数であり、N個の最適化された聴取エリアが第1の最適化された聴取エリアを含む、ように構成される。

レンダリングモジュールは、第1の最適化された聴取エリアに対応するM個のレンダリングされたオーディオデータを取得するために、第1の最適化された聴取エリアおよび基本オーディオメタデータに基づいて、M個の処理対象のオーディオデータをレンダリングし、Mが、正の整数である、ように構成される。

オーディオミキシングモジュールは、M個の第1のオーディオミキシングデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを取得するために、M個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行うように構成される。

生成モジュールは、第1の最適化された聴取エリアの第1のメタデータおよび第1のオーディオミキシングパラメータに基づいてオーディオ最適化メタデータを生成するように構成される。オーディオ最適化メタデータは、第1のメタデータおよび第1のオーディオミキシングパラメータを含む。

本出願の前述の実施形態では、N個の最適化された聴取エリアのメタデータが取得され得、N個の最適化された聴取エリアは第1の最適化された聴取エリアを含む。したがって、第1の最適化された聴取エリアに対してM個の第1のオーディオデータがレンダリングされ、混合されることができる。最後に、オーディオ最適化メタデータが生成され得、オーディオ最適化メタデータは、第1の最適化された聴取エリアの第1のメタデータおよび第1の最適化された聴取エリアに対応する第1のオーディオミキシングパラメータを含む。したがって、ユーザが第1の最適化された聴取エリアに自由に移動するのに適したオーディオ最適化メタデータが提供されることができ、ユーザが自由に移動するときに得られる聴取効果が改善されることができる。

装置のモジュール／ユニット間の情報交換やその実行プロセスといった内容は、本出願の方法実施形態と同じ考えに基づいており、本出願の方法実施形態と同じ技術的効果を生み出すことに留意されたい。具体的な内容については、本出願の方法実施形態の前述の説明を参照されたい。ここでは詳細は再度説明されない。

本出願の一実施形態は、コンピュータ記憶媒体をさらに提供する。コンピュータ記憶媒体はプログラムを記憶し、プログラムは、前述の方法実施形態で説明されたステップの一部または全部を行う。

以下は、本出願の一実施形態による別の復号端末を説明する。図10を参照されたい。復号端末1000は、
受信機1001と、送信機1002と、プロセッサ1003と、メモリ1004と、を含む（復号端末1000には1つまたは複数のプロセッサ1003があってもよく、図10では例として1つのプロセッサが使用されている）。本出願のいくつかの実施形態では、受信機1001、送信機1002、プロセッサ1003、およびメモリ1004は、バスを介して接続されても、または別の方式で接続されてもよい。図10では、受信機1001、送信機1002、プロセッサ1003、およびメモリ1004がバスを介して接続された一例として使用されている。

メモリ1004は、読み出し専用メモリおよびランダムアクセスメモリを含み、プロセッサ1003に命令およびデータを提供し得る。メモリ1004の一部は、不揮発性ランダムアクセスメモリ（non－volatile random access memory、NVRAM）をさらに含んでもよい。メモリ1004は、オペレーティングシステムおよび動作命令、実行可能モジュールもしくはデータ構造、またはそれらのサブセット、またはそれらの拡張セットを記憶する。動作命令は、様々な動作を実施するための様々な動作命令を含み得る。オペレーティングシステムは、様々な基本サービスを実施し、ハードウェアベースのタスクを処理するための、様々なシステムプログラムを含み得る。

プロセッサ1003は、復号端末の動作を制御し、プロセッサ1003はまた、中央処理装置（central processing unit、CPU）と呼ばれることもある。特定の用途では、復号端末の構成要素は、バスシステムを使用することによって互いに結合される。データバスに加えて、バスシステムは、電力バス、制御バス、および状態信号バスをさらに含んでもよい。しかしながら、明確な説明のために、図中の様々なタイプのバスは、バスシステムとして示されている。

本出願の実施形態に開示された方法は、プロセッサ1003に適用されてもよいし、またはプロセッサ1003によって実施されてもよい。プロセッサ1003は、集積回路チップであってもよく、信号処理能力を有する。実施プロセスにおいて、方法のステップは、プロセッサ1003内のハードウェア集積論理回路を使用することによって、またはソフトウェアの形態の命令を使用することによって実施されることができる。プロセッサ1003は、汎用プロセッサ、デジタル信号プロセッサ（digital signal processor、DSP）、特定用途向け集積回路（application specific integrated circuit、ASIC）、フィールド・プログラマブル・ゲート・アレイ（field－programmable gate array、FPGA）、または別のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、またはディスクリートハードウェアコンポーネントであってもよい。プロセッサ1003は、本出願の実施形態において開示された方法、ステップ、および論理ブロック図を実施するか、または行い得る。汎用プロセッサはマイクロプロセッサであってもよいし、またはプロセッサは任意の従来のプロセッサなどであってよい。本出願の実施形態に関して開示された方法のステップは、ハードウェア復号プロセッサを使用することによって直接実行され完遂されてもよいし、または復号プロセッサにおけるハードウェアとソフトウェアモジュールとの組合せを使用することによって実行され完遂されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、電気的消去可能ププログラム可能読み出し専用メモリログラム可能メモリ、またはレジスタなど、当技術分野の成熟した記憶媒体に配置されてもよい。記憶媒体はメモリ1004に配置され、プロセッサ1003は、メモリ1004内の情報を読み出し、プロセッサ1003のハードウェアと組み合わせて前述の方法のステップを完了する。

受信機1001は、入力されたデジタルまたは文字情報を受信し、復号端末の関連設定および機能制御に関連する信号入力を生成するように構成され得る。送信機1002は、ディスプレイなどの表示デバイスを含んでもよく、送信機1002は、外部インターフェースを使用することによって数字または文字情報を出力するように構成され得る。

本出願のこの実施形態では、プロセッサ1003は、復号端末によって行われる、前述の実施形態の図2Aおよび図2Bに示される方法を行うように構成される。

以下は、本出願の一実施形態で提供される別の送信端末を説明する。図11を参照されたい。送信端末1100は、
受信機1101と、送信機1102と、プロセッサ1103と、メモリ1104と、を含む（送信端末1100には1つまたは複数のプロセッサ1103があってもよく、図11では例として1つのプロセッサが使用されている）。本出願のいくつかの実施形態では、受信機1101、送信機1102、プロセッサ1103、およびメモリ1104は、バスを介して接続されても、または別の方式で接続されてもよい。図11では、受信機1101、送信機1102、プロセッサ1103、およびメモリ1104がバスを介して接続された一例として使用されている。

メモリ1104は、読み出し専用メモリおよびランダムアクセスメモリを含み、プロセッサ1103に命令およびデータを提供し得る。メモリ1104の一部は、不揮発性ランダムアクセスメモリ（non－volatile random access memory、NVRAM）をさらに含んでもよい。メモリ1104は、オペレーティングシステムおよび動作命令、ならびに実行可能モジュールもしくはデータ構造、またはそれらのサブセット、またはそれらの拡張セットを記憶し、動作命令は、様々な動作命令を含んでもよく、様々な動作を実施するために使用される。オペレーティングシステムは、様々な基本サービスを実施し、ハードウェアベースのタスクを処理するための、様々なシステムプログラムを含み得る。

プロセッサ1103は、送信端末の動作を制御し、プロセッサ1103はまた、中央処理装置（central processing unit、CPU）と呼ばれることもある。特定の用途では、送信端末の構成要素は、バスシステムを使用することによって互いに結合される。データバスに加えて、バスシステムは、電力バス、制御バス、および状態信号バスをさらに含んでもよい。しかしながら、明確な説明のために、図中の様々なタイプのバスは、バスシステムとして示されている。

本出願の前述の実施形態で開示された方法は、プロセッサ1103に適用されてもよいし、またはプロセッサ1103によって実施されてもよい。プロセッサ1103は、集積回路チップであってもよく、信号処理能力を有する。実施プロセスにおいて、前述の方法のステップは、プロセッサ1103内のハードウェアの集積論理回路またはソフトウェアの形態の命令を使用することによって完了され得る。プロセッサ1103は、汎用プロセッサ、デジタル信号プロセッサ（digital signal processor、DSP）、特定用途向け集積回路（application specific integrated circuit、ASIC）、フィールド・プログラマブル・ゲート・アレイ（field－programmable gate array、FPGA）、または別のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、またはディスクリートハードウェアコンポーネントであってもよい。プロセッサ1103は、本出願の実施形態において開示された方法、ステップ、および論理ブロック図を実施するか、または行い得る。汎用プロセッサはマイクロプロセッサであってもよいし、またはプロセッサは任意の従来のプロセッサなどであってよい。本出願の実施形態に関して開示された方法のステップは、ハードウェア復号プロセッサを使用することによって直接実行され完遂されてもよいし、または復号プロセッサにおけるハードウェアとソフトウェアモジュールとの組合せを使用することによって実行され完遂されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、電気的消去可能ププログラム可能読み出し専用メモリログラム可能メモリ、またはレジスタなど、当技術分野の成熟した記憶媒体に配置されてもよい。記憶媒体はメモリ1104に配置され、プロセッサ1103は、メモリ1104内の情報を読み出し、プロセッサ1103のハードウェアと組み合わせて前述の方法のステップを完了する。

受信機1101は、入力されたデジタルまたは文字情報を受信し、送信端末の関連設定および機能制御に関連する信号入力を生成するように構成され得る。送信機1102は、ディスプレイなどの表示デバイスを含んでもよく、送信機1102は、外部インターフェースを使用することによって数字または文字情報を出力するように構成され得る。

本出願のこの実施形態では、プロセッサ1103は、送信端末によって行われる、前述の実施形態の図2Aおよび図2Bに示される方法を行うように構成される。

以下は、本出願の一実施形態で提供される別の制作端末を説明する。図12を参照されたい。制作端末1200は、
受信機1201と、送信機1202と、プロセッサ1203と、メモリ1204と、を含む（制作端末1200には1つまたは複数のプロセッサ1203があってもよく、図12では例として1つのプロセッサが使用されている）。本出願のいくつかの実施形態では、受信機1201、送信機1202、プロセッサ1203、およびメモリ1204は、バスを介して接続されても、または別の方式で接続されてもよい。図12では、受信機1201、送信機1202、プロセッサ1203、およびメモリ1204がバスを介して接続された一例として使用されている。

メモリ1204は、読み出し専用メモリおよびランダムアクセスメモリを含み、プロセッサ1203に命令およびデータを提供し得る。メモリ1204の一部は、NVRAMをさらに含んでもよい。メモリ1204は、オペレーティングシステムおよび動作命令、実行可能モジュールもしくはデータ構造、またはそれらのサブセット、またはそれらの拡張セットを記憶する。動作命令は、様々な動作を実施するために使用される様々な動作命令を含み得る。オペレーティングシステムは、様々な基本サービスを実施し、ハードウェアベースのタスクを処理するための、様々なシステムプログラムを含み得る。

プロセッサ1203は、制作端末の動作を制御し、プロセッサ1203はまた、CPUとも呼ばれることもある。特定の用途では、制作端末の構成要素は、バスシステムを使用することによって互いに結合される。データバスに加えて、バスシステムは、電力バス、制御バス、および状態信号バスをさらに含んでもよい。しかしながら、明確な説明のために、図中の様々なタイプのバスは、バスシステムとして示されている。

本出願の実施形態に開示された方法は、プロセッサ1203に適用されてもよいし、またはプロセッサ1203によって実施されてもよい。プロセッサ1203は、集積回路チップであってもよく、信号処理能力を有する。実施中に、前述の方法のステップは、プロセッサ1203内のハードウェア集積論理回路またはソフトウェアの形態の命令を使用することによって完了され得る。プロセッサ1203は、汎用プロセッサ、DSP、ASIC、FPGAもしくは別のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理デバイス、または個別ハードウェアアセンブリであってもよい。プロセッサ1203は、本出願の実施形態において開示された方法、ステップ、および論理ブロック図を実施するか、または行い得る。汎用プロセッサはマイクロプロセッサであってもよいし、またはプロセッサは任意の従来のプロセッサなどであってよい。本出願の実施形態に関して開示された方法のステップは、ハードウェア復号プロセッサを使用することによって直接実行され完遂されてもよいし、または復号プロセッサにおけるハードウェアとソフトウェアモジュールとの組合せを使用することによって実行され完遂されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、電気的消去可能ププログラム可能読み出し専用メモリログラム可能メモリ、またはレジスタなど、当技術分野の成熟した記憶媒体に配置されてもよい。記憶媒体はメモリ1204に配置され、プロセッサ1203は、メモリ1204内の情報を読み出し、プロセッサ1203のハードウェアと組み合わせて前述の方法のステップを完了する。

本出願のこの実施形態では、プロセッサ1203は、制作端末によって行われる、前述の実施形態の図2Aおよび図2Bに示されるオーディオ処理方法を行うように構成される。

別の可能な設計では、復号端末、送信端末、または制作端末が端末内のチップである場合、チップは、処理ユニットと通信ユニットとを含む。処理ユニットは、例えば、プロセッサであってもよく、通信ユニットは、例えば、入出力インターフェース、ピン、回路などであってもよい。処理ユニットは、記憶ユニットに記憶されたコンピュータ実行可能命令を実行してもよく、その結果、端末内のチップは、第1の態様から第3の態様のいずれか1つにおけるオーディオ処理方法を行う。任意選択で、記憶ユニットは、チップ内の記憶ユニット、例えば、レジスタやキャッシュである。代替的に、記憶ユニットは、端末内の、チップの外部に位置する記憶ユニット、例えば、読み出し専用（read－only memory、ROM）または静的情報および命令を記憶することができる別のタイプの静的記憶デバイスや、ランダムアクセスメモリ（random access memory、RAM）であってもよい。

上記のプロセッサは、汎用中央処理装置、マイクロプロセッサ、ASIC、または第1の態様から第3の態様における方法のプログラム実行を制御ように構成された1つもしくは複数の集積回路であってもよい。

また、説明された装置実施形態は単なる一例であることに留意されたい。別々の部分として説明されているユニットは、物理的に別々であってもなくてもよく、ユニットとして表示されている部分は、物理的なユニットであってもなくてもよく、1箇所に配置されていてよく、または複数のネットワークユニット上に分散されていてもよい。一部または全部のモジュールが、実施形態の解決策の目的を達成するための実際の必要に基づいて選択されてもよい。また、本出願で提供される装置実施形態の添付の図面において、モジュール間の接続関係は、モジュールが互いに通信接続を有することを指示しており、これは、具体的には、1つまたは複数の通信バスまたは信号ケーブルとして実施され得る。

前述の実施態様の説明に基づき、当業者は、本出願が、必要な汎用ハードウェアに加えてソフトウェアによって、または専用集積回路、専用CPU、専用メモリ、専用構成要素などを含む専用ハードウェアによって実施され得ることを明確に理解し得る。一般に、コンピュータプログラムによって行われることができる任意の機能は、対応するハードウェアを使用することによって容易に実施されることができる。さらに、同じ機能を達成するために使用される具体的なハードウェア構造は、様々な形態、例えば、アナログ回路、デジタル回路、または専用回路の形態であってもよい。しかしながら、本出願に関しては、ほとんどの場合、ソフトウェアプログラムの実施態様がより良い実施態様である。そのような理解に基づき、本出願の技術的解決策は本質的に、または従来技術に寄与する部分は、ソフトウェア製品の形態で実施され得る。コンピュータソフトウェア製品は、コンピュータのフロッピーディスク、USBフラッシュドライブ、リムーバブルハードディスク、ROM、RAM、磁気ディスク、または光ディスクなどの可読記憶媒体に記憶され、コンピュータデバイス（パーソナルコンピュータ、サーバ、ネットワークデバイスなどであり得る）が本出願の実施形態に記載される方法を行うことを可能にするいくつかの命令を含む。

前述の実施形態の全部または一部が、ソフトウェア、ハードウェア、ファームウェアまたはこれらの任意の組合せを使用することによって実施されてもよい。実施形態を実施するためにソフトウェアが使用される場合、実施形態の全部または一部は、コンピュータプログラム製品の形態で実施されてもよい。

コンピュータプログラム製品は、1つまたは複数のコンピュータ命令を含む。コンピュータプログラム命令がコンピュータ上でロードされて実行されると、本出願の実施形態による手順または機能がすべて、または部分的に生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または別のプログラム可能な装置であってもよい。コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよいし、またはあるコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に送信されてもよい。例えば、コンピュータ命令は、有線（例えば、同軸ケーブル、光ファイバ、もしくはデジタル加入者回線（DSL））または無線（例えば、赤外線、無線、もしくはマイクロ波）の方式で、あるウェブサイト、コンピュータ、サーバ、またはデータセンタから別のウェブサイト、コンピュータ、サーバ、またはデータセンタに送信されてもよい。コンピュータ可読記憶媒体は、コンピュータによってアクセス可能な任意の使用可能な媒体、または1つもしくは複数の使用可能な媒体を統合した、サーバやデータセンタなどのデータ記憶デバイスであり得る。使用可能な媒体は、磁気媒体（例えば、フロッピーディスク、ハードディスク、もしくは磁気テープ）、光学媒体（例えば、DVD）、または半導体媒体（例えば、ソリッドステートディスク（Solid State Disk、SSD））などであり得る。

100 オーディオ処理システム
101 制作端末
102 送信端末
103 復号端末
700 復号端末
701 復号モジュール
702 レンダリングモジュール
703 オーディオミキシングモジュール
704 ミキシングモジュール
800 送信端末
801 受信モジュール
802 符号化モジュール
803 送信モジュール
900 制作端末
901 取得モジュール
902 レンダリングモジュール
903 オーディオミキシングモジュール
904 生成モジュール
1000 復号端末
1001 受信機
1002 送信機
1003 プロセッサ
1004 メモリ
1100 送信端末
1101 受信機
1102 送信機
1103 プロセッサ
1104 メモリ
1200 制作端末
1201 受信機
1202 送信機
1203 プロセッサ
1204 メモリ

Claims

オーディオ処理方法であって、
オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の復号されたオーディオデータを取得するためにオーディオビットストリームを復号するステップであって、前記オーディオ最適化メタデータが、第1の最適化された聴取エリアの第1のメタデータおよび前記第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータを含み、Mが、正の整数である、ステップと、
M個のレンダリングされたオーディオデータを取得するために、ユーザの現在位置および前記基本オーディオメタデータに基づいてM個の復号されたオーディオデータをレンダリングするステップと、
前記現在位置が前記第1の最適化された聴取エリア内にあるときに、M個の第1のオーディオミキシングデータを取得するために、前記第1の復号オーディオミキシングパラメータに基づいて前記M個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行うステップと、
前記第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、前記M個の第1のオーディオミキシングデータを混合するステップと
を含む、オーディオ処理方法。
前記オーディオ最適化メタデータは、前記第1の最適化された聴取エリアに対応する第2の復号オーディオミキシングパラメータをさらに含み、
前記方法は、
前記第1の最適化された聴取エリアに対応する第2のオーディオミキシングデータを取得するために、前記第2の復号オーディオミキシングパラメータに基づいて前記混合されたオーディオデータに対して第2のオーディオミキシングを行うステップ
をさらに含む、請求項1に記載の方法。
前記第2の復号オーディオミキシングパラメータは、前記第2のオーディオミキシングデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータ、のうちの少なくとも1つを含む、請求項2に記載の方法。
前記オーディオ最適化メタデータは、前記第1の最適化された聴取エリアに対応する前記第2の復号オーディオミキシングパラメータに関する、N個の最適化された聴取エリア内の前記第1の最適化された聴取エリア以外のN－1個の最適化された聴取エリアに対応するN－1個の第2の復号オーディオミキシングパラメータのN－1個の差分パラメータであって、Nが、正の整数である、N－1個の差分パラメータ、をさらに含む、請求項2に記載の方法。
前記第1の復号オーディオミキシングパラメータは、前記レンダリングされたオーディオデータの識別子、等化パラメータ、圧縮器パラメータ、および残響器パラメータ、のうちの少なくとも1つを含む、請求項4に記載の方法。
前記方法は、
復号されたビデオ画像データおよびビデオ画像メタデータを取得するためにビデオ画像ビットストリームを復号するステップであって、前記ビデオ画像メタデータが、ビデオメタデータおよび画像メタデータを含む、ステップと、
レンダリングされたビデオ画像データを取得するために、前記ビデオ画像メタデータに基づいて前記復号されたビデオ画像データをレンダリングするステップと、
前記レンダリングされたビデオ画像データに基づいて仮想シーンを確立するステップと、
前記レンダリングされたビデオ画像データおよび前記オーディオ最適化メタデータに基づいて前記仮想シーン内で前記第1の最適化された聴取エリアを識別するステップと
をさらに含む、請求項4に記載の方法。
前記第1のメタデータは、前記第1の最適化された聴取エリアの基準座標系、前記第1の最適化された聴取エリアの中心位置座標、および前記第1の最適化された聴取エリアの形状、のうちの少なくとも1つを含む、請求項4に記載の方法。
復号端末であって、
オーディオ最適化メタデータ、基本オーディオメタデータ、およびM個の復号されたオーディオデータを取得するためにオーディオビットストリームを復号するように構成された復号モジュールであって、前記オーディオ最適化メタデータが、第1の最適化された聴取エリアの第1のメタデータおよび前記第1の最適化された聴取エリアに対応する第1の復号オーディオミキシングパラメータを含み、Mが、正の整数である、復号モジュールと、
M個のレンダリングされたオーディオデータを取得するために、ユーザの現在位置および前記基本オーディオメタデータに基づいてM個の復号されたオーディオデータをレンダリングするように構成された、レンダリングモジュールと、
前記現在位置が前記第1の最適化された聴取エリア内にあるときに、M個の第1のオーディオミキシングデータを取得するために、前記第1の復号オーディオミキシングパラメータに基づいて前記M個のレンダリングされたオーディオデータに対して第1のオーディオミキシングを行うように構成された、オーディオミキシングモジュールと、
前記第1の最適化された聴取エリアに対応する混合されたオーディオデータを取得するために、前記M個の第1のオーディオミキシングデータを混合するように構成された、ミキシングモジュールと
を備える、復号端末。
命令を含むコンピュータ可読記憶媒体であって、前記命令がコンピュータ上で実行されると、前記コンピュータは、請求項1に記載の方法を行うことを可能にされる、コンピュータ可読記憶媒体。
命令を含むコンピュータプログラムであって、前記コンピュータプログラムがコンピュータ上で動作すると、前記コンピュータは、請求項1に記載の方法を行うことを可能にされる、コンピュータプログラム。