JP7764253B2

JP7764253B2 - 音場関連レンダリング

Info

Publication number: JP7764253B2
Application number: JP2021573548A
Authority: JP
Inventors: タピオビルカモユハ; オズカンコレイ; ライティネンミッコ－ビッレ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2019-06-11
Filing date: 2020-06-03
Publication date: 2025-11-05
Anticipated expiration: 2040-06-03
Also published as: WO2020249859A2; CN114270878A; US20250104726A1; EP3984251A2; JP2022536169A; GB201908343D0; CN114270878B; GB2584837A; US20220328056A1; EP3984251A4; US12183358B2; WO2020249859A3; JP2024028527A; CN119835602A

Description

本出願は、音場に関連するオーディオ表現およびレンダリングのための装置および方法に関する。ただし、オーディオデコーダのためのオーディオ表現に限定されるものではない。

複数の視線方向を有するメディアを提示するための空間オーディオ再生が知られている。この再生の例には、（少なくとも）ヘッド方向トラッキングを有するヘッドマウントディスプレイ（またはヘッドマウント内の電話）上での再生、または電話の位置／方向を変更することによって、または任意のユーザインターフェースジェスチャによって、または周囲の画面上でビュー方向をトラッキングすることができるヘッドマウントのない電話画面上での再生を含むようなメディアのビジュアル・コンテンツが含まれる。

「複数の視線方向を有するメディア」に関連するビデオは、例えば、３６０度ビデオ、１８０度ビデオ、または従来のビデオよりも視野角が実質的に広い他のビデオとすることができる。従来のビデオは、通常、視線方向を変更するオプション（または任意の特定の必要性）なしに画面上に全体としてビューされるビデオコンテンツを指す。

複数の視線方向を有するビデオに関連するオーディオは、視線方向が追跡され、空間オーディオ再生に影響を及ぼしているヘッドフォン上に、または、サラウンドラウドスピーカ・セットアップを用いて提示することができる。

複数の視線方向を有するビデオに関連する空間オーディオは、マイクロフォンアレイ（例えば、ＯＺＯのようなＶＲカメラに取り付けられたアレイ、またはハンドヘルドモバイルデバイス）、またはスタジオミックスのような他のソースからの空間オーディオキャプチャから生じ得る。オーディオコンテンツは、マイクロフォンキャプチャされた音および追加されたコメンテータトラックなど、いくつかのコンテンツタイプの混合物であってもよい。

複数の視線方向を有するビデオに関連付けられた空間オーディオは、例えば、球面調和オーディオ信号成分からなるアンビソニック信号（任意の次数の）で様々な形式とすることができる。球面調和関数は空間的に選択的なビーム信号のセットとして考えることができる。アンビソニックは現在、例えば、ユーチューブ３６０ＶＲビデオサービスにおいて利用されている。アンビソニックの利点は、単純で明確に定義された信号表現であることである。サラウンドラウドスピーカ信号、例えば５．１である。現在、典型的な映画の空間オーディオは、この形式で伝達される。サラウンドラウドスピーカ信号の利点は、シンプルさとレガシー互換性にある。サラウンドラウドスピーカ信号フォーマットに類似したいくつかのオーディオ・フォーマットはオーディオ・オブジェクトを含み、オーディオ・オブジェクトは、時変位置を有するオーディオ・チャネルと見なすことができる。位置は、オーディオ・オブジェクトの方向および距離の両方、または方向、すなわち、２つのオーディオ・チャネルオーディオ信号および知覚的に関連する周波数帯域における関連する空間メタデータなどのパラメトリック空間オーディオを通知することができる。いくつかの最新技術のオーディオ符号化方法および空間オーディオキャプチャ方法は、そのような信号表現を適用する。空間メタデータは本質的に、オーディオ信号がどのように受信機側で空間的に再生されるべきか（例えば、異なる周波数でどの方向に）を決定する。パラメトリック空間オーディオの利点は、その汎用性、品質、および符号化のために低ビットレートを使用する能力である。

第１の態様によれば、デフォーカス（フォーカスぼけ）方向を取得することと、空間オーディオ信号の少なくとも一部の他の部分に対するデフォーカス方向における空間オーディオ信号の一部の相対的なデエンファシスを少なくとも部分的に制御するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号を処理することと、処理された空間オーディオ信号を空間オーディオ信号の少なくとも一部の他の部分に対して出力することを構成する手段を備える装置が提供され、デフォーカス方向に基づいた修正されたオーディオシーンは、空間オーディオ信号の少なくとも一部の他の部分に対するデフォーカス方向における空間オーディオ信号の一部のデエンファシスを少なくとも部分的に可能にする。

この手段はデフォーカス量を取得するようにさらに構成されることができ、空間オーディオ信号を処理するように構成された手段は、デフォーカス量にしたがって空間オーディオ信号の少なくとも一部の他の部分に対するデフォーカス方向の空間オーディオ信号の一部の相対的なデエンファシスを少なくとも部分的に制御するように構成されることができる。

空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも部分的に、空間オーディオ信号のデフォーカス方向の部分におけるエンファシス（ｅｍｐｈａｓｉｓ）を、空間オーディオ信号の少なくとも部分的に他の部分におけるエンファシスに対して低減することと、デフォーカス方向の空間オーディオ信号の部分に対する空間オーディオ信号の他の部分におけるエンファシスを、少なくとも部分的に増大させることとのうちの少なくとも１つを実行するように構成され得る。

空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも一部分における他の部分に対するデフォーカス量にしたがって、空間オーディオ信号の少なくとも一部分において、空間オーディオ信号の一部分における音レベルを低減することと、デフォーカス量にしたがって、空間オーディオ信号の一部分に対して、空間オーディオ信号の他の部分における音レベルを少なくとも一部分において増大させることとのうちの少なくとも１つを実行するように構成されることができる。

この手段は、デフォーカス形状を取得するようにさらに構成されることができ、空間オーディオ信号を処理するように構成された手段は、デフォーカス方向の空間オーディオ信号の少なくとも一部分において、および空間オーディオ信号の少なくとも部分的に他の部分に対するデフォーカス形状内の相対的なデエンファシスを制御するように構成されることができる。

空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも一部において、空間オーディオ信号のデフォーカス方向およびデフォーカス形状内からの部分におけるエンファシスを、空間オーディオ信号の少なくとも一部において他の部分に対して低減すること、および、空間オーディオ信号のデフォーカス方向およびデフォーカス形状内における部分に対して空間オーディオ信号の他の部分におけるエンファシスを少なくとも一部において増大させることのうちの少なくとも１つを実行するように構成されることができる。

空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも一部分において、空間オーディオ信号のデフォーカス方向の部分において、およびデフォーカス形状内から、空間オーディオ信号の少なくとも一部分における他の部分に対するデフォーカス量にしたがって音レベルを低減することと、空間オーディオ信号の一部分において、デフォーカス方向の部分に対して、およびデフォーカス量にしたがってデフォーカス形状から、空間オーディオ信号の他の部分において音レベルを増大させることとのうちの少なくとも１つを実行するように構成され得る。

この手段は、処理された空間オーディオ信号を出力することの少なくとも１つの態様を制御するための再生制御情報を取得するように構成することができ、処理された空間オーディオ信号を出力するように構成された手段は、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理することと、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するためにオーディオシーンを表す空間オーディオ信号を処理するように構成された手段の前に、再生制御情報にしたがって空間オーディオ信号を処理することと、処理された空間オーディオ信号を出力空間オーディオ信号として出力することとのうちの１つを実行するように構成されることができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含むことができ、空間オーディオ信号を処理された空間オーディオ信号に処理するように構成された手段は、１つ以上の周波数サブ帯域について、空間オーディオ信号から、フォーカス方向から到着する音成分を表す単一チャネルターゲットオーディオ信号を抽出し、フォーカスされた空間オーディオ信号を生成し、ここで、フォーカスされたオーディオ信号はデフォーカス方向によって定義される空間位置に配置され、処理された空間オーディオ信号を、空間オーディオ信号から減算されたフォーカスされた空間オーディオ信号の線形結合として生成するように構成することができ、フォーカスされた空間オーディオ信号および空間オーディオ信号のうちの少なくとも１つは、デフォーカス方向における音の相対的なレベルを低減するために、デフォーカス量に基づいて導出されたそれぞれのスケーリングファクタによってスケーリングされる。

単一チャネルターゲットオーディオ信号を抽出するように構成された手段は、ビーム形成器を適用して、空間オーディオ信号から、デフォーカス方向から到達する音成分を表すビーム形成された信号を導出し、ポスト・フィルタを適用して、ビーム形成された信号に基づいて処理されたオーディオ信号を導出し、それによって、ビーム形成された信号のスペクトルを調整して、デフォーカス方向から到達する音のスペクトルに近づけるように構成されることができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれの一次アンビソニック信号を含むことができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は１つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができ、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、１つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、１つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の１つ以上の周波数サブ帯域について、空間オーディオ信号および利得値のそれぞれの周波数サブ帯域のエネルギー比パラメータに基づいて、処理された空間オーディオ信号の１つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、それぞれの更新された周囲エネルギー値（ａｍｂｉｅｎｔｅｎｅｒｇｙｖａｌｕｅ）を計算することと、更新された直接エネルギーおよび周囲エネルギーの合計で除算された更新された方向エネルギーに基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域のそれぞれの修正されたエネルギー比パラメータを計算することと、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域のそれぞれのスペクトル調整係数を計算することと、空間オーディオ信号の１つ以上のオーディオ・チャネル、空間オーディオ信号の方向標示、修正されたエネルギー比パラメータ、およびスペクトル調整係数を備える処理された空間オーディオ信号を構成することとそれぞれの更新された方向エネルギー値を計算することと、を行うように構成することができる。空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は１つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができ、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、１つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、１つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の１つ以上の周波数サブ帯域について、それぞれの周波数サブ帯域のエネルギー比パラメータに基づいて、それぞれの更新された方向エネルギー値を計算することと、空間オーディオ信号および利得値の１つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、処理された空間オーディオ信号のそれぞれの更新された周囲エネルギー値を計算することと、更新された直接エネルギーおよび周囲エネルギーの合計によって除算された、更新された方向エネルギーに基づいて処理された空間オーディオ信号の１つ以上の周波数サブ帯域についてのそれぞれの修正されたエネルギー比パラメータを計算することと、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域についてのそれぞれのスペクトル調整係数を計算することと、１つ以上の周波数サブ帯域において、それぞれの周波数サブ帯域について導出されたスペクトル調整係数を乗算することによって、空間オーディオ信号の１つ以上のオーディオ・チャネルのそれぞれの１つのそれぞれの周波数帯域を乗算することによって、１つ以上の拡張オーディオ・チャネルを導出することと、１つ以上の拡張オーディオ・チャネル、空間オーディオ信号の方向標示、および、修正されたエネルギー比パラメータを備える、処理された空間オーディオ信号を構成することと、を行うように構成することができる。

空間オーディオ信号および処理された空間オーディオ信号は、第１の所定のラウドスピーカ構成に従ったそれぞれのマルチャネルラウドスピーカ信号を含んでもよく、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、デフォーカス方向と、空間オーディオ信号のそれぞれのチャネルに対して示されたラウドスピーカ方向との間のそれぞれの角度差を計算し、角度差の所定の関数、およびデフォーカス量に基づいて導出されたスケーリング係数を使用することによって、それぞれのチャネルに対して計算された角度差に基づいて、空間オーディオ信号の各チャネルに対するそれぞれの利得値を導出し、空間オーディオ信号のそれぞれのチャネルに、それぞれのチャネルに対して導出された利得値を乗じることによって、１つ以上の修正されたオーディオャネルを導出し、修正されたオーディオャネルを、処理された空間オーディオ信号として提供するのように構成されることができる。角度差の所定の関数は、角度差の値が減少することにつれて減少し、角度差の値が増加することにつれて増加する利得値をもたらすことができる。空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも一部において、空間オーディオ信号のデフォーカス方向およびデフォーカス形状内からの部分におけるエンファシスを、空間オーディオ信号の少なくとも一部において他の部分に対して低減すること、および、空間オーディオ信号のデフォーカス方向およびデフォーカス形状内における部分に対して空間オーディオ信号の他の部分におけるエンファシスを少なくとも一部において増大させることのうちの少なくとも１つを実行するように構成されることができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は１つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができ、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、１つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、１つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の１つ以上の周波数サブ帯域について、空間オーディオ信号および利得値のそれぞれの周波数サブ帯域のエネルギー比パラメータに基づいて、処理された空間オーディオ信号の１つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、それぞれの更新された周囲エネルギー値（ａｍｂｉｅｎｔｅｎｅｒｇｙｖａｌｕｅ）を計算することと、更新された直接エネルギーおよび周囲エネルギーの合計で除算された更新された方向エネルギーに基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域のそれぞれの修正されたエネルギー比パラメータを計算することと、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域のそれぞれのスペクトル調整係数を計算することと、空間オーディオ信号の１つ以上のオーディオ・チャネル、空間オーディオ信号の方向標示、修正されたエネルギー比パラメータ、およびスペクトル調整係数を備える処理された空間オーディオ信号を構成することと、それぞれの更新された方向エネルギー値を計算することと、を行うように構成することができる。空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は１つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができ、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、１つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、１つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の１つ以上の周波数サブ帯域について、それぞれの周波数サブ帯域のエネルギー比パラメータに基づいて、それぞれの更新された方向エネルギー値を計算することと、空間オーディオ信号および利得値の１つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、処理された空間オーディオ信号のそれぞれの更新された周囲エネルギー値を計算することと、更新された直接エネルギーおよび周囲エネルギーの合計によって除算された、更新された方向エネルギーに基づいて処理された空間オーディオ信号の１つ以上の周波数サブ帯域についてのそれぞれの修正されたエネルギー比パラメータを計算することと、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域についてのそれぞれのスペクトル調整係数を計算することと、１つ以上の周波数サブ帯域において、それぞれの周波数サブ帯域について導出されたスペクトル調整係数を乗算することによって、空間オーディオ信号の１つ以上のオーディオ・チャネルのそれぞれの１つのそれぞれの周波数帯域を乗算することによって、１つ以上の拡張オーディオ・チャネルを導出することと、１つ以上の拡張オーディオ・チャネル、空間オーディオ信号の方向標示、および、修正されたエネルギー比パラメータを備える、処理された空間オーディオ信号を構成することと、を行うように構成することができる。

空間オーディオ信号および処理された空間オーディオ信号は、第１の所定のラウドスピーカ構成に従ったそれぞれのマルチャネルラウドスピーカ信号を含んでもよく、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、デフォーカス方向と、空間オーディオ信号のそれぞれのチャネルに対して示されたラウドスピーカ方向との間のそれぞれの角度差を計算し、角度差の所定の関数、およびデフォーカス量に基づいて導出されたスケーリング係数を使用することによって、それぞれのチャネルに対して計算された角度差に基づいて、空間オーディオ信号の各チャネルに対するそれぞれの利得値を導出し、空間オーディオ信号のそれぞれのチャネルに、それぞれのチャネルに対して導出された利得値を乗じることによって、１つ以上の修正されたオーディオャネルを導出し、修正されたオーディオャネルを、処理された空間オーディオ信号として提供するのように構成されることができる。角度差の所定の関数は、角度差の値が減少することにつれて減少し、角度差の値が増加することにつれて増加する利得値をもたらすことができる。

処理された空間オーディオ信号はアンビソニック信号を含むことができ、出力空間オーディオ信号は２チャネルバイノーラル信号を含むことができ、再生制御情報は、オーディオシーンに対して聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって、出力空間オーディオ信号を生成するデフォーカス方向に基づいて、修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するように構成された手段は、標示された再生方向に応じて、回転行列を生成し、回転された空間オーディオ信号を導出するために、処理された空間オーディオ信号のチャネルを回転行列と乗算し、回転された空間オーディオ信号のチャネルを、事前定義された有限インパルス応答（ＦＩＲ：ｆｉｎｉｔｅｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ）、頭部インパルス応答関数、頭部伝達関数（ＨＲＴＦ：ｈｅａｄｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）、または頭部インパルス応答（ＨＲＩＲ：ｈｅａｄｒｅｌａｔｅｄｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ）のデータセットに基づいて生成されたフィルタペアの所定セットを使用してフィルタリングし、左チャネルおよび右チャネルのそれぞれについて導出された回転された空間オーディオ信号のフィルタリングされたチャネルの合計として、バイノーラル信号の左チャネルおよび右チャネルを生成するように構成されることができる。

出力空間オーディオ信号は２チャネルバイノーラルオーディオ信号を含むことができ、再生制御情報は、オーディオシーンに対する聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するように構成された手段は、前記１つ以上の周波数サブ帯域において、処理された空間オーディオ信号の１つ以上のオーディオ・チャネルのそれぞれの１つのそれぞれの周波数帯域に、それぞれの周波数サブ帯域について受信されたスペクトル調節ファクタを乗算することによって、１つ以上のエンハンスされたオーディオ・チャネルを導出し、示された再生方向にしたがって１つ以上のエンハンスされたオーディオ・チャネルを２チャネルバイノーラルオーディオ信号に変換するように構成することができる。

出力空間オーディオ信号は２チャネルバイノーラルオーディオ信号を含むことができ、再生制御情報はオーディオシーンに対する聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するように構成された手段は、示された再生方向にしたがって１つ以上のエンハンスされたオーディオ・チャネルを２チャネルバイノーラルオーディオ信号に変換するように構成することができる。

出力空間オーディオ信号は２チャネルバイノーラル信号を含むことができ、再生制御情報はオーディオシーンに対して聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するためにデフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するように構成された手段は、標示された再生方向に応じて頭部伝達関数（ＨＲＴＦ：ｈｅａｄｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）のセットを選択し、処理された空間オーディオ信号のチャネルを、ＨＲＴＦの選択されたセットを使用して回転されたオーディオシーンを搬送する２チャネルバイノーラル信号に変換するように構成することができる。

再生制御情報は第２の所定のラウドスピーカ構成の標示を含むことができ、出力空間オーディオ信号は第２の所定のラウドスピーカ構成によるマルチチャネルラウドスピーカ信号を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するように構成された手段は、第１の所定のラウドスピーカ構成から第２の所定のラウドスピーカ構成へのマッピングを提供する振幅パニング利得を含む変換行列を導出するように構成されることによって、振幅パニングを使用して、処理された空間オーディオ信号のチャネルに基づいて、出力空間オーディオ信号のチャネルを導出し、変換行列を使用して、処理された空間オーディオ信号のチャネルを出力空間オーディオ信号のチャネルに乗算するように構成されることができる。

この手段は、少なくとも１つの方向センサおよび少なくとも１つのユーザ入力を含むセンサ配置からデフォーカス入力を得るようにさらに構成されることができ、デフォーカス入力は、少なくとも１つの方向センサ方向に基づくデフォーカス方向の標示を含むことができる。

デフォーカス入力は、デフォーカス量のインジケータをさらに含むことができる。

デフォーカス入力は、デフォーカス形状のインジケータをさらに含むことができる。

デフォーカス形状は、デフォーカス形状幅、デフォーカス形状高さ、デフォーカス形状半径、デフォーカス形状距離、デフォーカス形状深さ、デフォーカス形状範囲、デフォーカス形状直径、およびデフォーカス形状キャラクタライザのうちの少なくとも１つを含むことができる。

デフォーカス方向は、デフォーカス方向の範囲によって定義される円弧であってもよい。

第２の態様によれば、デフォーカス方向を得るステップと、少なくとも部分的に、前記空間オーディオ信号の他の部分に対する少なくとも部分的に、前記デフォーカス方向の相対的なデエンファシス（ｄｅｅｍｐｈａｓｉｓ）を制御するように、前記デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するように、オーディオシーンを表す空間オーディオ信号を処理するステップと、前記処理された空間オーディオ信号を出力するステップと、を含み、前記デフォーカス方向に基づいた前記修正されたオーディオシーンは、前記空間オーディオ信号の他の部分における少なくとも部分的に、前記デフォーカス方向の前記空間オーディオ信号の前記部分を、少なくとも部分的に、前記デエンファシスを可能にする、方法が提供される。

この方法はデフォーカス量を得ることを更に含み、空間オーディオ信号を処理することは、少なくとも部分的に、デフォーカス量にしたがって空間オーディオ信号の少なくとも部分的に他の部分に対してデフォーカス方向の空間オーディオ信号の一部を、相対的にデエンファシスを制御することを含むことができる。

空間オーディオ信号を処理することは、空間オーディオ信号の少なくとも部分的に、空間オーディオ信号の他の部分に対してデフォーカス方向の少なくとも部分的に、空間オーディオ信号の部分のエンファシスを減少させることと、デフォーカス方向の空間オーディオ信号の部分に対して、少なくとも部分的に、空間オーディオ信号の他の部分のエンファシスを増加させることとのうちの少なくとも１つを含み得る。

空間オーディオ信号を処理することは、少なくとも部分的には、少なくとも部分的に空間オーディオ信号の他の部分に対するデフォーカス量に応じて、デフォーカス方向における空間オーディオ信号の部分における音レベルを減少させることと、少なくとも部分的には、デフォーカス量に応じて、デフォーカス方向における空間オーディオ信号の部分に対する、少なくとも部分的に、空間オーディオ信号の他の部分における音レベルを増加させることとのうちの少なくとも１つを含み得る。

この方法はデフォーカスの形状を得ることを更に含み、空間オーディオ信号を処理することは、少なくとも部分的には、空間オーディオ信号の他の部分の少なくとも一部に対して、空間オーディオ信号のデフォーカス方向およびデフォーカスの形状内で、相対的なデエンファシスを制御することを含むことができる。

空間オーディオ信号を処理することは、デフォーカス方向における空間オーディオ信号の部分を、空間オーディオ信号の少なくとも部分的には他の部分に対してはデフォーカス形状内から、少なくとも部分的にはエンファシスを減少させることと、デフォーカス方向およびデフォーカス形状内における空間オーディオ信号の部分に対して、少なくとも部分的に、空間オーディオ信号の他の部分にエンファシスを増加させることと、のうちの少なくとも１つを含み得る。

空間オーディオ信号を処理することは、少なくとも部分的には、空間オーディオ信号の少なくとも一部の他の部分に対するデフォーカス量に応じて、デフォーカス形状内から、デフォーカス方向における空間オーディオ信号の部分内の音レベルを、減少させることと、少なくとも部分的には、デフォーカス方向における空間オーディオ信号の部分に対して、および、デフォーカス量にしたがってデフォーカス形状から空間オーディオ信号の他の部分内の音レベルを、増加させることとのうちの少なくとも１つを含み得る。

この方法は、処理された空間オーディオ信号を出力する少なくとも１つの態様を制御するために再生制御情報を得るステップを含み、前記処理された空間オーディオ信号を出力するステップは、前記再生制御情報にしたがって、出力空間オーディオ信号を生成するために、前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表す前記処理された空間オーディオ信号を処理するステップと、前記デフォーカス方向に基づいて修正されたオーディオシーンを表す前記処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号を処理する前に、前記再生制御情報にしたがって、空間オーディオ信号を処理するステップと、前記処理された空間オーディオ信号を出力空間オーディオ信号として出力するステップとのうちの１つを含み得る。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含むことができ、空間オーディオ信号を、処理された空間オーディオ信号に処理することは、１つ以上の周波数サブ帯域について、空間オーディオ信号から、フォーカス方向から到着する音成分を表す単一チャネルターゲットオーディオ信号を抽出することと、フォーカスされたオーディオ信号が、デフォーカス方向によって定義される空間位置に配置される場合に、フォーカスされた空間オーディオ信号を生成することと、空間オーディオ信号から減算されたフォーカスされた空間オーディオ信号の線形結合として処理された空間オーディオ信号を生成することを含むことができる。フォーカスされた空間オーディオ信号および空間オーディオ信号のうちの少なくとも１つは、デフォーカス方向における音の相対レベルを低減するために、デフォーカス量に基づいて導出されたそれぞれのスケーリングファクタによってスケーリングされる。

単一チャネルターゲットオーディオ信号を抽出するステップは、空間オーディオ信号から、デフォーカス方向から到達する音成分を表すビーム形成された信号を導出するために、ビーム形成器を適用するステップと、ビーム形成された信号に基づいて処理されたオーディオ信号を導出するためにポスト・フィルタを適用するステップであって、それによって、デフォーカス方向から到達する音のスペクトルに近似させるために、ビーム形成された信号のスペクトルを調整するステップと、を含み得る。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は、１つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは、複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができる。処理された空間オーディオ信号を生成するために空間オーディオ信号を処理することは、１つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、１つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の１つ以上の周波数サブ帯域について、空間オーディオのそれぞれの周波数サブ帯域のエネルギー比パラメータおよび利得値に基づいて、それぞれの更新された方向エネルギー値を計算することと、処理された空間オーディオ信号の１つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域エネルギー比パラメータおよびスケーリングファクタに基づいて、更新された周囲エネルギー値を計算することと、更新された指向性および周囲エネルギーの合計で除算された更新された指向性エネルギーに基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域についてのそれぞれの修正されたエネルギー比パラメータを計算することと、更新された指向性エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域についてのそれぞれのスペクトル調整ファクタを計算することと、空間オーディオ信号の１つ以上のオーディオ・チャネルと、空間オーディオ信号の方向標示と、修正されたエネルギー比パラメータと、スペクトル調整ファクタとを備える処理された空間オーディオ信号を構成することと、を含むことができる。空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は、１つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは、複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができる。処理された空間オーディオ信号を生成するために空間オーディオ信号を処理することは、１つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、１つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の１つ以上の周波数サブ帯域について、空間オーディオのそれぞれの周波数サブ帯域のエネルギー比パラメータおよび利得値に基づいて、それぞれの更新された方向エネルギー値を計算することと、空間オーディオ信号のそれぞれの周波数サブ帯域ののエネルギー比パラメータ、およびスケーリングファクタに基づいて、処理された空間オーディオ信号の１つ以上の周波数帯域に対して、それぞれの更新された周囲エネルギー値を計算することと、更新された直接および周囲エネルギーとの和によって除算された、更新された直接エネルギーに基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域についてのそれぞれの修正されたエネルギー比パラメータを計算することと、更新された直接および周囲エネルギーの和に基づいて、処理された空間オーディオ信号の１つ以上に対するそれぞれのスペクトル調整ファクタを計算することと、１つ以上の周波数サブ帯域において、空間オーディオ信号の１つ以上のオーディオ・チャネルのそれぞれの周波数帯域に、それぞれの周波数サブ帯域について導出されたスペクトル調整ファクタを乗算することによって、１つ以上のエンハンスされたオーディオ・チャネルを導出することと、１つ以上のエンハンスされたオーディオ・チャネル、空間オーディオ信号の方向標示、および、修正されたエネルギー比パラメータを含む処理された空間オーディオ信号を備えることと、を含むことができる。

空間オーディオ信号および処理された空間オーディオ信号は、第１の所定のラウドスピーカ構成によるそれぞれのマルチャネルラウドスピーカ信号を含むことができ、処理された空間オーディオ信号を生成するために前記空間オーディオ信号を処理することは、デフォーカス方向と、前記空間オーディオ信号のそれぞれのチャネルに対して示されたラウドスピーカ方向との間のそれぞれの角度差を計算することと、角度差の所定の関数およびデフォーカス量に基づいて導出されたスケーリング係数を使用することによって、前記それぞれのチャネルに対して計算された角度差に基づいて、前記空間オーディオ信号の各チャネルに対するそれぞれの利得値を導出することと、前記空間オーディオ信号のそれぞれのチャネルに、前記それぞれのチャネルに対して導出された利得値を乗じることによって、１つ以上の修正されたオーディオャネルを導出することと、前記修正されたオーディオャネルを、前記処理された空間オーディオ信号として提供することとを含むことができる。

角度差の所定の関数は、角度差の値が減少することにつれて減少し、角度差の値が増加することにつれて増加する利得値をもたらすことができる。

処理された空間オーディオ信号はアンビソニック信号を含み、出力空間オーディオ信号は２チャネルバイノーラル信号を含み得る。ここで、再生制御情報は、オーディオシーンに関して聴取方向を規定する再生方向の標示を含み得る。そして、再生制御情報にしたがって、修正された空間オーディオ信号を表現する処理された空間オーディオ信号を生成することは、示された再生方向に応じた回転行列を生成することと、回転された空間オーディオ信号を導出するために、処理された空間オーディオ信号のチャネルに回転行列を乗算することと、有限インパルス応答（ＦＩＲ：ｆｉｎｉｔｅｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ）の予め規定されたセット、、頭部インパルス応答関数（ＨＲＴＦ：ｈｅａｄｒｅｌａｔｅｄｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅｆｕｎｃｔｉｏｎ）、または頭部インパルス応答（ＨＲＩＲ：ｈｅａｄｒｅｌａｔｅｄｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ）のデータセットに基づいて生成されたフィルタペアを用いて、回転された空間オーディオ信号のチャネルをフィルタリングすることと、左右のチャネルのそれぞれに対して導出された、回転された空間オーディオ信号のフィルタリングされたチャネルの合計としてのバイノーラル信号の左および右チャネルを生成することと、を含み得る。

出力空間オーディオ信号は２チャネルバイノーラルオーディオ信号を含むことができ、再生制御情報はオーディオシーンに対して聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって、出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて／修正されたオーディオシーンを表す処理された空間オーディオ信号を処理することは、前記１つ以上の周波数サブ帯域において、処理された空間オーディオ信号の１つ以上のオーディオ・チャネルのそれぞれの周波数帯域に、それぞれの周波数サブ帯域に対して受信されたスペクトル調整係数を乗算することによって、１つ以上のエンハンスされたオーディオ・チャネルを導出することと、示された再生方向にしたがって、１つ以上のエンハンスされたオーディオ・チャネルを２チャネルバイノーラルオーディオ信号に変換することとを含むことができる。

出力空間オーディオ信号は２チャネルバイノーラルオーディオ信号を含むことができ、オーディオシーンに対する聴取方向を定義する再生制御情報は、再生方向の標示を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理することは、示された再生方向にしたがって１つ以上のエンハンスされたオーディオ・チャネルを２チャネルバイノーラルオーディオ信号に変換することを含むことができる。

出力空間オーディオ信号は２チャネルバイノーラル信号を含むことができ、ここで、再生制御情報はオーディオシーンに関して聴取方向を規定する再生方向の標示を含むことができ、そして、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、再生制御情報にしたがって出力空間オーディオ信号を生成することは、標示された再生方向に依存して、頭部伝達関数ＨＲＴＦのセットを選択することと、ＨＲＴＦの選択されたセットを用いて、処理された空間オーディオ信号のチャネルを、回転されたオーディオシーンを伝える２チャネルバイノーラル信号に変換することと、を含むことができる。

再生制御情報は、第２の所定のラウドスピーカ構成の標示を含むことができ、出力空間オーディオ信号は、第２の所定のラウドスピーカ構成によるマルチャネルラウドスピーカ信号を含むことができ、そして、処理された空間オーディオ信号を再生制御情報にしたがって生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するステップは、第１の所定のラウドスピーカ構成から第２の所定のラウドスピーカ構成へのマッピングを提供する振幅パンニング利得を含む変換行列を導出するように構成されることによって、振幅パンニングを用いて、処理された空間オーディオ信号のチャネルに基づいて、出力空間オーディオ信号のチャネルを導出するステップを含むことができる。および、処理された空間オーディオ信号のチャネルを出力空間オーディオ信号のチャネルに乗算するために、変換行列を用いるステップを含み得る。

この方法は、少なくとも１つの方向センサおよび少なくとも１つのユーザ入力を含むセンサ配置からデフォーカス入力を得るステップを更に含み、デフォーカス入力は、少なくとも１つの方向センサ方向に基づくデフォーカス方向の標示を含むことができる。

第３の態様によれば、少なくとも１つのプロセッサと、コンピュータプログラム・コードを含む少なくとも１つのメモリとを備える装置であって、該少なくとも１つのメモリと、該コンピュータプログラム・コードとは、該少なくとも１つのプロセッサを用いて、該装置に、少なくとも、デフォーカス方向を取得させ、空間オーディオ信号の少なくとも一部の他の部分におけるデフォーカス方向の空間オーディオ信号の部分における相対的なデエンファシスを制御するように、デフォーカス方向に基づいて、修正されたオーディオシーンを表す空間オーディオ信号を生成するように、オーディオシーンを表す空間オーディオ信号を処理させ、処理された空間オーディオ信号を出力させるように構成された、装置が提供される。ここで、デフォーカス方向に基づいて、修正されたオーディオシーンは、空間オーディオ信号の少なくとも一部の他の部分に関するデフォーカス方向において、空間オーディオ信号の少なくとも一部において、デエンファシスを可能にする。

この装置はさらに、デフォーカス量を得るようにすることができ、空間オーディオ信号を処理する装置は、少なくとも部分的に、デフォーカス量にしたがって空間オーディオ信号の少なくとも部分的に他の部分に対するデフォーカス方向の空間オーディオ信号の一部において、相対的なデエンファシスを制御するようにすることができる。

空間オーディオ信号を処理するようにした装置は、少なくとも、少なくとも部分的には空間オーディオ信号の少なくとも部分的に他の部分に対するデフォーカス方向における空間オーディオ信号の部分のエンファシスを減少させることと、少なくとも部分的にはデフォーカス方向における空間オーディオ信号の部分に対する他の部分のエンファシスを増大させることと、のうちの１つを実行することができる。

空間オーディオ信号を処理する装置は、空間オーディオ信号の少なくとも部分的に他の部分に対するデフォーカス量にしたがって、デフォーカス方向における空間オーディオ信号のる少なくとも部分における音レベルを減少させることと、少なくとも部分的には、デフォーカス量にしたがって、デフォーカス方向における空間オーディオ信号の部分に対する空間オーディオ信号の他の部分における音レベルを増大させることと、のうちの少なくとも１つを実行することができる。

この装置はさらに、デフォーカス形状を得るようにすることができ、空間オーディオ信号を処理させる装置は、少なくとも部分的には、デフォーカス方向の空間オーディオ信号の一部であって、空間オーディオ信号の他の部分であっても少なくとも部分に対してデフォーカス形状内で、相対的なデエンファシスを制御するようにすることができる。

空間オーディオ信号を処理する装置は、少なくとも部分的には少なくとも部分的にはデフォーカス方向の空間オーディオ信号の部分において、少なくとも部分的には空間オーディオ信号の他の部分に対してデフォーカス形状内からのエンファシスを低下させること、少なくとも部分的には、デフォーカス方向の空間オーディオ信号の部分に対して、かつデフォーカス形状内での空間オーディオ信号の他の部分でのエンファシスを増加させること、のうちの少なくとも１つを実行することができる。

空間オーディオ信号を処理する装置は、少なくとも部分的には空間オーディオ信号の少なくとも部分的な他の部分に対するデフォーカス量にしたがって少なくとも部分的にはデフォーカス方向の空間オーディオ信号の部分で、デフォーカス形状内からの音レベルを減少すること、および、少なくとも部分的にはデフォーカス方向の空間オーディオ信号の部分に対する空間オーディオ信号の他の部分における、デフォーカス量にしたがって、デフォーカス形状からの音レベルを増加すること、のうちの少なくとも１つを行なうことができる。

この装置は処理された空間オーディオ信号を出力する少なくとも１つの態様を制御するための再生制御情報を得ることができ、処理された空間オーディオ信号を出力させた装置は、再生制御情報にしたがって出力された空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理することと、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号の処理の前に、再生制御情報にしたがって処理された空間オーディオ信号を処理することと、処理された空間オーディオ信号を出力空間オーディオ信号として出力することと、のうちの１つを実行することができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含むことができ、処理された空間オーディオ信号に空間オーディオ信号を処理させる装置は、１つ以上の周波数サブ帯域について、空間オーディオ信号から、フォーカス方向から到着する音成分を表す単一チャネルターゲットオーディオ信号を抽出し、フォーカスされた空間オーディオ信号を生成できる。ここで、フォーカスされたオーディオ信号は、デフォーカス方向によって定義される空間位置に配置され、処理された空間オーディオ信号を、空間オーディオ信号から減算されたフォーカスされた空間オーディオ信号の線形結合として生成し、フォーカスされた空間オーディオ信号および空間オーディオ信号のうちの少なくとも１つは、デフォーカス方向における音の相対レベルを低減するために、デフォーカス量に基づいて導出されたそれぞれのスケーリングファクタによってスケーリングされる。

単一チャネルターゲットオーディオ信号を抽出する装置は、ビーム形成器を適用して、空間オーディオ信号から、デフォーカス方向から到達する音成分を表すビーム形成された信号を導き出し、ポスト・フィルタを適用して、ビーム形成された信号に基づいて処理されたオーディオ信号を導き出し、それによって、ビーム形成された信号のスペクトルを調整して、デフォーカス方向から到達する音のスペクトルに近づけることができる。

空間オーディオ信号および処理された空間オーディオ信号はそれぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は１つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができる。処理された空間オーディオ信号を生成するように空間オーディオ信号を処理する装置は、１つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算し、角度差の所定の関数およびデフォーカス量に基づいて導出されたスケーリングファクタを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、１つ以上の周波数サブ帯域についてのそれぞれの利得値を導出し、処理された空間オーディオ信号の１つ以上の周波数サブ帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータ、および利得値に基づいて、それぞれの更新された方向エネルギー値を計算し、処理された空間オーディオ信号の１つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、それぞれの更新された周囲エネルギー値を計算し、更新された直接エネルギーおよび周囲エネルギーの合計で除算された更新された方向エネルギーに基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域のそれぞれの修正されたエネルギー比パラメータを計算し、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域のそれぞれのスペクトル調整係数を計算し、空間オーディオ信号の１つ以上のオーディオ・チャネル、空間オーディオ信号の方向標示、修正されたエネルギー比パラメータ、およびスペクトル調整係数を備える処理された空間オーディオ信号を構成することができる。空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は、１つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは、それぞれの方向標示および複数の周波数サブ帯域についてのエネルギー比パラメータを含むことができる。処理された空間オーディオ信号を生成するように空間オーディオ信号を処理する装置は、１つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算し、角度差の所定の関数およびデフォーカス量に基づいて導出されたスケーリングファクタを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、１つ以上の周波数サブ帯域についてのそれぞれの利得値を導出し、処理された空間オーディオ信号の１つ以上の周波数サブ帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよび利得値に基づいて、それぞれの更新された方向エネルギー値を計算することができる。処理された空間オーディオ信号および利得値の１つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、それぞれの更新された周囲エネルギー値を計算し、更新された直接エネルギーおよび周囲エネルギーの合計によって除算された、更新された方向エネルギー値に基づいて処理された空間オーディオ信号の１つ以上の周波数サブ帯域についてのそれぞれの修正されたエネルギー比パラメータを計算し、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域についてのそれぞれのスペクトル調整係数を計算し、１つ以上の周波数サブ帯域において、空間オーディオ信号の複数のそれぞれの１つのオーディオ・チャネルのそれぞれの周波数帯域を、それぞれの周波数サブ帯域について導出されたスペクトル調整係数で乗算することによって、１つ以上の拡張オーディオ・チャネルを導出し、１つ以上の拡張オーディオ・チャネル、空間オーディオ信号の方向標示、および修正されたエネルギー比パラメータを備える、処理された空間オーディオ信号を構成する。

空間オーディオ信号および処理された空間オーディオ信号は、第１の所定のラウドスピーカ構成に従ったそれぞれのマルチャネルラウドスピーカ信号を含むことができ、処理された空間オーディオ信号を処理して、処理された空間オーディオ信号を生成する装置は、デフォーカス方向と、空間オーディオ信号のそれぞれのチャネルに対して示されたラウドスピーカ方向との間のそれぞれの角度差を計算し、角度差の所定の関数、および、デフォーカス量に基づいて導出されたスケーリング係数を使用することによって、それぞれのチャネルに対して計算された角度差に基づいて、空間オーディオ信号の各チャネルに対するそれぞれの利得値を導出し、空間オーディオ信号のそれぞれのチャネルに、それぞれのチャネルに対して導出された利得値を乗じることによって、１つ以上の修正されたオーディオャネルを導出し、修正されたオーディオャネルを、処理された空間オーディオ信号として提供することができる。

処理された空間オーディオ信号は、アンビソニック信号を含み、出力空間オーディオ信号は、２チャネルバイノーラル信号を含み得る。ここで、再生制御情報はオーディオシーンに関して聴取方向を規定する再生方向の標示を含み得る。そして、再生制御情報にしたがって出力空間オーディオ信号を生成するために、前記デフォーカス方向に基づいて、前記修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するようにされた装置は、標示された再生方向に依存して回転行列を生成し、処理された空間オーディオ信号のチャネルと回転行列を乗算して、回転された空間オーディオ信号を導出し、回転された空間オーディオ信号のチャネルを、所定の有限インパルス応答のセット、ＦＩＲ、頭部インパルス応答関数のデータセットに基づいて生成されたフィルタペア、ＨＲＴＦ、または頭部インパルス応答、ＨＲＩＲを用いてフィルタリングし、左右のチャネルのそれぞれについて、回転した空間オーディオ信号のフィルタリングされたチャネルの合計として、バイノーラル信号の左右のチャネルを生成することができる。

出力空間オーディオ信号は２チャネルバイノーラルオーディオ信号を含むことができ、再生制御情報はオーディオシーンに対する聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号と、を処理する装置は、前記それぞれの周波数サブ帯域に対して受信したスペクトル調整係数により、処理された空間オーディオ信号の１つ以上のオーディオ・チャネルのそれぞれの周波数帯域を乗算することで、前記１つ以上の周波数サブ帯域において、１つ以上の拡張オーディオ・チャネルを導出し、示された再生方向にしたがって、１つ以上のエンハンスされたオーディオ・チャネルを２チャネルバイノーラルオーディオ信号に変換させることができる。

出力される空間オーディオ信号は、２チャネルのバイノーラルオーディオ信号で構成されてもよく、再生制御情報は、オーディオシーンに対する聴取方向を規定する再生方向の標示で構成されてもよい。前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、前記再生制御情報にしたがって出力空間オーディオ信号を生成させる装置は、前記１つ以上の拡張オーディオ・チャネルを、前記示された再生方向にしたがって前記２チャネルバイノーラルオーディオ信号に変換させてもよいことを特徴とする。

出力空間オーディオ信号は２チャネルのバイノーラル信号を含むことができ、ここで、再生制御情報はオーディオシーンに関して聴取方向を規定する再生方向の標示を含むことができ、前記デフォーカス方向に基づいて、前記修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するようにされた装置は、前記再生制御情報に応じた出力空間オーディオ信号を生成すために、指定された再生方向に依存する頭部関連伝達関数（ＨＲＴＦ）のセットを選択し、そして処理された空間オーディオ信号のチャネルを、ＨＲＴＦの選択されたセットを用いて、回転されたオーディオシーンを伝える２チャネルバイノーラル信号に変換することができる。

再生制御情報は第２の所定のラウドスピーカ構成の標示を含むことができ、出力空間オーディオ信号は第２の所定のラウドスピーカ構成によるマルチチャネルラウドスピーカ信号を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するようにされた手段は、第１のスピーカ構成から第２のスピーカ構成へのマッピングを提供する振幅パンニング利得を含む変換行列を導出するように構成されることにより、アンプリチュードパンニングを用いて処理した空間オーディオ信号のチャネルに基づいて、出力された空間オーディオ信号のチャネルを導出し、前記変換行列を用いて、前記処理された空間オーディオ信号のチャネルを前記出力空間オーディオ信号のチャネルに多重化するようにすることができる。

この装置は、少なくとも１つの方向センサと少なくとも１つのユーザ入力とを含むセンサ配置からデフォーカス入力を得るようにすることができ、この場合、デフォーカス入力は、少なくとも１つの方向センサ方向に基づくデフォーカス方向の標示を含むことができる。

第４の態様によれば、デフォーカス方向を得るように構成された回路と、前記デフォーカス方向の少なくとも他の部分に対して、デフォーカス方向の部分空間オーディオ信号の少なくとも部分的に相対的なデエンファシスを制御するように、デフォーカス方向に基づいて、修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するように、オーディオシーンを処理するように構成された前記空間オーディオ信号処理回路と、前記処理された空間オーディオ信号の出力を制御するように構成された出力回路と、前記処理された空間オーディオ信号の出力を制御するように構成された出力回路と、を含む装置が提供され、ここで、前記デフォーカス方向に基づいて修正されたオーディオシーンは、前記空間オーディオ信号の少なくとも一部の部分において、前記空間オーディオ信号の少なくとも一部の他の部分に対する前記デフォーカス方向の部分のデエンファシスを可能にする。

第５の態様によれば、命令［またはプログラム命令を備えるコンピュータ可読メディア］を備えるコンピュータプログラムが提供され、命令［またはプログラム命令］は装置に、少なくとも、デフォーカス方向を取得することと、空間オーディオ信号の少なくとも一部におけるデフォーカス方向の相対的なデエンファシスを制御するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号を処理することと、処理された空間オーディオ信号を出力することを実行させるための命令［プログラム命令を備えるコンピュータ可読メディア］を含み、ここで、前記デフォーカス方向に基づいて修正されたオーディオシーンは、前記空間オーディオ信号の少なくとも一部の部分において、前記空間オーディオ信号の少なくとも一部の他の部分に対する前記デフォーカス方向の部分のデエンファシスを可能にする。

第６の態様によれば、装置に、デフォーカス方向を取得させることと、空間オーディオ信号の少なくとも一部分におけるデフォーカス方向の相対的なデエンファシスを制御するように、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号を処理することと、処理された空間オーディオ信号を出力することと、を少なくとも実行させるためのプログラム命令を備える非一時的なコンピュータ可読メディアが提供され、ここで、前記デフォーカス方向に基づいて修正されたオーディオシーンは、前記空間オーディオ信号の少なくとも一部の部分において、前記空間オーディオ信号の少なくとも一部の他の部分に対する前記デフォーカス方向の部分のデエンファシスを可能にする。

第７の態様によれば、第７の態様によれば、デフォーカス方向を取得するための手段と、空間オーディオ信号の少なくとも一部において空間オーディオ信号の一部を空間オーディオ信号の他の部分に対してデフォーカス方向に相対的なデエンファシスを制御するように、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号を処理するための手段と、処理された空間オーディオ信号を出力するための手段とを備え、デフォーカス方向に基づいた修正されたオーディオシーンは、空間オーディオ信号の少なくとも一部において空間オーディオ信号の一部を空間オーディオ信号の他の部分の少なくとも一部においてデフォーカス方向にデエンファシスすることを可能にする、装置が提供される。

第８の態様によれば、デフォーカス方向を取得することと、オーディオシーンを表す空間オーディオ信号を処理して、空間オーディオ信号の少なくとも一部の他の部分に対するデフォーカス方向の空間オーディオ信号の部分の相対的デエンファシスを制御するように、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成することと、を少なくとも装置に実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。

上述の動作を実行するための手段を備える装置。

上述の方法の動作を実行するように構成された装置。

コンピュータに上述の方法を実行させるためのプログラム命令を含むコンピュータプログラム。

メディアに記憶されたコンピュータプログラム製品は、装置に本明細書に記載された方法を実行させることができる。

電子デバイスは、本明細書で説明されるような装置を備えることができる。

チップセットは、本明細書に記載されるような装置を備えてもよい。

本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。

本出願をより良く理解するために、添付の図面を例として参照する。
図１ａ、１ｂおよび１ｃは、オーディオフォーカス領域またはエリアを示す例示的なサウンドシーンを示す。図１ａ、１ｂおよび１ｃは、オーディオフォーカス領域またはエリアを示す例示的なサウンドシーンを示す。図１ａ、１ｂおよび１ｃは、オーディオフォーカス領域またはエリアを示す例示的なサウンドシーンを示す。図２ａおよび図２ｂは、いくつかの実施形態による、再生装置を動作させるための例示的な再生装置および方法を概略的に示す。図２ａおよび図２ｂは、いくつかの実施形態による、再生装置を動作させるための例示的な再生装置および方法を概略的に示す。図３ａおよび図３ｂは、いくつかの実施形態による、より高次のアンビソニック・オーディオ信号入力を有する、図２ａに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。図３ａおよび図３ｂは、いくつかの実施形態による、より高次のアンビソニック・オーディオ信号入力を有する、図２ａに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。図４ａおよび図４ｂは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図２ａに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。図４ａおよび図４ｂは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図２ａに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。図５ａおよび図５ｂは、いくつかの実施形態による、マルチチャネルおよび／またはオーディオ・オブジェクトディオ信号入力を有する、図２ａに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。図５ａおよび図５ｂは、いくつかの実施形態による、マルチチャネルおよび／またはオーディオ・オブジェクトディオ信号入力を有する、図２ａに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。図６ａおよび６ｂは、いくつかの実施形態による、より高次のアンビソニック・オーディオ信号入力を有する、図２ａに示されるような例示的な再生プロセッサと、例示的な再生プロセッサを動作させる方法とを概略的に示す。図６ａおよび６ｂは、いくつかの実施形態による、より高次のアンビソニック・オーディオ信号入力を有する、図２ａに示されるような例示的な再生プロセッサと、例示的な再生プロセッサを動作させる方法とを概略的に示す。図７ａおよび７ｂは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図２ａに示されるような例示的な再生プロセッサと、例示的な再生プロセッサを動作させる方法とを概略的に示す。図７ａおよび７ｂは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図２ａに示されるような例示的な再生プロセッサと、例示的な再生プロセッサを動作させる方法とを概略的に示す。図８は、いくつかの実施形態の例示的な実装を示す。図９は、実施形態に基くフォーカス方向、フォーカス量およびフォーカス幅を制御するための例示的なコントローラを示す。図１０は、いくつかの実施形態による高次アンビソニック・オーディオ信号の処理に基づく処理出力の例を示す。図１１は、示された装置を実施するのに適した例示的な装置を示す。

以下に、空間オーディオ信号の効率的なレンダリングおよび再生を提供するための適切な装置および可能な機構をさらに詳細に説明する。

以前の空間オーディオ信号の再生例では、ユーザはフォーカス方向とフォーカス量を制御することができる。しかし、状況によっては、このようなフォーカス方向／量の制御では十分でないことがある。後述するような概念は、特定の方向の音の消去またはデエンファシスを示すことができる更なるフォーカス制御を特徴とする装置および方法である。例えば、音場では、特定の方向の複数の支配的な音源、ならびに周囲の音など、いくつかの異なる特徴が存在し得る。いくつかのユーザは音場の特定の特徴を除去することを好むことがあり、一方、いくつかのユーザは、完全なオーディオシーンを聞くこと、または音場の代替の特徴を除去することを好むことがある。特に、ユーザは空間音シーンの残りが最初に意図されたように再生されるように、望ましくない音を除去することを望む場合がある。

以下に説明する図１ａないし図１ｃは、再生された空間オーディオ信号を聞く際にユーザが知覚しようとするものを示す。

一例として、図１ａは、定義された方向を有するユーザ１０１を示す。オーディオシーン内には、関心のあるソース１０５、例えば話者が存在する。さらに、ユーザを取り囲んでいる他の周囲オーディオ含有量１０７があってもよい。

さらに、ユーザは、エアコン１０３などの妨害音源を識別することができる。従来、ユーザは、関心のあるソース１０５にフォーカスを合わせて、これらを干渉ソース１０３よりもエンファシス（強調）するように再生を制御することができる。しかしながら、実施形態で説明した概念は代わりに、デフォーカスまたはネガティブフォーカス識別ソース１０３によって図１ａに示すように、識別ソースの「除去」（またはデフォーカスまたはネガティブフォーカス）を実行することによって、音質を改善することを試みる。

図１ｂに示されるような別の例として、ユーザは、サウンドシーン内の形状または領域内の任意のソースのフォーカスをぼかすか、またはネガティブフォーカスすることを望み得る。したがって、例えば、図１ｂは、例えば話者のような関心のあるソース１０５と、環境オーディオコンテンツのような他の周囲オーディオコンテンツ１０７と、定義された領域１５３内の干渉ソース１５５とを有するオーディオまたはサウンドシーン内に定義された向きで配置されたユーザ１０１を示す。この例では、デフォーカスまたはネガティブフォーカスの領域がユーザ１０１に対して規定された幅および方向のデフォーカス円弧１５１によって表される。ユーザ１０１に対する定義された幅および方向のデフォーカス円弧１５１は、干渉源領域１５３内の干渉源１５５をカバーする。

デフォーカスまたは負のフォーカスの領域が表され得るさらなる方法が図１ｃに示され、ここで、デフォーカス領域または体積（３Ｄ領域について）１６１は、干渉源領域１５３内の干渉源１５５をカバーする。この例では、デフォーカス領域が距離ならびに方向および「幅」によって定義され得る。

したがって、本明細書で説明される実施形態は、（デフォーカス方向および量に加えて）デフォーカス形状の制御を提供することを試みる。本明細書で説明される実施形態に関して説明されるようなコンセプトは空間オーディオ再生に関し、空間オーディオ信号フォーマットも同じであることを可能にしながら、選択された空間方向（または領域またはボリューム）における所望のオーディオ素子の可聴性を維持しながら、選択された空間方向（または領域またはボリューム）におけるオーディオ素子の可聴性をデエンファシス（強調解除）するように、これらの判定されたデフォーカス形状外の素子（または領域またはボリューム）に対して、所望の量（たとえば、０％～１００％）だけ選択可能な空間方向（または領域またはボリューム）に由来するオーディオ素子（または領域またはボリューム）を低減／除去するための制御手段を有するオーディオプレイバックを可能にする。

この実施形態は、選択可能な方向および量に対応する少なくとも１つのデフォーカス（またはネガ型のフォーカス）パラメータを提供する。さらに、いくつかの実施形態では、このデフォーカス（またはネガティブフォーカス）パラメータがデフォーカス（またはネガティブフォーカス）形状を定義することができ、方向、幅、高さ、半径、距離、および深さに対応する以下のパラメータのいずれか（または２つ以上の組合せ）によって定義することができる。いくつかの実施形態におけるこのパラメータセットは、任意のデフォーカス形状を定義するパラメータを含む。

いくつかの実施形態では、少なくとも１つのデフォーカスパラメータにはさらなる選択された空間方向（または形状、面積、または体積）の可聴性をエンファシス（強調）するために、少なくとも１つのデフォーカスパラメータが提供される。

空間オーディオ信号処理は、いくつかの実施形態では複数の視線方向を有するメディアに関連する空間オーディオ信号を取得することと、フォーカス／デフォーカス方向および量パラメータを取得することと（任意選択で、少なくとも１つのフォーカス／デフォーカス形状情報を取得することを含み得る）、空間オーディオ信号を修正して所望の（フォーカス）およびデフォーカス特性を有するようにすることと、修正された空間オーディオ信号を（ヘッドフォンまたはラウドスピーカで）再生することとによって実行され得る。

得られた空間オーディオ信号は、例えば、アンビソニック信号、ラウドスピーカ信号、オーディオ・チャネルの設定および関連する空間メタデータのようなパラメトリック空間オーディオ・フォーマットであってもよい。

フォーカス／デフォーカス情報は以下のように定義することができる。フォーカスが、選択可能な方向（または形状または領域）から生じるオーディオの相対的な突出を増加させることを指し、一方、デフォーカスは、その方向（または形状または領域）から生じるオーディオの相対的な突出を減少させることを指す。

フォーカス／デフォーカス量は、どれだけフォーカスするか、またはデフォーカスするかを決定する。これは、例えば、０％から１００％であってもよく、ここで、０％は元のサウンドシーンを修正されないままに保つために手段であり、１００％は所望の向きに、または規定された範囲内に最大限にフォーカス／デフォーカスするために手段である。

いくつかの実施形態におけるフォーカス／デフォーカス制御部はフォーカスを合わせるかデフォーカスするかを決定するためのスイッチ制御部であってもよく、または、例えば、負の値がデフォーカス（または負のフォーカス）効果を示し、正の値がフォーカス効果を示す場合、フォーカス量範囲を－１００％から１００％に拡張することによって、他の方法で制御部されてもよい。

異なるユーザが異なるフォーカス／デフォーカス特性を有することを望む場合があることに留意されたい。オリジナルの空間オーディオ信号は、ユーザの個人的な好みに基づいて、ユーザ毎に個別に修正され、再生されてもよい。

図２ａは、一例による空間オーディオ処理構成２５０のいくつかのコンポーネントおよび／またはエンティティのブロック図を示す。この図に示され、さらに後で詳述される２つの別々のステップ（フォーカス／デフォーカスプロセッサ＋再生プロセッサ）は、統合されたプロセスとして実施することができ、またはいくつかの例では、本明細書に記載されるように逆の順序（再生プロセッサ動作がその後フォーカス／デフォーカスプロセッサ動作に続く）で実施することができることは理解される。空間オーディオ処理構成２５０は、入力オーディオ信号とさらにフォーカス／デフォーカスパラメータ２０２とを受け取り、入力オーディオ信号２００に基づいて、フォーカス／デフォーカスパラメータ２０２（フォーカス／デフォーカス方向、フォーカス／デフォーカス量、フォーカス／デフォーカス高、フォーカス／デフォーカス半径、フォーカス／デフォーカス距離、およびフォーカス／デフォーカス要素に関する焦点深度を含み得る）に依存して、フォーカス／デフォーカス音コンポーネント２０４を有するオーディオ信号を導き出すように構成されているオーディオフォーカスプロセッサ２０１を備える。空間オーディオ処理構成２５０は、フォーカスされた／デフォーカスされた音成分２０４および再生制御情報２０６を有するオーディオ信号を受信するように構成されたオーディオ再生プロセッサ２０７をさらに備えることができる。そして、オーディオ再生プロセッサ２０７においてフォーカスされた／デフォーカスされた成分を有する空間オーディオ信号の処理に関連する少なくとも１つの態様を制御するように機能する再生制御情報２０６にさらに依存して、フォーカスされた／デフォーカスされた音成分２０４を有するオーディオ信号に基づいて所定のオーディオ・フォーマットで出力オーディオ信号２０８を導出するように構成される。再生制御情報２０６は、再生方向（または再生方向）の標示および／または適用可能なスピーカ構成の標示を含むことができる。上述の空間オーディオ信号を処理するための方法を考慮して、オーディオフォーカスプロセッサ２０１は、受信されたフォーカス／デフォーカス量にしたがって、受信されたフォーカス領域または方向における空間オーディオ信号の少なくとも一部におけるエンファシスまたはデエンファシスを制御するようにオーディオシーンを修正することによって、空間オーディオ信号を処理する態様を実装するように構成され得る。オーディオ再生プロセッサ２０７は、観察された方向および／または位置に基づいて、修正されたオーディオシーンとして、処理された空間オーディオ信号を出力することができ、修正されたオーディオシーンは、フォーカス領域内の空間オーディオ信号の少なくとも前記部分について、受信されたフォーカス量にしたがって、エンファシスを示す。

図２ａでは、入力されたオーディオ信号のそれぞれに、フォーカス／デフォーカスされたサウンド成分を有するオーディオ信号と、出力されたオーディオ信号とが、それぞれの空間オーディオ信号として、所定の空間オーディオ・フォーマットで提供される。したがって、これらの信号は、それぞれ、入力空間オーディオ信号、フォーカス／デフォーカス音成分を有する空間オーディオ信号、および出力空間オーディオ信号と参照されることができる。前述の説明に沿って、典型的には、空間オーディオ信号がオーディオシーンのそれぞれの特定の位置における１つ以上の指向性音源と、オーディオシーンの雰囲気との両方を含むオーディオシーンを搬送する。しかし、いくつかのシナリオでは空間オーディオシーンが、両方向音源がない１つ以上の指向性音源、またはいかなる指向性音源もない両方向性音源を含むことができる。この点に関して、空間オーディオ信号は、オーディオシーン内の一定の位置（例えば、一定の到来方向およびリスニングポイントに対する一定の相対強度）を有する別個の音源を表す１つ以上の指向性サウンド成分、および／または、オーディオシーン内の環境サウンドを表す周囲サウンド成分を伝達する情報を備える。オーディオシーンを指向性サウンド成分および周囲成分に除算することは典型的には表現または近似のみであるが、実際のサウンドシーンは広い音源およびコヒーレントな音響反射などのより複雑な特徴を含み得ることに留意されたい。それにもかかわらず、このような錯体音響的特徴があっても、直接成分と周囲成分の組み合わせとしてのオーディオシーンの概念化は、通常、少なくとも知覚的な意味で公平な表現または近似である。

典型的には、フォーカス／デフォーカスされた音成分を有する入力オーディオ信号およびオーディオ信号が同じ事前定義された空間フォーマットで提供され、一方、出力オーディオ信号は入力オーディオ信号（およびフォーカス／デフォーカスされた音成分を有するオーディオ信号）に対して適用されたのと同じ空間フォーマットで提供されてもよく、または出力オーディオ信号に対して異なる事前定義された空間フォーマットを採用してもよい。出力オーディオ信号の空間オーディオ・フォーマットは、出力オーディオ信号の再生に適用されるサウンド再生ハードウェアの特性を考慮して選択される。一般に、入力オーディオ信号は第１の所定の空間オーディオ・フォーマットで提供されてもよく、出力オーディオ信号は第２の所定の空間オーディオ・フォーマットで提供されてもよい。第１および／または第２の空間オーディオ・フォーマットとして使用するのに適した空間オーディオ・フォーマットの非限定的な例は、アンビソニック、事前定義されたラウドスピーカ構成に従ったサラウンドラウドスピーカ信号、事前定義されたパラメトリック空間オーディオ・フォーマットを含む。空間オーディオ処理配置２５０のフレーム組みにおけるこれらの空間オーディオ・フォーマットの、第１および／または第２の空間オーディオ・フォーマットとしての使用の、より詳細な非限定的な例は、本開示の後半で提供される。

空間オーディオ処理構成２５０は、典型的には入力フレームの配列として入力空間オーディオ信号２００を出力フレームのそれぞれの配列に処理するために適用され、各入力（出力）フレームは入力（出力）空間オーディオ信号の各チャネルに対するデジタルオーディオ信号のそれぞれのセグメントを含み、所定のサンプリング周波数で入力（出力）試料のそれぞれの時系列として提供される。いくつかの実施形態では、空間オーディオ処理装置２５０への入力信号が符号化された形式、例えば、ＡＡＣ、またはＡＡＣ＋埋め込みメタデータとすることができる。このような実施形態では、符号化されたオーディオ入力が最初はデコーダであってもよい。同様に、いくつかの実施形態では、空間オーディオ処理装置２５０からの出力が任意の適切な方法で符号化することができる。

典型的な例では、空間オーディオ処理装置２５０が、各フレームが入力空間オーディオ信号の各チャネルについてそれぞれのＬ個のサンプルを含むように、固定された所定のフレーム長を使用し、所定のサンプリング周波数で、対応する持続時間にマッピングする。この点に関する例として、固定フレーム長は２０ミリ秒（ｍｓ）であり結果、それは８、１６、３２または４８ｋＨｚのサンプリング周波数で、Ｌ＝１６０、Ｌ＝３２０、Ｌ＝６４０、およびＬ＝９６０試料のフレームを、それぞれ、チャネル当たりにもたらす。フレームは、プロセッサがフィルタバンクを適用するかどうか、およびこれらのフィルタバンクがどのように構成されるかに応じて、オーバーラップしていなくてもよく、または部分的にオーバーラップしていてもよい。しかしながら、これらの値は非限定的な例として役立ち、これらの例とは異なるフレーム長および／またはサンプリング周波数が、例えば、所望のオーディオ帯域幅、所望のフレーミング遅延、および／または利用可能な処理容量に応じて、代わりに使用されてもよい。

空間オーディオ処理装置２５０では、フォーカス／デフォーカスがユーザが選択可能な方向／量パラメータ（または関心のある空間領域）を指す。フォーカス／デフォーカスは例えば、一般に、オーディオシーンの一定の方向、距離、半径、円弧であってもよい。別の例では、関心のある（指向性）音源が現在配置されているフォーカス／デフォーカス領域である。前者のシナリオでは、ユーザ選択可能なフォーカス／デフォーカスが、フォーカスが主に特定の方向（または空間領域）にあるので、一定のままであるか、またはまれにしか変化しない領域を示すことができ、後者のシナリオでは、ユーザ選択されたフォーカス／デフォーカスは、フォーカス／デフォーカスが時間とともにオーディオシーン内のその位置（または形状／サイズ）を変化させることができる（または変化させることができない）特定の音源に設定されるので、より頻繁に変化することができる。一例では、フォーカス／デフォーカスが例えば、方向を定義する方位角として定義されてもよい。

空間オーディオ処理装置２５０の構成要素を参照して前述した機能は、例えば、図２ｂに示されるフローチャートによって示される方法２６０にしたがって提供されてもよい。方法２６０は、例えば、いくつかの例を介して本開示で説明される空間オーディオ処理システム２５０を実装するように構成された装置によって提供され得る。方法２６０は、オーディオシーンを表す入力空間オーディオ信号を、修正されたオーディオシーンを表す出力空間オーディオ信号に処理するための方法として機能する。方法２６０はブロック２６１に示すように、フォーカス／デフォーカス方向の標示と、フォーカス／デフォーカス強度または量の標示とを受け取ることを含む。方法２６０は、ブロック２６３に示されるように、前記フォーカス／デフォーカス方向から到達する音の相対レベルが前記フォーカス／デフォーカス強度にしたがって修正される、修正されたオーディオシーンを表す中間空間オーディオ信号に、入力空間オーディオ信号を処理するステップをさらに含む。方法２６０は、ブロック２６５に示されるように、出力空間オーディオ信号への中間空間信号の処理を制御する再生制御情報を受信することをさらに含む。再生制御情報は例えば、出力空間オーディオ信号の再生方向（例えば、聴取方向または視線方向）またはスピーカ構成のうちの少なくとも１つを定義することができる。方法２６０は、ブロック２６７に示されるように、前記再生制御情報にしたがって、中間空間オーディオ信号を出力空間オーディオ信号に処理することをさらに含む。

方法２６０は、複数の方法で、例えば、上記および以下で提供される空間オーディオ処理装置２５０の構成要素のそれぞれの機能に関する例にしたがって、変更されてもよい。

以下の例では、デフォーカス動作をさらに詳細に説明するが、同じ動作を、さらなるフォーカス動作ならびにさらなるデフォーカス動作に適用することができることを理解されたい。

いくつかの実施形態では、空間オーディオ処理構成２５０への入力がアンビソニック信号である。本装置は、任意の次数のアンビソニック信号を受信する（および本方法を適用することができる）ように構成することができる。アンビソニック・オーディオ信号は、無指向性信号とｙ，ｚ，ｘ座標軸に沿った三つの直交一次パターンからなる一次アンビソニック（ＦＯＡ）信号とすることができた。ｙ，ｚ，ｘ配位次数は、アンビソニック信号の典型的なＡＣＮ（アンビソニックスチャネル番号付け）チャネル順序付けの一次数係数と同じ次数であるため、ここで選択される。

アンビソニック・オーディオ・フォーマットは空間ビームパターンに関して空間オーディオ信号を表現することができ、空間オーディオを表現するために空間ビームパターンの代替セットをここで例示し且つ設計することは当業者にとって簡単であろうことに留意されたい。さらに、アンビソニックスオーディオ・フォーマットは、３６０ビデオの文脈で空間オーディオを表現する典型的な方法であるため、特に関連するオーディオ・フォーマットである。アンビソニック・オーディオ信号の典型的なソースは、マイクロフォンアレイおよびＶＲビデオストリーミングサービス（ＹｏｕＴｕｂｅ（登録商標）３６０など）の含有量を含む。

図３ａに関して、アンビソニック入出力の文脈におけるフォーカスプロセッサ３５０が示されている。図は一次アンビソニック（ＦＯＡ）信号（４チャネル）を前提としているが、ＦＯＡの代わりに高次アンビソニック（ＨＯＡ）が適用される場合がある。ＨＯＡ入力フォーマットを実装する実施形態では、４つのチャネルの代わりのチャネルの数が例えば、９つのチャネル（二次オーダーのアンビソニックス）または１６のチャネル（三次オーダーのアンビソニックス）であり得る。

例示的なアンビソニック信号ｘ_ＦＯＡ（ｔ）３００および（デ）フォーカス方向３０４、（デ）フォーカス量および（デ）フォーカス制御３１０は、フォーカスプロセッサ３５０への入力である。

いくつかの実施形態では、フォーカスプロセッサ３５０がフィルタバンク３０１を備える。フィルタバンク３０１は、いくつかの実施形態において、アンビソニック（ＦＯＡ）信号３００（アンビソニックまたは球面調和パターンに対応する）を変換して、時間領域入力オーディオ信号の時間－周波数領域バージョンを生成するように構成される。いくつかの実施形態におけるフィルタバンク３０１は、短時間フーリエ変換（ＳＴＦＴ）または錯体変調直交ミラーフィルタ（ＱＭＦ）バンクなどの空間音響処理のための任意の他の適切なフィルタバンクであってもよい。フィルタバンク３０１の出力は、周波数帯域の時間－周波数領域アンビソニック・オーディオ信号３０２である。周波数帯域は、適用されたフィルタバンク３０１の１つ以上の周波数ビン（個々の周波数成分）とすることができる。周波数帯はＢａｒｋ周波数帯のような知覚的に関連した分解能に近似することができ、これは、高周波数よりも低周波数においてスペクトル的に選択的である。あるいは、いくつかの実装形態では周波数帯域が周波数ビンに対応することができる。

（フォーカスされていない）時間－周波数領域アンビソニック・オーディオ信号３０２は、モノラルフォーカス器３０３およびミキサ３１１に出力される。

フォーカスプロセッサ３０１は、モノラルフォーカス器３０３をさらに備えることができる。モノ・フォーカス器３０３は、変換された（非フォーカスの）時間－周波数領域のアンビソニック信号３０２をフィルタバンク３０１から受信し、さらに、（デ）フォーカス方向パラメータ３０４を受信するように構成される。

モノラル（デ）フォーカス器３０３は、ＦＯＡ入力に基づいてモノラルフォーカスオーディオ出力を生成するための任意の既知の方法を実装することができる。この例では、モノ・フォーカス器３０３が最小分散歪みのない応答（ＭＶＤＲ）モノ・フォーカスオーディオ出力を実施する。ＭＶＤＲビーム成形動作は歪みなしに所望のフォーカス方向から目標信号を得ることを試みる一方、この制約により、出力エネルギーを最小化（言い換えると干渉エネルギーを抑制する）しようとする適応的にビーム成形ウェイトを見つける。

いくつかの実施形態では、モノ・フォーカス器３０３が周波数帯信号（例えば、ＦＯＡの場合には４つのチャネル）を、
によって１つのビーム形成信号に結合するように構成される。ここで、ｋは周波数帯インデックス、ｂは周波数ビンインデックス（ここで、ｂは帯域ｋに含まれる）、ｎは時間インデックス、ｙ（ｂ，ｎ）は、ビンｂの１チャネルビームフォーム信号、ｗ（ｋ，ｎ）は、４ｘ１ビームフォーム重みベクトルであり、ｘ（ｂ，ｎ）は、４つの周波数ビンｂ信号チャネルを有する４ｘ１ＦＯＡ信号ベクトルである。この式では、帯域ｋに含まれるビンｂの信号に同じビームフォームウェイトｗ（ｋ，ｎ）が適用される。

ＭＶＤＲビーム形成器を実装するモノ・フォーカス器３０３は、各周波数帯ｋに対して使用することができる。
帯域ｋにおけるビン内の信号ｘ（ｂ，ｎ）の共分散行列の推定値（また、いくつかの時間指数ｎにわたって時間的平均をとる可能性がある）。
フォーカス方向に応じたステアリングベクトルである。ＦＯＡ信号の例では、ステアリングベクトルがフォーカス方向に向けられた単位ベクトルに基づいて生成されてもよい。例えば、ＦＯＡのためのステアリングベクトルは、
であり得る。ここで、ｖ（ｎ）は、フォーカス方向に向かっている（配位順序付けｙ，ｚ，ｘにおける）単位ベクトルである。

共分散行列の推定値とステアリングベクトルに基づいて、既知のＭＶＤＲ公式を用いてウェイトｗ（ｋ，ｎ）を生成することができる。

したがって、モノ・フォーカス器３０３は、いくつかの実施形態ではアンビソニックパナー３０５に提供される単一チャネルフォーカス出力信号３０６を提供することができる。

いくつかの実施形態では、アンビソニックス・パナー３０５がチャネル（デ）フォーカス出力信号３０６および（デ）フォーカス方向３０４を受信し、アンビソニック信号を生成するように構成され、ここで、モノ・フォーカス信号はフォーカス方向に位置決めされる。アンビソニックス・パナー３０５によって生成されるフォーカスされた時間－周波数アンビソニック信号３０８出力は、
に基づいて生成され得る。

いくつかの実施形態における（デ）フォーカスされた時間－周波数アンビソニック信号ｙ_ＦＯＡ（ｂ，ｎ）３０８は、次いで、ミキサ３１１に出力され得る。

いくつかの実施形態では、ＭＶＤＲなどのビームフォーマの出力がポスト・フィルタとカスケード接続することができる。ポスト・フィルタは、典型的には周波数帯域内のビーム形成器出力の利得またはエネルギーを適応的に変更するプロセスである。例えば、ＭＶＤＲは個々の強い干渉音源の抑制に効果的であるが、交通騒音を伴う屋外録音のような周囲の音響シーンにおいてのみ適度に性能を発揮することが知られている。これは、ＭＶＤＲが、干渉物が存在する方向にビームパターン最小を操縦することを効果的に目的とするからである。干渉音が交通騒音のように空間的に広がる場合、ＭＶＤＲは効果的に干渉を抑制しない。

したがって、ポスト・フィルタは、一部の実施形態ではフォーカス方向における周波数帯域内の音エネルギーを推定するために実装することができる。次に、ビーム形成器出力エネルギーを同じ周波数帯域で測定し、推定した目標スペクトルを改善するために音スペクトルを補正するために周波数帯で利得を適用する。そのような実施形態では、ポスト・フィルタが干渉音をさらに抑制することができる。

ポスト・フィルタの例は、ＤｅｌｉｋａｒｉｓＭａｎｉａｓ、Ｓｙｍｅｏｎ、およびＶｉｌｌｅＰｕｌｋｋｉに記載されている。「マイクロフォンアレイを利用する空間フィルタリング応用のための断面パターンコヒーレンスアルゴリズム」ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ、Ｓｐｅｅｃｈ、ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ２１、Ｎｏ．１１（２０１３）：２３５６－２３６７、ここでは、見る方向の目標エネルギーを、１次と２次の球状高調波信号間の断面スペクトルエネルギー推定値を用いて推定する。クロススペクトル推定値は、ゼロ番目（無指向性）および一番目（双極子）次数の球面調和信号の間などの他のパターンについても得ることができる。クロススペクトル推定は、目標方向に対するエネルギー推定を提供する。

ポスト・フィルタリングが実装される場合、ビーム成形方程式に利得ｇ（ｋ，ｎ）を付加することができる。

この利得ｇ（ｋ，ｎ）は、クロススペクトルエネルギー推定法を用いて以下のように導出することができる。最初に、フォーカス方向に向かってポジティブローブを有する無指向性ＦＯＡ信号成分と８の字型信号との間の相互相関を定式化し、
ここで、サブインデックス（Ｗ，Ｙ，Ｚ，Ｘ）を有する信号ｘ（ｂ，ｎ）は４つのＦＯＡ信号の信号成分を示し、＊印は複素共役を示し、Ｅは期待演算子を示し、これは所望の時間領域にわたる平均演算子として実装できる。次に、帯域ｋに対する実数値の非負の相互相関測定は、次式によって定式化される。
実際には、値Ｃ（ｋ，ｎ）が帯域ｋにおけるフォーカス方向から到来する音のエネルギー推定値である。次に、ビームフォーム出力ｙ（ｂ，ｎ）＝ｗ^Ｈ（ｋ，ｎ）ｘ（ｂ，ｎ）の帯域ｋ内のビンのエネルギーＤ（ｋ，ｎ）を推定した。
次いで、空間フィルタ・利得は次のように求められる。

換言すれば、エネルギー推定値Ｃ（ｋ，ｎ）がビームフォーム出力エネルギーＤ（ｋ，ｎ）より小さい場合、帯域ｋでのビームフォーム出力エネルギーは空間フィルタによって低減される。このように、空間フィルタの機能は、フォーカス方向から到達する音のスペクトルにより近いビーム形成器出力のスペクトルをさらに調整することである。

いくつかの実施形態では、（デ）フォーカスプロセッサがこのポスト・フィルタリングを利用することができる。モノ・フォーカス器３０３のビーム形成された出力ｙ（ｂ，ｎ）はポスト・フィルタ利得で、周波数帯域内で処理され、ポスト・フィルタされたビーム形成された出力ｙ’（ｂ，ｎ）を生成することができ、ここで、ｙ’（ｂ，ｎ）は、ｙ（ｂ，ｎ）の代わりに適用される。上記の例として記載されたもの以外に適用され得る様々な適切なビームフォーマおよびポスト・フィルタが存在することが理解される。

いくつかの実施形態では、フォーカスプロセッサ３５０がミキサ３１１を備える。ミキサは、（デ）フォーカスされた時間周波数アンビソニック信号ｙ^ＦＯＡ（ｂ，ｎ）３０８および非フォーカス時間周波数アンビソニック信号ｘ（ｂ，ｎ）３０２（ＭＶＤＲ推定および処理がルックアヘッド処理を含む潜在的遅延調整を伴う）を受信するように構成される。さらに、ミキサ３１１は、（デ）フォーカス量およびフォーカス／デフォーカス制御パラメータ３１０を受信する。

この例では、（デ）フォーカス制御パラメータが「フォーカス」または「デフォーカス」のバイナリスイッチである。０．．１（ここで、１は最大フォーカスである）の間の因子として表される（デ）フォーカス量パラメータａ（ｎ）は、どのモードが使用されるかに応じて、フォーカス量またはデフォーカス量のいずれかを記述するために利用される。

いくつかの実施形態ではデフォーカスパラメータが「フォーカス」モードにあるとき、ミキサ３１１の出力は、
である。いくつかの実施形態では、上記の式の値ｙ_ＦＯＡ（ｋ，ｎ）が（デ）フォーカス効果をさらにエンファシス（強調）するために、混合の前に因子（例えば、４の定数）によって修正される。

いくつかの実施形態では、ミキサが、デフォーカスパラメータが「デフォーカス」モードにあるとき、
を実行するように構成することができる。

換言すれば、ａ（ｎ）が０であるとき、デフォーカス処理もゼロであるが、しかしながら、ａ（ｎ）が１より大きいかまたは最大１であるとき、混合手順は空間ＦＯＡ信号ｘ（ｂ，ｎ）から、空間化フォーカス信号である信号ｙ_ＦＯＡ（ｂ，ｎ）を差し引く。減算により、フォーカス方向からの信号成分の振幅が減少する。言い換えると、デフォーカス処理が行われ、結果として生じるアンビソニック空間オーディオ信号は、フォーカス方向からの音に対して振幅が減少する。いくつかの構成では、ｙ_ＭＩＸ（ｂ，ｎ）３１２がデフォーカス処理によるラウドネスの平均損失を説明するために、ａ（ｎ）の関数として、原則に基づいて増幅され得る。

ミキサ３１１の出力、混合時間－周波数アンビソニック・オーディオ信号３１２は、逆フィルタバンク３１３に渡される

いくつかの実施形態では、フォーカスプロセッサ３５０が、混合時間－周波数アンビソニック・オーディオ信号３１２を受信し、オーディオ信号を時間領域に変換するように構成された逆フィルタバンク３１３を含む。逆フィルタバンク３１３は、適当なパルス符号変調アンビソニック・オーディオ信号を、付加されたフォーカス／デフォーカスで生成する。

図３ｂには、図３ａに示すＦＯＡフォーカスプロセッサの動作３６０のフローチャートが示されている。

初期動作は、ステップ３６１によって、図３ｂに示されるように、アンビソニック（ＦＯＡ）オーディオ信号（および方向、幅、量または他の制御情報などのフォーカスパラメータ）を受信している。

次の動作はステップ３６３によって、図３ｂに示すように、変換されたアンビソニック・オーディオ信号を時間－周波数領域に生成することである。

時間－周波数領域のアンビソニック・オーディオ信号を生成することにより、次の動作は、ステップ３６５によって図３ｂに示されるように、フォーカス方向（例えば、ビームフォーミングを使用する）に基づいて、時間－周波数領域のアンビソニック・オーディオ信号から、モノ・フォーカスのアンビソニック・オーディオ信号を生成することの１つである。

次いで、ステップ３６７によって、図３ｂに示されるようなフォーカス方向に基づいて、モノ－（デ）フォーカスアンビソニック・オーディオ信号に対してアンビソニックスパンニングが実行される。

次いで、パンされたアンビソニック・オーディオ信号（（デ）フォーカスされた時間－周波数アンビソニック信号）は、ステップ３６９によって、図３ｂに示すように、（デ）フォーカス量および（デ）フォーカス制御パラメータに基づいて、フォーカスされていない時間－周波数アンビソニック信号と混合される。

混合されたアンビソニック・オーディオ信号は、次いで、ステップ３７１によって、図３ｂに示されるように逆変換され得る。

次いで、ステップ３７３によって、図３ｂに示されるように、時間領域のアンビソニック・オーディオ信号が出力される。

図４ａを参照すると、入力としてパラメトリック空間オーディオ信号を受信するように構成されたフォーカスプロセッサが示されている。パラメトリック空間オーディオ信号は、オーディオ信号と、周波数帯域における方向（１つ以上）および直接対総エネルギー比（１つ以上）などの空間メタデータとを含む。パラメトリック空間オーディオ信号の構造と生成は既知であり、それらの生成はマイクロフォンアレイ（例えば、携帯電話、ＶＲカメラ）から説明されてきた。さらに、ラウドスピーカ信号およびアンビソニック信号からパラメトリック空間オーディオ信号を生成することができる。いくつかの実施形態では、パラメトリック空間オーディオ信号がＩＶＡＳ（ＩｍｍｅｒｓｉｖｅＶｏｉｃｅａｎｄＡｕｄｉｏＳｅｒｖｉｃｅｓ）オーディオストリームから生成されてもよく、ＩＶＡＳオーディオストリームは空間メタデータおよびオーディオ・チャネルの形態に復号化および逆多重化されてもよい。そのようなパラメトリック空間オーディオストリームにおけるオーディオ・チャネルの典型的な数は２つのオーディオ・チャネルオーディオ信号であるが、いくつかの実施形態ではオーディオ・チャネルの数が任意の数のオーディオ・チャネルとすることができる。

いくつかの例では、パラメトリック情報が６自由度（６ＤＯＦ）再生で実施することができる奥行き／距離情報を含む。６ＤＯＦでは、距離メタデータを（他のメタデータと共に）使用して、ユーザの動きの機能として、音エネルギーおよび方向がどのように変化すべきかを決定する。

この例では、各空間メタデータ方向パラメータが直接対総エネルギー比および距離パラメータの両方に関連付けられる。パラメトリック空間オーディオキャプチャに関連する距離パラメータの推定は、ＧＢ特許文献ＧＢ１７１００９３．４およびＧＢ１７１００８５．０などの以前の出願で詳述されており、明確にするためにこれ以上探索されない。

パラメトリック空間オーディオ４００を受信するように構成されたフォーカスプロセッサ４５０は、（デ）フォーカス効果を可能にするために、パラメトリック空間オーディオ信号の直接成分および周囲成分がどれだけ減衰またはエンファシス（強調）されるべきかを決定するために、（デ）フォーカスパラメータを使用するように構成される。フォーカスプロセッサ４５０は、以下の２つの構成で説明される。第１は（デフォーカス）パラメータ、すなわち、方向および量を使用し、さらに、フォーカス／デフォーカス円弧をもたらす幅を含む。この構成では、６ＤＯＦ距離パラメータはオプションである。第二はパラメータ（デ）フォーカス方向と量および距離と半径を使用し、これにより、ある位置にフォーカス／デフォーカス球が生じる。この構成では、６ＤＯＦ距離パラメータが必要である。これらの構成の違いは、以下の説明において必要な場合にのみ表現される。

以下の例では方法（および式）が経時的に変化することなく表現されるが、すべてのパラメータが経時的に変化し得ることを理解されたい。

いくつかの実施形態では、フォーカスプロセッサが、フォーカスパラメータ４０８と、さらに方向４０２（およびいくつかの実施形態では距離４２２）および周波数帯域における直接対総エネルギー比４０４からなる空間メタデータとを受信するように構成された比率修正器およびスペクトル調整係数決定器４０１を備える。

比率修正器およびスペクトル調整係数決定器４０１はフォーカスパラメータを受信し、さらに、方向４０２、周波数帯域における直接対全エネルギー比４０４（およびいくつかの実施形態では距離４２２）からなる空間メタデータを受信するように構成される。

以下の説明では、特に断らない限り、フォーカスパラメータが方向、幅、量を含む場合を考える。いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器４０１が、フォーカス方向（すべての周波数帯域ｋに対して１つ）と空間メタデータ方向（異なる周波数帯域ｋにおいて潜在的に異なる）との間の角度差を決定するように構成される。いくつかの実施形態では、ｖ_ｍ（ｋ）が、帯域ｋにおける空間メタデータの方向パラメータを指す列単位ベクトルとして、およびフォーカス方向を指す列単位ベクトルとして決定される。角度距離β（ｋ）は、
のように決定することができる。ここで、ｖ_ｍ ^Ｔ（ｋ）は、ｖ_ｍ（ｋ）の転置である。

次いで、比率修正器およびスペクトル調整係数決定器４０１は、直接利得パラメータｆ（ｋ）を決定するように構成される。フォーカス量パラメータａは、０．．１（ここで、０は、ゼロフォーカス／デフォーカスを意味し、１は、最大フォーカス／デフォーカス）と、例えばある時点で２０度であり得るフォーカス幅β_０との間の正規化された数値として表され得る。

比率修正器およびスペクトル調整因子決定器４０１が（デフォーカスとは対照的に）フォーカスを実行するように構成されるとき、例示的な利得公式は、
であり、ここで、ｃはフォーカスに対する利得定数であり、例えば４である。比率修正器およびスペクトル調整因子決定器４０１がデフォーカスを実行するように構成される場合、式の例は、
である。

例示的な公式はいくつかの実施形態では、一定ｃがフォーカス焦れの場合とデフォーカスの場合とで異なる値を有する可能性がある。さらに、実際には、フォーカス利得関数がフォーカス領域での高い値から非フォーカス領域での低い値に滑らかに遷移するように、上記の関数を滑らかにすることが望ましい場合がある。

以下の説明では、特に断らない限り、フォーカスパラメータが方向、距離、半径、量を含む場合を考える。いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器４０１が以下のように定式化される、フォーカス位置ｐ_ｆおよびメタデータ位置ｐ_ｍ（ｋ）を決定するように構成される。いくつかの実施形態では、ｖ_ｍ（ｋ）は、帯域ｋにおける空間メタデータの方向パラメータを指す列単位ベクトルとして、およびフォーカス方向を指す列単位ベクトルとして決定される。フォーカス位置は、ｐ_ｆ＝ｖ_ｆｄ_ｆとして定式化される。ここで、ｄ_ｆはフォーカス距離である。空間メタデータ位置は、帯域ｋにおける空間メタデータにおける距離パラメータであるとして定式化される。いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器４０１は、フォーカス位置（すべての周波数帯域ｋに対して１つ）と空間メタデータ位置、潜在的に異なる周波数帯域ｋにおいて異なる位置の差を決定するように構成される。位置差は、
のように決定することができる。ここで、｜｜オペレータはベクトルの距離を決定するためのものである。

次いで、比率修正器およびスペクトル調整係数決定器４０１は、直接利得パラメータｆ（ｋ）を決定するように構成される。フォーカス量パラメータは、０．．１（ここで０手段ゼロフォーカス／フォーカス解除および１手段最大フォーカス／フォーカス解除）の間の正規化された値ｒ_０として表され得、フォーカス半径は例えば、ある時間インスタンス１メートルであり得る。

比率修正器およびスペクトル調整因子決定器４０１が（デフォーカスとは対照的に）フォーカスを実行するように構成されるとき、例示的な利得公式は、
である。ここで、ｃはフォーカスに対する利得定数であり、例えば４である。比率修正器およびスペクトル調整因子決定器４０１がデフォーカスを実行するように構成される場合、式の例は、
である。

いくつかの実施形態では、定数ｃは、デフォーカスの場合とフォーカスの場合とで異なる値を有していてもよい。さらに、実際には、フォーカス利得関数がフォーカス領域での高い値から非フォーカス領域での低い値に滑らかに遷移するように、上記の関数を滑らかにすることが望ましい場合がある。

残りの説明は、上述の両方のフォーカスパラメータ構成に適用可能である。いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器４０１がさらに、パラメトリック空間オーディオ信号の新しい直接部分値を次のように決定するように構成される。
ここで、ｒ（ｋ）は、帯域ｋにおける直接対総エネルギー比値である。いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器４０１が（フォーカス処理における）新しい周囲部分値を、
のように決定するように構成される。

ある実施形態では、比率修正器およびスペクトル調節因子決定器４０１が、Ａ（ｋ）＝（１－ｒ（ｋ））を用いるデフォーカス処理において新しい周囲成分を決定するように構成され、これは、デフォーカス処理は空間的に周囲エネルギーに影響を与えないことを意味する。

次いで、比率修正器およびスペクトル調整係数決定器４０１は、スペクトル調整プロセッサ４０３に出力されるスペクトル補正係数を決定するように構成され、次いで、音響エネルギーの全体的な修正に基づいて定式化される。たとえば、
である。

いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器４０１が、
に基づいてｒ（ｋ）を置き換えるために、新たな修正された直接全エネルギー比パラメータｒ’（ｋ）を決定するように構成される。

数値的に決定されていない場合Ｄ（ｋ）＝Ａ（ｋ）＝０には、ｒ’（ｋ）をゼロに設定することもできる。

空間メタデータ内の方向値４０２（および距離値４２２）は、いくつかの実施形態では修正されずに渡され、出力され得る。

いくつかの実施形態におけるフォーカスプロセッサは、スペクトル調整プロセッサ４０３を備える。スペクトル調整プロセッサ４０３は、オーディオ信号（一部の実施形態では時間－周波数表現であるか、または代替的に、それらは最初に時間－周波数領域に変換される）４０６およびスペクトル調整係数４１２を受信するように構成される。いくつかの実施形態では、出力オーディオ信号４１４がまた、時間－周波数領域であってもよく、出力される前に時間領域に逆変換されてもよい。入力および出力の領域は、実装に依存し得る。

スペクトル調整プロセッサ４０３は帯域ｋごとに、帯域ｋ内のすべてのチャネルの周波数ビン（時間－周波数変換の）に、スペクトル調整係数ｓ（ｋ）を掛けるように構成される。言い換えれば、スペクトル調整プロセッサ４０３は、スペクトル調整を実行するように構成される。処理アーチファクトを避けるために、乗算／スペクトル補正を時間の経過と共に平滑化することができる。

言い換えれば、フォーカスプロセッサ４５０は、手順が（デ）フォーカスパラメータにしたがって修正されたパラメトリック空間オーディオ信号をもたらすように、オーディオ信号および空間メタデータのスペクトルを修正するように構成される。

図４ｂに関して、図４ａに示されるようなパラメトリック空間オーディオ入力プロセッサの動作の流れ図４６０が示される。

初期動作はステップ４６１によって、図４ｂに示されるように、パラメトリック空間オーディオ信号（およびフォーカス／デフォーカスパラメータまたは他の制御情報）を受信している。

次の動作はステップ４６３によって図４ｂに示されるように、パラメトリックメタデータを修正し、スペクトル調整係数を生成することである。

次の動作はステップ４６５によって図４ｂに示されるように、オーディオ信号に対するスペクトル調整を行うことである。

次に、ステップ４６７によって、スペクトル調整されたオーディオ信号および修正された（および修正されていない）メタデータを、図４ｂに示すように出力することができる。

図５ａを参照すると、入力５００としてマルチチャネルまたは物オーディオ信号を受信するように構成されたフォーカスプロセッサ５５０が示されている。そのような例におけるフォーカスプロセッサは、フォーカス利得決定器５０１を備えてもよい。フォーカス利得決定器５０１は、フォーカス／デフォーカスパラメータ５０８と、静的または時間的に変化し得るチャネル／物体の位置／方向情報とを受信するように構成される。フォーカス利得決定器５０１は、（デ）フォーカス方向、（デ）フォーカス量、（デ）フォーカス制御、およびオプションとして（デ）フォーカス距離および半径または（デ）フォーカス幅などの）（デ）フォーカスパラメータ５０８と、入力信号５００からの空間メタデータ情報５０２とに基づいて、いくつかの実施形態ではチャネル信号方向がシグナリングされ、いくつかの実施形態ではチャネル信号方向が想定される。例えば、６チャネルが存在する場合、方向は５．１オーディオ・チャネル方向であると仮定することができる。いくつかの実施形態では、チャネルの数の機能としてチャネル方向を決定するために使用されるルックアップテーブルがあってもよい。

いくつかの実施形態では、フィルタバンクは存在せず、換言すれば、１つの周波数帯域ｋのみが存在する。各オーディオ・チャネルに対する直接利得ｆ（ｋ）は、フォーカス利得としてフォーカス利得プロセッサ５０３に出力される。

いくつかの実施形態では、フォーカス利得プロセッサ５０３が、オーディオ信号およびフォーカス利得値５１２を受信し、フォーカス利得値５１２（チャネル当たり）に基づいてオーディオ信号５０６を処理するように構成され、潜在的にいくつかの時間的な平滑化を伴う。フォーカス・利得値５１２に基づく処理は、いくつかの実施形態ではフォーカス・利得値とチャネル／オブジェクト信号との乗算であってもよい。

フォーカス利得プロセッサ５０３の出力は、フォーカス処理されたオーディオ・チャネルである。チャネル方向／位置情報は変更されず、出力５１０としても提供される。

いくつかの実施形態では、デフォーカス処理が１つの方向よりも広く構成されることができる。例えば、フォーカス幅を入力パラメータとして含めることができるようにしてもよい。これらの実施形態では、ユーザがデフォーカスアークを生成することもできる。別の例では、フォーカス距離およびフォーカス半径を入力パラメータとして含めることができる場合がある。これらの実施形態では、ユーザが決定された位置でデフォーカス球を生成することができる。他の入力空間オーディオ信号タイプについても同様の手順を採用することができる。

いくつかの実施形態では、オーディオ・オブジェクト（空間メタデータ）が距離パラメータを含むことができ、これも考慮に入れることができる。例えば、フォーカス／デフォーカスパラメータはフォーカス位置（方向および距離）を決定することができ、また、半径パラメータは、その位置の周囲のフォーカス／デフォーカス領域を制御することができる。そのような実施形態では、ユーザが図１ｃに示され、先に説明されたようなデフォーカスパターンを生成することができる。同様に、別の空間的に関連するパラメータを定義して、ユーザがデフォーカス領域の異なる形状を制御できるようにすることもできる。いくつかの実施形態では、デフォーカス領域内のオーディオ・オブジェクトの減衰が、固定デシベル数（例えば、１０ｄＢ）による減衰に、０と１との間の所望のデフォーカス量を乗算し、デフォーカス方向の外側にオーディオ・オブジェクトを残す減衰であり得る。利得修正なしに（またはデフォーカス方向の外側のオーディオ・オブジェクトにフォーカス動作に関連する利得または減衰を適用しない）、直接利得ｆ（ｋ）パラメータ５１２を生成するように構成される。直接利得（フォーカス利得として出力される）の定式化において、フォーカス利得決定器５０１は、直接利得ｆ（ｋ）を決定するために、図４ａの比率修正器およびスペクトル調整係数決定器４０１の文脈で説明したものと同じ公式を利用することができる。例外は、オーディオ・オブジェクト／チャネルの場合、典型的には１つの周波数帯域のみが存在し、空間メタデータは典型的にはオブジェクトの方向／距離のみを示し、比率は示さないケースである。距離が利用可能でない場合、固定距離、例えば２メートルを仮定することができる。

図５ｂには、図５ａに示すマルチチャネル／オブジェクトオーディオ入力プロセッサの動作のフローチャート５６０が示されている。

初期動作はマルチチャネル／オブジェクトオーディオ信号を受信することであり、いくつかの実施形態では、ステップ５６１によって図５ｂに示されるように、チャネルの数および／またはチャネルの分布（およびフォーカス／デフォーカスパラメータまたは他の制御情報）などのチャネル情報を受信することである。

ステップ５６３によって図５ｂに示されるようなフォーカス利得ファクタを生成する次の動作。

次の動作はステップ５６５によって図５ｂに示されるように、各チャネルオーディオ信号に対してフォーカス利得を適用することである。

次いで、ステップ５６７によって、図５ｂに示すように、処理オーディオ信号および変更されていないチャネル方向（および距離）を出力することができる。

図６ａに関しては、アンビソニック・オーディオ入力に基づく再生プロセッサ６５０の一例が示されている（例えば、図３ａに示すように、サンプルのフォーカスプロセッサからの出力を受信するように構成してもよい）。

これらの例では、再生プロセッサがアンビソニック回転行列プロセッサ６０１を備えることができる。アンビソニック回転行列６０１は、アンビソニック信号をフォーカス／デフォーカス処理６００およびビュー方向６０２で受信するように構成される。アンビソニック回転行列プロセッサ６０１は、ビュー方向パラメータ６０２に基づいて回転行列を生成するように構成される。これはいくつかの実施形態では、ヘッド追跡アンビソニックバイノーラリゼーションに適用されるものなど、任意の適切な方法を使用することができる（またはより一般的には球面調和関数のこのような回転がオーディオ以外を含む多くの分野で使用される）。次に、回転行列がアンビソニック・オーディオ信号に適用される。その結果はフォーカス／デフォーカス６０４を加えた回転されたアンビソニック信号であり、アンビソニックから両耳フィルタ６０３に出力される。

アンビソニックからバイノーラルフィルタ６０３は、フォーカス／デフォーカス６０４が付加された回転されたアムビソニック信号を受け取るように構成される。アンビソニックからバイノーラルフィルタｌフィルタ６０３は、２つのバイノーラル信号６０６を生成するためにＫアンビソニック信号に適用される、有限インパルス応答（ＦＩＲ）フィルタの事前定式化された２ｘＫ行列を含み得る。４チャネルのＦＯＡオーディオ信号が示されているこの例では、Ｋ＝４である。ＦＩＲフィルタが頭部インパルス応答（ＨＲＩＲ）のセットに関して、最小二乗最適化法によって生成されてもよい。そのような設計手順の一例は、ＨＲＴＦデータセットを得るために、ＨＲＩＲデータセットを周波数ビンに（例えば、ＦＦＴによって）変換し、各周波数ビンについて、最小二乗法で、ＨＲＴＦデータセットのデータポイントにおいて利用可能なＨＲＴＦデータセットを近似する複素数値処理行列を決定することである。すべての周波数ビンに対して複素値行列がこのような方法で決定されるとき、結果は時間領域ＦＩＲフィルタとして（例えば逆数ＦＦＴによって）逆数変換されることができる。ＦＩＲフィルタは例えば、ハンウィンドウを使用することによってウィンドウ化することもできる。

いくつかの実施形態では、レンダリングがヘッドフォンではなく、ラウドスピーカに対するものである。アンビソニック信号をラウドスピーカ出力にレンダリングするために使用することができる多くの既知の方法がある。１つの例は、アンビソニック信号のターゲットラウドスピーカ構成への直鎖状復号であってもよい。これは、アンビソニック信号の次数が十分に高く、例えば、少なくとも三次、好ましくは四次である場合に、良好な期待空間忠実度で適用することができる。このような直鎖状復号化の具体例において、アンビソニック信号（アンビソニックビームパターンに対応する）に適用されたときに、最小二乗法センスにおいて、対象とするラウドスピーカ構成に適したベクトルベース振幅パンニング（ＶＢＡＰ）ビームパターンに近似するビームパターンに対応するラウドスピーカ信号を生成する、アンビソニック復号化行列が設計されてもよい。このような設計されたアンビソニック復号行列でアンビソニック信号を処理することは、拡声器オーディオ出力を生成するように構成されることができる。そのような実施形態では、再生プロセッサがスピーカ構成に関する情報を受信するように構成され、回転処理は必要とされない。

図６ｂには、図６ａに示すアンビソニック入力再生プロセッサの動作のフローチャート６６０が示されている。

初期動作はステップ６６１によって、図６ｂに示されるように、フォーカス／デフォーカス処理されたアンビソニック・オーディオ信号（およびビュー方向）を受信している。

次の操作は、ステップ６６３によって図６ｂに示されるようなビュー方向に基づいて回転行列を生成することの１つである。

次の操作は、ステップ６６５によって図６ｂに示されるようなフォーカス／デフォーカス処理を有する回転アンビソニック・オーディオ信号を生成するために、アンビソニック・オーディオ信号に回転行列を適用することである。

次に、次の動作は、ステップ６６７によって図６ｂに示されるように、、信号を適切なオーディオ出力フォーマット、例えばバイノーラル・フォーマット（またはマルチチャネル・オーディオ・フォーマットまたはラウドスピーカ・フォーマット）に変換することである。

次に、ステップ６６９によって、図６ｂに示すように、出力オーディオ・フォーマットが出力される。

図７ａに関して、パラメトリック空間オーディオ入力（例えば、図４ａに示される例示的なフォーカスプロセッサからの出力を受信するように構成され得る）に基づく再生プロセッサ７５０の例が示される。

いくつかの実施形態では、再生プロセッサが、（入力がすでに適切な時間－周波数領域にある場合を除いて）オーディオ・チャネル７００オーディオ信号を受信し、オーディオ・チャネルを周波数帯域に変換するように構成されたフィルタバンク７０１を備える。適切なフィルタバンクの例には、短時間フーリエ変換（ＳＴＦＴ）および錯体直交ミラーフィルタ（ＱＭＦ）バンクが含まれる。時間－周波数オーディオ信号７０２は、パラメトリックバイノーラルシンセサイザ７０３に出力することができる。

いくつかの実施形態では、再生プロセッサは、時間周波数オーディオ信号７０２と、修正された（および修正されていない）メタデータ７０４と、ビュー方向７０６（または適切な再生関連制御またはトラッキング情報）と、を受信するように構成されたパラメトリックバイノーラルシンセサイザ７０３を備える。６ＤＯＦ再生の文脈では、ユーザ位置がビュー方向パラメータと共に提供されてもよい。

パラメトリック両耳シンセサイザ７０３は、パラメトリック両耳化ブロックの前に既に信号およびメタデータに対してフォーカス修正が行われているので、バイノーラルオーディオ信号（周波数帯域で）７０８を生成するように構成された任意の適切な既知のパラメトリック空間合成方法を実装するように構成されることができる。パラメトリックバイノーラル合成のための公知の方法の１つは、時間－周波数オーディオ信号７０２を、周波数帯域直接－全比パラメータに基づいて周波数帯域直接および周囲部分信号に分割し、周波数帯域方向パラメータに対応するＨＲＴＦで周波数帯域直接部分を処理し、周囲部分をデコレレータで処理してバイノーラル拡散音場コヒーレンスを得、処理された直接および周囲部分を結合することである。バイノーラルオーディオ信号（周波数帯域内）７０８は、時間－周波数オーディオ信号７０２がどれだけのチャネルを有するかにかかわらず、２つのチャネルを有する。次いで、両耳化時間－周波数オーディオ信号７０８を逆フィルタバンク７０５に渡すことができる。本実施形態はさらに、バイノーラル化時間－周波数オーディオ信号７０８を受信し、印加されたフォワードフィルタバンクに逆数を印加するように構成された逆数フィルタバンク７０５を含む再生プロセッサを特徴とすることができ、このようにして、ヘッドフォン（図７ａには示されていない）による再生に適したフォーカス特性を有する時間領域バイノーラル化オーディオ信号７１０を生成する。

実施形態では、両耳オーディオ信号出力が、適当な拡声器合成方法を用いてパラメトリック空間オーディオ信号から出力される拡声器チャネルオーディオ信号に置き換えられる。任意の適切なアプローチを使用することができ、例えば、ビュー方向パラメータがラウドスピーカの位置の情報と置き換えられ、パラメトリックバイノーラルシンセサイザ７０３が、適切な公知方法に基づいて、パラメトリックラウドスピーカシンセサイザと置き換えられる。パラメトリック・ラウドスピーカ合成のための公知の方法の１つは、時間－周波数オーディオ信号７０２を、周波数帯域における直接対合計比パラメータに基づいて、周波数帯域における直接対周辺部分信号に分割し、周波数帯域における直接部分を、ラウドスピーカ構成および周波数帯域における方向パラメータに対応するベクトル－ベース振幅パンニング（ＶＢＡＰ）利得で処理し、アンビエント部分を、インコヒーレント・ラウドスピーカ信号を得るために、アンビエント部分をデコレレータで処理し、処理された直接部分および周囲部分を組み合わせることである。ラウドスピーカオーディオ信号（周波数帯域単位）は、時間－周波数オーディオ信号７０２がどれだけのチャネルを有するかにかかわらず、ラウドスピーカ構成によって決定されるチャネルの数を有する。

図７ｂに関して、図７ａに示されるようなパラメトリック空間オーディオ入力再生プロセッサの動作の流れ図７６０が示される。

最初の動作はステップ７６１によって図７ｂに示されるように、フォーカス／デフォーカス処理されたパラメトリック空間オーディオ信号（およびビュー方向または他の再生関連制御またはトラッキング情報）を受信することである。

次の動作は、ステップ７６３によって図７ｂに示されるようにオーディオ信号を時間－周波数変換する１つ。

次の動作は、ステップ７６５によって図７ｂに示されるように、時間－周波数変換されたオーディオ信号、メタデータおよび視線方向（または他の情報）に基づいて、パラメトリックバイノーラル（またはラウドスピーカチャネルフォーマット）プロセッサを適用することである。

次に、次の動作はステップ７６７によって、図７ｂに示されるように、生成された両耳またはラウドスピーカ・チャネル・オーディオ信号を逆変換する。

次に、ステップ７６９によって、図７ｂに示すように、出力オーディオ・フォーマットが出力される。

オーディオ信号がマルチチャネルオーディオの形態であり、図５ａのフォーカスプロセッサ５５０が適用されるときの再生プロセッサのためのスピーカ出力を考慮すると、いくつかの実施形態では、再生プロセッサが、出力スピーカ構成が入力信号のフォーマットと同じであるパススルーを備えることができる。出力ラウドスピーカ構成が入力ラウドスピーカ構成と異なるいくつかの実施形態では、再生プロセッサがベクトルベース振幅パニング（ＶＢＡＰ）プロセッサを備えることができる。次に、フォーカス処理されたオーディオ・チャネルの各々を、既知の振幅パンニング技術であるＶＢＡＰを用いて処理して、対象スピーカ構成を用いてそれらを空間的に再生することができる。このようにして、出力オーディオ信号は出力ラウドスピーカのセットアップにマッチする。

いくつかの実施形態では、第１の拡声器構成から第２の拡声器構成への転化が任意の適切な振幅パンニング技術を用いて実施されてもよい。例えば、振幅パンニング技術は、第１のラウドスピーカ構成のＭ個のチャネルから第２のラウドスピーカ構成のＮ個のチャネルへの転化を定義する振幅パンニング利得のＮ×Ｍ行列を導出し、次いで、第１のラウドスピーカ構成にしたがってマルチチャネルラウドスピーカ信号として提供される中間の空間オーディオ信号のチャネルを乗算するために、行列を使用することを含み得る。中間空間オーディオ信号は図２ａに示すように、フォーカス／デフォーカスされた音成分２０４を有するオーディオ信号に類似していると理解することができる。非限定的な例として、ＶＢＡＰ振幅パンニング利得の導出は、ＶｉｌｌｅのＰｕｌｋｋｉ：「ベクトルベース振幅パンニングを用いた仮想音源位置決め」、オーディオ工学会誌４５、ｎｏ．６（１９９７）、ｐｐ．４５６－４６６に提供されている。

バイノーラル出力のために、マルチチャンネルラウドスピーカ信号フォーマット（および／または物）の任意の適切なバイノーラル化が実施されてもよい。例えば、典型的なバイノーラライゼーションは、頭部伝達関数（ＨＲＴＦ）を用いてオーディオ・チャネルを処理することと、リスニングルームの聴覚的印象を生成するために合成ルーム残響を追加することとを含むことができる。オーディオ・オブジェクト音の距離＋方向（すなわち、位置）情報は、例えば英国特許出願ＧＢ１７１００８５．０に概説されている原理を採用することによって、ユーザの動きによる６ＤＯＦ再生に利用することができる。

実装に適した例示的な装置が、適切なソフトウェア９０３を実行する携帯電話または携帯デバイス９０１の形成で図８に示されている。ビデオは例えば、携帯電話９０１を夢想（Ｄａｙｄｒｅａｍ）ビュータイプの装置に取り付けることによって再生することができる（明確にするための、ビデオ処理はここでは説明しない）。

オーディオビットストリーム取得器９２３は例えば、メモリから受信／検索されるオーディオビットストリーム９２４を得るように構成される。いくつかの実施形態では、モバイルデバイスが圧縮されたオーディオを受信し、それを復号するように構成されたデコーダ９２５を備える。デコーダの例は、ＡＡＣデコーディングの場合のＡＡＣデコーダである。結果として得られる復号化された（例えば、図３ａおよび図６ａに示す例を実施するアンビソニック（アンビソニック））オーディオ信号９２６は、フォーカスプロセッサ９２７に転送することができる。

携帯電話９０１はコントローラデータレシーバ９１１において外部コントローラからコントローラデータ９００を（例えば、Ｂｌｕｅｔｏｏｔｈを介して）受信し、そのデータをフォーカスパラメータ（コントローラデータから）決定器９２１に渡す。フォーカスパラメータ（コントローラデータからの）決定器９２１は、例えば、コントローラデバイスおよび／またはボタンイベントの向きに基づいて、フォーカスパラメータを決定する。フォーカスパラメータは提案されたフォーカスパラメータ（例えば、フォーカス／デフォーカス方向、フォーカス／デフォーカス量、フォーカス／デフォーカス高さ、およびフォーカス／デフォーカス幅）の任意の種類の組み合わせを含むことができる。フォーカスパラメータ９２２は、フォーカスプロセッサ９２７に転送される。

アンビソニック・オーディオ信号およびフォーカスパラメータに基づいて、９２７は、所望のフォーカス特性を有する修正アンビソニック信号９２８を生成するように構成される。これらの修正されたアムビソニック信号９２８は、アムビソニック・プロセッサ９２９に転送される。アンビソニック・バイノーラルプロセッサ９２９はまた、携帯電話９０１の方位追跡装置９１３からヘッド方位情報９０４を受信するように構成される。修正されたアンビソニック信号９２８およびヘッド方向情報９０４に基づいて、アンビソニック／バイノーラルプロセッサ９２９は、携帯電話から出力され、例えばヘッドフォンを使用して再生され得るヘッド追跡バイノーラル信号９３０を生成するように構成される。

図９は、フォーカス／デフォーカス方向、フォーカス／デフォーカス量、およびフォーカス／デフォーカス幅などの適切なフォーカス／デフォーカスパラメータを制御または生成するように構成され得る、一例の装置（またはフォーカス／デフォーカスパラメータ制御部）１０５０を示す。装置のユーザは、コントローラを所望の方向１００９に向け、フォーカス方向選択ボタン１００５を押すことによって、フォーカス方向を選択するように構成することができる。制御部は方位トラッカ１００１を有し、方位情報は（例えば、図８に示されるような（制御部データからの）フォーカスパラメータ決定器９２１における）フォーカス／デフォーカス方向を決定するために使用されてもよい。いくつかの実施形態におけるフォーカス／デフォーカス方向はフォーカス／デフォーカス方向を選択しながら、視覚ディスプレイにおいて視覚化することができる。

いくつかの実施形態では、フォーカス量がフォーカス量ボタン（図９に＋および－として示される）１００７を使用して制御することができる。各プレスは、フォーカス量を、例えば１０パーセントポイントの量だけ増減させる。いくつかの実施形態では、フォーカス量が０％に設定され、ユーザがマイナスボタンを押し、フォーカス量が１０％に設定され、フォーカス／デフォーカス制御部が「デフォーカス」モードに設定され、それに対応して、フォーカス量が０％に設定され、ユーザがプラスボタンを押した場合、フォーカス量が１０％に設定され、フォーカス／デフォーカス制御部が「フォーカス」モードに設定される。

いくつかの実施形態では、例えば、フォーカス信号の所望の周波数範囲またはスペクトル特性を決定することによって、フォーカスまたはデフォーカス処理をさらに指定することが望ましい場合がある。特に、オーディオ周波数範囲でオーディオスペクトルをエンファシス（強調）またはデエンファシス（非強調）して、明瞭度を改善したり、例えば低周波数含有量（例えば、２００Ｈｚ未満）、および高周波数含有量（例えば、８ｋＨｚを超える）を減衰させることによって話し手を遮断したりすることが有用であり、したがって、オーディオに関連する特に有用な周波数範囲を残す。

同様に、ユーザがデフォーカスされるべき方向を示すとき、オーディオ処理システムは減衰されるべき方向における干渉のスペクトルまたはタイプ（例えば、スピーチ、ノイズ）を分析することができる。次いで、この分析に基づいて、システムは、その干渉器によく適合する周波数範囲または周波数当たりのフォーカス解除量を決定することができた。例えば、干渉器は、高周波ノイズを発生する装置であってもよく、そのデフォーカス方向のための高周波は例えば、中低周波数よりも減衰されるのであろう。別の例ではデフォーカス方向は話者を有し、したがって、デフォーカス量は主に典型的なオーディオ周波数範囲を抑制するように周波数ごとに構成することができる。

フォーカス処理された信号は、自動利得制御またはエンハンスメント技術（例えば、帯域幅拡張、ノイズ抑制）のような任意の公知のオーディオ処理技術でさらに処理され得ることが理解される。

いくつかのさらなる実施形態では、フォーカス／デフォーカスパラメータ（方向、量、および制御を含む）は、コンテンツ作成者によって生成され、パラメータは空間オーディオ信号と一緒に送信される。例えば、オンサイトコメンテイタを伴うＶＲビデオ／オーディオの性質のドキュメンタリでは、デフォーカスされるべき解説者の方向を選択する必要があるユーザの代わりに、動的フォーカスパラメータプリセットを選択することができる。プリセットは、コンテンツ作成者によって、コメンテータの動きに追従するように微調整されていてもよい。例えば、デフォーカスは、コメンテータが話すときにのみイネーブルされる。言い換えると、コンテンツ作成者は、フォーカス／デフォーカスパラメータとして、いくつかの期待されるまたは推定される好みプロファイルを生成することができる。このアプローチは１つの空間オーディオ信号のみを伝達する必要があるが、異なる選好プロファイルを追加することができるため、有益である。フォーカスでイネーブルされていないレガシープレーヤは、フォーカス／デフォーカス処理を適用することなく、アンビソニックまたは他の信号タイプを単に復号するように構成することができる。

例示的な処理出力は、アンビソニック信号について説明された実装に基づいて、図１０に示される。この例では、３つの音源がオーディオシーン内にある。前方にある話し手、－９０度右にある話し手、左１１０度にあるホワイトノイズ干渉である。図１０は、フォーカス／デフォーカス制御部を「フォーカス」に設定した状態で、フォーカス処理がノイズ源が存在する方向を広範囲にエンファシスるためにどのように利用され、フォーカス／デフォーカス制御部を「デフォーカス」に設定した状態で、フォーカス処理が空間オーディオ出力において２つのトーカス信号を保持しながら、ノイズ源が存在する方向を広範囲にデエンファシスするためにどのように利用されるかを示す。したがって、アンビソニック信号は、正面に話者（特に信号Ｘで示される）、－９０度右に話者（特に信号Ｙで示される）、および１１０度左にノイズ干渉器（全ての信号で示される）を伴う行１１１１のアンビソニック信号によって示される例示的な状況において、３つの列（ｏｍｎｉＷ１１０１、水平ダイポールＹ１１０３およびＸ１１０５）に示される。次の列１１１３は、ノイズソースに向かってフルフォーカス処理が列われているアンビソニック・オーディオ信号を示している。一番下の行１１１５はノイズソースに向かって完全なデフォーカス処理（すなわち、ノイズをデエンファシス）を施したアンビソニック・オーディオ信号を示し、大部分のスピーチソースをアクティブにしたままにする。

図１１を参照すると、分析または合成装置として使用することができる例示的な電子装置が示されている。デバイスは、任意の適切な電子デバイスまたは装置であってもよい。例えば、いくつかの実施形態では、デバイス１７００がモバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。いくつかの実施形態では、デバイス１２００が少なくとも１つのプロセッサまたは中央処理装置１２０７を備える。プロセッサ１２０７は、本明細書で説明されるような方法などの様々なプログラム・コードを実行するように構成され得る。

いくつかの実施形態では、装置１２００がメモリ１２１１を備える。いくつかの実施形態では、少なくとも１つのプロセッサ１２０７がメモリ１２１１に結合される。メモリ１２１１は、任意の適切な記憶手段とすることができる。ある実施形態では、メモリ１２１１がプロセッサ１２０７上に実装可能なプログラム・コードを格納するためのプログラム・コード・セクションを含む。さらに、いくつかの実施形態では、メモリ１２１１は、データ、例えば、本明細書で説明される実施形態にしたがって処理された、または処理されるべきデータを格納するための格納されたデータ・セクションをさらに備えることができる。プログラム・コード・セクション内に記憶された実施されたプログラム・コードおよび記憶されたデータ・セクション内に記憶されたデータは、メモリ・プロセッサ結合を介して必要なときにいつでもプロセッサ１２０７によって検索することができる。

いくつかの実施形態では、装置１２００がユーザインターフェース１２０５を備える。ユーザインターフェース１２０５は、いくつかの実施形態ではプロセッサ１２０７に結合することができる。いくつかの実施形態では、プロセッサ１２０７がユーザインターフェース１２０５の動作を制御し、ユーザインターフェース１２０５から入力を受信することができる。ある実施形態では、ユーザインターフェース１２０５が、ユーザが例えばキーパッドを介して、装置１２００にコマンドを入力することを可能にすることができる。ある実施形態では、ユーザインターフェース１２０５が、ユーザが装置１２００から情報を取得することを可能にすることができる。例えば、ユーザインターフェース１２０５は、装置１２００からユーザに情報を表示するように構成されたディスプレイを含むことができる。ユーザインターフェース１２０５は、いくつかの実施形態では、情報をデバイス１２００に入力することを可能にすることと、さらに情報をデバイス１２００のユーザに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。

いくつかの実施形態では、装置１２００が入力／出力ポート１２０９を備える。入出力ポート１２０９は、いくつかの実施形態ではトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ１２０７に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の好適なトランシーバまたは送信機および／または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。

トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム（ＵＭＴＳ）プロトコル、例えばＩＥＥＥ８０２．Ｘのような無線ローカルエリアネットワーク（ＷＬＡＮ）プロトコル、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）のような適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路（ＩＲＤＡ）を使用することができる。

トランシーバ入出力ポート１２０９は信号を受信するように構成されることができ、いくつかの実施形態では、本明細書に記載されるように、フォーカスパラメータを得る。

いくつかの実施形態では、装置１２００が適切なコードを実行するプロセッサ１２０７を使用することによって、適切なオーディオ信号を生成するために使用されてもよい。入力／出力ポート１２０９は、任意の適切なオーディオ出力、例えば、マルチチャネルスピーカシステムおよび／またはヘッドフォン（ヘッドトラック付きまたは非トラック付きヘッドフォンであってもよい）または同様のものに結合されてもよい。

一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実施することができる。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様はコントローラ、マイクロプロセッサ、または他の計算装置によって実行されてもよいファームウェアまたはソフトウェアで実装されてもよいが、本発明はそれに限定されない。本発明の様々な態様はブロック図、フローチャートとして、またはいくつかの他の絵画的表現を使用して図示および目的され得るが、本明細書で目的されるこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他の計算装置、あるいはそれらのいくつかの組合せで実装され得ることをよく理解されたい。

本発明の実施形態は、プロセッサエンティティ内などのモバイル装置のデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、あるいはソフトウェアとハードウェアの組み合わせによって実行可能なコンピュータソフトウェアによって実現することができる。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表すことができることに留意されたい。このソフトウェアは、メモリチップなどの物理メディア、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー（登録商標）ディスクなどの磁気メディア、およびたとえばＤＶＤやそのデータ変異体などの光学メディアに格納することができる。

メモリはローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよびリムーバブルメモリなど、任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサはローカル技術環境に適した任意のタイプとすることができ、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの１つ以上を含むことができる。

本発明の実施形態は、集積回路モジュールなどの様々な部品で実施することができる。集積回路の設計は高度に自動化された処理によるものであり、大規模である。論理レベルの設計を、エッチングされ、半導体基板上に形成される準備ができている整った半導体回路設計に変換するための、複雑で強力なソフトウェアツールが利用可能である。

カリフォルニア州サンノゼにあるシノプシス（Ｓｙｎｏｐｓｙｓ、ＩｎｃｏｆＭｏｕｎｔａｉｎＶｉｅｗ、ＣａｌｉｆｏｒｎｉａａｎｄＣａｄｅｎｃｅＤｅｓｉｇｎ）から提供されているようなプログラムは、設計の十分に確立されたルール、および予め記憶された設計モジュールのライブラリを用いて、導体を自動的にルーティングし、半導体チップ上の部品の位置を特定する。半導体回路の設計が完了すると、標準化された電子フォーマット（例えば、Ｏｐｕｓ、ＧＤＳＩＩなど）の結果として得られる設計は、製造のために半導体製造施設または「ファブ」に送信されてもよい。

前述の説明は、本発明の例示的な実施形態の完全かつ有益な説明を、例示的かつ非限定的な例として提供した。しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になる。しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。

Claims

少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備える装置であって、前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサを用いて、前記装置に少なくとも、
デフォーカス方向を取得するステップと、
空間オーディオ信号の他の部分の少なくとも一部に対して前記デフォーカス方向の前記空間オーディオ信号のある部分の少なくとも一部の相対的なデエンファシスを制御するように、修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、前記デフォーカス方向のデフォーカス量を用いて、オーディオシーンを表す空間オーディオ信号を処理するステップと、
前記処理された空間オーディオ信号を出力するステップであって、前記デフォーカス方向に基づく前記修正されたオーディオシーンが、前記空間オーディオ信号の他の部分の少なくとも一部に対する前記デフォーカス方向の前記空間オーディオ信号の前記ある部分の少なくとも一部における前記デエンファシスを可能にする、出力するステップと、
を実行させるように構成され、
前記装置は、さらに、前記デフォーカス量を得るステップを実行するようにされ、
前記空間オーディオ信号を処理することは、前記装置に、前記デフォーカス量にしたがって、前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向における前記空間オーディオ信号の前記ある部分の少なくとも一部における相対的デエンファシスを制御するステップを実行させることを含む、
装置。
前記空間オーディオ信号を処理することは、前記装置に、
前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向の前記空間オーディオ信号の前記ある部分の少なくとも一部のエンファシスを減少させるステップと、
前記デフォーカス方向の前記空間オーディオ信号の前記ある部分に対して、前記空間オーディオ信号の他の部分の少なくとも一部のエンファシスを増加させるステップと、
のうちの少なくとも１つを実行させることを含む、請求項１に記載の装置。
前記空間オーディオ信号を処理することが、前記装置に、前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス量にしたがって前記デフォーカス方向の前記空間オーディオ信号の前記ある部分の少なくとも一部において、音レベルを減少させるステップと、
前記デフォーカス量にしたがって、前記デフォーカス方向における前記空間オーディオ信号の前記ある部分に対して前記空間オーディオ信号の他の部分の少なくとも一部の音レベルを増加させるステップと、
のうちの少なくとも１つを実行させることを含む、請求項１に記載の装置。
前記装置が、デフォーカス形状を取得するようにされるステップを含む、請求項１に記載の装置であって、
前記空間オーディオ信号を処理することが、前記装置に、前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向で、前記デフォーカス形状内において、前記空間オーディオ信号の前記ある部分の少なくとも一部において、相対的デエンファシスを制御するステップを実行させることを含む、
装置。
前記空間オーディオ信号を処理することが、前記装置に、前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向のおよびデフォーカス形状内からの前記空間オーディオ信号の前記ある部分における少なくとも一部のエンファシスを減少させるステップと、
前記空間オーディオ信号の前記デフォーカス方向および前記デフォーカス形状内の前記空間オーディオ信号の前記ある部分に対して、前記空間オーディオ信号の他の部分の少なくとも一部のエンファシスを増加させるステップと、
のうちの少なくとも１つを実行させることを含む、請求項４に記載の装置。
前記空間オーディオ信号を処理することが、
前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記空間オーディオ信号のデフォーカス方向で、かつ、得られたデフォーカス形状内からデフォーカス量にしたがって、前記空間オーディオ信号の前記ある部分の少なくとも一部における音レベルを減少させるステップと、
前記空間オーディオ信号の他の部分の少なくとも一部において、前記空間オーディオ信号の前記デフォーカス方向の部分と前記デフォーカス量に従って、得られたデフォーカス形状内からの相対的な音レベルを増加させるステップと、
のうちの少なくとも１つを前記装置に実行させることを含む、請求項１に記載の装置。
さらに、前記処理された空間オーディオ信号を出力することの少なくとも１つの態様を制御するための再生制御情報を取得するステップを実行するようにされ、
前記装置は、前記処理された空間オーディオ信号を出力するステップを実行するようにされ、
前記空間オーディオ信号を処理することは、さらに、前記装置に、
前記再生制御情報に従って出力空間オーディオ信号を生成するために、前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表す処理された前記空間オーディオ信号を処理するステップ、または、
前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表す前記処理された空間オーディオ信号を生成し、前記処理された空間オーディオ信号を前記出力空間オーディオ信号として出力するために、前記装置に前記オーディオシーンを表す空間オーディオ信号を処理させる前に、前記再生制御情報にしたがって前記空間オーディオ信号を処理するステップ、
のうちの１つを実行させることを含む、請求項１に記載の装置。
前記空間オーディオ信号および前記処理された空間オーディオ信号が、それぞれのアンビソニック信号を含み、
前記空間オーディオ信号を処理することが、１つ以上の周波数サブ帯域に対して、前記装置に、
前記空間オーディオ信号から、フォーカス方向から到来する音成分を表す単一チャネルターゲットオーディオ信号を抽出するステップ、
フォーカスされた空間オーディオ信号を生成するステップであって、前記フォーカスされた空間オーディオ信号が前記デフォーカス方向によって定義される空間位置に配置される、ステップ、
または、
前記空間オーディオ信号から減算した前記フォーカスされた空間オーディオ信号の線形結合として、前記処理された空間オーディオ信号を生成するステップであって、前記フォーカスされた空間オーディオ信号および前記空間オーディオ信号の少なくとも１つは、前記デフォーカス方向における音の相対レベルを低下させるように、前記デフォーカス量に基づいて導出されるそれぞれのスケーリング係数によって、スケールされる、ステップ、
を実行させることを含む、請求項１に記載の装置。
前記単一チャネルターゲットオーディオ信号を抽出することは、前記装置に、
ビームフォーミングを適用して、前記空間オーディオ信号から、前記デフォーカス方向から到来する前記音成分を表すビームフォーミング信号を導出するステップ、
または、
前記ビームフォーミング信号に基づいて前記処理された空間オーディオ信号を導出するために、ポストフィルタを適用するステップであって、それによって、前記ビームフォーミング信号のスペクトルを、前記デフォーカス方向から到来する前記音のスペクトルに近似するように調整する、ステップ、
を実行させることを含む、
請求項８に記載の装置。
前記空間オーディオ信号および前記処理された前記空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含み、
パラメトリック空間オーディオ信号は、１つ以上のオーディオチャネルおよび空間メタデータを含み、
前記空間メタデータは、複数の周波数サブ帯域に対するそれぞれの方向標示およびエネルギー比率パラメータを含み、
前記空間オーディオ信号を処理することが、前記装置に、
１つ以上の周波数サブ帯域について、前記デフォーカス方向と、前記空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算するステップ、
前記それぞれの周波数サブ帯域について計算された角度差に基づいて、前記角度差の所定の関数と前記デフォーカス量に基づいて導かれるスケーリング係数とを用いて、前記１つ以上の周波数サブ帯域のそれぞれの利得値を導出するステップ、
前記処理された空間オーディオ信号の１つ以上の周波数サブ帯域について、前記空間オーディオ信号の前記それぞれの周波数サブ帯域の前記エネルギー比率パラメータと前記利得値とに基づいて、それぞれの更新された指向性エネルギー値を計算するステップ、
前記処理された空間オーディオ信号の前記１つ以上の周波数帯域について、前記空間オーディオ信号の前記それぞれの周波数サブ帯域のエネルギー比率パラメータと前記スケーリング係数とに基づいて、それぞれの更新された周囲エネルギー値を計算するステップ、
前記更新された指向性エネルギーを前記更新された直接エネルギーと周囲エネルギーの合計で割った値に基づいて、前記処理された空間オーディオ信号の前記１つ以上の周波数サブ帯域のそれぞれの修正されたエネルギー比率パラメータを計算するステップ、
前記更新された直接エネルギーと周囲エネルギーの合計に基づいて、前記処理された空間オーディオ信号の前記１つ以上の周波数サブ帯域のそれぞれのスペクトル調整係数を計算するステップ、
または、
前記空間オーディオ信号の前記１つ以上のオーディオチャネル、前記空間オーディオ信号の前記方向標示、修正されたエネルギー比率パラメータ、および前記スペクトル調整係数を含む指示処理された空間オーディオ信号を構成するステップ、
を実行させることを含む、
請求項１に記載の装置。
前記空間オーディオ信号および前記処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号からなり、パラメトリック空間オーディオ信号は、１つ以上のオーディオチャネルおよび空間メタデータからなり、前記空間メタデータは、複数の周波数サブ帯域に対するそれぞれの方向標示およびエネルギー比率パラメータからなり、
ここで、
前記空間オーディオ信号を処理することが、前記装置に、
１つ以上の周波数サブ帯域について、前記デフォーカス方向と、前記空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算するステップ、
角度差の所定の関数と、前記デフォーカス量に基づいて導かれるスケーリング係数とを用いて、前記それぞれの周波数サブ帯域について計算された角度差に基づいて、前記１つ以上の周波数サブ帯域のそれぞれの利得値を導出するステップ、
前記処理された空間オーディオ信号の１つ以上の周波数サブ帯域について、前記空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比率パラメータと前記利得値に基づいて、それぞれの更新された指向性エネルギー値を計算するステップ、
前記処理された空間オーディオ信号の前記１つ以上の周波数帯域について、前記空間オーディオ信号の前記それぞれの周波数サブ帯域の前記エネルギー比率パラメータと、前記スケーリング係数とに基づいて、それぞれの更新されたアンビエントエネルギー値を計算するステップ、
更新された指向性エネルギーを更新された直接エネルギーと周囲エネルギーの合計で割った値に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブ帯域のそれぞれの修正されたエネルギー比率パラメータを計算するステップ、
前記更新された直接エネルギーと周囲エネルギーの合計に基づいて、前記処理された空間オーディオ信号の１つ以上の周波数サブ帯域に対するそれぞれのスペクトル調整係数を計算するステップ、
空間オーディオ信号の１つ以上のオーディオチャネルのそれぞれの周波数帯域に、前記それぞれの周波数帯域に対して導出された前記スペクトル調整係数を乗じることによって、前記１つ以上の周波数サブ帯域において、１つ以上の拡張オーディオチャネルを導出するステップ、
または、
前記１つ以上の拡張オーディオチャネル、前記空間オーディオ信号の前記方向標示、および前記修正されたエネルギー比率パラメータを含む前記処理された空間オーディオ信号を構成するステップ、
を実行させることを含む、
請求項１に記載の装置。
前記空間オーディオ信号および前記処理された空間オーディオ信号は、第１の所定のラウドスピーカ構成にしたがうそれぞれのマルチチャネルラウドスピーカ信号を含み、
前記空間オーディオ信号を処理することは、前記装置に、
前記デフォーカス方向と、前記空間オーディオ信号のそれぞれのチャネルについて示される、ラウドスピーカ方向との間のそれぞれの角度差を計算するステップ、
前記角度差の所定の関数と前記デフォーカス量に基づいて導出されるスケーリング係数とを用いて、各チャネルに対して計算された前記角度差に基づいて、前記空間オーディオ信号の各チャネルに対するそれぞれの利得値を導出するステップ、
前記空間オーディオ信号の前記それぞれのチャネルに、前記それぞれのチャネルに対して前記導出された利得値を乗算することによって、１つ以上の修正オーディオチャネルを導出するステップ、
または、
修正されたオーディオチャネルを処理された空間オーディオ信号として提供するステップ、
を実行させることを含む、
請求項１に記載の装置。
前記処理された空間オーディオ信号は、アンビソニック信号を含み、
前記出力された空間オーディオ信号は、２チャネルバイノーラル信号からなり、
前記再生制御情報は、前記オーディオシーンに対する聴取方向を規定する再生方向の標示を含み、
前記再生制御情報にしたがって出力空間オーディオ信号を生成するために前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表現する前記空間オーディオ信号を処理することが、前記装置に、
標示された再生方向に依存する回転行列を生成するステップ、
回転した空間オーディオ信号を導出するために、前記処理された空間オーディオ信号のチャネルと前記回転行列とを乗算するステップ、
頭部関連インパルス応答関数（ＨＲＴＦ）または頭部関連インパルス応答（ＨＲＩＲ）のデータセットに基づいて生成された有限インパルス応答（ＦＩＲ）、フィルタペアの所定のセットを使用して前記回転した空間オーディオ信号の前記チャネルをフィルタリングするステップ、
または、
左右のチャネルのそれぞれの１つについて導出された前記回転した空間オーディオ信号の前記フィルタリングされたチャネルの合計として、前記２チャネルバイノーラル信号の前記左右のチャネルを生成するステップ、
を実行させることを含む、
請求項７に記載の装置。
前記出力空間オーディオ信号は、２チャネルのバイノーラルオーディオ信号を含み、
前記再生制御情報は、前記オーディオシーンに関する聴取方向を規定する再生方向の標示を含み、
前記再生制御情報にしたがって前記出力空間オーディオ信号を生成するために前記デフォーカス方向に基づいて、前記修正されたオーディオシーンを表す前記空間オーディオ信号を処理することは、
処理された空間オーディオ信号の１つ以上のオーディオチャネルのそれぞれの１つの周波数帯域に、それぞれの周波数サブ帯域について受信したスペクトル調整係数を乗じることによって、前記１つ以上の周波数サブ帯域において、１つ以上の拡張オーディオチャネルを導出するステップと、
前記１つ以上の強化されたオーディオチャネルを、前記標示された再生方向にしたがって前記２チャネルのバイノーラルオーディオ信号に変換するステップと、
のうちの少なくとも１つを実行することを含むように構成される、
請求項７に記載の装置。
前記出力空間オーディオ信号は、２チャネルバイノーラル信号を含み、
前記再生制御情報は、前記オーディオシーンに関する聴取方向を規定する再生方向の標示を含み、
前記再生制御情報にしたがって前記出力空間オーディオ信号を生成するためにデフォーカス方向に基づく前記修正されたオーディオシーンを表す前記処理された空間オーディオ信号は、標示された再生方向に依存して、一組の頭部関連伝達関数、ＨＲＴＦを選択する、または、処理された空間オーディオ信号のチャネルを、選択されたＨＲＴＦのセットを使用して、回転したオーディオシーンを伝える２チャネルバイノーラル信号に変換するように構成される、請求項７に記載の装置。
前記再生制御情報は、第２の所定のラウドスピーカ構成の標示を含み、
前記出力空間オーディオ信号は、前記第２の所定のラウドスピーカ構成に従ったマルチチャネルラウドスピーカ信号を含み、
前記再生制御情報にしたがって、前記出力空間オーディオ信号を生成するために前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表す前記処理された空間オーディオ信号が、第１の所定のラウドスピーカ構成から第２の所定のラウドスピーカ構成へのマッピングを提供する振幅パンニング利得を含む変換行列を導出し、
前記処理された空間オーディオ信号のチャネルを前記出力空間オーディオ信号のチャネルに乗算するために、前記変換行列を使用するように構成されていることによって、振幅パンニングを用いて前記処理された空間オーディオ信号のチャネルに基づいて前記出力空間オーディオ信号のチャネルを導出するように構成される、
請求項７に記載の装置。
少なくとも１つの方向センサと少なくとも１つのユーザ入力とを備えるセンサ配置からデフォーカス入力を取得するステップであって、前記デフォーカス入力は、前記少なくとも１つの方向センサの方向に基づくデフォーカス方向の標示、前記少なくとも１つのユーザ入力に基づくデフォーカス量の標示、または、得られたデフォーカス形状の標示、のうちの少なくとも１つを備える、ステップ
をさらに実行するようにされる、請求項１に記載の装置。
前記デフォーカス形状は、デフォーカス形状の幅、デフォーカス形状の高さ、デフォーカス形状半径、デフォーカス形状距離、デフォーカス形状の深さ、デフォーカス形状範囲、デフォーカス形状直径、デフォーカス形状キャラクタライザのうちの少なくとも１つを含む、請求項４に記載の装置。
装置のための方法であって、
デフォーカス方向を取得するステップと、
前記デフォーカス方向のデフォーカス量を用いて、修正オーディオシーンを表す処理された空間オーディオ信号を生成するために、前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向の前記空間オーディオ信号のある部分の少なくとも一部の相対的なデエンファシスを制御するように、オーディオシーンを表す空間オーディオ信号を処理するステップと、
前記処理された空間オーディオ信号を出力するステップであって、前記デフォーカス方向に基づく前記修正オーディオシーンが、前記空間オーディオ信号の他の部分の少なくとも一部に対する前記デフォーカス方向の前記空間オーディオ信号の前記ある部分の少なくとも一部における前記デエンファシスを可能にする、ステップと、
を含む方法であって、
さらに、前記デフォーカス量を得るステップと、
前記処理された空間オーディオ信号によって、前記デフォーカス量にしたがって、少なくとも部分的に前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向の部分における前記空間オーディオ信号の前記ある部分の少なくとも一部の相対的デエンファシスを制御するステップと、
を含む方法。