JP7764253B2 - 音場関連レンダリング - Google Patents

音場関連レンダリング

Info

Publication number
JP7764253B2
JP7764253B2 JP2021573548A JP2021573548A JP7764253B2 JP 7764253 B2 JP7764253 B2 JP 7764253B2 JP 2021573548 A JP2021573548 A JP 2021573548A JP 2021573548 A JP2021573548 A JP 2021573548A JP 7764253 B2 JP7764253 B2 JP 7764253B2
Authority
JP
Japan
Prior art keywords
audio signal
spatial audio
defocus
spatial
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021573548A
Other languages
English (en)
Other versions
JP2022536169A (ja
Inventor
タピオ ビルカモ ユハ
オズカン コレイ
ライティネン ミッコ-ビッレ
Original Assignee
ノキア テクノロジーズ オサケユイチア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オサケユイチア filed Critical ノキア テクノロジーズ オサケユイチア
Publication of JP2022536169A publication Critical patent/JP2022536169A/ja
Priority to JP2024006067A priority Critical patent/JP2024028527A/ja
Application granted granted Critical
Publication of JP7764253B2 publication Critical patent/JP7764253B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本出願は、音場に関連するオーディオ表現およびレンダリングのための装置および方法に関する。ただし、オーディオデコーダのためのオーディオ表現に限定されるものではない。
複数の視線方向を有するメディアを提示するための空間オーディオ再生が知られている。この再生の例には、(少なくとも)ヘッド方向トラッキングを有するヘッドマウントディスプレイ(またはヘッドマウント内の電話)上での再生、または電話の位置/方向を変更することによって、または任意のユーザインターフェースジェスチャによって、または周囲の画面上でビュー方向をトラッキングすることができるヘッドマウントのない電話画面上での再生を含むようなメディアのビジュアル・コンテンツが含まれる。
「複数の視線方向を有するメディア」に関連するビデオは、例えば、360度ビデオ、180度ビデオ、または従来のビデオよりも視野角が実質的に広い他のビデオとすることができる。従来のビデオは、通常、視線方向を変更するオプション(または任意の特定の必要性)なしに画面上に全体としてビューされるビデオコンテンツを指す。
複数の視線方向を有するビデオに関連するオーディオは、視線方向が追跡され、空間オーディオ再生に影響を及ぼしているヘッドフォン上に、または、サラウンドラウドスピーカ・セットアップを用いて提示することができる。
複数の視線方向を有するビデオに関連する空間オーディオは、マイクロフォンアレイ(例えば、OZOのようなVRカメラに取り付けられたアレイ、またはハンドヘルドモバイルデバイス)、またはスタジオミックスのような他のソースからの空間オーディオキャプチャから生じ得る。オーディオコンテンツは、マイクロフォンキャプチャされた音および追加されたコメンテータトラックなど、いくつかのコンテンツタイプの混合物であってもよい。
複数の視線方向を有するビデオに関連付けられた空間オーディオは、例えば、球面調和オーディオ信号成分からなるアンビソニック信号(任意の次数の)で様々な形式とすることができる。球面調和関数は空間的に選択的なビーム信号のセットとして考えることができる。アンビソニックは現在、例えば、ユーチューブ360VRビデオサービスにおいて利用されている。アンビソニックの利点は、単純で明確に定義された信号表現であることである。サラウンドラウドスピーカ信号、例えば5.1である。現在、典型的な映画の空間オーディオは、この形式で伝達される。サラウンドラウドスピーカ信号の利点は、シンプルさとレガシー互換性にある。サラウンドラウドスピーカ信号フォーマットに類似したいくつかのオーディオ・フォーマットはオーディオ・オブジェクトを含み、オーディオ・オブジェクトは、時変位置を有するオーディオ・チャネルと見なすことができる。位置は、オーディオ・オブジェクトの方向および距離の両方、または方向、すなわち、2つのオーディオ・チャネルオーディオ信号および知覚的に関連する周波数帯域における関連する空間メタデータなどのパラメトリック空間オーディオを通知することができる。いくつかの最新技術のオーディオ符号化方法および空間オーディオキャプチャ方法は、そのような信号表現を適用する。空間メタデータは本質的に、オーディオ信号がどのように受信機側で空間的に再生されるべきか(例えば、異なる周波数でどの方向に)を決定する。パラメトリック空間オーディオの利点は、その汎用性、品質、および符号化のために低ビットレートを使用する能力である。
第1の態様によれば、デフォーカス(フォーカスぼけ)方向を取得することと、空間オーディオ信号の少なくとも一部の他の部分に対するデフォーカス方向における空間オーディオ信号の一部の相対的なデエンファシスを少なくとも部分的に制御するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号を処理することと、処理された空間オーディオ信号を空間オーディオ信号の少なくとも一部の他の部分に対して出力することを構成する手段を備える装置が提供され、デフォーカス方向に基づいた修正されたオーディオシーンは、空間オーディオ信号の少なくとも一部の他の部分に対するデフォーカス方向における空間オーディオ信号の一部のデエンファシスを少なくとも部分的に可能にする。
この手段はデフォーカス量を取得するようにさらに構成されることができ、空間オーディオ信号を処理するように構成された手段は、デフォーカス量にしたがって空間オーディオ信号の少なくとも一部の他の部分に対するデフォーカス方向の空間オーディオ信号の一部の相対的なデエンファシスを少なくとも部分的に制御するように構成されることができる。
空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも部分的に、空間オーディオ信号のデフォーカス方向の部分におけるエンファシス(emphasis)を、空間オーディオ信号の少なくとも部分的に他の部分におけるエンファシスに対して低減することと、デフォーカス方向の空間オーディオ信号の部分に対する空間オーディオ信号の他の部分におけるエンファシスを、少なくとも部分的に増大させることとのうちの少なくとも1つを実行するように構成され得る。
空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも一部分における他の部分に対するデフォーカス量にしたがって、空間オーディオ信号の少なくとも一部分において、空間オーディオ信号の一部分における音レベルを低減することと、デフォーカス量にしたがって、空間オーディオ信号の一部分に対して、空間オーディオ信号の他の部分における音レベルを少なくとも一部分において増大させることとのうちの少なくとも1つを実行するように構成されることができる。
この手段は、デフォーカス形状を取得するようにさらに構成されることができ、空間オーディオ信号を処理するように構成された手段は、デフォーカス方向の空間オーディオ信号の少なくとも一部分において、および空間オーディオ信号の少なくとも部分的に他の部分に対するデフォーカス形状内の相対的なデエンファシスを制御するように構成されることができる。
空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも一部において、空間オーディオ信号のデフォーカス方向およびデフォーカス形状内からの部分におけるエンファシスを、空間オーディオ信号の少なくとも一部において他の部分に対して低減すること、および、空間オーディオ信号のデフォーカス方向およびデフォーカス形状内における部分に対して空間オーディオ信号の他の部分におけるエンファシスを少なくとも一部において増大させることのうちの少なくとも1つを実行するように構成されることができる。
空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも一部分において、空間オーディオ信号のデフォーカス方向の部分において、およびデフォーカス形状内から、空間オーディオ信号の少なくとも一部分における他の部分に対するデフォーカス量にしたがって音レベルを低減することと、空間オーディオ信号の一部分において、デフォーカス方向の部分に対して、およびデフォーカス量にしたがってデフォーカス形状から、空間オーディオ信号の他の部分において音レベルを増大させることとのうちの少なくとも1つを実行するように構成され得る。
この手段は、処理された空間オーディオ信号を出力することの少なくとも1つの態様を制御するための再生制御情報を取得するように構成することができ、処理された空間オーディオ信号を出力するように構成された手段は、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理することと、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するためにオーディオシーンを表す空間オーディオ信号を処理するように構成された手段の前に、再生制御情報にしたがって空間オーディオ信号を処理することと、処理された空間オーディオ信号を出力空間オーディオ信号として出力することとのうちの1つを実行するように構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含むことができ、空間オーディオ信号を処理された空間オーディオ信号に処理するように構成された手段は、1つ以上の周波数サブ帯域について、空間オーディオ信号から、フォーカス方向から到着する音成分を表す単一チャネルターゲットオーディオ信号を抽出し、フォーカスされた空間オーディオ信号を生成し、ここで、フォーカスされたオーディオ信号はデフォーカス方向によって定義される空間位置に配置され、処理された空間オーディオ信号を、空間オーディオ信号から減算されたフォーカスされた空間オーディオ信号の線形結合として生成するように構成することができ、フォーカスされた空間オーディオ信号および空間オーディオ信号のうちの少なくとも1つは、デフォーカス方向における音の相対的なレベルを低減するために、デフォーカス量に基づいて導出されたそれぞれのスケーリングファクタによってスケーリングされる。
単一チャネルターゲットオーディオ信号を抽出するように構成された手段は、ビーム形成器を適用して、空間オーディオ信号から、デフォーカス方向から到達する音成分を表すビーム形成された信号を導出し、ポスト・フィルタを適用して、ビーム形成された信号に基づいて処理されたオーディオ信号を導出し、それによって、ビーム形成された信号のスペクトルを調整して、デフォーカス方向から到達する音のスペクトルに近づけるように構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれの一次アンビソニック信号を含むことができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は1つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができ、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、1つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、1つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の1つ以上の周波数サブ帯域について、空間オーディオ信号および利得値のそれぞれの周波数サブ帯域のエネルギー比パラメータに基づいて、処理された空間オーディオ信号の1つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、それぞれの更新された周囲エネルギー値(ambient energy value)を計算することと、更新された直接エネルギーおよび周囲エネルギーの合計で除算された更新された方向エネルギーに基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域のそれぞれの修正されたエネルギー比パラメータを計算することと、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域のそれぞれのスペクトル調整係数を計算することと、空間オーディオ信号の1つ以上のオーディオ・チャネル、空間オーディオ信号の方向標示、修正されたエネルギー比パラメータ、およびスペクトル調整係数を備える処理された空間オーディオ信号を構成することとそれぞれの更新された方向エネルギー値を計算することと、を行うように構成することができる。空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は1つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができ、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、1つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、1つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の1つ以上の周波数サブ帯域について、それぞれの周波数サブ帯域のエネルギー比パラメータに基づいて、それぞれの更新された方向エネルギー値を計算することと、空間オーディオ信号および利得値の1つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、処理された空間オーディオ信号のそれぞれの更新された周囲エネルギー値を計算することと、更新された直接エネルギーおよび周囲エネルギーの合計によって除算された、更新された方向エネルギーに基づいて処理された空間オーディオ信号の1つ以上の周波数サブ帯域についてのそれぞれの修正されたエネルギー比パラメータを計算することと、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域についてのそれぞれのスペクトル調整係数を計算することと、1つ以上の周波数サブ帯域において、それぞれの周波数サブ帯域について導出されたスペクトル調整係数を乗算することによって、空間オーディオ信号の1つ以上のオーディオ・チャネルのそれぞれの1つのそれぞれの周波数帯域を乗算することによって、1つ以上の拡張オーディオ・チャネルを導出することと、1つ以上の拡張オーディオ・チャネル、空間オーディオ信号の方向標示、および、修正されたエネルギー比パラメータを備える、処理された空間オーディオ信号を構成することと、を行うように構成することができる。
空間オーディオ信号および処理された空間オーディオ信号は、第1の所定のラウドスピーカ構成に従ったそれぞれのマルチャネルラウドスピーカ信号を含んでもよく、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、デフォーカス方向と、空間オーディオ信号のそれぞれのチャネルに対して示されたラウドスピーカ方向との間のそれぞれの角度差を計算し、角度差の所定の関数、およびデフォーカス量に基づいて導出されたスケーリング係数を使用することによって、それぞれのチャネルに対して計算された角度差に基づいて、空間オーディオ信号の各チャネルに対するそれぞれの利得値を導出し、空間オーディオ信号のそれぞれのチャネルに、それぞれのチャネルに対して導出された利得値を乗じることによって、1つ以上の修正されたオーディオャネルを導出し、修正されたオーディオャネルを、処理された空間オーディオ信号として提供するのように構成されることができる。角度差の所定の関数は、角度差の値が減少することにつれて減少し、角度差の値が増加することにつれて増加する利得値をもたらすことができる。空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも一部において、空間オーディオ信号のデフォーカス方向およびデフォーカス形状内からの部分におけるエンファシスを、空間オーディオ信号の少なくとも一部において他の部分に対して低減すること、および、空間オーディオ信号のデフォーカス方向およびデフォーカス形状内における部分に対して空間オーディオ信号の他の部分におけるエンファシスを少なくとも一部において増大させることのうちの少なくとも1つを実行するように構成されることができる。
空間オーディオ信号を処理するように構成された手段は、空間オーディオ信号の少なくとも一部分において、空間オーディオ信号のデフォーカス方向の部分において、およびデフォーカス形状内から、空間オーディオ信号の少なくとも一部分における他の部分に対するデフォーカス量にしたがって音レベルを低減することと、空間オーディオ信号の一部分において、デフォーカス方向の部分に対して、およびデフォーカス量にしたがってデフォーカス形状から、空間オーディオ信号の他の部分において音レベルを増大させることとのうちの少なくとも1つを実行するように構成され得る。
この手段は、処理された空間オーディオ信号を出力することの少なくとも1つの態様を制御するための再生制御情報を取得するように構成することができ、処理された空間オーディオ信号を出力するように構成された手段は、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理することと、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するためにオーディオシーンを表す空間オーディオ信号を処理するように構成された手段の前に、再生制御情報にしたがって空間オーディオ信号を処理することと、処理された空間オーディオ信号を出力空間オーディオ信号として出力することとのうちの1つを実行するように構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含むことができ、空間オーディオ信号を処理された空間オーディオ信号に処理するように構成された手段は、1つ以上の周波数サブ帯域について、空間オーディオ信号から、フォーカス方向から到着する音成分を表す単一チャネルターゲットオーディオ信号を抽出し、フォーカスされた空間オーディオ信号を生成し、ここで、フォーカスされたオーディオ信号はデフォーカス方向によって定義される空間位置に配置され、処理された空間オーディオ信号を、空間オーディオ信号から減算されたフォーカスされた空間オーディオ信号の線形結合として生成するように構成することができ、フォーカスされた空間オーディオ信号および空間オーディオ信号のうちの少なくとも1つは、デフォーカス方向における音の相対的なレベルを低減するために、デフォーカス量に基づいて導出されたそれぞれのスケーリングファクタによってスケーリングされる。
単一チャネルターゲットオーディオ信号を抽出するように構成された手段は、ビーム形成器を適用して、空間オーディオ信号から、デフォーカス方向から到達する音成分を表すビーム形成された信号を導出し、ポスト・フィルタを適用して、ビーム形成された信号に基づいて処理されたオーディオ信号を導出し、それによって、ビーム形成された信号のスペクトルを調整して、デフォーカス方向から到達する音のスペクトルに近づけるように構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれの一次アンビソニック信号を含むことができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は1つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができ、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、1つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、1つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の1つ以上の周波数サブ帯域について、空間オーディオ信号および利得値のそれぞれの周波数サブ帯域のエネルギー比パラメータに基づいて、処理された空間オーディオ信号の1つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、それぞれの更新された周囲エネルギー値(ambient energy value)を計算することと、更新された直接エネルギーおよび周囲エネルギーの合計で除算された更新された方向エネルギーに基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域のそれぞれの修正されたエネルギー比パラメータを計算することと、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域のそれぞれのスペクトル調整係数を計算することと、空間オーディオ信号の1つ以上のオーディオ・チャネル、空間オーディオ信号の方向標示、修正されたエネルギー比パラメータ、およびスペクトル調整係数を備える処理された空間オーディオ信号を構成することと、それぞれの更新された方向エネルギー値を計算することと、を行うように構成することができる。空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は1つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができ、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、1つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、1つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の1つ以上の周波数サブ帯域について、それぞれの周波数サブ帯域のエネルギー比パラメータに基づいて、それぞれの更新された方向エネルギー値を計算することと、空間オーディオ信号および利得値の1つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、処理された空間オーディオ信号のそれぞれの更新された周囲エネルギー値を計算することと、更新された直接エネルギーおよび周囲エネルギーの合計によって除算された、更新された方向エネルギーに基づいて処理された空間オーディオ信号の1つ以上の周波数サブ帯域についてのそれぞれの修正されたエネルギー比パラメータを計算することと、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域についてのそれぞれのスペクトル調整係数を計算することと、1つ以上の周波数サブ帯域において、それぞれの周波数サブ帯域について導出されたスペクトル調整係数を乗算することによって、空間オーディオ信号の1つ以上のオーディオ・チャネルのそれぞれの1つのそれぞれの周波数帯域を乗算することによって、1つ以上の拡張オーディオ・チャネルを導出することと、1つ以上の拡張オーディオ・チャネル、空間オーディオ信号の方向標示、および、修正されたエネルギー比パラメータを備える、処理された空間オーディオ信号を構成することと、を行うように構成することができる。
空間オーディオ信号および処理された空間オーディオ信号は、第1の所定のラウドスピーカ構成に従ったそれぞれのマルチャネルラウドスピーカ信号を含んでもよく、空間オーディオ信号を処理して、処理された空間オーディオ信号を生成するように構成された手段は、デフォーカス方向と、空間オーディオ信号のそれぞれのチャネルに対して示されたラウドスピーカ方向との間のそれぞれの角度差を計算し、角度差の所定の関数、およびデフォーカス量に基づいて導出されたスケーリング係数を使用することによって、それぞれのチャネルに対して計算された角度差に基づいて、空間オーディオ信号の各チャネルに対するそれぞれの利得値を導出し、空間オーディオ信号のそれぞれのチャネルに、それぞれのチャネルに対して導出された利得値を乗じることによって、1つ以上の修正されたオーディオャネルを導出し、修正されたオーディオャネルを、処理された空間オーディオ信号として提供するのように構成されることができる。角度差の所定の関数は、角度差の値が減少することにつれて減少し、角度差の値が増加することにつれて増加する利得値をもたらすことができる。
処理された空間オーディオ信号はアンビソニック信号を含むことができ、出力空間オーディオ信号は2チャネルバイノーラル信号を含むことができ、再生制御情報は、オーディオシーンに対して聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって、出力空間オーディオ信号を生成するデフォーカス方向に基づいて、修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するように構成された手段は、標示された再生方向に応じて、回転行列を生成し、回転された空間オーディオ信号を導出するために、処理された空間オーディオ信号のチャネルを回転行列と乗算し、回転された空間オーディオ信号のチャネルを、事前定義された有限インパルス応答(FIR:finite impulse response)、頭部インパルス応答関数、頭部伝達関数(HRTF:head related transfer function)、または頭部インパルス応答(HRIR:head related impulse response)のデータセットに基づいて生成されたフィルタペアの所定セットを使用してフィルタリングし、左チャネルおよび右チャネルのそれぞれについて導出された回転された空間オーディオ信号のフィルタリングされたチャネルの合計として、バイノーラル信号の左チャネルおよび右チャネルを生成するように構成されることができる。
出力空間オーディオ信号は2チャネルバイノーラルオーディオ信号を含むことができ、再生制御情報は、オーディオシーンに対する聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するように構成された手段は、前記1つ以上の周波数サブ帯域において、処理された空間オーディオ信号の1つ以上のオーディオ・チャネルのそれぞれの1つのそれぞれの周波数帯域に、それぞれの周波数サブ帯域について受信されたスペクトル調節ファクタを乗算することによって、1つ以上のエンハンスされたオーディオ・チャネルを導出し、示された再生方向にしたがって1つ以上のエンハンスされたオーディオ・チャネルを2チャネルバイノーラルオーディオ信号に変換するように構成することができる。
出力空間オーディオ信号は2チャネルバイノーラルオーディオ信号を含むことができ、再生制御情報はオーディオシーンに対する聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するように構成された手段は、示された再生方向にしたがって1つ以上のエンハンスされたオーディオ・チャネルを2チャネルバイノーラルオーディオ信号に変換するように構成することができる。
出力空間オーディオ信号は2チャネルバイノーラル信号を含むことができ、再生制御情報はオーディオシーンに対して聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するためにデフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するように構成された手段は、標示された再生方向に応じて頭部伝達関数(HRTF:head related transfer function)のセットを選択し、処理された空間オーディオ信号のチャネルを、HRTFの選択されたセットを使用して回転されたオーディオシーンを搬送する2チャネルバイノーラル信号に変換するように構成することができる。
再生制御情報は第2の所定のラウドスピーカ構成の標示を含むことができ、出力空間オーディオ信号は第2の所定のラウドスピーカ構成によるマルチチャネルラウドスピーカ信号を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するように構成された手段は、第1の所定のラウドスピーカ構成から第2の所定のラウドスピーカ構成へのマッピングを提供する振幅パニング利得を含む変換行列を導出するように構成されることによって、振幅パニングを使用して、処理された空間オーディオ信号のチャネルに基づいて、出力空間オーディオ信号のチャネルを導出し、変換行列を使用して、処理された空間オーディオ信号のチャネルを出力空間オーディオ信号のチャネルに乗算するように構成されることができる。
この手段は、少なくとも1つの方向センサおよび少なくとも1つのユーザ入力を含むセンサ配置からデフォーカス入力を得るようにさらに構成されることができ、デフォーカス入力は、少なくとも1つの方向センサ方向に基づくデフォーカス方向の標示を含むことができる。
デフォーカス入力は、デフォーカス量のインジケータをさらに含むことができる。
デフォーカス入力は、デフォーカス形状のインジケータをさらに含むことができる。
デフォーカス形状は、デフォーカス形状幅、デフォーカス形状高さ、デフォーカス形状半径、デフォーカス形状距離、デフォーカス形状深さ、デフォーカス形状範囲、デフォーカス形状直径、およびデフォーカス形状キャラクタライザのうちの少なくとも1つを含むことができる。
デフォーカス方向は、デフォーカス方向の範囲によって定義される円弧であってもよい。
第2の態様によれば、デフォーカス方向を得るステップと、少なくとも部分的に、前記空間オーディオ信号の他の部分に対する少なくとも部分的に、前記デフォーカス方向の相対的なデエンファシス(deemphasis)を制御するように、前記デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するように、オーディオシーンを表す空間オーディオ信号を処理するステップと、前記処理された空間オーディオ信号を出力するステップと、を含み、前記デフォーカス方向に基づいた前記修正されたオーディオシーンは、前記空間オーディオ信号の他の部分における少なくとも部分的に、前記デフォーカス方向の前記空間オーディオ信号の前記部分を、少なくとも部分的に、前記デエンファシスを可能にする、方法が提供される。
この方法はデフォーカス量を得ることを更に含み、空間オーディオ信号を処理することは、少なくとも部分的に、デフォーカス量にしたがって空間オーディオ信号の少なくとも部分的に他の部分に対してデフォーカス方向の空間オーディオ信号の一部を、相対的にデエンファシスを制御することを含むことができる。
空間オーディオ信号を処理することは、空間オーディオ信号の少なくとも部分的に、空間オーディオ信号の他の部分に対してデフォーカス方向の少なくとも部分的に、空間オーディオ信号の部分のエンファシスを減少させることと、デフォーカス方向の空間オーディオ信号の部分に対して、少なくとも部分的に、空間オーディオ信号の他の部分のエンファシスを増加させることとのうちの少なくとも1つを含み得る。
空間オーディオ信号を処理することは、少なくとも部分的には、少なくとも部分的に空間オーディオ信号の他の部分に対するデフォーカス量に応じて、デフォーカス方向における空間オーディオ信号の部分における音レベルを減少させることと、少なくとも部分的には、デフォーカス量に応じて、デフォーカス方向における空間オーディオ信号の部分に対する、少なくとも部分的に、空間オーディオ信号の他の部分における音レベルを増加させることとのうちの少なくとも1つを含み得る。
この方法はデフォーカスの形状を得ることを更に含み、空間オーディオ信号を処理することは、少なくとも部分的には、空間オーディオ信号の他の部分の少なくとも一部に対して、空間オーディオ信号のデフォーカス方向およびデフォーカスの形状内で、相対的なデエンファシスを制御することを含むことができる。
空間オーディオ信号を処理することは、デフォーカス方向における空間オーディオ信号の部分を、空間オーディオ信号の少なくとも部分的には他の部分に対してはデフォーカス形状内から、少なくとも部分的にはエンファシスを減少させることと、デフォーカス方向およびデフォーカス形状内における空間オーディオ信号の部分に対して、少なくとも部分的に、空間オーディオ信号の他の部分にエンファシスを増加させることと、のうちの少なくとも1つを含み得る。
空間オーディオ信号を処理することは、少なくとも部分的には、空間オーディオ信号の少なくとも一部の他の部分に対するデフォーカス量に応じて、デフォーカス形状内から、デフォーカス方向における空間オーディオ信号の部分内の音レベルを、減少させることと、少なくとも部分的には、デフォーカス方向における空間オーディオ信号の部分に対して、および、デフォーカス量にしたがってデフォーカス形状から空間オーディオ信号の他の部分内の音レベルを、増加させることとのうちの少なくとも1つを含み得る。
この方法は、処理された空間オーディオ信号を出力する少なくとも1つの態様を制御するために再生制御情報を得るステップを含み、前記処理された空間オーディオ信号を出力するステップは、前記再生制御情報にしたがって、出力空間オーディオ信号を生成するために、前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表す前記処理された空間オーディオ信号を処理するステップと、前記デフォーカス方向に基づいて修正されたオーディオシーンを表す前記処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号を処理する前に、前記再生制御情報にしたがって、空間オーディオ信号を処理するステップと、前記処理された空間オーディオ信号を出力空間オーディオ信号として出力するステップとのうちの1つを含み得る。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含むことができ、空間オーディオ信号を、処理された空間オーディオ信号に処理することは、1つ以上の周波数サブ帯域について、空間オーディオ信号から、フォーカス方向から到着する音成分を表す単一チャネルターゲットオーディオ信号を抽出することと、フォーカスされたオーディオ信号が、デフォーカス方向によって定義される空間位置に配置される場合に、フォーカスされた空間オーディオ信号を生成することと、空間オーディオ信号から減算されたフォーカスされた空間オーディオ信号の線形結合として処理された空間オーディオ信号を生成することを含むことができる。フォーカスされた空間オーディオ信号および空間オーディオ信号のうちの少なくとも1つは、デフォーカス方向における音の相対レベルを低減するために、デフォーカス量に基づいて導出されたそれぞれのスケーリングファクタによってスケーリングされる。
単一チャネルターゲットオーディオ信号を抽出するステップは、空間オーディオ信号から、デフォーカス方向から到達する音成分を表すビーム形成された信号を導出するために、ビーム形成器を適用するステップと、ビーム形成された信号に基づいて処理されたオーディオ信号を導出するためにポスト・フィルタを適用するステップであって、それによって、デフォーカス方向から到達する音のスペクトルに近似させるために、ビーム形成された信号のスペクトルを調整するステップと、を含み得る。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれの一次アンビソニック信号を含むことができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は、1つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは、複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができる。処理された空間オーディオ信号を生成するために空間オーディオ信号を処理することは、1つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、1つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の1つ以上の周波数サブ帯域について、空間オーディオのそれぞれの周波数サブ帯域のエネルギー比パラメータおよび利得値に基づいて、それぞれの更新された方向エネルギー値を計算することと、処理された空間オーディオ信号の1つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域エネルギー比パラメータおよびスケーリングファクタに基づいて、更新された周囲エネルギー値を計算することと、更新された指向性および周囲エネルギーの合計で除算された更新された指向性エネルギーに基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域についてのそれぞれの修正されたエネルギー比パラメータを計算することと、更新された指向性エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域についてのそれぞれのスペクトル調整ファクタを計算することと、空間オーディオ信号の1つ以上のオーディオ・チャネルと、空間オーディオ信号の方向標示と、修正されたエネルギー比パラメータと、スペクトル調整ファクタとを備える処理された空間オーディオ信号を構成することと、を含むことができる。空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は、1つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは、複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができる。処理された空間オーディオ信号を生成するために空間オーディオ信号を処理することは、1つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算することと、角度差の事前定義された関数とデフォーカス量に基づいて導出されたスケーリングファクタとを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、1つ以上の周波数サブ帯域についてのそれぞれの利得値を導出することと、処理された空間オーディオ信号の1つ以上の周波数サブ帯域について、空間オーディオのそれぞれの周波数サブ帯域のエネルギー比パラメータおよび利得値に基づいて、それぞれの更新された方向エネルギー値を計算することと、空間オーディオ信号のそれぞれの周波数サブ帯域ののエネルギー比パラメータ、およびスケーリングファクタに基づいて、処理された空間オーディオ信号の1つ以上の周波数帯域に対して、それぞれの更新された周囲エネルギー値を計算することと、 更新された直接および周囲エネルギーとの和によって除算された、更新された直接エネルギーに基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域についてのそれぞれの修正されたエネルギー比パラメータを計算することと、更新された直接および周囲エネルギーの和に基づいて、処理された空間オーディオ信号の1つ以上に対するそれぞれのスペクトル調整ファクタを計算することと、1つ以上の周波数サブ帯域において、空間オーディオ信号の1つ以上のオーディオ・チャネルのそれぞれの周波数帯域に、それぞれの周波数サブ帯域について導出されたスペクトル調整ファクタを乗算することによって、1つ以上のエンハンスされたオーディオ・チャネルを導出することと、1つ以上のエンハンスされたオーディオ・チャネル、空間オーディオ信号の方向標示、および、修正されたエネルギー比パラメータを含む処理された空間オーディオ信号を備えることと、を含むことができる。
空間オーディオ信号および処理された空間オーディオ信号は、第1の所定のラウドスピーカ構成によるそれぞれのマルチャネルラウドスピーカ信号を含むことができ、処理された空間オーディオ信号を生成するために前記空間オーディオ信号を処理することは、デフォーカス方向と、前記空間オーディオ信号のそれぞれのチャネルに対して示されたラウドスピーカ方向との間のそれぞれの角度差を計算することと、角度差の所定の関数およびデフォーカス量に基づいて導出されたスケーリング係数を使用することによって、前記それぞれのチャネルに対して計算された角度差に基づいて、前記空間オーディオ信号の各チャネルに対するそれぞれの利得値を導出することと、前記空間オーディオ信号のそれぞれのチャネルに、前記それぞれのチャネルに対して導出された利得値を乗じることによって、1つ以上の修正されたオーディオャネルを導出することと、前記修正されたオーディオャネルを、前記処理された空間オーディオ信号として提供することとを含むことができる。
角度差の所定の関数は、角度差の値が減少することにつれて減少し、角度差の値が増加することにつれて増加する利得値をもたらすことができる。
処理された空間オーディオ信号はアンビソニック信号を含み、出力空間オーディオ信号は2チャネルバイノーラル信号を含み得る。ここで、再生制御情報は、オーディオシーンに関して聴取方向を規定する再生方向の標示を含み得る。そして、再生制御情報にしたがって、修正された空間オーディオ信号を表現する処理された空間オーディオ信号を生成することは、示された再生方向に応じた回転行列を生成することと、回転された空間オーディオ信号を導出するために、処理された空間オーディオ信号のチャネルに回転行列を乗算することと、有限インパルス応答(FIR:finite impulse response)の予め規定されたセット、、頭部インパルス応答関数(HRTF:head related impulse response function)、または頭部インパルス応答(HRIR:head related impulse response)のデータセットに基づいて生成されたフィルタペアを用いて、回転された空間オーディオ信号のチャネルをフィルタリングすることと、左右のチャネルのそれぞれに対して導出された、回転された空間オーディオ信号のフィルタリングされたチャネルの合計としてのバイノーラル信号の左および右チャネルを生成することと、を含み得る。
出力空間オーディオ信号は2チャネルバイノーラルオーディオ信号を含むことができ、再生制御情報はオーディオシーンに対して聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって、出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて/修正されたオーディオシーンを表す処理された空間オーディオ信号を処理することは、前記1つ以上の周波数サブ帯域において、処理された空間オーディオ信号の1つ以上のオーディオ・チャネルのそれぞれの周波数帯域に、それぞれの周波数サブ帯域に対して受信されたスペクトル調整係数を乗算することによって、1つ以上のエンハンスされたオーディオ・チャネルを導出することと、示された再生方向にしたがって、1つ以上のエンハンスされたオーディオ・チャネルを2チャネルバイノーラルオーディオ信号に変換することとを含むことができる。
出力空間オーディオ信号は2チャネルバイノーラルオーディオ信号を含むことができ、オーディオシーンに対する聴取方向を定義する再生制御情報は、再生方向の標示を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理することは、示された再生方向にしたがって1つ以上のエンハンスされたオーディオ・チャネルを2チャネルバイノーラルオーディオ信号に変換することを含むことができる。
出力空間オーディオ信号は2チャネルバイノーラル信号を含むことができ、ここで、再生制御情報はオーディオシーンに関して聴取方向を規定する再生方向の標示を含むことができ、そして、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、再生制御情報にしたがって出力空間オーディオ信号を生成することは、標示された再生方向に依存して、頭部伝達関数HRTFのセットを選択することと、HRTFの選択されたセットを用いて、処理された空間オーディオ信号のチャネルを、回転されたオーディオシーンを伝える2チャネルバイノーラル信号に変換することと、を含むことができる。
再生制御情報は、第2の所定のラウドスピーカ構成の標示を含むことができ、出力空間オーディオ信号は、第2の所定のラウドスピーカ構成によるマルチャネルラウドスピーカ信号を含むことができ、そして、処理された空間オーディオ信号を再生制御情報にしたがって生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するステップは、第1の所定のラウドスピーカ構成から第2の所定のラウドスピーカ構成へのマッピングを提供する振幅パンニング利得を含む変換行列を導出するように構成されることによって、振幅パンニングを用いて、処理された空間オーディオ信号のチャネルに基づいて、出力空間オーディオ信号のチャネルを導出するステップを含むことができる。および、処理された空間オーディオ信号のチャネルを出力空間オーディオ信号のチャネルに乗算するために、変換行列を用いるステップを含み得る。
この方法は、少なくとも1つの方向センサおよび少なくとも1つのユーザ入力を含むセンサ配置からデフォーカス入力を得るステップを更に含み、デフォーカス入力は、少なくとも1つの方向センサ方向に基づくデフォーカス方向の標示を含むことができる。
デフォーカス入力は、デフォーカス量のインジケータをさらに含むことができる。
デフォーカス入力は、デフォーカス形状のインジケータをさらに含むことができる。
デフォーカス形状は、デフォーカス形状幅、デフォーカス形状高さ、デフォーカス形状半径、デフォーカス形状距離、デフォーカス形状深さ、デフォーカス形状範囲、デフォーカス形状直径、およびデフォーカス形状キャラクタライザのうちの少なくとも1つを含むことができる。
デフォーカス方向は、デフォーカス方向の範囲によって定義される円弧であってもよい。
第3の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラム・コードを含む少なくとも1つのメモリとを備える装置であって、該少なくとも1つのメモリと、該コンピュータプログラム・コードとは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、デフォーカス方向を取得させ、空間オーディオ信号の少なくとも一部の他の部分におけるデフォーカス方向の空間オーディオ信号の部分における相対的なデエンファシスを制御するように、デフォーカス方向に基づいて、修正されたオーディオシーンを表す空間オーディオ信号を生成するように、オーディオシーンを表す空間オーディオ信号を処理させ、処理された空間オーディオ信号を出力させるように構成された、装置が提供される。ここで、デフォーカス方向に基づいて、修正されたオーディオシーンは、空間オーディオ信号の少なくとも一部の他の部分に関するデフォーカス方向において、空間オーディオ信号の少なくとも一部において、デエンファシスを可能にする。
この装置はさらに、デフォーカス量を得るようにすることができ、空間オーディオ信号を処理する装置は、少なくとも部分的に、デフォーカス量にしたがって空間オーディオ信号の少なくとも部分的に他の部分に対するデフォーカス方向の空間オーディオ信号の一部において、相対的なデエンファシスを制御するようにすることができる。
空間オーディオ信号を処理するようにした装置は、少なくとも、少なくとも部分的には空間オーディオ信号の少なくとも部分的に他の部分に対するデフォーカス方向における空間オーディオ信号の部分のエンファシスを減少させることと、少なくとも部分的にはデフォーカス方向における空間オーディオ信号の部分に対する他の部分のエンファシスを増大させることと、のうちの1つを実行することができる。
空間オーディオ信号を処理する装置は、空間オーディオ信号の少なくとも部分的に他の部分に対するデフォーカス量にしたがって、デフォーカス方向における空間オーディオ信号のる少なくとも部分における音レベルを減少させることと、少なくとも部分的には、デフォーカス量にしたがって、デフォーカス方向における空間オーディオ信号の部分に対する空間オーディオ信号の他の部分における音レベルを増大させることと、のうちの少なくとも1つを実行することができる。
この装置はさらに、デフォーカス形状を得るようにすることができ、空間オーディオ信号を処理させる装置は、少なくとも部分的には、デフォーカス方向の空間オーディオ信号の一部であって、空間オーディオ信号の他の部分であっても少なくとも部分に対してデフォーカス形状内で、相対的なデエンファシスを制御するようにすることができる。
空間オーディオ信号を処理する装置は、少なくとも部分的には少なくとも部分的にはデフォーカス方向の空間オーディオ信号の部分において、少なくとも部分的には空間オーディオ信号の他の部分に対してデフォーカス形状内からのエンファシスを低下させること、少なくとも部分的には、デフォーカス方向の空間オーディオ信号の部分に対して、かつデフォーカス形状内での空間オーディオ信号の他の部分でのエンファシスを増加させること、のうちの少なくとも1つを実行することができる。
空間オーディオ信号を処理する装置は、少なくとも部分的には空間オーディオ信号の少なくとも部分的な他の部分に対するデフォーカス量にしたがって少なくとも部分的にはデフォーカス方向の空間オーディオ信号の部分で、デフォーカス形状内からの音レベルを減少すること、および、少なくとも部分的にはデフォーカス方向の空間オーディオ信号の部分に対する空間オーディオ信号の他の部分における、デフォーカス量にしたがって、デフォーカス形状からの音レベルを増加すること、のうちの少なくとも1つを行なうことができる。
この装置は処理された空間オーディオ信号を出力する少なくとも1つの態様を制御するための再生制御情報を得ることができ、処理された空間オーディオ信号を出力させた装置は、再生制御情報にしたがって出力された空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理することと、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号の処理の前に、再生制御情報にしたがって処理された空間オーディオ信号を処理することと、処理された空間オーディオ信号を出力空間オーディオ信号として出力することと、のうちの1つを実行することができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含むことができ、処理された空間オーディオ信号に空間オーディオ信号を処理させる装置は、1つ以上の周波数サブ帯域について、空間オーディオ信号から、フォーカス方向から到着する音成分を表す単一チャネルターゲットオーディオ信号を抽出し、フォーカスされた空間オーディオ信号を生成できる。ここで、フォーカスされたオーディオ信号は、デフォーカス方向によって定義される空間位置に配置され、処理された空間オーディオ信号を、空間オーディオ信号から減算されたフォーカスされた空間オーディオ信号の線形結合として生成し、フォーカスされた空間オーディオ信号および空間オーディオ信号のうちの少なくとも1つは、デフォーカス方向における音の相対レベルを低減するために、デフォーカス量に基づいて導出されたそれぞれのスケーリングファクタによってスケーリングされる。
単一チャネルターゲットオーディオ信号を抽出する装置は、ビーム形成器を適用して、空間オーディオ信号から、デフォーカス方向から到達する音成分を表すビーム形成された信号を導き出し、ポスト・フィルタを適用して、ビーム形成された信号に基づいて処理されたオーディオ信号を導き出し、それによって、ビーム形成された信号のスペクトルを調整して、デフォーカス方向から到達する音のスペクトルに近づけることができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれの一次アンビソニック信号を含むことができる。
空間オーディオ信号および処理された空間オーディオ信号はそれぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は1つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは複数の周波数サブ帯域についてのそれぞれの方向標示およびエネルギー比パラメータを含むことができる。処理された空間オーディオ信号を生成するように空間オーディオ信号を処理する装置は、1つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算し、角度差の所定の関数およびデフォーカス量に基づいて導出されたスケーリングファクタを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、1つ以上の周波数サブ帯域についてのそれぞれの利得値を導出し、処理された空間オーディオ信号の1つ以上の周波数サブ帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータ、および利得値に基づいて、それぞれの更新された方向エネルギー値を計算し、処理された空間オーディオ信号の1つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、それぞれの更新された周囲エネルギー値を計算し、更新された直接エネルギーおよび周囲エネルギーの合計で除算された更新された方向エネルギーに基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域のそれぞれの修正されたエネルギー比パラメータを計算し、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域のそれぞれのスペクトル調整係数を計算し、空間オーディオ信号の1つ以上のオーディオ・チャネル、空間オーディオ信号の方向標示、修正されたエネルギー比パラメータ、およびスペクトル調整係数を備える処理された空間オーディオ信号を構成することができる。空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含むことができ、パラメトリック空間オーディオ信号は、1つ以上のオーディオ・チャネルおよび空間メタデータを含むことができ、空間メタデータは、それぞれの方向標示および複数の周波数サブ帯域についてのエネルギー比パラメータを含むことができる。処理された空間オーディオ信号を生成するように空間オーディオ信号を処理する装置は、1つ以上の周波数サブ帯域について、デフォーカス方向と、空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算し、角度差の所定の関数およびデフォーカス量に基づいて導出されたスケーリングファクタを使用することによって、それぞれの周波数サブ帯域について計算された角度差に基づいて、1つ以上の周波数サブ帯域についてのそれぞれの利得値を導出し、処理された空間オーディオ信号の1つ以上の周波数サブ帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよび利得値に基づいて、それぞれの更新された方向エネルギー値を計算することができる。処理された空間オーディオ信号および利得値の1つ以上の周波数帯域について、空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比パラメータおよびスケーリング係数に基づいて、それぞれの更新された周囲エネルギー値を計算し、更新された直接エネルギーおよび周囲エネルギーの合計によって除算された、更新された方向エネルギー値に基づいて処理された空間オーディオ信号の1つ以上の周波数サブ帯域についてのそれぞれの修正されたエネルギー比パラメータを計算し、更新された直接エネルギーおよび周囲エネルギーの合計に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域についてのそれぞれのスペクトル調整係数を計算し、1つ以上の周波数サブ帯域において、空間オーディオ信号の複数のそれぞれの1つのオーディオ・チャネルのそれぞれの周波数帯域を、それぞれの周波数サブ帯域について導出されたスペクトル調整係数で乗算することによって、1つ以上の拡張オーディオ・チャネルを導出し、1つ以上の拡張オーディオ・チャネル、空間オーディオ信号の方向標示、および修正されたエネルギー比パラメータを備える、処理された空間オーディオ信号を構成する。
空間オーディオ信号および処理された空間オーディオ信号は、第1の所定のラウドスピーカ構成に従ったそれぞれのマルチャネルラウドスピーカ信号を含むことができ、処理された空間オーディオ信号を処理して、処理された空間オーディオ信号を生成する装置は、デフォーカス方向と、空間オーディオ信号のそれぞれのチャネルに対して示されたラウドスピーカ方向との間のそれぞれの角度差を計算し、角度差の所定の関数、および、デフォーカス量に基づいて導出されたスケーリング係数を使用することによって、それぞれのチャネルに対して計算された角度差に基づいて、空間オーディオ信号の各チャネルに対するそれぞれの利得値を導出し、空間オーディオ信号のそれぞれのチャネルに、それぞれのチャネルに対して導出された利得値を乗じることによって、1つ以上の修正されたオーディオャネルを導出し、修正されたオーディオャネルを、処理された空間オーディオ信号として提供することができる。
角度差の所定の関数は、角度差の値が減少することにつれて減少し、角度差の値が増加することにつれて増加する利得値をもたらすことができる。
処理された空間オーディオ信号は、アンビソニック信号を含み、出力空間オーディオ信号は、2チャネルバイノーラル信号を含み得る。ここで、再生制御情報はオーディオシーンに関して聴取方向を規定する再生方向の標示を含み得る。そして、再生制御情報にしたがって出力空間オーディオ信号を生成するために、前記デフォーカス方向に基づいて、前記修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するようにされた装置は、標示された再生方向に依存して回転行列を生成し、処理された空間オーディオ信号のチャネルと回転行列を乗算して、回転された空間オーディオ信号を導出し、回転された空間オーディオ信号のチャネルを、所定の有限インパルス応答のセット、FIR、頭部インパルス応答関数のデータセットに基づいて生成されたフィルタペア、HRTF、または頭部インパルス応答、HRIRを用いてフィルタリングし、左右のチャネルのそれぞれについて、回転した空間オーディオ信号のフィルタリングされたチャネルの合計として、バイノーラル信号の左右のチャネルを生成することができる。
出力空間オーディオ信号は2チャネルバイノーラルオーディオ信号を含むことができ、再生制御情報はオーディオシーンに対する聴取方向を定義する再生方向の標示を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号と、を処理する装置は、前記それぞれの周波数サブ帯域に対して受信したスペクトル調整係数により、処理された空間オーディオ信号の1つ以上のオーディオ・チャネルのそれぞれの周波数帯域を乗算することで、前記1つ以上の周波数サブ帯域において、1つ以上の拡張オーディオ・チャネルを導出し、示された再生方向にしたがって、1つ以上のエンハンスされたオーディオ・チャネルを2チャネルバイノーラルオーディオ信号に変換させることができる。
出力される空間オーディオ信号は、2チャネルのバイノーラルオーディオ信号で構成されてもよく、再生制御情報は、オーディオシーンに対する聴取方向を規定する再生方向の標示で構成されてもよい。前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、前記再生制御情報にしたがって出力空間オーディオ信号を生成させる装置は、前記1つ以上の拡張オーディオ・チャネルを、前記示された再生方向にしたがって前記2チャネルバイノーラルオーディオ信号に変換させてもよいことを特徴とする。
出力空間オーディオ信号は2チャネルのバイノーラル信号を含むことができ、ここで、再生制御情報はオーディオシーンに関して聴取方向を規定する再生方向の標示を含むことができ、前記デフォーカス方向に基づいて、前記修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するようにされた装置は、前記再生制御情報に応じた出力空間オーディオ信号を生成すために、指定された再生方向に依存する頭部関連伝達関数(HRTF)のセットを選択し、そして処理された空間オーディオ信号のチャネルを、HRTFの選択されたセットを用いて、回転されたオーディオシーンを伝える2チャネルバイノーラル信号に変換することができる。
再生制御情報は第2の所定のラウドスピーカ構成の標示を含むことができ、出力空間オーディオ信号は第2の所定のラウドスピーカ構成によるマルチチャネルラウドスピーカ信号を含むことができ、再生制御情報にしたがって出力空間オーディオ信号を生成するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を処理するようにされた手段は、第1のスピーカ構成から第2のスピーカ構成へのマッピングを提供する振幅パンニング利得を含む変換行列を導出するように構成されることにより、アンプリチュードパンニングを用いて処理した空間オーディオ信号のチャネルに基づいて、出力された空間オーディオ信号のチャネルを導出し、前記変換行列を用いて、前記処理された空間オーディオ信号のチャネルを前記出力空間オーディオ信号のチャネルに多重化するようにすることができる。
この装置は、少なくとも1つの方向センサと少なくとも1つのユーザ入力とを含むセンサ配置からデフォーカス入力を得るようにすることができ、この場合、デフォーカス入力は、少なくとも1つの方向センサ方向に基づくデフォーカス方向の標示を含むことができる。
デフォーカス入力は、デフォーカス量のインジケータをさらに含むことができる。
デフォーカス入力は、デフォーカス形状のインジケータをさらに含むことができる。
デフォーカス形状は、デフォーカス形状幅、デフォーカス形状高さ、デフォーカス形状半径、デフォーカス形状距離、デフォーカス形状深さ、デフォーカス形状範囲、デフォーカス形状直径、およびデフォーカス形状キャラクタライザのうちの少なくとも1つを含むことができる。
デフォーカス方向は、デフォーカス方向の範囲によって定義される円弧であってもよい。
第4の態様によれば、デフォーカス方向を得るように構成された回路と、前記デフォーカス方向の少なくとも他の部分に対して、デフォーカス方向の部分空間オーディオ信号の少なくとも部分的に相対的なデエンファシスを制御するように、デフォーカス方向に基づいて、修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するように、オーディオシーンを処理するように構成された前記空間オーディオ信号処理回路と、前記処理された空間オーディオ信号の出力を制御するように構成された出力回路と、前記処理された空間オーディオ信号の出力を制御するように構成された出力回路と、を含む装置が提供され、ここで、前記デフォーカス方向に基づいて修正されたオーディオシーンは、前記空間オーディオ信号の少なくとも一部の部分において、前記空間オーディオ信号の少なくとも一部の他の部分に対する前記デフォーカス方向の部分のデエンファシスを可能にする。
第5の態様によれば、命令[またはプログラム命令を備えるコンピュータ可読メディア]を備えるコンピュータプログラムが提供され、命令[またはプログラム命令]は装置に、少なくとも、デフォーカス方向を取得することと、空間オーディオ信号の少なくとも一部におけるデフォーカス方向の相対的なデエンファシスを制御するために、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号を処理することと、処理された空間オーディオ信号を出力することを実行させるための命令[プログラム命令を備えるコンピュータ可読メディア]を含み、ここで、前記デフォーカス方向に基づいて修正されたオーディオシーンは、前記空間オーディオ信号の少なくとも一部の部分において、前記空間オーディオ信号の少なくとも一部の他の部分に対する前記デフォーカス方向の部分のデエンファシスを可能にする。
第6の態様によれば、装置に、デフォーカス方向を取得させることと、空間オーディオ信号の少なくとも一部分におけるデフォーカス方向の相対的なデエンファシスを制御するように、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号を処理することと、処理された空間オーディオ信号を出力することと、を少なくとも実行させるためのプログラム命令を備える非一時的なコンピュータ可読メディアが提供され、ここで、前記デフォーカス方向に基づいて修正されたオーディオシーンは、前記空間オーディオ信号の少なくとも一部の部分において、前記空間オーディオ信号の少なくとも一部の他の部分に対する前記デフォーカス方向の部分のデエンファシスを可能にする。
第7の態様によれば、第7の態様によれば、デフォーカス方向を取得するための手段と、空間オーディオ信号の少なくとも一部において空間オーディオ信号の一部を空間オーディオ信号の他の部分に対してデフォーカス方向に相対的なデエンファシスを制御するように、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、オーディオシーンを表す空間オーディオ信号を処理するための手段と、処理された空間オーディオ信号を出力するための手段とを備え、デフォーカス方向に基づいた修正されたオーディオシーンは、空間オーディオ信号の少なくとも一部において空間オーディオ信号の一部を空間オーディオ信号の他の部分の少なくとも一部においてデフォーカス方向にデエンファシスすることを可能にする、装置が提供される。
第8の態様によれば、デフォーカス方向を取得することと、オーディオシーンを表す空間オーディオ信号を処理して、空間オーディオ信号の少なくとも一部の他の部分に対するデフォーカス方向の空間オーディオ信号の部分の相対的デエンファシスを制御するように、デフォーカス方向に基づいて修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成することと、を少なくとも装置に実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。
上述の動作を実行するための手段を備える装置。
上述の方法の動作を実行するように構成された装置。
コンピュータに上述の方法を実行させるためのプログラム命令を含むコンピュータプログラム。
メディアに記憶されたコンピュータプログラム製品は、装置に本明細書に記載された方法を実行させることができる。
電子デバイスは、本明細書で説明されるような装置を備えることができる。
チップセットは、本明細書に記載されるような装置を備えてもよい。
本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。
本出願をより良く理解するために、添付の図面を例として参照する。
図1a、1bおよび1cは、オーディオフォーカス領域またはエリアを示す例示的なサウンドシーンを示す。 図1a、1bおよび1cは、オーディオフォーカス領域またはエリアを示す例示的なサウンドシーンを示す。 図1a、1bおよび1cは、オーディオフォーカス領域またはエリアを示す例示的なサウンドシーンを示す。 図2aおよび図2bは、いくつかの実施形態による、再生装置を動作させるための例示的な再生装置および方法を概略的に示す。 図2aおよび図2bは、いくつかの実施形態による、再生装置を動作させるための例示的な再生装置および方法を概略的に示す。 図3aおよび図3bは、いくつかの実施形態による、より高次のアンビソニック・オーディオ信号入力を有する、図2aに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。 図3aおよび図3bは、いくつかの実施形態による、より高次のアンビソニック・オーディオ信号入力を有する、図2aに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。 図4aおよび図4bは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図2aに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。 図4aおよび図4bは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図2aに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。 図5aおよび図5bは、いくつかの実施形態による、マルチチャネルおよび/またはオーディオ・オブジェクトディオ信号入力を有する、図2aに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。 図5aおよび図5bは、いくつかの実施形態による、マルチチャネルおよび/またはオーディオ・オブジェクトディオ信号入力を有する、図2aに示される例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサを動作させる方法とを概略的に示す。 図6aおよび6bは、いくつかの実施形態による、より高次のアンビソニック・オーディオ信号入力を有する、図2aに示されるような例示的な再生プロセッサと、例示的な再生プロセッサを動作させる方法とを概略的に示す。 図6aおよび6bは、いくつかの実施形態による、より高次のアンビソニック・オーディオ信号入力を有する、図2aに示されるような例示的な再生プロセッサと、例示的な再生プロセッサを動作させる方法とを概略的に示す。 図7aおよび7bは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図2aに示されるような例示的な再生プロセッサと、例示的な再生プロセッサを動作させる方法とを概略的に示す。 図7aおよび7bは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図2aに示されるような例示的な再生プロセッサと、例示的な再生プロセッサを動作させる方法とを概略的に示す。 図8は、いくつかの実施形態の例示的な実装を示す。 図9は、実施形態に基くフォーカス方向、フォーカス量およびフォーカス幅を制御するための例示的なコントローラを示す。 図10は、いくつかの実施形態による高次アンビソニック・オーディオ信号の処理に基づく処理出力の例を示す。 図11は、示された装置を実施するのに適した例示的な装置を示す。
以下に、空間オーディオ信号の効率的なレンダリングおよび再生を提供するための適切な装置および可能な機構をさらに詳細に説明する。
以前の空間オーディオ信号の再生例では、ユーザはフォーカス方向とフォーカス量を制御することができる。しかし、状況によっては、このようなフォーカス方向/量の制御では十分でないことがある。後述するような概念は、特定の方向の音の消去またはデエンファシスを示すことができる更なるフォーカス制御を特徴とする装置および方法である。例えば、音場では、特定の方向の複数の支配的な音源、ならびに周囲の音など、いくつかの異なる特徴が存在し得る。いくつかのユーザは音場の特定の特徴を除去することを好むことがあり、一方、いくつかのユーザは、完全なオーディオシーンを聞くこと、または音場の代替の特徴を除去することを好むことがある。特に、ユーザは空間音シーンの残りが最初に意図されたように再生されるように、望ましくない音を除去することを望む場合がある。
以下に説明する図1aないし図1cは、再生された空間オーディオ信号を聞く際にユーザが知覚しようとするものを示す。
一例として、図1aは、定義された方向を有するユーザ101を示す。オーディオシーン内には、関心のあるソース105、例えば話者が存在する。さらに、ユーザを取り囲んでいる他の周囲オーディオ含有量107があってもよい。
さらに、ユーザは、エアコン103などの妨害音源を識別することができる。従来、ユーザは、関心のあるソース105にフォーカスを合わせて、これらを干渉ソース103よりもエンファシス(強調)するように再生を制御することができる。しかしながら、実施形態で説明した概念は代わりに、デフォーカスまたはネガティブフォーカス識別ソース103によって図1aに示すように、識別ソースの「除去」(またはデフォーカスまたはネガティブフォーカス)を実行することによって、音質を改善することを試みる。
図1bに示されるような別の例として、ユーザは、サウンドシーン内の形状または領域内の任意のソースのフォーカスをぼかすか、またはネガティブフォーカスすることを望み得る。したがって、例えば、図1bは、例えば話者のような関心のあるソース105と、環境オーディオコンテンツのような他の周囲オーディオコンテンツ107と、定義された領域153内の干渉ソース155とを有するオーディオまたはサウンドシーン内に定義された向きで配置されたユーザ101を示す。この例では、デフォーカスまたはネガティブフォーカスの領域がユーザ101に対して規定された幅および方向のデフォーカス円弧151によって表される。ユーザ101に対する定義された幅および方向のデフォーカス円弧151は、干渉源領域153内の干渉源155をカバーする。
デフォーカスまたは負のフォーカスの領域が表され得るさらなる方法が図1cに示され、ここで、デフォーカス領域または体積(3D領域について)161は、干渉源領域153内の干渉源155をカバーする。この例では、デフォーカス領域が距離ならびに方向および「幅」によって定義され得る。
したがって、本明細書で説明される実施形態は、(デフォーカス方向および量に加えて)デフォーカス形状の制御を提供することを試みる。本明細書で説明される実施形態に関して説明されるようなコンセプトは空間オーディオ再生に関し、空間オーディオ信号フォーマットも同じであることを可能にしながら、選択された空間方向(または領域またはボリューム)における所望のオーディオ素子の可聴性を維持しながら、選択された空間方向(または領域またはボリューム)におけるオーディオ素子の可聴性をデエンファシス(強調解除)するように、これらの判定されたデフォーカス形状外の素子(または領域またはボリューム)に対して、所望の量(たとえば、0%~100%)だけ選択可能な空間方向(または領域またはボリューム)に由来するオーディオ素子(または領域またはボリューム)を低減/除去するための制御手段を有するオーディオプレイバックを可能にする。
この実施形態は、選択可能な方向および量に対応する少なくとも1つのデフォーカス(またはネガ型のフォーカス)パラメータを提供する。さらに、いくつかの実施形態では、このデフォーカス(またはネガティブフォーカス)パラメータがデフォーカス(またはネガティブフォーカス)形状を定義することができ、方向、幅、高さ、半径、距離、および深さに対応する以下のパラメータのいずれか(または2つ以上の組合せ)によって定義することができる。いくつかの実施形態におけるこのパラメータセットは、任意のデフォーカス形状を定義するパラメータを含む。
いくつかの実施形態では、少なくとも1つのデフォーカスパラメータにはさらなる選択された空間方向(または形状、面積、または体積)の可聴性をエンファシス(強調)するために、少なくとも1つのデフォーカスパラメータが提供される。
空間オーディオ信号処理は、いくつかの実施形態では複数の視線方向を有するメディアに関連する空間オーディオ信号を取得することと、フォーカス/デフォーカス方向および量パラメータを取得することと(任意選択で、少なくとも1つのフォーカス/デフォーカス形状情報を取得することを含み得る)、空間オーディオ信号を修正して所望の(フォーカス)およびデフォーカス特性を有するようにすることと、修正された空間オーディオ信号を(ヘッドフォンまたはラウドスピーカで)再生することとによって実行され得る。
得られた空間オーディオ信号は、例えば、アンビソニック信号、ラウドスピーカ信号、オーディオ・チャネルの設定および関連する空間メタデータのようなパラメトリック空間オーディオ・フォーマットであってもよい。
フォーカス/デフォーカス情報は以下のように定義することができる。フォーカスが、選択可能な方向(または形状または領域)から生じるオーディオの相対的な突出を増加させることを指し、一方、デフォーカスは、その方向(または形状または領域)から生じるオーディオの相対的な突出を減少させることを指す。
フォーカス/デフォーカス量は、どれだけフォーカスするか、またはデフォーカスするかを決定する。これは、例えば、0%から100%であってもよく、ここで、0%は元のサウンドシーンを修正されないままに保つために手段であり、100%は所望の向きに、または規定された範囲内に最大限にフォーカス/デフォーカスするために手段である。
いくつかの実施形態におけるフォーカス/デフォーカス制御部はフォーカスを合わせるかデフォーカスするかを決定するためのスイッチ制御部であってもよく、または、例えば、負の値がデフォーカス(または負のフォーカス)効果を示し、正の値がフォーカス効果を示す場合、フォーカス量範囲を-100%から100%に拡張することによって、他の方法で制御部されてもよい。
異なるユーザが異なるフォーカス/デフォーカス特性を有することを望む場合があることに留意されたい。オリジナルの空間オーディオ信号は、ユーザの個人的な好みに基づいて、ユーザ毎に個別に修正され、再生されてもよい。
図2aは、一例による空間オーディオ処理構成250のいくつかのコンポーネントおよび/またはエンティティのブロック図を示す。この図に示され、さらに後で詳述される2つの別々のステップ(フォーカス/デフォーカスプロセッサ+再生プロセッサ)は、統合されたプロセスとして実施することができ、またはいくつかの例では、本明細書に記載されるように逆の順序(再生プロセッサ動作がその後フォーカス/デフォーカスプロセッサ動作に続く)で実施することができることは理解される。空間オーディオ処理構成250は、入力オーディオ信号とさらにフォーカス/デフォーカスパラメータ202とを受け取り、入力オーディオ信号200に基づいて、フォーカス/デフォーカスパラメータ202(フォーカス/デフォーカス方向、フォーカス/デフォーカス量、フォーカス/デフォーカス高、フォーカス/デフォーカス半径、フォーカス/デフォーカス距離、およびフォーカス/デフォーカス要素に関する焦点深度を含み得る)に依存して、フォーカス/デフォーカス音コンポーネント204を有するオーディオ信号を導き出すように構成されているオーディオフォーカスプロセッサ201を備える。空間オーディオ処理構成250は、フォーカスされた/デフォーカスされた音成分204および再生制御情報206を有するオーディオ信号を受信するように構成されたオーディオ再生プロセッサ207をさらに備えることができる。そして、オーディオ再生プロセッサ207においてフォーカスされた/デフォーカスされた成分を有する空間オーディオ信号の処理に関連する少なくとも1つの態様を制御するように機能する再生制御情報206にさらに依存して、フォーカスされた/デフォーカスされた音成分204を有するオーディオ信号に基づいて所定のオーディオ・フォーマットで出力オーディオ信号208を導出するように構成される。再生制御情報206は、再生方向(または再生方向)の標示および/または適用可能なスピーカ構成の標示を含むことができる。上述の空間オーディオ信号を処理するための方法を考慮して、オーディオフォーカスプロセッサ201は、受信されたフォーカス/デフォーカス量にしたがって、受信されたフォーカス領域または方向における空間オーディオ信号の少なくとも一部におけるエンファシスまたはデエンファシスを制御するようにオーディオシーンを修正することによって、空間オーディオ信号を処理する態様を実装するように構成され得る。オーディオ再生プロセッサ207は、観察された方向および/または位置に基づいて、修正されたオーディオシーンとして、処理された空間オーディオ信号を出力することができ、修正されたオーディオシーンは、フォーカス領域内の空間オーディオ信号の少なくとも前記部分について、受信されたフォーカス量にしたがって、エンファシスを示す。
図2aでは、入力されたオーディオ信号のそれぞれに、フォーカス/デフォーカスされたサウンド成分を有するオーディオ信号と、出力されたオーディオ信号とが、それぞれの空間オーディオ信号として、所定の空間オーディオ・フォーマットで提供される。したがって、これらの信号は、それぞれ、入力空間オーディオ信号、フォーカス/デフォーカス音成分を有する空間オーディオ信号、および出力空間オーディオ信号と参照されることができる。前述の説明に沿って、典型的には、空間オーディオ信号がオーディオシーンのそれぞれの特定の位置における1つ以上の指向性音源と、オーディオシーンの雰囲気との両方を含むオーディオシーンを搬送する。しかし、いくつかのシナリオでは空間オーディオシーンが、両方向音源がない1つ以上の指向性音源、またはいかなる指向性音源もない両方向性音源を含むことができる。この点に関して、空間オーディオ信号は、オーディオシーン内の一定の位置(例えば、一定の到来方向およびリスニングポイントに対する一定の相対強度)を有する別個の音源を表す1つ以上の指向性サウンド成分、および/または、オーディオシーン内の環境サウンドを表す周囲サウンド成分を伝達する情報を備える。オーディオシーンを指向性サウンド成分および周囲成分に除算することは典型的には表現または近似のみであるが、実際のサウンドシーンは広い音源およびコヒーレントな音響反射などのより複雑な特徴を含み得ることに留意されたい。それにもかかわらず、このような錯体音響的特徴があっても、直接成分と周囲成分の組み合わせとしてのオーディオシーンの概念化は、通常、少なくとも知覚的な意味で公平な表現または近似である。
典型的には、フォーカス/デフォーカスされた音成分を有する入力オーディオ信号およびオーディオ信号が同じ事前定義された空間フォーマットで提供され、一方、出力オーディオ信号は入力オーディオ信号(およびフォーカス/デフォーカスされた音成分を有するオーディオ信号)に対して適用されたのと同じ空間フォーマットで提供されてもよく、または出力オーディオ信号に対して異なる事前定義された空間フォーマットを採用してもよい。出力オーディオ信号の空間オーディオ・フォーマットは、出力オーディオ信号の再生に適用されるサウンド再生ハードウェアの特性を考慮して選択される。一般に、入力オーディオ信号は第1の所定の空間オーディオ・フォーマットで提供されてもよく、出力オーディオ信号は第2の所定の空間オーディオ・フォーマットで提供されてもよい。第1および/または第2の空間オーディオ・フォーマットとして使用するのに適した空間オーディオ・フォーマットの非限定的な例は、アンビソニック、事前定義されたラウドスピーカ構成に従ったサラウンドラウドスピーカ信号、事前定義されたパラメトリック空間オーディオ・フォーマットを含む。空間オーディオ処理配置250のフレーム組みにおけるこれらの空間オーディオ・フォーマットの、第1および/または第2の空間オーディオ・フォーマットとしての使用の、より詳細な非限定的な例は、本開示の後半で提供される。
空間オーディオ処理構成250は、典型的には入力フレームの配列として入力空間オーディオ信号200を出力フレームのそれぞれの配列に処理するために適用され、各入力(出力)フレームは入力(出力)空間オーディオ信号の各チャネルに対するデジタルオーディオ信号のそれぞれのセグメントを含み、所定のサンプリング周波数で入力(出力)試料のそれぞれの時系列として提供される。いくつかの実施形態では、空間オーディオ処理装置250への入力信号が符号化された形式、例えば、AAC、またはAAC+埋め込みメタデータとすることができる。このような実施形態では、符号化されたオーディオ入力が最初はデコーダであってもよい。同様に、いくつかの実施形態では、空間オーディオ処理装置250からの出力が任意の適切な方法で符号化することができる。
典型的な例では、空間オーディオ処理装置250が、各フレームが入力空間オーディオ信号の各チャネルについてそれぞれのL個のサンプルを含むように、固定された所定のフレーム長を使用し、所定のサンプリング周波数で、対応する持続時間にマッピングする。この点に関する例として、固定フレーム長は20ミリ秒(ms)であり結果、それは8、16、32または48kHzのサンプリング周波数で、L=160、L=320、L=640、およびL=960試料のフレームを、それぞれ、チャネル当たりにもたらす。フレームは、プロセッサがフィルタバンクを適用するかどうか、およびこれらのフィルタバンクがどのように構成されるかに応じて、オーバーラップしていなくてもよく、または部分的にオーバーラップしていてもよい。しかしながら、これらの値は非限定的な例として役立ち、これらの例とは異なるフレーム長および/またはサンプリング周波数が、例えば、所望のオーディオ帯域幅、所望のフレーミング遅延、および/または利用可能な処理容量に応じて、代わりに使用されてもよい。
空間オーディオ処理装置250では、フォーカス/デフォーカスがユーザが選択可能な方向/量パラメータ(または関心のある空間領域)を指す。フォーカス/デフォーカスは例えば、一般に、オーディオシーンの一定の方向、距離、半径、円弧であってもよい。別の例では、関心のある(指向性)音源が現在配置されているフォーカス/デフォーカス領域である。前者のシナリオでは、ユーザ選択可能なフォーカス/デフォーカスが、フォーカスが主に特定の方向(または空間領域)にあるので、一定のままであるか、またはまれにしか変化しない領域を示すことができ、後者のシナリオでは、ユーザ選択されたフォーカス/デフォーカスは、フォーカス/デフォーカスが時間とともにオーディオシーン内のその位置(または形状/サイズ)を変化させることができる(または変化させることができない)特定の音源に設定されるので、より頻繁に変化することができる。一例では、フォーカス/デフォーカスが例えば、方向を定義する方位角として定義されてもよい。
空間オーディオ処理装置250の構成要素を参照して前述した機能は、例えば、図2bに示されるフローチャートによって示される方法260にしたがって提供されてもよい。方法260は、例えば、いくつかの例を介して本開示で説明される空間オーディオ処理システム250を実装するように構成された装置によって提供され得る。方法260は、オーディオシーンを表す入力空間オーディオ信号を、修正されたオーディオシーンを表す出力空間オーディオ信号に処理するための方法として機能する。方法260はブロック261に示すように、フォーカス/デフォーカス方向の標示と、フォーカス/デフォーカス強度または量の標示とを受け取ることを含む。方法260は、ブロック263に示されるように、前記フォーカス/デフォーカス方向から到達する音の相対レベルが前記フォーカス/デフォーカス強度にしたがって修正される、修正されたオーディオシーンを表す中間空間オーディオ信号に、入力空間オーディオ信号を処理するステップをさらに含む。方法260は、ブロック265に示されるように、出力空間オーディオ信号への中間空間信号の処理を制御する再生制御情報を受信することをさらに含む。再生制御情報は例えば、出力空間オーディオ信号の再生方向(例えば、聴取方向または視線方向)またはスピーカ構成のうちの少なくとも1つを定義することができる。方法260は、ブロック267に示されるように、前記再生制御情報にしたがって、中間空間オーディオ信号を出力空間オーディオ信号に処理することをさらに含む。
方法260は、複数の方法で、例えば、上記および以下で提供される空間オーディオ処理装置250の構成要素のそれぞれの機能に関する例にしたがって、変更されてもよい。
以下の例では、デフォーカス動作をさらに詳細に説明するが、同じ動作を、さらなるフォーカス動作ならびにさらなるデフォーカス動作に適用することができることを理解されたい。
いくつかの実施形態では、空間オーディオ処理構成250への入力がアンビソニック信号である。本装置は、任意の次数のアンビソニック信号を受信する(および本方法を適用することができる)ように構成することができる。アンビソニック・オーディオ信号は、無指向性信号とy,z,x座標軸に沿った三つの直交一次パターンからなる一次アンビソニック(FOA)信号とすることができた。y,z,x配位次数は、アンビソニック信号の典型的なACN(アンビソニックスチャネル番号付け)チャネル順序付けの一次数係数と同じ次数であるため、ここで選択される。
アンビソニック・オーディオ・フォーマットは空間ビームパターンに関して空間オーディオ信号を表現することができ、空間オーディオを表現するために空間ビームパターンの代替セットをここで例示し且つ設計することは当業者にとって簡単であろうことに留意されたい。さらに、アンビソニックスオーディオ・フォーマットは、360ビデオの文脈で空間オーディオを表現する典型的な方法であるため、特に関連するオーディオ・フォーマットである。アンビソニック・オーディオ信号の典型的なソースは、マイクロフォンアレイおよびVRビデオストリーミングサービス(YouTube(登録商標)360など)の含有量を含む。
図3aに関して、アンビソニック入出力の文脈におけるフォーカスプロセッサ350が示されている。図は一次アンビソニック(FOA)信号(4チャネル)を前提としているが、FOAの代わりに高次アンビソニック(HOA)が適用される場合がある。HOA入力フォーマットを実装する実施形態では、4つのチャネルの代わりのチャネルの数が例えば、9つのチャネル(二次オーダーのアンビソニックス)または16のチャネル(三次オーダーのアンビソニックス)であり得る。
例示的なアンビソニック信号xFOA(t)300および(デ)フォーカス方向304、(デ)フォーカス量および(デ)フォーカス制御310は、フォーカスプロセッサ350への入力である。
いくつかの実施形態では、フォーカスプロセッサ350がフィルタバンク301を備える。フィルタバンク301は、いくつかの実施形態において、アンビソニック(FOA)信号300(アンビソニックまたは球面調和パターンに対応する)を変換して、時間領域入力オーディオ信号の時間-周波数領域バージョンを生成するように構成される。いくつかの実施形態におけるフィルタバンク301は、短時間フーリエ変換(STFT)または錯体変調直交ミラーフィルタ(QMF)バンクなどの空間音響処理のための任意の他の適切なフィルタバンクであってもよい。フィルタバンク301の出力は、周波数帯域の時間-周波数領域アンビソニック・オーディオ信号302である。周波数帯域は、適用されたフィルタバンク301の1つ以上の周波数ビン(個々の周波数成分)とすることができる。周波数帯はBark周波数帯のような知覚的に関連した分解能に近似することができ、これは、高周波数よりも低周波数においてスペクトル的に選択的である。あるいは、いくつかの実装形態では周波数帯域が周波数ビンに対応することができる。
(フォーカスされていない)時間-周波数領域アンビソニック・オーディオ信号302は、モノラルフォーカス器303およびミキサ311に出力される。
フォーカスプロセッサ301は、モノラルフォーカス器303をさらに備えることができる。モノ・フォーカス器303は、変換された(非フォーカスの)時間-周波数領域のアンビソニック信号302をフィルタバンク301から受信し、さらに、(デ)フォーカス方向パラメータ304を受信するように構成される。
モノラル(デ)フォーカス器303は、FOA入力に基づいてモノラルフォーカスオーディオ出力を生成するための任意の既知の方法を実装することができる。この例では、モノ・フォーカス器303が最小分散歪みのない応答(MVDR)モノ・フォーカスオーディオ出力を実施する。MVDRビーム成形動作は歪みなしに所望のフォーカス方向から目標信号を得ることを試みる一方、この制約により、出力エネルギーを最小化(言い換えると干渉エネルギーを抑制する)しようとする適応的にビーム成形ウェイトを見つける。
いくつかの実施形態では、モノ・フォーカス器303が周波数帯信号(例えば、FOAの場合には4つのチャネル)を、
によって1つのビーム形成信号に結合するように構成される。ここで、kは周波数帯インデックス、bは周波数ビンインデックス(ここで、bは帯域kに含まれる)、nは時間インデックス、y(b,n)は、ビンbの1チャネルビームフォーム信号、w(k,n)は、4x1ビームフォーム重みベクトルであり、x(b,n)は、4つの周波数ビンb信号チャネルを有する4x1FOA信号ベクトルである。この式では、帯域kに含まれるビンbの信号に同じビームフォームウェイトw(k,n)が適用される。
MVDRビーム形成器を実装するモノ・フォーカス器303は、各周波数帯kに対して使用することができる。
帯域kにおけるビン内の信号x(b,n)の共分散行列の推定値(また、いくつかの時間指数nにわたって時間的平均をとる可能性がある)。
フォーカス方向に応じたステアリングベクトルである。FOA信号の例では、ステアリングベクトルがフォーカス方向に向けられた単位ベクトルに基づいて生成されてもよい。例えば、FOAのためのステアリングベクトルは、
であり得る。ここで、v(n)は、フォーカス方向に向かっている(配位順序付けy,z,xにおける)単位ベクトルである。
共分散行列の推定値とステアリングベクトルに基づいて、既知のMVDR公式を用いてウェイトw(k,n)を生成することができる。
したがって、モノ・フォーカス器303は、いくつかの実施形態ではアンビソニックパナー305に提供される単一チャネルフォーカス出力信号306を提供することができる。
いくつかの実施形態では、アンビソニックス・パナー305がチャネル(デ)フォーカス出力信号306および(デ)フォーカス方向304を受信し、アンビソニック信号を生成するように構成され、ここで、モノ・フォーカス信号はフォーカス方向に位置決めされる。アンビソニックス・パナー305によって生成されるフォーカスされた時間-周波数アンビソニック信号308出力は、
に基づいて生成され得る。
いくつかの実施形態における(デ)フォーカスされた時間-周波数アンビソニック信号yFOA(b,n)308は、次いで、ミキサ311に出力され得る。
いくつかの実施形態では、MVDRなどのビームフォーマの出力がポスト・フィルタとカスケード接続することができる。ポスト・フィルタは、典型的には周波数帯域内のビーム形成器出力の利得またはエネルギーを適応的に変更するプロセスである。例えば、MVDRは個々の強い干渉音源の抑制に効果的であるが、交通騒音を伴う屋外録音のような周囲の音響シーンにおいてのみ適度に性能を発揮することが知られている。これは、MVDRが、干渉物が存在する方向にビームパターン最小を操縦することを効果的に目的とするからである。干渉音が交通騒音のように空間的に広がる場合、MVDRは効果的に干渉を抑制しない。
したがって、ポスト・フィルタは、一部の実施形態ではフォーカス方向における周波数帯域内の音エネルギーを推定するために実装することができる。次に、ビーム形成器出力エネルギーを同じ周波数帯域で測定し、推定した目標スペクトルを改善するために音スペクトルを補正するために周波数帯で利得を適用する。そのような実施形態では、ポスト・フィルタが干渉音をさらに抑制することができる。
ポスト・フィルタの例は、Delikaris Manias、Symeon、およびVille Pulkkiに記載されている。「マイクロフォンアレイを利用する空間フィルタリング応用のための断面パターンコヒーレンスアルゴリズム」IEEE Transactions on Audio、Speech、and Language Processing 21、No.11(2013):2356-2367、ここでは、見る方向の目標エネルギーを、1次と2次の球状高調波信号間の断面スペクトルエネルギー推定値を用いて推定する。クロススペクトル推定値は、ゼロ番目(無指向性)および一番目(双極子)次数の球面調和信号の間などの他のパターンについても得ることができる。クロススペクトル推定は、目標方向に対するエネルギー推定を提供する。
ポスト・フィルタリングが実装される場合、ビーム成形方程式に利得g(k,n)を付加することができる。
この利得g(k,n)は、クロススペクトルエネルギー推定法を用いて以下のように導出することができる。最初に、フォーカス方向に向かってポジティブローブを有する無指向性FOA信号成分と8の字型信号との間の相互相関を定式化し、
ここで、サブインデックス(W,Y,Z,X)を有する信号x(b,n)は4つのFOA信号の信号成分を示し、*印は複素共役を示し、Eは期待演算子を示し、これは所望の時間領域にわたる平均演算子として実装できる。次に、帯域kに対する実数値の非負の相互相関測定は、次式によって定式化される。
実際には、値C(k,n)が帯域kにおけるフォーカス方向から到来する音のエネルギー推定値である。次に、ビームフォーム出力y(b,n)=w(k,n)x(b,n)の帯域k内のビンのエネルギーD(k,n)を推定した。
次いで、空間フィルタ・利得は次のように求められる。
換言すれば、エネルギー推定値C(k,n)がビームフォーム出力エネルギーD(k,n)より小さい場合、帯域kでのビームフォーム出力エネルギーは空間フィルタによって低減される。このように、空間フィルタの機能は、フォーカス方向から到達する音のスペクトルにより近いビーム形成器出力のスペクトルをさらに調整することである。
いくつかの実施形態では、(デ)フォーカスプロセッサがこのポスト・フィルタリングを利用することができる。モノ・フォーカス器303のビーム形成された出力y(b,n)はポスト・フィルタ利得で、周波数帯域内で処理され、ポスト・フィルタされたビーム形成された出力y’(b,n)を生成することができ、ここで、y’(b,n)は、y(b,n)の代わりに適用される。上記の例として記載されたもの以外に適用され得る様々な適切なビームフォーマおよびポスト・フィルタが存在することが理解される。
いくつかの実施形態では、フォーカスプロセッサ350がミキサ311を備える。ミキサは、(デ)フォーカスされた時間周波数アンビソニック信号yFOA(b,n)308および非フォーカス時間周波数アンビソニック信号x(b,n)302(MVDR推定および処理がルックアヘッド処理を含む潜在的遅延調整を伴う)を受信するように構成される。さらに、ミキサ311は、(デ)フォーカス量およびフォーカス/デフォーカス制御パラメータ310を受信する。
この例では、(デ)フォーカス制御パラメータが「フォーカス」または「デフォーカス」のバイナリスイッチである。0..1(ここで、1は最大フォーカスである)の間の因子として表される(デ)フォーカス量パラメータa(n)は、どのモードが使用されるかに応じて、フォーカス量またはデフォーカス量のいずれかを記述するために利用される。
いくつかの実施形態ではデフォーカスパラメータが「フォーカス」モードにあるとき、ミキサ311の出力は、
である。いくつかの実施形態では、上記の式の値yFOA(k,n)が(デ)フォーカス効果をさらにエンファシス(強調)するために、混合の前に因子(例えば、4の定数)によって修正される。
いくつかの実施形態では、ミキサが、デフォーカスパラメータが「デフォーカス」モードにあるとき、
を実行するように構成することができる。
換言すれば、a(n)が0であるとき、デフォーカス処理もゼロであるが、しかしながら、a(n)が1より大きいかまたは最大1であるとき、混合手順は空間FOA信号x(b,n)から、空間化フォーカス信号である信号yFOA(b,n)を差し引く。減算により、フォーカス方向からの信号成分の振幅が減少する。言い換えると、デフォーカス処理が行われ、結果として生じるアンビソニック空間オーディオ信号は、フォーカス方向からの音に対して振幅が減少する。いくつかの構成では、yMIX(b,n)312がデフォーカス処理によるラウドネスの平均損失を説明するために、a(n)の関数として、原則に基づいて増幅され得る。
ミキサ311の出力、混合時間-周波数アンビソニック・オーディオ信号312は、逆フィルタバンク313に渡される
いくつかの実施形態では、フォーカスプロセッサ350が、混合時間-周波数アンビソニック・オーディオ信号312を受信し、オーディオ信号を時間領域に変換するように構成された逆フィルタバンク313を含む。逆フィルタバンク313は、適当なパルス符号変調アンビソニック・オーディオ信号を、付加されたフォーカス/デフォーカスで生成する。
図3bには、図3aに示すFOAフォーカスプロセッサの動作360のフローチャートが示されている。
初期動作は、ステップ361によって、図3bに示されるように、アンビソニック(FOA)オーディオ信号(および方向、幅、量または他の制御情報などのフォーカスパラメータ)を受信している。
次の動作はステップ363によって、図3bに示すように、変換されたアンビソニック・オーディオ信号を時間-周波数領域に生成することである。
時間-周波数領域のアンビソニック・オーディオ信号を生成することにより、次の動作は、ステップ365によって図3bに示されるように、フォーカス方向(例えば、ビームフォーミングを使用する)に基づいて、時間-周波数領域のアンビソニック・オーディオ信号から、モノ・フォーカスのアンビソニック・オーディオ信号を生成することの1つである。
次いで、ステップ367によって、図3bに示されるようなフォーカス方向に基づいて、モノ-(デ)フォーカスアンビソニック・オーディオ信号に対してアンビソニックスパンニングが実行される。
次いで、パンされたアンビソニック・オーディオ信号((デ)フォーカスされた時間-周波数アンビソニック信号)は、ステップ369によって、図3bに示すように、(デ)フォーカス量および(デ)フォーカス制御パラメータに基づいて、フォーカスされていない時間-周波数アンビソニック信号と混合される。
混合されたアンビソニック・オーディオ信号は、次いで、ステップ371によって、図3bに示されるように逆変換され得る。
次いで、ステップ373によって、図3bに示されるように、時間領域のアンビソニック・オーディオ信号が出力される。
図4aを参照すると、入力としてパラメトリック空間オーディオ信号を受信するように構成されたフォーカスプロセッサが示されている。パラメトリック空間オーディオ信号は、オーディオ信号と、周波数帯域における方向(1つ以上)および直接対総エネルギー比(1つ以上)などの空間メタデータとを含む。パラメトリック空間オーディオ信号の構造と生成は既知であり、それらの生成はマイクロフォンアレイ(例えば、携帯電話、VRカメラ)から説明されてきた。さらに、ラウドスピーカ信号およびアンビソニック信号からパラメトリック空間オーディオ信号を生成することができる。いくつかの実施形態では、パラメトリック空間オーディオ信号がIVAS(Immersive Voice and Audio Services)オーディオストリームから生成されてもよく、IVASオーディオストリームは空間メタデータおよびオーディオ・チャネルの形態に復号化および逆多重化されてもよい。そのようなパラメトリック空間オーディオストリームにおけるオーディオ・チャネルの典型的な数は2つのオーディオ・チャネルオーディオ信号であるが、いくつかの実施形態ではオーディオ・チャネルの数が任意の数のオーディオ・チャネルとすることができる。
いくつかの例では、パラメトリック情報が6自由度(6DOF)再生で実施することができる奥行き/距離情報を含む。6DOFでは、距離メタデータを(他のメタデータと共に)使用して、ユーザの動きの機能として、音エネルギーおよび方向がどのように変化すべきかを決定する。
この例では、各空間メタデータ方向パラメータが直接対総エネルギー比および距離パラメータの両方に関連付けられる。パラメトリック空間オーディオキャプチャに関連する距離パラメータの推定は、GB特許文献GB1710093.4およびGB1710085.0などの以前の出願で詳述されており、明確にするためにこれ以上探索されない。
パラメトリック空間オーディオ400を受信するように構成されたフォーカスプロセッサ450は、(デ)フォーカス効果を可能にするために、パラメトリック空間オーディオ信号の直接成分および周囲成分がどれだけ減衰またはエンファシス(強調)されるべきかを決定するために、(デ)フォーカスパラメータを使用するように構成される。フォーカスプロセッサ450は、以下の2つの構成で説明される。第1は(デフォーカス)パラメータ、すなわち、方向および量を使用し、さらに、フォーカス/デフォーカス円弧をもたらす幅を含む。この構成では、6DOF距離パラメータはオプションである。第二はパラメータ(デ)フォーカス方向と量および距離と半径を使用し、これにより、ある位置にフォーカス/デフォーカス球が生じる。この構成では、6DOF距離パラメータが必要である。これらの構成の違いは、以下の説明において必要な場合にのみ表現される。
以下の例では方法(および式)が経時的に変化することなく表現されるが、すべてのパラメータが経時的に変化し得ることを理解されたい。
いくつかの実施形態では、フォーカスプロセッサが、フォーカスパラメータ408と、さらに方向402(およびいくつかの実施形態では距離422)および周波数帯域における直接対総エネルギー比404からなる空間メタデータとを受信するように構成された比率修正器およびスペクトル調整係数決定器401を備える。
比率修正器およびスペクトル調整係数決定器401はフォーカスパラメータを受信し、さらに、方向402、周波数帯域における直接対全エネルギー比404(およびいくつかの実施形態では距離422)からなる空間メタデータを受信するように構成される。
以下の説明では、特に断らない限り、フォーカスパラメータが方向、幅、量を含む場合を考える。いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器401が、フォーカス方向(すべての周波数帯域kに対して1つ)と空間メタデータ方向(異なる周波数帯域kにおいて潜在的に異なる)との間の角度差を決定するように構成される。いくつかの実施形態では、v(k)が、帯域kにおける空間メタデータの方向パラメータを指す列単位ベクトルとして、およびフォーカス方向を指す列単位ベクトルとして決定される。角度距離β(k)は、
のように決定することができる。ここで、v (k)は、v(k)の転置である。
次いで、比率修正器およびスペクトル調整係数決定器401は、直接利得パラメータf(k)を決定するように構成される。フォーカス量パラメータaは、0..1(ここで、0は、ゼロフォーカス/デフォーカスを意味し、1は、最大フォーカス/デフォーカス)と、例えばある時点で20度であり得るフォーカス幅βとの間の正規化された数値として表され得る。
比率修正器およびスペクトル調整因子決定器401が(デフォーカスとは対照的に)フォーカスを実行するように構成されるとき、例示的な利得公式は、
であり、ここで、cはフォーカスに対する利得定数であり、例えば4である。比率修正器およびスペクトル調整因子決定器401がデフォーカスを実行するように構成される場合、式の例は、
である。
例示的な公式はいくつかの実施形態では、一定cがフォーカス焦れの場合とデフォーカスの場合とで異なる値を有する可能性がある。さらに、実際には、フォーカス利得関数がフォーカス領域での高い値から非フォーカス領域での低い値に滑らかに遷移するように、上記の関数を滑らかにすることが望ましい場合がある。
以下の説明では、特に断らない限り、フォーカスパラメータが方向、距離、半径、量を含む場合を考える。いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器401が以下のように定式化される、フォーカス位置pおよびメタデータ位置p(k)を決定するように構成される。いくつかの実施形態では、v(k)は、帯域kにおける空間メタデータの方向パラメータを指す列単位ベクトルとして、およびフォーカス方向を指す列単位ベクトルとして決定される。フォーカス位置は、p=vとして定式化される。ここで、dはフォーカス距離である。空間メタデータ位置は、帯域kにおける空間メタデータにおける距離パラメータであるとして定式化される。いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器401は、フォーカス位置(すべての周波数帯域kに対して1つ)と空間メタデータ位置、潜在的に異なる周波数帯域kにおいて異なる位置の差を決定するように構成される。位置差は、
のように決定することができる。ここで、||オペレータはベクトルの距離を決定するためのものである。
次いで、比率修正器およびスペクトル調整係数決定器401は、直接利得パラメータf(k)を決定するように構成される。フォーカス量パラメータは、0..1(ここで0手段ゼロフォーカス/フォーカス解除および1手段最大フォーカス/フォーカス解除)の間の正規化された値rとして表され得、フォーカス半径は例えば、ある時間インスタンス1メートルであり得る。
比率修正器およびスペクトル調整因子決定器401が(デフォーカスとは対照的に)フォーカスを実行するように構成されるとき、例示的な利得公式は、
である。ここで、cはフォーカスに対する利得定数であり、例えば4である。比率修正器およびスペクトル調整因子決定器401がデフォーカスを実行するように構成される場合、式の例は、
である。
いくつかの実施形態では、定数cは、デフォーカスの場合とフォーカスの場合とで異なる値を有していてもよい。さらに、実際には、フォーカス利得関数がフォーカス領域での高い値から非フォーカス領域での低い値に滑らかに遷移するように、上記の関数を滑らかにすることが望ましい場合がある。
残りの説明は、上述の両方のフォーカスパラメータ構成に適用可能である。いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器401がさらに、パラメトリック空間オーディオ信号の新しい直接部分値を次のように決定するように構成される。
ここで、r(k)は、帯域kにおける直接対総エネルギー比値である。いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器401が(フォーカス処理における)新しい周囲部分値を、
のように決定するように構成される。
ある実施形態では、比率修正器およびスペクトル調節因子決定器401が、A(k)=(1-r(k))を用いるデフォーカス処理において新しい周囲成分を決定するように構成され、これは、デフォーカス処理は空間的に周囲エネルギーに影響を与えないことを意味する。
次いで、比率修正器およびスペクトル調整係数決定器401は、スペクトル調整プロセッサ403に出力されるスペクトル補正係数を決定するように構成され、次いで、音響エネルギーの全体的な修正に基づいて定式化される。たとえば、
である。
いくつかの実施形態では、比率修正器およびスペクトル調整因子決定器401が、
に基づいてr(k)を置き換えるために、新たな修正された直接全エネルギー比パラメータr’(k)を決定するように構成される。
数値的に決定されていない場合D(k)=A(k)=0には、r’(k)をゼロに設定することもできる。
空間メタデータ内の方向値402(および距離値422)は、いくつかの実施形態では修正されずに渡され、出力され得る。
いくつかの実施形態におけるフォーカスプロセッサは、スペクトル調整プロセッサ403を備える。スペクトル調整プロセッサ403は、オーディオ信号(一部の実施形態では時間-周波数表現であるか、または代替的に、それらは最初に時間-周波数領域に変換される)406およびスペクトル調整係数412を受信するように構成される。いくつかの実施形態では、出力オーディオ信号414がまた、時間-周波数領域であってもよく、出力される前に時間領域に逆変換されてもよい。入力および出力の領域は、実装に依存し得る。
スペクトル調整プロセッサ403は帯域kごとに、帯域k内のすべてのチャネルの周波数ビン(時間-周波数変換の)に、スペクトル調整係数s(k)を掛けるように構成される。言い換えれば、スペクトル調整プロセッサ403は、スペクトル調整を実行するように構成される。処理アーチファクトを避けるために、乗算/スペクトル補正を時間の経過と共に平滑化することができる。
言い換えれば、フォーカスプロセッサ450は、手順が(デ)フォーカスパラメータにしたがって修正されたパラメトリック空間オーディオ信号をもたらすように、オーディオ信号および空間メタデータのスペクトルを修正するように構成される。
図4bに関して、図4aに示されるようなパラメトリック空間オーディオ入力プロセッサの動作の流れ図460が示される。
初期動作はステップ461によって、図4bに示されるように、パラメトリック空間オーディオ信号(およびフォーカス/デフォーカスパラメータまたは他の制御情報)を受信している。
次の動作はステップ463によって図4bに示されるように、パラメトリックメタデータを修正し、スペクトル調整係数を生成することである。
次の動作はステップ465によって図4bに示されるように、オーディオ信号に対するスペクトル調整を行うことである。
次に、ステップ467によって、スペクトル調整されたオーディオ信号および修正された(および修正されていない)メタデータを、図4bに示すように出力することができる。
図5aを参照すると、入力500としてマルチチャネルまたは物オーディオ信号を受信するように構成されたフォーカスプロセッサ550が示されている。そのような例におけるフォーカスプロセッサは、フォーカス利得決定器501を備えてもよい。フォーカス利得決定器501は、フォーカス/デフォーカスパラメータ508と、静的または時間的に変化し得るチャネル/物体の位置/方向情報とを受信するように構成される。フォーカス利得決定器501は、(デ)フォーカス方向、(デ)フォーカス量、(デ)フォーカス制御、およびオプションとして(デ)フォーカス距離および半径または(デ)フォーカス幅などの)(デ)フォーカスパラメータ508と、入力信号500からの空間メタデータ情報502とに基づいて、いくつかの実施形態ではチャネル信号方向がシグナリングされ、いくつかの実施形態ではチャネル信号方向が想定される。例えば、6チャネルが存在する場合、方向は5.1オーディオ・チャネル方向であると仮定することができる。いくつかの実施形態では、チャネルの数の機能としてチャネル方向を決定するために使用されるルックアップテーブルがあってもよい。
いくつかの実施形態では、フィルタバンクは存在せず、換言すれば、1つの周波数帯域kのみが存在する。各オーディオ・チャネルに対する直接利得f(k)は、フォーカス利得としてフォーカス利得プロセッサ503に出力される。
いくつかの実施形態では、フォーカス利得プロセッサ503が、オーディオ信号およびフォーカス利得値512を受信し、フォーカス利得値512(チャネル当たり)に基づいてオーディオ信号506を処理するように構成され、潜在的にいくつかの時間的な平滑化を伴う。フォーカス・利得値512に基づく処理は、いくつかの実施形態ではフォーカス・利得値とチャネル/オブジェクト信号との乗算であってもよい。
フォーカス利得プロセッサ503の出力は、フォーカス処理されたオーディオ・チャネルである。チャネル方向/位置情報は変更されず、出力510としても提供される。
いくつかの実施形態では、デフォーカス処理が1つの方向よりも広く構成されることができる。例えば、フォーカス幅を入力パラメータとして含めることができるようにしてもよい。これらの実施形態では、ユーザがデフォーカスアークを生成することもできる。別の例では、フォーカス距離およびフォーカス半径を入力パラメータとして含めることができる場合がある。これらの実施形態では、ユーザが決定された位置でデフォーカス球を生成することができる。他の入力空間オーディオ信号タイプについても同様の手順を採用することができる。
いくつかの実施形態では、オーディオ・オブジェクト(空間メタデータ)が距離パラメータを含むことができ、これも考慮に入れることができる。例えば、フォーカス/デフォーカスパラメータはフォーカス位置(方向および距離)を決定することができ、また、半径パラメータは、その位置の周囲のフォーカス/デフォーカス領域を制御することができる。そのような実施形態では、ユーザが図1cに示され、先に説明されたようなデフォーカスパターンを生成することができる。同様に、別の空間的に関連するパラメータを定義して、ユーザがデフォーカス領域の異なる形状を制御できるようにすることもできる。いくつかの実施形態では、デフォーカス領域内のオーディオ・オブジェクトの減衰が、固定デシベル数(例えば、10dB)による減衰に、0と1との間の所望のデフォーカス量を乗算し、デフォーカス方向の外側にオーディオ・オブジェクトを残す減衰であり得る。利得修正なしに(またはデフォーカス方向の外側のオーディオ・オブジェクトにフォーカス動作に関連する利得または減衰を適用しない)、直接利得f(k)パラメータ512を生成するように構成される。直接利得(フォーカス利得として出力される)の定式化において、フォーカス利得決定器501は、直接利得f(k)を決定するために、図4aの比率修正器およびスペクトル調整係数決定器401の文脈で説明したものと同じ公式を利用することができる。例外は、オーディオ・オブジェクト/チャネルの場合、典型的には1つの周波数帯域のみが存在し、空間メタデータは典型的にはオブジェクトの方向/距離のみを示し、比率は示さないケースである。距離が利用可能でない場合、固定距離、例えば2メートルを仮定することができる。
図5bには、図5aに示すマルチチャネル/オブジェクトオーディオ入力プロセッサの動作のフローチャート560が示されている。
初期動作はマルチチャネル/オブジェクトオーディオ信号を受信することであり、いくつかの実施形態では、ステップ561によって図5bに示されるように、チャネルの数および/またはチャネルの分布(およびフォーカス/デフォーカスパラメータまたは他の制御情報)などのチャネル情報を受信することである。
ステップ563によって図5bに示されるようなフォーカス利得ファクタを生成する次の動作。
次の動作はステップ565によって図5bに示されるように、各チャネルオーディオ信号に対してフォーカス利得を適用することである。
次いで、ステップ567によって、図5bに示すように、処理オーディオ信号および変更されていないチャネル方向(および距離)を出力することができる。
図6aに関しては、アンビソニック・オーディオ入力に基づく再生プロセッサ650の一例が示されている(例えば、図3aに示すように、サンプルのフォーカスプロセッサからの出力を受信するように構成してもよい)。
これらの例では、再生プロセッサがアンビソニック回転行列プロセッサ601を備えることができる。アンビソニック回転行列601は、アンビソニック信号をフォーカス/デフォーカス処理600およびビュー方向602で受信するように構成される。アンビソニック回転行列プロセッサ601は、ビュー方向パラメータ602に基づいて回転行列を生成するように構成される。これはいくつかの実施形態では、ヘッド追跡アンビソニックバイノーラリゼーションに適用されるものなど、任意の適切な方法を使用することができる(またはより一般的には球面調和関数のこのような回転がオーディオ以外を含む多くの分野で使用される)。次に、回転行列がアンビソニック・オーディオ信号に適用される。その結果はフォーカス/デフォーカス604を加えた回転されたアンビソニック信号であり、アンビソニックから両耳フィルタ603に出力される。
アンビソニックからバイノーラルフィルタ603は、フォーカス/デフォーカス604が付加された回転されたアムビソニック信号を受け取るように構成される。アンビソニックからバイノーラルフィルタlフィルタ603は、2つのバイノーラル信号606を生成するためにKアンビソニック信号に適用される、有限インパルス応答(FIR)フィルタの事前定式化された2xK行列を含み得る。4チャネルのFOAオーディオ信号が示されているこの例では、K=4である。FIRフィルタが頭部インパルス応答(HRIR)のセットに関して、最小二乗最適化法によって生成されてもよい。そのような設計手順の一例は、HRTFデータセットを得るために、HRIRデータセットを周波数ビンに(例えば、FFTによって)変換し、各周波数ビンについて、最小二乗法で、HRTFデータセットのデータポイントにおいて利用可能なHRTFデータセットを近似する複素数値処理行列を決定することである。すべての周波数ビンに対して複素値行列がこのような方法で決定されるとき、結果は時間領域FIRフィルタとして(例えば逆数FFTによって)逆数変換されることができる。FIRフィルタは例えば、ハンウィンドウを使用することによってウィンドウ化することもできる。
いくつかの実施形態では、レンダリングがヘッドフォンではなく、ラウドスピーカに対するものである。アンビソニック信号をラウドスピーカ出力にレンダリングするために使用することができる多くの既知の方法がある。1つの例は、アンビソニック信号のターゲットラウドスピーカ構成への直鎖状復号であってもよい。これは、アンビソニック信号の次数が十分に高く、例えば、少なくとも三次、好ましくは四次である場合に、良好な期待空間忠実度で適用することができる。このような直鎖状復号化の具体例において、アンビソニック信号(アンビソニックビームパターンに対応する)に適用されたときに、最小二乗法センスにおいて、対象とするラウドスピーカ構成に適したベクトルベース振幅パンニング(VBAP)ビームパターンに近似するビームパターンに対応するラウドスピーカ信号を生成する、アンビソニック復号化行列が設計されてもよい。このような設計されたアンビソニック復号行列でアンビソニック信号を処理することは、拡声器オーディオ出力を生成するように構成されることができる。そのような実施形態では、再生プロセッサがスピーカ構成に関する情報を受信するように構成され、回転処理は必要とされない。
図6bには、図6aに示すアンビソニック入力再生プロセッサの動作のフローチャート660が示されている。
初期動作はステップ661によって、図6bに示されるように、フォーカス/デフォーカス処理されたアンビソニック・オーディオ信号(およびビュー方向)を受信している。
次の操作は、ステップ663によって図6bに示されるようなビュー方向に基づいて回転行列を生成することの1つである。
次の操作は、ステップ665によって図6bに示されるようなフォーカス/デフォーカス処理を有する回転アンビソニック・オーディオ信号を生成するために、アンビソニック・オーディオ信号に回転行列を適用することである。
次に、次の動作は、ステップ667によって図6bに示されるように、、信号を適切なオーディオ出力フォーマット、例えばバイノーラル・フォーマット(またはマルチチャネル・オーディオ・フォーマットまたはラウドスピーカ・フォーマット)に変換することである。
次に、ステップ669によって、図6bに示すように、出力オーディオ・フォーマットが出力される。
図7aに関して、パラメトリック空間オーディオ入力(例えば、図4aに示される例示的なフォーカスプロセッサからの出力を受信するように構成され得る)に基づく再生プロセッサ750の例が示される。
いくつかの実施形態では、再生プロセッサが、(入力がすでに適切な時間-周波数領域にある場合を除いて)オーディオ・チャネル700オーディオ信号を受信し、オーディオ・チャネルを周波数帯域に変換するように構成されたフィルタバンク701を備える。適切なフィルタバンクの例には、短時間フーリエ変換(STFT)および錯体直交ミラーフィルタ(QMF)バンクが含まれる。時間-周波数オーディオ信号702は、パラメトリックバイノーラルシンセサイザ703に出力することができる。
いくつかの実施形態では、再生プロセッサは、時間周波数オーディオ信号702と、修正された(および修正されていない)メタデータ704と、ビュー方向706(または適切な再生関連制御またはトラッキング情報)と、を受信するように構成されたパラメトリックバイノーラルシンセサイザ703を備える。6DOF再生の文脈では、ユーザ位置がビュー方向パラメータと共に提供されてもよい。
パラメトリック両耳シンセサイザ703は、パラメトリック両耳化ブロックの前に既に信号およびメタデータに対してフォーカス修正が行われているので、バイノーラルオーディオ信号(周波数帯域で)708を生成するように構成された任意の適切な既知のパラメトリック空間合成方法を実装するように構成されることができる。パラメトリックバイノーラル合成のための公知の方法の1つは、時間-周波数オーディオ信号702を、周波数帯域直接-全比パラメータに基づいて周波数帯域直接および周囲部分信号に分割し、周波数帯域方向パラメータに対応するHRTFで周波数帯域直接部分を処理し、周囲部分をデコレレータで処理してバイノーラル拡散音場コヒーレンスを得、処理された直接および周囲部分を結合することである。バイノーラルオーディオ信号(周波数帯域内)708は、時間-周波数オーディオ信号702がどれだけのチャネルを有するかにかかわらず、2つのチャネルを有する。次いで、両耳化時間-周波数オーディオ信号708を逆フィルタバンク705に渡すことができる。本実施形態はさらに、バイノーラル化時間-周波数オーディオ信号708を受信し、印加されたフォワードフィルタバンクに逆数を印加するように構成された逆数フィルタバンク705を含む再生プロセッサを特徴とすることができ、このようにして、ヘッドフォン(図7aには示されていない)による再生に適したフォーカス特性を有する時間領域バイノーラル化オーディオ信号710を生成する。
実施形態では、両耳オーディオ信号出力が、適当な拡声器合成方法を用いてパラメトリック空間オーディオ信号から出力される拡声器チャネルオーディオ信号に置き換えられる。任意の適切なアプローチを使用することができ、例えば、ビュー方向パラメータがラウドスピーカの位置の情報と置き換えられ、パラメトリックバイノーラルシンセサイザ703が、適切な公知方法に基づいて、パラメトリックラウドスピーカシンセサイザと置き換えられる。パラメトリック・ラウドスピーカ合成のための公知の方法の1つは、時間-周波数オーディオ信号702を、周波数帯域における直接対合計比パラメータに基づいて、周波数帯域における直接対周辺部分信号に分割し、周波数帯域における直接部分を、ラウドスピーカ構成および周波数帯域における方向パラメータに対応するベクトル-ベース振幅パンニング(VBAP)利得で処理し、アンビエント部分を、インコヒーレント・ラウドスピーカ信号を得るために、アンビエント部分をデコレレータで処理し、処理された直接部分および周囲部分を組み合わせることである。ラウドスピーカオーディオ信号(周波数帯域単位)は、時間-周波数オーディオ信号702がどれだけのチャネルを有するかにかかわらず、ラウドスピーカ構成によって決定されるチャネルの数を有する。
図7bに関して、図7aに示されるようなパラメトリック空間オーディオ入力再生プロセッサの動作の流れ図760が示される。
最初の動作はステップ761によって図7bに示されるように、フォーカス/デフォーカス処理されたパラメトリック空間オーディオ信号(およびビュー方向または他の再生関連制御またはトラッキング情報)を受信することである。
次の動作は、ステップ763によって図7bに示されるようにオーディオ信号を時間-周波数変換する1つ。
次の動作は、ステップ765によって図7bに示されるように、時間-周波数変換されたオーディオ信号、メタデータおよび視線方向(または他の情報)に基づいて、パラメトリックバイノーラル(またはラウドスピーカチャネルフォーマット)プロセッサを適用することである。
次に、次の動作はステップ767によって、図7bに示されるように、生成された両耳またはラウドスピーカ・チャネル・オーディオ信号を逆変換する。
次に、ステップ769によって、図7bに示すように、出力オーディオ・フォーマットが出力される。
オーディオ信号がマルチチャネルオーディオの形態であり、図5aのフォーカスプロセッサ550が適用されるときの再生プロセッサのためのスピーカ出力を考慮すると、いくつかの実施形態では、再生プロセッサが、出力スピーカ構成が入力信号のフォーマットと同じであるパススルーを備えることができる。出力ラウドスピーカ構成が入力ラウドスピーカ構成と異なるいくつかの実施形態では、再生プロセッサがベクトルベース振幅パニング(VBAP)プロセッサを備えることができる。次に、フォーカス処理されたオーディオ・チャネルの各々を、既知の振幅パンニング技術であるVBAPを用いて処理して、対象スピーカ構成を用いてそれらを空間的に再生することができる。このようにして、出力オーディオ信号は出力ラウドスピーカのセットアップにマッチする。
いくつかの実施形態では、第1の拡声器構成から第2の拡声器構成への転化が任意の適切な振幅パンニング技術を用いて実施されてもよい。例えば、振幅パンニング技術は、第1のラウドスピーカ構成のM個のチャネルから第2のラウドスピーカ構成のN個のチャネルへの転化を定義する振幅パンニング利得のN×M行列を導出し、次いで、第1のラウドスピーカ構成にしたがってマルチチャネルラウドスピーカ信号として提供される中間の空間オーディオ信号のチャネルを乗算するために、行列を使用することを含み得る。中間空間オーディオ信号は図2aに示すように、フォーカス/デフォーカスされた音成分204を有するオーディオ信号に類似していると理解することができる。非限定的な例として、VBAP振幅パンニング利得の導出は、VilleのPulkki:「ベクトルベース振幅パンニングを用いた仮想音源位置決め」、オーディオ工学会誌45、no.6(1997)、pp.456-466に提供されている。
バイノーラル出力のために、マルチチャンネルラウドスピーカ信号フォーマット(および/または物)の任意の適切なバイノーラル化が実施されてもよい。例えば、典型的なバイノーラライゼーションは、頭部伝達関数(HRTF)を用いてオーディオ・チャネルを処理することと、リスニングルームの聴覚的印象を生成するために合成ルーム残響を追加することとを含むことができる。オーディオ・オブジェクト音の距離+方向(すなわち、位置)情報は、例えば英国特許出願GB1710085.0に概説されている原理を採用することによって、ユーザの動きによる6DOF再生に利用することができる。
実装に適した例示的な装置が、適切なソフトウェア903を実行する携帯電話または携帯デバイス901の形成で図8に示されている。ビデオは例えば、携帯電話901を夢想(Daydream)ビュータイプの装置に取り付けることによって再生することができる(明確にするための、ビデオ処理はここでは説明しない)。
オーディオビットストリーム取得器923は例えば、メモリから受信/検索されるオーディオビットストリーム924を得るように構成される。いくつかの実施形態では、モバイルデバイスが圧縮されたオーディオを受信し、それを復号するように構成されたデコーダ925を備える。デコーダの例は、AACデコーディングの場合のAACデコーダである。結果として得られる復号化された(例えば、図3aおよび図6aに示す例を実施するアンビソニック(アンビソニック))オーディオ信号926は、フォーカスプロセッサ927に転送することができる。
携帯電話901はコントローラデータレシーバ911において外部コントローラからコントローラデータ900を(例えば、Bluetoothを介して)受信し、そのデータをフォーカスパラメータ(コントローラデータから)決定器921に渡す。フォーカスパラメータ(コントローラデータからの)決定器921は、例えば、コントローラデバイスおよび/またはボタンイベントの向きに基づいて、フォーカスパラメータを決定する。フォーカスパラメータは提案されたフォーカスパラメータ(例えば、フォーカス/デフォーカス方向、フォーカス/デフォーカス量、フォーカス/デフォーカス高さ、およびフォーカス/デフォーカス幅)の任意の種類の組み合わせを含むことができる。フォーカスパラメータ922は、フォーカスプロセッサ927に転送される。
アンビソニック・オーディオ信号およびフォーカスパラメータに基づいて、927は、所望のフォーカス特性を有する修正アンビソニック信号928を生成するように構成される。これらの修正されたアムビソニック信号928は、アムビソニック・プロセッサ929に転送される。アンビソニック・バイノーラルプロセッサ929はまた、携帯電話901の方位追跡装置913からヘッド方位情報904を受信するように構成される。修正されたアンビソニック信号928およびヘッド方向情報904に基づいて、アンビソニック/バイノーラルプロセッサ929は、携帯電話から出力され、例えばヘッドフォンを使用して再生され得るヘッド追跡バイノーラル信号930を生成するように構成される。
図9は、フォーカス/デフォーカス方向、フォーカス/デフォーカス量、およびフォーカス/デフォーカス幅などの適切なフォーカス/デフォーカスパラメータを制御または生成するように構成され得る、一例の装置(またはフォーカス/デフォーカスパラメータ制御部)1050を示す。装置のユーザは、コントローラを所望の方向1009に向け、フォーカス方向選択ボタン1005を押すことによって、フォーカス方向を選択するように構成することができる。制御部は方位トラッカ1001を有し、方位情報は(例えば、図8に示されるような(制御部データからの)フォーカスパラメータ決定器921における)フォーカス/デフォーカス方向を決定するために使用されてもよい。いくつかの実施形態におけるフォーカス/デフォーカス方向はフォーカス/デフォーカス方向を選択しながら、視覚ディスプレイにおいて視覚化することができる。
いくつかの実施形態では、フォーカス量がフォーカス量ボタン(図9に+および-として示される)1007を使用して制御することができる。各プレスは、フォーカス量を、例えば10パーセントポイントの量だけ増減させる。いくつかの実施形態では、フォーカス量が0%に設定され、ユーザがマイナスボタンを押し、フォーカス量が10%に設定され、フォーカス/デフォーカス制御部が「デフォーカス」モードに設定され、それに対応して、フォーカス量が0%に設定され、ユーザがプラスボタンを押した場合、フォーカス量が10%に設定され、フォーカス/デフォーカス制御部が「フォーカス」モードに設定される。
いくつかの実施形態では、例えば、フォーカス信号の所望の周波数範囲またはスペクトル特性を決定することによって、フォーカスまたはデフォーカス処理をさらに指定することが望ましい場合がある。特に、オーディオ周波数範囲でオーディオスペクトルをエンファシス(強調)またはデエンファシス(非強調)して、明瞭度を改善したり、例えば低周波数含有量(例えば、200Hz未満)、および高周波数含有量(例えば、8kHzを超える)を減衰させることによって話し手を遮断したりすることが有用であり、したがって、オーディオに関連する特に有用な周波数範囲を残す。
同様に、ユーザがデフォーカスされるべき方向を示すとき、オーディオ処理システムは減衰されるべき方向における干渉のスペクトルまたはタイプ(例えば、スピーチ、ノイズ)を分析することができる。次いで、この分析に基づいて、システムは、その干渉器によく適合する周波数範囲または周波数当たりのフォーカス解除量を決定することができた。例えば、干渉器は、高周波ノイズを発生する装置であってもよく、そのデフォーカス方向のための高周波は例えば、中低周波数よりも減衰されるのであろう。別の例ではデフォーカス方向は話者を有し、したがって、デフォーカス量は主に典型的なオーディオ周波数範囲を抑制するように周波数ごとに構成することができる。
フォーカス処理された信号は、自動利得制御またはエンハンスメント技術(例えば、帯域幅拡張、ノイズ抑制)のような任意の公知のオーディオ処理技術でさらに処理され得ることが理解される。
いくつかのさらなる実施形態では、フォーカス/デフォーカスパラメータ(方向、量、および制御を含む)は、コンテンツ作成者によって生成され、パラメータは空間オーディオ信号と一緒に送信される。例えば、オンサイトコメンテイタを伴うVRビデオ/オーディオの性質のドキュメンタリでは、デフォーカスされるべき解説者の方向を選択する必要があるユーザの代わりに、動的フォーカスパラメータプリセットを選択することができる。プリセットは、コンテンツ作成者によって、コメンテータの動きに追従するように微調整されていてもよい。例えば、デフォーカスは、コメンテータが話すときにのみイネーブルされる。言い換えると、コンテンツ作成者は、フォーカス/デフォーカスパラメータとして、いくつかの期待されるまたは推定される好みプロファイルを生成することができる。このアプローチは1つの空間オーディオ信号のみを伝達する必要があるが、異なる選好プロファイルを追加することができるため、有益である。フォーカスでイネーブルされていないレガシープレーヤは、フォーカス/デフォーカス処理を適用することなく、アンビソニックまたは他の信号タイプを単に復号するように構成することができる。
例示的な処理出力は、アンビソニック信号について説明された実装に基づいて、図10に示される。この例では、3つの音源がオーディオシーン内にある。前方にある話し手、-90度右にある話し手、左110度にあるホワイトノイズ干渉である。図10は、フォーカス/デフォーカス制御部を「フォーカス」に設定した状態で、フォーカス処理がノイズ源が存在する方向を広範囲にエンファシスるためにどのように利用され、フォーカス/デフォーカス制御部を「デフォーカス」に設定した状態で、フォーカス処理が空間オーディオ出力において2つのトーカス信号を保持しながら、ノイズ源が存在する方向を広範囲にデエンファシスするためにどのように利用されるかを示す。したがって、アンビソニック信号は、正面に話者(特に信号Xで示される)、-90度右に話者(特に信号Yで示される)、および110度左にノイズ干渉器(全ての信号で示される)を伴う行1111のアンビソニック信号によって示される例示的な状況において、3つの列(omni W 1101、水平ダイポールY1103およびX1105)に示される。次の列1113は、ノイズソースに向かってフルフォーカス処理が列われているアンビソニック・オーディオ信号を示している。一番下の行1115はノイズソースに向かって完全なデフォーカス処理(すなわち、ノイズをデエンファシス)を施したアンビソニック・オーディオ信号を示し、大部分のスピーチソースをアクティブにしたままにする。
図11を参照すると、分析または合成装置として使用することができる例示的な電子装置が示されている。デバイスは、任意の適切な電子デバイスまたは装置であってもよい。例えば、いくつかの実施形態では、デバイス1700がモバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。いくつかの実施形態では、デバイス1200が少なくとも1つのプロセッサまたは中央処理装置1207を備える。プロセッサ1207は、本明細書で説明されるような方法などの様々なプログラム・コードを実行するように構成され得る。
いくつかの実施形態では、装置1200がメモリ1211を備える。いくつかの実施形態では、少なくとも1つのプロセッサ1207がメモリ1211に結合される。メモリ1211は、任意の適切な記憶手段とすることができる。ある実施形態では、メモリ1211がプロセッサ1207上に実装可能なプログラム・コードを格納するためのプログラム・コード・セクションを含む。さらに、いくつかの実施形態では、メモリ1211は、データ、例えば、本明細書で説明される実施形態にしたがって処理された、または処理されるべきデータを格納するための格納されたデータ・セクションをさらに備えることができる。プログラム・コード・セクション内に記憶された実施されたプログラム・コードおよび記憶されたデータ・セクション内に記憶されたデータは、メモリ・プロセッサ結合を介して必要なときにいつでもプロセッサ1207によって検索することができる。
いくつかの実施形態では、装置1200がユーザインターフェース1205を備える。ユーザインターフェース1205は、いくつかの実施形態ではプロセッサ1207に結合することができる。いくつかの実施形態では、プロセッサ1207がユーザインターフェース1205の動作を制御し、ユーザインターフェース1205から入力を受信することができる。ある実施形態では、ユーザインターフェース1205が、ユーザが例えばキーパッドを介して、装置1200にコマンドを入力することを可能にすることができる。ある実施形態では、ユーザインターフェース1205が、ユーザが装置1200から情報を取得することを可能にすることができる。例えば、ユーザインターフェース1205は、装置1200からユーザに情報を表示するように構成されたディスプレイを含むことができる。ユーザインターフェース1205は、いくつかの実施形態では、情報をデバイス1200に入力することを可能にすることと、さらに情報をデバイス1200のユーザに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。
いくつかの実施形態では、装置1200が入力/出力ポート1209を備える。入出力ポート1209は、いくつかの実施形態ではトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ1207に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の好適なトランシーバまたは送信機および/または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム(UMTS)プロトコル、例えばIEEE802.Xのような無線ローカルエリアネットワーク(WLAN)プロトコル、ブルートゥース(登録商標)(Bluetooth)のような適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
トランシーバ入出力ポート1209は信号を受信するように構成されることができ、いくつかの実施形態では、本明細書に記載されるように、フォーカスパラメータを得る。
いくつかの実施形態では、装置1200が適切なコードを実行するプロセッサ1207を使用することによって、適切なオーディオ信号を生成するために使用されてもよい。入力/出力ポート1209は、任意の適切なオーディオ出力、例えば、マルチチャネルスピーカシステムおよび/またはヘッドフォン(ヘッドトラック付きまたは非トラック付きヘッドフォンであってもよい)または同様のものに結合されてもよい。
一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実施することができる。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様はコントローラ、マイクロプロセッサ、または他の計算装置によって実行されてもよいファームウェアまたはソフトウェアで実装されてもよいが、本発明はそれに限定されない。本発明の様々な態様はブロック図、フローチャートとして、またはいくつかの他の絵画的表現を使用して図示および目的され得るが、本明細書で目的されるこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他の計算装置、あるいはそれらのいくつかの組合せで実装され得ることをよく理解されたい。
本発明の実施形態は、プロセッサエンティティ内などのモバイル装置のデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、あるいはソフトウェアとハードウェアの組み合わせによって実行可能なコンピュータソフトウェアによって実現することができる。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表すことができることに留意されたい。このソフトウェアは、メモリチップなどの物理メディア、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー(登録商標)ディスクなどの磁気メディア、およびたとえばDVDやそのデータ変異体などの光学メディアに格納することができる。
メモリはローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよびリムーバブルメモリなど、任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサはローカル技術環境に適した任意のタイプとすることができ、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つ以上を含むことができる。
本発明の実施形態は、集積回路モジュールなどの様々な部品で実施することができる。集積回路の設計は高度に自動化された処理によるものであり、大規模である。論理レベルの設計を、エッチングされ、半導体基板上に形成される準備ができている整った半導体回路設計に変換するための、複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州サンノゼにあるシノプシス(Synopsys、Incof Mountain View、California and Cadence Design)から提供されているようなプログラムは、設計の十分に確立されたルール、および予め記憶された設計モジュールのライブラリを用いて、導体を自動的にルーティングし、半導体チップ上の部品の位置を特定する。半導体回路の設計が完了すると、標準化された電子フォーマット(例えば、Opus、GDSIIなど)の結果として得られる設計は、製造のために半導体製造施設または「ファブ」に送信されてもよい。
前述の説明は、本発明の例示的な実施形態の完全かつ有益な説明を、例示的かつ非限定的な例として提供した。しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になる。しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。

Claims (19)

  1. 少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、前記装置に少なくとも、
    デフォーカス方向を取得するステップと、
    空間オーディオ信号の他の部分の少なくとも一部に対して前記デフォーカス方向の前記空間オーディオ信号のある部分の少なくとも一部の相対的なデエンファシスを制御するように、修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するために、前記デフォーカス方向のデフォーカス量を用いて、オーディオシーンを表す空間オーディオ信号を処理するステップと、
    前記処理された空間オーディオ信号を出力するステップであって、前記デフォーカス方向に基づく前記修正されたオーディオシーンが、前記空間オーディオ信号の他の部分の少なくとも一部に対する前記デフォーカス方向の前記空間オーディオ信号の前記ある部分の少なくとも一部における前記デエンファシスを可能にする、出力するステップと、
    を実行させるように構成され、
    前記装置は、さらに、前記デフォーカス量を得るステップを実行するようにされ、
    前記空間オーディオ信号を処理することは、前記装置に、前記デフォーカス量にしたがって、前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向における前記空間オーディオ信号の前記ある部分の少なくとも一部における相対的デエンファシスを制御するステップを実行させることを含む、
    装置。
  2. 前記空間オーディオ信号を処理することは、前記装置に、
    前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向の前記空間オーディオ信号の前記ある部分の少なくとも一部のエンファシスを減少させるステップと、
    前記デフォーカス方向の前記空間オーディオ信号の前記ある部分に対して、前記空間オーディオ信号の他の部分の少なくとも一部のエンファシスを増加させるステップと、
    のうちの少なくとも1つを実行させることを含む、請求項1に記載の装置。
  3. 前記空間オーディオ信号を処理することが、前記装置に、前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス量にしたがって前記デフォーカス方向の前記空間オーディオ信号の前記ある部分の少なくとも一部において、音レベルを減少させるステップと、
    前記デフォーカス量にしたがって、前記デフォーカス方向における前記空間オーディオ信号の前記ある部分に対して前記空間オーディオ信号の他の部分の少なくとも一部の音レベルを増加させるステップと、
    のうちの少なくとも1つを実行させることを含む、請求項1に記載の装置。
  4. 前記装置が、デフォーカス形状を取得するようにされるステップを含む、請求項1に記載の装置であって、
    前記空間オーディオ信号を処理することが、前記装置に、前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向で、前記デフォーカス形状内において、前記空間オーディオ信号の前記ある部分の少なくとも一部において、相対的デエンファシスを制御するステップを実行させることを含む、
    装置。
  5. 前記空間オーディオ信号を処理することが、前記装置に、前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向のおよびデフォーカス形状内からの前記空間オーディオ信号の前記ある部分における少なくとも一部のエンファシスを減少させるステップと、
    前記空間オーディオ信号の前記デフォーカス方向および前記デフォーカス形状内の前記空間オーディオ信号の前記ある部分に対して、前記空間オーディオ信号の他の部分の少なくとも一部のエンファシスを増加させるステップと、
    のうちの少なくとも1つを実行させることを含む、請求項4に記載の装置。
  6. 前記空間オーディオ信号を処理することが、
    前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記空間オーディオ信号のデフォーカス方向で、かつ、得られたデフォーカス形状内からデフォーカス量にしたがって、前記空間オーディオ信号の前記ある部分の少なくとも一部における音レベルを減少させるステップと、
    前記空間オーディオ信号の他の部分の少なくとも一部において、前記空間オーディオ信号の前記デフォーカス方向の部分と前記デフォーカス量に従って、得られたデフォーカス形状内からの相対的な音レベルを増加させるステップと、
    のうちの少なくとも1つを前記装置に実行させることを含む、請求項1に記載の装置。
  7. さらに、前記処理された空間オーディオ信号を出力することの少なくとも1つの態様を制御するための再生制御情報を取得するステップを実行するようにされ、
    前記装置は、前記処理された空間オーディオ信号を出力するステップを実行するようにされ、
    前記空間オーディオ信号を処理することは、さらに、前記装置に、
    前記再生制御情報に従って出力空間オーディオ信号を生成するために、前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表す処理された前記空間オーディオ信号を処理するステップ、または、
    前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表す前記処理された空間オーディオ信号を生成し、前記処理された空間オーディオ信号を前記出力空間オーディオ信号として出力するために、前記装置に前記オーディオシーンを表す空間オーディオ信号を処理させる前に、前記再生制御情報にしたがって前記空間オーディオ信号を処理するステップ、
    のうちの1つを実行させることを含む、請求項1に記載の装置。
  8. 前記空間オーディオ信号および前記処理された空間オーディオ信号が、それぞれのアンビソニック信号を含み、
    前記空間オーディオ信号を処理することが、1つ以上の周波数サブ帯域に対して、前記装置に、
    前記空間オーディオ信号から、フォーカス方向から到来する音成分を表す単一チャネルターゲットオーディオ信号を抽出するステップ、
    フォーカスされた空間オーディオ信号を生成するステップであって、前記フォーカスされた空間オーディオ信号が前記デフォーカス方向によって定義される空間位置に配置される、ステップ、
    または、
    前記空間オーディオ信号から減算した前記フォーカスされた空間オーディオ信号の線形結合として、前記処理された空間オーディオ信号を生成するステップであって、前記フォーカスされた空間オーディオ信号および前記空間オーディオ信号の少なくとも1つは、前記デフォーカス方向における音の相対レベルを低下させるように、前記デフォーカス量に基づいて導出されるそれぞれのスケーリング係数によって、スケールされる、ステップ、
    を実行させることを含む、請求項1に記載の装置。
  9. 前記単一チャネルターゲットオーディオ信号を抽出することは、前記装置に、
    ビームフォーミングを適用して、前記空間オーディオ信号から、前記デフォーカス方向から到来する前記音成分を表すビームフォーミング信号を導出するステップ、
    または、
    前記ビームフォーミング信号に基づいて前記処理された空間オーディオ信号を導出するために、ポストフィルタを適用するステップであって、それによって、前記ビームフォーミング信号のスペクトルを、前記デフォーカス方向から到来する前記音のスペクトルに近似するように調整する、ステップ、
    を実行させることを含む、
    請求項8に記載の装置。
  10. 前記空間オーディオ信号および前記処理された前記空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含み、
    パラメトリック空間オーディオ信号は、1つ以上のオーディオチャネルおよび空間メタデータを含み、
    前記空間メタデータは、複数の周波数サブ帯域に対するそれぞれの方向標示およびエネルギー比率パラメータを含み、
    前記空間オーディオ信号を処理することが、前記装置に、
    1つ以上の周波数サブ帯域について、前記デフォーカス方向と、前記空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算するステップ、
    前記それぞれの周波数サブ帯域について計算された角度差に基づいて、前記角度差の所定の関数と前記デフォーカス量に基づいて導かれるスケーリング係数とを用いて、前記1つ以上の周波数サブ帯域のそれぞれの利得値を導出するステップ、
    前記処理された空間オーディオ信号の1つ以上の周波数サブ帯域について、前記空間オーディオ信号の前記それぞれの周波数サブ帯域の前記エネルギー比率パラメータと前記利得値とに基づいて、それぞれの更新された指向性エネルギー値を計算するステップ、
    前記処理された空間オーディオ信号の前記1つ以上の周波数帯域について、前記空間オーディオ信号の前記それぞれの周波数サブ帯域のエネルギー比率パラメータと前記スケーリング係数とに基づいて、それぞれの更新された周囲エネルギー値を計算するステップ、
    前記更新された指向性エネルギーを前記更新された直接エネルギーと周囲エネルギーの合計で割った値に基づいて、前記処理された空間オーディオ信号の前記1つ以上の周波数サブ帯域のそれぞれの修正されたエネルギー比率パラメータを計算するステップ、
    前記更新された直接エネルギーと周囲エネルギーの合計に基づいて、前記処理された空間オーディオ信号の前記1つ以上の周波数サブ帯域のそれぞれのスペクトル調整係数を計算するステップ、
    または、
    前記空間オーディオ信号の前記1つ以上のオーディオチャネル、前記空間オーディオ信号の前記方向標示、修正されたエネルギー比率パラメータ、および前記スペクトル調整係数を含む指示処理された空間オーディオ信号を構成するステップ、
    を実行させることを含む、
    請求項1に記載の装置。
  11. 前記空間オーディオ信号および前記処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号からなり、パラメトリック空間オーディオ信号は、1つ以上のオーディオチャネルおよび空間メタデータからなり、前記空間メタデータは、複数の周波数サブ帯域に対するそれぞれの方向標示およびエネルギー比率パラメータからなり、
    ここで、
    前記空間オーディオ信号を処理することが、前記装置に、
    1つ以上の周波数サブ帯域について、前記デフォーカス方向と、前記空間オーディオ信号のそれぞれの周波数サブ帯域について示された方向との間のそれぞれの角度差を計算するステップ、
    角度差の所定の関数と、前記デフォーカス量に基づいて導かれるスケーリング係数とを用いて、前記それぞれの周波数サブ帯域について計算された角度差に基づいて、前記1つ以上の周波数サブ帯域のそれぞれの利得値を導出するステップ、
    前記処理された空間オーディオ信号の1つ以上の周波数サブ帯域について、前記空間オーディオ信号のそれぞれの周波数サブ帯域のエネルギー比率パラメータと前記利得値に基づいて、それぞれの更新された指向性エネルギー値を計算するステップ、
    前記処理された空間オーディオ信号の前記1つ以上の周波数帯域について、前記空間オーディオ信号の前記それぞれの周波数サブ帯域の前記エネルギー比率パラメータと、前記スケーリング係数とに基づいて、それぞれの更新されたアンビエントエネルギー値を計算するステップ、
    更新された指向性エネルギーを更新された直接エネルギーと周囲エネルギーの合計で割った値に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブ帯域のそれぞれの修正されたエネルギー比率パラメータを計算するステップ、
    前記更新された直接エネルギーと周囲エネルギーの合計に基づいて、前記処理された空間オーディオ信号の1つ以上の周波数サブ帯域に対するそれぞれのスペクトル調整係数を計算するステップ、
    空間オーディオ信号の1つ以上のオーディオチャネルのそれぞれの周波数帯域に、前記それぞれの周波数帯域に対して導出された前記スペクトル調整係数を乗じることによって、前記1つ以上の周波数サブ帯域において、1つ以上の拡張オーディオチャネルを導出するステップ、
    または、
    前記1つ以上の拡張オーディオチャネル、前記空間オーディオ信号の前記方向標示、および前記修正されたエネルギー比率パラメータを含む前記処理された空間オーディオ信号を構成するステップ、
    を実行させることを含む、
    請求項1に記載の装置。
  12. 前記空間オーディオ信号および前記処理された空間オーディオ信号は、第1の所定のラウドスピーカ構成にしたがうそれぞれのマルチチャネルラウドスピーカ信号を含み、
    前記空間オーディオ信号を処理することは、前記装置に、
    前記デフォーカス方向と、前記空間オーディオ信号のそれぞれのチャネルについて示される、ラウドスピーカ方向との間のそれぞれの角度差を計算するステップ、
    前記角度差の所定の関数と前記デフォーカス量に基づいて導出されるスケーリング係数とを用いて、各チャネルに対して計算された前記角度差に基づいて、前記空間オーディオ信号の各チャネルに対するそれぞれの利得値を導出するステップ、
    前記空間オーディオ信号の前記それぞれのチャネルに、前記それぞれのチャネルに対して前記導出された利得値を乗算することによって、1つ以上の修正オーディオチャネルを導出するステップ、
    または、
    修正されたオーディオチャネルを処理された空間オーディオ信号として提供するステップ、
    を実行させることを含む、
    請求項1に記載の装置。
  13. 前記処理された空間オーディオ信号は、アンビソニック信号を含み、
    前記出力された空間オーディオ信号は、2チャネルバイノーラル信号からなり、
    前記再生制御情報は、前記オーディオシーンに対する聴取方向を規定する再生方向の標示を含み、
    前記再生制御情報にしたがって出力空間オーディオ信号を生成するために前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表現する前記空間オーディオ信号を処理することが、前記装置に、
    標示された再生方向に依存する回転行列を生成するステップ、
    回転した空間オーディオ信号を導出するために、前記処理された空間オーディオ信号のチャネルと前記回転行列とを乗算するステップ、
    頭部関連インパルス応答関数(HRTF)または頭部関連インパルス応答(HRIR)のデータセットに基づいて生成された有限インパルス応答(FIR)、フィルタペアの所定のセットを使用して前記回転した空間オーディオ信号の前記チャネルをフィルタリングするステップ、
    または、
    左右のチャネルのそれぞれの1つについて導出された前記回転した空間オーディオ信号の前記フィルタリングされたチャネルの合計として、前記2チャネルバイノーラル信号の前記左右のチャネルを生成するステップ、
    を実行させることを含む、
    請求項7に記載の装置。
  14. 前記出力空間オーディオ信号は、2チャネルのバイノーラルオーディオ信号を含み、
    前記再生制御情報は、前記オーディオシーンに関する聴取方向を規定する再生方向の標示を含み、
    前記再生制御情報にしたがって前記出力空間オーディオ信号を生成するために前記デフォーカス方向に基づいて、前記修正されたオーディオシーンを表す前記空間オーディオ信号を処理することは、
    処理された空間オーディオ信号の1つ以上のオーディオチャネルのそれぞれの1つの周波数帯域に、それぞれの周波数サブ帯域について受信したスペクトル調整係数を乗じることによって、前記1つ以上の周波数サブ帯域において、1つ以上の拡張オーディオチャネルを導出するステップと、
    前記1つ以上の強化されたオーディオチャネルを、前記標示された再生方向にしたがって前記2チャネルのバイノーラルオーディオ信号に変換するステップと、
    のうちの少なくとも1つを実行することを含むように構成される、
    請求項7に記載の装置。
  15. 前記出力空間オーディオ信号は、2チャネルバイノーラル信号を含み、
    前記再生制御情報は、前記オーディオシーンに関する聴取方向を規定する再生方向の標示を含み、
    前記再生制御情報にしたがって前記出力空間オーディオ信号を生成するためにデフォーカス方向に基づく前記修正されたオーディオシーンを表す前記処理された空間オーディオ信号は、標示された再生方向に依存して、一組の頭部関連伝達関数、HRTFを選択する、または、処理された空間オーディオ信号のチャネルを、選択されたHRTFのセットを使用して、回転したオーディオシーンを伝える2チャネルバイノーラル信号に変換するように構成される、請求項7に記載の装置。
  16. 前記再生制御情報は、第2の所定のラウドスピーカ構成の標示を含み、
    前記出力空間オーディオ信号は、前記第2の所定のラウドスピーカ構成に従ったマルチチャネルラウドスピーカ信号を含み、
    前記再生制御情報にしたがって、前記出力空間オーディオ信号を生成するために前記デフォーカス方向に基づいて前記修正されたオーディオシーンを表す前記処理された空間オーディオ信号が、第1の所定のラウドスピーカ構成から第2の所定のラウドスピーカ構成へのマッピングを提供する振幅パンニング利得を含む変換行列を導出し、
    前記処理された空間オーディオ信号のチャネルを前記出力空間オーディオ信号のチャネルに乗算するために、前記変換行列を使用するように構成されていることによって、振幅パンニングを用いて前記処理された空間オーディオ信号のチャネルに基づいて前記出力空間オーディオ信号のチャネルを導出するように構成される、
    請求項7に記載の装置。
  17. 少なくとも1つの方向センサと少なくとも1つのユーザ入力とを備えるセンサ配置からデフォーカス入力を取得するステップであって、前記デフォーカス入力は、前記少なくとも1つの方向センサの方向に基づくデフォーカス方向の標示、前記少なくとも1つのユーザ入力に基づくデフォーカス量の標示、または、得られたデフォーカス形状の標示、のうちの少なくとも1つを備える、ステップ
    をさらに実行するようにされる、請求項1に記載の装置。
  18. 前記デフォーカス形状は、デフォーカス形状の幅、デフォーカス形状の高さ、デフォーカス形状半径、デフォーカス形状距離、デフォーカス形状の深さ、デフォーカス形状範囲、デフォーカス形状直径、デフォーカス形状キャラクタライザのうちの少なくとも1つを含む、請求項4に記載の装置。
  19. 装置のための方法であって、
    デフォーカス方向を取得するステップと、
    前記デフォーカス方向のデフォーカス量を用いて、修正オーディオシーンを表す処理された空間オーディオ信号を生成するために、前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向の前記空間オーディオ信号のある部分の少なくとも一部の相対的なデエンファシスを制御するように、オーディオシーンを表す空間オーディオ信号を処理するステップと、
    前記処理された空間オーディオ信号を出力するステップであって、前記デフォーカス方向に基づく前記修正オーディオシーンが、前記空間オーディオ信号の他の部分の少なくとも一部に対する前記デフォーカス方向の前記空間オーディオ信号の前記ある部分の少なくとも一部における前記デエンファシスを可能にする、ステップと、
    を含む方法であって、
    さらに、前記デフォーカス量を得るステップと、
    前記処理された空間オーディオ信号によって、前記デフォーカス量にしたがって、少なくとも部分的に前記空間オーディオ信号の他の部分の少なくとも一部に対して、前記デフォーカス方向の部分における前記空間オーディオ信号の前記ある部分の少なくとも一部の相対的デエンファシスを制御するステップと、
    を含む方法
JP2021573548A 2019-06-11 2020-06-03 音場関連レンダリング Active JP7764253B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024006067A JP2024028527A (ja) 2019-06-11 2024-01-18 音場関連レンダリング

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1908343.5A GB2584837A (en) 2019-06-11 2019-06-11 Sound field related rendering
GB1908343.5 2019-06-11
PCT/FI2020/050386 WO2020249859A2 (en) 2019-06-11 2020-06-03 Sound field related rendering

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024006067A Division JP2024028527A (ja) 2019-06-11 2024-01-18 音場関連レンダリング

Publications (2)

Publication Number Publication Date
JP2022536169A JP2022536169A (ja) 2022-08-12
JP7764253B2 true JP7764253B2 (ja) 2025-11-05

Family

ID=67386312

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021573548A Active JP7764253B2 (ja) 2019-06-11 2020-06-03 音場関連レンダリング
JP2024006067A Pending JP2024028527A (ja) 2019-06-11 2024-01-18 音場関連レンダリング

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024006067A Pending JP2024028527A (ja) 2019-06-11 2024-01-18 音場関連レンダリング

Country Status (6)

Country Link
US (2) US12183358B2 (ja)
EP (1) EP3984251A4 (ja)
JP (2) JP7764253B2 (ja)
CN (2) CN119835602A (ja)
GB (1) GB2584837A (ja)
WO (1) WO2020249859A2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240249743A1 (en) * 2021-05-25 2024-07-25 Google Llc Enhancing Audio Content of a Captured Sense
EP4396810A1 (en) * 2021-09-03 2024-07-10 Dolby Laboratories Licensing Corporation Music synthesizer with spatial metadata output
GB2614253A (en) * 2021-12-22 2023-07-05 Nokia Technologies Oy Apparatus, methods and computer programs for providing spatial audio
GB2620978A (en) * 2022-07-28 2024-01-31 Nokia Technologies Oy Audio processing adaptation
US20240096335A1 (en) * 2022-09-21 2024-03-21 Apple Inc. Object Audio Coding
US12520080B2 (en) * 2023-03-30 2026-01-06 Qualcomm Incorporated Audio processing based on target signal-to-noise ratio

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013514696A (ja) 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
JP2015198413A (ja) 2014-04-03 2015-11-09 日本電信電話株式会社 収音システム及び放音システム
WO2016109065A1 (en) 2015-01-02 2016-07-07 Qualcomm Incorporated Method, system and article of manufacture for processing spatial audio
US20170347219A1 (en) 2016-05-27 2017-11-30 VideoStitch Inc. Selective audio reproduction
JP2018534853A (ja) 2015-10-14 2018-11-22 クアルコム,インコーポレイテッド 高次アンビソニック(hoa)コンテンツの画面に関連した適応

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58143686A (ja) * 1982-02-19 1983-08-26 Sony Corp 映像信号と音声信号の再生装置
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
CN103325383A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 音频处理方法和音频处理设备
JP5825176B2 (ja) 2012-03-29 2015-12-02 富士通株式会社 携帯端末、音源位置制御方法および音源位置制御プログラム
EP2982139A4 (en) 2013-04-04 2016-11-23 Nokia Technologies Oy AUDIOVISUAL PROCESSING APPARATUS
US9596437B2 (en) 2013-08-21 2017-03-14 Microsoft Technology Licensing, Llc Audio focusing via multiple microphones
US9530426B1 (en) 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US9787727B2 (en) 2015-12-17 2017-10-10 International Business Machines Corporation VoIP call quality
CA3007511C (en) * 2016-02-04 2023-09-19 Magic Leap, Inc. Technique for directing audio in augmented reality system
EP3443762B1 (en) 2016-04-12 2020-06-10 Koninklijke Philips N.V. Spatial audio processing emphasizing sound sources close to a focal distance
GB2549532A (en) 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
GB2559765A (en) * 2017-02-17 2018-08-22 Nokia Technologies Oy Two stage audio focus for spatial audio processing
US10477310B2 (en) 2017-08-24 2019-11-12 Qualcomm Incorporated Ambisonic signal generation for microphone arrays
WO2019199359A1 (en) 2018-04-08 2019-10-17 Dts, Inc. Ambisonic depth extraction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013514696A (ja) 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
JP2015198413A (ja) 2014-04-03 2015-11-09 日本電信電話株式会社 収音システム及び放音システム
WO2016109065A1 (en) 2015-01-02 2016-07-07 Qualcomm Incorporated Method, system and article of manufacture for processing spatial audio
JP2018534853A (ja) 2015-10-14 2018-11-22 クアルコム,インコーポレイテッド 高次アンビソニック(hoa)コンテンツの画面に関連した適応
US20170347219A1 (en) 2016-05-27 2017-11-30 VideoStitch Inc. Selective audio reproduction

Also Published As

Publication number Publication date
WO2020249859A2 (en) 2020-12-17
CN114270878A (zh) 2022-04-01
US20250104726A1 (en) 2025-03-27
EP3984251A2 (en) 2022-04-20
JP2022536169A (ja) 2022-08-12
GB201908343D0 (en) 2019-07-24
CN114270878B (zh) 2025-01-21
GB2584837A (en) 2020-12-23
US20220328056A1 (en) 2022-10-13
EP3984251A4 (en) 2023-06-21
US12183358B2 (en) 2024-12-31
WO2020249859A3 (en) 2021-01-21
JP2024028527A (ja) 2024-03-04
CN119835602A (zh) 2025-04-15

Similar Documents

Publication Publication Date Title
JP7764253B2 (ja) 音場関連レンダリング
US20080298597A1 (en) Spatial Sound Zooming
US11523241B2 (en) Spatial audio processing
JP7764254B2 (ja) 音場関連レンダリング
US12501210B2 (en) Wind noise reduction in parametric audio
CN112513982B (zh) 空间音频参数
CN112567765B (zh) 空间音频捕获、传输和再现
US20230319469A1 (en) Suppressing Spatial Noise in Multi-Microphone Devices
WO2024115045A1 (en) Binaural audio rendering of spatial audio
EP4358081A2 (en) Generating parametric spatial audio representations

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220209

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230606

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230926

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20241126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20251023

R150 Certificate of patent or registration of utility model

Ref document number: 7764253

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150