JP2019523902A - 3d音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置 - Google Patents

3d音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置 Download PDF

Info

Publication number
JP2019523902A
JP2019523902A JP2018561492A JP2018561492A JP2019523902A JP 2019523902 A JP2019523902 A JP 2019523902A JP 2018561492 A JP2018561492 A JP 2018561492A JP 2018561492 A JP2018561492 A JP 2018561492A JP 2019523902 A JP2019523902 A JP 2019523902A
Authority
JP
Japan
Prior art keywords
audio
presentation
acoustic
environment
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018561492A
Other languages
English (en)
Other versions
JP6959943B2 (ja
JP2019523902A5 (ja
Inventor
ルイス エス. オストロヴァー
ルイス エス. オストロヴァー
ブラッドリー トマス カラー
ブラッドリー トマス カラー
Original Assignee
ワーナー ブラザーズ エンターテイメント インコーポレイテッド
ワーナー ブラザーズ エンターテイメント インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/163,819 external-priority patent/US10326978B2/en
Application filed by ワーナー ブラザーズ エンターテイメント インコーポレイテッド, ワーナー ブラザーズ エンターテイメント インコーポレイテッド filed Critical ワーナー ブラザーズ エンターテイメント インコーポレイテッド
Publication of JP2019523902A publication Critical patent/JP2019523902A/ja
Publication of JP2019523902A5 publication Critical patent/JP2019523902A5/ja
Application granted granted Critical
Publication of JP6959943B2 publication Critical patent/JP6959943B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)

Abstract

3Dプレゼンテーションを生成する装置について説明する。当該装置において、オリジナル音声及び視覚要素を含むオリジナル3Dコンテンツから、3Dプレゼンテーション(3D映画、VR(仮想現実)及び/又はAR(拡張現実)コンテンツを含む)は、複数のシーンを形成する。各々のシーンは、各々の音声特性を有する各々の環境又は複数の環境に関連している。少なくともいくつかのシーンにおけるオリジナルの音声要素は、各々のシーンの音声特性及び/又はプレゼンテーションが行われる場所の環境に適応するか、あるいは前記特性及び/又は環境を補償するため、前記装置により修正される。

Description

本開示は、仮想現実(バーチャルリアリティ)又は拡張現実プレゼンテーションの生成及び構成に関する。より詳細には、本発明は、関連する関心の対象となる音声特徴部/オブジェクト(以下、「音声オブジェクト」又は「関心の対象となる音声オブジェクト」という)をVR/ARプレゼンテーションの3D空間に配置するため、積極的に見られるシーンの一部であるか又は視野外にある少なくともいくつかの関心の対象となる視覚的な特徴部及び他のオブジェクトに関する3つの空間情報を用いることにより、仮想現実及び/又は拡張現実プレゼンテーション(以下、「VR/ARプレゼンテーション」という)を強化するための方法及び装置に関する。さらに、前記装置及び方法は、VRプレゼンテーションのための視覚環境の特性及びARプレゼンテーションのための実環境の特性を用いて音声オブジェクトの増強を提供する。
従来、3D映画又は他の同様のエピソードからなるオーディオ/ビジュアルコンテンツは、アナログフィルムの配給、あるいは、他の相対的に忠実度の低いアナログ又はデジタル配信、記憶、3Dフォーマット、例えば、アナグリフ3Dの投影及び/又は表示のために準備されていた。3D符号化フォーマット、プレゼンテーション技術及びデジタル信号処理の進歩により、例えば、立体的なHD1920×1080p、3Dブルーレイディスクなど、非常に高品質の3Dフォーマットで制作された3D映画又はエピソードからなるビジュアルコンテンツが提供されるようになった。
「仮想現実(バーチャルリアリティ)」とは、部分的又は全体的にコンピュータで生成され、かつ/又は実写の3次元世界における没入感を模倣する様々な種類のコンテンツに使用されてきた用語である。例えば、そのようなコンテンツには、種々のビデオゲーム及びアニメ映画のコンテンツが含まれる。これらの技術のバリエーションは、「拡張現実」と呼ばれている。拡張現実プレゼンテーションでは、現在のユーザの周囲における実際の3Dプレゼンテーションが一つ又は複数の仮想オブジェクトの付加又はオーバレイによって「拡張」される。拡張現実コンテンツは、ユーザの周囲に見えるオブジェクトや人についての「ヘッドアップ」テキスト情報と同程度に単純であるか、あるいは、ユーザ周囲の外観全体をユーザの実際の周囲に対応した仮想的な環境に変換することと同程度に複雑であり得る。符号化フォーマット、プレゼンテーション技術、モーショントラッキング、ポジショントラッキング、アイトラッキング、ポータブル加速度計及びジャイロ出力/入力、及び関連する信号処理の進歩により、仮想現実及び拡張現実のプレゼンテーションの双方をリアルタイムでユーザに表示することができるようになった。
仮想現実(VR)及び拡張現実(AR)は、例えば、立体視用VRヘッドセットなど、様々なタイプの没入型ビデオ立体視プレゼンテーション技術で実施されてきた。前述のように、3Dヘッドセット及び他の3Dプレゼンテーションデバイスにより、ユーザは3Dシーンに没入する。ヘッドセットのレンズにより、ユーザは、ユーザの目から数インチ離れた位置においてヘッドセットに搭載された軽量の分割ディスプレイスクリーンに焦点を合わせることができる。あるタイプのヘッドセットでは、分割ディスプレイの異なる側において、ビデオコンテンツの左右の立体表示が示され、ユーザの周辺視野は、中央視野において、遮られるか又は部分的に妨げられない。他のタイプのヘッドセットでは、2つの別個のディスプレイを用いて、ユーザの左右の眼にそれぞれ異なるイメージを提供する。また、他のタイプのヘッドセットでは、ディスプレイの視野は周辺視野を含む両目の全視野を含む。別のタイプのヘッドセットでは、AR又はVRのいずれかを実現するため、制御可能な小型レーザ、ミラー又はレンズを用いてイメージがユーザの網膜に投影される。いずれの場合であっても、ヘッドセットによって、ユーザは、現実の場面に没入していると感じるように、表示されたVR又はARコンテンツを体感することができる。さらに、ARコンテンツの場合、ユーザは、まるで拡張された現実の場面の一部であるか又はそこに位置していると感じるように、拡張されたコンテンツを体感することがきる。VR又はARコンテンツは、360°の画像としてユーザに表示されるとともに、ユーザの操作により又は自動的にイメージが左右及び/又は上下に移動するように標準のスクリーンに表示される。
没入型AR/VRの効果は、ユーザの頭部の動きを検知し、これに応じてビデオディスプレイを調節する、ヘッドセット(又は他の箇所)におけるモーションセンサによって提供され、又は向上する。頭部を側方に移動させることにより、ユーザは、VR又はARシーンを側方に見ることができ、頭部を上下に移動させることにより、ユーザは、VR又はARシーンを上方又は下方に見ることができる。また、ヘッドセット(又は他のデバイス)は、ユーザの頭部及び/又は本体の位置を検出し、これに応じてビデオディスプレイを調節する、トラッキングセンサを有していてもよい。傾斜又は回転させることにより、ユーザは、VR又はARシーンを異なる視点で見ることができる。頭部の動き、頭部の位置及び胴体の位置に対する応答性により、ヘッドセットにより実現する没入効果が向上する。したがって、ユーザは、VRシーン内に存在しているか、あるいは「没入している」という印象を受けることができる。本明細書に記載するように、「没入型」は、概してVR及びARプレゼンテーションの双方を含む。
没入型ヘッドセット及び他の装着可能(ウェアラブル)な没入型出力デバイスは、様々なタイプのゲームを行う際に特に有用である。これは、ユーザは、頭部の動き、ユーザの体、頭部、目、手、指、足又は他の体の一部の位置や向きを用いて、かつ/又は、加速度計、高度計、GPS受信機、電子テープメジャー、レーザ距離計、レーザ又はデジタル音声測定装置、ジャイロセンサなどのセンサによる他の入力により、一つ又は複数のバーチャルカメラ又はディスプレイを制御したときに、レンダリングエンジンにより生成されたモデル化環境をユーザが探索することを含む。没入体験を提供するため、現実と相互作用するときに、ユーザは何らかの方法で人間の視覚的及び聴覚的知覚に類似した動きの自由度を知覚する必要がある。
VR/ARプレゼンテーションのために制作されたコンテンツは、様々なタイプのビデオゲームのために開発されたリアルタイムのレンダリング技術を用いることで上記の体験を提供することができる。コンテンツは、コンテンツをビデオ信号としてレンダリングするための規則及び境界が画定されている、3次元のコンピュータモデルとしてデザインされ得る。このコンテンツは、「3D」と呼ばれる立体的なビデオ出力を提供するように立体技術によって向上し、デジタルVR/ARプレゼンテーションを生成し、ユーザ体験を提供するように、3Dヘッドセットの動き、頭部、目、手、指、足、又は他の体の部分(又は「魔法の」棒又はゴルフクラブなどの体の付属品)の動き及び/又は前述のセンサなどの入力に応じたレンダリングプロセスを管理するVR/ARプレゼンテーションに関連している。ユーザは、ビデオゲーム環境内に存在するか没入するような体験が得られる。
他のタイプのVR/ARプレゼンテーションにおいて、シミュレートした3D環境は、従来の劇場又は映画館におけるように、主にストーリーを提示する。これらのタイプのプレゼンテーションでは、付加された視覚効果(ビジュアルエフェクト)は、物語自体に対する完全な制御(又は任意の制御)をユーザに与えることなく、ストーリーの物語要素又は特殊効果の深度及び豊かさを高める。しかし、一連の物語又は一連のシーンが一つエンディングを有するように提示される標準的なリニアな書籍又は映画とは対照的に、各々の出会い(又は視聴)でそれぞれ異なるように進行する豊かな複合型の現実感体験が提供される。この体験は、物語の流れやソフトウェアにより導入されるランダムな要素により影響され、指示されるが、視聴者の指示(例えば、見方)に依存している。その結果、物語は、最初はリニアなものではなく、予測可能なものではないが、視聴者による選択及び他の要素によって変化する。換言すると、複合現実感環境と合わせた視聴者の選択及び他の要因の結果、提示された物語又はストーリーは進行中に劇的に進化して、緊張、解放、驚き、リニア又はリニアでない進行、転機あるいは終端が作り出される。これらの検討事項は、ゲームや生のリアリティショーと同じように進行が動的に変化する台本のないプレゼンテーションに特に適用可能である。これらのタイプのプレゼンテーションでは、音声信号及び視覚信号の双方が可能な限り現実的であり、プレゼンテーションが現実的に映り、偽物や人工的なものに見えないようにすることが特に重要である。
本願では、「デジタルVR/ARプレゼンテーション」なる用語は、記録され、制作され、レンダリングされ、及び/又はデジタルフォーマットに生成されたビデオゲーム、映画、エピソード的なもの又は他のオーディオビジュアルコンテンツ、あるいは、記録され、制作され、レンダリングされ又は実在するものにオーバレイするようにデジタルフォーマットに生成されたオーディオビジュアルコンテンツについて用いられる。また、上記用語は、2Dで制作されたコンテンツ、2Dで制作された後、2Dから3Dに編集されたコンテンツ、3Dで制作されたコンテンツ、及び、3Dアニメーションシステムからレンダリングされたコンテンツにも用いられる。
デジタルVR/ARプレゼンテーションについてあるフォーマット又は配信チャンネル(経路)による配信が準備されると、分析ソフトウェア及び/又はオペレータによって、フレーム毎、フレームのグループ毎又はシーン毎に関連する3Dビジュアル情報が決定され、各々のログに記録される。3D深度情報を表す従来の方法は、3Dイメージと同じ空間解像度(例えば、HDビデオの場合は1920×1080)を有する単一の2次元イメージからなるZ軸深度マップによるものである。イメージの各画素は、シーン内のその特定の画素の深度に対応するグレースケール値を含む。例えば、8ビットデータの表示の場合、256(純白)のグレースケール値は、最大の正の3D視差(スクリーン内)を表し、0値(純黒)は、最大の負の視差(スクリーン外)を表す。上記値は、シーンの深度量に基づいて正規化することができ、例えば、256の値は、視聴者から100フィート離れた画素を表し、一方、0の値は、視聴者から10フィート離れた画素を表す。
3D深度情報の他の可能なデータ表示は、3次元深度体積であり、これにより、シーンの3D体積内の各画素が特定の値で示される。Z軸深度マップと異なり、3D深度体積は、単一のグレースケール値に限定されず、その代わりに、各画素について、特定の画素のカラー値(すなわちRGB値)、及び、その画素のX,Y、Z座標の双方を表すことができる。コンピュータにより制作された3Dイメージ又は他の3D視覚効果技術は、2DのZ軸深度マップの利用と比べて、3D深度体積の作成により容易に役に立つ。深度情報のそのような3D表示は、ホログラフィックの投影を含む将来のディスプレイシステムに使用することができる。他のデータ表現の表示は、2D視差マップ及び固有ベクトルを含むがこれらに限定されない、所与のシーンにおける深度情報を表すために用いられ得る。
VR/ARプレゼンテーションを生成することの一部として、フレームのビジュアルコンテンツの3D空間マップ又はフレーム内の関心の対象となるオブジェクトの3D空間マップは、背景のビデオの3D空間内に字幕又は他のグラフィックを配置する準備をするときに決定され得る。
関心の対象となる音声オブジェクトは、空間的に追跡可能な対照物(対応物)をスクリーン上に有することができる。例えば、スクリーン上の俳優が、あるシーンで移動し会話をしているときに、聴覚的及び視覚的に当該俳優の位置を追跡することができる。例えば、シーン内の視覚オブジェクトを検知して認識し、オブジェクトの特定の位置を識別することができるビジュアルオブジェクト−トラッキングソフトウェアシステム及びソフトウェア開発キット(例えば、ラトビアのヴィリニュスに所在するニューロテクノロジー社(Neurotechnology)から入手可能なSentiSight3.0キット)が存在する。そのようなシステムは、面内回転、面外回転、及びスケールの広範囲の変化を許容することができる。また、そのようなシステムは、(例えば、50%程度)遮蔽されている視覚又は音声オブジェクトの追跡を管理することができる。より多く遮蔽されているか又は完全に視覚的に遮蔽されているオブジェクトの軌跡を動きベクトルを用いてプロットする場合、先のスクリーン内の情報、又は作成済みのシーケンスについては後のスクリーン内の情報が十分に与えられれば、オブジェクトの追跡によってスクリーン外のオブジェクトの位置を特定することができる。関心の対象である他の音声オブジェクト、例えば、スクリーン外で話している俳優、又は、視覚的に部分的又は完全に遮蔽されている間に話している俳優は、追跡され得ない。後者の場合、スクリーン上の俳優は、当該俳優が会話をしているスクリーン外の他の俳優との境界であるスクリーン面を直接横切り当該面を通過して見えることがある。他の関心の対象とであるオブジェクトは、位置や編集の意図によってはスクリーン上の視覚オブジェクトに対応していない。例えば、スクリーン外のナレーターの声は、プレゼンテーションに不可欠であるが、その声に対応する画面上のアイテムが存在しない。
しかし、ある例では、デジタルVR/ARプレゼンテーションの準備の間、関心の対象である音声オブジェクトに関する音声要素又は当該要素の一部分は、明確な3D空間認識のキュー(que)を含まない。これは、キューが除去されたか又は消失したか、あるいは最初から存在しないためである。この問題は、ビデオゲームのレンダリングやライブイベントの放送など、リアルタイムのアプリケーションや環境ではさらに複雑になる。
デジタルVR/ARプレゼンテーションを向上させるため、3D空間知覚のためのキューを音声要素に提供する必要があり、他のフォーマットのデジタルVR/ARプレゼンテーションの音声要素にそのようなキューを含める必要もある。しかし、現在、デジタルVR/ARプレゼンテーションを1つのフォーマットでリリースするための準備は、付加的なフォーマットでリリースされるデジタルVR/ARプレゼンテーションにおける3D空間知覚の音声キューの存在又は保存を保証する音声要素の効率的な変換を含まない。
そのため、3D空間知覚キューを用いたデジタルVR/ARプレゼンテーションの準備を最適化するための効果的な計画が必要とされる。さらに、音声3D空間知覚キューを用いた、他のフォーマット又は配信フォーマットのための付加的なデジタルVR/ARプレゼンテーションの変換を最適化するための効果的な手法が必要とされる。いずれの場合でも、デジタル3Dビデオ分析で収集された情報は、3Dオーディオビジュアル体験を向上させるため、音声3D空間知覚キューを生成するための入力として用いられる。
デジタルVR/ARプレゼンテーションが2Dで表示される場合、例えば、デジタルVR/ARプレゼンテーションシステムが利用でない、すなわち、VR/ARに関するヘッドセット及び/又は3Dディスプレイが利用できない場合、現在、別個の2Dバージョンの音声要素は、3D空間知覚キューなしに、2Dでコンテンツを表示するために配信されるという別の問題が生じる。したがって、音声3D空間知覚キューを符号化する過程で作成されたデータが保存され、デジタルVR/ARプレゼンテーションリリースファイルに含められ、これにより、3Dから2Dへのダウンミックスが下流側で管理され得る。
音声及びビデオの双方は、VR/ARプレゼンテーションを作成するとともに、結果生じる問題の経験を生み出す。{ここで、出願人は、いわゆる劇場での「4D」プレゼンテーションには関心がない。「4D」プレゼンテーションでは、アロマ及び/又は移動型座席、及び/又は水(例えば「雨」)ディスペンサーなどを用いて通常の劇場でのプレゼンテーションを向上させる。}そのため、VR/ARプレゼンテーションにおける関心の対象であるオブジェクトの位置に関連する音声キューがビデオを補足する場合、関連のある音声キューが実生活において関心の対象であるオブジェクトの視覚的位置を強調するため、VR/ARプレゼンテーションが向上して、ユーザ体験がより強力なものとなる。例えば、消防車がサイレンとともに人の視野を走り抜ける際、遠くにいるときは、最初は振幅が低くかつ相対的にピッチが低く、その後、近づくにつれて音が大きくなりかつピッチが高くなり、遠くに離れていくにつれて振幅及びピッチが徐々に消えていく。消防車が出発し、丘を登るにつれて、見かけの音源は上昇する。
デジタルVR/ARプレゼンテーションの音声要素のフォーマットは、制作、符号化、伝送、生成及び/又はプレゼンテーションの点で異なり得る。音声要素のための通常のプレゼンテーションフォーマットは、5.1、6.1、7.1、あるいは、いわゆる「オブジェクト指向」又は「没入型」オーディオのように、モノラルからステレオ、マルチチャンネルまで様々であり得る。これらの音声フォーマットのいくつかは、振幅差、位相差、到着時間差、残響対直接音源レベル比、トーンバランスシフト、マスキング、及び/あるいは、サラウンド又はマルチチャンネル指向性などの深度知覚のための音声キューを含む。これらのキューは、X軸、Y軸及びZ軸における音声3D空間知覚が視覚的3D空間知覚を補完するように、デジタルVR/ARプレゼンテーションのプレゼンテーションを強化するためにビデオオブジェクト空間位置データに照らして調整され得る。このように、関心の対象である視覚オブジェクトの3D位置及び関連する音声が一致する場合、デジタルVR/ARプレゼンテーションは、より現実的に見えかつ「感じる」。
したがって、VR/ARプレゼンテーションにおいて、関心の対象であるオブジェクトの位置を示す音声トラックを提供するだけでなく、オブジェクトがより没入型のVR/ARプレゼンテーションのためのVR及びARコンテンツの魅力と楽しさを高めるために配置されている環境に適合するように音声トラックを調節する方法及び装置を開発することが望ましい。
3Dプレゼンテーションを生成する装置について説明する。オリジナル3Dコンテンツからの(3D映画、VR(仮想現実)及び/又はAR(拡張現実)コンテンツを含む)3Dプレゼンテーションは、オリジナル音声及び視覚要素を含み、複数のシーンを形成する。各々のシーンは、各々の音声特性を有する各々の環境に関連している。各々のシーン及び/又はプレゼンテーションが行われる場所の環境の音響特性に適合又は当該音響特性を補償するように、少なくともいくつかのシーンにおけるオリジナル音声要素が前記装置によって修正される。
より具体的には、オリジナル音声及び視覚要素を有するコンテンツから3Dプレゼンテーションを生成する装置であって、前記コンテンツは複数のシーンを含み、各々のシーンは、音声特性を有する各々の環境に関連しており、前記装置は、オーディオプロセッサ、オーサリングツール及びエンコーダを備える。オーディオプロセッサは、前記各々の環境を示す環境パラメータ及び前記音声要素を受け、前記オーディオプロセッサは、前記環境パラメータに基づいて、前記オリジナル音声要素を修正された音声要素に修正するように構成されている。オーサリングツールは、前記修正された音声要素及び前記オリジナルビデオ要素を受け、対応する符号化係数を生成する。エンコーダは、前記オリジナルビデオ要素及び前記修正された音声要素を受け、前記符号化係数に基づいて符号化コンテンツを生成する。
前記3Dプレゼンテーションは、劇場音響パラメータを有する劇場において提供され、前記装置は、前記劇場音響パラメータを保存する音響メモリをさらに備え、前記オーディオプロセッサは、前記修正された音声要素を生成するため、前記劇場音響パラメータを受けるように構成されている。さらに、前記劇場音響パラメータを検知するように適応された音響環境センサを備え、前記音響環境センサにより検知された信号は前記音響メモリに保存される。
一実施例では、前記エンコーダは、VRデバイスにおけるプレゼンテーションのために、VR(仮想現実)符号化コンテンツを生成するように構成されており、前記ビデオ要素は、仮想音響環境特性を有する仮想環境で少なくとも第1の仮想シーンを定義し、前記オーディオプロセッサは、前記仮想音響環境特性を受けるように、かつ仮想シーンのために構成された音声トラックを定義する係数を生成するように、構成されている。
本実施例では、装置は、前記第1の仮想シーンにおいて定義されたVR環境を分析するように構成された環境アナライザをさらに備え、前記環境アナライザは、前記音響メモリに保存するための仮想環境音響を生成する。
一実施例では、前記エンコーダは、受け取ったコンテンツ及びARデバイスにおけるプレゼンテーションのために現在の環境から得られたコンテンツに基づいて、AR(拡張現実)符号化コンテンツを生成するように構成されている。前記ビデオ要素は、仮想及び現実のエレメントを有する少なくとも第1のARシーンを定義する。前記オーディオプロセッサは、仮想及び現実の音声要素並びに前記第1のARシーンの音響特性を受けるように構成されている。前記オーディオプロセッサは、前記第1のARシーンの音響特性と一致するように構成された音声信号を記述する係数を生成する。
一実施例では、前記オーディオプロセッサは、前記第1のARシーンに関連する環境信号を含む音声信号を記述する係数を生成する。
一実施例では、装置は、視聴者の現在位置に関連する現実環境を検出する現実環境検出器と、前記現実環境の音響パラメータを決定するように構成された音響環境検出器と、をさらに備える。例えば、現実環境検出器は、GPS、又は、現在位置に関連するイメージを作成するように適応されたカメラと、前記音響パラメータを決定するために前記イメージを分析するアナライザと、を含む。
一実施例では、前記現実環境検出器は、試験信号を生成するサウンドジェネレータと、前記サウンド検出器からの反響したサウンドを検出するように構成されたマイクと、を含む。前記音響環境検出器は、前記反響したサウンドを分析するように適応されている。
本発明の他の態様において、符号化された3Dプレゼンテーションを生成するための方法について説明する。前記方法は、いくつかの3Dシーンを有するとともに、音声及び視覚トラックを含む3Dコンテンツを受けるステップと、前記3Dプレゼンテーションが存在する局所的な環境の音響特性及び前記3Dシーンの1つの仮想位置を決定するステップと、前記音響特性に基づいて修正されたトラックを生成するように前記音声トラックを修正するステップと、符号化された3Dプレゼンテーションを生成するように、前記音声空間パラメータに少なくとも部分的に基づいて符号化係数を用いて前記3Dコンテンツを符号化するステップと、を含む。前記符号化された3Dプレゼンテーションは、視覚要素及び音声要素を含む。音声要素は、前記修正されたサウンドトラックから導出される。
前記3Dプレゼンテーションは、劇場において提供され、前記決定するステップは、前記劇場の音響特性を決定することを含む。
前記3Dプレゼンテーションは、パーソナルVRデバイスを用いた視聴者用のVRプレゼンテーションである。前記決定するステップは、前記3Dプレゼンテーションにおいて仮想シーンの仮想音響特性を決定することを含む。前記音声トラックを修正するステップは、付加的なサウンドを前記音声トラックに加えることを含む。前記付加的なサウンドは、前記仮想シーンに関連する音響環境に関連している。
前記3Dプレゼンテーションは、パーソナルARデバイスを用いた視聴者用のARプレゼンテーションである。前記ARプレゼンテーションは、仮想及び現実シーンエレメントを有するARシーンを含む。この場合、前記決定するステップは、前記仮想シーンエレメントの仮想音響特性を決定することを含む。代替例として、前記決定するステップは、前記現実シーンエレメントの現実の音響特性を決定することを含む。
前記音声トラックを修正するステップは、付加的なサウンドを前記音声トラックに加えることを含む。前記付加的なサウンドは、前記仮想シーンエレメントに関連する音響環境に関連している。
前記音声トラックを修正するステップは、前記音声トラックに付加的なサウンドに加えることを含む。前記付加的なサウンドは、前記現実シーンエレメントに関連する音響環境に関連している。
図1Aは、本発明に係る装置のブロック図である。 図1Bは、オーディオプロセッサのブロック図である。 図2は、関心の対象である音声及び視覚オブジェクトの3Dフレームの(X−Z軸における)平面図である。 図3は、関心の対象である音声及び視覚オブジェクトの3Dフレームの(X−Z軸における)平面図である。 図4は、関心の対象である音声及び視覚オブジェクトの3Dフレームの(X−Z軸における)平面図である。 図5は、図1の装置の作動方法を示す図である。 図6Aは、図1のブロック図に用いられている、3Dプレゼンテーションのための音声信号プロセッサの要素を示す図である。 図6Bは、図1のブロック図に用いられている、V/Rプレゼンテーションのための音声信号プロセッサの要素を示す図である。 図6Cは、図1のブロック図に用いられている、A/Rプレゼンテーションのための音声信号プロセッサの要素を示す図である。
本発明は、前記問題の解決策を提供する。本明細書では、解決策は、同一人に譲渡された、動的に最適化された音声3D空間知覚キューを使用して3D音声位置を生成するための方法及び装置(METHOD AND APPARATUS FOR GENERATING 3D AUDIO POSITIONING USING DYNAMICALLY OPTIMIZED AUDIO 3D SPACE PERCEPTION CUES)という名称の米国特許第8,755,432号に開示されている装置の改良として提示されている。その全体は本明細書に組み込まれる。本発明は他の装置を使用しても実施できることを理解されたい。
図1は、本発明を実行するための装置の構成要素を示している。最初に、非圧縮3Dコンテンツ60などのコンテンツは、処理のための装置に送られる。本願において、「3D」コンテンツなる用語は、一般的に、適切な3D装置に送られ、かつ3Dプレゼンテーション、VRプレゼンテーション又はARプレゼンテーションを含み得るコンテンツに用いられる。
3Dプレゼンテーションは、中断なく所定のシーケンスで又は視聴者からの入力により提示される複数の3Dイメージからなり、適切な3Dサウンドトラックが付加された、映画などのプレゼンテーションである。例えば、デジタル3D映画は、ソース素材と同じネイティブ解像度の3Dフレームのシーケンスとし得る(例えば、1920×1080p)。換言すると、3D映画は、実際の俳優と一緒に撮影された長編映画、仮想的なキャラクターが登場するアニメ、又はこれらの組み合わせであってもよく、CGI効果で補完された実写であってもよい。重要なことに、現在想定しているように、3Dプレゼンテーションは、例えば映画館で、1人の視聴者又は同時に複数の視聴者に提示され、最終的な音声要素は、映画館の音声スピーカシステムを通して視聴者に供給される。
VRプレゼンテーションとは、種々のシーンが視聴者の動作により決定されるシーケンスで映し出される双方向型のゲームやユーザに対するスクリーンに示される3Dイメージなどのプレゼンテーションをいう。前記動作には、アイトラッキング又はフォーカス、ジェスチャー又は他の体/手足の動き、「魔法の」棒やゴルフクラブなどの付属品の位置、オブジェクト又は顔認識ソフトウェア、ヘッドマウントディスプレイ(HMD)などの適切なVRデバイスにより提供された深度検知入力又はモーショントラッキングが含まれる。ヘッドマウントディスプレイはステレオ又は多チャンネル音声用の音声出力及びユーザに対してスクリーン上に提示される3Dイメージを有する。音声要素は、ヘッドホンやイヤホンを介して送られる。3Dイメージは、観客によって決定されたシーケンスで提示され、適切な3D音声トラックは視覚シーケンスに合うように生成される。3Dイメージは、実際のオブジェクト、シーンなどの実際のイメージであり得るか、又は周知のマイクロプロセッサベースの技術を使用して生成された仮想イメージであり得る。VRプレゼンテーションは、種々のシーンが視聴者の動作により決定されるシーケンスで映し出される双方向型のゲームとし得る。前記動作には、アイトラッキング又はフォーカス、ジェスチャー又は他の体/手足の動き、「魔法の」棒やゴルフクラブなどの付属品の位置、オブジェクト又は顔認識ソフトウェア、ヘッドマウントディスプレイ(HMD)における装置により提供される深度検知入力又はモーショントラッキングが含まれる。VRプレゼンテーションの最終的なビデオ要素は、VRデバイス(図示せず)のスクリーンに提示され、音声要素は、ヘッドホン又はイヤホン(図示せず)などの標準的なオーディオデバイスにより提供される。
ARプレゼンテーションは、VRプレゼンテーションに類似しており、観客が見ているリアルタイムオブジェクトのイメージからなる。当該イメージは、重ね合わされる他の3Dイメージと組み合わされるか、リアルタイムイメージと組み合わされる。例えば、他の3Dイメージは、事前に撮影された現実の3Dイメージ又はコンピュータにより生成されたイメージとし得る。壁などの現実オブジェクト又は他の障害物は、種々のセンサ又は光学認識素子を用いて検出される。周囲のオブジェクトとの近接性又は近接性の変化は、加速度計、高度計、GPS受信機、電子テープメジャー、レーザ距離計、レーザ又はデジタル音声測定装置、ジャイロセンサにより判断される。ARプレゼンテーションは、音声及びビデオ要素を含む。音声要素はヘッドホンや同様の手段を介して再生され、ビデオ要素はスクリーンに提示される。
通常、各々の3Dフレームにおいて、関心の対象である視覚的な平面及び/又はオブジェクトは、関心の対象である音声オブジェクトに対応する。例えば、一例として、スクリーン上の俳優はメインのセリフを話す。この場合、関心の対象である音声オブジェクト(メインのセリフ)及び俳優は3D空間位置を有する。他の例では、関心の対象である音声オブジェクトは、関心の対象である視覚オブジェクトに対応していなくてもよい。例えば、スクリーン上又はスクリーン外のナレーター又はコメンテーターは、カーレースにおける編集によるセリフを提供する。レースにおける種々の車は、背景から突然現れ、轟音を立てて接近してきて、視聴者のそばを通り過ぎてスクリーン外に向かう。この場合、関心の対象である視覚オブジェクトは車であり、関心の対象である音声オブジェクトは2セットあり、すなわち、編集によるセリフ及び接近してくる車の騒音である。この場合、シーンを劇的に見せるため、レースカーの騒音及び編集によるセリフの双方は、関心の対象である音声オブジェクトとして提示すべきである。上記シーンの間、車の騒音(例えば、音声オブジェクト)及び視覚イメージ(例えば、視覚オブジェクト)は、視聴者に向かってだんだん近づいてくるが、編集によるセリフを遮ることはない。他の場合、例えば、ビデオゲームでは、視覚オブジェクトは、疑似ランダムにシーンに現れかつシーンから消える。種々のサウンドエフェクト(音響効果)は、これらのオブジェクトのいくつかに関連付けられてもよく、又は、ランダムに間隔を隔てた音声オブジェクトが生成され得る。重要なことに、以下で詳説するように、本明細書において生成される音声トラックは、スピーチ、サウンドエフェクトなどの標準的な音声エレメントを含むだけでなく、これらのエレメントは修正され、提示されるシーンの仮想環境、一例では視聴者の物理的環境の特性に適合する新たなエレメントが付加される。
前述のように、3Dコンテンツは、Z軸深度マップを含み、当該マップは、各々の3Dフレームのための種々の視覚オブジェクト(又は関心の対象である面、例えば、A/Rにおいて、現実世界オブジェクトについては1つの面、A/Rオーバレイについては1つの場所)の相対距離を示す。従来、3DZ軸深度マップは、関心の対象である全てのオブジェクトの一般的な輪郭及び面特性を有する2次元イメージからなる。Z軸に沿った種々の位置におけるオブジェクト及びオブジェクト面は、各々の輪郭及び面の陰影によって2次元イメージ上に表される。各々の輪郭は、陰影が付けられた一つ又は複数の面を含む。より詳細には、各輪郭及び各輪郭の面(1つを超える場合)は、各々のオブジェクト及びそれらの面の相対位置に対応するグレースケールで陰影が付けられる。したがって、3DのZ軸深度マップは、互いに対しかつスクリーン及び/又は視聴者などの特定の基準点に対する、関心の対象である種々のオブジェクト及びその面の相対位置についての情報を提供する。当然ながら、前述のように、3D空間における音声又は視覚オブジェクトの位置を示す他の手段を用いてもよく、本発明はこれらの手段のうちの任意の1つに限定されない。
図1Aを参照すると、本発明によるシステムにおいて、エンコーダ10は、例えば、圧縮されていない(非圧縮)ビデオマスター60の形式の3D映画を含む。音声/ビデオエンコーダ10は、このマスターから第1の3D符号化コンテンツを生成する。当該コンテンツは、保存され、記録され又は種々の配信チャンネルを介して利用者に配信(提供)される。第1の3D符号化コンテンツは、3D空間視覚オブジェクト又は他の関心の対象である任意の音声オブジェクトに対する音声3D空間知覚キューを付与する情報を有していてもよいし、有していなくてもよい。上記コンテンツは、上記マスターが再生される音響環境及び/又は上記シーンが行われる仮想環境を定義する音声3D情報を有していない。
図1Aに示すように、本発明を実施する装置は、3Dビデオエンコーダ10、オーディオプロセッサ21、ビデオプロセッサ23及びオーサリングツール22を含む。3Dコンテンツ60は、3Dコンテンツを処理する3Dビデオエンコーダに送られる。エンコーダ10の出力は、第1の3D符号化コンテンツと呼ばれる。
ビデオプロセッサ23は、前述の3DZ軸マップなどの3Dビデオトラッキングマップを受ける。当該トラッキングマップは、符号化されるコンテンツの各々のフレーム又は一群のフレームについて、関心の対象である視覚オブジェクトの位置を追跡(トラッキング)する。3Dトラッキングマップは、ログ20から、又はアナライザ30を用いて第1の3D符号化コンテンツを分析することにより導出され得る。さらに、ビデオプロセッサ23は、いくつかの視覚オブジェクトの位置を制御するための手動制御を受けてもよい。さらに、新たな視覚コンテンツは、例えば、A/Rインスタンシエーションにおいて、オブジェクト認識又は顔認識ソフトウェア、あるいは、HMDに含まれる深度検出手段又はモーショントラッキング、例えば、コンピュータビジョン、加速度計、高度計、GPS受信機、電子テープメジャー、レーザ距離計、レーザ又はデジタル音声測定装置あるいはジャイロセンサにより決定された周囲のオブジェクトに対する静的な又は変化する近接性により、ビデオプロセッサに送られてもよい。新たな視覚コンテンツは、字幕及び/又は他の付加的なグラフィックエレメントの形態でビデオプロセッサに送られてもよい(3D映画のために劇的に最適化された変換を用いて符号化されたコンテンツを生成するための方法及び装置(METHOD AND APPARATUS FOR GENERATING ENCODED CONTENT USING DYNAMICALLY OPTIMIZED CONVERSTION FOR 3D MOVIES)という名称で、2011年8月9日に出願され、共に譲渡された同時係属中の出願である第13/205,720号に完全に記載されている。これは参照により本明細書に組み込まれる)。視覚プロセッサは、オーサリングツール22に提供される視覚パラメータを生成する。オーサリングツールは、例えば、ビデオゲーム、A/R、又はV/Rレンダリングの目的のためにリアルタイムで動作することができ、あるいは、例えば、3Dプレゼンテーションのためにレンダリングの前にその機能を実行する。
オーディオプロセッサ21は、未加工の音声信号(例えば、非圧縮ビデオマスターからの音声トラック)及び/又は他のソースを受ける。例えば、オリジナル非圧縮ビデオマスターにない付加的な音声コンテンツを付加してもよい。オーディオプロセッサ21は、種々の視覚オブジェクトの3D位置、特定の音声トラックを視覚オブジェクトに相関させるか又は音声オブジェクトを定義する手動及び/又は自動選択信号などの他の情報を受ける(音声トラックが視覚オブジェクトに関連付けられていない場合、又は、スクリーン外の視覚オブジェクトに関連付けられている場合)。重要なことに、また、オーディオプロセッサ21は、各々の環境を示す他の環境パラメータを受ける。これについては、以下に詳説する。次いで、オーディオプロセッサ21は、関連のあるフレームにおける関心の対象である音声オブジェクトなどの音声コンテンツの位置を示す音声パラメータを生成する。図1Bにより詳細に示すように、オーディオプロセッサ21は、3Dビデオ及び音声トラッキングマップを受けるコンパレータ100を含む。音声源(すなわち、関心の対象である音声オブジェクト)は、2D及び3D空間に、すなわち、X軸,Y軸及びZ軸に沿って配置され得る。種々の編集上の理由又は他の理由のため、X軸,Y軸及びZ軸における音声源の位置は重要である。音声オブジェクトの位置を生成しかつ/又は特定するために、種々の基準又はアプローチを用いることができる。これについては、以下で詳説する。これらの位置が選択されると、次いで、オーサリングツール22は、音声オブジェクトパラメータを分析し、各フレーム又はフレームセットについて、音声オブジェクトの位置を割り当て、次いで、3Dフレームにおいて音声源を処理するため、指定された位置に配置するように、キューを含む適切なオーサリング又は再オーサリング制御信号を生成する。
ARについて、展開される一つ又は複数の視覚トラッキングマップは、コンピュータビジョンなどのHMDに含まれる深度検出手段又はモーショントラッキング、オブジェクト又は顔認識ソフトウェア、加速度計、高度計、GPS受信機、電子テープメジャー、レーザ距離計、レーザ又はデジタル音声測定装置、又はジャイロセンサから生成され得る。トラッキングマップは、ARオーバレイ、又は、音声位置調整を含む、ARオブジェクト又はグラフィックと現実世界オブジェクトとを混合したものを生成するために用いられ得る。
ある例では、関心の対象であるオブジェクトの音声位置及び視覚位置が対応し、音声及び視覚オブジェクトの双方のための3D空間情報が記録され、これにより、音声オブジェクトが関心の対象である視覚オブジェクトにマッピングされ得る。本発明の一実施例では、深度位置(例えば、Z軸に沿った位置)だけが付与される。他の実施例では、3D体積における音声オブジェクトの位置(例えば、全ての3軸X,Y及びZに沿った)は、任意の視覚オブジェクトの位置から離れて付与される。図1Aを参照すると、コンパレータ100は、音声及び視覚トラッキングマップを受け、当該マップが収束しているかを判断する。単一の視覚オブジェクト及び単一の音声が存在する場合、上記の判断は単純である。しかし、マルチ視覚オブジェクト及びマルチ音声オブジェクトが存在する場合、各々の音声オブジェクトを各々の視覚オブジェクトに割り当てるため、手動制御又は他の手段を用いてもよい。特定が完了すると、構成要素103により音声及び視覚オブジェクトを常に追跡するために、自動トラッキングソフトウェアが提供される。
他の例では、関心の対象である音声及び視覚オブジェクトが発散するか、あるいは、音声オブジェクトが関心の対象である特定の視覚オブジェクトにマッピングされているかを示す情報を利用できない。この場合、手動オペレータ、又は構成要素102により表される自動オブジェクト音声トラッキングソフトウェア(必要であれば)を実行する自動アナライザは、「スクリーン上の」関心の対象である音声オブジェクト(並びに任意の視覚オブジェクトA,B,C又はD)を選択し、追跡(トラッキング)することができる。このトラッキング情報は、例えば、(深度知覚のみを望む場合)Z軸深度マップとして表されてもよく、あるいは、X軸,Y軸及びZ軸に沿った全3D空間において表されてもよい。関心の対象である音声オブジェクトがスクリーン上にないか、又は、音声オブジェクトが遮られている(例えば、閉じられたドアの背後から俳優が話している)場合、あるいは、スクリーン外の仮想オブジェクトが既知の位置又はプロットされた位置を有する場合、トラッキングマップは、拡張され、遮られた又はスクリーン外の音声オブジェクトのため、視聴者と同じ垂直面内又は視聴者の背後に配置された音声オブジェクトを含む情報を提供する。
図2〜図4は、あるシーンにおける関心の対象である種々の音声及び視覚オブジェクトの例を示す平面図である。図2は、視聴者Vが見ている4人の演者A,B,C,Dが存在するステージの平面図である。A,B,C及びDは、ボーカリスト及び/又はミュージシャンであってもよく、演者は、静止していてもよいし、ステージ上を移動していてもよい。最初は、受け取った3D映画のビデオ要素は、各々の演者の位置を示している。音声要素は、混合音声トラック、又は、各演者からの音声信号を有するいくつかのトラックからなり、この場合、音声深度知覚又はトラックを空間的に演者に結び付ける任意の他の音声キューが実質的に存在しない。さらに、音声要素は、所望の環境、例えば、各々のシーンが行われる環境の音響特性を欠いている。
別々のトラックが利用できない場合、未加工の音声トラックは、オーディオプロセッサ(コンパレータ100又は構成要素102)により分析されかつ操作され、各演者からの音を表す仮想音声トラックを定義する音声パラメータを生成する。その後、トラックは各演者と関連付けられる。これは、オペレータによって手動で、あるいは、例えば、顔認識アルゴリズムを用いて4人の演者を識別するためにビデオ要素を処理することにより、彼らの楽器を認識することにより、又は他の手段により行われ得る。
演者の位置が識別されるか、又は各々のトラックと関連付けられると、関心の対象である音声オブジェクトを表す音声パラメータがオーディオプロセッサ21により生成される。好ましい実施例では、これらのパラメータは、一部又は全ての音声トラックの深度知覚キューを表す。所望であれば、例えば、トラックの相対的な音量又は他の編集上の基準に基づいて、いくつかのシーンにおいて、何人かの演者の位置を強調し、他の場合に他の演者の位置を強調することができる。重要なことに、オーディオプロセッサは、各々の環境の音響特性を定義する環境パラメータを受け、これに応じて、各々の音声トラックを変調する。そのため、シーンが森の中で行われる場合、プログラムを見聞きしている視聴者が森の中で聞こえるようにサウンドトラックを聞くだけでなく、鳥のさえずりや蜂が飛び回る音などの付加的なサウンドを聞くことができるように、音声トラックが修正される。これらのサウンドエフェクトは、視聴者に真の3D体験を提供する(「サウンドエフェクト」なる用語は、本明細書において、音の修正及び新たな音の追加を指すために使用する)。
前述のように、演者が動き回ると、彼らの位置が追跡され、関心の対象である音声オブジェクトに対応する音声オブジェクト位置が記録される。このため、これらのオブジェクトに対応する音声トラックは、3D空間においてそれらを位置決めするように、適切な音声位置キューで処理され得る。また、サウンドトラックの質は、音声オブジェクトの位置に応じて修正される。
図3は、2人の俳優A,Bが話しながら、経路E,Fを通って歩き回った後、俳優Aが位置A1に位置し、俳優Bが位置B1に位置しているシーンの平面図である。俳優A,Bの一方又は双方は、ある時点では、視聴者Vの背後の「ステージ外」に位置している。全ての位置は、ビデオ要素オブジェクトトラッキングマップから追跡及び/又はプロットされ、対応する音声オブジェクトトラックは、これらの位置に対応するように、構成要素103により3D空間位置キューで処理される。また、結果得られるオーディオトラックは、シーンが行われる場所の音響環境に応じて、それらをより現実的なものにするための修正を含む。
図4は、図3に類似したシーンを示す平面図である。このシーンでは、始めは、俳優Bは壁部W(又は他の遮蔽物)の背後にいるが、当該俳優の会話中は声が聞こえている。俳優Aは見える状態にあり、Bと会話をしている。会話中、俳優Bは、壁部Wの周りを歩き、位置B1へと向かう。その間又はその後、俳優Aは、出入口Dから出て行き、もはや見える位置にはいないが、任意の経路Pに沿って歩き続けている。2人の俳優が動き回って話しているとき、2人の位置は、常に追跡され、プロットされている。このため、一方の俳優が見えないところ、例えば、ステージ外にいる場合であっても、適切な音声3D空間キューが生成され得る(通常、視聴者Vはステージからより遠くに離れているため、図4が縮尺通りでないことは明らかであろう)。
図5は、図1の装置により使用される例示的な方法のフローチャートを示している。前述したように、周知のフォーマットにおける3D映画が受け取られ、ステップ110において、その音声及びビデオ要素が符号化される。ステップ120において、関心の対象である音声及びビデオオブジェクトが検出される(例えば、あるシーンにおいて)。このステップは、オペレータにより又は自動的に実行される。これらのオブジェクトの空間位置が比較される。オブジェクトの空間位置が一致する場合(ステップ130)、当該位置は、適切な符号化方式を用いて新たなフォーマットに変換され(ステップ140)、次いで、適切なチャンネルを通じて配信される(ステップ150)。空間位置が一致しない場合、又は、音声オブジェクトの空間位置を検出するのに情報が不十分である場合、ステップ160において、空間位置はオーディオプロセッサ21により特定される。
ステップ170では、関心の対象である音声オブジェクトが可視オブジェクトに関連付けられているかについての確認が行われる。関連付けられている場合、ステップ180において、対応する視覚オブジェクト(俳優A,B)の位置が連続的に追跡され(ステップ180)、対応する音声キューが生成される(ステップ190)。音声オブジェクトが、視覚オブジェクトに対応していない(例えば、俳優Bが最初の位置にいるか、俳優Aが位置A1にいる)場合、遮られたオブジェクト、スクリーン外のオブジェクト又は隠れたオブジェクトに適用可能な特定の規則を用いて種々の計算が行われる(ステップ200)。例えば、隠れたオブジェクト(例えば、壁の後ろで動く俳優)の動きは、対応する音声オブジェクトを生成するために補間され使用され得る。この時点において、以前に受けた環境パラメータに基づいて、付加的なサウンドエフェクトが得られる。ステップ210において、音声及び視覚パラメータはオーサリングツール22に提供される。例えば、位置キュー(一次元、二次元又は三次元における)が音声要素に付加され得る。代替例として、音声3Dポジションマップ、テーブル又は他の便利な形態として表示される音声キューが別のフィールドに提供される。また、新たなサウンドエフェクトがオーサリングツールに提供され、これにより、ステップ220において生成された係数は、各々の音響環境に応じて修正されたサウンドトラックを定義する。
上記のステップは、図1の装置によって、適切な3D空間音声知覚キューを用いて音声要素を符号化することにより実行される。音声/ビデオエンコーダ10により実行される最初の符号化の間、Z軸深度マップ又は関心の対象である視覚オブジェクトのための他の指標などの種々のパラメータ、及び音声トラックがログ20に保存される。エンコーダ10は、配信、保存、記録などのため、第1の3D符号化コンテンツを生成する。
次いで、おそらく将来的に、3D音声知覚キューを含む、異なる、場合により強化された、3Dフォーマットのコンテンツが望まれる。このため、ログ20からの情報がオーディオプロセッサ21に提供される。代替例として、第1の3D符号化コンテンツ(又は、依然として利用可能である場合は3D非圧縮デジタルマスター)がアナライザ30により分析され、関心の対象である視覚オブジェクト(例えば、Z軸深度マップ)のための結果として得られる3Dトラッキングマップが、(利用可能であれば)関心の対象である音声オブジェクトの位置を示すトラッキング情報とともに得られる。
次いで、オーディオプロセッサ21は、ログ20及び/又はアナライザ30から得られる情報並びに手動又は自動で生成された付加的な制御信号及び環境パラメータを使用し、関心の対象である種々の音声オブジェクトの位置を定義する一セットの音声パラメータを生成する。これらの音声パラメータは、オーサリングデバイス22に提供される。また、オーサリングデバイスは、各々のフレーム又は一群のフレーム又は視覚オブジェクトの位置に関する対応するビデオ情報を、ビデオプロセッサ23から受ける。
音声パラメータはオーサリングツール22により使用され、関心の対象である音声オブジェクトが知覚される方法を定義するパラメータ(3D位置知覚キューを含む)を生成し、一つ又は複数の音声オブジェクトトラッキングマップパラメータに従って処理され、例えば、位相差、到着時間差、残響対直接音源レベル比、トーンバランスシフト、マスキング及び/又はサラウンド又はマルチチャンネル指向性などのキューが付加される。これらのパラメータは、編集上適切な場合には、関心の対象である音声オブジェクトが関心の対象である視覚オブジェクトに対応するように調整され、それにより、3Dオーディオビジュアル体験の向上を提供する。オペレータ制御は自動プロセスの手動のオーバライドを可能にし、これにより、すなわち、関心の対象である視覚及び音声オブジェクトが対応していないとき、又は、スクリーン上に関心の対象である音声オブジェクトが全く存在していないとき、例えば、全知の具現化されていないナレーターの声が前述のように重要なセリフを伝えるときに、音声深度知覚キューの編集上のエンファシス又はディエンファシスが適切に管理され得る。
前記の例では、実際のセリフを話している実際の俳優の現実シーンの一場面として種々のシーンを説明している。当然ながら、これらのシーンは、実際のアクション及びキャラクターに基づいている必要はなく、実際及び仮想のアクション及びキャラクターに基づいていてもよいし、あるいは、純粋に仮想のアクション及びキャラクターに基づいていてもよい。「仮想のアクション又はキャラクター」という用語は、アニメのキャラクター、あるいは、アクション(視覚及び音声の双方)により生成されたアニメーション、ビデオゲーム又は他の同様のレンダリングデバイスにより生成されたアニメーション又は他の仮想オブジェクトを説明するために用いられる。
重要なことに、オーディオプロセッサは、局所的な環境エレメントを考慮するために、未加工の音声トラックを修正するように用いられる環境プロセッサを含んでいてもよい。図6Aには、映画館で3Dプレゼンテーションを処理するための環境プロセッサ200を含むオーディオプロセッサ21Aが示されている。プロセッサ200は、それぞれの映画館の音響についての情報を保持するメモリから局所的な環境特性を受ける。劇場の音響特性を補償する必要性に応じて、プロセッサ200は、未加工の音声トラックを分析し、当該トラックを修正する。例えば、水の壁、ささやき声の会話又は走行中の消防車の音は、異なる音響環境特性に関するいずれの場合においても、異なる劇場にいるか又は劇場内の異なる場所に座っている観客に異なって聞こえる。環境プロセッサ200は、この効果を補償し、これにより、観客は、より現実的なサウンドトラック、すなわち、コンテンツディレクターが当初意図していたものに近いサウンドトラックを聞くことができる。
図6Bは、VRプレゼンテーションのために設計された他のオーディオプロセッサ21Bを示している。このプレゼンテーションの間、ユーザは、シーケンス及びアクションの環境をシーンからシーンへと制御する。そのため、例えば、あるシーンではアクションが野原で行われ、次のシーンでは洞窟で行われることがある。現実的な効果を得るため、オーディオプロセッサ21Bは、環境プロセッサ210、仮想環境検出器212及び音響メモリ214を含む。検出器212は、受け取ったビデオ情報に基づいた特定のシーンのための適切な視覚環境を検出する。ビデオ情報は、図1のビデオプロセッサ23により提供される。適切な環境が検出されると、この環境のための適切な音響特性を音響メモリ214から取得する。次いで、プロセッサ210は、この情報を用いて未加工の音声トラックを修正する。結果得られるパラメータは、前述しかつ図5のステップ190,200における音声深度知覚キューを含むか、又は、音声深度知覚キューを表す。
図6Cは、ARプレゼンテーションのための音声プロセッサ21Cの詳細を示している。このプレゼンテーションのため、音声及びビデオ情報の双方は、視聴者の実環境からの現実音声及びビデオ信号と組み合わされて、その結果、拡張現実感がもたらされる。このため、未加工の音声トラックは、各々のアナログ加算器222に供給され、また、アナログ加算器222は、マイク220を通して、視聴者の実環境から現実の生の音声信号を受ける。この目的のために、生のオーディオトラックはそれぞれの加算器222に供給される。加算器222はまた、マイクロホン220を介して視聴者の実際の環境から実際の生のオーディオ信号を受信する。組み合わされた音声トラックは、環境プロセッサ224に供給される。
図6Bにおけるように、仮想ビデオ情報は、仮想環境検出器226に提供される。環境検出器226は、ビデオ信号から仮想環境を検出して、この情報を音響メモリ228に供給する。
さらに、視聴者の現実環境を検出するため、現実環境検出器230が用いられる。このため、検出器230は、ビデオカメラ232に接続されている。検出器230は、ビデオカメラからのイメージを分析して、例えば、視聴者が公園にいるのか、又は寝室にいるのかを決定する。この情報は、メモリ228に供給され、これにより、適切な音響特性がプロセッサ224に送られる。
別の実施例では、視聴者の位置に基づいて視聴者の環境を決定するように、カメラ232の代わりに、GPS236などの地理的位置探知機が用いられる。
さらに他の実施例では、サウンドパターンを生成するために、サウンドジェネレータ238が用いられる。視聴者の現在の環境を決定するため、結果得られるエコー(反響
)がマイク220又は他のマイクを通して検出される。
図6A,6B,6Cに示した3つの環境プロセッサは、好ましくは、前述しかつ図1などに示したエレメントと組み合わされると理解されたい。
オーサリングツール22は、各フレーム又は一群のフレームのための音声及び視覚オブジェクトに対応する一連のエンコーダ係数を生成する。
本発明の一実施例では、第2の音声/ビデオエンコーダ70は、前記のフォーマットを含む任意のフォーマットの3D非圧縮ビデオマスター60に基づくデジタルコンテンツを受けるため、図1に示したエンコーダ10と類似しているか、あるいは同一である。しかし、これに限定されない。エンコーダ70は、受け取ったデジタル3D映画を分析するとともに、自動的にフォーマットを決定するか、又は、前記デバイスは、ユーザ入力又は受け取ったデジタル3Dコンテンツのためのフォーマットを示す他の信号を受けることができる。また、エンコーダ70は、所望の出力フォーマットを規定する情報を受けるか、あるいは、デジタル3Dコンテンツを、対応する第2の符号化3Dコンテンツに予め選択された異なるフォーマット(例えば、ブルーレイディスク、衛星放送、ニンテンドー3DSなど)で変換するようにプログラムされている。この目的のため、エンコーダ70は、メモリ70Bに保存された複数の符号化係数を利用する。いくつかの符号化係数は、いくつかの異なる出力フォーマットに共通しており、他の符号化係数は、各フォーマットに特有である。重要なことに、本発明によれば、メモリ70Bのコンテンツは、一つ又は複数の所定の係数をオーサリングツール22からのパラメータに替えることによって変更される。ある例では、ツール22からのパラメータは、エンコーダ70と互換性がない場合がある。この場合、ツール22からのパラメータは、最初にマッピング処理エレメント24に供給され、エレメント24は、パラメータをエンコーダ70と互換性のあるフォーマットにマッピングする。マッピングされたパラメータはメモリ70B内の係数のいくつか又は全てを置き換える。
上記の説明では、音声深度知覚のためのキューは、少なくとも一次元、二次元又は三次元、すなわち、X,Y及びZにおいて、主に関心の対象である音声オブジェクトの3D位置を示すものとして説明していることを強調しておく。
一実施例では、オーサリングツール70は、深度知覚キューを用いて音声信号を修正するだけでなく、関連のある逆変換を含むメタデータを作成する。これにより、下流側の信号プロセッサ(図示せず)は、2D視聴用にオリジナルの(又は、プロセスに損失がある場合にはオリジナルに近い)最適化されていないデジタル3D映画音声ストリームを導出することができる。第2の符号化3Dコンテンツとともにメタデータが保存される。
本発明の一実施例では、第2の符号化3Dコンテンツのフォーマットは、例えば、意図された環境に関して、第1の符号化3Dコンテンツのフォーマットと非常に異なっている。例えば、第1の符号化3Dコンテンツは、70フィートの劇場作品のため、デジタル3D映画配信チャンネル用にフォーマットされてもよく、第2の符号化3Dコンテンツは、ニンテンドー3DSの手持ち式の3.5インチスクリーン用としてもよい。したがって、オーサリングツールの設定は、他のシステム上の理由による異なるデジタル3D映画配信チャンネル又はフォーマットに一致するように選択される(そのような変換の詳細は、共に譲渡され、係属中である、3Dイメージの知覚を変更するためのシーン、カメラ、及びビューイングパラメータを制御するための方法(METHODS FOR CONTROLLING SCENE, CAMERA AND VIEWING PARAMETERS FOR ALTERING PERCEPTION OF 3D IMAGERY)という名称で、2011年9月12日に出願された第61/533,777号、及び、3Dイメージの知覚を変更するためのシーン、カメラ、及びビューイングパラメータを制御するための方法(METHODS FOR CONTROLLING SCENE, CAMERA AND VIEWING PARAMETERS FOR ALTERING PERCEPTION OF 3D IMAGERY)という名称で、2011年5月28日に出願され、第61/491,157号に記載されている)。したがって、重要なことに、関心の対象である音声オブジェクトの位置を調節しなければならない。
図1に示す実施例では、第2のオーディオ/ビジュアルエンコーダ70は、入力として、オリジナルの非圧縮ビデオマスター又は第1の3D符号化コンテンツを受けるが、本発明はそのように限定されず、エンコーダ70は、入力として任意の他のコンテンツを受けてもよいし、図1に示す適切な構成要素(例えば、アナライザ30、音声及び視覚プロセッサ21,23及びオーサリングツール22)と協動して、一つ又は複数のフレームに特化した一つ又は複数のサウンドの位置情報を示す情報(音声オブジェクトの形態で又はキューとして)が組み込まれた対応する3D符号化出力を生成してもよいことを、当業者であれば理解されるであろう。前述のように、この情報は、関心の対象である任意の視覚オブジェクトの位置に関連し又は結びつけられてもよく、あるいは、関心の対象である任意の視覚オブジェクトの位置から完全に独立していてもよい。
本システム及び方法は、ログ20又はアナライザ30からの情報を用いて、関心の対象である音声オブジェクトを特定又は生成することにより動的処理を介して効率的に強化された符号化3Dコンテンツを提供するための手段を提供する。本発明に対して、以下の特許請求の範囲に規定されるような本発明の範囲から逸脱することなく、多く修正を加えることができる。

Claims (20)

  1. オリジナルの音声要素及び視覚要素を有するコンテンツから3Dプレゼンテーションを生成する装置であって、
    前記コンテンツは複数のシーンを含み、各々のシーンは、音声特性を有する各々の環境に関連しており、
    前記装置は、オーディオプロセッサ、オーサリングツール及びエンコーダを備え、
    前記オーディオプロセッサは、前記各々の環境を示す環境パラメータ及び前記音声要素を受け、前記オーディオプロセッサは、前記環境パラメータに基づいて、前記オリジナル音声要素を修正された音声要素に修正するように構成されており、
    前記オーサリングツールは、前記修正された音声要素及び前記オリジナルのビデオ要素を受け、対応する符号化係数を生成し、
    前記エンコーダは、前記オリジナルビデオ要素及び前記修正された音声要素を受け、前記符号化係数に基づいて符号化コンテンツを生成する、ことを特徴とする装置。
  2. 前記3Dプレゼンテーションは、劇場音響パラメータを有する劇場において提供され、
    前記装置は、前記劇場音響パラメータを保存する音響メモリをさらに備え、
    前記オーディオプロセッサは、前記修正された音声要素を生成するため、前記劇場音響パラメータを受けるように構成されている、ことを特徴とする請求項1に記載の装置。
  3. 前記劇場音響パラメータを検知するように適応された音響環境センサをさらに備え、
    前記音響環境センサにより検知された信号は前記音響メモリに保存される、ことを特徴とする請求項2に記載の装置。
  4. 前記エンコーダは、VRデバイスにおけるプレゼンテーションのために、VR(仮想現実)符号化コンテンツを生成するように構成されており、
    前記ビデオ要素は、仮想音響環境特性を有する仮想環境で少なくとも第1の仮想シーンを定義し、
    前記オーディオプロセッサは、前記仮想音響環境特性を受けるように、かつ仮想シーンのために構成された音声トラックを定義する係数を生成するように、構成されている、ことを特徴とする請求項1に記載の装置。
  5. 前記第1の仮想シーンにおいて定義されたVR環境を分析するように構成された環境アナライザをさらに備え、
    前記環境アナライザは、前記音響メモリに保存するための仮想環境音響を生成する、ことを特徴とする請求項4に記載の装置。
  6. 前記エンコーダは、受け取ったコンテンツ及びARデバイスにおけるプレゼンテーションのために現在の環境から得られたコンテンツに基づいて、AR(拡張現実)符号化コンテンツを生成するように構成されており、
    前記ビデオ要素は、仮想及び現実のエレメントを有する少なくとも第1のARシーンを定義し、
    前記オーディオプロセッサは、仮想及び現実の音声要素並びに前記第1のARシーンの音響特性を受けるように構成されており、
    前記オーディオプロセッサは、前記第1のARシーンの音響特性と一致するように構成された音声信号を記述する係数を生成する、ことを特徴とする請求項1に記載の装置。
  7. 前記オーディオプロセッサは、前記第1のARシーンに関連する環境信号を含む音声信号を記述する係数を生成する、ことを特徴とする請求項6に記載の装置。
  8. 視聴者の現在位置に関連する現実環境を検出する現実環境検出器と、
    前記現実環境の音響パラメータを決定するように構成された音響環境検出器と、
    をさらに備える、ことを特徴とする請求項6に記載の装置。
  9. 前記現実環境検出器はGPSを含む、ことを特徴とする請求項8に記載の装置。
  10. 前記現実環境検出器は、
    現在位置に関連するイメージを作成するように適応されたカメラと、
    前記音響パラメータを決定するために前記イメージを分析するアナライザと、
    を含む、ことを特徴とする請求項8に記載の装置。
  11. 前記現実環境検出器は、
    試験信号を生成するサウンドジェネレータと、
    前記サウンド検出器からの反響したサウンドを検出するように構成されたマイクと、
    を含み、
    前記音響環境検出器は、前記反響したサウンドを分析するように適応されている、ことを特徴とする請求項8に記載の装置。
  12. 符号化された3Dプレゼンテーションを生成するための方法であって、
    いくつかの3Dシーンを有するとともに、音声トラック及び視覚トラックを含む3Dコンテンツを受けるステップと、
    前記3Dプレゼンテーションが存在する局所的な環境の音響特性及び前記3Dシーンの1つの仮想位置を決定するステップと、
    前記音響特性に基づいて修正されたトラックを生成するように前記音声トラックを修正するステップと、
    符号化された3Dプレゼンテーションを生成するように、前記音声空間パラメータに少なくとも部分的に基づいて符号化係数を用いて前記3Dコンテンツを符号化するステップと、
    を含み、
    前記符号化された3Dプレゼンテーションは、視覚要素及び音声要素を含み、音声要素は、前記修正されたサウンドトラックから導出される、ことを特徴とする方法。
  13. 前記3Dプレゼンテーションは、劇場において提供され、
    前記決定するステップは、前記劇場の音響特性を決定することを含む、ことを特徴とする請求項12に記載の方法。
  14. 前記3Dプレゼンテーションは、パーソナルVRデバイスを用いた視聴者用のVRプレゼンテーションであり、
    前記決定するステップは、前記3Dプレゼンテーションにおいて仮想シーンの仮想音響特性を決定することを含む、ことを特徴とする請求項12に記載の方法。
  15. 前記音声トラックを修正するステップは、付加的なサウンドを前記音声トラックに加えることを含み、
    前記付加的なサウンドは、前記仮想シーンに関連する音響環境に関連している、ことを特徴とする請求項14に記載の方法。
  16. 前記3Dプレゼンテーションは、パーソナルARデバイスを用いた視聴者用のARプレゼンテーションであり、
    前記ARプレゼンテーションは、仮想及び現実シーンエレメントを有するARシーンを含む、ことを特徴とする請求項12に記載の方法。
  17. 前記決定するステップは、前記仮想シーンエレメントの仮想音響特性を決定することを含む、ことを特徴とする請求項16に記載の方法。
  18. 前記決定するステップは、前記現実シーンエレメントの現実の音響特性を決定することを含む、ことを特徴とする請求項16に記載の方法。
  19. 前記音声トラックを修正するステップは、付加的なサウンドを前記音声トラックに加えることを含み、
    前記付加的なサウンドは、前記仮想シーンエレメントに関連する音響環境に関連している、ことを特徴とする請求項16に記載の方法。
  20. 前記音声トラックを修正するステップは、前記音声トラックに付加的なサウンドに加えることを含み、
    前記付加的なサウンドは、前記現実シーンエレメントに関連する音響環境に関連している、ことを特徴とする請求項16に記載の方法。
JP2018561492A 2016-05-25 2017-05-25 3d音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置 Active JP6959943B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/163,819 US10326978B2 (en) 2010-06-30 2016-05-25 Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
US15/163,819 2016-05-25
PCT/US2017/034502 WO2017205637A1 (en) 2016-05-25 2017-05-25 Method and apparatus for generating virtual or augmented reality presentations with 3d audio positioning

Publications (3)

Publication Number Publication Date
JP2019523902A true JP2019523902A (ja) 2019-08-29
JP2019523902A5 JP2019523902A5 (ja) 2020-07-02
JP6959943B2 JP6959943B2 (ja) 2021-11-05

Family

ID=60411627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018561492A Active JP6959943B2 (ja) 2016-05-25 2017-05-25 3d音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置

Country Status (5)

Country Link
EP (1) EP3465679B1 (ja)
JP (1) JP6959943B2 (ja)
KR (2) KR20220062684A (ja)
CN (1) CN109564760B (ja)
WO (1) WO2017205637A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023514121A (ja) * 2020-02-03 2023-04-05 グーグル エルエルシー ビデオ情報に基づく空間オーディオ拡張

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164464A (zh) * 2018-02-12 2019-08-23 北京三星通信技术研究有限公司 音频处理方法及终端设备
KR102790631B1 (ko) * 2019-03-19 2025-04-04 소니그룹주식회사 음향 처리 장치, 음향 처리 방법, 및 음향 처리 프로그램
GB2582910A (en) * 2019-04-02 2020-10-14 Nokia Technologies Oy Audio codec extension
CN116828383A (zh) 2019-05-15 2023-09-29 苹果公司 音频处理
WO2021086624A1 (en) 2019-10-29 2021-05-06 Qsinx Management Llc Audio encoding with compressed ambience
TWI884996B (zh) 2019-10-30 2025-06-01 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
US11356796B2 (en) * 2019-11-22 2022-06-07 Qualcomm Incorporated Priority-based soundfield coding for virtual reality audio
WO2021113781A1 (en) * 2019-12-06 2021-06-10 Magic Leap, Inc. Environment acoustics persistence
CN113453083B (zh) * 2020-03-24 2022-06-28 腾讯科技(深圳)有限公司 多自由度场景下的沉浸式媒体获取方法、设备及存储介质
CN111652986B (zh) * 2020-06-11 2024-03-05 浙江商汤科技开发有限公司 舞台效果呈现方法、装置、电子设备及存储介质
GB2600433B (en) * 2020-10-28 2023-08-09 Sony Interactive Entertainment Inc Audio processing
US12238362B2 (en) * 2021-09-27 2025-02-25 Tencent America LLC Consistence of acoustic and visual scenes
CN114286278B (zh) * 2021-12-27 2024-03-15 北京百度网讯科技有限公司 音频数据处理方法、装置、电子设备及存储介质
CN114911990B (zh) * 2022-05-27 2023-01-03 北京天域北斗文化科技集团有限公司 基于虚拟现实和智能交互的地图浏览系统
US11871207B1 (en) 2022-09-07 2024-01-09 International Business Machines Corporation Acoustic editing
CN119497030A (zh) * 2023-08-15 2025-02-21 华为技术有限公司 音频处理方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007159978A (ja) * 2005-12-16 2007-06-28 Namco Bandai Games Inc プログラム、情報記憶媒体およびゲームシステム
US20090237492A1 (en) * 2008-03-18 2009-09-24 Invism, Inc. Enhanced stereoscopic immersive video recording and viewing
JP2011170282A (ja) * 2010-02-22 2011-09-01 Toshiba Corp 再生装置および再生方法
US20120062700A1 (en) * 2010-06-30 2012-03-15 Darcy Antonellis Method and Apparatus for Generating 3D Audio Positioning Using Dynamically Optimized Audio 3D Space Perception Cues
JP2012514358A (ja) * 2008-12-30 2012-06-21 フンダシオ バルセロナ メディア ウニベルシタット ポンペウ ファブラ 三次元音場の符号化および最適な再現の方法および装置
US20140364212A1 (en) * 2013-06-08 2014-12-11 Sony Computer Entertainment Inc. Systems and methods for transitioning between transparent mode and non-transparent mode in a head mounted dipslay

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030007648A1 (en) * 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
KR101017664B1 (ko) * 2008-06-12 2011-02-25 중앙대학교 산학협력단 온라인 가상 현실 운동 시스템
US20120251069A1 (en) * 2011-03-29 2012-10-04 Broadcom Corporation Audio enhancement based on video and/or other characteristics
US9179237B2 (en) * 2011-12-16 2015-11-03 Bose Corporation Virtual audio system tuning
WO2013106243A1 (en) * 2012-01-12 2013-07-18 West Kanye Omari Multiple screens for immersive audio/video experience
US8831255B2 (en) * 2012-03-08 2014-09-09 Disney Enterprises, Inc. Augmented reality (AR) audio with position and action triggered virtual sound effects
US9756437B2 (en) * 2012-07-03 2017-09-05 Joe Wellman System and method for transmitting environmental acoustical information in digital audio signals
WO2014036121A1 (en) * 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
JP6012343B2 (ja) * 2012-09-03 2016-10-25 日本放送協会 音響再生環境提示装置および音響再生環境提示プログラム
US9338420B2 (en) * 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
GB2536020A (en) * 2015-03-04 2016-09-07 Sony Computer Entertainment Europe Ltd System and method of virtual reality feedback
CN105466413A (zh) * 2015-11-10 2016-04-06 上海格虏博运动科技有限公司 一种基于智能移动平台并结合gps的增强现实实景导航技术

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007159978A (ja) * 2005-12-16 2007-06-28 Namco Bandai Games Inc プログラム、情報記憶媒体およびゲームシステム
US20090237492A1 (en) * 2008-03-18 2009-09-24 Invism, Inc. Enhanced stereoscopic immersive video recording and viewing
JP2012514358A (ja) * 2008-12-30 2012-06-21 フンダシオ バルセロナ メディア ウニベルシタット ポンペウ ファブラ 三次元音場の符号化および最適な再現の方法および装置
JP2011170282A (ja) * 2010-02-22 2011-09-01 Toshiba Corp 再生装置および再生方法
US20120062700A1 (en) * 2010-06-30 2012-03-15 Darcy Antonellis Method and Apparatus for Generating 3D Audio Positioning Using Dynamically Optimized Audio 3D Space Perception Cues
US20140364212A1 (en) * 2013-06-08 2014-12-11 Sony Computer Entertainment Inc. Systems and methods for transitioning between transparent mode and non-transparent mode in a head mounted dipslay

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023514121A (ja) * 2020-02-03 2023-04-05 グーグル エルエルシー ビデオ情報に基づく空間オーディオ拡張
JP7464730B2 (ja) 2020-02-03 2024-04-09 グーグル エルエルシー ビデオ情報に基づく空間オーディオ拡張
US12417070B2 (en) 2020-02-03 2025-09-16 Google Llc Video-informed spatial audio expansion

Also Published As

Publication number Publication date
CN109564760A (zh) 2019-04-02
EP3465679A1 (en) 2019-04-10
EP3465679A4 (en) 2020-01-15
CN109564760B (zh) 2025-02-11
JP6959943B2 (ja) 2021-11-05
WO2017205637A1 (en) 2017-11-30
EP3465679B1 (en) 2025-03-19
KR20190013900A (ko) 2019-02-11
KR20220062684A (ko) 2022-05-17

Similar Documents

Publication Publication Date Title
US10819969B2 (en) Method and apparatus for generating media presentation content with environmentally modified audio components
JP6959943B2 (ja) 3d音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置
US10026452B2 (en) Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
JP7625045B2 (ja) オーディオ装置及びオーディオ処理の方法
JP2022166062A (ja) 空間化オーディオを用いた複合現実システム
JP2022500917A (ja) オーディオビジュアルデータを処理するための装置及び方法
CA2844078C (en) Method and apparatus for generating 3d audio positioning using dynamically optimized audio 3d space perception cues
KR20210056414A (ko) 혼합 현실 환경들에서 오디오-가능 접속된 디바이스들을 제어하기 위한 시스템
US20240406669A1 (en) Metadata for Spatial Audio Rendering
US20240406658A1 (en) Methods and Systems for Automatically Updating Look Directions of Radiation Patterns
RU2823573C1 (ru) Аудиоустройство и способ обработки аудио
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио
GB2632902A (en) Metadata for spatial audio rendering
JP2024134975A (ja) コンテンツ再生装置、コンテンツ再生方法、及びコンテンツ再生プログラム
Mušanovic et al. 3D sound for digital cultural heritage
JP2024134969A (ja) コンテンツ再生装置、コンテンツ再生方法、及びコンテンツ再生プログラム
Rona et al. Surround Digital Audio in Architectural Animation and VR Environment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211008

R150 Certificate of patent or registration of utility model

Ref document number: 6959943

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250