JP2019523902A

JP2019523902A - ３ｄ音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置

Info

Publication number: JP2019523902A
Application number: JP2018561492A
Authority: JP
Inventors: ルイスエス．オストロヴァー; ブラッドリートマスカラー
Original assignee: ワーナーブラザーズエンターテイメントインコーポレイテッド
Priority date: 2016-05-25
Filing date: 2017-05-25
Publication date: 2019-08-29
Anticipated expiration: 2037-05-25
Also published as: CN109564760A; EP3465679A1; EP3465679A4; CN109564760B; JP6959943B2; WO2017205637A1; EP3465679B1; KR20190013900A; KR20220062684A

Abstract

３Ｄプレゼンテーションを生成する装置について説明する。当該装置において、オリジナル音声及び視覚要素を含むオリジナル３Ｄコンテンツから、３Ｄプレゼンテーション（３Ｄ映画、ＶＲ（仮想現実）及び／又はＡＲ（拡張現実）コンテンツを含む）は、複数のシーンを形成する。各々のシーンは、各々の音声特性を有する各々の環境又は複数の環境に関連している。少なくともいくつかのシーンにおけるオリジナルの音声要素は、各々のシーンの音声特性及び／又はプレゼンテーションが行われる場所の環境に適応するか、あるいは前記特性及び／又は環境を補償するため、前記装置により修正される。

Description

本開示は、仮想現実（バーチャルリアリティ）又は拡張現実プレゼンテーションの生成及び構成に関する。より詳細には、本発明は、関連する関心の対象となる音声特徴部／オブジェクト（以下、「音声オブジェクト」又は「関心の対象となる音声オブジェクト」という）をＶＲ／ＡＲプレゼンテーションの３Ｄ空間に配置するため、積極的に見られるシーンの一部であるか又は視野外にある少なくともいくつかの関心の対象となる視覚的な特徴部及び他のオブジェクトに関する３つの空間情報を用いることにより、仮想現実及び／又は拡張現実プレゼンテーション（以下、「ＶＲ／ＡＲプレゼンテーション」という）を強化するための方法及び装置に関する。さらに、前記装置及び方法は、ＶＲプレゼンテーションのための視覚環境の特性及びＡＲプレゼンテーションのための実環境の特性を用いて音声オブジェクトの増強を提供する。

従来、３Ｄ映画又は他の同様のエピソードからなるオーディオ／ビジュアルコンテンツは、アナログフィルムの配給、あるいは、他の相対的に忠実度の低いアナログ又はデジタル配信、記憶、３Ｄフォーマット、例えば、アナグリフ３Ｄの投影及び／又は表示のために準備されていた。３Ｄ符号化フォーマット、プレゼンテーション技術及びデジタル信号処理の進歩により、例えば、立体的なＨＤ１９２０×１０８０ｐ、３Ｄブルーレイディスクなど、非常に高品質の３Ｄフォーマットで制作された３Ｄ映画又はエピソードからなるビジュアルコンテンツが提供されるようになった。

「仮想現実（バーチャルリアリティ）」とは、部分的又は全体的にコンピュータで生成され、かつ／又は実写の３次元世界における没入感を模倣する様々な種類のコンテンツに使用されてきた用語である。例えば、そのようなコンテンツには、種々のビデオゲーム及びアニメ映画のコンテンツが含まれる。これらの技術のバリエーションは、「拡張現実」と呼ばれている。拡張現実プレゼンテーションでは、現在のユーザの周囲における実際の３Ｄプレゼンテーションが一つ又は複数の仮想オブジェクトの付加又はオーバレイによって「拡張」される。拡張現実コンテンツは、ユーザの周囲に見えるオブジェクトや人についての「ヘッドアップ」テキスト情報と同程度に単純であるか、あるいは、ユーザ周囲の外観全体をユーザの実際の周囲に対応した仮想的な環境に変換することと同程度に複雑であり得る。符号化フォーマット、プレゼンテーション技術、モーショントラッキング、ポジショントラッキング、アイトラッキング、ポータブル加速度計及びジャイロ出力／入力、及び関連する信号処理の進歩により、仮想現実及び拡張現実のプレゼンテーションの双方をリアルタイムでユーザに表示することができるようになった。

仮想現実（ＶＲ）及び拡張現実（ＡＲ）は、例えば、立体視用ＶＲヘッドセットなど、様々なタイプの没入型ビデオ立体視プレゼンテーション技術で実施されてきた。前述のように、３Ｄヘッドセット及び他の３Ｄプレゼンテーションデバイスにより、ユーザは３Ｄシーンに没入する。ヘッドセットのレンズにより、ユーザは、ユーザの目から数インチ離れた位置においてヘッドセットに搭載された軽量の分割ディスプレイスクリーンに焦点を合わせることができる。あるタイプのヘッドセットでは、分割ディスプレイの異なる側において、ビデオコンテンツの左右の立体表示が示され、ユーザの周辺視野は、中央視野において、遮られるか又は部分的に妨げられない。他のタイプのヘッドセットでは、２つの別個のディスプレイを用いて、ユーザの左右の眼にそれぞれ異なるイメージを提供する。また、他のタイプのヘッドセットでは、ディスプレイの視野は周辺視野を含む両目の全視野を含む。別のタイプのヘッドセットでは、ＡＲ又はＶＲのいずれかを実現するため、制御可能な小型レーザ、ミラー又はレンズを用いてイメージがユーザの網膜に投影される。いずれの場合であっても、ヘッドセットによって、ユーザは、現実の場面に没入していると感じるように、表示されたＶＲ又はＡＲコンテンツを体感することができる。さらに、ＡＲコンテンツの場合、ユーザは、まるで拡張された現実の場面の一部であるか又はそこに位置していると感じるように、拡張されたコンテンツを体感することがきる。ＶＲ又はＡＲコンテンツは、３６０°の画像としてユーザに表示されるとともに、ユーザの操作により又は自動的にイメージが左右及び／又は上下に移動するように標準のスクリーンに表示される。

没入型ＡＲ／ＶＲの効果は、ユーザの頭部の動きを検知し、これに応じてビデオディスプレイを調節する、ヘッドセット（又は他の箇所）におけるモーションセンサによって提供され、又は向上する。頭部を側方に移動させることにより、ユーザは、ＶＲ又はＡＲシーンを側方に見ることができ、頭部を上下に移動させることにより、ユーザは、ＶＲ又はＡＲシーンを上方又は下方に見ることができる。また、ヘッドセット（又は他のデバイス）は、ユーザの頭部及び／又は本体の位置を検出し、これに応じてビデオディスプレイを調節する、トラッキングセンサを有していてもよい。傾斜又は回転させることにより、ユーザは、ＶＲ又はＡＲシーンを異なる視点で見ることができる。頭部の動き、頭部の位置及び胴体の位置に対する応答性により、ヘッドセットにより実現する没入効果が向上する。したがって、ユーザは、ＶＲシーン内に存在しているか、あるいは「没入している」という印象を受けることができる。本明細書に記載するように、「没入型」は、概してＶＲ及びＡＲプレゼンテーションの双方を含む。

没入型ヘッドセット及び他の装着可能（ウェアラブル）な没入型出力デバイスは、様々なタイプのゲームを行う際に特に有用である。これは、ユーザは、頭部の動き、ユーザの体、頭部、目、手、指、足又は他の体の一部の位置や向きを用いて、かつ／又は、加速度計、高度計、ＧＰＳ受信機、電子テープメジャー、レーザ距離計、レーザ又はデジタル音声測定装置、ジャイロセンサなどのセンサによる他の入力により、一つ又は複数のバーチャルカメラ又はディスプレイを制御したときに、レンダリングエンジンにより生成されたモデル化環境をユーザが探索することを含む。没入体験を提供するため、現実と相互作用するときに、ユーザは何らかの方法で人間の視覚的及び聴覚的知覚に類似した動きの自由度を知覚する必要がある。

ＶＲ／ＡＲプレゼンテーションのために制作されたコンテンツは、様々なタイプのビデオゲームのために開発されたリアルタイムのレンダリング技術を用いることで上記の体験を提供することができる。コンテンツは、コンテンツをビデオ信号としてレンダリングするための規則及び境界が画定されている、３次元のコンピュータモデルとしてデザインされ得る。このコンテンツは、「３Ｄ」と呼ばれる立体的なビデオ出力を提供するように立体技術によって向上し、デジタルＶＲ／ＡＲプレゼンテーションを生成し、ユーザ体験を提供するように、３Ｄヘッドセットの動き、頭部、目、手、指、足、又は他の体の部分（又は「魔法の」棒又はゴルフクラブなどの体の付属品）の動き及び／又は前述のセンサなどの入力に応じたレンダリングプロセスを管理するＶＲ／ＡＲプレゼンテーションに関連している。ユーザは、ビデオゲーム環境内に存在するか没入するような体験が得られる。

他のタイプのＶＲ／ＡＲプレゼンテーションにおいて、シミュレートした３Ｄ環境は、従来の劇場又は映画館におけるように、主にストーリーを提示する。これらのタイプのプレゼンテーションでは、付加された視覚効果（ビジュアルエフェクト）は、物語自体に対する完全な制御（又は任意の制御）をユーザに与えることなく、ストーリーの物語要素又は特殊効果の深度及び豊かさを高める。しかし、一連の物語又は一連のシーンが一つエンディングを有するように提示される標準的なリニアな書籍又は映画とは対照的に、各々の出会い（又は視聴）でそれぞれ異なるように進行する豊かな複合型の現実感体験が提供される。この体験は、物語の流れやソフトウェアにより導入されるランダムな要素により影響され、指示されるが、視聴者の指示（例えば、見方）に依存している。その結果、物語は、最初はリニアなものではなく、予測可能なものではないが、視聴者による選択及び他の要素によって変化する。換言すると、複合現実感環境と合わせた視聴者の選択及び他の要因の結果、提示された物語又はストーリーは進行中に劇的に進化して、緊張、解放、驚き、リニア又はリニアでない進行、転機あるいは終端が作り出される。これらの検討事項は、ゲームや生のリアリティショーと同じように進行が動的に変化する台本のないプレゼンテーションに特に適用可能である。これらのタイプのプレゼンテーションでは、音声信号及び視覚信号の双方が可能な限り現実的であり、プレゼンテーションが現実的に映り、偽物や人工的なものに見えないようにすることが特に重要である。

本願では、「デジタルＶＲ／ＡＲプレゼンテーション」なる用語は、記録され、制作され、レンダリングされ、及び／又はデジタルフォーマットに生成されたビデオゲーム、映画、エピソード的なもの又は他のオーディオビジュアルコンテンツ、あるいは、記録され、制作され、レンダリングされ又は実在するものにオーバレイするようにデジタルフォーマットに生成されたオーディオビジュアルコンテンツについて用いられる。また、上記用語は、２Ｄで制作されたコンテンツ、２Ｄで制作された後、２Ｄから３Ｄに編集されたコンテンツ、３Ｄで制作されたコンテンツ、及び、３Ｄアニメーションシステムからレンダリングされたコンテンツにも用いられる。

デジタルＶＲ／ＡＲプレゼンテーションについてあるフォーマット又は配信チャンネル（経路）による配信が準備されると、分析ソフトウェア及び／又はオペレータによって、フレーム毎、フレームのグループ毎又はシーン毎に関連する３Ｄビジュアル情報が決定され、各々のログに記録される。３Ｄ深度情報を表す従来の方法は、３Ｄイメージと同じ空間解像度（例えば、ＨＤビデオの場合は１９２０×１０８０）を有する単一の２次元イメージからなるＺ軸深度マップによるものである。イメージの各画素は、シーン内のその特定の画素の深度に対応するグレースケール値を含む。例えば、８ビットデータの表示の場合、２５６（純白）のグレースケール値は、最大の正の３Ｄ視差（スクリーン内）を表し、０値（純黒）は、最大の負の視差（スクリーン外）を表す。上記値は、シーンの深度量に基づいて正規化することができ、例えば、２５６の値は、視聴者から１００フィート離れた画素を表し、一方、０の値は、視聴者から１０フィート離れた画素を表す。

３Ｄ深度情報の他の可能なデータ表示は、３次元深度体積であり、これにより、シーンの３Ｄ体積内の各画素が特定の値で示される。Ｚ軸深度マップと異なり、３Ｄ深度体積は、単一のグレースケール値に限定されず、その代わりに、各画素について、特定の画素のカラー値（すなわちＲＧＢ値）、及び、その画素のＸ，Ｙ、Ｚ座標の双方を表すことができる。コンピュータにより制作された３Ｄイメージ又は他の３Ｄ視覚効果技術は、２ＤのＺ軸深度マップの利用と比べて、３Ｄ深度体積の作成により容易に役に立つ。深度情報のそのような３Ｄ表示は、ホログラフィックの投影を含む将来のディスプレイシステムに使用することができる。他のデータ表現の表示は、２Ｄ視差マップ及び固有ベクトルを含むがこれらに限定されない、所与のシーンにおける深度情報を表すために用いられ得る。

ＶＲ／ＡＲプレゼンテーションを生成することの一部として、フレームのビジュアルコンテンツの３Ｄ空間マップ又はフレーム内の関心の対象となるオブジェクトの３Ｄ空間マップは、背景のビデオの３Ｄ空間内に字幕又は他のグラフィックを配置する準備をするときに決定され得る。

関心の対象となる音声オブジェクトは、空間的に追跡可能な対照物（対応物）をスクリーン上に有することができる。例えば、スクリーン上の俳優が、あるシーンで移動し会話をしているときに、聴覚的及び視覚的に当該俳優の位置を追跡することができる。例えば、シーン内の視覚オブジェクトを検知して認識し、オブジェクトの特定の位置を識別することができるビジュアルオブジェクト−トラッキングソフトウェアシステム及びソフトウェア開発キット（例えば、ラトビアのヴィリニュスに所在するニューロテクノロジー社（Neurotechnology）から入手可能なＳｅｎｔｉＳｉｇｈｔ３．０キット）が存在する。そのようなシステムは、面内回転、面外回転、及びスケールの広範囲の変化を許容することができる。また、そのようなシステムは、（例えば、５０％程度）遮蔽されている視覚又は音声オブジェクトの追跡を管理することができる。より多く遮蔽されているか又は完全に視覚的に遮蔽されているオブジェクトの軌跡を動きベクトルを用いてプロットする場合、先のスクリーン内の情報、又は作成済みのシーケンスについては後のスクリーン内の情報が十分に与えられれば、オブジェクトの追跡によってスクリーン外のオブジェクトの位置を特定することができる。関心の対象である他の音声オブジェクト、例えば、スクリーン外で話している俳優、又は、視覚的に部分的又は完全に遮蔽されている間に話している俳優は、追跡され得ない。後者の場合、スクリーン上の俳優は、当該俳優が会話をしているスクリーン外の他の俳優との境界であるスクリーン面を直接横切り当該面を通過して見えることがある。他の関心の対象とであるオブジェクトは、位置や編集の意図によってはスクリーン上の視覚オブジェクトに対応していない。例えば、スクリーン外のナレーターの声は、プレゼンテーションに不可欠であるが、その声に対応する画面上のアイテムが存在しない。

しかし、ある例では、デジタルＶＲ／ＡＲプレゼンテーションの準備の間、関心の対象である音声オブジェクトに関する音声要素又は当該要素の一部分は、明確な３Ｄ空間認識のキュー（ｑｕｅ）を含まない。これは、キューが除去されたか又は消失したか、あるいは最初から存在しないためである。この問題は、ビデオゲームのレンダリングやライブイベントの放送など、リアルタイムのアプリケーションや環境ではさらに複雑になる。

デジタルＶＲ／ＡＲプレゼンテーションを向上させるため、３Ｄ空間知覚のためのキューを音声要素に提供する必要があり、他のフォーマットのデジタルＶＲ／ＡＲプレゼンテーションの音声要素にそのようなキューを含める必要もある。しかし、現在、デジタルＶＲ／ＡＲプレゼンテーションを１つのフォーマットでリリースするための準備は、付加的なフォーマットでリリースされるデジタルＶＲ／ＡＲプレゼンテーションにおける３Ｄ空間知覚の音声キューの存在又は保存を保証する音声要素の効率的な変換を含まない。

そのため、３Ｄ空間知覚キューを用いたデジタルＶＲ／ＡＲプレゼンテーションの準備を最適化するための効果的な計画が必要とされる。さらに、音声３Ｄ空間知覚キューを用いた、他のフォーマット又は配信フォーマットのための付加的なデジタルＶＲ／ＡＲプレゼンテーションの変換を最適化するための効果的な手法が必要とされる。いずれの場合でも、デジタル３Ｄビデオ分析で収集された情報は、３Ｄオーディオビジュアル体験を向上させるため、音声３Ｄ空間知覚キューを生成するための入力として用いられる。

デジタルＶＲ／ＡＲプレゼンテーションが２Ｄで表示される場合、例えば、デジタルＶＲ／ＡＲプレゼンテーションシステムが利用でない、すなわち、ＶＲ／ＡＲに関するヘッドセット及び／又は３Ｄディスプレイが利用できない場合、現在、別個の２Ｄバージョンの音声要素は、３Ｄ空間知覚キューなしに、２Ｄでコンテンツを表示するために配信されるという別の問題が生じる。したがって、音声３Ｄ空間知覚キューを符号化する過程で作成されたデータが保存され、デジタルＶＲ／ＡＲプレゼンテーションリリースファイルに含められ、これにより、３Ｄから２Ｄへのダウンミックスが下流側で管理され得る。

音声及びビデオの双方は、ＶＲ／ＡＲプレゼンテーションを作成するとともに、結果生じる問題の経験を生み出す。｛ここで、出願人は、いわゆる劇場での「４Ｄ」プレゼンテーションには関心がない。「４Ｄ」プレゼンテーションでは、アロマ及び／又は移動型座席、及び／又は水（例えば「雨」）ディスペンサーなどを用いて通常の劇場でのプレゼンテーションを向上させる。｝そのため、ＶＲ／ＡＲプレゼンテーションにおける関心の対象であるオブジェクトの位置に関連する音声キューがビデオを補足する場合、関連のある音声キューが実生活において関心の対象であるオブジェクトの視覚的位置を強調するため、ＶＲ／ＡＲプレゼンテーションが向上して、ユーザ体験がより強力なものとなる。例えば、消防車がサイレンとともに人の視野を走り抜ける際、遠くにいるときは、最初は振幅が低くかつ相対的にピッチが低く、その後、近づくにつれて音が大きくなりかつピッチが高くなり、遠くに離れていくにつれて振幅及びピッチが徐々に消えていく。消防車が出発し、丘を登るにつれて、見かけの音源は上昇する。

デジタルＶＲ／ＡＲプレゼンテーションの音声要素のフォーマットは、制作、符号化、伝送、生成及び／又はプレゼンテーションの点で異なり得る。音声要素のための通常のプレゼンテーションフォーマットは、５．１、６．１、７．１、あるいは、いわゆる「オブジェクト指向」又は「没入型」オーディオのように、モノラルからステレオ、マルチチャンネルまで様々であり得る。これらの音声フォーマットのいくつかは、振幅差、位相差、到着時間差、残響対直接音源レベル比、トーンバランスシフト、マスキング、及び／あるいは、サラウンド又はマルチチャンネル指向性などの深度知覚のための音声キューを含む。これらのキューは、Ｘ軸、Ｙ軸及びＺ軸における音声３Ｄ空間知覚が視覚的３Ｄ空間知覚を補完するように、デジタルＶＲ／ＡＲプレゼンテーションのプレゼンテーションを強化するためにビデオオブジェクト空間位置データに照らして調整され得る。このように、関心の対象である視覚オブジェクトの３Ｄ位置及び関連する音声が一致する場合、デジタルＶＲ／ＡＲプレゼンテーションは、より現実的に見えかつ「感じる」。

したがって、ＶＲ／ＡＲプレゼンテーションにおいて、関心の対象であるオブジェクトの位置を示す音声トラックを提供するだけでなく、オブジェクトがより没入型のＶＲ／ＡＲプレゼンテーションのためのＶＲ及びＡＲコンテンツの魅力と楽しさを高めるために配置されている環境に適合するように音声トラックを調節する方法及び装置を開発することが望ましい。

３Ｄプレゼンテーションを生成する装置について説明する。オリジナル３Ｄコンテンツからの（３Ｄ映画、ＶＲ（仮想現実）及び／又はＡＲ（拡張現実）コンテンツを含む）３Ｄプレゼンテーションは、オリジナル音声及び視覚要素を含み、複数のシーンを形成する。各々のシーンは、各々の音声特性を有する各々の環境に関連している。各々のシーン及び／又はプレゼンテーションが行われる場所の環境の音響特性に適合又は当該音響特性を補償するように、少なくともいくつかのシーンにおけるオリジナル音声要素が前記装置によって修正される。

より具体的には、オリジナル音声及び視覚要素を有するコンテンツから３Ｄプレゼンテーションを生成する装置であって、前記コンテンツは複数のシーンを含み、各々のシーンは、音声特性を有する各々の環境に関連しており、前記装置は、オーディオプロセッサ、オーサリングツール及びエンコーダを備える。オーディオプロセッサは、前記各々の環境を示す環境パラメータ及び前記音声要素を受け、前記オーディオプロセッサは、前記環境パラメータに基づいて、前記オリジナル音声要素を修正された音声要素に修正するように構成されている。オーサリングツールは、前記修正された音声要素及び前記オリジナルビデオ要素を受け、対応する符号化係数を生成する。エンコーダは、前記オリジナルビデオ要素及び前記修正された音声要素を受け、前記符号化係数に基づいて符号化コンテンツを生成する。

前記３Ｄプレゼンテーションは、劇場音響パラメータを有する劇場において提供され、前記装置は、前記劇場音響パラメータを保存する音響メモリをさらに備え、前記オーディオプロセッサは、前記修正された音声要素を生成するため、前記劇場音響パラメータを受けるように構成されている。さらに、前記劇場音響パラメータを検知するように適応された音響環境センサを備え、前記音響環境センサにより検知された信号は前記音響メモリに保存される。

一実施例では、前記エンコーダは、ＶＲデバイスにおけるプレゼンテーションのために、ＶＲ（仮想現実）符号化コンテンツを生成するように構成されており、前記ビデオ要素は、仮想音響環境特性を有する仮想環境で少なくとも第１の仮想シーンを定義し、前記オーディオプロセッサは、前記仮想音響環境特性を受けるように、かつ仮想シーンのために構成された音声トラックを定義する係数を生成するように、構成されている。

本実施例では、装置は、前記第１の仮想シーンにおいて定義されたＶＲ環境を分析するように構成された環境アナライザをさらに備え、前記環境アナライザは、前記音響メモリに保存するための仮想環境音響を生成する。

一実施例では、前記エンコーダは、受け取ったコンテンツ及びＡＲデバイスにおけるプレゼンテーションのために現在の環境から得られたコンテンツに基づいて、ＡＲ（拡張現実）符号化コンテンツを生成するように構成されている。前記ビデオ要素は、仮想及び現実のエレメントを有する少なくとも第１のＡＲシーンを定義する。前記オーディオプロセッサは、仮想及び現実の音声要素並びに前記第１のＡＲシーンの音響特性を受けるように構成されている。前記オーディオプロセッサは、前記第１のＡＲシーンの音響特性と一致するように構成された音声信号を記述する係数を生成する。

一実施例では、前記オーディオプロセッサは、前記第１のＡＲシーンに関連する環境信号を含む音声信号を記述する係数を生成する。

一実施例では、装置は、視聴者の現在位置に関連する現実環境を検出する現実環境検出器と、前記現実環境の音響パラメータを決定するように構成された音響環境検出器と、をさらに備える。例えば、現実環境検出器は、ＧＰＳ、又は、現在位置に関連するイメージを作成するように適応されたカメラと、前記音響パラメータを決定するために前記イメージを分析するアナライザと、を含む。

一実施例では、前記現実環境検出器は、試験信号を生成するサウンドジェネレータと、前記サウンド検出器からの反響したサウンドを検出するように構成されたマイクと、を含む。前記音響環境検出器は、前記反響したサウンドを分析するように適応されている。

本発明の他の態様において、符号化された３Ｄプレゼンテーションを生成するための方法について説明する。前記方法は、いくつかの３Ｄシーンを有するとともに、音声及び視覚トラックを含む３Ｄコンテンツを受けるステップと、前記３Ｄプレゼンテーションが存在する局所的な環境の音響特性及び前記３Ｄシーンの１つの仮想位置を決定するステップと、前記音響特性に基づいて修正されたトラックを生成するように前記音声トラックを修正するステップと、符号化された３Ｄプレゼンテーションを生成するように、前記音声空間パラメータに少なくとも部分的に基づいて符号化係数を用いて前記３Ｄコンテンツを符号化するステップと、を含む。前記符号化された３Ｄプレゼンテーションは、視覚要素及び音声要素を含む。音声要素は、前記修正されたサウンドトラックから導出される。

前記３Ｄプレゼンテーションは、劇場において提供され、前記決定するステップは、前記劇場の音響特性を決定することを含む。

前記３Ｄプレゼンテーションは、パーソナルＶＲデバイスを用いた視聴者用のＶＲプレゼンテーションである。前記決定するステップは、前記３Ｄプレゼンテーションにおいて仮想シーンの仮想音響特性を決定することを含む。前記音声トラックを修正するステップは、付加的なサウンドを前記音声トラックに加えることを含む。前記付加的なサウンドは、前記仮想シーンに関連する音響環境に関連している。

前記３Ｄプレゼンテーションは、パーソナルＡＲデバイスを用いた視聴者用のＡＲプレゼンテーションである。前記ＡＲプレゼンテーションは、仮想及び現実シーンエレメントを有するＡＲシーンを含む。この場合、前記決定するステップは、前記仮想シーンエレメントの仮想音響特性を決定することを含む。代替例として、前記決定するステップは、前記現実シーンエレメントの現実の音響特性を決定することを含む。

前記音声トラックを修正するステップは、付加的なサウンドを前記音声トラックに加えることを含む。前記付加的なサウンドは、前記仮想シーンエレメントに関連する音響環境に関連している。

前記音声トラックを修正するステップは、前記音声トラックに付加的なサウンドに加えることを含む。前記付加的なサウンドは、前記現実シーンエレメントに関連する音響環境に関連している。

図１Ａは、本発明に係る装置のブロック図である。図１Ｂは、オーディオプロセッサのブロック図である。図２は、関心の対象である音声及び視覚オブジェクトの３Ｄフレームの（Ｘ−Ｚ軸における）平面図である。図３は、関心の対象である音声及び視覚オブジェクトの３Ｄフレームの（Ｘ−Ｚ軸における）平面図である。図４は、関心の対象である音声及び視覚オブジェクトの３Ｄフレームの（Ｘ−Ｚ軸における）平面図である。図５は、図１の装置の作動方法を示す図である。図６Ａは、図１のブロック図に用いられている、３Ｄプレゼンテーションのための音声信号プロセッサの要素を示す図である。図６Ｂは、図１のブロック図に用いられている、Ｖ／Ｒプレゼンテーションのための音声信号プロセッサの要素を示す図である。図６Ｃは、図１のブロック図に用いられている、Ａ／Ｒプレゼンテーションのための音声信号プロセッサの要素を示す図である。

本発明は、前記問題の解決策を提供する。本明細書では、解決策は、同一人に譲渡された、動的に最適化された音声３Ｄ空間知覚キューを使用して３Ｄ音声位置を生成するための方法及び装置（METHOD AND APPARATUS FOR GENERATING 3D AUDIO POSITIONING USING DYNAMICALLY OPTIMIZED AUDIO 3D SPACE PERCEPTION CUES）という名称の米国特許第８，７５５，４３２号に開示されている装置の改良として提示されている。その全体は本明細書に組み込まれる。本発明は他の装置を使用しても実施できることを理解されたい。

図１は、本発明を実行するための装置の構成要素を示している。最初に、非圧縮３Ｄコンテンツ６０などのコンテンツは、処理のための装置に送られる。本願において、「３Ｄ」コンテンツなる用語は、一般的に、適切な３Ｄ装置に送られ、かつ３Ｄプレゼンテーション、ＶＲプレゼンテーション又はＡＲプレゼンテーションを含み得るコンテンツに用いられる。

３Ｄプレゼンテーションは、中断なく所定のシーケンスで又は視聴者からの入力により提示される複数の３Ｄイメージからなり、適切な３Ｄサウンドトラックが付加された、映画などのプレゼンテーションである。例えば、デジタル３Ｄ映画は、ソース素材と同じネイティブ解像度の３Ｄフレームのシーケンスとし得る（例えば、１９２０×１０８０ｐ）。換言すると、３Ｄ映画は、実際の俳優と一緒に撮影された長編映画、仮想的なキャラクターが登場するアニメ、又はこれらの組み合わせであってもよく、ＣＧＩ効果で補完された実写であってもよい。重要なことに、現在想定しているように、３Ｄプレゼンテーションは、例えば映画館で、１人の視聴者又は同時に複数の視聴者に提示され、最終的な音声要素は、映画館の音声スピーカシステムを通して視聴者に供給される。

ＶＲプレゼンテーションとは、種々のシーンが視聴者の動作により決定されるシーケンスで映し出される双方向型のゲームやユーザに対するスクリーンに示される３Ｄイメージなどのプレゼンテーションをいう。前記動作には、アイトラッキング又はフォーカス、ジェスチャー又は他の体／手足の動き、「魔法の」棒やゴルフクラブなどの付属品の位置、オブジェクト又は顔認識ソフトウェア、ヘッドマウントディスプレイ（ＨＭＤ）などの適切なＶＲデバイスにより提供された深度検知入力又はモーショントラッキングが含まれる。ヘッドマウントディスプレイはステレオ又は多チャンネル音声用の音声出力及びユーザに対してスクリーン上に提示される３Ｄイメージを有する。音声要素は、ヘッドホンやイヤホンを介して送られる。３Ｄイメージは、観客によって決定されたシーケンスで提示され、適切な３Ｄ音声トラックは視覚シーケンスに合うように生成される。３Ｄイメージは、実際のオブジェクト、シーンなどの実際のイメージであり得るか、又は周知のマイクロプロセッサベースの技術を使用して生成された仮想イメージであり得る。ＶＲプレゼンテーションは、種々のシーンが視聴者の動作により決定されるシーケンスで映し出される双方向型のゲームとし得る。前記動作には、アイトラッキング又はフォーカス、ジェスチャー又は他の体／手足の動き、「魔法の」棒やゴルフクラブなどの付属品の位置、オブジェクト又は顔認識ソフトウェア、ヘッドマウントディスプレイ（ＨＭＤ）における装置により提供される深度検知入力又はモーショントラッキングが含まれる。ＶＲプレゼンテーションの最終的なビデオ要素は、ＶＲデバイス（図示せず）のスクリーンに提示され、音声要素は、ヘッドホン又はイヤホン（図示せず）などの標準的なオーディオデバイスにより提供される。

ＡＲプレゼンテーションは、ＶＲプレゼンテーションに類似しており、観客が見ているリアルタイムオブジェクトのイメージからなる。当該イメージは、重ね合わされる他の３Ｄイメージと組み合わされるか、リアルタイムイメージと組み合わされる。例えば、他の３Ｄイメージは、事前に撮影された現実の３Ｄイメージ又はコンピュータにより生成されたイメージとし得る。壁などの現実オブジェクト又は他の障害物は、種々のセンサ又は光学認識素子を用いて検出される。周囲のオブジェクトとの近接性又は近接性の変化は、加速度計、高度計、ＧＰＳ受信機、電子テープメジャー、レーザ距離計、レーザ又はデジタル音声測定装置、ジャイロセンサにより判断される。ＡＲプレゼンテーションは、音声及びビデオ要素を含む。音声要素はヘッドホンや同様の手段を介して再生され、ビデオ要素はスクリーンに提示される。

通常、各々の３Ｄフレームにおいて、関心の対象である視覚的な平面及び／又はオブジェクトは、関心の対象である音声オブジェクトに対応する。例えば、一例として、スクリーン上の俳優はメインのセリフを話す。この場合、関心の対象である音声オブジェクト（メインのセリフ）及び俳優は３Ｄ空間位置を有する。他の例では、関心の対象である音声オブジェクトは、関心の対象である視覚オブジェクトに対応していなくてもよい。例えば、スクリーン上又はスクリーン外のナレーター又はコメンテーターは、カーレースにおける編集によるセリフを提供する。レースにおける種々の車は、背景から突然現れ、轟音を立てて接近してきて、視聴者のそばを通り過ぎてスクリーン外に向かう。この場合、関心の対象である視覚オブジェクトは車であり、関心の対象である音声オブジェクトは２セットあり、すなわち、編集によるセリフ及び接近してくる車の騒音である。この場合、シーンを劇的に見せるため、レースカーの騒音及び編集によるセリフの双方は、関心の対象である音声オブジェクトとして提示すべきである。上記シーンの間、車の騒音（例えば、音声オブジェクト）及び視覚イメージ（例えば、視覚オブジェクト）は、視聴者に向かってだんだん近づいてくるが、編集によるセリフを遮ることはない。他の場合、例えば、ビデオゲームでは、視覚オブジェクトは、疑似ランダムにシーンに現れかつシーンから消える。種々のサウンドエフェクト（音響効果）は、これらのオブジェクトのいくつかに関連付けられてもよく、又は、ランダムに間隔を隔てた音声オブジェクトが生成され得る。重要なことに、以下で詳説するように、本明細書において生成される音声トラックは、スピーチ、サウンドエフェクトなどの標準的な音声エレメントを含むだけでなく、これらのエレメントは修正され、提示されるシーンの仮想環境、一例では視聴者の物理的環境の特性に適合する新たなエレメントが付加される。

前述のように、３Ｄコンテンツは、Ｚ軸深度マップを含み、当該マップは、各々の３Ｄフレームのための種々の視覚オブジェクト（又は関心の対象である面、例えば、Ａ／Ｒにおいて、現実世界オブジェクトについては１つの面、Ａ／Ｒオーバレイについては１つの場所）の相対距離を示す。従来、３ＤＺ軸深度マップは、関心の対象である全てのオブジェクトの一般的な輪郭及び面特性を有する２次元イメージからなる。Ｚ軸に沿った種々の位置におけるオブジェクト及びオブジェクト面は、各々の輪郭及び面の陰影によって２次元イメージ上に表される。各々の輪郭は、陰影が付けられた一つ又は複数の面を含む。より詳細には、各輪郭及び各輪郭の面（１つを超える場合）は、各々のオブジェクト及びそれらの面の相対位置に対応するグレースケールで陰影が付けられる。したがって、３ＤのＺ軸深度マップは、互いに対しかつスクリーン及び／又は視聴者などの特定の基準点に対する、関心の対象である種々のオブジェクト及びその面の相対位置についての情報を提供する。当然ながら、前述のように、３Ｄ空間における音声又は視覚オブジェクトの位置を示す他の手段を用いてもよく、本発明はこれらの手段のうちの任意の１つに限定されない。

図１Ａを参照すると、本発明によるシステムにおいて、エンコーダ１０は、例えば、圧縮されていない（非圧縮）ビデオマスター６０の形式の３Ｄ映画を含む。音声／ビデオエンコーダ１０は、このマスターから第１の３Ｄ符号化コンテンツを生成する。当該コンテンツは、保存され、記録され又は種々の配信チャンネルを介して利用者に配信（提供）される。第１の３Ｄ符号化コンテンツは、３Ｄ空間視覚オブジェクト又は他の関心の対象である任意の音声オブジェクトに対する音声３Ｄ空間知覚キューを付与する情報を有していてもよいし、有していなくてもよい。上記コンテンツは、上記マスターが再生される音響環境及び／又は上記シーンが行われる仮想環境を定義する音声３Ｄ情報を有していない。

図１Ａに示すように、本発明を実施する装置は、３Ｄビデオエンコーダ１０、オーディオプロセッサ２１、ビデオプロセッサ２３及びオーサリングツール２２を含む。３Ｄコンテンツ６０は、３Ｄコンテンツを処理する３Ｄビデオエンコーダに送られる。エンコーダ１０の出力は、第１の３Ｄ符号化コンテンツと呼ばれる。

ビデオプロセッサ２３は、前述の３ＤＺ軸マップなどの３Ｄビデオトラッキングマップを受ける。当該トラッキングマップは、符号化されるコンテンツの各々のフレーム又は一群のフレームについて、関心の対象である視覚オブジェクトの位置を追跡（トラッキング）する。３Ｄトラッキングマップは、ログ２０から、又はアナライザ３０を用いて第１の３Ｄ符号化コンテンツを分析することにより導出され得る。さらに、ビデオプロセッサ２３は、いくつかの視覚オブジェクトの位置を制御するための手動制御を受けてもよい。さらに、新たな視覚コンテンツは、例えば、Ａ／Ｒインスタンシエーションにおいて、オブジェクト認識又は顔認識ソフトウェア、あるいは、ＨＭＤに含まれる深度検出手段又はモーショントラッキング、例えば、コンピュータビジョン、加速度計、高度計、ＧＰＳ受信機、電子テープメジャー、レーザ距離計、レーザ又はデジタル音声測定装置あるいはジャイロセンサにより決定された周囲のオブジェクトに対する静的な又は変化する近接性により、ビデオプロセッサに送られてもよい。新たな視覚コンテンツは、字幕及び／又は他の付加的なグラフィックエレメントの形態でビデオプロセッサに送られてもよい（３Ｄ映画のために劇的に最適化された変換を用いて符号化されたコンテンツを生成するための方法及び装置（METHOD AND APPARATUS FOR GENERATING ENCODED CONTENT USING DYNAMICALLY OPTIMIZED CONVERSTION FOR 3D MOVIES）という名称で、２０１１年８月９日に出願され、共に譲渡された同時係属中の出願である第１３／２０５，７２０号に完全に記載されている。これは参照により本明細書に組み込まれる）。視覚プロセッサは、オーサリングツール２２に提供される視覚パラメータを生成する。オーサリングツールは、例えば、ビデオゲーム、Ａ／Ｒ、又はＶ／Ｒレンダリングの目的のためにリアルタイムで動作することができ、あるいは、例えば、３Ｄプレゼンテーションのためにレンダリングの前にその機能を実行する。

オーディオプロセッサ２１は、未加工の音声信号（例えば、非圧縮ビデオマスターからの音声トラック）及び／又は他のソースを受ける。例えば、オリジナル非圧縮ビデオマスターにない付加的な音声コンテンツを付加してもよい。オーディオプロセッサ２１は、種々の視覚オブジェクトの３Ｄ位置、特定の音声トラックを視覚オブジェクトに相関させるか又は音声オブジェクトを定義する手動及び／又は自動選択信号などの他の情報を受ける（音声トラックが視覚オブジェクトに関連付けられていない場合、又は、スクリーン外の視覚オブジェクトに関連付けられている場合）。重要なことに、また、オーディオプロセッサ２１は、各々の環境を示す他の環境パラメータを受ける。これについては、以下に詳説する。次いで、オーディオプロセッサ２１は、関連のあるフレームにおける関心の対象である音声オブジェクトなどの音声コンテンツの位置を示す音声パラメータを生成する。図１Ｂにより詳細に示すように、オーディオプロセッサ２１は、３Ｄビデオ及び音声トラッキングマップを受けるコンパレータ１００を含む。音声源（すなわち、関心の対象である音声オブジェクト）は、２Ｄ及び３Ｄ空間に、すなわち、Ｘ軸，Ｙ軸及びＺ軸に沿って配置され得る。種々の編集上の理由又は他の理由のため、Ｘ軸，Ｙ軸及びＺ軸における音声源の位置は重要である。音声オブジェクトの位置を生成しかつ／又は特定するために、種々の基準又はアプローチを用いることができる。これについては、以下で詳説する。これらの位置が選択されると、次いで、オーサリングツール２２は、音声オブジェクトパラメータを分析し、各フレーム又はフレームセットについて、音声オブジェクトの位置を割り当て、次いで、３Ｄフレームにおいて音声源を処理するため、指定された位置に配置するように、キューを含む適切なオーサリング又は再オーサリング制御信号を生成する。

ＡＲについて、展開される一つ又は複数の視覚トラッキングマップは、コンピュータビジョンなどのＨＭＤに含まれる深度検出手段又はモーショントラッキング、オブジェクト又は顔認識ソフトウェア、加速度計、高度計、ＧＰＳ受信機、電子テープメジャー、レーザ距離計、レーザ又はデジタル音声測定装置、又はジャイロセンサから生成され得る。トラッキングマップは、ＡＲオーバレイ、又は、音声位置調整を含む、ＡＲオブジェクト又はグラフィックと現実世界オブジェクトとを混合したものを生成するために用いられ得る。

ある例では、関心の対象であるオブジェクトの音声位置及び視覚位置が対応し、音声及び視覚オブジェクトの双方のための３Ｄ空間情報が記録され、これにより、音声オブジェクトが関心の対象である視覚オブジェクトにマッピングされ得る。本発明の一実施例では、深度位置（例えば、Ｚ軸に沿った位置）だけが付与される。他の実施例では、３Ｄ体積における音声オブジェクトの位置（例えば、全ての３軸Ｘ，Ｙ及びＺに沿った）は、任意の視覚オブジェクトの位置から離れて付与される。図１Ａを参照すると、コンパレータ１００は、音声及び視覚トラッキングマップを受け、当該マップが収束しているかを判断する。単一の視覚オブジェクト及び単一の音声が存在する場合、上記の判断は単純である。しかし、マルチ視覚オブジェクト及びマルチ音声オブジェクトが存在する場合、各々の音声オブジェクトを各々の視覚オブジェクトに割り当てるため、手動制御又は他の手段を用いてもよい。特定が完了すると、構成要素１０３により音声及び視覚オブジェクトを常に追跡するために、自動トラッキングソフトウェアが提供される。

他の例では、関心の対象である音声及び視覚オブジェクトが発散するか、あるいは、音声オブジェクトが関心の対象である特定の視覚オブジェクトにマッピングされているかを示す情報を利用できない。この場合、手動オペレータ、又は構成要素１０２により表される自動オブジェクト音声トラッキングソフトウェア（必要であれば）を実行する自動アナライザは、「スクリーン上の」関心の対象である音声オブジェクト（並びに任意の視覚オブジェクトＡ，Ｂ，Ｃ又はＤ）を選択し、追跡（トラッキング）することができる。このトラッキング情報は、例えば、（深度知覚のみを望む場合）Ｚ軸深度マップとして表されてもよく、あるいは、Ｘ軸，Ｙ軸及びＺ軸に沿った全３Ｄ空間において表されてもよい。関心の対象である音声オブジェクトがスクリーン上にないか、又は、音声オブジェクトが遮られている（例えば、閉じられたドアの背後から俳優が話している）場合、あるいは、スクリーン外の仮想オブジェクトが既知の位置又はプロットされた位置を有する場合、トラッキングマップは、拡張され、遮られた又はスクリーン外の音声オブジェクトのため、視聴者と同じ垂直面内又は視聴者の背後に配置された音声オブジェクトを含む情報を提供する。

図２〜図４は、あるシーンにおける関心の対象である種々の音声及び視覚オブジェクトの例を示す平面図である。図２は、視聴者Ｖが見ている４人の演者Ａ，Ｂ，Ｃ，Ｄが存在するステージの平面図である。Ａ，Ｂ，Ｃ及びＤは、ボーカリスト及び／又はミュージシャンであってもよく、演者は、静止していてもよいし、ステージ上を移動していてもよい。最初は、受け取った３Ｄ映画のビデオ要素は、各々の演者の位置を示している。音声要素は、混合音声トラック、又は、各演者からの音声信号を有するいくつかのトラックからなり、この場合、音声深度知覚又はトラックを空間的に演者に結び付ける任意の他の音声キューが実質的に存在しない。さらに、音声要素は、所望の環境、例えば、各々のシーンが行われる環境の音響特性を欠いている。

別々のトラックが利用できない場合、未加工の音声トラックは、オーディオプロセッサ（コンパレータ１００又は構成要素１０２）により分析されかつ操作され、各演者からの音を表す仮想音声トラックを定義する音声パラメータを生成する。その後、トラックは各演者と関連付けられる。これは、オペレータによって手動で、あるいは、例えば、顔認識アルゴリズムを用いて４人の演者を識別するためにビデオ要素を処理することにより、彼らの楽器を認識することにより、又は他の手段により行われ得る。

演者の位置が識別されるか、又は各々のトラックと関連付けられると、関心の対象である音声オブジェクトを表す音声パラメータがオーディオプロセッサ２１により生成される。好ましい実施例では、これらのパラメータは、一部又は全ての音声トラックの深度知覚キューを表す。所望であれば、例えば、トラックの相対的な音量又は他の編集上の基準に基づいて、いくつかのシーンにおいて、何人かの演者の位置を強調し、他の場合に他の演者の位置を強調することができる。重要なことに、オーディオプロセッサは、各々の環境の音響特性を定義する環境パラメータを受け、これに応じて、各々の音声トラックを変調する。そのため、シーンが森の中で行われる場合、プログラムを見聞きしている視聴者が森の中で聞こえるようにサウンドトラックを聞くだけでなく、鳥のさえずりや蜂が飛び回る音などの付加的なサウンドを聞くことができるように、音声トラックが修正される。これらのサウンドエフェクトは、視聴者に真の３Ｄ体験を提供する（「サウンドエフェクト」なる用語は、本明細書において、音の修正及び新たな音の追加を指すために使用する）。

前述のように、演者が動き回ると、彼らの位置が追跡され、関心の対象である音声オブジェクトに対応する音声オブジェクト位置が記録される。このため、これらのオブジェクトに対応する音声トラックは、３Ｄ空間においてそれらを位置決めするように、適切な音声位置キューで処理され得る。また、サウンドトラックの質は、音声オブジェクトの位置に応じて修正される。

図３は、２人の俳優Ａ，Ｂが話しながら、経路Ｅ，Ｆを通って歩き回った後、俳優Ａが位置Ａ１に位置し、俳優Ｂが位置Ｂ１に位置しているシーンの平面図である。俳優Ａ，Ｂの一方又は双方は、ある時点では、視聴者Ｖの背後の「ステージ外」に位置している。全ての位置は、ビデオ要素オブジェクトトラッキングマップから追跡及び／又はプロットされ、対応する音声オブジェクトトラックは、これらの位置に対応するように、構成要素１０３により３Ｄ空間位置キューで処理される。また、結果得られるオーディオトラックは、シーンが行われる場所の音響環境に応じて、それらをより現実的なものにするための修正を含む。

図４は、図３に類似したシーンを示す平面図である。このシーンでは、始めは、俳優Ｂは壁部Ｗ（又は他の遮蔽物）の背後にいるが、当該俳優の会話中は声が聞こえている。俳優Ａは見える状態にあり、Ｂと会話をしている。会話中、俳優Ｂは、壁部Ｗの周りを歩き、位置Ｂ１へと向かう。その間又はその後、俳優Ａは、出入口Ｄから出て行き、もはや見える位置にはいないが、任意の経路Ｐに沿って歩き続けている。２人の俳優が動き回って話しているとき、２人の位置は、常に追跡され、プロットされている。このため、一方の俳優が見えないところ、例えば、ステージ外にいる場合であっても、適切な音声３Ｄ空間キューが生成され得る（通常、視聴者Ｖはステージからより遠くに離れているため、図４が縮尺通りでないことは明らかであろう）。

図５は、図１の装置により使用される例示的な方法のフローチャートを示している。前述したように、周知のフォーマットにおける３Ｄ映画が受け取られ、ステップ１１０において、その音声及びビデオ要素が符号化される。ステップ１２０において、関心の対象である音声及びビデオオブジェクトが検出される（例えば、あるシーンにおいて）。このステップは、オペレータにより又は自動的に実行される。これらのオブジェクトの空間位置が比較される。オブジェクトの空間位置が一致する場合（ステップ１３０）、当該位置は、適切な符号化方式を用いて新たなフォーマットに変換され（ステップ１４０）、次いで、適切なチャンネルを通じて配信される（ステップ１５０）。空間位置が一致しない場合、又は、音声オブジェクトの空間位置を検出するのに情報が不十分である場合、ステップ１６０において、空間位置はオーディオプロセッサ２１により特定される。

ステップ１７０では、関心の対象である音声オブジェクトが可視オブジェクトに関連付けられているかについての確認が行われる。関連付けられている場合、ステップ１８０において、対応する視覚オブジェクト（俳優Ａ，Ｂ）の位置が連続的に追跡され（ステップ１８０）、対応する音声キューが生成される（ステップ１９０）。音声オブジェクトが、視覚オブジェクトに対応していない（例えば、俳優Ｂが最初の位置にいるか、俳優Ａが位置Ａ１にいる）場合、遮られたオブジェクト、スクリーン外のオブジェクト又は隠れたオブジェクトに適用可能な特定の規則を用いて種々の計算が行われる（ステップ２００）。例えば、隠れたオブジェクト（例えば、壁の後ろで動く俳優）の動きは、対応する音声オブジェクトを生成するために補間され使用され得る。この時点において、以前に受けた環境パラメータに基づいて、付加的なサウンドエフェクトが得られる。ステップ２１０において、音声及び視覚パラメータはオーサリングツール２２に提供される。例えば、位置キュー（一次元、二次元又は三次元における）が音声要素に付加され得る。代替例として、音声３Ｄポジションマップ、テーブル又は他の便利な形態として表示される音声キューが別のフィールドに提供される。また、新たなサウンドエフェクトがオーサリングツールに提供され、これにより、ステップ２２０において生成された係数は、各々の音響環境に応じて修正されたサウンドトラックを定義する。

上記のステップは、図１の装置によって、適切な３Ｄ空間音声知覚キューを用いて音声要素を符号化することにより実行される。音声／ビデオエンコーダ１０により実行される最初の符号化の間、Ｚ軸深度マップ又は関心の対象である視覚オブジェクトのための他の指標などの種々のパラメータ、及び音声トラックがログ２０に保存される。エンコーダ１０は、配信、保存、記録などのため、第１の３Ｄ符号化コンテンツを生成する。

次いで、おそらく将来的に、３Ｄ音声知覚キューを含む、異なる、場合により強化された、３Ｄフォーマットのコンテンツが望まれる。このため、ログ２０からの情報がオーディオプロセッサ２１に提供される。代替例として、第１の３Ｄ符号化コンテンツ（又は、依然として利用可能である場合は３Ｄ非圧縮デジタルマスター）がアナライザ３０により分析され、関心の対象である視覚オブジェクト（例えば、Ｚ軸深度マップ）のための結果として得られる３Ｄトラッキングマップが、（利用可能であれば）関心の対象である音声オブジェクトの位置を示すトラッキング情報とともに得られる。

次いで、オーディオプロセッサ２１は、ログ２０及び／又はアナライザ３０から得られる情報並びに手動又は自動で生成された付加的な制御信号及び環境パラメータを使用し、関心の対象である種々の音声オブジェクトの位置を定義する一セットの音声パラメータを生成する。これらの音声パラメータは、オーサリングデバイス２２に提供される。また、オーサリングデバイスは、各々のフレーム又は一群のフレーム又は視覚オブジェクトの位置に関する対応するビデオ情報を、ビデオプロセッサ２３から受ける。

音声パラメータはオーサリングツール２２により使用され、関心の対象である音声オブジェクトが知覚される方法を定義するパラメータ（３Ｄ位置知覚キューを含む）を生成し、一つ又は複数の音声オブジェクトトラッキングマップパラメータに従って処理され、例えば、位相差、到着時間差、残響対直接音源レベル比、トーンバランスシフト、マスキング及び／又はサラウンド又はマルチチャンネル指向性などのキューが付加される。これらのパラメータは、編集上適切な場合には、関心の対象である音声オブジェクトが関心の対象である視覚オブジェクトに対応するように調整され、それにより、３Ｄオーディオビジュアル体験の向上を提供する。オペレータ制御は自動プロセスの手動のオーバライドを可能にし、これにより、すなわち、関心の対象である視覚及び音声オブジェクトが対応していないとき、又は、スクリーン上に関心の対象である音声オブジェクトが全く存在していないとき、例えば、全知の具現化されていないナレーターの声が前述のように重要なセリフを伝えるときに、音声深度知覚キューの編集上のエンファシス又はディエンファシスが適切に管理され得る。

前記の例では、実際のセリフを話している実際の俳優の現実シーンの一場面として種々のシーンを説明している。当然ながら、これらのシーンは、実際のアクション及びキャラクターに基づいている必要はなく、実際及び仮想のアクション及びキャラクターに基づいていてもよいし、あるいは、純粋に仮想のアクション及びキャラクターに基づいていてもよい。「仮想のアクション又はキャラクター」という用語は、アニメのキャラクター、あるいは、アクション（視覚及び音声の双方）により生成されたアニメーション、ビデオゲーム又は他の同様のレンダリングデバイスにより生成されたアニメーション又は他の仮想オブジェクトを説明するために用いられる。

重要なことに、オーディオプロセッサは、局所的な環境エレメントを考慮するために、未加工の音声トラックを修正するように用いられる環境プロセッサを含んでいてもよい。図６Ａには、映画館で３Ｄプレゼンテーションを処理するための環境プロセッサ２００を含むオーディオプロセッサ２１Ａが示されている。プロセッサ２００は、それぞれの映画館の音響についての情報を保持するメモリから局所的な環境特性を受ける。劇場の音響特性を補償する必要性に応じて、プロセッサ２００は、未加工の音声トラックを分析し、当該トラックを修正する。例えば、水の壁、ささやき声の会話又は走行中の消防車の音は、異なる音響環境特性に関するいずれの場合においても、異なる劇場にいるか又は劇場内の異なる場所に座っている観客に異なって聞こえる。環境プロセッサ２００は、この効果を補償し、これにより、観客は、より現実的なサウンドトラック、すなわち、コンテンツディレクターが当初意図していたものに近いサウンドトラックを聞くことができる。

図６Ｂは、ＶＲプレゼンテーションのために設計された他のオーディオプロセッサ２１Ｂを示している。このプレゼンテーションの間、ユーザは、シーケンス及びアクションの環境をシーンからシーンへと制御する。そのため、例えば、あるシーンではアクションが野原で行われ、次のシーンでは洞窟で行われることがある。現実的な効果を得るため、オーディオプロセッサ２１Ｂは、環境プロセッサ２１０、仮想環境検出器２１２及び音響メモリ２１４を含む。検出器２１２は、受け取ったビデオ情報に基づいた特定のシーンのための適切な視覚環境を検出する。ビデオ情報は、図１のビデオプロセッサ２３により提供される。適切な環境が検出されると、この環境のための適切な音響特性を音響メモリ２１４から取得する。次いで、プロセッサ２１０は、この情報を用いて未加工の音声トラックを修正する。結果得られるパラメータは、前述しかつ図５のステップ１９０，２００における音声深度知覚キューを含むか、又は、音声深度知覚キューを表す。

図６Ｃは、ＡＲプレゼンテーションのための音声プロセッサ２１Ｃの詳細を示している。このプレゼンテーションのため、音声及びビデオ情報の双方は、視聴者の実環境からの現実音声及びビデオ信号と組み合わされて、その結果、拡張現実感がもたらされる。このため、未加工の音声トラックは、各々のアナログ加算器２２２に供給され、また、アナログ加算器２２２は、マイク２２０を通して、視聴者の実環境から現実の生の音声信号を受ける。この目的のために、生のオーディオトラックはそれぞれの加算器２２２に供給される。加算器２２２はまた、マイクロホン２２０を介して視聴者の実際の環境から実際の生のオーディオ信号を受信する。組み合わされた音声トラックは、環境プロセッサ２２４に供給される。

図６Ｂにおけるように、仮想ビデオ情報は、仮想環境検出器２２６に提供される。環境検出器２２６は、ビデオ信号から仮想環境を検出して、この情報を音響メモリ２２８に供給する。

さらに、視聴者の現実環境を検出するため、現実環境検出器２３０が用いられる。このため、検出器２３０は、ビデオカメラ２３２に接続されている。検出器２３０は、ビデオカメラからのイメージを分析して、例えば、視聴者が公園にいるのか、又は寝室にいるのかを決定する。この情報は、メモリ２２８に供給され、これにより、適切な音響特性がプロセッサ２２４に送られる。

別の実施例では、視聴者の位置に基づいて視聴者の環境を決定するように、カメラ２３２の代わりに、ＧＰＳ２３６などの地理的位置探知機が用いられる。

さらに他の実施例では、サウンドパターンを生成するために、サウンドジェネレータ２３８が用いられる。視聴者の現在の環境を決定するため、結果得られるエコー（反響
）がマイク２２０又は他のマイクを通して検出される。

図６Ａ，６Ｂ，６Ｃに示した３つの環境プロセッサは、好ましくは、前述しかつ図１などに示したエレメントと組み合わされると理解されたい。

オーサリングツール２２は、各フレーム又は一群のフレームのための音声及び視覚オブジェクトに対応する一連のエンコーダ係数を生成する。

本発明の一実施例では、第２の音声／ビデオエンコーダ７０は、前記のフォーマットを含む任意のフォーマットの３Ｄ非圧縮ビデオマスター６０に基づくデジタルコンテンツを受けるため、図１に示したエンコーダ１０と類似しているか、あるいは同一である。しかし、これに限定されない。エンコーダ７０は、受け取ったデジタル３Ｄ映画を分析するとともに、自動的にフォーマットを決定するか、又は、前記デバイスは、ユーザ入力又は受け取ったデジタル３Ｄコンテンツのためのフォーマットを示す他の信号を受けることができる。また、エンコーダ７０は、所望の出力フォーマットを規定する情報を受けるか、あるいは、デジタル３Ｄコンテンツを、対応する第２の符号化３Ｄコンテンツに予め選択された異なるフォーマット（例えば、ブルーレイディスク、衛星放送、ニンテンドー３ＤＳなど）で変換するようにプログラムされている。この目的のため、エンコーダ７０は、メモリ７０Ｂに保存された複数の符号化係数を利用する。いくつかの符号化係数は、いくつかの異なる出力フォーマットに共通しており、他の符号化係数は、各フォーマットに特有である。重要なことに、本発明によれば、メモリ７０Ｂのコンテンツは、一つ又は複数の所定の係数をオーサリングツール２２からのパラメータに替えることによって変更される。ある例では、ツール２２からのパラメータは、エンコーダ７０と互換性がない場合がある。この場合、ツール２２からのパラメータは、最初にマッピング処理エレメント２４に供給され、エレメント２４は、パラメータをエンコーダ７０と互換性のあるフォーマットにマッピングする。マッピングされたパラメータはメモリ７０Ｂ内の係数のいくつか又は全てを置き換える。

上記の説明では、音声深度知覚のためのキューは、少なくとも一次元、二次元又は三次元、すなわち、Ｘ，Ｙ及びＺにおいて、主に関心の対象である音声オブジェクトの３Ｄ位置を示すものとして説明していることを強調しておく。

一実施例では、オーサリングツール７０は、深度知覚キューを用いて音声信号を修正するだけでなく、関連のある逆変換を含むメタデータを作成する。これにより、下流側の信号プロセッサ（図示せず）は、２Ｄ視聴用にオリジナルの（又は、プロセスに損失がある場合にはオリジナルに近い）最適化されていないデジタル３Ｄ映画音声ストリームを導出することができる。第２の符号化３Ｄコンテンツとともにメタデータが保存される。

本発明の一実施例では、第２の符号化３Ｄコンテンツのフォーマットは、例えば、意図された環境に関して、第１の符号化３Ｄコンテンツのフォーマットと非常に異なっている。例えば、第１の符号化３Ｄコンテンツは、７０フィートの劇場作品のため、デジタル３Ｄ映画配信チャンネル用にフォーマットされてもよく、第２の符号化３Ｄコンテンツは、ニンテンドー３ＤＳの手持ち式の３．５インチスクリーン用としてもよい。したがって、オーサリングツールの設定は、他のシステム上の理由による異なるデジタル３Ｄ映画配信チャンネル又はフォーマットに一致するように選択される（そのような変換の詳細は、共に譲渡され、係属中である、３Ｄイメージの知覚を変更するためのシーン、カメラ、及びビューイングパラメータを制御するための方法（METHODS FOR CONTROLLING SCENE, CAMERA AND VIEWING PARAMETERS FOR ALTERING PERCEPTION OF 3D IMAGERY）という名称で、２０１１年９月１２日に出願された第６１／５３３，７７７号、及び、３Ｄイメージの知覚を変更するためのシーン、カメラ、及びビューイングパラメータを制御するための方法(METHODS FOR CONTROLLING SCENE, CAMERA AND VIEWING PARAMETERS FOR ALTERING PERCEPTION OF 3D IMAGERY)という名称で、２０１１年５月２８日に出願され、第６１／４９１，１５７号に記載されている）。したがって、重要なことに、関心の対象である音声オブジェクトの位置を調節しなければならない。

図１に示す実施例では、第２のオーディオ／ビジュアルエンコーダ７０は、入力として、オリジナルの非圧縮ビデオマスター又は第１の３Ｄ符号化コンテンツを受けるが、本発明はそのように限定されず、エンコーダ７０は、入力として任意の他のコンテンツを受けてもよいし、図１に示す適切な構成要素（例えば、アナライザ３０、音声及び視覚プロセッサ２１，２３及びオーサリングツール２２）と協動して、一つ又は複数のフレームに特化した一つ又は複数のサウンドの位置情報を示す情報（音声オブジェクトの形態で又はキューとして）が組み込まれた対応する３Ｄ符号化出力を生成してもよいことを、当業者であれば理解されるであろう。前述のように、この情報は、関心の対象である任意の視覚オブジェクトの位置に関連し又は結びつけられてもよく、あるいは、関心の対象である任意の視覚オブジェクトの位置から完全に独立していてもよい。

本システム及び方法は、ログ２０又はアナライザ３０からの情報を用いて、関心の対象である音声オブジェクトを特定又は生成することにより動的処理を介して効率的に強化された符号化３Ｄコンテンツを提供するための手段を提供する。本発明に対して、以下の特許請求の範囲に規定されるような本発明の範囲から逸脱することなく、多く修正を加えることができる。

Claims

オリジナルの音声要素及び視覚要素を有するコンテンツから３Ｄプレゼンテーションを生成する装置であって、
前記コンテンツは複数のシーンを含み、各々のシーンは、音声特性を有する各々の環境に関連しており、
前記装置は、オーディオプロセッサ、オーサリングツール及びエンコーダを備え、
前記オーディオプロセッサは、前記各々の環境を示す環境パラメータ及び前記音声要素を受け、前記オーディオプロセッサは、前記環境パラメータに基づいて、前記オリジナル音声要素を修正された音声要素に修正するように構成されており、
前記オーサリングツールは、前記修正された音声要素及び前記オリジナルのビデオ要素を受け、対応する符号化係数を生成し、
前記エンコーダは、前記オリジナルビデオ要素及び前記修正された音声要素を受け、前記符号化係数に基づいて符号化コンテンツを生成する、ことを特徴とする装置。
前記３Ｄプレゼンテーションは、劇場音響パラメータを有する劇場において提供され、
前記装置は、前記劇場音響パラメータを保存する音響メモリをさらに備え、
前記オーディオプロセッサは、前記修正された音声要素を生成するため、前記劇場音響パラメータを受けるように構成されている、ことを特徴とする請求項１に記載の装置。
前記劇場音響パラメータを検知するように適応された音響環境センサをさらに備え、
前記音響環境センサにより検知された信号は前記音響メモリに保存される、ことを特徴とする請求項２に記載の装置。
前記エンコーダは、ＶＲデバイスにおけるプレゼンテーションのために、ＶＲ（仮想現実）符号化コンテンツを生成するように構成されており、
前記ビデオ要素は、仮想音響環境特性を有する仮想環境で少なくとも第１の仮想シーンを定義し、
前記オーディオプロセッサは、前記仮想音響環境特性を受けるように、かつ仮想シーンのために構成された音声トラックを定義する係数を生成するように、構成されている、ことを特徴とする請求項１に記載の装置。
前記第１の仮想シーンにおいて定義されたＶＲ環境を分析するように構成された環境アナライザをさらに備え、
前記環境アナライザは、前記音響メモリに保存するための仮想環境音響を生成する、ことを特徴とする請求項４に記載の装置。
前記エンコーダは、受け取ったコンテンツ及びＡＲデバイスにおけるプレゼンテーションのために現在の環境から得られたコンテンツに基づいて、ＡＲ（拡張現実）符号化コンテンツを生成するように構成されており、
前記ビデオ要素は、仮想及び現実のエレメントを有する少なくとも第１のＡＲシーンを定義し、
前記オーディオプロセッサは、仮想及び現実の音声要素並びに前記第１のＡＲシーンの音響特性を受けるように構成されており、
前記オーディオプロセッサは、前記第１のＡＲシーンの音響特性と一致するように構成された音声信号を記述する係数を生成する、ことを特徴とする請求項１に記載の装置。
前記オーディオプロセッサは、前記第１のＡＲシーンに関連する環境信号を含む音声信号を記述する係数を生成する、ことを特徴とする請求項６に記載の装置。
視聴者の現在位置に関連する現実環境を検出する現実環境検出器と、
前記現実環境の音響パラメータを決定するように構成された音響環境検出器と、
をさらに備える、ことを特徴とする請求項６に記載の装置。
前記現実環境検出器はＧＰＳを含む、ことを特徴とする請求項８に記載の装置。
前記現実環境検出器は、
現在位置に関連するイメージを作成するように適応されたカメラと、
前記音響パラメータを決定するために前記イメージを分析するアナライザと、
を含む、ことを特徴とする請求項８に記載の装置。
前記現実環境検出器は、
試験信号を生成するサウンドジェネレータと、
前記サウンド検出器からの反響したサウンドを検出するように構成されたマイクと、
を含み、
前記音響環境検出器は、前記反響したサウンドを分析するように適応されている、ことを特徴とする請求項８に記載の装置。
符号化された３Ｄプレゼンテーションを生成するための方法であって、
いくつかの３Ｄシーンを有するとともに、音声トラック及び視覚トラックを含む３Ｄコンテンツを受けるステップと、
前記３Ｄプレゼンテーションが存在する局所的な環境の音響特性及び前記３Ｄシーンの１つの仮想位置を決定するステップと、
前記音響特性に基づいて修正されたトラックを生成するように前記音声トラックを修正するステップと、
符号化された３Ｄプレゼンテーションを生成するように、前記音声空間パラメータに少なくとも部分的に基づいて符号化係数を用いて前記３Ｄコンテンツを符号化するステップと、
を含み、
前記符号化された３Ｄプレゼンテーションは、視覚要素及び音声要素を含み、音声要素は、前記修正されたサウンドトラックから導出される、ことを特徴とする方法。
前記３Ｄプレゼンテーションは、劇場において提供され、
前記決定するステップは、前記劇場の音響特性を決定することを含む、ことを特徴とする請求項１２に記載の方法。
前記３Ｄプレゼンテーションは、パーソナルＶＲデバイスを用いた視聴者用のＶＲプレゼンテーションであり、
前記決定するステップは、前記３Ｄプレゼンテーションにおいて仮想シーンの仮想音響特性を決定することを含む、ことを特徴とする請求項１２に記載の方法。
前記音声トラックを修正するステップは、付加的なサウンドを前記音声トラックに加えることを含み、
前記付加的なサウンドは、前記仮想シーンに関連する音響環境に関連している、ことを特徴とする請求項１４に記載の方法。
前記３Ｄプレゼンテーションは、パーソナルＡＲデバイスを用いた視聴者用のＡＲプレゼンテーションであり、
前記ＡＲプレゼンテーションは、仮想及び現実シーンエレメントを有するＡＲシーンを含む、ことを特徴とする請求項１２に記載の方法。
前記決定するステップは、前記仮想シーンエレメントの仮想音響特性を決定することを含む、ことを特徴とする請求項１６に記載の方法。
前記決定するステップは、前記現実シーンエレメントの現実の音響特性を決定することを含む、ことを特徴とする請求項１６に記載の方法。
前記音声トラックを修正するステップは、付加的なサウンドを前記音声トラックに加えることを含み、
前記付加的なサウンドは、前記仮想シーンエレメントに関連する音響環境に関連している、ことを特徴とする請求項１６に記載の方法。
前記音声トラックを修正するステップは、前記音声トラックに付加的なサウンドに加えることを含み、
前記付加的なサウンドは、前記現実シーンエレメントに関連する音響環境に関連している、ことを特徴とする請求項１６に記載の方法。