TW201924355A

TW201924355A - 用於高品質體驗的音頻信息的有效傳遞和使用的方法和裝置

Info

Publication number: TW201924355A
Application number: TW107135928A
Authority: TW
Inventors: 安迪恩姆塔薩; 哈拉德福克斯; 貝恩德捷爾漢; 詹恩保羅葛斯帝斯
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2017-10-12
Filing date: 2018-10-12
Publication date: 2019-06-16
Also published as: ZA202002059B; CN117640983A; ES3044408T3; CA3083039C; KR20250029300A; KR102774542B1; US20200245032A1; AU2023274169B2; PT3695306T; EP3695306A1; MX2023009916A; US20250260873A1; MY203373A; US11949957B2; AU2025204993A1; JP2024041909A; MX2023009918A; AR124649A2; TWI701945B; CN117596422A

Abstract

本揭露公開了一種用於虛擬實境、增強實境、混合實境或360度視頻環境的一方法及系統。其接收與要被再現的一音頻和視頻場景相關聯的至少一個視頻串流、及至少一個第一音頻串流，其包括：媒體視頻解碼器、媒體音頻解碼器、及感興趣區域(ROI)處理器，ROI處理器基於至少用戶的當前視口和/或頭部方向和/或移動資料和/或視口後設資料和/或音頻信息消息後設資料，來決定與至少一個ROI相關聯的一音頻信息消息是否將被再現，其中音頻信息消息係獨立於至少一個視頻信號和至少一個音頻信號；以及在決定信息消息要被再現時，導致音頻信息消息的再現。

Description

用於高品質體驗的音頻信息的有效傳遞和使用的方法和裝置

本發明涉及用於高品質體驗的音頻信息的有效傳遞和使用的方法和裝置。

在許多應用中，可聽信息的傳遞可以改善媒體消費期間的用戶體驗。此類信息最相關的應用之一由虛擬實境(Virtual Reality，VR)內容所給出。在一個VR環境中，或類似地在一個增強實境(Augmented Reality，AR)或混合現實(Mixed Reality，MR)或360度視頻環境中，該用戶通常可以使用例如一頭戴式顯示器(Head Mounted Display，HMD)來觀看完整的360度內容並且通過耳機收聽它(或類似地通過揚聲器，包括依賴於其位置的正確渲染)。該用戶通常可以在該VR/AR空間中移動，或者至少改變觀看方向-所謂的視頻「視口(viewport)」。在使用經典的再現系統(寬顯示螢幕)代替HMD的360度視頻環境，可以使用遙控設備來模擬該用戶在該場景中的移動並且類似的原理適用。應當注意，360度內容可以指在該同一時刻包括多於一個觀賞視角(viewing angle)的任何類型的內容，用戶可以從中選擇觀賞視角(例如經由他的頭部方向，或使用一遙控設備)。

與傳統內容消費相比，對於VR，該內容創建者不能再控制該用戶在不同時刻(該當前視口)可視化的內容。在允許或可用的視口中，該用戶可以自由地於每個時刻選擇不同的視口。

VR內容消費的一常見問題是由於錯誤的視口選擇，該用戶將錯過視頻場景中的該重要事件的風險。

現有解決方案

現有解決方案係為：
[1] ISO/IEC 23008-3:2015，信息技術-在異構環境中的高效編碼和媒體傳送--第3部分：3D音頻。
[2] N16950，ISO/IEC DIS 23000-20全向媒體格式研究。
[3] M41184，使用Earcons在360度視頻中進行ROI識別。

ISO/IEC 23000-20全向媒體格式[2]給出了360度內容的一傳送機制。本標準規定了全向圖像的視頻和該相關音頻的編碼、存儲、傳送和渲染的該媒體格式。它提供有關用於音頻和視頻壓縮的該媒體編解碼器的信息，以及用於正確使用360度A/V內容的其他後設資料信息。它還指定了在該傳送通道的約束和要求，例如DASH/MMT上的串流或基於檔案的回播。

該Earcon概念最初是在M41184“使用Earcons進行360度視頻中的ROI識別”[3]中引入的，它提供了一種向該用戶發送該Earcon音頻資料信號的一機制。

然而，一些用戶報告這些系統令人失望的評論。通常，一大量的Earcons導致令人厭煩。當該設計師減少了Earcons的該數量時，一些用戶丟失了重要信息。值得注意的是，每個用戶都有他/她自己的知識和經驗水平，並且更喜歡適合他/她自己的一系統。剛舉一個例子，每個用戶都希望以一較佳音量再現Earcons(例如，獨立於用於其他音頻信號的音量)。對於該系統設計者來說，已經證明難以獲得為該所有可能的用戶提供一良好滿意度的一系統。因此，已經搜尋一種解決方案，俾使幾乎所有用戶的滿意度增加。

此外，已經證明即使對於該設計者來說也難以重新配置該系統。例如，他們在準備該音頻串流(Audio Streams)的新版本和更新該Earcons方面遇到了困難。

此外，一受限制的系統對該功能施加了某些限制，例如無法將該Earcons準確地識別為一個音頻串流。此外，該Earcons必須始終處於活動狀態，並且如果在不需要時播放，則會對該用戶造成煩擾。

此外，該Earcon空間信息不能被例如一個DASH客戶端發信號通知或修改。在系統級別輕鬆存取此信息可以啟用其他功能，以獲得更好的用戶體驗。

此外，在處理各種類型的Earcons(例如，自然聲音、合成聲音、在該DASH客戶端中產生的聲音等)方面沒有靈活性。

所有這些問題導致用戶體驗品質差。因此，最好能有一個更靈活的架構。

為了解決這個問題，感興趣區域(Region Of Interest，ROI)的該概念被引入，並考慮了用於發信號通知該ROI的若干概念。雖然，該ROI通常用於向該用戶指示包含該推薦視口的該區域，但它也可以用於其他目的，例如：指示在該場景中一新角色/對象的存在，指示在該場景中與對象關聯的可訪問性特徵，基本上可以與組成視頻場景的一元素相關聯的任何特徵。例如，可以使用可視信息(例如，「將頭轉向左側」)並覆蓋該當前視口。或者，音頻聲音可以被使用，經由在該ROI的該位置回播音頻聲音，無論是自然聲音還是合成聲音。這些音頻信息稱為「聲圖像(earcons)」。

在本申請的該上下文中，聲圖像(earcon)的該概念將用於表徵用於發信號通知該ROI的音頻信息，但是所提出的該發信號通知和該處理也可以用於具有除發信號通知ROI之外的其他目的之通用音頻信息。這種音頻消息的一個範例由音頻消息所給出，用於傳達該用戶在交互式AR/VR/MR環境中具有的各種選項的信息/指示(例如，「將跳過盒子到左側以進入房間X」)。此外，該VR範例將被使用，但本文檔中描述的該機制適用於任何媒體消費環境。

術語和 定義

在該技術領域中使用以下術語：

音頻元素 ：可以表示為例如音頻對象、音頻通道、基於場景的音頻(高階立體聲-HOA)或所有組合的音頻信號。

感興趣區域 (ROI) ：該用戶在某個時刻感興趣的該視頻內容(或顯示或模擬的該環境)的一個區域。例如，這通常可以是一球體上的一區域，或者是一個2D地圖的一多邊形選擇。該ROI被識別為針對一特定目的一特定區域，定義所考慮一對象的該邊界。

用戶位置信息 ：位置信息(例如，x、y、z坐標)、方向信息(偏航、俯仰、滾動)、移動的方向和速度等。

視口：該用戶當前顯示和查看的該球形視頻的一部分。

視點：該視口的該中心點。

360 度視頻 ( 也稱為沈浸式視頻或球形視頻 ) ：在本文檔的該上下文中表示在同一時刻在一個方向上包含多於一個視圖(即視口)的一視頻內容。例如，可以使用一個全向相機或一組相機來創建這樣的內容。在回播期間，該觀看者可以控制該觀看方向。

自適應集合 ( adaptation sets ) 包含一媒體串流或媒體串流集合。在該最簡單的情況下，一個自適應集合包含該內容的所有音頻和視頻，但為了減少頻帶寬，每個串流可以分成到一不同的自適應集合。一種常見的情況是擁有一個視頻自適應集合和多個音頻自適應集合(每一個針對每種支持語言)。自適應集合還可以包含字幕或任意後設資料。

表示 ( representations ) 允許一自適應集合包含以不同方式編碼的該相同內容。在大多數情況下，表示將以多個位元率提供。這允許客戶端請求他們可以播放的該最高品質的內容，而無需等待緩衝。表示也可以使用不同的編解碼器進行編碼，從而允許支持具有支持不同的編解碼器的客戶端。

媒體陳述說明 (Media Presentation Description ， MPD) 是一種XML語法，包含有關媒體片段、它們之間的關係以及在它們之間進行選擇所需的信息。

在本申請的該上下文中，該自適應集合的該概念被使用得更一般，有時實際上係指該表示。而且，該媒體串流(音頻/視頻串流)通常首先被封裝到媒體區段中，媒體區段是該客戶端(例如，DASH客戶端)播放的該實際媒體檔案。各種格式可被用於該媒體區段，例如ISO基本媒體檔案格式(ISO Base Media File Format，ISOBMFF)，其類似於MPEG-4封裝格式，以及MPEG-TS。媒體區段的封裝和不同表示/自適應集合係獨立於此處描述的該方法，該等方法適用於所有各種選項。

附加地，本文中方法的描述可能以一個DASH伺服器-客戶端通信為中心，但這些方法通用性足以與其他傳送環境一起使用，例如MMT、MPEG-2傳輸串流、DASH-ROUTE、用於檔案播放的檔案格式等。

根據範例，提供了一種用於一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境的系統，其被配置為：
接收與要被再現的一音頻和視頻場景相關聯的至少一個視頻串流；以及
接收與要被再現的該音頻和視頻場景相關聯的至少一個第一音頻串流，
其中，該系統包括：
至少一個媒體視頻解碼器，被配置為解碼來自該至少一個視頻串流的至少一個視頻信號，用於向一用戶表示該音頻和視頻場景；以及
至少一個媒體音頻解碼器，被配置為解碼來自該至少一個第一音頻串流的至少一個音頻信號，用於向該用戶表示該示音頻和視頻場景；
一感興趣區域(Region Of Interest，ROI)處理器，被配置為：
基於至少該用戶的當前視口和/或頭部方向和/或移動資料和/或視口後設資料和/或音頻信息消息後設資料，來決定與該至少一個ROI相關聯的一音頻信息消息是否將被再現，其中該音頻信息消息係獨立於該至少一個視頻信號和該至少一個音頻信號；以及
在決定該信息消息要被再現時，導致該音頻信息消息的該再現。

根據範例，提供了一種用於一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境的系統，其被配置為：
接收至少一個視頻串流；以及
接收至少一個第一音頻串流，
其中，該系統包括：
至少一個媒體視頻解碼器，被配置為解碼來自該至少一個視頻串流的至少一個視頻信號，用於向一用戶表示一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境場景；以及
至少一個媒體音頻解碼器，被配置為解碼來自該至少一個第一音頻串流的至少一個音頻信號，用於向該用戶表示一音頻場景；
一感興趣區域(Region Of Interest，ROI)處理器，被配置為：
基於該用戶的當前視口和/或頭部方向和/或移動資料和/或視口後設資料和/或音頻信息消息後設資料，來決定與該至少一個ROI相關聯的一音頻信息消息是否將被再現，其中該音頻信息消息是一個聲圖像(earcon)；以及
在決定該信息消息要被再現時，導致該音頻信息消息的該再現。

該系統可以包括：
一後設資料處理器，被配置為接收和/或處理和/或操縱音頻信息消息後設資料，以便在決定該信息消息要被再現時，根據該音頻信息消息後設資料，導致該音頻信息消息的再現。

該ROI處理器可被配置為：
接收一用戶的當前視口和/或位置和/或頭部方向和/或移動資料和/或其他用戶相關資料；以及
接收與來自該至少一個視頻串流的至少一個視頻信號相關聯的視口後設資料，該視口後設資料定義至少一個ROI；以及
基於該用戶的當前視口和/或位置和/或頭部方向和/或移動資料和該視口後設資料和/或其他標準中的至少一個，決定與該至少一個ROI相關聯的一音頻信息消息是否要再現。

該系統可包含：
一後設資料處理器，被配置為接收和/或處理和/或操縱描述該音頻信息消息的音頻信息消息後設資料和/或描述被編碼在該至少一個音頻串流中的至少一個音頻信號的音頻後設資料和/或該視口後設資料，以便根據該音頻信息消息後設資料和/或描述被編碼在該至少一個音頻串流中的至少一個音頻信號的音頻後設資料和/或該視口後設資料，來導致該音頻信息消息的再現。

該ROI處理器可被配置為：
在該至少一個ROI在該用戶的當前視口和/或位置和/或頭部方向和/或移動資料之外的情況下，除了該至少一個音頻信號的再現之外，導致與該至少一個ROI相關聯的一音頻信息消息的該再現；以及
在該至少一個ROI在該用戶的當前視口和/或位置和/或頭部方向和/或移動資料內的情況下，禁止和/或停用與該至少一個ROI相關聯的該音頻信息消息的該再現。

該系統可被配置為：
接收該至少一個附加音頻串流，其中該至少一個音頻信息消息被編碼，其中該系統還包括：
至少一個多工器或多路復用器，在該後設資料處理器和/或該ROI處理器和/或另一處理器的控制下，將該至少一個附加音頻串流的封包與該至少一個第一音頻串流的封包合併至一個串流中，其係該基於ROI處理器提供的關於該至少一個音頻信息消息要被再現的該決定，除了該音頻場景之外還導致該音頻信息消息的再現。

該系統可被配置為：
接收該至少一個音頻後設資料，其描述被編碼在該至少一個音頻串流中的該至少一個音頻信號；
接收與來自該至少一個音頻串流的至少一個音頻信息消息相關聯的音頻信息消息後設資料；
在決定該信息消息要被再現時，除了該至少一個音頻信號的該再現之外，修改該音頻信息消息後設資料，以致能該音頻信息消息的該再現。

該系統可被配置為：
接收至少一個音頻後設資料，其描述被編碼在該至少一個音頻串流中的該至少一個音頻信號；
接收與來自該至少一個音頻串流的至少一個音頻信息消息相關聯的音頻信息消息後設資料；
在決定該音頻信息消息要被再現時，除了該至少一個音頻信號的該再現外，修改該音頻信息消息後設資料以使得能夠再現與該至少一個ROI相關聯的一個音頻信息消息；以及
修改描述該至少一個音頻信號的該音頻後設資料，以允許該至少一個第一音頻串流和該至少一個附加音頻串流的一合併。

該系統可被配置為：
接收該至少一個音頻後設資料，其描述被編碼在該至少一個音頻串流中的該至少一個音頻信號；
接收與來自至少一個音頻串流的至少一個音頻信息消息相關聯的音頻信息消息後設資料；
在決定該音頻信息消息要被再現時，該音頻信息消息後設資料被提供給一合成音頻生成器以創建一合成音頻串流，以便關聯該音頻信息消息後設資料到該合成音頻串流，並將該合成音頻串流和該音頻信息消息後設資料提供給一多路復用器或多工器，以允許該至少一個音頻串流和該合成音頻串流的一合併。

該系統可被配置為：
從該音頻信息消息被編碼在其中的該至少一個附加音頻串流獲得該音頻信息消息後設資料。

該系統可包含：
一音頻信息消息後設資料生成器，被配置為基於與該至少一個ROI相關聯的音頻信息消息要被再現的該決定，來生成音頻信息消息後設資料。

該系統可包含：
存儲該音頻信息消息後設資料和/或該音頻信息消息串流，以供將來使用。

該系統可包含：
一合成音頻生成器，被配置為基於與該至少一個ROI相關聯的音頻信息消息後設資料，來合成一音頻信息消息。

該後設資料處理器可被配置為控制一多工器或多路復用器，以基於該音頻後設資料和/或該音頻信息消息後設資料，將該音頻信息消息串流的封包與該至少一個第一音頻串流的封包合併至一個串流中，以獲得向該至少一個音頻串流的該音頻信息消息的一添加。

該音頻信息消息後設資料可被編碼在包括以下中的至少一個的一配置幀和/或一資料幀中：
一識別標籤，
唯一標識該音頻信息消息後設資料的該再現的一整數，
該消息的一種樣型，
一個狀態，
來自該場景的依賴/非依賴的一指示，
位置資料，
增益資料，
相關文本標籤的存在的一指示，
可用語言數目，
該音頻信息消息的語言，
資料文本長度，
相關文本標籤的資料文本，和/或
該音頻信息消息的描述。

該後設資料處理器和/或該ROI處理器可被配置為執行以下操作中的至少一個：
從一串流中提取音頻信息消息後設資料；
修改音頻信息消息後設資料，以活化該音頻信息消息和/或設置/改變其位置；
將後設資料嵌入一串流中；
將該串流饋送到一另一個媒體解碼器；
從該至少一個第一音頻串流中提取音頻後設資料；
從一附加串流中提取音頻信息消息後設資料；
修改音頻信息消息後設資料，以活化該音頻信息消息和/或設置/改變其位置；
修改該至少一個第一音頻串流的音頻後設資料，以便考慮該音頻信息消息的該存在並允許合併；
根據從該ROI處理器接收的該信息，將一串流饋送到該多路復用器或多工器以對它們進行多路復用或多工。

該ROI處理器可被配置為對該音頻信息消息被編碼在其中的一附加音頻串流和/或音頻信息消息後設資料，以執行一局部搜尋，並且在未檢索的情況下，請求該附加音頻串流和/或音頻信息消息後設資料到一遠程實體。

該ROI處理器可被配置為對一附加音頻串流和/或一音頻信息消息後設資料執行一局部搜尋，並且在不檢索的情況下，使一合成音頻生成器生成該音頻信息消息串流和/或音頻信息消息後設資料。

該系統可被配置為：
接收該至少一個附加音頻串流，其中包括與該至少一個ROI相關聯的至少一個音頻信息消息；以及
如果該ROI處理器決定與該至少一個ROI相關聯的一音頻信息消息要被再現，則解碼該至少一個附加音頻串流。

該系統可包含：
至少一個第一音頻解碼器，用於解碼來自該至少一個第一音頻串流的至少一個音頻信號；
至少一個附加音頻解碼器，用於解碼來自一附加音頻串流的該至少一個音頻信息消息；以及
至少一個混合器和/或渲染器，用於將來自該至少一個附加音頻串流的該音頻信息消息與來自該至少一個第一音頻串流的該至少一個音頻信號混合和/或疊加。

該系統可被配置為持續追蹤與該音頻信息消息的該再現相關聯的歷史和/或統計資料相關聯的度量，以便如果該度量超一過預定閾值則禁用該音頻信息消息的再現。

該ROI處理器的決定可基於與該ROI的該位置相關的用戶的當前視口和/或位置和/或頭部方向和/或移動資料的一預測。

該系統可被配置為接收該至少一個第一音頻串流，並且在決定該信息消息要被再現時，從一遠端實體請求一音頻消息信息串流。

該系統可被配置為建立是否同時再現兩個音頻信息消息，或者是否相對於一低優先級別音頻信息消息而優先選擇一更高優先級別的音頻信息消息以再現。

該系統可被配置為基於在一音頻串流中的該音頻信息消息的地址和/或位置，以識別被編碼在一個附加音頻串流中的多個音頻信息消息中的一個音頻信息消息。

該音頻串流可被格式化為該MPEG-H 3D音頻串流格式。

該系統可被配置為：
接收關於多個自適應集合的可用性的資料，該可用自適應集合包括用於該至少一個第一音頻串流的至少一個音頻場景自適應集合以及用於該至少一個附加音頻串流的至少一個音頻消息自適應集合，該至少一個附加音頻串流包含至少一個音頻信息消息；
基於該ROI處理器的決定，創建選擇資料，其標識該自適應集合的哪個要被檢索；該可用自適應集合包括至少一個音頻場景自適應集合和/或至少一個音頻消息自適應集合；以及
請求和/或檢索由該選擇資料識別的該自適應集合的該資料，
其中，每個自適應集合對不同位元率的不同編碼進行分組。

該系統可以是這樣的：如果其元素包括一個HTTP上的動態自適應串流(Dynamic Adaptive Streaming over HTTP，DASH)客戶端的至少一個和/或被配置為使用該ISO基本媒體檔案格式、ISO BMFF或MPEG-2傳輸串流、MPEG-2 TS來檢索每個自適應集合的該資料。

該ROI處理器可被配置為檢查該ROI與該當前視口和/或位置和/或頭部方向和/或移動資料之間的對應關係，以便檢查該ROI是否在該當前視口中表示，以及在該ROI在該當前視口和/或位置和/或頭部方向和/或移動資料之外的情況下，以可聽見地方式向該用戶發信號通知該ROI的該存在。

該ROI處理器可被配置為檢查該ROI與該當前視口和/或位置和/或頭部方向和/或移動資料之間的對應關係，以便檢查該ROI是否在該當前視口中表示，以及在該ROI在該當前視口和/或位置和/或頭部方向和/或移動資料之中的情況下，避免向該用戶以可聽地方式發信號通知該ROI的該存在。

該系統可被配置為從一遠程實體接收與該視頻環境場景相關聯的該至少一個視頻串流和與該音頻場景相關聯的該至少一個音頻串流，其中該音頻場景與該視頻環境場景相關聯。

該ROI處理器可被配置為在要被再現的多個音頻信息消息中，選擇在一第二音頻信息消息之前再現一個第一音頻信息消息。

該系統可包括一快取記憶體，用於存儲從一遠程實體接收或合成生成的一音頻信息消息，以在不同的時刻重用該音頻信息消息。

該音頻信息消息可以是一個聲圖像(earcon)。

該至少一個視頻串流和/或該至少一個第一音頻串流分別可以是該當前視頻環境場景和/或視頻音頻場景的一部分，並且獨立於該用戶在該當前視頻環境場景和/或視頻音頻場景中的當前視口和/或頭部方向和/或移動資料。

該系統可被配置為向該音頻串流和/或該視頻環境串流相關聯的一遠程實體分別請求該至少一個第一音頻串流和/或至少一個視頻串流，並且基於該用戶的當前視口和/或頭部方向和/或移動資料的基礎上再現該至少一個音頻信息消息。

該系統可被配置為向該音頻串流和/或該視頻環境串流相關聯的一遠程實體分別請求該至少一個第一音頻串流和/或至少一個視頻串流，並且基於該用戶的當前視口和/或頭部方向和/或移動資料的基礎上向該遠程實體請求該至少一個音頻信息消息。

該系統可被配置為向該音頻串流和/或該視頻環境串流相關聯的一遠程實體分別請求該至少一個第一音頻串流和/或至少一個視頻串流，並且基於該用戶的當前視口和/或頭部方向和/或移動資料的基礎上合成該至少一個音頻信息消息。

該系統可被配置為檢查針對該音頻信息消息的該再現的至少一個附加標準，該標準還包括該用戶的選擇和/或一用戶的設置。

該系統可被配置為檢查針對該音頻信息消息的該再現的至少一個附加標準，該標準還包括該系統的該狀態。

該系統可被配置為檢查針對該音頻信息消息的該再現的至少一個附加標準，該標準還包括已經執行的音頻信息消息再現的該數量。

該系統可被配置為檢查針對該音頻信息消息的該再現的至少一個附加標準，該標準還包括從一遠程實體獲得的一資料串流中的一旗標。

根據一個觀點，其提供了一種系統，包括被配置為上面和/或下面的任何範例的該系統的一客戶端，以及被配置為用於傳送該至少一個視頻串流和該至少一個音頻串流的一伺服器的一遠程實體。

該遠程實體被配置為在一資料庫、內聯網、互聯網和/或地理網路中搜尋該至少一個附加音頻串流和/或音頻信息消息後設資料，並且在檢索的情況，傳送該至少一個附加音頻串流和/或音頻信息消息後設資料。

該遠程實體被配置為合成該至少一個附加音頻串流和/或生成該音頻信息消息後設資料。

根據一個觀點，其可以提供一種用於一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境的方法，包括：
從該至少一個視頻和音頻場景解碼至少一個視頻信號以再現給一用戶；
解碼來自要被再現的視頻和音頻場景的至少一個音頻信號；
基於該用戶的當前視口和/或頭部方向和/或移動資料和/或後設資料，來決定與該至少一個ROI相關聯的一音頻信息消息是否將被再現，其中該音頻信息消息係獨立於該至少一個視頻信號和該至少一個音頻信號；以及
在決定該信息消息要被再現時，導致該音頻信息消息的該再現。

根據一個觀點，其可以提供一種用於一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境的方法，包括：
解碼來自該至少一個視頻串流的至少一個視頻信號，用於向一用戶表示一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境場景；
解碼來自該至少一個第一音頻串流的至少一個音頻信號，用於向該用戶表示一音頻場景；
基於該用戶的當前視口和/或頭部方向和/或移動資料和/或後設資料，來決定與該至少一個ROI相關聯的一音頻信息消息是否將被再現，其中該音頻信息消息係一個聲圖像(earcon)；以及
在決定該信息消息要被再現時，導致該音頻信息消息的該再現。

上面和/或下面的方法可以包括：
接收和/或處理和/或操縱後設資料，以便在決定該信息消息要被再現時，根據該後設資料以該音頻信息消息是該音頻場景的一部分這樣的一方式，導致該音頻信息消息的該再現。

上面和/或下面的方法可以包括：
再現該音頻和該視頻場景；以及
基於該用戶的當前視口和/或頭部方向和/或移動資料和/或後設資料，來決定進一步再現該音頻信息消息。

上面和/或下面的方法可以包括：
再現該音頻和該視頻場景；以及
在該至少一個ROI在該用戶的當前視口和/或位置和/或頭部方向和/或移動資料之外的情況下，除了該至少一個音頻信號的再現之外，導致與該至少一個ROI相關聯的一音頻信息消息的該再現；以及/或
在該至少一個ROI在該用戶的當前視口和/或位置和/或頭部方向和/或移動資料內的情況下，禁止和/或停用與該至少一個ROI相關聯的該音頻信息消息的該再現。

根據範例，其提供了一種用於一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境的系統，其被配置為：
接收至少一個視頻串流；以及
接收至少一個第一音頻串流，
其中，該系統包括：
至少一個媒體視頻解碼器，被配置為解碼來自該至少一個視頻串流的至少一個視頻信號，用於向一用戶表示一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境場景；以及
至少一個媒體音頻解碼器，被配置為解碼來自該至少一個第一音頻串流的至少一個音頻信號，用於向該用戶表示一音頻場景；
一感興趣區域(Region Of Interest，ROI)處理器，被配置為：
基於該用戶的當前視口和/或頭部方向和/或移動資料和/或該後設資料，來決定與該至少一個ROI相關聯的一音頻信息消息是否將被再現；以及
在決定該信息消息要被再現時，導致該音頻信息消息的該再現。

在範例中，其提供了一種用於一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境的系統，其被配置為：
接收至少一個視頻串流；以及
接收至少一個第一音頻串流，
其中，該系統包括：
至少一個媒體視頻解碼器，被配置為解碼來自該至少一個視頻串流的至少一個視頻信號，用於向一用戶表示一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境場景；以及
至少一個媒體音頻解碼器，被配置為解碼來自該至少一個第一音頻串流的至少一個音頻信號，用於向一用戶表示一音頻場景；
一感興趣區域(Region Of Interest，ROI)處理器，被配置為：基於該用戶的當前視口和/或位置和/或頭部方向和/或移動資料和/或後設資料和/或其他標準，來決定與該至少一個ROI相關聯的一音頻信息消息是否將被再現；以及
一後設資料處理器，被配置為接收和/或處理和/或操縱後設資料，以便在決定該信息消息要被再現時，根據該後設資料以該音頻信息消息是該音頻場景的一部分這樣的一方式，導致該音頻信息消息的該再現。

根據一個觀點，其提供了一種不可轉移的存儲單元，包括指令，當由一處理器執行時，使該處理器執行前述及/或下列所述的方法。

本揭露主題的各種目的、特徵、面向和優點將從以下對優選實施例的詳細描述以及附圖中變得更加明顯，附圖中相同的附圖標記表示相同的部件。

所示實施例在附圖中以例子，而非限制的方式顯示，其中相同的參考標號表示相似的元件。

本揭露的較佳實施例係隨後參照附圖描述。

一般例子

圖1係顯示針對一虛擬實境(Virtual Reality，VR)、增強實境(Augmented Reality，AR)、混合實境(Mixed Reality，MR)或360度視頻環境的一系統100的一範例。該系統100可以例如與一內容消費設備(例如，頭戴式顯示器等)相關聯，其係與該用戶的頭部密切相關的球形或半球形顯示器而再現視覺資料。

該系統100可以包括至少一個媒體視頻解碼器102和至少一個媒體音頻解碼器112。該系統100可以接收至少一個視頻串流106，其中一視頻信號被編碼用於一個VR、AR、MR或360度的視頻環境場景118a的該表示給一用戶。該系統100可以接收至少一個第一音頻串流116，其中一音頻信號被編碼用於一音頻場景118b的該表示給一用戶。

該系統100還可以包括一個感興趣區域(Region Of Interest，ROI)處理器120。該ROI處理器120可以處理與一個ROI相關聯的資料。一般而言，可以在視口後設資料131中用信號通知該ROI的存在。該視口後設資料131可以被編碼在該視頻串流106中(在其他範例中，該視口後設資料131可以被編碼在其他串流中)。該視口後設資料131可以包括例如與該ROI相關聯的位置信息(例如，坐標信息)。例如，在範例中，該ROI可以被理解為一矩形(經由諸如該球形視頻中該矩形的該四個頂點之一的該位置和以及該矩形的該邊的該長度的坐標來識別)。該ROI通常投影在該球形視頻中。該ROI通常與可一可見元素相關聯，該可見元素被認為(根據一特定配置)是該用戶感興趣的。例如，該ROI可以與該內容消費設備所顯示的一矩形區域相關聯(或者以某種方式對該用戶可見)。

該ROI處理器120尤其可以控制該媒體音頻解碼器112的操作。

該ROI處理器120可以獲得與該用戶的當前視口和/或位置和/或頭部方向和/或移動相關聯的資料122(在一些範例中，與該虛擬位置相關聯的虛擬資料也可以理解為資料122的一部分)。這些資料122可以至少部分地由例如該內容消費設備或經由定位/檢測單元所提供。

該ROI處理器120可以檢查該ROI與該用戶的當前視口和/或位置(實際或虛擬)和/或頭部方向和/或移動資料122之間的對應關係(在範例中，可以使用其他標準)。例如，該ROI處理器可以檢查該ROI是否在該當前視口中表示。在一個ROI僅在該視口中部分地表示的情況下(例如，基於該用戶的頭部移動)，例如，其可以決定是否在該屏幕中顯示該ROI的一最小百分比。在任何情況下，該ROI處理器120都能夠識別該ROI是否未被表示到該用戶或未可見於該用戶。

在該ROI被認為在該用戶的當前視口和/或位置和/或頭部方向和/或移動資料122之外的情況下，該ROI處理器120可以向該用戶發送聽得見的信號通知該ROI的存在。例如，除了從該至少一個第一音頻串流116解碼的該音頻信號之外，該ROI處理器120還可以請求一音頻信息消息(Earcon)的該再現。

在該ROI被認為在該用戶的當前視口和/或位置和/或頭部方向和/或移動資料122內的情況下，該ROI處理器可以決定避免該音頻信息消息的該再現。

該音頻信息消息可以被編碼在一音頻串流140(音頻信息消息串流)中，該音頻串流140可以是和該音頻串流116相同的串流或不同的串流。該音頻串流140可以由該系統100生成，或者可以從一外部實體(例如，伺服器)獲得。音頻後設資料(諸如音頻信息消息後設資料141)可以被定義，以用於描述該音頻信息串流140的屬性。

該音頻信息消息可以被疊加(或混合或複用或合併或組合或組成)到該音頻串流116中編碼的該信號，或者可以不被選擇，例如，簡單地基於該ROI處理器120的一決定。該ROI處理器120可以基於在該視口和/或位置和/或頭部方向和/或移動資料122、後設資料(諸如該視口後設資料131或其他後設資料)和/或其他標準(例如，選擇、該系統狀態、已經執行的音頻信息消息再現的數量、特定功能和/或操作、可以禁止Earcons的該使用的用戶較佳設置等)來做出其決定。

可以實現一後設資料處理器132。該後設資料處理器132可以插入在例如該ROI處理器120(可以通過其控制)和該媒體音頻解碼器112(可以從該後設資料處理器控制)之間。在範例中，該後設資料處理器是該ROI處理器120的一部分。該後設資料處理器132可以接收、生成、處理和/或操縱該音頻信息消息後設資料141。該後設資料處理器132還可以處理和/或操縱該音頻串流116的後設資料，例如用於將該音頻串流116與該音頻信息消息串流140混合。另外或替代地，該後設資料處理器132可以接收該音頻串流116的後設資料，例如來自一伺服器(例如，一遠程實體)。

因此，該後設資料處理器132可以改變該音頻場景再現並使該音頻信息消息適應特定情況和/或選擇和/或狀態。

這裡討論了一些實現的一些優點。

可以例如使用該音頻信息消息後設資料141準確地識別該音頻信息消息。

可以例如經由修改該後設資料(例如，經由該後設資料處理器132)來容易地活化/停用該音頻信息消息。例如，可以基於該當前視口和該ROI信息(以及要實現的特殊功能或效果)來啟用/禁用該音頻信息消息。

音頻信息消息(包含例如狀態、類型、空間信息等)可以由諸如一個HTTP上的動態自適應串流(Dynamic Adaptive Streaming over HTTP，DASH)客戶端之類的公共設備，其容易地被用信號通知和修改。

因此，在該系統級別輕鬆存取該音頻信息消息(包含例如狀態、類型、空間信息等)可以啟用附加功能以獲得更好的用戶體驗。因此，該系統100可以容易地客製化並且允許可以由獨立於該系統100的該設計者的人員執行的進一步實現(例如，特定應用)。

此外，在解決音頻信息消息的各種類型(例如，自然聲音、合成聲音、在該DASH客戶端中產生的聲音等)中實現了靈活性。

其他優點(其經由以下範例也將顯而易見)：
• 在後設資料中使用文本標籤(作為顯示內容或生成該Earcon的基礎)
• 根據該設備調整該Earcon位置(如果是一個HMD，我想要一個準確的位置，如果是揚聲器，可能更好的方法是使用不同的位置-直接進入一個揚聲器)。
• 不同的設備類別：
o 可以創建該Earcon後設資料，使該Earcon信號通知為活動狀態
o 某些設備只知道如何解析該後設資料並重現該Earcon
o 附加有一更好ROI處理器的一些新設備可以決定在不需要的情況下停用它
• 有關該自適應集合的更多信息和附加圖示。

因此，在一VR/AR環境中，該用戶通常可以使用例如一頭戴式顯示器(HMD)來看見完整的360度內容並通過耳機收聽它。該用戶通常可以在該VRJAR空間中移動或者至少改變觀看方向-該所謂之視頻的「視口」。與傳統內容消費相比，對於VR，該內容創建者無法再控制該用戶在不同時刻(該當前視口)可視化的內容。在允許或可用的視口中，該用戶可以自由地於每個時刻選擇不同的視口。為了向該用戶指示該感興趣區域(ROI)，可以使用可聽見的聲音經由在該ROI的位置處回播聲音，無論是自然聲音還是合成聲音。這些音頻消息稱為「Earcons」。本揭露提出了一種用於有效傳遞這種消息的解決方案，並提出了一種優化的接收器行為，針對用於利用該Earcons而不影響該用戶體驗和該內容消費。這導致一提高的體驗品質。這可以經由在系統級別使用專用後設資料和後設資料操作機制來實現，以在最終場景中啟用或禁用該Earcons。

該後設資料處理器132可以被配置為接收和/或處理和/或操縱後設資料141，以便在決定要再現該信息消息時，根據該後設資料141，導致該音頻信息消息的該再現。音頻信號(例如，用於表示場景的那些音頻信號)可以被理解為音頻場景的一部分(例如，從一遠端伺服器下載的一音頻場景)。音頻信號對於該音頻場景通常在語義上是有意義的，並且一起表示的所有音頻信號構成該音頻場景。音頻信號可以一起被編碼在一個音頻位元串流中。音頻信號可以由該內容創建者所創建和/或可以與該特定場景相關聯和/或可以獨立於該ROI。

音頻信息消息(例如，earcon)可以被理解為對該音頻場景在語義上沒有意義。它可以被理解為可以用人工生成的一獨立聲音，例如錄製的聲音、一個人的錄音機聲音等。它還可以取決於設備(例如，在按下該遙控器上的一按鈕時產生的一系統聲音)。該音頻信息消息(例如，earcon)可以被理解為旨在引導該用戶進入該場景，而不是該場景的一部分。

如上所述，該音頻信息消息可以獨立於該音頻信號。根據不同的範例，它可以包括在該相同的位元串流中、或者在一單獨的位元串流中發送、或者由該系統100生成。

由多個音頻信號組成的一音頻場景的一範例可以是：
-- 音頻場景，包含5個音頻信號的一音樂室：
---音頻信號1：鋼琴的聲音
---音頻信號2：歌手的聲音
---音頻信號3：部分觀眾第一人的聲音
---音頻信號4：部分觀眾第二人的聲音
---音頻信號5：牆上時鐘產生的聲音

該音頻信息消息可以是例如記錄的聲音，像是「看向鋼琴演奏者」(該鋼琴是該ROI)。如果該用戶已經在看該鋼琴演奏者，則不會回播該音頻消息。

另一個例子：在該用戶後面打開一扇門(例如，一扇虛擬門)並且一個新人進入該房間；該用戶未看那裡。可以基於此(關於該VR環境的信息，例如虛擬位置)該Earcon被觸發，以宣告該用戶在他身後發生了什麼。

在範例中，當該用戶改變該環境時，每個場景(例如，具有相關的音頻和視頻串流)從該伺服器發送到該客戶端。

該音頻信息消息可以是靈活的。特別是：
-該音頻信息消息可以位於與要再現的該場景相關聯的該相同音頻串流中；
-該音頻信息消息可以位於一附加音頻串流中；
-該音頻信息消息可以完全丟失，但是只有描述該earcon的該後設資料可以存在於該串流中，並且音頻信息消息可以在該系統中生成；
-可以完全丟失該音頻信息消息以及描述該音頻信息消息的該後設資料，在這種情況下，該系統基於關於該串流中的該ROI的其他信息生成(該earcon和該後設資料)。

該音頻信息消息通常獨立於該音頻場景的任何音頻信號部分，並且不用於該音頻場景的表示。

下面提供體現的系統或包括體現系統100的部分之範例。

圖 2 的範例

圖2係顯示一系統200(其可以包含體現系統100的至少一部分)，其在此被表示為被細分為一伺服器側202、一媒體傳送側203、一客戶端側204和/或一媒體消費設備側206。該側202、203、204和206中的每一個是一系統本身，並且可以與任何其他系統組合以獲得另一系統。這裡，該音頻信息消息被稱為Earcons，即使可以將它們泛化為任何類型的音頻信息消息。

該客戶端側204可以經由一媒體傳送側203從該伺服器側202接收至少一個視頻串流106和/或至少一個音頻串流116。

例如，該傳送側203可以是基於諸如一雲端系統、一網路系統、一地理通信網路的一通信系統或眾所周知的媒體傳輸格式(MPEG-2 TS傳輸串流、DASH、MMT、DASH ROUTE等)甚至是一基於檔案的存儲。該傳送側203可以能夠以電氣信號的形式(例如，在電纜、無線等上)和/或經由分配資料封包(例如，根據一特定通信協議)與音頻和視頻信號編碼於其中的位元串流來執行通信。然而，該傳遞側203可以通過一點對點鏈路、一串行或併行連接等來實現。該傳送側203可以例如根據諸如WiFi、藍牙等協議來執行一無線連接。

該客戶端204可以與一媒體消費設備(例如，一個HND)相關聯，該用戶的頭部可以插入其中(然而，可以使用其他設備)。因此，該用戶可以基於由該伺服器側202提供的視頻和音頻資料，來體驗由該客戶端204準備的一視頻和音頻場景(例如，一個VR場景)。然而，其他實現也是可能的。

該伺服器側202在這裡表示為具有一媒體編碼器240(可以覆蓋視頻編碼器、音頻編碼器、字幕編碼器等)。該編碼器240可以例如與要表示的一音頻和視頻場景相關聯。該音頻場景可以是，例如，用於重建一環境並且與至少一個音頻和視頻資料串流106、116相關聯，其可以基於該用戶在VR、AR、MR環境中可達到的位置(或虛擬位置)來編碼。一般而言，該視頻串流106對球形圖像進行編碼，該用戶將根據其位置和移動僅看到其一部分(視口)。該音頻串流116包含音頻資料，該音頻資料參與該音頻場景表示並且意味著被一用戶聽到。根據範例，該音頻串流116可以包括音頻後設資料236(其指的是打算參與該音頻場景表示的該至少一個音頻信號)和/或Earcon後設資料141(其可以描述僅在一些情況下被再現的Earcons)。

該系統100在此表示為位於該客戶端204。為簡單起見，該媒體視頻解碼器112未在圖2中表示。

為了準備該Earcon(或其他音頻信息消息)的該再現，可以使用Earcon後設資料141。該Earcon後設資料141可以被理解為後設資料(其可以被編碼在一音頻串流中)，其描述和提供與該Earcon相關聯的屬性。因此，該Earcon(如果要被再現)可以基於該Earcon後設資料141的該屬性。

有利地，該後設資料處理器132可以被具體實現為用於處理該Earcon後設資料141。例如，該後設資料處理器132可以控制該Earcon後設資料141的該接收、處理、操縱和/或生成。在處理時，該Earcon後設資料可以被表示為修改的Earcon後設資料234。例如，可以操縱該Earcon後設資料以獲得一特定效果，和/或用於執行音頻處理操作，例如多路復用或多工使用，用於添加該Earcon到要在該音頻場景中表示的該音頻信號。

該後設資料處理器132可以控制與該至少一個串流116相關聯的該音頻後設資料236的該接收、處理和操縱。當處理時，該音頻後設資料236可以被表示為修改的音頻後設資料238。

該修改的後設資料234和238可以被提供給該媒體音頻解碼器112(或者在一些範例中為多個解碼器)，用於向該用戶再現該音頻場景118b。

在範例中，可以提供一合成音頻生成器和/或存儲設備246作為一可選組件。該生成器可以合成一音頻串流(例如，用於生成一Earcon，其未被編碼在一串流中)。該存儲設備允許存儲(例如，在一快取記憶體中)由該生成器生成和/或在一接收的音頻串流中獲得的Earcon串流(例如，供將來使用)。

因此，該ROI處理器120可以基於該用戶的當前視口和/或位置和/或頭部方向和/或移動資料122來決定一Earcon的該表示。然而，該ROI處理器120還可以基於涉及其他方面的觀點的標準來決定。

例如，該ROI處理器可以基於其他條件而啟用/禁用該Earcon再現，例如，用戶的選擇或更高級別的選擇，例如，基於要被消費的該特定應用。例如，對於一視頻遊戲應用，對於高視頻遊戲級別的Earcons或其他音頻信息消息可以被避免。這可以經由該後設資料處理器通過禁用該Earcon後設資料中的該Earcons來簡單地獲得。

此外，其係可以基於該系統的該狀態而禁用該Earcons：例如，如果已經再現了該Earcon，則可以禁止其重複。例如，可以使用一計時器以避免過快的重複。

該ROI處理器120還可以請求Earcons一序列(例如，與該場景中的所有該ROI相關聯的該Earcons)的該受控再現，例如，用於指示該用戶他/她可能看到的元素。該後設資料處理器132可以控制該操作。

該ROI處理器120還可以修改該Earcon位置(即，該場景中的該空間位置)或該Earcon類型。例如，一些用戶可能更喜歡將Earcon一個特定聲音回播在該ROI的確切位置/地點，而其他用戶可能更喜歡讓Earcon始終在一個固定位置(例如，中心或頂部位置「上帝的聲音（voice of God）」等)回播，作為一聲音指示該ROI所在的該位置。

可以修改該Earcon的再現的該增益(例如，以獲得一不同的音量)。例如，該決定可以遵循一用戶的選擇。值得注意的是，基於該ROI處理器的決定，該後設資料處理器132將在與該Earcon相關聯的該Earcon後設資料中，通過修改與該增益相關聯的該特定屬性來執行該增益修改。

該VR、AR、MR環境的該原始設計者也可能不知道該Earcons將如何被實際再現。例如，用戶的選擇可以修改該Earcons的該最終渲染。例如，可以通過該後設資料處理器132來控制這樣的操作，該後設資料處理器132可以基於該ROI處理器的決定來修改該Earcon後設資料141。

因此，對與該Earcon相關聯的該音頻數據執行的該操作因此原則上獨立於該至少一個音頻串流116，該至少一個音頻串流116用於表示音頻場景的並且可以被不同地管理。甚至可以獨立於構成該音頻和視頻場景的該音頻和視頻串流106和116而生成該Earcons，並且可以由不同且獨立的創業團體產生。

因此，這些範例允許增加用戶的該滿意度。例如，一個用戶可以執行他/她自己的選擇，例如經由修改該音頻信息消息的該音量、經由禁用該音頻信息消息等。因此，每個用戶可能具有更適合他/她的偏好的該體驗。此外，該獲得的架構係更靈活。該音頻信息消息可以容易地被更新，例如，經由獨立於該音頻串流修改該後設資料，和/或經由獨立於該後設資料和該主音頻串流修改該音頻信息消息串流。

該所獲得的體系結構還與舊式系統（legacy system）兼容：例如，舊式音頻信息消息串流可以與新的音頻信息消息後設資料相關聯。在缺少一合適的音頻信息消息串流的情況下，在範例中後者可以容易地被合成(並且例如，被存儲以供後續使用)。

該ROI處理器可以持續追蹤與該音頻信息消息的該再現相關聯的歷史和/或統計資料相關聯的度量，以便如果該度量超一過預定閾值則禁用該音頻信息消息的再現(這可以被用作標準)。

作為一標準，該ROI處理器的決定可以基於與該ROI的該位置相關的用戶的當前視口和/或位置和/或頭部方向和/或移動資料122的一預測。

該ROI處理器還可以被配置為接收該至少一個第一音頻串流116，並且在決定該信息消息要被再現時，從一遠端實體請求一音頻消息信息串流。

該ROI處理器和/或後設資料生成器還可以被配置為建立是否同時再現兩個音頻信息消息，或者是否相對於一低優先級別音頻信息消息而優先選擇一更高優先級別的音頻信息消息以再現。為了執行該決定，音頻信息後設資料可以被使用。例如，一優先級別可以由該後設資料處理器132基於該音頻信息消息後設資料中的該值而被獲得。

在一些範例中，該媒體編碼器240可以被配置為在一資料庫、內聯網、互聯網和/或地理網路中搜尋一附加音頻串流和/或音頻信息消息後設資料，並且在檢索的情況下，傳送該附加音頻串流和/或音頻信息消息後設資料。例如，該搜尋可以根據該客戶端的該請求而被執行。

如上所述，這裡提出了一種解決方案，用於將Earcon消息與音頻內容一起有效地傳送。一優化的接收器行為係被獲得，其針對用於利用該音頻信息消息(例如，Earcons)而不影響該用戶體驗和該內容消費。這將導致一提高的體驗品質。

這可以經由在系統級別使用專用後設資料和後設資料操作機制來實現，以在該最終音頻場景中啟用或禁用該音頻信息消息。該後設資料可以與任何音頻編解碼器和補充一起以良好的方式與該下一代音頻編解碼器後設資料(例如，MPEG-H音頻後設資料)一起被使用。

傳送機制可以是各式各樣的(例如，經由DASH/HLS串流傳輸、經由DASH-ROUTE/MMT/MPEG-2 TS廣播、檔案回播等)。在此應用中，DASH傳送係被考慮，但所有概念都適用於其他傳送選項。

在大多數情況下，該音頻信息消息在時域中不會重疊，即，在一特定時間點，僅一個ROI被定義。但是，考慮到更高級的使用案例，例如在該用戶可以基於其選擇/移動來改變該內容的一交互式環境中，也可能存在需要多個ROI的使用案例。為此目的，在一個時刻可能需要多於一個的音頻信息消息。因此，一個通用解決方案描述了用於支持所有不同的使用案例。

該音頻信息消息的該傳送和處理應該補充下一代音頻的該現有傳送方法。

傳送在時域上獨立的多個ROI的多個音頻信息消息的一種方式，其係將所有音頻信息消息混合到一個音頻元素(例如，音頻對象)中，其具有描述每個音頻信息消息在不同時間的該空間位置的相關後設資料。由於該音頻信息消息不會在時間上重疊，因此可以在該一個共享的音頻元素中獨立地定址它們。該音頻元素可以在該音頻信息消息之間包含靜音(或沒有音頻資料)，亦即，每當沒有音頻信息消息時。在這種情況下，該以下機制可能適用：
• 該公共音頻信息消息音頻元素可以在與其相關的該音頻場景的該相同基本串流(Elementary Stream，ES)中傳送，或者可以在一個輔助串流中傳送(依賴於或不依賴於該主串流)。
•如果該Earconu音頻元素在依賴於該主串流的一輔助串流中傳送，則只要在該視覺場景中存在一新的ROI，該客戶端就可以請求該額外的串流。
• 在範例中，該客戶端(例如，該系統100)可以在需要該Earcon的該場景之前請求該串流。
• 在範例中，該客戶端可以基於該當前視口請求該串流，亦即，如果該當前視口與該ROI匹配，則該客戶端可以決定不請求該額外的Earcon串流。
• 如果該Earcon元素可以在獨立於該主串流的一輔助串流中傳送，則只要該視覺場景中存在一新的ROI，該客戶端就可以像以前一樣請求該額外串流。另外，可以使用兩個媒體解碼器和一共同的渲染/混合步驟來處理該兩個(或更多個)串流，以將該解碼的Earcon音頻資料混合到該最終的音頻場景中。或者，一後設資料處理器可被使用俾修改該兩個串流的該後設資料，以及一個「串流合併器」(Stream Merger)用於合併該兩個串流。以下描述了這種後設資料處理器和串流合併器的一可能實現。

在替代範例中，多個ROI的多個在時域中獨立或在時域中重疊的Earcons可以在多個音頻元素(例如，音頻對象)中被傳送，並且與該主音頻場景一起被嵌入在一個基本串流(ES)中或者被嵌入在多個輔助串流中，例如，在一個基本串流(ES)中的每一個Earcon、或基於一個共享屬性的在一個基本串流(ES)中一組Earcons(例如，位於該左側的所有Earcons共享一個串流)。
•如果所有Earcon音頻元素都在依賴於該主串流的幾個輔助串流中被傳送(例如，每個串流一個Earcon或每個串流的一組Earcons)，在範例中，則該客戶端可以請求一個額外的串流，其中包含所需的Earcon，只要在該視覺場景中存在與那個Earcon相關的該ROI。
• 在範例中，該客戶端可以在需要那個Earcon的該場景之前請求具有該Earcon的該串流(例如，基於該用戶的該移動，該ROI處理器120可以執行該決定，即使該ROI不是該場景的其中一部分)。
• 在範例中，該客戶端可以基於該當前視口請求該串流，如果該當前視口與該ROI匹配，則該客戶端可以決定不請求該額外的Earcon串流。
• 如果一個Earcon音頻元素(或一組Earcons)在獨立於該主串流的一輔助串流中被傳送，在範例中，則該客戶端可以像以前一樣，每當在該視覺場景中出現一新的ROI時請求該額外的串流。另外，可以使用兩個媒體解碼器和一共同的渲染/混合步驟來處理該兩個(或更多個)串流，以將該解碼的Earcon音頻資料混合到該最終的音頻場景中。或者，一後設資料處理器可被使用俾修改該兩個串流的該後設資料，以及一個「串流合併器」(Stream Merger)用於合併該兩個串流。以下描述了這種後設資料處理器和串流合併器的一可能實現。

或者，一個公共(通用)Earcon可以被用於在一個音頻場景中發信號通知所有的該ROI。這可以經由使用該相同音頻內容來實現，該相同音頻內容在不同的時間具有與該音頻內容相關聯的不同空間信息。在這種情況下，該ROI處理器120可以請求該後設資料處理器132收集與在該場景中的該ROI相關聯的該Earcons，並且依序控制該Earcons的該再現(例如，在一用戶的選擇或在一更高層的應用中)。

或者，一個Earcon只能被傳輸一次並被緩存在該客戶端中。該客戶端可以將其重新用於在一個音頻場景中的所有ROI，其在不同時刻具有與該音頻內容相關聯的不同空間信息。

或者，該Earcon音頻內容可以在該客戶端中被合成生成。與此同時，一後設資料生成器可被用於創建用於發信號通知該Earcon的該空間信息的該必要後設資料。例如，該Earcon音頻內容可以被壓縮並將其與該主要音頻內容和該新後設資料一起被饋送到一個媒體解碼器中、或者可以在該媒體解碼器之後將其混合到該最終的音頻場景中、或者可以使用多個媒體解碼器。

或者，在範例中，該Earcon音頻內容可以在該客戶端中被合成生成(例如，在該後設資料處理器132的該控制下)，而描述該Earcon的該後設資料已經嵌入在該串流中。在編碼器中使用該Earcon類型的特定信號通知，該後設資料可以包含該Earcon的該空間信息，該特定信號通知針對一「解碼器生成的Earcon」，但是沒有針對該Earcon的音頻資料。

或者，該Earcon音頻內容可以在該客戶端中被合成生成，並且一個後設資料生成器可以被用來創建用於發信號通知該Earcon的該空間信息的該必要後設資料。例如，該Earcon音頻內容可以是
• 被壓縮並與該主要音頻內容和該新後設資料一起被送入一個媒體解碼器；
• 或者它可以在該媒體解碼器之後被混合到該最終的音頻場景中；
•或者可以使用多個媒體解碼器。

音頻信息消息的後設資料範例 ( 例如， Earcons)

這裡提供如上所述的音頻信息消息(Earcons)後設資料141的一範例。

一種用於描述該Earcon屬性的結構，並提供了輕鬆調整這些值的可能性：

該表中的每個標識符可被計劃與該Earcon後設資料132的一屬性相關聯。

接著討論語義。

numEarcons - 此欄位指定在該串流中可用的Earcons音頻元素的該數量。

Earcon_isIndependent - 此旗標定義該Earcon音頻元素是否獨立於任何音頻場景。如果Earcon_isIndependent == 1，則該Earcon音頻元素獨立於該音頻場景。如果Earcon_isIndependent == 0，則該Earcon音頻元素是該音頻場景的一部分，並且該Earcon_id應具有與該音頻元素關聯的該mae_groupID相同的該值。

EarconType - 此欄位定義該Earcon的該類型。該下表指定了該允許的值：

EarconActive - 此旗標定義該Earcon是否處於活動狀態。如果EarconActive == 1，則該Earcon音頻元素應被解碼並將其渲染到該音頻場景中。

EarconPosition - 此旗標定義該Earcon是否具有可用的位置信息。如果Earcon_isIndependent == 0，則應使用此位置信息，而不是在該dynamic_object_metadata()或intracoded_object_metadata_efficient()結構中指定的該音頻對像後設資料。

Earcon_azimuth - 該方位角的該絕對值。

Earcon_elevation - 該仰角的該絕對值。

Earcon_radius -該半徑的該絕對值。

EarconHasGain - 此旗標定義該Earcon是否具有不同的增益值。

Earcon_gain - 此欄位定義該Earcon該增益的該絕對值。

EarconHasTextLabel - 此旗標定義該Earcon是否具有一關聯的文本標籤。

Earcon_numLanguages - 此欄位指定該描述文本標籤的可用語言的該數目。

Earcon_Language - 此24位元欄位標識一個Earcon的該描述文本的該語言。它包含ISO 639-2規定的3字符代碼。可以使用ISO 639-2/B和ISO 639-2/T。根據ISO/IEC 8859-1將每個字符編碼為8位元，並按順序插入該24位元欄位。範例：法語有3個字符的代碼“fre”，編碼為：“0110 0110 0111 0010 0110 0101”。

Earcon_TextDataLength - 此欄位定義在該位元串流中描述的該以下群組的該長度。

Earcon_TextData - 此欄位包含一個Earcon的一描述，即經由一高級描述以描述該內容的一字符串。該格式應符合ISO/IEC 10646的UTF-8。

一種用於在系統級別識別該Earcons並將其與現有視口相關聯的結構。以下兩個表提供了兩種實現此類結構的方法，可用於不同的實現：

aligned(8) class EarconSample() extends SphereRegionSample {
for (i = 0; i ＜ num_regions; i++) {
unsigned int(7) reserved;
unsigned int(1) hasEarcon;
if (hasEarcon == 1) {
unsigned int(8) numRegionEarcons;
for (n=0; n＜numRegionEarcons; n++) {
unsigned int(8) Earcon_id;
unsigned int(32) Earcon_track_id;
}
}
}
}

或者：

aligned(8) class EarconSample() extends SphereRegionSample {
for (i = 0; i ＜ num_regions; i++) {
unsigned int(32) Earcon_track_id;
unsigned int(8) Earcon_id;
}
}

語義：

hasEarcon 指定Earcon資料針對一個區域是否可用。

numRegionEarcons 指定針對一個區域可用的Earcons的該數量。

Earcon_id唯一地定義與該球體區域相關聯的一個Earcon元素的一個ID。如果該Earcon是該音頻場景的一部分(即，該Earcon是由一個mae_groupID標識的一組元素的一部分)，則該Earcon_id應具有與該mae_groupID相同的值。該Earcon_id可用於識別音頻檔案/音軌，例如在DASH傳送的情況下，該適應集合(AdaptationSet)具有在該MPD中的EarconComponent@tag元素等於該Earcon_id。

Earcon_track_id - 是一個整數，它在一個展示的該整個生命週期內唯一標識與該球體區域關聯的一個Earcon軌道，亦即，如果該Earcon(s)軌道在同一ISO BMFF檔案中傳遞，則該Earcon_track_id表示相應的該Earcon(s)軌道的track_id。如果該Earcon未在同一ISO BMFF檔案中傳送，則此值應設置為零。

為了便於容易識別MPD級別的該Earcon(s)軌道，可以使用以下屬性/元素EarconComponent @ tag：

MPEG-H音頻的相關MPD元素和屬性的摘要

對於MPEG-H音頻，在範例中，這可以經由使用該MHAS資料封包而被實現：
• 可以定義一個新的MHAS資料封包，用於保存關於Earcons的信息：PACTYP_EARCON攜帶該EarconInfo()結構；
• 一通用MHAS METADATA MHAS資料封包中的一新標識欄位，用於承載EarconInfo()結構。

關於該後設資料，該後設資料處理器132可以具有以下能力中的至少一些：
從一串流中提取音頻信息消息後設資料；
修改音頻信息消息後設資料以活化該音頻信息消息和/或設置/改變其位置和/或寫入/修改以及音頻信息消息文本標籤；
將後設資料嵌入一串流中；
將該串流饋送到一另一個媒體解碼器；
從該至少一個第一音頻串流(116)中提取音頻後設資料；
從一額外串流中提取音頻信息消息後設資料；
修改音頻信息消息後設資料以活化該音頻信息消息和/或設置/改變其位置和/或寫入/修改以及音頻信息消息文本標籤；
修改該至少一個第一音頻串流(116)的音頻後設資料，以便考慮該音頻信息消息的該存在並允許合併；
將一串流饋送到該多路復用器或多工器，以根據從該ROI處理器接收的該信息對它們進行多路復用或多工。

圖 3 的例子

圖3係顯示一系統300，其在該客戶端204處包括一系統302(客戶端系統)，其例如可以體現為該系統100或200。

該系統302可以包括該ROI處理器120、該後設資料處理器132、由多個解碼器112形成的一解碼器群組313。

在該範例中，不同的音頻串流被解碼(每個音頻串流由一個相應的媒體音頻解碼器112解碼)並且隨後被混合在一起和/或一起被渲染，以提供該最終的音頻場景。

這裡將該至少一個音頻串流表示為包括兩個串流116和316(其他範例可以提供單一個串流，如圖2中所示，或者多於兩個串流)。這些是該音頻串流，用於再現該用戶期望體驗的該音頻場景。這裡，參考Earcons，甚至可以將該概念泛化為任何音頻信息消息。

另外，一個Earcon串流140可以由該媒體編碼器240提供。基於該用戶的移動和該視口後設資料131和/或其他標準中所指示的該ROI，該ROI處理器將導致來自該Earcon串流140的一個Earcon的該再現(除了該音頻串流116和316之外，還被指示為額外的音頻串流)。

值得注意的是，該Earcon的該實際表示將基於該Earcon後設資料141以及由該後設資料處理器132所執行的該修改。

在範例中，在必要的情況下，該系統302(客戶端)可以向該媒體編碼器240(伺服器)請求該串流。例如，該ROI處理器可以基於該用戶的移動來決定將很快需要的一特定的Earcon，並且因此可以向該媒體編碼器240請求一適當的Earcon串流140。

可以注意到此範例的該以下觀點：

使用案例：該音頻資料在一個或多個音頻串流116、316(例如，一個主串流和輔助串流)中傳送，而Earcon在一個或多個附加串流140中傳送(依賴於或獨立於該主音頻串流)。

在該客戶端204的一個實現中，該ROI處理器120和該後設資料處理器132被用於有效地處理該Earcon信息。
• 該ROI處理器120可以從該媒體消費設備側206接收關於該當前視口的信息122(用戶方向信息)，以用於內容消費(例如，基於一個HMD)。該ROI處理器還可以接收關於在該後設資料中發信號通知的該ROI信息(視頻視口以OMAF中的發信號通知)。
• 基於該信息，該ROI處理器120可以決定活化在該Earcon音頻串流140中所包含的一個(或多個)Earcons。另外，該ROI處理器120可以決定該Earcons的一不同位置和不同的增益值(例如，用於在該內容被消耗的該當前空間中該Earcon的一更準確地表示)。
• 該ROI處理器120將該信息提供給該後設資料處理器132。
• 該後設資料處理器132可以解析在該Earcon音頻串流中所包含的該後設資料，以及
• 啟用該Earcon(以便允許其再現)。
• 並且，如果該ROI處理器120請求，則相應地修改該Earcon後設資料141中所包含的該空間位置和增益信息。

然後，獨立地對每個音頻串流116、316、140進行解碼和渲染(基於該用戶位置信息)，並且該混合器或渲染器314將所有媒體解碼器的該輸出混合在一起，作為最後一步。一不同的實現只能解碼該壓縮音頻、並將該解碼後的音頻資料和該後設資料提供給一通用共同渲染器，以便最終渲染所有音頻元素(包括該Earcons)。

另外，在一串流環境中，基於該相同的信息，該ROI處理器120可以決定提前請求該Earcon(s)串流140(例如，當該用戶在該ROI啟用前幾秒鐘查看錯誤的方向時)。

圖 4 的例子

圖4係顯示一系統400，其在該客戶端204處包括一系統402(客戶端系統)，其可以體現為例如該系統100或200。這裡，參考Earcons，甚至可以將該概念泛化到任何音頻信息消息。

該系統402可以包括該ROI處理器120、該後設資料處理器132、一串流多路復用器或多工器412。在該多路復用器或多工器412的範例中，經由硬體執行的操作的該數量係有利地減少，其相對於當使用多個解碼器和一個混合器或渲染器時所要執行的操作的該數量。

在該範例中，基於其後設資料和在元素412處的多路複用或多工器，不同的音頻串流被處理。

這裡該至少一個音頻串流被表示為包括兩個串流116和316(其他範例可以提供單一個串流，如圖2中所示，或者多於兩個串流)。這些是該音頻串流，用於再現該用戶期望體驗的該音頻場景。

另外，一個Earcon串流140可以由該媒體編碼器240提供。基於該用戶的移動和該視口後設資料131和/或其他標準中所指示的該ROI，該ROI處理器120將導致來自該Earcon串流140的一個Earcon的該再現(除了該音頻串流116和316之外，還被指示為額外的音頻串流)。

每個音頻串流116、316、140可以分別包括後設資料236、416、141。這些後設資料中的至少一些可以被操縱和/或處理，以將其提供給串流多工器或多路復用器412，其中該等音頻串流的該封包被合併在一起。因此，該Earcon可以被表示為該音頻場景的一部分。

因此，該串流多工器或多路復用器412可以提供一音頻串流414，其包括修改的音頻後設資料238和修改的Earcon後設資料234，其可以被提供給一音頻解碼器112並被解碼和再現給該用戶。

可以注意到此範例的該以下觀點：

使用案例：該音頻資料在一個或多個音頻串流116、316中被傳送(例如，一個主串流116和一輔助串流316，但一個單獨的音頻串流也可以被提供)，而該Earcon是在一個或多個附加串流140中被傳送(依賴於或獨立於該主音頻串流116)。

在該客戶端204的一個實現中，該ROI處理器120和該後設資料處理器132被用於有效地處理該Earcon信息。
• 該ROI處理器120可以從該媒體消費設備接收關於該當前視口的信息(用戶方向信息)，以用於內容消費(例如，一個HMD)。該ROI處理器還可以接收關於在該Earcon後設資料141中發信號通知的該ROI信息(視頻視口以全向媒體應用格式(Omnidirectional Media Application Format，OMAF)中的發信號通知)。
• 基於該信息，該ROI處理器120可以決定活化在該額外的音頻串流140中所包含的一個(或多個)Earcons。另外，該ROI處理器120可以決定該Earcons的一不同位置和不同的增益值(例如，用於在該內容被消耗的該當前空間中該Earcon的一更準確地表示)。
• 該ROI處理器120可將該信息提供給該後設資料處理器132。
• 該後設資料處理器132可以解析在該Earcon音頻串流中所包含的該後設資料，以及
• 啟用該Earcon。
• 並且，如果該ROI處理器120請求，則相應地修改在該Earcon後設資料中所包含的該空間位置和/或增益信息和/或文本標籤。
• 該後設資料處理器132還可以解析所有音頻串流116、316的該音頻後設資料236、416，並且以使得該Earcon可以被用作該音頻場景的一部分的一種方式操縱該音頻特定信息(例如，如果該音頻場景有一個5.1聲道床和4個對象，該Earcon音頻元素作為該第五個對象被添加到該場景中。所有後設資料欄位都相應地更新)。
• 然後每個串流116、316的該音頻資料和該修改的音頻後設資料和該Earcon後設資料被提供給一個串流多工器或多路復用器，其可以基於此生成一個具有一組後設資料的一音頻串流414(被修改的音頻後設資料238並且被修改的Earcon後設資料234)。
• 該串流414可以由一單個媒體音頻解碼器112基於該用戶位置信息122來解碼。

圖 5 的範例

圖5係顯示一系統500，其在該客戶端204處包括一系統502(客戶端系統)，其可以體現為例如該系統100或200。這裡，參考Earcons，甚至可以將該概念泛化到任何音頻信息消息。

該系統502可以包括該ROI處理器120、該後設資料處理器132、一串流多路復用器或多工器412。

在該範例中，一遠程實體(在該客戶端側)不提供一個Earcon串流，但是由該合成音頻生成器236生成(其還可以具有存儲一串流的該能力，用於隨後的重新使用，或者使用一存儲的壓縮/未壓縮版本的一自然聲音)。儘管如此，該Earcon後設資料141由該遠程實體提供，例如，在一音頻串流316(其不是一個Earcon串流)中。因此，該合成音頻發生器236可以被活化，以基於該Earcon後設資料141的該屬性而創建一音頻串流140。例如，該屬性可以指該合成語音的一個類型(自然聲音、合成聲音、語音文本等)和/或文本標籤(該Earcon可以經由基於該後設資料中的該文本來創建合成聲音而被生成)。在範例中，在創建了該Earcon串流之後，其可以被存儲，以便將來可以重用。或者，該合成聲音可以是永久存儲在該設備中的一通用聲音。

一串流多工器或多路復用器412可以用於將該音頻串流116的封包(並且也在其他串流的情況下，例如該輔助音頻串流316)與由該生成器236生成的該Earcon串流的封包合併。之後，可以獲得與修改的音頻後設資料238和修改的Earcon後設資料234相關聯的一音頻串流414。該音頻串流414可以由該解碼器112解碼並且在該媒體消費設備側206再現給該用戶。

可以注意到此範例的該以下觀點：

使用案例：
• 該音頻資料在一個或多個音頻串流中傳送(例如，一個主串流和一個輔助串流) 。
• 沒有從該遠程設備傳送Earcon，但該Earcon後設資料141作為該主音頻串流的一部分而被傳送(特定信號通知可用於指示該Earcon沒有與之關聯的音頻資料)。

在該客戶端側的一個實現中，該ROI處理器120和元該資料處理器132被用於有效地處理該Earcon信息。
• 該ROI處理器120可以從該設備接收關於該當前視口的信息122(用戶方向信息)，以用於該媒體消費設備側206(例如，一個HMD)。該ROI處理器還可以接收關於在該後設資料中發信號通知的該ROI信息(視頻視口以OMAF中的發信號通知)。
• 基於該信息，該ROI處理器120可以決定活化不在該串流116中的一個(或多個)Earcons。另外，該ROI處理器120可以決定該Earcons的一不同位置和不同的增益值(例如，用於在該內容被消耗的該當前空間中該Earcon的一更準確地表示)。
• 該ROI處理器120可將該信息提供給該後設資料處理器132。
• 該後設資料處理器120可以解析在該音頻串流116中所包含的該後設資料，以及可以
• 啟用該Earcon。
• 並且，如果該ROI處理器120請求，則相應地修改在該Earcon後設資料中所包含的該空間位置和增益信息。

該後設資料處理器132還可以解析所有音頻串流(116、316)的該音頻後設資料(例如236、417)，並且以使得該Earcon可以被用作該音頻場景的一部分的一種方式操縱該音頻特定信息(例如，如果該音頻場景有一個5.1聲道床和4個對象，該Earcon音頻元素作為該第五個對象被添加到該場景中。所有後設資料欄位都相應地更新)。

該修改的Earcon後設資料和來自該ROI處理器120的該信息被提供給該合成音頻生成器246。該合成音頻生成器246可以基於該所接收的信息而創建一合成聲音(例如，基於該Earcon的該空間位置，一語音信號被生成以拼寫該位置)。此外，該Earcon後設資料141與該所生成的音頻資料相關聯到一新的串流414。

類似地，如前所述，每個串流(116、316)的該音頻資料以及該修改的音頻後設資料和Earcon後設資料隨後被提供給一串流多工器，該串流多工器其可以基於此而生成具有一組後設資料(音頻和Earcon)的音頻串流。

該串流414基於該用戶位置信息被一單個媒體音頻解碼器112所解碼。
• 或者或另外，該Earcon的該音頻資料可以在該客戶端兌現(例如，從以前的Earcon用途)。
• 或者，合成音頻生成器246的該輸出可以是未壓縮的音頻，它可以被混合到該最終渲染的場景中。
• 另外，在一串流環境中，基於該相同的信息，該ROI處理器120可以決定提前請求該Earcon(s)串流(例如，當該用戶在該ROI啟用前幾秒鐘查看錯誤的方向時)。

圖 6 的範例

圖6係顯示一系統600，其在該客戶端204處包括一系統602(客戶端系統)，其可以體現為例如該系統100或200。這裡，參考Earcons，甚至可以將該概念泛化到任何音頻信息消息。

該系統602可以包括該ROI處理器120、該後設資料處理器132、一串流多路復用器或多工器412。

在該範例中，一遠程實體(在該客戶端側)不提供一個Earcon串流，但是由該合成音頻生成器236生成(其還可以具有存儲一串流的該能力，用於隨後的重新使用)。

在該範例中，該遠程實體不提供該Earcon後設資料141。該Earcon後設資料由一後設資料生成器432生成，該後設資料生成器432可以生成要由該後設資料處理器132使用(例如，處理、操縱、修改)的Earcon後設資料。由該Earcon後設資料生成器432生成的該Earcon後設資料141可以具有與先前範例所討論的該Earcon後設資料相同的結構和/或格式和/或屬性。

該後設資料處理器132可以如圖5的該範例中那樣操作。基於該Earcon後設資料141的該屬性，一合成音頻生成器246可以被活化，以創建一音頻串流140。例如，該屬性可以指該合成語音的一類型(自然聲音、合成聲音、語音文本等)、和/或該增益、和/或該活化/非活化狀態等等。在範例中，在創建了該Earcon串流140之後，其可被存儲(例如，緩存)，以便將來可以重用。其還可能存儲(例如，緩存)由該Earcon後設資料生成器432生成的該Earcon後設資料。

一串流多工器或多路復用器412可以被用於合併該音頻串流116的封包(並且也在其他串流的情況下，例如該輔助音頻串流316)與由該生成器246生成的該Earcon串流的封包。之後，可以獲得與修改的音頻後設資料238和修改的Earcon後設資料234相關聯的一音頻串流414。該音頻串流414可以由該解碼器112解碼並且在該媒體消費設備側206再現給該用戶。

可以注意到此範例的該以下觀點：

使用案例：
• 該音頻資料在一個或多個音頻串流中傳送(例如，一個主串流116和一個輔助串流316)，
• 沒有Earcon從該客戶端202傳送，
• 沒有Earcon後設資料從該客戶端202傳送，
• 此使用案例可以代表一種解決方案，針對舊式內容而致能Earcons，該舊式內容係在沒有Earcons的情況下被創建，

在該客戶端側的一個實現中，該ROI處理器120和元該資料處理器232被用於有效地處理該Earcon信息。
• 該ROI處理器120可以從該設備接收關於該當前視口的信息122(用戶方向信息)，以用於該媒體消費設備側206(例如，一個HMD)。該ROI處理器還可以接收關於在該後設資料中發信號通知的該ROI信息(視頻視口以OMAF中的發信號通知)。
• 基於該信息，該ROI處理器120可以決定活化不在該串流(116、316)中的一個(或多個)Earcons。
• 另外，該ROI處理器120可以向該Earcon後設資料生成器432提供關於該Earcons的該位置和增益值的信息。
• 該ROI處理器120可以將該信息提供給該後設資料處理器232。
• 該後設資料處理器232可以解析在一Earcon音頻串流(如果存在)中所包含的該後設資料，並且可以：
• 啟用該Earcon。
• 並且，如果該ROI處理器120請求，則相應地修改在該Earcon後設資料中所包含的該空間位置和增益信息。
• 該後設資料處理器還可以解析所有音頻串流116、316的該音頻後設資料236、417，並且以使得該Earcon可以被用作該音頻場景的一部分的一種方式操縱該音頻特定信息(例如，如果該音頻場景有一個5.1聲道床和4個對象，該Earcon音頻元素作為該第五個對象被添加到該場景中。所有後設資料欄位都相應地更新)。
• 該修改的Earcon後設資料234和來自該ROI處理器120的該信息被提供給該合成音頻生成器246。該合成音頻生成器246可以基於該所接收的信息而創建一合成聲音(例如，基於該Earcon的該空間位置，一語音信號被生成以拼寫該位置)。此外，該Earcon後設資料與該所生成的音頻資料相關聯到一新的串流。
• 類似地，如前所述，每個串流的該音頻資料以及該修改的音頻後設資料和Earcon後設資料隨後被提供給一串流多工器或多路復用器412，其可以基於此而生成具有一組後設資料(音頻和Earcon)的音頻串流414。
•該串流414基於該用戶位置信息被一單個媒體音頻解碼器112所解碼。

另外，該Earcon的該音頻資料可以在該客戶端兌現(例如，從以前的Earcon用途)。

或者，合成音頻生成器的該輸出可以是未壓縮的音頻，它可以被混合到該最終渲染的場景中。

另外，在一串流環境中，基於該相同的信息，該ROI處理器120可以決定提前請求該Earcon(s)串流(例如，當該用戶在該ROI啟用前幾秒鐘查看錯誤的方向時)。

基於該用戶的該位置的範例

可以實現僅在一用戶沒有看到該ROI時才允許再現一Earcon的一功能。

該ROI處理器120可以周期性地檢查例如該用戶的當前視口和/或位置和/或頭部方向和/或移動資料122。如果該ROI對該用戶係為可見，則不會導致該Earcon的再現。

如果從該用戶的當前視口和/或位置和/或頭部方向和/或移動資料，該ROI處理器決定該ROI對該用戶係為不可見，則該ROI處理器120可以請求該Earcon的一再現。在這種情況下，該ROI處理器120可以使該後設資料處理器132準備該Earcon的該再現。該後設資料處理器132可以使用針對以上範例所描述的技術之一。例如，該後設資料可以在由該伺服器側202遞送的一串流中被檢索，可以由該Earcon後設資料生成器432生成該後設資料等等。該Earcon後設資料的該屬性可以基於該ROI處理器的請求和/或各種條件容易地被修改。例如，如果一用戶的選擇先前已禁用該Earcon，則即使該用戶未看到該ROI，該Earcon也不會被再現。例如，如果(先前設置的)一計時器尚未到期，則即使該用戶沒有看到該ROI，該Earcon也不會被再現。

另外，如果來自該用戶的當前視口和/或位置和/或頭部方向和/或移動資料，該ROI處理器確定該ROI對該用戶係為可見，則該ROI處理器120可以請求不再進行該Earcon的該再現，特別是如果該Earcon後設資料已包含一有效Earcon的信號通知。

在這種情況下，該ROI處理器120可以使該後設資料處理器132禁用該Earcon的該再現。該後設資料處理器132可以使用針對以上範例描述的該技術之一。例如，該後設資料可以在由該伺服器側202遞送的一串流中被檢索，可以由該Earcon後設資料生成器432生成該後設資料等等。該Earcon後設資料的該屬性可以基於該ROI處理器的請求和/或各種條件容易地被修改。如果該後設資料已經包含應該再現一Earcon的該指示，則在這種情況下該後設資料被修改，以指該示Earcon處於非活動狀態且不應再現。

可以注意到此範例的該以下觀點：

使用案例：
• 該音頻資料在一個或多個音頻串流116、316中被傳送(例如，一個主串流和一輔助串流)，而該Earcon可以在相同的一個或多個音頻串流116、316中或在一個或多個附加串流140中被傳送(依賴於或獨立於該主音頻串流)。
• 該Earcon後設資料被設置為以一種方式使其表示該Earcon在特定時刻始終處於活動狀態。
• 不包括一個ROI處理器的一個第一代設備將讀取該Earcon後設資料並導致該Earcon的再現，而其與該用戶當前視口和/或位置和/或頭部方向和/或移動資料指示該ROI對該用戶係為可見的事實無關。
• 包含任何該系統中描述的一ROI處理器的一個新一代設備將確定使用該ROI處理器。如果來自該用戶的當前視口和/或位置和/或頭部方向和/或移動資料，該ROI處理器決定該ROI對用戶係為可見，則該ROI處理器120可以請求不再進行該Earcon的再現，尤其是如果該Earcon後設資料已包含一有效Earcon的信號通知。在這種情況下，該ROI處理器120可以使該後設資料處理器132禁用該Earcon的該再現。該後設資料處理器132可以使用針對以上範例所描述的技術之一。例如，該後設資料可以在由該伺服器側202遞送的一串流中被檢索，該後設資料可以被該Earcon後設資料生成器432所生成等等。該Earcon後設資料的該屬性可以基於該ROI處理器的請求和/或各種條件而容易地被修改。如果該後設資料已經包含一個Earcon應該再現的該指示，則在這種情況下該後設資料被修改，以指示該Earcon處於非活動狀態並且不應該被再現。
• 此外，根據該回播設備，該ROI處理器可能會決定請求該Earcon後設資料的該修改。例如，如果通過耳機或通過揚聲器再現的該聲音，則該Earcon空間信息可以不同地被修改。

因此，將基於該後設資料處理器執行的該後設資料修改，該用戶體驗的該最終音頻場景將被獲得。

基於伺服器端與客戶端通信的範例 ( 圖 5a)

圖5a係顯示一系統550，其在該客戶端204處包括一系統552(客戶端系統)，其可以體現為例如系統100或200或300或400或500。這裡，參考Earcons，甚至可以將該概念泛化為任何音頻信息消息。

該系統552可以包括該ROI處理器120、該後設資料處理器132、一串流多路復用器或多工器412。(在範例中，不同的音頻串流被解碼(每個被一個相應的媒體音頻解碼器112處理)並且隨後被混合在一起和/或一起被渲染，以提供該最終的音頻場景)。

該至少一個音頻串流在這裡將被表示為包括兩個串流116和316(其他範例可以提供一單個串流，如圖2中所示，或者多於兩個串流)。這些是該音頻串流，用於再現用戶期望體驗的該音頻場景。

另外，一Earcon串流140可以由該媒體編碼器240所提供。

該音頻串流可以以不同的位元率而被編碼，其允許根據該網路連接進行有效的位元率自適應(即，對於使用高速連接的用戶，傳送高位元率編碼版本，而對於具有較低速度網路連接的用戶，傳送較低位元率版本)。

該音頻串流可以被存儲在一媒體伺服器554上，其中對於每個音頻串流，不同位元率的不同編碼被分組在一個自適應集合556中，其中適當的該資料用信號通知所有創建的自適應集合的可用性。音頻自適應集合556和視頻自適應集合557可以被提供。

基於該視口後設資料131和/或其他標準中所指示的該用戶的移動和該ROI，該ROI處理器120將使得來自該Earcon串流140的一個Earcon的該再現(除了該音頻串流116和316之外，還被指示為額外的音頻串流)。

在這個例子中：

該客戶端552被配置為從該伺服器接收關於所有該自適應集合的可用性的資料，該可用的自適應集合包括：
o 針對該至少一個音頻串流的至少一個音頻場景自適應集合；和
o 針對該至少一個附加音頻串流的至少一個音頻消息自適應集合，其包含至少一個音頻信息消息。

與其他範例實現類似，該ROI處理器120可以從該媒體消費設備側206接收關於該當前視口的信息122(用戶方向信息)，以用於內容消費(例如，基於一個HMD)。該ROI處理器還可以接收關於在該後設資料中發信號通知的該ROI信息(視頻視口以OMAF中的發信號通知)。
o 基於該信息，該ROI處理器120可以決定活化在該Earcon音頻串流140中所包含的一個(或多個)Earcons。
o 另外，該ROI處理器120可以決定該Earcons的一不同位置和不同的增益值(例如，用於在該內容被消耗的該當前空間中該Earcon的一更準確地表示)。
o 該ROI處理器120可以將該信息提供給一選擇資料生成器558。

一選擇資料生成器558可以被配置為基於該ROI處理器的決定，創建選擇資料559，其標識該自適應集合的哪個要被接收；該自適應集合包括該音頻場景自適應集合和該音頻消息自適應集合。

該媒體伺服器554可以被配置為向該客戶端552提供指令資料，以使得該串流媒體客戶端檢索由該選擇資料識別的該自適應集合556、557的資料，該選擇資料標識該自適應集合的哪個要被接收；該自適應集合包括該音頻場景自適應集合和該音頻消息自適應集合。

一下載和切換模塊560被配置為基於識別該自適應集合的哪個要被接收的該選擇資料，從媒體伺服器554接收該所請求的音頻串流；該自適應集合包括該音頻場景自適應集合和該音頻消息自適應集合。該下載和切換模塊560可以另外被配置為將該音頻後設資料和該Earcon後設資料141提供給該後設資料處理器132。

該ROI處理器120可以將該信息提供給該後設資料處理器132。

該後設資料處理器132可以解析在該Earcon音頻串流140中所包含的該後設資料，以及
o 啟用該Earcon(以便允許其再現)。
o 並且，如果該ROI處理器120請求，則相應地修改該Earcon後設資料141中所包含的該空間位置和增益信息。

該後設資料處理器132還可以解析所有音頻串流116、316的該音頻後設資料，並且以使得該Earcon可以被用作該音頻場景的一部分的一種方式操縱該音頻特定信息(例如，如果該音頻場景有一個5.1聲道床和4個對象，該Earcon音頻元素作為該第五個對象被添加到該場景中。所有後設資料欄位都相應地更新)。

然後每個串流116、316的該音頻資料和該修改的音頻後設資料和該Earcon後設資料被提供給一個串流多工器或多路復用器，其可以基於此生成一個具有一組後設資料的一音頻串流414(被修改的音頻後設資料238並且被修改的Earcon後設資料234)。

該串流可以由一單個媒體音頻解碼器112基於該用戶位置信息122來解碼。

一自適應集合可以由包含相應內容的可互換版本的一集合表示所形成，例如，不同的音頻位元率(例如，不同位元率的不同串流)。雖然單個表示在理論上足以提供一個可播放的串流，但是多個表示可以使該客戶端能夠使媒體串流適應其當前的網路條件和頻寬要求，從而保證更平順的回播。

方法

以上所有該等範例可以通過方法步驟而被實現。這裡，為了完整性，描述了一方法700(其可以由以上任何範例執行)。該方法可以包括：
在步驟702，接收至少一個視頻串流(106)和至少一個第一音頻串流(116、316)；
在步驟704，解碼來自至少一個視頻串流(106)的至少一個視頻信號，以便向一用戶表示一個VR、AR、MR或360度視頻環境場景(118a)；和
在步驟706，解碼來自至少一個第一音頻串流(116、316)的至少一個音頻信號，用於向一用戶表示一音頻場景(118b)；
接收一用戶的當前視口和/或位置和/或頭部方向和/或移動資料(122)；和
在步驟708，接收與來自該至少一個視頻串流(106)的至少一個視頻信號相關聯的視口後設資料(131)，該視口後設資料定義至少一個ROI；和
在步驟710，基於該用戶的當前視口和/或位置和/或頭部方向和/或移動資料(122)以及該視口後設資料和/或其他標準，決定與該至少一個ROI相關聯的一個音頻信息消息是否被再現；和
在步驟712，接收、處理和/或操縱描述該音頻信息消息的音頻信息消息後設資料(141)，以便根據該音頻信息消息屬性導致該音頻信息消息的該再現，以這種方式，該音頻信息消息是該音頻場景的一部分。

值得注意的是，該序列也可以變化。例如，根據該信息傳遞的該實際順序，該接收步驟702、706、708可以具有不同的順序。

線714指的是可以重複該方法的事實。在ROI處理器決定不再現音頻信息消息的情況下，可以跳過步驟712。

其他實施

圖8係顯示可以實現該系統(或其組件)之一或執行該方法700的一系統800。該系統800可以包括一處理器802和存儲指令的一非暫時性存記憶體單元806，當由該處理器802執行時，可以使該處理器至少執行上面討論的該串流處理操作和/或上面討論的該後設資料處理操作。該系統800可以包括用於與外部設備連接的一輸入/輸出單元804。

該系統800可以實現該ROI處理器120、該後設資料處理器232、該生成器246、該多工器或多路復用器412、該解碼器112m、該Earcon後設資料生成器432等中的至少一些(或全部)功能。

根據某些實現要求，範例可以用硬體實現。可以使用數位存儲媒體來執行該實現，例如一軟盤、一數位通用盤(DVD)、一藍光盤、一光盤(CD)、一僅讀記憶體(ROM)、一可編程僅讀記憶體(PROM)、一可擦除可編程僅讀記憶體(EPROM)、一可電氣擦除可編程僅讀記憶體(EEPROM)或一快閃記憶體，其具有存儲的電子可讀控制信號在其上，它們與一可編程計算機系統協作(或能夠協作)，從而執行相應的方法。因此，數位存儲媒體可以是計算機可讀的。

通常，範例可以實現為具有一程式代碼的一計算機程式產品，當該計算機程式產品在一計算機上運行時，該程式指令可操作用於執行這些方法之一。該程式指令可以例如儲存在機器可讀媒體上。

其他範例包括用於執行存儲在機器可讀媒體上的本文所述方法之一的計算機程式。換句話說，方法的一範例因此是具有一程式代碼的一計算機程式，當該計算機程式在一計算機上運行時，該程式代碼用於執行本文描述的方法之一。

因此，該方法的一另一範例是一資料載體(或數位存儲媒體、或計算機可讀取媒體)，其包括在其上記錄的用於執行本文描述的方法之一的該計算機程式。該資料載體，數位存儲媒體或記錄媒體通常是有形的和/或非過渡的，而不是無形和短暫的信號。

一另一範例包括一處理單元，例如一計算機，或執行本文所述方法之一的一可編程邏輯設備。

一另一範例包括一計算機，其上安裝有用於執行本文所述方法之一的該計算機程式。

一另一範例包括一種裝置或一種系統，其將用於執行本文所述方法之一的計算機程式傳送(例如，電子地或光學地)給一接收器。該接收器可以是例如一計算機、一移動設備、一記憶體設備等。該裝置或系統可以例如包括用於將計算機程式傳送到該接收器的一檔案伺服器。

在一些範例中，一可程式化邏輯器件(例如，一現場可編輯閘陣列)可用於執行本文描述的該方法的一些或全部功能。在一些範例中，一現場可編輯閘陣列可以與一微處理器協作，以便執行本文描述的方法之一。通常，該方法較佳地由任何硬體設備執行。

上述範例是對上述原理的說明。應理解，本領域其他技術人員將理解本文所述的佈置和細節的任何修改和變化。上述實施例僅係為了方便說明而舉例而已，本揭露所主張之權利範圍自應以申請專利範圍該為準，而非僅限於上述實施例。

100‧‧‧系統

102‧‧‧媒體視頻解碼器

112‧‧‧媒體音頻解碼器

132‧‧‧後設資料處理器

120‧‧‧感興趣區域ROI處理器

106‧‧‧視頻串流

118a‧‧‧視頻環境場景

118b‧‧‧音頻場景

131‧‧‧視口後設資料

122‧‧‧資料

122‧‧‧當前視口和/或位置和/或頭部方向和/或移動資料

116‧‧‧音頻串流

140‧‧‧音頻信息消息串流

141‧‧‧音頻信息消息後設資料

200‧‧‧系統

202‧‧‧伺服器側

203‧‧‧媒體傳送側

204‧‧‧客戶端側

206‧‧‧媒體消費設備側

240‧‧‧媒體編碼器

236‧‧‧音頻後設資料

141‧‧‧Earcon後設資料

234‧‧‧修改的Earcon後設資料

236‧‧‧音頻後設資料

238‧‧‧修改的音頻後設資料

246‧‧‧合成音頻生成器和/或存儲設備

116‧‧‧至少一個第一音頻串流

300‧‧‧系統

302‧‧‧系統(客戶端系統)

116、316‧‧‧串流

116、316‧‧‧音頻串流

140‧‧‧附加串流

314‧‧‧混合器或渲染器

400、500、600、550‧‧‧系統

402、502、602、552‧‧‧系統(客戶端系統)

412‧‧‧多路復用器或多工器

414‧‧‧音頻串流

116‧‧‧主串流

316‧‧‧輔助串流

236、416、417‧‧‧音頻後設資料

236、246‧‧‧合成音頻生成器

432‧‧‧後設資料生成器

234‧‧‧修改的Earcon後設資料

238‧‧‧修改的音頻後設資料

232‧‧‧該資料處理器

554‧‧‧媒體伺服器

556‧‧‧音頻自適應集合

557‧‧‧視頻自適應集合

558‧‧‧選擇資料生成器

559‧‧‧選擇資料

560‧‧‧下載和切換模塊

700‧‧‧方法

702、704、706、708、710、712‧‧‧步驟

714‧‧‧線

800‧‧‧系統

802‧‧‧處理器

806‧‧‧非暫時性存記憶體單元

804‧‧‧輸入/輸出單元

112m‧‧‧解碼器

335‧‧‧區塊

335’‧‧‧上下文向量

336‧‧‧區塊

336’‧‧‧協方差矩陣

336’‧‧‧訓練模型

360‧‧‧系統

360a‧‧‧編碼器

361‧‧‧語音輸入

362、363、364、365、366‧‧‧區塊

362’‧‧‧頻率域信號

366’‧‧‧編碼信號

360b‧‧‧該解碼器

367、369a、369b‧‧‧區塊

369‧‧‧後濾波區塊

368‧‧‧對數變換區塊

113”‧‧‧連接

520‧‧‧方法

521‧‧‧第一步驟

522‧‧‧第二步驟

530‧‧‧系統

534‧‧‧非暫時性儲存單元

532‧‧‧處理器

111‧‧‧輸入信號

536‧‧‧輸入/輸出(I/O)端口

542‧‧‧編碼器

540‧‧‧系統

圖1-圖5、圖5a和圖6係顯示實現的範例。

圖7係顯示根據一範例的一方法。

圖8係顯示一實現的一範例。

Claims

一種用於虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境的系統，其被配置為：接收與要被再現的一音頻和視頻場景相關聯的至少一個視頻串流；以及接收與要被再現的該音頻和視頻場景相關聯的至少一個第一音頻串流，其中，該系統包括：至少一個媒體視頻解碼器，被配置為解碼來自該至少一個視頻串流的至少一個視頻信號，用於向一用戶表示該音頻和視頻場景；以及至少一個媒體音頻解碼器，被配置為解碼來自該至少一個第一音頻串流的至少一個音頻信號，用於向該用戶表示該示音頻和視頻場景；一感興趣區域(Region Of Interest，ROI)處理器，被配置為：基於至少該用戶的當前視口和/或頭部方向和/或移動資料和/或視口後設資料和/或音頻信息消息後設資料，來決定與該至少一個ROI相關聯的一音頻信息消息是否將被再現，其中該音頻信息消息係獨立於該至少一個視頻信號和該至少一個音頻信號；以及在決定該信息消息要被再現時，導致該音頻信息消息的該再現。
一種用於虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境的系統，其被配置為：接收至少一個視頻串流；以及接收至少一個第一音頻串流，其中，該系統包括：至少一個媒體視頻解碼器，被配置為解碼來自該至少一個視頻串流的至少一個視頻信號，用於向一用戶表示一虛擬實境、增強實境、混合實境或360度視頻環境場景；以及至少一個媒體音頻解碼器，被配置為解碼來自該至少一個第一音頻串流的至少一個音頻信號，用於向該用戶表示一音頻場景；一感興趣區域(Region Of Interest，ROI)處理器，被配置為：基於該用戶的當前視口和/或頭部方向和/或移動資料和/或視口後設資料和/或音頻信息消息後設資料，來決定與該至少一個ROI相關聯的一音頻信息消息是否將被再現，其中該音頻信息消息是一個聲圖像(earcon)；以及在決定該信息消息要被再現時，導致該音頻信息消息的該再現。
如申請專利範圍第1項或第2項所述之系統，其更包括：一後設資料處理器，被配置為接收和/或處理和/或操縱音頻信息消息後設資料，以便在決定該信息消息要被再現時，根據該音頻信息消息後設資料，導致該音頻信息消息的該再現。
如申請專利範圍第1項或第2項所述之系統，其中，該ROI處理器被配置為：接收一用戶的當前視口和/或位置和/或頭部方向和/或移動資料和/或其他用戶相關資料；以及接收與來自該至少一個視頻串流的至少一個視頻信號相關聯的視口後設資料，該視口後設資料定義至少一個ROI；以及基於該用戶的當前視口和/或位置和/或頭部方向和/或移動資料和該視口後設資料中的至少一個，決定與該至少一個ROI相關聯的一音頻信息消息是否要再現。
如申請專利範圍第1項或第2項所述之系統，其更包含：一後設資料處理器，被配置為接收和/或處理和/或操縱描述該音頻信息消息的音頻信息消息後設資料和/或描述被編碼在該至少一個音頻串流中的該至少一個音頻信號的音頻後設資料和/或該視口後設資料，以便根據該音頻信息消息後設資料(141)和/或描述被編碼在該至少一個音頻串流中的該至少一個音頻信號的音頻後設資料和/或該視口後設資料，來導致該音頻信息消息的再現。
如申請專利範圍第1項或第2項所述之系統，其中，該ROI處理器被配置為：在該至少一個ROI在該用戶的當前視口和/或位置和/或頭部方向和/或移動資料之外的情況下，除了該至少一個音頻信號的再現之外，導致與該至少一個ROI相關聯的一音頻信息消息的該再現；以及在該至少一個ROI在該用戶的當前視口和/或位置和/或頭部方向和/或移動資料內的情況下，禁止和/或停用與該至少一個ROI相關聯的該音頻信息消息的該再現。
如申請專利範圍第1項或第2項所述之系統，其更被配置為：接收該至少一個附加音頻串流，其中該至少一個音頻信息消息被編碼，其中該系統還包括：至少一個多工器或多路復用器，在該後設資料處理器和/或該ROI處理器和/或另一處理器的控制下，合併該至少一個附加音頻串流的封包與該至少一個第一音頻串流的封包至一個串流中，其係該基於ROI處理器提供的關於該至少一個音頻信息消息要被再現的該決定，除了該音頻場景之外還導致該音頻信息消息的再現。
如申請專利範圍第1項或第2項所述之系統，其更被配置為：接收該至少一個音頻後設資料，其描述被編碼在該至少一個音頻串流中的該至少一個音頻信號；接收與來自該至少一個音頻串流的至少一個音頻信息消息相關聯的音頻信息消息後設資料；在決定該信息消息要被再現時，除了該至少一個音頻信號的該再現之外，修改該音頻信息消息後設資料，以致能該音頻信息消息的該再現。
如申請專利範圍第1項或第2項所述之系統，其更被配置為：接收至少一個音頻後設資料，其描述被編碼在該至少一個音頻串流中的該至少一個音頻信號；接收與來自該至少一個音頻串流的至少一個音頻信息消息相關聯的音頻信息消息後設資料；在決定該音頻信息消息要被再現時，除了該至少一個音頻信號的該再現外，修改該音頻信息消息後設資料以使得能夠再現與該至少一個ROI相關聯的一個音頻信息消息；以及修改描述該至少一個音頻信號的該音頻後設資料，以允許該至少一個第一音頻串流和該至少一個附加音頻串流的一合併。
如申請專利範圍第1項或第2項所述之系統，其更被配置為：接收該至少一個音頻後設資料，其描述被編碼在該至少一個音頻串流中的該至少一個音頻信號；接收與來自至少一個音頻串流的至少一個音頻信息消息相關聯的音頻信息消息後設資料；在決定該音頻信息消息要被再現時，該音頻信息消息後設資料被提供給一合成音頻生成器以創建一合成音頻串流，以便關聯該音頻信息消息後設資料到該合成音頻串流，並將該合成音頻串流和該音頻信息消息後設資料提供給一多路復用器或多工器，以允許該至少一個音頻串流和該合成音頻串流的一合併。
如申請專利範圍第1項或第2項所述之系統，其更被配置為從該音頻信息消息被編碼在其中的該至少一個附加音頻串流獲得該音頻信息消息後設資料。
如申請專利範圍第1項或第2項所述之系統，其更包含：一音頻信息消息後設資料生成器，被配置為基於與該至少一個ROI相關聯的該音頻信息消息要被再現的該決定，來生成音頻信息消息後設資料。
如申請專利範圍第1項或第2項所述之系統，其更被配置為存儲該音頻信息消息後設資料和/或該音頻信息消息串流，以供將來使用。
如申請專利範圍第1項或第2項所述之系統，其更包含：一合成音頻生成器，被配置為基於與該至少一個ROI相關聯的音頻信息消息後設資料，來合成一音頻信息消息。
如申請專利範圍第1項或第2項所述之系統，其中，該後設資料處理器被配置為控制一多工器或多路復用器，以基於該音頻後設資料和/或該音頻信息消息後設資料，將該音頻信息消息串流的封包與該至少一個第一音頻串流的封包合併至一個串流中，以獲得向該至少一個音頻串流的該音頻信息消息的一添加。
如申請專利範圍第1項或第2項所述之系統，其中，該音頻信息消息後設資料被編碼在包括以下中的至少一個的一配置幀和/或一資料幀中：一識別標籤，唯一標識該音頻信息消息後設資料的該再現的一整數，該消息的一種樣型，一個狀態，來自該場景的依賴/非依賴的一指示，位置資料，增益資料，相關文本標籤的存在的一指示，可用語言數目，該音頻信息消息的語言，資料文本長度，相關文本標籤的資料文本，和/或該音頻信息消息的描述。
如申請專利範圍第1項或第2項所述之系統，其中，該後設資料處理器和/或該ROI處理器被配置為執行以下操作中的至少一個：從一串流中提取音頻信息消息後設資料；修改音頻信息消息後設資料，以活化該音頻信息消息和/或設置/改變其位置；將後設資料嵌入一串流中；將該串流饋送到一附加媒體解碼器；從該至少一個第一音頻串流中提取音頻後設資料；從一附加串流中提取音頻信息消息後設資料；修改音頻信息消息後設資料，以活化該音頻信息消息和/或設置/改變其位置；修改該至少一個第一音頻串流的音頻後設資料，以便考慮該音頻信息消息的該存在並允許合併；根據從該ROI處理器接收的該信息，將一串流饋送到該多路復用器或多工器以對它們進行多路復用或多工。
如申請專利範圍第1項或第2項所述之系統，其中，該ROI處理器被配置為對該音頻信息消息被編碼在其中的一附加音頻串流和/或音頻信息消息後設資料，以執行一局部搜尋，並且在檢索未果（non-retrieval）的情況下，請求該附加音頻串流和/或音頻信息消息後設資料到一遠程實體。
如申請專利範圍第1項或第2項所述之系統，其中，該ROI處理器被配置為執行對一附加音頻串流和/或一音頻信息消息後設資料的局部搜尋（local search），並且在檢索未果的情況下，使一合成音頻生成器生成該音頻信息消息串流和/或音頻信息消息後設資料。
如申請專利範圍第1項或第2項所述之系統，其更被配置為：接收該至少一個附加音頻串流，其中包括與該至少一個ROI相關聯的至少一個音頻信息消息；以及如果該ROI處理器決定與該至少一個ROI相關聯的一音頻信息消息要被再現，則解碼該至少一個附加音頻串流。
如申請專利範圍第20項所述之系統，其更包含：至少一個第一音頻解碼器，用於解碼來自至少一個第一音頻串流的該至少一個音頻信號；至少一個附加音頻解碼器，用於解碼來自一附加音頻串流的該至少一個音頻信息消息；以及至少一個混合器和/或渲染器，用於將來自該至少一個附加音頻串流的該音頻信息消息與來自該至少一個第一音頻串流的該至少一個音頻信號混合和/或疊加。
如申請專利範圍第1項或第2項所述之系統其更被配置為持續追蹤與該音頻信息消息的該再現相關聯的歷史和/或統計資料相關聯的度量，以便如果該度量超一過預定閾值則禁用該音頻信息消息的再現。
如申請專利範圍第1項或第2項所述之系統，其中，該ROI處理器的決定係基於與該ROI的該位置相關的用戶的當前視口和/或位置和/或頭部方向和/或移動資料的一預測。
如申請專利範圍第1項或第2項所述之系統其更被配置為接收該至少一個第一音頻串流，並且在決定該信息消息要被再現時，從一遠端實體請求一音頻消息信息串流。
如申請專利範圍第1項或第2項所述之系統其更被配置為建立是否同時再現兩個音頻信息消息，或者是否相對於一低優先級別音頻信息消息而優先選擇一更高優先級別的音頻信息消息以再現。
如申請專利範圍第1項或第2項所述之系統其更被配置為基於一音頻串流中的該音頻信息消息的地址和/或位置，以識別被編碼在一個附加音頻串流中的多個音頻信息消息中的一個音頻信息消息。
如申請專利範圍第1項或第2項所述之系統，其中，該音頻串流被格式化為該MPEG-H 3D音頻串流格式。
如申請專利範圍第1項或第2項所述之系統，其更被配置為：接收關於多個自適應集合的可用性的資料，該可用自適應集合包括用於該至少一個第一音頻串流的至少一個音頻場景自適應集合以及用於該至少一個附加音頻串流的至少一個音頻消息自適應集合，該至少一個附加音頻串流包含至少一個音頻信息消息；基於該ROI處理器的決定，創建選擇資料，其標識該自適應集合的哪個要被檢索，該可用自適應集合包括至少一個音頻場景自適應集合和/或至少一個音頻消息自適應集合；以及請求和/或檢索由該選擇資料識別的該自適應集合的該資料，其中，每個自適應集合對不同位元率的不同編碼進行分組。
如申請專利範圍第28項所述之系統，其中，如果其元素包括一個HTTP上的動態自適應串流(Dynamic Adaptive Streaming over HTTP，DASH)客戶端的至少一個和/或被配置為使用該ISO基本媒體檔案格式、ISO BMFF或MPEG-2傳輸串流、MPEG-2 TS來檢索每個自適應集合的該資料。
如申請專利範圍第1項或第2項所述之系統，其中，該ROI處理器被配置為檢查該ROI與該當前視口和/或位置和/或頭部方向和/或移動資料之間的對應關係，以便檢查該ROI是否在該當前視口中表示，以及在該ROI在該當前視口和/或位置和/或頭部方向和/或移動資料之外的情況下，以可聽見地方式向該用戶發信號通知該ROI的該存在。
如申請專利範圍第1項或第2項所述之系統，其中，該ROI處理器被配置為檢查該ROI與該當前視口和/或位置和/或頭部方向和/或移動資料之間的對應關係，以便檢查該ROI是否在該當前視口中表示，以及在該ROI在該當前視口和/或位置和/或頭部方向和/或移動資料之中的情況下，避免向該用戶以可聽地方式發信號通知該ROI的該存在。
如申請專利範圍第1項或第2項所述之系統，其被配置為從一遠程實體接收與該視頻環境場景相關聯的該至少一個視頻串流和與該音頻場景相關聯的該至少一個音頻串流，其中該音頻場景與該視頻環境場景相關聯。
如申請專利範圍第1項或第2項所述之系統，其中，該ROI處理器被配置為在要被再現的多個音頻信息消息中，選擇在一第二音頻信息消息之前再現一個第一音頻信息消息。
如申請專利範圍第1項或第2項所述之系統，其更包括一快取記憶體，用於存儲從一遠程實體接收或合成生成的一音頻信息消息，以在不同的時刻重用該音頻信息消息。
如申請專利範圍第1項所述之系統，其中，該音頻信息消息是一個聲圖像(earcon)。
如申請專利範圍第1項或第2項所述之系統，其中，該至少一個視頻串流和/或該至少一個第一音頻串流分別是該當前視頻環境場景和/或視頻音頻場景的一部分，並且獨立於該用戶在該當前視頻環境場景和/或視頻音頻場景中的當前視口和/或頭部方向和/或移動資料。
如申請專利範圍第1項或第2項所述之系統，其被配置為向該音頻串流和/或視頻環境串流相關聯的一遠程實體分別請求該至少一個第一音頻串流和/或至少一個視頻串流，並且基於該用戶的當前視口和/或頭部方向和/或移動資料的基礎上再現該至少一個音頻信息消息。
如申請專利範圍第1項或第2項所述之系統，其被配置為向該音頻串流和/或視頻環境串流相關聯的一遠程實體分別請求該至少一個第一音頻串流和/或至少一個視頻串流，並且基於該用戶的當前視口和/或頭部方向和/或移動資料的基礎上向該遠程實體請求該至少一個音頻信息消息。
如申請專利範圍第1項或第2項所述之系統，其被配置為向該音頻串流和/或視頻環境串流相關聯的一遠程實體分別請求該至少一個第一音頻串流和/或至少一個視頻串流，並且基於該用戶的當前視口和/或頭部方向和/或移動資料的基礎上合成該至少一個音頻信息消息。
如申請專利範圍第1項或第2項所述之系統，其被配置為檢查針對該音頻信息消息的該再現的至少一個附加標準，該標準還包括一用戶的選擇和/或一用戶的設置。
如申請專利範圍第1項或第2項所述之系統，其被配置為檢查針對該音頻信息消息的該再現的至少一個附加標準，該標準還包括該系統的該狀態。
如申請專利範圍第1項或第2項所述之系統，其被配置為檢查針對該音頻信息消息的該再現的至少一個附加標準，該標準還包括已經執行的音頻信息消息再現的該數量。
如申請專利範圍第1項或第2項所述之系統，其被配置為檢查針對該音頻信息消息的該再現的至少一個附加標準，該標準還包括從一遠程實體獲得的一資料串流中的一旗標（flag）。
一種系統，包括被配置為先前申請專利範圍中任一項所述的系統的一客戶端、和被配置為用於遞送該至少一個視頻串流和該至少一個音頻串流的一伺服器的一遠程實體。
如申請專利範圍第44項所述之系統，其中，該遠程實體被配置為在一資料庫、內聯網、互聯網和/或地理網路中搜尋該至少一個附加音頻串流和/或音頻信息消息後設資料，並且在檢索的情況，傳送該至少一個附加音頻串流和/或該音頻信息消息後設資料。
如申請專利範圍第45項所述之系統，其中，該遠程實體被配置為合成該至少一個附加音頻串流和/或生成該音頻信息消息後設資料。
一種用於一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境的方法，包括：從該至少一個視頻和音頻場景解碼至少一個視頻信號以再現給一用戶；解碼來自要被再現的該視頻和音頻場景的至少一個音頻信號；基於該用戶的當前視口和/或頭部方向和/或移動資料和/或後設資料，來決定與該至少一個感興趣區域(Region Of Interest，ROI)相關聯的一音頻信息消息是否將被再現，其中該音頻信息消息係獨立於該至少一個視頻信號和該至少一個音頻信號；以及在決定該信息消息要被再現時，導致該音頻信息消息的該再現。
一種用於一虛擬實境(VR)、增強實境(AR)、混合實境(MR)或360度視頻環境的方法，包括：解碼來自該至少一個視頻串流的至少一個視頻信號，用於向一用戶表示一虛擬實境、增強實境、混合實境或360度視頻環境場景；解碼來自該至少一個第一音頻串流的至少一個音頻信號，用於向該用戶表示一音頻場景；基於該用戶的當前視口和/或頭部方向和/或移動資料和/或後設資料，來決定與該至少一個感興趣區域(Region Of Interest，ROI)相關聯的一音頻信息消息是否將被再現，其中該音頻信息消息係一個聲圖像(earcon)；以及在決定該信息消息要被再現時，導致該音頻信息消息的該再現。
如申請專利範圍第47項或第48項所述之方法，其更包括：接收和/或處理和/或操縱後設資料，以便在決定該信息消息要被再現時，根據該後設資料以該音頻信息消息是該音頻場景的一部分這樣的一方式，導致該音頻信息消息的該再現。
如申請專利範圍第47項或第48項所述之方法，其更包含：再現該音頻和該視頻場景；以及基於該用戶的當前視口和/或頭部方向和/或移動資料和/或後設資料，來決定進一步再現該音頻信息消息。
如申請專利範圍第47項或第48項所述之方法，其更包含：再現該音頻和該視頻場景；以及在該至少一個ROI在該用戶的當前視口和/或位置和/或頭部方向和/或移動資料之外的情況下，除了該至少一個音頻信號的再現之外，導致與該至少一個ROI相關聯的一音頻信息消息的該再現；以及/或在該至少一個ROI在該用戶的當前視口和/或位置和/或頭部方向和/或移動資料內的情況下，禁止和/或停用與該至少一個ROI相關聯的該音頻信息消息的該再現。
一種不可轉移的存儲單元，包括指令，當由一處理器執行時，使該處理器執行根據申請專利範圍第47項或第48項所述之方法。