ES3044408T3

ES3044408T3 - Method and apparatus for efficient delivery and usage of audio messages for high quality of experience

Info

Publication number: ES3044408T3
Application number: ES21191482T
Authority: ES
Inventors: Adrian Murtaza; Harald Fuchs; Bernd Czelhan; Jan Plogsties
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2017-10-12
Filing date: 2018-10-10
Publication date: 2025-11-26
Anticipated expiration: 2038-10-10
Also published as: ZA202002059B; CN117640983A; CA3083039C; KR20250029300A; KR102774542B1; US20200245032A1; AU2023274169B2; PT3695306T; EP3695306A1; MX2023009916A; US20250260873A1; MY203373A; US11949957B2; AU2025204993A1; JP2024041909A; MX2023009918A; AR124649A2; TWI701945B; CN117596422A; JP7421594B2

Abstract

Se describe un sistema configurado para: recibir al menos un primer flujo de audio (116, 316), en donde el sistema comprende: al menos un decodificador de audio multimedia (112) configurado para decodificar al menos una señal de audio del al menos un primer flujo de audio (116, 316) para la representación de una escena de audio (118b) al usuario; un procesador (120), configurado para: decidir, en función de la ventana gráfica actual del usuario y/o los datos de orientación de la cabeza y/o movimiento (122) y/o los metadatos de la ventana gráfica (131) y/o los metadatos del mensaje de información de audio (141), si se debe reproducir un mensaje de información de audio, en donde el mensaje de información de audio es un mensaje de información de audio genérico o un mensaje de información de audio asociado a al menos una región de interés, ROI; y provocar, al decidir que se debe reproducir el mensaje de información, la reproducción del mensaje de información de audio. (Traducción automática con Google Translate, sin valor legal)

Description

[0001] DESCRIPCIÓN

[0002] Método y aparato para la entrega y uso eficientes de mensajes de audio para una experiencia de gran calidad1. Introducción

[0003] En muchas aplicaciones, la entrega de mensajes audibles puede mejorar la experiencia del usuario durante el consumo de medios. Una de las aplicaciones más relevantes de esos mensajes es la dada por el contenido de realidad virtual (VR). En un entorno de VR, o de modo similar en entornos de realidad aumentada (AR) o realidad mixta (MR) o vídeo de 360 grados, el usuario puede visualizar habitualmente el contenido de 360 grados completo utilizando, por ejemplo, un casco de realidad virtual (HMD) y escucharlo por auriculares (o igualmente por altavoces, incluyendo la renderización correcta dependiendo de su posición). El usuario se puede mover habitualmente en el espacio de VR/AR, o al menos cambiar la dirección de visualización - la denominada “área de visualización” para el vídeo. En los entornos de vídeo de 360 grados, que utilizan sistemas de reproducción clásicos (pantalla de visualización panorámica) en lugar de HMD, se pueden emplear dispositivos de control remoto para emular el movimiento del usuario en la escena y se aplican principios similares. Se debe tener en cuenta que el contenido de 360 grados se puede referir a cualquier tipo de contenido que comprenda más de un ángulo de visualización al mismo tiempo, que el usuario pueda elegir (por ejemplo, mediante la orientación de su cabeza, o utilizando un dispositivo de control remoto).

[0004] En comparación con el consumo de contenido clásico, para la VR los creadores de contenidos ya no pueden controlar qué visualiza el usuario en diversos momentos - el área actual. El usuario tiene la libertad de elegir diferentes áreas de visualización en cada momento, entre las áreas de visualización permitidas o disponibles.

[0005] Un problema común del consumo de contenido de VR es el riesgo de que el usuario se pierda eventos importantes en la escena de vídeo debido a la selección del área de visualización errónea. Para abordar este inconveniente, se introdujo la noción de región de interés (ROI) y se consideran varios conceptos para la señalización de la ROI. Aunque normalmente se utiliza la ROI para indicar al usuario la región que contiene el área de visualización recomendada, también se puede emplear para otros fines, tales como: indicar la presencia de un nuevo personaje/objeto en la escena, indicar características de accesibilidad asociadas a los objetos de la escena, básicamente cualquier característica que pueda estar asociada a un elemento que compone la escena de vídeo. Por ejemplo, se pueden emplear mensajes visuales (por ejemplo, "Gire la cabeza hacia la izquierda") y superponerse al área de visualización actual. Por otro lado, se pueden utilizar sonidos audibles, ya sean sonidos naturales o sintéticos, reproduciéndolos en la posición de la ROI. Estos mensajes de audio se conocen como "iconos sonoros".

[0006] En el contexto de esta solicitud se utiliza el concepto de icono sonoro para caracterizar los mensajes de audio transmitidos para señalizar las ROI, aunque la señalización y el procesamiento propuestos pueden utilizarse asimismo para mensajes de audio genéricos con otros fines además de la señalización de las ROI. Un ejemplo de ese tipo de mensajes de audio es el de los mensajes de audio para transmitir información/indicación de diversas opciones que tiene el usuario en un entorno interactivo de AR/VR/MR (por ejemplo, "saltar a la caja a su izquierda para entrar en la sala X"). Además, se utiliza el ejemplo de VR, aunque los mecanismos descritos en este documento se aplican a cualquier entorno de consumo de medios.

[0007] 2. Terminología y definiciones

[0008] Se utiliza la siguiente terminología del campo técnico:

[0009] •Elementos de audio: señales de audio que pueden representarse, por ejemplo, como objetos de audio, canales de audio, audio basado en la escena (ambisónica de orden superior - HOA) o una combinación de todos ellos.

[0010] •Región de interés(ROI): una región del contenido de vídeo (o del entorno presentado o simulado) que resulta de interés para el usuario en un momento temporal. Esto puede ser comúnmente una región de una esfera, por ejemplo, o una selección poligonal de un mapa 2D. La ROI identifica una región específica para un fin determinado, definiendo los bordes de un objeto en consideración.

[0011] •Información sobre la posición del usuario: información de ubicación (por ejemplo, coordenadas x, y, z), información de orientación (guiñada, cabeceo, balanceo), dirección y velocidad de movimiento, etc.

[0012] •Área de visualización: parte del vídeo esférico que se presenta actualmente y se visualiza por el usuario.

[0013] •Punto de vista: el punto central del área de visualización.

[0014] •Vídeo de 360 grados(también se conoce como vídeo de inmersión o vídeo esférico): representa, en el contexto de este documento, un contenido de vídeo que contiene más de una vista (es decir, área de visualización) en una dirección en el mismo momento temporal. Ese contenido se puede generar, por ejemplo, utilizando una cámara omnidireccional o una colección de cámaras. Durante la reproducción el espectador tiene el control de la dirección de visualización.

[0015] •Los conjuntos de adaptacióncontienen un flujo de comunicación o un conjunto de flujos de comunicación. En el caso más sencillo, un conjunto de adaptación contiene todo el audio y el vídeo correspondiente al contenido pero, para reducir el ancho de banda, cada flujo se puede dividir en un conjunto de adaptación diferente. Un caso habitual consiste en la existencia de un conjunto de adaptación de vídeo y múltiples conjuntos de adaptación de audio (uno por cada idioma admitido). Los conjuntos de adaptación también pueden contener subtítulos o metadatos arbitrarios.

[0016] •Las representacionespermiten que un conjunto de adaptación contenga el mismo contenido codificado de diferentes maneras. En la mayoría de los casos, las representaciones se proporcionarán en múltiples tasas de bits. Esto permite que los clientes soliciten el contenido de la mayor calidad que puedan reproducir sin esperar a la memoria intermedia. Las representaciones también pueden codificarse con diferentes códecs, permitiendo el soporte para clientes con diferentes códecs admitidos.

[0017] •Descripción de la presentación de medios (MPD)es una sintaxis XML que contiene información sobre los segmentos de medios, sus relaciones y la información necesaria para elegir entre ellos.

[0018] En el contexto de esta solicitud, los conceptos de los conjuntos de adaptación se utilizan de modo más genérico, en ocasiones refiriéndose en realidad a las representaciones. Además, los flujos de comunicación (flujos de audio/vídeo) generalmente se encapsulan primero en segmentos de medios que son los archivos de medios reales reproducidos por el cliente (por ejemplo, cliente DASH). Se pueden emplear diversos formatos para los segmentos de medios, tal como el formato de archivo de medios base ISO (ISOBMFF), que es similar al formato con contenido de MPEG-4, y MPEG-TS. La encapsulación en segmentos de medios y en diferentes representaciones/conjuntos de adaptación es independiente de los métodos descritos en el presente documento, los métodos se aplican a todas las diversas opciones.

[0019] Asimismo, la descripción de los métodos en este documento puede centrarse en una comunicación servidor-cliente DASH, aunque los métodos son lo suficientemente genéricos para funcionar con otros entornos de presentación, tales como MMT, flujo de transporte MPEG-2, DASH ROUTE, formato de archivo para reproducción de archivos, etc.

[0020] 3. Soluciones actuales

[0021] Las soluciones actuales son:

[0022] [1] . ISO/IEC 23008-3:2015, Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Part 3: 3D Audio

[0023] [2] . N16950, Study of ISO/IEC DIS 23000-20 Omnidirectional Media Format

[0024] [3] . M41184, Use of Earcons for ROI Identification in 360-degree Video.

[0025] Un mecanismo de entrega para el contenido de 360 grados viene dado por ISO/IEC 23000-20, Omnidirectional Media Format [2]. Esta norma específica el formato de medios para la codificación, almacenamiento, entrega y renderización de imágenes omnidireccionales, vídeo y el audio asociado. Proporciona información sobre los códecs de medios que se han de utilizar para la compresión de audio y vídeo e información de metadatos adicionales para el consumo correcto del contenido A/V de 360 grados.

[0026] También especifica restricciones y requisitos de los canales de entrega, tales como emisión en continuo a través de DASH/MMT o reproducción basada en archivos.

[0027] El concepto de icono sonoro fue introducido por primera vez en M41184, "Use of Earcons for ROI Identification in 360-degree Video" [3], que proporciona un mecanismo para la señalización de los datos de audio de iconos sonoros al usuario.

[0028] Sin embargo, algunos usuarios han notificado comentarios decepcionantes sobre estos sistemas. Con frecuencia, una gran cantidad de iconos sonoros ha resultado irritante. Cuando los diseñadores redujeron el número de iconos sonoros, algunos usuarios perdieron información importante. Notablemente, cada usuario tiene su propio conocimiento y nivel de experiencia, y preferiría un sistema adecuado para sí mismo. Solo para dar un ejemplo, cada usuario preferiría que los iconos sonoros se reproduzcan con un volumen preferido (independiente, por ejemplo, del volumen utilizado para las demás señales de audio). Ha resultado difícil, para el diseñador de sistemas, obtener un sistema que proporcione un buen nivel de satisfacción a todos los posibles usuarios. Por lo tanto, se ha buscado una solución para permitir un aumento de la satisfacción para casi todos los usuarios.

[0029] Además, ha resultado difícil reconfigurar los sistemas, incluso para los diseñadores. Por ejemplo, han experimentado dificultad en la preparación de nuevas emisiones de los flujos de audio y para actualizar los iconos sonoros.

[0030] Además, un sistema restringido impone ciertas limitaciones a la funcionalidad, tal como, por ejemplo, que los iconos sonoros no pueden identificarse con precisión en un flujo de audio. Más aún, los iconos sonoros tienen que estar siempre activos y pueden resultar irritantes para el usuario si se reproducen cuando no son necesarios.

[0031] Asimismo, la información espacial de los iconos sonoros no puede señalizarse ni modificarse, por ejemplo, por un cliente DASH. El acceso fácil a esta información en el nivel de los sistemas puede habilitar una característica adicional para una mejor experiencia del usuario.

[0032] Más aún, no hay flexibilidad para abordar diversos tipos de iconos sonoros (por ejemplo, sonido natural, sonido sintético, sonido generado en el cliente DASH, etc.).

[0033] Todos estos inconvenientes llevan a una mala calidad de experiencia del usuario. Por lo tanto, sería preferible una arquitectura más flexible.

[0034] El documento US 2016/381398 A1 da a conocer un método para generar y transmitir metadatos para realidad virtual que no hacen referencia a mensajes de audio. Además, la reproducción de un mensaje de audio no se lleva a cabo según los metadatos de mensajes de información de audio asociado modificados. Se proporcionan experimentos para formatos de medios omnidireccionales en "Description of Comparison Experiments for Omnidirectional Media Format", Reunión de MPEG 118; 3-4-2017 - 7-4-2017; Hobart; Grupo de Expertos en Imágenes en Movimiento o ISO/IEC JTC1/SC29/WG11), n.° N16829, 9 de mayo de 2017.

[0035] Se da a conocer una semántica para la señalización de iconos sonoros por Hossein Najaf-Zadehet al: "OMAF: Use of Earcons for ROI identification in 360-degree Video", Reunión de MPEG 119; 17-7-2017 - 21-7-2017; Turín; (Grupo de Expertos en Imágenes en Movimiento o ISO/IEC JTC1/SC29/WG11), n.° m41184, 16 de julio de 2017.

[0036] El documento US 2013/205247 A1 da a conocer un sistema de imágenes médicas para alertar a un usuario sobre una región de interés dentro de una imagen de interés.

[0037] El documento EP 3037915 A1 da a conocer un método para realizar control de contenido de realidad virtual.

[0038] Colie van B. et al., "Speech Synthesis for the new pan European traffic message control system RDS-TMC", 4.a Conferencia Europea sobre Comunicación y Tecnología de Voz. Eurospeech '95. Madrid, España, 18-21 de septiembre de 1995; [Conferencia Europea sobre Comunicación y Tecnología de Voz (Eurospeech)], Madrid: Gráficas brens, ES, vol. 1, 18 de septiembre de 1995 (18/09/1995), páginas 145-148, da a conocer un método de síntesis de voz.

[0039] 4. La presente invención

[0040] La invención se define mediante las reivindicaciones.

[0041] 5. Descripción de los dibujos

[0042] Las figuras 1-5, 5a y 6 muestran ejemplos de implementaciones, solo las figuras 4-6 corresponden a la invención reivindicada.

[0043] La figura 7 muestra un método según un ejemplo;

[0044] la figura 8 muestra un ejemplo de implementación.

[0045] 6. Ejemplos

[0046] 6.1 Ejemplos generales

[0047] La figura 1 muestra un ejemplo de un sistema 100 para un entorno de realidad virtual, VR, realidad aumentada, AR, realidad mixta, MR, o vídeo de 360 grados. El sistema 100 puede estar asociado, por ejemplo, a un dispositivo de consumo de contenidos (por ejemplo, casco de realidad virtual o similar), que reproduce datos visuales en un visor esférico o semiesférico asociado íntimamente a la cabeza del usuario.

[0048] El sistema 100 puede comprender al menos un decodificador de vídeo de medios 102 y al menos un decodificador de audio de medios 112. El sistema 100 puede recibir al menos un flujo de vídeo 106 en el cual se codifica una señal de vídeo para la representación de una escena en un entorno de VR, AR, MR o vídeo de 360 grados 118a a un usuario. El sistema 100 puede recibir al menos un primer flujo de audio 116, en el cual se codifica una señal de audio para la representación de una escena de audio 118b a un usuario.

[0050] El sistema 100 puede comprender además un procesador de regiones de interés, ROI, 120. El procesador de ROI 120 puede procesar datos asociados a una ROI. En términos generales, la presencia de la ROI puede señalizarse en los metadatos de área de visualización 131. Los metadatos de área de visualización 131 pueden codificarse en el flujo de vídeo 106 (en otros ejemplos, los metadatos de área de visualización 131 pueden codificarse en otros flujos). Los metadatos de área de visualización 131 pueden comprender, por ejemplo, información de posición (por ejemplo, información de coordenadas) asociada a la ROI. Por ejemplo, se puede entender la ROI, en los ejemplos, como rectángulo (identificado por las coordenadas, tal como, por ejemplo, la posición de uno de los cuatro vértices de los rectángulos en el vídeo esférico y la longitud de los lados del rectángulo). La ROI se proyecta normalmente en el vídeo esférico. La ROI está normalmente asociada a un elemento visible que se cree (según una configuración específica) de interés del usuario. Por ejemplo, la ROI puede estar asociada a una superficie rectangular exhibida por el dispositivo de consumo de contenidos (o de algún modo visible para el usuario).

[0052] El procesador de ROI 120 puede controlar, entre otras cosas, las operaciones del decodificador de audio de medios 112.

[0054] El procesador de ROI 120 puede obtener datos 122 asociados al área de visualización actual del usuario y/o a la posición y/o a la orientación de la cabeza y/o al movimiento (también se puede entender, en algunos ejemplos, que los datos virtuales asociados a la posición virtual son parte de los datos 122). Estos datos 122 puede proporcionarlos, al menos en parte, el dispositivo de consumo de contenidos, o unidades de posicionamiento/detección.

[0056] El procesador de ROI 120 puede verificar las correspondencias entre la ROI y los datos del área de visualización actual del usuario y/o de la posición (real o virtual) y/o de la orientación de la cabeza y/o del movimiento 122 (en los ejemplos, se pueden emplear otros criterios). Por ejemplo, el procesador de ROI puede verificar si la ROI está representada en el área de visualización actual. En caso de que una ROI esté solo parcialmente representada en el área de visualización (por ejemplo, basándose en los movimientos de la cabeza del usuario), puede determinar, por ejemplo, si solo aparece un porcentaje mínimo de la ROI en la pantalla. En todo caso, el procesador de ROI 120 es apto para reconocer si la ROI no está representada o es visible para el usuario.

[0058] En caso de considerar que la ROI está fuera de los datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento 122, el procesador de ROI 120 puede señalar de manera audible la presencia de la ROI al usuario. Por ejemplo, el procesador de ROI 120 puede solicitar la reproducción de un mensaje de información de audio (icono sonoro) además de la señal de audio decodificada del al menos un primer flujo de audio 116.

[0060] En caso de considerar que la ROI está dentro de los datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento 122, el procesador de ROI puede decidir evitar la reproducción del mensaje de información de audio.

[0062] El mensaje de información de audio puede codificarse en un flujo de audio 140 (flujo de mensajes de información de audio), que puede ser el mismo flujo de audio 116 o un flujo diferente. El flujo de audio 140 puede generarlo el sistema 100 o puede obtenerse de una entidad externa (por ejemplo, un servidor). Se pueden definir metadatos de audio, tales como metadatos de mensajes de información de audio 141, para describir las propiedades del flujo de información de audio 140.

[0064] El mensaje de información de audio se superpone (se multiplexa) a la señal codificada en el flujo de audio 116 o puede no seleccionarse, por ejemplo, simplemente basándose en una decisión del procesador de ROI 120. El procesador de ROI 120 puede basar su decisión en los datos del área de visualización y/o de la posición y/o de la orientación de la cabeza y/o del movimiento 122, los metadatos (tales como los metadatos de área de visualización 131 u otros metadatos) y/o en otros criterios (por ejemplo, selecciones, estado del sistema, número de reproducciones de mensajes de información de audio que ya se han realizado, funciones y/u operaciones específicas, configuraciones preferidas del usuario que puede deshabilitar el uso de iconos sonoros y demás).

[0066] Se puede implementar un procesador de metadatos 132. El procesador de metadatos 132 puede interponerse, por ejemplo, entre el procesador de ROI 120 (por el cual puede controlarse) y el decodificador de audio de medios 112 (que puede controlarse desde el procesador de metadatos). En los ejemplos, el procesador de metadatos es una sección del procesador de ROI 120. El procesador de metadatos 132 puede recibir, generar, procesar y/o manipular los metadatos de mensajes de información de audio 141. El procesador de metadatos 132 también puede procesar y/o manipular metadatos del flujo de audio 116, por ejemplo, para multiplexar el flujo de audio 116 con el flujo de mensajes de información de audio 140. Además, o por otro lado, el procesador de metadatos 132 puede recibir metadatos del flujo de audio 116, por ejemplo, de un servidor (por ejemplo, una entidad remota).

[0067] Por lo tanto, el procesador de metadatos 132 puede cambiar la reproducción de escenas de audio y adaptar el mensaje de información de audio a situaciones y/o selecciones y/o estados específicos.

[0068] Se comentan en el presente documento algunas de las ventajas de algunas implementaciones.

[0069] Los mensajes de información de audio pueden identificarse con precisión, por ejemplo, usando los metadatos de mensajes de información de audio 141.

[0070] Los mensajes de información de audio pueden activarse/desactivarse fácilmente, por ejemplo, modificando los metadatos (por ejemplo, mediante el procesador de metadatos 132). Los mensajes de información de audio pueden habilitarse/deshabilitarse, por ejemplo, basándose en el área de visualización actual y la información de ROI (además de funciones o efectos especiales que se desean lograr).

[0071] El mensaje de información de audio (que contiene, por ejemplo, estado, tipo, información espacial y demás) puede señalizarse y modificarse fácilmente mediante equipamiento común, tal como emisión en continuo adaptativa dinámica a través de un cliente HTTP (DASH), por ejemplo.

[0072] Por lo tanto, el fácil acceso al mensaje de información de audio (que contiene, por ejemplo, estado, tipo, información espacial y demás) en el nivel de los sistemas puede habilitar características adicionales para una mejor experiencia de usuario. Por ende, el sistema 100 puede adaptarse fácilmente y permitir implementaciones adicionales (por ejemplo, aplicaciones específicas) que pueden realizarlas el personal independiente de los diseñadores del sistema 100.

[0073] Más aún, se logra flexibilidad para abordar diversos tipos de mensajes de información de audio (por ejemplo, sonido natural, sonido sintético, sonido generado en el cliente DASH, etc.).

[0074] Otras ventajas (que también se ponen de manifiesto en los siguientes ejemplos):

[0075] • Uso de etiquetas de texto en los metadatos (como base para exhibir algo o generar el icono sonoro)

[0076] • Adaptación de la posición del icono sonoro basada en el dispositivo (si es un HMD deseo una ubicación precisa, si es un altavoz tal vez lo mejor es usar una ubicación diferente - directamente a un altavoz).

[0077] • Diferentes clases de dispositivos:

[0078] o Los metadatos de icono sonoro se pueden generar de tal manera que se señalice que el icono sonoro está activo o Algunos dispositivos saben cómo analizar los metadatos y reproducir el icono sonoro

[0079] o Algunos dispositivos más nuevos que tienen además un mejor procesador de ROI pueden decidir desactivarlo en caso de no ser necesario

[0080] • Más información y una figura adicional acerca de los conjuntos de adaptación.

[0081] Por lo tanto, en un entorno de VR/AR el usuario habitualmente puede visualizar todo el contenido de 360 grados utilizando, por ejemplo, un casco de realidad virtual (HMD) y escucharlo con auriculares. El usuario habitualmente se puede mover en el espacio de VR/AR o al menos cambiar la dirección de visualización - la denominada “área de visualización” para el vídeo. En comparación con el consumo de contenido clásico, los creadores de contenidos de VR ya no pueden controlar lo que el usuario visualiza en diversos puntos temporales - el área de visualización actual. El usuario tiene la libertad de elegir diferentes áreas de visualización en cada momento, entre las áreas de visualización permitidas o disponibles. Para indicar al usuario la región de interés (ROI), se pueden utilizar sonidos audibles, ya sea sonidos naturales o sintéticos, reproduciéndolos en la posición de la ROI. Estos mensajes de audio se conocen como “iconos sonoros". Esta invención propone una solución para la reproducción eficiente de esos mensajes y propone un comportamiento optimizado del receptor para hacer uso de los iconos sonoros sin afectar la experiencia del usuario y el consumo de contenidos. Esto lleva a una mejora de la calidad de experiencia. Esto se puede lograr utilizando metadatos especializados y mecanismos de manipulación de metadatos en el nivel de los sistemas para habilitar o deshabilitar los iconos sonoros en la escena final.

[0082] El procesador de metadatos 132 puede estar configurado para recibir y/o procesar y/o manipular metadatos 141 con el fin de provocar, ante la decisión de que se debe reproducir el mensaje de información, la reproducción del mensaje de información de audio según los metadatos 141. Se puede entender que las señales de audio (por ejemplo, las que se usan para representar la escena) son partes de la escena de audio (por ejemplo, una escena de audio descargada de un servidor remoto). Las señales de audio pueden ser semánticamente significativas, en general, para la escena de audio y todas las señales de audio presentes construyen, en conjunto, la escena de audio. Las señales de audio pueden codificarse juntas en un flujo de bits de audio. Las señales de audio pueden generarla el creador de contenidos y/o pueden estar asociadas a una escena específica y/o pueden ser independientes de la ROI.

[0083] Se puede entender que el mensaje de información de audio (por ejemplo, el icono sonoro) puede no ser semánticamente significativo para la escena de audio. Puede considerarse un sonido independiente que se puede generar de manera artificial, tal como un sonido grabado, una voz de una persona grabada, etc. También puede ser dependiente del dispositivo (un sonido de sistema generado al presionar un botón del control remoto, por ejemplo). Se puede entender que el mensaje de información de audio (por ejemplo, icono sonoro) está destinado a guiar al usuario en la escena, sin ser parte de dicha escena.

[0084] El mensaje de información de audio puede ser independiente de las señales de audio tal como se expuso anteriormente. Según diferentes ejemplos, puede estar incluido en el mismo flujo de bits, o puede transmitirse en un flujo de bits separado, o generarse por el sistema 100.

[0085] Un ejemplo de una escena de audio compuesta por múltiples señales de audio puede ser:

[0086] -- escena de audio, una sala de conciertos que contiene 5 señales de audio:

[0087] — señal de audio 1: el sonido de un piano

[0088] — señal de audio 2: la voz del cantante

[0089] — señal de audio 3: la voz de la persona 1 parte de la audiencia

[0090] — señal de audio 4: la voz de la persona 2 parte de la audiencia

[0091] — señal de audio 5: el sonido creado por el reloj sobre la pared

[0092] El mensaje de información de audio puede ser, por ejemplo, un sonido grabado como “mirar al pianista” (siendo el piano la ROI). Si el usuario ya está mirando al pianista, no se reproduce el mensaje de audio.

[0093] Otro ejemplo: se abre una puerta (por ejemplo, una puerta virtual) detrás del usuario y una nueva persona entra en la habitación; el usuario no está mirando en esa dirección. Se puede activar el icono sonoro, basándose en esto (la información con respecto al entorno de VR, tal como la posición virtual) para anunciar al usuario que algo está ocurriendo detrás de él.

[0094] En los ejemplos, cada escena (por ejemplo, con los flujos de audio y vídeo relacionados) se transmite desde el servidor hasta el cliente cuando el usuario cambia el entorno.

[0095] El mensaje de información de audio puede ser flexible. En particular:

[0096] - el mensaje de información de audio puede estar ubicado en el mismo flujo de audio asociado a la escena que se ha de reproducir;

[0097] - el mensaje de información de audio puede estar ubicado en un flujo de audio adicional;

[0098] - el mensaje de información de audio puede estar completamente ausente, y solo los metadatos que describen el icono sonoro pueden estar presentes en el flujo y el mensaje de información de audio se puede generar en el sistema; - el mensaje de información de audio puede estar completamente ausente, así como los metadatos que describen el mensaje de información de audio, en cuyo caso el sistema genera ambos (el icono sonoro y los metadatos) basándose en otra información sobre la ROI en el flujo.

[0099] El mensaje de información de audio es independiente, en general, de cualquier señal de audio que forma parte de la escena de audio y no se utiliza para la representación de la escena de audio.

[0100] A continuación, se proporcionan ejemplos de sistemas que incorporan o incluyen partes que constituyen el sistema 100.

[0101] 6.2 El ejemplo de la figura 2

[0102] La figura 2 ilustra un sistema 200 (que puede contener al menos una parte que incorpora el sistema 100) que en este caso está representada como subdividido en un lado del servidor 202, un lado de la entrega de medios 203, un lado del cliente 204 y/o un lado del dispositivo de consumo de medios 206. Cada uno de los lados 202, 203, 204 y 206 es un sistema en sí mismo y puede combinarse con cualquier otro sistema para obtener otro sistema. Los mensajes de información de audio son iconos sonoros.

[0104] El lado del cliente 204 puede recibir el al menos un flujo de vídeo 106 y/o el al menos un flujo de audio 116 del lado del servidor 202 a través de un lado de la entrega de medios 203.

[0106] El lado de la entrega 203 se puede basar, por ejemplo, en un sistema de comunicaciones tal como un sistema en la nube, un sistema en red, una red geográfica de comunicaciones o formatos muy conocidos de transporte de medios (flujo de transporte MPEG-2 TS, DASH, MMT, DASH ROUTE etc.) o incluso un almacenamiento basado en archivos. El lado de la entrega 203 puede tener capacidad para ejecutar comunicaciones en forma de señales eléctricas (por ejemplo, por cable, inalámbricas, etc.) y/o mediante la distribución de paquetes de datos (por ejemplo, según un protocolo de comunicaciones específico) con flujos de bits en los cuales se codifican señales de audio y vídeo. No obstante, el lado de la entrega 203 puede estar constituido por un vínculo punto a punto, una conexión en serie o paralela y demás. El lado de la entrega 203 puede ejecutar una conexión inalámbrica, por ejemplo, según protocolos tales como WiFi, Bluetooth y demás.

[0108] El lado del cliente 204 puede estar asociado a un dispositivo de consumo de medios, por ejemplo, un HMD, por ejemplo, en la cual se puede insertar la cabeza del usuario (sin embargo, se pueden utilizar otros dispositivos). Por lo tanto, el usuario puede experimentar una escena de vídeo y audio (por ejemplo, una escena de VR) preparada por el lado del cliente 204 basándose en datos de vídeo y audio proporcionados por el lado del servidor 202. Sin embargo, son posibles otras implementaciones.

[0110] El lado del servidor 202 está representado, en este caso, contando con un codificador de medios 240 (que puede cubrir codificadores de vídeo, codificadores de audio, codificadores de subtítulos, etc.). Este codificador 240 puede estar asociado, por ejemplo, a una escena de audio y vídeo que se ha de representar. La escena de audio puede ser, por ejemplo, para recrear un entorno y está asociada a dicho al menos un flujo de datos de audio y vídeo 106, 116, que puede codificarse basándose en la posición (o la posición virtual) alcanzada por el usuario en el entorno de VR, A<r>,<MR. En términos generales, el flujo de vídeo 106 codifica imágenes esféricas, solo una parte de las cuales (áreas>de visualización) se percibe por el usuario según su posición y movimientos. El flujo de audio 116 contiene datos de audio que participan en la representación de la escena de audio y están destinados a ser oídos por un usuario. Según los ejemplos, el flujo de audio 116 puede comprender metadatos de audio 236 (que se refieren a la al menos una señal de audio que está destinada a participar en la representación de la escena de audio) y/o metadatos de icono sonoro 141 (que pueden describir los iconos sonoros que se han de reproducir solo en algunos casos).

[0112] El sistema 100 está representado en este caso situado en el lado del cliente 204. Para simplificar, en la figura 2 no se representa el decodificador de vídeo de medios 112.

[0114] Para preparar la reproducción del icono sonoro (u otros mensajes de información de audio), se pueden utilizar metadatos de icono sonoro 141. Los metadatos de icono sonoro 141 se pueden considerar metadatos (que pueden codificarse en un flujo de audio) que describen y proporcionan atributos asociados al icono sonoro. Por ende, el icono sonoro (si se lo ha de reproducir) se puede basar en los atributos de los metadatos de icono sonoro 141.

[0116] Ventajosamente, el procesador de metadatos 132 puede estar implementado específicamente para procesar los metadatos de icono sonoro 141. Por ejemplo, el procesador de metadatos 132 puede controlar la recepción, procesamiento, manipulación y/o generación de los metadatos de icono sonoro 141. Una vez procesados, los metadatos de icono sonoro pueden representarse como metadatos de icono sonoro modificados 234. De acuerdo con la invención. los metadatos de icono sonoro se manipulan para obtener un efecto determinado y/o para realizar operaciones de procesamiento de audio, mediante multiplexación o combinación, para agregar el icono sonoro a la señal de audio que se ha de representar en la escena de audio.

[0118] El procesador de metadatos 132 puede controlar la recepción, procesamiento, manipulación de los metadatos de audio 236 asociados a dicho al menos un flujo 116. Una vez procesados, los metadatos de audio 236 pueden representarse como metadatos de audio modificados 238.

[0120] Los metadatos modificados 234 y 238 pueden proporcionarse al decodificador de audio de medios 112 (o a una pluralidad de decodificadores en algunos ejemplos) para la reproducción de la escena de audio 118b al usuario.

[0121] En los ejemplos, puede proporcionarse, como componente opcional, un generador de audio sintético y/o un dispositivo de almacenamiento 246. El generador puede sintetizar un flujo de audio (por ejemplo, para generar un icono sonoro que no está codificado en un flujo). El dispositivo de almacenamiento permite almacenar (por ejemplo, en una memoria caché) flujos de iconos sonoros (por ejemplo, para el uso posterior) que se han generado por el generador y/u obtenido en un flujo de audio recibido.

[0122] Por ende, el procesador de ROI 120 puede decidir la representación de un icono sonoro basándose en los datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento 122. Sin embargo, el procesador de ROI 120 también puede basar su decisión en criterios que implican otros aspectos.

[0123] Por ejemplo, el procesador de ROI puede habilitar/deshabilitar la reproducción de iconos sonoros basándose en otras condiciones tales como, por ejemplo, selecciones del usuario o selecciones de capas superiores, por ejemplo, basándose en la aplicación específica que se pretende consumir. En el caso de una aplicación de videojuegos, por ejemplo, se pueden evitar los iconos sonoros u otros mensajes de información de audio para niveles altos de videojuegos. Esto lo puede lograr, simplemente, el procesador de metadatos, deshabilitando los iconos sonoros en los metadatos de icono sonoro.

[0125] Asimismo, es posible deshabilitar los iconos sonoros basándose en el estado del sistema: si, por ejemplo, ya se ha reproducido el icono sonoro, se puede inhibir su repetición. Se puede emplear un temporizador, por ejemplo, para evitar repeticiones demasiado rápidas.

[0127] El procesador de ROI 120 puede solicitar asimismo la reproducción controlada de una secuencia de iconos sonoros (por ejemplo, los iconos sonoros asociados a todas las ROI de la escena), por ejemplo, para instruir al usuario sobre los elementos que la persona puede ver. El procesador de metadatos 132 puede controlar esta operación.

[0129] El procesador de ROI 120 también puede modificar la posición del icono sonoro (es decir, la ubicación espacial en la escena) o el tipo de icono sonoro. Por ejemplo, algunos usuarios pueden preferir tener como icono sonoro un sonido específico reproducido en la ubicación/ posición exacta de la ROI, en tanto que otros usuarios pueden preferir que el icono sonoro se reproduzca siempre en una ubicación fija (por ejemplo, una posición central, o superior “voz de Dios” etc.) como indicación de sonido vocal de la posición en la que está situada la ROI.

[0131] Es posible modificar la ganancia (por ejemplo, para obtener un volumen diferente) de la reproducción del icono sonoro. Esta decisión puede seguir la selección de un usuario, por ejemplo. Notablemente, basándose en la decisión del procesador de ROI, el procesador de metadatos 132 ejecutará la modificación de la ganancia modificando, entre los metadatos de icono sonoro asociados al icono sonoro, el atributo específico asociado a la ganancia.

[0133] El diseñador original del entorno de VR, AR, MR también puede desconocer cómo se van a reproducir en realidad los iconos sonoros. Por ejemplo, las selecciones del usuario pueden modificar la renderización final de los iconos sonoros. Este tipo de operación puede controlarse, por ejemplo, por el procesador de metadatos 132, que puede modificar los metadatos de icono sonoro 141 basándose en la decisión del procesador de ROI.

[0135] Por consiguiente, las operaciones ejecutadas en los datos de audio asociados al icono sonoro son, en principio, independientes del al menos un flujo de audio 116 usado para representar la escena de audio y pueden controlarse de manera diferente. Incluso los iconos sonoros pueden generarse independientemente de los flujos de audio y vídeo 106 y 116 que constituyen la escena de audio y vídeo y pueden producirse por grupos empresariales diferentes e independientes.

[0137] Por ende, los ejemplos permiten aumentar la satisfacción de los usuarios. Por ejemplo, un usuario puede realizar sus propias selecciones, por ejemplo, modificando el volumen de los mensajes de información de audio, deshabilitando los mensajes de información de audio, y demás. Por lo tanto, cada usuario puede tener una experiencia más adecuada a su preferencia. Asimismo, la arquitectura obtenida es más flexible. Los mensajes de información de audio pueden actualizarse fácilmente, por ejemplo, mediante la modificación de los metadatos, independientemente de los flujos de audio, y/o modificando el flujo de mensajes de información de audio independientemente de los metadatos y de los flujos de audio principales.

[0139] La arquitectura obtenida también es compatible con los sistemas anteriores: los flujos de mensajes de información de audio anteriores pueden estar asociados a nuevos metadatos de mensajes de información de audio, por ejemplo. En el caso de la ausencia de un flujo de mensajes de información de audio adecuado, en los ejemplos esto último puede sintetizarse fácilmente (y, por ejemplo, almacenarse para su uso posterior).

[0141] El procesador de ROI puede llevar el registro de la métrica asociada a los datos históricos y/o estadísticos asociados a la reproducción del mensaje de información de audio, con el fin de deshabilitar la reproducción del mensaje de información de audio si la métrica excede un umbral predeterminado (se puede utilizar esto como criterio).

[0143] La decisión del procesador de ROI se puede basar, como criterio, en la predicción de los datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento 122 en relación con la posición de la ROI.

[0145] El procesador de ROI puede estar configurado además para recibir el al menos un primer flujo de audio 116 y, ante la decisión de que el mensaje de información debe reproducirse, solicitar un flujo de información de mensajes de audio a una entidad remota.

[0147] El procesador de ROI y/o el generador de metadatos pueden estar configurados además para establecer si se han de reproducir dos mensajes de información de audio al mismo tiempo o si se ha de seleccionar un mensaje de información de audio de prioridad más elevada para reproducir con prioridad con respecto a un mensaje de información de audio de prioridad más baja. Para llegar a esta decisión, se pueden emplear metadatos de información de audio. Se puede obtener una prioridad, por ejemplo, del procesador de metadatos 132 basándose en los valores aportados en los metadatos de mensajes de información de audio.

[0149] En algunos ejemplos, el codificador de medios 240 puede estar configurado para buscar, en una base de datos, intranet, internet, y/o una red geográfica, un flujo de audio adicional y/o metadatos de mensajes de información de audio y, en caso de obtenerlos, la entrega del flujo de audio y/o los metadatos de mensajes de información de audio adicionales. Por ejemplo, la búsqueda se puede realizar a petición del lado del cliente.

[0151] Tal como se explicó anteriormente, en el presente documento se propone una solución para la entrega eficiente de mensajes de icono sonoro junto con el contenido de audio. Se obtiene un comportamiento optimizado del receptor, para hacer uso de los mensajes de información de audio (por ejemplo, iconos sonoros) sin afectar la experiencia del usuario y el consumo de contenidos. Esto lleva a una calidad de experiencia mejorada.

[0153] Esto se puede obtener empleando metadatos especializados y mecanismos de manipulación de metadatos en el nivel de los sistemas para habilitar o deshabilitar los mensajes de información de audio en las escenas de audio finales. Los metadatos se pueden utilizar junto con cualquier códec de audio y complementan de manera favorable los metadatos de códecs de audio de la próxima generación (por ejemplo, metadatos de audio MPEG-H).

[0155] Los mecanismos de entrega pueden ser diversos (por ejemplo, emisión en continuo a través de DASH/HLS, radiodifusión a través de DASH-ROUTE/MMT/MPEG-2 TS, reproducción de archivos, etc.). En esta solicitud se considera la entrega por DASH, aunque todos los conceptos son válidos para las demás opciones de entrega.

[0157] En la mayoría de los casos los mensajes de información de audio no se superponen en el dominio del tiempo, es decir, en un punto específico de tiempo solo se define una ROI. Sin embargo, considerando casos de uso más avanzados, por ejemplo, en un entorno interactivo en el que el usuario puede cambiar el contenido basándose en sus selecciones/movimientos, también podría haber casos de uso que requieran múltiples ROI. Para este fin, se puede necesitar más de un mensaje de información de audio en un momento en el tiempo. Por lo tanto, se describe una solución genérica para admitir todos los casos de uso diferentes.

[0159] La entrega y procesamiento de los mensajes de información de audio deben complementar los métodos de entrega existentes para el audio de próxima generación.

[0161] Una manera de transferir múltiples mensajes de información de audio correspondientes a varias ROI, que sonindependientesen el dominio del tiempo, consiste enmezclar entre sí todoslosmensajes de información de audiopara obtener un elemento de audio(por ejemplo, objeto de audio) con metadatos asociados que describen la posición espacial de cada mensaje de información de audio en diferentes momentos temporales. Dado que los mensajes de información de audio no se superponen en el tiempo, pueden abordarse independientemente en un elemento de audio compartido. Este elemento de audio podría contener silencio (o falta de datos de audio) intercalado entre los mensajes de información de audio, es decir, siempre que no haya mensaje de información de audio. En este caso se pueden aplicar los siguientes mecanismos:

[0163] • El elemento de audio común de mensaje de información de audio se puede entregar enel mismo flujo elemental(ES) que la escena de audio con la cual se relaciona, o se puede entregar en unflujo auxiliar(dependiente o no del flujo principal).

[0165] • Si el elemento de audio de icono sonoro se entrega en un flujo auxiliardependientedel flujo principal, el cliente puedesolicitar el flujo adicionalsiempre que esté presente una nueva r O i en la escena visual.

[0167] • El cliente (por ejemplo, el sistema 100) puede solicitar el flujo, en los ejemplos,con anticipacióna la escena que requiere el icono sonoro.

[0169] • El cliente puede solicitar el flujo, en los ejemplos,basándose en el área de visualización actual, es decir, si el área de visualización actual coincide con la ROI, el clientepuede decidir no solicitarel flujo de iconos sonoros adicional.

[0171] • Si el elemento de audio de icono sonoro se puede entregar en un flujo auxiliarindependientedel flujo principal, el cliente puede solicitar, como antes, el flujo adicional siempre que haya una nueva ROI presente en la escena visual.Además, los dos (o más) flujos pueden procesarse empleando dos decodificadores de medios y unaetapa común de renderización/mezcla para mezclar los datos de audio de icono sonoro decodificados para obtener la escena de audio final. Por otro lado,

se puede usarun procesador de metadatospara modificar los metadatos de los dos flujos y una "fusión de flujos" para fusionar los dos flujos. A continuación, se describe una implementación posible de dicho procesador de metadatos y fusión de flujos.

[0173] En ejemplos alternativos, se pueden transmitir múltiples iconos sonoros para varias ROI,independientes en el dominio del tiempo o superpuestos en el dominio del tiempo, enmúltiples elementos de audio(por ejemplo, objetos de audio) e incluirlos ya sea en un flujo elemental junto con la escena de audio principal o en múltiples flujos auxiliares, por ejemplo, cada icono sonoro en un ES o un grupo de iconos sonoros en un ES basándose en una propiedad compartida (por ejemplo, todos los iconos sonoros situados a la izquierda comparten un flujo).

[0175] • Si todos los elementos de audio de icono sonoro se entregan en varios flujos auxiliaresdependientes del flujo principal(por ejemplo, un icono sonoro por flujo o un grupo de iconos sonoros por flujo), el cliente puedesolicitar, en los ejemplos,un flujo adicional, que contiene el icono sonoro deseado,siempre que la ROI asociada conese icono sonoroesté presente en la escena visual.

[0177] • El Cliente puede solicitar, en los ejemplos, el flujo con el icono sonorocon anticipación ala escena que requiere ese icono sonoro (por ejemplo, basándose en los movimientos del usuario, el procesador de ROI 120 puede ejecutar la decisión incluso si la ROI aún no forma parte de la escena).

[0179] • El Cliente, en los ejemplos, puede solicitar el flujobasándose en el área de visualización actual, si el área de visualización actual coincide con la ROI, el cliente puede decidir no solicitar el flujo de iconos sonoros adicional

[0180] • Si un elemento de audio de icono sonoro (o un grupo de iconos sonoros) se entrega en un flujo auxiliarindependientedel flujo principal, el Cliente puede solicitar, en los ejemplos, como antes, el flujo adicional siempre que haya una nueva ROI presente en la escena visual. Además, los dos (o más) flujos pueden procesarse empleandodos decodificadores de mediosy una etapacomún de renderización/mezclapara mezclar los datos de audio de icono sonoro decodificados para obtener la escena de audio final.Por otro lado,se puede usar unprocesador de metadatospara modificar los metadatos de los dos flujos y una "fusión de flujos" para fusionar los dos flujos. A continuación, se describe una implementación posible de dicho procesador de metadatos y fusión de flujos.

[0182] Por otro lado,se puede emplear un icono sonoro común (genérico) para señalizar todas las ROI en una escena de audio.Esto se puede lograr utilizando el mismo contenido de audio condiferente información espacialasociada al contenido de audio en diferentes momentos temporales. En este caso, el procesador de ROI 120 puede solicitar al procesador de metadatos 132 que reúna los iconos sonoros asociados a las ROI de la escena y que controle la reproducción de los iconos sonoros en secuencia (por ejemplo, ante una selección del usuario o ante una solicitud de aplicación de capa más alta).

[0184] Por otro lado,se puede transmitir un icono sonoro solo una vez y quedar en memoria caché del cliente. El cliente puede reutilizarlo para todas las ROI de una escena de audiocon información espacial diferente asociada al contenido de audio en diferentes momentos temporales.

[0186] Por otro lado,se puede generarelcontenido de audio de icono sonoro de manera sintética en el cliente.Junto con eso, se puede emplear ungenerador de metadatospara crear los metadatos necesarios para señalizar la información espacial del icono sonoro. Por ejemplo, el contenido de audio de icono sonoro puede comprimirse y alimentarse a un decodificador de Medios junto con el contenido principal de audio y los nuevos metadatos o se puede mezclar con la escena de audio final después del uso del decodificador de medios o de varios decodificadores de medios.

[0188] Por otro lado, elcontenido de audio de icono sonoro se puede generar, en los ejemplos, sintéticamente en el cliente (por ejemplo, bajo el control del procesador de metadatos132),en tanto que los metadatos que describen el icono sonoro ya están incluidos en el flujo.Usando una señalización específica del tipo de icono sonoro en el codificador, los metadatos pueden contener la información espacial del icono sonoro, la señalización específica correspondiente a un “ icono sonoro generado por el decodificador” pero no datos de audio correspondientes al icono sonoro.

[0190] Por otro lado, el contenido de audio de icono sonoro se puede generar de manera sintética en el cliente, yse puede emplearun generador de metadatospara crear los metadatos necesarios para señalizar la información espacial del icono sonoro. Por ejemplo, el contenido de audio de icono sonoro puede

[0192] • comprimirse y alimentarse a un decodificador de medios junto con el contenido de audio principal y los nuevos metadatos; •

[0194] • o se puede mezclar en la escena de audio final después del decodificador de medios;

[0195] • o se pueden utilizar varios decodificadores de medios.

[0196] 6.3 Ejemplos de metadatos correspondientes a mensajes de información de audio (por ejemplo, iconos sonoros)

[0197] Se proporciona en el presente documento un ejemplo de metadatos de mensajes de información de audio (iconos sonoros) 141, tal como se describió anteriormente.

[0198] Una estructura para describir las propiedades de los iconos sonoros y ofrecer la posibilidad de ajustar fácilmente estos valores:

[0200]

[0201]

[0203] Es posible que cada identificador de la tabla esté destinado a asociarse a un atributo de los metadatos de icono sonoro 132.

[0204] Se describe en este caso la semántica.

[0205] númIconosSonoros- Este campo específica el número de elementos de audio de iconos sonoros disponibles en el flujo.

[0206] IconoSonoro_esIndependiente- Este indicador define si el elemento de audio de icono sonoro es independiente de alguna escena de audio. Si IconoSonoro_esIndependiente == 1 el elemento de audio de icono sonoro es independiente de la escena de audio. Si IconoSonoro_esIndependiente == 0 el Elemento de audio de icono sonoro es parte de la escena de audio y la id_IconoSonoro ha de tener el mismo valor que la IDgrupo_mae asociada al elemento de audio.

[0207] TipolconoSonoro- Este campo define el tipo de icono sonoro. La siguiente table especifica los valores permitidos

[0210]

[0211]

[0213] IconoSonoroActivoEste indicador define si el icono sonoro está activo. Si IconoSonoroActivo == 1 se debe decodificar y renderizar el elemento de audio de icono sonoro en la escena de audio.

[0214] PosiciónIconoSonoroEste indicador define si el icono sonoro tiene información de posición disponible. Si IconoSonoro_esIndependiente == 0, se utiliza esta información de posición en lugar de los metadatos de objeto de audio especificados en las estructuras metadatos_objeto_dinámico() o metadatos_objeto_intracodificado_eficaz().

[0215] IconoSonoro_azimutel valor absoluto del ángulo azimutal.

[0216] IconoSonoro_elevaciónel valor absoluto del ángulo de elevación.

[0217] IconoSonoro_radioel valor absoluto del radio.

[0218] IconoSonoroTieneGananciaEste indicador define si el icono sonoro tiene un valor de ganancia diferente.

[0219] IconoSonoro_gananciaEste campo define el valor absoluto correspondiente a la ganancia del icono sonoro.

[0220] IconoSonoroTieneEtiquetaTextoEste indicador define si el icono sonoro tiene asociada una etiqueta de texto.

[0221] IconoSonoro_númIdiomasEste campo especifica el número de idiomas disponibles para la etiqueta de texto descriptiva.

[0222] IconoSonoro_IdiomaEste campo de 24 bits identifica el idioma del texto descriptivo de un icono sonoro. Contiene un código de 3 caracteres según lo establecido por ISO 639-2. Se puede utilizar tanto ISO 639-2/B como ISO 639-2/T. Cada carácter se codifica en 8 bits según ISO/IEC 8859-1 y se inserta en orden en el campo de 24 bits. EJEMPLO: El francés tiene un código de 3 caracteres “fre”, que se codifica de la siguiente manera: “O lio 0110 0111 001001100101”.

[0223] IconoSonoro_LongitudDatosTextoEste campo define la longitud de la descripción del grupo siguiente en el flujo de bits.

[0224] IconoSonoro_DatosTextoEste campo contiene una descripción de un icono sonoro, es decir, una cadena que describe el contenido mediante una descripción de alto nivel. El formato ha de seguir UTF-8 según ISO/IEC 10646. Una estructura para identificar los iconos sonoros en el nivel de sistema y asociarlos con áreas de visualización existentes. Las siguientes dos tablas ofrecen dos maneras de implementar esa estructura que se pueden utilizar en diferentes implementaciones:

[0226] alineado(8) clase MuestralconoSonoro() extiende MuestraRegiónEsférica {

[0227] para (i = 0; i < núm_regiones; i++) {

[0228] ent(7) sin signo reservado;

[0229] ent(1) sin signo tieneIconoSonoro;

[0230] si (tieneIconoSonoro == 1) {

[0231] ent(8) sin signo númIconosSonorosRegión;

[0232] para (n=0; n<númIconosSonorosRegión; n++) {

[0233] ent(8) sin signo id_IconoSonoro;

[0234] ent(32) sin signo id_pista_IconoSonoro_;

[0235] }

[0236] }

[0237] }

[0238] }

[0239] o por otro lado:

[0241] alineado(8) clase MuestralconoSonoro() extiende MuestraRegiónEsférica {

[0242] para (i = 0; i < núm_regiones; i++) {

[0243] ent(32) sin signo id_pista_IconoSonoro;

[0244] ent(8) sin signo id_IconoSonoro;

[0245] }

[0246] }

[0247] Semántica:

[0248] tienelconoSonoroespecifica si hay datos de icono sonoro disponibles para una región.

[0249] númIconosSonorosRegiónespecifica el número de iconos sonoros disponibles para una región.

[0250] id_IconoSonorodefine de manera exclusiva una ID para un elemento de icono sonoro asociado a la región esférica. Si el icono sonoro es parte de la escena de audio (es decir, si el icono sonoro es parte de un grupo de elementos identificados por una IDgrupo_mae), el id_IconoSonoro DEBE tener el mismo valor que la IDgrupo_mae. Se puede utilizar la id_IconoSonoro para la identificación del archivo/pista de audio, por ejemplo, en el caso de la entrega por DASH, el ConjuntoAdaptación con el elemento ComponenteIconoSonoro@etiqueta en la MPD es igual a id_IconoSonoro.

[0251] id_pista_IconoSonoro- es un número entero que identifica de manera exclusiva una pista de icono sonoro asociada con la región esférica durante toda la vida de una presentación, es decir, si la pista del/de los icono(s) sonoro(s) se entrega(n) en el mismo archivo ISO BMFF, la id_pista_IconoSonoro representa la correspondiente id_pista de la pista del/de los icono(s) sonoro(s). Si no se entrega el icono sonoro dentro del mismo archivo ISO BMFF, SE DEBE ajustar este valor a cero.

[0252] Para una fácil identificación de la pista de icono(s) sonoro(s) en el nivel de la MPD, se puede utilizar el siguiente atributo/elemento ComponenteIconoSonoro@etiqueta:

[0253] Resumen de los elementos y atributos relevantes de MPD para audio MPEG-H

[0255]

[0257] En el caso del audio MPEG-H esto se puede implementar, en los ejemplos, haciendo uso de los paquetes MHAS: • se puede definir un nuevo paquete MHAS para llevar información acerca de los iconos sonoros: PACTYP_ICONOSONOROS que lleva la estructura InfoIconoSonoro();

[0258] • un nuevo campo de identificación en un paquete genérico MHAS METADATOS MHAS, para llevar la estructura InfoIconoSonoro().

[0259] Con respecto a los metadatos, el procesador de metadatos 132 puede tener al menos algunas de las siguientes capacidades:

[0260] extraer metadatos de mensajes de información de audio de un flujo;

[0261] modificar metadatos de mensajes de información de audio para activar el mensaje de información de audio y/o establecer/cambiar su posición y/o escribir/modificar una etiqueta de texto de mensajes de información de audio; volver a incluir los metadatos en un flujo;

[0262] alimentar el flujo a un decodificador de medios adicional;

[0263] extraer metadatos de audio del al menos un primer flujo de audio (116);

[0264] extraer metadatos de mensajes de información de audio de un flujo adicional;

[0265] modificar metadatos de mensajes de información de audio para activar el mensaje de información de audio y/o establecer/cambiar su posición y/o escribir/modificar una etiqueta de texto de mensajes de información de audio; modificar metadatos de audio del al menos un primer flujo de audio (116) con el fin de tener en cuenta la existencia del mensaje de información de audio y permitir la fusión;

[0266] alimentar un flujo al multiplexor o combinador para multiplexarlo o combinarlo basándose en la información recibida del procesador de ROI.

[0267] 6.4 Ejemplo de la figura 3

[0268] La figura 3 muestra un sistema 300 que comprende, en el lado del cliente 204, un sistema 302 (sistema del cliente) que puede incorporar, por ejemplo, el sistema 100 o 200.

[0269] El sistema 302 puede comprender el procesador de ROI 120, el procesador de metadatos 132, un grupo de decodificadores 313 formado por una pluralidad de decodificadores 112.

[0270] En este ejemplo, se codifican diferentes flujos de audio (cada uno en un respectivo decodificador de audio de medios 112) y posteriormente se mezclan y/o renderizan entre sí para proporcionar la escena de audio final.

[0271] El al menos un flujo de audio está representado en este caso como que comprende dos flujos 116 y 316 (otros ejemplos pueden proporcionar un solo flujo, tal como en la figura 2, o más de dos flujos). Estos son los flujos de audio que se destinan a la reproducción de la escena de audio que se espera que experimente el usuario. En este caso, se hace referencia a los iconos sonoros, aunque es posible generalizar el concepto a cualquier mensaje de información de audio.

[0272] Además, un flujo de iconos sonoros 140 puede proporcionarse por el codificador de medios 240. Basándose en los movimientos del usuario y de las ROI indicados en los metadatos de área de visualización 131 y/u otros criterios, el procesador de ROI genera la reproducción de un icono sonoro a partir del flujo de iconos sonoros 140 (también indicado como flujo de audio adicional, ya que se suma a los flujos de audio 116 y 316).

[0273] Notablemente, la representación real del icono sonoro se basará en los metadatos de icono sonoro 141 y en las modificaciones realizadas por el procesador de metadatos 132.

[0274] En los ejemplos, el sistema 302 (cliente) puede solicitar el flujo al codificador de medios 240 (servidor) en caso de necesidad. Por ejemplo, el procesador de ROI puede decidir que, basándose en los movimientos del usuario, pronto se va a necesitar un determinado icono sonoro y, por lo tanto, puede solicitar un flujo de iconos sonoros apropiado 140 al codificador de medios 240.

[0275] Cabe señalar los siguientes aspectos de este ejemplo:

[0276] • Caso de uso: los datos de audio se entregan en uno o más flujos de audio 116, 316 (por ejemplo, un flujo principal y un flujo auxiliar) en tanto que el/los icono(s) sonoro(s) se entrega(n) en uno o más flujos adicionales 140 (dependientes o independientes del flujo de audio principal)

[0277] • En una implementación del lado del cliente 204 se utiliza el procesador de ROI 120 y el procesador de metadatos 132 para procesar la información de iconos sonoros de manera eficiente

[0278] • El procesador de ROI 120 puede recibir información 122 acerca del área de visualización actual (información de orientación del usuario) del lado del dispositivo de consumo de medios 206 utilizado para el consumo de contenidos (por ejemplo, basándose en un HMD). El procesador de ROI también puede recibir información acerca de la ROI señalizada en los metadatos (las áreas de visualización de vídeo se señalizan según el OMAF).

[0279] • Basándose en esta información, el procesador de ROI 120 puede decidir activar uno (o más) iconos sonoros contenidos en el flujo de audio de icono sonoro 140. Además, el procesador de ROI 120 puede decidir sobre una ubicación diferente de los iconos sonoros y valores de ganancia diferentes (por ejemplo, para una representación más exacta del icono sonoro en el espacio actual en que se consume el contenido).

[0280] • El procesador de ROI 120 proporciona esta información al procesador de metadatos 132.

[0281] • El procesador de metadatos 132 puede analizar los metadatos contenidos en el flujo de audio de ¡cono sonoro y

[0282] • habilitar el icono sonoro (con el fin de permitir su reproducción)

[0284] • y, si así lo solicita el procesador de ROI 120, modificar la posición espacial e información de ganancia contenida en los metadatos de icono sonoro 141 en consecuencia.

[0286] • A continuación, se decodifica y renderiza cada flujo de audio 116, 316, 140 (basándose en la información de posición del usuario) de modo independiente y el mezclador o renderizador 314 mezcla la salida de todos los decodificadores de medios como etapa final. Una implementación diferente puede decodificar solo el audio comprimido y proporcionar los datos de audio decodificados y los metadatos a un renderizador común general para la renderización final de todos los elementos de audio (incluyendo los iconos sonoros).

[0288] • Además, en un entorno de emisión en continuo, basándose en la misma información, el procesador de ROI 120 puede decidir solicitar el/los flujos de icono(s) sonoro(s) 140 de antemano (por ejemplo, cuando el usuario está mirando en la dirección errónea pocos segundos antes de la habilitación de la ROI.

[0290] 6.5 Ejemplo de la figura 4

[0292] La figura 4 muestra un sistema 400 que comprende, en el lado del cliente 204, un sistema 402 (sistema del cliente) que puede incorporar, por ejemplo, el sistema 100 o 200. En este caso, se hace referencia a los iconos sonoros, aunque es posible generalizar el concepto a cualquier mensaje de información de audio.

[0294] El sistema 402 puede comprender el procesador de ROI 120, el procesador de metadatos 132, un multiplexor o combinador de flujos 412. En virtud del multiplexor o combinador 412, el número de operaciones que el hardware ha de realizar se reduce ventajosamente con respecto al número de operaciones que se debe ejecutar cuando se utilizan múltiples decodificadores y un mezclador o renderizador.

[0296] En este ejemplo, se procesan diferentes flujos de audio basándose en sus metadatos y se multiplexan o se combinan en el elemento 412.

[0298] El al menos un flujo de audio está representado en este caso como que comprende dos flujos 116 y 316 (otros ejemplos pueden proporcionar un solo flujo, tal como en la figura 2, o más de dos flujos). Estos son los flujos de audio que se destinan a la reproducción de la escena de audio que se espera que experimente el usuario.

[0300] Además, un flujo de iconos sonoros 140 puede proporcionarse por el codificador de medios 240. Basándose en los movimientos del usuario y de las ROI indicadas en los metadatos de área de visualización 131 y/u otros criterios, el procesador de ROI 120 genera la reproducción de un icono sonoro a partir del flujo de iconos sonoros 140 (que también se indica como flujo de audio adicional ya que se suma a los flujos de audio 116 y 316).

[0302] Cada flujo de audio 116, 316, 140 puede incluir metadatos 236, 416, 141, respectivamente. Al menos algunos de estos metadatos se manipulan y/o procesan para proporcionarlos al combinador o multiplexor de flujos 412 en el cual se fusionan entre sí los paquetes de los flujos de audio. En consecuencia, se representa el icono sonoro como parte de la escena de audio.

[0304] Por lo tanto, el combinador o multiplexor de flujos 412 proporciona un flujo de audio 414 que comprende metadatos de audio modificados 238 y metadatos de icono sonoro modificados 234, que pueden proporcionarse a un decodificador de audio 112 y decodificarse y reproducirse para el usuario.

[0306] Cabe señalar los siguientes aspectos de este ejemplo:

[0308] • Caso de uso: los datos de audio se entregan en uno o más flujos de audio 116, 316 (por ejemplo, un flujo principal 116 y un flujo auxiliar 316, aunque también se puede proporcionar un único flujo de audio) en tanto que el/los icono(s) sonoro(s) se distribuye(n) en uno o más flujos adicionales 140 (dependientes o independientes del flujo de audio principal 116)

[0310] • En una implementación del lado del cliente 204 se utiliza el procesador de ROI 120 y el procesador de metadatos 132 para procesar la información de iconos sonoros de manera eficiente

[0312] • El procesador de ROI 120 puede recibir información 122 sobre el área de visualización actual (información de orientación del usuario) desde el dispositivo de consumo de medios utilizado para el consumo de contenidos (por ejemplo, un HMD). El procesador de ROI 120 puede recibir además información sobre la ROI señalizada en los metadatos de icono sonoro 141 (las áreas de visualización de vídeo pueden señalizarse en un formato de aplicación de medios omnidireccional, OMAF).

[0313] • Basándose en esta información, el procesador de ROI 120 puede decidir activar uno (o más) iconos sonoros contenidos en el flujo de audio adicional 140. Además, el procesador de ROI 120 puede decidir sobre una ubicación diferente de los iconos sonoros y valores de ganancia diferentes (por ejemplo, para una representación más exacta del icono sonoro en el espacio actual en que se consume el contenido).

[0314] • El procesador de ROI 120 puede proporcionar esta información al procesador de metadatos 132.

[0315] • El procesador de metadatos 132 puede analizar los metadatos contenidos en el flujo de audio de icono sonoro y • habilitar el icono sonoro

[0316] • y, si así lo solicita el procesador de ROI, modificar la posición espacial y/o la información de ganancia y/o las etiquetas de texto contenidas en los metadatos de icono sonoro en consecuencia.

[0317] • El procesador de metadatos 132 puede analizar asimismo los metadatos de audio 236, 416 de todos los flujos de audio 116, 316 y manipular la información específica de audio de tal manera que se pueda usar el icono sonoro como parte de la escena de audio (por ejemplo, si la escena de audio tiene un lecho de 5.1 canales y 4 objetos, se agrega el elemento de audio de icono sonoro a la escena como quinto objeto. Todos los campos de metadatos se actualizan en consecuencia).p.

[0318] • Los datos de audio de cada flujo 116, 316 y los metadatos de audio y metadatos de icono sonoro modificados se proporcionan a un combinador o multiplexor de flujos que puede generar, basándose en esto, un flujo de audio 414 con un conjunto de metadatos (metadatos de audio modificados 238 y metadatos de icono sonoro modificados 234).

[0319] • Este flujo 414 puede decodificarse por un único decodificador de audio de medios 112 basándose en la información de posición del usuario 122.

[0320] • Además, en un entorno de emisión en continuo, basándose en la misma información, el procesador de ROI 120 puede decidir solicitar el/los flujo(s) de iconos sonoros 140 de antemano (por ejemplo, cuando el usuario mira en la dirección errónea pocos segundos antes de la habilitación de la ROI).

[0321] 6.6 Ejemplo de la figura 5

[0322] La figura 5 muestra un sistema 500 de acuerdo con la invención y que comprende, del lado del cliente 204, un sistema 502 (sistema del cliente) que puede incorporar, por ejemplo, el sistema 100 o 200. Aquí, se hace referencia a los iconos sonoros.

[0323] El sistema 502 puede comprender el procesador de ROI 120, el procesador de metadatos 132, un multiplexor o combinador de flujos 412.

[0324] En este ejemplo, una entidad remota (del lado del cliente) no proporciona un flujo de iconos sonoros, sino que se genera por el generador de audio sintético 246 (que también puede tener la capacidad de almacenar un flujo, para reutilizarse posteriormente, o para usar una versión comprimida/no comprimida almacenada de un sonido natural). Pese a ello, la entidad remota proporciona los metadatos de icono sonoro 141, por ejemplo, en un flujo de audio 116 (que no es un flujo de iconos sonoros). Por lo tanto, se puede activar el generador de audio sintético 246 para crear un flujo de audio 140 basándose en los atributos de los metadatos de icono sonoro 141. Por ejemplo, los atributos se pueden referir a un tipo de voz sintetizada (sonido natural, sonido sintético, texto hablado y demás) y/o etiquetas de texto (el icono sonoro se puede generar mediante la creación de sonido sintético basado en el texto de los metadatos). En los ejemplos, una vez creado el flujo de iconos sonoros, este puede almacenarse para reutilizarse en el futuro. Por otro lado, el sonido sintético puede ser un sonido genérico almacenado de manera permanente en el dispositivo. Se emplea un combinador o multiplexor de flujos 412 para fusionar paquetes del flujo de audio 116 (y también en el caso de otros flujos, tales como el flujo de audio auxiliar 316) con los paquetes del flujo de iconos sonoros generados por el generador 246. Con posterioridad a eso, se obtiene un flujo de audio 414 que está asociado a los metadatos de audio modificados 238 y metadatos de icono sonoro modificados 234. El flujo de audio 414 se decodifica por el decodificador 112 y reproducirse al usuario del lado del dispositivo de consumo de medios 206.

[0325] Cabe señalar los siguientes aspectos de este ejemplo:

[0326] • Caso de uso:

[0327] • Los datos de audio se distribuyen en uno o más flujos de audio (por ejemplo, un flujo principal y un flujo auxiliar) • No se distribuyen iconos sonoros desde el dispositivo remoto, sino que los metadatos de icono sonoro 141 se entregan como parte del flujo de audio principal (se puede emplear una señalización específica para indicar que el icono sonoro no cuenta con datos de audios asociados)

[0328] • En una implementación del lado del cliente, se utiliza el procesador de ROI 120 y el procesador de metadatos 132 para procesar con eficiencia la información de icono sonoro

[0329] • El procesador de ROI 120 puede recibir información sobre el área de visualización actual (información de orientación del usuario) desde el dispositivo empleado del lado del dispositivo de consumo de contenidos 206 (por ejemplo, un HMD). El procesador de ROI 120 también puede recibir información sobre la ROI señalizada en los metadatos (las áreas de visualización de vídeo se señalizan según el OMAF).

[0330] • Basándose en esta información, el procesador de ROI 120 puede decidir activar uno (o más) iconos sonoros NO presentes en el flujo 116. Además, el procesador de ROI 120 puede decidir sobre una ubicación diferente de los iconos sonoros y valores de ganancia diferentes (por ejemplo, para una representación más exacta del icono sonoro en el espacio actual en que se consume el contenido)..

[0331] • El procesador de ROI 120 puede proporcionar esta información al procesador de metadatos 132.

[0332] • El procesador de metadatos 120 puede analizar los metadatos contenidos en el flujo de audio 116 y puede • habilitar un icono sonoro

[0333] • y, si así lo solicita el procesador de ROI 120, modificar la posición espacial y la información de ganancia contenida en los metadatos de icono sonoro 141 en consecuencia.

[0334] • El procesador de metadatos 132 puede analizar asimismo los metadatos de audio (por ejemplo, 236, 417) de todos los flujos de audio (116, 316) y manipular la información específica de audio de tal manera que se pueda usar el icono sonoro como parte de la escena de audio (por ejemplo, si la escena de audio tiene un lecho de 5.1 canales y 4 objetos, se agrega el elemento de audio de icono sonoro a la escena como quinto objeto. Todos los campos de metadatos se actualizan en consecuencia).

[0335] • Los metadatos modificados de icono sonoro y la información obtenida del procesador de ROI 120 se proporcionan al generador de audio sintético 246. El generador de audio sintético 246 puede crear, basándose en la información recibida, un sonido sintético (por ejemplo, basándose en la posición espacial del icono sonoro se genera una señal de voz que deletrea la ubicación). Además, los metadatos de icono sonoro 141 se asocian a los datos de audio generados formando un nuevo flujo 414.

[0336] • De modo similar, como antes, a continuación se envían los datos de audio de cada flujo (116, 316) y los metadatos de audio y metadatos de icono sonoro modificados a un multiplexor de flujos que genera, basándose en esto, un flujo de audio individual con un conjunto de metadatos (audio e icono sonoro).

[0337] • Este flujo 414 se decodifica por un único decodificador de audio de medios 112 basándose en la información de posición del usuario

[0338] • Por otro lado o además, los datos de audio del icono sonoro pueden recuperarse en el cliente (por ejemplo, de usos anteriores del icono sonoro)

[0339] • Por otro lado, la salida del generador de audio sintético 246 puede ser audio no comprimido y puede mezclarse en la escena renderizada final

[0340] • Además, en un entorno de emisión en continuo, basándose en la misma información, el procesador de ROI 120 puede decidir solicitar el/los flujo(s) de iconos sonoros de antemano (por ejemplo, cuando el usuario mira en la dirección errónea pocos segundos antes de la habilitación de la ROI).

[0341] 6.7 Ejemplo de la figura 6

[0342] La figura 6 muestra un sistema 600 que comprende, del lado del cliente 204, un sistema 602 (sistema del cliente) que puede incorporar, por ejemplo, el sistema 100 o 200. Aquí, se hace referencia a los iconos sonoros.

[0343] El sistema 602 puede comprender el procesador de ROI 120, el procesador de metadatos 132, un combinador o multiplexor de flujos 412.

[0344] En este ejemplo, una entidad remota (del lado del cliente) no proporciona un flujo de iconos sonoros, sino que se genera por el generador de audio sintético 236 (que también puede tener la capacidad de almacenar un flujo, para reutilizarlo posteriormente).

[0345] En este ejemplo, la entidad remota no proporciona los metadatos de icono sonoro 141. Los metadatos de icono sonoro se generan por un generador de metadatos 432 que puede generar metadatos de icono sonoro que van a utilizarse (por ejemplo, procesarse, manipularse, modificarse) por el procesador de metadatos 132. Los metadatos de icono sonoro 141 generados por el generador de metadatos de iconos sonoros 432 pueden tener la misma estructura y/o formato y/o atributos que los metadatos de icono sonoro descritos con respecto a los ejemplos anteriores.

[0346] El procesador de metadatos 132 puede funcionar como en el ejemplo de la figura 5. Se puede activar un generador de audio sintético 246 para crear un flujo de audio 140 basándose en los atributos de los metadatos de icono sonoro 141. Por ejemplo, los atributos se pueden referir a un tipo de voz sintetizada (sonido natural, sonido sintético, texto hablado y demás), y/o a la ganancia, y/o al estado de activación/ falta de activación y demás. En los ejemplos, una vez que se ha creado el flujo de iconos sonoros 140, este puede almacenarse (por ejemplo, en caché) para reutilizarlo en el futuro. También es posible almacenar (por ejemplo, en caché) los metadatos de icono sonoro generados por el generador de metadatos de iconos sonoros 432.

[0347] Se usa un combinador o multiplexor de flujos 412 para fusionar paquetes del flujo de audio 116 (y también en el caso de otros flujos, tal como el flujo de audio auxiliar 316) con los paquetes del flujo de iconos sonoros generados por el generador 246. Con posterioridad a eso, se obtiene un flujo de audio 414 que está asociado a los metadatos de audio modificados 238 y metadatos de icono sonoro modificados 234. El flujo de audio 414 se decodifica por el decodificador 112 y reproducirse al usuario del lado del dispositivo de consumo de medios 206.

[0348] Cabe señalar los siguientes aspectos de este ejemplo:

[0349] • Caso de uso:

[0350] • Los datos de audio se distribuyen en uno o más flujos de audio (por ejemplo, un flujo principal 116 y un flujo auxiliar 316)

[0351] • No se distribuyen iconos sonoros desde el lado del cliente 202,

[0352] • No se distribuyen metadatos de icono sonoro desde el lado del cliente 202

[0353] • Este caso de uso puede representar una solución para habilitar iconos sonoros para contenido anterior que se creó sin iconos sonoros

[0354] • En una implementación del lado del cliente, se utilizan el procesador de ROI 120 y el procesador de metadatos 232 para procesar de manera eficiente la información de icono sonoro

[0355] • El procesador de ROI 120 puede recibir información 122 sobre el área de visualización actual (información de orientación del usuario) desde el dispositivo usado del lado del dispositivo de consumo de contenidos 206 (por ejemplo, un HMD). El procesador de ROI 210 puede recibir además información sobre la ROI señalizada en los metadatos (las áreas de visualización de vídeo se señalizan según el OMAF).

[0356] • Basándose en esta información, el procesador de ROI 120 puede decidir activar uno (o más) iconos sonoros que NO están presentes en el flujo (116, 316).

[0357] • Además, el procesador de ROI 120 puede proporcionar información sobre la ubicación de los iconos sonoros y los valores de ganancia al generador de metadatos de iconos sonoros 432.

[0358] • El procesador de ROI 120 puede proporcionar esta información al procesador de metadatos 232.

[0359] • El procesador de metadatos 232 puede analizar los metadatos contenidos en un flujo de audio de icono sonoro (en caso de estar presente) y puede:

[0360] • habilitar el icono sonoro

[0361] • y, si así lo solicita el procesador de ROI 120, modificar la posición espacial y la información de ganancia contenida en los metadatos de icono sonoro en consecuencia.

[0362] • El procesador de metadatos también puede analizar los metadatos de audio 236, 417 de todos los flujos de audio 116, 316 y manipular la información específica de audio de tal manera que se pueda usar el icono sonoro como parte de la escena de audio (por ejemplo, si la escena de audio tiene un lecho de 5.1 canales y 4 objetos, se agrega el elemento de audio de ¡cono sonoro a la escena como quinto objeto. Todos los campos de metadatos se actualizan en consecuencia).

[0363] • Los metadatos modificados de icono sonoro 234 y la información obtenida del procesador de ROI 120 se proporcionan al generador de audio sintético 246. El generador de audio sintético 246 puede crear, basándose en la información recibida, un sonido sintético (por ejemplo, basándose en la posición espacial del icono sonoro se genera una señal de voz que deletrea la ubicación). Además, los metadatos de icono sonoro se asocian a los datos de audio generados formando un nuevo flujo

[0364] • De modo similar, como antes, los datos de audio de cada flujo y los metadatos de audio y metadatos de icono sonoro modificados se proporcionan entonces a un combinador o multiplexor de flujos 412 que puede generar, basándose en esto, un flujo de audio 414 con un conjunto de metadatos (audio e icono sonoro).

[0365] • Este flujo 414 se decodifica por un único decodificador de audio de medios basándose en la información de posición del usuario

[0366] • Por otro lado, los datos de audio del icono sonoro pueden estar almacenados en la memoria caché del cliente (por ejemplo, de usos anteriores de iconos sonoros)

[0367] • Por otro lado, la salida del generador de audio sintético puede ser audio sin comprimir y se puede mezclar con la escena renderizada final

[0368] • Además, en un entorno de emisión en continuo, basándose en la misma información, el procesador de ROI 120 puede decidir solicitar el/los flujo(s) de iconos sonoros de antemano (por ejemplo, cuando el usuario mira en la dirección errónea pocos segundos antes de la habilitación de la ROI)

[0369] 6.8 Ejemplo basado en la posición del usuario

[0370] Es posible implementar una función que permita reproducir un icono sonoro solo cuando un usuario no ve la ROI. El procesador de ROI 120 puede verificar periódicamente, por ejemplo, los datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento 122. Si la ROI es visible para el usuario, no se provoca la reproducción del icono sonoro.

[0371] Si, a partir de los datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento, el procesador de ROI determina que la ROI no es visible para el usuario, el procesador de ROI 120 puede solicitar una reproducción del icono sonoro. En este caso, el procesador de ROI 120 puede hacer que el procesador de metadatos 132 prepare la reproducción del icono sonoro. El procesador de metadatos 132 puede usar una de las técnicas descritas para los ejemplos anteriores. Por ejemplo, los metadatos se pueden adquirir en un flujo entregado por el lado del servidor 202, pueden generarse por el generador de metadatos de iconos sonoros 432 y demás. Los atributos de los metadatos de icono sonoro pueden modificarse fácilmente basándose en las solicitudes del procesador de ROI y/o diversas condiciones. Por ejemplo, si una selección del usuario ya ha deshabilitado el icono sonoro, no se reproduce el icono sonoro, aunque el usuario no vea la ROI. Por ejemplo, si un temporizador (previamente configurado) aún no ha expirado, el icono sonoro no se reproduce, aunque el usuario no vea la ROI. Además, si, a partir de los datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento, el procesador de ROI determina que la ROI es visible para el usuario, el procesador de ROI 120 puede solicitar que no se realice una reproducción del icono sonoro, especialmente si los metadatos de icono sonoro ya contienen la señalización para un icono sonoro activo.

[0372] En este caso, el procesador de ROI 120 puede hacer que el procesador de metadatos 132 deshabilite la reproducción del icono sonoro. El procesador de metadatos 132 puede usar una de las técnicas descritas para los ejemplos anteriores. Por ejemplo, los metadatos pueden adquirirse en un flujo transmitido por el lado del servidor 202, pueden generarse por el generador de metadatos de iconos sonoros 432, y demás. Los atributos de los metadatos de icono sonoro pueden modificarse fácilmente basándose en las solicitudes del procesador de ROI y/o diversas condiciones. Si los metadatos ya contienen la indicación de que se debe reproducir un icono sonoro, los metadatos se modifican, en este caso, para indicar que el icono sonoro está inactivo y no se debe reproducir.

[0373] Cabe señalar los siguientes aspectos de este ejemplo:

[0374] • Caso de uso:

[0375] • Los datos de audio se distribuyen en uno o más flujos de audio 116, 316 (por ejemplo, un flujo principal y un flujo auxiliar) en tanto que el/los icono(s) sonoro(s) se distribuye(n) en el mismo uno o más flujos de audio 116, 316 o en uno o más flujos adicionales 140 (dependientes o independientes del flujo de audio principal) • Los metadatos de icono sonoro se configuran de tal manera que indiquen el icono sonoro que ha de estar activo siempre en momentos temporales específicos.

[0376] • Una primera generación de dispositivos que no incluyen el procesador de ROI leería los metadatos de icono sonoro y provocaría la reproducción del icono sonoro independientemente del hecho de que los datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento indican que la ROI es visible para el usuario

[0377] • Una generación de dispositivos más reciente que incluye un procesador de ROI tal como se describe en cualquiera de los sistemas haría uso de la determinación del procesador de ROI. Si, a partir de los datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento, el procesador de ROI determina que la ROI es visible para el usuario, el procesador de ROI 120 puede solicitar que no se realice una reproducción del icono sonoro, especialmente si los metadatos de icono sonoro ya contienen la señalización de un icono sonoro activo. En este caso, el procesador de ROI 120 puede hacer que el procesador de metadatos 132 deshabilite la reproducción del icono sonoro. El procesador de metadatos 132 puede usar una de las técnicas descritas para los ejemplos anteriores. Por ejemplo, los metadatos pueden adquirirse en un flujo transmitido por el lado del servidor 202, pueden generarse por el generador de metadatos de iconos sonoros 432, y demás. Los atributos de los metadatos de icono sonoro pueden modificarse fácilmente basándose en las solicitudes del procesador de ROI y/o diversas condiciones. Si los metadatos ya contienen la indicación de que se debe reproducir un icono sonoro, los metadatos se modifican, en este caso, para indicar que el icono sonoro está inactivo y no se debe reproducir.

[0378] • Además, dependiendo del dispositivo de reproducción, el procesador de ROI puede decidir solicitar la modificación de los metadatos de icono sonoro. Por ejemplo, se puede modificar la información especial del icono sonoro de manera diferente si el sonido se reproduce a través de auriculares o de altavoces.

[0379] Por lo tanto, la escena de audio final experimentada por el usuario se obtiene basándose en las modificaciones de los metadatos ejecutadas por el procesador de metadatos.

[0380] 6.9 Ejemplo basado en la comunicación servidor cliente (figura 5a)

[0381] La figura 5a muestra un sistema 550 que comprende, del lado del cliente 204, un sistema 552 (sistema del cliente) que puede incorporar, por ejemplo, el sistema 100 o 200 o 300 o 400 o 500. En este caso, se hace referencia a los iconos sonoros, aunque es posible generalizar el concepto a cualquier mensaje de información de audio.

[0382] El sistema 552 puede comprender el procesador de ROI 120, el procesador de metadatos 132, un combinador o multiplexor de flujos 412. (En los ejemplos, se decodifican diferentes flujos de audio (cada uno mediante un respectivo decodificador de audio de medios 112) y posteriormente se mezclan entre sí y/o se renderizan juntos para proporcionar la escena de audio final).

[0383] El al menos un flujo de audio se representa en este caso como que comprende dos flujos 116 y 316 (otros ejemplos pueden proporcionar un único flujo, como en la figura 2, o más de dos flujos). Estos son los flujos de audio que están destinados a reproducir la escena de audio que se espera que el usuario experimente.

[0384] Además, un flujo de iconos sonoros 140 puede proporcionarse por el codificador de medios 240.

[0385] Los flujos de audio pueden codificarse con diferentes tasas de bits, lo que permite una adaptación eficiente de la tasa de bits dependiendo de la conexión de red (es decir, para usuarios que utilizan una conexión de alta velocidad se transmite la versión codificada con alta tasa de bits en tanto que en el caso de los usuarios con conexiones de red más lentas se transmite una versión a una tasa de bits más baja).

[0386] Los flujos de audio pueden almacenarse en un servidor de medios 554, donde para cada flujo de audio las diferentes codificaciones con diferentes tasas de bits se agrupan en un conjunto de adaptación 556 con los datos apropiados que señalizan la disponibilidad de todos los conjuntos de adaptación generados. Se pueden proporcionar conjuntos de adaptación de audio 556 y conjuntos de adaptación de vídeo 557.

[0387] Basándose en los movimientos del usuario y de las ROI indicadas en los metadatos de área de visualización 131 y/u otros criterios, el procesador de ROI 120 genera la reproducción de un icono sonoro a partir del flujo de iconos sonoros 140 (que también se indica como flujo de audio adicional ya que se suma a los flujos de audio 116 y 316).

[0388] En este ejemplo:

[0389] •el cliente 552 está configurado para recibir, del servidor, datos sobre la disponibilidad de todos los conjuntos de adaptación, incluyendo los conjuntos de adaptación disponibles:

[0390] oal menos un conjunto de adaptación de escena de audio para el al menos un flujo de audio; y

[0391] oal menos un conjunto de adaptación de mensajes de audio para el al menos un flujo de audio adicional que contiene al menos un mensaje de información de audio

[0392] •De manera similar a los demás ejemplos de implementación, el procesador de ROI 120 puede recibir información 122 sobre el área de visualización actual (información de orientación del usuario) a partir del lado del dispositivo de consumo de medios 206 utilizado para el consumo de contenidos (por ejemplo, basándose en un HMD). El procesador de ROI 120 también puede recibir información sobre la ROI señalizada en los metadatos (las áreas de visualización de vídeo se señalizan según el OMAF).

[0393] oBasándose en esta información, el procesador de ROI 120 puede decidir activar uno (o más) iconos sonoros contenidos en el flujo de audio de icono sonoro 140.

[0394] oAdemás, el procesador de ROI 120 puede decidir sobre una ubicación diferente de los iconos sonoros y valores de ganancia diferentes (por ejemplo, para una representación más exacta del icono sonoro en el espacio actual en que se consume el contenido).

[0395] oEl procesador de ROI 120 puede proporcionar esta información a un generador de datos de selección 558.

[0396] •un generador de datos de selección 558 puede estar configurado para crear, basándose en la decisión del procesador de ROI, datos de selección 559 que identifican cuáles de los conjuntos de adaptación se han de recibir; incluyendo los conjuntos de adaptación los conjuntos de adaptación de la escena de audio y los conjuntos de adaptación de mensajes de audio

[0397] •el servidor de medios 554 puede estar configurado para proporcionar datos de instrucción al cliente 552 para hacer que el cliente de emisión en continuo recupere los datos correspondientes a los conjuntos de adaptación 556, 557 identificados por los datos de selección que identifican cuáles de los conjuntos de adaptación se deben recibir; incluyendo los conjuntos de adaptación los conjuntos de adaptación de escenas de audio y los conjuntos de adaptación de mensajes de audio

[0398] •un módulo de descarga y conmutación 560 está configurado para recibir los flujos de audio solicitados desde el servidor de medios 554 basándose en los datos de selección que identifican cuáles de los conjuntos de adaptación se deben recibir; incluyendo los conjuntos de adaptación los conjuntos de adaptación de escenas de audio y los conjuntos de adaptación de mensajes de audio. El módulo de descarga y conmutación 560 puede estar configurado además para proporcionar los metadatos de audio y los metadatos de icono sonoro 141 al procesador de metadatos 132.

[0399] •El procesador de ROI 120 puede proporcionar esta información al procesador de metadatos 132.

[0400] •El procesador de metadatos 132 puede analizar los metadatos contenidos en el flujo de audio de icono sonoro 140 y

[0401] ohabilitar el icono sonoro (con el fin de permitir su reproducción)

[0402] oy, si así lo solicita el procesador de ROI 120, modificar la posición espacial y la información de ganancia contenida en los metadatos de icono sonoro 141 en consecuencia.

[0403] •El procesador de metadatos 132 puede analizar asimismo los metadatos de audio de todos los flujos de audio 116, 316 y manipular la información específica de audio de tal manera que se pueda usar el icono sonoro como parte de la escena de audio (por ejemplo, si la escena de audio tiene un lecho de 5.1 canales y 4 objetos, se agrega el elemento de audio de icono sonoro a la escena como quinto objeto. Todos los campos de metadatos pueden actualizarse en consecuencia).

[0404] •Los datos de audio de cada flujo 116, 316 y los metadatos de audio y metadatos de icono sonoro modificados se proporcionan a un combinador o multiplexor de flujos, que genera, basándose en esto, un flujo de audio 414 con un conjunto de metadatos (metadatos de audio modificados 238 y metadatos de icono sonoro modificados 234).

[0405] •Este flujo puede decodificarse por un único decodificador de audio de medios 112 basándose en la información de posición del usuario 122.

[0406] Un conjunto de adaptación puede estar formado por un conjunto de representaciones que contienen versiones intercambiables del contenido respectivo, por ejemplo, diferentes tasas de bits de audio (por ejemplo, diferentes flujos con diferentes tasas de bits). Si bien una única representación podría ser teóricamente suficiente para proporcionar un flujo reproducible, múltiples representaciones pueden brindar al cliente la posibilidad de adaptar el flujo de medios a las condiciones actuales de su red y requisitos de ancho de banda y, por lo tanto, garantizar una reproducción sin dificultades.

[0407] 6.10 Método

[0408] Todos los ejemplos anteriores pueden implementarse por etapas del método. En este caso, se describe un método 700 (que puede realizarse por cualquiera de los ejemplos anteriores) para completar la descripción. El método puede comprender:

[0409] en la etapa 702, recibir al menos un flujo de vídeo (106) y al menos un primer flujo de audio (116, 316), en la etapa 704, decodificar al menos una señal de vídeo a partir de al menos un flujo de vídeo (106) para la representación de una escena en un entorno de VR, AR, MR o vídeo de 360 grados (118a) a un usuario; y en la etapa 706, decodificar al menos una señal de audio de al menos un primer flujo de audio (116, 316) para la representación de una escena de audio (118b) a un usuario;

[0410] recibir datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento (122); y

[0411] en la etapa 708, recibir metadatos del área de visualización (131) asociados a al menos una señal de vídeo del al menos un flujo de vídeo (106), definiendo los metadatos del área de visualización al menos una ROI; y en la etapa 710, decidir, basándose en los datos del área de visualización actual del usuario y/o de la posición y/o de la orientación de la cabeza y/o del movimiento (122) y los metadatos del área de visualización y/u otros criterios, si un mensaje de información de audio asociado a la al menos una ROI debe reproducirse o no; y

[0412] en la etapa 712, recibir, procesar y/o manipular metadatos de mensajes de información de audio (141) que describen el mensaje de información de audio con el fin de provocar la reproducción del mensaje de información de audio según los atributos del mensaje de información de audio de tal manera que el mensaje de información de audio sea parte de la escena de audio.

[0413] Notablemente, la secuencia también puede variar. Por ejemplo, las etapas de recepción 702, 706, 708 pueden tener un orden diferente, según el orden real en el cual se entrega la información.

[0414] La línea 714 se refiere al hecho de que el método se puede reiterar. Se puede omitir la etapa 712 ante una decisión del procesador de ROI de no reproducir el mensaje de información de audio.

[0415] 6.11 Otras implementaciones

[0416] La figura 8 muestra un sistema 800 que puede implementar uno de los sistemas (o un componente de los mismos) o ejecutar el método 700. El sistema 800 puede comprender un procesador 802 y una unidad de memoria no transitoria 806 que almacena instrucciones que, al ser ejecutadas por el procesador 802, pueden hacer que el procesador ejecute al menos las operaciones de procesamiento de flujos comentadas anteriormente y/o las operaciones de procesamiento de metadatos comentadas anteriormente. El sistema 800 puede comprender una unidad de entrada/salida 804 para la conexión con dispositivos externos.

[0417] El sistema 800 puede implementar al menos algunas (o todas) las funciones del procesador de ROI 120, el procesador de metadatos 232, el generador 246, el combinador o multiplexor 412, el decodificador 112m, el generador de metadatos de iconos sonoros 432, y demás.

[0418] Dependiendo de ciertos requisitos de implementación, los ejemplos pueden implementarse en hardware. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo, un disco flexible, un disco versátil digital (DVD), un disco Blu-Ray, un disco compacto (CD) una memoria de solo lectura (ROM), una memoria programable de solo lectura (PROM), una memoria de solo lectura borrable y programable (EPROM), una memoria de solo lectura borrable y programable electrónicamente (EEPROM) o una memoria FLASH, que tiene almacenadas en la misma señales de control legibles electrónicamente, que actúan conjuntamente (o tienen capacidad para actuar conjuntamente) con un sistema informático programable de tal manera que se ejecute el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.

[0419] En general, los ejemplos pueden implementarse en forma de producto de programa informático con instrucciones de programa, cumpliendo las instrucciones de programa la función de realizar uno de los métodos al ejecutar el producto de programa informático en un ordenador. Las instrucciones de programa pueden almacenarse, por ejemplo, en un medio legible por máquina.

[0420] Otros ejemplos comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenado en un soporte legible por máquina. En otras palabras, un ejemplo del método es, por lo tanto, un programa informático que tiene instrucciones de programa para realizar uno de los métodos descritos en el presente documento al ejecutar el programa informático en un ordenador.

[0421] Un ejemplo adicional de los métodos es, por lo tanto, un medio de soporte de datos (o medio de almacenamiento digital, o medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los métodos descritos en el presente documento. El medio de soporte de datos, el medio de almacenamiento digital o el medio grabado son tangibles y/o no transitorios en lugar de señales que son intangibles y transitorias. Un ejemplo adicional comprende una unidad de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable que realiza uno de los métodos descritos en el presente documento.

[0422] Un ejemplo adicional comprende un ordenador en el que se ha instalado el programa informático para realizar uno de los métodos descritos en el presente documento.

[0423] Un ejemplo adicional comprende un aparato o un sistema para transferir (por ejemplo, por vía electrónica u óptica) un programa informático para realizar uno de los métodos descritos en el presente documento a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir un programa informático al receptor.

[0424] En algunos ejemplos, se puede utilizar un dispositivo lógico programable (por ejemplo, una matriz de puertas de campo programable) para ejecutar algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunos ejemplos, una matriz de puertas de campo programable puede actuar conjuntamente con un microprocesador con el fin de ejecutar uno de los métodos descritos en el presente documento. Por lo general, los métodos pueden realizarse por cualquier aparato de hardware apropiado.

[0425] Los ejemplos descritos anteriormente son ilustrativos de los principios comentados anteriormente. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento resultarán evidentes. Por lo tanto, se pretende que solo estén limitados por el alcance de las reivindicaciones de patente pendientes y no por los detalles específicos presentados a modo de descripción y explicación de los ejemplos en el presente documento.

Claims

1. REIVINDICACIONES

1. Un sistema configurado para:

recibir al menos un primer flujo de audio (116, 316),

en donde el sistema comprende:

un decodificador de audio de medios (112) para la representación de una escena de audio (118b) a un usuario;

un procesador (120), configurado para:

decidir, basándose en la orientación de la cabeza actual del usuario y/o los datos de movimiento (122), proporcionados por la(s) unidad(es) de posicionamiento/detección, si se debe reproducir un mensaje de información de audio, en donde el mensaje de información de audio es un icono sonoro; y

provocar, al decidirse que el mensaje de información de audio debe reproducirse, la reproducción del mensaje de información de audio,

el procesador que comprende además un procesador de metadatos (132) configurado para procesar metadatos de mensajes de información de audio (141) de modo que provoque, en la decisión de que el mensaje de información de audio se va a reproducir, la reproducción del mensaje de información de audio de acuerdo con los metadatos del mensaje de información de audio (141),

en donde el procesador de metadatos (132) está configurado para controlar un combinador o multiplexor (412) para fusionar, basándose en los metadatos del mensaje de información de audio, paquetes de un flujo de audio adicional (140) en el que el mensaje de información de audio (140) está codificado con paquetes del al menos un primer flujo de audio (116) en un flujo fusionado (414),

en donde el decodificador de audio de medios (112) está configurado para decodificar al menos una señal de audio del flujo fusionado (414).

2. Sistema según la reivindicación 1, que comprende además un generador de audio sintético (246) configurado para sintetizar el mensaje de información de audio basándose en los metadatos del mensaje de información de audio.

3. Sistema según la reivindicación 1, que comprende además:

en donde el procesador de metadatos (132) está configurado para recibir los metadatos del mensaje de información de audio (141) que describen el mensaje de información de audio, a fin de provocar la reproducción del mensaje de información de audio de acuerdo con los metadatos del mensaje de información de audio (141).

4. Sistema de dispositivo de consumo de contenidos según cualquiera de las reivindicaciones anteriores, en donde para cada flujo de audio se agrupan diferentes codificaciones a diferentes velocidades de bits en un conjunto de adaptación (556).

5. Sistema según cualquiera de las reivindicaciones anteriores, en donde el procesador de metadatos (132) está configurado para realizar al menos una de las siguientes operaciones:

incorporar metadatos en un flujo;

alimentar el flujo a un decodificador de medios adicional;

modificar los metadatos de audio de al menos un primer flujo de audio (116) para tener en cuenta la existencia del mensaje de información de audio y su fusión.

6. Sistema según cualquiera de las reivindicaciones anteriores, configurado además para:

recibir al menos unos metadatos de audio (236) que describen la al menos una señal de audio codificada en el al menos un primer flujo de audio (116);

recibir los metadatos del mensaje de información de audio (141) asociados con al menos un mensaje de información de audio del al menos un primer flujo de audio (116);

en la decisión de que el mensaje de información de audio debe reproducirse, modificarlos metadatos de mensajes de información de audio (141) para habilitar la reproducción del mensaje de información de audio, además de la reproducción de la al menos una señal de audio.

7. Sistema según la reivindicación 6, configurado además para:

modificar los metadatos de audio (236) que describen la al menos una señal de audio para fusionar el al menos un primer flujo de audio (116) y el al menos un flujo de audio adicional (140).

8. Sistema según cualquiera de las reivindicaciones anteriores, configurado además para obtener los metadatos del mensaje de información de audio (141) de al menos un flujo de audio adicional (140) en el que está codificado el mensaje de información de audio.

9. Sistema según cualquiera de las reivindicaciones anteriores, configurado además para:

recibir al menos un metadato de audio (236) que describe la al menos una señal de audio codificada en el al menos un flujo de audio (116);

recibir los metadatos del mensaje de información de audio (141) asociados con al menos un mensaje de información de audio de al menos un flujo de audio (116);

en la decisión de que el mensaje de información de audio se va a reproducir, proporcionar los metadatos del mensaje de información de audio (141) a un generador de audio sintético (246) para crear un flujo de audio sintético (140), a fin de asociar los metadatos del mensaje de información de audio (141) al flujo de audio sintético (140), y proporcionar el flujo de audio sintético (140) y los metadatos del mensaje de información de audio (141) al multiplexor o combinador (412) para fusionar el al menos un flujo de audio (116) y el flujo de audio sintético (140).

10. Sistema de cualquiera de las reivindicaciones anteriores, configurado para comprobar al menos uno de criterios adicionales para la reproducción del mensaje de información de audio, incluyendo además los criterios una selección y/o una configuración del usuario.

11. Sistema según cualquiera de las reivindicaciones anteriores, que comprende además:

un generador de metadatos de mensajes de información de audio (432) configurado para generar los metadatos del mensaje de información de audio (141) basándose en la decisión de que el mensaje de información de audio se debe reproducir.

12. Sistema según cualquiera de las reivindicaciones anteriores, en donde al menos un procesador (120) está configurado para realizar una búsqueda local de un flujo de audio adicional (140) en donde está codificado el mensaje de información de audio y, en caso de no recuperarlo, hacer que un generador de audio sintético (432) genere el flujo de audio adicional (140) en el que está codificado el mensaje de información de audio.

13. Sistema según cualquiera de las reivindicaciones anteriores, en donde los metadatos del mensaje de información de audio (141) están codificados en un marco de configuración o en un marco de datos que incluye al menos uno de:

un tipo de mensaje,

una indicación de dependencia/no dependencia de la escena,

datos de posición,

datos de ganancia,

una indicación de la presencia de una etiqueta de texto asociada,

número de idiomas disponibles,

idioma del mensaje de información de audio.

14. Sistema según cualquiera de las reivindicaciones anteriores, en donde el al menos un procesador (120) está configurado para realizar una búsqueda local de un flujo de audio adicional (140) en donde está codificado el mensaje de información de audio y, en caso de no recuperación, solicitar el flujo de audio adicional (140) a una entidad remota.

15. Sistema según cualquiera de las reivindicaciones anteriores, en donde el al menos un procesador (120) está configurado para realizar una búsqueda local de metadatos de un mensaje de información de audio adicional y, en caso de no recuperación, solicitar el flujo de audio adicional (140) en donde están codificados los metadatos del mensaje de información de audio a una entidad remota.

16. Sistema según cualquiera de las reivindicaciones anteriores, configurado además para:

recibir al menos un flujo de audio adicional (140); y

decodificar la al menos un flujo de audio adicional (140) si el al menos un procesador decide que el mensaje de información de audio debe reproducirse.

17. Sistema según cualquiera de las reivindicaciones anteriores, en el que los flujos de audio están formateados en el formato de flujo de audio 3D MPEG-H.

18. Sistema según cualquiera de las reivindicaciones anteriores, en donde el al menos un procesador (120) está configurado para elegir, entre una pluralidad de mensajes de información de audio que se va a reproducir, un primer mensaje de información de audio que se va a reproducir antes de un segundo mensaje de información de audio.

19. Sistema según cualquiera de las reivindicaciones anteriores, que comprende además una memoria caché (246) para almacenar el mensaje de información de audio recibido de una entidad remota (204) o generado sintéticamente, para reutilizar el mensaje de información de audio en diferentes momentos temporales.

20. Sistema según cualquiera de las reivindicaciones anteriores, configurado para solicitar al menos un primer flujo de audio, y para sintetizar el al menos un mensaje de información de audio basándose en los datos de orientación y/o movimiento de la cabeza actuales del usuario (122)..

21. Sistema según cualquiera de las reivindicaciones anteriores, configurado para:

recibir al menos un flujo de vídeo (106),

en el que el sistema comprende al menos un decodificador de vídeo de medios (102) configurado para decodificar al menos una señal de vídeo de al menos un flujo de vídeo (106) para la representación de una escena de entorno de VR, AR, MR o vídeo de 360 grados (118a) a un usuario.

22. Sistema según cualquiera de las reivindicaciones anteriores, en donde el mensaje de información de audio es independiente de la al menos una señal de audio.

23. Unidad de almacenamiento no transitable que comprende instrucciones que, cuando son ejecutadas por un procesador, hacen que el procesador:

decida, basándose en la orientación de la cabeza actual del usuario y/o los datos de movimiento (122), si se debe reproducir un mensaje de información de audio, en el que el mensaje de información de audio es un icono sonoro; y

en donde las instrucciones hacen que el procesador procese los metadatos del mensaje de información de audio (141) para provocar, ante la decisión de que el mensaje de información de audio se debe reproducir, la reproducción del mensaje de información de audio de acuerdo con los metadatos del mensaje de información de audio (141),

en donde las instrucciones hacen además que el procesador controle un combinador o multiplexor (412) para fusionar, basándose en los metadatos del mensaje de información de audio, paquetes de un flujo de audio adicional en el que el mensaje de información de audio (140) está codificado con paquetes de un flujo de audio, en donde está codificada la al menos una primera señal de audio, en un flujo fusionado (414),

en donde las instrucciones hacen además que el procesador descodifique al menos una señal de audio del flujo fusionado.

Método para representar una escena de audio (118b) a un usuario que comprende:

decidir, basándose en los datos del área de visualización actual del usuario y/o de la orientación de la cabeza y/o del movimiento (122) proporcionados por la(s) unidad(es) de posicionamiento/detección, si se debe reproducir un mensaje de información de audio, donde el mensaje de información de audio es un icono sonoro; y

provocar, al decidir que el mensaje de información de audio se reproduzca, la reproducción del mensaje de información de audio,

en donde el método comprende además procesar los metadatos del mensaje de información de audio (141) para provocar, al decidir que el mensaje de información de audio se reproduzca, la reproducción del mensaje de información de audio según los metadatos del mensaje de información de audio (141),

en donde el método comprende además controlar un combinador o multiplexor (412) para fusionar, basándose en los metadatos del mensaje de información de audio, paquetes de un flujo de audio adicional, en el que está codificado el mensaje de información de audio (140), con paquetes de al menos un primer flujo de audio (116) en un flujo (414),

decodificar al menos una señal de audio del flujo fusionado (414) para representar la escena de audio (118b) al usuario.