ES2974219T3 - Procesamiento de audio en servicios de audio inversivos - Google Patents

Procesamiento de audio en servicios de audio inversivos Download PDF

Info

Publication number
ES2974219T3
ES2974219T3 ES19836164T ES19836164T ES2974219T3 ES 2974219 T3 ES2974219 T3 ES 2974219T3 ES 19836164 T ES19836164 T ES 19836164T ES 19836164 T ES19836164 T ES 19836164T ES 2974219 T3 ES2974219 T3 ES 2974219T3
Authority
ES
Spain
Prior art keywords
audio
spatial
data
directional
microphone system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19836164T
Other languages
English (en)
Inventor
Stefan Bruhn
Juan Felix Torres
David S Mcgrath
Brian Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2974219T3 publication Critical patent/ES2974219T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/323Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers
    • H04R3/005Circuits for transducers for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

La divulgación en el presente documento se relaciona generalmente con la captura, el preprocesamiento acústico, la codificación, la decodificación y la representación de audio direccional de una escena de audio. En particular, se refiere a un dispositivo adaptado para modificar una propiedad direccional de un audio direccional capturado en respuesta a datos espaciales de un sistema de micrófono que captura el audio direccional. La divulgación se refiere además a un dispositivo de representación configurado para modificar una propiedad direccional de un audio direccional recibido en respuesta a datos espaciales recibidos. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procesamiento de audio en servicios de audio inversivos
Referencia cruzada a solicitudes relacionadas
Esta solicitud reivindica el beneficio de prioridad de las solicitudes de patente provisional de los Estados Unidos núm. 62/760,262 presentada el 13 de noviembre de 2018; núm. 62/793.666 presentada el 17 de enero de 2019, núm. 62/795.236 presentada el 22 de enero de 2019; y núm. 62/797.563 presentada el 28 de enero de 2019.Campo técnico
La divulgación en el presente documento se relaciona generalmente con la captura, el preprocesamiento acústico, la codificación, la decodificación y el renderizado de audio direccional de una escena de audio. En particular, se refiere a un dispositivo adaptado para modificar una propiedad direccional de un audio direccional capturado en respuesta a datos espaciales de un sistema de micrófono que captura el audio direccional. La divulgación se refiere además a un dispositivo de renderizado configurado para modificar una propiedad direccional de un audio direccional recibido en respuesta a datos espaciales recibidos.
Antecedentes
La introducción del acceso inalámbrico de alta velocidad 4G/5G a las redes de telecomunicaciones, combinada con la disponibilidad de plataformas de hardware cada vez más potentes, ha proporcionado una base para que los servicios multimedia y de comunicaciones avanzados sean desplegados más rápida y fácilmente que nunca. El códec de servicios de voz mejorados (EVS) del proyecto de asociación de tercera generación (3GPP) ha brindado una mejora muy significativa en la experiencia del usuario con la introducción de codificación de voz y audio de banda súper ancha (SWB) y banda completa (FB), junto con resiliencia a la pérdida paquetes mejorada. Sin embargo, el ancho de banda de audio ampliado es solo una de las dimensiones necesarias para una experiencia verdaderamente inmersiva. Idealmente, se requiere soporte más allá del mono y multimono que ofrece EVS actualmente para sumergir al usuario en un mundo virtual convincente de una manera eficiente en el uso de recursos.
Además, los códecs de audio especificados actualmente en 3GPP proporcionan una calidad y compresión adecuadas para contenido estéreo, pero carecen de las funciones conversacionales (por ejemplo, una latencia suficientemente baja) necesarias para la voz conversacional y las teleconferencias. Estos codificadores también carecen de la funcionalidad multicanal que es necesaria para servicios inmersivos, como transmisión de contenido en vivo y generado por el usuario, realidad virtual (VR) y teleconferencias inmersivas.
Se ha propuesto el desarrollo de una extensión del códec EVS para los servicios inmersivos de voz y audio (IVAS) para llenar este vacío tecnológico y abordar la creciente demanda de servicios multimedia enriquecidos. Además, las aplicaciones de teleconferencia a través de 4G/5G se beneficiarán de un códec IVAS usado como codificador conversacional mejorado que soporta codificación de múltiples transmisiones (por ejemplo, audio basado en canales, objetos y escenas). Los casos de uso para este códec de próxima generación incluyen, entre otros, voz conversacional, teleconferencias de transmisión múltiple, conversación de realidad virtual y transmisión de contenido en vivo y no en vivo generado por el usuario.
Por lo tanto, se espera que IVAS ofrezca experiencias de usuario inmersivas, VR, AR y/o XR. En muchas de estas aplicaciones, un dispositivo (por ejemplo, un teléfono móvil) que captura audio direccional (inmersivo) puede en muchos casos moverse durante la sesión en relación con la escena acústica, provocando una rotación espacial y/o un movimiento de traslación de la escena de audio capturada. Dependiendo del tipo de experiencia proporcionada, por ejemplo, inmersivo, VR, AR o XR y, dependiendo del caso de uso específico, este comportamiento puede ser deseado o no. Por ejemplo, puede resultar perturbador para un oyente si la escena renderizada siempre gira cada vez que gira el dispositivo de captura. En el peor de los casos, puede provocar mareo.
Un ejemplo de un aparato para mezclar al menos dos señales de audio usando metadatos espaciales es el documento WO 2017/182714 A1.
Por tanto, es necesario introducir mejoras en este contexto.
Breve descripción de los dibujos
A continuación se describirán realizaciones de ejemplo con referencia a los dibujos adjuntos, en los que:
La figura 1 muestra un método para codificar audio direccional de acuerdo con realizaciones,
la figura 2 muestra un método para renderizar audio direccional de acuerdo con realizaciones, la figura 3 muestra un dispositivo codificador configurado para realizar el método de la figura 1 de acuerdo con realizaciones,
la figura 4 muestra un dispositivo de renderizado configurado para realizar el método de la figura 2 de acuerdo con realizaciones,
la figura 5 muestra un sistema que comprende los dispositivos de la figura 3 y la figura 4 de acuerdo con realizaciones,
la figura 6 muestra un escenario de conferencia de realidad virtual física de acuerdo con realizaciones, la figura 7 muestra un espacio de conferencia virtual de acuerdo con realizaciones.
Todas las figuras son esquemáticas y generalmente solo muestran partes que son necesarias para aclarar la divulgación, mientras que otras partes pueden omitirse o simplemente sugerirse. A menos que se indique lo contrario, números de referencia similares se refieren a partes similares en figuras diferentes.
Descripción detallada
En vista de lo anterior, es por tanto un objeto proporcionar dispositivos y métodos asociados según las reivindicaciones adjuntas para captura, preprocesamiento acústico y/o codificación para compensar movimientos no deseados de la escena sonora espacial que pueden resultar de movimientos inadvertidos de un sistema de micrófono que captura audio direccional. Un objeto adicional es proporcionar un decodificador y/o dispositivo de renderizado correspondiente y métodos asociados para decodificar y renderizar audio direccional según las reivindicaciones adjuntas. Sistemas que comprenden, por ejemplo, el dispositivo codificador y el dispositivo de renderizado también se proporcionan según las reivindicaciones adjuntas.
I. Descripción general: lado de emisión
De acuerdo con un primer aspecto, se proporciona un dispositivo que comprende o está conectado a un sistema de micrófono que comprende uno o más micrófonos para capturar audio. El dispositivo (también denominado en el presente documento lado de emisión o dispositivo de captura) comprende una unidad de recepción configurada para:
- recibir audio direccional capturado por el sistema de micrófono;
- recibir metadatos asociados con el sistema de micrófono, comprendiendo los metadatos datos espaciales del sistema de micrófono, siendo los datos espaciales indicativos de una orientación espacial y/o posición espacial del sistema de micrófono y comprendiendo al menos uno de la lista de: un acimut, un cabeceo, ángulo o ángulos de balanceo y coordenadas espaciales del sistema de micrófono.
En esta divulgación, el término "audio direccional" (sonido direccional) generalmente se refiere a audio inmersivo, es decir, audio capturado por sistemas de micrófonos direccionales que pueden captar sonidos, incluidas las direcciones desde las que llegan. La reproducción de audio direccional permite una experiencia de sonido tridimensional natural (renderizado binaural). El audio, que puede comprender objetos de audio y/o canales (por ejemplo, que representan audio basado en escenas en formato Ambisonics B o audio basado en canales), se asocia así con las direcciones desde las que se recibe. En otras palabras, el audio direccional proviene de las fuentes direccionales e incide desde una dirección de llegada (DOA) representada, por ejemplo, por ángulos de acimut y elevación. Por el contrario, se supone que el sonido ambiental difuso es omnidireccional, es decir, espacialmente invariante o espacialmente uniforme. Otras expresiones que pueden usarse para la característica de "audio direccional" incluyen "audio espacial", "sonido espacial", "audio inmersivo", "sonido inmersivo", "estéreo" y "audio envolvente".
En esta divulgación, el término "coordenadas espaciales" generalmente se refiere a la posición espacial del sistema de micrófono o el dispositivo de captura en el espacio. Las coordenadas cartesianas son una realización de las coordenadas espaciales. Otros ejemplos incluyen coordenadas cilíndricas o esféricas. Cabe señalar que la posición en el espacio puede ser relativa (por ejemplo, coordenadas en una habitación o relativa a otro dispositivo/unidad, etc.) o absoluta (por ejemplo, coordenadas GPS o similar).
En esta divulgación, los "datos espaciales" generalmente indican una orientación rotacional y/o posición espacial actual del sistema de micrófono o un cambio en la orientación rotacional y/o posición espacial en comparación con una orientación/posición anterior del sistema de micrófono.
De este modo, el dispositivo recibe metadatos que comprenden datos espaciales indicativos de una orientación espacial y/o posición espacial del sistema de micrófono que captura el audio direccional.
El dispositivo comprende además una unidad informática configurada para: modificar al menos parte del audio direccional para producir audio direccional modificado, mediante el cual se modifica una propiedad direccional del audio en respuesta a la orientación espacial y/o la posición espacial del sistema de micrófono.
La modificación se puede realizar usando cualquier medio adecuado, por ejemplo, definiendo una matriz de rotación/traslación basada en los datos espaciales, y multiplicando el audio direccional con esta matriz para lograr el audio direccional modificado. La multiplicación de matrices es adecuada para audio espacial no paramétrico. El audio espacial paramétrico se puede modificar ajustando los metadatos espaciales como, por ejemplo, los parámetros direccionales del objeto u objetos de sonido.
El audio direccional modificado luego se codifica en datos de audio digitales, datos que se transmiten mediante una unidad de transmisión del dispositivo.
Los inventores se han dado cuenta de que los movimientos de rotación/traslación del dispositivo de captura de sonido (sistema de micrófono) se compensan mejor en el extremo de emisión, es decir, en el extremo de captura del audio. Es probable que esto permita la mejor estabilización posible de la escena de audio capturada con respecto a, por ejemplo, movimientos no deseados. Tal compensación puede ser parte del proceso de captura, es decir, durante el preprocesamiento acústico, o como parte de la etapa de codificación IVAS. Además, al realizar la compensación en el extremo de emisión, se reduce la necesidad de transmitir los datos espaciales desde el extremo de emisión al extremo de recepción. En caso de que la compensación de los movimientos de rotación/traslación del dispositivo de captura de sonido tuviera que realizarse en el receptor del audio, los datos espaciales completos tendría que transmitirse al extremo de recepción. Suponiendo que las coordenadas de rotación en los tres ejes se representan con 8 bits cada una y se estiman y transmiten a una velocidad de 50 Hz, la velocidad de bits resultante sería de 1,2 kbps. Se puede hacer la suposición analógica para las coordenadas espaciales del sistema de micrófono.
De acuerdo con algunas realizaciones, la orientación espacial del sistema de micrófono se representa con parámetros que describen el movimiento/orientación rotacional con un grado de libertad, DoF, en los datos espaciales. Por ejemplo, puede ser suficiente considerar únicamente el ángulo de acimut para las conferencias telefónicas.
De acuerdo con algunas realizaciones, la orientación espacial del sistema de micrófono se representa con parámetros que describen la orientación/movimiento rotacional con tres grados de libertad, DoF, en los datos espaciales.
De acuerdo con algunas realizaciones, los datos espaciales del sistema de micrófono se representan en seis DoF. En esta realización, los datos espaciales del sistema de micrófono capturan una posición cambiada (denominada en el presente documento coordenadas espaciales) del sistema de micrófono como traslación hacia adelante/atrás (sobretensión), arriba/abajo (alzado), izquierda/derecha (oscilación) en tres ejes perpendiculares, combinados con cambios en la orientación (u orientación rotacional actual) del sistema de micrófono a través de la rotación alrededor de tres ejes perpendiculares, a menudo denominados guiñada o azimut (eje normal/vertical), cabeceo (eje transversal) y balanceo (eje longitudinal).
De acuerdo con algunas realizaciones, el audio direccional recibido comprende audio que comprende metadatos direccionales. Por ejemplo, tal audio puede comprender objetos de audio, es decir, audio basado en objetos (OBA). OBA es una forma paramétrica de audio espacial/direccional con metadatos espaciales. Una forma particular de audio espacial paramétrico es el audio espacial asistido por metadatos (MASA).
De acuerdo con algunas realizaciones, la unidad informática está configurada además para codificar al menos partes de los metadatos que comprenden datos espaciales del sistema de micrófono en dichos datos de audio digitales. Ventajosamente, esto permite la compensación del ajuste direccional realizado en el audio capturado en el extremo de recepción. Sujeto a la definición de un marco de referencia de rotación adecuado, por ejemplo, con el eje z correspondiente a la dirección vertical, en muchos casos puede ser necesario transmitir simplemente el ángulo de acimut (por ejemplo, 400 bps). Es posible que los ángulos de cabeceo y balanceo del dispositivo de captura en el marco de referencia de rotación solo sean necesarios en determinadas aplicaciones de realidad virtual. Compensando los datos espaciales del sistema de micrófono en el lado de emisión, e incluyendo condicionalmente al menos partes de los datos espaciales en los datos de audio digitales codificados, el caso en el que la escena acústica renderizada debe ser invariante de la posición del dispositivo de captura y se admiten ventajosamente el resto de casos en los que la escena acústica renderizada deba girar con los movimientos correspondientes del dispositivo de captura.
De acuerdo con algunas realizaciones, la unidad de recepción está configurada además para recibir primeras instrucciones que indican a la unidad informática si se deben incluir dichas al menos partes de los metadatos que comprenden datos espaciales del sistema de micrófono en dichos datos de audio digitales, por lo que la unidad informática actúa en consecuencia. En consecuencia, el lado de emisión incluye condicionalmente partes de los datos espaciales en los datos de audio digitales, para ahorrar velocidad de bits cuando sea posible. La instrucción puede recibirse más de una vez durante una sesión, de modo que si los datos espaciales (o partes de estos) deben incluirse o no en los datos de audio digitales cambia con el tiempo. Es decir, pueden existir adaptaciones en sesión donde las primeras instrucciones puedan ser recibidas por el dispositivo tanto de forma continua como discontinua. Continua sería, por ejemplo, ser una vez en cada marco. Discontinua podría ser solo una vez que se deba dar una nueva instrucción. También existe la posibilidad de recibir la primera instrucción solo una vez en la configuración de una sesión.
De acuerdo con algunas realizaciones, la unidad de recepción está configurada además para recibir segundas instrucciones que indican a la unidad informática qué parámetro o parámetros de los datos espaciales del sistema de micrófono incluir en los datos de audio digitales, por lo que la unidad informática actúa en consecuencia. Como se ejemplificó anteriormente, se puede indicar al lado de emisión que incluya solo el acimut o que incluya todos los datos que definen la orientación espacial del sistema de micrófono. La instrucción puede recibirse más de una vez durante una sesión de modo que el número de parámetros incluidos en los datos de audio digitales cambie con el tiempo. En otras palabras, puede haber adaptaciones en sesión donde las segundas instrucciones pueden ser recibidas por el dispositivo tanto de forma continua como discontinua. Continua sería, por ejemplo, ser una vez en cada marco. Discontinua podría ser solo una vez que se deba dar una nueva instrucción. También existe la posibilidad de recibir la segunda instrucción solo una vez en la configuración de una sesión.
De acuerdo con algunas realizaciones, la unidad de transmisión está configurada para transmitir los datos de audio digitales a un dispositivo adicional, en el que se reciben indicaciones sobre la primera y/o la segunda instrucción desde dicho dispositivo adicional. En otras palabras, el lado de recepción (que comprende un renderizador para renderizar el audio decodificado recibido) puede, dependiendo del contexto, indicar al lado de emisión si debe incluir parte de los datos espaciales o no en los datos de audio digitales, y/o qué parámetros incluir. En otras realizaciones, se pueden recibir indicaciones sobre la primera y/o la segunda instrucción desde, por ejemplo, una unidad coordinadora (servidor de llamadas) para una conferencia de audio/vídeo inmersiva multiusuario, o cualquier otra unidad que no esté directamente involucrada en el renderizado del audio direccional.
De acuerdo con algunas realizaciones, la unidad de recepción está configurada además para recibir metadatos que comprenden una marca de tiempo que indica un tiempo de captura del audio direccional, en donde la unidad informática está configurada para codificar dicha marca de tiempo en dichos datos de audio digitales. Ventajosamente, esta marca de tiempo se puede usar para sincronizar en un lado de recepción, por ejemplo, sincronizar en el renderizador de audio con el renderizador de vídeo, o sincronizar una pluralidad de datos de audio digitales recibidos desde diferentes dispositivos de captura.
De acuerdo con algunas realizaciones, la codificación de las señales de audio modificadas comprende mezclar de manera descendente el audio direccional modificado, en donde la mezcla descendente se realiza teniendo en cuenta la orientación espacial del sistema de micrófono, y codificar la mezcla descendente y una matriz de mezcla descendente usada en la mezcla descendente en dichos datos de audio digitales. Por ejemplo, la formación de haces acústicos hacia una fuente direccional específica del audio direccional se adapta ventajosamente basándose en la modificación direccional realizada en el audio direccional.
De acuerdo con algunas realizaciones, el dispositivo se implementa en un equipo de realidad virtual, VR o equipo de realidad aumentada, AR, que comprende el sistema de micrófono y un dispositivo de seguimiento de la cabeza configurado para determinar datos espaciales del dispositivo en 3 a 6 DoF. En otras realizaciones, el dispositivo se implementa en un teléfono móvil que comprende un sistema de micrófono.
II. Descripción general: lado de recepción
De acuerdo con un segundo aspecto, se proporciona un dispositivo para renderizar señales de audio. El dispositivo (también denominado en el presente documento lado de recepción o dispositivo de renderizado) comprende una unidad de recepción configurada para recibir datos de audio digitales. El dispositivo comprende además una unidad de decodificación configurada para decodificar los datos de audio digitales recibidos en audio direccional y en metadatos, comprendiendo los metadatos datos espaciales al menos uno de la lista de: acimut, cabeceo, ángulo o ángulos de balanceo y coordenadas espaciales. Los datos espaciales pueden recibirse, por ejemplo, en forma de parámetros, por ejemplo, los 3 ángulos DoF. En otras realizaciones, los datos espaciales pueden recibirse como una matriz de rotación/traslación.
El dispositivo comprende además una unidad de renderizado configurada para:
modificar una propiedad direccional del audio direccional usando los datos espaciales de rotación; y renderizar el audio direccional modificado.
Ventajosamente, el dispositivo de acuerdo con este aspecto puede modificar el audio direccional como se indica en los metadatos. Por ejemplo, los movimientos de un dispositivo que captura el audio pueden considerarse durante el renderizado.
De acuerdo con algunas realizaciones, los datos espaciales indican la orientación espacial y/o la posición espacial de un sistema de micrófono que comprende uno o más micrófonos que capturan el audio direccional, en donde la unidad de renderizado modifica la propiedad direccional del audio direccional para reproducir al menos parcialmente un entorno de audio del sistema de micrófono. En esta realización, el dispositivo aplica la rotación de la escena acústica reaplicando al menos partes de la rotación de la escena acústica (relativa, es decir, la rotación de la escena es relativa al sistema de micrófono en movimiento) que fue compensada en el dispositivo de captura.
De acuerdo con algunas realizaciones, los datos espaciales comprenden parámetros que describen el movimiento/orientación rotacional con un grado de libertad, DoF.
De acuerdo con algunas realizaciones, los datos espaciales comprenden parámetros que describen el movimiento/orientación rotacional con tres grados de libertad, DoF.
De acuerdo con algunas realizaciones, el audio direccional decodificado comprende audio que comprende metadatos direccionales. Por ejemplo, el audio direccional decodificado puede comprender objetos de audio, es decir, audio basado en objetos (OBA). En otras realizaciones, el audio direccional decodificado puede estar basado en canales, por ejemplo, que representa audio basado en escenas en formato Ambisonics B o audio basado en canales.
De acuerdo con algunas realizaciones, el dispositivo comprende una unidad de transmisión configurada para transmitir instrucciones a un dispositivo adicional desde el cual se recibe el audio digital, indicando las instrucciones al dispositivo adicional qué parámetro o parámetros (si los hay) deben comprender los datos de rotación. En consecuencia, el dispositivo de renderizado puede ordenar al dispositivo de captura que transmita, por ejemplo, solo parámetros de rotación, solo el parámetro de azimut o 6 parámetros DoF completos, dependiendo del caso de uso y/o el ancho de banda disponible. Además, el dispositivo de renderizado puede tomar esta decisión basándose en los recursos informáticos disponibles en el renderizador para aplicar la rotación acústica de la escena, o el nivel de complejidad de la unidad de renderizado. Las instrucciones pueden transmitirse más de una vez durante una sesión y, por tanto, cambiar con el tiempo, es decir, basándose en lo anterior. En otras palabras, pueden existir adaptaciones en sesión donde el dispositivo puede transmitir las instrucciones tanto de forma continua como discontinua. Continua sería, por ejemplo, una vez en cada marco. Discontinua podría ser solo una vez que se deba dar una nueva instrucción. También existe la posibilidad de transmitir la instrucción solo una vez en la configuración de una sesión.
De acuerdo con algunas realizaciones, la unidad de decodificación está configurada además para extraer una marca de tiempo que indica un tiempo de captura del audio direccional a partir de los datos de audio digitales. Esta marca de tiempo se puede usar por motivos de sincronización como se discutió anteriormente.
De acuerdo con algunas realizaciones, la decodificación de los datos de audio digitales recibidos en audio direccional mediante la unidad de decodificación comprende:
decodificar los datos de audio digitales recibidos en audio mezclado de manera descendente,
mezclar de manera ascendente, mediante la unidad de decodificación, el audio mezclado de manera descendente en el audio direccional usando una matriz de mezcla descendente incluida en los datos de audio digitales recibidos.
De acuerdo con algunas realizaciones, los datos espaciales incluyen coordenadas espaciales y en donde la unidad de renderizado está configurada además para ajustar un volumen del audio renderizado basándose en las coordenadas espaciales. En esta realización, el volumen del audio recibido desde "lejos" puede atenuarse en comparación con el audio recibido desde una ubicación más cercana. Cabe señalar que la cercanía relativa del audio recibido se puede determinar basándose un espacio virtual, donde la posición del dispositivo de captura en este espacio con relación al dispositivo de recepción se determina basándose en las coordenadas espaciales de los dispositivos, aplicando una métrica de distancia adecuada, por ejemplo, métrica euclidiana. Un paso adicional puede implicar el uso de algún esquema de mapeo arbitrario para determinar a partir de la distancia métrica parámetros de renderización de audio, tales como un nivel de sonido. Ventajosamente, en esta realización, se puede mejorar la experiencia de inmersión del audio renderizado.
De acuerdo con algunas realizaciones, el dispositivo se implementa en un equipo de realidad virtual, VR, o equipo de realidad aumentada, AR, que comprende un dispositivo de seguimiento de la cabeza configurado para medir la orientación espacial y la posición espacial del dispositivo en seis DoF. En esta realización, también se pueden usar los datos espaciales del dispositivo de renderizado al modificar una propiedad direccional del audio direccional. Por ejemplo, la matriz de rotación/traslación recibida se puede multiplicar con una matriz similar que defina, por ejemplo. el estado de rotación del dispositivo de renderizado, y la matriz resultante puede usarse entonces para modificar la propiedad direccional del audio direccional. Ventajosamente, en esta realización, se puede mejorar la experiencia de inmersión del audio renderizado. En otras realizaciones, el dispositivo se implementa en un dispositivo de conferencia telefónica o similar, que se supone que es estacionario y en el que se ignora cualquier estado de rotación del dispositivo.
De acuerdo con algunas realizaciones, la unidad de renderizado está configurada para el renderizado de audio binaural.
III. Descripción general: sistema
De acuerdo con un tercer aspecto, se proporciona un sistema que comprende:
un primer dispositivo de acuerdo con el primer aspecto configurado para transmitir datos de audio digitales a un segundo dispositivo de acuerdo con el segundo aspecto, en el que el sistema está configurado para audio y/o videoconferencia.
De acuerdo con algunas realizaciones, el primer dispositivo comprende además una unidad de grabación de video y está configurado para codificar video grabado en datos de video digital y transmitir los datos de video digital al segundo dispositivo, en donde el segundo dispositivo comprende además un visualizador para visualizar datos de video digital decodificados.
De acuerdo con un cuarto aspecto, se proporciona un sistema que comprende:
un primer dispositivo de acuerdo con el primer aspecto configurado para transmitir datos de audio digitales a un segundo dispositivo, comprendiendo el segundo dispositivo:
una unidad de recepción configurada para recibir datos de audio digitales,
una unidad de decodificación configurada para:
decodificar los datos de audio digitales recibidos en audio direccional y en metadatos, comprendiendo los metadatos datos espaciales que comprenden al menos uno de la lista de: acimut, cabeceo, ángulo o ángulos de balanceo y coordenadas espaciales;
una unidad de renderizado para renderizar audio;
en el que la unidad de renderizado está configurada para, cuando el segundo dispositivo recibe además datos de vídeo codificados desde el primer dispositivo:
modificar una propiedad direccional del audio direccional usando los datos espaciales, y
renderizar el audio direccional modificado;
en el que la unidad de renderizado está configurada para, cuando el segundo dispositivo no recibe datos de vídeo codificados desde el primer dispositivo:
renderizar el audio direccional.
Ventajosamente, la decisión de reproducir un entorno de audio del sistema de micrófono compensando la orientación espacial y/o la posición espacial del sistema de micrófono se toma basándose en si el vídeo se transmite o no. En esta realización, es posible que el dispositivo de emisión no siempre sea consciente de cuándo es necesaria o deseable la compensación de su movimiento. Consideremos, por ejemplo, la situación en la que el audio es renderizado junto con el vídeo. En ese caso, al menos cuando la captura de vídeo se realiza con el mismo dispositivo que captura el audio, puede ser posible ventajosamente rotar la escena de audio junto con la escena visual en movimiento o mantener estable la escena de audio. Mantener estable la escena de audio compensando los movimientos del dispositivo de captura puede ser la opción preferida si no se consume vídeo. De acuerdo con un quinto aspecto, se proporciona un medio no transitorio legible por ordenador que almacena instrucciones que, cuando son ejecutadas por uno o más procesadores, hacen que uno o más procesadores realicen operaciones de cualquiera de los aspectos uno a cuatro.
IV. Descripción general - Generalmente
Los aspectos segundo a quinto generalmente pueden tener características y ventajas iguales o correspondientes al primer aspecto.
Otros objetivos, características y ventajas de la presente invención aparecerán a partir de la siguiente divulgación detallada, de las reivindicaciones dependientes adjuntas así como de los dibujos.
Los pasos de cualquier método, o un dispositivo que implemente una serie de pasos, divulgados en el presente documento no tienen que realizarse en el orden exacto divulgado, a menos que se indique explícitamente.
V - Ejemplos de realización
Se espera que los servicios de voz y audio inmersivos ofrezcan experiencias de usuario inmersivas y de realidad virtual (VR). También se pueden ofrecer experiencias de realidad aumentada (AR) y realidad extendida (XR). Esta divulgación trata del hecho de que los dispositivos móviles como los UE portátiles que capturan una escena inmersiva o AR/VR/XR pueden en muchos casos estar moviéndose durante la sesión en relación con la escena acústica. Destaca los casos en los que se debe evitar que los movimientos de rotación del dispositivo de captura se reproduzcan como la correspondiente rotación de la escena renderizada por el dispositivo de recepción. Esta divulgación se relaciona con cómo lo anterior puede manejarse eficientemente para cumplir con los requisitos que tiene el usuario sobre audio inmersivo dependiendo del contexto.
Cabe señalar que, si bien algunos ejemplos en el presente documento se describirán en el contexto de un codificador, decodificador y/o renderizador IVAS, cabe señalar que este es simplemente un tipo de codificador/decodificador/renderizador en el que se pueden aplicar los principios generales de la invención, y que puede haber muchos otros tipos de codificadores, decodificadores y renderizadores que se pueden usar junto con las diversas realizaciones descritas en el presente documento.
También se debe tener en cuenta que si bien los términos "mezcla ascendente" y "mezcla descendente" se usan en todo este documento, es posible que no impliquen necesariamente aumentar y reducir, respectivamente, el número de canales. Si bien este puede ser el caso a menudo, debe tenerse en cuenta que cualquiera de los términos puede referirse a reducir o aumentar el número de canales. Por tanto, ambos términos caen bajo el concepto más general de "mezcla".
Volviendo ahora a la figura 1, se describe un método 1 para codificar y transmitir una representación de audio direccional, de acuerdo con una realización. Un dispositivo 300 configurado para realizar el método 1 se muestra en la figura 3.
El dispositivo 300 puede ser generalmente un teléfono móvil (teléfono inteligente), sin embargo, el dispositivo también puede ser parte de un equipo VR/AR/XR o cualquier otro tipo de dispositivo que comprenda o esté conectado a un sistema 302 de micrófono que comprenda uno o más micrófonos para capturar audio de dirección. El dispositivo 300 puede así comprender el sistema 302 de micrófono o estar conectado (por cable o inalámbrico) a un sistema 302 de micrófono ubicado remotamente. En algunas realizaciones, el dispositivo 300 se implementa en un equipo VR o equipo AR que comprende el sistema 302 de micrófono y un dispositivo de seguimiento de la cabeza configurado para determinar datos espaciales del dispositivo en 1 a 6 DoF.
En algunos escenarios de captura de audio, una posición y/o la orientación espacial del sistema 302 de micrófono pueden estar cambiando durante la captura del audio direccional.
A continuación se describirán dos escenarios de ejemplo.
Un cambio de posición y/u orientación espacial del sistema 302 de micrófono durante la captura de audio puede causar rotación/traslación espacial de la escena renderizada en un dispositivo de recepción. Dependiendo del tipo de experiencia proporcionada, por ejemplo, inmersiva, VR, AR o XR y, dependiendo del caso de uso específico, este comportamiento puede ser deseado o no. Un ejemplo en el que esto puede desearse es cuando el servicio proporciona adicionalmente un componente visual y donde la cámara de captura (por ejemplo, captura de vídeo de 360 grados, no mostrada en la figura 1) y los micrófonos 302 están integrados en el mismo dispositivo. En ese caso, debería esperarse que una rotación del dispositivo de captura dé como resultado una rotación correspondiente de la escena audiovisual renderizada.
Por otro lado, si la captura audiovisual no se realiza mediante el mismo dispositivo físico o en caso de que no haya un componente de vídeo, puede resultar molesto para el oyente si la escena renderizada gira cada vez que gira el dispositivo de captura. En el peor de los casos, puede provocar mareo. Por tanto, es deseable compensar los cambios posicionales (traslación y/o rotaciones) del dispositivo de captura. Los ejemplos incluyen telefonía inmersiva y aplicaciones de conferencias inmersivas que usan un teléfono inteligente como dispositivo de captura (es decir, que comprende el conjunto de micrófonos 302). En estos casos de uso, puede suceder frecuentemente que el conjunto de micrófonos se mueva sin querer ya sea porque es de mano o porque el usuario lo toca durante el funcionamiento. Es posible que el usuario del dispositivo de captura no sea consciente de que moverlo puede provocar inestabilidades en el audio espacial renderizado en los dispositivos de recepción. Por lo general, no se puede esperar que el usuario mantenga quieto el teléfono mientras se encuentra en una situación de conversación.
Los métodos y dispositivos descritos a continuación se definen para algunos o todos los escenarios descritos anteriormente.
Por lo tanto, el dispositivo 300 comprende o está conectado a un sistema 302 de micrófono que comprende uno o más micrófonos para capturar audio. El sistema de micrófono puede así comprender 1, 2, 3, 5, 10, etc., micrófonos. En algunas realizaciones, el sistema de micrófono comprende una pluralidad de micrófonos. El dispositivo 300 comprende una pluralidad de unidades funcionales. Las unidades pueden implementarse en hardware y/o software y pueden comprender uno o más procesadores para manejar la funcionalidad de las unidades.
El dispositivo 300 comprende una unidad 304 de recepción que está configurada para recibir audio direccional S13 320 capturado por el sistema 302 de micrófono. El audio direccional 320 es preferiblemente una representación de audio que permite fácilmente la rotación y/o traslación de la escena de audio. El audio direccional 320 puede comprender, por ejemplo, objetos y/o canales de audio que permitan la rotación y/o traslación de la escena de audio. El audio direccional puede comprender
- audio basado en canales (CBA) como estéreo, multicanal/envolvente, 5.1, 7.1, etc.
- audio basado en escenas (SBA), como Ambisonics de primer orden y de orden superior.
- audio basado en objetos (OBA).
CBA y SBA son formas no paramétricas de audio espacial/direccional, mientras que OBA es paramétrica con metadatos espaciales. Una forma particular de audio espacial paramétrico es el audio espacial asistido por metadatos (<m>A<s>A).
La unidad 304 de recepción está configurada además para recibir metadatos 322 de S14 asociados con el sistema 302 de micrófono. Los metadatos 322 comprenden datos espaciales del sistema 302 de micrófono. Los datos espaciales son indicativos de una orientación espacial y/o posición espacial del sistema 302 de micrófono. Los datos espaciales del sistema de micrófono comprenden al menos uno de la lista de: acimut, cabeceo, ángulo o ángulos de balanceo y coordenadas espaciales del sistema de micrófono. Los datos espaciales se pueden representar en 1 grado de libertad, DoF (por ejemplo, solo el ángulo de acimut del sistema de micrófono), tres DoF (por ejemplo, la orientación espacial del sistema de micrófono en 3 DoF) o en seis DoF (ambas con orientación espacial en 3 DoF y posición espacial en 3 DoF). Por supuesto, los datos espaciales pueden representarse en cualquier DoF del uno al seis.
El dispositivo 300 comprende además una unidad informática 306 que recibe el audio direccional 320 y los metadatos 322 desde la unidad 304 de recepción y modifica S15 al menos parte del audio direccional 320 (por ejemplo, al menos algunos de los objetos de audio del audio direccional) para producir audio direccional modificado. Esta modificación da como resultado que se modifica una propiedad direccional del audio en respuesta a la orientación espacial y/o posición espacial del sistema de micrófono.
La unidad informática 306 codifica S16 entonces datos digitales codificando S17 el audio direccional modificado en datos 328 de audio digital. El dispositivo 300 comprende además una unidad 310 de transmisión configurada para transmitir (por cable o inalámbrica) los datos 328 de audio digital, por ejemplo, como un flujo de bits.
Al compensar los movimientos de rotación y/o traslación del sistema 302 de micrófono ya en el dispositivo 300 de codificación (también puede denominarse dispositivo de emisión, dispositivo de captura, dispositivo de transmisión, lado de emisión), disminuyen los requisitos para transmitir los datos espaciales del sistema 302 de micrófono. está relajado. Si dicha compensación la realizara un dispositivo que recibe el audio direccional codificado (por ejemplo, un renderizador de audio inmersivo), todos los metadatos requeridos siempre tendrían que incluirse en los datos 328 de audio digital. Suponiendo que las coordenadas de rotación del sistema 302 de micrófono en los tres ejes se representan con 8 bits cada uno y se estiman y transmiten a una velocidad de 50 Hz, el aumento resultante en la velocidad de bits de la señal 332 sería de 1,2 kbps. Además, es probable que las variaciones de la escena auditiva en caso de que no haya compensación de movimiento en el lado de captura puedan hacer que la codificación de audio espacial sea más exigente y potencialmente menos eficiente.
Además, como la información subyacente a la decisión de modificación está fácilmente disponible en el dispositivo 300, es apropiado compensar los movimientos de rotación/traslación del sistema 302 de micrófono ya aquí, lo que de este modo se puede realizar de manera eficiente. De este modo se puede reducir el retardo algorítmico máximo para esta operación.
Otra ventaja más es que al compensar siempre (en lugar de condicionalmente, a petición) los movimientos de rotación/traslación en el dispositivo 300 de captura y proporcionar condicionalmente a los extremos de recepción datos de orientación espacial del sistema de captura, se evitan conflictos potenciales si se sirven múltiples puntos finales con diferentes necesidades de renderizado, como en casos de uso de conferencias con múltiples interlocutores.
Lo anterior cubre todos los casos en los que la escena acústica renderizada debe ser invariante con respecto a la posición y rotación del sistema 302 de micrófono que captura el audio direccional. Para abordar los casos restantes en los que la escena acústica renderizado debe girar con los movimientos correspondientes del sistema 302 de micrófono, la unidad informática 306 puede configurarse opcionalmente para codificar S18 al menos partes de los metadatos 322 que comprenden datos espaciales del sistema de micrófono en dichos datos 328 de audio digital. Por ejemplo, sujeto a la definición de un marco de referencia de rotación adecuado, por ejemplo, con el eje z correspondiente a la dirección vertical, en muchos casos puede ser necesario transmitir simplemente el ángulo de acimut (por ejemplo, 400 bps). Es posible que los ángulos de cabeceo y balanceo del sistema 302 de micrófono en el marco de referencia de rotación solo sean necesarios en ciertas aplicaciones VR. Los parámetros de rotación/traslación proporcionados condicionalmente típicamente pueden transmitirse como un elemento condicional del formato de carga útil IVAS RTP. Por tanto, estos parámetros requerirán una pequeña porción del ancho de banda asignado.
Para cumplir con los diferentes escenarios, la unidad 304 de recepción puede configurarse opcionalmente para recibir S10 instrucciones sobre cómo manejar los metadatos 322 cuando la unidad informática 306 está codificando los datos 328 de audio digital. Las instrucciones pueden recibirse S10 desde un dispositivo de renderizado (por ejemplo, otra parte de la audioconferencia) o desde un dispositivo de coordinación tal como un servidor de llamadas o similar.
En algunas realizaciones, la unidad 304 de recepción está configurada además para recibir S11 primeras instrucciones que indican a la unidad informática 306 si se deben incluir dichas al menos partes de los metadatos 322 que comprenden datos espaciales del sistema de micrófono en dichos datos de audio digitales. En otras palabras, las primeras instrucciones informan al dispositivo 300 si alguno o ninguno de los metadatos debe incluirse en los datos 328 de audio digital. Por ejemplo, si el dispositivo 300 está transmitiendo los datos 328 de audio digital como parte de una audioconferencia, las primeras instrucciones pueden definir que no se debe incluir ninguna parte de los metadatos 322.
Alternativamente, o adicionalmente, en algunas realizaciones, la unidad 304 de recepción está configurada además para recibir segundas instrucciones que indican a la unidad informática qué parámetro o parámetros de los datos espaciales del sistema de micrófono incluir en los datos de audio digitales, por lo que la unidad informática actúa respectivamente. Por ejemplo, por razones de ancho de banda u otras razones, las segundas instrucciones pueden definir a la unidad informática 306 para incluir solo el ángulo de acimut en los datos 328 de audio digital.
La primera y/o la segunda instrucción típicamente pueden estar sujetas a negociación de configuración de sesión. Por lo tanto, ninguna de estas instrucciones requiere transmisiones durante la sesión y no requerirá nada del ancho de banda asignado, por ejemplo, la conferencia de audio/video inmersiva.
Como se mencionó anteriormente, el dispositivo 300 puede ser parte de una videoconferencia. Por esta razón, la unidad 304 de recepción puede configurarse además para recibir metadatos (no mostrados en la figura 1) que comprenden una marca de tiempo que indica un tiempo de captura del audio direccional, en donde la unidad informática 306 está configurada para codificar dicha marca de tiempo en dichos datos de audio digitales. Ventajosamente, el audio direccional modificado se puede sincronizar con el vídeo capturado en el lado de renderizado.
En algunas realizaciones, la codificación S17 del audio direccional modificado comprende mezclar de manera descendente el audio direccional modificado, en donde la mezcla descendente se realiza teniendo en cuenta la orientación espacial del sistema 302 de micrófono y codificar la mezcla descendente y una matriz de mezcla descendente usada en la mezcla descendente en dichos datos 328 de audio digital. La mezcla descendente puede comprender, por ejemplo, ajustar una operación de formación de haces del audio direccional 320 basándose en los datos espaciales del sistema 302 de micrófono.
Los datos de audio digitales se transmiten S19 así desde el dispositivo 300 como parte de transmisión de, por ejemplo, un escenario de audio/videoconferencia inmersivo. Los datos de audio digitales luego son recibidos por un dispositivo para renderizar señales de audio, por ejemplo, una parte de recepción del escenario de audio/videoconferencia inmersivo. El dispositivo 400 de renderizado se describirá ahora junto con las figuras 2 y 4.
El dispositivo 400 que renderiza señales de audio comprende una unidad de recepción 402 configurada para recibir S21 datos 328 de audio digital (por cable o inalámbricos).
El dispositivo 400 comprende además una unidad 404 de decodificación configurada para decodificar S22 los datos 328 de audio digital recibidos en audio direccional 420 y en metadatos 422, comprendiendo los metadatos 422 datos espaciales que comprenden al menos uno de la lista de: azimut, cabeceo, ángulo o ángulos de balanceo y coordenadas espaciales.
En algunas realizaciones, la mezcla ascendente se realiza mediante la unidad 404 de decodificación. En estas realizaciones, la decodificación de los datos 328 de audio digital recibidos en audio direccional 420 mediante la unidad 404 de decodificación comprende: decodificar los datos 328 de audio digital recibidos en audio mezclado de manera descendente, y mezclar de manera ascendente, mediante la unidad 404 de decodificación, el audio mezclado de manera descendente en el audio direccional 420 usando una matriz de mezcla descendente incluida en los datos 328 de audio digital recibidos.
El dispositivo comprende además una unidad 406 de renderizado configurada para modificar S23 una propiedad direccional del audio direccional usando los datos espaciales; y renderizar S24 el audio direccional modificado 424 usando altavoces o auriculares.
El dispositivo 400 (la unidad 406 de renderizado del mismo) está así configurado para aplicar rotación/traslación de escenas acústicas basándose en datos espaciales recibidos.
En algunas realizaciones, los datos espaciales indican la orientación espacial y/o la posición espacial de un sistema de micrófono que comprende uno o más micrófonos que capturan el audio direccional, en donde la unidad de renderizado modifica S23 la propiedad direccional del audio direccional para reproducir al menos parcialmente un entorno de audio del sistema de micrófono. En esta realización, el dispositivo 400 vuelve a aplicar al menos partes de la rotación de la escena acústica que fue compensada en el extremo de captura por el dispositivo 300 de la figura 3.
Los datos espaciales pueden comprender datos espaciales que comprenden datos rotacionales que representan movimiento en tres grados de libertad, DoF. De forma alternativa, o adicional, los datos espaciales pueden incluir coordenadas espaciales.
El audio direccional decodificado puede, en algunas realizaciones, comprender objetos de audio o, más generalmente, audio asociado con metadatos espaciales como se describió anteriormente.
La decodificación S22 de los datos de audio digitales recibidos en audio direccional mediante la unidad 404 de decodificación puede comprender en algunas realizaciones la decodificación de los datos de audio digitales recibidos en audio mezclado de manera descendente, y mezclar de manera ascendente, mediante la unidad 404 de decodificación, el audio mezclado de manera descendente en audio direccional usando una matriz de mezcla descendente incluida en los datos 328 de audio digital recibidos.
Para proporcionar una mayor flexibilidad y/o cumplir con los requisitos de ancho de banda, el dispositivo 400 puede comprender una unidad 306 de transmisión configurada para transmitir S20 instrucciones a un dispositivo adicional desde el cual se reciben los datos 328 de audio digital, indicando las instrucciones al dispositivo adicional qué parámetro o parámetros (si los hay) deben comprender los datos de rotación o traslación. De este modo, esta característica puede facilitar el cumplimiento de las preferencias de los posibles usuarios o de las preferencias relacionadas con el renderizado y/o el tipo de servicio usado.
En algunas realizaciones, el dispositivo 400 también puede configurarse para transmitir instrucciones que indiquen al dispositivo adicional si se deben incluir los metadatos que comprenden datos espaciales en los datos 328 de audio digital o no. En estas realizaciones, si los datos 328 de audio digital recibidos S21 no comprenden dichos metadatos, la unidad de renderizado renderizará audio direccional decodificado tal como se recibió (posiblemente mezclado de manera ascendente como se describió anteriormente), sin ninguna modificación de una propiedad direccional del audio direccional debido a compensaciones realizadas en el dispositivo 300 de captura. Sin embargo, en algunas realizaciones, el audio direccional recibido se modifica en respuesta a la información de seguimiento de la cabeza del renderizador (como se describe con más detalle a continuación). En algunas realizaciones, el dispositivo 400 puede implementarse en un equipo VR o un equipo AR que comprende un dispositivo de seguimiento de la cabeza configurado para medir la orientación espacial del dispositivo en seis DoF. La unidad 406 de renderizado puede configurarse para renderizado de audio binaural. En algunas realizaciones, la unidad 406 de renderizado está configurada para ajustar S25 un volumen del audio renderizado basándose en las coordenadas espaciales recibidas en los metadatos. Esta característica se describirá con más detalle a continuación junto con las figuras 6-7.
La figura 5 muestra un sistema que comprende un dispositivo 300 de captura (como se describe junto con la figura 3) y un dispositivo 400 de renderizado (como se describe junto con la figura 4). El dispositivo 300 de captura puede en algunas realizaciones recibir S10 instrucciones 334 transmitidas S20 desde el dispositivo 400 de renderizado que indican si y en qué medida el dispositivo 300 de captura debe incluir datos espaciales del sistema de micrófono del dispositivo de captura en los datos 328 de audio digital.
En algunas realizaciones, el dispositivo 300 de captura comprende además una unidad de grabación de video y está configurado para codificar video grabado en datos 502 de video digital y transmitir los datos de video digital al dispositivo 400 de renderizado, en donde el dispositivo 400 de renderizado comprende además un visualizador para visualizar datos de vídeo digital decodificados.
Como se describió anteriormente, un cambio de posición y/o la orientación espacial del sistema de micrófono del dispositivo 300 de captura durante la captura de audio puede causar rotación/traslación espacial de la escena renderizada en el dispositivo 400 de renderizado. Dependiendo del tipo de experiencia proporcionada, por ejemplo, inmersiva, VR, AR o XR y, dependiendo del caso de uso específico, este comportamiento puede ser deseado o no. Un ejemplo en el que esto puede desearse es cuando el servicio proporciona adicionalmente un componente visual 502 y donde la cámara de captura y uno o más micrófonos 302 están integrados en el mismo dispositivo. En ese caso, se debería esperar que una rotación del dispositivo 300 de captura dé como resultado una rotación correspondiente de la escena audiovisual renderizada en el dispositivo 400 de renderizado.
Por otro lado, si la captura audiovisual no se realiza mediante el mismo dispositivo físico o en caso de que no haya un componente de vídeo, puede resultar molesto para el oyente si la escena renderizada gira cada vez que gira el dispositivo 300 de captura. En el peor de los casos, puede provocar mareo.
Por esta razón, de acuerdo con algunas realizaciones, la unidad de renderizado del dispositivo 400 de renderizado puede configurarse para, cuando el dispositivo 400 de renderizado recibe además datos 502 de vídeo codificados desde el dispositivo 300 de captura, modificar una propiedad direccional del audio direccional (recibido en los datos 328 de audio digital) usando los datos espaciales y renderizar el audio direccional modificado.
Sin embargo, cuando el dispositivo 400 de renderizado no recibe datos de vídeo codificados desde el dispositivo 300 de captura, la unidad de renderizado del dispositivo 400 de renderizado puede configurarse para renderizar el audio direccional sin ninguna modificación direccional.
En otras realizaciones, se informa al dispositivo 400 de renderizado antes de la conferencia que no se incluirá ningún componente de vídeo en los datos recibidos desde el dispositivo 300 de captura. En este caso, el dispositivo 400 de renderizado puede indicar en las instrucciones 334 que no es necesario incluir ningún dato espacial del sistema de micrófono del dispositivo 300 de captura en los datos 328 de audio digital, por lo que la unidad de renderizado del dispositivo 400 de renderizado está configurada para renderizar el audio direccional recibido en los datos 328 de audio digital sin ninguna modificación direccional.
En lo anterior, se ha descrito brevemente la mezcla descendente y/o codificación del audio direccional en el dispositivo de captura. Esto se desarrollará ahora más detalladamente.
En muchos casos, el dispositivo 300 de captura no tiene información sobre si la presentación decodificada (en el dispositivo de renderizado) será para un único altavoz mono, altavoces estéreo o auriculares. El escenario de renderizado real también puede variar durante una sesión de servicio, por ejemplo, con equipos de reproducción conectados que pueden cambiar, como la conexión o desconexión de auriculares a un teléfono móvil. Otro escenario más en el que se desconocen las capacidades del dispositivo de renderizado es cuando un único dispositivo 300 de captura necesita soportar múltiples puntos finales (dispositivos 400 de renderizado). Por ejemplo, en un caso de uso de conferencia IVAS o distribución de contenido de realidad virtual, un punto final podría estar usando unos auriculares y otro podría renderizar en altavoces estéreo, pero sería ventajoso poder suministrar una única codificación a ambos puntos finales, ya que reduciría complejidad en el lado de la codificación y también puede reducir el ancho de banda de red agregado requerido.
Una forma sencilla, aunque menos deseable, de soportar estos casos sería asumir siempre la capacidad más baja del dispositivo de recepción, es decir, mono, y seleccionar el modo de operación de audio correspondiente. Sin embargo, es más sensato exigir que el códec usado (por ejemplo, el códec IVAS), incluso si se opera en un modo de presentación que soporta audio espacial, binaural o estéreo, siempre puede producir una señal de audio decodificada que se puede presentar en dispositivos 400 con capacidad de audio respectivamente inferior. En algunas realizaciones, una señal codificada como una señal de audio espacial también puede ser decodificable para renderización binaural, estéreo y/o mono. Asimismo, una señal codificada como binaural puede ser decodificable como estéreo o mono, y una señal codificada como estéreo puede ser decodificable para presentación mono. A modo de ilustración, un dispositivo 300 de captura solo debería necesitar implementar una única codificación (datos 328 de audio digital) y enviar la misma codificación a múltiples puntos finales 400, algunos de los cuales pueden soportar presentación binaural y otros pueden ser solo estéreo.
Cabe señalar que el códec discutido anteriormente puede implementarse en el dispositivo de captura o en el servidor de llamadas. En el caso del servidor de llamadas, el servidor de llamadas recibirá los datos 328 de audio digital desde el dispositivo de captura y realizará una transcodificación de los datos de audio digitales para cumplir con los requisitos anteriores, antes de enviar los datos de audio digitales transcodificados a uno o más dispositivos 400 de renderizado. Tal escenario se ejemplificará ahora junto con la figura 6.
El escenario físico 600 de conferencia VR se ilustra en la figura 6. Cinco usuarios 602a-e de conferencia VR/AR de diferentes sitios se están reuniendo virtualmente. Los usuarios 602a-e de conferencia VR/AR pueden estar habilitados para IVAS. Cada uno de ellos usa equipos VR/AR, incluida, por ejemplo, reproducción binaural y reproducción de vídeo usando un HMD. El equipo de todos los usuarios soporta movimientos en 6 DoF con el seguimiento de la cabeza correspondiente head-tracking. El equipo 602 de usuario, UE, de los usuarios intercambia audio codificado en sentido ascendente y descendente con un servidor 604 de llamada de conferencia. Visualmente, los usuarios pueden representarse a través de respectivos avatares que pueden renderizarse basándose en información relacionada con los parámetros de posición relativa y su orientación rotacional.
Para mejorar aún más la experiencia inmersiva del usuario, también se considera el movimiento de rotación y/o el movimiento de traslación de la cabeza de un oyente al renderizar el audio recibido de otros participantes en el escenario de la conferencia. En consecuencia, el seguimiento de la cabeza informa a la unidad de renderizado del dispositivo de renderizado de un usuario (referencia 400 en las figuras 4-5) sobre los datos espaciales actuales (6 DoF) del equipo VR/AR del usuario. Estos datos espaciales se combinan (por ejemplo, mediante multiplicación de matrices o modificación de metadatos asociados con el audio direccional) con datos espaciales recibidos en los datos de audio digitales recibidos de otro usuario 602, mediante lo cual la unidad de renderizado modifica una propiedad direccional del audio direccional recibido de dicho otro usuario 602 basándose en la combinación de datos espaciales. Luego, el audio direccional modificado es renderizado al usuario.
Además, el volumen del audio renderizado recibido de un usuario específico se puede ajustar basándose en las coordenadas espaciales recibidas en los datos de audio digitales. Basándose en una distancia virtual (o real) entre los dos usuarios (calculada por el dispositivo de renderizado o por el servidor 604 de llamadas), el volumen se puede aumentar o disminuir para mejorar aún más la experiencia inmersiva del usuario.
La figura 7 ilustra a modo de ejemplo un espacio 700 de conferencia virtual generado por el servidor de llamadas de conferencia. Inicialmente, el servidor coloca a los usuarios de conferencia Ui, i=1...5 (también denominados 702a-e), en las coordenadas de posición virtual Ki=(xi, yi, zi) El espacio de conferencia virtual se comparte entre los usuarios. En consecuencia, en ese espacio se realiza la renderización audiovisual de cada usuario. Por ejemplo, desde la perspectiva del usuario U5 (correspondiente al usuario 602d en la figura 6), el renderizado colocará virtualmente a los otros participantes de la conferencia en las posiciones relativas Ki - K5, i^5. Por ejemplo, el usuario U5 percibirá al usuario U2 a distancia |Ki - K5I y bajo la dirección del vector (Ki - K5)/|Ki - K5|, mediante el cual el renderizado direccional se realiza en relación con la posición de rotación de U5. También se ilustra en la figura 2 el movimiento de U5 hacia U4. Este movimiento afectará la posición de U5 en relación con los demás usuarios, lo que se tendrá en cuenta durante el renderizado. Al mismo tiempo, el UE de U5 envía su posición cambiante al servidor 604 de conferencia, que actualiza el espacio de conferencia virtual con las nuevas coordenadas de U5. A medida que se comparte el espacio de conferencia virtual, los usuarios U1-U4 se dan cuenta del movimiento del usuario U5 y pueden adaptar en consecuencia sus respectivas renderizaciones. El movimiento simultáneo del usuario U2 funciona de acuerdo con los principios correspondientes. El servidor 604 de llamadas está configurado para mantener los datos de posición de los participantes 702a-e en el espacio de reunión compartido.
En el escenario de la figura 6-7, uno o más de los siguientes requisitos 6 DoF pueden aplicarse al marco de codificación cuando se trata de audio:
- Ofrecer un marco de metadatos para la representación y transmisión ascendente de información posicional de un punto final de recepción, incluidas coordenadas espaciales y/o coordenadas rotacionales (como se describe anteriormente junto con las figuras 1-4).
- La capacidad de asociar elementos de audio de entrada (por ejemplo, objetos) con atributos 6 DoF, incluidas coordenadas espaciales, coordenadas de rotación y directividad.
- La capacidad de renderización espacial simultánea de múltiples elementos de audio recibidos respectivos de sus atributos 6 DoF asociados.
- Ajustes adecuados de la escena renderizada ante movimientos de rotación y traslación de la cabeza del oyente. Cabe señalar que lo anterior también aplica para las reuniones XR, siendo una mezcla de reunión física y virtual. Los participantes físicos ven y escuchan avatares que representan a los participantes remotos a través de sus gafas AR y auriculares. Interactúan con los avatares en las discusiones como si fueran participantes físicamente presentes. Para ellos, las interacciones con otros participantes físicos y virtuales ocurren en una realidad mixta. Las posiciones de los participantes reales y virtuales se fusionan en un espacio de reunión virtual compartido combinado (por ejemplo, mediante un servidor 604 de llamadas) que es consistente con las posiciones de las posiciones reales de los participantes en el espacio de reunión físico y se asignan al espacio de reunión virtual usando los datos de posición física/real relativa y absoluta.
En un escenario VR/AR/XR, se podrán formar subgrupos de la conferencia virtual. Estos subgrupos pueden usarse para informar al servidor 604 de llamadas entre qué usuarios, por ejemplo, la calidad del servicio, QoS, debe ser alta, y entre qué usuarios la QoS puede ser menor. En algunas realizaciones, solo los participantes de un mismo subgrupo se incluyen en un entorno virtual proporcionado a estos subgrupos a través del equipo VR/AR/XR. Por ejemplo, un escenario donde se pueden formar subgrupos es una sesión de pósteres que ofrece participación virtual desde una ubicación remota. Los participantes remotos están equipados con HMD y auriculares. Están prácticamente presentes y pueden caminar de un póster a otro. Pueden escuchar presentaciones de pósteres en curso y acercarse a una presentación si creen que el tema o la discusión en curso es interesante. Para mejorar la posibilidad de interacciones inmersivas entre los participantes virtuales y físicos, se pueden formar subgrupos, por ejemplo, basándose en qué póster de la pluralidad de pósteres en el que están interesados actualmente los participantes.
Las realizaciones de este escenario comprenden:
- recibir, mediante un sistema de teleconferencia, temas de los participantes de una conferencia virtual;
- agrupar, mediante el sistema de teleconferencia basándose en los temas, a los participantes en subgrupos de la conferencia virtual;
- recibir, por el sistema de teleconferencia, una petición desde un dispositivo de un nuevo participante para unirse a la conferencia virtual, estando asociada la petición con un indicador que indica un tema preferido;
- seleccionar, mediante el sistema de teleconferencia, un subgrupo de los subgrupos basándose en el tema preferido y los temas de los subgrupos;
- proporcionar, mediante el sistema de teleconferencia al dispositivo del nuevo participante, un entorno virtual de la conferencia virtual, indicando el entorno virtual al menos uno de una proximidad virtual visual o una proximidad virtual de audio entre el nuevo participante y uno o más participantes del subgrupo seleccionado.
En algunas realizaciones, el entorno virtual indica la proximidad virtual visual o la proximidad virtual de audio al menos proporcionando un visualizador de realidad virtual o un campo de sonido de realidad virtual donde un avatar del nuevo participante y uno o más avatares de los participantes del subgrupo seleccionado están cerca unos de otros.
En algunas realizaciones, cada participante está conectado mediante unos auriculares abiertos y gafas AR. VI - Equivalentes, extensiones, alternativas y varios
Otras realizaciones de la presente divulgación resultarán evidentes para un experto en la técnica después de estudiar la descripción anterior. Aunque la presente descripción y los dibujos divulgan realizaciones y ejemplos, la divulgación no se limita a estos ejemplos específicos. Se pueden realizar numerosas modificaciones y variaciones sin apartarse del alcance de la presente divulgación, que está definido por las reivindicaciones adjuntas. Los signos de referencia que aparecen en las reivindicaciones no deben entenderse como limitativos de su alcance.
Además, el experto en la práctica de la divulgación puede comprender y efectuar variaciones de las realizaciones divulgadas, a partir de un estudio de los dibujos, la divulgación y las reivindicaciones adjuntas. En las reivindicaciones, la palabra "que comprende" no excluye otros elementos o pasos, y el artículo indefinido "un" o "una" no excluye una pluralidad. El mero hecho de que determinadas medidas se mencionen en reivindicaciones dependientes mutuamente diferentes no indica que una combinación de estas medidas no pueda usarse con beneficio.
Los sistemas y métodos divulgados anteriormente pueden implementarse como software, firmware, hardware o una combinación de los mismos. En una implementación de hardware, la división de tareas entre unidades funcionales a la que se hace referencia en la descripción anterior no corresponde necesariamente a la división en unidades físicas; por el contrario, un componente físico puede tener múltiples funcionalidades y una tarea puede ser realizada por varios componentes físicos en cooperación. Ciertos componentes o todos los componentes pueden implementarse como software ejecutado por un procesador o microprocesador de señales digitales, o implementarse como hardware o como un circuito integrado de aplicación específica. Tal software puede distribuirse en medios legibles por ordenador, que pueden comprender medios de almacenamiento informático (o medios no transitorios) y medios de comunicación (o medios transitorios). Como es bien conocido por un experto en la técnica, el término medios de almacenamiento informático incluye medios tanto volátiles como no volátiles, extraíbles y no extraíbles implementados en cualquier método o tecnología para el almacenamiento de información, tales como instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento informático incluyen, entre otros, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento en disco óptico, casetes magnéticos, cintas magnéticas, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que pueda usarse para almacenar la información deseada y al que se pueda acceder mediante un ordenador. Además, el experto en la técnica sabe bien que los medios de comunicación típicamente incorporan instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información.
Todas las figuras son esquemáticas y generalmente solo muestran partes que son necesarias para aclarar la divulgación, mientras que otras partes pueden omitirse o simplemente sugerirse. A menos que se indique lo contrario, números de referencia similares se refieren a partes similares en figuras diferentes.

Claims (15)

REIVINDICACIONES
1. - Un dispositivo que comprende o se puede conectar a un sistema (302) de micrófono que comprende uno o más micrófonos para capturar audio, comprendiendo el dispositivo (300):
una unidad (304) de recepción configurada para:
recibir (S13) audio direccional (320) capturado por el sistema de micrófono;
recibir (S14) metadatos (322) asociados con el sistema de micrófono, comprendiendo los metadatos datos espaciales del sistema de micrófono, siendo los datos espaciales indicativos de un cambio en la orientación espacial y/o la posición espacial del sistema de micrófono en comparación con una orientación/posición anterior del sistema de micrófono y que comprende al menos uno de la lista de: acimut, cabeceo, ángulo o ángulos de balanceo y coordenadas espaciales del sistema de micrófono;
una unidad informática (306) configurada para:
modificar al menos parte del audio direccional para producir audio direccional modificado, mediante el cual se modifica una propiedad direccional del audio en respuesta a la orientación espacial y/o posición espacial del sistema de micrófono;
codificar el audio direccional modificado en datos (328) de audio digital;
una unidad (308) de transmisión configurada para transmitir los datos de audio digitales.
2. - Un dispositivo de acuerdo con la reivindicación 1, en el que la unidad informática está configurada además para codificar al menos partes de los metadatos que comprenden datos espaciales del sistema de micrófono en dichos datos de audio digitales.
3. - Un dispositivo de acuerdo con la reivindicación 2, en el que la unidad de recepción está configurada además para recibir (S11) primeras instrucciones (334) que indican a la unidad informática si incluir dichas al menos partes de los metadatos que comprenden datos espaciales del sistema de micrófono en dicho datos de audio digitales, por lo que la unidad informática actúa en consecuencia.
4. - Un dispositivo de acuerdo con cualquiera de las reivindicaciones 2 a 3, en el que la unidad de recepción está configurada además para recibir (S12) segundas instrucciones (334) que indican a la unidad informática qué parámetro o parámetros de los datos espaciales del sistema de micrófono incluir en los datos de audio digitales, actuando en consecuencia la unidad informática.
5. - Un dispositivo de acuerdo con cualquiera de las reivindicaciones 1 a 4, en el que la unidad de recepción está configurada además para recibir metadatos que comprenden una marca de tiempo que indica un tiempo de captura del audio direccional, en el que la unidad informática está configurada para codificar dicha marca de tiempo en dicha datos de audio digitales.
6. - Un dispositivo de acuerdo con cualquiera de las reivindicaciones 1 a 5, en el que la codificación del audio direccional modificado comprende mezclar de manera descendente el audio direccional modificado, en el que la mezcla descendente se realiza teniendo en cuenta la orientación espacial del sistema de micrófono, y codificar la mezcla descendente y una matriz de mezcla descendente usada en la mezcla descendente de dichos datos de audio digitales.
7. - Un dispositivo de acuerdo con cualquiera de las reivindicaciones 1 a 6, que se implementa en un equipo de realidad virtual, VR (602a-e) o un equipo de realidad aumentada, AR, (602 a-e) que comprende el sistema de micrófono y un dispositivo de seguimiento de la cabeza configurado para determinar datos espaciales del dispositivo en 3-6 DoF.
8. - Un dispositivo (400) para renderizar señales de audio, comprendiendo el dispositivo:
una unidad (402) de recepción configurada para recibir (S21) datos de audio digitales (328),
una unidad (404) de decodificación configurada para:
decodificar (S22) los datos de audio digitales recibidos en audio direccional (420) y en metadatos (422), comprendiendo los metadatos datos espaciales al menos uno de la lista de: acimut, cabeceo, ángulo o ángulos de balanceo y coordenadas espaciales;
una unidad (406) de renderizado configurada para:
modificar (S23) una propiedad direccional del audio direccional usando los datos espaciales, en donde los datos espaciales indican un cambio en la orientación rotacional y/o la posición espacial de un sistema (302) de micrófono que comprende uno o más micrófonos que han capturado el audio direccional, en comparación con una orientación/posición anterior del sistema de micrófono, en donde la unidad de renderizado modifica la propiedad direccional del audio direccional para reproducir al menos parcialmente un entorno de audio del sistema de micrófono; y
renderizar (S24) el audio direccional modificado (424).
9. - Un dispositivo de acuerdo con la reivindicación 8, que comprende además una unidad (306) de transmisión configurada para transmitir instrucciones (334) a un dispositivo adicional (300) desde el cual se recibe el audio digital, indicando las instrucciones al dispositivo adicional qué parámetro o parámetros deben comprender los datos de rotación.
10. - Un dispositivo de acuerdo con cualquiera de las reivindicaciones 8 a 9, en el que la unidad de decodificación está configurada además para extraer una marca de tiempo que indica un tiempo de captura del audio direccional a partir de los datos de audio digitales.
11. - Un dispositivo de acuerdo con cualquiera de las reivindicaciones 8 a 10, en el que la decodificación de los datos de audio digitales recibidos en audio direccional mediante la unidad de decodificación comprende: decodificación de los datos de audio digitales recibidos en audio mezclado de manera descendente, mezclar de manera ascendente, mediante la unidad de decodificación, el audio mezclado de manera descendente en el audio direccional usando una matriz de mezcla descendente incluida en los datos de audio digitales recibidos.
12. - Un dispositivo de acuerdo con cualquiera de las reivindicaciones 8 a 11, que se implementa en un equipo (602a-e) de realidad virtual, VR, o equipo (602a-e) de realidad aumentada, AR, que comprende un dispositivo de seguimiento de la cabeza configurado para medir la orientación espacial y la posición espacial del dispositivo en seis DoF.
13. - Un dispositivo de acuerdo con cualquiera de las reivindicaciones 8 a 12, en el que la unidad de renderizado está configurada para renderizado de audio binaural.
14. - Un sistema que comprende:
un primer dispositivo (300) de acuerdo con cualquiera de las reivindicaciones 1 a 7, configurado para transmitir datos de audio digitales a un segundo dispositivo (400) de acuerdo con cualquiera de las reivindicaciones 8 a 13, en el que el sistema está configurado para audio y/o videoconferencia.
15. - Un medio no transitorio legible por ordenador que almacena instrucciones que, cuando son ejecutadas por uno o más procesadores, hacen que uno o más procesadores realicen operaciones de:
recibir (S13) audio direccional (320) capturado por un sistema de micrófono;
recibir (S14) metadatos (322) asociados con el sistema de micrófono, comprendiendo los metadatos datos espaciales del sistema de micrófono, siendo los datos espaciales indicativos de un cambio en la orientación espacial y/o la posición espacial del sistema de micrófono en comparación con una orientación anterior/posición del sistema de micrófono y que comprende al menos uno de la lista de: acimut, cabeceo, ángulo o ángulos de balanceo y coordenadas espaciales del sistema de micrófono;
modificar al menos parte del audio direccional para producir audio direccional modificado, mediante el cual se modifica una propiedad direccional del audio en respuesta a la orientación espacial y/o la posición espacial del sistema de micrófono; y
codificar el audio direccional modificado en datos de audio digitales (328).
ES19836164T 2018-11-13 2019-11-12 Procesamiento de audio en servicios de audio inversivos Active ES2974219T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862760262P 2018-11-13 2018-11-13
US201962793666P 2019-01-17 2019-01-17
US201962795236P 2019-01-22 2019-01-22
US201962797563P 2019-01-28 2019-01-28
PCT/US2019/060855 WO2020102153A1 (en) 2018-11-13 2019-11-12 Audio processing in immersive audio services

Publications (1)

Publication Number Publication Date
ES2974219T3 true ES2974219T3 (es) 2024-06-26

Family

ID=69160197

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19836164T Active ES2974219T3 (es) 2018-11-13 2019-11-12 Procesamiento de audio en servicios de audio inversivos

Country Status (14)

Country Link
US (1) US12167219B2 (es)
EP (2) EP4344194B1 (es)
JP (2) JP7488258B2 (es)
KR (1) KR20210090171A (es)
CN (2) CN117241173A (es)
AU (2) AU2019380367B2 (es)
BR (1) BR112021007089A2 (es)
CA (2) CA3291330A1 (es)
ES (1) ES2974219T3 (es)
IL (2) IL281936B2 (es)
MX (2) MX2021005017A (es)
SG (1) SG11202103700QA (es)
UA (1) UA130517C2 (es)
WO (1) WO2020102153A1 (es)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2985934T3 (es) 2018-11-13 2024-11-07 Dolby Laboratories Licensing Corp Representar audio espacial por medio de una señal de audio y metadatos asociados
ES2974219T3 (es) * 2018-11-13 2024-06-26 Dolby Laboratories Licensing Corp Procesamiento de audio en servicios de audio inversivos
AU2020320270B2 (en) 2019-08-01 2025-10-23 Dolby Laboratories Licensing Corporation Encoding and decoding IVAS bitstreams
US11908159B2 (en) * 2020-07-27 2024-02-20 Shopify Inc. Systems and methods for representing user interactions in multi-user augmented reality
EP3985482A1 (en) * 2020-10-13 2022-04-20 Koninklijke Philips N.V. Audiovisual rendering apparatus and method of operation therefor
US12355831B2 (en) * 2021-03-29 2025-07-08 Tencent America LLC Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals
GB2613628A (en) * 2021-12-10 2023-06-14 Nokia Technologies Oy Spatial audio object positional distribution within spatial audio communication systems
US12225370B2 (en) * 2022-01-13 2025-02-11 Electronics And Telecommunications Research Institute Apparatus for immersive spatial audio modeling and rendering
US12323475B2 (en) 2022-08-18 2025-06-03 International Business Machines Corporation Flexible orchestration of session content in venue networks
US12464087B1 (en) 2023-03-31 2025-11-04 Amazon Technologies, Inc. Determination of meeting content for display by an enterprise system
US12464307B2 (en) * 2023-04-10 2025-11-04 Meta Platforms Technologies, Llc Translation with audio spatialization
US12579185B1 (en) 2023-11-29 2026-03-17 Amazon Technologies, Inc. Persona identification based on comparison of entities
US12587401B1 (en) 2023-11-29 2026-03-24 Amazon Technologies, Inc. Audio output based on device parameters

Family Cites Families (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5521981A (en) * 1994-01-06 1996-05-28 Gehring; Louis S. Sound positioner
JP3052824B2 (ja) 1996-02-19 2000-06-19 日本電気株式会社 オーディオ再生時刻調整回路
FR2761562B1 (fr) 1997-03-27 2004-08-27 France Telecom Systeme de visioconference
GB2366975A (en) 2000-09-19 2002-03-20 Central Research Lab Ltd A method of audio signal processing for a loudspeaker located close to an ear
JP4187719B2 (ja) 2002-05-03 2008-11-26 ハーマン インターナショナル インダストリーズ インコーポレイテッド マルチチャネル・ダウンミキシング装置
US6814332B2 (en) * 2003-01-15 2004-11-09 Ultimate Support Systems, Inc. Microphone support boom movement control apparatus and method with differential motion isolation capability
JP2005181391A (ja) * 2003-12-16 2005-07-07 Sony Corp 音声処理装置および音声処理方法
US20050147261A1 (en) * 2003-12-30 2005-07-07 Chiang Yeh Head relational transfer function virtualizer
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
KR100818268B1 (ko) 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
KR20070099456A (ko) 2006-04-03 2007-10-09 엘지전자 주식회사 미디어 신호 처리 방법 및 장치
AU2007312598B2 (en) * 2006-10-16 2011-01-20 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008060111A1 (en) 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
JP5156757B2 (ja) * 2006-12-13 2013-03-06 ジーブイビービー ホールディングス エス.エイ.アール.エル. オーディオ・データおよびビデオ・データを取得および編集するシステムおよび方法
US20100188568A1 (en) * 2007-07-05 2010-07-29 Hironobu Abe Digital video transport system
CN101911180A (zh) 2007-10-22 2010-12-08 韩国电子通信研究院 多对象音频编码和解码方法以及其设备
US8457328B2 (en) 2008-04-22 2013-06-04 Nokia Corporation Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment
US8060042B2 (en) 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8831936B2 (en) 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
EP2154910A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
ES2425814T3 (es) 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
US8023660B2 (en) * 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
EP2338278B1 (en) 2008-09-16 2015-02-25 Intel Corporation Method for presenting an interactive video/multimedia application using content-aware metadata
KR101108061B1 (ko) 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
JP5603339B2 (ja) 2008-10-29 2014-10-08 ドルビー インターナショナル アーベー 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
US20100303265A1 (en) * 2009-05-29 2010-12-02 Nvidia Corporation Enhancing user experience in audio-visual systems employing stereoscopic display and directional audio
MX2011013829A (es) 2009-06-24 2012-03-07 Fraunhofer Ges Forschung Decodificador de señales de audio, metodo para decodificar una señal de audio y programa de computacion que utiliza etapas en cascada de procesamiento de objetos de audio.
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
JP5417227B2 (ja) 2010-03-12 2014-02-12 日本放送協会 マルチチャンネル音響信号のダウンミックス装置及びプログラム
US9994228B2 (en) * 2010-05-14 2018-06-12 Iarmourholdings, Inc. Systems and methods for controlling a vehicle or device in response to a measured human response to a provocative environment
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
KR101697550B1 (ko) 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
CN103348686B (zh) 2011-02-10 2016-04-13 杜比实验室特许公司 用于风检测和抑制的系统和方法
CN103649706B (zh) 2011-03-16 2015-11-25 Dts(英属维尔京群岛)有限公司 三维音频音轨的编码及再现
KR102185941B1 (ko) 2011-07-01 2020-12-03 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
US9105013B2 (en) 2011-08-29 2015-08-11 Avaya Inc. Agent and customer avatar presentation in a contact center virtual reality environment
IN2014CN03413A (es) 2011-11-01 2015-07-03 Koninkl Philips Nv
EP2805326B1 (en) * 2012-01-19 2015-10-14 Koninklijke Philips N.V. Spatial audio rendering and encoding
US8712076B2 (en) * 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
EP2825898A4 (en) * 2012-03-12 2015-12-09 Nokia Technologies Oy AUDIO SOURCE PROCESSING
JP2013210501A (ja) 2012-03-30 2013-10-10 Brother Ind Ltd 素片登録装置,音声合成装置,及びプログラム
US9357323B2 (en) 2012-05-10 2016-05-31 Google Technology Holdings LLC Method and apparatus for audio matrix decoding
WO2013186593A1 (en) 2012-06-14 2013-12-19 Nokia Corporation Audio capture apparatus
GB201211512D0 (en) 2012-06-28 2012-08-08 Provost Fellows Foundation Scholars And The Other Members Of Board Of The Method and apparatus for generating an audio output comprising spartial information
KR102201713B1 (ko) 2012-07-19 2021-01-12 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
CN104541524B (zh) 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
PT2880654T (pt) 2012-08-03 2017-12-07 Fraunhofer Ges Forschung Descodificador e método para um conceito paramétrico generalizado de codificação de objeto de áudio espacial para caixas de downmix/upmix multicanal
ES2638391T3 (es) 2012-08-10 2017-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador, decodificador, sistema y procedimiento que emplea un concepto residual para una codificación paramétrica de un objeto de audio
EP2898506B1 (en) 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2936829A4 (en) * 2012-12-18 2016-08-10 Nokia Technologies Oy WIDE DEVICE
WO2014100374A2 (en) 2012-12-19 2014-06-26 Rabbit, Inc. Method and system for content sharing and discovery
US9460732B2 (en) * 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
EP2782094A1 (en) 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
EP2973551B1 (en) 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
TWI615834B (zh) 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US20150035940A1 (en) 2013-07-31 2015-02-05 Vidyo Inc. Systems and Methods for Integrating Audio and Video Communication Systems with Gaming Systems
JP6412931B2 (ja) 2013-10-07 2018-10-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 空間的オーディオ・システムおよび方法
CA3262089A1 (en) 2013-10-22 2025-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. COMBINED DYNAMIC RANGE COMPRESSION AND GUIDED CLIPPING PREVENTION CONCEPT FOR AUDIO DEVICES
EP4421617A3 (en) 2013-10-31 2024-11-06 Dolby Laboratories Licensing Corporation Binaural rendering for headphones using metadata processing
US9779739B2 (en) 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
WO2015150480A1 (en) 2014-04-02 2015-10-08 Dolby International Ab Exploiting metadata redundancy in immersive audio metadata
US9961119B2 (en) 2014-04-22 2018-05-01 Minerva Project, Inc. System and method for managing virtual conferencing breakout groups
US10068577B2 (en) 2014-04-25 2018-09-04 Dolby Laboratories Licensing Corporation Audio segmentation based on spatial metadata
US9774976B1 (en) 2014-05-16 2017-09-26 Apple Inc. Encoding and rendering a piece of sound program content with beamforming data
EP2963949A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
CN105336335B (zh) 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
CN110636415B (zh) 2014-08-29 2021-07-23 杜比实验室特许公司 用于处理音频的方法、系统和存储介质
JP6724783B2 (ja) * 2014-09-12 2020-07-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US9930462B2 (en) 2014-09-14 2018-03-27 Insoundz Ltd. System and method for on-site microphone calibration
US9794721B2 (en) 2015-01-30 2017-10-17 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
WO2016126819A1 (en) 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
US9712936B2 (en) * 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
CN107431861B (zh) * 2015-04-02 2021-03-09 杜比实验室特许公司 用于自适应音频渲染系统的分布式放大
US10062208B2 (en) 2015-04-09 2018-08-28 Cinemoi North America, LLC Systems and methods to provide interactive virtual environments
WO2016182371A1 (ko) 2015-05-12 2016-11-17 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
WO2016209098A1 (en) 2015-06-26 2016-12-29 Intel Corporation Phase response mismatch correction for multiple microphones
US10085029B2 (en) * 2015-07-21 2018-09-25 Qualcomm Incorporated Switching display devices in video telephony
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US20170098452A1 (en) 2015-10-02 2017-04-06 Dts, Inc. Method and system for audio processing of dialog, music, effect and height objects
US10251007B2 (en) 2015-11-20 2019-04-02 Dolby Laboratories Licensing Corporation System and method for rendering an audio program
US9854375B2 (en) 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
CN108476365B (zh) 2016-01-08 2021-02-05 索尼公司 音频处理装置和方法以及存储介质
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
US9986363B2 (en) 2016-03-03 2018-05-29 Mach 1, Corp. Applications and format for immersive spatial sound
US9824500B2 (en) * 2016-03-16 2017-11-21 Microsoft Technology Licensing, Llc Virtual object pathing
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
US10652303B2 (en) 2016-04-28 2020-05-12 Rabbit Asset Purchase Corp. Screencast orchestration
US10251012B2 (en) 2016-06-07 2019-04-02 Philip Raymond Schaefer System and method for realistic rotation of stereo or binaural audio
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
GB2554446A (en) 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
US20180123813A1 (en) 2016-10-31 2018-05-03 Bragi GmbH Augmented Reality Conferencing System and Method
US20180139413A1 (en) 2016-11-17 2018-05-17 Jie Diao Method and system to accommodate concurrent private sessions in a virtual conference
GB2556093A (en) 2016-11-18 2018-05-23 Nokia Technologies Oy Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices
GB2557218A (en) * 2016-11-30 2018-06-20 Nokia Technologies Oy Distributed audio capture and mixing
MX395185B (es) 2016-12-05 2025-03-25 Univ Case Western Reserve Sistemas, métodos y medios para mostrar presentaciones interactivas de realidad aumentada.
US10165386B2 (en) * 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
EP3635949B1 (en) 2017-06-09 2025-08-27 InterDigital VC Holdings, Inc. Spatially faithful telepresence supporting varying geometries and moving users
US10541824B2 (en) 2017-06-21 2020-01-21 Minerva Project, Inc. System and method for scalable, interactive virtual conferencing
US10885921B2 (en) 2017-07-07 2021-01-05 Qualcomm Incorporated Multi-stream audio coding
US10304239B2 (en) 2017-07-20 2019-05-28 Qualcomm Incorporated Extended reality virtual assistant
US10854209B2 (en) 2017-10-03 2020-12-01 Qualcomm Incorporated Multi-stream audio coding
MX2020003506A (es) 2017-10-04 2020-07-22 Fraunhofer Ges Forschung Aparato, metodo y programa de computacion para la codificacion, la decodificacion, el procesamiento de escenas y otros procedimientos relacionados con la codificacion de audio espacial basada en dirac.
US11328735B2 (en) 2017-11-10 2022-05-10 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CA3083891C (en) 2017-11-17 2023-05-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
WO2019106221A1 (en) 2017-11-28 2019-06-06 Nokia Technologies Oy Processing of spatial audio parameters
WO2019105575A1 (en) 2017-12-01 2019-06-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
ES2965395T3 (es) 2017-12-28 2024-04-15 Nokia Technologies Oy Determinación de codificación de parámetros de audio espacial y decodificación asociada
JP6888172B2 (ja) 2018-01-18 2021-06-16 ドルビー ラボラトリーズ ライセンシング コーポレイション 音場表現信号を符号化する方法及びデバイス
US10819414B2 (en) * 2018-03-26 2020-10-27 Intel Corporation Methods and devices for beam tracking
EP3818524B1 (en) 2018-07-02 2023-12-13 Dolby Laboratories Licensing Corporation Methods and devices for generating or decoding a bitstream comprising immersive audio signals
ES2974219T3 (es) 2018-11-13 2024-06-26 Dolby Laboratories Licensing Corp Procesamiento de audio en servicios de audio inversivos
ES2985934T3 (es) 2018-11-13 2024-11-07 Dolby Laboratories Licensing Corp Representar audio espacial por medio de una señal de audio y metadatos asociados
EP3930349A1 (en) 2020-06-22 2021-12-29 Koninklijke Philips N.V. Apparatus and method for generating a diffuse reverberation signal

Also Published As

Publication number Publication date
AU2025204018A1 (en) 2025-06-19
EP4344194A2 (en) 2024-03-27
CN112970270B (zh) 2023-10-13
US12167219B2 (en) 2024-12-10
IL324293A (en) 2025-12-01
JP2024102276A (ja) 2024-07-30
JP2022509761A (ja) 2022-01-24
JP7815321B2 (ja) 2026-02-17
MX2024010034A (es) 2024-08-22
EP3881559A1 (en) 2021-09-22
EP4344194B1 (en) 2026-03-11
CN112970270A (zh) 2021-06-15
IL281936B1 (en) 2025-12-01
CN117241173A (zh) 2023-12-15
UA130517C2 (uk) 2026-03-11
CA3291330A1 (en) 2025-11-29
EP4344194A3 (en) 2024-06-12
SG11202103700QA (en) 2021-05-28
IL281936B2 (en) 2026-04-01
MX2021005017A (es) 2021-06-15
JP7488258B2 (ja) 2024-05-21
IL281936A (en) 2021-05-31
CA3116181A1 (en) 2020-05-22
AU2019380367A1 (en) 2021-05-20
KR20210090171A (ko) 2021-07-19
WO2020102153A1 (en) 2020-05-22
AU2019380367B2 (en) 2025-05-29
EP3881559B1 (en) 2024-02-14
US20220022000A1 (en) 2022-01-20
BR112021007089A2 (pt) 2021-07-20

Similar Documents

Publication Publication Date Title
ES2974219T3 (es) Procesamiento de audio en servicios de audio inversivos
CN114067810B (zh) 音频信号渲染方法和装置
JP5198567B2 (ja) ビデオ通信方法、システムおよび装置
US11477598B2 (en) Apparatuses and associated methods for spatial presentation of audio
US12167220B2 (en) Audio representation and associated rendering
KR20180044077A (ko) 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치
RU2810920C2 (ru) Обработка звука в звуковых услугах с эффектом присутствия
US20250088816A1 (en) Audio processing in immersive audio services
HK40102081A (en) Audio processing in immersive audio services
HK40103033A (zh) 沉浸式音频服务中的音频处理
HK40060344B (en) Audio processing in immersive audio services
HK40060344A (en) Audio processing in immersive audio services
US12532144B2 (en) Apparatus, methods and computer programs for processing audio signals
US20250080939A1 (en) Spatial audio
EP3917162A1 (en) System and devices for audio-video spatial communication and event sharing
JP2025058570A (ja) 信号伝送方法、信号生成方法、信号再生方法、音声信号処理プログラム、音声伝送装置、音声再生装置、及び音声伝送再生システム
GB2639006A (en) A multi-participant, spatial audio service