ES2924894T3

ES2924894T3 - Métodos, aparatos y sistemas para extensión de tres grados de libertad (3DOF+) de MPEG-H 3D Audio

Info

Publication number: ES2924894T3
Application number: ES19717296T
Authority: ES
Inventors: Christof Fersch; Leon Terentiv; Daniel Fischer
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2018-04-09
Filing date: 2019-04-09
Publication date: 2022-10-11
Anticipated expiration: 2039-04-09
Also published as: JP2026035666A; IL291120B1; BR112020018404A2; IL319168A; CL2021001186A1; CA3168578A1; EP4636548A3; IL309872A; CA3091183A1; MX2023014623A; KR102580673B1; MX2023014607A; AU2019253134B2; IL314886B2; KR20230136227A; IL309872B2; CN119485135A; AU2025200367A1; IL314886B1; EP3777246A1

Abstract

Se describe un método de procesamiento de información de posición indicativa de una posición de objeto de un objeto de audio, en el que la posición de objeto se puede utilizar para representar el objeto de audio, que comprende: obtener información de orientación del oyente indicativa de una orientación de la cabeza del oyente; obtener información de desplazamiento del oyente indicativa de un desplazamiento de la cabeza del oyente; determinar la posición del objeto a partir de la información de posición; modificar la posición del objeto basándose en la información de desplazamiento del oyente aplicando una traslación a la posición del objeto; y modificar adicionalmente la posición del objeto modificado en base a la información de orientación del oyente. Además se describe un aparato correspondiente para procesar información de posición indicativa de una posición de objeto de un objeto de audio, en el que la posición del objeto se puede utilizar para representar el objeto de audio. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Métodos, aparatos y sistemas para extensión de tres grados de libertad (3DOF+) de MPEG-H 3D Audio

Campo técnico

La presente divulgación se refiere a métodos y aparatos para procesar información de posición indicativa de la posición de un objeto de audio e información indicativa del desplazamiento posicional de la cabeza de un oyente.

Antecedentes

La primera edición (15 de octubre de 2015) y las enmiendas 1 a 4 del estándar ISO/IEC 23008-3 MPEG-H 3D Audio no permiten pequeños movimientos de traslación de la cabeza de un usuario en un entorno de tres grados de libertad (3DoF).

El documento US 2018/004631A1 describe un dispositivo multimedia que incluye uno o más sensores configurados para generar datos del primer sensor y datos del segundo sensor. Los datos del primer sensor son indicativos de una primera posición en un primer momento y los datos del segundo sensor son indicativos de una segunda posición en un segundo momento. El dispositivo multimedia incluye además un procesador acoplado a dicho o más sensores. El procesador está configurado para generar una primera versión de una señal de audio espacializada, determinar un valor acumulativo basado en un descentramiento, la primera posición y la segunda posición, y generar una segunda versión de la señal de audio espacializada basada en el valor acumulativo.

El artículo de la conferencia "Presentación de sonido espacial para oyentes en movimiento usando ambisónicos de alto orden" de Trevino Jorge et al., presentado en la "Conferencia internacional AES sobre control de campo de sonido" del 18 al 20 de julio de 2016, en Guildford, Reino Unido, describe un decodificador ambisónico (HOA) de alto orden que hace uso de operaciones de resituación armónica esférica.

El documento WO 2017/098949A1 describe un dispositivo de procesamiento de voz, un método y un programa con el que es posible reproducir un campo de sonido. Una unidad de corrección de la posición de la fuente de sonido corrige la información de la posición de la fuente de sonido indicando la posición de cada fuente de sonido del objeto sobre la base de una posición auditiva en la que se escucha la voz y obtiene la información de la posición de la fuente de sonido corregida. Una unidad de control del área de reproducción calcula, sobre la base de la señal de la fuente de sonido del objeto de voz de la fuente de sonido del objeto, la posición de audición y la información de posición de la fuente de sonido corregida, un espectro de frecuencia espacial tal que un área de reproducción se adapta a una posición de audición dentro de un conjunto de altavoces esféricos o anulares.

El documento US 2018/091918 A1 describe un método y un aparato para emitir una señal de audio correspondiente a una posición de usuario. El método incluye recibir una señal de audio y proporcionar una señal de audio de decodificación y metadatos decodificados, verificar si la posición de un usuario cambia en un espacio arbitrario usando información de la posición del usuario, incluido un indicador de cambio de posición del usuario y un descentramiento de cambio de posición del usuario, cuando cambia la posición del usuario, proporcionar metadatos modificados obtenidos mediante la corrección de los metadatos decodificados basándose en el descentramiento del cambio de posición del usuario, y renderizar la señal de audio decodificada usando los metadatos modificados.

Sumario

La primera edición (15 de octubre de 2015) y las enmiendas 1-4 del estándar ISO/IEC 23008-3 MPEG-H 3D Audio brindan funcionalidad para la posibilidad de un entorno 3DoF, donde un usuario (oyente) realiza acciones de rotación de la cabeza. Sin embargo, dicha funcionalidad, en el mejor de los casos, solo soporta la señalización de desplazamiento de escena rotacional y el renderizado correspondiente. Esto significa que la escena de audio puede permanecer espacialmente estacionaria bajo el cambio de orientación de la cabeza del oyente, lo que corresponde a una propiedad 3DoF. Sin embargo, no existe la posibilidad de tener en cuenta el pequeño movimiento de traslación de la cabeza del usuario dentro del ecosistema MPEG-H 3D Audio actual.

Por lo tanto, existe la necesidad de métodos y aparatos para procesar información de posición de objetos de audio que puedan dar cuenta del pequeño movimiento de traslación de la cabeza del usuario, potencialmente junto con el movimiento de rotación de la cabeza del usuario.

Este objeto se resuelve mediante un método de acuerdo con la reivindicación 1, un aparato de acuerdo con la reivindicación 8. Otros aspectos de la invención se definen en las reivindicaciones dependientes.

La información de orientación del oyente y la información de desplazamiento del oyente se obtienen a través de una interfaz de entrada del decodificador MPEG-H 3D Audio. La información de orientación del oyente y la información de desplazamiento del oyente pueden derivarse basándose en la información del sensor. La combinación de información de orientación e información de posición puede denominarse información de posición. El método puede incluir además determinar la posición del objeto a partir de la información de posición. Por ejemplo, la posición del objeto puede extraerse de la información de posición. La determinación (por ejemplo, extracción) de la posición del objeto puede basarse además en información sobre una geometría de una disposición de altavoces de uno o más altavoces en un entorno de escucha. La posición del objeto también puede denominarse posición del canal del objeto de audio. El método puede incluir además la modificación de la posición del objeto basándose en la información de desplazamiento del oyente aplicando una traslación a la posición del objeto. La modificación de la posición del objeto puede relacionarse con la corrección de la posición del objeto por el desplazamiento de la cabeza del oyente desde la posición de escucha nominal. En otras palabras, la modificación de la posición del objeto puede relacionarse con la aplicación de compensación de desplazamiento posicional a la posición del objeto. El método puede incluir además modificar aún más la posición del objeto modificado basándose en la información de orientación del oyente, por ejemplo aplicando una transformación rotacional a la posición del objeto modificado (por ejemplo, una rotación con respecto a la cabeza del oyente o la posición de escucha nominal). La modificación adicional de la posición del objeto modificado para renderizar el objeto de audio puede implicar el desplazamiento giratorio de la escena de audio.

Configurado como se describió anteriormente, el método propuesto proporciona una experiencia auditiva más realista, especialmente para objetos de audio que se encuentran cerca de la cabeza del oyente. Además de los tres grados de libertad (rotacionales) ofrecidos convencionalmente al oyente en un entorno 3DoF, el método propuesto también puede tener en cuenta los movimientos de traslación de la cabeza del oyente. Esto permite al oyente acercarse a objetos de audio cercanos desde diferentes ángulos e incluso lados. Por ejemplo, el oyente puede escuchar un objeto de audio "mosquito" que está cerca de la cabeza del oyente desde diferentes ángulos moviendo ligeramente la cabeza, posiblemente además de rotarla. En consecuencia, el método propuesto puede permitir una experiencia auditiva mejorada, más realista e inmersiva para el oyente.

En algunas realizaciones, la modificación de la posición del objeto y la modificación adicional de la posición del objeto modificado se pueden realizar de tal manera que el objeto de audio, después de ser renderizado en uno o más altavoces reales o virtuales de acuerdo con la posición del objeto modificado adicional, es percibido psicoacústicamente por el oyente como con origen en una posición fija con respecto a una posición de escucha nominal, independientemente del desplazamiento de la cabeza del oyente desde la posición de escucha nominal y la orientación de la cabeza del oyente con respecto a una orientación nominal. En consecuencia, se puede percibir que el objeto de audio se mueve con relación a la cabeza del oyente cuando la cabeza del oyente experimenta el desplazamiento desde la posición de escucha nominal. Asimismo, se puede percibir que el objeto de audio gira con respecto a la cabeza del oyente cuando la cabeza del oyente experimenta un cambio de orientación con respecto a la orientación nominal. Dicho o más altavoces pueden ser parte de unos auriculares, por ejemplo, o pueden ser parte de una disposición de altavoces (por ejemplo, una disposición de altavoces 2.1, 5.1, 7.1, etc.).

En algunas realizaciones, la modificación de la posición del objeto basándose en la información de desplazamiento del oyente se puede realizar trasladando la posición del objeto por un vector que se correlaciona positivamente con la magnitud y se correlaciona negativamente con la dirección de un vector de desplazamiento de la cabeza del oyente desde una posición de escucha nominal.

De este modo, se garantiza que el oyente perciba que los objetos de audio cercanos se mueven de acuerdo con el movimiento de su cabeza. Esto contribuye a una experiencia auditiva más realista para esos objetos de audio.

En algunas realizaciones, la información de desplazamiento del oyente puede ser indicativa de un desplazamiento de la cabeza del oyente desde una posición nominal de escucha por un pequeño desplazamiento posicional. Por ejemplo, un valor absoluto del desplazamiento no puede ser superior a 0,5 m. El desplazamiento puede expresarse en coordenadas cartesianas (por ejemplo, x, y, z) o en coordenadas esféricas (por ejemplo, acimut, elevación, radio).

En algunas realizaciones, la información de desplazamiento del oyente puede ser indicativa de un desplazamiento de la cabeza del oyente desde una posición de escucha nominal que puede lograrse moviendo la parte superior del cuerpo y/o la cabeza del oyente. Por lo tanto, el desplazamiento puede lograrse para el oyente sin mover la parte inferior del cuerpo. Por ejemplo, el desplazamiento de la cabeza del oyente puede lograrse cuando el oyente está sentado en una silla.

En algunas realizaciones, la información de posición puede incluir una indicación de la distancia del objeto de audio desde una posición de escucha nominal. La distancia (radio) puede ser inferior a 0,5 m. Por ejemplo, la distancia puede ser inferior a 1 cm. Alternativamente, el decodificador puede establecer la distancia del objeto de audio desde la posición de escucha nominal a un valor predeterminado.

En algunas realizaciones, la información de orientación del oyente puede incluir información sobre una guiñada, un cabeceo y un balanceo de la cabeza del oyente. La guiñada, cabeceo, balanceo pueden darse con respecto a una orientación nominal (por ejemplo, orientación de referencia) de la cabeza del oyente.

En algunas realizaciones, la información de desplazamiento del oyente puede incluir información sobre el desplazamiento de la cabeza del oyente desde una posición de escucha nominal expresada en coordenadas cartesianas o en coordenadas esféricas. Así, el desplazamiento puede expresarse en términos de coordenadas x, y, z para coordenadas cartesianas, y en términos de coordenadas de acimut, elevación y radio para coordenadas esféricas.

En algunas realizaciones, el método puede incluir además la detección de la orientación de la cabeza del oyente mediante un equipo portátil y/o estacionario. Asimismo, el método puede incluir además la detección del desplazamiento de la cabeza del oyente desde una posición de escucha nominal mediante un equipo portátil y/o estacionario. El equipo portátil puede ser, corresponder y/o incluir un auricular o un auricular de realidad aumentada (AR)/realidad virtual (VR), por ejemplo. El equipo estacionario puede ser, corresponder y/o incluir sensores de cámara, por ejemplo. Esto permite obtener información precisa sobre el desplazamiento y/o la orientación de la cabeza del oyente y, por lo tanto, permite un tratamiento realista de objetos de audio cercanos de acuerdo con la orientación y/o el desplazamiento.

En algunas realizaciones, el método puede incluir además el renderizado del objeto de audio a uno o más altavoces reales o virtuales de acuerdo con la posición del objeto modificado adicionalmente. Por ejemplo, el objeto de audio puede ser renderizado en los altavoces izquierdo y derecho de unos auriculares.

En algunas realizaciones, el renderizado se puede realizar para tener en cuenta la oclusión sónica para distancias pequeñas del objeto de audio desde la cabeza del oyente, basándose en funciones de transferencia relacionadas con la cabeza (HRTF) para la cabeza del oyente. Por lo tanto, el oyente percibirá el renderizado de objetos de audio cercanos como aún más realista.

En algunas realizaciones, la posición del objeto modificado adicionalmente puede ajustarse al formato de entrada usado por un renderizador de MPEG-H 3D Audio. En algunas realizaciones, el renderizado se puede realizar usando un MPEG-H 3D Audio. El procesamiento se realiza usando un decodificador de MPEG-H 3^dAudio. En algunas realizaciones, el procesamiento puede ser realizado por una unidad de desplazamiento de escena de un decodificador MPEG-H 3D Audio. En consecuencia, el método propuesto permite implementar una experiencia limitada de seis grados de libertad (6DoF) (es decir, 3DoF+) en el marco del estándar de MPEG-H 3D Audio.

De acuerdo con otro aspecto de la divulgación, se describe otro método de procesamiento de información de posición indicativa de la posición de un objeto de un objeto de audio. La posición del objeto puede utilizarse para el renderizado del objeto de audio. El método puede incluir la obtención de información de desplazamiento del oyente indicativa de un desplazamiento de la cabeza del oyente. El método puede incluir además determinar la posición del objeto a partir de la información de posición. El método puede incluir además la modificación de la posición del objeto basándose en la información de desplazamiento del oyente aplicando una traslación a la posición del objeto.

Configurado como se describió anteriormente, el método propuesto proporciona una experiencia auditiva más realista, especialmente para objetos de audio que se encuentran cerca de la cabeza del oyente. Al poder tener en cuenta los pequeños movimientos de traslación de la cabeza del oyente, el método propuesto permite al oyente acercarse a objetos de audio cercanos desde diferentes ángulos e incluso lados. En consecuencia, el método propuesto puede permitir una experiencia auditiva inmersiva mejorada y más realista para el oyente.

En algunas realizaciones, la modificación de la posición del objeto basándose en la información de desplazamiento del oyente se puede realizar de manera que el objeto de audio, después de ser renderizado en uno o más altavoces reales o virtuales de acuerdo con la posición modificada del objeto, sea percibido psicoacústicamente por el oyente como con origen en una posición fija con respecto a una posición de escucha nominal, independientemente del desplazamiento de la cabeza del oyente desde la posición de escucha nominal.

De acuerdo con otro aspecto de la divulgación, se describe otro método de procesamiento de información de posición indicativa de la posición de un objeto de un objeto de audio. La posición del objeto puede utilizarse para el renderizado del objeto de audio. El método puede incluir la obtención de información de orientación del oyente indicativa de una orientación de la cabeza del oyente. El método puede incluir además la determinación de la posición del objeto a partir de la información de posición. El método aún puede incluir la modificación de la posición del objeto basándose en la información de orientación del oyente, por ejemplo, aplicando una transformación rotacional a la posición del objeto (por ejemplo, una rotación con respecto a la cabeza del oyente o la posición de escucha nominal).

Configurado como se describe anteriormente, el método propuesto puede tener en cuenta la orientación de la cabeza del oyente para proporcionarle una experiencia auditiva más realista.

En algunas realizaciones, la modificación de la posición del objeto basándose en la información de orientación del oyente se puede realizar de manera que el objeto de audio, después de ser renderizado en uno o más altavoces reales o virtuales de acuerdo con la posición modificada del objeto, sea percibido psicoacústicamente por el oyente como con origen en una posición fija con respecto a una posición de escucha nominal, independientemente de la orientación de la cabeza del oyente con respecto a una orientación nominal.

De acuerdo con otro aspecto de la divulgación, se describe un aparato para procesar información de posición indicativa de la posición de un objeto de un objeto de audio. La posición del objeto puede utilizarse para el renderizado del objeto de audio. El aparato puede incluir un procesador y una memoria acoplados al procesador. El procesador puede estar adaptado para obtener información de orientación del oyente indicativa de una orientación de la cabeza del oyente. El procesador puede adaptarse además para obtener información de desplazamiento del oyente indicativa de un desplazamiento de la cabeza del oyente. El procesador puede adaptarse además para determinar la posición del objeto a partir de la información de posición. El procesador puede adaptarse además para modificar la posición del objeto basándose en la información de desplazamiento del oyente aplicando una traslación a la posición del objeto. El procesador puede adaptarse aún más para modificar aún más la posición del objeto modificado basándose en la información de orientación del oyente, por ejemplo, aplicando una transformación rotacional a la posición del objeto modificado (por ejemplo, una rotación con respecto a la cabeza del oyente o la posición de escucha nominal).

En algunas realizaciones, el procesador puede adaptarse para modificar la posición del objeto y modificar aún más la posición del objeto modificado de manera que el objeto de audio, después de ser renderizado en uno o más altavoces reales o virtuales de acuerdo con la posición del objeto modificado adicionalmente, se percibe psicoacústicamente por el oyente como con origen en una posición fija con respecto a una posición de escucha nominal, independientemente del desplazamiento de la cabeza del oyente desde la posición de escucha nominal y la orientación de la cabeza del oyente con respecto a una orientación nominal.

En algunas realizaciones, el procesador puede adaptarse para modificar la posición del objeto basándose en la información de desplazamiento del oyente trasladando la posición del objeto por un vector que se correlaciona positivamente con la magnitud y se correlaciona negativamente con la dirección de un vector de desplazamiento de la cabeza del oyente desde una posición de escucha nominal.

En algunas realizaciones, la información de desplazamiento del oyente puede ser indicativa de un desplazamiento de la cabeza del oyente desde una posición nominal de escucha por un pequeño desplazamiento posicional.

En algunas realizaciones, la información de desplazamiento del oyente puede ser indicativa de un desplazamiento de la cabeza del oyente desde una posición de escucha nominal que puede lograrse moviendo la parte superior del cuerpo y/o la cabeza del oyente.

En algunas realizaciones, la información de posición puede incluir una indicación de la distancia del objeto de audio desde una posición de escucha nominal.

En algunas realizaciones, la información de orientación del oyente puede incluir información sobre una guiñada, un cabeceo y un balanceo de la cabeza del oyente.

En algunas realizaciones, la información de desplazamiento del oyente puede incluir información sobre el desplazamiento de la cabeza del oyente desde una posición de escucha nominal expresada en coordenadas cartesianas o en coordenadas esféricas.

En algunas realizaciones, el aparato puede incluir además equipo portátil y/o estacionario para detectar la orientación de la cabeza del oyente. En algunas realizaciones, el aparato puede incluir además equipo portátil y/o estacionario para detectar el desplazamiento de la cabeza del oyente desde una posición de escucha nominal.

En algunas realizaciones, el procesador puede adaptarse además para renderizar el objeto de audio en uno o más altavoces reales o virtuales de acuerdo con la posición del objeto modificado adicionalmente.

En algunas realizaciones, el procesador puede adaptarse para realizar el renderizado teniendo en cuenta la oclusión sónica para distancias pequeñas del objeto de audio desde la cabeza del oyente, basándose en las HRTF para la cabeza del oyente.

En algunas realizaciones, el procesador puede adaptarse para ajustar la posición del objeto modificado adicionalmente al formato de entrada usado por un renderizador de MPEG-H 3D Audio. En algunas realizaciones, el renderizado se puede realizar usando un renderizador de MPEG-H 3D Audio. Es decir, el procesador puede implementar un renderizador de MPEG-H 3D Audio. En algunas realizaciones, el procesador puede adaptarse para implementar un decodificador MPEG-H 3D Audio. En algunas realizaciones, el procesador puede adaptarse para implementar una unidad de desplazamiento de escena de un decodificador MPEG-H 3D Audio.

De acuerdo con otro aspecto de la divulgación, se describe otro aparato para procesar información de posición indicativa de la posición de un objeto de un objeto de audio. La posición del objeto puede utilizarse para el renderizado del objeto de audio. El aparato puede incluir un procesador y una memoria acoplados al procesador. El procesador puede estar adaptado para obtener información de desplazamiento del oyente indicativa de un desplazamiento de la cabeza del oyente. El procesador puede adaptarse además para determinar la posición del objeto a partir de la información de posición. El procesador puede adaptarse aún más para modificar la posición del objeto basándose en la información de desplazamiento del oyente aplicando una traslación a la posición del objeto.

En algunas realizaciones, el procesador puede estar adaptado para modificar la posición del objeto basándose en la información de desplazamiento del oyente, de modo que el objeto de audio, después de ser renderizado en uno o más altavoces reales o virtuales de acuerdo con la posición modificada del objeto, es percibido psicoacústicamente por el oyente como con origen en una posición fija en relación con una posición de escucha nominal, independientemente del desplazamiento de la cabeza del oyente desde la posición de escucha nominal.

De acuerdo con otro aspecto de la divulgación, se describe otro aparato para procesar información de posición indicativa de la posición de un objeto de un objeto de audio. La posición del objeto puede utilizarse para el renderizado del objeto de audio. El aparato puede incluir un procesador y una memoria acoplados al procesador. El procesador puede estar adaptado para obtener información de orientación del oyente indicativa de una orientación de la cabeza del oyente. El procesador puede adaptarse además para determinar la posición del objeto a partir de la información de posición. El procesador puede adaptarse aún más para modificar la posición del objeto basándose en la información de orientación del oyente, por ejemplo, aplicando una transformación rotacional a la posición del objeto modificado (por ejemplo, una rotación con respecto a la cabeza del oyente o la posición de escucha nominal).

En algunas realizaciones, el procesador puede adaptarse para modificar la posición del objeto basándose en la información de orientación del oyente, de modo que el objeto de audio, después de ser renderizado en uno o más altavoces reales o virtuales de acuerdo con la posición modificada del objeto, es percibido psicoacústicamente por el oyente como con origen en una posición fija con respecto a una posición de escucha nominal, independientemente de la orientación de la cabeza del oyente con respecto a una orientación nominal.

De acuerdo con otro aspecto más, se describe un sistema. El sistema puede incluir un aparato de acuerdo con cualquiera de los aspectos anteriores y un equipo portátil y/o estacionario capaz de detectar una orientación de la cabeza de un oyente y detectar un desplazamiento de la cabeza del oyente.

Se apreciará que los pasos del método y las características del aparato pueden intercambiarse de muchas maneras. En particular, los detalles del método divulgado pueden implementarse como un aparato adaptado para ejecutar algunos o todos los pasos del método, y viceversa, como apreciará el experto en la técnica. En particular, se entiende que el aparato de acuerdo con la divulgación puede referirse a aparatos para realizar o ejecutar los métodos de acuerdo con las realizaciones anteriores y variaciones de las mismas, y que las declaraciones respectivas hechas con respecto a los métodos se aplican de manera análoga al aparato correspondiente. Asimismo, se entiende que los métodos de acuerdo con la divulgación pueden relacionarse con métodos de operar el aparato de acuerdo con las realizaciones anteriores y variaciones de las mismas, y que las declaraciones respectivas hechas con respecto al aparato se aplican de manera análoga a los métodos correspondientes.

Breve descripción de las figuras

La invención se explica a continuación a modo de ejemplo con referencia a los dibujos adjuntos, en los que

la figura 1 ilustra esquemáticamente un ejemplo de un sistema MPEG-H 3D Audio;

la figura 2 ilustra esquemáticamente un ejemplo de un sistema MPEG-H 3D Audio de acuerdo con la presente invención;

la figura 3 ilustra esquemáticamente un ejemplo de un sistema de renderizado de audio de acuerdo con la presente invención;

la figura 4 ilustra esquemáticamente un ejemplo de un conjunto de ejes de coordenadas cartesianas y su relación con las coordenadas esféricas; y

la figura 5 es un diagrama de flujo que ilustra esquemáticamente un ejemplo de un método de procesamiento de información de posición para un objeto de audio de acuerdo con la presente invención.

Descripción detallada

Como se usa en el presente documento, 3DoF es típicamente un sistema que puede manejar correctamente el movimiento de la cabeza de un usuario, en particular la rotación de la cabeza, especificada con tres parámetros (por ejemplo, guiñada, cabeceo, balanceo). Dichos sistemas a menudo están disponibles en varios sistemas de juego, como los sistemas de realidad virtual (VR)/realidad aumentada (AR)/realidad mixta (MR), o en otros entornos acústicos de este tipo.

Como se usa en el presente documento, el usuario (por ejemplo, de un decodificador de audio o un sistema de reproducción que comprende un decodificador de audio) también puede denominarse "oyente".

Como se usa en el presente documento, 3DoF+ significará que, además del movimiento de la cabeza de un usuario, que se puede manejar correctamente en un sistema 3DoF, también se pueden manejar pequeños movimientos de traslación.

Como se usa en el presente documento, "pequeño" indicará que los movimientos están limitados por debajo de un umbral que normalmente es de 0,5 metros. Esto significa que los movimientos no superan los 0,5 metros de la posición original de la cabeza del usuario. Por ejemplo, los movimientos de un usuario están limitados por estar sentado en una silla.

Como se usa en el presente documento, "MPEG-H 3D Audio" se referirá a la especificación de acuerdo con lo estandarizado en ISO/IEC 23008-3 y/o cualquier enmienda, edición u otra versión futura de la norma ISO/IEC 23008 3.

En el contexto de los estándares de audio proporcionados por la organización MPEG, la distinción entre 3DoF y 3DoF+ se puede definir de la siguiente manera:

• 3DoF: permite al usuario experimentar movimientos de guiñada, cabeceo y balanceo (por ejemplo, de la cabeza del usuario);

• 3DoF+: permite al usuario experimentar movimientos de guiñada, cabeceo, balanceo y movimiento de traslación limitado (por ejemplo, de la cabeza del usuario), por ejemplo, mientras está sentado en una silla.

Los movimientos de traslación limitados (pequeños) de la cabeza pueden ser movimientos restringidos a un cierto radio de movimiento. Por ejemplo, los movimientos pueden estar restringidos debido a que el usuario está sentado, por ejemplo, sin el uso de la parte inferior del cuerpo. Los pequeños movimientos de traslación de la cabeza pueden relacionarse o corresponder a un desplazamiento de la cabeza del usuario con respecto a una posición de escucha nominal. La posición nominal de escucha (o posición nominal del oyente) puede ser una posición predeterminada (como, por ejemplo, una posición predeterminada, una posición esperada para la cabeza del oyente o un punto ideal de una disposición de altavoces).

La experiencia 3DoF+ puede ser comparable a una experiencia restringida de 6DoF, donde los movimientos de traslación pueden describirse como movimientos de cabeza pequeños o limitados. En un ejemplo, el audio también es renderizado basándose en la posición y la orientación de la cabeza del usuario, incluida la posible oclusión sónica. El renderizado se puede realizar para tener en cuenta la oclusión sónica para distancias pequeñas de un objeto de audio desde la cabeza del oyente, por ejemplo, basándose en funciones de transferencia relacionadas con la cabeza (HRTF) para la cabeza del oyente.

Con respecto a los métodos, sistemas, aparatos y otros dispositivos que son compatibles con la funcionalidad establecida por el estándar de MPEG-H 3D Audio, eso puede significar que 3DoF+ está habilitado para cualquier versión futura de los estándares MPEG, como versiones futuras del formato de medios omnidireccional (por ejemplo, como estandarizado en versiones futuras de MPEG-I), y/o en cualquier actualización de MPEG-H Audio (por ejemplo, enmiendas o estándares más nuevos basados en el estándar MPEG-H 3D Audio), o cualquier otro relacionado o estándares de soporte que pueden requerir actualización (por ejemplo, estándares que especifican ciertos tipos de metadatos y mensajes SEI).

Por ejemplo, un renderizador de audio que es normativo para un estándar de audio establecido en una especificación de MPEG-H 3D Audio, se puede ampliar para incluir el renderizado de la escena de audio para dar cuenta con precisión de la interacción del usuario con una escena de audio, por ejemplo, cuando un usuario mueve la cabeza ligeramente hacia los lados.

La presente invención proporciona varias ventajas técnicas, incluida la ventaja de proporcionar MPEG-H 3D Audio que es capaz de manejar casos de uso de 3DoF+. La presente invención amplía el estándar de MPEG-H 3D Audio para soportar la funcionalidad 3DoF+.

Para soportar la funcionalidad 3DoF+, el sistema de renderizado de audio debe tener en cuenta los desplazamientos posicionales limitados/pequeños de la cabeza del usuario/oyente. Los desplazamientos posicionales deben determinarse basándose en un descentramiento relativo desde la posición inicial (es decir, la posición predeterminada/posición de escucha nominal). En un ejemplo, la magnitud de este descentramiento (por ejemplo, un descentramiento del radio que puede determinarse basándose en r^{descentramiento}=NP⁰-P¹N), donde P⁰es la posición de escucha nominal y Pⁱes la posición desplazada de la cabeza del oyente) es como máximo de unos 0,5 m. En otro ejemplo, la magnitud del descentramiento se limita a ser un descentramiento que solo se puede lograr mientras el usuario está sentado en una silla y no realiza ningún movimiento de la parte inferior del cuerpo (pero su cabeza se mueve en relación con su cuerpo). Esta distancia de descentramiento (pequeña) da como resultado una diferencia de nivel y panoramización (perceptual) muy pequeña para objetos de audio distantes. Sin embargo, para objetos cercanos, incluso una distancia de descentramiento tan pequeña puede volverse relevante desde el punto de vista de la percepción. De hecho, el movimiento de la cabeza de un oyente puede tener un efecto de percepción al percibir dónde está la ubicación de la localización correcta del objeto de audio. Este efecto de percepción puede seguir siendo significativo (es decir, ser perceptible por el usuario/oyente) siempre que exista una relación entre (i) el desplazamiento de la cabeza del usuario (por ejemplo, r^{descentramiento}=N P⁰-P¹N)) y la distancia a un objeto de audio (por ejemplo, r) resulta trigonométricamente en ángulos que se encuentran en un rango de capacidad psicoacústica de los usuarios para detectar la dirección del sonido. Dicho rango puede variar de acuerdo con la configuración del renderizador de audio, el material de audio y la configuración de reproducción. Por ejemplo, suponiendo que el rango de precisión de localización es de /-3° con /-0,25 m de libertad de movimiento de lado a lado de la cabeza del oyente, esto correspondería a ~5 m de distancia del objeto.

Para los objetos que están cerca del oyente (por ejemplo, objetos a una distancia < 1 m del usuario), el manejo adecuado del desplazamiento posicional de la cabeza del oyente es crucial para los escenarios 3DoF+, ya que hay efectos de percepción significativos tanto durante los cambios de panorámica como durante los cambios de nivel.

Un ejemplo de manejo de objetos cercanos al oyente es, por ejemplo, cuando un objeto de audio (por ejemplo, un mosquito) se coloca muy cerca de la cara del oyente. Un sistema de audio, como un sistema de audio que proporciona capacidades VR/AR/m R, debe permitir que el usuario perciba este objeto de audio desde todos los lados y ángulos, incluso mientras el usuario realiza pequeños movimientos de traslación con la cabeza. Por ejemplo, el usuario debería poder percibir con precisión el objeto (por ejemplo, un mosquito) incluso mientras mueve la cabeza sin mover la parte inferior del cuerpo.

Sin embargo, un sistema que sea compatible con la especificación MPEG-H 3D Audio actual no puede manejar esto correctamente. En cambio, el uso de un sistema compatible con el sistema MPEG-H 3D Audio da como resultado que el "mosquito" se perciba desde una posición incorrecta en relación con el usuario. En escenarios que implican el rendimiento de 3DoF+, los pequeños movimientos de traslación deberían generar diferencias significativas en la percepción del objeto de audio (por ejemplo, cuando se mueve la cabeza hacia la izquierda, el objeto de audio "mosquito" debe percibirse desde el lado derecho en relación con la cabeza del usuario, etc.).

El estándar de MPEG-H 3D Audio incluye sintaxis de flujo de bits que permite la señalización de información de distancia del objeto a través de una sintaxis de flujo de bits, por ejemplo, a través de un elemento metadata()-syntax de objeto (a partir de 0,5 m).

Se puede introducir un elemento de sintaxis prodMetadataConfig() en el flujo de bits proporcionado por el estándar de MPEG-H 3D Audio que se puede usar para indicar que las distancias del objeto están muy cerca de un oyente. Por ejemplo, la sintaxis prodMetadataConfig() puede indicar que la distancia entre un usuario y un objeto es menor que una determinada distancia de umbral (por ejemplo, < 1 cm).

La figura 1 y la figura 2 ilustran la presente invención basada en el renderizado de auriculares (es decir, donde los altavoces se mueven junto con la cabeza del oyente).

La figura 1 muestra un ejemplo del comportamiento del sistema 100 conforme a un sistema de MPEG-H 3D Audio. Este ejemplo asume que la cabeza del oyente está ubicada en la posición Po 103 en el momento to y se mueve a la posición P¹104 en el momento t ⁱ> t0. Los círculos discontinuos alrededor de las posiciones P0 y P1 indican el área de movimiento permitida de 3DoF+ (por ejemplo, con un radio de 0,5 m). La posición A 101 indica la posición del objeto señalado (en el tiempo to y en el tiempo t¹, es decir, se supone que la posición del objeto señalado es constante a lo largo del tiempo to). La posición A también indica la posición del objeto renderizado por un renderizador de MPEG-H 3D Audio en el momento. La posición B 102 indica la posición del objeto renderizado por MPEG-H 3D Audio en el tiempo t¹. Las líneas verticales que se extienden hacia arriba desde las posiciones P⁰y P¹indican las respectivas orientaciones (por ejemplo, las direcciones de visualización) de la cabeza del oyente en los momentos to y t¹. El desplazamiento de la cabeza del usuario entre la posición P⁰y la posición P¹se puede representar mediante r^{descentramiento}=N P⁰-P¹N 106. Con el oyente ubicado en la posición predeterminada (posición de escucha nominal) P⁰103 en el momento, percibiría el objeto de audio (por ejemplo, el mosquito) en la posición correcta A 101. Si el usuario se desplazara a la posición P¹104 en el momento t¹, percibiría el objeto de audio en la posición B 102 si se aplica el procesamiento MPEG-H 3D Audio de acuerdo con la norma actual, lo que introduce el error mostrado 5^ab105. Es decir, a pesar del movimiento de la cabeza del oyente, el objeto de audio (por ejemplo, un mosquito) aún se percibiría como si estuviera ubicado directamente en frente de la cabeza del oyente (es decir, sustancialmente moviéndose conjuntamente con la cabeza del oyente). En particular, el error introducido 5^ab105 se produce independientemente de la orientación de la cabeza del oyente.

La figura 2 muestra un ejemplo de comportamiento del sistema con respecto a un sistema MPEG-H 3D Audio 200 de acuerdo con la presente invención. En la figura 2, la cabeza del oyente está ubicada en la posición P⁰203 en el momento to y se mueve a la posición Pⁱ204 en el momento t ⁱ> to. Los círculos discontinuos alrededor de las posiciones P⁰y Pⁱnuevamente indican el área de movimiento permitida de 3DoF+ (por ejemplo, con un radio de 0,5 m). En 201, se indica que la posición A = B significa que la posición del objeto señalado (en el tiempo to y el tiempo t ⁱ, es decir, se supone que la posición del objeto señalado es constante a lo largo del tiempo). La posición A = B 201 también indica la posición del objeto que es renderizado por MPEG-H 3D Audio en el tiempo to y el tiempo tⁱ. Las flechas verticales que se extienden hacia arriba desde las posiciones P⁰203 y Pⁱ204 indican las respectivas orientaciones (por ejemplo, direcciones de visualización) de la cabeza del oyente en los tiempos to y t ⁱ. Con el oyente ubicado en la posición inicial/predeterminada (posición de escucha nominal) P⁰203 en el momento, percibiría el objeto de audio (por ejemplo, el mosquito) en una posición correcta A 20i. Si el usuario se moviera a la posición Pⁱ203 en el momento t ⁱ, todavía percibiría el objeto de audio en la posición B 20i que es similar (por ejemplo, sustancialmente igual) a la posición A 20i de acuerdo con la presente invención. Por lo tanto, la presente invención permite que la posición del usuario cambie con el tiempo (por ejemplo, de la posición P⁰203 a la posición Pⁱ204) mientras sigue percibiendo el sonido desde la misma ubicación (espacialmente fija) (por ejemplo, la posición A = B 20i, etc.). En otras palabras, el objeto de audio (por ejemplo, un mosquito) se mueve en relación con la cabeza del oyente, de acuerdo con (por ejemplo, en correlación negativa con) el movimiento de la cabeza del oyente. Esto permite al usuario moverse alrededor del objeto de audio (por ejemplo, un mosquito) y percibir el objeto de audio desde diferentes ángulos o incluso lados. El desplazamiento de la cabeza del usuario entre la posición P⁰y la posición Pⁱse puede representar mediante r^{descentramiento}= ||P⁰-P ⁱ11206.

La figura 3 ilustra un ejemplo de un sistema 300 de renderizado de audio de acuerdo con la presente invención. El sistema 300 de renderizado de audio puede corresponder o incluir un decodificador, como un decodificador MPEG-H 3D Audio, por ejemplo. El sistema 300 de renderizado de audio puede incluir una unidad 3 i0 de desplazamiento de escena de audio con una interfaz de procesamiento de desplazamiento de escena de audio correspondiente (por ejemplo, una interfaz para datos de desplazamiento de escena de acuerdo con el estándar de MPEG-H 3D Audio). La unidad 3 i0 de desplazamiento de escena de audio puede generar posiciones 32i de objeto para renderizar objetos de audio respectivos. Por ejemplo, la unidad de desplazamiento de escena puede dar salida a metadatos de posición de objeto para renderizar objetos de audio respectivos.

El sistema 300 de renderizado de audio puede incluir además un renderizador 320 de objetos de audio. Por ejemplo, el renderizador puede estar compuesto por hardware, software y/o cualquier procesamiento parcial o total realizado a través de la computación en la nube, incluidos varios servicios, como plataformas de desarrollo de software, servidores, almacenamiento y software, a través de Internet, a menudo denominados la "nube" que sean compatibles con las especificaciones establecidas por el estándar MPEG-H 3D Audio. El renderizador 320 de objetos de audio puede renderizar objetos de audio en uno o más altavoces (reales o virtuales) de acuerdo con las respectivas posiciones de objeto (estas posiciones de objeto pueden ser las posiciones de objeto modificadas o más modificadas descritas a continuación). El renderizador 320 de objetos de audio puede renderizar los objetos de audio en auriculares y/o altavoces. Es decir, el reproductor 320 de objetos de audio puede generar formas de onda de objetos de acuerdo con un formato de reproducción dado. Con este fin, el renderizador 320 de objetos de audio puede utilizar metadatos de objetos comprimidos. Cada objeto se puede renderizar en ciertos canales de salida de acuerdo con su posición de objeto (por ejemplo, posición de objeto modificada o posición de objeto modificada adicionalmente). Por lo tanto, las posiciones de los objetos también pueden denominarse posiciones de canal de sus objetos de audio. Las posiciones 32i de objeto de audio pueden incluirse en los metadatos de posición de objeto o metadatos de desplazamiento de escena emitidos por la unidad 3 i0 de desplazamiento de escena.

El procesamiento de la presente invención puede cumplir con el estándar MPEG-H 3D Audio. Como tal, puede ser realizado por un decodificador de MPEG-H 3D Audio, o más específicamente, por la unidad de desplazamiento de escena MPEG-H y/o el renderizador de MPEG-H 3D Audio. En consecuencia, el sistema 300 de renderizado de audio de la figura 3 puede corresponder o incluir un decodificador MPEG-H 3D Audio (es decir, un decodificador que cumple con la especificación establecida por el estándar MPEG-H 3D Audio). En un ejemplo, el sistema 300 de renderizado de audio puede ser un aparato que comprende un procesador y una memoria acoplada al procesador, en el que el procesador está adaptado para implementar un decodificador MPEG-H 3D Audio. En particular, el procesador puede adaptarse para implementar la unidad de desplazamiento de escena MPEG-H y/o el renderizador de MPEG-H 3D Audio. Por lo tanto, el procesador puede adaptarse para realizar los pasos de procesamiento descritos en la presente divulgación (por ejemplo, los pasos S5 i0 a S560 del método 500 descrito a continuación con referencia a la figura 5). En otro ejemplo, el sistema 300 de procesamiento o renderizado de audio puede realizarse en la nube.

El sistema 300 de renderizado de audio puede obtener (por ejemplo, recibir) datos 30i de ubicación de escucha. El sistema 300 de renderizado de audio puede obtener los datos 30i de ubicación de escucha a través de una interfaz de entrada del decodificador MPEG-H 3D Audio.

Los datos 30i de ubicación de escucha pueden ser indicativos de una orientación y/o posición (por ejemplo, desplazamiento) de la cabeza del oyente. Por lo tanto, los datos 30i de ubicación de escucha (que también pueden denominarse información de posición) pueden incluir información de orientación del oyente y/o información de desplazamiento del oyente.

La información de desplazamiento del oyente puede ser indicativa del desplazamiento de la cabeza del oyente (por ejemplo, desde una posición de escucha nominal). La información de desplazamiento del oyente puede corresponder o incluir una indicación de la magnitud del desplazamiento de la cabeza del oyente desde la posición de escucha nominal, r^{descentramiento}=||P0-P1 H206 como se ilustra en la figura 2. En el contexto de la presente invención, la información de desplazamiento del oyente indica un pequeño desplazamiento posicional de la cabeza del oyente desde la posición de escucha nominal. Por ejemplo, un valor absoluto del desplazamiento no puede ser superior a 0,5 m. Por lo general, este es el desplazamiento de la cabeza del oyente desde la posición de escucha nominal que se puede lograr moviendo la parte superior del cuerpo y/o la cabeza del oyente. Es decir, el desplazamiento puede lograrse para el oyente sin mover la parte inferior del cuerpo. Por ejemplo, el desplazamiento de la cabeza del oyente puede lograrse cuando el oyente está sentado en una silla, como se indicó anteriormente. El desplazamiento puede expresarse en una variedad de sistemas de coordenadas, como, por ejemplo, en coordenadas cartesianas (por ejemplo, en términos de x, y, z) o en coordenadas esféricas (por ejemplo, en términos de azimut, elevación, radio). Los sistemas de coordenadas alternativos para expresar el desplazamiento de la cabeza del oyente también son factibles y debe entenderse que están incluidos en la presente divulgación.

La información de orientación del oyente puede ser indicativa de la orientación de la cabeza del oyente (por ejemplo, la orientación de la cabeza del oyente con respecto a una orientación nominal/orientación de referencia de la cabeza del oyente). Por ejemplo, la información de orientación del oyente puede comprender información sobre una guiñada, un cabeceo y un balanceo de la cabeza del oyente. Aquí, la guiñada, el cabeceo y el balanceo pueden darse con respecto a la orientación nominal.

Los datos 301 de ubicación de escucha pueden recopilarse continuamente desde un receptor que puede proporcionar información sobre los movimientos de traslación de un usuario. Por ejemplo, los datos 301 de ubicación de escucha que se usan en un momento determinado pueden haberse recopilado recientemente del receptor. Los datos de la ubicación de escucha pueden derivarse/recopilarse/generarse basándose en la información del sensor. Por ejemplo, los datos 301 de ubicación de escucha pueden derivarse/recopilarse/generarse mediante equipos portátiles y/o estacionarios que tengan sensores apropiados. Es decir, la orientación de la cabeza del oyente puede ser detectada por el equipo portátil y/o estacionario. Asimismo, el desplazamiento de la cabeza del oyente (por ejemplo, desde la posición de escucha nominal) puede ser detectado por el equipo portátil y/o estacionario. El equipo portátil puede ser, corresponder y/o incluir un auricular (por ejemplo, un auricular AR/VR), por ejemplo. El equipo estacionario puede ser, corresponder y/o incluir sensores de cámara, por ejemplo. El equipo estacionario puede estar incluido en un televisor o un decodificador, por ejemplo. En algunas realizaciones, los datos 301 de ubicación de escucha pueden recibirse de un codificador de audio (por ejemplo, un codificador compatible con MPEG-H 3D Audio) que puede haber obtenido (por ejemplo, recibido) la información del sensor.

En un ejemplo, el equipo portátil y/o estacionario para detectar los datos 301 de ubicación de escucha puede denominarse dispositivos de seguimiento que soportan la estimación/detección de la posición de la cabeza y/o la estimación/detección de la orientación de la cabeza. Existe una variedad de soluciones que permiten rastrear los movimientos de la cabeza del usuario con precisión usando cámaras de computadoras o teléfonos inteligentes (por ejemplo, basadas en el reconocimiento facial y el seguimiento "FaceTrackNoIR", "opentrack"). Además, varios sistemas de realidad virtual de visualizador en forma de casco (HMD) (por ejemplo, HTC VIVE, Oculus Rift) tienen una tecnología de seguimiento de la cabeza integrada. Cualquiera de estas soluciones puede usarse en el contexto de la presente divulgación.

También es importante tener en cuenta que la distancia de desplazamiento de la cabeza en el mundo físico no tiene que corresponder de forma exacta con el desplazamiento indicado por los datos 301 de ubicación de escucha. Para lograr un efecto hiperrealista (por ejemplo, un efecto de paralaje de movimiento del usuario sobreamplificado), ciertas aplicaciones pueden usar diferentes configuraciones de calibración del sensor o especificar diferentes asignaciones entre el movimiento en los espacios reales y virtuales. Por lo tanto, se puede esperar que un pequeño movimiento físico resulte en un mayor desplazamiento en la realidad virtual en algunos casos de uso. En cualquier caso, se puede decir que las magnitudes de desplazamiento en el mundo físico y en la realidad virtual (es decir, el desplazamiento indicado por los datos 301 de ubicación de escucha) están positivamente correlacionados. Asimismo, las direcciones de desplazamiento en el mundo físico y en la realidad virtual están correlacionadas positivamente.

El sistema 300 de renderizado de audio puede recibir además información 302 de posición (objeto) (por ejemplo, datos de posición de objeto) y datos 322 de audio. Los datos 322 de audio pueden incluir uno o más objetos de audio. La información 302 de posición puede ser parte de los metadatos para los datos 322 de audio. La información 302 de posición puede ser indicativa de las respectivas posiciones de objeto de uno o más objetos de audio. Por ejemplo, la información 302 de posición puede comprender una indicación de la distancia de los objetos de audio respectivos con respecto a la posición de escucha nominal del usuario/oyente. La distancia (radio) puede ser inferior a 0,5 m. Por ejemplo, la distancia puede ser inferior a 1 cm. Si la información 302 de posición no incluye la indicación de la distancia de un objeto de audio dado desde la posición de escucha nominal, el sistema de renderizado de audio puede establecer la distancia de este objeto de audio desde la posición de escucha nominal a un valor predeterminado (por ejemplo, 1 m).

La información 302 de posición puede comprender además indicaciones de una elevación y/o azimut de los respectivos objetos de audio.

Cada posición de objeto puede utilizarse para renderizar su objeto de audio correspondiente. En consecuencia, la información 302 de posición y los datos 322 de audio pueden incluirse en, o formar, contenido de audio basado en objetos. El contenido de audio (por ejemplo, los objetos de audio/datos 322 de audio junto con su información 302 de posición) puede transmitirse en un flujo de bits de audio codificado. Por ejemplo, el contenido de audio puede tener el formato de un flujo de bits recibido de una transmisión a través de una red. En este caso, se puede decir que el sistema de renderizado de audio recibe el contenido de audio (por ejemplo, del flujo de bits de audio codificado).

En un ejemplo de la presente invención, los parámetros de metadatos pueden usarse para corregir el procesamiento de casos de uso con una mejora compatible con versiones anteriores para 3DoF y 3DoF+. Los metadatos pueden incluir la información de desplazamiento del oyente además de la información de orientación del oyente. Dichos parámetros de metadatos pueden ser utilizados por los sistemas que se muestran en las figuras 2 y 3, así como cualquier otra realización de la presente invención.

La mejora compatible con versiones anteriores puede permitir corregir el procesamiento de casos de uso (por ejemplo, implementaciones de la presente invención) basándose en una interfaz de desplazamiento de escena de MPEG-H 3D Audio normativa. Esto significa que un decodificador/renderizador de MPEG-H 3D Audio heredado aún produciría una salida, incluso si no es correcta. Sin embargo, un decodificador/renderizador de MPEG-H 3D Audio mejorado de acuerdo con la presente invención aplicaría correctamente los datos de extensión (por ejemplo, metadatos de extensión) y el procesamiento y, por lo tanto, podría manejar el escenario de objetos posicionados cerca del oyente de manera correcta.

En un ejemplo, la presente invención se refiere a proporcionar los datos para pequeños movimientos de traslación de la cabeza de un usuario en formatos diferentes al que se describe a continuación, y las fórmulas podrían adaptarse en consecuencia. Por ejemplo, los datos pueden proporcionarse en un formato como coordenadas x, y, z (en un sistema de coordenadas cartesianas) en lugar de acimut, elevación y radio (en un sistema de coordenadas esféricas). Un ejemplo de estos sistemas de coordenadas relativos entre sí se muestra en la figura 4.

En un ejemplo, la presente invención está dirigida a proporcionar metadatos (por ejemplo, información de desplazamiento del oyente incluida en los datos 301 de ubicación de escucha que se muestran en la figura 3) para introducir el movimiento de traslación de la cabeza del oyente. Los metadatos pueden usarse, por ejemplo, para una interfaz para datos de desplazamiento de escena. Los metadatos (por ejemplo, información de desplazamiento del oyente) se pueden obtener mediante la implementación de un dispositivo de seguimiento que soporte el seguimiento 3DoF+ o 6DoF.

En un ejemplo, los metadatos (por ejemplo, información de desplazamiento del oyente, en particular el desplazamiento de la cabeza del oyente o, de manera equivalente, el desplazamiento de la escena) pueden representarse mediante los siguientes tres parámetros sd_azimut, sd_elevation y sd_radius, relacionados con el acimut, la elevación y el radio (coordenadas esféricas) del desplazamiento de la cabeza del oyente (o desplazamiento de la escena).

La sintaxis de estos parámetros viene dada por la siguiente tabla.

T l 2 4 - in xi m h P ii n l n Di l m nD

En otro ejemplo, los metadatos (por ejemplo, información de desplazamiento del oyente) pueden representarse mediante los siguientes tres parámetros sd_x, sd_y y sd_z en coordenadas cartesianas, lo que reduciría el procesamiento de datos de coordenadas esféricas a coordenadas cartesianas. Los metadatos pueden basarse en la siguiente sintaxis:

Como se describió anteriormente, la sintaxis anterior o equivalentes de la sintaxis de la misma pueden señalar información relacionada con las rotaciones alrededor de los ejes x, y, z.

En un ejemplo de la presente invención, el procesamiento de los ángulos de desplazamiento de la escena para canales y objetos puede mejorarse extendiendo las ecuaciones que dan cuenta de los cambios de posición de la cabeza del usuario. Es decir, el procesamiento de las posiciones de objeto puede tener en cuenta (por ejemplo, puede basarse, al menos en parte), en la información de desplazamiento del oyente.

En el diagrama de flujo de la figura 5 se ilustra un ejemplo de un método 500 de procesamiento de información de posición indicativa de una posición de objeto de un objeto de audio. Este método puede ser realizado por un decodificador, tal como un decodificador MPEG-H 3D Audio. El sistema 300 de renderizado de audio de la figura 3 puede ser un ejemplo de tal decodificador.

Como primer paso (no mostrado en la figura 5), se recibe contenido de audio que incluye un objeto de audio y la información de posición correspondiente, por ejemplo, de un flujo de bits de audio codificado. Entonces, el método puede incluir además la decodificación del contenido de audio codificado para obtener el objeto de audio y la información de posición.

En el paso S510, se obtiene información de orientación del oyente (por ejemplo, se recibe). La información de orientación del oyente puede ser indicativa de una orientación de la cabeza de un oyente.

En el paso S520, se obtiene la información de desplazamiento del oyente (por ejemplo, se recibe). La información de desplazamiento del oyente puede ser indicativa de un desplazamiento de la cabeza del oyente.

En el paso S530, la posición del objeto se determina a partir de la información de posición. Por ejemplo, la posición del objeto (por ejemplo, en términos de acimut, elevación, radio o x, y, z o sus equivalentes) puede extraerse de la información de posición. La determinación de la posición del objeto también puede basarse, al menos en parte, en información sobre la geometría de una disposición de altavoces de uno o más altavoces (reales o virtuales) en un entorno de escucha. Si el radio no está incluido en la información de posición para ese objeto de audio, el decodificador puede establecer el radio en un valor predeterminado (por ejemplo, 1 m).

En algunas realizaciones, el valor predeterminado puede depender de la geometría de la disposición de los altavoces.

En particular, los pasos S510, S520 y S520 pueden realizarse en cualquier orden.

En el paso S540, la posición del objeto determinada en el paso S530 se modifica basándose en la información de desplazamiento del oyente. Esto se puede hacer aplicando una traslación a la posición del objeto, de acuerdo con la información de desplazamiento (por ejemplo, de acuerdo con el desplazamiento de la cabeza del oyente). Por lo tanto, se puede decir que modificar la posición del objeto se relaciona con corregir la posición del objeto para el desplazamiento de la cabeza del oyente (por ejemplo, el desplazamiento desde la posición de escucha nominal). En particular, la modificación de la posición del objeto basándose en la información de desplazamiento del oyente se puede realizar trasladando la posición del objeto por un vector que se correlaciona positivamente con la magnitud y se correlaciona negativamente con la dirección de un vector de desplazamiento de la cabeza del oyente desde una posición de escucha nominal. Un ejemplo de dicha traslación se ilustra esquemáticamente en la figura 2.

En el paso S550, la posición del objeto modificado obtenida en el paso S540 se modifica adicionalmente basándose en la información de orientación del oyente. Por ejemplo, esto se puede hacer aplicando una transformación rotacional a la posición del objeto modificado, de acuerdo con la información de orientación del oyente. Esta rotación puede ser una rotación con respecto a la cabeza del oyente o a la posición de escucha nominal, por ejemplo. La transformación rotacional puede realizarse mediante un algoritmo de desplazamiento de escena.

Como se indicó anteriormente, la compensación de descentramiento del usuario (es decir, la modificación de la posición del objeto basándose en la información de desplazamiento del oyente) se tiene en cuenta al aplicar la transformación rotacional. Por ejemplo, la aplicación de la transformación rotacional puede incluir:

• Cálculo de la matriz de transformación rotacional (basada en la orientación del usuario, por ejemplo, información de orientación del oyente),

• Conversión de la posición del objeto de coordenadas esféricas a cartesianas,

• Aplicación de la transformación rotacional a los objetos de audio con compensación de descentramiento de posición del usuario (es decir, a la posición del objeto modificado), y

• Conversión de la posición del objeto, después de la transformación rotacional, de coordenadas cartesianas a esféricas.

Como paso adicional S560 (no mostrado en la figura 5), el método 500 puede comprender el renderizado del objeto de audio en uno o más altavoces reales o virtuales de acuerdo con la posición del objeto modificado adicionalmente. Con este fin, la posición del objeto modificado adicionalmente puede ajustarse al formato de entrada usado por un renderizador de MPEG-H 3D Audio (por ejemplo, el renderizador 320 de objetos de audio descrito anteriormente). Dichos o más altavoces (reales o virtuales) mencionados anteriormente pueden ser parte de un auricular, por ejemplo, o pueden ser parte de una disposición de altavoces (por ejemplo, una disposición de altavoces 2.1, una disposición de altavoces 5.1, una disposición de altavoces 7.1, etc.). En algunas realizaciones, el objeto de audio puede renderizarse en los altavoces izquierdo y derecho de los auriculares, por ejemplo.

El objetivo de los pasos S540 y S550 descritos anteriormente es el siguiente. A saber, la modificación de la posición del objeto y la modificación adicional de la posición del objeto modificado se realizan de tal manera que el objeto de audio, después de ser renderizado en uno o más altavoces (reales o virtuales) de acuerdo con la posición del objeto modificado adicionalmente, es percibido psicoacústicamente por el oyente como con origen en una posición fija con respecto a una posición de escucha nominal. Esta posición fija del objeto de audio se percibirá psicoacústicamente independientemente del desplazamiento de la cabeza del oyente desde la posición nominal de escucha y de la orientación de la cabeza del oyente con respecto a la orientación nominal. En otras palabras, se puede percibir que el objeto de audio se mueve (se traslada) en relación con la cabeza del oyente cuando la cabeza del oyente sufre el desplazamiento desde la posición de escucha nominal. Asimismo, se puede percibir que el objeto de audio se mueve (rota) con respecto a la cabeza del oyente cuando la cabeza del oyente experimenta un cambio de orientación con respecto a la orientación nominal. De este modo, el oyente puede percibir un objeto de audio cercano desde diferentes ángulos y distancias, moviendo la cabeza.

La modificación de la posición del objeto y la modificación adicional de la posición del objeto modificado en los pasos S540 y S550, respectivamente, se pueden realizar en el contexto del desplazamiento de la escena de audio (rotacional/traslacional), por ejemplo, mediante la unidad 310 de desplazamiento de la escena de audio descrita anteriormente.

Cabe señalar que se pueden omitir ciertos pasos, dependiendo del caso de uso particular en cuestión. Por ejemplo, si los datos 301 de ubicación de escucha incluyen solo información de desplazamiento del oyente (pero no incluyen información de orientación del oyente, o solo información de orientación del oyente que indica que no hay desviación de la orientación de la cabeza del oyente con respecto a la orientación nominal), el paso S550 puede ser omitido. Entonces, el renderizado en el paso S560 se realizaría de acuerdo con la posición del objeto modificado determinada en el paso S540. Asimismo, si los datos 301 de ubicación de escucha incluyen solo información de orientación del oyente (pero no incluyen información de desplazamiento del oyente, o solo información de desplazamiento del oyente que indica que no hay desviación de la posición de la cabeza del oyente con respecto a la posición de escucha nominal), el paso S540 puede ser omitido. Entonces, el paso S550 estaría relacionado con la modificación de la posición del objeto determinada en el paso S530 basándose en la información de orientación del oyente. El renderizado en el paso S560 se realizaría de acuerdo con la posición del objeto modificado determinada en el paso S550.

En términos generales, la presente invención propone una actualización de posición de posiciones de objetos recibidas como parte del contenido de audio basado en objetos (por ejemplo, información 302 de posición junto con datos 322 de audio), basándose en los datos 301 de ubicación de escucha para el oyente.

Primero, se determina la posición del objeto (o posición del canal) p = (az, el, r). Esto se puede realizar en el contexto de (por ejemplo, como parte de) el paso 530 del método 500.

Para señales basadas en canales, el radio r puede determinarse de la siguiente manera:

- Si el altavoz previsto (de un canal de la señal de entrada basada en canales) existe en la configuración de reproducción de altavoces y se conoce la distancia de la configuración de reproducción, el radio r se establece en la distancia del altavoz (por ejemplo, en cm).

- Si el altavoz previsto no existe en la configuración de altavoces de reproducción, pero se conoce la distancia de los altavoces de reproducción (por ejemplo, desde la posición de escucha nominal), el radio r se establece en la distancia máxima del altavoz de reproducción.

- Si el altavoz previsto no existe en la configuración del altavoz de reproducción y no se conoce la distancia del altavoz de reproducción, el radio r se establece en un valor predeterminado (por ejemplo, 1023 cm).

Para las señales basadas en objetos, el radio r se determina de la siguiente manera:

- si se conoce la distancia del objeto (por ejemplo, de las herramientas de producción y los formatos de producción y se transmite en prodMetadataConfig()), el radio r se establece en la distancia del objeto conocida (por ejemplo, señalado por goa_bsObjectDistance[] (en cm) de acuerdo con la Tabla AMD5.7 del estándar MPEG-H 3D Audio).

T l AMD .7 - in xi Pr i n M

- Si la distancia del objeto se conoce a partir de la información de posición (por ejemplo, de los metadatos del objeto y se transmite en los metadatos del objeto()), el radio r se establece en la distancia del objeto señalada en la información de posición (por ejemplo, al radio [] (en cm) transmitido con los metadatos del objeto). El radio r puede señalizarse de acuerdo con las secciones: "Escalado de metadatos de objeto" y "Limitación de metadatos de objeto" que se muestran a continuación.

Escalado de metadatos de objeto

Como paso opcional en el contexto de la determinación de la posición del objeto, se puede escalar la posición del objeto p = (az, el, r) determinada a partir de la información de posición. Esto puede implicar la aplicación de un factor de escala para invertir la escala del codificador de los datos de entrada para cada componente. Esto se puede realizar para cada objeto. La escala real de la posición de un objeto se puede implementar de acuerdo con el pseudocódigo a continuación:

descale_multidata()

{

for (o = 0; o < num_objects; o++)

azimuthto] = azimuth[o] ^* 1.5;

for (o = 0; o < num_objects; o++)

elevation[o] = elevation[o] * 3.0;

for (o=0; o < num objects; o++)

radiusto] = pow(2.0, (radius[o] / 3.0)) / 2.0;

for (o = 0; o < num objects; o++)

gain[o] = pow(10.0, (gain[o] - 32.0) / 40.0);

if (unifbrm_spread == 1)

{

for (o=0; o < num objects; o++)

}spread[o] = spread[o] * 1.5;

else

{

for (o=0; o < num objects; o++)

spread_width[o] = spread _width[o] * 1.5;

for (o=0; o < num objects; o++)

spread_height[o] = spread_height[o] * 3.0;

for (o = 0; o < num objects; o++)

spread_depth[o] = (pow(2.0, (spread_depth[o] / 3.0)) / 2.0) - 0.5;

} for (o = 0; o < num objects; o++)

dynamic_object_priority[o] = dynamic_object_priority[o]; }

Limitación de metadatos de objeto

Como paso opcional adicional en el contexto de la determinación de la posición del objeto, se puede limitar la posición del objeto p = (az, el, r) (posiblemente escalada) determinada a partir de la información de posición. Esto puede implicar la aplicación de límites a los valores decodificados de cada componente para mantener los valores dentro de un rango válido. Esto se puede realizar para cada objeto. La limitación real de la posición de un objeto puede implementarse de acuerdo con la funcionalidad del pseudocódigo a continuación:

limit_range()

{

minval =-180;

maxval =180;

for (o = 0; o < num_objects; o++)

azimuth[o] = MIN(MAX(azimuth[o], minval), maxval);

minval = -90;

maxval =90;

for (o=0; o < num objects; o++)

elevation[o] = MIN(MAX(elevation[o], minval), maxval);

minval =0.5;

maxval =16;

for (o =0; o < num objects; o++)

radiusto] = MIN(MAX(radius[o], minval), maxval);

minval =0.004;

maxval =5.957;

for (o = 0; o < numobjects;o++)

gain[o] = MIN(MAX(gain[o], minval), maxval);

if (unifbrm_spread == 1)

minval =0;

maxval = 90;

for (o=0; o < numobjects; o++)

spread_height[o] = MIN(MAX(spread_height[o], minval), maxval);

minval = 0;

maxval = 15.5;

for (o = 0; o < numobjects; o++)

}spread_depth[o] = MIN(MAX(spread_depth[o], minval), maxval);

minval =0;

maxval = 7;

for (o=0; o < numobjects; o++)

dynamic_object_priority[o] = MIN(MAX(dynamic_object_priority[o], minval),

maxval);

Después de eso, la posición del objeto determinada (y opcionalmente, escalada y/o limitada) p = (az, el, r) puede convertirse a un sistema de coordenadas predeterminado, como por ejemplo el sistema de coordenadas de acuerdo con la 'convención común' donde el azimut de 0° está en la oreja derecha (los valores positivos van en sentido contrario a las agujas del reloj) y la elevación de 0° es la parte superior de la cabeza (los valores positivos van hacia abajo). Así, la posición del objeto p puede convertirse en la posición p' de acuerdo con la convención 'común'.

Esto da como resultado la posición del objeto p' con

P = ⁽ az',el\r ⁾

az'= az ⁺ 90 ^°

el'= 90 °-e l

con el radio r sin cambios.

Al mismo tiempo, el desplazamiento de la cabeza del oyente indicado por la información de desplazamiento del oyente (az^{descentramiento}, el^{descentramiento}, r^{descentramiento}) se puede convertir al sistema de coordenadas predeterminado. Usando la 'convención común' esto equivale a

az _{descentramiento}= az, _{descentramiento}+ 90°

° ^p ‘ 1 •d ' escentramiento ^— 90 ^{° —} p l descentramiento

con el radio rdescentramiento sin alterar.

En particular, la conversión al sistema de coordenadas predeterminado tanto para la posición del objeto como para el desplazamiento de la cabeza del oyente puede realizarse en el contexto del paso S530 o el paso s 540.

La actualización de la posición real se puede realizar en el contexto de (por ejemplo, como parte de) el paso S540 del método 500. La actualización de posición puede comprender los siguientes pasos:

Como primer paso se transfiere la posición p o, si se ha realizado un traslado al sistema de coordenadas predeterminado, la posición p', a coordenadas cartesianas (x, y, z). A continuación, sin intención de limitarse, se describirá el proceso para la posición p' en el sistema de coordenadas predeterminado. Además, sin intención de limitación, se puede asumir la siguiente orientación/dirección de los ejes de coordenadas: eje x apuntando hacia la derecha (visto desde la cabeza del oyente cuando está en la orientación nominal), eje y apuntando hacia adelante y eje z apuntando hacia arriba. Al mismo tiempo, el desplazamiento de la cabeza del oyente indicado por la información de desplazamiento del oyente (az el'^{descentramiento}, r^{descentramiento}) se convierte a coordenadas cartesianas.

Como segundo paso, la posición del objeto en coordenadas cartesianas se resitúa (se traslada) de acuerdo con el desplazamiento de la cabeza del oyente (desplazamiento de la escena), de la manera descrita anteriormente. Esto puede proceder a través de

La traslación anterior es un ejemplo de la modificación de la posición del objeto basándose en la información de desplazamiento del oyente en el paso S540 del método 500.

La posición del objeto resituado en coordenadas cartesianas se convierte en coordenadas esféricas y puede denominarse p". La posición del objeto resituado se puede expresar en el sistema de coordenadas predeterminado de acuerdo con la convención común como p" = (az", el", r').

Cuando hay desplazamientos de la cabeza del oyente que dan como resultado un cambio de parámetro de radio pequeño (es decir, r' = r), la posición modificada p" del objeto se redefine como p" = (az", el",r).

Cuando hay grandes desplazamientos de la cabeza del oyente que pueden resultar en un cambio de parámetro de radio considerable (es decir, r' » r), la posición modificada p" del objeto se define como p" = (az", el", r') en lugar de p" = (az", el", r) con un parámetro de radio modificado r'.

El valor correspondiente del parámetro de radio modificado r' se puede obtener a partir de la distancia de desplazamiento de la cabeza del oyente (es decir, r^{descentramiento}

r=||P0-A||), (véanse, por ejemplo, las figuras 1 y 2), por ejemplo, el parámetro de radio modificado r' se puede determinar con base en la siguiente relación trigonométrica:

1

2

1_

2

r' = ( r 2 -E r2 1^/2

La asignación de este parámetro de radio modificado r' a las ganancias del objeto/canal y su aplicación para el renderizado de audio posterior puede mejorar significativamente los efectos de percepción del cambio de nivel debido a los movimientos del usuario. Permitir tal modificación del parámetro de radio r' permite un "punto suave adaptativo". Esto significaría que el sistema de renderizado de MPEG ajusta dinámicamente la posición del punto óptimo de acuerdo con la ubicación actual del oyente. En general, el renderizado del objeto de audio de acuerdo con la posición del objeto modificado (o modificado adicionalmente) puede basarse en el parámetro de radio modificado r'. En particular, las ganancias de objeto/canal para renderizar el objeto de audio pueden basarse en (por ejemplo, modificarse basándose en) el parámetro de radio modificado r'.

En otro ejemplo, durante la configuración y renderizado de la reproducción del altavoz (por ejemplo, en el paso S560 anterior), se puede desactivar el desplazamiento de la escena. Sin embargo, puede estar disponible la habilitación opcional del desplazamiento de escena. Esto permite que el renderizador 3DoF+ cree el punto ideal dinámicamente ajustable de acuerdo con la ubicación actual y la orientación del oyente.

En particular, el paso de convertir la posición del objeto y el desplazamiento de la cabeza del oyente a coordenadas cartesianas es opcional y la traslación/resituación (modificación) de acuerdo con el desplazamiento de la cabeza del oyente (desplazamiento de la escena) se puede realizar en cualquier sistema de coordenadas adecuado. En otras palabras, la elección de coordenadas cartesianas anteriormente debe entenderse como un ejemplo no limitativo.

En algunas realizaciones, el procesamiento de desplazamiento de la escena (incluida la modificación de la posición del objeto y/o la modificación adicional de la posición del objeto modificado) se puede habilitar o deshabilitar mediante un indicador (campo, elemento, bit establecido) en el flujo de bits (por ejemplo, un elemento useTrackingMode). Las subcláusulas "17.3 Interfaz para configuración y renderizado de altavoces locales" y "17.4 Interfaz para respuestas de impulso de sala binaurales (BRIR)" en ISO/IEC 23008-3 contienen descripciones del elemento useTrackingMode que activa el procesamiento de desplazamiento de escena. En el contexto de la presente divulgación, el elemento useTrackingMode debe definir (subcláusula 17.3) si debe ocurrir o no un procesamiento de valores de desplazamiento de escena enviados a través de las interfaces mpegh3daSceneDisplacementData() y mpegh3daPositionalSceneDisplacementData(). Como alternativa o adicionalmente (subcláusula 17.4), el campo useTrackingMode debe definir si un dispositivo de seguimiento está conectado y el renderizado binaural debe procesarse en un modo especial de seguimiento de la cabeza, lo que significa que el procesamiento de los valores de desplazamiento de la escena enviados a través de las interfaces mpegh3daSceneDisplacementData() y mpegh3daPositionalSceneDisplacementData() sucederá.

Los métodos y sistemas descritos en el presente documento pueden implementarse como software, firmware y/o hardware. Ciertos componentes pueden, por ejemplo, implementarse como software que se ejecuta en un procesador o microprocesador de señal digital. Otros componentes pueden, por ejemplo, implementarse como hardware o como circuitos integrados de aplicación específica. Las señales encontradas en los métodos y sistemas descritos pueden almacenarse en medios tales como memoria de acceso aleatorio o medios de almacenamiento óptico. Pueden transferirse a través de redes, como redes de radio, redes de satélite, redes inalámbricas o redes alámbricas, por ejemplo, la Internet. Los dispositivos típicos que usan los métodos y sistemas descritos en el presente documento son dispositivos electrónicos portátiles u otros equipos de consumo que se usan para almacenar y/o renderizar señales de audio.

Si bien el presente documento hace referencia a MPEG y, en particular, a MPEG-H 3D Audio, la presente divulgación no debe interpretarse como limitada a estos estándares. Más bien, como apreciarán los expertos en la técnica, la presente divulgación puede encontrar una aplicación ventajosa también en otros estándares de codificación de audio.

Además, mientras que el presente documento hace referencia frecuente a un pequeño desplazamiento posicional de la cabeza del oyente (por ejemplo, desde la posición nominal de escucha), la presente divulgación no se limita a pequeños desplazamientos posicionales y puede, en general, aplicarse a un desplazamiento posicional arbitrario de la cabeza del oyente.

Cabe señalar que la descripción y los dibujos simplemente ilustran los principios de los métodos, sistemas y aparatos propuestos. Además, todos los ejemplos y realizaciones descritos en el presente documento tienen la intención principal y expresa de ser solo con fines explicativos para ayudar al lector a comprender los principios del método propuesto.

Claims

REIVINDICACIONES

1. - Un método (500) de procesamiento de información de posición indicativa de una posición de objeto de un objeto de audio, en el que el procesamiento se realiza usando un decodificador MPEG-H 3D Audio, en el que la posición del objeto se puede utilizar para renderizar el objeto de audio, comprendiendo el método:

obtener (S510) información de orientación del oyente indicativa de una orientación de la cabeza del oyente; obtener (S520) información de desplazamiento del oyente indicativa de un desplazamiento de la cabeza del oyente con respecto a una posición de escucha nominal, a través de una interfaz de entrada del decodificador MPEG-H 3D Audio;

determinar (S530) la posición del objeto a partir de la información de posición;

modificar (S540) la posición del objeto basándose en la información de desplazamiento del oyente aplicando una traslación a la posición del objeto; y

modificar adicionalmente (S550) la posición del objeto modificado basándose en la información de orientación del oyente, en donde

cuando la información de desplazamiento del oyente es indicativa de un desplazamiento de la cabeza del oyente desde la posición nominal de escucha por un pequeño desplazamiento posicional, teniendo el pequeño desplazamiento posicional un valor absoluto de 0,5 metros o menos de 0,5 metros, una distancia entre la posición del objeto de audio modificado y una posición de escucha después del desplazamiento de la cabeza del oyente se mantiene igual a una distancia original entre la posición del objeto de audio y la posición de escucha nominal.

2. - El método (500) de acuerdo con la reivindicación 1, en el que:

la modificación (S540) de la posición del objeto y la modificación adicional (S550) de la posición del objeto modificado se realizan de tal manera que el objeto de audio, después de ser renderizado en uno o más altavoces reales o virtuales de acuerdo con la posición del objeto modificada adicionalmente, es percibido psicoacústicamente por el oyente como con origen en una posición fija relativa a la posición de escucha nominal, independientemente del desplazamiento de la cabeza del oyente desde la posición de escucha nominal y la orientación de la cabeza del oyente con respecto a una orientación nominal.

3. - El método (500) de acuerdo con la reivindicación 1 o 2, en el que:

la modificación (S540) de la posición del objeto basándose en la información de desplazamiento del oyente se realiza trasladando la posición del objeto de un desplazamiento igual de la cabeza del oyente desde la posición de escucha nominal, pero en una dirección opuesta.

4. - El método (500) de acuerdo con cualquiera de las reivindicaciones 1 a 3, en el que:

la información de desplazamiento del oyente es indicativa de un desplazamiento de la cabeza del oyente desde la posición nominal de escucha que puede lograr el oyente moviendo la parte superior del cuerpo y/o la cabeza.

5. - El método (500) de acuerdo con cualquiera de las reivindicaciones 1 a 4, que comprende además: detectar la orientación de la cabeza del oyente mediante un equipo portátil y/o estacionario.

6. - El método (500) de acuerdo con cualquiera de las reivindicaciones 1 a 5, que comprende además: detectar el desplazamiento de la cabeza del oyente desde la posición de escucha nominal mediante un equipo portátil y/o estacionario.

7. - El método (500) de acuerdo con cualquiera de las reivindicaciones 1 a 6, en el que la distancia entre la posición del objeto de audio modificado y la posición de escucha después del desplazamiento se asigna a las ganancias para la modificación de un nivel de audio.

8. - Un decodificador (300) MPEG-H 3D Audio para procesar información de posición indicativa de una posición (321) de objeto de un objeto de audio, en el que la posición del objeto se puede utilizar para renderizar el objeto de audio, comprendiendo el decodificador un procesador y una memoria acoplados al procesador, en el que el procesador está adaptado para:

obtener información de orientación del oyente indicativa de una orientación de la cabeza de un oyente;

obtener información de desplazamiento del oyente indicativa de un desplazamiento de la cabeza del oyente con respecto a una posición de escucha nominal, a través de una interfaz de entrada de decodificador MPEG-H 3D Audio;

determinar la posición del objeto a partir de la información de posición;

modificar la posición del objeto basándose en la información de desplazamiento del oyente aplicando una traslación a la posición del objeto; y

modificar aún más la posición del objeto modificado basándose en la información de orientación del oyente, en el que

cuando la información de desplazamiento del oyente es indicativa de un desplazamiento de la cabeza del oyente desde la posición nominal de escucha por un pequeño desplazamiento posicional, teniendo el pequeño desplazamiento posicional un valor absoluto de 0,5 metros o menos de 0,5 metros, el procesador está configurado para mantener una distancia entre la posición del objeto de audio modificado y una posición de escucha después del desplazamiento de la cabeza del oyente igual a una distancia original entre la posición del objeto de audio y la posición de escucha nominal.

9.- Un software de computadora que comprende instrucciones que, cuando el software es ejecutado por un procesador o microprocesador de señal digital, hace que el procesador o microprocesador de señal digital lleve a cabo el método de cualquiera de las reivindicaciones 1 a 7.