ES2793958T3

ES2793958T3 - Sistema para trasmitir adaptativamente objetos de audio

Info

Publication number: ES2793958T3
Application number: ES10808848T
Authority: ES
Inventors: James Tracey; Themis Katsianos; Alan Kraemer
Original assignee: DTS LLC
Current assignee: DTS LLC
Priority date: 2009-08-14
Filing date: 2010-08-13
Publication date: 2020-11-17
Anticipated expiration: 2030-08-13
Also published as: CN102549655B; US20110040396A1; JP2013502183A; KR20170052696A; US20130202129A1; WO2011020065A1; KR20120062758A; EP3697083A1; US20110040397A1; KR101842411B1; US20110040395A1; JP5635097B2; EP3697083B1; EP2465259A4; EP2465114A4; PL2465114T3; US8396576B2; KR20120061869A; WO2011020067A1; US8396577B2

Abstract

Un sistema para adaptar la trasmisión de un flujo de audio orientado a objetos, el sistema comprendiendo: un monitor de recursos de red configurado para recibir una solicitud de contenido de audio sobre una red desde un sistema informático remoto y para acceder a la información de recursos de red sobre los recursos disponibles de la red; un codificador orientado a objetos implementado por uno o más procesadores, el codificador orientado a objetos configurado para: seleccionar uno o más de una pluralidad de objetos de audio a eliminar de un flujo de audio en base a por lo menos en parte los recursos de red disponibles y a la información de prioridad correspondiente a la pluralidad de objetos de audio, en donde la información de prioridad comprende un valor de prioridad para cada uno de la pluralidad de objetos de audio; seleccionar uno o más de la pluralidad de objetos de audio seleccionando por lo menos de la pluralidad de objetos de audio el uno o más objetos de audio cuyo valor de prioridad satisface un umbral de prioridad; y ajustar dinámicamente el umbral de prioridad en base por lo menos en parte a la información del entorno recibida del sistema informático remoto, en donde la información del entorno comprende información referente a uno o más de los siguientes: un número de altavoces conectador al sistema informático remoto, capacidad de procesamiento de mejora de audio psicoacústica del sistema informático remoto, y software instalado en el sistema informático remoto, y un módulo de trasmisión de audio configurado para trasmitir el flujo de audio al sistema informático remoto sobre la red.

Description

DESCRIPCIÓN

Sistema para trasmitir adaptativamente objetos de audio

ANTECEDENTES

Los sistemas de distribución de audio existentes, como el sonido estéreo y el sonido envolvente, se basan en un paradigma inflexible que implementa un número fijo de canales desde el punto de producción hasta el entorno de reproducción. A lo largo de toda la cadena de audio, tradicionalmente ha habido una correspondencia uno a uno entre el número de canales creados y el número de canales trasmitidos o grabados físicamente. En algunos casos, el número de canales disponibles se reduce a través de un proceso conocido como remezcla para acomodar configuraciones de reproducción con menos canales de reproducción que el número proporcionado en el flujo de trasmisión. Los ejemplos comunes de remezcla son la mezcla de estéreo a mono para la reproducción en un único altavoz y la mezcla de sonido envolvente multicanal a estéreo para la reproducción por dos altavoces.

Los sistemas de distribución de audio tampoco son adecuados para aplicaciones de video 3D ya que son incapaces de reproducir el sonido con precisión en un espacio tridimensional. Estos sistemas están limitados por el número y la posición de los altavoces y por el hecho de que los principios psicoacústicos generalmente se ignoran. Como resultado, incluso los sistemas de sonido más elaborados crean simplemente una simulación aproximada de un espacio acústico, que no se aproxima a una verdadera presentación 3D o multidimensional.

El documento EP 1650973A1 divulga la trasmisión por secuencias de contenido multimedia asignando prioridades de red a paquetes de datos y bajando paquetes de datos de menor prioridad de acuerdo con los recursos de red.

SUMARIO

Se describen sistemas y métodos para proporcionar audio orientado a objetos. Los objetos de audio se crean asociando fuentes de sonido con atributos de esas fuentes de sonido, como localización, velocidad, directividad y similares. En una realización, los objetos de audio pueden usarse en lugar o además de canales para distribuir sonido, por ejemplo, trasmitiendo por secuencias los objetos de audio a través de una red a un dispositivo cliente. Los objetos pueden definir sus localizaciones en el espacio con coordenadas de dos o tres dimensiones asociadas. Los objetos se trasmiten por secuencias adaptativamente al dispositivo cliente en base a la red disponible o los recursos del dispositivo cliente. Un renderizador en el dispositivo cliente puede usar los atributos de los objetos para determinar cómo renderizar los objetos. El renderizador puede adaptar adicionalmente la reproducción de los objetos en base a la información sobre un entorno de renderizado del dispositivo cliente. También se describen varios ejemplos de técnicas de creación de objetos de audio.

En ciertas realizaciones, se describe un método para adaptar la trasmisión de un flujo de audio orientado a objetos de acuerdo con la reivindicación 8.

En ciertas realizaciones, se describe un método para adaptar la trasmisión de un flujo de audio orientado a objetos de acuerdo con la reivindicación 1.

Con el propósito de resumir la divulgación, se han descrito en la presente ciertos aspectos, ventajas y características novedosas de las invenciones. Debe entenderse que no necesariamente todas estas ventajas pueden lograrse de acuerdo con cualquier realización particular de las invenciones divulgadas en la presente. Por lo tanto, las invenciones divulgadas en la presente pueden realizarse o llevarse a cabo de una manera que logre u optimice una ventaja o grupo de ventajas como se enseña en la presente sin lograr necesariamente otras ventajas como se puede enseñar o sugerir en la presente.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

A lo largo de los dibujos, los números de referencia se reutilizan para indicar la correspondencia entre los elementos referenciados. Los dibujos se proporcionan para ilustrar realizaciones de las invenciones descritas en la presente y no para limitar el alcance de las mismas.

Las FIGURAS 1A y 1 B ilustran realizaciones de sistemas de audio orientados a objetos;

La FIGURA 2 ilustra otra realización de un sistema de audio orientado a objetos;

La FIGURA 3 ilustra una realización de un módulo de trasmisión por secuencias para su uso en cualquiera de los sistemas de audio orientados a objetos descritos en la presente;

La FIGURA 4 ilustra una realización de un formato de trasmisión por secuencias de audio orientado a objetos; La FIGURA 5A ilustra una realización de un proceso de montaje de flujo de audio;

La FIGURA 5B ilustra una realización de un proceso de renderizado de flujo de audio;

La FIGURA 6 ilustra una realización de un sistema de trasmisión por secuencias de objetos de audio adaptativo;

La FIGURA 7 ilustra una realización de un proceso de trasmisión por secuencias de objetos de audio adaptativo;

La FIGURA 8 ilustra una realización de un proceso de renderizado de objetos de audio adaptativo;

La FIGURA 9 ilustra una escena de ejemplo para captura de audio orientada a objetos;

La FIGURA 10 ilustra una realización de un sistema para captura de audio orientada a objetos; y

La FIGURA 11 ilustra una realización de un proceso para la captura de audio orientada a objetos.

DESCRIPCIÓN DETALLADA

I. Introducción

Además de los problemas con los sistemas existentes descritos anteriormente, los sistemas de distribución de audio no tienen en cuenta adecuadamente el entorno de reproducción del oyente. En cambio, los sistemas de audio están diseñados para suministrar el número especificado de canales al entorno de escucha final sin ninguna compensación por el entorno, las preferencias del oyente, o la implementación de principios psicoacústicos. Estas funciones y capacidades se dejan tradicionalmente al integrador del sistema.

Esta divulgación describe sistemas y métodos para trasmitir por secuencias audio orientado a objetos que abordan por lo menos algunos de estos problemas. En ciertas realizaciones, los objetos de audio se crean asociando fuentes de sonido con atributos de esas fuentes de sonido como localización, velocidad, directividad y similares. Los objetos de audio pueden usarse en lugar o además de canales para distribuir sonido, por ejemplo, trasmitiendo por secuencias los objetos de audio a través de una red a un dispositivo cliente. En ciertas realizaciones, estos objetos no están relacionados con canales o posiciones rotadas entre canales, sino que definen sus localizaciones en el espacio con coordenadas de dos o tres dimensiones asociadas. Un renderizador en el dispositivo cliente puede usar los atributos de los objetos para determinar cómo renderizar los objetos.

El renderizador también puede tener en cuenta del entorno del renderizador en ciertas realizaciones adaptando el renderizado y/o la trasmisión por secuencias en función de los recursos de cálculo disponibles. De manera similar, la trasmisión por secuencias de los objetos de audio puede adaptarse en base a las condiciones de red, como el ancho de banda disponible. También se describen varios ejemplos de técnicas de creación de objetos de audio. Ventajosamente, los sistemas y métodos descritos en la presente pueden reducir o superar los inconvenientes asociados con el modelo de distribución de canales de audio rígido.

A modo de visión general, las FIGURAS 1A y 1B introducen realizaciones de sistemas de audio orientados a objetos. Las Figuras posteriores describen técnicas que pueden implementarse mediante estos sistemas de audio orientados a objetos. Por ejemplo, las FIGURAS 2 a 5B describen varias técnicas de ejemplo para trasmitir por secuencias audio orientado a objetos. Las FIGURAS 6 a 8 describen técnicas ejemplares para trasmitir por secuencias y renderizar adaptativamente audio orientado a objetos en base al entorno y las condiciones de la red. Las FIGURAS 9 a 11 describen técnicas de creación de objetos de audio ejemplares.

Como se usa en la presente, el término "trasmisión por secuencias" y sus derivados, además de tener su significado ordinario, puede significar la distribución de contenido de un sistema informático (como un servidor) a otro sistema informático (como un cliente). El término "trasmisión por secuencias" y sus derivados también pueden referirse a la distribución de contenido a través de redes entre pares usando cualquiera de una variedad de protocolos, incluyendo BitTorrent y protocolos relacionados.

II. Visión general de sistema de audio orientado a objetos

Las FIGURAS 1A y 1B ilustran realizaciones de los sistemas de audio orientados a objetos 100A, 100B. Los sistemas de audio orientados a objetos 100A, 100B pueden implementarse en hardware y/o software informático. Ventajosamente, en ciertas realizaciones, los sistemas de audio orientados a objetos 100A, 100B pueden permitir a los creadores de contenido crear objetos de audio, trasmitir por secuencias tales objetos, y renderizar los objetos sin estar vinculados al modelo de canal fijo.

Refiriéndose específicamente a la FIGURA 1A, el sistema de audio orientado a objetos 100A incluye un sistema de creación de objetos de audio 110A, un módulo de trasmisión por secuencias 122A implementado en un servidor de contenido 120A y un renderizador 142A implementado en un sistema de usuario 140. El sistema de creación de objetos de audio 110A puede proporcionar funcionalidad a los usuarios para crear y modificar objetos de audio. El módulo de trasmisión por secuencias 122A, que se muestra instalado en un servidor de contenido 120A, puede usarse para trasmitir por secuencias objetos de audio a un sistema de usuario 140 a través de una red 130. La red 130 puede incluir una LAN, una WAN, Internet o combinaciones de las mismas. El renderizador 142A en el sistema de usuario 140 puede renderizar los objetos de audio para su salida a uno o más altavoces.

En la realización representada, el sistema de creación de objetos de audio 110A incluye un módulo de creación de objetos 114 y un codificador orientado a objetos 112A. El módulo de creación de objetos 114 puede proporcionar funcionalidad para crear objetos, por ejemplo, asociando los datos de audio con atributos de los datos de audio. Puede usarse cualquier tipo de audio para generar un objeto de audio. Algunos ejemplos de audio que pueden generarse en objetos y trasmitirse por secuencias pueden incluir audio asociado con películas, televisión, tráileres de películas, música, videos musicales, otros videos en línea, videojuegos y similares.

Inicialmente, los datos de audio pueden grabarse u obtener sede otro modo. El módulo de creación de objetos 114 puede proporcionar una interfaz de usuario que permite a un usuario acceder, editar o manipular de otra manera los datos de audio. Los datos de audio pueden representar una fuente de sonido o una colección de fuentes de sonido. Algunos ejemplos de fuentes de sonido incluyen diálogos, música de fondo y sonidos generados por cualquier objeto (como un automóvil, un avión o cualquier accesorio). Más generalmente, una fuente de sonido puede ser cualquier clip de audio.

Las fuentes de sonido pueden tener uno o más atributos que el módulo de creación de objetos 114 puede asociar con los datos de audio para crear un objeto. Los ejemplos de atributos incluyen una localización de la fuente de sonido, una velocidad de una fuente de sonido, directividad de una fuente de sonido y similares. Algunos atributos pueden obtenerse directamente de los datos de audio, como un atributo de tiempo que refleja un momento de cuando se grabaron los datos de audio. El usuario puede proporcionar otros atributos al módulo de creación de objetos 114, como el tipo de fuente de sonido que generó el audio (por ejemplo, un automóvil frente a un actor). Otros atributos pueden ser importados automáticamente por el módulo de creación de objetos 114 desde otros dispositivos. Como un ejemplo, la localización de una fuente de sonido puede recuperarse de un dispositivo de Sistema de Posicionamiento Global (GPS) o similar e importarse al módulo de creación de objetos 114. A continuación se describen con mayor detalle ejemplos adicionales de atributos y técnicas para identificar atributos. El módulo de creación de objetos 114 puede almacenar los objetos de audio en un depósito de datos de objetos 116, que puede incluir una base de datos u otro almacenamiento de datos.

El codificador orientado a objetos 112A puede codificar uno o más objetos de audio en un flujo de audio adecuado para la trasmisión a través de una red. En una realización, el codificador orientado a objetos 112A codifica los objetos de audio como audio PCM (código de pulso modulado) sin comprimir junto con los metadatos de atributo asociados. En otra realización, el codificador orientado a objetos 112A también aplica compresión a los objetos cuando se crea el flujo.

Ventajosamente, en ciertas realizaciones, el flujo de audio generado por el codificador orientado a objetos puede incluir por lo menos un objeto representado por un encabezado de metadatos y una carga útil de audio. El flujo de audio puede estar compuesto de marcos, que pueden incluir cada uno encabezados de metadatos de objetos y cargas de audio. Algunos objetos pueden incluir solo metadatos y ninguna carga de audio. Otros objetos pueden incluir una carga de audio pero pocos o ningún metadato. Ejemplos de tales objetos se describen en detalle a continuación.

El sistema de creación de objetos de audio 110A puede suministrar los objetos de audio codificados al servidor de contenido 120A a través de una red (no mostrada). El servidor de contenido 120A puede alojar los objetos de audio codificados para su posterior trasmisión. El servidor de contenido 120A puede incluir una o más máquinas, como dispositivos de cálculo físicos. El servidor de contenido 120A puede ser accesible para los sistemas de usuario a través de la red 130. Por ejemplo, el servidor de contenido 120A puede ser un servidor web, un nodo de borde en una red de distribución de contenidos (CDN) o similar.

El sistema de usuario 140 puede acceder al servidor de contenido 120A para solicitar contenido de audio. En respuesta a la recepción de dicha solicitud, el servidor de contenido 120A puede trasmitir por secuencias, cargar o trasmitir de otra manera el contenido de audio al sistema de usuario 140. Cualquier forma de dispositivo informático puede acceder al contenido de audio. Por ejemplo, el sistema de usuario 140 puede ser un ordenador de escritorio, un ordenador portátil, una tableta, un asistente digital personal (PDA), un televisor, un dispositivo inalámbrico de mano (como un teléfono) o similar.

El renderizador 142A en el sistema de usuario 140 puede decodificar los objetos de audio codificados y renderizar los objetos de audio para su salida a uno o más altavoces. El renderizador 142A puede incluir una variedad de características de renderización, mejoras de audio, mejoras psicoacústicas y similares diferentes para renderizar los objetos de audio. El renderizador 142A puede usar los atributos de objeto de los objetos de audio como pistas sobre cómo renderizar los objetos de audio.

Con referencia a la FIGURA 1B, el sistema de audio orientado a objetos 100B incluye muchas de las características del sistema 100A, como un sistema de creación de objetos de audio 110B, un servidor de contenido 120B y un sistema de usuario 140. La funcionalidad de los componentes mostrados puede ser la misma que la descrita anteriormente, con ciertas diferencias indicadas en la presente. Por ejemplo, en la realización representada, el servidor de contenido 120B incluye un módulo de trasmisión por secuencias adaptativo 122B que puede adaptar dinámicamente la cantidad de datos de objeto trasmitidos por secuencias al sistema de usuario 140. De igual manera, el sistema de usuario 140 incluye un renderizador adaptativo 142B que puede adaptar la trasmisión por secuencias de audio y/o la forma en que los objetos son renderizados por el sistema de usuario 140.

Como puede verse en la FIGURA 1B, el codificador orientado a objetos 112B se ha movido desde el sistema de creación de objetos de audio 110B al servidor de contenido 120B. En la realización representada, el sistema de creación de objetos de audio 110B carga objetos de audio en lugar de flujos de audio al servidor de contenido 120B. Un módulo de trasmisión por secuencias adaptable 122B en el servidor de contenido 120B incluye el codificador orientado a objetos 112B. Por lo tanto, la codificación de objetos de audio se realiza en el servidor de contenido 120B en la realización representada. Alternativamente, el sistema de creación de objetos de audio 110B puede trasmitir por secuencias objetos codificados al módulo de trasmisión por secuencias adaptativo 122B, que decodifica los objetos de audio para su manipulación adicional y posterior codificación.

Al codificar objetos en el servidor de contenido 120B, el módulo de trasmisión por secuencias adaptativo 122B puede adaptar dinámicamente la manera en la que se codifican los objetos antes de la trasmisión por secuencias. El módulo de trasmisión por secuencias adaptativo 122B puede monitorizar los recursos disponibles de la red 130, como el ancho de banda de la red, la latencia, y demás. En base a los recursos de red disponibles, el módulo de trasmisión por secuencias adaptativo 122B puede codificar más o menos objetos de audio en la trasmisión por secuencias de audio. Por ejemplo, a medida que hay más recursos de red disponibles, el módulo de trasmisión por secuencias adaptativo 122B puede codificar relativamente más objetos de audio en la secuencia de audio, y viceversa.

El módulo de trasmisión por secuencias adaptativo 122B también puede ajustar los tipos de objetos codificados en el flujo de audio, en lugar de (o además de) el número. Por ejemplo, el módulo de trasmisión por secuencias adaptativo 122B puede codificar objetos de mayor prioridad (como el diálogo) pero no objetos de menor prioridad (como ciertos sonidos de fondo) cuando los recursos de la red están limitados. El concepto de adaptar la trasmisión por secuencias en base a la prioridad del objeto se describe con mayor detalle a continuación.

El renderizador adaptativo 142B también puede afectar a cómo se trasmiten por secuencias los objetos de audio al sistema de usuario 140. Por ejemplo, el renderizador adaptativo 142B puede comunicarse con el módulo de trasmisión por secuencias adaptativo 122B para controlar la cantidad y/o el tipo de objetos de audio trasmitidos por secuencias al sistema de usuario 140. El renderizador adaptativo 142B también puede ajustar la forma en la que se renderizan los flujos de audio en función del entorno de reproducción. Por ejemplo, una sala de cine grande puede especificar la localización y las capacidades de muchas decenas o cientos de amplificadores y altavoces, mientras que un televisor autónomo puede especificar que solo hay disponibles dos canales de amplificador y altavoces. En base a esta información, los sistemas 100A, 100B pueden optimizar la presentación del campo acústico. Pueden aplicarse muchos tipos diferentes de características de renderización en los sistemas 100A, 100B dependiendo de los recursos y el entorno de reproducción, ya que la trasmisión por secuencias de audio entrante puede ser descriptiva y no depender de las características físicas del entorno de reproducción. Estas y otras características del renderizador adaptativo 142B se describen con mayor detalle a continuación.

En algunas realizaciones, las características adaptativas descritas en la presente pueden implementarse incluso si un codificador orientado a objetos (como el codificador 112A) envía un flujo codificado al módulo de trasmisión por secuencias adaptativo 122B. En lugar de ensamblar un nuevo flujo de audio sobre la marcha, el módulo de trasmisión por secuencias adaptativo 122B puede eliminar objetos o filtrar de otro modo el flujo de audio cuando los recursos informáticos o los recursos de red estén menos disponibles. Por ejemplo, el módulo de trasmisión por secuencias adaptativo 122B puede eliminar paquetes del flujo correspondiente a objetos que son relativamente menos importantes de renderizar. Las técnicas para asignar importancia a los objetos para la trasmisión por secuencias y/o renderizado se describen con mayor detalle a continuación.

Como puede verse en las realizaciones anteriores, los sistemas divulgados 100A, 100B para distribución y reproducción de audio pueden abarcar toda la cadena desde la producción inicial de contenido de audio hasta el sistema perceptual del oyente(s). Los sistemas 100A, 100B pueden ser escalables y adaptables a cambios futuros ya que las mejoras conceptuales en la trasmisión/almacenamiento o el sistema de renderizado multidimensional pueden incorporarse fácilmente. Los sistemas 100A, 100B también pueden escalarse fácilmente desde presentaciones basadas en cine de gran formato hasta configuraciones de cine en casa y sistemas de audio de TV independientes.

Al contrario que con los sistemas basados en canales físicos existentes, los sistemas 100A, 100B pueden abstraer la producción de contenido de audio a una serie de objetos de audio que proporcionan información sobre la estructura de una escena, así como componentes individuales dentro de una escena. La información asociada con cada objeto puede ser usada por los sistemas 100A, 100B para crear la representación más precisa de la información proporcionada, dados los recursos disponibles. Estos recursos pueden especificarse como una entrada adicional a los sistemas 100A, 100B.

Además de usar altavoces y amplificadores físicos, los sistemas 100A, 100B también pueden incorporar procesamiento psicoacústico para mejorar la inmersión del oyente en el entorno acústico, así como para implementar el posicionamiento de objetos 3D que se corresponden con precisión con su posición en el campo visual. Este procesamiento también se puede definir para los sistemas 100A, 100B (por ejemplo, para el renderizador 142) como un recurso disponible para mejorar u optimizar de otro modo la presentación de la información del objeto de audio contenida en el flujo de trasmisión.

El flujo está diseñado para ser extensible de tal manera que se pueda añadir información adicional en cualquier momento. El renderizador 142A, 142B podría ser genérico o diseñado para soportar un entorno particular y una combinación de recursos. Las mejoras futuras y los nuevos conceptos en la reproducción de audio podrían incorporarse a voluntad y la misma información descriptiva contenida en el flujo de trasmisión/almacenamiento utilizarse con una renderización potencialmente más precisa. El sistema 100A, 100B se abstrae al nivel que cualquier mejora física o conceptual futura pueda incorporarse fácilmente en cualquier punto dentro del sistema 100A, 100B mientras se mantiene la compatibilidad con el contenido anterior y los sistemas de renderizado. A diferencia de los sistemas actuales, los sistemas 100A, 100B son flexibles y adaptables.

Para facilitar la ilustración, esta especificación describe principalmente técnicas de audio orientadas a objetos en el contexto de transmisión por secuencias de audio a través de una red. Sin embargo, las técnicas de audio orientadas a objetos también pueden implementarse en entornos que no sean de red. Por ejemplo, un flujo de audio orientado a objetos puede almacenarse en un medio de almacenamiento legible por ordenador, como un disco DVD, disco Blue-ray o similar. Un reproductor multimedia (como un reproductor de Blue-ray) puede reproducir el flujo de audio orientado a objetos almacenado en el disco. Un paquete de audio orientado a objetos también puede descargarse al almacenamiento local en un sistema de usuario y luego reproducirse desde el almacenamiento local. Son posibles muchas otras variaciones.

Debe apreciarse que la funcionalidad de ciertos componentes descritos con respecto a las FIGURAS 1A y 1B puede combinarse, modificarse u omitirse. Por ejemplo, en una implementación, el sistema de creación de objetos de audio 110 puede implementarse en el servidor de contenido 120. Los flujos de audio podrían trasmitirse por secuencias directamente desde el sistema de creación de objetos de audio 110 al sistema de usuario 140. Son posibles muchas otras configuraciones.

III. Realizaciones de trasmisión por secuencias de objetos de audio

Se describirán ahora realizaciones más detalladas de flujos de objetos de audio con respecto a las FIGURAS 2 a 5B. Con referencia a la FIGURA 2, se muestra otra realización de un sistema de audio orientado a objetos 200. El sistema 200 puede implementar cualquiera de las características de los sistemas 100A, 100B descritos anteriormente. El sistema 200 puede generar un flujo de audio orientado a objetos que puede decodificarse, renderizarse y emitirse por uno o más altavoces.

En el sistema 200, los objetos de audio 202 se proporcionan a un codificador orientado a objetos 212. El codificador orientado a objetos 212 puede implementarse mediante un sistema de creación de contenido de audio o un módulo de trasmisión por secuencias en un servidor de contenido, como se ha descrito anteriormente. El codificador orientado a objetos 212 puede codificar y/o comprimir los objetos de audio en un flujo de bits 214. El codificador orientado a objetos 212 puede usar cualquier técnica de codificación o compresión para codificar los objetos, incluyendo las técnicas de compresión basadas en cualquiera de los estándares del Moving Picture Experts Groups (MPEG) (por ejemplo, para crear archivos MP3).

En ciertas realizaciones, el codificador orientado a objetos 212 crea un único flujo de bits 214 que tiene encabezados de metadatos y cargas de audio para diferentes objetos de audio. El codificador orientado a objetos 212 puede trasmitir el flujo de bits 214 a través de una red (ver, por ejemplo, la FIGURA 1B). Un decodificador 220 implementado en un sistema de usuario puede recibir el flujo de bits 214. El decodificador 220 puede decodificar el flujo de bits 214 en sus objetos de audio constituyentes 202. El decodificador 220 proporciona los objetos de audio 202 a un renderizador 242. En algunas realizaciones, el renderizador 242 puede implementar directamente la funcionalidad del decodificador 220.

El renderizador 242 puede renderizar los objetos de audio en señales de audio 244 adecuadas para la reproducción en uno o más altavoces 250. Como se ha descrito anteriormente, el renderizador 142A puede usar los atributos de objeto de los objetos de audio como pistas sobre cómo renderizar los objetos de audio. Ventajosamente, en ciertas realizaciones, como los objetos de audio incluyen tales atributos, puede cambiarse la funcionalidad del renderizador 142A sin cambiar el formato de los objetos de audio. Por ejemplo, un tipo de renderizador 142A podría usar un atributo de posición de un objeto de audio para desplazar el audio de un altavoz a otro. Un segundo renderizador 142A podría usar el mismo atributo de posición para realizar un filtrado psicoacústico 3D al objeto de audio en respuesta a la determinación de que una mejora psicoacústica está disponible para el renderizador 142A. En general, el renderizador 142A puede tener en cuenta algunos o todos los recursos disponibles para crear la mejor presentación posible. A medida que mejora la tecnología de renderización, pueden añadirse renderizaciones 142A o recursos de renderización adicionales al sistema de usuario 140 que aprovechan el formato preexistente de los objetos de audio.

Como se ha descrito anteriormente, el codificador orientado a objetos 212 y/o el renderizador 242 también pueden tener características adaptativas.

La FIGURA 3 ilustra una realización de un módulo de trasmisión por secuencias 322 para su uso con cualquiera de los sistemas de audio orientados a objetos descritos en la presente. El módulo de trasmisión por secuencias 322 incluye un codificador orientado a objetos 312. El módulo de trasmisión por secuencias 322 y el codificador 312 pueden implementarse en hardware y/o software. La realización representada ilustra cómo pueden codificarse diferentes tipos de objetos de audio en un único flujo de bits 314.

El módulo de trasmisión por secuencias 322 de ejemplo mostrado recibe dos tipos diferentes de objetosobjetos estáticos 302 y objetos dinámicos 304. Los objetos estáticos 302 pueden representar canales de audio, como sonido envolvente de 5.1 canales. Cada canal puede representarse como un objeto estático 302. Algunos creadores de contenido pueden desear usar canales en lugar de o además de la funcionalidad basada en objetos de los sistemas 100A, 100B. Los objetos estáticos 302 proporcionan una manera para que estos creadores de contenido usen canales, facilitando la compatibilidad hacia atrás con los sistemas de canales fijos existentes y promoviendo la facilidad de adopción.

Los objetos dinámicos 304 pueden incluir cualquier objeto que pueda usarse en lugar de o además de los objetos estáticos 302. Los objetos dinámicos 304 pueden incluir mejoras que, cuando se renderizan junto con objetos estáticos 302, mejoran el audio asociado con los objetos estáticos 302. Por ejemplo, los objetos dinámicos 304 pueden incluir información psicoacústica que un renderizador puede usar para mejorar los objetos estáticos 302. Los objetos dinámicos 304 también pueden incluir objetos de fondo (como un avión que pasa) que un renderizador puede usar para mejorar una escena de audio. Sin embargo, los objetos dinámicos 304 no necesitan ser objetos de fondo. Los objetos dinámicos 304 pueden incluir diálogo o cualquier otro dato de audio.

Los metadatos asociados con los objetos estáticos 302 pueden ser pequeños o inexistentes. En una realización, estos metadatos simplemente incluyen el atributo de objeto de "canal", que indica a qué canal corresponden los objetos estáticos 302. Como estos metadatos no cambian en algunas implementaciones, los objetos estáticos 302 son, por lo tanto, estáticos en sus atributos de objeto. Por el contrario, los objetos dinámicos 304 pueden incluir atributos del objeto cambiantes, como cambio de posición, velocidad, y demás. Por lo tanto, los metadatos asociados con estos objetos 304 pueden ser dinámicos. Sin embargo, en algunas circunstancias, los metadatos asociados con los objetos estáticos 302 pueden cambiar con el tiempo, mientras que los metadatos asociados con los objetos dinámicos 304 pueden permanecer iguales.

Además, como se ha mencionado anteriormente, algunos objetos dinámicos 304 pueden contener poca o ninguna carga útil de audio. Los objetos de entorno 304, por ejemplo, pueden especificar las características deseadas del entorno acústico en el que tiene lugar una escena. Estos objetos dinámicos 304 pueden incluir información sobre el tipo de edificio o área al aire libre donde se produce la escena de audio, como una habitación, oficina, catedral, estadio o similares. Un renderizador puede usar esta información para ajustar la reproducción del audio en los objetos estáticos 302, por ejemplo, aplicando una cantidad apropiada de reverberación o retardo correspondiente al entorno indicado. Los objetos dinámicos ambientales 304 también pueden incluir una carga útil de audio en algunas implementaciones. Algunos ejemplos de objetos del entorno se describen a continuación con respecto a la FIGURA 4.

Otro tipo de objeto que puede incluir metadatos pero poca o ninguna carga útil es un objeto de definición de audio. En una realización, un sistema de usuario puede incluir una biblioteca de clips de audio o sonidos que el renderizador puede renderizar tras recibir los objetos de definición de audio. Un objeto de definición de audio puede incluir una referencia a un clip de audio o sonido almacenado en el sistema del usuario, junto con instrucciones sobre cuánto tiempo reproducir el clip, si poner en bucle el clip, y demás. Un flujo de audio puede construirse parcialmente o incluso únicamente a partir de objetos de definición de audio, con algunos o todos los datos de audio reales siendo almacenados en el sistema del usuario (o accesibles desde otro servidor). En otra realización, el módulo de trasmisión por secuencias 322 puede enviar una pluralidad de objetos de definición de audio a un sistema de usuario, seguido de una pluralidad de objetos de carga útil de audio, separando los metadatos y el audio real. Son posibles muchas otras configuraciones.

Los creadores de contenido pueden declarar objetos estáticos 302 u objetos dinámicos 304 usando un lenguaje informático descriptivo (usando, por ejemplo, el sistema de creación de objetos de audio 110). Cuando se crea contenido de audio para trasmitirlo por secuencias posteriormente, un creador de contenido puede declarar un número deseado de objetos estáticos 302. Por ejemplo, un creador de contenido puede solicitar que un objeto estático de diálogo 302 (por ejemplo, correspondiente a un canal central) o cualquier otro número de los objetos estáticos 302 estén siempre encendidos. Esta propiedad "siempre activa" también puede hacer que los objetos estáticos 302 sean estáticos. Por el contrario, los objetos dinámicos 304 pueden ir y venir y no siempre estar presentes en el flujo de audio. Por supuesto, estas características pueden invertirse. Puede ser deseable cerrar o alternar de otro modo objetos estáticos 302, por ejemplo. Cuando el diálogo no está presente en un objeto estático dado 302, por ejemplo, no incluir ese objeto estático 302 en el flujo de audio puede ahorrar recursos de computación y de red.

La FIGURA 4 ilustra una realización de un formato de trasmisión por secuencias de audio orientado a objetos 400. El formato de trasmisión por secuencias de audio incluye un flujo de bits 414, que puede corresponder a cualquiera de los flujos de bits descritos anteriormente. El formato 400 del flujo de bits 414 se descompone en vistas sucesivamente más detalladas (420, 430). El formato de flujo de bits 400 mostrado es simplemente una realización de ejemplo y puede variar dependiendo de la implementación.

En la realización representada, el flujo de bits 414 incluye un encabezado de flujo 412 y cuadros macro 420. El encabezado de flujo 412 puede producirse al principio o al final del flujo de bits 414. Algunos ejemplos de información que pueden incluirse en el encabezado del flujo 412 incluyen un autor del flujo, un origen del flujo, información de copyright, un sello temporal relacionado con la creación y/o entrega del flujo, la longitud del flujo, información referente a qué códec se usó para codificar el flujo, y similares. El encabezado de flujo 412 puede ser utilizado por un decodificador y/o renderizador para decodificar apropiadamente el flujo 414.

Los cuadros macro 420 dividen el flujo de bits 414 en secciones de datos. Cada cuadro macro 420 puede corresponder a una escena de audio o un segmento de tiempo de audio. Cada cuadro macro 420 incluye además un encabezado de cuadro macro 422 y cuadros individuales 430. El encabezado de cuadro macro 422 puede definir una cantidad de objetos de audio incluidos en el cuadro macro, un sello temporal correspondiente al cuadro macro 420, y así sucesivamente. En algunas implementaciones, el encabezado de cuadro macro 422 puede colocarse después de los cuadros 430 en el cuadro macro 420. Los cuadros individuales 430 pueden representar cada uno un solo objeto de audio. Sin embargo, los cuadros 430 también pueden representar múltiples objetos de audio en algunas implementaciones. En una realización, un renderizador recibe un cuadro macro 420 completo antes de renderizar los objetos de audio asociados con el cuadro macro 420.

Cada cuadro 430 incluye un encabezado de cuadro 432 que contiene metadatos de objeto y una carga útil de audio 434. En algunas implementaciones, el encabezado de cuadro 432 puede colocarse después de la carga útil de audio 434. Sin embargo, como se ha tratado anteriormente, algunos objetos de audio pueden tener solo metadatos 432 o solo una carga útil de audio 434. Por tanto, algunos cuadros 432 pueden incluir un encabezado de cuadro 432 con pocos o ningún metadato de objeto (o ningún encabezado), y algunos cuadros 432 pueden incluir poca o ninguna carga útil de audio 434.

Los metadatos del objeto en el encabezado del marco 432 pueden incluir información sobre los atributos del objeto. Las siguientes tablas ilustran ejemplos de metadatos que pueden usarse para definir atributos de objeto. En particular, la Tabla 1 ilustra varios atributos de objeto, organizados por un nombre de atributo y una descripción de atributo. En algunos diseños pueden implementarse menos o más atributos que los mostrados.

-

continuación

continuación

Los valores de ejemplo para OBSTRUCT_PRESET (preestablecimiento de obstrucción) enumerados en la Tabla 1 se muestran a continuación en la Tabla 2. El valor preestablecido de obstrucción puede afectar el grado en que una fuente de sonido está ocluida o bloqueada desde el punto de vista de la cámara o del oyente. Por lo tanto, por ejemplo, una fuente de sonido que emana de detrás de una puerta gruesa puede representarse de manera diferente que una fuente de sonido que emana de detrás de una cortina. Como se ha tratado anteriormente, un renderizador puede realizar cualquier técnica de renderización deseada (o ninguna) en base a los valores de estos y otros atributos de objeto.

T l 2- Pr r i n m l

Como el preajuste de obstrucción (a veces referido como oclusión), el REVERB_PRESET (preajuste de reverberación) puede incluir valores ejemplares como se muestra en la Tabla 3. Estos valores de reverberación corresponden a tipos de entornos en los que puede localizarse una fuente de sonido. Por lo tanto, una fuente de sonido que emana en un auditorio podría renderizarse de manera diferente a una fuente de sonido que emana en una sala de estar. En una realización, un objeto del entorno incluye un atributo de reverberación que incluye valores preestablecidos como los que se describen a continuación.

-

continuación

En algunas realizaciones, los objetos de entorno no se describen meramente usando los preajustes de reverberación descritos anteriormente. En cambio, los objetos del entorno pueden describirse con uno o más atributos, como una cantidad de reverberación (que no necesita ser un preajuste), una cantidad de eco, un grado de ruido de fondo, y demás. Son posibles muchas otras configuraciones. De manera similar, los atributos de los objetos de audio generalmente pueden tener formas distintas a los valores. Por ejemplo, un atributo puede contener un fragmento de código o instrucciones que definen un comportamiento o característica de una fuente de sonido.

La FIGURA 5A ilustra una realización de un proceso de ensamblaje de flujo de audio 500A. El proceso de ensamblaje de flujo de audio 500A puede implementarse mediante cualquiera de los sistemas descritos en la presente. Por ejemplo, el proceso de ensamblaje de flujo 500A puede implementarse mediante cualquiera de los codificadores orientados a objetos o módulos de trasmisión por secuencias descritos anteriormente. El proceso de ensamblaje de flujo 500A ensambla un flujo de audio de por lo menos un objeto de audio.

En el bloque 502, se selecciona un objeto de audio para trasmitir por secuencias. El objeto de audio puede haber sido creado mediante el módulo de creación de objetos de audio 110 descrito anteriormente. Como tal, seleccionar el objeto de audio puede incluir acceder al objeto de audio en el repositorio de datos del objeto 116. Alternativamente, el módulo de trasmisión por secuencias 122 puede acceder al objeto de audio desde el almacenamiento del ordenador. Para facilitar la ilustración, esta FIGURA de ejemplo describe la trasmisión por secuencias de un único objeto, pero debe entenderse que pueden trasmitirse por secuencias múltiples objetos en un flujo de audio. El objeto seleccionado puede ser un objeto estático o dinámico. En este ejemplo particular, el objeto seleccionado tiene metadatos y una carga útil de audio.

Un encabezado de objeto que tiene metadatos del objeto se ensambla en el bloque 504. Estos metadatos pueden incluir cualquier descripción de atributos del objeto, algunos ejemplos de los cuales se han descrito anteriormente. En el bloque 506, se proporciona una carga útil de audio que tiene los datos de señal de audio del objeto.

El encabezado del objeto y la carga útil de audio se combinan para formar el flujo de audio en el bloque 508. La formación del flujo de audio puede incluir codificar el flujo de audio, comprimir el flujo de audio y similares. En el bloque 510, el flujo de audio se trasmite a través de una red. Aunque el flujo de audio puede trasmitirse por secuencias usando cualquier técnica de trasmisión por secuencias, el flujo de audio también puede cargarse a un sistema de usuario (o viceversa, descargarse por el sistema de usuario). Posteriormente, el sistema de usuario puede renderizar el flujo de audio, como se describe a continuación con respecto a la FIGURA 5B.

La FIGURA 5B ilustra una realización de un proceso de renderizado de flujo de audio 500B. El proceso de renderizado de flujo de audio 500B puede implementarse mediante cualquiera de los sistemas descritos en la presente. Por ejemplo, el proceso de renderización de flujo 500B puede implementarse mediante cualquiera de los renderizadores descritos en la presente.

En el bloque 522, se recibe un flujo de audio orientado a objetos. Este flujo de audio puede haberse creado usando las técnicas del proceso 500A o con otras técnicas descritas anteriormente. En el bloque 524 se accede a los metadatos del objeto en el flujo de audio. Estos metadatos pueden obtenerse decodificando el flujo usando, por ejemplo, el mismo códec usado para codificar el flujo.

En el bloque 526 se identifican uno o más atributos de objeto en los metadatos. Los valores de estos atributos de objeto pueden ser identificados por el renderizador como pistas para renderizar los objetos de audio en el flujo.

En el bloque 528 se renderiza una señal de audio en el flujo de audio. En la realización representada, el flujo de audio se renderiza de acuerdo con uno o más atributos de objeto para producir audio de salida. El audio de salida se suministra a uno o más altavoces en el bloque 530.

IV. T rasmisión por secuencias adaptativa y realizaciones de renderizado

Anteriormente se describieron un módulo de trasmisión por secuencias adaptativo 122B y un procesador adaptativo 142B con respecto a la FIGURA 1B. En el sistema 600 de la FIGURA 6 se muestran realizaciones más detalladas de un módulo de trasmisión por secuencias adaptativo 622 y un procesador adaptativo 642.

En la FIGURA 6, el módulo de transmisión por secuencias adaptativo 622 tiene varios componentes, que incluyen un módulo de prioridad 624, un monitor de recursos de red 626, un codificador orientado a objetos 612, y un módulo de comunicaciones de audio 628. El renderizador adaptativo 642 incluye un monitor de recursos informáticos 644 y un módulo de renderización 646. Algunos de los componentes mostrados pueden omitirse en diferentes implementaciones. El codificador orientado a objetos 612 puede incluir cualquiera de las características de codificación descritas anteriormente. El módulo de comunicaciones de audio 628 puede transmitir el flujo de bits 614 al renderizador adaptativo 642 a través de una red (no mostrado).

El módulo de prioridad 624 puede aplicar valores de prioridad u otra información de prioridad a objetos de audio. En una realización, cada objeto puede tener un valor de prioridad, que puede ser un valor numérico o similar. Los valores de prioridad pueden indicar la importancia relativa de los objetos desde el punto de vista del renderizado. Los objetos con mayor prioridad pueden ser más importantes para renderizar que los objetos de menor prioridad. Por tanto, si los recursos están restringidos, los objetos con una prioridad relativamente menor pueden ignorarse. La prioridad puede ser establecida inicialmente por un creador de contenido, usando los sistemas de creación de objetos de audio 110 descritos anteriormente.

Como ejemplo, un objeto de diálogo que incluye un diálogo para un video podría tener una prioridad relativamente más alta que un objeto de sonido de fondo. Si los valores de prioridad están en una escala de 1 a 5, por ejemplo, el objeto de diálogo podría tener un valor de prioridad de 1 (lo que significa la prioridad más alta), mientras que un objeto de sonido de fondo podría tener una prioridad más baja (por ejemplo, en algún lugar de 2 a 5) El módulo de prioridad 624 puede establecer umbrales para trasmitir objetos que satisfacen ciertos niveles de prioridad. Por ejemplo, el módulo de prioridad 624 puede establecer un umbral de 3, de tal manera que los objetos que tienen prioridad de 1,2 y 3 se trasmiten a un sistema de usuario mientras que los objetos con una prioridad de 4 o 5 no lo hacen.

El módulo de prioridad 624 puede establecer dinámicamente este umbral en base a las condiciones cambiantes de la red, como se determina mediante el monitor de recursos de red 626. El monitor de recursos de red 626 puede monitorizar los recursos de red disponibles u otras medidas de calidad de servicio, como ancho de banda, latencia, y demás. El monitor de recursos de red 626 puede proporcionar esta información al módulo de prioridad 624. Usando esta información, el módulo de prioridad 624 puede ajustar el umbral para permitir que se trasmitan objetos de menor prioridad al sistema del usuario si los recursos de la red son altos. De manera similar, el módulo de prioridad 624 puede ajustar el umbral para evitar que se trasmitan objetos de menor prioridad cuando los recursos de red son bajos.

El módulo de prioridad 624 también puede ajustar el umbral de prioridad en base a la información recibida del renderizador adaptativo 642. El módulo de recursos informáticos 644 del renderizador adaptativo 642 puede identificar características del entorno de reproducción de un sistema de usuario, como el número de altavoces conectados al sistema de usuario, la capacidad de procesamiento del sistema de usuario, y demás. El módulo de recursos informáticos 644 puede comunicar la información de recursos informáticos al módulo de prioridad 624 a través de un canal de control 650. En base a esta información, el módulo de prioridad 624 puede ajustar el umbral para enviar objetos de prioridad tanto superior como inferior si los recursos informáticos son altos y únicamente objetos de mayor prioridad si los recursos informáticos son bajos. El monitor de recursos informáticos 644 del renderizador adaptativo 642 puede por lo tanto controlar la cantidad y/o el tipo de objetos de audio que se trasmiten por secuencias al sistema de usuario.

El renderizador adaptativo 642 también puede ajustar la forma en que se procesan los flujos de audio en función del entorno de reproducción. Si el sistema de usuario está conectado a dos altavoces, por ejemplo, el renderizador adaptativo 642 puede renderizar los objetos de audio en los dos altavoces. Si están conectados altavoces adicionales al sistema de usuario, el renderizador adaptativo 642 también puede renderizar los objetos de audio en los canales adicionales. El renderizador adaptativo 642 también puede aplicar técnicas psicoacústicas cuando renderiza los objetos de audio en uno o dos (o en ocasiones más) altavoces.

El módulo de prioridad 624 puede cambiar la prioridad de los objetos de audio dinámicamente. Por ejemplo, el módulo de prioridad 624 puede establecer que los objetos tengan una prioridad relativa entre sí. Por ejemplo, un módulo de prioridad 624 puede asignar un valor de prioridad más alto a un objeto de diálogo. Los valores de prioridad de otros objetos pueden ser relativos a la prioridad del objeto de diálogo. Por tanto, si el objeto de diálogo no está presente durante un período de tiempo en el flujo de audio, los otros objetos pueden tener una prioridad relativamente más alta.

La FIGURA 7 ilustra una realización de un proceso de trasmisión por secuencias adaptativa 700. El proceso de trasmisión por secuencias adaptativa 700 puede implementarse mediante cualquiera de los sistemas descritos anteriormente, como el sistema 600. El proceso de trasmisión por secuencias adaptativa 700 facilita el uso eficiente de los recursos de trasmisión por secuencias.

Los bloques 702 a 708 pueden ser realizados por el módulo de prioridad 624 descrito anteriormente. En el bloque 702, se recibe una solicitud de un ordenador remoto para contenido de audio. Un sistema de usuario puede enviar la solicitud a un servidor de contenido, por ejemplo. En el bloque 704, se recibe información de recursos informáticos con respecto a los recursos del sistema informático remoto. Esta información de recursos informáticos puede describir varios recursos disponibles del sistema de usuario y puede proporcionarse junto con la solicitud de contenido de audio. La información de recursos de red referente a los recursos de red disponibles también se recibe en el bloque 726. Esta información de recursos de red puede ser obtenida por el monitor de recursos de red 626.

En el bloque 708 se establece un umbral de prioridad en base a, por lo menos en parte, la información del ordenador y/o de los recursos de la red. En una realización, el módulo de prioridad 624 establece un umbral inferior (por ejemplo, para permitir objetos de menor prioridad en el flujo) cuando los recursos informáticos y de red son relativamente altos. El módulo de prioridad 624 puede establecer un umbral más alto (por ejemplo, para permitir objetos de mayor prioridad en el flujo) cuando los recursos informáticos o de red son relativamente bajos.

Los bloques 710 a 714 pueden ser realizado por el codificador orientado a objetos 612. En el bloque de decisión 710, para un objeto dado en el contenido de audio solicitado, se determina si el valor de prioridad para ese objeto satisface el umbral establecido anteriormente. Si es así, en el bloque 712, el objeto se añade al flujo de audio. De lo contrario, el objeto no se añade al flujo de audio, ahorrando de este modo ventajosamente recursos de red y/o informáticos en ciertas realizaciones.

En el bloque 714 se determina además si quedan objetos adicionales por considerar para añadir al flujo. Si es así, el proceso 700 vuelve al bloque 710. De lo contrario, el flujo de audio se trasmite al sistema informático remoto en el bloque 716, por ejemplo, mediante el módulo de comunicaciones de audio 628.

En algunas implementaciones el proceso 700 puede modificarse para eliminar objetos de un flujo de audio precodificado en lugar de ensamblar un flujo de audio sobre la marcha. Por ejemplo, en el bloque 710, si un objeto dado tiene una prioridad que no satisface un umbral, en el bloque 712, el objeto puede eliminarse del flujo de audio. Por lo tanto, los creadores de contenido pueden proporcionar un flujo de audio a un servidor de contenido con una variedad de objetos, y el módulo de trasmisión por secuencias adaptativo en el servidor de contenido puede eliminar dinámicamente algunos de los objetos en base a las prioridades de los objetos. Por lo tanto, seleccionar objetos de audio para la trasmisión por secuencias puede incluir añadir objetos a un flujo, eliminar objetos de un flujo o ambos.

La FIGURA 8 ilustra una realización de un proceso de renderización adaptativa 800. El proceso de renderización adaptativa 800 puede implementarse mediante cualquiera de los sistemas descritos anteriormente, como el sistema 600. El proceso de renderización adaptativa 800 también facilita el uso eficiente de los recursos de trasmisión por secuencias.

En el bloque 802, un flujo de audio que tiene una pluralidad de objetos de audio es recibido por un renderizador de un sistema de usuario. Por ejemplo, el renderizador adaptativo 642 puede recibir los objetos de audio. En el bloque 804 se accede a la información del entorno de reproducción. El monitor de recursos informáticos 644 del procesador adaptativo 642 puede acceder a la información del entorno de reproducción. Esta información de recursos puede incluir información sobre configuraciones de altavoces, potencia informática, y demás.

Los bloques 806 a 810 pueden ser implementados por el módulo de renderización 646 del renderizador adaptativo 642. En el bloque 806, se seleccionan uno o más objetos de audio en base a por lo menos parcialmente la información del entorno. El módulo de renderización 646 puede usar los valores de prioridad de los objetos para seleccionar los objetos a renderizar. En otra realización, el módulo de renderización 646 no selecciona objetos en base a los valores de prioridad, sino que mezcla los objetos en menos canales de altavoces o usa de otra manera menos recursos de procesamiento para renderizar el audio. Los objetos de audio se renderizan para producir audio de salida en el bloque 808. El audio renderizado se emite a uno o más altavoces en el bloque 810.

V. Realizaciones de creación de objetos de audio

Las FIGURAS 9 a 11 describen técnicas de creación de objetos de audio ejemplares en el contexto de reproducciones audiovisuales, tales como películas, televisión, podcasting y similares. Sin embargo, algunas o todas las características descritas con respecto a las FIGURAS 9 a 11 también pueden implementarse en el contexto de audio puro (por ejemplo, sin video de acompañamiento).

La FIGURA 9 ilustra una escena de ejemplo 900 para la captura de audio orientada a objetos. La escena 900 representa una vista simplificada de una escena audiovisual como la que se puede construir para una película, televisión u otro video. En la escena 900, dos actores 910 están actuando, y sus sonidos y acciones son grabados por un micrófono 920 y una cámara 930 respectivamente. Para simplificar, se ilustra un solo micrófono 920, aunque en algunos casos los actores 910 pueden usar micrófonos individuales. De manera similar, también pueden suministrarse micrófonos individuales mediante accesorios (no mostrados).

Para determinar la localización, la velocidad y otros atributos de las fuentes de sonido (por ejemplo, los actores) en la escena 900 actual, se proporcionan dispositivos de seguimiento de localización 912. Estos dispositivos de seguimiento de localización 912 pueden incluir dispositivos GPS, trajes de captura de movimiento, telémetros láser y similares. Los datos de los dispositivos de seguimiento de localización 912 pueden trasmitirse al sistema de creación de objetos de audio 110 junto con los datos del micrófono 920 (o micrófonos). Los sellos temporales incluidos en los datos de los dispositivos de seguimiento de localización 912 pueden correlacionarse con los sellos temporales obtenidos del micrófono 920 y/o la cámara 930 para proporcionar datos de posición para cada instancia de audio. Estos datos de posición pueden usarse para crear objetos de audio que tengan un atributo de posición. DE manera similar, los datos de velocidad pueden obtenerse de los dispositivos de seguimiento de localización 912 o pueden derivarse de los datos de posición.

Los datos de localización de los dispositivos de seguimiento de localización 912 (como latitud y longitud derivados de GPS) pueden usarse directamente como datos de posición o pueden trasladarse a un sistema de coordenadas. Por ejemplo, las coordenadas cartesianas 940 en tres dimensiones (x, y, y z) pueden usarse para seguir la posición del objeto de audio. También pueden usarse sistemas de coordenadas distintos de las coordenadas cartesianas, como coordenadas esféricas o cilíndricas. En una realización el origen del sistema de coordenadas 940 puede ser la cámara 930. Para facilitar esta disposición, la cámara 930 también puede incluir un dispositivo de seguimiento de localización 912 para determinar su localización con respecto a los objetos de audio. Por lo tanto, incluso si la posición de la cámara 930 cambia, la posición de los objetos de audio en la escena 900 aún puede ser relativa a la posición de la cámara 930.

También pueden aplicarse datos de posición a objetos de audio durante la postproducción de una producción audiovisual. Para las producciones de animación, las coordenadas de los objetos animados (como los personajes) pueden ser conocidas para los creadores de contenido. Estas coordenadas pueden asociarse automáticamente con el audio producido por cada objeto animado para crear objetos de audio.

La FIGURA 10 ilustra esquemáticamente un sistema 1000 para captura de audio orientada a objetos que puede implementar las características descritas anteriormente con respecto a la FIGURA 9. En el sistema 1000, los datos de localización de la fuente de sonido 1002 y los datos del micrófono 1006 se proporcionan a un módulo de creación de objetos 1014. El módulo de creación de objetos 1014 puede incluir todas las características de los módulos de creación de objetos 114A, 114B descritos anteriormente. El módulo de creación de objetos 1014 puede correlacionar los datos de localización de la fuente de sonido 1002 para una fuente de sonido dada con los datos de micrófono 1006 en base a los sellos temporales 1004, 1008, como se ha descrito anteriormente con respecto a la FIGURA 9.

Adicionalmente, el módulo de creación de objetos 1014 incluye un enlazador de objetos 1020 que puede vincular o asociar de otra manera objetos entre sí. Ciertos objetos de audio pueden estar inherentemente relacionados entre sí y, por lo tanto, pueden vincularse automáticamente mediante el enlazador de objetos 1020. Los objetos vinculados pueden renderizarse juntos de la manera que se describirá a continuación.

Los objetos pueden estar inherentemente relacionados entre sí porque los objetos están relacionados con una misma clase de objeto más alta. En otras palabras, el módulo de creación de objetos 1014 puede formar jerarquías de objetos que incluyen objetos primarios y objetos derivados que están relacionados con y propiedades inherentes de los objetos primarios. De esta manera, los objetos de audio pueden tomar prestados ciertos principios orientados a objetos de los lenguajes de programación de ordenadores. Un ejemplo de un objeto primario que puede tener objetos derivados es una banda de música. Una banda de música puede tener varias secciones correspondientes a diferentes grupos de instrumentos, como trombones, flautas, clarinetes, y demás. Un creador de contenido que usa el módulo de creación de objetos 1014 puede asignar la banda para que sea un objeto primario y cada sección para que sea un objeto derivado. Además, el creador de contenido también puede asignar los miembros individuales de la banda para que sean objetos derivados de los objetos de sección. El creador de contenido puede establecer la complejidad de la jerarquía de objetos, incluyendo el número de niveles en la jerarquía.

Como se ha mencionado anteriormente, los objetos derivados pueden heredar las propiedades de sus objetos primarios. Por lo tanto, los objetos derivados pueden heredar algunos o todos los metadatos de sus objetos primarios. En algunos casos, los objetos derivados también pueden heredar algunos o todos los datos de la señal de audio asociados con sus objetos primarios. Los objetos derivados pueden modificar algunos o todos estos metadatos y/o datos de señal de audio. Por ejemplo, un objeto derivado puede modificar un atributo de posición heredado del primario de tal manera que el primario y el derivado tengan posiciones diferentes pero otros metadatos similares.

La posición del objeto derivado también puede representarse como un desplazamiento de la posición del objeto primario o puede derivarse de la posición del objeto primario. Refiriéndose al ejemplo de la banda de música, una sección de la banda puede tener una posición que está desplazada de la posición de la banda. A medida que la banda cambia de posición, el objeto derivado que representa la sección de la banda puede actualizar automáticamente su posición en base al desplazamiento y la posición de la banda primaria. De esta manera, diferentes secciones de la banda que tienen diferentes desplazamientos de posición pueden moverse juntas.

La herencia entre los objetos derivados y primarios puede dar como resultado metadatos comunes entre los objetos derivados y primarios. Esta superposición de metadatos puede ser explotada por cualquiera de los codificadores orientados a objetos descritos anteriormente para optimizar o reducir los datos en el flujo de audio. En una realización, un codificador orientado a objetos puede eliminar metadatos redundantes del objeto derivado, reemplazando los metadatos redundantes con una referencia a los metadatos del primario. De igual manera, si los datos de la señal de audio redundantes son comunes a los objetos derivados y primarios, el codificador orientado a objetos puede reducir o eliminar los datos de la señal de audio redundantes. Estas técnicas son simplemente ejemplos de muchas técnicas de optimización que el codificador orientado a objetos puede implementar para reducir o eliminar datos redundantes en el flujo de audio.

Además, el enlazador de objetos 1020 del módulo de creación de objetos 1014 puede vincular objetos derivados y primarios entre sí. El enlazador de objetos 1020 puede realizar esta vinculación creando una asociación entre los dos objetos, que puede reflejarse en los metadatos de los dos objetos. El enlazador de objetos 1020 puede almacenar esta asociación en un repositorio de datos de objetos 1016. Además, en algunas realizaciones, los creadores de contenido pueden vincular objetos entre sí manualmente, por ejemplo, incluso cuando los objetos no tienen relaciones primario-derivado.

Cuando un renderizador recibe dos objetos vinculados, el renderizador puede elegir renderizar los dos objetos por separado o juntos. Por lo tanto, en lugar de renderizar una banda de música como una única fuente de punto en un altavoz, por ejemplo, un renderizador puede renderizar la banda de música como un campo de sonido de objetos de audio juntos en una variedad de altavoces. A medida que la banda se mueve en un video, por ejemplo, el renderizador puede mover el campo de sonido a través de los altavoces.

De manera más general, el renderizador puede interpretar la información de vinculación de varias maneras. El renderizador puede, por ejemplo, renderizar objetos vinculados en el mismo altavoz en diferentes momentos, retrasados unos respecto a los otros, o en diferentes altavoces al mismo tiempo, o similares. El renderizador también puede renderizar los objetos vinculados en diferentes puntos del espacio determinados psicoacústicamente, para proporcionar al oyente la impresión de que los objetos vinculados están en diferentes puntos alrededor de la cabeza del oyente. Así, por ejemplo, un renderizador puede hacer que la sección del trombón parezca marchar a la izquierda del oyente mientras que la sección del clarinete marcha a la derecha del oyente.

La FIGURA 11 ilustra una realización de un proceso 1100 para captura de audio orientada a objetos. El proceso 1100 puede implementarse mediante cualquiera de los sistemas descritos en la presente, como el sistema 1000. Por ejemplo, el proceso 1100 puede implementarse mediante el enlazador de objetos 1020 del módulo de creación de objetos 1014.

En el bloque 1102, se reciben datos de audio y localización para la primera y la segunda fuentes de sonido.

Los datos de audio pueden obtenerse usando un micrófono, mientras que los datos de localización pueden obtenerse usando cualquiera de las técnicas descritas anteriormente con respecto a la FIGURA 9.

En el bloque 1104 se crea un primer objeto de audio para la primera fuente de sonido. De manera similar, en el bloque 1106 se crea un segundo objeto de audio para la segunda fuente de sonido. En el bloque 1108 se crea una asociación entre la primera y la segunda fuentes de sonido. Esta asociación puede crearse automáticamente por el enlazador de objetos 1020 en base a si los dos objetos están relacionados en una jerarquía de objetos. Además, el enlazador de objetos 1020 puede crear la asociación automáticamente en base a otros metadatos asociados con los objetos, como dos atributos similares. La asociación se almacena en el almacenamiento del ordenador en el bloque 1110.

VI. Terminología

Dependiendo de la realización, ciertos actos, eventos o funciones de cualquiera de los algoritmos descritos en la presente pueden realizarse en una secuencia diferente, pueden añadirse, fusionarse u omitirse todos a la vez (por ejemplo, no todos los actos o eventos descritos son necesarios para la puesta en práctica del algoritmo). Además, en ciertas realizaciones, los actos o eventos pueden realizarse concurrentemente, por ejemplo, a través de procesamiento de múltiples subprocesos, procesamiento de interrupciones, o procesadores múltiples o núcleos de procesadores o en otras arquitecturas paralelas, en lugar de secuencialmente.

Los varios bloques, módulos y pasos de algoritmo lógicos ilustrativos descritos en relación con las realizaciones divulgadas en la presente pueden implementarse como hardware electrónico, software informático, o combinaciones de ambos. Para ilustrar claramente esta intercambiabilidad de hardware y software, varios componentes, bloques, módulos y pasos ilustrativos se han descrito anteriormente generalmente en términos de su funcionalidad. Si dicha funcionalidad se implementa como hardware o software depende de la aplicación particular y las restricciones de diseño impuestas en el sistema general. La funcionalidad descrita puede implementarse de diferentes maneras para cada aplicación particular, pero no debe interpretarse que tales decisiones de implementación provocan un alejamiento del alcance de la divulgación.

Los varios bloques y módulos lógicos ilustrativos descritos en relación con las realizaciones divulgadas en la presente pueden implementarse o realizarse por una máquina, como un procesador de propósito general, un procesador de señales digitales (DSP), un circuito integrado de aplicación específica (ASIC), una matriz de puerta programable de campo (FPGA) u otro dispositivo lógico programable, lógica de puerta discreta o transistor, componentes de hardware discretos, o cualquier combinación de los mismos diseñada para realizar las funciones descritas en la presente. Un procesador de propósito general puede ser un microprocesador, pero como alternativa, el procesador puede ser un controlador, un microcontrolador, o una máquina de estados, combinaciones de los mismos o similares. Un procesador también puede implementarse como una combinación de dispositivos informáticos, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores junto con un núcleo de DSP, o cualquier otra de tales configuraciones.

Los pasos de un método, proceso o algoritmo descritos en relación con las realizaciones divulgadas en la presente pueden incorporarse directamente en hardware, en un módulo de software ejecutado por un procesador, o en una combinación de los dos. Un módulo de software puede residir en memoria RAM, memoria flash, memoria ROM, memoria EPROM, memoria EEPROM, registros, disco duro, un disco extraíble, un CD-ROM o cualquier otra forma de medio de almacenamiento legible por ordenador conocido en la técnica. Un medio de almacenamiento ejemplar puede acoplarse al procesador de tal manera que el procesador puede leer información y escribir información en el medio de almacenamiento. Como alternativa, el medio de almacenamiento puede ser integral al procesador. El procesador y el medio de almacenamiento pueden residir en un ASIC. El ASIC puede residir en un terminal de usuario. Como alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en un terminal de usuario.

Se pretende generalmente que el lenguaje condicional usado en la presente como, entre otros, "puede", "podría", "es posible", "por ejemplo" y similares, a menos que se indique específicamente lo contrario, o se entienda de otro modo dentro del contexto como se usa, trasmita que ciertas realizaciones incluyen, mientras que otras realizaciones no incluyen, ciertas características, elementos y/o estados. Por lo tanto, no se pretende generalmente que dicho lenguaje condicional implique que las características, elementos y/o estados sean de alguna manera necesarios para una o más realizaciones o que una o más realizaciones incluyan necesariamente lógica para decidir, con o sin aportación o confirmación del autor, si estas características, elementos y/o estados deben incluirse o deben realizarse en cualquier realización particular.

Claims

REIVINDICACIONES

1. Un sistema para adaptar la trasmisión de un flujo de audio orientado a objetos, el sistema comprendiendo:

un monitor de recursos de red configurado para recibir una solicitud de contenido de audio sobre una red desde un sistema informático remoto y para acceder a la información de recursos de red sobre los recursos disponibles de la red;

un codificador orientado a objetos implementado por uno o más procesadores, el codificador orientado a objetos configurado para:

seleccionar uno o más de una pluralidad de objetos de audio a eliminar de un flujo de audio en base a por lo menos en parte los recursos de red disponibles y a la información de prioridad correspondiente a la pluralidad de objetos de audio, en donde la información de prioridad comprende un valor de prioridad para cada uno de la pluralidad de objetos de audio;

seleccionar uno o más de la pluralidad de objetos de audio seleccionando por lo menos de la pluralidad de objetos de audio el uno o más objetos de audio cuyo valor de prioridad satisface un umbral de prioridad; y ajustar dinámicamente el umbral de prioridad en base por lo menos en parte a la información del entorno recibida del sistema informático remoto, en donde la información del entorno comprende información referente a uno o más de los siguientes: un número de altavoces conectador al sistema informático remoto, capacidad de procesamiento de mejora de audio psicoacústica del sistema informático remoto, y software instalado en el sistema informático remoto, y

un módulo de trasmisión de audio configurado para trasmitir el flujo de audio al sistema informático remoto sobre la red.

2. El sistema de la reivindicación 1, en donde el monitor de recursos de red monitoriza el ancho de banda de red disponible.

3. El sistema de la reivindicación 2, en donde el codificador orientado a objetos está configurado además para seleccionar relativamente más objetos de audio a eliminar del flujo de audio cuando el ancho de banda de red disponible es relativamente más bajo y para seleccionar relativamente menos objetos de audio a eliminar del flujo de audio cuando el ancho de banda de red disponible es relativamente más alto.

4. El sistema de la reivindicación 1, en donde el codificador orientado a objetos está configurado además para seleccionar el umbral de prioridad en base por lo menos en parte a la información sobre los recursos de red disponibles.

5. El sistema de la reivindicación 1, en donde el codificador orientado a objetos está configurado además para asignar un valor de prioridad más alto a un objeto de audio de diálogo de la pluralidad de objetos de audio que un valor de prioridad de un objeto no de diálogo de la pluralidad de objetos de audio.

6. El sistema de la reivindicación 5, en donde el codificador orientado a objetos está configurado además para aumentar el valor de prioridad del objeto de audio no de diálogo durante un periodo de tiempo temporal en el que el objeto de audio de diálogo no está presente en el flujo de audio.

7. El sistema de la reivindicación 1, en donde el módulo de trasmisión de audio está configurado además para trasmitir el flujo de audio trasmitiendo por secuencias por lo menos el uno o más objetos de audio en un único flujo al sistema informático remoto.

8. Un método para adaptar renderizado de un flujo de audio orientado a objetos, el método comprendiendo:

acceder, con un sistema informático, a información del entorno referente a un entorno de reproducción asociado con el sistema informático, en donde la información del entorno comprende información referente a uno o más de los siguientes: un número de altavoces conectados al sistema informático, capacidad de procesamiento de mejora de audio psicoacústica del sistema informático remoto, y software instalado en el sistema informático remoto;

enviar, con el sistema informático, la información del entorno a un servidor remoto;

recibir, con el sistema informático, un flujo de audio desde un servidor remoto sobre una red, el flujo de audio comprendiendo una pluralidad de objetos de audio;

seleccionar, con el sistema informático, uno o más de la pluralidad de objetos de audio en base por lo menos en parte a la información del entorno;

renderizar, por el sistema informático, el uno o más objetos de audio seleccionados para producir un audio de salida; y

suministrar, por el sistema informático, el audio de salida al uno o más altavoces.

9. El método de la reivindicación 7, en donde dicha selección se realiza además en base por lo menos en parte a la información de prioridad asociada con cada uno de la pluralidad de objetos de audio.

10. El método de la reivindicación 7, en donde dicho renderizado comprende aplicar una mejora psicoacústica al uno o más objetos de audio en respuesta a determinar un número de altavoces en el entorno de reproducción.