ES2793958T3 - Sistema para trasmitir adaptativamente objetos de audio - Google Patents
Sistema para trasmitir adaptativamente objetos de audio Download PDFInfo
- Publication number
- ES2793958T3 ES2793958T3 ES10808848T ES10808848T ES2793958T3 ES 2793958 T3 ES2793958 T3 ES 2793958T3 ES 10808848 T ES10808848 T ES 10808848T ES 10808848 T ES10808848 T ES 10808848T ES 2793958 T3 ES2793958 T3 ES 2793958T3
- Authority
- ES
- Spain
- Prior art keywords
- audio
- objects
- computer system
- stream
- priority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers
- H04R3/12—Circuits for transducers for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Transfer Between Computers (AREA)
- Communication Control (AREA)
Abstract
Un sistema para adaptar la trasmisión de un flujo de audio orientado a objetos, el sistema comprendiendo: un monitor de recursos de red configurado para recibir una solicitud de contenido de audio sobre una red desde un sistema informático remoto y para acceder a la información de recursos de red sobre los recursos disponibles de la red; un codificador orientado a objetos implementado por uno o más procesadores, el codificador orientado a objetos configurado para: seleccionar uno o más de una pluralidad de objetos de audio a eliminar de un flujo de audio en base a por lo menos en parte los recursos de red disponibles y a la información de prioridad correspondiente a la pluralidad de objetos de audio, en donde la información de prioridad comprende un valor de prioridad para cada uno de la pluralidad de objetos de audio; seleccionar uno o más de la pluralidad de objetos de audio seleccionando por lo menos de la pluralidad de objetos de audio el uno o más objetos de audio cuyo valor de prioridad satisface un umbral de prioridad; y ajustar dinámicamente el umbral de prioridad en base por lo menos en parte a la información del entorno recibida del sistema informático remoto, en donde la información del entorno comprende información referente a uno o más de los siguientes: un número de altavoces conectador al sistema informático remoto, capacidad de procesamiento de mejora de audio psicoacústica del sistema informático remoto, y software instalado en el sistema informático remoto, y un módulo de trasmisión de audio configurado para trasmitir el flujo de audio al sistema informático remoto sobre la red.
Description
DESCRIPCIÓN
Sistema para trasmitir adaptativamente objetos de audio
ANTECEDENTES
Los sistemas de distribución de audio existentes, como el sonido estéreo y el sonido envolvente, se basan en un paradigma inflexible que implementa un número fijo de canales desde el punto de producción hasta el entorno de reproducción. A lo largo de toda la cadena de audio, tradicionalmente ha habido una correspondencia uno a uno entre el número de canales creados y el número de canales trasmitidos o grabados físicamente. En algunos casos, el número de canales disponibles se reduce a través de un proceso conocido como remezcla para acomodar configuraciones de reproducción con menos canales de reproducción que el número proporcionado en el flujo de trasmisión. Los ejemplos comunes de remezcla son la mezcla de estéreo a mono para la reproducción en un único altavoz y la mezcla de sonido envolvente multicanal a estéreo para la reproducción por dos altavoces.
Los sistemas de distribución de audio tampoco son adecuados para aplicaciones de video 3D ya que son incapaces de reproducir el sonido con precisión en un espacio tridimensional. Estos sistemas están limitados por el número y la posición de los altavoces y por el hecho de que los principios psicoacústicos generalmente se ignoran. Como resultado, incluso los sistemas de sonido más elaborados crean simplemente una simulación aproximada de un espacio acústico, que no se aproxima a una verdadera presentación 3D o multidimensional.
El documento EP 1650973A1 divulga la trasmisión por secuencias de contenido multimedia asignando prioridades de red a paquetes de datos y bajando paquetes de datos de menor prioridad de acuerdo con los recursos de red.
SUMARIO
Se describen sistemas y métodos para proporcionar audio orientado a objetos. Los objetos de audio se crean asociando fuentes de sonido con atributos de esas fuentes de sonido, como localización, velocidad, directividad y similares. En una realización, los objetos de audio pueden usarse en lugar o además de canales para distribuir sonido, por ejemplo, trasmitiendo por secuencias los objetos de audio a través de una red a un dispositivo cliente. Los objetos pueden definir sus localizaciones en el espacio con coordenadas de dos o tres dimensiones asociadas. Los objetos se trasmiten por secuencias adaptativamente al dispositivo cliente en base a la red disponible o los recursos del dispositivo cliente. Un renderizador en el dispositivo cliente puede usar los atributos de los objetos para determinar cómo renderizar los objetos. El renderizador puede adaptar adicionalmente la reproducción de los objetos en base a la información sobre un entorno de renderizado del dispositivo cliente. También se describen varios ejemplos de técnicas de creación de objetos de audio.
En ciertas realizaciones, se describe un método para adaptar la trasmisión de un flujo de audio orientado a objetos de acuerdo con la reivindicación 8.
En ciertas realizaciones, se describe un método para adaptar la trasmisión de un flujo de audio orientado a objetos de acuerdo con la reivindicación 1.
Con el propósito de resumir la divulgación, se han descrito en la presente ciertos aspectos, ventajas y características novedosas de las invenciones. Debe entenderse que no necesariamente todas estas ventajas pueden lograrse de acuerdo con cualquier realización particular de las invenciones divulgadas en la presente. Por lo tanto, las invenciones divulgadas en la presente pueden realizarse o llevarse a cabo de una manera que logre u optimice una ventaja o grupo de ventajas como se enseña en la presente sin lograr necesariamente otras ventajas como se puede enseñar o sugerir en la presente.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
A lo largo de los dibujos, los números de referencia se reutilizan para indicar la correspondencia entre los elementos referenciados. Los dibujos se proporcionan para ilustrar realizaciones de las invenciones descritas en la presente y no para limitar el alcance de las mismas.
Las FIGURAS 1A y 1 B ilustran realizaciones de sistemas de audio orientados a objetos;
La FIGURA 2 ilustra otra realización de un sistema de audio orientado a objetos;
La FIGURA 3 ilustra una realización de un módulo de trasmisión por secuencias para su uso en cualquiera de los sistemas de audio orientados a objetos descritos en la presente;
La FIGURA 4 ilustra una realización de un formato de trasmisión por secuencias de audio orientado a objetos; La FIGURA 5A ilustra una realización de un proceso de montaje de flujo de audio;
La FIGURA 5B ilustra una realización de un proceso de renderizado de flujo de audio;
La FIGURA 6 ilustra una realización de un sistema de trasmisión por secuencias de objetos de audio
adaptativo;
La FIGURA 7 ilustra una realización de un proceso de trasmisión por secuencias de objetos de audio adaptativo;
La FIGURA 8 ilustra una realización de un proceso de renderizado de objetos de audio adaptativo;
La FIGURA 9 ilustra una escena de ejemplo para captura de audio orientada a objetos;
La FIGURA 10 ilustra una realización de un sistema para captura de audio orientada a objetos; y
La FIGURA 11 ilustra una realización de un proceso para la captura de audio orientada a objetos.
DESCRIPCIÓN DETALLADA
I. Introducción
Además de los problemas con los sistemas existentes descritos anteriormente, los sistemas de distribución de audio no tienen en cuenta adecuadamente el entorno de reproducción del oyente. En cambio, los sistemas de audio están diseñados para suministrar el número especificado de canales al entorno de escucha final sin ninguna compensación por el entorno, las preferencias del oyente, o la implementación de principios psicoacústicos. Estas funciones y capacidades se dejan tradicionalmente al integrador del sistema.
Esta divulgación describe sistemas y métodos para trasmitir por secuencias audio orientado a objetos que abordan por lo menos algunos de estos problemas. En ciertas realizaciones, los objetos de audio se crean asociando fuentes de sonido con atributos de esas fuentes de sonido como localización, velocidad, directividad y similares. Los objetos de audio pueden usarse en lugar o además de canales para distribuir sonido, por ejemplo, trasmitiendo por secuencias los objetos de audio a través de una red a un dispositivo cliente. En ciertas realizaciones, estos objetos no están relacionados con canales o posiciones rotadas entre canales, sino que definen sus localizaciones en el espacio con coordenadas de dos o tres dimensiones asociadas. Un renderizador en el dispositivo cliente puede usar los atributos de los objetos para determinar cómo renderizar los objetos.
El renderizador también puede tener en cuenta del entorno del renderizador en ciertas realizaciones adaptando el renderizado y/o la trasmisión por secuencias en función de los recursos de cálculo disponibles. De manera similar, la trasmisión por secuencias de los objetos de audio puede adaptarse en base a las condiciones de red, como el ancho de banda disponible. También se describen varios ejemplos de técnicas de creación de objetos de audio. Ventajosamente, los sistemas y métodos descritos en la presente pueden reducir o superar los inconvenientes asociados con el modelo de distribución de canales de audio rígido.
A modo de visión general, las FIGURAS 1A y 1B introducen realizaciones de sistemas de audio orientados a objetos. Las Figuras posteriores describen técnicas que pueden implementarse mediante estos sistemas de audio orientados a objetos. Por ejemplo, las FIGURAS 2 a 5B describen varias técnicas de ejemplo para trasmitir por secuencias audio orientado a objetos. Las FIGURAS 6 a 8 describen técnicas ejemplares para trasmitir por secuencias y renderizar adaptativamente audio orientado a objetos en base al entorno y las condiciones de la red. Las FIGURAS 9 a 11 describen técnicas de creación de objetos de audio ejemplares.
Como se usa en la presente, el término "trasmisión por secuencias" y sus derivados, además de tener su significado ordinario, puede significar la distribución de contenido de un sistema informático (como un servidor) a otro sistema informático (como un cliente). El término "trasmisión por secuencias" y sus derivados también pueden referirse a la distribución de contenido a través de redes entre pares usando cualquiera de una variedad de protocolos, incluyendo BitTorrent y protocolos relacionados.
II. Visión general de sistema de audio orientado a objetos
Las FIGURAS 1A y 1B ilustran realizaciones de los sistemas de audio orientados a objetos 100A, 100B. Los sistemas de audio orientados a objetos 100A, 100B pueden implementarse en hardware y/o software informático. Ventajosamente, en ciertas realizaciones, los sistemas de audio orientados a objetos 100A, 100B pueden permitir a los creadores de contenido crear objetos de audio, trasmitir por secuencias tales objetos, y renderizar los objetos sin estar vinculados al modelo de canal fijo.
Refiriéndose específicamente a la FIGURA 1A, el sistema de audio orientado a objetos 100A incluye un sistema de creación de objetos de audio 110A, un módulo de trasmisión por secuencias 122A implementado en un servidor de contenido 120A y un renderizador 142A implementado en un sistema de usuario 140. El sistema de creación de objetos de audio 110A puede proporcionar funcionalidad a los usuarios para crear y modificar objetos de audio. El módulo de trasmisión por secuencias 122A, que se muestra instalado en un servidor de contenido 120A, puede usarse para trasmitir por secuencias objetos de audio a un sistema de usuario 140 a través de una red 130. La red 130 puede incluir una LAN, una WAN, Internet o combinaciones de las mismas. El renderizador 142A en el sistema de usuario 140 puede renderizar los objetos de audio para su salida a uno o más altavoces.
En la realización representada, el sistema de creación de objetos de audio 110A incluye un módulo de
creación de objetos 114 y un codificador orientado a objetos 112A. El módulo de creación de objetos 114 puede proporcionar funcionalidad para crear objetos, por ejemplo, asociando los datos de audio con atributos de los datos de audio. Puede usarse cualquier tipo de audio para generar un objeto de audio. Algunos ejemplos de audio que pueden generarse en objetos y trasmitirse por secuencias pueden incluir audio asociado con películas, televisión, tráileres de películas, música, videos musicales, otros videos en línea, videojuegos y similares.
Inicialmente, los datos de audio pueden grabarse u obtener sede otro modo. El módulo de creación de objetos 114 puede proporcionar una interfaz de usuario que permite a un usuario acceder, editar o manipular de otra manera los datos de audio. Los datos de audio pueden representar una fuente de sonido o una colección de fuentes de sonido. Algunos ejemplos de fuentes de sonido incluyen diálogos, música de fondo y sonidos generados por cualquier objeto (como un automóvil, un avión o cualquier accesorio). Más generalmente, una fuente de sonido puede ser cualquier clip de audio.
Las fuentes de sonido pueden tener uno o más atributos que el módulo de creación de objetos 114 puede asociar con los datos de audio para crear un objeto. Los ejemplos de atributos incluyen una localización de la fuente de sonido, una velocidad de una fuente de sonido, directividad de una fuente de sonido y similares. Algunos atributos pueden obtenerse directamente de los datos de audio, como un atributo de tiempo que refleja un momento de cuando se grabaron los datos de audio. El usuario puede proporcionar otros atributos al módulo de creación de objetos 114, como el tipo de fuente de sonido que generó el audio (por ejemplo, un automóvil frente a un actor). Otros atributos pueden ser importados automáticamente por el módulo de creación de objetos 114 desde otros dispositivos. Como un ejemplo, la localización de una fuente de sonido puede recuperarse de un dispositivo de Sistema de Posicionamiento Global (GPS) o similar e importarse al módulo de creación de objetos 114. A continuación se describen con mayor detalle ejemplos adicionales de atributos y técnicas para identificar atributos. El módulo de creación de objetos 114 puede almacenar los objetos de audio en un depósito de datos de objetos 116, que puede incluir una base de datos u otro almacenamiento de datos.
El codificador orientado a objetos 112A puede codificar uno o más objetos de audio en un flujo de audio adecuado para la trasmisión a través de una red. En una realización, el codificador orientado a objetos 112A codifica los objetos de audio como audio PCM (código de pulso modulado) sin comprimir junto con los metadatos de atributo asociados. En otra realización, el codificador orientado a objetos 112A también aplica compresión a los objetos cuando se crea el flujo.
Ventajosamente, en ciertas realizaciones, el flujo de audio generado por el codificador orientado a objetos puede incluir por lo menos un objeto representado por un encabezado de metadatos y una carga útil de audio. El flujo de audio puede estar compuesto de marcos, que pueden incluir cada uno encabezados de metadatos de objetos y cargas de audio. Algunos objetos pueden incluir solo metadatos y ninguna carga de audio. Otros objetos pueden incluir una carga de audio pero pocos o ningún metadato. Ejemplos de tales objetos se describen en detalle a continuación.
El sistema de creación de objetos de audio 110A puede suministrar los objetos de audio codificados al servidor de contenido 120A a través de una red (no mostrada). El servidor de contenido 120A puede alojar los objetos de audio codificados para su posterior trasmisión. El servidor de contenido 120A puede incluir una o más máquinas, como dispositivos de cálculo físicos. El servidor de contenido 120A puede ser accesible para los sistemas de usuario a través de la red 130. Por ejemplo, el servidor de contenido 120A puede ser un servidor web, un nodo de borde en una red de distribución de contenidos (CDN) o similar.
El sistema de usuario 140 puede acceder al servidor de contenido 120A para solicitar contenido de audio. En respuesta a la recepción de dicha solicitud, el servidor de contenido 120A puede trasmitir por secuencias, cargar o trasmitir de otra manera el contenido de audio al sistema de usuario 140. Cualquier forma de dispositivo informático puede acceder al contenido de audio. Por ejemplo, el sistema de usuario 140 puede ser un ordenador de escritorio, un ordenador portátil, una tableta, un asistente digital personal (PDA), un televisor, un dispositivo inalámbrico de mano (como un teléfono) o similar.
El renderizador 142A en el sistema de usuario 140 puede decodificar los objetos de audio codificados y renderizar los objetos de audio para su salida a uno o más altavoces. El renderizador 142A puede incluir una variedad de características de renderización, mejoras de audio, mejoras psicoacústicas y similares diferentes para renderizar los objetos de audio. El renderizador 142A puede usar los atributos de objeto de los objetos de audio como pistas sobre cómo renderizar los objetos de audio.
Con referencia a la FIGURA 1B, el sistema de audio orientado a objetos 100B incluye muchas de las características del sistema 100A, como un sistema de creación de objetos de audio 110B, un servidor de contenido 120B y un sistema de usuario 140. La funcionalidad de los componentes mostrados puede ser la misma que la descrita anteriormente, con ciertas diferencias indicadas en la presente. Por ejemplo, en la realización representada, el servidor de contenido 120B incluye un módulo de trasmisión por secuencias adaptativo 122B que puede adaptar dinámicamente la cantidad de datos de objeto trasmitidos por secuencias al sistema de usuario 140. De igual
manera, el sistema de usuario 140 incluye un renderizador adaptativo 142B que puede adaptar la trasmisión por secuencias de audio y/o la forma en que los objetos son renderizados por el sistema de usuario 140.
Como puede verse en la FIGURA 1B, el codificador orientado a objetos 112B se ha movido desde el sistema de creación de objetos de audio 110B al servidor de contenido 120B. En la realización representada, el sistema de creación de objetos de audio 110B carga objetos de audio en lugar de flujos de audio al servidor de contenido 120B. Un módulo de trasmisión por secuencias adaptable 122B en el servidor de contenido 120B incluye el codificador orientado a objetos 112B. Por lo tanto, la codificación de objetos de audio se realiza en el servidor de contenido 120B en la realización representada. Alternativamente, el sistema de creación de objetos de audio 110B puede trasmitir por secuencias objetos codificados al módulo de trasmisión por secuencias adaptativo 122B, que decodifica los objetos de audio para su manipulación adicional y posterior codificación.
Al codificar objetos en el servidor de contenido 120B, el módulo de trasmisión por secuencias adaptativo 122B puede adaptar dinámicamente la manera en la que se codifican los objetos antes de la trasmisión por secuencias. El módulo de trasmisión por secuencias adaptativo 122B puede monitorizar los recursos disponibles de la red 130, como el ancho de banda de la red, la latencia, y demás. En base a los recursos de red disponibles, el módulo de trasmisión por secuencias adaptativo 122B puede codificar más o menos objetos de audio en la trasmisión por secuencias de audio. Por ejemplo, a medida que hay más recursos de red disponibles, el módulo de trasmisión por secuencias adaptativo 122B puede codificar relativamente más objetos de audio en la secuencia de audio, y viceversa.
El módulo de trasmisión por secuencias adaptativo 122B también puede ajustar los tipos de objetos codificados en el flujo de audio, en lugar de (o además de) el número. Por ejemplo, el módulo de trasmisión por secuencias adaptativo 122B puede codificar objetos de mayor prioridad (como el diálogo) pero no objetos de menor prioridad (como ciertos sonidos de fondo) cuando los recursos de la red están limitados. El concepto de adaptar la trasmisión por secuencias en base a la prioridad del objeto se describe con mayor detalle a continuación.
El renderizador adaptativo 142B también puede afectar a cómo se trasmiten por secuencias los objetos de audio al sistema de usuario 140. Por ejemplo, el renderizador adaptativo 142B puede comunicarse con el módulo de trasmisión por secuencias adaptativo 122B para controlar la cantidad y/o el tipo de objetos de audio trasmitidos por secuencias al sistema de usuario 140. El renderizador adaptativo 142B también puede ajustar la forma en la que se renderizan los flujos de audio en función del entorno de reproducción. Por ejemplo, una sala de cine grande puede especificar la localización y las capacidades de muchas decenas o cientos de amplificadores y altavoces, mientras que un televisor autónomo puede especificar que solo hay disponibles dos canales de amplificador y altavoces. En base a esta información, los sistemas 100A, 100B pueden optimizar la presentación del campo acústico. Pueden aplicarse muchos tipos diferentes de características de renderización en los sistemas 100A, 100B dependiendo de los recursos y el entorno de reproducción, ya que la trasmisión por secuencias de audio entrante puede ser descriptiva y no depender de las características físicas del entorno de reproducción. Estas y otras características del renderizador adaptativo 142B se describen con mayor detalle a continuación.
En algunas realizaciones, las características adaptativas descritas en la presente pueden implementarse incluso si un codificador orientado a objetos (como el codificador 112A) envía un flujo codificado al módulo de trasmisión por secuencias adaptativo 122B. En lugar de ensamblar un nuevo flujo de audio sobre la marcha, el módulo de trasmisión por secuencias adaptativo 122B puede eliminar objetos o filtrar de otro modo el flujo de audio cuando los recursos informáticos o los recursos de red estén menos disponibles. Por ejemplo, el módulo de trasmisión por secuencias adaptativo 122B puede eliminar paquetes del flujo correspondiente a objetos que son relativamente menos importantes de renderizar. Las técnicas para asignar importancia a los objetos para la trasmisión por secuencias y/o renderizado se describen con mayor detalle a continuación.
Como puede verse en las realizaciones anteriores, los sistemas divulgados 100A, 100B para distribución y reproducción de audio pueden abarcar toda la cadena desde la producción inicial de contenido de audio hasta el sistema perceptual del oyente(s). Los sistemas 100A, 100B pueden ser escalables y adaptables a cambios futuros ya que las mejoras conceptuales en la trasmisión/almacenamiento o el sistema de renderizado multidimensional pueden incorporarse fácilmente. Los sistemas 100A, 100B también pueden escalarse fácilmente desde presentaciones basadas en cine de gran formato hasta configuraciones de cine en casa y sistemas de audio de TV independientes.
Al contrario que con los sistemas basados en canales físicos existentes, los sistemas 100A, 100B pueden abstraer la producción de contenido de audio a una serie de objetos de audio que proporcionan información sobre la estructura de una escena, así como componentes individuales dentro de una escena. La información asociada con cada objeto puede ser usada por los sistemas 100A, 100B para crear la representación más precisa de la información proporcionada, dados los recursos disponibles. Estos recursos pueden especificarse como una entrada adicional a los sistemas 100A, 100B.
Además de usar altavoces y amplificadores físicos, los sistemas 100A, 100B también pueden incorporar
procesamiento psicoacústico para mejorar la inmersión del oyente en el entorno acústico, así como para implementar el posicionamiento de objetos 3D que se corresponden con precisión con su posición en el campo visual. Este procesamiento también se puede definir para los sistemas 100A, 100B (por ejemplo, para el renderizador 142) como un recurso disponible para mejorar u optimizar de otro modo la presentación de la información del objeto de audio contenida en el flujo de trasmisión.
El flujo está diseñado para ser extensible de tal manera que se pueda añadir información adicional en cualquier momento. El renderizador 142A, 142B podría ser genérico o diseñado para soportar un entorno particular y una combinación de recursos. Las mejoras futuras y los nuevos conceptos en la reproducción de audio podrían incorporarse a voluntad y la misma información descriptiva contenida en el flujo de trasmisión/almacenamiento utilizarse con una renderización potencialmente más precisa. El sistema 100A, 100B se abstrae al nivel que cualquier mejora física o conceptual futura pueda incorporarse fácilmente en cualquier punto dentro del sistema 100A, 100B mientras se mantiene la compatibilidad con el contenido anterior y los sistemas de renderizado. A diferencia de los sistemas actuales, los sistemas 100A, 100B son flexibles y adaptables.
Para facilitar la ilustración, esta especificación describe principalmente técnicas de audio orientadas a objetos en el contexto de transmisión por secuencias de audio a través de una red. Sin embargo, las técnicas de audio orientadas a objetos también pueden implementarse en entornos que no sean de red. Por ejemplo, un flujo de audio orientado a objetos puede almacenarse en un medio de almacenamiento legible por ordenador, como un disco DVD, disco Blue-ray o similar. Un reproductor multimedia (como un reproductor de Blue-ray) puede reproducir el flujo de audio orientado a objetos almacenado en el disco. Un paquete de audio orientado a objetos también puede descargarse al almacenamiento local en un sistema de usuario y luego reproducirse desde el almacenamiento local. Son posibles muchas otras variaciones.
Debe apreciarse que la funcionalidad de ciertos componentes descritos con respecto a las FIGURAS 1A y 1B puede combinarse, modificarse u omitirse. Por ejemplo, en una implementación, el sistema de creación de objetos de audio 110 puede implementarse en el servidor de contenido 120. Los flujos de audio podrían trasmitirse por secuencias directamente desde el sistema de creación de objetos de audio 110 al sistema de usuario 140. Son posibles muchas otras configuraciones.
III. Realizaciones de trasmisión por secuencias de objetos de audio
Se describirán ahora realizaciones más detalladas de flujos de objetos de audio con respecto a las FIGURAS 2 a 5B. Con referencia a la FIGURA 2, se muestra otra realización de un sistema de audio orientado a objetos 200. El sistema 200 puede implementar cualquiera de las características de los sistemas 100A, 100B descritos anteriormente. El sistema 200 puede generar un flujo de audio orientado a objetos que puede decodificarse, renderizarse y emitirse por uno o más altavoces.
En el sistema 200, los objetos de audio 202 se proporcionan a un codificador orientado a objetos 212. El codificador orientado a objetos 212 puede implementarse mediante un sistema de creación de contenido de audio o un módulo de trasmisión por secuencias en un servidor de contenido, como se ha descrito anteriormente. El codificador orientado a objetos 212 puede codificar y/o comprimir los objetos de audio en un flujo de bits 214. El codificador orientado a objetos 212 puede usar cualquier técnica de codificación o compresión para codificar los objetos, incluyendo las técnicas de compresión basadas en cualquiera de los estándares del Moving Picture Experts Groups (MPEG) (por ejemplo, para crear archivos MP3).
En ciertas realizaciones, el codificador orientado a objetos 212 crea un único flujo de bits 214 que tiene encabezados de metadatos y cargas de audio para diferentes objetos de audio. El codificador orientado a objetos 212 puede trasmitir el flujo de bits 214 a través de una red (ver, por ejemplo, la FIGURA 1B). Un decodificador 220 implementado en un sistema de usuario puede recibir el flujo de bits 214. El decodificador 220 puede decodificar el flujo de bits 214 en sus objetos de audio constituyentes 202. El decodificador 220 proporciona los objetos de audio 202 a un renderizador 242. En algunas realizaciones, el renderizador 242 puede implementar directamente la funcionalidad del decodificador 220.
El renderizador 242 puede renderizar los objetos de audio en señales de audio 244 adecuadas para la reproducción en uno o más altavoces 250. Como se ha descrito anteriormente, el renderizador 142A puede usar los atributos de objeto de los objetos de audio como pistas sobre cómo renderizar los objetos de audio. Ventajosamente, en ciertas realizaciones, como los objetos de audio incluyen tales atributos, puede cambiarse la funcionalidad del renderizador 142A sin cambiar el formato de los objetos de audio. Por ejemplo, un tipo de renderizador 142A podría usar un atributo de posición de un objeto de audio para desplazar el audio de un altavoz a otro. Un segundo renderizador 142A podría usar el mismo atributo de posición para realizar un filtrado psicoacústico 3D al objeto de audio en respuesta a la determinación de que una mejora psicoacústica está disponible para el renderizador 142A. En general, el renderizador 142A puede tener en cuenta algunos o todos los recursos disponibles para crear la mejor presentación posible. A medida que mejora la tecnología de renderización, pueden añadirse renderizaciones 142A o recursos de renderización adicionales al sistema de usuario 140 que aprovechan el formato preexistente de los
objetos de audio.
Como se ha descrito anteriormente, el codificador orientado a objetos 212 y/o el renderizador 242 también pueden tener características adaptativas.
La FIGURA 3 ilustra una realización de un módulo de trasmisión por secuencias 322 para su uso con cualquiera de los sistemas de audio orientados a objetos descritos en la presente. El módulo de trasmisión por secuencias 322 incluye un codificador orientado a objetos 312. El módulo de trasmisión por secuencias 322 y el codificador 312 pueden implementarse en hardware y/o software. La realización representada ilustra cómo pueden codificarse diferentes tipos de objetos de audio en un único flujo de bits 314.
El módulo de trasmisión por secuencias 322 de ejemplo mostrado recibe dos tipos diferentes de objetosobjetos estáticos 302 y objetos dinámicos 304. Los objetos estáticos 302 pueden representar canales de audio, como sonido envolvente de 5.1 canales. Cada canal puede representarse como un objeto estático 302. Algunos creadores de contenido pueden desear usar canales en lugar de o además de la funcionalidad basada en objetos de los sistemas 100A, 100B. Los objetos estáticos 302 proporcionan una manera para que estos creadores de contenido usen canales, facilitando la compatibilidad hacia atrás con los sistemas de canales fijos existentes y promoviendo la facilidad de adopción.
Los objetos dinámicos 304 pueden incluir cualquier objeto que pueda usarse en lugar de o además de los objetos estáticos 302. Los objetos dinámicos 304 pueden incluir mejoras que, cuando se renderizan junto con objetos estáticos 302, mejoran el audio asociado con los objetos estáticos 302. Por ejemplo, los objetos dinámicos 304 pueden incluir información psicoacústica que un renderizador puede usar para mejorar los objetos estáticos 302. Los objetos dinámicos 304 también pueden incluir objetos de fondo (como un avión que pasa) que un renderizador puede usar para mejorar una escena de audio. Sin embargo, los objetos dinámicos 304 no necesitan ser objetos de fondo. Los objetos dinámicos 304 pueden incluir diálogo o cualquier otro dato de audio.
Los metadatos asociados con los objetos estáticos 302 pueden ser pequeños o inexistentes. En una realización, estos metadatos simplemente incluyen el atributo de objeto de "canal", que indica a qué canal corresponden los objetos estáticos 302. Como estos metadatos no cambian en algunas implementaciones, los objetos estáticos 302 son, por lo tanto, estáticos en sus atributos de objeto. Por el contrario, los objetos dinámicos 304 pueden incluir atributos del objeto cambiantes, como cambio de posición, velocidad, y demás. Por lo tanto, los metadatos asociados con estos objetos 304 pueden ser dinámicos. Sin embargo, en algunas circunstancias, los metadatos asociados con los objetos estáticos 302 pueden cambiar con el tiempo, mientras que los metadatos asociados con los objetos dinámicos 304 pueden permanecer iguales.
Además, como se ha mencionado anteriormente, algunos objetos dinámicos 304 pueden contener poca o ninguna carga útil de audio. Los objetos de entorno 304, por ejemplo, pueden especificar las características deseadas del entorno acústico en el que tiene lugar una escena. Estos objetos dinámicos 304 pueden incluir información sobre el tipo de edificio o área al aire libre donde se produce la escena de audio, como una habitación, oficina, catedral, estadio o similares. Un renderizador puede usar esta información para ajustar la reproducción del audio en los objetos estáticos 302, por ejemplo, aplicando una cantidad apropiada de reverberación o retardo correspondiente al entorno indicado. Los objetos dinámicos ambientales 304 también pueden incluir una carga útil de audio en algunas implementaciones. Algunos ejemplos de objetos del entorno se describen a continuación con respecto a la FIGURA 4.
Otro tipo de objeto que puede incluir metadatos pero poca o ninguna carga útil es un objeto de definición de audio. En una realización, un sistema de usuario puede incluir una biblioteca de clips de audio o sonidos que el renderizador puede renderizar tras recibir los objetos de definición de audio. Un objeto de definición de audio puede incluir una referencia a un clip de audio o sonido almacenado en el sistema del usuario, junto con instrucciones sobre cuánto tiempo reproducir el clip, si poner en bucle el clip, y demás. Un flujo de audio puede construirse parcialmente o incluso únicamente a partir de objetos de definición de audio, con algunos o todos los datos de audio reales siendo almacenados en el sistema del usuario (o accesibles desde otro servidor). En otra realización, el módulo de trasmisión por secuencias 322 puede enviar una pluralidad de objetos de definición de audio a un sistema de usuario, seguido de una pluralidad de objetos de carga útil de audio, separando los metadatos y el audio real. Son posibles muchas otras configuraciones.
Los creadores de contenido pueden declarar objetos estáticos 302 u objetos dinámicos 304 usando un lenguaje informático descriptivo (usando, por ejemplo, el sistema de creación de objetos de audio 110). Cuando se crea contenido de audio para trasmitirlo por secuencias posteriormente, un creador de contenido puede declarar un número deseado de objetos estáticos 302. Por ejemplo, un creador de contenido puede solicitar que un objeto estático de diálogo 302 (por ejemplo, correspondiente a un canal central) o cualquier otro número de los objetos estáticos 302 estén siempre encendidos. Esta propiedad "siempre activa" también puede hacer que los objetos estáticos 302 sean estáticos. Por el contrario, los objetos dinámicos 304 pueden ir y venir y no siempre estar presentes en el flujo de audio. Por supuesto, estas características pueden invertirse. Puede ser deseable cerrar o
alternar de otro modo objetos estáticos 302, por ejemplo. Cuando el diálogo no está presente en un objeto estático dado 302, por ejemplo, no incluir ese objeto estático 302 en el flujo de audio puede ahorrar recursos de computación y de red.
La FIGURA 4 ilustra una realización de un formato de trasmisión por secuencias de audio orientado a objetos 400. El formato de trasmisión por secuencias de audio incluye un flujo de bits 414, que puede corresponder a cualquiera de los flujos de bits descritos anteriormente. El formato 400 del flujo de bits 414 se descompone en vistas sucesivamente más detalladas (420, 430). El formato de flujo de bits 400 mostrado es simplemente una realización de ejemplo y puede variar dependiendo de la implementación.
En la realización representada, el flujo de bits 414 incluye un encabezado de flujo 412 y cuadros macro 420. El encabezado de flujo 412 puede producirse al principio o al final del flujo de bits 414. Algunos ejemplos de información que pueden incluirse en el encabezado del flujo 412 incluyen un autor del flujo, un origen del flujo, información de copyright, un sello temporal relacionado con la creación y/o entrega del flujo, la longitud del flujo, información referente a qué códec se usó para codificar el flujo, y similares. El encabezado de flujo 412 puede ser utilizado por un decodificador y/o renderizador para decodificar apropiadamente el flujo 414.
Los cuadros macro 420 dividen el flujo de bits 414 en secciones de datos. Cada cuadro macro 420 puede corresponder a una escena de audio o un segmento de tiempo de audio. Cada cuadro macro 420 incluye además un encabezado de cuadro macro 422 y cuadros individuales 430. El encabezado de cuadro macro 422 puede definir una cantidad de objetos de audio incluidos en el cuadro macro, un sello temporal correspondiente al cuadro macro 420, y así sucesivamente. En algunas implementaciones, el encabezado de cuadro macro 422 puede colocarse después de los cuadros 430 en el cuadro macro 420. Los cuadros individuales 430 pueden representar cada uno un solo objeto de audio. Sin embargo, los cuadros 430 también pueden representar múltiples objetos de audio en algunas implementaciones. En una realización, un renderizador recibe un cuadro macro 420 completo antes de renderizar los objetos de audio asociados con el cuadro macro 420.
Cada cuadro 430 incluye un encabezado de cuadro 432 que contiene metadatos de objeto y una carga útil de audio 434. En algunas implementaciones, el encabezado de cuadro 432 puede colocarse después de la carga útil de audio 434. Sin embargo, como se ha tratado anteriormente, algunos objetos de audio pueden tener solo metadatos 432 o solo una carga útil de audio 434. Por tanto, algunos cuadros 432 pueden incluir un encabezado de cuadro 432 con pocos o ningún metadato de objeto (o ningún encabezado), y algunos cuadros 432 pueden incluir poca o ninguna carga útil de audio 434.
Los metadatos del objeto en el encabezado del marco 432 pueden incluir información sobre los atributos del objeto. Las siguientes tablas ilustran ejemplos de metadatos que pueden usarse para definir atributos de objeto. En particular, la Tabla 1 ilustra varios atributos de objeto, organizados por un nombre de atributo y una descripción de atributo. En algunos diseños pueden implementarse menos o más atributos que los mostrados.
-
continuación
continuación
Los valores de ejemplo para OBSTRUCT_PRESET (preestablecimiento de obstrucción) enumerados en la Tabla 1 se muestran a continuación en la Tabla 2. El valor preestablecido de obstrucción puede afectar el grado en que una fuente de sonido está ocluida o bloqueada desde el punto de vista de la cámara o del oyente. Por lo tanto, por ejemplo, una fuente de sonido que emana de detrás de una puerta gruesa puede representarse de manera diferente que una fuente de sonido que emana de detrás de una cortina. Como se ha tratado anteriormente, un renderizador puede realizar cualquier técnica de renderización deseada (o ninguna) en base a los valores de estos y otros atributos de objeto.
T l 2- Pr r i n m l
Como el preajuste de obstrucción (a veces referido como oclusión), el REVERB_PRESET (preajuste de reverberación) puede incluir valores ejemplares como se muestra en la Tabla 3. Estos valores de reverberación corresponden a tipos de entornos en los que puede localizarse una fuente de sonido. Por lo tanto, una fuente de sonido que emana en un auditorio podría renderizarse de manera diferente a una fuente de sonido que emana en una sala de estar. En una realización, un objeto del entorno incluye un atributo de reverberación que incluye valores preestablecidos como los que se describen a continuación.
-
continuación
En algunas realizaciones, los objetos de entorno no se describen meramente usando los preajustes de reverberación descritos anteriormente. En cambio, los objetos del entorno pueden describirse con uno o más atributos, como una cantidad de reverberación (que no necesita ser un preajuste), una cantidad de eco, un grado de ruido de fondo, y demás. Son posibles muchas otras configuraciones. De manera similar, los atributos de los objetos de audio generalmente pueden tener formas distintas a los valores. Por ejemplo, un atributo puede contener un fragmento de código o instrucciones que definen un comportamiento o característica de una fuente de sonido.
La FIGURA 5A ilustra una realización de un proceso de ensamblaje de flujo de audio 500A. El proceso de ensamblaje de flujo de audio 500A puede implementarse mediante cualquiera de los sistemas descritos en la presente. Por ejemplo, el proceso de ensamblaje de flujo 500A puede implementarse mediante cualquiera de los codificadores orientados a objetos o módulos de trasmisión por secuencias descritos anteriormente. El proceso de ensamblaje de flujo 500A ensambla un flujo de audio de por lo menos un objeto de audio.
En el bloque 502, se selecciona un objeto de audio para trasmitir por secuencias. El objeto de audio puede haber sido creado mediante el módulo de creación de objetos de audio 110 descrito anteriormente. Como tal, seleccionar el objeto de audio puede incluir acceder al objeto de audio en el repositorio de datos del objeto 116. Alternativamente, el módulo de trasmisión por secuencias 122 puede acceder al objeto de audio desde el almacenamiento del ordenador. Para facilitar la ilustración, esta FIGURA de ejemplo describe la trasmisión por secuencias de un único objeto, pero debe entenderse que pueden trasmitirse por secuencias múltiples objetos en un flujo de audio. El objeto seleccionado puede ser un objeto estático o dinámico. En este ejemplo particular, el objeto seleccionado tiene metadatos y una carga útil de audio.
Un encabezado de objeto que tiene metadatos del objeto se ensambla en el bloque 504. Estos metadatos pueden incluir cualquier descripción de atributos del objeto, algunos ejemplos de los cuales se han descrito anteriormente. En el bloque 506, se proporciona una carga útil de audio que tiene los datos de señal de audio del objeto.
El encabezado del objeto y la carga útil de audio se combinan para formar el flujo de audio en el bloque 508. La formación del flujo de audio puede incluir codificar el flujo de audio, comprimir el flujo de audio y similares. En el bloque 510, el flujo de audio se trasmite a través de una red. Aunque el flujo de audio puede trasmitirse por secuencias usando cualquier técnica de trasmisión por secuencias, el flujo de audio también puede cargarse a un sistema de usuario (o viceversa, descargarse por el sistema de usuario). Posteriormente, el sistema de usuario
puede renderizar el flujo de audio, como se describe a continuación con respecto a la FIGURA 5B.
La FIGURA 5B ilustra una realización de un proceso de renderizado de flujo de audio 500B. El proceso de renderizado de flujo de audio 500B puede implementarse mediante cualquiera de los sistemas descritos en la presente. Por ejemplo, el proceso de renderización de flujo 500B puede implementarse mediante cualquiera de los renderizadores descritos en la presente.
En el bloque 522, se recibe un flujo de audio orientado a objetos. Este flujo de audio puede haberse creado usando las técnicas del proceso 500A o con otras técnicas descritas anteriormente. En el bloque 524 se accede a los metadatos del objeto en el flujo de audio. Estos metadatos pueden obtenerse decodificando el flujo usando, por ejemplo, el mismo códec usado para codificar el flujo.
En el bloque 526 se identifican uno o más atributos de objeto en los metadatos. Los valores de estos atributos de objeto pueden ser identificados por el renderizador como pistas para renderizar los objetos de audio en el flujo.
En el bloque 528 se renderiza una señal de audio en el flujo de audio. En la realización representada, el flujo de audio se renderiza de acuerdo con uno o más atributos de objeto para producir audio de salida. El audio de salida se suministra a uno o más altavoces en el bloque 530.
IV. T rasmisión por secuencias adaptativa y realizaciones de renderizado
Anteriormente se describieron un módulo de trasmisión por secuencias adaptativo 122B y un procesador adaptativo 142B con respecto a la FIGURA 1B. En el sistema 600 de la FIGURA 6 se muestran realizaciones más detalladas de un módulo de trasmisión por secuencias adaptativo 622 y un procesador adaptativo 642.
En la FIGURA 6, el módulo de transmisión por secuencias adaptativo 622 tiene varios componentes, que incluyen un módulo de prioridad 624, un monitor de recursos de red 626, un codificador orientado a objetos 612, y un módulo de comunicaciones de audio 628. El renderizador adaptativo 642 incluye un monitor de recursos informáticos 644 y un módulo de renderización 646. Algunos de los componentes mostrados pueden omitirse en diferentes implementaciones. El codificador orientado a objetos 612 puede incluir cualquiera de las características de codificación descritas anteriormente. El módulo de comunicaciones de audio 628 puede transmitir el flujo de bits 614 al renderizador adaptativo 642 a través de una red (no mostrado).
El módulo de prioridad 624 puede aplicar valores de prioridad u otra información de prioridad a objetos de audio. En una realización, cada objeto puede tener un valor de prioridad, que puede ser un valor numérico o similar. Los valores de prioridad pueden indicar la importancia relativa de los objetos desde el punto de vista del renderizado. Los objetos con mayor prioridad pueden ser más importantes para renderizar que los objetos de menor prioridad. Por tanto, si los recursos están restringidos, los objetos con una prioridad relativamente menor pueden ignorarse. La prioridad puede ser establecida inicialmente por un creador de contenido, usando los sistemas de creación de objetos de audio 110 descritos anteriormente.
Como ejemplo, un objeto de diálogo que incluye un diálogo para un video podría tener una prioridad relativamente más alta que un objeto de sonido de fondo. Si los valores de prioridad están en una escala de 1 a 5, por ejemplo, el objeto de diálogo podría tener un valor de prioridad de 1 (lo que significa la prioridad más alta), mientras que un objeto de sonido de fondo podría tener una prioridad más baja (por ejemplo, en algún lugar de 2 a 5) El módulo de prioridad 624 puede establecer umbrales para trasmitir objetos que satisfacen ciertos niveles de prioridad. Por ejemplo, el módulo de prioridad 624 puede establecer un umbral de 3, de tal manera que los objetos que tienen prioridad de 1,2 y 3 se trasmiten a un sistema de usuario mientras que los objetos con una prioridad de 4 o 5 no lo hacen.
El módulo de prioridad 624 puede establecer dinámicamente este umbral en base a las condiciones cambiantes de la red, como se determina mediante el monitor de recursos de red 626. El monitor de recursos de red 626 puede monitorizar los recursos de red disponibles u otras medidas de calidad de servicio, como ancho de banda, latencia, y demás. El monitor de recursos de red 626 puede proporcionar esta información al módulo de prioridad 624. Usando esta información, el módulo de prioridad 624 puede ajustar el umbral para permitir que se trasmitan objetos de menor prioridad al sistema del usuario si los recursos de la red son altos. De manera similar, el módulo de prioridad 624 puede ajustar el umbral para evitar que se trasmitan objetos de menor prioridad cuando los recursos de red son bajos.
El módulo de prioridad 624 también puede ajustar el umbral de prioridad en base a la información recibida del renderizador adaptativo 642. El módulo de recursos informáticos 644 del renderizador adaptativo 642 puede identificar características del entorno de reproducción de un sistema de usuario, como el número de altavoces conectados al sistema de usuario, la capacidad de procesamiento del sistema de usuario, y demás. El módulo de recursos informáticos 644 puede comunicar la información de recursos informáticos al módulo de prioridad 624 a
través de un canal de control 650. En base a esta información, el módulo de prioridad 624 puede ajustar el umbral para enviar objetos de prioridad tanto superior como inferior si los recursos informáticos son altos y únicamente objetos de mayor prioridad si los recursos informáticos son bajos. El monitor de recursos informáticos 644 del renderizador adaptativo 642 puede por lo tanto controlar la cantidad y/o el tipo de objetos de audio que se trasmiten por secuencias al sistema de usuario.
El renderizador adaptativo 642 también puede ajustar la forma en que se procesan los flujos de audio en función del entorno de reproducción. Si el sistema de usuario está conectado a dos altavoces, por ejemplo, el renderizador adaptativo 642 puede renderizar los objetos de audio en los dos altavoces. Si están conectados altavoces adicionales al sistema de usuario, el renderizador adaptativo 642 también puede renderizar los objetos de audio en los canales adicionales. El renderizador adaptativo 642 también puede aplicar técnicas psicoacústicas cuando renderiza los objetos de audio en uno o dos (o en ocasiones más) altavoces.
El módulo de prioridad 624 puede cambiar la prioridad de los objetos de audio dinámicamente. Por ejemplo, el módulo de prioridad 624 puede establecer que los objetos tengan una prioridad relativa entre sí. Por ejemplo, un módulo de prioridad 624 puede asignar un valor de prioridad más alto a un objeto de diálogo. Los valores de prioridad de otros objetos pueden ser relativos a la prioridad del objeto de diálogo. Por tanto, si el objeto de diálogo no está presente durante un período de tiempo en el flujo de audio, los otros objetos pueden tener una prioridad relativamente más alta.
La FIGURA 7 ilustra una realización de un proceso de trasmisión por secuencias adaptativa 700. El proceso de trasmisión por secuencias adaptativa 700 puede implementarse mediante cualquiera de los sistemas descritos anteriormente, como el sistema 600. El proceso de trasmisión por secuencias adaptativa 700 facilita el uso eficiente de los recursos de trasmisión por secuencias.
Los bloques 702 a 708 pueden ser realizados por el módulo de prioridad 624 descrito anteriormente. En el bloque 702, se recibe una solicitud de un ordenador remoto para contenido de audio. Un sistema de usuario puede enviar la solicitud a un servidor de contenido, por ejemplo. En el bloque 704, se recibe información de recursos informáticos con respecto a los recursos del sistema informático remoto. Esta información de recursos informáticos puede describir varios recursos disponibles del sistema de usuario y puede proporcionarse junto con la solicitud de contenido de audio. La información de recursos de red referente a los recursos de red disponibles también se recibe en el bloque 726. Esta información de recursos de red puede ser obtenida por el monitor de recursos de red 626.
En el bloque 708 se establece un umbral de prioridad en base a, por lo menos en parte, la información del ordenador y/o de los recursos de la red. En una realización, el módulo de prioridad 624 establece un umbral inferior (por ejemplo, para permitir objetos de menor prioridad en el flujo) cuando los recursos informáticos y de red son relativamente altos. El módulo de prioridad 624 puede establecer un umbral más alto (por ejemplo, para permitir objetos de mayor prioridad en el flujo) cuando los recursos informáticos o de red son relativamente bajos.
Los bloques 710 a 714 pueden ser realizado por el codificador orientado a objetos 612. En el bloque de decisión 710, para un objeto dado en el contenido de audio solicitado, se determina si el valor de prioridad para ese objeto satisface el umbral establecido anteriormente. Si es así, en el bloque 712, el objeto se añade al flujo de audio. De lo contrario, el objeto no se añade al flujo de audio, ahorrando de este modo ventajosamente recursos de red y/o informáticos en ciertas realizaciones.
En el bloque 714 se determina además si quedan objetos adicionales por considerar para añadir al flujo. Si es así, el proceso 700 vuelve al bloque 710. De lo contrario, el flujo de audio se trasmite al sistema informático remoto en el bloque 716, por ejemplo, mediante el módulo de comunicaciones de audio 628.
En algunas implementaciones el proceso 700 puede modificarse para eliminar objetos de un flujo de audio precodificado en lugar de ensamblar un flujo de audio sobre la marcha. Por ejemplo, en el bloque 710, si un objeto dado tiene una prioridad que no satisface un umbral, en el bloque 712, el objeto puede eliminarse del flujo de audio. Por lo tanto, los creadores de contenido pueden proporcionar un flujo de audio a un servidor de contenido con una variedad de objetos, y el módulo de trasmisión por secuencias adaptativo en el servidor de contenido puede eliminar dinámicamente algunos de los objetos en base a las prioridades de los objetos. Por lo tanto, seleccionar objetos de audio para la trasmisión por secuencias puede incluir añadir objetos a un flujo, eliminar objetos de un flujo o ambos.
La FIGURA 8 ilustra una realización de un proceso de renderización adaptativa 800. El proceso de renderización adaptativa 800 puede implementarse mediante cualquiera de los sistemas descritos anteriormente, como el sistema 600. El proceso de renderización adaptativa 800 también facilita el uso eficiente de los recursos de trasmisión por secuencias.
En el bloque 802, un flujo de audio que tiene una pluralidad de objetos de audio es recibido por un renderizador de un sistema de usuario. Por ejemplo, el renderizador adaptativo 642 puede recibir los objetos de audio. En el bloque 804 se accede a la información del entorno de reproducción. El monitor de recursos informáticos
644 del procesador adaptativo 642 puede acceder a la información del entorno de reproducción. Esta información de recursos puede incluir información sobre configuraciones de altavoces, potencia informática, y demás.
Los bloques 806 a 810 pueden ser implementados por el módulo de renderización 646 del renderizador adaptativo 642. En el bloque 806, se seleccionan uno o más objetos de audio en base a por lo menos parcialmente la información del entorno. El módulo de renderización 646 puede usar los valores de prioridad de los objetos para seleccionar los objetos a renderizar. En otra realización, el módulo de renderización 646 no selecciona objetos en base a los valores de prioridad, sino que mezcla los objetos en menos canales de altavoces o usa de otra manera menos recursos de procesamiento para renderizar el audio. Los objetos de audio se renderizan para producir audio de salida en el bloque 808. El audio renderizado se emite a uno o más altavoces en el bloque 810.
V. Realizaciones de creación de objetos de audio
Las FIGURAS 9 a 11 describen técnicas de creación de objetos de audio ejemplares en el contexto de reproducciones audiovisuales, tales como películas, televisión, podcasting y similares. Sin embargo, algunas o todas las características descritas con respecto a las FIGURAS 9 a 11 también pueden implementarse en el contexto de audio puro (por ejemplo, sin video de acompañamiento).
La FIGURA 9 ilustra una escena de ejemplo 900 para la captura de audio orientada a objetos. La escena 900 representa una vista simplificada de una escena audiovisual como la que se puede construir para una película, televisión u otro video. En la escena 900, dos actores 910 están actuando, y sus sonidos y acciones son grabados por un micrófono 920 y una cámara 930 respectivamente. Para simplificar, se ilustra un solo micrófono 920, aunque en algunos casos los actores 910 pueden usar micrófonos individuales. De manera similar, también pueden suministrarse micrófonos individuales mediante accesorios (no mostrados).
Para determinar la localización, la velocidad y otros atributos de las fuentes de sonido (por ejemplo, los actores) en la escena 900 actual, se proporcionan dispositivos de seguimiento de localización 912. Estos dispositivos de seguimiento de localización 912 pueden incluir dispositivos GPS, trajes de captura de movimiento, telémetros láser y similares. Los datos de los dispositivos de seguimiento de localización 912 pueden trasmitirse al sistema de creación de objetos de audio 110 junto con los datos del micrófono 920 (o micrófonos). Los sellos temporales incluidos en los datos de los dispositivos de seguimiento de localización 912 pueden correlacionarse con los sellos temporales obtenidos del micrófono 920 y/o la cámara 930 para proporcionar datos de posición para cada instancia de audio. Estos datos de posición pueden usarse para crear objetos de audio que tengan un atributo de posición. DE manera similar, los datos de velocidad pueden obtenerse de los dispositivos de seguimiento de localización 912 o pueden derivarse de los datos de posición.
Los datos de localización de los dispositivos de seguimiento de localización 912 (como latitud y longitud derivados de GPS) pueden usarse directamente como datos de posición o pueden trasladarse a un sistema de coordenadas. Por ejemplo, las coordenadas cartesianas 940 en tres dimensiones (x, y, y z) pueden usarse para seguir la posición del objeto de audio. También pueden usarse sistemas de coordenadas distintos de las coordenadas cartesianas, como coordenadas esféricas o cilíndricas. En una realización el origen del sistema de coordenadas 940 puede ser la cámara 930. Para facilitar esta disposición, la cámara 930 también puede incluir un dispositivo de seguimiento de localización 912 para determinar su localización con respecto a los objetos de audio. Por lo tanto, incluso si la posición de la cámara 930 cambia, la posición de los objetos de audio en la escena 900 aún puede ser relativa a la posición de la cámara 930.
También pueden aplicarse datos de posición a objetos de audio durante la postproducción de una producción audiovisual. Para las producciones de animación, las coordenadas de los objetos animados (como los personajes) pueden ser conocidas para los creadores de contenido. Estas coordenadas pueden asociarse automáticamente con el audio producido por cada objeto animado para crear objetos de audio.
La FIGURA 10 ilustra esquemáticamente un sistema 1000 para captura de audio orientada a objetos que puede implementar las características descritas anteriormente con respecto a la FIGURA 9. En el sistema 1000, los datos de localización de la fuente de sonido 1002 y los datos del micrófono 1006 se proporcionan a un módulo de creación de objetos 1014. El módulo de creación de objetos 1014 puede incluir todas las características de los módulos de creación de objetos 114A, 114B descritos anteriormente. El módulo de creación de objetos 1014 puede correlacionar los datos de localización de la fuente de sonido 1002 para una fuente de sonido dada con los datos de micrófono 1006 en base a los sellos temporales 1004, 1008, como se ha descrito anteriormente con respecto a la FIGURA 9.
Adicionalmente, el módulo de creación de objetos 1014 incluye un enlazador de objetos 1020 que puede vincular o asociar de otra manera objetos entre sí. Ciertos objetos de audio pueden estar inherentemente relacionados entre sí y, por lo tanto, pueden vincularse automáticamente mediante el enlazador de objetos 1020. Los objetos vinculados pueden renderizarse juntos de la manera que se describirá a continuación.
Los objetos pueden estar inherentemente relacionados entre sí porque los objetos están relacionados con una misma clase de objeto más alta. En otras palabras, el módulo de creación de objetos 1014 puede formar jerarquías de objetos que incluyen objetos primarios y objetos derivados que están relacionados con y propiedades inherentes de los objetos primarios. De esta manera, los objetos de audio pueden tomar prestados ciertos principios orientados a objetos de los lenguajes de programación de ordenadores. Un ejemplo de un objeto primario que puede tener objetos derivados es una banda de música. Una banda de música puede tener varias secciones correspondientes a diferentes grupos de instrumentos, como trombones, flautas, clarinetes, y demás. Un creador de contenido que usa el módulo de creación de objetos 1014 puede asignar la banda para que sea un objeto primario y cada sección para que sea un objeto derivado. Además, el creador de contenido también puede asignar los miembros individuales de la banda para que sean objetos derivados de los objetos de sección. El creador de contenido puede establecer la complejidad de la jerarquía de objetos, incluyendo el número de niveles en la jerarquía.
Como se ha mencionado anteriormente, los objetos derivados pueden heredar las propiedades de sus objetos primarios. Por lo tanto, los objetos derivados pueden heredar algunos o todos los metadatos de sus objetos primarios. En algunos casos, los objetos derivados también pueden heredar algunos o todos los datos de la señal de audio asociados con sus objetos primarios. Los objetos derivados pueden modificar algunos o todos estos metadatos y/o datos de señal de audio. Por ejemplo, un objeto derivado puede modificar un atributo de posición heredado del primario de tal manera que el primario y el derivado tengan posiciones diferentes pero otros metadatos similares.
La posición del objeto derivado también puede representarse como un desplazamiento de la posición del objeto primario o puede derivarse de la posición del objeto primario. Refiriéndose al ejemplo de la banda de música, una sección de la banda puede tener una posición que está desplazada de la posición de la banda. A medida que la banda cambia de posición, el objeto derivado que representa la sección de la banda puede actualizar automáticamente su posición en base al desplazamiento y la posición de la banda primaria. De esta manera, diferentes secciones de la banda que tienen diferentes desplazamientos de posición pueden moverse juntas.
La herencia entre los objetos derivados y primarios puede dar como resultado metadatos comunes entre los objetos derivados y primarios. Esta superposición de metadatos puede ser explotada por cualquiera de los codificadores orientados a objetos descritos anteriormente para optimizar o reducir los datos en el flujo de audio. En una realización, un codificador orientado a objetos puede eliminar metadatos redundantes del objeto derivado, reemplazando los metadatos redundantes con una referencia a los metadatos del primario. De igual manera, si los datos de la señal de audio redundantes son comunes a los objetos derivados y primarios, el codificador orientado a objetos puede reducir o eliminar los datos de la señal de audio redundantes. Estas técnicas son simplemente ejemplos de muchas técnicas de optimización que el codificador orientado a objetos puede implementar para reducir o eliminar datos redundantes en el flujo de audio.
Además, el enlazador de objetos 1020 del módulo de creación de objetos 1014 puede vincular objetos derivados y primarios entre sí. El enlazador de objetos 1020 puede realizar esta vinculación creando una asociación entre los dos objetos, que puede reflejarse en los metadatos de los dos objetos. El enlazador de objetos 1020 puede almacenar esta asociación en un repositorio de datos de objetos 1016. Además, en algunas realizaciones, los creadores de contenido pueden vincular objetos entre sí manualmente, por ejemplo, incluso cuando los objetos no tienen relaciones primario-derivado.
Cuando un renderizador recibe dos objetos vinculados, el renderizador puede elegir renderizar los dos objetos por separado o juntos. Por lo tanto, en lugar de renderizar una banda de música como una única fuente de punto en un altavoz, por ejemplo, un renderizador puede renderizar la banda de música como un campo de sonido de objetos de audio juntos en una variedad de altavoces. A medida que la banda se mueve en un video, por ejemplo, el renderizador puede mover el campo de sonido a través de los altavoces.
De manera más general, el renderizador puede interpretar la información de vinculación de varias maneras. El renderizador puede, por ejemplo, renderizar objetos vinculados en el mismo altavoz en diferentes momentos, retrasados unos respecto a los otros, o en diferentes altavoces al mismo tiempo, o similares. El renderizador también puede renderizar los objetos vinculados en diferentes puntos del espacio determinados psicoacústicamente, para proporcionar al oyente la impresión de que los objetos vinculados están en diferentes puntos alrededor de la cabeza del oyente. Así, por ejemplo, un renderizador puede hacer que la sección del trombón parezca marchar a la izquierda del oyente mientras que la sección del clarinete marcha a la derecha del oyente.
La FIGURA 11 ilustra una realización de un proceso 1100 para captura de audio orientada a objetos. El proceso 1100 puede implementarse mediante cualquiera de los sistemas descritos en la presente, como el sistema 1000. Por ejemplo, el proceso 1100 puede implementarse mediante el enlazador de objetos 1020 del módulo de creación de objetos 1014.
En el bloque 1102, se reciben datos de audio y localización para la primera y la segunda fuentes de sonido.
Los datos de audio pueden obtenerse usando un micrófono, mientras que los datos de localización pueden obtenerse usando cualquiera de las técnicas descritas anteriormente con respecto a la FIGURA 9.
En el bloque 1104 se crea un primer objeto de audio para la primera fuente de sonido. De manera similar, en el bloque 1106 se crea un segundo objeto de audio para la segunda fuente de sonido. En el bloque 1108 se crea una asociación entre la primera y la segunda fuentes de sonido. Esta asociación puede crearse automáticamente por el enlazador de objetos 1020 en base a si los dos objetos están relacionados en una jerarquía de objetos. Además, el enlazador de objetos 1020 puede crear la asociación automáticamente en base a otros metadatos asociados con los objetos, como dos atributos similares. La asociación se almacena en el almacenamiento del ordenador en el bloque 1110.
VI. Terminología
Dependiendo de la realización, ciertos actos, eventos o funciones de cualquiera de los algoritmos descritos en la presente pueden realizarse en una secuencia diferente, pueden añadirse, fusionarse u omitirse todos a la vez (por ejemplo, no todos los actos o eventos descritos son necesarios para la puesta en práctica del algoritmo). Además, en ciertas realizaciones, los actos o eventos pueden realizarse concurrentemente, por ejemplo, a través de procesamiento de múltiples subprocesos, procesamiento de interrupciones, o procesadores múltiples o núcleos de procesadores o en otras arquitecturas paralelas, en lugar de secuencialmente.
Los varios bloques, módulos y pasos de algoritmo lógicos ilustrativos descritos en relación con las realizaciones divulgadas en la presente pueden implementarse como hardware electrónico, software informático, o combinaciones de ambos. Para ilustrar claramente esta intercambiabilidad de hardware y software, varios componentes, bloques, módulos y pasos ilustrativos se han descrito anteriormente generalmente en términos de su funcionalidad. Si dicha funcionalidad se implementa como hardware o software depende de la aplicación particular y las restricciones de diseño impuestas en el sistema general. La funcionalidad descrita puede implementarse de diferentes maneras para cada aplicación particular, pero no debe interpretarse que tales decisiones de implementación provocan un alejamiento del alcance de la divulgación.
Los varios bloques y módulos lógicos ilustrativos descritos en relación con las realizaciones divulgadas en la presente pueden implementarse o realizarse por una máquina, como un procesador de propósito general, un procesador de señales digitales (DSP), un circuito integrado de aplicación específica (ASIC), una matriz de puerta programable de campo (FPGA) u otro dispositivo lógico programable, lógica de puerta discreta o transistor, componentes de hardware discretos, o cualquier combinación de los mismos diseñada para realizar las funciones descritas en la presente. Un procesador de propósito general puede ser un microprocesador, pero como alternativa, el procesador puede ser un controlador, un microcontrolador, o una máquina de estados, combinaciones de los mismos o similares. Un procesador también puede implementarse como una combinación de dispositivos informáticos, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores junto con un núcleo de DSP, o cualquier otra de tales configuraciones.
Los pasos de un método, proceso o algoritmo descritos en relación con las realizaciones divulgadas en la presente pueden incorporarse directamente en hardware, en un módulo de software ejecutado por un procesador, o en una combinación de los dos. Un módulo de software puede residir en memoria RAM, memoria flash, memoria ROM, memoria EPROM, memoria EEPROM, registros, disco duro, un disco extraíble, un CD-ROM o cualquier otra forma de medio de almacenamiento legible por ordenador conocido en la técnica. Un medio de almacenamiento ejemplar puede acoplarse al procesador de tal manera que el procesador puede leer información y escribir información en el medio de almacenamiento. Como alternativa, el medio de almacenamiento puede ser integral al procesador. El procesador y el medio de almacenamiento pueden residir en un ASIC. El ASIC puede residir en un terminal de usuario. Como alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en un terminal de usuario.
Se pretende generalmente que el lenguaje condicional usado en la presente como, entre otros, "puede", "podría", "es posible", "por ejemplo" y similares, a menos que se indique específicamente lo contrario, o se entienda de otro modo dentro del contexto como se usa, trasmita que ciertas realizaciones incluyen, mientras que otras realizaciones no incluyen, ciertas características, elementos y/o estados. Por lo tanto, no se pretende generalmente que dicho lenguaje condicional implique que las características, elementos y/o estados sean de alguna manera necesarios para una o más realizaciones o que una o más realizaciones incluyan necesariamente lógica para decidir, con o sin aportación o confirmación del autor, si estas características, elementos y/o estados deben incluirse o deben realizarse en cualquier realización particular.
Claims (10)
1. Un sistema para adaptar la trasmisión de un flujo de audio orientado a objetos, el sistema comprendiendo:
un monitor de recursos de red configurado para recibir una solicitud de contenido de audio sobre una red desde un sistema informático remoto y para acceder a la información de recursos de red sobre los recursos disponibles de la red;
un codificador orientado a objetos implementado por uno o más procesadores, el codificador orientado a objetos configurado para:
seleccionar uno o más de una pluralidad de objetos de audio a eliminar de un flujo de audio en base a por lo menos en parte los recursos de red disponibles y a la información de prioridad correspondiente a la pluralidad de objetos de audio, en donde la información de prioridad comprende un valor de prioridad para cada uno de la pluralidad de objetos de audio;
seleccionar uno o más de la pluralidad de objetos de audio seleccionando por lo menos de la pluralidad de objetos de audio el uno o más objetos de audio cuyo valor de prioridad satisface un umbral de prioridad; y ajustar dinámicamente el umbral de prioridad en base por lo menos en parte a la información del entorno recibida del sistema informático remoto, en donde la información del entorno comprende información referente a uno o más de los siguientes: un número de altavoces conectador al sistema informático remoto, capacidad de procesamiento de mejora de audio psicoacústica del sistema informático remoto, y software instalado en el sistema informático remoto, y
un módulo de trasmisión de audio configurado para trasmitir el flujo de audio al sistema informático remoto sobre la red.
2. El sistema de la reivindicación 1, en donde el monitor de recursos de red monitoriza el ancho de banda de red disponible.
3. El sistema de la reivindicación 2, en donde el codificador orientado a objetos está configurado además para seleccionar relativamente más objetos de audio a eliminar del flujo de audio cuando el ancho de banda de red disponible es relativamente más bajo y para seleccionar relativamente menos objetos de audio a eliminar del flujo de audio cuando el ancho de banda de red disponible es relativamente más alto.
4. El sistema de la reivindicación 1, en donde el codificador orientado a objetos está configurado además para seleccionar el umbral de prioridad en base por lo menos en parte a la información sobre los recursos de red disponibles.
5. El sistema de la reivindicación 1, en donde el codificador orientado a objetos está configurado además para asignar un valor de prioridad más alto a un objeto de audio de diálogo de la pluralidad de objetos de audio que un valor de prioridad de un objeto no de diálogo de la pluralidad de objetos de audio.
6. El sistema de la reivindicación 5, en donde el codificador orientado a objetos está configurado además para aumentar el valor de prioridad del objeto de audio no de diálogo durante un periodo de tiempo temporal en el que el objeto de audio de diálogo no está presente en el flujo de audio.
7. El sistema de la reivindicación 1, en donde el módulo de trasmisión de audio está configurado además para trasmitir el flujo de audio trasmitiendo por secuencias por lo menos el uno o más objetos de audio en un único flujo al sistema informático remoto.
8. Un método para adaptar renderizado de un flujo de audio orientado a objetos, el método comprendiendo:
acceder, con un sistema informático, a información del entorno referente a un entorno de reproducción asociado con el sistema informático, en donde la información del entorno comprende información referente a uno o más de los siguientes: un número de altavoces conectados al sistema informático, capacidad de procesamiento de mejora de audio psicoacústica del sistema informático remoto, y software instalado en el sistema informático remoto;
enviar, con el sistema informático, la información del entorno a un servidor remoto;
recibir, con el sistema informático, un flujo de audio desde un servidor remoto sobre una red, el flujo de audio comprendiendo una pluralidad de objetos de audio;
seleccionar, con el sistema informático, uno o más de la pluralidad de objetos de audio en base por lo menos en parte a la información del entorno;
renderizar, por el sistema informático, el uno o más objetos de audio seleccionados para producir un audio de salida; y
suministrar, por el sistema informático, el audio de salida al uno o más altavoces.
9. El método de la reivindicación 7, en donde dicha selección se realiza además en base por lo menos en parte a la información de prioridad asociada con cada uno de la pluralidad de objetos de audio.
10. El método de la reivindicación 7, en donde dicho renderizado comprende aplicar una mejora psicoacústica al uno o más objetos de audio en respuesta a determinar un número de altavoces en el entorno de reproducción.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US23393109P | 2009-08-14 | 2009-08-14 | |
| PCT/US2010/045532 WO2011020067A1 (en) | 2009-08-14 | 2010-08-13 | System for adaptively streaming audio objects |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2793958T3 true ES2793958T3 (es) | 2020-11-17 |
Family
ID=43586534
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES10808848T Active ES2793958T3 (es) | 2009-08-14 | 2010-08-13 | Sistema para trasmitir adaptativamente objetos de audio |
Country Status (8)
| Country | Link |
|---|---|
| US (4) | US8396577B2 (es) |
| EP (3) | EP2465114B1 (es) |
| JP (2) | JP5726874B2 (es) |
| KR (3) | KR20120062758A (es) |
| CN (2) | CN102576533B (es) |
| ES (1) | ES2793958T3 (es) |
| PL (1) | PL2465114T3 (es) |
| WO (2) | WO2011020067A1 (es) |
Families Citing this family (173)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10296561B2 (en) | 2006-11-16 | 2019-05-21 | James Andrews | Apparatus, method and graphical user interface for providing a sound link for combining, publishing and accessing websites and audio files on the internet |
| US9361295B1 (en) | 2006-11-16 | 2016-06-07 | Christopher C. Andrews | Apparatus, method and graphical user interface for providing a sound link for combining, publishing and accessing websites and audio files on the internet |
| US8396577B2 (en) | 2009-08-14 | 2013-03-12 | Dts Llc | System for creating audio objects for streaming |
| EP2630808B1 (en) | 2010-10-20 | 2019-01-02 | DTS, Inc. | Stereo image widening system |
| US9026450B2 (en) * | 2011-03-09 | 2015-05-05 | Dts Llc | System for dynamically creating and rendering audio objects |
| WO2012129536A2 (en) * | 2011-03-23 | 2012-09-27 | Opanga Networks, Inc. | System and method for dynamic service offering based on available resources |
| US20120253492A1 (en) | 2011-04-04 | 2012-10-04 | Andrews Christopher C | Audio commenting system |
| US8670554B2 (en) * | 2011-04-20 | 2014-03-11 | Aurenta Inc. | Method for encoding multiple microphone signals into a source-separable audio signal for network transmission and an apparatus for directed source separation |
| US9084068B2 (en) * | 2011-05-30 | 2015-07-14 | Sony Corporation | Sensor-based placement of sound in video recording |
| TWI453451B (zh) * | 2011-06-15 | 2014-09-21 | Dolby Lab Licensing Corp | 擷取與播放源於多音源的聲音之方法 |
| NL2006997C2 (en) * | 2011-06-24 | 2013-01-02 | Bright Minds Holding B V | Method and device for processing sound data. |
| US20130007218A1 (en) * | 2011-06-28 | 2013-01-03 | Cisco Technology, Inc. | Network Assisted Tracker for Better P2P Traffic Management |
| JP5856295B2 (ja) * | 2011-07-01 | 2016-02-09 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 適応的オーディオシステムのための同期及びスイッチオーバ方法及びシステム |
| JP5798247B2 (ja) | 2011-07-01 | 2015-10-21 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 向上した3dオーディオ作成および表現のためのシステムおよびツール |
| KR102185941B1 (ko) * | 2011-07-01 | 2020-12-03 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법 |
| WO2013032822A2 (en) | 2011-08-26 | 2013-03-07 | Dts Llc | Audio adjustment system |
| US8832226B2 (en) * | 2011-10-10 | 2014-09-09 | Eyeview, Inc. | Using cloud computing for generating personalized dynamic and broadcast quality videos |
| US9247182B2 (en) | 2011-10-10 | 2016-01-26 | Eyeview, Inc. | Using cluster computing for generating personalized dynamic videos |
| US9654821B2 (en) | 2011-12-30 | 2017-05-16 | Sonos, Inc. | Systems and methods for networked music playback |
| US8856272B2 (en) | 2012-01-08 | 2014-10-07 | Harman International Industries, Incorporated | Cloud hosted audio rendering based upon device and environment profiles |
| US9578438B2 (en) | 2012-03-30 | 2017-02-21 | Barco Nv | Apparatus and method for driving loudspeakers of a sound system in a vehicle |
| KR101915258B1 (ko) * | 2012-04-13 | 2018-11-05 | 한국전자통신연구원 | 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법 |
| UA114793C2 (uk) * | 2012-04-20 | 2017-08-10 | Долбі Лабораторіс Лайсензін Корпорейшн | Система та спосіб для генерування, кодування та представлення даних адаптивного звукового сигналу |
| KR101935020B1 (ko) * | 2012-05-14 | 2019-01-03 | 한국전자통신연구원 | 오디오 데이터 제공 방법 및 장치, 오디오 메타데이터 제공 방법 및 장치, 오디오 데이터 재생 방법 및 장치 |
| EP2862370B1 (en) | 2012-06-19 | 2017-08-30 | Dolby Laboratories Licensing Corporation | Rendering and playback of spatial audio using channel-based audio systems |
| US9674587B2 (en) | 2012-06-26 | 2017-06-06 | Sonos, Inc. | Systems and methods for networked music playback including remote add to queue |
| US9190065B2 (en) | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
| US9761229B2 (en) | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
| US9479886B2 (en) | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
| CN104541524B (zh) | 2012-07-31 | 2017-03-08 | 英迪股份有限公司 | 一种用于处理音频信号的方法和设备 |
| EP2883366B8 (en) * | 2012-08-07 | 2016-12-14 | Dolby Laboratories Licensing Corporation | Encoding and rendering of object based audio indicative of game audio content |
| US9489954B2 (en) | 2012-08-07 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Encoding and rendering of object based audio indicative of game audio content |
| CN107454511B (zh) | 2012-08-31 | 2024-04-05 | 杜比实验室特许公司 | 用于使声音从观看屏幕或显示表面反射的扬声器 |
| US9826328B2 (en) * | 2012-08-31 | 2017-11-21 | Dolby Laboratories Licensing Corporation | System for rendering and playback of object based audio in various listening environments |
| EP2898506B1 (en) * | 2012-09-21 | 2018-01-17 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
| EP2901667B1 (en) * | 2012-09-27 | 2018-06-27 | Dolby Laboratories Licensing Corporation | Spatial multiplexing in a soundfield teleconferencing system |
| EP2717262A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding |
| KR20140046980A (ko) * | 2012-10-11 | 2014-04-21 | 한국전자통신연구원 | 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 |
| KR20140047509A (ko) | 2012-10-12 | 2014-04-22 | 한국전자통신연구원 | 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치 |
| WO2014058138A1 (ko) * | 2012-10-12 | 2014-04-17 | 한국전자통신연구원 | 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치 |
| RU2719690C2 (ru) * | 2013-01-21 | 2020-04-21 | Долби Лабораторис Лайсэнзин Корпорейшн | Аудиокодер и аудиодекодер с метаданными громкости и границы программы |
| EP2757559A1 (en) * | 2013-01-22 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation |
| US9191742B1 (en) * | 2013-01-29 | 2015-11-17 | Rawles Llc | Enhancing audio at a network-accessible computing platform |
| US9357215B2 (en) | 2013-02-12 | 2016-05-31 | Michael Boden | Audio output distribution |
| US10038957B2 (en) * | 2013-03-19 | 2018-07-31 | Nokia Technologies Oy | Audio mixing based upon playing device location |
| US9786286B2 (en) | 2013-03-29 | 2017-10-10 | Dolby Laboratories Licensing Corporation | Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals |
| TWI530941B (zh) | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
| WO2014165806A1 (en) | 2013-04-05 | 2014-10-09 | Dts Llc | Layered audio coding and transmission |
| US20160066118A1 (en) * | 2013-04-15 | 2016-03-03 | Intellectual Discovery Co., Ltd. | Audio signal processing method using generating virtual object |
| US9361371B2 (en) | 2013-04-16 | 2016-06-07 | Sonos, Inc. | Playlist update in a media playback system |
| US9501533B2 (en) | 2013-04-16 | 2016-11-22 | Sonos, Inc. | Private queue for a media playback system |
| US9247363B2 (en) | 2013-04-16 | 2016-01-26 | Sonos, Inc. | Playback queue transfer in a media playback system |
| EP2997573A4 (en) * | 2013-05-17 | 2017-01-18 | Nokia Technologies OY | Spatial object oriented audio apparatus |
| US9258664B2 (en) | 2013-05-23 | 2016-02-09 | Comhear, Inc. | Headphone audio enhancement system |
| BR112015029132B1 (pt) | 2013-05-24 | 2022-05-03 | Dolby International Ab | Método para codificar um mosaico de tempo/frequência de uma cena de áudio, codificador que codifica um mosaico de tempo/frequência de uma cena de áudio, método para decodificar um mosaico de tempo-frequência de uma cena de áudio, decodificador que decodifica um mosaico de tempo-frequência de uma cena de áudio e meio legível em computador. |
| EP2973551B1 (en) | 2013-05-24 | 2017-05-03 | Dolby International AB | Reconstruction of audio scenes from a downmix |
| US9892737B2 (en) | 2013-05-24 | 2018-02-13 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
| US9852735B2 (en) | 2013-05-24 | 2017-12-26 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
| US9684484B2 (en) | 2013-05-29 | 2017-06-20 | Sonos, Inc. | Playback zone silent connect |
| CN104240711B (zh) * | 2013-06-18 | 2019-10-11 | 杜比实验室特许公司 | 用于生成自适应音频内容的方法、系统和装置 |
| GB2516056B (en) | 2013-07-09 | 2021-06-30 | Nokia Technologies Oy | Audio processing apparatus |
| EP2830048A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
| EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
| US9411882B2 (en) * | 2013-07-22 | 2016-08-09 | Dolby Laboratories Licensing Corporation | Interactive audio content generation, delivery, playback and sharing |
| EP2830047A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
| KR102395351B1 (ko) | 2013-07-31 | 2022-05-10 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱 |
| WO2015056383A1 (ja) | 2013-10-17 | 2015-04-23 | パナソニック株式会社 | オーディオエンコード装置及びオーディオデコード装置 |
| EP4421617A3 (en) * | 2013-10-31 | 2024-11-06 | Dolby Laboratories Licensing Corporation | Binaural rendering for headphones using metadata processing |
| KR102343578B1 (ko) * | 2013-11-05 | 2021-12-28 | 소니그룹주식회사 | 정보 처리 장치, 정보 처리 방법 및 프로그램 |
| US9641592B2 (en) | 2013-11-11 | 2017-05-02 | Amazon Technologies, Inc. | Location of actor resources |
| US9805479B2 (en) | 2013-11-11 | 2017-10-31 | Amazon Technologies, Inc. | Session idle optimization for streaming server |
| US9582904B2 (en) | 2013-11-11 | 2017-02-28 | Amazon Technologies, Inc. | Image composition based on remote object data |
| US9413830B2 (en) | 2013-11-11 | 2016-08-09 | Amazon Technologies, Inc. | Application streaming service |
| US9604139B2 (en) | 2013-11-11 | 2017-03-28 | Amazon Technologies, Inc. | Service for generating graphics object data |
| US9634942B2 (en) | 2013-11-11 | 2017-04-25 | Amazon Technologies, Inc. | Adaptive scene complexity based on service quality |
| US10034117B2 (en) * | 2013-11-28 | 2018-07-24 | Dolby Laboratories Licensing Corporation | Position-based gain adjustment of object-based audio and ring-based channel audio |
| CN104882145B (zh) * | 2014-02-28 | 2019-10-29 | 杜比实验室特许公司 | 使用音频对象的时间变化的音频对象聚类 |
| US9564136B2 (en) * | 2014-03-06 | 2017-02-07 | Dts, Inc. | Post-encoding bitrate reduction of multiple object audio |
| JP6439296B2 (ja) * | 2014-03-24 | 2018-12-19 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
| JP6863359B2 (ja) * | 2014-03-24 | 2021-04-21 | ソニーグループ株式会社 | 復号装置および方法、並びにプログラム |
| EP2928216A1 (en) | 2014-03-26 | 2015-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for screen related audio object remapping |
| WO2015150384A1 (en) | 2014-04-01 | 2015-10-08 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
| WO2015150480A1 (en) * | 2014-04-02 | 2015-10-08 | Dolby International Ab | Exploiting metadata redundancy in immersive audio metadata |
| WO2015152661A1 (ko) * | 2014-04-02 | 2015-10-08 | 삼성전자 주식회사 | 오디오 오브젝트를 렌더링하는 방법 및 장치 |
| US9959876B2 (en) * | 2014-05-16 | 2018-05-01 | Qualcomm Incorporated | Closed loop quantization of higher order ambisonic coefficients |
| JP6432180B2 (ja) * | 2014-06-26 | 2018-12-05 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
| KR102199276B1 (ko) | 2014-08-20 | 2021-01-06 | 에스케이플래닛 주식회사 | 클라우드 스트리밍 서비스 시스템, 클라우드 스트리밍 서비스 유형에 따른 서비스 처리 방법 및 이를 위한 장치 |
| WO2016010319A2 (ko) | 2014-07-14 | 2016-01-21 | 엔트릭스 주식회사 | 클라우드 스트리밍 서비스 시스템, 메모리 병목 현상을 방지하기 위한 데이터 압축 방법 및 이를 위한 장치 |
| US9367283B2 (en) | 2014-07-22 | 2016-06-14 | Sonos, Inc. | Audio settings |
| KR102643537B1 (ko) * | 2014-09-12 | 2024-03-06 | 소니그룹주식회사 | 송신 장치, 송신 방법, 수신 장치 및 수신 방법 |
| JP6724783B2 (ja) * | 2014-09-12 | 2020-07-15 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
| EP3002960A1 (en) * | 2014-10-04 | 2016-04-06 | Patents Factory Ltd. Sp. z o.o. | System and method for generating surround sound |
| CN112802496B (zh) * | 2014-12-11 | 2025-01-24 | 杜比实验室特许公司 | 元数据保留的音频对象聚类 |
| CN111866022B (zh) | 2015-02-03 | 2022-08-30 | 杜比实验室特许公司 | 感知质量比会议中原始听到的更高的后会议回放系统 |
| WO2016126819A1 (en) | 2015-02-03 | 2016-08-11 | Dolby Laboratories Licensing Corporation | Optimized virtual scene layout for spatial meeting playback |
| WO2016126715A1 (en) | 2015-02-03 | 2016-08-11 | Dolby Laboratories Licensing Corporation | Adaptive audio construction |
| US10225676B2 (en) * | 2015-02-06 | 2019-03-05 | Dolby Laboratories Licensing Corporation | Hybrid, priority-based rendering system and method for adaptive audio |
| US9560393B2 (en) * | 2015-02-20 | 2017-01-31 | Disney Enterprises, Inc. | Media processing node |
| CN105989845B (zh) * | 2015-02-25 | 2020-12-08 | 杜比实验室特许公司 | 视频内容协助的音频对象提取 |
| WO2016148553A2 (ko) * | 2015-03-19 | 2016-09-22 | (주)소닉티어랩 | 3차원 사운드를 편집 및 제공하는 방법 및 장치 |
| WO2016148552A2 (ko) * | 2015-03-19 | 2016-09-22 | (주)소닉티어랩 | 음상 외재화에서 3차원 사운드 이미지를 재생하는 장치 및 방법 |
| CN106162500B (zh) * | 2015-04-08 | 2020-06-16 | 杜比实验室特许公司 | 音频内容的呈现 |
| WO2016172111A1 (en) * | 2015-04-20 | 2016-10-27 | Dolby Laboratories Licensing Corporation | Processing audio data to compensate for partial hearing loss or an adverse hearing environment |
| US20160315722A1 (en) * | 2015-04-22 | 2016-10-27 | Apple Inc. | Audio stem delivery and control |
| EP3101612A1 (en) * | 2015-06-03 | 2016-12-07 | Skullcandy, Inc. | Audio devices and related methods for acquiring audio device use information |
| CN105070304B (zh) * | 2015-08-11 | 2018-09-04 | 小米科技有限责任公司 | 实现对象音频录音的方法及装置、电子设备 |
| JP6918777B2 (ja) | 2015-08-14 | 2021-08-11 | ディーティーエス・インコーポレイテッドDTS,Inc. | オブジェクトベースのオーディオのための低音管理 |
| US20170098452A1 (en) * | 2015-10-02 | 2017-04-06 | Dts, Inc. | Method and system for audio processing of dialog, music, effect and height objects |
| US9877137B2 (en) | 2015-10-06 | 2018-01-23 | Disney Enterprises, Inc. | Systems and methods for playing a venue-specific object-based audio |
| DE102015223935A1 (de) * | 2015-12-01 | 2017-06-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | System zur Ausgabe von Audio-Signalen sowie zugehöriges Verfahren und Einstellvorrichtung |
| US10171971B2 (en) | 2015-12-21 | 2019-01-01 | Skullcandy, Inc. | Electrical systems and related methods for providing smart mobile electronic device features to a user of a wearable device |
| CN106935251B (zh) * | 2015-12-30 | 2019-09-17 | 瑞轩科技股份有限公司 | 音频播放装置及方法 |
| WO2017130210A1 (en) * | 2016-01-27 | 2017-08-03 | Indian Institute Of Technology Bombay | Method and system for rendering audio streams |
| US9886234B2 (en) | 2016-01-28 | 2018-02-06 | Sonos, Inc. | Systems and methods of distributing audio to one or more playback devices |
| US10325610B2 (en) * | 2016-03-30 | 2019-06-18 | Microsoft Technology Licensing, Llc | Adaptive audio rendering |
| CN109313904B (zh) | 2016-05-30 | 2023-12-08 | 索尼公司 | 视频音频处理设备和方法以及存储介质 |
| EP3255904A1 (en) * | 2016-06-07 | 2017-12-13 | Nokia Technologies Oy | Distributed audio mixing |
| EP3255905A1 (en) * | 2016-06-07 | 2017-12-13 | Nokia Technologies Oy | Distributed audio mixing |
| US9980078B2 (en) | 2016-10-14 | 2018-05-22 | Nokia Technologies Oy | Audio object modification in free-viewpoint rendering |
| WO2018079254A1 (en) | 2016-10-28 | 2018-05-03 | Panasonic Intellectual Property Corporation Of America | Binaural rendering apparatus and method for playing back of multiple audio sources |
| EP3470976A1 (en) | 2017-10-12 | 2019-04-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for efficient delivery and usage of audio messages for high quality of experience |
| US11064453B2 (en) | 2016-11-18 | 2021-07-13 | Nokia Technologies Oy | Position stream session negotiation for spatial audio applications |
| US10531220B2 (en) * | 2016-12-05 | 2020-01-07 | Magic Leap, Inc. | Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems |
| EP3337066B1 (en) * | 2016-12-14 | 2020-09-23 | Nokia Technologies Oy | Distributed audio mixing |
| US10424307B2 (en) | 2017-01-03 | 2019-09-24 | Nokia Technologies Oy | Adapting a distributed audio recording for end user free viewpoint monitoring |
| US10291998B2 (en) * | 2017-01-06 | 2019-05-14 | Nokia Technologies Oy | Discovery, announcement and assignment of position tracks |
| US11096004B2 (en) | 2017-01-23 | 2021-08-17 | Nokia Technologies Oy | Spatial audio rendering point extension |
| WO2018144367A1 (en) * | 2017-02-03 | 2018-08-09 | iZotope, Inc. | Audio control system and related methods |
| US10531219B2 (en) | 2017-03-20 | 2020-01-07 | Nokia Technologies Oy | Smooth rendering of overlapping audio-object interactions |
| US20180315437A1 (en) * | 2017-04-28 | 2018-11-01 | Microsoft Technology Licensing, Llc | Progressive Streaming of Spatial Audio |
| US11074036B2 (en) | 2017-05-05 | 2021-07-27 | Nokia Technologies Oy | Metadata-free audio-object interactions |
| US11595774B2 (en) | 2017-05-12 | 2023-02-28 | Microsoft Technology Licensing, Llc | Spatializing audio data based on analysis of incoming audio data |
| US10165386B2 (en) | 2017-05-16 | 2018-12-25 | Nokia Technologies Oy | VR audio superzoom |
| GB2562488A (en) | 2017-05-16 | 2018-11-21 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
| US11303689B2 (en) | 2017-06-06 | 2022-04-12 | Nokia Technologies Oy | Method and apparatus for updating streamed content |
| CN110998724B (zh) * | 2017-08-01 | 2021-05-21 | 杜比实验室特许公司 | 基于位置元数据的音频对象分类 |
| US11395087B2 (en) | 2017-09-29 | 2022-07-19 | Nokia Technologies Oy | Level-based audio-object interactions |
| US10854209B2 (en) * | 2017-10-03 | 2020-12-01 | Qualcomm Incorporated | Multi-stream audio coding |
| US10531222B2 (en) | 2017-10-18 | 2020-01-07 | Dolby Laboratories Licensing Corporation | Active acoustics control for near- and far-field sounds |
| CN111512634A (zh) * | 2017-12-28 | 2020-08-07 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
| WO2019147064A1 (ko) * | 2018-01-26 | 2019-08-01 | 엘지전자 주식회사 | 오디오 데이터를 송수신하는 방법 및 그 장치 |
| US10542368B2 (en) | 2018-03-27 | 2020-01-21 | Nokia Technologies Oy | Audio content modification for playback audio |
| CN108600911B (zh) * | 2018-03-30 | 2021-05-18 | 联想(北京)有限公司 | 一种输出方法及电子设备 |
| US10848894B2 (en) * | 2018-04-09 | 2020-11-24 | Nokia Technologies Oy | Controlling audio in multi-viewpoint omnidirectional content |
| CN108777832B (zh) * | 2018-06-13 | 2021-02-09 | 上海艺瓣文化传播有限公司 | 一种基于视频对象追踪的实时3d声场构建和混音系统 |
| GB2578715A (en) * | 2018-07-20 | 2020-05-27 | Nokia Technologies Oy | Controlling audio focus for spatial audio processing |
| KR20210066807A (ko) * | 2018-09-28 | 2021-06-07 | 소니그룹주식회사 | 정보 처리 장치 및 방법, 그리고 프로그램 |
| US11019449B2 (en) * | 2018-10-06 | 2021-05-25 | Qualcomm Incorporated | Six degrees of freedom and three degrees of freedom backward compatibility |
| WO2020089302A1 (en) * | 2018-11-02 | 2020-05-07 | Dolby International Ab | An audio encoder and an audio decoder |
| US11304021B2 (en) * | 2018-11-29 | 2022-04-12 | Sony Interactive Entertainment Inc. | Deferred audio rendering |
| CN111282271B (zh) * | 2018-12-06 | 2023-04-07 | 网易(杭州)网络有限公司 | 移动终端游戏中的声音渲染方法、装置和电子设备 |
| WO2020159602A1 (en) * | 2019-01-28 | 2020-08-06 | Embody Vr, Inc | Spatial audio is received from an audio server over a first communication link. the spatial audio is converted by a cloud spatial audio processing system into binaural audio. the binauralized audio is streamed from the cloud spatial audio processing system to a mobile station over a second communication link to cause the mobile station to play the binaural audio on the personal audio delivery device |
| US11049509B2 (en) | 2019-03-06 | 2021-06-29 | Plantronics, Inc. | Voice signal enhancement for head-worn audio devices |
| WO2020246767A1 (ko) * | 2019-06-03 | 2020-12-10 | 인텔렉추얼디스커버리 주식회사 | 무선 통신 시스템에서 오디오 데이터를 제어하는 방법, 장치, 컴퓨터 프로그램 및 그 기록 매체 |
| US11076257B1 (en) | 2019-06-14 | 2021-07-27 | EmbodyVR, Inc. | Converting ambisonic audio to binaural audio |
| US11416208B2 (en) * | 2019-09-23 | 2022-08-16 | Netflix, Inc. | Audio metadata smoothing |
| US11430451B2 (en) * | 2019-09-26 | 2022-08-30 | Apple Inc. | Layered coding of audio with discrete objects |
| US11967329B2 (en) * | 2020-02-20 | 2024-04-23 | Qualcomm Incorporated | Signaling for rendering tools |
| US12470886B2 (en) | 2020-03-16 | 2025-11-11 | Nokia Technologies Oy | Rendering encoded 6DOF audio bitstream and late updates |
| US11080011B1 (en) | 2020-03-20 | 2021-08-03 | Tap Sound System | Audio rendering device and audio configurator device for audio stream selection, and related methods |
| US11102606B1 (en) * | 2020-04-16 | 2021-08-24 | Sony Corporation | Video component in 3D audio |
| US11941319B2 (en) * | 2020-07-20 | 2024-03-26 | Apple Inc. | Systems, methods, and graphical user interfaces for selecting audio output modes of wearable audio output devices |
| KR102508815B1 (ko) * | 2020-11-24 | 2023-03-14 | 네이버 주식회사 | 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법 |
| JP7536733B2 (ja) | 2020-11-24 | 2024-08-20 | ネイバー コーポレーション | オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法 |
| JP7536735B2 (ja) | 2020-11-24 | 2024-08-20 | ネイバー コーポレーション | ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 |
| EP4037339A1 (en) * | 2021-02-02 | 2022-08-03 | Nokia Technologies Oy | Selecton of audio channels based on prioritization |
| US12204815B2 (en) * | 2021-06-02 | 2025-01-21 | Tencent America LLC | Adaptive audio delivery and rendering |
| US11937070B2 (en) * | 2021-07-01 | 2024-03-19 | Tencent America LLC | Layered description of space of interest |
| WO2023006582A1 (en) * | 2021-07-29 | 2023-02-02 | Dolby International Ab | Methods and apparatus for processing object-based audio and channel-based audio |
| WO2024012665A1 (en) * | 2022-07-12 | 2024-01-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding of precomputed data for rendering early reflections in ar/vr systems |
| JP2025536466A (ja) * | 2022-10-05 | 2025-11-06 | ドルビー・インターナショナル・アーベー | オーディオ・ビットストリームの効率的なエンコードおよびデコードのための方法、装置、および媒体 |
| WO2024074283A1 (en) * | 2022-10-05 | 2024-04-11 | Dolby International Ab | Method, apparatus, and medium for decoding of audio signals with skippable blocks |
| KR20250087581A (ko) * | 2022-10-05 | 2025-06-16 | 돌비 인터네셔널 에이비 | 오디오 비트스트림의 인코딩 및 디코딩을 위한 방법, 장치 및 매체 |
Family Cites Families (49)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4332979A (en) * | 1978-12-19 | 1982-06-01 | Fischer Mark L | Electronic environmental acoustic simulator |
| US5592588A (en) * | 1994-05-10 | 1997-01-07 | Apple Computer, Inc. | Method and apparatus for object-oriented digital audio signal processing using a chain of sound objects |
| IT1281001B1 (it) * | 1995-10-27 | 1998-02-11 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio. |
| US6252965B1 (en) * | 1996-09-19 | 2001-06-26 | Terry D. Beard | Multichannel spectral mapping audio apparatus and method |
| US6160907A (en) | 1997-04-07 | 2000-12-12 | Synapix, Inc. | Iterative three-dimensional process for creating finished media content |
| JP2001359067A (ja) * | 2000-06-09 | 2001-12-26 | Canon Inc | 通信システム及びその通信方法 |
| JP2002008115A (ja) * | 2000-06-23 | 2002-01-11 | Sony Corp | 情報配信システム、端末装置、サーバ装置、記録媒体、情報配信方法 |
| JP2002204437A (ja) * | 2000-12-28 | 2002-07-19 | Canon Inc | 通信装置、通信システム、通信方法、及び記憶媒体 |
| US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
| US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
| US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
| US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
| US7606372B2 (en) * | 2003-02-12 | 2009-10-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for determining a reproduction position |
| DE10344638A1 (de) * | 2003-08-04 | 2005-03-10 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene |
| JP2005086537A (ja) * | 2003-09-09 | 2005-03-31 | Nippon Hoso Kyokai <Nhk> | 高臨場音場再現情報送信装置、高臨場音場再現情報送信プログラム、高臨場音場再現情報送信方法および高臨場音場再現情報受信装置、高臨場音場再現情報受信プログラム、高臨場音場再現情報受信方法 |
| JP4497885B2 (ja) * | 2003-10-16 | 2010-07-07 | 三洋電機株式会社 | 信号処理装置 |
| US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
| JP4433287B2 (ja) * | 2004-03-25 | 2010-03-17 | ソニー株式会社 | 受信装置および方法、並びにプログラム |
| EP1650973A1 (en) * | 2004-10-25 | 2006-04-26 | Alcatel USA Sourcing, L.P. | Method for encoding a multimedia content |
| EP1851656A4 (en) * | 2005-02-22 | 2009-09-23 | Verax Technologies Inc | SYSTEM AND METHOD FOR FORMATTING MULTIMODE CONTENT OF SOUNDS AND METADATA |
| DE102005008366A1 (de) * | 2005-02-23 | 2006-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten |
| JP2007018646A (ja) * | 2005-07-11 | 2007-01-25 | Hitachi Ltd | 記録再生装置 |
| JP2007028432A (ja) * | 2005-07-20 | 2007-02-01 | Mitsubishi Electric Corp | パケット中継伝送装置 |
| GB0523946D0 (en) | 2005-11-24 | 2006-01-04 | King S College London | Audio signal processing method and system |
| US8705747B2 (en) * | 2005-12-08 | 2014-04-22 | Electronics And Telecommunications Research Institute | Object-based 3-dimensional audio service system using preset audio scenes |
| CN100527704C (zh) * | 2006-01-05 | 2009-08-12 | 华为软件技术有限公司 | 一种流媒体服务器以及流媒体传送和存储方法 |
| TWI469133B (zh) * | 2006-01-19 | 2015-01-11 | Lg Electronics Inc | 媒體訊號處理方法及裝置 |
| US8626178B2 (en) * | 2006-01-31 | 2014-01-07 | Niels Thybo Johansen | Audio-visual system control using a mesh network |
| JP4687538B2 (ja) * | 2006-04-04 | 2011-05-25 | パナソニック株式会社 | 受信装置、送信装置およびその通信方法 |
| EP2501128B1 (en) * | 2006-05-19 | 2014-11-12 | Electronics and Telecommunications Research Institute | Object-based 3-dimensional audio service system using preset audio scenes |
| US20080005347A1 (en) * | 2006-06-29 | 2008-01-03 | Yahoo! Inc. | Messenger system for publishing podcasts |
| JP5281575B2 (ja) * | 2006-09-18 | 2013-09-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオオブジェクトのエンコード及びデコード |
| JP5238706B2 (ja) * | 2006-09-29 | 2013-07-17 | エルジー エレクトロニクス インコーポレイティド | オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置 |
| EP2082397B1 (en) * | 2006-10-16 | 2011-12-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
| CN101490744B (zh) * | 2006-11-24 | 2013-07-17 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
| WO2008084436A1 (en) | 2007-01-10 | 2008-07-17 | Koninklijke Philips Electronics N.V. | An object-oriented audio decoder |
| WO2008100067A1 (en) * | 2007-02-13 | 2008-08-21 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
| CA2645915C (en) * | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
| EP2137726B1 (en) * | 2007-03-09 | 2011-09-28 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
| WO2008143561A1 (en) | 2007-05-22 | 2008-11-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and arrangements for group sound telecommunication |
| US8682679B2 (en) | 2007-06-26 | 2014-03-25 | Koninklijke Philips N.V. | Binaural object-oriented audio decoder |
| TW200921643A (en) | 2007-06-27 | 2009-05-16 | Koninkl Philips Electronics Nv | A method of merging at least two input object-oriented audio parameter streams into an output object-oriented audio parameter stream |
| KR101370290B1 (ko) * | 2007-07-31 | 2014-03-05 | 삼성전자주식회사 | 복호화 레벨을 구비하는 멀티미디어 데이터의 생성 방법과장치 및 복호화 레벨을 이용한 멀티미디어 데이터의 재구성방법과 장치 |
| US9031267B2 (en) * | 2007-08-29 | 2015-05-12 | Microsoft Technology Licensing, Llc | Loudspeaker array providing direct and indirect radiation from same set of drivers |
| EP2083584B1 (en) * | 2008-01-23 | 2010-09-15 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
| US20090237564A1 (en) | 2008-03-18 | 2009-09-24 | Invism, Inc. | Interactive immersive virtual reality and simulation |
| EP2194527A3 (en) | 2008-12-02 | 2013-09-25 | Electronics and Telecommunications Research Institute | Apparatus for generating and playing object based audio contents |
| US8396577B2 (en) | 2009-08-14 | 2013-03-12 | Dts Llc | System for creating audio objects for streaming |
| US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
-
2010
- 2010-08-13 US US12/856,450 patent/US8396577B2/en not_active Expired - Fee Related
- 2010-08-13 EP EP10808848.5A patent/EP2465114B1/en active Active
- 2010-08-13 US US12/856,442 patent/US8396575B2/en not_active Expired - Fee Related
- 2010-08-13 CN CN201080041993.7A patent/CN102576533B/zh not_active Expired - Fee Related
- 2010-08-13 KR KR1020127006218A patent/KR20120062758A/ko not_active Ceased
- 2010-08-13 WO PCT/US2010/045532 patent/WO2011020067A1/en not_active Ceased
- 2010-08-13 US US12/856,449 patent/US8396576B2/en not_active Expired - Fee Related
- 2010-08-13 JP JP2012524919A patent/JP5726874B2/ja not_active Expired - Fee Related
- 2010-08-13 ES ES10808848T patent/ES2793958T3/es active Active
- 2010-08-13 JP JP2012524921A patent/JP5635097B2/ja not_active Expired - Fee Related
- 2010-08-13 CN CN201080041989.0A patent/CN102549655B/zh not_active Expired - Fee Related
- 2010-08-13 EP EP20167069.2A patent/EP3697083B1/en active Active
- 2010-08-13 KR KR1020177011677A patent/KR101842411B1/ko not_active Expired - Fee Related
- 2010-08-13 WO PCT/US2010/045530 patent/WO2011020065A1/en not_active Ceased
- 2010-08-13 EP EP10808846.9A patent/EP2465259A4/en not_active Ceased
- 2010-08-13 PL PL10808848T patent/PL2465114T3/pl unknown
- 2010-08-13 KR KR1020127006217A patent/KR101805212B1/ko not_active Expired - Fee Related
-
2013
- 2013-03-08 US US13/791,488 patent/US9167346B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| CN102549655B (zh) | 2014-09-24 |
| US20110040396A1 (en) | 2011-02-17 |
| JP2013502183A (ja) | 2013-01-17 |
| KR20170052696A (ko) | 2017-05-12 |
| US20130202129A1 (en) | 2013-08-08 |
| WO2011020065A1 (en) | 2011-02-17 |
| KR20120062758A (ko) | 2012-06-14 |
| EP3697083A1 (en) | 2020-08-19 |
| US20110040397A1 (en) | 2011-02-17 |
| KR101842411B1 (ko) | 2018-03-26 |
| US20110040395A1 (en) | 2011-02-17 |
| JP5635097B2 (ja) | 2014-12-03 |
| EP3697083B1 (en) | 2023-04-19 |
| EP2465259A4 (en) | 2015-10-28 |
| EP2465114A4 (en) | 2015-11-11 |
| PL2465114T3 (pl) | 2020-09-07 |
| US8396576B2 (en) | 2013-03-12 |
| KR20120061869A (ko) | 2012-06-13 |
| WO2011020067A1 (en) | 2011-02-17 |
| US8396577B2 (en) | 2013-03-12 |
| CN102549655A (zh) | 2012-07-04 |
| US9167346B2 (en) | 2015-10-20 |
| KR101805212B1 (ko) | 2017-12-05 |
| EP2465114A1 (en) | 2012-06-20 |
| JP2013502184A (ja) | 2013-01-17 |
| EP2465114B1 (en) | 2020-04-08 |
| EP2465259A1 (en) | 2012-06-20 |
| CN102576533B (zh) | 2014-09-17 |
| JP5726874B2 (ja) | 2015-06-03 |
| US8396575B2 (en) | 2013-03-12 |
| CN102576533A (zh) | 2012-07-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2793958T3 (es) | Sistema para trasmitir adaptativamente objetos de audio | |
| CN106688251B (zh) | 音频处理系统和方法 | |
| JP6371416B2 (ja) | オーディオ・デコーダ及びレンダラーのためのユーザー制御データのデータ処理装置及びトランスポート | |
| US20120232910A1 (en) | System for dynamically creating and rendering audio objects | |
| EP2205007A1 (en) | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction | |
| JP2024543058A (ja) | 1つ以上のシーン構成パケット及び1つ以上の更新条件を有する1つ以上のシーン更新パケットを含む複数のパケットを用いる、オーディオデコーダ、オーディオエンコーダ、復号方法、符号化方法及びビットストリーム | |
| JP2024542413A (ja) | セル情報が1つ以上のセル及びそれぞれの1つ以上のデータ構造を定義する、シーン構成パケットを用いる、オーディオデコーダ、オーディオエンコーダ、復号方法、符号化方法及びビットストリーム | |
| US12177646B2 (en) | Main-associated audio experience with efficient ducking gain application | |
| HK1170330B (en) | System for adaptively streaming audio objects | |
| HK1170330A (en) | System for adaptively streaming audio objects | |
| RU2820838C2 (ru) | Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала | |
| JP2024543059A (ja) | 1つ以上のシーン構成パケット、1つ以上のシーン更新パケット、1つ以上のシーンペイロードパケットを含む複数のパケットを用いる、オーディオデコーダ、オーディオエンコーダ、復号方法、符号化方法及びビットストリーム | |
| HK1226889B (zh) | 用於高声道计数的多声道音频的基於多元组的矩阵混合 |





