ES2305539T3

ES2305539T3 - Metodo y sistema para aumentar una señal de audio.

Info

Publication number: ES2305539T3
Application number: ES03778627T
Authority: ES
Inventors: David A. Philips Int. Property & Standards EVES; Richard S. Philips Int. Property & Standards COLE; C. Philips Int. Property & Standards THORNE
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-12-24
Filing date: 2003-12-10
Publication date: 2008-11-01
Anticipated expiration: 2023-12-10
Also published as: DE60321044D1; GB0320578D0; JP2006512625A; RU2322654C2; CN100438633C; ATE395789T1; CN1732510A; US20060085182A1; JP4871592B2; GB0230097D0; CN1732692A; AU2003285635A1; US8433575B2; JP2006512820A; EP1579698B1; KR20050086942A; WO2004059986A1; BR0317713A; EP1579698A1; RU2005123387A

Abstract

Método para aumentar una señal de audio que comprende: recibir una señal de audio, extraer características de dicha señal de audio, generar una tabla ordenada en el tiempo de parámetros dramáticos según las características extraídas, obtener fragmentos de medios que incluyen datos de vídeo, al menos en parte en función de la tabla de parámetros dramáticos, y emitir dichos fragmentos de medios junto con dicha señal de audio.

Description

Método y sistema para aumentar una señal de audio.

La presente invención se refiere a un método y a un sistema para aumentar una señal de audio según características extraídas de dicha señal de audio. La presente invención tiene aplicación particular, pero no exclusiva, en sistemas que determinan y extraen características musicales de una señal de audio tal como el compás y el tono.

Se conoce aumentar una señal de audio con una señal de vídeo. Donde más ocurre esto es en la industria de los vídeos musicales, en la que una canción o álbum particular tiene una secuencia de vídeo creada para la música, normalmente con el fin de emitir el audio y vídeo combinados a través de una red de televisión. La señal de vídeo se crea de forma manual, empleando la experiencia y el talento de una serie de personas para seleccionar y/o crear secuencias de vídeo adecuadas que mejoren lo mejor posible la música. La habilidad de las personas implicadas es un factor crucial en la calidad del producto final. También sucede que tal aumento es un proceso largo y caro, sin garantía real de la adecuación del producto final para un gran número de usuarios.

También se conocen herramientas de software de consumo que permiten a un consumidor doméstico crear presentaciones de música y vídeo, según entradas de usuario. La solicitud de patente europea EP0403118 describe una compilación audiovisual en un sistema de procesamiento de datos tal como un ordenador personal (PC) doméstico. El sistema comprende módulos de biblioteca, audio, y creación y edición de guiones que permiten a un usuario compilar una presentación audiovisual y emitirla. La solicitud de patente internacional WO01/18655 da a conocer un método y un sistema para generación de vídeos musicales en un ordenador que comprende una interfaz de edición que incluye una selección de botones de primer plano, segundo plano, capacidad de importación y efectos especiales, una línea temporal para crear un texto de instrucciones para el montaje de imágenes gráficas, en sincronía con la música, para de este modo producir un proyecto de vídeo musical.

Tales sistemas domésticos/de consumo conocidos permiten a un consumidor producir su propio vídeo para aumentar una señal de audio. Sin embargo, como en la creación de vídeo en el ámbito profesional, tal creación lleva tiempo y se basa nuevamente en la habilidad del consumidor implicado.

El documento US 5.005.459 da a conocer un método para la visualización de tonos musicales que implica analizar el contenido espectral de una señal de audio y seleccionar una fuente de señal de vídeo apropiada para su presentación con la obra musical. Una posible aplicación es la visualización de la imagen de uno o más instrumentes que estén tocándose en ese momento.

El documento US 5.898.119 da a conocer la selección de segmentos de vídeo que tienen un ambiente que coincide con el ambiente de la música que está interpretándose. En este documento tanto los datos de audio como los musicales están previamente clasificados en diferentes categorías de ambientes.

Normalmente, tales sistemas de la técnica anterior sólo tienen capacidades de automatización limitadas, en caso de tenerlas, y en general son incapaces de aumentar automáticamente una señal de audio de entrada ad hoc con una secuencia de historia de vídeo en función de y siguiendo el contenido semántico de la señal de audio.

Por lo tanto un objeto de la presente invención es proporcionar un método y sistema mejorados para aumentar una señal de audio.

Según un primer aspecto de la presente invención se proporciona un método según la reivindicación 1.

Según un segundo aspecto de la presente invención se proporciona un sistema según la reivindicación 16.

Según un tercer aspecto de la presente invención se proporciona un programa informático según la reivindicación 20.

Conforme a lo anterior, características musicales extraídas de una señal de audio tales como tono y compás se asocian con parámetros dramáticos que representan una visión general de un fragmento de medios que puede contener un archivo de datos de audio/vídeo. Por ejemplo, un compás rápido puede encajar bien con un fragmento de medios que tenga una escena de caza que sea muy rápida y violenta.

Los parámetros dramáticos representan ventajosamente características de una historia tal como ambiente, ritmo, episodios etcétera. Los parámetros dramáticos también se correlacionan con características extraídas de la señal de audio tales como tono y compás.

Ventajosamente, los fragmentos de medios están almacenados en una base de datos desde la que se obtienen. Alternativamente, los fragmentos pueden generarse durante la ejecución según una plantilla de historia que comprende una descripción general o estructura narrativa para una historia, y parámetros dramáticos apropiados.

Por ejemplo, una plantilla de historia romántica puede tener ciertos requisitos tales como tonos musicales asociados con la felicidad (tonos mayores) o la tristeza (tonos menores). En la plantilla de historia está representado un arco narrativo que describe la progresión de una historia romántica. Un arco de ejemplo para una historia romántica puede comprender lo siguiente, un encuentro casual, desarrollo de una relación, tragedia y final feliz o triste.

Por tanto, resulta posible generar, obtener y presentar una historia a un consumidor, basándose la historia en una selección musical del consumidor.

Por ejemplo, un consumidor puede seleccionar cuatro pistas de música que se analizan para determinar por ejemplo el género (o el consumidor puede introducir un género preferido) y se extraen características musicales de las pistas. Las características se emplean para determinar una plantilla de historia que coincida bastante que se emplea entonces para obtener fragmentos de medios coincidentes apropiados. Por ejemplo, fragmentos de medios que tienen parámetros dramáticos que indican tonos mayores (felices), o tonos menores (tristeza) y que también contienen contenido romántico pueden obtenerse entonces para construir la historia.

Los fragmentos de medios se presentan entonces al consumidor junto con su selección musical. Por tanto, un consumidor experimenta una experiencia de historia junto con, y siendo informado por la música seleccionada.

Ventajosamente, combinaciones de tonos musicales (tal vez un cambio de tono dentro de una pista musical o un cambio de tono entre una pista musical y otra) también pueden emplearse para determinar momentos dramáticos tales como una acumulación y posterior explosión de tensión.

En una realización el sistema comprende un ordenador personal conectado a una base de datos que almacena fragmentos de medios y plantillas de guiones. El ordenador está dotado de un código de programa, que extrae características musicales de señales de audio que representan una selección musical, y también de un código de programa que representa un módulo de construcción de guiones, que selecciona plantillas y obtiene fragmentos de medios apropiados en función de determinados parámetros dramáticos relativos a las características musicales extraídas. Los parámetros dramáticos están representados en un metalenguaje configurable tal como el lenguaje de marcación extendido (XML). El programa informático hace corresponder las plantillas de guiones y los fragmentos de medios que tienen etiquetas de parámetros dramáticos asociadas y presenta la historia al consumidor.

Ventajosamente, el ordenador forma parte de una red doméstica que tiene dispositivos de salida por lo que puede cambiarse la luminosidad en momentos dramáticos identificados, y otros aspectos del entorno de experiencia que rodea al consumidor pueden controlarse para proporcionar una experiencia narrativa absorbente junto con la selección musical. El lenguaje de marcación físico (PML) puede utilizarse para conseguir lo anteriormente mencionado.

Conforme a la invención, es posible aumentar una señal de audio, sin necesidad de entradas por parte de la persona, de manera que no obstante se produce un aumento que está relacionado y complementa al audio.

La presente invención se describirá a continuación, únicamente a modo de ejemplo, y con referencia a los dibujos adjuntos en los que:

La figura 1 es una representación esquemática de un sistema para aumentar una señal de audio,

La figura 2 es una tabla que relaciona características musicales con parámetros dramáticos,

La figura 3 es un ejemplo de una lista de parámetros dramáticos generada,

La figura 4 es un ejemplo ilustrativo de plantillas de guiones almacenadas,

La figura 5 ilustra una base de datos que almacena fragmentos de medios,

La figura 6 es un diagrama de flujo de un método para aumentar una señal de audio,

La figura 7 es un diagrama de flujo de un método PML para aumentar una señal de audio.

Ha de observarse que las figuras son esquemáticas y no están dibujadas a escala. Las dimensiones y proporciones relativas de partes de estas figuras se han mostrado con un tamaño exagerado o reducido, por motivos de claridad y comodidad en los dibujos. Generalmente se utilizan los mismos signos de referencia para referirse a características correspondientes o similares en realizaciones modificadas y diferentes.

La figura 1 muestra una representación esquemática de un sistema 100 para aumentar una señal de audio. El sistema 100 consiste en una unidad 102 de procesamiento central (CPU) conectada a una memoria 104 (ROM) y a una memoria 106 (RAM) a través de un bus 108 de datos general. Puede cargarse un código informático o software 110 sobre un soporte 112 en la RAM 106 (o alternativamente estar previsto en la ROM 104), haciendo el código que la CPU 102 lleve a cabo instrucciones que implementan un método o métodos según la invención. La CPU 102 está conectada a un almacén 114 y a dispositivos 116, 118 de salida. Se proporciona una interfaz 120 de usuario (UI).

El sistema 100 puede implementarse como un ordenador personal (PC) doméstico convencional con el dispositivo 116 de salida con la forma de un monitor o pantalla de ordenador. El almacén 114 puede ser una base de datos remota disponible a través de una conexión de red (LAN o WAN). De manera similar en una red doméstica (LAN) los dispositivos 116, 118 de salida pueden estar distribuidos por la casa y comprender por ejemplo una pantalla plana instalada en la pared, unidades de iluminación doméstica controladas por ordenador, altavoces de audio dispuestos por la casa, etcétera. Las conexiones entre la CPU 102 y otros dispositivos 116, 118 pueden ser inalámbricas (por ejemplo comunicaciones a través de normas de radio IEEE802.11, Zig- Bee IEE802.15.4 o Bluetooth) o por cable (por ejemplo comunicaciones a través de normas de cable Ethernet, USB), o una combinación de ambas.

El sistema 100 requiere la entrada de señales de audio de las que se extraen características. La extracción de características musicales de señales de audio se describe en el documento "Querying large collections of music for similarity" (Matt Welsh et al, UC Berkeley Technical Report UCB/CSD-00-1096, noviembre de 1999) cuyo contenido se incorpora por la presente. El documento describe cómo pueden determinarse características tales como un compás medio, volumen, ruido y transiciones tonales a partir del análisis de una señal de audio de entrada. Un método para determinar el tono musical de una señal de audio se describe en la patente estadounidense US5.038.658 a nombre de Tsuruta et al, incorporada por la presente y a la que remite al lector.

Por tanto, en el sistema 100 se introducen señales de audio a la CPU 102 por el dispositivo 122 de entrada. La CPU 102 recibe las señales de audio y extrae características musicales tales como volumen, compás y tono tal como se describe en las referencias anteriormente mencionadas. En esta realización, la señal de audio se proporciona a través de un dispositivo 122 de entrada interno del PC tal como una unidad de CD/DVD o disco duro. Alternativamente, las señales de audio pueden introducirse a través de una conexión a un sistema de entretenimiento doméstico en red (Hi-Fi, home cinema, etc.).

Los expertos en la técnica se percatarán de que la configuración exacta de hardware/software y el mecanismo de provisión de la señal de audio de entrada no es importante, y que más bien tales señales se ponen a disposición de dicho sistema 100.

Estructuras de datos de ejemplo y métodos de funcionamiento se describirán a continuación para ilustrar aspectos de la presente invención con respecto a, por motivos de simplicidad y a modo de ejemplo únicamente, una realización de PC del sistema 100.

La figura 2 muestra una tabla 200 de ejemplo para su uso por el programa 110 informático. La tabla ilustra una relación no exhaustiva de características 204 (MF) musicales extraídas con parámetros 206 (DP) dramáticos predeterminados y definidos. Por ejemplo, se conoce bien que en general la música que tiene un tono mayor (tono MAY) se asocia a sentimientos felices o animados, mientras que la música interpretada en tono menor (tono MEN) tiende a ser más afligida y triste.

Además, empleando un círculo de diagrama de quintas (muy conocido por los que estudian música) es posible determinar tonos musicales relacionados, que sean armoniosos para que una transición de un tono a otro no resulte alarmante para un consumidor. En general, una transición de un tono a otro tono adyacente en el círculo produce para un consumidor una transición armoniosa aceptable, mientras que un salto de un tono a otro tono no adyacente en el diagrama produce una disonancia audible para un usuario. Por ejemplo, tonos muy relacionados (adyacentes) de Do Mayor/La Menor son Fa Mayor/Re Menor y Sol Mayor/Mi Menor. Por tanto, un cambio de tono de, digamos, Do Mayor (ya sea dentro de una pista de música o de una pista a otra) a Mi Mayor (no adyacente) resultaría en que el usuario escucharía una disonancia audible. Tal conocimiento es útil a la hora de desarrollar reglas para saber qué pistas de música son adecuadas para encadenarse unas con otras en una aplicación de DJ automática.

Tal conocimiento puede usarse para indicar un cambio dramático en una historia (por ejemplo, de una escena de boda feliz a una escena trágica triste, sumándose la música a la experiencia de la historia). Por tanto, en la figura 2 una característica musical correspondiente a tal combinación de cambios de tono no adyacentes está representada por (CNA) con el parámetro dramático DISONANCIA. La tabla también ilustra que un parámetro dramático de RÁPIDO o LENTO puede asociarse con un resultado de COMPÁS extraído (pulsos por minuto - b pm). Por ejemplo, un bpm superior a 120 puede asignarse a un parámetro dramático RÁPIDO, mientras que una canción o pista con un compás más lento puede asignarse a un parámetro dramático LENTO. Por tanto, de forma general el ambiente, los cambios de ritmo y los episodios según una selección musical pueden determinarse y representarse.

Los ejemplos de parámetros dramáticos se dan únicamente con fines ilustrativos, con numerosos parámetros dramáticos posibles en forma de etiquetas de lenguaje de marcación (realizadas en XML por ejemplo) u otros atributos. Por ejemplo, otras características musicales tales como el tipo de instrumento (un chelo puede asignarse a un atributo TRISTE/LENTO), y puede definirse una etiqueta descriptiva de género de alto nivel. Numerosos archivos de CD o MP3 tienen descriptores de género asociados a una pista o CD, por ejemplo rock, romántica, trance, etc., y estos pueden recuperarse y asignárseles parámetros dramáticos. www.gracenote.com es un ejemplo de base de datos de música y proveedor de servicios en la que la música se clasifica como rock, electrónica/dance, jazz, etcétera. La música electrónica/dance seleccionada de un servicio de este tipo puede asociarse con un parámetro dramático <FUTURE> o <CYBER> que generalmente indica el género de una historia que puede ser adecuada.

A modo de ejemplo se ilustra ahora cómo tales etiquetas se utilizan para ayudar a construir una historia acompañada por la información de la música. Un consumidor que busca entretenimiento, selecciona tres pistas de música para reproducir¡, pista 1 (TR1), pista 2 (TR2) y pista 3 (TR3) en su PC. Las señales de audio de las pistas se introducen por el dispositivo 122 de entrada a la CPU 102, que determina y extrae características musicales de las señales de audio. La CPU 102, que actúa según instrucciones del programa 110 informático, correlaciona las características (MF) 204 musicales determinadas con parámetros (DP) 206 dramáticos asociados utilizando la tabla 200 (figura 2) y posteriormente construye una tabla 300 tal como se muestra en la figura 3.

La tabla 300, ordenada en el tiempo (para crear una línea TL 304 de tiempo), indica que la CPU 102 ha determinado que la pista 1 empieza con un compás RÁPIDO y tiene un parámetro dramático FELIZ asociado (es decir un tono mayor). Tras esto, la TR2 desentona (característica CNA determinada) y está en un tono menor (con un parámetro dramático TRISTE correspondiente). La pista 3, similar a la pista 1 se ha determinado que sea en general RÁPIDA (compás alto), y en un tono mayor (FELIZ).

Por tanto, se crea una visión general de nivel alto de la selección musical en la que la música envuelve de manera dramática como rápido (COMPÁS TR1), FELIZ (tono mayor), una disonancia (indicando CNA y tono menor tristeza TR2) y un aumento del compás y ambiente feliz para la pista 3. Una vez construida esta visión general dramática de alto nivel, la CPU 102 se conecta entonces al almacén 114 para buscar una estructura de datos de contenga una plantilla de historia con una visión general dramática que coincida aproximadamente.

La figura 4 muestra ejemplos ilustrativos de una colección de plantillas de guiones construidas para su uso con el sistema 100. La colección puede disponerse tal como se muestra en el diagrama según el género (GEN 1, GEN 2, GEN 3). El género puede haberse indicado por el consumidor (a través de la UI 120) o determinarse por ejemplo leyendo etiquetas descriptoras de la música seleccionada tal como se conoce en la técnica. GEN1 puede representar por ejemplo sencillas historias para niños, o de terror, o románticas o cualquier otro género de clasificación de guiones considerado como adecuado. Las plantillas 404 también pueden almacenar otra información tal como cuántos personajes principales o protagonistas son adecuados (tal vez sólo se necesitan 3 para una breve historia romántica que implique un triángulo amoroso).

Las plantillas 404 de guiones tienen asociadas cada una parámetros dramáticos relativos a una estructura narrativa. Por ejemplo, numerosos guiones (en particular películas de Hollywood) siguen una estructura en tres actos en la que el acto I introduce a los personales y la historia, el acto II desarrolla la historia y en el acto III se resuelve la historia. A menudo, al final del acto I hay un episodio instigador que permite la revelación del desarrollo de un personaje. Por tanto, los solicitantes se han dado cuenta de que las transiciones musicales, o cambios de pista pueden emplearse (a través de una detección de CNA, por ejemplo) para desalinear fases de la historia o guión. Por tanto, en la figura 4 la plantilla 1 (ST1) de historia tiene una sencilla estructura narrativa en la que los parámetros dramáticos indican un arco de historia en el que por ejemplo el primer acto es rápido, pasa al acto II feliz y termina con una escena o escenas rápidas para el acto III. Una historia de ejemplo que puede adecuarse a una plantilla de este tipo sería una sencilla para niños en la que unos animales amigos compiten en una carrera, celebran la victoria del ganador, y a continuación vuelven corriendo a casa.

La historia ST2 tiene sin embargo un arco de historia diferente en el que el acto II tiene parámetros dramáticos asociados con escenas tristes y lentas. La variabilidad de las plantillas de historias depende del número de parámetros dramáticos que pueden determinarse por las características musicales en la fase 122. Además, las plantillas de historias pueden almacenar información relativa a la longitud en tiempo de cada acto (y por tanto de la historia global), teniendo las historias breves, digamos, actos aproximadamente iguales a una o dos pistas musicales (6-8 minutos o así de media) mientras que historias más largas pueden tener actos más largos con más parámetros DP dramáticos que indiquen cambios de escena dentro de un acto. Quienes tengan experiencia en la técnica de redacción de historias y guiones pueden definir otros parámetros y reglas de personajes pertenecientes a las plantillas de historias.

En funcionamiento, la CPU 102 compara los DP de las plantillas de historias con los determinados a partir de la selección musical (figura 3) y selecciona una plantilla que se corresponde bastante. Por ejemplo, la comparación de los DP determinados en la figura 3 con la ST2 de la figura 4 revela una coincidencia y por tanto se selecciona ST2. Una vez seleccionada una plantilla 404 de historia la CPU 102 debe entonces rellenar la plantilla ST2 con el contenido real de la historia.

La figura 5 muestra un almacén 114 de ejemplo en forma de una base de datos 500 que almacena una multitud de fragmentos 502 de medios. Un fragmento de medios es una entidad de datos que comprende por ejemplo un segmento codificado de película (en ocasiones denominado toma y en el que varias tomas constituyen una escena). Por tanto el fragmento de medios tiene una cierta duración temporal asociada cuando se reproduce. Los fragmentos 502 están caracterizados por atributos etiquetados relativos a parámetros dramáticos.

El fragmento de medios puede almacenarse como, a modo de ejemplo, un registro XML que comprende una descripción del contenido audiovisual de la escena (por ejemplo género-acción, acto 1, inicio de persecución de coches, 4 minutos) y parámetros dramáticos asociados al contenido de la escena. Por supuesto, al crear los fragmentos una historia global puede desarrollarse con diferentes finales e inicios (por ejemplo, una historia puede empezar con una escena de persecución de coches, o bicicletas) cada uno adecuado para diferentes parámetros dramáticos (COMPÁS). Esto permite el mantenimiento de un cierto presagio de la historia mientras que todavía se permite mostrar diferentes fragmentos dependiendo de determinados parámetros dramáticos de la música. También pueden crearse escenas similares con diferentes duraciones.

Por tanto, el programa informático da instrucciones a la CPU 102 para que busque en la base de datos fragmentos 502 de medios, que se corresponden aproximadamente en cuanto a duración, actos y parámetros dramáticos con la plantilla de historia seleccionada. Los fragmentos se obtienen, ordenan y almacenan en caché en la memoria 106 (o la unidad de disco duro), y posteriormente se emiten con la música. La base de datos 500 también puede almacenar opcionalmente, para mayor comodidad, las plantillas 400 de historias tal como se ilustra en la figura 5.

Por ejemplo, con referencia a la lista de DP generada en la figura 3 y la plantilla de historia (ST2) seleccionada de la figura 4, y en la que se ha indicado un género infantil (tal vez por el propio niño a través de la UI 120). Se buscan fragmentos de historias que tengan la etiqueta de género infantil que coincidan con la línea (TL) de tiempo y los parámetros (DP) dramáticos determinados. Supongamos que la pista 1 (TR1) dura 4 minutos, entonces se busca un fragmento de medios inicial que tenga una combinación DP (RÁPIDO-FELIZ) y que dure aproximadamente 4 minutos. De manera similar, se busca un fragmento de medios (relacionado con el primer fragmento seleccionado) para el acto II que tenga un ritmo más lento y un tema triste y que dure aproximadamente la duración de la pista 2. Finalmente se seleccionan fragmentos de medios etiquetados como que tienen un final rápido/feliz y relacionados con el primer fragmento para su presentación con la pista 3.

Por tanto, una vez identificados y obtenidos fragmentos 502 de medios adecuados, se emite la historia, en esta realización de PC, en el monitor 116 de visualización.

La figura 6 ilustra un diagrama de flujo que muestra las etapas descritas anteriormente. En la etapa 602 se introduce una señal de audio que representa la selección musical (IAS) y se extraen las características musicales (EMF) en la etapa 604. Se genera una lista de parámetros dramáticos que caracterizan la música (GEN DP) en la etapa 606 tras lo cual en la etapa 608 se selecciona una plantilla de historia (ST) y se utiliza junto con los parámetros dramáticos para obtener fragmentos de medios (OMF) apropiados. Finalmente en la etapa 610, se emite la historia (O/P) junto con la selección musical.

Los expertos en la técnica se percatarán de que la historia no tiene que ser contigua. Puede emplearse contenido en forma de viñetas de cómic estilizadas en fragmentos de medios, facilitando así los requisitos de coincidencia en la duración temporal y permitiendo una coincidencia más fácil de la emisión de escenas con momentos dramáticos identificados en la música seleccionada. Tal contenido visual generado por ordenador o de dibujos animados o cómic "pre-enlatado" puede crearse e indexarse de manera relativamente rápida, permitiendo un rápido establecimiento de una base de datos importante que tenga numerosas plantillas de historias y fragmentos de medios disponibles. Los fragmentos pueden almacenarse de manera conveniente, por ejemplo como archivos MPEG enlazados con registros que indexan los archivos en cuanto a parámetros dramáticos, género, personajes, etc.

En el ejemplo anterior, se recuperaba contenido preenlatado para un usuario en función de una plantilla de historia con una línea de tiempo que coincidía aproximadamente con la duración de la selección musical. Sin embargo, una vez seleccionada una plantilla de historia particular, los fragmentos de medios pueden generarse por ordenador durante la ejecución por el procesador 102. Por ejemplo, un fragmento de medios puede contener contenido generado por ordenador en forma de un sencillo dibujo animado para un niño. La correspondencia de los fragmentos con la línea de tiempo de la selección musical se entonces relativamente sencilla puesto que el procesador 102 genera el propio fragmento de medios y su contenido. Por supuesto, la necesidad de plantillas de historias puede obviarse en tal caso, con sencillas reglas (ACT 1, ACT 2, ACT 3, DP- FELIZ, RÁPIDO, FELIZ) facilitando la generación de los fragmentos de los medios que conforman la historia.

En otra realización que ilustra aspectos ventajosos de un sistema con inteligencia ambiental, el módulo representado por la línea discontinua 124 en la figura 1 se implementa como un módulo de inserción en red doméstico 124 con enlaces de red a varios dispositivos 116, 118 de salida que son compatibles con un lenguaje de marcación y un conjunto de instrucciones diseñado para proporcionar experiencias del mundo real. Un ejemplo de un lenguaje de marcación físico (PML) de este tipo se describe en la solicitud de los solicitantes WO 02/092183 en tramitación junto con la presente. El PML comprende medios para crear, comunicar y presentar experiencias a un usuario final de manera que el usuario final experimente un cierto nivel de inmersión en un espacio físico real. Por ejemplo, dispositivos de consumo habilitados para PML tales como HI-FI y sistema de iluminación pueden recibir instrucciones de un dispositivo de red central (las instrucciones pueden estar insertadas en un flujo de vídeo DVD por ejemplo) que hagan que se modifique la emisión de luces o sonido de los dispositivos. Así una escena oscura en una película hace que las luces en casa del consumidor se atenúen apropiadamente.

El PML es en general un lenguaje de marcación descriptivo de alto nivel que puede implementarse en XML con descriptores que se refieren a eventos del mundo real (<luz tenue>). Por tanto, el PML permite que los dispositivos en el hogar aumenten una experiencia para un consumidor de un modo normalizado.

La figura 7 ilustra un diagrama de flujo de PML de ejemplo que implementa aspectos de la presente invención. Se introducen señales (IAS) 700 de audio y se analizan para detectar características (EMF) 702 musicales. Las características se proporcionan al módulo 124 de construcción de historias que genera una tabla de parámetros dramáticos y una línea de tiempo tal como se ha descrito anteriormente. El módulo 124 selecciona una plantilla 400 de historia en función de la tabla generada y obtiene fragmentos 502 de medios adecuados. Los fragmentos (que pueden ser preenlatados o generados durante la ejecución) incluyen descriptores PML así como parámetros dramáticos. Los fragmentos se montan entonces por el módulo 124, y se proporcionan a un interpretador PML (PMLI) 704.

Por tanto, se interpretan las órdenes PML asociadas con los fragmentos y posteriormente se dirigen a dispositivos 706, 708, 710 con PML habilitado en la red doméstica. Por ejemplo, los dispositivos 706, 708 pueden representar un sistema de iluminación PML y un proyector PML. Los dispositivos responden a órdenes PML para así por ejemplo, proyectar niveles de luz cambiante y colores sobre una pared en determinados momentos en la experiencia narrativa y de audio asociada con la música seleccionada y los fragmentos de medios obtenidos. Otros dispositivos 710 tales como ventiladores de sobremesa, o sistemas de aire acondicionado y calefacción pueden controlarse en función de las características dramáticas para aumentar adicionalmente las señales de audio de entrada y la experiencia de historia emitida.

Anteriormente se ha descrito un sistema adecuado para aumentar señales de audio proporcionando una experiencia de historia narrativa. El sistema puede ser en forma de un módulo 124 dedicado, o un ordenador de uso general, que funcione sólo o junto con otros dispositivos en una red doméstica. Características musicales extraídas tales como tono, cambios de tono, compás, etcétera se introducen en el ordenador que relaciona entonces las características con parámetros dramáticos. Se obtienen entonces fragmentos de medios apropiados y posteriormente se emiten y presentan a un usuario. Otros dispositivos de salida pueden utilizarse para mejorar y aumentar adicionalmente la historia.

De la lectura de la presente descripción resultarán evidentes otras modificaciones para los expertos en la técnica. Tales modificaciones pueden implicar otras características que ya se conocen en el diseño, fabricación y uso de sistemas multimedia y piezas componentes de los mismos y que pueden utilizarse en lugar de o además de características ya descritas en la presente memoria sin alejarse del espíritu y alcance de la presente invención. Además, las estructuras narrativas y fragmentos de medios pueden variar de los ejemplos explícitos descritos en la presente memoria sin alejarse del alcance de la presente invención tal como se define por las reivindicaciones adjuntas.

Claims

1. Método para aumentar una señal de audio que comprende:

recibir una señal de audio,

extraer características de dicha señal de audio,

generar una tabla ordenada en el tiempo de parámetros dramáticos según las características extraídas,

obtener fragmentos de medios que incluyen datos de vídeo, al menos en parte en función de la tabla de parámetros dramáticos, y

emitir dichos fragmentos de medios junto con dicha señal de audio.

2. Método según la reivindicación 1, en el que dichas características extraídas de dicha señal de audio incluyen una o más de compás, tono, volumen.

3. Método según la reivindicación 1 ó 2, en el que la generación de dicha tabla de parámetros dramáticos comprende recuperar una lista parámetros dramáticos y características de audio asociadas, comparar y hacer corresponder las características extraídas con las características de audio asociadas recuperadas, e insertar una entrada que comprende el parámetro dramático asociado con la característica de audio.

4. Método según la reivindicación 1, 2 ó 3, en el que dichos parámetros dramáticos incluyen ambiente, cambios de ritmo, episodios.

5. Método según cualquier reivindicación anterior, en el que dicha obtención de dichos fragmentos de medios comprende seleccionar un fragmento de un almacén, estando dicho fragmento almacenado con un parámetro dramático asociado que se corresponde con la respectiva entrada en la tabla de parámetros dramáticos.

6. Método según cualquier reivindicación anterior, en el que dicha obtención de dichos fragmentos de medios comprende generar un fragmento.

7. Método según la reivindicación 5 ó 6, y que comprende además recibir entradas de usuario, afectando dichas entradas de usuario a dicha obtención.

8. Método según cualquier reivindicación anterior, en el que dicha emisión comprende almacenar dichos fragmentos de medios y dicha señal de audio.

9. Método según cualquier reivindicación anterior, en el que dicha emisión comprende presentar dichos fragmentos de medios y dicha señal de audio.

10. Método según cualquier reivindicación anterior, y que comprende además, antes de obtener dichos fragmentos de medios, seleccionar una plantilla de historia al menos en parte en función de dicha tabla de parámetros dramáticos, afectando dicha plantilla de historia a dicha obtención de fragmentos de medios.

11. Método según la reivindicación 10, en el que dicha plantilla de historia comprende datos de parámetros dramáticos relativos a una estructura de historia narrativa.

12. Método según la reivindicación 11, en el que la selección de fragmentos de medios comprende hacer corresponder los parámetros dramáticos de la plantilla de historia seleccionada con los de los fragmentos de medios.

13. Método según la reivindicación 10, 11 ó 12, en el que la plantilla de historia para la selección se genera según las normas de estructura lógica de guiones y la lista de parámetros dramáticos.

14. Método según cualquier reivindicación anterior, en el que los parámetros dramáticos están representados por etiquetas de lenguaje de marcación físicas.

15. Método según cualquier reivindicación anterior, en el que las combinaciones de características extraídas tienen parámetros dramáticos asociados.

16. Sistema para aumentar una señal de audio, que comprende un dispositivo de entrada para recibir una señal de audio y medios de procesamiento para extraer características de dicha señal de audio recibida, para generar una tabla ordenada en el tiempo de parámetros dramáticos asociados con dichas características extraídas, para obtener fragmentos de medios que incluyen datos de vídeo, al menos en parte en función de dicha tabla de parámetros dramáticos generada, y al menos un dispositivo de salida para emitir dichos fragmentos de medios junto con dicha señal de audio.

17. Sistema según la reivindicación 16, que comprende además almacenamiento para almacenar dichos fragmentos de medios.

18. Sistema según la reivindicación 16 ó la reivindicación 17, en el que dicho al menos un dispositivo de salida comprende medios de visualización en los que se visualizan dichos fragmentos de medios.

19. Sistema según cualquiera de las reivindicaciones 16, 17 ó 18, en el que dicho al menos un dispositivo de salida responde a instrucciones asociadas con dichos parámetros dramáticos.

20. Código de programa sobre un soporte que cuando se ejecuta por un procesador hace que dicho procesador realice todas las etapas de cualquiera de los métodos de las reivindicaciones 1 a 15.