ES2742853T3 - Aparato y procedimiento para la descomposición directa-ambiental de multicanal para el procesamiento de señales de audio - Google Patents

Aparato y procedimiento para la descomposición directa-ambiental de multicanal para el procesamiento de señales de audio Download PDF

Info

Publication number
ES2742853T3
ES2742853T3 ES13788708T ES13788708T ES2742853T3 ES 2742853 T3 ES2742853 T3 ES 2742853T3 ES 13788708 T ES13788708 T ES 13788708T ES 13788708 T ES13788708 T ES 13788708T ES 2742853 T3 ES2742853 T3 ES 2742853T3
Authority
ES
Spain
Prior art keywords
input channel
audio input
signal
spectral density
power spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13788708T
Other languages
English (en)
Inventor
Christian Uhle
Emanuel Habets
Patrick Gampp
Michael Kratz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2742853T3 publication Critical patent/ES2742853T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

Un aparato para generar una o más señales de canal de salida de audio dependiendo de dos o más señales de canal de entrada de audio, en el que cada una de las dos o más señales de canal de entrada de audio comprende porciones de señal directa y porciones de señal ambiental, donde el aparato comprende: una unidad de determinación de filtro (110) para determinar un filtro mediante la estimación de primera información de densidad espectral de potencia y mediante la segunda estimación de información de densidad espectral de potencia, en la que el filtro depende de la primera información de densidad espectral de potencia y de la segunda información de densidad espectral de potencia, y un procesador de señales (120) para generar una o más señales de canal de salida de audio mediante la aplicación del filtro a las dos o más señales de canal de entrada de audio, en el que una o más señales de canal de salida de audio depende del filtro, en el que la unidad de determinación de filtro (110) está configurada para estimar la primera información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia sobre dicha señal de canal de entrada de audio y la unidad de determinación de filtro (110) está configurada para estimar la segunda información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia sobre las porciones de señal ambiental de dicha señal de canal de entrada de audio, o en el que la unidad de determinación de filtro (110) está configurada para estimar la primera información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia en dicha señal de canal de entrada de audio, y la unidad de determinación de filtro (110) está configurada para estimar la segunda información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia en las porciones de señal directa de dicha señal de canal de entrada de audio, o en el que la unidad de determinación de filtro (110) está configurada para estimar la primera información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia en las porciones de señal directa de dicha señal de canal de entrada de audio, y la unidad de determinación de filtro (110) está configurada para estimar la segunda información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia en las porciones de señal ambiental de dicha señal de canal de entrada de audio.

Description

DESCRIPCIÓN
Aparato y procedimiento para la descomposición directa-ambiental de multicanal para el procesamiento de señales de audio
[0001] La presente invención se refiere a un aparato y procedimiento para la descomposición directa-ambiental de multicanal para el procesamiento de señales de audio.
[0002] El procesamiento de señales de audio está cobrando cada vez más importancia. En este campo, la separación de señales de sonido en señales de sonido directo y ambiental cumple una función importante.
[0003] En general, los sonidos acústicos consisten en una mezcla de sonidos directos y sonidos ambientales (o difusos). Los sonidos directos son emitidos por fuentes de sonido, por ejemplo, un instrumento musical, un vocalista o un altavoz, y llegan por el trayecto más corto posible al receptor, por ejemplo, la entrada del oído de un oyente o un micrófono.
[0004] Al escuchar un sonido directo, se percibe como procedente de la dirección de la fuente de sonido. Las claves auditivas relevantes para la localización y para otras propiedades de sonido espacial son la diferencia de nivel interaural, la diferencia de tiempo interaural y la coherencia interaural. Las ondas de sonido directo que evocan la diferencia de nivel interaural y la diferencia de tiempo interaural idénticas se perciben como procedentes de la misma dirección. En ausencia de sonido difuso, las señales que llegan al oído izquierdo y al derecho, o a cualquier otra multitud de sensores son coherentes.
[0005] Por el contrario, los sonidos ambientales son emitidos por numerosas fuentes de sonido separadas o límites de reflexión de sonido que contribuyen al mismo sonido ambiental. Cuando una onda de sonido llega a la pared de un recinto, una porción de ésta se refleja y la superposición de todas las reflexiones en un recinto, la reverberación, es un ejemplo destacado para el sonido ambiental. Otros ejemplos son los sonidos de audiencias (por ejemplo, aplausos), sonidos del medio ambiente (por ejemplo, lluvia) y otros sonidos de fondo (por ejemplo, ruido de murmullo). Los sonidos ambientales son percibidos por el oyente como difusos, sin poderse ubicar, y evocan una impresión de envolvimiento (de estar “inmerso en el sonido”). Al capturar un campo de sonido ambiental utilizando una multitud de sensores espaciados, las señales registradas son al menos parcialmente incoherentes.
[0006] Diversas aplicaciones de post-producción y reproducción de sonido se benefician con la descomposición de las señales de audio en componentes de señal directa y componentes de señal ambiental. El principal desafío para ese tipo de procesamiento de señales consiste en obtener una alta separación manteniendo una alta calidad de sonido para un número arbitrario de señales de canal de entrada y para todas las posibles características de la señal de entrada. La descomposición directa-ambiental (DAD), es decir, la descomposición de las señales de audio en componentes de señal directa y componentes de señal ambiental, habilita la reproducción o modificación separada de los componentes de señal, lo que resulta conveniente, por ejemplo, para la mezcla ascendente de las señales de audio.
[0007] El término mezcla ascendente se refiere al procedimiento de crear una señal con P canales dada una señal de entrada con N canales, donde P > N. Su principal aplicación es la reproducción de señales de audio mediante el uso de configuraciones de sonido envolvente con más canales que los disponibles en la señal de entrada. La reproducción del contenido mediante el uso de algoritmos avanzados de procesamiento de señales permite al oyente utilizar todos los canales disponibles de la configuración de reproducción de sonido de multicanal. Tal procesamiento puede descomponer la señal de entrada en componentes significativos de señal (por ejemplo, basándose en su posición percibida en la imagen estéreo, los sonidos directos versus sonidos ambientales, instrumentos individuales) o en señales en las que estos componentes de señal están atenuados o intensificados.
[0008] Se conocen ampliamente dos conceptos de mezcla ascendente.
1. Mezcla ascendente guiada: mezcla ascendente con información adicional que guía el procedimiento de mezcla ascendente. La información adicional puede estar “codificada” de una manera específica en la señal de entrada o puede ser almacenada adicionalmente.
2. Mezcla ascendente no guiada: se obtiene la señal de salida de la señal de entrada de audio exclusivamente sin información adicional alguna.
[0009] Los procedimientos avanzados de mezcla ascendente se pueden categorizar adicionalmente con respecto al posicionamiento de las señales directas y ambientales. Se distingue entre la “estrategia de directo/ambiente” y la estrategia “en la banda”. El componente central de las técnicas basadas en el concepto directo/ambiente es la extracción de una señal ambiental que es alimentada, por ejemplo, a los canales traseros o los canales de altavoz alto de una configuración de sonido envolvente de multicanal. La reproducción del ambiente mediante el uso de los canales traseros o de altavoz alto evoca en el oyente una impresión de envolvimiento (de estar “inmerso en el sonido”). Además, las fuentes de sonido directo se pueden distribuir entre los canales delanteros según su posición percibida en el panorama estéreo. Por el contrario, concepto estrategia “en la banda” tiene como fin colocar todos los sonidos (sonido directo, así como los sonidos ambientales) alrededor del oyente utilizando todos los altavoces disponibles.
[0010] En La descomposición de una señal de audio en señales directas y ambientales también habilita la modificación separada de los sonidos ambientales o sonidos directos, por ejemplo, mediante su escalado o filtrado. Un caso habitual es el procesamiento de una grabación de una interpretación musical que ha sido capturada con una cantidad demasiado elevada de sonido ambiental. Otro caso habitual es la producción de audio (por ejemplo, para el sonido o música de películas), donde se combinan las señales de audio capturadas en diferentes ubicaciones y, por lo tanto, con diferentes características de sonido ambiental.
[0011] En cualquier caso, los requisitos para ese procesamiento de señales consisten en obtener una alta separación manteniendo al mismo tiempo una alta calidad del sonido de un número arbitrario de señales de canal de entrada y para todas las posibles características de las señales de entrada.
[0012] En la técnica anterior se han dado a conocer varios conceptos para DAD o para atenuar o intensificar los componentes de señal directa o los componentes de señal ambiental y se revisan brevemente a continuación.
[0013] Los conceptos conocidos se relacionan con el procesamiento de señales de voz con el propósito de eliminar el ruido de fondo perjudicial de las grabaciones con micrófono.
[0014] En [1] se describe un procedimiento para atenuar la reverberación de las grabaciones de voz con dos canales de entrada. Los componentes de señal de reverberación se reducen atenuando los componentes de señal no correlacionados (o difusos) en la señal de entrada. El procesamiento se implementa en el dominio de tiempofrecuencia de tal manera que las señales de subbanda se procesen por medio del procedimiento de ponderación espectral. Los factores de ponderación de valor real se calculan empleando las densidades espectrales de potencia (PSD)
Figure imgf000003_0001
<f>yy(m,k) = E {Y (m ,k )Y * (m ,k ) } {2)
0xy(m. k ) = E { X ( m , k ) Y * ( m , fc )}-(3)
donde X(m,k) e Y(m,k) denotan representaciones en el dominio de tiempo-frecuencia de las señales de entrada en el domino de tiempo xt[n] e yt[n], E{} es la operación de expectativa y X* es el conjugado complejo de X.
[0015] Los autores originales señalan que diferentes funciones de ponderación espectral son viables cuando son proporcionales a ^^(m.k), por ejemplo, cuando se utilizan ponderaciones ¡guales a la función de correlación cruzada normalizada (o función de coherencia)
Figure imgf000003_0002
[0016] Siguiendo una línea de razonamiento similar, la descripción del procedimiento en [2] extrae una señal ambiental utilizando ponderación espectral con ponderaciones derivadas de la función de correlación cruzada normalizada calculada en bandas de frecuencia, véase la Fórmula (4) (o con los términos textuales de los autores originales, “la función de coherencia intercanal de corto tiempo”). La diferencia comparada con [1] es que en lugar de atenuar los componentes de señal difusa, se atenúan los componentes de señal directa utilizando las ponderaciones espectrales que son una función estable monótona de (1 - p(m, k)).
[0017] La descomposición para la aplicación de la mezcla ascendente de las señales de entrada con dos canales mediante el uso del filtrado Wiener de multicanal se ha descrito en [3]. El procesamiento se realiza en el dominio de tiempo-frecuencia. La señal de entrada se modela como mezcla de la señal ambiental y una fuente directa activa (por banda de frecuencia), donde la señal directa en un canal se limita a representar una copia en escala del componente de señal directa en el segundo canal, es decir, paneo en amplitud. El coeficiente de paneo y las potencias de la señal directa y la señal ambiental se estiman utilizando la correlación cruzada normalizada y las potencias de las señales de entrada en ambos canales. La señal de salida directa y las señales de salida ambiental se derivan de las combinaciones lineales de las señales de entrada, con coeficientes de valor real. Se aplica un post-escalado adicional de tal manera que la potencia de las señales de salida sea igual a las cantidades estimadas.
[0018] El procedimiento descrito en [4] extrae una señal ambiental mediante el uso de ponderación espectral, sobre la base de un cálculo estimativo de la potencia ambiente. La potencia ambiente se estima sobre la base de presunciones de que los componentes de señal directa en ambos canales estén completamente correlacionados, de que las señales ambientales de canal no estén correlacionadas entre sí y con las señales directas, y que las potencias ambiente en ambos canales sean iguales.
[0019] En [5] se describe un procedimiento para la mezcla ascendente de señales estéreo basadas en la Codificación de Audio Direccional (DirAC). DirAC tiene como fin analizar y reproducir la dirección de llegada, la difusión y el espectro de un campo sonoro. Para la mezcla ascendente de señales de entrada estéreo, se simulan grabaciones anecoicas en formato B de las señales de entrada.
[0020] En [6] se describe un procedimiento para extraer reverberación no correlacionada de señal de audio estéreo mediante el uso de un algoritmo de filtro adaptativo que tiene como fin predecir el componente de señal directa en una señal de canal mediante el uso de la otra señal de canal por medio de un algoritmo de Mínimos Cuadrados (LMS). Posteriormente se derivan las señales ambientales mediante la sustracción de las señales directas estimadas de las señales de entrada. El fundamento de esta estrategia es que la predicción solo funciona para señales correlacionadas y que el error de predicción se asemeja a la señal no correlacionada. Existen diversos algoritmos de filtro adaptativo basados en el principio de LMS y son viables, por ejemplo, el algoritmo de LMS o de LMS Normalizados (NLMS).
[0021] Para la descomposición de las señales de entrada con más de dos canales, se describe un procedimiento en [7] donde en primer lugar se realiza la mezcla descendente de las señales de multicanal para obtener una señal estéreo de 2 canales y posteriormente se aplica un procedimiento para el procesamiento de señales de entrada estéreo presentado en [3].
[0022] En cuanto al procesamiento de señales monoaurales, el procedimiento descrito en [8] extrae una señal ambiental mediante el uso de ponderación espectral, donde las ponderaciones espectrales se calculan empleando la extracción de características y aprendizaje supervisado.
[0023] Otro procedimiento para extraer una señal ambiental de grabaciones monoaurales para la aplicación de la mezcla ascendente obtiene la representación en el dominio de tiempo-frecuencia de la diferencia de la representación en el dominio de tiempo-frecuencia de la señal de entrada y una versión comprimida de la misma, preferentemente calculada utilizando factorización no negativa de matrices [9].
[0024] En [10] se describe un procedimiento para extraer y cambiar los componentes de señal reverberante de una señal de audio sobre la base de una estimación de la función de transferencia de magnitud del sistema reverberante que ha generado la señal reverberante. Se deriva una estimación de las magnitudes de la representación en el dominio de frecuencia de los componentes de señal por medio de filtrado recursivo y puede ser modificada.
[0025] El documento WO 2011/104146 A1 describe un aparato para generar una señal de mezcla descendente mejorada sobre la base de una señal de micrófono multicanal que comprende un analizador espacial configurado para calcular un conjunto de parámetros de señal espacial que comprende una información de dirección que describe una dirección de llegada de un sonido directo, una información de potencia de sonido directo y una información de potencia de sonido difuso sobre la base de la señal de micrófono multicanal.
[0026] lain McCowan et al: “Post-filtro de matriz de micrófonos para ruido difuso archivado”, Conferencia Internacional de IEEE sobre acústica, habla y procesamiento de señales 2002. Procedimientos. (ICASSP) Orlando, FL, del 13 al 17 de mayo de 2002; [IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (Conferencia Internacional de IEEE sobre acústica, habla y procesamiento de señales)], Nueva York, NY, IEEE, EE.UU., 13 de mayo de 3002, páginas I905, describe una técnica para estimar la densidad espectral de potencia de señal que se utilizará en la función de transferencia de un post-filtro de matriz de micrófonos. La técnica es una generalización del post-filtro Zelinski existente, que utiliza las densidades espectrales automáticas y cruzadas de las entradas de matriz para estimar las densidades espectrales de señal y ruido.
[0027] Andreas Walther y col. al.: “Descomposición ambiental directa y mezcla ascendente de señales envolventes”, Aplicaciones del procesamiento de señales para audio y acústica (WASPAA), Taller IEEE 2011 sobre, IEEE, 16 de octubre de 2011, páginas 277 - 280, describe un procedimiento, que estima componentes de señal ambiental y directa en una mezcla descendente de una señal envolvente dada. Esas estimaciones se utilizan entonces para calcular filtros para obtener señales envolventes directas y ambientales. También se describen estrategias sobre cómo usar las señales descompuestas para la mezcla ascendente de señales de audio envolvente en dos y tres dimensiones.
[0028] El objetivo de la presente invención es proporcionar conceptos mejorados para descomposición directaambiental de multicanal para el procesamiento de señales de audio. El objetivo de la presente invención se soluciona mediante un aparato según la reivindicación 1, mediante un procedimiento según la reivindicación 14 y mediante un programa informático según la reivindicación 15.
[0029] Se proporciona un aparato para generar una o más señales de canal de salida de audio dependiendo de dos o más señales de canal de entrada de audio según la reivindicación 1. Cada una de las dos o más señales de canal de entrada de audio comprende porciones de señal directa y porciones de señal ambiental. El aparato comprende una unidad de determinación de filtros para determinar un filtro mediante la estimación de primera información de densidad espectral de potencia y mediante la segunda estimación de información de densidad espectral de potencia. Además, el aparato comprende un procesador de señales para generar una o más señales de canal de salida de audio mediante la aplicación del filtro a las dos o más señales de canal de entrada de audio. La primera información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio y la segunda información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio. O bien la primera información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio y la segunda información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal directa de las dos o más señales de canal de entrada de audio. O bien, la primera información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal directa de las dos o más señales de canal de entrada de audio y la segunda información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio.
[0030] Las formas de realización proporcionan conceptos para descomponer señales de entrada de audio en componentes de señal directa y componentes de señal ambiental, que se pueden aplicar a la post-producción y reproducción de sonido. El principal desafío en ese tipo de procesamiento de señales consiste en obtener una alta separación y al mismo tiempo mantener una alta calidad de sonido con respecto a un número arbitrario de señales de canal de entrada y con respecto a todas las características posibles de las señales de entrada. Los conceptos proporcionados se basan en el procesamiento de señales de multicanal en el dominio de tiempo-frecuencia, que lleva a una solución óptima limitada en el sentido del error cuadrático medio y, por ejemplo sujeto a restricciones en cuanto a la distorsión de las señales estimadas pretendidas o a la reducción de la interferencia residual.
[0031] Se proporcionan formas de realización para la descomposición de señales de entrada de audio en componentes de señal directa y componentes de señal ambiental. Además, se describe una derivación de filtros para calcular los componentes de señal ambiental y asimismo, formas de realización para la aplicación de los filtros.
[0032] Algunas formas de realización se relacionan con la mezcla ascendente no guiada siguiendo la estrategia de directo/ambiente con señales de entrada que tienen más de un canal.
[0033] Para las aplicaciones contempladas de la descomposición descrita, el interés está en el cálculo de señales de salida con el mismo número de canales que las señales de entrada. Para esta aplicación, las formas de realización ofrecen muy buenos resultados en términos de separación y calidad del sonido, puesto que puede hacer frente a señales de entrada donde las señales directas tienen retardo de tiempo entre los canales de entrada. A diferencia de otros conceptos, por ejemplo los conceptos presentados en [3], las formas de realización no asumen que los sonidos directos incluidos en las señales de entrada se panean solo mediante escalado (paneo en amplitud), sino también mediante la introducción de diferencias de tiempo entre las señales directas de cada canal.
[0034] Además, las formas de realización pueden operar sobre señales de entrada con un número arbitrario de canales, a diferencia de todos los demás conceptos de la técnica anterior (véase más arriba), que solo pueden procesar señales de entrada con uno o dos canales.
[0035] Otras ventajas de las formas de realización son el uso de parámetros de control, la estimación de la matriz PSD ambiente y otras modificaciones del filtro, como se describe más adelante.
[0036] Algunas formas de realización proporcionan sonidos ambientales constantes para todos los objetos sonoros de entrada. Al descomponer las señales de entrada en sonidos directos y ambientales, algunas formas de realización adaptan las características del sonido ambiental por medio del procesamiento apropiado de las señales de audio y otras formas de realización reemplazan los componentes de señal ambiental por medio de reverberación artificial y otros sonidos ambientales artificiales.
[0037] Según una forma de realización, el aparato puede comprender además un banco de filtros de análisis que está configurado para transformar las dos o más señales de canal de entrada de audio del dominio de tiempo a un dominio de tiempo-frecuencia. La unidad de determinación de filtros puede estar configurada para determinar el filtro mediante la estimación de la primera información de densidad espectral de potencia y la segunda información de densidad espectral de potencia dependiendo de las señales de canal de entrada de audio, que están representadas en el dominio de tiempo-frecuencia. El procesador de señales puede estar configurado para generar una o más señales de canal de salida de audio, que están representadas en un dominio de tiempo-frecuencia, mediante la aplicación del filtro a las dos o más señales de canal de entrada de audio, que están representadas en el dominio de tiempofrecuencia. Asimismo, el aparato puede comprender además un banco de filtros de síntesis que está configurado para transformar una o más señales de canal de salida de audio, que están representadas en un dominio de tiempofrecuencia, del dominio de tiempo-frecuencia al dominio de tiempo.
[0038] Además, se proporciona un procedimiento para generar una o más señales de canal de salida de audio dependiendo de dos o más señales de canal de entrada de audio según la reivindicación 14. Cada una de las dos o más señales de canal de entrada de audio comprende porciones de señal directa y porciones de señal ambiental. El procedimiento comprende:
- Determinación de un filtro mediante la estimación de la primera información de densidad espectral de potencia y mediante la segunda estimación de información de densidad espectral de potencia y:
- Generación de una o más señales de canal de salida de audio mediante la aplicación del filtro a las dos o más señales de canal de entrada de audio.
[0039] La primera información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio y la segunda información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio. O bien la primera información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio y la segunda información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal directa de las dos o más señales de canal de entrada de audio. O bien la primera información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal directa de las dos o más señales de canal de entrada de audio y la segunda información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio.
[0040] Asimismo, se proporciona un programa informático para implementar el procedimiento antes descrito al ejecutarse en un ordenador o un procesador de señales según la reivindicación 15.
[0041] A continuación se describen las formas de realización de la presente invención en forma más detallada con referencia a las figuras, en las cuales:
la figura 1 ilustra un aparato para generar una o más señales de canal de salida de audio dependiendo de dos o más señales de canal de entrada de audio según una forma de realización,
la figura 2 ilustra señales de entrada y salida de la descomposición de una grabación con 5 canales de música clásica, con señales de entrada (columna izquierda), señales de salida ambiental (columna central) y señales de salida directa (columna derecha) según una forma de realización,
la figura 3 ilustra un resumen general básico de la descomposición que utiliza la estimación de señales ambientales y la estimación de señales directas según una forma de realización,
la figura 4 ilustra un resumen general básico de la descomposición que utiliza la estimación de señales directas según una forma de realización,
la figura 5 ilustra un resumen general básico de la descomposición que utiliza la estimación de señales ambiente según una forma de realización,
la figura 6a ilustra un aparato según otra forma de realización, en la que el aparato comprende además un banco de filtros de análisis y un banco de filtros de síntesis, y
la figura 6b representa un aparato según otra forma de realización, que muestra la extracción de los componentes de señal directa, en la que el bloque AFB es una serie de N bancos de filtros de análisis (uno por cada canal), y en la que SFB es una serie de bancos de filtros de síntesis.
[0042] La figura 1 ilustra un aparato para generar una o más señales de canal de salida de audio dependiendo de dos o más señales de canal de entrada de audio según una forma de realización. Cada una de las dos o más señales de canal de entrada de audio comprende porciones de señal directa y porciones de señal ambiental.
[0043] El aparato comprende una unidad de determinación de filtros 110 para determinar un filtro mediante la estimación de primera información de densidad espectral de potencia y mediante la segunda estimación de información de densidad espectral de potencia.
[0044] Asimismo, el aparato comprende un procesador de señales 120 para generar una o más señales de canal de salida de audio mediante la aplicación del filtro a las dos o más señales de canal de entrada de audio.
[0045] La primera información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio y la segunda información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio.
[0046] bien, la primera información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio y la segunda información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal directa de las dos o más señales de canal de entrada de audio.
[0047] bien, la primera información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal directa de las dos o más señales de canal de entrada de audio y la segunda información de densidad espectral de potencia indica la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio.
[0048] Se describen formas de realización que proporcionan conceptos para descomponer señales de entrada de audio en componentes de señal directa y componentes de señal ambiental que se pueden aplicar para la post­ producción y reproducción de sonido. El principal desafío para ese tipo de procesamiento de señales consiste en obtener una alta separación manteniendo una alta calidad de sonido para un número de señales de canal de entrada y para todas las posibles características de la señal de entrada. Las formas de realización presentadas se basan en el procesamiento de señales de multicanal en el dominio de tiempo-frecuencia y ofrecen una solución óptima en el sentido del error cuadrático medio sometido a las restricciones sobre la distorsión de las señales estimadas deseadas o sobre la reducción de la interferencia residual.
[0049] En primer lugar se describen los conceptos de la invención en los cuales se basan las formas de realización de la presente invención.
[0050] Se asume que se reciben N señales de canal de entrada yí[n]:
Figure imgf000007_0001
[0051] Por ejemplo, N > 2. El objetivo de los conceptos presentados es descomponer las señales de canal de entrada yi[n] ... yN[n] ( = [yt[n]]7) en N componentes de señal directa indicados por dí[n] = [di[n] ... dN[n]]7 y/o N componentes de señal ambiental indicados por at[n] = [ai[n] ... a^n]]7 El procesamiento se puede aplicar para todos los canales de entrada, o se pueden dividir los canales de la señal de entrada en subconjuntos de canales que se procesan por separado.
[0052] Según las formas de realización, se estima uno o más de los componentes de señal directa di[n], ..., dN[n] y/o uno o más de los componentes de señal ambiental ai[n], ..., aN[n] sobre la base de las dos o más señales de canal de entrada yi[n], ..., yN[n] para obtener una o más estimaciones ( d N [n ] , ctN [n ] ) de los componentes de señal directa di[n], ..., dN[n] y/o de los componentes de señal ambiental ai[n], ..., aN[n] como una o más señales de canal de salida.
[0053] En la figura 2 se ilustra un ejemplo de las salidas proporcionadas en algunas formas de realización, para T
N = 5. Una o más señales de canal de salida de audio d i [n ],...,cIn [n ] (= [d t[n ]]
Figure imgf000007_0002
[a t [n ] ] T ) se obtienen estimando los componentes de señal directa y los componentes de señal ambiental de forma independiente, como se ilustra en la figura 3. Por otro lado, se hace un cálculo estimativo (d t [n] o at [n ] ) con respecto a una de las dos señales (dt[n] o at[n]) y la otra señal se obtiene restando el primer resultado de la señal de entrada. La figura 4 ilustra el procesamiento para estimar los componentes de señal directa dt[n] en primer lugar y derivar los componentes de señal ambiental aí[n] restando el cálculo estimativo de las señales directas de la señal de entrada. Con un razonamiento similar, se puede derivar la estimación de los componentes de señal ambiental en primer lugar según lo ilustrado en el diagrama de bloques de la figura 5.
[0054] Según las formas de realización, el procesamiento se puede realizar, por ejemplo, en el dominio de tiempo-frecuencia. Se puede obtener una representación en el dominio de tiempo-frecuencia de la señal de entrada de audio, por ejemplo, por medio de un banco de filtros (el banco de filtros de análisis), por ejemplo la transformada de Fourier de Tiempo Reducido (STFT).
[0055] Según una forma de realización ilustrada en la figura 6a, un banco de filtros de análisis 605 transforma las señales de canal de entrada de audio yí[n] del dominio de tiempo al dominio de tiempo-frecuencia. Asimismo, en la figura 6a, un banco de filtros de síntesis 625 transforma la estimación de los componentes de señal directa d [m ,1 ],...,d [m ,k ] del dominio de tiempo-frecuencia al dominio de tiempo, para obtener las señales de canal de salida de audio d i[n ] , ... ,d N [n ] (= [d t [n ] ] ).
[0056] En la forma de realización de la figura 6a, el banco de filtros de análisis 605 está configurado para transformar las dos o más señales de canal de entrada de audio del dominio de tiempo a un dominio de tiempofrecuencia. La unidad de determinación de filtros 110 está configurada para determinar el filtro mediante la estimación de la primera información de densidad espectral de potencia y la segunda información de densidad espectral de potencia dependiendo de las señales de canal de entrada de audio, que están representadas en el dominio de tiempofrecuencia. El procesador de señales 120 está configurado para generar una o más señales de canal de salida de audio, que están representadas en un dominio de tiempo-frecuencia, mediante la aplicación del filtro a las dos o más señales de canal de entrada de audio, que están representadas en el dominio de tiempo-frecuencia. El banco de filtros de síntesis 625 está configurado para transformar una o más señales de canal de salida de audio, que están representadas en un dominio de tiempo-frecuencia, del dominio de tiempo-frecuencia al dominio de tiempo.
[0057] Una representación en el dominio de tiempo-frecuencia comprende un cierto número de señales de subbanda que evolucionan con el tiempo. Opcionalmente se pueden combinar las subbandas adyacentes en forma lineal formando señales de subbanda más amplias para reducir la complejidad informática. Cada subbanda de las señales de entrada es procesada por separado, como se describe en detalle a continuación. Se obtienen señales de salida en el dominio de tiempo aplicando el procesamiento inverso del banco de filtros, es decir el banco de filtros de síntesis, respectivamente. Se asume que todas las señales tienen media cero, las señales en el dominio de tiempofrecuencia pueden ser modeladas en forma de variables aleatorias complejas.
[0058] A continuación se proporcionan definiciones y supuestos.
[0059] Las siguientes definiciones se utilizan en toda la descripción del procedimiento ideado. La representación en el dominio de tiempo-frecuencia de una señal de entrada de multicanal con N canales está dada por
Figure imgf000008_0001
donde el índice de tiempo m y el índice de subbanda k, k = 1 ... K y se presume que es una mezcla aditiva del componente de señal directa d(m, k) y el componente de señal ambiental a(m, k), es decir
y (m , k) = d (m , k ) a (m , k), (7)
donde
d(m. k) = [. Di(m , k) D2{m. k ) • • • Djv(m, k)}T (8) a(m. k) = [.Ai(m , k ) A2(m, k ) • • • Anim, k)]T . (g) donde D(m,k) denota el componente directo y A(m,k) el componente ambiental del canal.
[0060] El objetivo de la descomposición directa-ambiental es estimar d(m,k) y a(m,k). Las señales de salida se calculan utilizando las matrices de filtros HD(m,k) o HA(m,k) o ambas. Las matrices de filtros son de un tamaño N * N y son de valor complejo o, en algunas formas de realización, pueden ser, por ejemplo, de valor real. Se obtiene un cálculo estimativo de las señales de N-canales de los componentes de señal directa y los componentes de señal ambiental de
d (m, k) = H¡J (m, k)y(m , A:) (10)
á(m, k) H 'í (m, fe)y(m, fe), (11)
[0061] Por otro lado, solo se puede emplear una matriz de filtros, y la substracción ilustrada en la figura 4 se puede expresar de la siguiente manera
Figure imgf000009_0001
donde I es la matriz de identidad del tamaño N x N, o, como se ilustra en la figura 5, como
Figure imgf000009_0002
d(m,fe) = [ I - H >i(m ,fe)]H y(m ,fe)> (15)
respectivamente. En este caso, el superíndice H denota la transposición conjugada de una matriz o un vector. La matriz de filtros Ho(m,k) se utiliza para ejecutar cálculos estimativos correspondientes a las señales directas d (m ,k ) . La matriz de filtros H¿(m,k) se utiliza para hacer cálculos estimativos correspondientes a las señales ambiente a(m, k ).
[0062] En las Fórmulas anteriores (10) - (15), y(m,k) indica las dos o más señales de canal de entrada de audio. a(m , k ) indica una estimación de las porciones de señal ambiental y d(m , k ) indica una estimación de las porciones de señal directa de las señales de canal de entrada de audio, respectivamente. a(m , k ) y/o d(m , k ) o uno más componentes de vector de a(m, k ) y/o d(m , k ) pueden ser una o más señales de canal de salida de audio.
[0063] El procesador de señales 120 de la figura 1 y la figura 6a pueden emplear una, algunas o todas las Fórmulas (10), (11), (12), (13), (14) y (15) 120 de la figura 1 y la figura 6a para aplicar el filtro de la figura 1 y la figura
6a a las señales de canal de entrada de audio. El filtro de la figura 1 y la figura 6a puede ser, por ejemplo, Ho(m,k), (m,k), H H D (m ,k ) H , H A (m ,k ) , [I - Ho(m,k)] o [I - HA(m,k)]. En otras formas de realización, determinado por la unidad de determinación de filtros 110 y empleado por el procesador de señales 120, puede no ser una matriz sino otro tipo de filtro. Por ejemplo, en otras formas de realización, el filtro puede comprender uno o más vectores que definen el filtro. En otras formas de realización, el filtro puede comprender una pluralidad de coeficientes que definen el filtro.
[0064] Las matrices de filtros se calculan a partir de los cálculos estimativos de las estadísticas de la señal, como se describe más adelante.
[0065] En particular, la unidad de determinación de filtros 110 está configurada para determinar el filtro mediante la estimación de la primera información de densidad espectral de potencia (PSD) y la segunda información
PSD.
[0066] Define:
Figure imgf000009_0003
donde E{} es el operador de expectativa y X* denota el conjugado complejo de X. En el caso de i = j la PSD y para i
t j se obtienen las PSD cruzadas.
[0067] Las matrices de covarianza correspondientes a y(m, k), d(m,k) y a(m,k) son
Figure imgf000010_0004
[0068] Las matrices de covarianza O y (m,k), O d (m,k) y O a (m,k) comprenden estimaciones de la PSD correspondiente a todos los canales de la diagonal principal, mientras que los elementos fuera de la diagonal son estimaciones de la PSD cruzada de las señales de los respectivos canales. Por consiguiente, cada una de las matrices O y (m,k), O d (m,k) y O a (m,k) representa una estimación de la información de densidad espectral de potencia.
[0069] En las Fórmulas (17) -(19), O y (m,k) indica una información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio. O d (m,k) indica una información de densidad espectral de potencia sobre los componentes de señal directa de las dos o más señales de canal de entrada de audio. O a (m,k) indica una información de densidad espectral de potencia sobre los componentes de señal ambiental de las dos o más señales de canal de entrada de audio.
[0070] Cada una de las matrices O y (m,k), O d (m,k) y O a (m,k) de las Fórmulas (17), (18) y (19) se puede considerar información de densidad espectral de potencia. No obstante, se debe tener en cuenta que en otras formas de realización, la primera y la segunda información de densidad espectral de potencia no son una matriz, sino que pueden estar representadas en cualquier otro tipo de formato adecuado. Por ejemplo, según ciertas formas de realización, la primera y/o la segunda información de densidad espectral de potencia pueden estar representadas en forma de uno o más vectores. En otras formas de realización, la primera y/o la segunda información de densidad espectral de potencia pueden estar representadas en forma de una pluralidad de coeficientes.
[0071] Se asume que
• D,(m,k) y A(m,k) no están mutuamente correlacionadas:
E { D i ( m , k ) A ) ( m , k ) } = 0 V ¿ , ¿
A(m,k) y Aj (m,k) no están mutuamente correlacionadas:
Figure imgf000010_0001
• La potencia ambiente es igual en todos los canales:
Figure imgf000010_0002
[0072] En consecuencia, surge que
Figure imgf000010_0003
[0073] Como consecuencia de la Fórmula (20) se deduce que cuando se determinan dos matrices de las matrices O y (m,k), O d (m,k) y O a (m,k), entonces la tercera matriz surge inmediatamente. Además, en consecuencia, se deduce que es suficiente determinar únicamente:
- la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio y la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio, o
- la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio y la información de densidad espectral de potencia sobre las porciones de señal directa de las dos o más señales de canal de entrada de audio o
- la información de densidad espectral de potencia sobre las porciones de señal directa de las dos o más señales de canal de entrada de audio y la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio,
puesto que la información de densidad espectral de la tercera potencia (que no ha sido estimada) se torna inmediatamente evidente de la relación de los tres tipos de información de densidad espectral de potencia (por ejemplo, según la Fórmula (20) o según cualquier otra reformulación de la relación de los tres tipos de información de densidad espectral de potencia (PSD de la señal de entrada completa, PSD de los componentes ambiente y PSD de los componentes directos), cuando estos tres tipos de información PSD no están representados en forma de matrices, sino cuando están disponibles en otro tipo de representación adecuada, por ejemplo, en forma de uno o más vectores o, por ejemplo, en forma de una pluralidad de coeficientes, etc.
[0074] Para evaluar la eficiencia del procedimiento ideado, se definen las siguientes señales:
• Distorsión de la señal directa:
Figure imgf000011_0001
• Señal ambiental residual:
Figure imgf000011_0002
• Distorsión de la señal ambiental:
Figure imgf000011_0003
• Señal directa residual:
Figure imgf000011_0004
[0075] A continuación se describe la derivación de las matrices de filtro según la figura 4 y según la figura 5. Para mayor facilidad de lectura se omiten los índices de subbanda y los índices de tiempo.
[0076] En primer lugar se describen formas de realización correspondientes a la estimación de los componentes de señal directa.
[0077] El fundamento del procedimiento ideado es calcular los filtros de tal manera que la señal residual ambiente ra se minimice y al mismo tiempo se limite la distorsión de la señal directa q¿. Esto lleva al problema de optimización restringida
H d (A) = argm H D in£{||ra||2}
(22)
subject to E{ \ \q d\\2} < cr% ,max i
s u je t o a
donde S 2
d ,max es la distorsión máxima admisible de la señal directa. La solución está dada por
Figure imgf000011_0005
[0078] El filtro para el cálculo de la señal directa de salida del i° canal es igual a
Figure imgf000012_0001
donde Ui es un vector nulo de longitud N con 1 en la ia posición. El parámetro Zi habilita una compensación entre la reducción de señal ambiental residual y la distorsión de señal ambiental. En el caso del sistema ilustrado en la figura 4, los niveles más bajos de ambiente residual en la señal de salida directa llevan a niveles ambientes más altos en las señales de salida ambiental. Una menor cantidad de distorsión de las señales directas lleva a una atenuación de los componentes de señal directa de las señales de salida ambiental. El parámetro dependiente del tiempo y la frecuencia Zi puede ser fijado de manera independiente por cada canal y puede ser controlado por las señales de entrada o las señales derivadas de las mismas, como se describe a continuación.
[0079] Cabe señalar que se puede obtener una solución similar formulando el problema de optimización restringida de la siguiente manera
H d (A ) = arg m ili E { || qd ||2}
H d (25)
s u je t o a
Cuando O d es de rango uno, la relación entr F e i S 2
d max y Zi correspondiente a la señal del i° canal se deriva de la siguiente manera
donde (f)D .D . es la PSD de la se
Figure imgf000012_0002
de multicanal (DAR)
A = t r { $ - 1$ d } (27)
Figure imgf000012_0003
donde la traza de una matriz cuadrada A es igual a la suma de los elementos situados en la diagonal principal, tr{K} = N
Z k u (m >k ) .
i=1
[0080] Se debe tener en cuenta que la afirmación, de que O d es de rango uno, es solo un supuesto. Sin importar si en realidad este supuesto es cierto o no, las formas de realización de la presente invención emplean las Fórmulas expuestas (26), (27) y (28), incluso en situaciones en que, en realidad, el resultado exacto de O d es tal que O d no es de rango uno. En esas situaciones, las formas de realización de la presente invención también dan buenos resultados incluso cuando el supuesto de que O d es de rango uno en realidad no es verdad.
[0081] A continuación se describe una estimación de los componentes de señal ambiental.
[0082] El razonamiento detrás del procedimiento ideado es calcular los filtros de tal manera que la señal residual directa rd se minimiza y a la vez se restringe la distorsión de la señal ambiental qa. Esto lleva al problema de optimización restringida
H A (Pi) = argm n .4in£{||rd||2}
(29)
subject to £ { | |q j 2} < ^ >max,
s u je t o a
donde s 2 es la distorsión máxima de la señal ambiental. La solución está dada por
Figure imgf000013_0001
[0083] El filtro para calcular la señal ambiental de salida del canal es igual a
Figure imgf000013_0002
[0084] A continuación, se proporcionan en detalle formas de realización que incorporan los conceptos de la presente invención.
[0085] Para determinar la información de densidad espectral de potencia, por ejemplo, se podría estimar la matriz PSD de las señales de canal de entrada de audio O y directamente utilizando la obtención del promedio móvil
de tiempo reducido o promedio recursivo. La matriz de PSD ambiente O a , puede ser estimada de la manera descrita
a continuación. Entonces se puede obtener la matriz PSD directa O d , por ejemplo, utilizando la Fórmula (20).
[0086] A continuación se asume de nuevo que no hay más de una fuente de sonido directo activa por tiempo en cada subbanda (fuente directa única) y que, en consecuencia, O d es de rango uno.
[0087] Se debe tener en cuenta que las afirmaciones de que no hay más de una fuente de sonido directo activa y que O d es de rango uno son solo supuestos. Independientemente de si estos supuestos son ciertos o no, las formas de realización de la presente invención emplean las siguientes Fórmulas, en particular, las Fórmulas (32) y (33), incluso en situaciones en que, en realidad, hay más de una fuente de sonido directo activa e incluso cuando, en realidad, el resultado exacto de O d es tal que O d no es de rango uno. En esas situaciones, las formas de realización de la presente invención también ofrecen buenos resultados incluso cuando los supuestos de que no hay más de una fuente activa de sonido directo y que O d es de rango uno no son ciertos en realidad.
[0088] Por consiguiente, suponiendo que no hay más de una fuente activa de sonido directo y que O d es de rango uno, la Fórmula (23) se puede expresar de la siguiente manera
Figure imgf000013_0003
[0089] La Fórmula (33) ofrece una solución para el problema de optimización restringida de la Fórmula (22).
[0090] En las anteriores Fórmulas (32) y (33), O es la matriz inversa de O a . Es evidente que O también indica la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio.
[0091] Para determinar H D ( b ) , se tiene que determinar O y O d . Una vez que O a está disponible,
se puede determinar O . A se define según las Fórmulas (27) y (28) y su valor está disponible cuando O y O d
están disponibles. Además de determinar O , O d y A, se debe elegir un valor adecuado para
[0092] Asimismo, la Fórmula (33) puede ser reformulada (véase la Fórmula (20)), de tal manera que:
( O y O d ) O y 1 N x N
H D (Pi ) (33a)
P i + A
y, por consiguiente, solo se tiene que determinar la información PSD O y sobre las señales de canal de entrada de audio y la información PSD O d sobre las porciones de señal directa de las señales de canal de entrada de audio.
[0093] Asimismo, la Fórmula (33) puede ser reformulada (véase la Fórmula (20)), de tal manera que:
Figure imgf000014_0001
y, por consiguiente, de manera que solo se tiene que determinar la información PSD O ,,1 sobre las porciones ambiente de señal de las señales de canal de entrada de audio y la información PSD O d sobre las porciones de señal directa de las señales de canal de entrada de audio.
[0094] Además, la Fórmula (33) puede ser reformulada de tal manera que:
Figure imgf000014_0002
y, por consiguiente, de manera que se determine b A b ) .
[0095] La Fórmula (33c) proporciona una solución para el problema de optimización restringida de la Fórmula (29).
[0096] De manera similar, las Fórmulas (33a) y (33b) pueden ser reformuladas en:
Figure imgf000014_0003
o:
Figure imgf000014_0004
[0097] Se debe tener en cuenta que determinando H D b i ), se obtiene inmediatamente el filtro H A ( b ) de la siguiente manera:
Figure imgf000014_0005
.
[0098] Además, se debe tener en cuenta que determinando H d ( b i ), se obtiene inmediatamente el filtro H d ( b i ) de la siguiente manera:
Figure imgf000014_0006
.
[0099] Como se señala anteriormente, para determinar H d ( b i ), por ejemplo, según la Fórmula (33), se puede determinar O y y O a :
La matriz PSD de las señales de audio O y (m ,k ) puede ser estimada directamente, por ejemplo, por obtención de promedio recursivo
# y ( m . k) = (1 - o ) y {ni. k ) y H (m , k) + a <f>y (in - 1. k), (34a)
donde a es el coeficiente de filtro que determina el tiempo de integración o
por ejemplo, utilizando el promedio ponderado móvil de tiempo reducido
h H
O y (m ,k) = b0 y (m ,k) y (m ,k) b y (m - 1,k ) y ( m - \ k )
H H
+ b2 • y (m - 2,k ) y (m - 2,k) ... bL y (m -L ,k ) y (m -L ,k ) (34b)
donde L es, por ejemplo, el número de valores pasados utilizados para el cálculo de la PSD, y bo ... bL son los coeficientes de filtro que están, por ejemplo, en el rango [01] (por ejemplo, 0 < coeficiente de filtro < 1), o por ejemplo, utilizando el promedio ponderado móvil de tiempo reducido, según la Ecuación (34b) pero con , 1
b = -------- para todos los i = 0... L.
1 L
[0100] Se describe ahora la estimación de la matriz PSD ambiente O a según las formas de realización.
[0101] La matriz PSD ambiente O a está dada por
Figure imgf000015_0001
donde I NxN es la matriz de identidad de tamaño N * N . f es, por ejemplo, un número.
[0102] Una solución según una forma de realización se obtiene, por ejemplo, utilizando un valor constante, recurriendo a la Fórmula (21) y estableciendo f en una constante positiva real £. La ventaja de esta estrategia es que la complejidad informática es ínfima.
[0103] En algunas formas de realización, la unidad de determinación de filtros 110 está configurada para determinar f dependiendo de las dos o más señales de canal de entrada de audio.
[0104] Una opción de muy baja complejidad informática consiste, según una forma de realización, en usar una fracción de la potencia de entrada y establecer f en el valor medio o el valor mínimo de la PSD de entrada o una fracción del mismo, por ejemplo
Figure imgf000015_0002
donde el parámetro g controla la cantidad de potencia del ambiente, y 0 < g < 1.
[0105] Según otra forma de realización, se lleva a cabo una estimación basada en la media aritmética. Dado el supuesto que lleva a la Fórmula (20) y la Fórmula (21), se puede demostrar que se puede calcular la PSD f utilizando (37)
Figure imgf000015_0003
(38)
Aunque tr{ O y } puede ser calculado directamente utilizando por ejemplo la integración recursiva de la Fórmula (34a), o, por ejemplo, se estima el promedio ponderado móvil de tiempo reducido de la Fórmula (34b), tr {O d } de la siguiente manera
Figure imgf000016_0001
[0106] Por otro lado, se puede calcular la PSD (m , k ) para N > 2 eligiendo dos señales de canal de entrada y estimando (m , k ) solo para un par de canales de las señales. Se obtienen resultados más precisos cuando se aplica este procedimiento a más de un par de señales de canal de entrada y combinando los resultados, por ejemplo promediando los cálculos estimativos totales. Se pueden elegir los subconjuntos aprovechando los canales con potencia ambiente similar, por ejemplo mediante la estimación de la potencia ambiente por separado en todos los canales posteriores y los canales anteriores de una grabación 5.1.
[0107] Asimismo, se debe tener en cuenta que de las Fórmulas (20) y (35), surge que
O d = O y - f A 1 N x N . (35a)
[0108] Según algunas formas de realización, se determina O d mediante la determinación de fA (por ejemplo, según la Fórmula (35), o la Fórmula (36) o según las Fórmulas (37) - (40)) y empleando la Fórmula (35a) para obtener la información de densidad espectral de potencia sobre las porciones de señal ambiental de las señales de canal de entrada de audio. A continuación, se puede determinar H D ( b ¡ ), por ejemplo, empleando la Fórmula (33a).
[0109] A continuación, se considera la elección del parámetro &.
[0110] & es un parámetro de compensación. El parámetro de compensación & es un número.
[0111] En algunas formas de realización, solo se determina un parámetro de compensación & que es válido para todas las señales de canal de entrada de audio y, a continuación, se considera este parámetro de compensación como información de compensación de las señales de canal de entrada de audio.
[0112] En otras formas de realización, se determina un parámetro de compensación & para cada una de las dos o más señales de canal de entrada de audio y, a continuación, estos dos o más parámetros de compensación de las señales de canal de entrada de audio forman, juntos, la información de compensación.
[0113] En otras formas de realización, la información de compensación puede no estar representada en forma de parámetro sino que puede ser representada en un tipo diferente de formato adecuado.
[0114] Como se ha señalado anteriormente, el parámetro & habilita una compensación de compensación entre la reducción de la señal y la distorsión de la señal directa. Puede ser elegido para ser constante, o dependiente de la señal, como se ilustra en la figura 6b.
[0115] La figura 6b ilustra un aparato según otra forma de realización. El aparato comprende un banco de filtros de análisis 605 para transformar las señales de canal de entrada de audio yt[n] del dominio de tiempo al dominio de tiempo-frecuencia. Asimismo, el aparato comprende un banco de filtros de síntesis 625 para transformar una o más señales de canal de salida de audio, (por ejemplo, los componentes de señal directa estimados
Figure imgf000016_0002
Ún [n ] de las señales de canal de entrada de audio) del dominio de tiempo-frecuencia al dominio de tiempo.
[0116] Una pluralidad de K unidades de determinación de beta 1111, ..., 11K1 (“calcular Beta”) determina los parámetros &. Asimismo, una pluralidad de K unidades de cálculo de subfiltros 1112, ..., 11K2 determina los subfiltros H H
H d (m ,1 ),...,H d (m ,K ) . La pluralidad de unidades de determinación de beta 1111, ..., 11K1 y la pluralidad de unidades de cálculo de subfiltros 1112, ..., 11K2 juntas, forman la unidad de determinación de filtros 110 de la figura 1 y la figura 6a según una forma de realización especí H H fica. La pluralidad de subfiltros H D ( m , 1 H D (m ,K ) juntos forman el filtro de la figura 1 y la figura 6a según una forma de realización particular.
[0117] Asimismo, la figura 6b ilustra una pluralidad de subprocesadores de señales 121, 12K, en la que cada subprocesador de señales 121, ..., 12K está configurado para aplicar uno de los subfiltros H H
H d ( m , l ) , ... , H d (m ,K ) a una de las señales de canal de entrada de audio para obtener una de las señales de canal de salida de audio. La pluralidad de subprocesadores de señales 121, ..., 12K forman juntos el procesador de señales de la figura 1 y la figura 6a según una forma de realización particular.
[0118] En lo sucesivo se describen diferentes usos para controlar el parámetro & por medio de análisis de señales.
[0119] En primer lugar se consideran las señales transitorias.
[0120] Según una forma de realización, la unidad de determinación de filtros 110 está configurada para determinar la información de compensación (&; &) dependiendo de si hay un transitorio presente en al menos una de las dos o más señales de canal de entrada de audio.
[0121] La estimación de la matriz PSD de entrada da mejor resultado para una señal estacionaria. Por otro lado, la descomposición de la señal de entrada transitoria puede dar lugar a la fuga del componente de señal transitoria hacia la señal ambiental de salida. El control de & por medio de un análisis de señales con respecto al grado de probabilidad de presencia no estacionara o transitoria de manera que & sea menor cuando la señal comprende transitorios y mayor en las porciones sostenidas lleva a señales de salida más constantes cuando se aplican los filtros Hd(&). El control de & por medio de un análisis de señales con respecto al grado de probabilidad de presencia no estacionaria o transitoria de tal manera que & sea mayor cuando la señal comprende transitorios y menor en las porciones sostenidas lleva a señales de salida más constantes cuando se aplican los filtros Ha(&i).
[0122] Se consideran ahora las señales ambientales desfavorables.
[0123] En una forma de realización, la unidad de determinación de filtros 110 está configurada para determinar la información de compensación (&; &) dependiendo de la presencia de ruido aditivo en al menos un canal de señal a través del cual se transmite una de las dos o más señales de canal de entrada de audio.
[0124] El procedimiento propuesto descompone las señales de entrada independientemente del carácter de los componentes de señal ambiental. Cuando las señales de entrada se han transmitido por canales de señales ruidosas, es ventajoso estimar la probabilidad de la presencia de ruido aditivo perjudicial y controlar & de tal manera que la DAR de salida (relación directa a ambiente) se incremente.
[0125] Se describe ahora el control de los niveles de las señales de salida.
[0126] Para controlar los niveles de las señales de salida, se puede configurar & por separado para el i° canal. Los filtros para el cálculo de la señal ambiental de salida del i° canal están dados por la Fórmula (31).
[0127] Para el caso de cualquiera de dos canales, se puede calcular & dado & de tal manera que las PSD de las señales residuales ambientales raj y ra,j en el y canal de salida sean iguales, es decir,
Figure imgf000017_0001
[0128] Por otro lado, & puede ser calculado de tal manera que las PSD de las señales de salida ambiental ai y a j sean iguales para todos los pares de i y j.
[0129] Se considera ahora el uso de la información de paneo.
[0130] Para el caso de dos canales de entrada, la información de paneo cuantifica las diferencias de nivel entre ambos canales por cada subbanda. La información de paneo se puede aplicar para controlar & a fin de controlar el ancho percibido de las señales de salida.
[0131] A continuación se considera la ecualización de las señales del canal ambiental de salida.
[0132] El procesamiento descrito no garantiza que todas las señales de canal ambiental de salida tengan iguales potencias de subbanda. Para garantizar que todas las señales de canal ambiental de salida tengan iguales potencias de subbanda, se modifican los filtros según lo descrito a continuación con respecto a la forma de realización que utiliza los filtros Hd antes descritos. La matriz de covarianza de la señal ambiental de salida (que comprende las auto-PSD de cada canal situado en la diagonal principal) se puede obtener de la siguiente manera
Figure imgf000018_0001
[0133] Para garantizar que las PSD de todos los canales ambientes de salida sean iguales, se reemplazan los filtros Hd por H D :
Figure imgf000018_0002
donde G es una matriz diagonal cuyos elementos situados en la diagonal principal son
Figure imgf000018_0003
[0134] En el caso de la forma de realización que utiliza los filtros Ha antes descrita, se puede obtener la matriz de covarianza de la señal ambiental de salida (que comprende las auto-PSD de cada canal situado en la diagonal principal) se puede obtener de la siguiente manera
Figure imgf000018_0004
[0135] Para garantizar que las PSD de todos los canales ambiente de salida sean iguales, se reemplazan los filtros Ha por H A
Figure imgf000018_0005
[0136] Aunque algunos aspectos han sido descritos en el contexto de un aparato, está claro que estos aspectos también representan una descripción del procedimiento correspondiente, en el cual un bloque o dispositivo corresponde a una etapa del procedimiento o a una característica de una etapa del procedimiento. De manera análoga, los aspectos descritos en el contexto de una etapa del procedimiento también representan una descripción de un bloque o elemento correspondiente o de una característica de un aparato correspondiente.
[0137] La señal descompuesta de la presente invención puede ser almacenada en un medio digital o se puede transmitir por un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable tal como Internet.
[0138] Dependiendo de ciertos requisitos de implementación, las formas de realización de la invención pueden ser implementadas en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en el mismo señales de control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema informático programable de tal manera que se ejecute el procedimiento respectivo.
[0139] Algunas formas de realización comprenden un soporte de datos no transitorios que tiene señales de control legibles electrónicamente, con capacidad para cooperar con un sistema informático programable de tal manera que se ejecute uno de los procedimientos descritos en esta invención.
[0140] En general, las formas de realización de la presente invención pueden ser implementadas en forma de producto de programa informático con un código de programa, donde el código de programa cumple la función de ejecutar uno de los procedimientos al ejecutarse el programa informático en un ordenador. El código de programa puede ser almacenado, por ejemplo, en un soporte legible por una máquina.
[0141] Otras formas de realización comprenden el programa informático para ejecutar uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por una máquina.
[0142] En otras palabras, una forma de realización del procedimiento de la invención consiste, por lo tanto, en un programa informático que consta de un código de programa para realizar uno de los procedimientos descritos en esta invención al ejecutarse el programa informático en un ordenador.
[0143] Una forma de realización adicional de los procedimientos de la invención consiste, por lo tanto, en un soporte de datos (o medio de almacenamiento digital, o medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para ejecutar uno de los procedimientos descritos en esta invención.
[0144] Una forma de realización adicional del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para ejecutar uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales pueden estar configurados, por ejemplo, para ser transferidos a través de una conexión de comunicación de datos, por ejemplo a través de Internet.
[0145] Una forma de realización adicional comprende un medio de procesamiento, por ejemplo un ordenador, un dispositivo lógico programable, configurado o adaptado para ejecutar uno de los procedimientos descritos en esta invención.
[0146] Una forma de realización adicional comprende un ordenador en el que se ha instalado el programa informático para ejecutar uno de los procedimientos descritos en esta invención.
[0147] En algunas formas de realización, se puede utilizar un dispositivo lógico programable (por ejemplo una matriz de puertas programables en el campo) para ejecutar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas formas de realización, una matriz de puertas programables en el campo puede cooperar con un microprocesador para ejecutar uno de los procedimientos descritos en esta invención. Por lo general, los procedimientos son ejecutados preferentemente por cualquier aparato de hardware.
[0148] Las formas de realización antes descritas son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y detalles descritos en esta invención serán evidentes para las personas expertas en la técnica. Por lo tanto, solo es intención limitarse al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a modo de descripción y explicación de las formas de realización de esta invención.
Referencias:
[0149]
[1] J.B. Allen, D.A. Berkeley, y J. Blauert, “Multimicrophone signal-processing technique to remove room reverberation from speech signals”, J.Acoust.Soc. Am., vol. 62, 1977.
[2] C. Avendano y J.-M. Jot, “A frequency-domain approach to multi-channel upmix”, J. Audio Eng. Soc., vol. 52, 2004.
[3] C. Faller, “Multiple-loudspeaker playback of stereo signals”, J. Audio Eng. Soc., vol. 54, 2006.
[4] J. Merimaa, M. Goodwin, y J.-M. Jot, “Correlation-based ambience extraction from stereo recordings”, in Proc. of the AES 123a Conv., 2007.
[5] Ville Pulkki, “Directional audio coding in spatial sound reproduction and stereo upmixing”, in Proc. of the AES 28th Int. Conf., 2006.
[6] J. Usher y J. Benesty, “Enhancement of spatial sound quality: A new reverberation-extraction audio upmixer”, IEEE Tram. on Audio, Speech, and Language Processing, vol.l5, pp. 2141-2150, 2007.
[7] A. Walther y C. Faller, “Direct-ambient decomposition and upmix of surround sound signals”, in Proc. of IEEE WASPAA, 2011.
[8] C. Uhle, J. Herre, S. Geyersberger, F. Ridderbusch, A. Walter; y O. Moser, “Apparatus y method for extracting an ambient signal in an: apparatus y method for obtaining weighting coefficients for extracting an ambient signal y Computer program”, Solicitud de Patente de Estados Unidos 2009/0080666, 2009.
[9] C. Uhle, J. Herre, A. Walther, O. Hellmuth, y C. Janssen, “Apparatus and method for generating an ambient signal from an audio signal, apparatus y method for deriving a multi-channel audio signal from an audio signal and computer program”, Solicitud de Patente de Estados Unidos 2010/0030563, 2010.
[10] G. Soulodre, “System for extracting and changing the reverberant content of an audio input signal”, Patente de Estados Unidos 8,036,767, Fecha de presentación de la Patente: 11 de octubre de 2011.

Claims (15)

REIVINDICACIONES
1. Un aparato para generar una o más señales de canal de salida de audio dependiendo de dos o más señales de canal de entrada de audio, en el que cada una de las dos o más señales de canal de entrada de audio comprende porciones de señal directa y porciones de señal ambiental, donde el aparato comprende:
una unidad de determinación de filtro (110) para determinar un filtro mediante la estimación de primera información de densidad espectral de potencia y mediante la segunda estimación de información de densidad espectral de potencia, en la que el filtro depende de la primera información de densidad espectral de potencia y de la segunda información de densidad espectral de potencia, y
un procesador de señales (120) para generar una o más señales de canal de salida de audio mediante la aplicación del filtro a las dos o más señales de canal de entrada de audio, en el que una o más señales de canal de salida de audio depende del filtro,
en el que la unidad de determinación de filtro (110) está configurada para estimar la primera información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia sobre dicha señal de canal de entrada de audio y la unidad de determinación de filtro (110) está configurada para estimar la segunda información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia sobre las porciones de señal ambiental de dicha señal de canal de entrada de audio, o
en el que la unidad de determinación de filtro (110) está configurada para estimar la primera información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia en dicha señal de canal de entrada de audio, y la unidad de determinación de filtro (110) está configurada para estimar la segunda información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia en las porciones de señal directa de dicha señal de canal de entrada de audio, o
en el que la unidad de determinación de filtro (110) está configurada para estimar la primera información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia en las porciones de señal directa de dicha señal de canal de entrada de audio, y la unidad de determinación de filtro (110) está configurada para estimar la segunda información de densidad espectral de potencia mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, información de densidad espectral de potencia en las porciones de señal ambiental de dicha señal de canal de entrada de audio.
2. Un aparato según la reivindicación 1,
en el que el aparato comprende además un banco de filtros de análisis (605) para transformar las dos o más señales de canal de entrada de audio del dominio de tiempo a un dominio de tiempo-frecuencia,
en el que la unidad de determinación de filtro (110) está configurada para determinar el filtro mediante la estimación de la primera información de densidad espectral de potencia y la segunda información de densidad espectral de potencia dependiendo de las señales de canal de entrada de audio, que está representada en el dominio de tiempofrecuencia,
en el que el procesador de señales (120) está configurado para generar una o más señales de canal de salida de audio, que están representadas en un dominio de tiempo-frecuencia, mediante la aplicación del filtro a las dos o más señales de canal de entrada de audio, que está representada en el dominio de tiempo-frecuencia, y
en el que el aparato comprende además un banco de filtros de síntesis (625) para transformar una o más señales de canal de salida de audio, que están representadas en un dominio de tiempo-frecuencia, del dominio de tiempofrecuencia al dominio de tiempo.
3. Un aparato según la reivindicación 1 o 2, en el que la unidad de determinación de filtro (110) está configurada para determinar el filtro mediante la estimación de la primera información de densidad espectral de potencia, mediante la estimación de la segunda información de densidad espectral de potencia, y mediante la determinación de una información de señal de canal de entrada de audio (&, &j) dependiendo de al menos una de las dos o más señales de canal de entrada de audio.
4. Un aparato según la reivindicación 3, en el que la unidad de determinación de filtro (110) está configurada para determinar la información de señal de canal de entrada de audio (&¡, &j) dependiendo de la presencia o no de un transitorio en al menos una de las dos o más señales de canal de entrada de audio.
5. Un aparato según la reivindicación 3 o 4, en el que la unidad de determinación de filtro (110) está configurada para determinar la información de señal de canal de entrada de audio (&, &j) dependiendo de la presencia de ruido aditivo en al menos un canal de señal a través del cual se transmite una de las dos o más señales de canal de entrada de audio.
6. Un aparato según una de las reivindicaciones 3 a 5,
en el que la unidad de determinación de filtro (110) está configurada para determinar la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio dependiendo de una primera matriz ( O y ), comprendiendo la primera matriz ( O y ) una estimación de la densidad espectral de potencia correspondiente a cada señal de canal de las dos o más señales de canal de entrada de audio ubicadas en la diagonal principal de la primera matriz ( O y ), y está configurada para determinar la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio dependiendo de la segunda
matriz ( O a ) o dependiendo de una matriz inversa ( O ) de la segunda matriz ( O a ), comprendiendo la segunda
matriz (O a ) una estimación de la densidad espectral de potencia correspondiente a las porciones de señal ambiental de cada señal de canal de las dos o más señales de canal de entrada de audio ubicadas en la diagonal principal de la segunda matriz ( O a), o
en el que la unidad de determinación de filtro (110) está configurada para determinar la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de audio dependiendo de la primera matriz ( O y ), y está configurada para determinar la información de densidad espectral de potencia sobre las porciones de
señal directa de las dos o más señales de canal de entrada de audio dependiendo de una tercera matriz ( O d ) o
dependiendo de una matriz inversa ( O ^ 1 ) de la tercera matriz ( O d ), comprendiendo la tercera matriz ( O d ) una
estimación de la densidad espectral de potencia correspondiente a las porciones de señal directa de cada canal de
las dos o más señales de canal de entrada de audio en la diagonal principal de la tercera matriz ( O d ), o en el que la unidad de determinación de filtro (110) está configurada para determinar la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio
dependiendo de la segunda matriz ( O a ) o dependiendo de una matriz inversa ( O * ) de la segunda matriz ( O a), y está configurada para determinar la información de densidad espectral de potencia sobre las porciones de señal directa
de las dos o más señales de canal de entrada de audio dependiendo de la tercera matriz ( O d ) o dependiendo de
una matriz inversa ( O d1 ) de la tercera matriz ( O d ).
7. Un aparato según la reivindicación 6,
en el que la unidad de determinación de filtro (110) está configurada para determinar la primera matriz ( O y ) para determinar la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de
audio, y está configurada para determinar la segunda matriz ( O a) o una matriz inversa ( O ^ ) de la segunda matriz
(O a ) para determinar la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio, o
en el que la unidad de determinación de filtro (110) está configurada para determinar la primera matriz ( O y ) para determinar la información de densidad espectral de potencia sobre las dos o más señales de canal de entrada de
audio, y está configurada para determinar la tercera matriz ( O d ) o una matriz inversa ( O d 1) de la tercera matriz (
O d ) para determinar la información de densidad espectral de potencia sobre las porciones de señal directa de las dos o más señales de canal de entrada de audio, o
en el que la unidad de determinación de filtro (110) está configurada para determinar la segunda matriz ( O a) o una
matriz inversa ( O ^ ) de la segunda matriz ( O a ) para determinar la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio, y está configurada
para determinar la tercera matriz ( O d ) o una matriz inversa ( O d 1 ) de la tercera matriz ( O d ) para determinar la información de densidad espectral de potencia sobre las porciones de señal ambiental de las dos o más señales de canal de entrada de audio.
8. Un aparato según la reivindicación 6 o 7,
en el que la unidad de determinación de filtro (110) está configurada para determinar el filtro H D ( b i ) dependiendo de la fórmula
Figure imgf000023_0001
o dependiendo de la fórmula
Figure imgf000023_0002
o dependiendo de la fórmula
Figure imgf000023_0003
o en el que la unidad de determinación de filtro (110) está configurada para determinar el filtro H A (b i ) dependiendo de la fórmula
Figure imgf000023_0004
o dependiendo de la fórmula
Figure imgf000023_0005
o dependiendo de la fórmula
Figure imgf000023_0006
en la que O y es la primera matriz,
en la que O a es la segunda matriz,
en la que O a 1 es la matriz inversa de la segunda matriz,
en la que O d es la tercera matriz,
en la que I NxN es una matriz unitaria del tamaño N X N ,
en la que N indica el número de señales de canal de entrada de audio,
en la que b i es la información de señal de canal de entrada de audio que es un número, y
Figure imgf000024_0001
en la que tr es el operador de traza.
9. Un aparato según una de las reivindicaciones 3 a 8, en el que la unidad de determinación de filtro (110) está configurada para determinar un parámetro de señal de canal de entrada (fy fy) para cada una de las dos o más señales de canal de entrada de audio como información de señal de canal de entrada de audio (&¡, fy), en el que el parámetro de señal de canal de entrada (fy fy) de cada una de las señales de canal de entrada de audio depende de dicha señal de canal de entrada de audio.
10. Un aparato según la reivindicación 8,
en el que la unidad de determinación de filtro (110) está configurada para determinar un parámetro de señal de canal de entrada (fy fy) para cada una de dos o más señales de canal de entrada de audio como información de señal de canal de entrada de audio (fy fy), de tal manera que, por cada par de una primera señal de canal de entrada de audio de las señales de canal de entrada de audio y otra segunda señal de canal de entrada de audio de las señales de canal de entrada de audio
es cierto,
en la que es el parámetro de señal de canal de entrada de dicha primera señal de canal de entrada de audio, en la que es el parámetro de señal de canal de entrada de dicha segunda señal de canal de entrada de audio, en el que
Figure imgf000024_0002
en la que
Figure imgf000024_0003
) es la matriz de transposición conjugada de h -'U Í'^ i) i y
en la que u¡ es un vector nulo de longitud N con 1 en la ia posición.
11. Un aparato según la reivindicación 8 o 10,
en el que la unidad de determinación de filtro (110) está configurada para determinar la segunda matriz O a según la fórmula
Figure imgf000024_0004
o
en la que la unidad de determinación de filtro (110) está configurada para determinar la tercera matriz O d según la fórmula
O d _ O y f A 1 N x N ,
en la que $a es un número.
12. Un aparato según la reivindicación 11, en el que la unidad de determinación de filtro (110) está configurada para determinar f f dependiendo de las dos o más señales de canal de entrada de audio.
13. Un aparato según una de las reivindicaciones 1 a 7,
en el que la unidad de determinación de filtro (110) está configurada para determinar una matriz de filtros intermedia H D para proporcionar una estimación de componentes de señal directa de las dos o más señales de canal de entrada de audio mediante la estimación de una primera información de densidad espectral de potencia y mediante la estimación de una segunda información de densidad espectral de potencia, y
en el que la unidad de determinación de filtro (110) está configurada para determinar el filtro H d dependiendo de la matriz de filtros intermedia H D según la fórmula
Figure imgf000025_0001
en la que I es una matriz unitaria, y
en la que G es una matriz diagonal,
en la que el procesador de señales (120) está configurado para generar una o más señales de canal de salida de
audio mediante la aplicación del filtro H d a las dos o más señales de canal de entrada de audio.
14. Un procedimiento para generar una o más señales de canal de salida de audio dependiendo de dos o más señales de canal de entrada de audio, en el que cada una de las dos o más señales de canal de entrada de audio comprende porciones de señal directa y porciones de señal ambiental, en el que el procedimiento comprende:
la determinación de un filtro mediante la estimación de una primera información de densidad espectral de potencia y mediante la estimación de una segunda información de densidad espectral de potencia, en el que el filtro depende de la primera información de densidad espectral de potencia y de la segunda información de densidad espectral de potencia, y
la generación de una o más señales de canal de salida de audio mediante la aplicación del filtro a las dos o más señales de canal de entrada de audio, en el que una o más señales de canal de salida de audio dependen del filtro, en el que la estimación de la primera información de densidad espectral de potencia se realiza mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, de la información de densidad espectral de potencia en dicha señal de canal de entrada de audio, y la estimación de la segunda información de densidad espectral de potencia se realiza mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, de la información de densidad espectral de potencia en porciones de señal ambiental de dicha señal de canal de entrada de audio, o
en el que la estimación de la primera información de densidad espectral de potencia se realiza mediante la estimación, para cada señal del canal de entrada de audio de las dos o más señales del canal de entrada de audio, de la información de densidad espectral de potencia en dicha señal del canal de entrada de audio, y la estimación de la segunda información de densidad espectral de potencia se realiza mediante la estimación, para cada señal de canal de entrada de audio de los dos o más audio señales del canal de entrada, de la información de densidad espectral de potencia en las porciones de señal directa de dicha señal de canal de entrada de audio, o
en el que la estimación de la primera información de densidad espectral de potencia se realiza mediante la estimación, para cada señal de canal de entrada de audio de las dos o más señales de canal de entrada de audio, de la información de densidad espectral de potencia en las porciones de señal directa de dicha señal de canal de entrada de audio y la estimación de la segunda información de densidad espectral de potencia se realiza mediante la estimación, para cada señal del canal de entrada de audio de las dos o más señales del canal de entrada de audio, de la información de densidad espectral de potencia en las porciones de señal ambiental de dicha señal del canal de entrada de audio.
15. Un programa informático para implementar el procedimiento de la reivindicación 14 cuando se ejecuta en un ordenador o un procesador.
ES13788708T 2013-03-05 2013-10-23 Aparato y procedimiento para la descomposición directa-ambiental de multicanal para el procesamiento de señales de audio Active ES2742853T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361772708P 2013-03-05 2013-03-05
PCT/EP2013/072170 WO2014135235A1 (en) 2013-03-05 2013-10-23 Apparatus and method for multichannel direct-ambient decomposition for audio signal processing

Publications (1)

Publication Number Publication Date
ES2742853T3 true ES2742853T3 (es) 2020-02-17

Family

ID=49552336

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13788708T Active ES2742853T3 (es) 2013-03-05 2013-10-23 Aparato y procedimiento para la descomposición directa-ambiental de multicanal para el procesamiento de señales de audio

Country Status (17)

Country Link
US (1) US10395660B2 (es)
EP (1) EP2965540B1 (es)
JP (2) JP6385376B2 (es)
KR (1) KR101984115B1 (es)
CN (1) CN105409247B (es)
AR (1) AR095026A1 (es)
AU (1) AU2013380608B2 (es)
BR (1) BR112015021520B1 (es)
CA (1) CA2903900C (es)
ES (1) ES2742853T3 (es)
MX (1) MX354633B (es)
MY (1) MY179136A (es)
PL (1) PL2965540T3 (es)
RU (1) RU2650026C2 (es)
SG (1) SG11201507066PA (es)
TW (1) TWI639347B (es)
WO (1) WO2014135235A1 (es)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014135235A1 (en) 2013-03-05 2014-09-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
US9495968B2 (en) 2013-05-29 2016-11-15 Qualcomm Incorporated Identifying sources from which higher order ambisonic audio data is generated
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
PL3257270T3 (pl) * 2015-03-27 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób przetwarzania sygnałów stereo do odtwarzania w samochodach dla uzyskania indywidualnego dźwięku trójwymiarowego przez przednie głośniki
CN106297813A (zh) * 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
EP3357259B1 (en) 2015-09-30 2020-09-23 Dolby International AB Method and apparatus for generating 3d audio content from two-channel stereo content
US9930466B2 (en) * 2015-12-21 2018-03-27 Thomson Licensing Method and apparatus for processing audio content
TWI584274B (zh) * 2016-02-02 2017-05-21 美律實業股份有限公司 具逆相位衰減特性之共腔體式背箱設計揚聲器系統的音源訊號處理方法及其裝置
CN106412792B (zh) * 2016-09-05 2018-10-30 上海艺瓣文化传播有限公司 对原立体声文件重新进行空间化处理并合成的系统及方法
GB201716522D0 (en) 2017-10-09 2017-11-22 Nokia Technologies Oy Audio signal rendering
CA3083891C (en) 2017-11-17 2023-05-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
EP3518562A1 (en) 2018-01-29 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
US11205435B2 (en) 2018-08-17 2021-12-21 Dts, Inc. Spatial audio signal encoder
WO2020037280A1 (en) 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal decoder
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
EP3671739A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
EP3980993B1 (en) * 2019-06-06 2024-07-31 DTS, Inc. Hybrid spatial audio decoder
DE102020108958A1 (de) 2020-03-31 2021-09-30 Harman Becker Automotive Systems Gmbh Verfahren zum Darbieten eines ersten Audiosignals während der Darbietung eines zweiten Audiosignals
JPWO2023170756A1 (es) * 2022-03-07 2023-09-14

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
EP2136358A4 (en) * 2007-03-16 2011-01-19 Panasonic Corp LANGUAGE ANALYSIS DEVICE, LANGUAGE ANALYSIS PROCEDURE, LANGUAGE ANALYSIS PROGRAM AND SYSTEM INTEGRATION CIRCUIT
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
RU2586851C2 (ru) 2010-02-24 2016-06-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство для формирования улучшенного сигнала микширования с понижением, способ формирования улучшенного сигнала микширования с понижением и компьютерная программа
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
WO2014135235A1 (en) 2013-03-05 2014-09-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multichannel direct-ambient decomposition for audio signal processing

Also Published As

Publication number Publication date
HK1219378A1 (en) 2017-03-31
MX354633B (es) 2018-03-14
CN105409247B (zh) 2020-12-29
CN105409247A (zh) 2016-03-16
KR101984115B1 (ko) 2019-05-31
TW201444383A (zh) 2014-11-16
JP6637014B2 (ja) 2020-01-29
US10395660B2 (en) 2019-08-27
SG11201507066PA (en) 2015-10-29
WO2014135235A1 (en) 2014-09-12
MY179136A (en) 2020-10-28
JP6385376B2 (ja) 2018-09-05
JP2016513814A (ja) 2016-05-16
JP2018036666A (ja) 2018-03-08
US20150380002A1 (en) 2015-12-31
AR095026A1 (es) 2015-09-16
EP2965540B1 (en) 2019-05-22
CA2903900A1 (en) 2014-09-12
BR112015021520B1 (pt) 2021-07-13
TWI639347B (zh) 2018-10-21
AU2013380608B2 (en) 2017-04-20
EP2965540A1 (en) 2016-01-13
KR20150132223A (ko) 2015-11-25
PL2965540T3 (pl) 2019-11-29
RU2650026C2 (ru) 2018-04-06
RU2015141871A (ru) 2017-04-07
MX2015011570A (es) 2015-12-09
BR112015021520A2 (pt) 2017-08-22
CA2903900C (en) 2018-06-05
AU2013380608A1 (en) 2015-10-29

Similar Documents

Publication Publication Date Title
ES2742853T3 (es) Aparato y procedimiento para la descomposición directa-ambiental de multicanal para el procesamiento de señales de audio
ES2555579T3 (es) Codificador de audio multicanal y método para codificar una señal de audio multicanal
ES2364888T3 (es) Dispositivo y procedimiento para generar una señal multicanal con un procesamiento de señal de voz.
ES2604133T3 (es) Dispositivo y método para generar una señal de ambiente
KR101989062B1 (ko) 오디오 신호를 향상시키기 위한 장치 및 방법 및 음향 향상 시스템
ES2754260T3 (es) Aparato y método para generar una señal de salida que emplea un descomponedor
CA2908794C (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US20160247518A1 (en) Apparatus and method for improving a perception of a sound signal
BRPI0608036B1 (pt) Dispositivo e método para a geração de um sinal estéreo codificado de uma peça de áudio ou fluxo de dados de áudio
ES2552996T3 (es) Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un generador de ponderaciones espectrales
TW201727623A (zh) 聲場增強裝置及方法
Pan et al. A single-input/binaural-output antiphasic speech enhancement method for speech intelligibility improvement
Kurz et al. Prediction of the listening area based on the energy vector
KR20110041062A (ko) 가상 스피커 장치 및 가상 스피커 처리 방법
HK1219378B (en) Apparatus and method for multichannel direct-ambient decomposition for audio signal processing