ES2552996T3 - Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un generador de ponderaciones espectrales - Google Patents

Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un generador de ponderaciones espectrales Download PDF

Info

Publication number
ES2552996T3
ES2552996T3 ES12731456.5T ES12731456T ES2552996T3 ES 2552996 T3 ES2552996 T3 ES 2552996T3 ES 12731456 T ES12731456 T ES 12731456T ES 2552996 T3 ES2552996 T3 ES 2552996T3
Authority
ES
Spain
Prior art keywords
signal
channel
magnitude
spectral
monophonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12731456.5T
Other languages
English (en)
Inventor
Christian Uhle
Stefan Finauer
Patrick Gampp
Oliver Hellmuth
Peter Prokein
Christian STÖCKLMEIER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2552996T3 publication Critical patent/ES2552996T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

Un aparato para generar una señal lateral estereofónica, que tiene un primer canal lateral y un segundo canal lateral de una señal de entrada estereofónica, que tiene un primer canal de entrada y un segundo canal de entrada, que comprende: un generador de la información de modificación (110; 610; 710; 810; 910; 1310) para generar la información de modificación, el generador de la información de modificación (110; 610; 710; 810; 910; 1310) comprende un generador de ponderaciones espectrales (116; 615; 715; 815; 915) para generar la información de modificación, generando un primer factor de ponderación espectral, basándose en una señal media monofónica y en una señal lateral monofónica de la señal de entrada estereofónica, y un manipulador de la señal (120; 620; 720; 820; 1320) que está adaptado para manipular el primer canal de entrada, basándose en la información de modificación para obtener el primer canal lateral, y está adaptado para manipular el segundo canal de entrada, basándose en la información de modificación para obtener el segundo canal lateral.

Description

5
10
15
20
25
30
35
40
45
50
55
60
Metodo y aparato para descomponer una grabacion estereofonica utilizando el procesamiento del dominio de la frecuencia empleando un generador de ponderaciones espectrales
descripcion
La presente invencion se relaciona con el procesamiento de audio, y en particular, con un metodo y un aparato para descomponer una grabacion estereofonica, utilizando el procesamiento del dominio de la frecuencia.
El procesamiento del audio ha avanzado en muchas formas. En particular, los sistemas de sonido envolventes se han vuelto mas y mas importantes. Sin embargo, la mayona de las grabaciones de musica todavfa son codificadas y transmitidas como una senal estereofonica, y no como una senal en multiples canales. Puesto que los sistemas envolventes comprenden una pluralidad de altavoces, por ejemplo, cuatro o cinco altavoces, ha sido el objeto de muchos estudios, cuales senales debenan proporcionarse a la pluralidad de altavoces, cuando solo hay dos senales de entrada disponibles.
En este contexto, la conversion del formato de las senales estereofonicas para la reproduccion utilizando sistemas de sonido envolvente, es decir, mezclado, juega un papel importante. La expresion “mezclado m a n”, describe la conversion de una senal de audio del canal m a una senal de audio con n canales, en donde n > m. Se conocen ampliamente dos conceptos de mezclado: mezclado con informacion adicional que grna el proceso de mezclado y mezclado no guiado (“ciego”), sin el uso de ninguna informacion secundaria, que es en lo que se centra la presente.
En la bibliograffa, se reportan dos diferentes enfoques para un proceso de mezclado. Estos conceptos son el enfoque directo/ambiental y el enfoque “en la banda”. El componente central de las tecnicas basadas en la direccion/ambiente, es la extraccion de una senal ambiental que se alimenta a los canales traseros de una senal de sonido envolvente con multiples canales. Los sonidos ambientales son aquellos que forman una impresion de un ambiente de audicion (virtual), incluyendo la reverberacion de la sala, sonidos de la audiencia (por ejemplo, aplausos), sonidos ambientales (por ejemplo, lluvia), sonidos con efecto pretendido artfsticamente (por ejemplo, crujido del vinilo) y ruido de fondo. La reproduccion del ambiente utilizando los canales traseros, evoca una impresion de envoltura (estando “inmerso en el sonido”) por el oyente. Ademas, las fuentes del sonido directo se distribuyen entre los canales frontales de acuerdo con su posicion en el panorama estereofonico.
El enfoque “en la banda” esta dirigido a colocar todos los sonidos (sonido directo, asf como sonidos ambientales) alrededor del oyente, utilizando todos los altavoces disponibles. Las posiciones de las fuentes de sonido percibidas cuando se reproduce el formato mezclado, es idealmente una funcion de sus posiciones percibidas en la senal de entrada estereofonica. Este enfoque puede implementarse utilizando el procesamiento de la senal propuesto.
Se han desarrollado en el pasado varios enfoques para mezclar en el dominio de la frecuencia [9, 10]. Intentan una descomposicion de la senal de entrada y del componente de la senal directo y ambiental, y una descomposicion basada en las posiciones espaciales de las fuentes del sonido. Los componentes de la senal ambiental se identifican basandose en las medidas de la coherencia inter-canal entre el canal izquierdo y derecho. La descomposicion basada en la direccion se logra basandose en la similitud de las magnitudes de los coeficientes espectrales. La solicitud de patente US 2009/0080666, describe un metodo para extraer una senal ambiental utilizando la ponderacion espectral.
El documento US 2010/0030563, describe un metodo para extraer una senal ambiental para la aplicacion del mezclado. El metodo utiliza la sustraccion espectral. La representacion del dominio tiempo-frecuencia se obtiene de la diferencia de la representacion del dominio tiempo-frecuencia de la senal de entrada y una version comprimida de la misma, de manera preferida calculada utilizando una factorizacion de la matriz no negativa.
El documento US 2010/0296672, describe un metodo de mezclado del dominio de la frecuencia, utilizando una descomposicion de la senal basada en el vector. La descomposicion tiene por objeto la extraccion de un canal centrado, en contraste con una descomposicion de la senal directa/ambiental [13]. Se calcula una senal de salida para el canal central, que contiene toda la informacion que es comun para las senales de los canales de entrada izquierdo y derecho. La senal residual de las senales de entrada y las senales del canal central se calculan para las senales del canal de salida izquierdo y derecho.
El documento WO 2010/140105 desvela un metodo para mezclar senales estereofonicas a canales frontales izquierdo y derecho y canales envolventes izquierdo y derecho. Desde una senal de entrada estereofonica se generan senales media/lateral por medio de prediccion y filtrado adaptativo.
En un objeto de la presente invencion proporcionar conceptos mejorados para generar canales adicionales de una senal de entrada estereofonica, que tiene un primer canal de entrada y un segundo canal de entrada. El objeto de la presente invencion se soluciona por un aparato para generar una senal lateral estereofonica de acuerdo con la reivindicacion 1, un aparato para generar una senal media estereofonica de acuerdo con la reivindicacion 10, un
5
10
15
20
25
30
35
40
45
50
55
60
metodo para generar una senal lateral estereofonica de acuerdo con la reivindicacion 12, un metodo para generar una senal media estereofonica de acuerdo con la reivindicacion 13, y un programa para computadora de acuerdo con la reivindicacion 15.
Se exponen realizaciones adicionales en las reivindicaciones dependientes.
La diferencia importante entre la senal lateral estereofonica propuesta en comparacion con la senal lateral convencional, se describe por la propiedad estereofonica: la senal lateral estereofonica es una senal estereofonica de 2 canales, en contraste con la senal lateral convencional, que es monofonica. El canal izquierdo de la senal lateral estereofonica comprende todos los componentes de la senal, que estan agrupados en el lado izquierdo en la senal de entrada. El canal derecho de la senal estereofonica comprende todos los componentes de la senal que estan agrupados en el lado derecho.
La senal media estereofonica es una senal estereofonica que comprende todos los componentes que existen en ambos canales de entrada. Es una senal estereofonica de 2 canales y comprende menos informacion estereofonica, en comparacion con la senal de entrada, y en comparacion con la senal lateral estereofonica, pero no es una senal monofonica como la senal media convencional. Comprende los mismos componentes de la senal que la senal media convencional, pero con la informacion estereofonica original.
Las realizaciones de la presente invencion se explican con referencia a los dibujos adjuntos, en los cuales:
La Figura 1 La Figura 1a
La Figura 1b
La Figura 2 La Figura 3 La Figura 4
La Figura 5
La Figura 6
La Figura 7
La Figura 8
La Figura 9
La Figura 10 La Figura 10a
La Figura 10b La Figura 11
ilustra un aparato para generar una senal lateral estereofonica de acuerdo con una realizacion,
ilustra un aparato para generar una senal lateral estereofonica de acuerdo con un ejemplo, en donde el generador de la informacion de manipulacion comprende un sustractor espectral,
ilustra un aparato para generar una senal lateral estereofonica de acuerdo con la invencion, en donde el generador de la informacion de modificacion comprende un generador de ponderaciones espectrales,
ilustra un sustractor espectral,
ilustra un generador de la informacion de modificacion de acuerdo con un ejemplo,
ilustra un aparato para generar una senal lateral estereofonica y una senal media estereofonica para realizar una sustraccion espectral de acuerdo con un ejemplo,
ilustra un aparato para generar una senal lateral estereofonica y una senal media estereofonica de acuerdo con otro ejemplo,
ilustra un aparato para generar una senal lateral estereofonica, en donde el aparato comprende un generador de ponderaciones espectrales de acuerdo con la invencion,
ilustra un aparato para generar una senal lateral estereofonica, en donde el aparato comprende un generador de ponderaciones espectrales de acuerdo con otra realizacion,
ilustra un aparato para generar una senal lateral estereofonica, en donde el aparato comprende un generador de ponderaciones espectrales de acuerdo con una realizacion adicional,
ilustra un generador de la informacion de modificacion, en donde el aparato comprende un generador de ponderaciones espectrales y un generador de magnitud de acuerdo con una realizacion,
ilustra un aparato para generar una senal media estereofonica de acuerdo con una realizacion,
ilustra un aparato para generar una senal media estereofonica de acuerdo con una realizacion, en donde el generador de la informacion de manipulacion comprende un sustractor espectral,
ilustra un aparato para generar una senal media estereofonica de acuerdo con una realizacion, en donde el generador de la informacion de modificacion comprende un generador de ponderaciones espectrales,
ilustra las ganancias ejemplares para las senales laterales estereofonicas y las senales medias estereofonicas,
5
10
15
20
25
30
35
40
45
50
La Figura 12
La Figura 13
La Figura 14
La Figura 15 La Figura 16
La Figura 17
La Figura 18 La Figura 19 La Figura 20 Antecedentes
ilustra los resultados de la ponderacion espectral para las senales laterales estereofonicas y las senales medias estereofonicas,
ilustra un aparato para generar una senal lateral estereofonica de acuerdo con una realizacion adicional,
ilustra un aparato para generar una senal lateral estereofonica de acuerdo con una realizacion adicional,
ilustra un mezclador de acuerdo con una realizacion,
ilustra un sistema de reproduccion cuadrafonica ejemplar, que utiliza las salidas de un procesamiento de la senal propuesto,
describe un diagrama de bloques que ilustra el procesamiento para generar una senal con multiples canales, adecuada para la reproduccion con 5 canales,
describe un diagrama de bloques de la descomposicion M-S,
describe un diagrama de bloques que ilustra la ponderacion espectral, y
ilustra las ponderaciones espectrales tfpicas utilizadas en la mejora del habla.
Antes de describir las realizaciones preferidas de la presente invencion, se describiran los conceptos relacionados, en particular el procesamiento M-S, se explicara el fundamento de una sustraccion espectral y la ponderacion espectral.
Primero, el Procesamiento del Lado Medio se describe con mas detalle. Para explicar como se calculan las senales laterales y medias estereofonicas, se revisa brevemente lo basico del procesamiento M-S convencional. Una senal estereofonica de 2 canales x(t) puede representarse por dos senales X1(t) y Xr(t) para el canal izquierdo y derecho, respectivamente, con un mdice de tiempo t. Los terminos izquierdo y derecho indican que eventualmente, estas senales son presentadas al ofdo izquierdo y derecho (utilizando altavoces o auriculares), respectivamente, o se reproducen por el canal izquierdo y derecho en un sistema de reproduccion de audio, respectivamente.
Suponiendo que la senal estereofonica es una mezcla de N senales de origen zi, i=1,..., N, X1(t) y Xr(t) pueden escribirse como
imagen1
en donde hli(t), hri(t) son funciones de transferencia que caracterizan como se mezclan las fuentes en la senal estereofonica, * es la operacion de convolucion, y n1(t), nr(t) son senales ambientales no correlacionadas. En el caso de mezclado utilizando solo el agrupamiento de la amplitud, que es con frecuencia el caso para las grabaciones de estudio, tanto hli(t) como hri(t) son escalares. El resultado de este proceso de mezclado se conoce en la bibliograffa como mezclas instantaneas en contraste con mezclas convolutivas (en los casos en donde hli(t) y h„(t) son de una longitud mayor que uno). Descartando los terminos ambientales n1(t), nr(t), el modelo de la senal para el mezclado instantaneo puede escribirse como
imagen2
5
10
15
20
25
30
35
40
45
50
55
con el factor de mezclado 0 < ai(t) < 1, que determina la direccion percibida de las senales de origen y la mezcla.
La misma informacion que la comprendida en la senal x(t)=[x1(t) xr(t)], se proporciona cuando se utiliza una representacion M-S de la senal, en donde una senal media mi(t) (tambien referida como la senal de suma) y una senal lateral si(t) (tambien referida como la senal de la diferencia), se calculan de xi(t) y Xr(t) de acuerdo con:
miW = i + M0) <5)
*i(*) = (6)
Los subrndices 1 se utilizan para designar que estas senales son monofonicas. Tal senal M-S es ventajosa para varias aplicaciones, en donde ambas senales lateral y media se procesan, codifican o transmiten de manera separada. Tales aplicaciones son grabacion de sonidos, mejora de la imagen estereofonica artificial, codificacion del audio para una produccion virtual con altavoz, reproduccion biaural en altavoces y produccion cuadrafonica.
Dada la representacion M-S, las senales xi(t) y Xr(t) pueden calcularse de acuerdo con:
afi(f) - si(t) (7)
xr(t) -=mi(£) - si(t) (S)
En la Figura 18, se ilustra la descomposicion M-S.
Ambas representaciones comprenden la misma informacion. Notese que las ponderaciones de normalizacion 0,5 en las ecuaciones (5) y (6) son opcionales y otras ponderaciones son posibles, pero la ponderacion mostrada aqu garantiza que la aplicacion de las ecuaciones (5) a (8), proporciona senales que son identicas a las senales de entrada. El uso de otras ponderaciones puede proporcionar senales similares o escaladas.
Del modelo de la senal y las ecuaciones (3) y (4), resulta que la senal Si(t) comprende solo los componentes de la senal que estan agrupados fuera del centro (alguno de ellos con fase negativa), y es una senal monofonica. La senal media mi(t) comprende todas las senales, excepto aquellas en si(t). Descrito con las palabras de Michael Gerzon, “M es la senal que contiene la informacion sobre la mitad de la etapa estereofonica, mientras que S solo contiene la informacion sobre los lados”. Ambas son senales monofonicas. Aunque los sonidos directos agrupados por la amplitud estan atenuados en la senal lateral dependiendo de su posicion en el panorama estereofonico, los componentes de la senal no correlacionados como la reverberacion y otras senales ambientales, estan atenuados en la senal media por 3 dB (para la correlacion cero). Estas atenuaciones son causadas por la cancelacion de la fase entre los componentes laterales en el canal izquierdo y derecho.
A continuacion, se explicaran con mas detalle la sustraccion espectral y la ponderacion espectral.
La sustraccion espectral es un metodo bien conocido para la mejora del habla y la reduccion del ruido. Se ha propuesto (probablemente de manera original), por Boll para reducir los efectos del ruido aditivo en la comunicacion del habla [2]. El procesamiento se realiza en el dominio de la frecuencia, en donde se procesa el espectro de cuadros cortos de porciones sucesivas (posiblemente superpuestas) de la senal de entrada.
El principio basico es sustraer una estimacion del espectro de la magnitud de la senal de ruido de interferencia del espectro de la magnitud de las senales de entrada, que se suponen como una mezcla de una senal del habla deseada y una senal de ruido de interferencia.
La ponderacion espectral (o Atenuacion Espectral a Corto Plazo [3]), se utiliza comunmente en varias aplicaciones de procesamiento de la senal de audio, por ejemplo, Mejora del Habla [4] y Separacion Ciega de la Fuente. Como en la sustraccion espectral, el objeto de este procesamiento es separar una senal deseada d(t) o atenuar una senal de interferencia n(t), en donde la senal de entrada x(t) es una mezcla aditiva de d(t) y n(t),
a;{t) = d(£) -t- n(t) (9)
Este procesamiento se ilustra en la Figura i9. El procesamiento de la senal se realiza en el dominio de la frecuencia.
5
10
15
20
25
30
35
40
45
50
55
Por lo tanto, la senal de entrada x(t) se transforma utilizando una Transformada de Fourier a Corto Plazo (STFT), un banco de filtro o cualquier otro medio para derivar una representacion de la senal con multiples bandas de la frecuencia X(f, k), con el mdice de la banda de la frecuencia f y el mdice del tiempo k. La representacion del dominio de la frecuencia de las senales de entrada se procesa de manera que las senales de la subbanda son escaladas con ponderaciones que vanan con el tiempo G(f, k),
Y{ftk) = G(Jtk)X(ftk) (10)
Las ponderaciones se calculan de la representacion de la senal de entrada X(f, k), de manera que tienen magnitudes grandes para altas relaciones de senal a ruido (SNR), y bajos valores para SNR pequenas. Para calcular las ponderaciones G(f, k), se requiere una estimacion de la sNr tipicamente dependiente del tiempo y la frecuencia, o de N(f, k) o S(f, k). En las aplicaciones de procesamiento del habla, la estimacion del ruido se calcula durante la actividad que no es del habla [2, 5], o utilizando estadfsticas mmimas [6], es decir, basandose en el rastreo de un mmimo local en cada subbanda, o utilizando un segundo microfono cerca de la fuente del ruido.
El resultado de la operacion de ponderacion Y(f, k) es la representacion del dominio de la frecuencia de la senal de salida. La senal del tiempo de salida y(t), se calcula utilizando el procesamiento inverso de la transformada del dominio de la frecuencia, por ejemplo, STFT Inversa.
Con frecuencia, las ponderaciones G(f, k) se eligen para tener valores reales, proporcionando el espectro de salida Y, que tiene la misma informacion de la fase que X. Existen varias reglas de ganancia, por ejemplo, como se calculan las ponderaciones G(f, k), por ejemplo, derivadas de la sustraccion espectral y del filtrado de Wiener. A continuacion, se describiran diferentes metodos para derivar las ponderaciones espectrales. Se supone que s y n son mutuamente ortogonales, es decir
(ii)
A continuacion, la filtracion de Wiener se explica con mas detalle. Dadas las estimaciones de las densidades espectrales de la potencia (PSD) (por ejemplo, derivadas de los coeficientes STFT) de la senal deseada Pdd y la senal de interferencia Pnn, las ponderaciones espectrales se derivan reduciendo al mmimo el error al cuadrado medio
imagen3
Pdd
Pm + Pn
(12)
Se explica ahora la sustraccion espectral utilizando la ponderacion espectral.
Las ponderaciones espectrales se calculan de manera que Pyy
De manera alternativa, las ponderaciones espectrales con valor real pueden derivarse, lo que conduce a |Y| = |X| - |N|, con frecuencia referidos como la sustraccion de la magnitud espectral, con ponderaciones
(14)
|D| es el espectro de la magnitud de d(t). |N| es el espectro de la magnitud de n(t). Se explica ahora la generalizacion de la regla de ponderacion espectral. La formulacion generalizada del filtro STSA se deriva introduciendo tres parametros a, p y y, en donde a y p son exponentes que controlan la fuerza de atenuacion, y y es el factor de sobreestimacion del ruido.
= Pxx-Pnn, es decir
ri3>
imagen4
La ecuacion (15) es una formulacion generalizada de las reglas de supresion del ruido descritas anteriormente, en donde a = 2, p = 2 que corresponden a la sustraccion espectral, y a = 2, p = 1 que corresponden a la filtracion de
6
5
10
15
20
25
30
35
40
45
50
55
60
Wiener. La sustraccion espectral de la magnitud (en lugar de las energfas), se realiza fijando a = 1, p = 1. El parametro y controla la cantidad del ruido y se toma en cuenta para los posibles sesgos de un metodo de estimacion del ruido. Puede elegirse para relacionarse con la SNR estimada o el mdice de la frecuencia.
En la Figura 20, se ilustran ponderaciones espectrales tipicas como una funcion de la SNR, como se utiliza en la mejora del habla.
Puede encontrarse una variedad de otras reglas de ganancia, con las caractensticas comunes de que las ponderaciones se incrementan de manera monotonica con la SNR de la subbanda, por ejemplo, el estimador de Ephraim-Malah [7] o el algoritmo de Atenuacion de Decision Programable/Variable (SDVA) [8].
En las implementaciones practicas, las ponderaciones espectrales se unen tipicamente por un valor mmimo mayor que cero con el fin de reducir los artefactos. Pueden aplicarse diferentes reglas de ganancia en diferentes intervalos de la frecuencia [4]. Las ganancias resultantes pueden alisarse a lo largo del eje del tiempo y el eje de la frecuencia, con el fin de reducir los artefactos. Tfpicamente, se utiliza un filtro de paso bajo de primer orden (integrador con fugas) para el alisamiento a lo largo del eje del tiempo y un filtro de paso bajo de fase cero se aplica a lo largo del eje de la frecuencia.
Realizaciones:
La Figura 1 ilustra un aparato para generar una senal lateral estereofonica, que tiene un primer canal lateral Si(f) y un segundo canal lateral Sr(f) de una senal de entrada estereofonica, que tiene un primer canal de entrada Xi(f) y un segundo canal de entrada Xr(f), de acuerdo con una realizacion. El aparato comprende un generador de la informacion de modificacion 110, para generar la informacion de modificacion modInf basandose en la informacion del lado medio midSideInf. Ademas, el aparato comprende un manipulador de la senal 120 que esta adaptado para manipular el primer canal de entrada X1(f), basandose en la informacion de modificacion modInf para obtener el primer canal lateral S1 (f) y que esta adaptado para manipular el segundo canal de entrada Xr(f), basandose en la informacion de modificacion modInf para obtener el segundo canal lateral Sr(f).
Por ejemplo, el generador de la informacion de modificacion 110 puede adaptarse para generar la informacion de modificacion modInf basandose en la informacion del lado medio midSideInf que se relaciona con una senal media monofonica de una senal de entrada estereofonica, una senal lateral monofonica de la senal de entrada estereofonica y/o una relacion entre la senal media monofonica y la senal lateral monofonica de una senal de entrada estereofonica.
La senal media monofonica puede depender de una senal de suma que resulta de sumar el primer y segundo canales de entrada X1(f), Xr(f). La senal lateral monofonica puede depender de una diferencia de la senal que resulta de sustraer el segundo canal de entrada del primer canal de entrada. Por ejemplo, la senal media monofonica puede calcularse de acuerdo con la formula:
(15a)
La senal lateral monofonica puede, por ejemplo, calcularse de acuerdo con la formula:
= <l5b>
La Figura 1a ilustra un aparato para generar una senal lateral estereofonica de acuerdo con un ejemplo, que no pertenece a la invencion, en donde el generador de la informacion de manipulacion 110 comprende un sustractor espectral 115. El sustractor espectral 115 esta adaptado para generar la informacion de modificacion modInf generando un valor de la diferencia, que indica una diferencia entre una senal media monofonica o una senal lateral monofonica de la senal de entrada estereofonica y el primer o segundo canales de entrada. Por ejemplo, el sustractor espectral 115 puede adaptarse para generar la informacion de modificacion modInf sustrayendo un valor de la magnitud o un valor de la magnitud ponderada del primer o segundo canales de entrada de un valor de la magnitud o un valor de la magnitud ponderada de la senal media monofonica o la senal lateral monofonica de la senal de entrada estereofonica. O, el sustractor espectral 115 puede adaptarse para generar la informacion de modificacion modInf sustrayendo un valor de la magnitud o un valor de la magnitud ponderada de la senal media monofonica o la senal lateral monofonica de la senal de entrada estereofonica de un valor de la magnitud o un valor de la magnitud ponderada del primer o segundo canales de entrada.
La Figura 1b ilustra un aparato para generar una senal lateral estereofonica de acuerdo con una realizacion, en donde el generador de la informacion de modificacion 110 comprende un generador de ponderaciones espectrales 116, para generar la informacion de modificacion modInf, generando un primer factor de ponderacion espectral, basandose en una senal media monofonica y en una senal lateral monofonica de la senal de entrada estereofonica.
5
10
15
20
25
30
35
40
45
50
55
60
La Figura 2 ilustra un sustractor espectral 210 de acuerdo con una realizacion. Un primer espectro de la magnitud |Xi(f)| del primer canal de entrada, un segundo espectro de la magnitud |Xr(f)| del segundo canal de entrada y un tercer espectro de la magnitud |Mi(f)| de una senal media monofonica de la senal de entrada estereofonica se alimentan al sustractor espectral 2l0.
Una primera unidad de sustraccion espectral 215 del sustractor espectral 210, sustrae el tercer espectro |Mi(f)|, que es ponderado por el factor de ponderacion w (w indica un factor escalar en el intervalo de 0 < w < 1), del primer espectro |X1 (f)|, por ejemplo, un primer valor de la magnitud del tercer espectro de la magnitud |M1(f)| ponderado por el factor de ponderacion w, es sustrafdo espectralmente de un primer valor de la magnitud del primer espectro de la magnitud |X1 (f)|; un segundo valor de la magnitud del tercer espectro de la magnitud |M1(f)| ponderado por el factor de ponderacion w, es sustrafdo espectralmente de un segundo valor de la magnitud del primer espectro de la magnitud |X1 (f)|; etc. Mediante esto, se obtiene una pluralidad de primeros valores laterales de la magnitud como informacion de modificacion. Los primeros valores laterales de la magnitud son valores de la magnitud de un espectro de la magnitud ^(f) del primer canal lateral de la senal lateral estereofonica, cuando el resultado de la sustraccion espectral es positivo. Asf, la primera unidad de sustraccion espectral 215 esta adaptada para aplicar la formula:
Sf(f) = |Xi(f)| - w |Mi(f)| (16)
De manera similar, una segunda unidad de sustraccion espectral 218 del sustractor espectral 210 sustrae el tercer espectro |M1 (f)| que es ponderado por el factor de ponderacion w (w indica un factor escalar en el intervalo de 0 < w < 1) del segundo espectro |Xr(f)|, por ejemplo, un primer valor de la magnitud del tercer espectro de la magnitud |M1 (f)| ponderado por el factor de ponderacion w, es sustrafdo espectralmente de un segundo valor de la magnitud del segundo espectro de la magnitud |Xr(f)|; un segundo valor de la magnitud del tercer espectro de la magnitud |M1 (f)|, ponderado por el factor de ponderacion w, es sustrafdo espectralmente de un segundo valor de la magnitud del segundo espectro de la magnitud |Xr(f)|; etc. Asf, se obtiene una pluralidad de segundos valores laterales de la magnitud como la informacion de modificacion, en donde los segundos valores laterales de la magnitud son valores de la magnitud de un espectro de la magnitud Sr(f) del segundo canal lateral de la senal lateral estereofonica, cuando el resultado de la sustraccion espectral es positivo. Mediante esto, la segunda unidad de sustraccion espectral 218 esta adaptada para aplicar la formula:
(17)
La Figura 3 ilustra un generador de la informacion de modificacion de acuerdo con un ejemplo, que no pertenece a la invencion. El generador de la informacion de modificacion comprende un determinador de la magnitud 305 y un sustractor espectral 210. El determinador de la magnitud 305 esta arreglado para recibir el primer X1(f) y el segundo Xr(f) canales de entrada y una senal media monofonica M1(f) de la senal de entrada estereofonica. Un primer valor de la magnitud de un primer espectro de la magnitud |X1 (f)| del primer canal de entrada X1(f), un segundo valor de la magnitud de un segundo espectro de la magnitud |Xr(f)| del segundo canal de entrada Xr(f), y un tercer valor de la magnitud de un tercer espectro de la magnitud |M1(f)| de la senal media monofonica M1(f), se determina por el determinador de la magnitud. El determinador de la magnitud 305 alimenta el primer, el segundo y el tercer valores de la magnitud en un sustractor espectral 210. El sustractor espectral puede ser un sustractor espectral de acuerdo con la Figura 2, que esta adaptado para generar un primer valor de la magnitud lateral estereofonica de un espectro de la magnitud S1 (f) del primer canal lateral S1(f), y un segundo valor de la magnitud lateral estereofonica de un espectro de la magnitud Sr(f) del segundo canal lateral Sr(f).
La Figura 4 ilustra un aparato que realiza una sustraccion espectral de acuerdo con un ejemplo, que no pertenece a la invencion. Un primer canal de entrada X1(t) y un segundo canal de entrada Xr(t) que se representan en el dominio del tiempo, se fijan en una unidad de transformacion 405. La unidad de transformacion 405 esta adaptada para transformar el primer y segundo canales de entrada del dominio del tiempo X1(t), Xr(t) del dominio del tiempo en un dominio espectral, para obtener un primer canal de entrada del dominio espectral X1(f) y un segundo canal de entrada del dominio espectral Xr(f). Los canales de entrada del dominio espectral X1(f), Xr(f), se alimentan a un generador del canal 408. El generador del canal 408 esta adaptado para generar una senal media monofonica M1(f). La senal media monofonica M1(f) puede generarse de acuerdo con la formula:
Ml(f) = 1/i(X1{0+XT{f» (17a)
El generador del canal 408 alimenta la senal media generada M1(f) en un primer extractor de la magnitud 411, que extrae los valores de la magnitud de la senal media generada M1(f). Ademas, el primer canal de entrada X1(f) se alimenta por la unidad de transformacion 405 en un segundo extractor de la magnitud 412, que extrae los valores de la magnitud del primer canal de entrada X1(f). Ademas, la unidad de transformacion 405 alimenta el segundo canal de entrada Xr(f) a un tercer extractor de la magnitud 413, que extrae los valores de la magnitud del segundo canal de
5
10
15
20
25
30
35
40
45
50
55
entrada. La unidad de transformacion 405 tambien alimenta el primer canal de entrada xi(f) a un primer extractor de la fase 421, que extrae los valores de la fase del primer canal de entrada X-i(f). Ademas, la unidad de transformacion 405 tambien alimenta el segundo canal de entrada Xr(f) a un segundo extractor de la fase 422, que extrae los valores de la fase del segundo canal de entrada.
Regresando al primer extractor de la magnitud 411, los valores de la magnitud de la senal media monofonica generada |M1(f)| se alimentan a un primer sustractor 431. Ademas, los valores de la magnitud sustrafdos |X1(f)| se alimentan al primer sustractor 431. El primer sustractor 431 genera un valor de la diferencia entre un valor de la magnitud del primer canal de entrada y un valor de la magnitud de la senal media generada. La magnitud de la senal media generada puede ser ponderada. Por ejemplo, el primer sustractor puede calcular el valor de la diferencia de acuerdo con la formula 16:
imagen5
De manera similar, el tercer extractor de la magnitud 413 alimenta los valores de la magnitud |Xr(f)| a un segundo sustractor 432. Ademas, los valores de la magnitud |M1 (f)| tambien son alimentados al segundo sustractor 432. De manera similar a la primera unidad de sustraccion 431, la segunda unidad de sustraccion 432 genera un valor de la magnitud del segundo canal lateral, sustrayendo los valores de la magnitud |Xr(f)| y los valores de la magnitud de la senal media generada. La segunda unidad de sustraccion 432 puede, por ejemplo, emplear la formula:
fi
Si(f) = |X^f)| - * (3 7)
La primera unidad de sustraccion 431 alimenta entonces el valor de la magnitud generado sf(f) a un primer combinador 441. Ademas, el primer extractor de la fase 421 alimenta un valor de la fase extrafdo del primer canal de entrada X1(f) en el primer combinador 441. El primer combinador 441 genera entonces los valores del dominio espectral del primer canal lateral, combinando el valor de la magnitud generado por la primera unidad de sustraccion 431 y el valor de la fase suministrado por el primer extractor de la fase 421. Por ejemplo, el primer combinador 441 puede emplear la formula:
(IS)
Si algunos de los valores de son negativos, la aplicacion la formula A A exp(2rc®£^i), resulta en una
combinacion del valor absoluto de y exp(2rc®£^i), en donde esta desplazado en la fase por k.
De manera similar, la segunda unidad de sustraccion 432 alimenta un valor de la magnitud generado de la segunda senal lateral a un segundo combinador 442. El segundo extractor de la fase 422 alimenta un valor de la fase extrafdo del segundo canal de entrada Xr(f) en el segundo combinador 442. El segundo combinador esta adaptado para combinar el segundo valor de la magnitud suministrado por la segunda unidad de sustraccion 432 y el valor de la fase suministrado por el extractor de la fase 422, para obtener un segundo canal lateral. Por ejemplo, el segundo combinador 442 puede emplear la formula:
Si algunos de los valores de son negativos, la aplicacion la formula Sr(f) = ®r(f) exp(2ji®r(f)i), resulta en una combinacion del valor absoluto de y exp(2ji®r(f)i), en donde ®r(f) esta desplazado en la fase por k.
El primer combinador 441 alimenta la primera senal lateral generada que esta representada en un dominio espectral a una unidad de transformacion inversa 450. La unidad de transformacion inversa 450 transforma el primer canal lateral del dominio espectral de un dominio espectral a un dominio del tiempo, para obtener una primera senal lateral del dominio del tiempo. Ademas, la unidad de transformacion inversa 450 recibe el segundo canal lateral que es representado en un dominio espectral del segundo combinador 442. La unidad de transformacion inversa 450 transforma el segundo canal lateral del dominio espectral de un dominio espectral a un dominio del tiempo, para obtener un segundo canal lateral del dominio del tiempo.
Como ya se explico, los valores de la magnitud del primer y segundo canales laterales, puede generarse por la primera unidad de sustraccion 431 y la segunda unidad de sustraccion 432, de acuerdo con las formulas:
(3 6)
5
10
15
20
25
30
35
40
45
50
55
60

J^ = P^f>l (17)
Un factor escalar 0 < w < 1 controla el grado de separacion. El resultado de la sustraccion espectral es el espectro de la magnitud de las senales laterales estereofonicas y Sr(f).
La senal del tiempo m(t) = [mi(t) mr(t)], se calcula sustrayendo la senal lateral estereofonica de la senal de entrada.

m|(i) = xi(t) - S((i) (20)

™r{t) = Xr(t) - ^(t) (21)
El hecho de que la senal media se calcule sustrayendo las senales del tiempo, hace que se requieran solo dos transformadas inversas de la frecuencia. El parametro w se elige de manera preferida para estar cercano a 1, puede ser dependiente de la frecuencia.
La Figura 5 ilustra un aparato que emplea estos conceptos.
El aparato comprende ademas, una primera unidad de transformacion 501 que esta adaptada para transformar el primer canal de entrada del dominio del tiempo X1(t) del dominio del tiempo a un dominio espectral, para obtener un primer canal de entrada del dominio espectral X1(f), y una segunda unidad de transformacion 502 que esta adaptada para transformar el segundo canal de entrada del dominio del tiempo Xr(t) del dominio del tiempo al dominio espectral, para obtener un segundo canal de entrada del dominio espectral Xr(f).
El aparato comprende ademas, un generador del canal 508, un primer 511, segundo 512 y tercer 513 extractores de la magnitud, un primer 521 y un segundo 522 extractores de la fase, una primera 531 y una segunda 532 unidades de sustraccion y un primer 541 y un segundo 542 combinadores, que pueden corresponder al generador del canal 408, el primer 411, segundo 412 y tercer 413 extractores de la magnitud, el primer 421 y segundo 422 extractores de la fase, la primera 431 y segunda 432 unidades de sustraccion y el primer 441 y un segundo 442 combinadores del aparato de la Figura 4, respectivamente.
Ademas, el aparato comprende una primera unidad de transformacion inversa 551. La primera unidad de transformacion inversa 551 recibe un primer canal lateral generado que esta representado en un dominio espectral del primer combinador 541. La primera unidad de transformacion inversa 551 transforma un primer canal lateral del dominio espectral generado S1 (f) de un dominio espectral a un dominio del tiempo para obtener un primer canal lateral del dominio del tiempo s1 (t).
Ademas, el aparato comprende una segunda unidad de transformacion inversa 552. La segunda unidad de transformacion inversa 552 recibe un segundo canal lateral generado que esta representado en un dominio espectral del segundo combinador 542. La segunda unidad de transformacion inversa 552 transforma el segundo canal lateral del dominio espectral Sr(f) de un dominio espectral a un dominio del tiempo, para obtener un segundo canal lateral del dominio del tiempo sr(t).
Ademas, el aparato comprende un primer generador del canal medio 561. El primer generador del canal medio 561 genera un primer canal medio m1(t) de una senal media estereofonica en un dominio del tiempo aplicando la formula 20:
m((i) - JCi(t) - s;(i)
(20)
Ademas, el aparato comprende un segundo generador del canal medio 562. El segundo generador del canal medio 562 genera un primer canal medio mr(t) de una senal media estereofonica en un dominio del tiempo aplicando la formula 21:
mr(t)==*r{t)- *r(*) (21)
Se obtienen resultados identicos implementando este procesamiento utilizando la ponderacion espectral (de manera similar al procesamiento en la seccion descrita anteriormente “Antecedentes”), como se muestra de manera ejemplar para el canal izquierdo en la presente. Los espectros con valores complejos X1(f) se ponderan como se muestra en la siguiente ecuacion:
„m UWlMWtl Y m lU)"'—pw)f" ,(/)
5
10
15
20
25
30
35
40
45
50
55
60
Aunque la ecuacion anterior proporciona un resultado identico con la ponderacion real obtenida con la sustraccion espectral (pero con una carga computacional mas grande; principalmente debido a la division para calcular las ponderaciones espectrales), el enfoque de la ponderacion espectral tiene ventajas, debido a que ofrece mas posibilidades para parametrizar el procesamiento, que conduce a diferentes resultados con caractensticas similares, como se describe a continuacion:
La descomposicion de la senal utilizando la ponderacion espectral se explica ahora con mas detalle. La razon fundamental del concepto de acuerdo con la invencion, es aplicar la ponderacion espectral a las senales del canal izquierdo y derecho xi(t) y Xr(t), en donde las ponderaciones espectrales se derivan de la composicion M-S. Un resultado intermedio de la descomposicion M-S es la relacion de la senal media y lateral por bloque de tiempo-frecuencia, a continuacion, referido como relacion media-lateral (MSR). Esta MSR puede utilizarse para calcular las ponderaciones espectrales, pero notese que las ponderaciones pueden calcularse de manera alternativa sin la nocion de la MSR. En este caso, la mSr sirve principalmente para el proposito de explicar la idea basica del metodo. Para calcular la senal media estereofonica m(t)=[mi(t) mr(t)], las ponderaciones se eligen de manera que estan relacionadas de manera monotonica con la MSR. Para calcular la senal lateral estereofonica s(t)=[si(t) sr(t)], las ponderaciones se eligen de manera que estan relacionadas de manera monotonica con el inverso de la MSR. En la invencion, un generador de la informacion de modificacion comprende un generador de las ponderaciones espectrales. La Figura 6 ilustra un aparato de acuerdo con tal realizacion. El aparato comprende un generador de la informacion de modificacion 610 y un manipulador de la senal 620. El generador de la informacion de modificacion comprende un generador de las ponderaciones espectrales 615. El manipulador de la senal 620 comprende una primera unidad de manipulacion 621 para la manipulacion de un primer canal de entrada Xi(f) de una senal estereofonica y una segunda unidad de manipulacion 622 para manipular un segundo canal de entrada Xr(f) de la senal de entrada estereofonica. El generador de las ponderaciones espectrales 615 de la Figura 6 recibe una senal media monofonica Mi(f) y una senal lateral monofonica Si(f) de la senal de entrada estereofonica. El generador de las ponderaciones espectrales 615 esta adaptado para determinar un factor de ponderacion espectral Gs(f), basandose en la senal media monofonica Mi(f) y en la senal lateral monofonica Si(f) de la senal de entrada estereofonica. El manipulador de la senal 620 alimenta entonces el factor de ponderacion espectral generado Gs(f) como una informacion de modificacion en el generador de la informacion de modificacion 620. La primera unidad de modificacion 621 del generador de la informacion de modificacion 620, esta adaptada para manipular el primer canal de entrada Xi(f) de la senal de entrada estereofonica, basandose en el factor de ponderacion espectral generado Gs(f), para obtener un primer canal lateral Si(f) de una senal lateral estereofonica.
Otra realizacion se ilustra en la Figura 7. Como el aparato de la Figura 6, el aparato de la Figura 7 comprende un generador de la informacion de modificacion 710 y un manipulador de la senal 720. El generador de la informacion de modificacion comprende un generador de ponderaciones espectrales 715. El manipulador de la senal 720 comprende una primera unidad de manipulacion 721 para manipular un primer canal de entrada Xi(f) de una senal estereofonica, y una segunda unidad de manipulacion 722 para manipular un segundo canal de entrada Xr(f) de la senal de entrada estereofonica. El manipulador de la senal 720 de la realizacion de la Figura 7, esta adaptado para manipular un primer canal de entrada Xi(f), asf como un segundo canal de entrada Xr(f), basandose en el mismo factor de ponderacion espectral generado Gs(f), para obtener un primer Si(f) y un segundo Sr(f) canal lateral de una senal lateral estereofonica.
Una realizacion adicional se ilustra en la Figura 8. Como el aparato de la Figura 6, el aparato de la Figura 8 comprende un generador de la informacion de modificacion 810 y un manipulador de la senal 820. El generador de la informacion de modificacion comprende un generador de ponderaciones espectrales 815. El manipulador de la senal 820 comprende un primera unidad de manipulacion 821 para manipular un primer canal de entrada Xi(f) de una senal estereofonica y una segunda unidad de manipulacion 822 para manipular un segundo canal de entrada Xr(f) de la senal de entrada estereofonica. El generador de ponderaciones espectrales 815 esta adaptado para generar dos o mas factores de ponderaciones espectrales. Ademas, la primera unidad de manipulacion 821 del generador de la informacion de modificacion 820, esta adaptada para manipular un primer canal de entrada, basandose en un primer factor de ponderacion espectral generado. La segunda unidad de manipulacion 822 del generador de la informacion de modificacion 820, esta adaptada ademas, para manipular el segundo canal de entrada, basandose en un segundo factor de ponderacion espectral generado.
La Figura 9 ilustra un generador de la informacion de modificacion 910 de acuerdo con una realizacion. El generador de la informacion de modificacion 910 comprende un determinador de la magnitud 912 y un generador de ponderaciones espectrales 915. El determinador de la magnitud 912 esta adaptado para recibir la senal media monofonica Mi(f) que esta representada en un dominio espectral. Ademas, el determinador de la magnitud 912 esta adaptado para recibir la senal lateral monofonica Si(f), que esta representada en un dominio espectral. El determinador de la magnitud 912 esta adaptado para determinar un valor de la magnitud de un espectro |Si(f)| de la senal lateral monofonica Si(f), como un valor lateral de la magnitud. Ademas, el determinador de la magnitud 912 esta adaptado para determinar un valor de la magnitud de un espectro |Mi(f)| de la senal media monofonica Mi(f)
5
10
15
20
25
30
35
40
45
50
como un valor medio de la magnitud.
El determinador de la magnitud 912 esta adaptado para alimentar el valor lateral de la magnitud y el valor medio de la magnitud en el generador de ponderaciones espectrales 915. El generador de ponderaciones espectrales 915 esta adaptado para generar el primer factor de ponderacion espectral Gs(f), basandose en la relacion de un primer numero a un segundo numero, en donde el primer numero depende del valor lateral de la magnitud, y en donde el segundo numero depende del valor medio de la magnitud y el valor lateral de la magnitud. Por ejemplo, el primer factor de ponderacion espectral Gs(f) puede calcularse de acuerdo con la formula:
r(f) - ( ____V
en donde a, p, y, 8 y n son factores escalares.
A continuacion, se describe el calculo de las ponderaciones espectrales en mas detalle. Tales ponderaciones espectrales pueden derivarse utilizando una de las reglas de ganancia descritas anteriormente, como se describe en el contexto de la sustraccion espectral y la ponderacion espectral en la seccion anterior “Antecedentes”, sustituyendo la senal deseada d(t) y la senal de interferencia n(t), de acuerdo con la Tabla 1.
Tabla 1. Asignacion de las senales M-S a las senales utilizadas para calcular las ponderaciones espectrales.
senal deseada de interferencia
senal lateral estereofonica
s(t) m(t)
senal media estereofonica
m(t) s(t)
Por ejemplo, la senal lateral estereofonica s(t)=[s1 (t) sr(t)], puede calcularse de acuerdo con las ecuaciones (23), (24) y (25).
$i(f)
m
Gs<f) Xi(f) (24)
as)
Un parametro adicional 8 se introduce para controlar el impacto de los componentes de la senal lateral estereofonica en el proceso de descomposicion.
Notese que la transformada de la frecuencia solo necesita calcularse para el par de la senal [x1(t) Xr(t)] o [m(t) s(t)], y el par superior se deriva mediante la adicion y sustracciones de acuerdo con las Ecuaciones (5) y (6).
De una manera similar, la senal media estereofonica m(t)=[iTH(t) mr(t)], puede calcularse de acuerdo con las Ecuaciones (26), (27) y (28).
OM -
\mr
£
,7i*(/)r+*[w)r
MiCO - GtaO)Xi(f)
MXi) = OJO xtf
{ii)
OS)
La Figura 10 ilustra un aparato para generar una senal media estereofonica que tiene un primer canal medio M1(f) y un segundo canal medio Mr(f) de una senal de entrada estereofonica, que tiene un primer canal de entrada y un segundo canal de entrada. El aparato comprende un generador de la informacion de modificacion 1010 para generar la informacion de modificacion modInf2, basandose en la informacion lateral media midSideInf, y un manipulador de la senal 1020 que esta adaptado para manipular el primer canal de entrada X1(f), basandose en la informacion de modificacion, para obtener el primer canal medio Mf y esta adaptado para manipular el segundo canal de entrada Xr(f), basandose en la informacion de modificacion modInf, para obtener el segundo canal medio Mr(f).
La Figura 10a ilustra un aparato para generar una senal media estereofonica de acuerdo con un ejemplo, que no
5
10
15
20
25
30
35
40
45
50
55
pertenece a la invencion, en donde el generador de la informacion de manipulacion 1010 comprende un sustractor espectral 1015. El sustractor espectral 1015 esta adaptado para generar la informacion de modificacion modInf2 para generar un valor de la diferencia que indica una diferencia entre una senal media monofonica o una senal lateral monofonica de la senal de entrada estereofonica y el primer o segundo canales de entrada. Por ejemplo, el sustractor espectral 1015 puede adaptarse para generar la informacion de modificacion modInf2 sustrayendo un valor de la magnitud o un valor de la magnitud ponderada del primer o segundo canales de entrada de un valor de la magnitud o un valor de la magnitud ponderado de la senal media monofonica o la senal lateral monofonica de la senal de entrada estereofonica. O, el sustractor espectral 1015 puede adaptarse para generar la informacion de modificacion modInf2, sustrayendo un valor de la magnitud o un valor de la magnitud ponderado de la senal media monofonica o la senal lateral monofonica de la senal de entrada estereofonica, de un valor de la magnitud o un valor de la magnitud ponderada del primer o el segundo canales de entrada.
La Figura 10b ilustra un aparato para generar una senal media estereofonica de acuerdo con una realizacion, en donde el generador de la informacion de modificacion 1010 comprende un generador de ponderaciones espectrales 1016 para generar la informacion de modificacion modInf2 generando un primer factor de ponderacion espectral, basandose en una senal media monofonica y en una senal lateral monofonica de la senal de entrada estereofonica.
El generador de la informacion de modificacion puede generar la informacion de modificacion modInf2, por ejemplo, de acuerdo con la formula 26:
Gm(f)
= ^ mnr
(26)
Una alternativa a las ponderaciones mostradas en la Ecuacion 26, es derivar las ponderaciones de un criterio para mezclar la compatibilidad, en donde Gs(f) + Gm(f) = 1, conduciendo a
imagen6
una extension del metodo descrito anteriormente es motivada por la observacion de que la funcion de la ganancia (23) no conduce a una ponderacion igual a 1, incluso en el caso de que los intervalos de tiempo-frecuencia esten muy agrupados en un lado. Esta es una consecuencia del hecho de que el denominador siempre es mayor que el numerador, puesto que la senal media solo se aproximara a cero si ambos coeficientes espectrales izquierdo y derecho son cero. Para lograr Gs(f)=1 para los componentes de la senal muy agrupada, la ecuacion (23) puede modificarse a
imagen7
La modificacion en la ecuacion (30) conduce a ganancias unitarias para los componentes muy agrupados. De manera alternativa, las ecuaciones (31) y (32) muestran formulas de la ganancia con un parametro n, cuyos resultados son iguales a la ecuacion (23) para n = 0 y (30) para n = 1.
imagen8
con
QfQ-n min I . Ml j + (J - Mff) (32)
Notese que una ponderacion espectral descrita anteriormente no garantiza la compatibilidad de la mezcla en todos los casos, es decir
sei = fl; 4- mi (33)
— sr+mr (34)
Si se desea una separacion de la conservacion de la energfa, las ponderaciones necesitan elegirse de manera que
5
10
15
20
25
30
35
40
45
50
55
imagen9
imagen10
como se describio anteriormente, y calculando los otros factores de ponderacion en consecuencia, por ejemplo, como
imagen11
Opcionalmente, puede aplicarse un factor de escalamiento constante adicional a una de las funciones de ganancia antes de la sustraccion.
Para el ejemplo de la reproduccion cuadrafonica con compatibilidad de la mezcla, los parametros a ser ajustados son
imagen12
Las ponderaciones espectrales Gs(f) se calculan primero y se escalan por 1,5 dB. Las ganancias de la senal media estereofonica se calculan como Gm(f) = 1 - Gs(f).
Las funciones de la ganancia se ilustran como una funcion del parametro de agrupamiento a en la Figura 11. En la Figura 11, se ilustran las ganancias ejemplares para las senales laterales estereofonicas (lmea continua) y las senales medias estereofonicas (lmeas discontinuas). Se muestra que las ganancias son complementarias, es decir, la separacion es compatible con la mezcla. Los componentes de la senal que estan agrupados en cualquier lado se atenuan en la senal media estereofonica, y los componentes de la senal que estan agrupados en el centro, son atenuados en la senal lateral estereofonica. Los componentes de la senal que estan agrupados aparecen en ambas senales. Las funciones de la ganancia se ilustran como una funcion del parametro de agrupamiento a en la Figura 12. La Figura 12 ilustra los resultados de la ponderacion espectral para las senales laterales estereofonicas (Figura superior) y las senales medias estereofonicas (Figura inferior) para el canal izquierdo (lmea continua) y derecho (lmea discontinua).
La Figura 13 ilustra un aparato para generar una senal lateral estereofonica de acuerdo con una realizacion adicional. El aparato comprende una unidad de transformacion 1203, un generador de la informacion de modificacion 1310, un manipulador de la senal 1320 y una unidad de transformacion inversa 1325. Un primer canal de entrada X1(t) y un segundo canal de entrada Xr(t) de una senal de entrada estereofonica y una senal media iTH(t) y una senal lateral s1 (t) de la senal de entrada estereofonica, se alimentan a la unidad de transformacion 1305. La unidad de transformacion pueden ser una unidad de transformada de Fourier a Corto Plazo (unidad STFT), un banco de filtros, o cualquier otro medio para derivar una representacion de la senal con multiples bandas de frecuencia X(f, k), con el mdice de la banda de la frecuencia f y el mdice del tiempo k. La unidad de transformacion, transforma la senal media mid1(t), la senal lateral s1 (t), el primer canal de entrada X1(t) y el segundo canal de entrada Xr(t), que estan representados en un dominio del tiempo a senales del dominio espectral, en particular, en una senal media del dominio espectral Mf una senal lateral del dominio espectral S1 (f), un primer canal de entrada del dominio espectral X1(f) y un segundo canal de entrada del dominio espectral Xr(f). La senal media del dominio espectral M1(f) y la senal lateral del dominio espectral S1 (f) se alimentan en el generador de la informacion de modificacion 1310 como una informacion media-lateral.
El generador de la informacion de modificacion 1310 genera la informacion de modificacion modInf basandose en la senal media monofonica del dominio espectral M1(f) y la senal lateral monofonica S1 (f). El generador de la informacion de modificacion de la Figura 13 tambien puede tomar en cuenta el primer canal de entrada X1(f) y/o el segundo canal de entrada Xr(f), como se indica por las lmeas de conexion punteadas 1312 y 1314. Por ejemplo, el generador de la informacion de modificacion 1310 puede generar la informacion de modificacion que se basa en la senal media monofonica M1(f), el primer canal de entrada X1(f) y el segundo canal de entrada Xr(f).
El generador de la modificacion 1310 pasa entonces la informacion de modificacion generada modInf al manipulador de la senal 1320. Ademas, la unidad de transformacion 1305 alimenta el primer canal de entrada del dominio espectral X1(f) y el segundo canal de entrada del dominio espectral Xr(f) en el manipulador de la senal 1320. El
5
10
15
20
25
30
35
40
45
50
55
60
manipulador de la senal 1320 esta adaptado para manipular el primer canal de entrada, basandose en la informacion de modificacion modInf, para obtener un primer canal lateral del dominio espectral S-i(f) y un segundo canal lateral del dominio espectral Sr(f), que se alimentan a la unidad de transformacion inversa 1325 por el manipulador de la senal 1320.
La unidad de transformacion inversa 1325 esta adaptada para transformar el primer canal lateral del dominio espectral S1(f) en un dominio del tiempo, para obtener un primer canal lateral del dominio del tiempo s1 (t), y para transformar el segundo canal lateral del dominio espectral Sr(f) en un dominio del tiempo, para obtener un segundo canal lateral del dominio del tiempo sr(t), respectivamente.
La Figura 14 ilustra un aparato para generar una senal lateral estereofonica de acuerdo con una realizacion adicional. El aparato ilustrado por la Figura 14, difiere del aparato de la Figura 13 en que el aparato de la Figura 14 comprende ademas un generador del canal 1307, que esta adaptado para recibir el primer canal de entrada X1(f) y el segundo canal de entrada Xr(f), y para generar una senal media monofonica M1(f) y/o una senal lateral monofonica S1 (f), del primer y segundo canales de entrada X1(f), Xr(f). Por ejemplo, la senal media monofonica M1(f) puede generarse de acuerdo con la formula:
Mif
La senal lateral monofonica S1(f) puede, por ejemplo, generarse de acuerdo con la formula:
La razon fundamental del metodo propuesto es calcular una estimacion del espectro de la magnitud de las senales deseadas, en concreto de m(t) = [iTH(t) mr(t)] y s = [s1 (t) sr(t)], procesando la senal de entrada x(t)=[x1(t) Xr(t)], y aprovechando el hecho de que la representacion del dominio de la frecuencia de m1(t) y s1 (t) comprende los componentes deseados de la senal.
En un ejemplo, que no pertenece a la invencion, se emplea la sustraccion espectral. Los espectros de las senales de entrada se modifican utilizando los espectros de la senal media monofonica. En otra realizacion, se emplea la ponderacion espectral, en donde las ponderaciones se derivan utilizando la senal media monofonica y la senal lateral monofonica.
De acuerdo con las realizaciones, las senales deberan calcularse con caractensticas similares como la senal media y lateral, pero sin perder la senal estereofonica cuando se escucha cada una de las senales de manera separada. Esto se logra utilizando la sustraccion espectral en un ejemplo, que no pertenece a la invencion, y utilizando la ponderacion espectral en la presente invencion.
De acuerdo con otra realizacion, se proporciona un mezclador para generar al menos cuatro canales de mezclado de una senal estereofonica que tiene dos canales de entrada del mezclador.
El mezclador comprende un aparato para generar una senal lateral estereofonica de acuerdo con una de las realizaciones descritas anteriormente, para generar un primer canal lateral como el primer canal de mezclado, y para generar un segundo canal lateral como un segundo canal de mezclado. El mezclador comprende ademas, una primera unidad de combinacion y una segunda unidad de combinacion. La primera unidad de combinacion esta adaptada para combinar el primer canal de entrada y el primer canal lateral, para obtener un primer canal medio como un tercer canal de mezclado. Ademas, la segunda unidad de combinacion esta adaptada para combinar el segundo canal de entrada y el segundo canal lateral como un cuarto canal de mezclado.
La Figura 15 ilustra un mezclador de acuerdo con un ejemplo, que no pertenece a la invencion. El mezclador comprende un aparato para generar una senal lateral estereofonica 1510, un primer generador del canal medio 1520 y un segundo generador del canal medio 1530. Un primer canal de entrada X1(f) se alimenta al aparato para generar una senal lateral estereofonica 1510 y en el primer generador del canal medio 1520. Ademas, un segundo canal de entrada X(f) se alimenta al aparato para generar una senal lateral estereofonica 1510 y en el segundo generador del canal medio 1530. Ademas, el aparato para generar una senal lateral estereofonica 1510 alimenta el primer canal lateral generado S1 (f) en el primer generador del canal medio 1520, y alimenta ademas, el segundo canal lateral generado Sr(f) en el segundo generador del canal medio 1530. El primer canal lateral S1 (f) es producido como un primer canal del mezclador generado por el mezclador. El segundo canal lateral Sr(f) se produce como un segundo canal del mezclador generado por el mezclador. El primer generador del canal medio 1520 combina el primer canal de entrada X1(f) y el primer canal lateral generado S1 (f), para obtener un primer canal de una senal media estereofonica Mf Por ejemplo, el generador del canal medio 1520 puede emplear la formula:
imagen13
5
10
15
20
25
30
35
40
45
50
55
60
Ademas, la segunda unidad de combinacion, combina el segundo canal Sr(f) de la senal lateral estereofonica y el segundo canal de entrada Xr(f) por el generador del canal medio 1530 para obtener un segundo canal Mr(f) de la senal media estereofonica. Por ejemplo, la segunda unidad de combinacion puede emplear la formula:
Xf(f)- SXf).
El primer canal de la senal media estereofonica Mi(f) y el segundo canal de la senal media estereofonica Mr(f), se producen como el tercer y cuarto canales del mezclador, respectivamente. Como puede observarse, la existencia de una senal media estereofonica y una senal lateral estereofonica es ventajosa para la aplicacion de mezclado de una senal estereofonica, para la reproduccion utilizando sistemas de sonido envolvente. Una posible aplicacion de la senal lateral estereofonica y media estereofonica, es la reproduccion del sonido cuadrafonico como se muestra en la Figura 16. Comprende cuatro canales que se alimentan a las senales medias estereofonicas y las senales laterales estereofonicas.
La aplicacion ejemplar de la reproduccion cuadrafonica como se describio anteriormente, es una buena ilustracion para las caractensticas de la senal lateral estereofonica y la senal media estereofonica. Notese que el procesamiento descrito puede extenderse ademas, para reproducir la senal de audio con diferentes formatos que el cuadrafonico. Mas senales del canal de salida se combinan separando primero la senal lateral estereofonica y la senal media estereofonica, y aplicando el procesamiento descrito nuevamente a una o ambas de ellas. Por ejemplo, una senal para la reproduccion utilizando 5 canales de acuerdo con ITU-R BS.775 [1], puede derivarse repitiendo la descomposicion de la senal con la senal media estereofonica como la senal de entrada.
La Figura 17 ilustra un diagrama de bloques del procesamiento para generar una senal con multiples canales, adecuada para la reproduccion con cinco canales, con un canal central C, un izquierdo L, un derecho R, un izquierdo envolvente SL y un derecho envolvente SR.
Los metodos y aparatos descritos anteriormente se han presentado para descomponer una senal de entrada estereofonica en una senal lateral estereofonica y/o una senal media estereofonica. Se aplica la sustraccion espectral o la ponderacion espectral para la separacion espectral. Una descomposicion MS proporciona la informacion basada en la direccion, que es necesaria para calcular el grado al cual cada bloque de tiempo- frecuencia contribuye a la senal lateral estereofonica y la senal media estereofonica. Tales senales pueden utilizarse para la aplicacion del mezclado de senales estereofonicas para la reproduccion por sistemas de sonido envolvente.
Aunque algunos aspectos se han descrito en el contexto de un aparato, esta claro que estos aspectos tambien representan una descripcion del metodo correspondiente, en donde un bloque o un dispositivo corresponde a una etapa del metodo o una caractenstica de una etapa del metodo. De manera analoga, los aspectos descritos en el contexto de una etapa del metodo tambien representan una descripcion de un bloque o punto o caractenstica correspondiente de un aparato correspondiente.
La senal descompuesta inventiva puede almacenarse en un medio de almacenamiento digital, o puede transmitirse en un medio de transmision, tal como un medio de transmision inalambrico o un medio de transmision cableado, tal como Internet.
Dependiendo de ciertos requisitos de la implementacion, las realizaciones de la invencion pueden implementarse en hardware o software. La implementacion puede realizarse utilizando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tienen senales de control legibles electronicamente almacenadas en ellas, que cooperan (o son capaces de cooperar) con un sistema de computadora programable, de manera que se realiza el metodo respectivo.
Algunas realizaciones de acuerdo con la invencion comprenden un portador de datos no transitorio, que tiene senales de control legibles electronicamente, que son capaces de cooperar con un sistema de computadora programable, de manera que se realiza uno de los metodos descritos en la presente.
Generalmente, las realizaciones de la presente invencion pueden implementarse como un producto de un programa de computadora con un codigo del programa, el codigo del programa es operativo para realizar uno de los metodos, cuando el producto del programa de computadora se ejecuta en una computadora. El codigo del programa puede almacenarse, por ejemplo, en un portador legible por la maquina.
Otras realizaciones comprenden el programa de computadora para realizar uno de los metodos descritos en la presente, almacenado en un portador legible por la maquina.
En otras palabras, una realizacion del metodo inventivo es, por lo tanto, un programa de computadora que tiene un codigo del programa para realizar uno de los metodos descritos en la presente, cuando el programa de computadora
5
10
15
20
25
30
35
40
45
50
55
60
se ejecuta en una computadora.
Una realizacion adicional de los metodos inventivos es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible por computadora), que comprende, grabado en el mismo, el programa de computadora para realizar uno de los metodos descritos en la presente.
Una realizacion adicional del metodo inventivo es, por lo tanto, una corriente de datos o una secuencia de senales que representan el programa de computadora, para realizar uno de los metodos descritos en la presente. La corriente de datos o la secuencia de senales puede configurarse, por ejemplo, para transferirse mediante una conexion de comunicacion de datos, por ejemplo, mediante Internet.
Una realizacion adicional comprende un medio de procesamiento, por ejemplo, una computadora o un dispositivo logico programable, configurado para, o adaptado para realizar uno de los metodos descritos en la presente.
Una realizacion adicional comprende una computadora que tiene instalado en el mismo el programa de computadora para realizar uno de los metodos descritos en la presente.
En algunas realizaciones, puede utilizarse un dispositivo logico programable (por ejemplo, un campo de matrices de puertas programables), para realizar una o todas las funcionalidades de los metodos descritos en la presente. En algunas realizaciones, un campo de matrices de puertas programables puede cooperar con un microprocesador, con el fin de realizar uno de los metodos descritos en la presente. Generalmente, los metodos se realizan de manera preferida mediante cualquier aparato de hardware.
Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invencion. Se entendera que las modificaciones y variaciones de las disposiciones y los detalles descritos en la presente, seran evidentes para los expertos en la materia. Por lo tanto, pretenden estar limitadas solo por el alcance de las reivindicaciones de la patente a continuacion y no por los detalles espedficos presentados a manera de descripcion y explicacion de las realizaciones en la presente.
Bibliografia:
[1] International Telecommunication Union, Radiocommunication Assembly, “Multichannel stereophonic sound system with and without accompanying picture”, Recommendation ITU-R.BS.775-2, 2006, Ginebra, Suiza.
[2] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. on Accoustics, Speech, and Signal Processing, vol. 27, n° 2, pags.. 113-120, 1979
[3] O. Cappe, “Elimination of the musical noise phenomenon with the Ephraim-Malah noise suppressor”, IEEE Trans. On Speech and Audio Processing, vol. 2, pags. 345-349, 1994.
[4] G. Schmidt, “Single-channel noise suppression based on spectral weighting”, Eurasip Newsletter, 2004.
[5] M. Berouti, R. Schwartz y J. Makhoul, “Enhancement of speech corrupted by acoustic noise”, in Proc. of the IEEE Int. Conf. On Acoustics, Speech, and Signal Processing, ICASSP, 1979
[6] R. Martin, “Spectral subtraction based on minimum statistics”, in Proc. of EUSIPCO, Edinburgh, Reino Unido, 1994
[7] Y. Ephraim y D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator”, in Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, 1984
[8] E George, “Single-sensor speech enhancement using a soft-decision/variable attenuation algorithm”, in Proc. Of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, 1995.
[9] C. Avendano y J.-M. Jot, “A frequency-domain approach to multi-channel upmix”, J. Audio Eng. Soc., vol. 52, 2004.
[10] C. Faller, “Multiple-loudspeaker playback of stereo signals”, J. Audio Eng. Soc., vol. 54, 2006.
[11] C. Uhle, J. Herre, S. Geyersberger, F. Ridderbusch, A. Walter y O. Moser, “Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program”, Solicitud de Patente de Estados Unidos 2009/0080666, 2009.
[12] C. Uhle, J. Herre, A. Walther, O. Hellmuth y C. Janssen, “Apparatus and method for generating an ambient
signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program”, Solicitud de Patente de Estados Unidos 2010/0030563, 2010.
[13] E. Vickers, “Two-to-three channel upmix for center channel derivation”, Solicitud de Patente de Estados 5 Unidos 2010/0296672, 2010.

Claims (15)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    reivindicaciones
    1. Un aparato para generar una senal lateral estereofonica, que tiene un primer canal lateral y un segundo canal lateral de una senal de entrada estereofonica, que tiene un primer canal de entrada y un segundo canal de entrada, que comprende:
    un generador de la informacion de modificacion (110; 610; 710; 810; 910; 1310) para generar la informacion de modificacion, el generador de la informacion de modificacion (110; 610; 710; 810; 910; 1310) comprende un generador de ponderaciones espectrales (116; 615; 715; 815; 915) para generar la informacion de modificacion, generando un primer factor de ponderacion espectral, basandose en una senal media monofonica y en una senal lateral monofonica de la senal de entrada estereofonica, y
    un manipulador de la senal (120; 620; 720; 820; 1320) que esta adaptado para manipular el primer canal de entrada, basandose en la informacion de modificacion para obtener el primer canal lateral, y esta adaptado para manipular el segundo canal de entrada, basandose en la informacion de modificacion para obtener el segundo canal lateral.
  2. 2. Un aparato de acuerdo con la reivindicacion 1,
    en el que el manipulador de la senal (120; 620; 720; 820; 1320) esta adaptado para manipular el segundo canal de entrada, basandose en el primer factor de ponderacion espectral como la informacion de modificacion, para obtener el segundo canal lateral.
  3. 3. Un aparato de acuerdo con la reivindicacion 1 o 2,
    en el que el generador de la informacion de modificacion (110; 610; 710; 810; 910; 1310) comprende el generador de ponderaciones espectrales (116; 615; 715; 815; 915), para generar la informacion de modificacion, generando el primer factor de ponderacion espectral, basandose en la senal media monofonica y en la senal lateral monofonica de la senal de entrada estereofonica,
    en el que el generador de ponderaciones espectrales (116; 615; 715; 815; 915) esta adaptado para generar un segundo factor de ponderacion espectral, basandose en la senal media monofonica y en la senal lateral monofonica de la senal de entrada estereofonica,
    y en el que el manipulador de la senal (120; 620; 720; 820; 1320) esta adaptado para manipular el segundo canal de entrada, basandose en el segundo factor de ponderacion espectral como la informacion de modificacion para obtener el segundo canal lateral.
  4. 4. Un aparato de acuerdo con una de las reivindicaciones anteriores,
    en el que el generador de la informacion de modificacion (110; 610; 710; 810; 910; 1310) comprende el generador de ponderaciones espectrales (116; 615; 715; 815; 915) para generar la informacion de modificacion, generando el primer factor de ponderacion espectral, basandose en la senal media monofonica y en la senal lateral monofonica de la senal de entrada estereofonica,
    en el que el generador de la informacion de modificacion (110; 610; 710; 810; 910; 1310) comprende ademas un determinador de la magnitud (912),
    en el que el determinador de la magnitud (912) esta adaptado para recibir la senal media monofonica que esta representada en un dominio espectral, y en el que el determinador de la magnitud esta adaptado para recibir la senal lateral monofonica que esta representada en un dominio espectral,
    en el que el determinador de la magnitud (912) esta adaptado para determinar un valor de la magnitud de la senal lateral monofonica como un valor lateral de la magnitud, y en el que el determinador de la magnitud (912) esta adaptado para determinar un valor de la magnitud de la senal media monofonica como un valor medio de la magnitud,
    en el que el determinador de la magnitud (912) esta adaptado para alimentar el valor lateral de la magnitud y el valor medio de la magnitud en el generador de ponderaciones espectrales (116; 615; 715; 815; 915), y en el que el generador de ponderaciones espectrales (116; 615; 715; 815; 915) esta adaptado para generar el primer factor de ponderacion espectral, basandose en una relacion de un primer numero a un segundo numero, en el que el primer numero depende del valor lateral de la magnitud, y en el que el segundo numero depende del valor medio de la magnitud y el valor lateral de la magnitud.
  5. 5. Un aparato de acuerdo con una de las reivindicaciones anteriores,
    en el que el generador de la informacion de modificacion (110; 610; 710; 810; 910; 1310) comprende el generador de ponderaciones espectrales (116; 615; 715; 815; 915), para generar la informacion de modificacion, generando el primer factor de ponderacion espectral, basandose en la senal media monofonica y en la senal lateral monofonica de la senal de entrada estereofonica, en el que el generador de ponderaciones espectrales (116; 615; 715; 815; 915) esta adaptado para generar el factor de modificacion de acuerdo con la formula
    GAf) =
    -c
    Ifl/T
    j|s{/)r+7i*f(/)r
    ■)'
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    o, en el que el generador de ponderaciones espectrales (116; 615; 715; 815; 915) esta adaptado para generar el factor de modificacion de acuerdo con la formula:
    imagen1
    o, en el que el generador de ponderaciones espectrales (116; 615; 715; 815; 915) esta adaptado para generar el factor de modificacion de acuerdo con la formula:
    imagen2
    con
    imagen3
    en el que |S(f)| indica un espectro de la magnitud de la serial lateral monofonica, en el que |M(f)| indica un espectro de la magnitud de la serial lateral monofonica, en el que 1^(01 indica un espectro de la magnitud del primer canal de entrada, en el que |Xr(f)| indica un espectro de la magnitud del segundo canal de entrada, en el que M(f) indica la senal media monofonica, y en el que a, p, y, 8 y n son factores escalares.
  6. 6. Un aparato de acuerdo con una de las reivindicaciones 2 a 5, en el que el generador de la informacion de modificacion (110; 610; 710; 810; 910; 1310) esta adaptado para generar la informacion de modificacion, basandose en la senal media monofonica de la senal de entrada estereofonica o en la senal lateral monofonica de la senal de entrada estereofonica, en el que la senal media monofonica depende de una senal de suma que resulta de sumar el primer y el segundo canales de entrada, y en el que la senal lateral monofonica depende de una senal de la diferencia que resulta de sustraer el segundo canal de entrada del primer canal de entrada.
  7. 7. Un aparato de acuerdo con una de las reivindicaciones 2 a 6, en el que el aparato comprende ademas un generador del canal (561, 562), en el que el generador del canal esta adaptado para generar la senal media monofonica o la senal lateral monofonica, basandose en el primer y segundo canales de entrada.
  8. 8. Un aparato de acuerdo con una de las reivindicaciones 2 a 7, en el que el aparato comprende ademas:
    una unidad de transformacion (1305) para transformar el primer y segundo canales de entrada de la senal de entrada estereofonica, de un dominio del tiempo a un dominio espectral, y una unidad de transformacion inversa (1325),
    en el que el manipulador de la senal (120; 620; 720; 820; 1320) esta adaptado para manipular el primer canal de entrada que esta representado en el dominio espectral y el segundo canal de entrada que esta representado en el dominio espectral, para obtener la senal lateral estereofonica que esta representada en el dominio espectral, y en el que la unidad de transformacion inversa (1325) esta adaptada para transformar la senal lateral estereofonica que esta representada en el dominio espectral del dominio espectral al dominio del tiempo.
  9. 9. Un mezclador, que comprende:
    un aparato para generar una senal lateral estereofonica (1510) que tiene un primer canal lateral y un segundo canal lateral, de acuerdo con una de las reivindicaciones anteriores, en el que el aparato esta adaptado para generar el primer canal lateral como un primer canal mezclador, y en el que el aparato esta adaptado para generar el primer canal lateral como un primer canal mezclador,
    un primer generador del canal medio (1520) para generar el primer canal medio como un tercer canal mezclador, basandose en una diferencia entre el primer canal de entrada estereofonica y el primer canal lateral, y un segundo generador del canal medio (1530) para generar el segundo canal medio como un cuarto canal mezclador, basandose en una diferencia entre el segundo canal de entrada estereofonica y el segundo canal lateral.
  10. 10. Un aparato para generar una senal media estereofonica que tiene un primer canal medio y un segundo canal medio, de una senal de entrada estereofonica, que tiene un primer canal de entrada y un segundo canal de entrada, que comprende:
    un generador de la informacion de modificacion (1010) para generar informacion de modificacion, el generador de la informacion de modificacion (1010) comprende un generador de ponderaciones espectrales para generar la
    20
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    informacion de modificacion, generando un primer factor de ponderacion espectral, basandose en una senal media monofonica y en una senal lateral monofonica de la senal de entrada estereofonica, y un manipulador de la senal (1020) que esta adaptado para manipular el primer canal de entrada, basandose en la informacion de modificacion para obtener el primer canal medio y que esta adaptado para manipular el segundo canal de entrada, basandose en la informacion de modificacion para obtener el segundo canal medio.
  11. 11. Un aparato de acuerdo con la reivindicacion 10,
    en el que el generador de la informacion de modificacion comprende ademas, un determinador de la magnitud, en el que el determinador de la magnitud esta adaptado para determinar un valor de la magnitud de la senal lateral monofonica, que esta representada en un dominio espectral, como un valor lateral de la magnitud, y en el que el determinador de la magnitud esta adaptado para determinar un valor de la magnitud de la senal media monofonica que esta representada en un dominio espectral como un valor medio de la magnitud,
    en el que el determinador de la magnitud esta adaptado para alimentar el valor lateral de la magnitud y el valor medio de la magnitud al generador de ponderaciones espectrales, y
    en el que el generador de ponderaciones espectrales esta adaptado para generar el primer factor de ponderacion espectral, basandose en una relacion de un primer numero a un segundo numero, en el que el primer numero depende del valor lateral de la magnitud, y en el que el segundo numero depende del valor medio de la magnitud y el valor lateral de la magnitud.
  12. 12. Metodo para generar una senal lateral estereofonica, que tiene un primer canal lateral y un segundo canal lateral de una senal de entrada estereofonica, que tiene un primer canal de entrada y un segundo canal de entrada, que comprende:
    generar la informacion de modificacion, generando un primer factor de ponderacion espectral, basandose en una senal media monofonica y en una senal lateral monofonica de la senal de entrada estereofonica, manipular el primer canal de entrada, basandose en la informacion de modificacion para obtener el primer canal lateral, y
    manipular el segundo canal de entrada, basandose en la informacion de modificacion para obtener el segundo canal lateral.
  13. 13. Metodo para generar una senal media estereofonica que tiene un primer canal medio y un segundo canal medio, de una senal de entrada estereofonica, que tiene un primer canal de entrada y un segundo canal de entrada, que comprende:
    generar la informacion de modificacion, generando un primer factor de ponderacion espectral, basandose en una senal media monofonica y en una senal lateral monofonica de la senal de entrada estereofonica, manipular el primer canal de entrada, basandose en la informacion de modificacion, para obtener el primer canal medio, y
    manipular el segundo canal de entrada, basandose en la informacion de modificacion para obtener el segundo canal medio.
  14. 14. Metodo de acuerdo con la reivindicacion 13, en el que la etapa de generar la informacion de modificacion comprende:
    generar la informacion de modificacion, generando un primer factor de ponderacion espectral, en el que el primer factor de ponderacion espectral depende de una senal media monofonica y una senal lateral monofonica de la senal de entrada estereofonica,
    determinar un valor de la magnitud de la senal lateral monofonica que esta representada en un dominio espectral como un valor lateral de la magnitud
    determinar un valor de la magnitud de la senal media monofonica que esta representada en un dominio espectral como un valor medio de la magnitud,
    alimentar el valor lateral de la magnitud y el valor medio de la magnitud en el generador de ponderaciones espectrales, y
    generar el primer factor de ponderacion espectral, basandose en una relacion de un primer numero a un segundo numero, en el que el primer numero depende del valor lateral de la magnitud, y en el que el segundo numero depende del valor medio de la magnitud y el valor lateral de la magnitud.
  15. 15. Programa para computadora para implementar un metodo de acuerdo con una de las reivindicaciones 12 a 14, ejecutado en una computadora o un procesador.
ES12731456.5T 2011-07-05 2012-07-03 Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un generador de ponderaciones espectrales Active ES2552996T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161504588P 2011-07-05 2011-07-05
US201161504588P 2011-07-05
EP11186715 2011-10-26
EP11186715A EP2544465A1 (en) 2011-07-05 2011-10-26 Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
PCT/EP2012/062932 WO2013004698A1 (en) 2011-07-05 2012-07-03 Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator

Publications (1)

Publication Number Publication Date
ES2552996T3 true ES2552996T3 (es) 2015-12-03

Family

ID=47262892

Family Applications (2)

Application Number Title Priority Date Filing Date
ES12731456.5T Active ES2552996T3 (es) 2011-07-05 2012-07-03 Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un generador de ponderaciones espectrales
ES12732836T Active ES2726801T3 (es) 2011-07-05 2012-07-03 Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un sustractor espectral

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES12732836T Active ES2726801T3 (es) 2011-07-05 2012-07-03 Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un sustractor espectral

Country Status (14)

Country Link
US (1) US9883307B2 (es)
EP (4) EP2544465A1 (es)
JP (1) JP5906312B2 (es)
KR (1) KR101710544B1 (es)
CN (1) CN103650538B (es)
AU (1) AU2012280392B2 (es)
BR (1) BR112013032824B1 (es)
CA (1) CA2840132C (es)
ES (2) ES2552996T3 (es)
MX (1) MX2013014723A (es)
PL (2) PL2730103T3 (es)
RU (1) RU2601189C2 (es)
TR (1) TR201906465T4 (es)
WO (2) WO2013004698A1 (es)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2700246T3 (es) * 2013-08-28 2019-02-14 Dolby Laboratories Licensing Corp Mejora paramétrica de la voz
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
EP3382702A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
EP3518562A1 (en) 2018-01-29 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels
US10547926B1 (en) * 2018-07-27 2020-01-28 Mimi Hearing Technologies GmbH Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices
US11432069B2 (en) * 2019-10-10 2022-08-30 Boomcloud 360, Inc. Spectrally orthogonal audio component processing

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3280258A (en) * 1963-06-28 1966-10-18 Gale B Curtis Circuits for sound reproduction
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
US6405163B1 (en) * 1999-09-27 2002-06-11 Creative Technology Ltd. Process for removing voice from stereo recordings
US7254239B2 (en) * 2001-02-09 2007-08-07 Thx Ltd. Sound system and method of sound reproduction
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
FR2886503B1 (fr) * 2005-05-27 2007-08-24 Arkamys Sa Procede pour produire plus de deux signaux electriques temporels distincts a partir d'un premier et d'un deuxieme signal electrique temporel
US8619998B2 (en) * 2006-08-07 2013-12-31 Creative Technology Ltd Spatial audio enhancement processing method and apparatus
DE102006050068B4 (de) 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
US8064624B2 (en) * 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
RU2472306C2 (ru) * 2007-09-26 2013-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ для извлечения сигнала окружающей среды в устройстве и способ получения весовых коэффициентов для извлечения сигнала окружающей среды
US8705769B2 (en) 2009-05-20 2014-04-22 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation
CN102804262A (zh) * 2009-06-05 2012-11-28 皇家飞利浦电子股份有限公司 音频信号的上混合
ES2911893T3 (es) * 2010-04-13 2022-05-23 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio y métodos relacionados para procesar señales de audio estéreo usando una dirección de predicción variable

Also Published As

Publication number Publication date
RU2014103797A (ru) 2015-08-10
PL2730103T3 (pl) 2019-10-31
CN103650538B (zh) 2017-02-15
WO2013004698A1 (en) 2013-01-10
EP2730102A1 (en) 2014-05-14
PL2730102T3 (pl) 2016-02-29
EP2730103B1 (en) 2019-04-17
AU2012280392A1 (en) 2014-01-16
RU2601189C2 (ru) 2016-10-27
US9883307B2 (en) 2018-01-30
EP2730102B1 (en) 2015-09-09
BR112013032824B1 (pt) 2021-03-09
ES2726801T3 (es) 2019-10-09
JP2014523174A (ja) 2014-09-08
KR101710544B1 (ko) 2017-02-27
CA2840132C (en) 2016-07-12
JP5906312B2 (ja) 2016-04-20
BR112013032824A2 (pt) 2017-01-31
EP2544465A1 (en) 2013-01-09
TR201906465T4 (tr) 2019-05-21
US20140119545A1 (en) 2014-05-01
CA2840132A1 (en) 2013-01-10
CN103650538A (zh) 2014-03-19
HK1197959A1 (en) 2015-02-27
KR20140021055A (ko) 2014-02-19
WO2013004697A1 (en) 2013-01-10
EP2730103A1 (en) 2014-05-14
EP2544466A1 (en) 2013-01-09
MX2013014723A (es) 2014-05-27
AU2012280392B2 (en) 2015-07-02

Similar Documents

Publication Publication Date Title
ES2552996T3 (es) Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un generador de ponderaciones espectrales
ES2555579T3 (es) Codificador de audio multicanal y método para codificar una señal de audio multicanal
ES2742853T3 (es) Aparato y procedimiento para la descomposición directa-ambiental de multicanal para el procesamiento de señales de audio
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
JP5724044B2 (ja) 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
HK1197959B (en) Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
HK1197782A (en) Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
HK1197782B (en) Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor