ES2332108T3

ES2332108T3 - Sintesis de señal de audio.

Info

Publication number: ES2332108T3
Application number: ES06766032T
Authority: ES
Inventors: Albertus C. Den Brinker; Robert J. Sluijter
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-07-14
Filing date: 2006-07-06
Publication date: 2010-01-26
Anticipated expiration: 2026-07-06
Also published as: EP1905009B1; RU2008105555A; JP2009501353A; US20100131276A1; CN101223581A; ATE443318T1; DE602006009271D1; EP1905009A1; WO2007007253A1

Abstract

Dispositivo (20) de síntesis de señal para sintetizar una señal (r'') de audio, comprendiendo el dispositivo: - una unidad (23) de síntesis sinusoidal para sintetizar la señal (r'') de audio usando al menos un parámetro (f) de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro (fi'') de fase que representa una fase de la señal de audio, y caracterizado porque comprende - una unidad (22) de producción de parámetro para producir el parámetro (fi'') de fase usando el parámetro (f) de frecuencia y una versión retardada de la señal (r'') de audio, en el que la señal (r'') de audio sintetizada comprende segmentos de tiempo, y en el que la unidad (22) de producción de parámetro está dispuesta para producir el parámetro (fi'') de fase actual usando el segmento de tiempo anterior de la señal (r'') de audio.

Description

Síntesis de señal de audio.

La presente invención se refiere a la síntesis de señal de audio. Más en particular, la presente invención se refiere a un dispositivo y a un procedimiento de síntesis de señal de audio en los que se determina la fase de la señal sintetizada. La presente invención se refiere además a un dispositivo y a un procedimiento para modificar la frecuencia de una señal de audio, dispositivo que comprende el dispositivo o el procedimiento de síntesis de señal de audio mencionados anteriormente.

Se conoce ampliamente la síntesis de señales de audio usando parámetros de señal, tales como una frecuencia y una fase. La síntesis puede llevarse a cabo para generar señales de sonido en un instrumento musical electrónico u otro dispositivo de consumo, tal como un teléfono móvil (celular). Alternativamente, la síntesis puede llevarse a cabo mediante un decodificador para decodificar una señal de audio codificada previamente. Un ejemplo de un procedimiento de codificación es la codificación paramétrica, en la que una señal de audio se descompone, por cada segmento de tiempo, en componentes sinusoidales, componentes de ruido y componentes opcionales adicionales, que pueden representarse cada una mediante parámetros adecuados. En un decodificador adecuado, los parámetros se usan para reconstruir sustancialmente la señal de audio original.

El artículo de Edler et al, "ASAC- Analysis/Synthesis Audio Codec dir very Low Bit Rates" preimpresiones de documentos presentados en la Convención de la AES, 11 de mayo de 1996, páginas 1-15, XP 001062332 da a conocer un ejemplo de un codec para codificar señales de audio a tasas de bits muy bajas.

La solicitud de patente estadounidense US2002/052736 da a conocer un ejemplo de un codificador de habla de armónicos-ruido y un algoritmo de codificación de una señal mixta de sonido sonoro/sordo usando un modelo armónico.

El artículo "Parametric Coding for High-Quality Audio" de A.C. den Brinker, E.G.P. Schuijers y A.W.J. Oomen, artículo 5554 de la convención de la Audio Engineering Society, Munich (Alemania), mayo de 2002, da a conocer el uso de pistas sinusoidales en la codificación paramétrica. Se modela una señal de audio usando objetos transitorios, objetos sinusoidales y objetos de ruido. Los parámetros de los objetos sinusoidales se estiman por cada trama de tiempo. Las frecuencias estimadas por cada trama se enlazan a lo largo de las tramas, por lo que se forman pistas sinusoidales. Estas pistas indican qué objetos sinusoidales de una trama de tiempo continúan en la siguiente trama de tiempo.

La solicitud de patente internacional WO 02/056298 (Philips) da a conocer el enlace de los componentes de señal en la codificación paramétrica. Una unidad de enlace genera información de enlace indicando los componentes de segmentos de señal extendidos consecutivos que pueden enlazarse entre sí para formar una pista sinusoidal.

Aunque estos procedimientos conocidos proporcionan resultados satisfactorios, tienen la desventaja de que el enlace de sinusoides a través de límites de trama de tiempo puede introducir errores de fase. Si una sinusoide de una cierta trama de tiempo se enlaza con la sinusoide errónea de la trama de tiempo siguiente, normalmente dará como resultado un desajuste de fase. Este desajuste de fase producirá una distorsión audible de la señal de audio sintetizada.

Por tanto, es un objeto de la presente invención superar éstos y otros problemas de la técnica anterior y proporcionar un dispositivo según la reivindicación 1 y un procedimiento según la reivindicación 15 de síntesis de señales de audio en los que se eviten las discontinuidades de fase o al menos se reduzcan significativamente.

Por consiguiente, la presente invención proporciona un dispositivo de síntesis de señal para sintetizar una señal de audio, comprendiendo el dispositivo:

-: una unidad de síntesis sinusoidal para sintetizar la señal de audio usando al menos un parámetro de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro de fase que representa una fase de la señal de audio, y

-: una unidad de producción de parámetro para producir el (al menos un) parámetro de fase usando el (al menos un) parámetro de frecuencia y una versión retardada de la señal de audio sintetizada.

Mediante la producción de la fase usando la señal de audio ya sintetizada, se usa un bucle de fase que puede proporcionar una fase sustancialmente continua. Más en particular, la fase usada en la unidad de síntesis sinusoidal se deriva de la señal de audio sintetizada y por tanto puede ajustarse apropiadamente con la señal de audio. Como resultado, la predicción de fase se mejora significativamente y por tanto se reduce drásticamente el número de errores en la predicción de fase. Preferiblemente se tiene en cuenta cualquier retardo de tiempo implicado en el bucle.

En el dispositivo de la presente invención, puede eliminarse la unidad de enlace convencional para enlazar componentes de señal de segmentos consecutivos, evitándose así cualquier desajuste de fase producido por tales unidades de enlace.

La señal de audio sintetizada comprende segmentos de tiempo, y la unidad de producción de parámetro está dispuesta para producir el parámetro de fase actual usando un segmento de tiempo anterior de la señal de audio. La fase de un segmento que esta sintetizándose se deriva de la fase de un segmento sintetizado anteriormente, preferiblemente el segmento inmediatamente anterior. De esta forma, se mantiene una estrecha relación entre la fase de la señal de audio sintetizada y la fase de la señal de audio que se está sintetizando.

Además se prefiere que la unidad de producción de parámetro comprenda una unidad de determinación de fase dispuesta para determinar un conjunto de pares de fase/frecuencia, representando cada par de fase/frecuencia la fase de una frecuencia de la señal de audio. En esta realización, un conjunto de fases y sus frecuencias asociadas se deriva de la señal de audio sintetizada.

Ventajosamente, la unidad de producción de parámetro puede comprender además una unidad de predicción de fase dispuesta para:

-: comparar el parámetro de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro de frecuencia, y

-: producir el parámetro de fase usando el parámetro de frecuencia y la fase seleccionada.

Por consiguiente, la unidad de producción de parámetro puede seleccionar la frecuencia que mejor se ajusta a la frecuencia representada por el parámetro de frecuencia, y entonces usar la fase asociada con la frecuencia seleccionada en la síntesis. Esta selección puede llevarse a cabo varias veces, preferiblemente una vez para cada frecuencia, si se usan múltiples frecuencias para sintetizar la señal de audio.

La señal de audio sintetizada puede tener la frecuencia (o frecuencias) representada(s) por el parámetro de frecuencia. Sin embargo, también puede desearse modificar esta frecuencia (o estas frecuencias). Por consiguiente, en una realización ventajosa, la unidad de producción de parámetro comprende una unidad de modificación de frecuencia para modificar el parámetro de frecuencia en respuesta a un parámetro de control. Este parámetro de control (frecuencia) puede ser, por ejemplo, un factor de multiplicación, un valor de 1 que no se corresponde con ningún cambio de frecuencia, un valor inferior a 1 que se corresponde con una frecuencia disminuida y un valor superior a 1 que se corresponde con una frecuencia aumentada. En otras realizaciones, el parámetro de control puede indicar una desviación de la frecuencia.

Aunque la presente invención puede ponerse en práctica usando únicamente un parámetro (o parámetros) de frecuencia y un parámetro (o parámetros) de fase, se prefiere usar parámetros adicionales para definir adicionalmente la señal de audio que va a sintetizarse. Por consiguiente, la unidad de síntesis sinusoidal puede usar adicionalmente un parámetro de amplitud. De manera adicional, o alternativa, el dispositivo de la presente invención puede comprender además una unidad de multiplicación para multiplicar la señal de audio sintetizada por un parámetro de ganancia.

Si la señal de audio sintetizada se compone de segmentos de tiempo (tramas de tiempo), resulta ventajoso cuando el dispositivo comprende además una unidad de solapamiento y adición para unir los segmentos de tiempo de la señal de audio sintetizada. Una unidad de solapamiento y adición de este tipo, que puede conocerse per se, se usa para producir una corriente de datos de audio sustancialmente continua añadiendo segmentos de tiempo parcialmente solapados de la señal.

Si se prevén una unidad de segmentación y una unidad de solapamiento y adición, la unidad de segmentación puede controlarse ventajosamente por un primer parámetro de solapamiento, mientras que la unidad de solapamiento y adición se controla mediante un segundo parámetro de solapamiento, estando dispuesto el dispositivo para el ajuste a escala en tiempo variando los parámetros de solapamiento.

El dispositivo de la presente invención puede recibir el parámetro de frecuencia, el parámetro de fase y cualquier otro parámetro de un medio de almacenamiento, un demultiplexador o cualquier otra fuente adecuada. Este será el caso, en particular, cuando se usa el dispositivo de la presente invención como un decodificador para decodificar (es decir, sintetizar) señales de audio que se han codificado previamente usando un codificador paramétrico. Sin embargo, en realizaciones ventajosas adicionales, el dispositivo de la presente invención puede producir los parámetros por sí mismo. En tales realizaciones, por tanto, el dispositivo comprende además una unidad de análisis sinusoidal para recibir una señal de audio de entrada y producir un parámetro de frecuencia y un parámetro de fase.

Las realizaciones del dispositivo en las que la señal de audio se codifica en primer lugar (es decir, se analiza y se representa mediante parámetros de señal) y luego se decodifica (es decir, se sintetiza usando dichos parámetros de señal) pueden usarse para modificar las propiedades de señal, por ejemplo la frecuencia, modificando los
parámetros.

Por consiguiente, la presente invención también prevé un dispositivo de modificación de frecuencia que comprende un dispositivo de síntesis de señal tal como se definió anteriormente que incluye una unidad de modificación de frecuencia para modificar el parámetro de frecuencia en respuesta a un parámetro de control, y una unidad de análisis sinusoidal para recibir una señal de audio de entrada y producir un parámetro de frecuencia y un parámetro de fase.

El dispositivo de síntesis de señal de la presente invención, cuando está dotado de una unidad de análisis sinusoidal para recibir una señal de audio de entrada y producir un parámetro de frecuencia y un parámetro de fase, puede comprender además ventajosamente:

-: una unidad de síntesis sinusoidal adicional para producir una señal de audio sintetizada, y

-: una unidad de comparación para comparar la señal de audio sintetizada y la señal de audio de entrada para producir un parámetro de ganancia.

En esta realización, se produce un parámetro de ganancia que permite ajustar la ganancia de la señal de audio sintetizada para cualquier modificación de ganancia debido al proceso de codificación (parametrización).

El dispositivo puede comprender además una unidad de segmentación para dividir una señal de audio en segmentos de tiempo. Sin embargo, algunas realizaciones pueden estar dispuestas para recibir señales de audio que ya están divididas en segmentos de tiempo y que no requerirán una unidad de segmentación.

La presente invención también prevé un dispositivo de conversión de habla, que comprende:

-: una unidad de análisis de predicción lineal para producir parámetros de predicción y una señal residual en respuesta a una señal de habla de entrada,

-: una unidad de adaptación de altura tonal para adaptar la altura tonal de la señal residual para producir una señal residual con altura tonal adaptada, y

-: una unidad de síntesis de predicción lineal para sintetizar una señal de habla de salida en respuesta a la señal residual con altura tonal adaptada,

en el que la unidad de adaptación de altura tonal comprende un dispositivo para modificar la frecuencia de una señal de audio tal como se definió anteriormente. La unidad de síntesis de predicción lineal puede estar dispuesta para sintetizar una señal de habla de salida en respuesta tanto a la señal residual con altura tonal adaptada como a los parámetros de predicción.

La presente invención prevé adicionalmente un sistema de audio que comprende un dispositivo tal como se definió anteriormente. El sistema de audio de la presente invención puede comprender además un sintetizador de habla y/o un sintetizador de música. El dispositivo de la presente invención puede usarse, por ejemplo, en dispositivos de consumo tales como teléfonos móviles (celulares), reproductores de MP3 o AAC, instrumentos musicales electrónicos, sistemas de entretenimiento incluyendo dispositivos de audio (por ejemplo, estéreo o 5.1) y vídeo (por ejemplo, aparatos de televisión) y otros dispositivos, tales como ordenadores. En particular, la presente invención puede utilizarse en aplicaciones en las que pueden lograrse ahorros de bits y/o de tasa de bits no codificando la fase de la señal de
audio.

La presente invención también prevé un procedimiento de síntesis de una señal de audio, comprendiendo el procedimiento las etapas de:

-: sintetizar la señal de audio usando al menos un parámetro de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro de fase que representa una fase de la señal de audio, y

-: producir el parámetro de fase usando el parámetro de frecuencia y una versión retardada de la señal de audio.

La señal de audio sintetizada comprende segmentos de tiempo, y la etapa de producción de fase comprende la subetapa de producir el parámetro de fase actual usando un segmento de tiempo anterior de la señal de audio.

Se prefiere particularmente que la etapa de predicción de fase comprenda la subetapa de determinar un conjunto de pares de fase/frecuencia, representando cada par de fase/frecuencia la fase de una frecuencia de la señal de audio.

La etapa de predicción de fase puede comprender además las subetapas de:

La etapa de predicción de fase puede comprender además ventajosamente la subetapa de modificar el parámetro de frecuencia en respuesta a un parámetro de control.

La presente invención también prevé un procedimiento de modificación de frecuencia que comprende un procedimiento de síntesis sinusoidal tal como se definió anteriormente que incluye las subetapas de modificar el parámetro de frecuencia en respuesta a un parámetro de control y recibir una señal de audio de entrada y producir un parámetro de frecuencia y un parámetro de fase.

La presente invención prevé además un procedimiento de conversión de habla, que comprende las etapas de:

-: producir parámetros de predicción y una señal residual en respuesta a una señal de habla de entrada,

-: adaptar la altura tonal de la señal residual para producir una señal residual con altura tonal adaptada, y

-: sintetizar una señal de habla de salida en respuesta a la señal residual con altura tonal adaptada,

en el que la etapa de adaptación de la altura tonal comprende el procedimiento de modificación de frecuencia tal como se definió anteriormente.

La etapa de sintetizar una señal de habla de salida puede implicar tanto la señal residual con altura tonal adaptada y los parámetros de predicción. Otras etapas y/o subetapas ventajosas del procedimiento resultarán evidentes a partir de la descripción de la invención facilitada a continuación.

La presente invención prevé adicionalmente un producto de programa informático para llevar a cabo el procedimiento tal como se definió anteriormente. Un producto de programa informático puede comprender un conjunto de instrucciones ejecutables por ordenador almacenadas en un soporte de datos, tal como un CD o un DVD. El conjunto de instrucciones ejecutables por ordenador, que permiten que un ordenador programable lleve a cabo el procedimiento tal como se definió anteriormente, también puede estar disponible para descargarse de un servidor remoto, por ejemplo a través de Internet.

La presente invención se explicará adicionalmente a continuación con referencia a realizaciones a modo de ejemplo ilustradas en los dibujos adjuntos, en los que:

La figura 1 muestra esquemáticamente un sistema de modificación de señal de audio paramétrico según la presente invención.

La figura 2 muestra esquemáticamente una realización de un dispositivo de modificación de frecuencia de señal de audio según la presente invención.

La figura 3 muestra esquemáticamente un par codificador/decodificador de señal de audio de modificación de frecuencia según la presente invención.

La figura 4 muestra esquemáticamente un primer ejemplo de ajuste a escala en tiempo llevado a cabo por el par codificador/decodificador de señal de audio de la figura 3.

La figura 5 muestra esquemáticamente un segundo ejemplo de ajuste a escala en tiempo llevado a cabo por el par codificador/decodificador de señal de audio de la figura 3.

El sistema 1 de modificación de señal de audio paramétrico mostrado simplemente a modo de ejemplo no limitativo en la figura 1 comprende una unidad 10 de análisis de predicción lineal (LPA), una unidad 20 de adaptación de altura tonal (PA), una unidad 30 de síntesis de predicción lineal (LPS) y una unidad 40 de modificación (Mod). La estructura del sistema 1 de modificación de señal de audio paramétrico se conoce per se, sin embargo, en el sistema 1 ilustrado en la figura 1, la unidad 20 de adaptación de altura tonal tiene un diseño novedoso que se explicará más tarde con más detalle en referencia a las figuras 2-4.

El sistema 1 de la figura 1 recibe una señal X de audio, que puede ser por ejemplo una señal de voz (habla) o una señal musical y emite una señal Y de audio modificada. La señal X se introduce en la unidad 10 de análisis de predicción lineal que convierte la señal en una secuencia de parámetros p de predicción (que varían con el tiempo) y una señal r residual. Para ello, la unidad 10 de predicción lineal comprende un filtro de análisis de predicción lineal adecuado. Los parámetros p de predicción producidos por la unidad 10 son parámetros de filtro que permiten que un filtro adecuado, en el ejemplo mostrado, un filtro de síntesis de predicción lineal contenido en la unidad 30 de síntesis de predicción lineal, reproduzca sustancialmente la señal X en respuesta a una señal de excitación adecuada. La señal r residual (o, tras cualquier adaptación de la altura tonal, la señal r' residual modificada) sirve aquí como la señal de excitación. Tal como se indicó anteriormente, los filtros de análisis de predicción lineal y los filtros de síntesis de predicción lineal son ampliamente conocidos para los expertos en la técnica y no es necesaria una explicación adicional.

La unidad 20 de adaptación de altura tonal (PA) permite modificar la altura tonal (frecuencia dominante) de la señal X de audio modificando la señal r residual y produciendo una señal r' residual modificada. Otros parámetros de la señal X pueden modificarse usando la unidad 40 de modificación adicional que se dispone para modificar los parámetros p de predicción y para producir parámetros p' de predicción modificados. En la presente invención, la unidad 40 de modificación adicional no es esencial y puede omitirse. Los parámetros p de predicción deben alimentarse, naturalmente, a la unidad 30 de síntesis de predicción lineal para permitir la síntesis de la señal Y.

El dispositivo para modificar la frecuencia de una señal de audio se ilustra esquemáticamente en la figura 2. El dispositivo 20 puede usarse ventajosamente como unidad de adaptación de altura tonal en el sistema de la figura 1 pero también puede usarse en otros sistemas. Por tanto, se entenderá que el dispositivo 20 no sólo puede aplicarse a sistemas que usan síntesis y análisis de predicción lineal, sino que también puede usarse como una unidad independiente en dispositivos y/o sistemas de modificación de señal de audio en los que no se usa ni síntesis ni análisis de predicción lineal.

El dispositivo 20 mostrado en la figura 2 comprende una unidad 21 de análisis sinusoidal (SiA), una unidad 22 de producción de parámetro (PaP) y una unidad 23 de síntesis sinusoidal (SiS). Se observa que la unidad 21 de análisis sinusoidal y la unidad 23 de síntesis sinusoidal son diferentes de la unidad 10 de análisis de predicción lineal y la unidad 30 de síntesis de predicción lineal del sistema 1 ilustrado en la figura 1.

La unidad 21 de análisis sinusoidal recibe una señal r de audio de entrada. Esta señal puede ser idéntica a la señal r residual de la figura 1 pero no se limita de esta manera. Por ejemplo, la señal r de audio de entrada de la figura 2 puede ser idéntica a la señal X de audio de entrada de la figura 1 y puede ser una señal de voz (habla) o de música.

La unidad 21 de análisis sinusoidal analiza la señal r de entrada y produce un conjunto de parámetros de señal: un parámetro f de frecuencia y un parámetro A de amplitud. El parámetro f de frecuencia representa frecuencias de componentes sinusoidales de la señal r de entrada. En algunas realizaciones pueden producirse múltiples parámetros f_{1}, f_{2}, f_{3},... de frecuencia, representando cada parámetro de frecuencia una única frecuencia. El parámetro A de amplitud no es esencial y puede omitirse (por ejemplo, cuando se usa una amplitud fija en la unidad 23 de síntesis sinusoidal). Sin embargo, en las realizaciones típicas, se usará el parámetro A de amplitud (o múltiples parámetros A_{1}, A_{2}, A_{3},... de amplitud). La unidad 21 de análisis sinusoidal se dispone, en una realización preferida, para realizar una transformada rápida de Fourier (FFT) para producir los parámetros de frecuencia y amplitud.

La unidad 22 de producción de parámetro recibe el(los) parámetro(s) f de frecuencia de la unidad 21 de análisis sinusoidal y ajusta este parámetro usando un parámetro C de control (de frecuencia). La unidad 22 de producción de parámetro puede contener, por ejemplo, una unidad de multiplicación para multiplicar el parámetro f de frecuencia y el parámetro C de control para producir un parámetro f' de frecuencia modificado, donde f' = C.f. Si, en este ejemplo, C es igual a 1, el parámetro de frecuencia no se modifica, si C es inferior a 1, el valor del parámetro de frecuencia disminuye, mientras que si C es superior a 1, el valor del parámetro de frecuencia disminuye.

Según la presente invención, la unidad 22 de producción de parámetro también recibe la señal r' sintetizada y deriva la fase de esta señal para producir un parámetro \phi' de fase. La unidad 22 de producción de parámetro alimenta el parámetro f' de frecuencia modificado y el parámetro \phi' de fase a la unidad 23 de síntesis sinusoidal, que también recibe el parámetro A de amplitud (opcional). Usando estos parámetros, la unidad 23 de síntesis sinusoidal sintetiza la señal r' de audio de salida.

La unidad 23 de síntesis sinusoidal se dispone, en una realización preferida, para realizar una transformada rápida de Fourier inversa (IFFT) o una operación similar. La unidad 22 de producción de parámetro se explicará más adelante en más detalle con referencia a la figura 3.

Un par codificador/decodificador de señal de audio de modificación de frecuencia según la presente invención se ilustra esquemáticamente en la figura 3. Un codificador 4 y un decodificador 5 se muestran como dispositivos independientes, aunque estos dispositivos podrían combinarse en un único dispositivo (20 en la figura 2).

El codificador 4 de señal de audio ilustrado simplemente a modo de ejemplo no limitativo en la figura 3 comprende una unidad 25 de segmentación (SEG), una unidad 21 de análisis sinusoidal (SiA), una (segunda) unidad 23' de síntesis sinusoidal (SiS') y una unidad 26 de mínimo error cuadrático medio (MMSE). Se observa que la unidad 23' de síntesis sinusoidal (SiS') (adicional) y la unidad 26 de mínimo error cuadrático medio (MMSE) no son esenciales y pueden eliminarse. Se observa además que la unidad 23' de síntesis sinusoidal (SiS') se indica como segunda unidad de síntesis sinusoidal para distinguir esta unidad de la (primera) unidad 23 de síntesis sinusoidal (SiS) en el decodi-
ficador 5.

El decodificador 5 de señal de audio ilustrado simplemente a modo de ejemplo no limitativo en la figura 3 comprende una unidad 23 de análisis sinusoidal (SiS), una unidad 22 de producción de parámetro, una unidad 24 de control de ganancia y una unidad 25' de solapamiento y adición (OLA) y ajuste a escala en tiempo (TS). La unidad 22 de producción de parámetro, que se corresponde sustancialmente con la unidad 22 de producción de parámetro (PaP) de la figura 2, comprende una unidad 29 de memoria (M), una (segunda) unidad 21' de análisis sinusoidal (SiA'), una unidad 28 de predicción de fase y una unidad 27 (opcional) de ajuste a escala en frecuencia (FS). Se observa que en algunas realizaciones puede eliminarse la unidad 27 de ajuste a escala en frecuencia (FS). Se observa además que la unidad 21' de análisis sinusoidal (SiA') se indica como segunda unidad 21' de análisis sinusoidal (SiA') para distinguir esta unidad de la (primera) unidad 21 de análisis sinusoidal (SiA) en el codificador 4.

El codificador 4 recibe una señal s de audio (digital), que puede ser una señal de voz (habla), una señal de música, o una combinación de las mismas. Esta señal s de audio se divide en segmentos de tiempo (tramas) que se solapan parcialmente por la unidad 25 de segmentación para producir una señal r de audio segmentada. La unidad 25 de segmentación recibe un parámetro updin de intervalo de actualización (entrada) que indica la separación en el tiempo de los segmentos de tiempo consecutivos. La señal r de audio segmentada puede ser igual a la señal r en las figuras 1, 2 y 3, pero no se limita de esta manera.

La unidad 21 de análisis sinusoidal, que se dispone preferiblemente para llevar a cabo una transformada rápida de Fourier (FFT), produce al menos un parámetro f de frecuencia y, en la realización mostrada, también al menos un parámetro A de amplitud y al menos un parámetro \phi de fase. El(los) parámetro(s) f de frecuencia y el(los) parámetro(s) A de amplitud se emiten por el codificador 4, mientras que el(los) parámetro(s) \phi de fase se usa(n) internamente. En la realización mostrada, el parámetro \phi de fase se alimenta a la unidad 23' (adicional) de análisis sinusoidal en la que se usa, junto con los parámetros f y A, para sintetizar la señal r''. De manera ideal, esta señal r'' sintetizada es sustancialmente igual a la señal r de audio de entrada, aparte de cualquier discrepancia de ganancia. Para compensar esta discrepancia de ganancia, tanto la señal r de audio de entrada (segmentada) original como la señal r'' de audio sintetizada se alimentan a una unidad de comparación, que en la realización mostrada está constituida por la unidad 26 de mínimo error cuadrático medio (MMSE). Esta unidad determina el mínimo error cuadrático medio entre la señal r de audio de entrada y la señal r'' de audio sintetizada y produce una señal G de ganancia correspondiente para compensar cualquier discrepancia de amplitud. En algunas realizaciones, esta información de corrección de amplitud puede estar contenida en el parámetro A de amplitud o puede ignorarse, en cuyo caso las unidades 23' y 26 pueden omitirse del codificador 4, mientras que la unidad 24 de control de ganancia puede omitirse del decodificador 5.

Por tanto, puede observarse que el codificador 4 recibe una señal de audio de entrada y convierte esta señal en un conjunto de parámetros f y A que representan la señal, y un parámetro G adicional. El conjunto de parámetros se transmite al decodificador 5 usando cualquier medio o procedimiento adecuado, por ejemplo mediante un cable de sistema de audio, una conexión a Internet, una conexión inalámbrica (por ejemplo Bluetooth®) o un soporte de datos tal como un CD, DVD, o tarjeta de memoria. En otras realizaciones, el codificador 4 y el decodificador 5 constituyen un único dispositivo (20 en las figuras 1, 2 y 3) y las conexiones entre el codificador 4 y el decodificador 5 son conexiones internas de dicho dispositivo único.

Por consiguiente, el decodificador 5 recibe los parámetros f y A de señal, y los parámetros G y C adicionales. La amplitud A se alimenta directamente a la unidad 23 de síntesis sinusoidal, que preferiblemente está dispuesta para realizar una transformada rápida de Fourier inversa (IFFT) para producir la señal r' sintetizada = r'(n). La síntesis puede llevarse a cabo usando la fórmula:

100

donde k es el número de componentes de frecuencia en la señal.

Los parámetros f y C se alimentan a la unidad 27 de ajuste a escala en frecuencia de la unidad 22 de producción de parámetro, mientras que el parámetro G de compensación de ganancia se alimenta a la unidad 24 de control de ganancia (en la presente realización: multiplicación).

La unidad 27 de ajuste a escala en frecuencia (FS) usa el parámetro C de control para ajustar (es decir, ajustar a escala) el parámetro f de frecuencia, por ejemplo multiplicando el parámetro C de control y el parámetro f de frecuencia. Esto da como resultado un parámetro f' de frecuencia ajustado (es decir, ajustado a escala), que se alimenta tanto a la unidad 23 de síntesis sinusoidal como a la unidad 28 de predicción de fase.

La unidad 23 de síntesis sinusoidal sintetiza una señal r' de audio de salida usando el parámetro A de amplitud, el parámetro f de frecuencia y el parámetro \phi' de fase (tal como se mencionó anteriormente, el parámetro A de amplitud no es esencial y puede no usarse en algunas realizaciones). Esta señal r' sintetizada se alimenta a la unidad 24 de control de ganancia que ajusta la amplitud de la señal r' usando el parámetro G de ganancia y alimenta la señal ajustada de ganancia a la unidad 25' de solapamiento y adición (OLA) y ajuste a escala en tiempo (TS). La unidad 25' de OLA/TS también recibe un parámetro updout de intervalo de actualización (salida) que indica el solapamiento de los segmentos de tiempo de la señal de salida. Usando los parámetros updout, se añaden los valores de señal de los segmentos de tiempo parcialmente solapados para producir la señal s' de salida.

La señal r' sintetizada producida por la unidad 23 de síntesis sinusoidal se alimenta, según la presente invención, a una unidad 29 de memoria (M) o retardo que almacena temporalmente el segmento de tiempo más reciente de la señal r' sintetizada. Este segmento se alimenta entonces a la (segunda) unidad 21' de análisis sinusoidal (SiA') que determina las frecuencias del segmento más sus valores de fase asociados. Es decir, la unidad 21' de análisis sinusoidal determina el espectro de frecuencia del segmento de tiempo, por ejemplo, usando una FFT, entonces determina la fase para todos los valores de frecuencia distintos de cero y finalmente emite un conjunto de pares de fase/frecuencia, consistiendo cada par en una frecuencia y en su fase asociada. Por tanto, la unidad 21' produce una "rejilla" de valores de frecuencia (preferiblemente sólo distintos de cero), teniendo cada valor de frecuencia (distinto de cero) un valor de fase asociado. En algunas realizaciones, puede usarse un valor umbral superior a cero para eliminar los valores de frecuencia pequeños, ya que sus valores de fase asociados a menudo son relativamente inexactos debido a errores de redondeo.

El conjunto de pares de fase/frecuencia producido por la unidad 21' se alimenta a la unidad 28 de predicción de fase, que compara el parámetro f' de frecuencia con las frecuencias del conjunto y selecciona los pares de fase/frecuencia que mejor se ajustan a las frecuencias representadas por el parámetro f'. La fase del par seleccionado se compensa entonces para el retardo de tiempo entre el segmento actual y el segmento anterior mediante el uso de la fórmula

101

donde \phi' es el parámetro de fase compensado, \phi' es la fase del par de fase/frecuencia seleccionado, f' es el parámetro de frecuencia (opcionalmente modificado) e \Deltat es el retardo de tiempo. El parámetro \phi' de fase compensado resultante se alimenta entonces a la unidad 23 de síntesis sinusoidal para sintetizar el siguiente segmento de tiempo de la señal r'.

Por tanto, puede observarse que el decodificador de la presente invención no usa enlazador, como en la técnica anterior comentada anteriormente. La fase de la señal de audio que se está sintetizando se deriva de la fase de la señal de audio sintetizada anteriormente, en particular la señal de audio del último segmento de tiempo (es decir, el más reciente).

Se entenderá que si no se usan segmentos de tiempo, pueden usarse otros criterios de retardo de tiempo en la unidad 28 de predicción de fase, por ejemplo criterios basados en el tiempo de procesamiento.

Si se usa el dispositivo 5 como un decodificador sin ajuste de frecuencia, puede omitirse la unidad 27 de cambio de frecuencia. Si se combinan el codificador 4 y el decodificador 5 en un único dispositivo que incluye la unidad 27 de cambio de frecuencia, se obtiene como resultado un dispositivo de modificación de frecuencia ventajoso.

El dispositivo 4 de codificador y el dispositivo 5 de decodificador ilustrados en la figura 3 pueden usarse, individualmente o en combinación, para ajustar a escala en tiempo. Para ello, pueden modificarse adecuadamente los parámetros updin y updout de intervalo de actualización mencionados anteriormente.

En la figura 4, se ilustra una señal de entrada (por ejemplo la señal s en la figura 3) en el eje I de tiempo, mientras que se ilustra la señal de salida correspondiente (por ejemplo la señal s' en la figura 3) en el eje II de tiempo. La señal se representa esquemáticamente en la figura 4 mediante las ventanas A y B, que se muestran triangulares por comodidad pero que pueden tener cualquier forma adecuada, por ejemplo forma gaussiana o de coseno. Cada ventana captura un segmento de tiempo de señal que tiene una longitud igual al parámetro seglen. Durante el proceso de segmentación en la unidad de segmentación (25 en la figura 3), se determina la separación de las ventanas A mediante el parámetro updin. De manera similar, durante el proceso de solapamiento y adición en la unidad OLA (25' en la figura 3), se determina la separación de las ventanas B mediante el parámetro updout. Escogiendo updout mayor que updin, tal como se muestra en la figura 4, la señal s se expande.

En la figura 5, la situación es la inversa porque el parámetro updout se escoge menor que updin, dando como resultado la compresión (es decir, la compresión en tiempo) de la señal. Por tanto, puede observarse que mediante la modificación adecuada de los parámetros updin y updout, puede llevarse a cabo el ajuste a escala en tiempo.

La presente invención se basa en el hallazgo de que cuando se sintetiza una señal de audio, la fase de la señal que va a sintetizarse puede derivarse ventajosamente de la señal de audio que se ha sintetizado, es decir, la señal sintetizada recientemente (o preferiblemente más recientemente). Esto da como resultado una fase que sustancialmente no tiene discontinuidades. La presente invención se beneficia de los hallazgos adicionales de que la fase derivada de la señal de audio sintetizada puede ajustarse usando la frecuencia de la señal que va a sintetizarse, y que el ajuste de esta frecuencia permite una forma conveniente de proporcionar una señal ajustada en frecuencia.

Se observa que cualquier término usado en este documento no debe interpretarse como que limita el alcance de la presente invención. En particular, las palabras "comprende(n)" y "que comprende" no pretenden excluir ningún elemento no mencionado específicamente. Los elementos únicos (de circuito) pueden sustituirse por elementos múltiples (de circuito) o por sus equivalentes.

Los expertos en la técnica entenderán que la presente invención no se limita a las realizaciones ilustradas anteriormente y que pueden realizarse muchas modificaciones y adiciones sin apartarse del alcance de la invención tal como se define en las reivindicaciones adjuntas.

Claims

```
\global\parskip0.950000\baselineskip
```
1. Dispositivo (20) de síntesis de señal para sintetizar una señal (r') de audio, comprendiendo el dispositivo:

-

una unidad (23) de síntesis sinusoidal para sintetizar la señal (r') de audio usando al menos un parámetro (f) de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro (\phi') de fase que representa una fase de la señal de audio, y caracterizado porque comprende

-

una unidad (22) de producción de parámetro para producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y una versión retardada de la señal (r') de audio, en el que la señal (r') de audio sintetizada comprende segmentos de tiempo, y en el que la unidad (22) de producción de parámetro está dispuesta para producir el parámetro (\phi') de fase actual usando el segmento de tiempo anterior de la señal (r') de audio.
2. Dispositivo según la reivindicación 1, en el que la unidad (22) de producción de parámetro comprende una unidad (21') de determinación de fase dispuesta para determinar un conjunto de pares de fase/frecuencia, representando cada par de fase/frecuencia la fase de cada frecuencia de la señal (r') de audio.
3. Dispositivo según la reivindicación 2, en el que la unidad (22) de producción de parámetro comprende además una unidad (28) de predicción de fase dispuesta para:

-

comparar el parámetro (f) de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro (f) de frecuencia, y

-

producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y la fase seleccionada.
4. Dispositivo según la reivindicación 1, en el que la unidad (22) de producción de parámetro comprende una unidad (27) de modificación de frecuencia para modificar el parámetro (f) de frecuencia en respuesta a un parámetro (C) de control.
5. Dispositivo según la reivindicación 1, en el que la unidad (23) de síntesis sinusoidal usa adicionalmente un parámetro (A) de amplitud.
6. Dispositivo según la reivindicación 1, que comprende además una unidad (24) de control de ganancia para multiplicar la señal (r') de audio sintetizada por un parámetro (G) de ganancia.
7. Dispositivo según la reivindicación 1, que comprende además una unidad (21) de análisis sinusoidal para recibir una señal (r) de audio de entrada y producir un parámetro (f) de frecuencia y un parámetro (\phi) de fase.
8. Dispositivo según la reivindicación 7, que comprende además:

-

una unidad (23') de síntesis sinusoidal adicional para producir una señal de audio sintetizada, y

-

una unidad (26) de comparación para comparar la señal de audio sintetizada y la señal de audio de entrada para producir un parámetro (G) de ganancia.
9. Dispositivo según la reivindicación 1, que comprende además una unidad (25) de segmentación para dividir la señal (r) de audio en segmentos de tiempo.
10. Dispositivo según la reivindicación 1, que comprende además una unidad (25') de solapamiento y adición para unir los segmentos de tiempo de la señal (r') de audio sintetizada.
11. Dispositivo según las reivindicaciones 9 y 10, en el que la unidad (25) de segmentación está controlada por un primer parámetro (updin) de solapamiento y en el que la unidad (25') de solapamiento y adición está controlada por un segundo parámetro (updout) de solapamiento, y en el que el dispositivo está dispuesto para el ajuste a escala en tiempo variando los parámetros (updin, updout) de solapamiento.
12. Dispositivo (1) de conversión de habla, que comprende:

-

una unidad (10) de análisis de predicción lineal para producir parámetros (p) de predicción y una señal (r) residual en respuesta a una señal (x) de habla de entrada,

-

una unidad (20) de adaptación de altura tonal para adaptar la altura tonal de la señal (r) residual para producir una señal (r') residual con altura tonal adaptada, y

-

una unidad (30) de síntesis de predicción lineal para sintetizar una señal (y) de habla de salida en respuesta a la señal (r') residual con altura tonal adaptada,

en el que la unidad (20) de adaptación de altura tonal comprende un dispositivo según la reivindicación 5.
```
\global\parskip1.000000\baselineskip
```
13. Dispositivo de conversión de habla según la reivindicación 12, que comprende además una unidad (40) de modificación para modificar los parámetros de predicción.
14. Sistema de audio, que comprende un dispositivo según la reivindicación 1.
15. Decodificador (5) de señal de audio, que comprende un dispositivo según la reivindicación 1.
16. Procedimiento de síntesis de una señal (r') de audio, comprendiendo el procedimiento las etapas de:

-

sintetizar la señal (r') de audio usando al menos un parámetro (f) de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro (\phi') de fase que representa una fase de la señal de audio, y caracterizado porque comprende:

-

producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y una versión retardada de la señal (r') de audio, en el que la señal (r') de audio sintetizada comprende segmentos de tiempo, y en el que la unidad (22) de producción de parámetro está dispuesta para producir el parámetro (\phi') de fase actual usando el segmento de tiempo anterior de la señal (r') de audio.
17. Procedimiento según la reivindicación 16, en el que la etapa de predicción de fase comprende las subetapas de determinar un conjunto de pares de fase/frecuencia, representando cada par de fase/frecuencia la fase de cada frecuencia de la señal (r') de audio.
18. Procedimiento según la reivindicación 17, en el que la etapa de predicción de fase comprende además las subetapas de:

-

comparar el parámetro (f) de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro (f) de frecuencia, y

-

producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y la fase seleccionada.
19. Procedimiento según la reivindicación 16, en el que la etapa de predicción de fase comprende la subetapa de modificar el parámetro (f) de frecuencia en respuesta a un parámetro (C) de control.
20. Procedimiento de conversión de habla, que comprende las etapas de:

-

producir parámetros (p) de predicción y una señal (r) residual en respuesta a una señal (x) de habla de entrada,

-

adaptar la altura tonal de la señal (r) residual para producir una señal (r') residual con altura tonal adaptada, y

-

sintetizar una señal (y) de habla de salida en respuesta a la señal (r') residual con altura tonal adaptada,

en el que la etapa de adaptación de la altura tonal comprende una subetapa de cambiar la frecuencia de una señal de audio según la reivindicación 19.
21. Procedimiento según la reivindicación 16 ó 20, que comprende además la etapa de ajustar a escala en tiempo.
22. Producto de programa informático que comprende instrucciones que, cuando se ejecutan en un ordenador, harán que dicho ordenador realice el procedimiento de las reivindicaciones 16 ó 20.