ES2332108T3 - Sintesis de señal de audio. - Google Patents

Sintesis de señal de audio. Download PDF

Info

Publication number
ES2332108T3
ES2332108T3 ES06766032T ES06766032T ES2332108T3 ES 2332108 T3 ES2332108 T3 ES 2332108T3 ES 06766032 T ES06766032 T ES 06766032T ES 06766032 T ES06766032 T ES 06766032T ES 2332108 T3 ES2332108 T3 ES 2332108T3
Authority
ES
Spain
Prior art keywords
parameter
phase
frequency
signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06766032T
Other languages
English (en)
Inventor
Albertus C. Den Brinker
Robert J. Sluijter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2332108T3 publication Critical patent/ES2332108T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Working-Up Tar And Pitch (AREA)

Abstract

Dispositivo (20) de síntesis de señal para sintetizar una señal (r'') de audio, comprendiendo el dispositivo: - una unidad (23) de síntesis sinusoidal para sintetizar la señal (r'') de audio usando al menos un parámetro (f) de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro (fi'') de fase que representa una fase de la señal de audio, y caracterizado porque comprende - una unidad (22) de producción de parámetro para producir el parámetro (fi'') de fase usando el parámetro (f) de frecuencia y una versión retardada de la señal (r'') de audio, en el que la señal (r'') de audio sintetizada comprende segmentos de tiempo, y en el que la unidad (22) de producción de parámetro está dispuesta para producir el parámetro (fi'') de fase actual usando el segmento de tiempo anterior de la señal (r'') de audio.

Description

Síntesis de señal de audio.
La presente invención se refiere a la síntesis de señal de audio. Más en particular, la presente invención se refiere a un dispositivo y a un procedimiento de síntesis de señal de audio en los que se determina la fase de la señal sintetizada. La presente invención se refiere además a un dispositivo y a un procedimiento para modificar la frecuencia de una señal de audio, dispositivo que comprende el dispositivo o el procedimiento de síntesis de señal de audio mencionados anteriormente.
Se conoce ampliamente la síntesis de señales de audio usando parámetros de señal, tales como una frecuencia y una fase. La síntesis puede llevarse a cabo para generar señales de sonido en un instrumento musical electrónico u otro dispositivo de consumo, tal como un teléfono móvil (celular). Alternativamente, la síntesis puede llevarse a cabo mediante un decodificador para decodificar una señal de audio codificada previamente. Un ejemplo de un procedimiento de codificación es la codificación paramétrica, en la que una señal de audio se descompone, por cada segmento de tiempo, en componentes sinusoidales, componentes de ruido y componentes opcionales adicionales, que pueden representarse cada una mediante parámetros adecuados. En un decodificador adecuado, los parámetros se usan para reconstruir sustancialmente la señal de audio original.
El artículo de Edler et al, "ASAC- Analysis/Synthesis Audio Codec dir very Low Bit Rates" preimpresiones de documentos presentados en la Convención de la AES, 11 de mayo de 1996, páginas 1-15, XP 001062332 da a conocer un ejemplo de un codec para codificar señales de audio a tasas de bits muy bajas.
La solicitud de patente estadounidense US2002/052736 da a conocer un ejemplo de un codificador de habla de armónicos-ruido y un algoritmo de codificación de una señal mixta de sonido sonoro/sordo usando un modelo armónico.
El artículo "Parametric Coding for High-Quality Audio" de A.C. den Brinker, E.G.P. Schuijers y A.W.J. Oomen, artículo 5554 de la convención de la Audio Engineering Society, Munich (Alemania), mayo de 2002, da a conocer el uso de pistas sinusoidales en la codificación paramétrica. Se modela una señal de audio usando objetos transitorios, objetos sinusoidales y objetos de ruido. Los parámetros de los objetos sinusoidales se estiman por cada trama de tiempo. Las frecuencias estimadas por cada trama se enlazan a lo largo de las tramas, por lo que se forman pistas sinusoidales. Estas pistas indican qué objetos sinusoidales de una trama de tiempo continúan en la siguiente trama de tiempo.
La solicitud de patente internacional WO 02/056298 (Philips) da a conocer el enlace de los componentes de señal en la codificación paramétrica. Una unidad de enlace genera información de enlace indicando los componentes de segmentos de señal extendidos consecutivos que pueden enlazarse entre sí para formar una pista sinusoidal.
Aunque estos procedimientos conocidos proporcionan resultados satisfactorios, tienen la desventaja de que el enlace de sinusoides a través de límites de trama de tiempo puede introducir errores de fase. Si una sinusoide de una cierta trama de tiempo se enlaza con la sinusoide errónea de la trama de tiempo siguiente, normalmente dará como resultado un desajuste de fase. Este desajuste de fase producirá una distorsión audible de la señal de audio sintetizada.
Por tanto, es un objeto de la presente invención superar éstos y otros problemas de la técnica anterior y proporcionar un dispositivo según la reivindicación 1 y un procedimiento según la reivindicación 15 de síntesis de señales de audio en los que se eviten las discontinuidades de fase o al menos se reduzcan significativamente.
Por consiguiente, la presente invención proporciona un dispositivo de síntesis de señal para sintetizar una señal de audio, comprendiendo el dispositivo:
-
una unidad de síntesis sinusoidal para sintetizar la señal de audio usando al menos un parámetro de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro de fase que representa una fase de la señal de audio, y
-
una unidad de producción de parámetro para producir el (al menos un) parámetro de fase usando el (al menos un) parámetro de frecuencia y una versión retardada de la señal de audio sintetizada.
Mediante la producción de la fase usando la señal de audio ya sintetizada, se usa un bucle de fase que puede proporcionar una fase sustancialmente continua. Más en particular, la fase usada en la unidad de síntesis sinusoidal se deriva de la señal de audio sintetizada y por tanto puede ajustarse apropiadamente con la señal de audio. Como resultado, la predicción de fase se mejora significativamente y por tanto se reduce drásticamente el número de errores en la predicción de fase. Preferiblemente se tiene en cuenta cualquier retardo de tiempo implicado en el bucle.
En el dispositivo de la presente invención, puede eliminarse la unidad de enlace convencional para enlazar componentes de señal de segmentos consecutivos, evitándose así cualquier desajuste de fase producido por tales unidades de enlace.
La señal de audio sintetizada comprende segmentos de tiempo, y la unidad de producción de parámetro está dispuesta para producir el parámetro de fase actual usando un segmento de tiempo anterior de la señal de audio. La fase de un segmento que esta sintetizándose se deriva de la fase de un segmento sintetizado anteriormente, preferiblemente el segmento inmediatamente anterior. De esta forma, se mantiene una estrecha relación entre la fase de la señal de audio sintetizada y la fase de la señal de audio que se está sintetizando.
Además se prefiere que la unidad de producción de parámetro comprenda una unidad de determinación de fase dispuesta para determinar un conjunto de pares de fase/frecuencia, representando cada par de fase/frecuencia la fase de una frecuencia de la señal de audio. En esta realización, un conjunto de fases y sus frecuencias asociadas se deriva de la señal de audio sintetizada.
Ventajosamente, la unidad de producción de parámetro puede comprender además una unidad de predicción de fase dispuesta para:
-
comparar el parámetro de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro de frecuencia, y
-
producir el parámetro de fase usando el parámetro de frecuencia y la fase seleccionada.
Por consiguiente, la unidad de producción de parámetro puede seleccionar la frecuencia que mejor se ajusta a la frecuencia representada por el parámetro de frecuencia, y entonces usar la fase asociada con la frecuencia seleccionada en la síntesis. Esta selección puede llevarse a cabo varias veces, preferiblemente una vez para cada frecuencia, si se usan múltiples frecuencias para sintetizar la señal de audio.
La señal de audio sintetizada puede tener la frecuencia (o frecuencias) representada(s) por el parámetro de frecuencia. Sin embargo, también puede desearse modificar esta frecuencia (o estas frecuencias). Por consiguiente, en una realización ventajosa, la unidad de producción de parámetro comprende una unidad de modificación de frecuencia para modificar el parámetro de frecuencia en respuesta a un parámetro de control. Este parámetro de control (frecuencia) puede ser, por ejemplo, un factor de multiplicación, un valor de 1 que no se corresponde con ningún cambio de frecuencia, un valor inferior a 1 que se corresponde con una frecuencia disminuida y un valor superior a 1 que se corresponde con una frecuencia aumentada. En otras realizaciones, el parámetro de control puede indicar una desviación de la frecuencia.
Aunque la presente invención puede ponerse en práctica usando únicamente un parámetro (o parámetros) de frecuencia y un parámetro (o parámetros) de fase, se prefiere usar parámetros adicionales para definir adicionalmente la señal de audio que va a sintetizarse. Por consiguiente, la unidad de síntesis sinusoidal puede usar adicionalmente un parámetro de amplitud. De manera adicional, o alternativa, el dispositivo de la presente invención puede comprender además una unidad de multiplicación para multiplicar la señal de audio sintetizada por un parámetro de ganancia.
Si la señal de audio sintetizada se compone de segmentos de tiempo (tramas de tiempo), resulta ventajoso cuando el dispositivo comprende además una unidad de solapamiento y adición para unir los segmentos de tiempo de la señal de audio sintetizada. Una unidad de solapamiento y adición de este tipo, que puede conocerse per se, se usa para producir una corriente de datos de audio sustancialmente continua añadiendo segmentos de tiempo parcialmente solapados de la señal.
Si se prevén una unidad de segmentación y una unidad de solapamiento y adición, la unidad de segmentación puede controlarse ventajosamente por un primer parámetro de solapamiento, mientras que la unidad de solapamiento y adición se controla mediante un segundo parámetro de solapamiento, estando dispuesto el dispositivo para el ajuste a escala en tiempo variando los parámetros de solapamiento.
El dispositivo de la presente invención puede recibir el parámetro de frecuencia, el parámetro de fase y cualquier otro parámetro de un medio de almacenamiento, un demultiplexador o cualquier otra fuente adecuada. Este será el caso, en particular, cuando se usa el dispositivo de la presente invención como un decodificador para decodificar (es decir, sintetizar) señales de audio que se han codificado previamente usando un codificador paramétrico. Sin embargo, en realizaciones ventajosas adicionales, el dispositivo de la presente invención puede producir los parámetros por sí mismo. En tales realizaciones, por tanto, el dispositivo comprende además una unidad de análisis sinusoidal para recibir una señal de audio de entrada y producir un parámetro de frecuencia y un parámetro de fase.
Las realizaciones del dispositivo en las que la señal de audio se codifica en primer lugar (es decir, se analiza y se representa mediante parámetros de señal) y luego se decodifica (es decir, se sintetiza usando dichos parámetros de señal) pueden usarse para modificar las propiedades de señal, por ejemplo la frecuencia, modificando los
parámetros.
Por consiguiente, la presente invención también prevé un dispositivo de modificación de frecuencia que comprende un dispositivo de síntesis de señal tal como se definió anteriormente que incluye una unidad de modificación de frecuencia para modificar el parámetro de frecuencia en respuesta a un parámetro de control, y una unidad de análisis sinusoidal para recibir una señal de audio de entrada y producir un parámetro de frecuencia y un parámetro de fase.
El dispositivo de síntesis de señal de la presente invención, cuando está dotado de una unidad de análisis sinusoidal para recibir una señal de audio de entrada y producir un parámetro de frecuencia y un parámetro de fase, puede comprender además ventajosamente:
-
una unidad de síntesis sinusoidal adicional para producir una señal de audio sintetizada, y
-
una unidad de comparación para comparar la señal de audio sintetizada y la señal de audio de entrada para producir un parámetro de ganancia.
En esta realización, se produce un parámetro de ganancia que permite ajustar la ganancia de la señal de audio sintetizada para cualquier modificación de ganancia debido al proceso de codificación (parametrización).
El dispositivo puede comprender además una unidad de segmentación para dividir una señal de audio en segmentos de tiempo. Sin embargo, algunas realizaciones pueden estar dispuestas para recibir señales de audio que ya están divididas en segmentos de tiempo y que no requerirán una unidad de segmentación.
La presente invención también prevé un dispositivo de conversión de habla, que comprende:
-
una unidad de análisis de predicción lineal para producir parámetros de predicción y una señal residual en respuesta a una señal de habla de entrada,
-
una unidad de adaptación de altura tonal para adaptar la altura tonal de la señal residual para producir una señal residual con altura tonal adaptada, y
-
una unidad de síntesis de predicción lineal para sintetizar una señal de habla de salida en respuesta a la señal residual con altura tonal adaptada,
en el que la unidad de adaptación de altura tonal comprende un dispositivo para modificar la frecuencia de una señal de audio tal como se definió anteriormente. La unidad de síntesis de predicción lineal puede estar dispuesta para sintetizar una señal de habla de salida en respuesta tanto a la señal residual con altura tonal adaptada como a los parámetros de predicción.
La presente invención prevé adicionalmente un sistema de audio que comprende un dispositivo tal como se definió anteriormente. El sistema de audio de la presente invención puede comprender además un sintetizador de habla y/o un sintetizador de música. El dispositivo de la presente invención puede usarse, por ejemplo, en dispositivos de consumo tales como teléfonos móviles (celulares), reproductores de MP3 o AAC, instrumentos musicales electrónicos, sistemas de entretenimiento incluyendo dispositivos de audio (por ejemplo, estéreo o 5.1) y vídeo (por ejemplo, aparatos de televisión) y otros dispositivos, tales como ordenadores. En particular, la presente invención puede utilizarse en aplicaciones en las que pueden lograrse ahorros de bits y/o de tasa de bits no codificando la fase de la señal de
audio.
La presente invención también prevé un procedimiento de síntesis de una señal de audio, comprendiendo el procedimiento las etapas de:
-
sintetizar la señal de audio usando al menos un parámetro de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro de fase que representa una fase de la señal de audio, y
-
producir el parámetro de fase usando el parámetro de frecuencia y una versión retardada de la señal de audio.
La señal de audio sintetizada comprende segmentos de tiempo, y la etapa de producción de fase comprende la subetapa de producir el parámetro de fase actual usando un segmento de tiempo anterior de la señal de audio.
Se prefiere particularmente que la etapa de predicción de fase comprenda la subetapa de determinar un conjunto de pares de fase/frecuencia, representando cada par de fase/frecuencia la fase de una frecuencia de la señal de audio.
La etapa de predicción de fase puede comprender además las subetapas de:
-
comparar el parámetro de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro de frecuencia, y
-
producir el parámetro de fase usando el parámetro de frecuencia y la fase seleccionada.
La etapa de predicción de fase puede comprender además ventajosamente la subetapa de modificar el parámetro de frecuencia en respuesta a un parámetro de control.
La presente invención también prevé un procedimiento de modificación de frecuencia que comprende un procedimiento de síntesis sinusoidal tal como se definió anteriormente que incluye las subetapas de modificar el parámetro de frecuencia en respuesta a un parámetro de control y recibir una señal de audio de entrada y producir un parámetro de frecuencia y un parámetro de fase.
La presente invención prevé además un procedimiento de conversión de habla, que comprende las etapas de:
-
producir parámetros de predicción y una señal residual en respuesta a una señal de habla de entrada,
-
adaptar la altura tonal de la señal residual para producir una señal residual con altura tonal adaptada, y
-
sintetizar una señal de habla de salida en respuesta a la señal residual con altura tonal adaptada,
en el que la etapa de adaptación de la altura tonal comprende el procedimiento de modificación de frecuencia tal como se definió anteriormente.
La etapa de sintetizar una señal de habla de salida puede implicar tanto la señal residual con altura tonal adaptada y los parámetros de predicción. Otras etapas y/o subetapas ventajosas del procedimiento resultarán evidentes a partir de la descripción de la invención facilitada a continuación.
La presente invención prevé adicionalmente un producto de programa informático para llevar a cabo el procedimiento tal como se definió anteriormente. Un producto de programa informático puede comprender un conjunto de instrucciones ejecutables por ordenador almacenadas en un soporte de datos, tal como un CD o un DVD. El conjunto de instrucciones ejecutables por ordenador, que permiten que un ordenador programable lleve a cabo el procedimiento tal como se definió anteriormente, también puede estar disponible para descargarse de un servidor remoto, por ejemplo a través de Internet.
La presente invención se explicará adicionalmente a continuación con referencia a realizaciones a modo de ejemplo ilustradas en los dibujos adjuntos, en los que:
La figura 1 muestra esquemáticamente un sistema de modificación de señal de audio paramétrico según la presente invención.
La figura 2 muestra esquemáticamente una realización de un dispositivo de modificación de frecuencia de señal de audio según la presente invención.
La figura 3 muestra esquemáticamente un par codificador/decodificador de señal de audio de modificación de frecuencia según la presente invención.
La figura 4 muestra esquemáticamente un primer ejemplo de ajuste a escala en tiempo llevado a cabo por el par codificador/decodificador de señal de audio de la figura 3.
La figura 5 muestra esquemáticamente un segundo ejemplo de ajuste a escala en tiempo llevado a cabo por el par codificador/decodificador de señal de audio de la figura 3.
El sistema 1 de modificación de señal de audio paramétrico mostrado simplemente a modo de ejemplo no limitativo en la figura 1 comprende una unidad 10 de análisis de predicción lineal (LPA), una unidad 20 de adaptación de altura tonal (PA), una unidad 30 de síntesis de predicción lineal (LPS) y una unidad 40 de modificación (Mod). La estructura del sistema 1 de modificación de señal de audio paramétrico se conoce per se, sin embargo, en el sistema 1 ilustrado en la figura 1, la unidad 20 de adaptación de altura tonal tiene un diseño novedoso que se explicará más tarde con más detalle en referencia a las figuras 2-4.
El sistema 1 de la figura 1 recibe una señal X de audio, que puede ser por ejemplo una señal de voz (habla) o una señal musical y emite una señal Y de audio modificada. La señal X se introduce en la unidad 10 de análisis de predicción lineal que convierte la señal en una secuencia de parámetros p de predicción (que varían con el tiempo) y una señal r residual. Para ello, la unidad 10 de predicción lineal comprende un filtro de análisis de predicción lineal adecuado. Los parámetros p de predicción producidos por la unidad 10 son parámetros de filtro que permiten que un filtro adecuado, en el ejemplo mostrado, un filtro de síntesis de predicción lineal contenido en la unidad 30 de síntesis de predicción lineal, reproduzca sustancialmente la señal X en respuesta a una señal de excitación adecuada. La señal r residual (o, tras cualquier adaptación de la altura tonal, la señal r' residual modificada) sirve aquí como la señal de excitación. Tal como se indicó anteriormente, los filtros de análisis de predicción lineal y los filtros de síntesis de predicción lineal son ampliamente conocidos para los expertos en la técnica y no es necesaria una explicación adicional.
La unidad 20 de adaptación de altura tonal (PA) permite modificar la altura tonal (frecuencia dominante) de la señal X de audio modificando la señal r residual y produciendo una señal r' residual modificada. Otros parámetros de la señal X pueden modificarse usando la unidad 40 de modificación adicional que se dispone para modificar los parámetros p de predicción y para producir parámetros p' de predicción modificados. En la presente invención, la unidad 40 de modificación adicional no es esencial y puede omitirse. Los parámetros p de predicción deben alimentarse, naturalmente, a la unidad 30 de síntesis de predicción lineal para permitir la síntesis de la señal Y.
El dispositivo para modificar la frecuencia de una señal de audio se ilustra esquemáticamente en la figura 2. El dispositivo 20 puede usarse ventajosamente como unidad de adaptación de altura tonal en el sistema de la figura 1 pero también puede usarse en otros sistemas. Por tanto, se entenderá que el dispositivo 20 no sólo puede aplicarse a sistemas que usan síntesis y análisis de predicción lineal, sino que también puede usarse como una unidad independiente en dispositivos y/o sistemas de modificación de señal de audio en los que no se usa ni síntesis ni análisis de predicción lineal.
El dispositivo 20 mostrado en la figura 2 comprende una unidad 21 de análisis sinusoidal (SiA), una unidad 22 de producción de parámetro (PaP) y una unidad 23 de síntesis sinusoidal (SiS). Se observa que la unidad 21 de análisis sinusoidal y la unidad 23 de síntesis sinusoidal son diferentes de la unidad 10 de análisis de predicción lineal y la unidad 30 de síntesis de predicción lineal del sistema 1 ilustrado en la figura 1.
La unidad 21 de análisis sinusoidal recibe una señal r de audio de entrada. Esta señal puede ser idéntica a la señal r residual de la figura 1 pero no se limita de esta manera. Por ejemplo, la señal r de audio de entrada de la figura 2 puede ser idéntica a la señal X de audio de entrada de la figura 1 y puede ser una señal de voz (habla) o de música.
La unidad 21 de análisis sinusoidal analiza la señal r de entrada y produce un conjunto de parámetros de señal: un parámetro f de frecuencia y un parámetro A de amplitud. El parámetro f de frecuencia representa frecuencias de componentes sinusoidales de la señal r de entrada. En algunas realizaciones pueden producirse múltiples parámetros f_{1}, f_{2}, f_{3},... de frecuencia, representando cada parámetro de frecuencia una única frecuencia. El parámetro A de amplitud no es esencial y puede omitirse (por ejemplo, cuando se usa una amplitud fija en la unidad 23 de síntesis sinusoidal). Sin embargo, en las realizaciones típicas, se usará el parámetro A de amplitud (o múltiples parámetros A_{1}, A_{2}, A_{3},... de amplitud). La unidad 21 de análisis sinusoidal se dispone, en una realización preferida, para realizar una transformada rápida de Fourier (FFT) para producir los parámetros de frecuencia y amplitud.
La unidad 22 de producción de parámetro recibe el(los) parámetro(s) f de frecuencia de la unidad 21 de análisis sinusoidal y ajusta este parámetro usando un parámetro C de control (de frecuencia). La unidad 22 de producción de parámetro puede contener, por ejemplo, una unidad de multiplicación para multiplicar el parámetro f de frecuencia y el parámetro C de control para producir un parámetro f' de frecuencia modificado, donde f' = C.f. Si, en este ejemplo, C es igual a 1, el parámetro de frecuencia no se modifica, si C es inferior a 1, el valor del parámetro de frecuencia disminuye, mientras que si C es superior a 1, el valor del parámetro de frecuencia disminuye.
Según la presente invención, la unidad 22 de producción de parámetro también recibe la señal r' sintetizada y deriva la fase de esta señal para producir un parámetro \phi' de fase. La unidad 22 de producción de parámetro alimenta el parámetro f' de frecuencia modificado y el parámetro \phi' de fase a la unidad 23 de síntesis sinusoidal, que también recibe el parámetro A de amplitud (opcional). Usando estos parámetros, la unidad 23 de síntesis sinusoidal sintetiza la señal r' de audio de salida.
La unidad 23 de síntesis sinusoidal se dispone, en una realización preferida, para realizar una transformada rápida de Fourier inversa (IFFT) o una operación similar. La unidad 22 de producción de parámetro se explicará más adelante en más detalle con referencia a la figura 3.
Un par codificador/decodificador de señal de audio de modificación de frecuencia según la presente invención se ilustra esquemáticamente en la figura 3. Un codificador 4 y un decodificador 5 se muestran como dispositivos independientes, aunque estos dispositivos podrían combinarse en un único dispositivo (20 en la figura 2).
El codificador 4 de señal de audio ilustrado simplemente a modo de ejemplo no limitativo en la figura 3 comprende una unidad 25 de segmentación (SEG), una unidad 21 de análisis sinusoidal (SiA), una (segunda) unidad 23' de síntesis sinusoidal (SiS') y una unidad 26 de mínimo error cuadrático medio (MMSE). Se observa que la unidad 23' de síntesis sinusoidal (SiS') (adicional) y la unidad 26 de mínimo error cuadrático medio (MMSE) no son esenciales y pueden eliminarse. Se observa además que la unidad 23' de síntesis sinusoidal (SiS') se indica como segunda unidad de síntesis sinusoidal para distinguir esta unidad de la (primera) unidad 23 de síntesis sinusoidal (SiS) en el decodi-
ficador 5.
El decodificador 5 de señal de audio ilustrado simplemente a modo de ejemplo no limitativo en la figura 3 comprende una unidad 23 de análisis sinusoidal (SiS), una unidad 22 de producción de parámetro, una unidad 24 de control de ganancia y una unidad 25' de solapamiento y adición (OLA) y ajuste a escala en tiempo (TS). La unidad 22 de producción de parámetro, que se corresponde sustancialmente con la unidad 22 de producción de parámetro (PaP) de la figura 2, comprende una unidad 29 de memoria (M), una (segunda) unidad 21' de análisis sinusoidal (SiA'), una unidad 28 de predicción de fase y una unidad 27 (opcional) de ajuste a escala en frecuencia (FS). Se observa que en algunas realizaciones puede eliminarse la unidad 27 de ajuste a escala en frecuencia (FS). Se observa además que la unidad 21' de análisis sinusoidal (SiA') se indica como segunda unidad 21' de análisis sinusoidal (SiA') para distinguir esta unidad de la (primera) unidad 21 de análisis sinusoidal (SiA) en el codificador 4.
El codificador 4 recibe una señal s de audio (digital), que puede ser una señal de voz (habla), una señal de música, o una combinación de las mismas. Esta señal s de audio se divide en segmentos de tiempo (tramas) que se solapan parcialmente por la unidad 25 de segmentación para producir una señal r de audio segmentada. La unidad 25 de segmentación recibe un parámetro updin de intervalo de actualización (entrada) que indica la separación en el tiempo de los segmentos de tiempo consecutivos. La señal r de audio segmentada puede ser igual a la señal r en las figuras 1, 2 y 3, pero no se limita de esta manera.
La unidad 21 de análisis sinusoidal, que se dispone preferiblemente para llevar a cabo una transformada rápida de Fourier (FFT), produce al menos un parámetro f de frecuencia y, en la realización mostrada, también al menos un parámetro A de amplitud y al menos un parámetro \phi de fase. El(los) parámetro(s) f de frecuencia y el(los) parámetro(s) A de amplitud se emiten por el codificador 4, mientras que el(los) parámetro(s) \phi de fase se usa(n) internamente. En la realización mostrada, el parámetro \phi de fase se alimenta a la unidad 23' (adicional) de análisis sinusoidal en la que se usa, junto con los parámetros f y A, para sintetizar la señal r''. De manera ideal, esta señal r'' sintetizada es sustancialmente igual a la señal r de audio de entrada, aparte de cualquier discrepancia de ganancia. Para compensar esta discrepancia de ganancia, tanto la señal r de audio de entrada (segmentada) original como la señal r'' de audio sintetizada se alimentan a una unidad de comparación, que en la realización mostrada está constituida por la unidad 26 de mínimo error cuadrático medio (MMSE). Esta unidad determina el mínimo error cuadrático medio entre la señal r de audio de entrada y la señal r'' de audio sintetizada y produce una señal G de ganancia correspondiente para compensar cualquier discrepancia de amplitud. En algunas realizaciones, esta información de corrección de amplitud puede estar contenida en el parámetro A de amplitud o puede ignorarse, en cuyo caso las unidades 23' y 26 pueden omitirse del codificador 4, mientras que la unidad 24 de control de ganancia puede omitirse del decodificador 5.
Por tanto, puede observarse que el codificador 4 recibe una señal de audio de entrada y convierte esta señal en un conjunto de parámetros f y A que representan la señal, y un parámetro G adicional. El conjunto de parámetros se transmite al decodificador 5 usando cualquier medio o procedimiento adecuado, por ejemplo mediante un cable de sistema de audio, una conexión a Internet, una conexión inalámbrica (por ejemplo Bluetooth®) o un soporte de datos tal como un CD, DVD, o tarjeta de memoria. En otras realizaciones, el codificador 4 y el decodificador 5 constituyen un único dispositivo (20 en las figuras 1, 2 y 3) y las conexiones entre el codificador 4 y el decodificador 5 son conexiones internas de dicho dispositivo único.
Por consiguiente, el decodificador 5 recibe los parámetros f y A de señal, y los parámetros G y C adicionales. La amplitud A se alimenta directamente a la unidad 23 de síntesis sinusoidal, que preferiblemente está dispuesta para realizar una transformada rápida de Fourier inversa (IFFT) para producir la señal r' sintetizada = r'(n). La síntesis puede llevarse a cabo usando la fórmula:
100
donde k es el número de componentes de frecuencia en la señal.
Los parámetros f y C se alimentan a la unidad 27 de ajuste a escala en frecuencia de la unidad 22 de producción de parámetro, mientras que el parámetro G de compensación de ganancia se alimenta a la unidad 24 de control de ganancia (en la presente realización: multiplicación).
La unidad 27 de ajuste a escala en frecuencia (FS) usa el parámetro C de control para ajustar (es decir, ajustar a escala) el parámetro f de frecuencia, por ejemplo multiplicando el parámetro C de control y el parámetro f de frecuencia. Esto da como resultado un parámetro f' de frecuencia ajustado (es decir, ajustado a escala), que se alimenta tanto a la unidad 23 de síntesis sinusoidal como a la unidad 28 de predicción de fase.
La unidad 23 de síntesis sinusoidal sintetiza una señal r' de audio de salida usando el parámetro A de amplitud, el parámetro f de frecuencia y el parámetro \phi' de fase (tal como se mencionó anteriormente, el parámetro A de amplitud no es esencial y puede no usarse en algunas realizaciones). Esta señal r' sintetizada se alimenta a la unidad 24 de control de ganancia que ajusta la amplitud de la señal r' usando el parámetro G de ganancia y alimenta la señal ajustada de ganancia a la unidad 25' de solapamiento y adición (OLA) y ajuste a escala en tiempo (TS). La unidad 25' de OLA/TS también recibe un parámetro updout de intervalo de actualización (salida) que indica el solapamiento de los segmentos de tiempo de la señal de salida. Usando los parámetros updout, se añaden los valores de señal de los segmentos de tiempo parcialmente solapados para producir la señal s' de salida.
La señal r' sintetizada producida por la unidad 23 de síntesis sinusoidal se alimenta, según la presente invención, a una unidad 29 de memoria (M) o retardo que almacena temporalmente el segmento de tiempo más reciente de la señal r' sintetizada. Este segmento se alimenta entonces a la (segunda) unidad 21' de análisis sinusoidal (SiA') que determina las frecuencias del segmento más sus valores de fase asociados. Es decir, la unidad 21' de análisis sinusoidal determina el espectro de frecuencia del segmento de tiempo, por ejemplo, usando una FFT, entonces determina la fase para todos los valores de frecuencia distintos de cero y finalmente emite un conjunto de pares de fase/frecuencia, consistiendo cada par en una frecuencia y en su fase asociada. Por tanto, la unidad 21' produce una "rejilla" de valores de frecuencia (preferiblemente sólo distintos de cero), teniendo cada valor de frecuencia (distinto de cero) un valor de fase asociado. En algunas realizaciones, puede usarse un valor umbral superior a cero para eliminar los valores de frecuencia pequeños, ya que sus valores de fase asociados a menudo son relativamente inexactos debido a errores de redondeo.
El conjunto de pares de fase/frecuencia producido por la unidad 21' se alimenta a la unidad 28 de predicción de fase, que compara el parámetro f' de frecuencia con las frecuencias del conjunto y selecciona los pares de fase/frecuencia que mejor se ajustan a las frecuencias representadas por el parámetro f'. La fase del par seleccionado se compensa entonces para el retardo de tiempo entre el segmento actual y el segmento anterior mediante el uso de la fórmula
101
donde \phi' es el parámetro de fase compensado, \phi' es la fase del par de fase/frecuencia seleccionado, f' es el parámetro de frecuencia (opcionalmente modificado) e \Deltat es el retardo de tiempo. El parámetro \phi' de fase compensado resultante se alimenta entonces a la unidad 23 de síntesis sinusoidal para sintetizar el siguiente segmento de tiempo de la señal r'.
Por tanto, puede observarse que el decodificador de la presente invención no usa enlazador, como en la técnica anterior comentada anteriormente. La fase de la señal de audio que se está sintetizando se deriva de la fase de la señal de audio sintetizada anteriormente, en particular la señal de audio del último segmento de tiempo (es decir, el más reciente).
Se entenderá que si no se usan segmentos de tiempo, pueden usarse otros criterios de retardo de tiempo en la unidad 28 de predicción de fase, por ejemplo criterios basados en el tiempo de procesamiento.
Si se usa el dispositivo 5 como un decodificador sin ajuste de frecuencia, puede omitirse la unidad 27 de cambio de frecuencia. Si se combinan el codificador 4 y el decodificador 5 en un único dispositivo que incluye la unidad 27 de cambio de frecuencia, se obtiene como resultado un dispositivo de modificación de frecuencia ventajoso.
El dispositivo 4 de codificador y el dispositivo 5 de decodificador ilustrados en la figura 3 pueden usarse, individualmente o en combinación, para ajustar a escala en tiempo. Para ello, pueden modificarse adecuadamente los parámetros updin y updout de intervalo de actualización mencionados anteriormente.
En la figura 4, se ilustra una señal de entrada (por ejemplo la señal s en la figura 3) en el eje I de tiempo, mientras que se ilustra la señal de salida correspondiente (por ejemplo la señal s' en la figura 3) en el eje II de tiempo. La señal se representa esquemáticamente en la figura 4 mediante las ventanas A y B, que se muestran triangulares por comodidad pero que pueden tener cualquier forma adecuada, por ejemplo forma gaussiana o de coseno. Cada ventana captura un segmento de tiempo de señal que tiene una longitud igual al parámetro seglen. Durante el proceso de segmentación en la unidad de segmentación (25 en la figura 3), se determina la separación de las ventanas A mediante el parámetro updin. De manera similar, durante el proceso de solapamiento y adición en la unidad OLA (25' en la figura 3), se determina la separación de las ventanas B mediante el parámetro updout. Escogiendo updout mayor que updin, tal como se muestra en la figura 4, la señal s se expande.
En la figura 5, la situación es la inversa porque el parámetro updout se escoge menor que updin, dando como resultado la compresión (es decir, la compresión en tiempo) de la señal. Por tanto, puede observarse que mediante la modificación adecuada de los parámetros updin y updout, puede llevarse a cabo el ajuste a escala en tiempo.
La presente invención se basa en el hallazgo de que cuando se sintetiza una señal de audio, la fase de la señal que va a sintetizarse puede derivarse ventajosamente de la señal de audio que se ha sintetizado, es decir, la señal sintetizada recientemente (o preferiblemente más recientemente). Esto da como resultado una fase que sustancialmente no tiene discontinuidades. La presente invención se beneficia de los hallazgos adicionales de que la fase derivada de la señal de audio sintetizada puede ajustarse usando la frecuencia de la señal que va a sintetizarse, y que el ajuste de esta frecuencia permite una forma conveniente de proporcionar una señal ajustada en frecuencia.
Se observa que cualquier término usado en este documento no debe interpretarse como que limita el alcance de la presente invención. En particular, las palabras "comprende(n)" y "que comprende" no pretenden excluir ningún elemento no mencionado específicamente. Los elementos únicos (de circuito) pueden sustituirse por elementos múltiples (de circuito) o por sus equivalentes.
Los expertos en la técnica entenderán que la presente invención no se limita a las realizaciones ilustradas anteriormente y que pueden realizarse muchas modificaciones y adiciones sin apartarse del alcance de la invención tal como se define en las reivindicaciones adjuntas.

Claims (22)

  1. \global\parskip0.950000\baselineskip
    1. Dispositivo (20) de síntesis de señal para sintetizar una señal (r') de audio, comprendiendo el dispositivo:
    -
    una unidad (23) de síntesis sinusoidal para sintetizar la señal (r') de audio usando al menos un parámetro (f) de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro (\phi') de fase que representa una fase de la señal de audio, y caracterizado porque comprende
    -
    una unidad (22) de producción de parámetro para producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y una versión retardada de la señal (r') de audio, en el que la señal (r') de audio sintetizada comprende segmentos de tiempo, y en el que la unidad (22) de producción de parámetro está dispuesta para producir el parámetro (\phi') de fase actual usando el segmento de tiempo anterior de la señal (r') de audio.
  2. 2. Dispositivo según la reivindicación 1, en el que la unidad (22) de producción de parámetro comprende una unidad (21') de determinación de fase dispuesta para determinar un conjunto de pares de fase/frecuencia, representando cada par de fase/frecuencia la fase de cada frecuencia de la señal (r') de audio.
  3. 3. Dispositivo según la reivindicación 2, en el que la unidad (22) de producción de parámetro comprende además una unidad (28) de predicción de fase dispuesta para:
    -
    comparar el parámetro (f) de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro (f) de frecuencia, y
    -
    producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y la fase seleccionada.
  4. 4. Dispositivo según la reivindicación 1, en el que la unidad (22) de producción de parámetro comprende una unidad (27) de modificación de frecuencia para modificar el parámetro (f) de frecuencia en respuesta a un parámetro (C) de control.
  5. 5. Dispositivo según la reivindicación 1, en el que la unidad (23) de síntesis sinusoidal usa adicionalmente un parámetro (A) de amplitud.
  6. 6. Dispositivo según la reivindicación 1, que comprende además una unidad (24) de control de ganancia para multiplicar la señal (r') de audio sintetizada por un parámetro (G) de ganancia.
  7. 7. Dispositivo según la reivindicación 1, que comprende además una unidad (21) de análisis sinusoidal para recibir una señal (r) de audio de entrada y producir un parámetro (f) de frecuencia y un parámetro (\phi) de fase.
  8. 8. Dispositivo según la reivindicación 7, que comprende además:
    -
    una unidad (23') de síntesis sinusoidal adicional para producir una señal de audio sintetizada, y
    -
    una unidad (26) de comparación para comparar la señal de audio sintetizada y la señal de audio de entrada para producir un parámetro (G) de ganancia.
  9. 9. Dispositivo según la reivindicación 1, que comprende además una unidad (25) de segmentación para dividir la señal (r) de audio en segmentos de tiempo.
  10. 10. Dispositivo según la reivindicación 1, que comprende además una unidad (25') de solapamiento y adición para unir los segmentos de tiempo de la señal (r') de audio sintetizada.
  11. 11. Dispositivo según las reivindicaciones 9 y 10, en el que la unidad (25) de segmentación está controlada por un primer parámetro (updin) de solapamiento y en el que la unidad (25') de solapamiento y adición está controlada por un segundo parámetro (updout) de solapamiento, y en el que el dispositivo está dispuesto para el ajuste a escala en tiempo variando los parámetros (updin, updout) de solapamiento.
  12. 12. Dispositivo (1) de conversión de habla, que comprende:
    -
    una unidad (10) de análisis de predicción lineal para producir parámetros (p) de predicción y una señal (r) residual en respuesta a una señal (x) de habla de entrada,
    -
    una unidad (20) de adaptación de altura tonal para adaptar la altura tonal de la señal (r) residual para producir una señal (r') residual con altura tonal adaptada, y
    -
    una unidad (30) de síntesis de predicción lineal para sintetizar una señal (y) de habla de salida en respuesta a la señal (r') residual con altura tonal adaptada,
    en el que la unidad (20) de adaptación de altura tonal comprende un dispositivo según la reivindicación 5.
    \global\parskip1.000000\baselineskip
  13. 13. Dispositivo de conversión de habla según la reivindicación 12, que comprende además una unidad (40) de modificación para modificar los parámetros de predicción.
  14. 14. Sistema de audio, que comprende un dispositivo según la reivindicación 1.
  15. 15. Decodificador (5) de señal de audio, que comprende un dispositivo según la reivindicación 1.
  16. 16. Procedimiento de síntesis de una señal (r') de audio, comprendiendo el procedimiento las etapas de:
    -
    sintetizar la señal (r') de audio usando al menos un parámetro (f) de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro (\phi') de fase que representa una fase de la señal de audio, y caracterizado porque comprende:
    -
    producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y una versión retardada de la señal (r') de audio, en el que la señal (r') de audio sintetizada comprende segmentos de tiempo, y en el que la unidad (22) de producción de parámetro está dispuesta para producir el parámetro (\phi') de fase actual usando el segmento de tiempo anterior de la señal (r') de audio.
  17. 17. Procedimiento según la reivindicación 16, en el que la etapa de predicción de fase comprende las subetapas de determinar un conjunto de pares de fase/frecuencia, representando cada par de fase/frecuencia la fase de cada frecuencia de la señal (r') de audio.
  18. 18. Procedimiento según la reivindicación 17, en el que la etapa de predicción de fase comprende además las subetapas de:
    -
    comparar el parámetro (f) de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro (f) de frecuencia, y
    -
    producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y la fase seleccionada.
  19. 19. Procedimiento según la reivindicación 16, en el que la etapa de predicción de fase comprende la subetapa de modificar el parámetro (f) de frecuencia en respuesta a un parámetro (C) de control.
  20. 20. Procedimiento de conversión de habla, que comprende las etapas de:
    -
    producir parámetros (p) de predicción y una señal (r) residual en respuesta a una señal (x) de habla de entrada,
    -
    adaptar la altura tonal de la señal (r) residual para producir una señal (r') residual con altura tonal adaptada, y
    -
    sintetizar una señal (y) de habla de salida en respuesta a la señal (r') residual con altura tonal adaptada,
    en el que la etapa de adaptación de la altura tonal comprende una subetapa de cambiar la frecuencia de una señal de audio según la reivindicación 19.
  21. 21. Procedimiento según la reivindicación 16 ó 20, que comprende además la etapa de ajustar a escala en tiempo.
  22. 22. Producto de programa informático que comprende instrucciones que, cuando se ejecutan en un ordenador, harán que dicho ordenador realice el procedimiento de las reivindicaciones 16 ó 20.
ES06766032T 2005-07-14 2006-07-06 Sintesis de señal de audio. Active ES2332108T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05106437 2005-07-14
EP05106437 2005-07-14

Publications (1)

Publication Number Publication Date
ES2332108T3 true ES2332108T3 (es) 2010-01-26

Family

ID=37433812

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06766032T Active ES2332108T3 (es) 2005-07-14 2006-07-06 Sintesis de señal de audio.

Country Status (9)

Country Link
US (1) US20100131276A1 (es)
EP (1) EP1905009B1 (es)
JP (1) JP2009501353A (es)
CN (1) CN101223581A (es)
AT (1) ATE443318T1 (es)
DE (1) DE602006009271D1 (es)
ES (1) ES2332108T3 (es)
RU (1) RU2008105555A (es)
WO (1) WO2007007253A1 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080073925A (ko) 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
ES2374008B1 (es) 2009-12-21 2012-12-28 Telefónica, S.A. Codificación, modificación y síntesis de segmentos de voz.
KR101333162B1 (ko) 2012-10-04 2013-11-27 부산대학교 산학협력단 Imdct 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법
CN104766612A (zh) * 2015-04-13 2015-07-08 李素平 基于乐音音色匹配的正弦模型分离方法
US10326469B1 (en) * 2018-03-26 2019-06-18 Qualcomm Incorporated Segmented digital-to-analog converter (DAC)
EP3573059B1 (en) * 2018-05-25 2021-03-31 Dolby Laboratories Licensing Corporation Dialogue enhancement based on synthesized speech

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5248845A (en) * 1992-03-20 1993-09-28 E-Mu Systems, Inc. Digital sampling instrument
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
JP3437445B2 (ja) * 1998-05-22 2003-08-18 松下電器産業株式会社 線形信号予測を用いた受信装置及び方法
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
EP1279167B1 (en) * 2000-04-24 2007-05-30 QUALCOMM Incorporated Method and apparatus for predictively quantizing voiced speech
KR100861884B1 (ko) * 2000-06-20 2008-10-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 정현파 코딩 방법 및 장치
KR100348899B1 (ko) 2000-09-19 2002-08-14 한국전자통신연구원 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
KR20080099326A (ko) 2001-01-16 2008-11-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 엔코딩에서 신호 성분들의 링킹
EP1395982B1 (en) * 2001-04-09 2006-04-19 Koninklijke Philips Electronics N.V. Adpcm speech coding system with phase-smearing and phase-desmearing filters
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US7027979B2 (en) * 2003-01-14 2006-04-11 Motorola, Inc. Method and apparatus for speech reconstruction within a distributed speech recognition system
JP4355745B2 (ja) * 2004-03-17 2009-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
US8260611B2 (en) * 2005-04-01 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for highband excitation generation
US8155972B2 (en) * 2005-10-05 2012-04-10 Texas Instruments Incorporated Seamless audio speed change based on time scale modification
US20070083377A1 (en) * 2005-10-12 2007-04-12 Steven Trautmann Time scale modification of audio using bark bands
FI20060133A0 (fi) * 2006-02-13 2006-02-13 Juha Ruokangas Menetelmä ja järjestelmä äänisignaalien modifioimiseksi

Also Published As

Publication number Publication date
EP1905009B1 (en) 2009-09-16
RU2008105555A (ru) 2009-08-20
JP2009501353A (ja) 2009-01-15
US20100131276A1 (en) 2010-05-27
CN101223581A (zh) 2008-07-16
ATE443318T1 (de) 2009-10-15
DE602006009271D1 (de) 2009-10-29
EP1905009A1 (en) 2008-04-02
WO2007007253A1 (en) 2007-01-18

Similar Documents

Publication Publication Date Title
ES3031957T3 (en) Audio signal decoder, corresponding method and computer program
CN104871242B (zh) 在音频信号的不连续传输中具有高频谱时间分辨率的舒缓噪声的生成
ES2535609T3 (es) Codificador de audio con estimación de ruido de fondo durante fases activas
JP6417299B2 (ja) フォワードエイリアシング消去を用いた符号器
ES2681429T3 (es) Generación de ruido en códecs de audio
EP3764356A1 (en) Forward time-domain aliasing cancellation with application in weighted or original signal domain
CN105359211B (zh) 语音处理的清音/浊音判决方法及装置
JP6335190B2 (ja) 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
JP2005520217A (ja) オーディオ復号化装置およびオーディオ復号化方法
ES2676834T3 (es) Gestión de la pérdida de trama en un contexto de transición FD/LPD
JP2022174077A (ja) スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム
JP2004053895A (ja) オーディオ復号装置と復号方法およびプログラム
ES2664391T3 (es) Aparato, método y programa informático correspondiente para generar una señal de ocultación de error usando compensación de potencia
BRPI0720266A2 (pt) Dispositivo de decodificação de aúdio e método de ajuste de potência
ES2661919T3 (es) Aparato, método y programa informático correspondiente para generar una señal de audio de ocultación de error usando representaciones de LPC de sustitución individuales
ES2332108T3 (es) Sintesis de señal de audio.
CN101176148B (zh) 编码装置、解码装置和其方法
ES2588483T3 (es) Decodificador de audio que comprende un estimador de ruido de fondo
US8000975B2 (en) User adjustment of signal parameters of coded transient, sinusoidal and noise components of parametrically-coded audio before decoding
JPWO2010103854A1 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
CN101171626B (zh) 通过修改残余对声码器内的帧进行时间扭曲
JP6082126B2 (ja) 音声信号を合成するための装置及び方法、デコーダ、エンコーダ、システム及びコンピュータプログラム
JP5323144B2 (ja) 復号装置およびスペクトル整形方法
JP5127170B2 (ja) 復号装置およびスペクトル整形方法
RU2574849C2 (ru) Устройство и способ для кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра