ES2332108T3 - Sintesis de señal de audio. - Google Patents
Sintesis de señal de audio. Download PDFInfo
- Publication number
- ES2332108T3 ES2332108T3 ES06766032T ES06766032T ES2332108T3 ES 2332108 T3 ES2332108 T3 ES 2332108T3 ES 06766032 T ES06766032 T ES 06766032T ES 06766032 T ES06766032 T ES 06766032T ES 2332108 T3 ES2332108 T3 ES 2332108T3
- Authority
- ES
- Spain
- Prior art keywords
- parameter
- phase
- frequency
- signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 94
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 54
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 54
- 238000004519 manufacturing process Methods 0.000 claims abstract description 25
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 27
- 230000004048 modification Effects 0.000 claims description 20
- 238000012986 modification Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 16
- 230000006978 adaptation Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000003111 delayed effect Effects 0.000 claims description 4
- 238000007792 addition Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Working-Up Tar And Pitch (AREA)
Abstract
Dispositivo (20) de síntesis de señal para sintetizar una señal (r'') de audio, comprendiendo el dispositivo: - una unidad (23) de síntesis sinusoidal para sintetizar la señal (r'') de audio usando al menos un parámetro (f) de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro (fi'') de fase que representa una fase de la señal de audio, y caracterizado porque comprende - una unidad (22) de producción de parámetro para producir el parámetro (fi'') de fase usando el parámetro (f) de frecuencia y una versión retardada de la señal (r'') de audio, en el que la señal (r'') de audio sintetizada comprende segmentos de tiempo, y en el que la unidad (22) de producción de parámetro está dispuesta para producir el parámetro (fi'') de fase actual usando el segmento de tiempo anterior de la señal (r'') de audio.
Description
Síntesis de señal de audio.
La presente invención se refiere a la síntesis
de señal de audio. Más en particular, la presente invención se
refiere a un dispositivo y a un procedimiento de síntesis de señal
de audio en los que se determina la fase de la señal sintetizada.
La presente invención se refiere además a un dispositivo y a un
procedimiento para modificar la frecuencia de una señal de audio,
dispositivo que comprende el dispositivo o el procedimiento de
síntesis de señal de audio mencionados anteriormente.
Se conoce ampliamente la síntesis de señales de
audio usando parámetros de señal, tales como una frecuencia y una
fase. La síntesis puede llevarse a cabo para generar señales de
sonido en un instrumento musical electrónico u otro dispositivo de
consumo, tal como un teléfono móvil (celular). Alternativamente, la
síntesis puede llevarse a cabo mediante un decodificador para
decodificar una señal de audio codificada previamente. Un ejemplo de
un procedimiento de codificación es la codificación paramétrica, en
la que una señal de audio se descompone, por cada segmento de
tiempo, en componentes sinusoidales, componentes de ruido y
componentes opcionales adicionales, que pueden representarse cada
una mediante parámetros adecuados. En un decodificador adecuado, los
parámetros se usan para reconstruir sustancialmente la señal de
audio original.
El artículo de Edler et al, "ASAC-
Analysis/Synthesis Audio Codec dir very Low Bit Rates"
preimpresiones de documentos presentados en la Convención de la
AES, 11 de mayo de 1996, páginas 1-15, XP 001062332
da a conocer un ejemplo de un codec para codificar señales de audio
a tasas de bits muy bajas.
La solicitud de patente estadounidense
US2002/052736 da a conocer un ejemplo de un codificador de habla de
armónicos-ruido y un algoritmo de codificación de
una señal mixta de sonido sonoro/sordo usando un modelo
armónico.
El artículo "Parametric Coding for
High-Quality Audio" de A.C. den Brinker, E.G.P.
Schuijers y A.W.J. Oomen, artículo 5554 de la convención de la
Audio Engineering Society, Munich (Alemania), mayo de 2002,
da a conocer el uso de pistas sinusoidales en la codificación
paramétrica. Se modela una señal de audio usando objetos
transitorios, objetos sinusoidales y objetos de ruido. Los
parámetros de los objetos sinusoidales se estiman por cada trama de
tiempo. Las frecuencias estimadas por cada trama se enlazan a lo
largo de las tramas, por lo que se forman pistas sinusoidales.
Estas pistas indican qué objetos sinusoidales de una trama de
tiempo continúan en la siguiente trama de tiempo.
La solicitud de patente internacional WO
02/056298 (Philips) da a conocer el enlace de los componentes de
señal en la codificación paramétrica. Una unidad de enlace genera
información de enlace indicando los componentes de segmentos de
señal extendidos consecutivos que pueden enlazarse entre sí para
formar una pista sinusoidal.
Aunque estos procedimientos conocidos
proporcionan resultados satisfactorios, tienen la desventaja de que
el enlace de sinusoides a través de límites de trama de tiempo puede
introducir errores de fase. Si una sinusoide de una cierta trama de
tiempo se enlaza con la sinusoide errónea de la trama de tiempo
siguiente, normalmente dará como resultado un desajuste de fase.
Este desajuste de fase producirá una distorsión audible de la señal
de audio sintetizada.
Por tanto, es un objeto de la presente invención
superar éstos y otros problemas de la técnica anterior y
proporcionar un dispositivo según la reivindicación 1 y un
procedimiento según la reivindicación 15 de síntesis de señales de
audio en los que se eviten las discontinuidades de fase o al menos
se reduzcan significativamente.
Por consiguiente, la presente invención
proporciona un dispositivo de síntesis de señal para sintetizar una
señal de audio, comprendiendo el dispositivo:
- -
- una unidad de síntesis sinusoidal para sintetizar la señal de audio usando al menos un parámetro de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro de fase que representa una fase de la señal de audio, y
- -
- una unidad de producción de parámetro para producir el (al menos un) parámetro de fase usando el (al menos un) parámetro de frecuencia y una versión retardada de la señal de audio sintetizada.
Mediante la producción de la fase usando la
señal de audio ya sintetizada, se usa un bucle de fase que puede
proporcionar una fase sustancialmente continua. Más en particular,
la fase usada en la unidad de síntesis sinusoidal se deriva de la
señal de audio sintetizada y por tanto puede ajustarse
apropiadamente con la señal de audio. Como resultado, la predicción
de fase se mejora significativamente y por tanto se reduce
drásticamente el número de errores en la predicción de fase.
Preferiblemente se tiene en cuenta cualquier retardo de tiempo
implicado en el bucle.
En el dispositivo de la presente invención,
puede eliminarse la unidad de enlace convencional para enlazar
componentes de señal de segmentos consecutivos, evitándose así
cualquier desajuste de fase producido por tales unidades de
enlace.
La señal de audio sintetizada comprende
segmentos de tiempo, y la unidad de producción de parámetro está
dispuesta para producir el parámetro de fase actual usando un
segmento de tiempo anterior de la señal de audio. La fase de un
segmento que esta sintetizándose se deriva de la fase de un segmento
sintetizado anteriormente, preferiblemente el segmento
inmediatamente anterior. De esta forma, se mantiene una estrecha
relación entre la fase de la señal de audio sintetizada y la fase
de la señal de audio que se está sintetizando.
Además se prefiere que la unidad de producción
de parámetro comprenda una unidad de determinación de fase
dispuesta para determinar un conjunto de pares de fase/frecuencia,
representando cada par de fase/frecuencia la fase de una frecuencia
de la señal de audio. En esta realización, un conjunto de fases y
sus frecuencias asociadas se deriva de la señal de audio
sintetizada.
Ventajosamente, la unidad de producción de
parámetro puede comprender además una unidad de predicción de fase
dispuesta para:
- -
- comparar el parámetro de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro de frecuencia, y
- -
- producir el parámetro de fase usando el parámetro de frecuencia y la fase seleccionada.
Por consiguiente, la unidad de producción de
parámetro puede seleccionar la frecuencia que mejor se ajusta a la
frecuencia representada por el parámetro de frecuencia, y entonces
usar la fase asociada con la frecuencia seleccionada en la
síntesis. Esta selección puede llevarse a cabo varias veces,
preferiblemente una vez para cada frecuencia, si se usan múltiples
frecuencias para sintetizar la señal de audio.
La señal de audio sintetizada puede tener la
frecuencia (o frecuencias) representada(s) por el parámetro
de frecuencia. Sin embargo, también puede desearse modificar esta
frecuencia (o estas frecuencias). Por consiguiente, en una
realización ventajosa, la unidad de producción de parámetro
comprende una unidad de modificación de frecuencia para modificar
el parámetro de frecuencia en respuesta a un parámetro de control.
Este parámetro de control (frecuencia) puede ser, por ejemplo, un
factor de multiplicación, un valor de 1 que no se corresponde con
ningún cambio de frecuencia, un valor inferior a 1 que se
corresponde con una frecuencia disminuida y un valor superior a 1
que se corresponde con una frecuencia aumentada. En otras
realizaciones, el parámetro de control puede indicar una desviación
de la frecuencia.
Aunque la presente invención puede ponerse en
práctica usando únicamente un parámetro (o parámetros) de frecuencia
y un parámetro (o parámetros) de fase, se prefiere usar parámetros
adicionales para definir adicionalmente la señal de audio que va a
sintetizarse. Por consiguiente, la unidad de síntesis sinusoidal
puede usar adicionalmente un parámetro de amplitud. De manera
adicional, o alternativa, el dispositivo de la presente invención
puede comprender además una unidad de multiplicación para
multiplicar la señal de audio sintetizada por un parámetro de
ganancia.
Si la señal de audio sintetizada se compone de
segmentos de tiempo (tramas de tiempo), resulta ventajoso cuando el
dispositivo comprende además una unidad de solapamiento y adición
para unir los segmentos de tiempo de la señal de audio sintetizada.
Una unidad de solapamiento y adición de este tipo, que puede
conocerse per se, se usa para producir una corriente de datos
de audio sustancialmente continua añadiendo segmentos de tiempo
parcialmente solapados de la señal.
Si se prevén una unidad de segmentación y una
unidad de solapamiento y adición, la unidad de segmentación puede
controlarse ventajosamente por un primer parámetro de solapamiento,
mientras que la unidad de solapamiento y adición se controla
mediante un segundo parámetro de solapamiento, estando dispuesto el
dispositivo para el ajuste a escala en tiempo variando los
parámetros de solapamiento.
El dispositivo de la presente invención puede
recibir el parámetro de frecuencia, el parámetro de fase y cualquier
otro parámetro de un medio de almacenamiento, un demultiplexador o
cualquier otra fuente adecuada. Este será el caso, en particular,
cuando se usa el dispositivo de la presente invención como un
decodificador para decodificar (es decir, sintetizar) señales de
audio que se han codificado previamente usando un codificador
paramétrico. Sin embargo, en realizaciones ventajosas adicionales,
el dispositivo de la presente invención puede producir los
parámetros por sí mismo. En tales realizaciones, por tanto, el
dispositivo comprende además una unidad de análisis sinusoidal para
recibir una señal de audio de entrada y producir un parámetro de
frecuencia y un parámetro de fase.
Las realizaciones del dispositivo en las que la
señal de audio se codifica en primer lugar (es decir, se analiza y
se representa mediante parámetros de señal) y luego se decodifica
(es decir, se sintetiza usando dichos parámetros de señal) pueden
usarse para modificar las propiedades de señal, por ejemplo la
frecuencia, modificando los
parámetros.
parámetros.
Por consiguiente, la presente invención también
prevé un dispositivo de modificación de frecuencia que comprende un
dispositivo de síntesis de señal tal como se definió anteriormente
que incluye una unidad de modificación de frecuencia para modificar
el parámetro de frecuencia en respuesta a un parámetro de control, y
una unidad de análisis sinusoidal para recibir una señal de audio
de entrada y producir un parámetro de frecuencia y un parámetro de
fase.
El dispositivo de síntesis de señal de la
presente invención, cuando está dotado de una unidad de análisis
sinusoidal para recibir una señal de audio de entrada y producir un
parámetro de frecuencia y un parámetro de fase, puede comprender
además ventajosamente:
- -
- una unidad de síntesis sinusoidal adicional para producir una señal de audio sintetizada, y
- -
- una unidad de comparación para comparar la señal de audio sintetizada y la señal de audio de entrada para producir un parámetro de ganancia.
En esta realización, se produce un parámetro de
ganancia que permite ajustar la ganancia de la señal de audio
sintetizada para cualquier modificación de ganancia debido al
proceso de codificación (parametrización).
El dispositivo puede comprender además una
unidad de segmentación para dividir una señal de audio en segmentos
de tiempo. Sin embargo, algunas realizaciones pueden estar
dispuestas para recibir señales de audio que ya están divididas en
segmentos de tiempo y que no requerirán una unidad de
segmentación.
La presente invención también prevé un
dispositivo de conversión de habla, que comprende:
- -
- una unidad de análisis de predicción lineal para producir parámetros de predicción y una señal residual en respuesta a una señal de habla de entrada,
- -
- una unidad de adaptación de altura tonal para adaptar la altura tonal de la señal residual para producir una señal residual con altura tonal adaptada, y
- -
- una unidad de síntesis de predicción lineal para sintetizar una señal de habla de salida en respuesta a la señal residual con altura tonal adaptada,
en el que la unidad de adaptación
de altura tonal comprende un dispositivo para modificar la
frecuencia de una señal de audio tal como se definió anteriormente.
La unidad de síntesis de predicción lineal puede estar dispuesta
para sintetizar una señal de habla de salida en respuesta tanto a la
señal residual con altura tonal adaptada como a los parámetros de
predicción.
La presente invención prevé adicionalmente un
sistema de audio que comprende un dispositivo tal como se definió
anteriormente. El sistema de audio de la presente invención puede
comprender además un sintetizador de habla y/o un sintetizador de
música. El dispositivo de la presente invención puede usarse, por
ejemplo, en dispositivos de consumo tales como teléfonos móviles
(celulares), reproductores de MP3 o AAC, instrumentos musicales
electrónicos, sistemas de entretenimiento incluyendo dispositivos
de audio (por ejemplo, estéreo o 5.1) y vídeo (por ejemplo,
aparatos de televisión) y otros dispositivos, tales como
ordenadores. En particular, la presente invención puede utilizarse
en aplicaciones en las que pueden lograrse ahorros de bits y/o de
tasa de bits no codificando la fase de la señal de
audio.
audio.
La presente invención también prevé un
procedimiento de síntesis de una señal de audio, comprendiendo el
procedimiento las etapas de:
- -
- sintetizar la señal de audio usando al menos un parámetro de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro de fase que representa una fase de la señal de audio, y
- -
- producir el parámetro de fase usando el parámetro de frecuencia y una versión retardada de la señal de audio.
La señal de audio sintetizada comprende
segmentos de tiempo, y la etapa de producción de fase comprende la
subetapa de producir el parámetro de fase actual usando un segmento
de tiempo anterior de la señal de audio.
Se prefiere particularmente que la etapa de
predicción de fase comprenda la subetapa de determinar un conjunto
de pares de fase/frecuencia, representando cada par de
fase/frecuencia la fase de una frecuencia de la señal de audio.
La etapa de predicción de fase puede comprender
además las subetapas de:
- -
- comparar el parámetro de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro de frecuencia, y
- -
- producir el parámetro de fase usando el parámetro de frecuencia y la fase seleccionada.
La etapa de predicción de fase puede comprender
además ventajosamente la subetapa de modificar el parámetro de
frecuencia en respuesta a un parámetro de control.
La presente invención también prevé un
procedimiento de modificación de frecuencia que comprende un
procedimiento de síntesis sinusoidal tal como se definió
anteriormente que incluye las subetapas de modificar el parámetro
de frecuencia en respuesta a un parámetro de control y recibir una
señal de audio de entrada y producir un parámetro de frecuencia y
un parámetro de fase.
La presente invención prevé además un
procedimiento de conversión de habla, que comprende las etapas
de:
- -
- producir parámetros de predicción y una señal residual en respuesta a una señal de habla de entrada,
- -
- adaptar la altura tonal de la señal residual para producir una señal residual con altura tonal adaptada, y
- -
- sintetizar una señal de habla de salida en respuesta a la señal residual con altura tonal adaptada,
en el que la etapa de adaptación de
la altura tonal comprende el procedimiento de modificación de
frecuencia tal como se definió
anteriormente.
La etapa de sintetizar una señal de habla de
salida puede implicar tanto la señal residual con altura tonal
adaptada y los parámetros de predicción. Otras etapas y/o subetapas
ventajosas del procedimiento resultarán evidentes a partir de la
descripción de la invención facilitada a continuación.
La presente invención prevé adicionalmente un
producto de programa informático para llevar a cabo el procedimiento
tal como se definió anteriormente. Un producto de programa
informático puede comprender un conjunto de instrucciones
ejecutables por ordenador almacenadas en un soporte de datos, tal
como un CD o un DVD. El conjunto de instrucciones ejecutables por
ordenador, que permiten que un ordenador programable lleve a cabo el
procedimiento tal como se definió anteriormente, también puede
estar disponible para descargarse de un servidor remoto, por ejemplo
a través de Internet.
La presente invención se explicará
adicionalmente a continuación con referencia a realizaciones a modo
de ejemplo ilustradas en los dibujos adjuntos, en los que:
La figura 1 muestra esquemáticamente un sistema
de modificación de señal de audio paramétrico según la presente
invención.
La figura 2 muestra esquemáticamente una
realización de un dispositivo de modificación de frecuencia de señal
de audio según la presente invención.
La figura 3 muestra esquemáticamente un par
codificador/decodificador de señal de audio de modificación de
frecuencia según la presente invención.
La figura 4 muestra esquemáticamente un primer
ejemplo de ajuste a escala en tiempo llevado a cabo por el par
codificador/decodificador de señal de audio de la figura 3.
La figura 5 muestra esquemáticamente un segundo
ejemplo de ajuste a escala en tiempo llevado a cabo por el par
codificador/decodificador de señal de audio de la figura 3.
El sistema 1 de modificación de señal de audio
paramétrico mostrado simplemente a modo de ejemplo no limitativo en
la figura 1 comprende una unidad 10 de análisis de predicción lineal
(LPA), una unidad 20 de adaptación de altura tonal (PA), una unidad
30 de síntesis de predicción lineal (LPS) y una unidad 40 de
modificación (Mod). La estructura del sistema 1 de modificación de
señal de audio paramétrico se conoce per se, sin embargo, en
el sistema 1 ilustrado en la figura 1, la unidad 20 de adaptación de
altura tonal tiene un diseño novedoso que se explicará más tarde
con más detalle en referencia a las figuras 2-4.
El sistema 1 de la figura 1 recibe una señal X
de audio, que puede ser por ejemplo una señal de voz (habla) o una
señal musical y emite una señal Y de audio modificada. La señal X se
introduce en la unidad 10 de análisis de predicción lineal que
convierte la señal en una secuencia de parámetros p de predicción
(que varían con el tiempo) y una señal r residual. Para ello, la
unidad 10 de predicción lineal comprende un filtro de análisis de
predicción lineal adecuado. Los parámetros p de predicción
producidos por la unidad 10 son parámetros de filtro que permiten
que un filtro adecuado, en el ejemplo mostrado, un filtro de
síntesis de predicción lineal contenido en la unidad 30 de síntesis
de predicción lineal, reproduzca sustancialmente la señal X en
respuesta a una señal de excitación adecuada. La señal r residual
(o, tras cualquier adaptación de la altura tonal, la señal r'
residual modificada) sirve aquí como la señal de excitación. Tal
como se indicó anteriormente, los filtros de análisis de predicción
lineal y los filtros de síntesis de predicción lineal son
ampliamente conocidos para los expertos en la técnica y no es
necesaria una explicación adicional.
La unidad 20 de adaptación de altura tonal (PA)
permite modificar la altura tonal (frecuencia dominante) de la
señal X de audio modificando la señal r residual y produciendo una
señal r' residual modificada. Otros parámetros de la señal X pueden
modificarse usando la unidad 40 de modificación adicional que se
dispone para modificar los parámetros p de predicción y para
producir parámetros p' de predicción modificados. En la presente
invención, la unidad 40 de modificación adicional no es esencial y
puede omitirse. Los parámetros p de predicción deben alimentarse,
naturalmente, a la unidad 30 de síntesis de predicción lineal para
permitir la síntesis de la señal Y.
El dispositivo para modificar la frecuencia de
una señal de audio se ilustra esquemáticamente en la figura 2. El
dispositivo 20 puede usarse ventajosamente como unidad de adaptación
de altura tonal en el sistema de la figura 1 pero también puede
usarse en otros sistemas. Por tanto, se entenderá que el dispositivo
20 no sólo puede aplicarse a sistemas que usan síntesis y análisis
de predicción lineal, sino que también puede usarse como una unidad
independiente en dispositivos y/o sistemas de modificación de señal
de audio en los que no se usa ni síntesis ni análisis de predicción
lineal.
El dispositivo 20 mostrado en la figura 2
comprende una unidad 21 de análisis sinusoidal (SiA), una unidad 22
de producción de parámetro (PaP) y una unidad 23 de síntesis
sinusoidal (SiS). Se observa que la unidad 21 de análisis
sinusoidal y la unidad 23 de síntesis sinusoidal son diferentes de
la unidad 10 de análisis de predicción lineal y la unidad 30 de
síntesis de predicción lineal del sistema 1 ilustrado en la figura
1.
La unidad 21 de análisis sinusoidal recibe una
señal r de audio de entrada. Esta señal puede ser idéntica a la
señal r residual de la figura 1 pero no se limita de esta manera.
Por ejemplo, la señal r de audio de entrada de la figura 2 puede
ser idéntica a la señal X de audio de entrada de la figura 1 y puede
ser una señal de voz (habla) o de música.
La unidad 21 de análisis sinusoidal analiza la
señal r de entrada y produce un conjunto de parámetros de señal: un
parámetro f de frecuencia y un parámetro A de amplitud. El parámetro
f de frecuencia representa frecuencias de componentes sinusoidales
de la señal r de entrada. En algunas realizaciones pueden producirse
múltiples parámetros f_{1}, f_{2}, f_{3},... de frecuencia,
representando cada parámetro de frecuencia una única frecuencia. El
parámetro A de amplitud no es esencial y puede omitirse (por
ejemplo, cuando se usa una amplitud fija en la unidad 23 de
síntesis sinusoidal). Sin embargo, en las realizaciones típicas, se
usará el parámetro A de amplitud (o múltiples parámetros A_{1},
A_{2}, A_{3},... de amplitud). La unidad 21 de análisis
sinusoidal se dispone, en una realización preferida, para realizar
una transformada rápida de Fourier (FFT) para producir los
parámetros de frecuencia y amplitud.
La unidad 22 de producción de parámetro recibe
el(los) parámetro(s) f de frecuencia de la unidad 21
de análisis sinusoidal y ajusta este parámetro usando un parámetro
C de control (de frecuencia). La unidad 22 de producción de
parámetro puede contener, por ejemplo, una unidad de multiplicación
para multiplicar el parámetro f de frecuencia y el parámetro C de
control para producir un parámetro f' de frecuencia modificado,
donde f' = C.f. Si, en este ejemplo, C es igual a 1, el parámetro
de frecuencia no se modifica, si C es inferior a 1, el valor del
parámetro de frecuencia disminuye, mientras que si C es superior a
1, el valor del parámetro de frecuencia disminuye.
Según la presente invención, la unidad 22 de
producción de parámetro también recibe la señal r' sintetizada y
deriva la fase de esta señal para producir un parámetro \phi' de
fase. La unidad 22 de producción de parámetro alimenta el parámetro
f' de frecuencia modificado y el parámetro \phi' de fase a la
unidad 23 de síntesis sinusoidal, que también recibe el parámetro A
de amplitud (opcional). Usando estos parámetros, la unidad 23 de
síntesis sinusoidal sintetiza la señal r' de audio de salida.
La unidad 23 de síntesis sinusoidal se dispone,
en una realización preferida, para realizar una transformada rápida
de Fourier inversa (IFFT) o una operación similar. La unidad 22 de
producción de parámetro se explicará más adelante en más detalle
con referencia a la figura 3.
Un par codificador/decodificador de señal de
audio de modificación de frecuencia según la presente invención se
ilustra esquemáticamente en la figura 3. Un codificador 4 y un
decodificador 5 se muestran como dispositivos independientes,
aunque estos dispositivos podrían combinarse en un único dispositivo
(20 en la figura 2).
El codificador 4 de señal de audio ilustrado
simplemente a modo de ejemplo no limitativo en la figura 3 comprende
una unidad 25 de segmentación (SEG), una unidad 21 de análisis
sinusoidal (SiA), una (segunda) unidad 23' de síntesis sinusoidal
(SiS') y una unidad 26 de mínimo error cuadrático medio (MMSE). Se
observa que la unidad 23' de síntesis sinusoidal (SiS') (adicional)
y la unidad 26 de mínimo error cuadrático medio (MMSE) no son
esenciales y pueden eliminarse. Se observa además que la unidad 23'
de síntesis sinusoidal (SiS') se indica como segunda unidad de
síntesis sinusoidal para distinguir esta unidad de la (primera)
unidad 23 de síntesis sinusoidal (SiS) en el decodi-
ficador 5.
ficador 5.
El decodificador 5 de señal de audio ilustrado
simplemente a modo de ejemplo no limitativo en la figura 3
comprende una unidad 23 de análisis sinusoidal (SiS), una unidad 22
de producción de parámetro, una unidad 24 de control de ganancia y
una unidad 25' de solapamiento y adición (OLA) y ajuste a escala en
tiempo (TS). La unidad 22 de producción de parámetro, que se
corresponde sustancialmente con la unidad 22 de producción de
parámetro (PaP) de la figura 2, comprende una unidad 29 de memoria
(M), una (segunda) unidad 21' de análisis sinusoidal (SiA'), una
unidad 28 de predicción de fase y una unidad 27 (opcional) de ajuste
a escala en frecuencia (FS). Se observa que en algunas
realizaciones puede eliminarse la unidad 27 de ajuste a escala en
frecuencia (FS). Se observa además que la unidad 21' de análisis
sinusoidal (SiA') se indica como segunda unidad 21' de análisis
sinusoidal (SiA') para distinguir esta unidad de la (primera) unidad
21 de análisis sinusoidal (SiA) en el codificador 4.
El codificador 4 recibe una señal s de audio
(digital), que puede ser una señal de voz (habla), una señal de
música, o una combinación de las mismas. Esta señal s de audio se
divide en segmentos de tiempo (tramas) que se solapan parcialmente
por la unidad 25 de segmentación para producir una señal r de audio
segmentada. La unidad 25 de segmentación recibe un parámetro updin
de intervalo de actualización (entrada) que indica la separación en
el tiempo de los segmentos de tiempo consecutivos. La señal r de
audio segmentada puede ser igual a la señal r en las figuras 1, 2 y
3, pero no se limita de esta manera.
La unidad 21 de análisis sinusoidal, que se
dispone preferiblemente para llevar a cabo una transformada rápida
de Fourier (FFT), produce al menos un parámetro f de frecuencia y,
en la realización mostrada, también al menos un parámetro A de
amplitud y al menos un parámetro \phi de fase. El(los)
parámetro(s) f de frecuencia y el(los)
parámetro(s) A de amplitud se emiten por el codificador 4,
mientras que el(los) parámetro(s) \phi de fase se
usa(n) internamente. En la realización mostrada, el parámetro
\phi de fase se alimenta a la unidad 23' (adicional) de análisis
sinusoidal en la que se usa, junto con los parámetros f y A, para
sintetizar la señal r''. De manera ideal, esta señal r''
sintetizada es sustancialmente igual a la señal r de audio de
entrada, aparte de cualquier discrepancia de ganancia. Para
compensar esta discrepancia de ganancia, tanto la señal r de audio
de entrada (segmentada) original como la señal r'' de audio
sintetizada se alimentan a una unidad de comparación, que en la
realización mostrada está constituida por la unidad 26 de mínimo
error cuadrático medio (MMSE). Esta unidad determina el mínimo
error cuadrático medio entre la señal r de audio de entrada y la
señal r'' de audio sintetizada y produce una señal G de ganancia
correspondiente para compensar cualquier discrepancia de amplitud.
En algunas realizaciones, esta información de corrección de amplitud
puede estar contenida en el parámetro A de amplitud o puede
ignorarse, en cuyo caso las unidades 23' y 26 pueden omitirse del
codificador 4, mientras que la unidad 24 de control de ganancia
puede omitirse del decodificador 5.
Por tanto, puede observarse que el codificador 4
recibe una señal de audio de entrada y convierte esta señal en un
conjunto de parámetros f y A que representan la señal, y un
parámetro G adicional. El conjunto de parámetros se transmite al
decodificador 5 usando cualquier medio o procedimiento adecuado, por
ejemplo mediante un cable de sistema de audio, una conexión a
Internet, una conexión inalámbrica (por ejemplo Bluetooth®) o un
soporte de datos tal como un CD, DVD, o tarjeta de memoria. En
otras realizaciones, el codificador 4 y el decodificador 5
constituyen un único dispositivo (20 en las figuras 1, 2 y 3) y las
conexiones entre el codificador 4 y el decodificador 5 son
conexiones internas de dicho dispositivo único.
Por consiguiente, el decodificador 5 recibe los
parámetros f y A de señal, y los parámetros G y C adicionales. La
amplitud A se alimenta directamente a la unidad 23 de síntesis
sinusoidal, que preferiblemente está dispuesta para realizar una
transformada rápida de Fourier inversa (IFFT) para producir la señal
r' sintetizada = r'(n). La síntesis puede llevarse a cabo usando la
fórmula:
donde k es el número de componentes
de frecuencia en la
señal.
Los parámetros f y C se alimentan a la unidad 27
de ajuste a escala en frecuencia de la unidad 22 de producción de
parámetro, mientras que el parámetro G de compensación de ganancia
se alimenta a la unidad 24 de control de ganancia (en la presente
realización: multiplicación).
La unidad 27 de ajuste a escala en frecuencia
(FS) usa el parámetro C de control para ajustar (es decir, ajustar
a escala) el parámetro f de frecuencia, por ejemplo multiplicando el
parámetro C de control y el parámetro f de frecuencia. Esto da como
resultado un parámetro f' de frecuencia ajustado (es decir, ajustado
a escala), que se alimenta tanto a la unidad 23 de síntesis
sinusoidal como a la unidad 28 de predicción de fase.
La unidad 23 de síntesis sinusoidal sintetiza
una señal r' de audio de salida usando el parámetro A de amplitud,
el parámetro f de frecuencia y el parámetro \phi' de fase (tal
como se mencionó anteriormente, el parámetro A de amplitud no es
esencial y puede no usarse en algunas realizaciones). Esta señal r'
sintetizada se alimenta a la unidad 24 de control de ganancia que
ajusta la amplitud de la señal r' usando el parámetro G de ganancia
y alimenta la señal ajustada de ganancia a la unidad 25' de
solapamiento y adición (OLA) y ajuste a escala en tiempo (TS). La
unidad 25' de OLA/TS también recibe un parámetro updout de intervalo
de actualización (salida) que indica el solapamiento de los
segmentos de tiempo de la señal de salida. Usando los parámetros
updout, se añaden los valores de señal de los segmentos de tiempo
parcialmente solapados para producir la señal s' de salida.
La señal r' sintetizada producida por la unidad
23 de síntesis sinusoidal se alimenta, según la presente invención,
a una unidad 29 de memoria (M) o retardo que almacena temporalmente
el segmento de tiempo más reciente de la señal r' sintetizada. Este
segmento se alimenta entonces a la (segunda) unidad 21' de análisis
sinusoidal (SiA') que determina las frecuencias del segmento más
sus valores de fase asociados. Es decir, la unidad 21' de análisis
sinusoidal determina el espectro de frecuencia del segmento de
tiempo, por ejemplo, usando una FFT, entonces determina la fase
para todos los valores de frecuencia distintos de cero y finalmente
emite un conjunto de pares de fase/frecuencia, consistiendo cada
par en una frecuencia y en su fase asociada. Por tanto, la unidad
21' produce una "rejilla" de valores de frecuencia
(preferiblemente sólo distintos de cero), teniendo cada valor de
frecuencia (distinto de cero) un valor de fase asociado. En algunas
realizaciones, puede usarse un valor umbral superior a cero para
eliminar los valores de frecuencia pequeños, ya que sus valores de
fase asociados a menudo son relativamente inexactos debido a errores
de redondeo.
El conjunto de pares de fase/frecuencia
producido por la unidad 21' se alimenta a la unidad 28 de predicción
de fase, que compara el parámetro f' de frecuencia con las
frecuencias del conjunto y selecciona los pares de fase/frecuencia
que mejor se ajustan a las frecuencias representadas por el
parámetro f'. La fase del par seleccionado se compensa entonces
para el retardo de tiempo entre el segmento actual y el segmento
anterior mediante el uso de la fórmula
donde \phi' es el parámetro de
fase compensado, \phi' es la fase del par de fase/frecuencia
seleccionado, f' es el parámetro de frecuencia (opcionalmente
modificado) e \Deltat es el retardo de tiempo. El parámetro
\phi' de fase compensado resultante se alimenta entonces a la
unidad 23 de síntesis sinusoidal para sintetizar el siguiente
segmento de tiempo de la señal
r'.
Por tanto, puede observarse que el decodificador
de la presente invención no usa enlazador, como en la técnica
anterior comentada anteriormente. La fase de la señal de audio que
se está sintetizando se deriva de la fase de la señal de audio
sintetizada anteriormente, en particular la señal de audio del
último segmento de tiempo (es decir, el más reciente).
Se entenderá que si no se usan segmentos de
tiempo, pueden usarse otros criterios de retardo de tiempo en la
unidad 28 de predicción de fase, por ejemplo criterios basados en el
tiempo de procesamiento.
Si se usa el dispositivo 5 como un decodificador
sin ajuste de frecuencia, puede omitirse la unidad 27 de cambio de
frecuencia. Si se combinan el codificador 4 y el decodificador 5 en
un único dispositivo que incluye la unidad 27 de cambio de
frecuencia, se obtiene como resultado un dispositivo de modificación
de frecuencia ventajoso.
El dispositivo 4 de codificador y el dispositivo
5 de decodificador ilustrados en la figura 3 pueden usarse,
individualmente o en combinación, para ajustar a escala en tiempo.
Para ello, pueden modificarse adecuadamente los parámetros updin y
updout de intervalo de actualización mencionados anteriormente.
En la figura 4, se ilustra una señal de entrada
(por ejemplo la señal s en la figura 3) en el eje I de tiempo,
mientras que se ilustra la señal de salida correspondiente (por
ejemplo la señal s' en la figura 3) en el eje II de tiempo. La
señal se representa esquemáticamente en la figura 4 mediante las
ventanas A y B, que se muestran triangulares por comodidad pero que
pueden tener cualquier forma adecuada, por ejemplo forma gaussiana
o de coseno. Cada ventana captura un segmento de tiempo de señal que
tiene una longitud igual al parámetro seglen. Durante el proceso de
segmentación en la unidad de segmentación (25 en la figura 3), se
determina la separación de las ventanas A mediante el parámetro
updin. De manera similar, durante el proceso de solapamiento y
adición en la unidad OLA (25' en la figura 3), se determina la
separación de las ventanas B mediante el parámetro updout.
Escogiendo updout mayor que updin, tal como se muestra en la figura
4, la señal s se expande.
En la figura 5, la situación es la inversa
porque el parámetro updout se escoge menor que updin, dando como
resultado la compresión (es decir, la compresión en tiempo) de la
señal. Por tanto, puede observarse que mediante la modificación
adecuada de los parámetros updin y updout, puede llevarse a cabo el
ajuste a escala en tiempo.
La presente invención se basa en el hallazgo de
que cuando se sintetiza una señal de audio, la fase de la señal que
va a sintetizarse puede derivarse ventajosamente de la señal de
audio que se ha sintetizado, es decir, la señal sintetizada
recientemente (o preferiblemente más recientemente). Esto da como
resultado una fase que sustancialmente no tiene discontinuidades.
La presente invención se beneficia de los hallazgos adicionales de
que la fase derivada de la señal de audio sintetizada puede
ajustarse usando la frecuencia de la señal que va a sintetizarse, y
que el ajuste de esta frecuencia permite una forma conveniente de
proporcionar una señal ajustada en frecuencia.
Se observa que cualquier término usado en este
documento no debe interpretarse como que limita el alcance de la
presente invención. En particular, las palabras
"comprende(n)" y "que comprende" no pretenden
excluir ningún elemento no mencionado específicamente. Los
elementos únicos (de circuito) pueden sustituirse por elementos
múltiples (de circuito) o por sus equivalentes.
Los expertos en la técnica entenderán que la
presente invención no se limita a las realizaciones ilustradas
anteriormente y que pueden realizarse muchas modificaciones y
adiciones sin apartarse del alcance de la invención tal como se
define en las reivindicaciones adjuntas.
Claims (22)
-
\global\parskip0.950000\baselineskip
1. Dispositivo (20) de síntesis de señal para sintetizar una señal (r') de audio, comprendiendo el dispositivo:- -
- una unidad (23) de síntesis sinusoidal para sintetizar la señal (r') de audio usando al menos un parámetro (f) de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro (\phi') de fase que representa una fase de la señal de audio, y caracterizado porque comprende
- -
- una unidad (22) de producción de parámetro para producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y una versión retardada de la señal (r') de audio, en el que la señal (r') de audio sintetizada comprende segmentos de tiempo, y en el que la unidad (22) de producción de parámetro está dispuesta para producir el parámetro (\phi') de fase actual usando el segmento de tiempo anterior de la señal (r') de audio.
- 2. Dispositivo según la reivindicación 1, en el que la unidad (22) de producción de parámetro comprende una unidad (21') de determinación de fase dispuesta para determinar un conjunto de pares de fase/frecuencia, representando cada par de fase/frecuencia la fase de cada frecuencia de la señal (r') de audio.
- 3. Dispositivo según la reivindicación 2, en el que la unidad (22) de producción de parámetro comprende además una unidad (28) de predicción de fase dispuesta para:
- -
- comparar el parámetro (f) de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro (f) de frecuencia, y
- -
- producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y la fase seleccionada.
- 4. Dispositivo según la reivindicación 1, en el que la unidad (22) de producción de parámetro comprende una unidad (27) de modificación de frecuencia para modificar el parámetro (f) de frecuencia en respuesta a un parámetro (C) de control.
- 5. Dispositivo según la reivindicación 1, en el que la unidad (23) de síntesis sinusoidal usa adicionalmente un parámetro (A) de amplitud.
- 6. Dispositivo según la reivindicación 1, que comprende además una unidad (24) de control de ganancia para multiplicar la señal (r') de audio sintetizada por un parámetro (G) de ganancia.
- 7. Dispositivo según la reivindicación 1, que comprende además una unidad (21) de análisis sinusoidal para recibir una señal (r) de audio de entrada y producir un parámetro (f) de frecuencia y un parámetro (\phi) de fase.
- 8. Dispositivo según la reivindicación 7, que comprende además:
- -
- una unidad (23') de síntesis sinusoidal adicional para producir una señal de audio sintetizada, y
- -
- una unidad (26) de comparación para comparar la señal de audio sintetizada y la señal de audio de entrada para producir un parámetro (G) de ganancia.
- 9. Dispositivo según la reivindicación 1, que comprende además una unidad (25) de segmentación para dividir la señal (r) de audio en segmentos de tiempo.
- 10. Dispositivo según la reivindicación 1, que comprende además una unidad (25') de solapamiento y adición para unir los segmentos de tiempo de la señal (r') de audio sintetizada.
- 11. Dispositivo según las reivindicaciones 9 y 10, en el que la unidad (25) de segmentación está controlada por un primer parámetro (updin) de solapamiento y en el que la unidad (25') de solapamiento y adición está controlada por un segundo parámetro (updout) de solapamiento, y en el que el dispositivo está dispuesto para el ajuste a escala en tiempo variando los parámetros (updin, updout) de solapamiento.
- 12. Dispositivo (1) de conversión de habla, que comprende:
- -
- una unidad (10) de análisis de predicción lineal para producir parámetros (p) de predicción y una señal (r) residual en respuesta a una señal (x) de habla de entrada,
- -
- una unidad (20) de adaptación de altura tonal para adaptar la altura tonal de la señal (r) residual para producir una señal (r') residual con altura tonal adaptada, y
- -
- una unidad (30) de síntesis de predicción lineal para sintetizar una señal (y) de habla de salida en respuesta a la señal (r') residual con altura tonal adaptada,
en el que la unidad (20) de adaptación de altura tonal comprende un dispositivo según la reivindicación 5.\global\parskip1.000000\baselineskip
- 13. Dispositivo de conversión de habla según la reivindicación 12, que comprende además una unidad (40) de modificación para modificar los parámetros de predicción.
- 14. Sistema de audio, que comprende un dispositivo según la reivindicación 1.
- 15. Decodificador (5) de señal de audio, que comprende un dispositivo según la reivindicación 1.
- 16. Procedimiento de síntesis de una señal (r') de audio, comprendiendo el procedimiento las etapas de:
- -
- sintetizar la señal (r') de audio usando al menos un parámetro (f) de frecuencia que representa una frecuencia de la señal de audio y al menos un parámetro (\phi') de fase que representa una fase de la señal de audio, y caracterizado porque comprende:
- -
- producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y una versión retardada de la señal (r') de audio, en el que la señal (r') de audio sintetizada comprende segmentos de tiempo, y en el que la unidad (22) de producción de parámetro está dispuesta para producir el parámetro (\phi') de fase actual usando el segmento de tiempo anterior de la señal (r') de audio.
- 17. Procedimiento según la reivindicación 16, en el que la etapa de predicción de fase comprende las subetapas de determinar un conjunto de pares de fase/frecuencia, representando cada par de fase/frecuencia la fase de cada frecuencia de la señal (r') de audio.
- 18. Procedimiento según la reivindicación 17, en el que la etapa de predicción de fase comprende además las subetapas de:
- -
- comparar el parámetro (f) de frecuencia con el conjunto de pares de fase/frecuencia y seleccionar el par de fase/frecuencia más próximo al parámetro (f) de frecuencia, y
- -
- producir el parámetro (\phi') de fase usando el parámetro (f) de frecuencia y la fase seleccionada.
- 19. Procedimiento según la reivindicación 16, en el que la etapa de predicción de fase comprende la subetapa de modificar el parámetro (f) de frecuencia en respuesta a un parámetro (C) de control.
- 20. Procedimiento de conversión de habla, que comprende las etapas de:
- -
- producir parámetros (p) de predicción y una señal (r) residual en respuesta a una señal (x) de habla de entrada,
- -
- adaptar la altura tonal de la señal (r) residual para producir una señal (r') residual con altura tonal adaptada, y
- -
- sintetizar una señal (y) de habla de salida en respuesta a la señal (r') residual con altura tonal adaptada,
en el que la etapa de adaptación de la altura tonal comprende una subetapa de cambiar la frecuencia de una señal de audio según la reivindicación 19. - 21. Procedimiento según la reivindicación 16 ó 20, que comprende además la etapa de ajustar a escala en tiempo.
- 22. Producto de programa informático que comprende instrucciones que, cuando se ejecutan en un ordenador, harán que dicho ordenador realice el procedimiento de las reivindicaciones 16 ó 20.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP05106437 | 2005-07-14 | ||
| EP05106437 | 2005-07-14 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2332108T3 true ES2332108T3 (es) | 2010-01-26 |
Family
ID=37433812
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES06766032T Active ES2332108T3 (es) | 2005-07-14 | 2006-07-06 | Sintesis de señal de audio. |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US20100131276A1 (es) |
| EP (1) | EP1905009B1 (es) |
| JP (1) | JP2009501353A (es) |
| CN (1) | CN101223581A (es) |
| AT (1) | ATE443318T1 (es) |
| DE (1) | DE602006009271D1 (es) |
| ES (1) | ES2332108T3 (es) |
| RU (1) | RU2008105555A (es) |
| WO (1) | WO2007007253A1 (es) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20080073925A (ko) | 2007-02-07 | 2008-08-12 | 삼성전자주식회사 | 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치 |
| ES2374008B1 (es) | 2009-12-21 | 2012-12-28 | Telefónica, S.A. | Codificación, modificación y síntesis de segmentos de voz. |
| KR101333162B1 (ko) | 2012-10-04 | 2013-11-27 | 부산대학교 산학협력단 | Imdct 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법 |
| CN104766612A (zh) * | 2015-04-13 | 2015-07-08 | 李素平 | 基于乐音音色匹配的正弦模型分离方法 |
| US10326469B1 (en) * | 2018-03-26 | 2019-06-18 | Qualcomm Incorporated | Segmented digital-to-analog converter (DAC) |
| EP3573059B1 (en) * | 2018-05-25 | 2021-03-31 | Dolby Laboratories Licensing Corporation | Dialogue enhancement based on synthesized speech |
Family Cites Families (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5248845A (en) * | 1992-03-20 | 1993-09-28 | E-Mu Systems, Inc. | Digital sampling instrument |
| US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
| US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
| JP3437445B2 (ja) * | 1998-05-22 | 2003-08-18 | 松下電器産業株式会社 | 線形信号予測を用いた受信装置及び方法 |
| US6665638B1 (en) * | 2000-04-17 | 2003-12-16 | At&T Corp. | Adaptive short-term post-filters for speech coders |
| EP1279167B1 (en) * | 2000-04-24 | 2007-05-30 | QUALCOMM Incorporated | Method and apparatus for predictively quantizing voiced speech |
| KR100861884B1 (ko) * | 2000-06-20 | 2008-10-09 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 정현파 코딩 방법 및 장치 |
| KR100348899B1 (ko) | 2000-09-19 | 2002-08-14 | 한국전자통신연구원 | 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 |
| KR20080099326A (ko) | 2001-01-16 | 2008-11-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 파라메트릭 엔코딩에서 신호 성분들의 링킹 |
| EP1395982B1 (en) * | 2001-04-09 | 2006-04-19 | Koninklijke Philips Electronics N.V. | Adpcm speech coding system with phase-smearing and phase-desmearing filters |
| CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
| US7027979B2 (en) * | 2003-01-14 | 2006-04-11 | Motorola, Inc. | Method and apparatus for speech reconstruction within a distributed speech recognition system |
| JP4355745B2 (ja) * | 2004-03-17 | 2009-11-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化 |
| US8260611B2 (en) * | 2005-04-01 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for highband excitation generation |
| US8155972B2 (en) * | 2005-10-05 | 2012-04-10 | Texas Instruments Incorporated | Seamless audio speed change based on time scale modification |
| US20070083377A1 (en) * | 2005-10-12 | 2007-04-12 | Steven Trautmann | Time scale modification of audio using bark bands |
| FI20060133A0 (fi) * | 2006-02-13 | 2006-02-13 | Juha Ruokangas | Menetelmä ja järjestelmä äänisignaalien modifioimiseksi |
-
2006
- 2006-07-06 EP EP06766032A patent/EP1905009B1/en not_active Not-in-force
- 2006-07-06 RU RU2008105555/09A patent/RU2008105555A/ru not_active Application Discontinuation
- 2006-07-06 DE DE602006009271T patent/DE602006009271D1/de active Active
- 2006-07-06 CN CN200680025590.7A patent/CN101223581A/zh active Pending
- 2006-07-06 WO PCT/IB2006/052291 patent/WO2007007253A1/en not_active Ceased
- 2006-07-06 AT AT06766032T patent/ATE443318T1/de not_active IP Right Cessation
- 2006-07-06 US US11/995,345 patent/US20100131276A1/en not_active Abandoned
- 2006-07-06 ES ES06766032T patent/ES2332108T3/es active Active
- 2006-07-06 JP JP2008521005A patent/JP2009501353A/ja not_active Withdrawn
Also Published As
| Publication number | Publication date |
|---|---|
| EP1905009B1 (en) | 2009-09-16 |
| RU2008105555A (ru) | 2009-08-20 |
| JP2009501353A (ja) | 2009-01-15 |
| US20100131276A1 (en) | 2010-05-27 |
| CN101223581A (zh) | 2008-07-16 |
| ATE443318T1 (de) | 2009-10-15 |
| DE602006009271D1 (de) | 2009-10-29 |
| EP1905009A1 (en) | 2008-04-02 |
| WO2007007253A1 (en) | 2007-01-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES3031957T3 (en) | Audio signal decoder, corresponding method and computer program | |
| CN104871242B (zh) | 在音频信号的不连续传输中具有高频谱时间分辨率的舒缓噪声的生成 | |
| ES2535609T3 (es) | Codificador de audio con estimación de ruido de fondo durante fases activas | |
| JP6417299B2 (ja) | フォワードエイリアシング消去を用いた符号器 | |
| ES2681429T3 (es) | Generación de ruido en códecs de audio | |
| EP3764356A1 (en) | Forward time-domain aliasing cancellation with application in weighted or original signal domain | |
| CN105359211B (zh) | 语音处理的清音/浊音判决方法及装置 | |
| JP6335190B2 (ja) | 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加 | |
| JP2005520217A (ja) | オーディオ復号化装置およびオーディオ復号化方法 | |
| ES2676834T3 (es) | Gestión de la pérdida de trama en un contexto de transición FD/LPD | |
| JP2022174077A (ja) | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム | |
| JP2004053895A (ja) | オーディオ復号装置と復号方法およびプログラム | |
| ES2664391T3 (es) | Aparato, método y programa informático correspondiente para generar una señal de ocultación de error usando compensación de potencia | |
| BRPI0720266A2 (pt) | Dispositivo de decodificação de aúdio e método de ajuste de potência | |
| ES2661919T3 (es) | Aparato, método y programa informático correspondiente para generar una señal de audio de ocultación de error usando representaciones de LPC de sustitución individuales | |
| ES2332108T3 (es) | Sintesis de señal de audio. | |
| CN101176148B (zh) | 编码装置、解码装置和其方法 | |
| ES2588483T3 (es) | Decodificador de audio que comprende un estimador de ruido de fondo | |
| US8000975B2 (en) | User adjustment of signal parameters of coded transient, sinusoidal and noise components of parametrically-coded audio before decoding | |
| JPWO2010103854A1 (ja) | 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 | |
| CN101171626B (zh) | 通过修改残余对声码器内的帧进行时间扭曲 | |
| JP6082126B2 (ja) | 音声信号を合成するための装置及び方法、デコーダ、エンコーダ、システム及びコンピュータプログラム | |
| JP5323144B2 (ja) | 復号装置およびスペクトル整形方法 | |
| JP5127170B2 (ja) | 復号装置およびスペクトル整形方法 | |
| RU2574849C2 (ru) | Устройство и способ для кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра |