ES2380962T3 - Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento - Google Patents
Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento Download PDFInfo
- Publication number
- ES2380962T3 ES2380962T3 ES08001922T ES08001922T ES2380962T3 ES 2380962 T3 ES2380962 T3 ES 2380962T3 ES 08001922 T ES08001922 T ES 08001922T ES 08001922 T ES08001922 T ES 08001922T ES 2380962 T3 ES2380962 T3 ES 2380962T3
- Authority
- ES
- Spain
- Prior art keywords
- filter
- random
- speech
- noise signal
- random noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 206010011878 Deafness Diseases 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000005540 biological transmission Effects 0.000 title description 18
- 238000001914 filtration Methods 0.000 claims description 24
- 238000007493 shaping process Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000011002 quantification Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 101150040636 ELP1 gene Proteins 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 239000000706 filtrate Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 101150101022 ELP2 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- VJYFKVYYMZPMAB-UHFFFAOYSA-N ethoprophos Chemical compound CCCSP(=O)(OCC)SCCC VJYFKVYYMZPMAB-UHFFFAOYSA-N 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Analogue/Digital Conversion (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Un procedimiento de descodificación de segmentos del habla sordos, que comprende: recuperar (606) un grupo de ganancias cuantificadas usando índices recibidos asociados a una pluralidad de subtramas; generar (608) una señal de ruido aleatorio que comprende números aleatorios asociados a cada una de la pluralidad de subtramas; seleccionar (608) un porcentaje predeterminado de los números aleatorios de mayor amplitud de la señal de ruido aleatorio asociados a cada una de la pluralidad de subtramas; ajustar a escala (610) los números aleatorios de mayor amplitud seleccionados por las ganancias recuperadas asociadas a cada subtrama para producir una señal de ruido aleatorio ajustada a escala. filtrar (612) un paso banda y conformar la señal de ruido aleatorio ajustada a escala; y seleccionar (616) un segundo filtro basado en un indicador de selección de filtros recibidos y conformar además la señal de ruido aleatorio ajustada a escala con el filtro seleccionado.
Description
Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento
Antecedentes
I. Campo de la invención
Las realizaciones dadas a conocer se refieren al campo del procesamiento del habla. Más en particular, las realizaciones dadas a conocer se refieren a un procedimiento y un aparato novedosos y mejorados para codificación de baja tasa de transmisión de bits de segmentos sordos del habla.
II. Antecedentes
La transmisión de voz mediante técnicas digitales se ha generalizado, en particular en aplicaciones telefónicas de radio digital y larga distancia. Esto, a su vez, ha creado interés en determinar la mínima cantidad de información que puede enviarse a través de un canal mientras se mantiene la calidad percibida del habla reconstruida. Si el habla se transmite simplemente muestreando y digitalizando, se requiere una tasa de transmisión de datos del orden de sesenta y cuatro kilobits por segundo (kbps) para conseguir la calidad del habla del teléfono analógico convencional. Sin embardo, mediante el uso del análisis del habla, seguido por la codificación, transmisión y resíntesis apropiadas en el receptor, puede conseguirse una reducción significativa en la tasa de transmisión de datos.
Los dispositivos que emplean técnicas para comprimir el habla extrayendo parámetros que se refieren a un modelo de generación del habla humana se denominan codificadores del habla. Un codificador del habla divide la señal de habla entrante en bloques de tiempo, o tramas de análisis. Los codificadores del habla comprenden normalmente un codificador y un descodificador, o un códec. El codificador analiza la trama de habla entrante para extraer ciertos parámetros pertinentes, y entonces cuantifica los parámetros en una representación binaria, es decir, en un conjunto de bits o un paquete de datos binarios. Los paquetes de datos se transmiten a través del canal de comunicación a un receptor y un descodificador. El descodificador procesa los paquetes de datos, los descuantifica para producir los parámetros, y entonces resintetiza las tramas de habla utilizando los parámetros descuantificados.
La función del codificador del habla es comprimir la señal de habla digitalizada en una señal de baja tasa de transmisión de bits eliminando todas las redundancias naturales intrínsecas del habla. La compresión digital se consigue representando la trama de habla de entrada con un conjunto de parámetros y empleando cuantificación para representar los parámetros con un conjunto de bits. Si la trama de habla de entrada tiene un número de bits N1 y el paquete de datos producido por el codificador del habla tiene un número de bits N0, el factor de compresión conseguido por el codificador del habla es Cr = N1/N0. El reto es mantener una alta calidad de voz del habla descodificada mientras se consigue el factor de compresión objetivo. El rendimiento de un codificador del habla depende de (1) cómo de bien se realice el modelo del habla, o la combinación del proceso de análisis y síntesis descrito anteriormente, y (2) cómo de bien se realice el proceso de cuantificación de parámetros a la tasa de transmisión de bits objetivo de N0 bits por trama. Por tanto, el objetivo del modelo del habla es capturar la esencia de la señal de habla, o la calidad de voz objetivo, con un pequeño conjunto de parámetros para cada trama.
Los codificadores del habla pueden implementarse como codificadores en el dominio del tiempo, que intentan capturar la forma de onda del habla en el dominio del tiempo empleando procesamiento de alta resolución en el tiempo para codificar pequeños segmentos del habla (normalmente subtramas de 5 milisegundos (ms)) cada vez. Para cada subtrama, se encuentra una alta precisión representativa de un espacio de libro de código por medio de diversos algoritmos de búsqueda conocidos en la técnica. Como alternativa, los codificadores del habla pueden implementarse como codificadores en el domino de la frecuencia, que intentan capturar el espectro del habla a corto plazo de la trama de habla de entrada con un conjunto de parámetros (análisis) y emplean un proceso de síntesis correspondiente para recrear la forma de onda del habla a partir de los parámetros espectrales. El cuantificador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de código según técnicas de cuantificación conocidas descritas en A. Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992).
Un codificador del habla en el dominio del tiempo ampliamente conocido es el codificador Predictivo Lineal Excitado por Código (CELP) descrito en L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978), que está incorporado en su totalidad en el presente documento por referencia. En un codificador CELP, las correlaciones a corto plazo, o redundancias, en la señal de habla se eliminan mediante un análisis de predicción lineal (LP), que encuentra los coeficientes de un filtro formante a corto plazo. Aplicar el filtro de predicción a corto plazo a la trama de habla entrante genera una señal de residuo LP, que se modela y cuantifica adicionalmente con parámetros de filtro de predicción a largo plazo y un libro de código estocástico posterior. Por tanto, la codificación CELP divide la tarea de codificar la forma de onda del habla en el dominio del tiempo en las tareas separadas de codificación de los coeficientes de filtro a corto plazo LP y codificar el residuo LP. La codificación en el dominio del tiempo puede realizarse a una tasa fija (es decir, utilizando el mismo número de bits, N0, para cada trama) o a una tasa variable (en la que se utilizan diferentes tasas de transmisión de bits para diferentes tipos de contenidos de trama). Los codificadores de tasa variable intentan utilizar sólo la cantidad de bits necesaria para codificar los
parámetros de códec a un nivel adecuado para obtener una calidad objetivo. Un codificador CELP de tasa variable ejemplar se describe en la patente estadounidense n.º 5.414.796, que está transferida al cesionario de las realizaciones dadas a conocer actualmente e incorporada en su totalidad en el presente documento por referencia.
Los codificadores en el dominio del tiempo tales como el codificador CELP se basan normalmente en un alto número de bits, N0, por trama para conservar la precisión de la forma de onda del habla en el dominio del tiempo. Normalmente tales codificadores proporcionan una calidad de voz excelente dado el número de bits, N0, por trama relativamente grande (por ejemplo, 8 kbps o superior). Sin embargo, a bajas tasas de transmisión de bits (4 kbps e inferiores), los codificadores en el dominio del tiempo no conservan la alta calidad y el rendimiento robusto debido al número limitado de bits disponibles. A bajas tasas de transmisión de bits, el espacio de libro de código limitado recorta la capacidad de ajuste de forma de onda de codificadores en el dominio del tiempo convencionales, que se utilizan tan satisfactoriamente en aplicaciones comerciales de tasa superior.
Normalmente, los esquemas CELP emplean un filtro de predicción a corto plazo (STP) y un filtro de predicción a largo plazo (LTP). Se emplea un enfoque de Análisis por Síntesis (AbS) en un codificador para encontrar los retardos y ganancias LTP, así como los mejores índices y ganancias de libro de código estocástico. Los codificadores CELP del estado de la técnica actual tales como el Codificador de Tasa Variable Mejorada (EVRC) pueden conseguir habla sintetizada de buena calidad a una tasa de transmisión de datos de aproximadamente 8 kilobits por segundo.
También se conoce que el habla sorda no muestra periodicidad. El ancho de banda consumido que codifica el filtro LTP en los esquemas CELP convencionales no se utiliza tan eficazmente para habla sorda como para habla sonora, en la que la periodicidad del habla es fuerte y el filtrado LTP es significativo. Por lo tanto, es deseable un esquema de codificación más eficaz (es decir tasa de transmisión de bits inferior) para habla sorda.
Para codificar a tasas de transmisión de bits inferiores, se han desarrollado diversos procedimientos de codificación espectral del habla, o en el dominio de la frecuencia, en los que la señal de habla se analiza como una evolución variable en el tiempo de espectros. Véase, por ejemplo, R.J. McAulay & T.F. Quatieri, Sinusoidal, Coding, in Speech Coding and Synthesis ch. 4 (W.B. Kleijn & K.K. Paliwal eds., 1995). En codificadores espectrales, el objetivo es modelar, o predecir, el espectro del habla a corto plazo de cada trama de entrada de habla con un conjunto de parámetros espectrales, en lugar de imitar con precisión la forma de onda del habla variable en el tiempo. Entonces se codifican los parámetros espectrales y se crea una trama de habla de salida con los parámetros descodificados. El habla resultante sintetizada no coincide con la forma de onda del habla de entrada original, aunque ofrece una calidad percibida similar. Ejemplos de codificadores en el dominio de la frecuencia que son bien conocidos en la técnica incluyen codificadores de excitación multibanda (MBE), codificadores de transformación sinusoidal (STC) y codificadores de armónicos (HC). Tales codificadores en el dominio de la frecuencia ofrecen un modelo paramétrico de alta calidad que presenta un conjunto de parámetros compacto que puede cuantificarse con precisión con el bajo número de bits disponibles a bajas tasas de transmisión de bits.
Sin embargo, la codificación a baja tasa de transmisión de bits impone la limitación crítica de una resolución de codificación limitada, o un espacio de libro de código limitado, que limita la efectividad de un único mecanismo de codificación, haciendo que el codificador no pueda representar diversos tipos de segmentos del habla bajo diversas condiciones de fondo con igual precisión. Por ejemplo, los codificadores en el dominio de la frecuencia, de baja tasa de transmisión de bits, convencionales no transmiten información de fase para tramas del habla. En su lugar, la información de fase se reconstruye utilizando un valor de fase inicial, aleatorio, generado artificialmente y técnicas de interpolación lineal. Véase, por ejemplo, H. Yang et al., Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model, in 29 Electronic Letters 856-57 (mayo de 1993). Debido a que la información de fase se genera artificialmente, incluso aunque las amplitudes de las senoides se conserven perfectamente mediante el proceso de cuantificación-descuantificación, el habla de salida producida por el codificador en el dominio de la frecuencia no estará alineada con el habla de entrada original (es decir, los pulsos principales no estarán en sincronización). Por lo tanto ha resultado difícil adoptar cualquier medida de rendimiento en bucle cerrado, tal como, por ejemplo, relación señal-ruido (SNR) o SNR perceptiva, en codificadores en el dominio de la frecuencia.
Una técnica efectiva para codificar habla eficazmente a baja tasa de transmisión de bits es la codificación multimodo. Se han empleado técnicas de codificación multimodo para realizar codificación del habla a baja tasa conjuntamente con un proceso de decisión de modo de bucle abierto. Una técnica de codificación multimodo de este tipo se describe en Arnitava Das et al., Multimode and Variable-Rate Coding of Speech, in Speech Coding and Synthesis ch. 7 (W.B. Kleijn & K.K. Paliwal eds., 1995). Los codificadores multimodo convencionales aplican diferentes modos, o algoritmos de codificación-descodificación, a diferentes tipos de tramas de habla de entrada. Cada modo, o proceso de codificación-descodificación, se adapta para representar un cierto tipo de segmento del habla, tal como, por ejemplo, habla sonora, habla sorda, o ruido de fondo (no habla) de la manera más eficaz. Un mecanismo de decisión de modo de bucle abierto examina la trama de habla de entrada y toma una decisión con respecto a qué modo aplicar a la trama. La decisión de modo de bucle abierto normalmente se realiza extrayendo un número de parámetros de la trama de entrada, evaluando los parámetros para ciertas características temporales y espectrales, y basando una decisión de modo en la evaluación. La decisión de modo se realiza por tanto sin conocer de antemano la condición exacta del habla de salida, es decir, cómo de cerca estará el habla de salida del habla de entrada en cuanto a calidad de voz u otras mediciones de rendimiento. Un modo de decisión de bucle abierto 3 10
ejemplar para un códec del habla se describe en la patente estadounidense n.º 5.414.796, que fue transferida al cesionario de las realizaciones dadas a conocer actualmente e incorporada en su totalidad en el presente documento por referencia.
La codificación multimodo puede ser a tasa fija, utilizando el mismo número de bits N0 para cada trama, o a tasa variable, en la que se utilizan diferentes tasas de transmisión de bits para diferentes modos. El objetivo en la codificación a tasa variable es utilizar sólo la cantidad de bits necesaria para codificar los parámetros de códec a un nivel adecuado para obtener la calidad objetivo. Como resultado, puede obtenerse la misma calidad de voz objetivo que la de un codificador de tasa superior, a tasa fija, a una tasa promedio inferior significativa utilizando técnicas de tasa de transmisión de bits variable (VBR). Un codificador del habla de tasa variable ejemplar se describe en la patente estadounidense n.º 5.414.796, transferida al cesionario de las realizaciones dadas a conocer actualmente y previamente incorporada en su totalidad en el presente documento por referencia.
Actualmente hay un aumento del interés en la investigación y necesidades comerciales fuertes para desarrollar un codificador del habla de alta calidad que opere a medias a bajas tasas de transmisión de bits (es decir, en el intervalo de 2,4 a 4 kbps y por debajo). Las áreas de aplicación incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía por Internet, diversas aplicaciones multimedia y de flujo continuo (streaming) de voz, correo de voz, y otros sistemas de almacenamiento de voz. Las fuerzas conductoras son la necesidad de alta capacidad y la demanda de rendimiento robusto en situaciones de pérdida de paquetes. Los diversos esfuerzos recientes de estandarización de la codificación del habla son otra fuerza conductora directa que impulsa la investigación y el desarrollo de algoritmos de codificación del habla a baja tasa. Un codificador del habla de baja tasa crea más canales, o usuarios, por ancho de banda de aplicación permisible, y un codificador del habla de baja tasa acoplado con una capa adicional de codificación de canal adecuada puede adecuarse al presupuesto de bits global de especificaciones de codificadores y proporcionar un rendimiento robusto en condiciones de errores de canales.
Por lo tanto, la codificación del habla VBR multimodo es un mecanismo efectivo para codificar habla a baja tasa de transmisión de bits. Los esquemas multimodo convencionales requieren el diseño de esquemas, o modos, de codificación eficaces para diversos segmentos del habla (por ejemplo, sordo, sonoro, transición) así como un modo para ruido de fondo, o silencio. El rendimiento global del codificador del habla depende de cómo se comporte cada modo, y la tasa promedio del codificador depende de las tasas de transmisión de bits de los diferentes modos para segmentos del habla sordos, sonoros y otros. Con el fin de conseguir la calidad objetivo a una tasa promedio baja, es necesario diseñar modos de alto rendimiento, eficaces, algunos de los cuales deben trabajar a bajas tasas de transmisión de bits. Normalmente, los segmentos del habla sonoros y sordos se capturan a altas tasas de transmisión de bits, y los segmentos de ruido de fondo y de silencio se representan con modos que trabajan a una tasa significativamente inferior. Por tanto, existe una necesidad de una técnica de codificación a baja tasa de transmisión de bits de alto rendimiento que capture con precisión un alto porcentaje de segmentos del habla sordos mientras que utiliza un número de bits por trama mínimo.
Adicionalmente se llama la atención sobre el documento WO 00/30074, que da a conocer una técnica de codificación a baja tasa de transmisión de bits para segmentos del habla sordos, incluyendo las etapas de extraer coeficientes de energía de alta resolución en el tiempo de una trama de habla, cuantificar los coeficientes de energía, generar una envolvente de energía de alta resolución en el tiempo a partir de los coeficientes de energía cuantificados, y reconstruir una señal residual conformando un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía. La envolvente de energía puede generarse con una técnica de interpolación lineal. Puede obtenerse una medición de postprocesamiento y comparase con un umbral predefinido para determinar si el algoritmo de codificación se está comportado adecuadamente.
Sumario
Según la presente invención, se proporciona un procedimiento para descodificar segmentos del habla sordos, como se exponen en la reivindicación 1, y un descodificador, como se expone en la reivindicación 9. En las reivindicaciones dependientes se describen realizaciones de la invención.
Las realizaciones dadas a conocer se dirigen a una técnica de codificación a baja tasa de transmisión de bits de alto rendimiento que captura con precisión segmentos del habla sordos mientras que utiliza un número de bits por trama mínimo. Por consiguiente, en un aspecto de la invención, un procedimiento de descodificación de segmentos del habla sordos incluye recuperar un grupo de ganancias cuantificadas utilizando índices recibidos para una pluralidad de subtramas; generar una señal de ruido aleatorio que comprende números aleatorios para cada una de la pluralidad de subtramas; seleccionar un porcentaje predeterminado de los números aleatorios de mayor amplitud de la señal de ruido aleatorio para cada una de la pluralidad de subtramas; ajustar a escala los números aleatorios de mayor amplitud seleccionados mediante las ganancias recuperadas para cada subtrama para producir una señal de ruido aleatorio ajustada a escala; filtrar paso banda y conformar la señal de ruido aleatorio ajustada a escala; y seleccionar un segundo filtro basándose en un indicador de selección de filtro recibido y conformar adicionalmente la señal de ruido aleatorio ajustada a escala con el filtro seleccionado.
Breve descripción de los dibujos
Las características, objetos, y ventajas de las realizaciones dadas a conocer resultarán más evidentes a partir de la descripción detallada expuesta a continuación tomada conjuntamente con los dibujos, en los que caracteres de referencia similares identifican lo mismo en todo el documento y en los que:
La figura 1 es un diagrama de bloques de un canal de comunicación que termina en cada extremo con codificadores del habla;
La figura 2A es un diagrama de bloques de un codificador que puede utilizarse en un codificador del habla de baja tasa de transmisión de bits de alto rendimiento;
La figura 2B es un diagrama de bloques de un descodificador que puede utilizarse en un codificador del habla de baja tasa de transmisión de bits de alto rendimiento;
La figura 3 ilustra un codificador del habla sorda de baja tasa de transmisión de bits de alto rendimiento que podría utilizarse en el codificador de la figura 2A;
La figura 4 ilustra un descodificador del habla sorda de baja tasa de transmisión de bits de alto rendimiento que podría utilizarse en el descodificador de la figura 2B;
La figura 5 es un diagrama de flujo que ilustra etapas de codificación de una técnica de codificación a baja tasa de transmisión de bits de alto rendimiento para habla sorda;
La figura 6 es un diagrama de flujo que ilustra etapas de descodificación de una técnica de codificación a baja tasa de transmisión de bits de alto rendimiento para habla sorda;
La figura 7A es un gráfico de una respuesta en frecuencia de un filtrado paso bajo para su uso en análisis de energía de banda;
La figura 7B es un gráfico de una respuesta en frecuencia de un filtrado paso alto para su uso en análisis de energía de banda;
La figura 8A es un gráfico de una respuesta en frecuencia de un filtro paso banda para su uso en un filtrado perceptivo;
La figura 8B es un gráfico de una respuesta en frecuencia de un filtro de conformación preliminar para su uso en un filtrado perceptivo;
La figura 8C es un gráfico de una respuesta en frecuencia de un filtro de conformación que puede utilizarse en un filtrado perceptivo final; y
La figura 8D es un gráfico de una respuesta en frecuencia de otro filtro de conformación que puede utilizarse en un filtrado perceptivo final.
Descripción detallada de las realizaciones preferidas
Las realizaciones dadas a conocer proporcionan un procedimiento y un aparato para codificación de habla sorda a baja tasa de transmisión de bits de alto rendimiento. Las señales de habla sorda se digitalizan y convierten en tramas de muestras. Cada trama de habla sorda se filtra mediante un filtro de predicción a corto plazo para producir bloques de señales a corto plazo. Cada trama se divide en múltiples subtramas. Entonces se calcula una ganancia para cada subtrama. Estas ganancias posteriormente se cuantifican y transmiten. Entonces, se genera y se filtra un bloque de ruido aleatorio mediante los procedimientos descritos en detalle posteriormente. Este ruido aleatorio filtrado se ajusta a escala mediante las ganancias de subtrama cuantificadas para formar una señal cuantificada que representa la señal a corto plazo. En un descodificador se genera y se filtra una trama de ruido aleatorio de la misma manera que el ruido aleatorio en el codificador. El ruido aleatorio filtrado en el descodificador entonces se ajusta a escala mediante las ganancias de subtrama recibidas, y se pasa a través de un filtro de predicción a corto plazo para formar una trama de habla sintetizada que representa las muestras originales.
Las realizaciones dadas a conocer presentan una técnica de codificación novedosa para una variedad de habla sorda. A 2 kilobits por segundo, el habla sorda sintetizada es equivalente perceptivamente a la producida por los esquemas CELP convencionales que requieren tasas de transmisión de datos mucho más altas. Un alto porcentaje (aproximadamente el veinte por ciento) de segmentos de habla sorda pueden codificarse según las realizaciones dadas a conocer.
En la figura 1 un primer codificador 10 recibe muestras del habla digitalizadas s(n) y codifica las muestras s(n) para su transmisión sobre un medio 12 de transmisión, o canal 12 de comunicación, a un primer descodificador 14. El descodificador 14 descodifica las muestras del habla codificadas y sintetiza una señal de habla de salida SSYNTH(n). Para la transmisión en sentido opuesto, un segundo codificador 16 codifica muestras del habla digitalizadas s(n),
que se transmiten sobre un canal 18 de comunicación. Un segundo descodificador 20 recibe y descodifica las muestras del habla codificadas, generando una señal de habla de salida sintetizada SSYNTH(n).
Las muestras del habla, s(n), representan señales de habla que se han digitalizado y cuantificado según cualquiera de diversos procedimientos conocidos en la técnica entre los que se incluyen, por ejemplo, modulación de código de pulso (PCM), µ-law o A-law comprimido-expandido. Como se conoce en la técnica, las muestras del habla, s(n), se organizan en tramas de datos de entrada en las que cada trama comprende un número predeterminado de muestras del habla digitalizadas s(n). En una realización ejemplar, se emplea una tasa de muestreo de 8 kHz, con cada trama de 20 ms comprendiendo 160 muestras. En las realizaciones descritas posteriormente, la tasa de transmisión de datos puede variar de trama a trama desde 8 kbps (tasa completa) a 4 kbps (media tasa) a 2 kbps (cuarto de tasa) a 1 kbps (octavo de tasa). Como alternativa, pueden utilizarse otras tasas de transmisión de datos. Como se utiliza en el presente documento, los términos "tasa completa" o "alta tasa" se refieren en general a tasas de transmisión de datos que son mayores o iguales a 8 kbps, y los términos "media tasa" o "baja tasa" se refieren en general a tasas de transmisión de datos que son menores o iguales a 4 kbps. Variar la tasa de transmisión de datos es beneficioso porque pueden emplearse selectivamente tasas de transmisión de bits inferiores para tramas que contienen relativamente menos información de habla. Como entienden los expertos en la técnica, pueden utilizarse otras tasas de muestreo, tamaños de trama, y tasas de transmisión de datos.
El primer codificador 10 y el segundo descodificador 20 comprenden juntos un primer codificador del habla, o códec del habla. De manera similar, el segundo codificador 16 y el primer descodificador 14 comprenden juntos un segundo codificador del habla. Los expertos en la técnica entienden que los codificadores del habla pueden implementarse con un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), lógica de puertas discreta, firmware, o cualquier módulo de software programable convencional y un microprocesador. El módulo de software podría residir en memoria RAM, memoria flash, registros, o cualquier otra forma de medio de almacenamiento de escritura conocido en la técnica. Como alternativa, cualquier procesador, controlador, o máquina de estado convencionales podría sustituirse por el microprocesador. ASIC ejemplares diseñados específicamente para codificación del habla se describen en la patente estadounidense n.º 5.727.123, transferida al cesionario de las realizaciones dadas a conocer actualmente e incorporada en su totalidad en el presente documento por referencia, y la patente estadounidense nº 5.784.532, titulada APPLICATION SPECIFIC INTEGRATED CIRCUIT (ASIC) FOR PERFORMING RAPID SPEECH COMPRESSION IN A MOBILE TELEPHONE SYSTEM, transferida al cesionario de las realizaciones dadas a conocer actualmente e incorporada en su totalidad en el presente documento por referencia.
La figura 2A es un diagrama de bloques de un codificador, ilustrado en la figura (10, 16), que puede emplear las realizaciones dadas a conocer actualmente. Una señal de habla, s(n), se filtra mediante un filtro 200 de predicción a corto plazo. El habla en sí misma, s(n) y/o la señal residual de predicción lineal r(n) a la salida del filtro 200 de predicción a corto plazo proporcionan la entrada a un clasificador 202 del habla.
La salida del clasificador 202 del habla proporciona la entrada a un conmutador 203 permitiendo el conmutador 203 seleccionar un codificador (204,206) de modo correspondiente basándose en un modo clasificado del habla. Un experto en la técnica entendería que el clasificador 202 del habla no se limita a clasificación de habla sonora y sorda y que también puede clasificar transición, ruido de fondo (silencio), u otros tipos de habla.
El codificador 204 de habla sonora codifica el habla sonora mediante cualquier procedimiento convencional tal como por ejemplo, CELP o interpolación de forma de onda prototipo (PWI).
El codificador 205 de habla sorda codifica el habla sorda a una baja tasa de transmisión de bits según las realizaciones descritas posteriormente. El codificador 206 de habla sorda se describe en detalle con referencia a la figura 3 según una realización.
Después de la codificación mediante o bien el codificador 204 o bien el codificador 206, un multiplexor 208 forma un flujo de bits por paquetes que comprende paquetes de datos, modo del habla, y otros parámetros codificados para la transmisión.
La figura 2B es un diagrama de bloques de un descodificador, ilustrado in la figura 1 (14, 20), que puede emplear las realizaciones dadas a conocer actualmente.
El demultiplexor 210 recibe un flujo de bits por paquetes, demultiplexa datos del flujo de bits, y recupera paquetes de datos, el modo del habla, y otros parámetros codificados.
La salida del demultiplexor 210 proporciona la entrada a un conmutador 211 permitiendo el conmutador 211 seleccionar un descodificador (212, 214) de modo correspondiente basándose en un modo clasificado del habla. Un experto en la técnica entendería que el conmutador 211 no se limita a modos de habla sonora y sorda y también puede reconocer transición, ruido de fondo (silencio) u otros tipos de habla.
El descodificador 212 de habla sonora descodifica el habla sonora realizando las operaciones inversas del codificador 204 sonoro.
En una realización, el descodificador 214 de habla sorda descodifica el habla sorda transmitida a una baja tasa de transmisión de bits como se describe posteriormente en detalle con referencia a la figura 4.
Después de la descodificación mediante o bien el descodificador 212 o bien el descodificador 214, se filtra una señal residual de predicción lineal sintetizada mediante un filtro 216 de predicción a corto plazo. El habla sintetizada en la salida del filtro 216 de predicción a corto plazo se pasa a un procesador 218 postfiltro para generar el habla de salida final.
La figura 3 es un diagrama de bloques detallado del codificador 206 del habla sorda de baja tasa de transmisión de bits de alto rendimiento ilustrado en la figura 2A. La figura 3 detalla el aparato y la secuencia de operaciones de una realización del codificador sordo.
Las muestras del habla digitalizadas, s(n), se introducen al analizador 302 de codificación predictiva lineal (LPC) y al filtro 304 LPC. El analizador 302 LPC produce coeficientes predicativos lineales (LP) de las muestras del habla digitalizadas. El filtro 304 LPC produce una señal residual de habla, r(n), que se introduce al componente 306 de cálculo de ganancia y al analizador 314 de energía de banda no ajustada a escala.
El componente 306 de cálculo de ganancia divide cada trama de muestras del habla digitalizadas en subtramas, calcula un conjunto de ganancias de libro de código, a las que se hace referencia en lo sucesivo en el presente documento como ganancias o índices, para cada subtrama, divide las ganancias en subgrupos, y normaliza las ganancias de cada subgrupo. La señal residual de habla r(n), n=0,...,N-1, se segmenta en K subtramas, donde N es el número de muestras residuales en una trama. En una realización, K=10 y N=160. Se calcula una ganancia, G(i), i=0,...,K-1, para cada subtrama como sigue:
y
El cuantificador 308 de ganancia cuantifica las K ganancias, y posteriormente se transmite el índice de libro de código de ganancia para las ganancias. La cuantificación puede realizarse utilizando esquemas de cuantificación de vectores o lineal convencionales, o cualquier variante. Un esquema realizado es la cuantificación de vectores de múltiples etapas.
La salida de señal residual del filtro 304 LPC, r(n), se pasa a través de un filtro paso bajo y un filtro paso alto en el analizador 314 de energía de banda no ajustada a escala. Los valores de energía de r(n), E1, Elp1, y Ehp1, se calculan para la señal residual, r(n). E1 es la energía en la señal residual, r(n). Elp1 es la energía de banda baja en la señal residual, r(n). Ehp1 es la energía de banda alta en la señal residual, r(n). Las respuesta en frecuencia de los filtros paso bajo y paso alto del analizador 314 de energía de banda no ajustada a escala, en una realización, se muestran en la figura 7A y en la figura 7B, respectivamente. Los valores de energía E1, Elp1, y Ehp1 se calculan como sigue:
Los valores de energía E1, Elp1, y Ehp1 se utilizan posteriormente para seleccionar filtros de conformación en el filtro 316 de conformación final para procesar una señal de ruido aleatorio de modo que la señal de ruido aleatorio se 5 parezca lo más posible a la señal residual original.
El generador 310 de números aleatorios genera números aleatorios uniformemente distribuidos, con varianza unidad, entre -1 y 1 para cada una de las K subtramas emitidas por el analizador 302 LPC. El selector 312 de números aleatorios selecciona entre una mayoría de los números aleatorios de baja amplitud en cada subtrama. Se retiene una fracción de los números aleatorios de mayor amplitud para cada subtrama. En una realización, la
10 fracción de números aleatorios retenida es del 25%.
La salida de números aleatorios para cada subtrama del selector 312 de números aleatorios se multiplica entonces
por las respectivas ganancias cuantificadas de la subtrama, emitidas desde el cuantificador 308 de ganancia, mediante el multiplicador 307. La salida de señal aleatoria ajustada a escala del multiplicador 307, r1(n), se procesa entonces mediante filtrado perceptivo.
15 Para mejorar la calidad perceptiva y mantener la naturalidad del habla sorda cuantificada, se realiza un proceso de filtrado perceptivo de dos etapas sobre la señal aleatoria ajustada a escala, r1(n).
En la primera etapa del proceso de filtrado perceptivo, la señal aleatoria ajustada a escala r1(n) se pasa a través de dos filtros fijos en el filtro 318 perceptivo. El primer filtro fijo del filtro 318 perceptivo es un filtro 320 paso banda que
20 elimina las frecuencias del extremo bajo y el extremo alto de r1(n) para producir la señal r2(n). La respuesta en frecuencia del filtro 320 paso banda, en una realización, se ilustra en la figura 8A. El segundo filtro fijo del filtro 318 perceptivo es el filtro 322 de conformación preliminar. La señal, r2(n), calculada por el elemento 320, se pasa a través del filtro 322 de conformación preliminar para producir la señal r3(n). La respuesta en frecuencia del filtro 322 de conformación preliminar, en una realización, se ilustra en la figura 8B.
25 Las señales r2(n), calculada por el elemento 320, yr3(n), calculada por el elemento 322, se calculan como sigue:
La energía de las señales r2(n) y r3(n) se calcula como E2 y E3 respectivamente. E2 y E3 se calculan como sigue:
y
En la segunda etapa del proceso de filtrado perceptivo, la señal r3(n), emitida desde el filtro 322 de conformación preliminar, se ajusta a escala para tener la misma energía que la señal residual original r(n), emitida desde el filtro 304 LPC, basándose en E1 y E3.
En el analizador 324 de energía de banda ajustada a escala, la señal aleatoria ajustada a escala y filtrada, r3(n), calculada por el elemento (322), se somete al mismo análisis de energía de banda realizado previamente sobre la señal residual original, r(n), mediante el analizador 314 de energía de banda no ajustada a escala.
La señal, r3(n), calculada por el elemento 322, se calcula como sigue:
La energía de banda paso bajo de r3(n), se indica como Elp2, y la energía de banda paso alto de r3(n) se indica como
Ehp2. La energía de banda alta y banda baja de r3(n) se comparan con las energías de banda alta y banda baja de r(n) para determinar el siguiente filtro de conformación a utilizar en el filtro 316 de conformación final. Basándose en la comparación de r(n) y r3(n), se elige o bien ningún filtrado adicional, o bien uno de dos filtros de conformación fijos para producir la coincidencia más próxima entre r(n) y r3(n). La forma de filtro final (o ningún filtrado adicional) se determina comparando la energía de banda en la señal original con la energía de banda en la señal aleatoria.
La relación, Rl, de la energía de banda baja de la señal original con la energía de banda baja de señal aleatoria prefiltrada ajustada a escala se calcula como sigue:
La relación, Rh, de la energía de banda alta de la señal original con la energía de banda alta de señal aleatoria prefiltrada ajustada a escala se calcula como sigue:
Si la relación Rl es inferior a -3, se utiliza un filtro de conformación final paso alto (filtro 2) para procesar adicionalmente r
3(n) para producir rn).
Si la relación Rh es inferior a -3, se utiliza un filtro de conformación final paso bajo (filtro 3) para procesar adicionalmente r
3(n) para producir r(n).
En caso contrario, no se realiza ningún procesamiento adicional de r
3(n), de modo que r(n) = r3(n).
La salida del filtro 316 de conformación final es la señal residual aleatoria cuantificada r
(n). La señal r(n) se ajusta a escala para tener la misma energía que r2(n).
La respuesta en frecuencia del filtro de conformación final paso alto (filtro 2) se muestra en la figura 8C. La respuesta en frecuencia del filtro de conformación final paso bajo (filtro 3) se muestra en la figura 8D.
Se genera un indicador de selección de filtro para indicar qué filtro (filtro 2, filtro 3, o ningún filtro) se seleccionó para el filtrado final. El indicador de selección de filtro se transmite posteriormente de modo que un descodificador pueda reproducir el filtrado final. En una realización, el indicador de selección de filtro consiste en dos bits.
La figura 4 es un diagrama de bloques detallado del descodificador 214 del habla sorda de baja tasa de transmisión de bits de alto rendimiento ilustrado en la figura 2. La figura 4 detalla el aparato y la secuencia de operaciones de una realización del descodificador de habla sorda. El descodificador de habla sorda recibe paquetes de datos sordos y sintetiza habla sorda a partir de los paquetes de datos realizando las operaciones inversas del codificador 206 de habla sorda ilustrado en la figura 2.
Los paquetes de datos sordos se introducen al descuantificador 406 de ganancia. El descuantificador 406 de ganancia realiza la operación inversa del cuantificador 308 de ganancia en el codificador sordo ilustrado en la figura
3. La salida del descuantificador 406 de ganancia es K ganancias sordas cuantificadas.
El generador 402 de número aleatorios y el selector 404 de números aleatorios realizan exactamente las mismas operaciones que el generador 310 de números aleatorios y el selector 312 de números aleatorios en el codificador sordo de la figura 3.
La salida de números aleatorios para cada subtrama del selector 404 de números aleatorios se multiplica entonces
por la respectiva ganancia cuantificada de la subtrama, emitida desde el descuantificador 406 de ganancia, mediante el multiplicador 405. La salida de señal aleatoria ajustada a escala del multiplicador 405, r1(n), se procesa entonces mediante un filtrado perceptivo.
Se realiza un proceso de filtrado perceptivo de dos etapas idéntico al proceso de filtrado perceptivo del codificador sordo de la figura 3. El filtro 408 perceptivo realiza exactamente las mismas operaciones que el filtro 318 perceptivo en el codificador sordo de la figura 3. La señal aleatoria r1(n) se pasa a través de dos filtros fijos en el filtro 408 perceptivo. El filtro 407 paso banda y el filtro 409 de conformación preliminar son exactamente iguales que el filtro 320 paso banda y el filtro 322 de conformación preliminar utilizados en el filtro 318 perceptivo en el codificador sordo de la figura 3. Las salidas después del filtro 407 paso banda y el filtro 409 de conformación preliminar se indican como r2(n) yr3(n), respectivamente. Las señales r2(n) yr3(n) se calculan igual que en el codificador sordo de la figura
3.
La señal r3(n) se filtra en el filtro 410 de conformación final. El filtro 410 de conformación final es idéntico al filtro 316 de conformación final en el codificador sordo de la figura 3. El filtro 410 de conformación final realiza o bien conformación final paso alto, conformación final paso bajo, o bien no se realiza ningún filtrado final adicional, según determine el indicador de selección de filtro generado en el codificador sordo de la figura 3 y recibido en el paquete de bits de datos en La señal residual cuantificada de salida,
el descodificador 214. r(n), del filtro 410 de conformación final se ajusta a escala para que tenga la misma energía que r2(n).
La señal aleatoria cuantificada, r
(n), se filtra mediante el filtro 412 de síntesis LPC para generar la señal de habla sintetizada, s(n).
Un postfiltro 414 posterior podría aplicarse a la señal de habla sintetizada, s(n), para generar el habla de salida final.
La figura 5 es un diagrama de flujo que ilustra las etapas de codificación de una técnica de codificación a baja tasa de transmisión de bits de alto rendimiento para habla sorda.
En la etapa 502, a un codificador de habla sorda (no mostrado) se proporciona una trama de datos muestras del habla digitalizadas sordas. Se proporciona una nueva trama cada 20 milisegundos. En una realización, en la que el habla sorda se muestrea a una tasa de 8 kilobits por segundo, una trama contiene 160 muestras. El flujo de control avanza hasta la etapa 504.
En la etapa 504, la trama de datos se filtra mediante un filtro LPC, produciendo una trama de señal residual. El flujo de control avanza hasta la etapa 506.
Las etapas 506 a 516 describen etapas de procedimiento para el cálculo y la cuantificación de ganancia de una trama de señal residual.
La trama de señal residual se divide en subtramas en la etapa 506. En una realización, cada trama se divide en diez subtramas de dieciséis muestras cada una. El flujo de control avanza hasta la etapa 508.
En la etapa 508, se calcula una ganancia para cada subtrama. En una realización se calculan ganancias de diez subtramas. El flujo de control avanza hasta la etapa 510.
En la etapa 510, las ganancias de subtrama se dividen en subgrupos. En una realización, 10 ganancias de subtrama se dividen en dos subgrupos de cinco ganancias de subtrama cada uno. El flujo de control avanza hasta la etapa
512.
En la etapa 512, las ganancias de cada subgrupo se normalizan, para producir un factor de normalización para cada subgrupo. En una realización, se producen dos factores de normalización para dos subgrupos de cinco ganancias cada uno. El flujo de control avanza hasta la etapa 514.
En la etapa 514, los factores de normalización producidos en la etapa 512 se convierten al dominio logarítmico, o forma exponencial, y entonces se cuantifican. En una realización, se produce un factor de normalización cuantificado, denominado en lo sucesivo en el presente documento como �?ndice 1. El flujo de control avanza hasta la etapa 516.
En la etapa 516, las ganancias normalizadas de cada subgrupo producidas en la etapa 512 se cuantifican. En una realización, se cuantifican dos subgrupos para producir dos valores de ganancia cuantificada, denominados en losucesivo en el presente documento como �?ndice 2 e �?ndice 3. El flujo de control avanza hasta la etapa 518.
Las etapas 518 a 520 describen las etapas de procedimiento para generar una señal de habla sorda cuantificada aleatoria.
En la etapa 518, se genera una señal de ruido aleatorio para cada subtrama. Se selecciona un porcentaje predeterminado de los números aleatorios de mayor amplitud generados por subtrama. Los números no
seleccionado se fijan a cero. En una realización, el porcentaje de números aleatorios seleccionado es del 25%. El flujo de control avanza hasta la etapa 520.
En la etapa 520, los números aleatorios seleccionados se ajustan a escala mediante las ganancias cuantificadas para cada subtrama producidas en la etapa 516. El flujo de control avanza hasta la etapa 522.
Las etapas 522 a 528 describen etapas de procedimiento para el filtrado perceptivo de la señal aleatoria. El filtrado perceptivo de las etapas 522 a 528 mejora la calidad perceptiva y mantiene la naturalidad de la señal de habla sorda cuantificada aleatoria.
En la etapa 522, la señal de habla sorda cuantificada aleatoria se filtra paso banda para eliminar las componentes de extremo alto y bajo. El flujo de control avanza hasta la etapa 524.
En la etapa 524, se aplica un filtro de conformación preliminar fijo a la señal de habla sorda cuantificada aleatoria. El flujo de control avanza hasta la etapa 526.
En la etapa 526, se analizan las energías de banda baja y alta de la señal aleatoria y la señal residual original. El flujo de control avanza hasta la etapa 528.
En la etapa 528, se compara el análisis de energía de la señal residual original con el análisis de energía de la señal aleatoria, para determinar si es necesario un filtrado adicional de la señal aleatoria. Basándose en el análisis, se selecciona o bien ningún filtro, o bien uno de dos filtros finales predeterminados para filtrar adicionalmente la señal aleatoria. Los dos filtros finales predeterminados son un filtro de conformación final paso alto y un filtro de conformación final paso bajo. Se genera un mensaje de indicación de selección de filtro para indicar a un descodificador qué filtro final (o ningún filtro) se aplicó. En una realización, el mensaje de indicación de selección de filtro es de 2 bits. El flujo de control avanza hasta la etapa 530.
En la etapa 530, se transmiten un índice para el factor de normalización cuantificado producido en la etapa 514, índices para las ganancias de subgrupo cuantificadas producidas en la etapa 516, y el mensaje de indicación de selección de filtro generado en la etapa 528. En una realización, se transmiten �?ndice 1, �?ndice 2, �?ndice 3, y una indicación de selección de filtro final de 2 bits. Incluyendo los bits requeridos para transmitir los índices de parámetros LPC cuantificados, la tasa de transmisión de bits de una realización es de 2 Kilobits por segundo. (La cuantificación de parámetros LPC no está dentro del alcance de las realizaciones dadas a conocer).
La figura 6 es un diagrama de flujo que ilustra las etapas de descodificación de una técnica de codificación a baja tasa de transmisión de bits de alto rendimiento para habla sorda.
En la etapa 602 se reciben un índice de factor de normalización, índices de ganancia de subgrupo cuantificadas y unindicador de selección de filtro final para una trama de habla sorda. En una realización, se reciben �?ndice 1, �?ndice 2, �?ndice 3, y una indicación de selección de filtro de 2 bits. El flujo de control avanza hasta la etapa 604.
En la etapa 604 se recupera el factor de normalización a partir de tablas de consulta utilizando el índice de factor de normalización. El factor de normalización se convierte del dominio logarítmico, o forma exponencial, al dominio lineal. El flujo de control avanza hasta la etapa 606.
En la etapa 606 se recuperan las ganancias a partir de tablas de consulta utilizando los índices de ganancia. Las ganancias recuperadas se ajustan a escala mediante los factores de normalización recuperados para recuperar las ganancias cuantificadas de cada subgrupo de la trama original. El flujo de control avanza hasta la etapa 608.
En la etapa 608 se genera una señal de ruido aleatorio para cada subtrama, exactamente como en la codificación. Se selecciona un porcentaje predeterminado de los números aleatorios de mayor amplitud generados por subtrama. Los números no seleccionados se fijan a cero. En una realización, el porcentaje de números aleatorios seleccionado es del 25%. El flujo de control avanza hasta la etapa 610.
En la etapa 610, los números aleatorios seleccionados se ajustan a escala mediante las ganancias cuantificadas para cada subtrama recuperadas en la etapa 606.
Las etapas 612 a 616 describen etapas de procedimiento de descodificación para el filtrado perceptivo de la señal aleatoria.
En la etapa 612, la señal de habla sorda cuantificada aleatoria se filtra paso banda para eliminar componentes de extremo alto y bajo. El filtro paso banda es idéntico al filtro paso banda utilizado en la codificación. El flujo de control avanza hasta la etapa 614.
En la etapa 614 se aplica un filtro de conformación preliminar fijo a la señal de habla sorda cuantificada aleatoria. El filtro de conformación preliminar fijo es idéntico al filtro de conformación preliminar fijo utilizado en la codificación. El flujo de control avanza hasta la etapa 616.
En la etapa 616, basándose en el mensaje de indicación de selección de filtro, se selecciona o bien ningún filtro, o
bien uno de dos filtros predeterminados para filtrar adicionalmente la señal aleatoria en un filtro de conformación final. Los dos filtros predeterminados del filtro de conformación final son un filtro de conformación final paso alto (filtro 2) y un filtro de conformación final paso bajo (filtro 3) idénticos al filtro de conformación final paso alto y al filtro de conformación final paso bajo del codificador. La señal aleatoria cuantificada de salida del filtro de conformación final se ajusta a escala para que tenga la misma energía que la salida de señal del filtro paso banda. La señal aleatoria cuantificada se filtra mediante un filtro de síntesis LPC para generar una señal de habla sintetizada. Puede aplicarse un postfiltro posterior a la señal de habla sintetizada para generar el habla de salida descodificada final.
La figura 7A es un gráfico de la respuesta en frecuencia de frecuencia normalizada frente a amplitud de un filtro paso bajo en los analizadores (314, 324) de energía de banda utilizados para analizar la energía de banda baja en la señal residual r(n), emitida desde el filtro (304) LPC en el codificador, y en la señal aleatoria ajustada a escala y
filtrada, r3(n), emitida desde el filtro (322) de conformación preliminar en el codificador.
La figura 7B es un gráfico de la respuesta en frecuencia de frecuencia normalizada frente a amplitud de un filtro paso alto en los analizadores (314, 324) de energía de banda utilizados para analizar la energía de banda alta en la señal residual r(n), emitida desde el filtro (304) LPC en el codificador, y en la señal aleatoria ajustada a escala y filtrada,
r3(n), emitida desde el filtro (322) de conformación preliminar en el codificador.
La figura 8A es un gráfico de la respuesta en frecuencia de frecuencia normalizada frente a amplitud de un filtro de conformación final paso banda bajo en un filtro (320,407) paso banda utilizado para conformar la señal aleatoria ajustada a escala, r1(n), emitida desde el multiplicador (307,405) en el codificador y en el descodificador.
La figura 8B es un gráfico de la respuesta en frecuencia de frecuencia normalizada frente a amplitud de un filtro de conformación paso banda alto en el filtro (322,409) de conformación preliminar utilizado para conformar la señal aleatoria ajustada a escala, r2(n), emitida desde el filtro (320, 407) paso banda en el codificador y en el descodificador.
La figura 8C es un gráfico de la respuesta en frecuencia de frecuencia normalizada frente a amplitud de un filtro de
conformación final paso alto, en el filtro (316, 410) de conformación final, utilizado para conformar la señal aleatoria ajustada a escala y filtrada, r3(n), emitida desde el filtro (322,409) de conformación preliminar en el codificador y descodificador.
La figura 8D es un gráfico de la respuesta en frecuencia de frecuencia normalizada frente a amplitud de un filtro de
conformación final paso bajo, en el filtro (316, 410) de conformación final, utilizado para conformar la señal aleatoria ajustada a escala y filtrada, r3(n), emitida desde el filtro (322,409) de conformación preliminar en el codificador y descodificador.
La descripción anterior de las realizaciones preferidas se proporciona para permitir a cualquier experto en la técnica llevar a cabo o utilizar las realizaciones dadas a conocer. Las diversas modificaciones a estas realizaciones serán fácilmente evidentes para los expertos en la técnica, y los principios genéricos definidos en el presente documento pueden aplicarse a otras realizaciones sin el uso de la actividad inventiva. Por tanto, no se pretende que las realizaciones dadas a conocer se limiten a las realizaciones mostradas en el presente documento, sino que ha de concedérsele el alcance más amplio acorde con los principios y características novedosas dadas a conocer en el presente documento.
Claims (11)
- REIVINDICACIONES1. Un procedimiento de descodificación de segmentos del habla sordos, que comprende: recuperar (606) un grupo de ganancias cuantificadas usando índices recibidos asociados a una pluralidad de subtramas;5 generar (608) una señal de ruido aleatorio que comprende números aleatorios asociados a cada una de la pluralidad de subtramas; seleccionar (608) un porcentaje predeterminado de los números aleatorios de mayor amplitud de la señal deruido aleatorio asociados a cada una de la pluralidad de subtramas; ajustar a escala (610) los números aleatorios de mayor amplitud seleccionados por las ganancias10 recuperadas asociadas a cada subtrama para producir una señal de ruido aleatorio ajustada a escala. filtrar (612) un paso banda y conformar la señal de ruido aleatorio ajustada a escala; y. seleccionar (616) un segundo filtro basado en un indicador de selección de filtros recibidos y conformarademás la señal de ruido aleatorio ajustada a escala con el filtro seleccionado.
- 2. El procedimiento de la reivindicación 1, que comprende además filtrar el ruido aleatorio ajustado a escala.15 3. El procedimiento de la reivindicación 1, en el que la pluralidad de subtramas comprenden divisiones de diez subtramas por trama de habla sorda codificada.
- 4. El procedimiento de la reivindicación 1, en el que la pluralidad de subtramas comprende divisiones de ganancias de subtrama divididas en subgrupos.
- 5. El procedimiento de la reivindicación 4, en el que los subgrupos comprenden dividir un grupo de diez ganancias 20 de subtrama en dos grupos de cinco ganancias de subtrama cada una.
-
- 6.
- El procedimiento de la reivindicación 3, en el que la trama de habla sorda codificada comprende 160 muestras por trama muestreadas a ocho kilohercios por segundo durante 20 milisegundos.
-
- 7.
- El procedimiento según la reivindicación 1, en el que el porcentaje predeterminado de números aleatorios de mayor amplitud es del veinticinco por ciento.
25 8. El procedimiento según la reivindicación 4, en el que dos factores de normalización se recuperan para dos subgrupos de cinco ganancias de subtrama cada uno. - 9. Un descodificador (214) para descodificar segmentos de habla sorda, que comprende: medios para recuperar un grupo de ganancias cuantificadas usando índices recibidos para una pluralidad de subtramas;30 medios para generar una señal de ruido aleatorio que comprende números aleatorios para cada una de la pluralidad de subtramas; medios para seleccionar un porcentaje predeterminado de los números aleatorios de mayor amplitud de laseñal de ruido aleatorio para cada una de la pluralidad de subtramas; y medios para ajustar a escala los números aleatorios de mayor amplitud seleccionados mediante las35 ganancias recuperadas para cada subtrama para producir una señal de ruido aleatorio ajustada a escala. medios para filtrado paso banda y conformar la señal de ruido aleatorio ajustada a escala. medios para seleccionar un segundo filtro basado en un indicador de selección de filtros recibidos y ademásajustar a escala la señal de ruido aleatorio con el filtro seleccionado.
-
- 10.
- El descodificador (214) de la reivindicación 9, que comprende medios para filtrar adicionalmente el ruido 40 aleatorio ajustado a escala.
- 11. El descodificador (214) de la reivindicación 9, en el que los medios para seleccionar un porcentaje predeterminado de los números aleatorios de mayor amplitud de la señal de ruido aleatorio comprenden medios para seleccionar el veinticinco por ciento de los números aleatorios de mayor amplitud.
-
- 12.
- El descodificador (214) de la reivindicación 9, en el que dichos medios se expresan como: 45 un descuantificador (406) de ganancia configurado para recuperar dicho grupo de ganancias cuantificadas,
usando los índices recibidos para dicha pluralidad de subtramas;un generador (402) de números aleatorios configurado para generar dicha señal de ruido aleatorio, que comprende números aleatorios para cada uno de la pluralidad de subtramas;un selector (404) de números aleatorios configurado para seleccionar dicho porcentaje predeterminado de los 5 números aleatorios de mayor amplitud de la señal de ruido aleatorio para cada una de la pluralidad de subtramas;un selector de números aleatorios y multiplicador (405) configurado a escala de los números aleatorios de mayor amplitud seleccionados por las ganancias recuperadas para cada subtrama, para producir dicha señal de ruido aleatorio ajustada a escala.10 un filtrado (407) paso banda y un primer filtro de conformación (409) para filtrar y conformar la señal de ruido aleatorio ajustada a escala; yun segundo filtro de conformación (410) configurado para seleccionar dicho segundo filtro basado en un indicador de selección de filtros y la configuración adicional de la señal de ruido aleatorio ajustada a escala con el filtro seleccionado.15 13. El descodificador de la reivindicación 12, que comprende un postfiltro (414) configurado para filtrar adicionalmente el ruido aleatorio ajustado a escala. - 14. El descodificador de la reivindicación 12, en el que el selector (404) de números aleatorios configurado para seleccionar un porcentaje predeterminado de números aleatorios de mayor amplitud de la señal de ruido aleatorio está configurado además para seleccionar el 25% de números aleatorios de mayor amplitud..
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US09/690,915 US6947888B1 (en) | 2000-10-17 | 2000-10-17 | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
| US690915 | 2000-10-17 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2380962T3 true ES2380962T3 (es) | 2012-05-21 |
Family
ID=24774477
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES08001922T Expired - Lifetime ES2380962T3 (es) | 2000-10-17 | 2001-10-06 | Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento |
| ES01981837T Expired - Lifetime ES2302754T3 (es) | 2000-10-17 | 2001-10-06 | Procedimiento y aparato para codificacion de habla sorda. |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES01981837T Expired - Lifetime ES2302754T3 (es) | 2000-10-17 | 2001-10-06 | Procedimiento y aparato para codificacion de habla sorda. |
Country Status (12)
| Country | Link |
|---|---|
| US (3) | US6947888B1 (es) |
| EP (2) | EP1912207B1 (es) |
| JP (1) | JP4270866B2 (es) |
| KR (1) | KR100798668B1 (es) |
| CN (1) | CN1302459C (es) |
| AT (2) | ATE549714T1 (es) |
| AU (1) | AU1345402A (es) |
| BR (1) | BR0114707A (es) |
| DE (1) | DE60133757T2 (es) |
| ES (2) | ES2380962T3 (es) |
| TW (1) | TW563094B (es) |
| WO (1) | WO2002033695A2 (es) |
Families Citing this family (27)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7257154B2 (en) * | 2002-07-22 | 2007-08-14 | Broadcom Corporation | Multiple high-speed bit stream interface circuit |
| US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
| CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
| SE0402649D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
| US20060190246A1 (en) * | 2005-02-23 | 2006-08-24 | Via Telecom Co., Ltd. | Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC |
| UA94041C2 (ru) * | 2005-04-01 | 2011-04-11 | Квелкомм Инкорпорейтед | Способ и устройство для фильтрации, устраняющей разреженность |
| US8260611B2 (en) * | 2005-04-01 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for highband excitation generation |
| PT1875463T (pt) | 2005-04-22 | 2019-01-24 | Qualcomm Inc | Sistemas, métodos e aparelho para nivelamento de fator de ganho |
| RU2417514C2 (ru) | 2006-04-27 | 2011-04-27 | Долби Лэборетериз Лайсенсинг Корпорейшн | Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий |
| US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
| JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
| KR101299155B1 (ko) * | 2006-12-29 | 2013-08-22 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 |
| US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
| KR101435411B1 (ko) * | 2007-09-28 | 2014-08-28 | 삼성전자주식회사 | 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치 |
| US20090094026A1 (en) * | 2007-10-03 | 2009-04-09 | Binshi Cao | Method of determining an estimated frame energy of a communication |
| JP2011518345A (ja) * | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
| CN101339767B (zh) * | 2008-03-21 | 2010-05-12 | 华为技术有限公司 | 一种背景噪声激励信号的生成方法及装置 |
| CN101609674B (zh) * | 2008-06-20 | 2011-12-28 | 华为技术有限公司 | 编解码方法、装置和系统 |
| KR101756834B1 (ko) | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
| FR2936898A1 (fr) * | 2008-10-08 | 2010-04-09 | France Telecom | Codage a echantillonnage critique avec codeur predictif |
| CN101615395B (zh) * | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
| US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
| CA2981539C (en) | 2010-12-29 | 2020-08-25 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
| CN104978970B (zh) | 2014-04-08 | 2019-02-12 | 华为技术有限公司 | 一种噪声信号的处理和生成方法、编解码器和编解码系统 |
| TWI566239B (zh) * | 2015-01-22 | 2017-01-11 | 宏碁股份有限公司 | 語音信號處理裝置及語音信號處理方法 |
| CN106157966B (zh) * | 2015-04-15 | 2019-08-13 | 宏碁股份有限公司 | 语音信号处理装置及语音信号处理方法 |
| CN116052700B (zh) * | 2022-07-29 | 2023-09-29 | 荣耀终端有限公司 | 声音编解码方法以及相关装置、系统 |
Family Cites Families (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS62111299A (ja) * | 1985-11-08 | 1987-05-22 | 松下電器産業株式会社 | 音声信号特徴抽出回路 |
| JP2898641B2 (ja) * | 1988-05-25 | 1999-06-02 | 株式会社東芝 | 音声符号化装置 |
| US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
| US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
| US5734789A (en) | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
| JPH06250697A (ja) * | 1993-02-26 | 1994-09-09 | Fujitsu Ltd | 音声符号化方法及び音声符号化装置並びに音声復号化方法及び音声復号化装置 |
| US5615298A (en) * | 1994-03-14 | 1997-03-25 | Lucent Technologies Inc. | Excitation signal synthesis during frame erasure or packet loss |
| JPH08320700A (ja) * | 1995-05-26 | 1996-12-03 | Nec Corp | 音声符号化装置 |
| JP3522012B2 (ja) * | 1995-08-23 | 2004-04-26 | 沖電気工業株式会社 | コード励振線形予測符号化装置 |
| JP3248668B2 (ja) * | 1996-03-25 | 2002-01-21 | 日本電信電話株式会社 | ディジタルフィルタおよび音響符号化/復号化装置 |
| JP3174733B2 (ja) * | 1996-08-22 | 2001-06-11 | 松下電器産業株式会社 | Celp型音声復号化装置、およびcelp型音声復号化方法 |
| JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
| JP4040126B2 (ja) * | 1996-09-20 | 2008-01-30 | ソニー株式会社 | 音声復号化方法および装置 |
| US6148282A (en) | 1997-01-02 | 2000-11-14 | Texas Instruments Incorporated | Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure |
| BR9804811A (pt) * | 1997-04-07 | 1999-08-17 | Koninkl Philips Electronics Nv | Sistema de transmissÆo transmissor codificador de voz e processo de codifica-Æo de voz |
| FI113571B (fi) * | 1998-03-09 | 2004-05-14 | Nokia Corp | Puheenkoodaus |
| US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
| US6463407B2 (en) | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
| US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
| US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
| JP2007097007A (ja) * | 2005-09-30 | 2007-04-12 | Akon Higuchi | 複数人用ポータブルオーディオ |
| JP4786992B2 (ja) * | 2005-10-07 | 2011-10-05 | クリナップ株式会社 | 厨房家具のビルトイン機器およびこれを有する厨房家具 |
-
2000
- 2000-10-17 US US09/690,915 patent/US6947888B1/en not_active Expired - Lifetime
-
2001
- 2001-10-06 AT AT08001922T patent/ATE549714T1/de active
- 2001-10-06 AT AT01981837T patent/ATE393448T1/de not_active IP Right Cessation
- 2001-10-06 BR BR0114707-2A patent/BR0114707A/pt active IP Right Grant
- 2001-10-06 ES ES08001922T patent/ES2380962T3/es not_active Expired - Lifetime
- 2001-10-06 AU AU1345402A patent/AU1345402A/xx active Pending
- 2001-10-06 WO PCT/US2001/042575 patent/WO2002033695A2/en not_active Ceased
- 2001-10-06 JP JP2002537002A patent/JP4270866B2/ja not_active Expired - Fee Related
- 2001-10-06 EP EP08001922A patent/EP1912207B1/en not_active Expired - Lifetime
- 2001-10-06 KR KR1020037005404A patent/KR100798668B1/ko not_active Expired - Lifetime
- 2001-10-06 EP EP01981837A patent/EP1328925B1/en not_active Expired - Lifetime
- 2001-10-06 CN CNB018174140A patent/CN1302459C/zh not_active Expired - Lifetime
- 2001-10-06 ES ES01981837T patent/ES2302754T3/es not_active Expired - Lifetime
- 2001-10-06 DE DE60133757T patent/DE60133757T2/de not_active Expired - Lifetime
- 2001-10-17 TW TW090125677A patent/TW563094B/zh not_active IP Right Cessation
-
2005
- 2005-02-24 US US11/066,356 patent/US7191125B2/en not_active Expired - Lifetime
-
2007
- 2007-03-13 US US11/685,748 patent/US7493256B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| US6947888B1 (en) | 2005-09-20 |
| ATE393448T1 (de) | 2008-05-15 |
| DE60133757T2 (de) | 2009-07-02 |
| EP1912207A1 (en) | 2008-04-16 |
| KR100798668B1 (ko) | 2008-01-28 |
| EP1328925A2 (en) | 2003-07-23 |
| TW563094B (en) | 2003-11-21 |
| EP1912207B1 (en) | 2012-03-14 |
| WO2002033695A2 (en) | 2002-04-25 |
| WO2002033695A3 (en) | 2002-07-04 |
| US7493256B2 (en) | 2009-02-17 |
| US20070192092A1 (en) | 2007-08-16 |
| CN1470051A (zh) | 2004-01-21 |
| CN1302459C (zh) | 2007-02-28 |
| BR0114707A (pt) | 2004-01-20 |
| AU1345402A (en) | 2002-04-29 |
| ATE549714T1 (de) | 2012-03-15 |
| US7191125B2 (en) | 2007-03-13 |
| JP2004517348A (ja) | 2004-06-10 |
| JP4270866B2 (ja) | 2009-06-03 |
| EP1328925B1 (en) | 2008-04-23 |
| HK1060430A1 (en) | 2004-08-06 |
| ES2302754T3 (es) | 2008-08-01 |
| KR20030041169A (ko) | 2003-05-23 |
| DE60133757D1 (de) | 2008-06-05 |
| US20050143980A1 (en) | 2005-06-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2380962T3 (es) | Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento | |
| US7472059B2 (en) | Method and apparatus for robust speech classification | |
| EP1141947B1 (en) | Variable rate speech coding | |
| JP4658596B2 (ja) | 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 | |
| CN1820306B (zh) | 可变比特率宽带语音编码中增益量化的方法和装置 | |
| EP1576585B1 (en) | Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding | |
| EP1758101A1 (en) | Signal modification method for efficient coding of speech signals | |
| ES2253226T3 (es) | Codigo interpolativo multipulso de tramas de voz. | |
| US11270714B2 (en) | Speech coding using time-varying interpolation | |
| US6611797B1 (en) | Speech coding/decoding method and apparatus | |
| JPH09508479A (ja) | バースト励起線形予測 | |
| Drygajilo | Speech Coding Techniques and Standards | |
| WO2001009880A1 (en) | Multimode vselp speech coder | |
| Unver | Advanced Low Bit-Rate Speech Coding Below 2.4 Kbps | |
| HK1117261A (en) | Method and apparatus for high performance low bitrate coding of unvoiced speech | |
| HK1130558B (en) | Method and device for cdma wireless systems | |
| HK1117937A (en) | Variable rate speech coding | |
| HK1130558A1 (en) | Method and device for cdma wireless systems |