ES2257307T3

ES2257307T3 - Metodo y sistema para codificacion de voz en condiciones de borrado de trama.

Info

Publication number: ES2257307T3
Application number: ES00950440T
Authority: ES
Inventors: Sharath Manjunath; Andrew P. Dejaco
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-07-19
Filing date: 2000-07-19
Publication date: 2006-08-01
Anticipated expiration: 2020-07-19
Also published as: AU6354500A; ATE312399T1; CN1361911A; HK1045398A1; DE60028579T2; US6324503B1; CN1148721C; HK1045398B; EP1204967A1; JP2003524939A; WO2001006491A1; BR0012539A; JP4842472B2; KR20020013962A; DE60028579D1; EP1204967B1

Abstract

Un método de codificación en un sistema de codificación de voz, comprendiendo el sistema de codificación de voz un primer decodificador (102, 512) en un primer codificador de voz (504) y un primer codificador (100, 505) en un segundo codificador de voz (502), comprendiendo el método: notificar a un segundo codificador (106, 510) en el primer codificador de voz (504) si el primer decodificador (104, 512) falla al recibir una trama transmitida por el primer codificador (100, 506); transmitir un paquete modificado desde el segundo codificador (106, 510) a un segundo decodificador (110, 508) en respuesta a la notificación; y notificar al primer codificador (100, 506) cuando el segundo decodificador (110, 508) recibe el paquete modificado desde el segundo codificador (106, 510), caracterizado por: codificar un paquete en el primer codificador (100, 506) con un formato de codificación modificado predictivo o no predictivo.

Description

Método y sistema para codificación de voz en condiciones de borrado de trama.

Antecedentes de la invención I. Campo de la invención

La presente invención pertenece genéricamente al campo del procesamiento de voz, y más específicamente a métodos y aparatos para proporcionar realimentación desde el decodificador al codificador dispuesto en combinación para mejorar el rendimiento en codificadores predictivos de voz en condiciones de borrado de trama.

II. Antecedentes

La transmisión de voz mediante técnicas digitales se ha generalizado, particularmente en aplicaciones de larga distancia y radioteléfono digital. Esto, a su vez, ha creado interés en determinar la menor cantidad de información que se puede enviar sobre un canal mientras se mantiene la calidad percibida de la voz reconstruida. Si la voz se transmite simplemente por muestreo y digitalización, se requiere una velocidad de datos del orden de sesenta y cuatro kilobits por segundo (kbps) para lograr una calidad de voz de teléfono analógico convencional. Sin embargo, mediante el uso del análisis de voz, seguido por la adecuada codificación, transmisión, y resintetización en el receptor, se puede lograr una reducción importante en la velocidad de datos.

En muchos campos de las telecomunicaciones se encuentran en uso dispositivos para comprimir voz. Un campo ejemplar es el de las comunicaciones inalámbricas. El campo de las comunicaciones inalámbricas tiene muchas aplicaciones incluyendo, p. ej., teléfonos inalámbricos, radiobúsqueda, bucles locales inalámbricos, telefonía inalámbrica como sistemas telefónicos celulares y PCS, telefonía móvil con Protocolo Internet (IP), y sistemas de comunicación por satélite. Una aplicación particularmente importante es la telefonía inalámbrica para abonados móviles.

Se han desarrollado diversas interfases en el aire para sistemas inalámbricos de comunicación incluyendo, p. ej., acceso múltiple por división de frecuencia (FDMA), acceso múltiple por división de tiempo (TDMA), y acceso múltiple por división de código (CDMA). En conexión con esto, se han establecido diversos estándares internos e internacionales incluyendo, p. ej., Servicio Telefónico Móvil Avanzado (AMPS), Sistema Global para Comunicaciones Móviles (GSM), y Estándar Provisional 95 (IS - 95). Un sistema de comunicación ejemplar de telefonía la inalámbrica es un sistema de acceso múltiple por división de código (CDMA). El estándar IS-95 y sus derivados, IS - 95A, ANSI J-STD-008, IS - 95B, propuesta de estándares de tercera generación IS - 95C e IS - 2000, etc. (aquí denominados colectivamente como IS - 95), se promulgaron por la Asociación de Industrias de Telecomunicación (TIA) y otros cuerpos de estándares bien conocidos para especificar el uso de una interfase CDMA en-el-aire para sistemas de comunicación telefónica celular o PCS. Sistemas ejemplares de comunicación inalámbrica configurados substancialmente de acuerdo con el uso del estándar IS-95 se describen en las patentes U.S. Nos. 5,103,459 y 4,901,307, que están asignadas al cesionario de la presente invención.

Los dispositivos que emplean técnicas para comprimir voz extrayendo parámetros que la relacionan con el modelo de humano de generación de voz se llaman codificadores de voz. Un codificador de voz divide la señal de voz entrante en bloques de tiempo, o tramas de análisis. Los codificadores de voz típicamente comprenden un codificador y un decodificador. El codificador analiza la trama de voz entrante para extraer ciertos parámetros relevantes, y entonces cuantifica los parámetros en representación binaria, es decir, en un conjunto de bits o un paquete de datos binarios. Los paquetes de datos se transmiten sobre el canal de comunicación a un receptor y un decodificador. El decodificador procesa los paquetes de datos, los descuantifica para producir los parámetros, y resintetiza las tramas de voz usando los parámetros descuantificados.

La función del codificador de voz es comprimir la señal digitalizada de voz en una señal de baja velocidad de bit quitando todas las redundancias naturales inherentes a la voz. La compresión digital se logra representando la trama de voz entrante con un conjunto de parámetros y empleando cuantificación para representar los parámetros con un conjunto de bits. Si la trama de voz entrante tiene un número de bits N_{i} y los paquetes de datos producidos por el codificador de voz tienen un número de bits N_{o}, el factor de compresión logrado por el codificador de voz es C_{n} = N_{i}/N_{o}. El reto es mantener alta calidad de voz de la voz decodificada al tiempo que se logra el factor de compresión objetivo. El funcionamiento de un codificador de voz depende de (1) cuan bien funciona el modelo de voz, o la combinación del proceso de síntesis y análisis descritos arriba, y (2) cuan bien se realiza el proceso de cuantificación de parámetros a la velocidad de bit objetivo de N_{o } bits por trama. La meta del modelo de voz es por tanto capturar la esencia de la señal de voz, o la calidad de voz objetivo, con un conjunto pequeño de parámetros para cada
trama.

Quizás lo más importante en el diseño de un codificador de voz es la búsqueda de un buen conjunto de parámetros (incluyendo vectores) para describir la señal de voz. Un buen conjunto de parámetros requiere un ancho de banda bajo de sistema para la reconstrucción de una señal de voz perceptivamente precisa. El tono, la potencia de señal, la envolvente espectral (o formantes), los espectros de amplitud, y de fase son ejemplos de parámetros de codificación de voz.

Los codificadores de voz pueden implementarse como codificadores en el dominio temporal, que intentan captar la forma de onda de voz en el dominio del tiempo empleando procesamiento de alta resolución en el tiempo para codificar pequeños segmentos de voz (típicamente subtramas de 5 milisegundos (ms)) por vez. Para cada subtrama, se encuentra a partir de un espacio de libro de claves una forma representativa de alta precisión por medio de diversos algoritmos de búsqueda conocidos en la técnica. Alternativamente, los codificadores de voz pueden implementarse como codificadores en el dominio de frecuencia, que intentan captar el espectro de voz a corto plazo de la trama de voz entrante con un conjunto de parámetros (análisis) y emplean un proceso de síntesis correspondiente para recrear la forma de onda de voz a partir de los parámetros espectrales. El cuantificador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de código según conocidas técnicas de cuantificación descritas en A. Gersho & R.M. Gray, Cuantificación Vectorial y Compresión de Señal (1992).

Un bien conocido codificador de voz en el dominio del tiempo es el codificador Lineal Predictivo Activado por Código (CELP) descrito en L. B. Rabiner & R.W. Schafer, Procesamiento Digital de Señales de Voz 396-453 (1978). En un codificador CELP, las correlaciones a corto plazo, o redundancias, en la señal de voz son eliminadas mediante análisis predictivo lineal (LP), que encuentra los coeficientes de un filtro formante a corto plazo. Aplicando el filtro de predicción a corto plazo a la trama entrante de voz se genera una señal residuo LP, que es adicionalmente modelada y cuantificada con parámetros de filtro de predicción a largo plazo y un subsiguiente libro de claves estocástico. Por tanto, la codificación CELP divide la tarea de codificación de la forma de onda de voz en el dominio del tiempo en tareas separadas de codificar coeficientes de filtro LP a corto plazo y codificar el residuo LP. La codificación en el dominio del tiempo puede realizarse a una velocidad fija (es decir, usando el mismo número de bits, N_{o}, para cada trama) o a una velocidad variable (en que se usan distintas velocidades de bit para tipos diferentes de contenidos de trama). Los codificadores de velocidad variable intentan usar solo la cantidad de bits necesaria para codificar los parámetros del codec a un nivel adecuado para obtener una calidad objetivo. Un ejemplar de codificador CELP de velocidad variable se describe en la Patente de EE.UU. No. 5,414,796, que asignada al cesionario de la presente la invención.

Los codificadores en el dominio del tiempo como el codificador CELP típicamente se basan en un número alto de bits, N_{o}, por trama para conservar la exactitud de la forma de onda de voz del dominio del tiempo. Tales codificadores típicamente entregan voz de óptima calidad suponiendo que el número de bits, N_{o}, por la trama es relativamente grande (p. ej., 8 kbps o más). Sin embargo, a bajas velocidades de bit (4 kbps y menos), los codificadores en el dominio del tiempo fallan en mantener una calidad alta y un funcionamiento robusto debido al número limitado de bits disponibles. A baja velocidad de bit, el limitado espacio de libro de claves recorta la capacidad de emparejamiento de forma de onda de codificadores convencionales en el dominio del tiempo, que tan exitosamente se utilizan en aplicaciones comerciales de mayor velocidad. Por esto, a pesar de las mejoras en el tiempo, muchos sistemas de codificación CELP que operan a baja velocidad de bit sufren de distorsión perceptivamente importante típicamente caracterizada como ruido.

La WO 96/22639 describe un método y un aparato para formatear datos para transmisión. Tras la detección de un bit indicador de borrado de trama, un dispositivo transmitente responde intensificando su señal mediante el aumento de su energía de transmisión o disminuyendo su velocidad de datos.

Hay actualmente una ola de interés investigador y una fuerte necesidad comercial de desarrollar un codificador de alta calidad operando a velocidades de bit de medias a bajas (es decir, en el rango de 2.4 a 4 kbps y menor). Las áreas de aplicación incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía por Internet, diversas aplicaciones multimedia y de audio sin descarga, correo vocal, y otros sistemas de almacenamiento de voz. Las fuerzas impulsoras son la necesidad de alta capacidad y la demanda de funcionamiento robusto bajo situaciones de pérdida de paquetes. Varios esfuerzos recientes de estandarización de codificación de voz son otra fuerza impulsora directa propulsando la investigación y desarrollo de algoritmos de codificación de voz de baja velocidad. Un codificador de voz de baja velocidad crea más canales, o usuarios, por ancho de banda de aplicación admisible, y un codificador de voz de baja velocidad acoplado con una capa adicional de codificación de canal apropiada puede ajustar la cuenta total de bits de especificaciones de codificador y entregar un funcionamiento robusto bajo condiciones de error de canal.

Los codificadores de voz convencionales predictivos de baja a media velocidad de bit tienden a funcionar pobremente bajo condiciones deficientes de canal, lo que causa borrados de tramas. La naturaleza predictiva del codificador de voz dicta que las tramas recibidas subsiguientes a un borrado de trama (es decir, de una trama que se perdió en la transmisión y por tanto no fue recibida) se sintetizará sobre la base de información anterior defectuosa, y el decodificador perderá sincronismo con el codificador asociado. Por lo tanto las tramas sintetizadas se degradarán, y la calidad de voz sufrirá. Sería deseable por lo tanto, mejorar el rendimiento de un codificador de voz bajo condiciones de canal deficientes. Por tanto hay necesidad de un codificador de voz que use un mecanismo de realimentación para mejorar el funcionamiento bajo condiciones de borrado de trama.

Resumen de la invención

La presente invención va dirigida hacia un codificador de voz que emplea un mecanismo de realimentación para mejorar su funcionamiento bajo condiciones de borrado de trama. Consiguientemente, en un aspecto de la invención, un sistema de codificación de voz ventajosamente incluye un primer codificador de voz que incluye un primer codificador y un primer decodificador; y un segundo codificador de voz que incluye un segundo codificador y un segundo decodificador, donde el primer codificador se configura para codificar paquetes de tramas de voz y transmitir los paquetes a través de un canal de comunicación al segundo decodificador, el segundo decodificador se configura para recibir y decodificar paquetes y para enviar una señal al segundo codificador si una trama transmitida no es recibida por el segundo decodificador, el segundo codificador se configura para codificar y transmitir paquetes y para modificar un paquete en respuesta a la señal desde el segundo decodificador, el primer decodificador se configura para recibir y decodificar paquetes y para enviar una señal al primer codificador tras recibir un paquete modificado desde el segundo codificador, y el primer codificador está adicionalmente configurado para codificar un paquete usando un formato de codificación modificado predictivo o no predictivo en respuesta a la señal desde el primer decodificador.

En otro aspecto de la invención, se provee un método de codificación en un sistema de codificación de voz, comprendiendo el sistema de codificación de voz un primer decodificador en un primer codificador de voz y un primer codificador en un segundo codificador de voz. El método ventajosamente incluye los pasos de notificar a un segundo codificador en el primer codificador de voz si el primer decodificador falla al recibir una trama transmitida por el primer codificador; transmitir un paquete modificado desde el segundo codificador al segundo decodificador en respuesta a la notificación; notificar al primer codificador cuando el segundo decodificador recibe el paquete modificado desde el segundo codificador; y codificar un paquete en el primer codificador con un formato de codificación modificado predictivo o no predictivo.

En otro aspecto de la invención, un sistema de codificación de voz incluye un primer y un segundo codificadores de voz, incluyendo el primer codificador de voz un primer codificador y un primer decodificador, incluyendo el segundo codificador de voz un segundo codificador y un segundo decodificador. El sistema ventajosamente incluye medios para notificar al segundo codificador si el segundo decodificador fracasa al recibir una trama transmitida por el primer medio codificador para transmitir un paquete modificado desde el segundo codificador al primer decodificador en respuesta a la notificación; medios para notificar al primer codificador cuando el primer decodificador recibe el paquete modificado desde el segundo codificador; y medios para codificar un paquete en el primer codificador con un formato de codificación modificado predictivo o no predictivo.

Descripción breve de los dibujos

La Fig. 1 es un diagrama de bloques de un sistema de teléfono inalámbrico.

La Fig. 2 es un diagrama de bloques de un canal de comunicación terminado en cada extremo por codificadores de voz.

La Fig. 3 es un diagrama de bloques de un codificador.

La Fig. 4 es un diagrama de bloques de un decodificador.

La Fig. 5 es un diagrama de flujo que ilustra un proceso de decisión de codificación de voz.

La Fig. 6A es un diagrama de amplitud de señal de voz en función del tiempo, y la Fig. 6B es un diagrama de amplitud de residuo de predicción lineal (LP) en función del tiempo.

La Fig. 7 es un diagrama de bloques de un sistema codificador de voz que emplea un bucle de realimentación desde el decodificador en el receptor hasta el codificador en el receptor, desde el codificador en el receptor hasta el decodificador en el transmisor, y desde el decodificador en el transmisor hasta el codificador en el transmisor

Descripción detallada de las realizaciones preferidas

Las realizaciones ejemplares descritas en lo que sigue radican en un sistema inalámbrico de comunicación telefónica configurado para emplear una interfase aérea CDMA. No obstante, se entenderá por aquellos con experiencia en la técnica que un método y aparato de submuestreo que incluye los aspectos de la invención inmediata pueden incluirse en cualquiera de los diversos sistemas de comunicación que emplean una gama amplia de tecnologías conocidas por aquellos con experiencia en la técnica.

Como se ilustra en la Fig. 1, un sistema telefónico inalámbrico CDMA genéricamente incluye una pluralidad de unidades móviles de abonado 10, una pluralidad de estaciones base 12, controladores de estación base (BSCs) 14, y un centro conmutador móvil (MSC) 16. El MSC 16 se configura para tener interfase con una red telefónica convencional pública conmutada (PSTN) 18. El MSC 16 también se configura para tener interfase con las BSCs 14. Las BSCs 14 se acoplan a las estaciones base 12 por medio de líneas de retroceso. Las líneas de retroceso pueden configurarse para soportar cualquiera de varios interfases conocidos incluyendo, p. ej., E1/T1, ATM, IP, PPP, Repetidor de Trama, HDSL, ADSL, o xDSL. Se entiende que puede haber más de dos BSCs 14 en el sistema. Cada estación base 12 incluye convenientemente por lo menos un sector (no mostrado), cada sector comprende una antena omnidireccional o una antena que apunta radialmente en una dirección particular hacia fuera de la estación base 12. Alternativamente, cada sector puede comprender dos antenas para diversidad de recepción. Cada estación base 12 puede diseñarse convenientemente para soportar una pluralidad de asignaciones de frecuencia. La intersección de un sector y de una asignación de frecuencia puede denominarse como canal CDMA. Las estaciones base 12 pueden también ser conocidas como subsistemas transceptores de estación base (BTSs) 12. Alternativamente, "estación base" puede usarse en la industria para referirse colectivamente a una BSC 14 y una o más BTSs 12. Las BTSs 12 pueden también denominarse "sitios de célula" 12. Alternativamente, los sectores individuales de una BTS determinada 12 pueden denominarse como sitios de célula. Las unidades móviles de abonado 10 son típicamente teléfonos celulares o PCS 10. El sistema se configura convenientemente para su uso según el Estándar IS-95.

Durante el funcionamiento típico del sistema telefónico celular, las estaciones base 12 reciben conjuntos de señales de enlace ascendente desde conjuntos de unidades móviles 10. Las unidades móviles 10 mantienen llamadas telefónicas u otras comunicaciones. Cada señal de enlace ascendente recibida por una determinada estación base 12 se procesa dentro de esa estación base 12. Los datos resultantes se remiten a las BSCs 14. Las BSCs 14 proporcionan asignación de recursos de llamada y funcionalidad de gestión de movilidad incluyendo la organización de traspasos suaves entre las estaciones base 12. Las BSCs 14 también encaminan los datos recibidos al MSC 16, que proporciona servicios adicionales de enrutamiento para el interfase con la PSTN 18. Igualmente, la PSTN 18 tiene interfases con el MSC 16, y el MSC 16 tiene interfases con las BSCs 14, que a su vez controlan la estaciones base 12 para transmitir conjuntos de señales de enlace descendente a conjuntos de unidades móviles 10.

En la Fig. 2 un primer codificador 100 recibe muestras de voz digitalizada s(n) y codifica las muestras s(n) para su transmisión sobre un medio de transmisión 102, o canal de comunicación 102, a un primer decodificador 104. El decodificador 104 decodifica las muestras de voz codificadas y sintetiza una señal de voz de salida S_{SYNTH}(n). Para la transmisión en la dirección opuesta, un segundo codificador 106 codifica muestras de voz digitalizada s(n), que se transmiten sobre un canal de comunicación 108. Un segundo decodificador 110 recibe y decodifica las muestras de voz codificadas, generando una señal de salida de voz sintetizada S_{SYNTH}(n).

Las muestras de voz s(n) representan señales de voz que se han digitalizado y cuantificado de conformidad con cualquiera de los diversos métodos conocidos en la técnica incluyendo, p. ej., modulación de código de impulso (PCM), ley \mu o ley A comprimida expandida. Como es conocido en la técnica, la muestras de voz s(n) se organizan en tramas de datos entrantes donde cada trama comprende un número predeterminado de muestras de voz digitalizada s(n). En una realización ejemplar, se emplea una velocidad de muestreo de 8 kHz, comprendiendo cada trama de 20 ms 160 muestras. En las realizaciones descritas más adelante, la velocidad de transmisión de datos puede variarse convenientemente sobre una base de trama a trama desde 13.2 kbps (valor total) a 6.2 kbps (valor medio) a 2.6 kbps (valor cuarto) a 1 kbps (valor octavo). Variar la velocidad de transmisión de datos es ventajoso porque se puede emplear selectivamente una velocidad de bit inferior para tramas que contienen relativamente menos información de voz. Como se entenderá por aquellos con experiencia en la técnica, pueden usarse otras velocidades de muestreo, tamaños de trama, y velocidades de transmisión de datos.

El primer codificador 100 y el segundo decodificador 110 juntos comprenden un primer codificador de voz, o codec de voz. El codificador de voz podría usarse en cualquier dispositivo de comunicación para transmitir señales de voz, incluyendo, p. ej., las unidades de abonado, BTSs, o BSCs descritas más arriba con referencia a la Fig. 1. Igualmente, el segundo codificador 106 y el primer decodificador 104 juntos comprenden un segundo codificador de voz. Se entiende por aquellos con experiencia en la técnica que esos codificadores de voz pueden implementarse con un procesador digital de señal (DSP), un circuito integrado de aplicación específica (ASIC), lógica de puertas discretas, microprogramación, o cualquier módulo convencional de software programable y un microprocesador. El módulo de software podría radicar en memoria RAM, memoria flash, registros, o cualquier otra forma de medio grabable de almacenamiento conocido en la técnica. Alternativamente, cualquier procesador convencional, controlador, o máquina de estados podría sustituirse por el microprocesador. La patente US No. 5,727,123, asignada al cesionario de la presente invención, y la patente US No. 5,784,532, asignada al cesionario de la presente invención, describen ASICs ejemplares diseñados específicamente para codificación de voz.

En la Fig. 3 un codificador 200 que puede usarse en un codificador de voz incluye un módulo de decisión de modo 202, un módulo de estimación de tono 204, un módulo de análisis LP 206, un filtro de análisis LP 208, un módulo de cuantificación LP 210, y un módulo de cuantificación de residuo 212. Se proporcionan tramas de voz entrantes s(n) al módulo de decisión de modo 202, al módulo de estimación de tono 204, al módulo de análisis LP 206, y al filtro de análisis LP 208. El módulo de decisión de modo 202 produce un índice de modo I_{M} y un modo M basados en la periodicidad, la energía, la relación señal - ruido (SNR), o la tasa de cruce por cero, entre otros aspectos, de cada trama de voz entrante s(n). En la patente U.S. No. 5,911,128, asignada al cesionario de la presente invención, se describen diversos métodos para clasificar tramas de voz según su periodicidad. Tales métodos se incorporan también en los Estándares Provisionales de la Asociación de Industrias de Telecomunicación TIA/EIA IS - 127 y TIA/EIA IS - 733. Un esquema ejemplar de modo de decisión se describe también en la patente U.S. No. 6,691,084.

El módulo de estimación de tono 204 produce un índice de tono I_{P} y un valor de retardo P_{0} basados en cada trama de voz entrante s(n). El módulo de análisis LP 206 realiza análisis predictivo lineal sobre cada trama de voz entrante
s(n) para generar un parámetro LP a. El parámetro LP a se proporciona al módulo de cuantificación LP 210. El módulo de cuantificación LP 210 también recibe el modo M, realizando por medio de eso el proceso de cuantificación de una manera modo - dependiente. El módulo de cuantificación LP 210 produce un índice LP I_{LP} y un parámetro cuantificado LP â. El filtro de análisis LP 208 recibe el parámetro cuantificado LP â además de la trama de voz entrante s(n). El filtro de análisis LP 208 genera una señal de residuo LP R[n], que representa el error entre las tramas de voz entrantes s(n) y la voz reconstruida basándose en los parámetros pronosticados lineales cuantificados â. El residuo LP R[n], el modo M, y el parámetro cuantificado LP â se proporcionan al módulo de cuantificación de residuo 212. Basado en estos valores, el módulo de cuantificación de residuo 212 produce un índice de residuo I_{R} y una señal de residuo cuantificada \hat{R}[n].

En la Fig. 4 un decodificador 300 que puede usarse en un codificador de voz incluye un módulo de decodificación de parámetro LP 302, un módulo de decodificación de residuo 304, un módulo de decodificación de modo 306, y un filtro de síntesis LP 308. El módulo de decodificación de modo 306 recibe y decodifica un índice de modo I_{M}, generando a partir del mismo un modo M. El módulo de decodificación de parámetro LP 302 recibe el modo M y un índice LP I_{LP}. El módulo de decodificación de parámetro LP 302 decodifica los valores recibidos para producir un parámetro cuantificado LP â. El módulo de decodificación de residuo 304 recibe un índice de residuo I_{R}, un índice de tono I_{P}, y el índice de modo I_{M}. El módulo de decodificación de residuo 304 decodifica los valores recibidos para generar una señal cuantificada de residuo \hat{R}[n]. La señal cuantificada de residuo \hat{R}[n] y el parámetro cuantificado LP â se proporcionan al filtro de síntesis LP 308, que a partir de ahí sintetiza una señal de voz de salida decodificada \hat{s}[n].

El funcionamiento e implementación de los diversos módulos del codificador 200 de la Fig. 3 y del decodificador 300 de la Fig. 4 se conocen en la técnica y se describen en la antes citada patente U.S. No. 5,414,796 y en L.B. Rabiner & R.W. Schafer, Procesamiento Digital de Señales de Voz 396-453 (1978).

Como se ilustra en el diagrama de flujo de la Fig. 5, un codificador de voz de acuerdo con una realización sigue un conjunto de pasos en el procesamiento de muestras de voz para transmisión. En el paso 400 el codificador de voz recibe muestras digitales de una señal de voz en tramas sucesivas. Tras recibir una trama determinada, el codificador de voz continua hasta el paso 402. En el paso 402, el codificador de voz detecta la energía de la trama. La energía es una medida de la actividad vocal de la trama. La detección de voz se realiza sumando los cuadrados de las amplitudes de las muestras digitalizadas de voz y comparando la energía resultante con un valor umbral. En una realización, el valor de umbral se adapta basándose en el nivel cambiante de ruido de fondo. Un detector de actividad de voz de umbral variable ejemplar se describe en la antes citada patente U.S. No. 5,414,796. Algunos sonidos sordos de voz pueden ser muestras de energía sumamente baja que pueden ser codificados erróneamente como ruido de fondo. Para impedir esto, la inclinación espectral de muestras de baja energía puede usarse para distinguir la voz sorda del ruido de fondo, como se describe en la antes citada patente U.S. No. 5,414,796.

Después de detectar la energía de la trama, el codificador de voz continúa hasta el paso 404. En el paso 404 el codificador de voz determina si la energía detectada de trama es suficiente para clasificar la trama como de las que contienen información de voz. Si la energía detectada de trama cae por debajo de un nivel umbral predefinido, el codificador de voz continúa hasta el paso 406. En el paso 406, el codificador de voz codifica la trama como ruido de fondo (es decir, sin voz, o silencio). En una realización la trama de ruido de fondo se codifica a una velocidad 1/8, o 1 kbps. Si en el paso 404 la energía detectada de trama alcanza o excede el nivel de umbral predefinido, la trama se clasifica como voz y el codificador de voz continúa hasta el paso 408.

En el paso 408 el codificador de voz determina si la trama es voz sorda, es decir, el codificador de voz examina la periodicidad de la trama. Los diversos métodos conocidos de determinación de periodicidad incluyen, p. ej., el uso de cruces por cero y el uso de funciones de autocorrelación normalizadas (NACFs). En particular, el uso de cruces por cero y de NACFs para detectar la periodicidad se describe en la antes citada patente U.S. No. 5,911,128 y en la patente U.S. No. 6,691,084. Además, los anteriores métodos usados para distinguir voz hablada de voz sorda se incorporan en los Estándares Provisionales de la Asociación de Industrias de Telecomunicación TIA/EIA IS - 127 y TIA/EIA IS -
733. Si se determina que la trama es voz sorda en el paso 408, el codificador de voz continúa hasta el paso 410. En el paso 410, el codificador de voz codifica la trama como voz sorda. En una realización, las tramas de voz sorda son codificadas a velocidad un cuarto, o 2.6 kbps. Si en el paso 408 la trama no es determinada como voz sorda, el codificador de voz continúa hasta el paso 412.

En el paso 412 el codificador de voz determina si la trama es voz transicional, usando los métodos de detección de periodicidad que se conocen en la técnica, como los descritos en, p. ej., la antes citada patente U.S. No. 5,911,128. Si la trama se determina que es voz transicional, el codificador de voz continúa hasta el paso 414. En el paso 414, la trama se codifica como voz de transición (es decir, transición desde voz sorda a voz hablada). En una realización, la trama de voz de transición se codifica de acuerdo con un método de codificación interpolativo multipulso descrito en la patente U.S. No. 6,260,017, asignada al cesionario de la presente invención. En otra realización la trama de voz de transición se codifica a velocidad plena, o 13.2 kbps.

Si en el paso 412, el codificador de voz determina que la trama no es voz transicional, el codificador de voz continúa hasta el paso 416. En el paso 416 el codificador de voz codifica la trama como voz hablada. En una realización las tramas de voz hablada pueden ser codificadas a velocidad mitad, o 6.2 kbps. Es también posible codificar tramas de voz hablada a velocidad total, o 13.2 kbps (o velocidad total, 8 kbps, en un codificador CELP 8k). Aquellos con experiencia en la técnica apreciarán, sin embargo, que codificando las tramas habladas a velocidad mitad permite al codificador ahorrar un valioso ancho de banda explotando la naturaleza constante de las tramas habladas. Adicionalmente, sin considerar la velocidad usada para codificar la voz hablada, la voz hablada se codifica ventajosamente usando información de tramas pasadas, y de aquí se dice codificada predictivamente.

Aquellos con experiencia apreciarán que la señal de voz o el correspondiente residuo LP pueden codificarse siguiendo los pasos mostrados en la Fig. 5. Las características de forma de onda de ruido, y voz sorda, de transición y hablada pueden verse como una función del tiempo en el diagrama de la Fig. 6A. Las características de forma de onda de ruido, y de residuo LP sordo, de transición, y hablado puede verse como una función del tiempo en el diagrama de la Fig. 6B.

En una realización, un sistema de codificación de voz 500 se configura para proveer un bucle de realimentación desde el decodificador en el receptor al codificador en el receptor, desde el codificador en el receptor al decodificador en el transmisor, y desde el decodificador en el transmisor al codificador en el transmisor, como se muestra en la Fig. 7. El bucle de realimentación desde el decodificador receptor al codificador transmisor ventajosamente permite al sistema codificador de voz 500 mejorar el funcionamiento bajo condiciones de borrado de trama evitando la propagación de malas memorizaciones de trama, como se describe más adelante.

El sistema de codificación de voz 500 incluye un primer y un segundo codificadores de voz 502, 504. El primer codificador de voz 502 se denomina codificador transmisor de voz y el segundo codificador de voz 504 se denomina codificador receptor de voz solo con fines de explicación. El primer el codificador de voz 502 incluye un codificador 506 y un decodificador 508. El segundo codificador de voz 504 incluye un codificador 510 y un decodificador 512. Cualquier codificador de voz 502, 504 puede implementarse ventajosamente como parte de un DSP, y puede radicar en p. ej., una unidad de abonado o estación base en un PCS o sistema celular telefónico o en una unidad de abonado o en una unidad de acceso en un sistema de satélite.

El codificador 506 transmite un paquete a través de un canal de comunicación. El decodificador 512 recibe el paquete. Si una trama se perdió durante la transmisión (p. ej., debido a condiciones de canal malas o ruidosas), el decodificador 512 envía una señal al codificador 510 indicó que se recibió un borrado de trama. El codificador 510 entonces fija el valor de un bit particular, denominado bit indicador de borrado (EIB), a uno en el próximo paquete a transmitir. La codificador 510 transmite entonces el paquete. El paquete es recibido por el decodificador 508. El decodificador 508 envía una señal al codificador 506 indicando que se recibió un paquete con el EIB puesto a uno. Tras recibir la señal desde el decodificador 508, el codificador 506 envía un paquete con baja codificación de memoria como próximo paquete. En una realización particular, el codificador 506 envía un paquete sin codificación de memoria como próximo paquete.

El sistema de codificación de voz 500 es beneficioso por las razones siguientes. Típicamente, en codificadores predictivos de voz se usa una cantidad de memoria relativamente grande. Consiguientemente, cada trama (en una realización particular, cada trama tiene veinte ms de duración) cuando se codifica usa información de tramas pasadas codificadas. Esto afecta al funcionamiento del codificador de voz bajo condiciones de borrado de trama. Por ejemplo, si se borra una trama (o múltiples tramas), las tramas que siguen al borrado se resienten en calidad en un codificador de voz basado en la predicción (que usa información de tramas pasadas para predecir la trama actual). Esto es especialmente cierto para codificadores de voz de baja velocidad de bit, en donde hay una fuerte predicción. Sin embargo, según las realizaciones arriba descritas, cuando el decodificador de voz del lado receptor 512 recibe una trama borrada, el decodificador 512 envía una realimentación al codificador de voz del lado transmisor 506 de que el decodificador 512 ha detectado un borrado, y por tanto pide o una codificación de baja memoria (mínimo predictiva) o una codificación sin memoria (no predictiva) para resincronizar la salida y las memorias del decodificador de voz del lado receptor 512 con las del codificador de voz del lado transmisor 506. Por tanto, como describió arriba, el decodificador de voz del lado receptor 512 notifica al codificador de voz del lado receptor 510 para enviar un EIB conjuntamente con el próximo paquete. El decodificador de voz del lado transmisor 508 informa entonces al codificador de voz del lado transmisor 506 del EIB recibido. El codificador de voz del lado transmisor 506 consiguientemente realiza una codificación de baja memoria (mínimo predictiva) o una codificación sin memoria (no predictiva), enviando el paquete correspondiente al decodificador de voz del lado receptor 512. El decodificador de voz del lado receptor 512 decodifica entonces el paquete de baja memoria o sin memoria, usando el paquete decodificado para reiniciar o resincronizar sus memorias con las del codificador de voz del lado transmisor 506. El máximo tiempo que el decodificador de voz del lado receptor 512 tendrá para esperar antes de recibir el paquete codificado de baja memoria o sin memoria es un de trama de duración (porque el codificador del lado receptor 510 puede ya haber comenzado la creación de un paquete) más otra trama de duración (porque el transmisor del lado codificador 506 puede ya haber comenzado la creación de un paquete cuando recibe el EIB) más un tiempo de retardo de transmisión unidireccional.

Por tanto, se ha descrito un aparato y método novedosos para proporcionar realimentación desde el decodificador al codificador para mejorar el funcionamiento de un codificador predictivo de voz en condiciones de borrado de trama. Aquellos con experiencia en la técnica comprenderán que los diversos bloques lógicos y pasos de algoritmo ilustrativos descritos en relación con las realizaciones aquí descritas pueden implementarse o realizarse con un procesador digital de señal (DSP), un circuito integrado de aplicación específica (ASIC), lógica de puerta discreta de transistor, componentes electrónicos discretos como, p. ej., registros y FIFO, un procesador que ejecuta un conjunto de instrucciones de microprogramación, o cualquier módulo de software convencional programable y un procesador. El procesador puede ser convenientemente un microprocesador, pero en la alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador, o máquina de estados convencional. El módulo de software puede residir en memoria RAM, memoria flash, registros, o cualquier otra forma de medio de almacenamiento grabable conocido en la técnica. Aquellos con experiencia apreciarán además que los datos, instrucciones, comandos, información, señales, bits, símbolos, y chips, que pudieran referenciarse a lo largo de la anterior descripción son representados ventajosamente por voltajes, corrientes, ondas electromagnéticas, partículas o campos magnéticos, partículas o campos ópticos, o cualquier combinación de los mismos.

Por tanto se han mostrado y descrito realizaciones preferidas de la presente invención. Resultará evidente sin embargo a aquellos con experiencia en la técnica, que pueden hacerse numerosas alteraciones a las realizaciones aquí reveladas sin apartarse del alcance de la invención tal como se define mediante las reivindicaciones.

Claims

1. Un método de codificación en un sistema de codificación de voz, comprendiendo el sistema de codificación de voz un primer decodificador (102,512) en un primer codificador de voz (504) y un primer codificador (100,505) en un segundo codificador de voz (502), comprendiendo el método:

: notificar a un segundo codificador (106,510) en el primer codificador de voz (504) si el primer decodificador (104,512) falla al recibir una trama transmitida por el primer codificador (100,506);

: transmitir un paquete modificado desde el segundo codificador (106,510) a un segundo decodificador (110,508) en respuesta a la notificación; y

: notificar al primer codificador (100,506) cuando el segundo decodificador (110,508) recibe el paquete modificado desde el segundo codificador (106,510), caracterizado por:

: codificar un paquete en el primer codificador (100,506) con un formato de codificación modificado predictivo o no predictivo.

2. El método de la reivindicación 1, donde el paquete modificado comprende un paquete con un bit indicador de borrado puesto al valor digital de uno.

3. El método de la reivindicación 1, donde el formato modificado de codificación predictivo o no predictivo comprende un esquema de codificación de baja memoria.

4. El método de la reivindicación 1, donde el formato modificado de codificación predictivo o no predictivo comprende un esquema de codificación sin memoria.

5. El método de la reivindicación 1, donde el primer codificador de voz (504) radica en una unidad de abonado (10) y el segundo codificador de voz (502) radica en una estación base (12) de un sistema inalámbrico de comunicación.

6. El método de la reivindicación 1, donde el segundo codificador de voz (502) radica en una unidad de abonado (10) y:

el primer codificador de voz (504) radica en una estación base (12) de un sistema inalámbrico de comunicación.

7. Un sistema de codificación de voz, que comprende:

: un primer y un segundo codificadores de voz (502,504), incluyendo el primer codificador de voz (502) un primer codificador (100,506) y un primer decodificador (110,508), incluyendo el segundo codificador de voz (504) un segundo codificador (106,510) y un segundo decodificador (104, 512);

: medios para notificar al segundo codificador (106,510) si el segundo decodificador (104,512) falla al recibir una trama transmitida por el primer codificador (100,506);

: medios para transmitir un paquete modificado desde el segundo codificador (106,510) al primer decodificador (110,508) en respuesta a la notificación; y

: medios para notificar al primer codificador (100,506) cuando el primer decodificador (110,508) recibe el paquete modificado desde el segundo codificador (106,510), caracterizado por:

: medios para codificar un paquete en el primer codificador (100,506) con un formato modificado de codificación predictivo o no predictivo.

8. El sistema de la reivindicación 7, donde el paquete modificado comprende un paquete con un bit indicador de borrado puesto al valor digital de uno.

9. El sistema de la reivindicación 7, donde el formato modificado de codificación predictivo o no predictivo comprende un esquema de codificación de baja memoria.

10. El sistema de la reivindicación 7, donde el formato modificado de codificación predictivo o no predictivo comprende un esquema de codificación sin memoria.

11. El sistema de la reivindicación 7, donde el primer codificador de voz (502) radica en una unidad de abonado (10) y el segundo codificador de voz (504) radica en una estación base (12) de un sistema inalámbrico de comunicación.

12. El sistema de la reivindicación 7, donde el segundo codificador de voz (504) radica en una unidad de abonado (10) y el primer codificador de voz (502) radica en una estación base (12) de un sistema inalámbrico de comunicación.

13. El sistema de cualquiera de la reivindicaciones 7 a 12, donde:

: el primer codificador (100,506) se configura a codificar paquetes de tramas de voz y transmitir los paquetes a través de un canal de comunicación al segundo decodificador (104,512);

: el segundo decodificador (104,512) se configura para recibir y decodificar paquetes y comprende dichos medios para notificar al segundo codificador (106,510);

: el segundo codificador (106,510) se configura a codificar y transmitir paquetes y para modificar un paquete en respuesta a la notificación desde el secundo decodificador (104,512), comprendiendo el segundo codificador (106,510) dichos medios para transmitir un paquete modificado al primer decodificador (110,508);

: el primer decodificador (110, 508) comprende dichos medios para notificar al primer codificador (100,506) y se configura para recibir y decodificar paquetes y para enviar una señal al primer codificador (100,506) tras recibir un paquete modificado desde el segundo codificador (106,510), y

: el primer codificador (100,506) comprende los medios para codificar un paquete con un formato modificado de codificación predictivo o no predictivo en respuesta a la señal desde el primer decodificador (110,508).