ES2276690T3 - Particion de espectro de frecuencia de una forma de onda prototipo. - Google Patents

Particion de espectro de frecuencia de una forma de onda prototipo. Download PDF

Info

Publication number
ES2276690T3
ES2276690T3 ES00950431T ES00950431T ES2276690T3 ES 2276690 T3 ES2276690 T3 ES 2276690T3 ES 00950431 T ES00950431 T ES 00950431T ES 00950431 T ES00950431 T ES 00950431T ES 2276690 T3 ES2276690 T3 ES 2276690T3
Authority
ES
Spain
Prior art keywords
band
bands
adjacent
voice
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00950431T
Other languages
English (en)
Inventor
Sharath Manjunath
Andrew P. Dejaco
Arasanipalai K. Ananthapadmanabhan
Pengjun Huang
Eddie Lun Tik Choy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2276690T3 publication Critical patent/ES2276690T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

Un método de segmentación del espectro de frecuencia de un prototipo de un marco, el método comprende: Dividir (604) el espectro de frecuencia en una pluralidad de segmentos; Asignar (606) una pluralidad de bandas de frecuencia a cada segmento; y Establecer, para cada segmento, un conjunto de anchos de banda para la pluralidad de bandas de la frecuencia fundamental; Seleccionar (610) cuándo establecer el conjunto de anchos de banda mediante: Asignar (614) anchos de banda fijos uniformes para todas las bandas en un segmento particular; o Asignar (624) anchos de banda fijos no uniformes para la pluralidad de bandas en un segmento particular; o Asignar (626 a 640) anchos de banda variable a la pluralidad de bandas en un segmento particular; y Asignar los anchos de banda de conformidad con la selección, En donde, si el conjunto de anchos de banda es establecido mediante asignar anchos de banda variable (626 a 640) a la pluralidad de bandas en un segmento particular, entonces asignar comprende:Establecer (626) un ancho de banda objetivo; Buscar (628 a 632), para cada banda, un vector de amplitud del prototipo para determinar el número armónico máximo de la frecuencia fundamental en la banda, excluyendo de la búsqueda los rangos cubiertos por cualquier borde de banda previamente establecido; y Posicionar (634), para cada banda, los bordes de banda alrededor del número armónico máximo de modo que el número total de armónicos de la frecuencia fundamental localizada entre los bordes de banda sea igual al ancho de banda objetivo dividido por la frecuencia fundamental.

Description

Partición de espectro de frecuencia de una forma de onda prototipo.
Antecedentes de la invención Campo de la invención
La invención presente pertenece generalmente al campo de procesamiento de la voz, y más específicamente a los métodos y aparatos para identificar las bandas de frecuencia para calcular defasajes lineales entre prototipos de marco en codificadores de voz.
Antecedentes
La transmisión de voz mediante técnicas digitales se ha hecho general, particularmente en aplicaciones de telefonía de larga distancia y radio-digitales. Esto, a su vez, ha creado interés en determinar la cantidad mínima de información que puede ser enviada sobre un canal mientras se mantiene la calidad percibida de la voz reconstruida. Si la voz es transmitida por simple muestreo y digitalización, entonces una tasa de datos en el orden de los sesenta y cuatro kilobits por segundo (Kbps) se requiere para lograr una calidad de voz de teléfono analógico convencional. Sin embargo, a través del uso de análisis de voz, seguido por la codificación apropiada, transmisión, y resíntesis en el receptor, una reducción significativa en la tasa de datos puede ser lograda.
Los dispositivos para comprimir voz encuentran uso en muchos campos de las telecomunicaciones. Un campo ejemplar son las comunicaciones inalámbricas. El campo de las comunicaciones inalámbricas tiene muchas aplicaciones incluyendo, por ejemplo, teléfonos inalámbricos, página, bucles locales inalámbricos, telefonía inalámbrica como los sistemas de telefonía móvil y PCS, telefonía móvil mediante el protocolo de la Internet (IP por sus siglas en inglés), y los sistemas de comunicación por satélite. Una aplicación particularmente importante es la telefonía inalámbrica para suscriptores móviles.
Diversas interfases aéreas han sido desarrolladas para sistemas inalámbricos de comunicación incluyendo, por ejemplo, el acceso múltiple por división de frecuencia (FDMA por sus siglas en inglés), el acceso múltiple por división de tiempo (TDMA por sus siglas en inglés), y el acceso múltiple por división de código (CDMA por sus siglas en inglés). En conexión con esto, diversas normas domésticas e internacionales han sido establecidas incluyendo, por ejemplo, el Servicio Telefónico Móvil Avanzado (AMPS por sus siglas en inglés), el Sistema Global para Comunicaciones Móviles (GSM por sus siglas en inglés), y Estándar Ínterin 95 (IE-95 por sus siglas en inglés). Un sistema de comunicación ejemplar de telefonía inalámbrica es un sistema de acceso múltiple por división de código (CDMA por sus siglas en inglés). El estándar IS-95 y sus derivados, IS-95A, ANSI J-STD-008, IS-95B, las normas propuestas de tercera generación IS-95C e IS-2000, etc. (referidos colectivamente a partir de este punto como IS-95), son promulgados por la Asociación de Industrias de las Telecomunicaciones (TIA por sus siglas en inglés) y otros organismos de normas bien conocidos para especificar el uso de la interfaz aérea CDMA para móviles o los sistemas de comunicación de telefonía PCS. Sistemas de comunicación inalámbricos ejemplares configurados sustancialmente de conformidad con el uso del estándar IS-95 están descritos en las Patentes USA Nos. 5.103.459 y 4.901.307, las cuales están asignados al apoderado de la presente invención.
Los dispositivos que utilizan técnicas para comprimir voz extrayendo parámetros que guardan relación con un modelo de generación de voz humana son llamados codificadores de voz. Un codificador de voz divide la señal de voz entrante en bloques de tiempo, o marcos de análisis. Los codificadores de voz típicamente comprenden un codificador y un decodificador. El codificador analiza el marco de voz entrante para extraer ciertos parámetros pertinentes, y luego discretiza los parámetros en representación binaria, esto es, a un conjunto de bits o un paquete binario de datos. Los paquetes de datos son transmitidos sobre el canal de comunicación hacia un receptor y un decodificador. El decodificador procesa los paquetes de datos, los desdiscretiza para producir los parámetros, y resintetiza los marcos de voz usando los parámetros no discretizados.
La función del codificador de voz es comprimir la señal de voz digitalizada en una señal de baja tasa de bits quitando todas las redundancias naturales inherentes en la voz. La compresión digital es lograda representando el marco de voz de entrada con un conjunto de parámetros y utilizando discretización para representar los parámetros con un conjunto de bits. Si el marco de voz de entrada tiene un número de bits N_{i} y el paquete de datos producido por el codificador de voz tiene un número de bits N_{0}, entonces el factor de compresión logrado por el codificador de voz es C_{r} = N_{i}/N_{o}. El desafío es retener alta la calidad de voz de la voz decodificada mientras se alcanza el factor de compresión objetivo. El rendimiento de un codificador de voz depende de (1) cuán bien el modelo de voz, o la combinación del análisis y el proceso de síntesis descrito arriba, actúan, y (2) cuán bien el proceso de discretización de parámetro es realizado a la tasa de bits objetivo de N_{0} bits por marco. La meta del modelo de voz es por lo tanto captar la esencia de la señal de voz, o la calidad de voz objetivo, con un conjunto pequeño de parámetros para cada marco.
Quizá lo más importante en el diseño de un codificador de voz es la búsqueda de un buen conjunto de parámetros (incluyendo vectores) para describir la señal de voz. Un buen conjunto de parámetros precisa un bajo ancho de banda de sistema para la reconstrucción de una de señal de voz perceptivamente preciso. El Tono, potencia de la señal, cobertura espectral (o formants), espectro de amplitud, y los espectros de fase son ejemplos de parámetros de codificación de voz.
Los codificadores de voz pueden ser implementados como codificadores de dominio de tiempo, los cuales intentan captar la forma de onda de voz de dominio de tiempo mediante el procesamiento de alta resolución de tiempo para codificar segmentos pequeños de voz (típicamente 5 milisegundos (ms)) a la vez. Para cada submarco, un representante de alta precisión es encontrado de un espacio de código cifrado por medio de diversos algoritmos de búsqueda conocidos en la técnica. Alternativamente, los codificadores de voz pueden ser implementados como codificadores de dominio de frecuencia, los cuales intentan capturar el espectro de voz de corto plazo del marco de voz de entrada con un conjunto de parámetros (análisis) y utilizar un proceso de síntesis correspondiente para recrear la forma de onda de voz de los parámetros espectrales. El discretizador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de código en correspondencia con técnicas de discretización descritas en A. Gersho & R.M. Gray, Discretización de Vectores y Compresión de Señales (1992).
Un codificador de voz de dominio de tiempo muy conocido es el Predictor Linear de Código Excitado (CELP por sus siglas en inglés) descrito en L.B. Rabiner y R.W. Schafer, Procesamiento Digital de Señales de Voz 396-453 (1978). En un codificador CELP, las correlaciones de corto plazo, o redundancias, en la señal de voz son eliminadas por un análisis de predicción lineal (LP por sus siglas en inglés), lo cual encuentra los coeficientes de un filtro de formant de corto plazo. Aplicar el filtro de predicción de corto plazo al marco de voz entrante genera una señal de residuo LP, la cual es luego modelada y discretizada con parámetros de filtro de predicción de largo plazo y un subsiguiente código cifrado estocástico. Así, la codificación CELP divide la tarea de codificar la forma de onda de voz de dominio de tiempo en las tareas separadas de codificar los coeficientes del filtro de corto plazo LP y codificar el residuo LP. La codificación por dominios de tiempo puede ser realizada a una tasa fija (esto es, usando el mismo número de bits, N_{0}, para cada marco) o a una tasa variable (en cuales las tasas de bits diferentes sirven para tipos diferentes de contenidos de marco). Los codificadores de tasas variables intentan usar sólo la cantidad de bits necesaria para codificar los parámetros del codificador-decodificador a un nivel adecuado para obtener una calidad objetivo. Un codificador CELP de tasa variable ejemplar es descrito en la Patente USA No. 5.414.196, la cual está asignada al apoderado de la invención presente.
Los codificadores de dominio de tiempo como el codificador CELP típicamente dependen de un número alto de bits, N_{0}, por marco, para conservar la precisión de la forma de onda de voz de dominio de tiempo. Tales codificadores típicamente dan una calidad de voz excelente proporcionado el número de bits, N_{0}, por marco, que es relativamente grande (por ejemplo, 8 kilobits por segundo o superior). Sin embargo, a tasas bajas de bits (4 kilobits por segundo e inferior), los codificadores por dominio de tiempo no pueden retener una calidad alta y rendimiento robusto debido al número limitado de bits disponibles. A tasas bajas de bits, el espacio limitado de código cifrado recorta la capacidad de correspondencia de la forma de onda de los codificadores de dominio de tiempo convencionales, los cuáles son tan exitosamente desplegados en aplicaciones comerciales de tasas más altas. Por lo tanto, a pesar de mejoras con el paso del tiempo, muchos sistemas de codificación CELP que operan a bajas tasas bits padecen de distorsión perceptivamente significativa típicamente caracterizada como ruido.
Hay actualmente una oleada de interés de investigación y fuerte necesidad comercial para desarrollar un codificador de voz de alta calidad que opere a medias y bajas tasas de bits (esto es, en el rango de 2,4 hasta 4 kilobits por segundo e inferior). Las áreas aplicativas incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía por Internet, diversas aplicaciones multimedia y que emanan voz, correo de voz, y otros sistemas de almacenamiento de voz. Las fuerzas motrices son la necesidad de alta capacidad y de actuación robusta bajo situaciones de pérdida de paquetes. Diversos esfuerzos recientes de estandarización de codificación de voz son otra fuerza motriz directa que propulsa la investigación y el desarrollo de algoritmos de codificación de voz de tasa baja. Un codificador de voz de tasa baja crea más canales, o usuarios, por ancho de banda admisible de aplicación, y un codificador de voz de tasa baja pareado con una capa adicional de codificación de canales adecuada se puede acomodar al conjunto de bits presupuestado en las especificaciones del codificador y puede dar una actuación robusta bajo condiciones de error del canal.
Una técnica efectiva para codificar voz eficazmente en tasas bajas de bits es la codificación multimodo. Una técnica ejemplar de codificación multimodo es descrita en la Patente USA No. 6.691.084, titulada CODIFICACIÓN DE VOZ DE TASA VARIABLE, archivada el 21 de diciembre de 1998, asignada al apoderado de la invención presente. Los codificadores multimodos convencionales aplican diferentes modos o algoritmos de codificación-decodificación, a tipos diferentes de marcos de voz de entrada. Cada modo, o procesamiento de codificación-decodificación, está hecho a la medida para representar óptimamente un cierto tipo de segmento de voz, como, por ejemplo, voz hablada, voz no hablada, voz de transición (por ejemplo, entre hablada y no hablada), y ruido de fondo (no voz) de la manera más eficiente. Un mecanismo externo de decisión de modo de bucle abierto examina el marco de voz de entrada y hace una decisión referente a cuál modo debe aplicarse al marco. La decisión de modo de bucle abierto es típicamente realizada extrayendo un número de parámetros del marco de entrada, evaluando los parámetros en lo que se refiere a ciertas características temporales y espectrales, y basando una decisión de modo en la evaluación.
Los sistemas de codificación que operan a tasas del orden de los 2,4 kilobits por segundo generalmente son paramétricos por naturaleza. Esto es, tales sistemas de codificación operan transmitiendo los parámetros que describen el período de tono y la cubierta espectral (o formants) de la señal de voz a intervalos regulares. Ilustrativo de estos también llamados codificadores paramétricos es el sistema vocóder LP.
Los vocóderes LP modelan una señal de voz hablada con solo un pulso por período de tono. Esta técnica básica puede ser aumentada para incluir información de transmisión acerca de la cubierta espectral, entre otras cosas. Aunque los vocóderes LP proporcionan un rendimiento generalmente razonable, pueden introducir distorsión perceptivamente significativa, típicamente caracterizadas como zumbido.
En estos últimos años, han emergido codificadores que son híbridos de ambos codificadores de forma de onda y codificadores paramétricos. Ilustrativo de estos llamados codificadores híbridos está el sistema de codificación de voz por interpolación de la forma de onda prototipo (PWI por sus siglas en inglés). El sistema de codificación PWI también puede ser conocido como un codificador de voz por período de tono prototipo (PPP por sus siglas en inglés). Un sistema de codificación PWI proporciona un método eficiente para codificar voz hablada. El concepto básico de PWI es extraer un ciclo de tono representativo (la forma de onda prototipo) a los intervalos fijos, para transmitir su descripción, y reconstruir la señal de voz interpolando entre las formas de onda del prototipo. El método PWI puede operar lo mismo en la señal de residuo LP o en la señal de voz. Un codificador de voz ejemplar PWI, o PPP, es descrito en la Patente USA No. 6.456.964 titulada CODIFICACIÓN PERIÓDICA DE VOZ, archivada el 21 de diciembre de 1998, asignada al apoderado de la invención presente. Otros codificadores de voz PWI, o PPP, son descritos en la Patente USA No. 5.884.253 y W. Bastiaan Kleijn y Wolfgang Granzow Métodos Para La Interpolación De La Forma De Onda En La Codificación De Voz, En El Procesamiento De 1 Señal Digital 215-230 (1991).
La Patente USA No. 5.664.056 describe un codificador digital con asignación dinámica de bit de discretización. Una señal digital de entrada es dividida en rangos de frecuencia y luego dividida en el tiempo en bloques en cada uno de los rangos de frecuencia. La duración del tiempo de cada uno de los bloques puede ser variada de manera adaptativa.
M El Sharkawy et al en "Un Codificador de Banda Ancha DSP56156" Publicación Internacional de Ordenadores y Aplicaciones, USA, ACTA Press, Anaheim, CA, vol. 19, no. 1, 1997, páginas 31-37 describe un codificador de banda ancha en el cual el ancho de banda de la señal de entrada es dividido en subbandas iguales (a saber, 500 Hz) y luego dividido uniformemente en bandas bajas y altas.
La Patente USA No. 5.684.946 describe un sintetizador por excitación multibanda (MBE por sus siglas en inglés) para los sistemas de envío de mensajes de voz de tasa de bit muy bajas. El valor de una función continua LPC es calculada en 256 puntos. Los 256 puntos están divididos en un número de bandas uniformes o iguales con el número de bandas igual al número de armónicos.
En codificadores convencionales de voz, toda la información de fase para cada prototipo de tono en cada marco de voz es transmitida. Sin embargo, en codificadores de voz de tasa baja de bits, es deseable conservar del ancho de banda tanta extensión como sea posible. Consecuentemente, sería ventajoso proporcionar un método que transmita menos parámetros de fase. Por lo tanto, hay una necesidad de un codificador de voz que transmita menos información de fase por marco.
Sumario de la invención
La invención presente está dirigida a un codificador de voz que transmite menos información de fase por marco. Consecuentemente, en un aspecto de la invención, un método de particionado del espectro de frecuencia de un prototipo de un marco es proporcionado como se publica en la reivindicación 1.
En otro aspecto de la invención, un codificador de voz configurado para particionar el espectro de frecuencia de un prototipo de un marco es proporcionado se publica en la reivindicación 9.
Algunas estrategias anteriores de la técnica para el particionado de un espectro de frecuencia en el contexto de codificación de audio son reveladas en Zemoun R et al: "Diseño de un Codificador Subbanda Para Tasas Bajas de Bit Utilizando Esquemas de Codificación de Bandas Fijos y Variables", Conferencia Internacional en Electrónica Industrial, Control e Instrumentación, vol. 3, página 1901-1906, septiembre de 1994.
Breve descripción de los dibujos
La figura 1 es un diagrama de bloques de un sistema telefónico inalámbrico.
La figura 2 es un diagrama de bloques de un canal de comunicación terminado en cada extremo por codificadores de voz.
La figura 3 es un diagrama de bloques de un codificador.
La figura 4 es un diagrama de bloques de un decodificador.
La figura 5 es un diagrama de flujo que ilustra un proceso de decisión de codificación de voz.
La figura 6A es una gráfica de amplitud de la señal de voz versus tiempo, y la figura 6B es una gráfica de amplitud del residuo de predicción lineal (LP) versus tiempo.
La figura 7 es un diagrama de bloques de un codificador de voz de período de tono prototipo (PPP).
La figura 8 es un diagrama de flujo que ilustra los pasos de algoritmo desarrollados por un codificador de voz PPP, como el codificador de voz de la figura 7, para identificar bandas de frecuencia en una representación de series discretas de Fourier (DFS) de un período de tono prototipo.
Descripción detallada de las realizaciones preferidas
Las realizaciones ejemplares describieron a partir de aquí residen en un sistema de comunicación de telefonía inalámbrico configurado para utilizar a una interfaz aérea CDMA. No obstante, sería comprendido por esos expertos en la técnica que un método de submuestreo y las características de realización del aparato de la invención de este momento puede residir en cualquiera de diversos sistemas de comunicación que utilizan una gran variedad de tecnologías conocidas por esos expertos en la técnica.
Como es ilustrado en la figura 1, una sistema telefónico inalámbrico CDMA generalmente incluye una pluralidad de unidades móviles de suscriptores 10, una pluralidad de estaciones base 12, controladores de estación base (BSCs por sus siglas en inglés) 14, y un centro conmutativo móvil (MSC por sus siglas en inglés) 16. El MSC 16 es configurado para interconectar con una red convencional de telefonía pública conmutada (PSTN por sus siglas en inglés) 18. El MSC 16 es también configurado para interconectar con los BSCs 14. Los BSCs 14 están acoplados a las estaciones base 12 por líneas de transmisión. Las líneas de transmisión pueden ser configuradas para soportar cualquiera de varias interfaces conocidas incluyendo, por ejemplo, E1/T1, ATM, IP, PPP, Frame Relay, HDSL, ADSL, o xDSL. Es entendido que puede haber más de dos BSCs 14 en el sistema. Cada estación base 12 ventajosamente incluye al menos un sector (no mostrado), cada sector comprendiendo una antena omnidireccional o una antena apuntada en una dirección particular radialmente fuera de la estación base 12. Alternativamente, cada sector puede comprender dos antenas para la recepción de diversidad. Cada estación base 12 ventajosamente puede ser diseñada para dar soporte a una pluralidad de asignaciones de frecuencias. La intersección de un sector y una asignación de frecuencias pueden ser referidas como un canal CDMA. Las estaciones base 12 también pueden ser conocidas como subsistemas transceptores de estación base (BTSs) 12. Alternativamente, "estación base" puede ser usada en la industria para referirse colectivamente a un BSC 14 y a uno o más BTSs 12. Los BTSs 12 también pueden se denotados como "sitios de celda" 12. Alternativamente, sectores individuales de un BTS 12 dado pueden ser referidos como sitios de celda. Las unidades móviles de suscriptor 10 son típicamente teléfonos móviles o PCS 10. El sistema es ventajosamente configurado para el uso de conformidad con el estándar IS-95.
Durante la operación típica del sistema telefónico móvil, las estaciones base 12 reciben conjuntos de señales inversas de enlace desde conjuntos de unidades móviles 10. Las unidades móviles 10 conducen llamadas telefónicas u otras comunicaciones. Cada señal inversa de enlace recibida por una estación base 12 dada es procesada dentro de esa estación base 12. Los datos resultantes se le reenvían a los BSCs 14. Los BSCs 14 proporcionan asignación de recursos de llamadas y funcionalidad de administración de movilidad incluyendo la orquestación de transferencias de celda suaves entre estaciones base 12. Los BSCs 14 también encaminar los datos recibidos por el MSC 16, el cual proporciona servicios adicionales de determinación del recorrido para interconectarse con el PSTN 18. Similarmente, el PSTN 18 se interconecta con el MSC 16, y el MSC 16 se interconecta con los BSCs 14, los cuales a su vez controlan las estaciones base 12 para transmitir conjuntos de señales delanteras de enlace hacia conjuntos de unidades móviles 10.
En la figura 2 un primer codificador 100 recibe muestras de voz digitalizada s(n) y codifica las muestras s(n) para la transmisión en un medio de transmisión 102, o canal de comunicación 102, a un primer decodificador 104. El decodificador 104 decodifica las muestras codificadas de voz y sintetizan una señal de voz de salida S_{SYNTH}(n). Para la transmisión en dirección opuesta, un segundo codificador 106 codifica muestras voz digitalizada s(n), las cuales son transmitidas en un canal de comunicación 108. Un segundo decodificador 110 recibe y decodifica las muestras codificadas de voz, generando una señal sintetizada de voz de salida S_{SYNTH}(n).
Las muestras de voz s(n) representan señales de voz que han sido digitalizadas y discretizadas de conformidad con cualquiera de los diversos métodos conocidos en la técnica incluyendo, por ejemplo, la modulación por impulsos codificados (PCM por sus siglas en inglés), la ley µ compuesta, o la ley A. Como es conocido en la técnica, las muestras de voz s(n) son organizadas en marcos de datos de entrada en donde cada marco comprende un número predeterminado de muestras voz digitalizadas s(n). En una realización ejemplar, una tasa de muestreo de 8 Khz. es empleada, con cada marco de 20 ms consistentes en 160 muestras. En las realizaciones descritas más abajo, la tasa de transmisión de datos ventajosamente puede ser variada en una base marco a marco desde 13,2 kilobits por segundo (tasa completa) hasta 6,2 kilobits por segundo (media tasa) hasta 2,6 kilobits por segundo (cuarto de tasa) hasta 1 kilobit por segundo (octava de tasa). Variar la tasa de transmisión de datos es ventajoso porque más tasas de bits más bajas pueden ser selectivamente utilizadas para marcos que contienen relativamente menos información de voz. Como es entendido por esos expertos en la técnica, otras tasas de muestreo, tamaños de marco, y tasas de transmisión de datos pueden ser usadas.
El primer codificador 100 y el segundo decodificador 110 conjuntamente comprenden un primer codificador de voz, o codec de voz. El codificador de voz podría ser usado en cualquier comunicador transmitir señales de voz, incluyendo, por ejemplo, las unidades de suscriptores, BTSs, o BSCs descritos arriba con referencia a la figura 1. De modo semejante, el segundo codificador 106 y el primer decodificador 104 conjuntamente comprenden un segundo codificador de voz. Es comprendido por Los expertos en la técnica que los codificadores de voz pueden ser implementados con un procesador de señales digitales (PSD por sus siglas en inglés), un circuito integrado para aplicaciones específicas (ASIC por sus siglas en inglés), lógica discreta de compuertas, soporte lógico inalterable (del inglés firmware), o cualquier módulo programable convencional de software y un microprocesador. El módulo del software podría radicar en memoria RAM, memoria flash, registros, o cualquier otra forma de medio de almacenamiento masivo escribible conocido en la técnica. Alternativamente, cualquier procesador convencional, controlador, o máquina es estados podría ser substituido por el microprocesador. ASICs ejemplares diseñados específicamente para la codificación de voz son descritos en la Patente USA No. 5.727.123, asignada al apoderado de la invención presente, y USA No. 5.784.532, titulada VOCODER ASIC, archivada el 16 de febrero de 1994, asignada al apoderado de la invención
presente.
En la figura 3 un codificador 200 que puede ser usado en un codificador de voz incluye un módulo de decisión de modo 202, un módulo de estimación de tono 204, un módulo de análisis LP 206, un filtro de análisis LP 208, un módulo de discretización LP 210, y un módulo de discretización de residuo 212. Marcos de voz de entrada s(n) le son proporcionados al módulo de decisión de modo 202, el módulo de estimación de tono 204, el módulo de análisis LP 206, y el filtro de análisis LP 208. El módulo de decisión de modo 202 produce un índice de modo I_{M} y un modo M basado en la periodicidad, energía, relación señal/ruido (SNR por sus siglas en inglés), o tasa de cruce cero, entre otras características, de cada marco de voz de entrada s(n). Métodos diversos para clasificar marcos de voz según la periodicidad son descritos en la Patente USA No. 5.911.128, la cual está asignada al apoderado de la invención presente. Tales métodos son también incorporados en los Estándares Interinos de la Industria de la Asociación de la Industria de las Telecomunicaciones TIA/EIA IS-127 y TIA/EIA IS-733. Un esquema ejemplar de decisión de modo es también descrito en la antes mencionada Patente USA No. 6.691.084.
El módulo de estimación de tono 204 produce un índice de tono I_{P} y un valor de atraso P_{0} basado en cada marco de voz de entrada s(n). El módulo de análisis LP 206 realiza análisis predictivo lineal en cada marco de voz de entrada s(n) para generar un parámetro LP a. El parámetro LP a le es proporcionado al módulo de discretización LP 210. El módulo de discretización LP 210 también recibe el modo M, por consiguiente realizando el proceso de discretización en una manera dependiente del modo. El módulo de discretización LP 210 produce un índice LP I_{LP} y un parámetro discretizado LP \hat{a}. El filtro de análisis LP 208 recibe el parámetro discretizado LP \hat{a} además del marco de voz de entrada s(n). El filtro de análisis LP 208 genera una señal de residuo LP R[n], la cual representa el error entre los marcos de voz de entrada s(n) y la voz reconstruida basada en los parámetros predecidos lineales discretizados. El residuo LP R[n], el modo M, y el parámetro discretizado LP \hat{a} le son proporcionados al módulo de discretización de residuo 212. Basado en estos valores, el módulo de discretización de residuo 212 produce un índice de residuo I_{R} y una señal discretizada de residuo. \hat{R}[n]
En la figura 4 un decodificador 300 que puede ser usado en un codificador de voz incluye un módulo de decodificación de parámetro LP 302, un módulo de decodificación de residuo 304, un módulo de decodificación de modo 306, y un filtro de síntesis LP 308. El módulo de decodificación de modo 306 recibe y decodifica un índice de modo I_{M}, generando de allí un modo M. El módulo de decodificación de parámetro LP 302 recibe el modo M y un índice LP I_{LP}. El módulo de decodificación de parámetro LP 302 decodifica los valores recibidos para producir un parámetro discretizado LP \hat{a}.
El módulo de decodificación de residuo recibe un índice de residuo I_{R}, un índice de tono I_{P}, y el índice de modo I_{M}. El módulo de decodificación de residuo 304 decodifica los valores recibidos para generar una señal discretizada de residuo \hat{R}[n]. La señal discretizada de residuo \hat{R}[n] y el parámetro discretizado LP \hat{a} le son proporcionados al filtro de síntesis LP 308, el cual sintetiza una señal decodificada de voz de salida \hat{s}[n] a partir de estos.
La operación y la implementación de los diversos módulos del codificador 200 de la figura 3 y el decodificador 300 de la figura 4 son conocidos en la técnica y descritos en la antes mencionada Patente USA No. 5.414.796 y L. B. Rabiner y R. W. Schafer, Procesamiento Digital de Señales de Voz 396-453 (1978).
Como es ilustrado en el diagrama de flujo de la figura 5, un codificador de voz de conformidad con una realización sigue un conjunto de pasos en el procesamiento de las muestras de voz para la transmisión. En el paso 400 el codificador de voz recibe las muestras digitales de una señal de voz en marcos sucesivos. Al recibir un marco dado, el codificador de voz procede al paso 402. En el paso 402 el codificador de voz detecta la energía del marco. La energía es una medida de la actividad de voz del marco. La detección de voz es realizada sumando los cuadrados de los tamaños de las muestras digitalizadas de voz y comparando la energía resultante con un valor umbral. En una realización el valor del umbral se adapta basado en el nivel cambiante de ruido de fondo. Un detector ejemplar de actividad de voz de umbral variable es descrito en la antes mencionada Patente USA No. 5.414.796. Algunos sonidos de voz no hablada pueden ser muestras de energía sumamente baja que pueden ser equivocadamente codificadas como ruido de fondo. Para impedir esto de ocurrir, la inclinación espectral de muestras de energía baja puede ser usada para distinguir la voz no hablada de ruido de fondo, como es descrita en la antes mencionada Patente USA No. 5.414.796.
Después de detectar la energía del marco, el codificador de voz procede al paso 404. En el paso 404 el codificador de voz determina si la energía detectada del marco es suficiente para clasificar el marco como de contener información de voz. Si la energía detectada del marco cae debajo de un nivel de umbral predefinido, entonces el codificador de voz procede al paso 406. En el paso 406 el codificador de voz codifica el marco como ruido de fondo (esto es, no voz, o silencio). En una realización el marco de ruido de fondo está codificado a la tasa del 1/8, o 1 kilobit por segundo. Si en el paso 404 la energía detectada del marco se encuentra o excede el nivel de umbral predefinido, el marco es clasificado como de voz y el codificador de voz procede al paso 408.
En el paso 408 el codificador de voz determina si el marco es de voz no hablada, esto es, el codificador de voz examina la periodicidad del marco. Diversos métodos conocidos de determinación de periodicidad incluyen, por ejemplo, el uso de cruces cero y el uso de funciones de autocorrelación normalizada (NACFs por sus siglas en inglés). En particular, el uso de cruces cero y NACFs para detectar periodicidad es descrito en las antemencionadas Patente USA No. 5.911.128 y Patente USA No. 6.691.084. Además, métodos citados anteriormente usados para hacer la distinción de voz hablada de voz no hablada están incorporados en los Estándares Interinos de la Asociación de la Industria de las Telecomunicaciones TIA/EIAIS 127 y TIA/EIAIS-733. Se determina que si el marco es de voz no hablada en el paso 408, entonces el codificador de voz procede al paso 410. En el paso 410 el codificador de voz codifica el marco como la voz no hablada. En una realización los marcos de voz no hablada están codificados a un cuarto de tasa, o 2,6 kilobits por segundo. Si en el paso 408 no se determina que el marco es de voz no hablada, entonces el codificador de voz procede al paso 412.
En el paso 412 el codificador de voz determina si el marco es de voz de transición, utilizando los métodos de detección de periodicidad que son conocidos en la técnica, como es descrito en, por ejemplo, la antes mencionada Patente USA No. 5.911.128. Si se determina que el marco es voz es de transición, entonces el codificador de voz procede al paso 414. En el paso 414 el marco es codificado como de voz de transición (esto es, la transición de la voz no hablada a la voz hablada). En una realización el marco de voz de transición es codificado de conformidad con un método de codificación de interpolación de multipulso descrito en Patente USA No. 6.260.017 titulada CODIFICACIÓN POR INTERPOLACIÓN MULTIPULSO DE MARCOS DE VOZ DE TRANSICIÓN, archivada el 7 de mayo de 1999, asignada al apoderado de la invención presente. En otra realización el marco de voz de transición es codificado a tasa completa, o 13,2 kilobits por segundo.
Si en el paso 412 el codificador de voz determina que el marco no es de voz de transición, entonces el codificador de voz procede al paso 416. En el paso 416 el codificador de voz codifica el marco como de voz hablada. En una realización los marcos de voz hablada pueden ser codificados a media tasa, o 6,2 kilobits por segundo. Se logra también codificar marcos de voz hablada a tasa completa, o 13,2 kilobits por segundo (o tasa completa, 8 kilobits por segundo, en un codificador CELP de 8 k). Esos expertos en la técnica apreciarían, sin embargo, que codificar marco hablados a media tasa permite al codificador ahorrar ancho de banda valioso sacando provecho de la naturaleza de estabilidad de estado de los marcos hablados. Además, a pesar de la tasa usada para codificar la voz hablada, la voz hablada es ventajosamente codificada utilizando información de marcos anteriores, y se dice por lo tanto que son codificados de forma predictiva.
Los expertos apreciarían que lo mismo la señal de voz o el residuo LP correspondiente pueden ser codificados siguiendo los pasos mostrados en la figura 5. Las características de forma de onda de la voz de ruido, no hablada, de transición, y hablada pueden ser vistas como una función de tiempo en la gráfica de la figura 6A. Las características de forma de onda del residuo LP de ruido, no hablado, de transición, y hablado puede ser visto como una función de tiempo en la gráfica de la figura 6B.
En una realización un codificador de voz de período de tono prototipo (PPP por sus siglas en inglés) 500 incluye un filtro inverso 502, un extractor de prototipo 504, un discretizador de prototipo 506, un desdiscretizador de prototipo 508, un módulo de interpolación/síntesis 510, y un módulo de síntesis LPC 512, como es ilustrado en la figura 7. El codificador de voz 500 ventajosamente puede ser implementado como parte de un PSD, y puede residir, por ejemplo, en una unidad de suscriptor o estación base en un sistema PCS o de telefonía móvil, o en una unidad de suscriptor o un portal de acceso en un sistema por satélite.
En el codificador de voz 500, una señal digitalizada de voz s(n), donde la n es el número del marco, le es proporcionada al filtro LP inverso 502. En una realización particular, el largo del marco es de veinte ms. La función de transferencia del filtro inverso A(z) es computada de conformidad con la siguiente ecuación:
A (z) = 1 - a_{1}\ z^{-1} - a_{2}\ z^{-2} - ... - a_{p}\ z^{-p},
donde los coeficientes a, son toques de filtro que tienen valores predefinidos seleccionados de conformidad con métodos conocidos, como es descrito en las antes mencionadas Patentes USA Nos. 5.414.796 y 6.456.964. El número p indica el número de muestras previas que el filtro LP inverso 502 utiliza con propósitos de predicción. En una realización particular, p es establecida es diez.
El filtro inverso 502 proporciona a una señal del residuo LP r(n) para el extractor de prototipo 504. El extractor de prototipo 504 extrae un prototipo del marco actual. El prototipo es una porción del marco actual que será interpolada linealmente por el módulo de interpolación/síntesis 510 con prototipos de marcos previos que fueron situados de modo semejante dentro del marco para reconstruir la señal de residuo LP en el decodificador.
El extractor de prototipo 504 proporciona el prototipo para el discretizador del prototipo 506, el cual puede discretizar el prototipo de conformidad con cualquiera de técnicas diversas de discretización que son conocidas en la técnica. Los valores discretizados, que pueden ser obtenidos de una mesa de búsqueda (no mostrada), son instrumentados en un paquete, el cual incluye el retraso y otros parámetros de código cifrado, para la transmisión sobre el canal. El paquete es proporcionado a un transmisor (no mostrado) y es transmitido sobre el canal hacia un receptor (también no mostrado). Se dice que el filtro LP inverso 502, el extractor prototipo 504, y el discretizador prototipo 506 realizan análisis PPP en el marco actual.
El receptor recibe el paquete y proporciona el paquete al desdiscretizador de prototipo 508. El desdiscretizador de prototipo 508 puede desdiscretizar el paquete de conformidad con cualquiera de las diversas técnicas conocidas. El desdiscretizador de prototipo 508 proporciona el prototipo desdiscretizado al módulo de interpolación/síntesis 510. El módulo de interpolación/síntesis 510 interpola el prototipo con prototipos de marcos previos que fueron de modo semejante situados dentro del marco para reconstruir la señal de residuo LP para el marco actual. La interpolación y síntesis del marco son ventajosamente consumadas de conformidad con métodos conocidos descritos en la Patente USA No. 5.884.253 y en la antes mencionada Patente USA No. 6.456.964.
El módulo de interpolación/síntesis 510 proporciona la señal de residuo LP reconstruida \hat{r}(n)al módulo de síntesis LPC 512. El módulo de síntesis LPC 512 también recibe valores de parejas de líneas espectrales (LSP por sus siglas en inglés) desde el paquete transmitido, que se usa para realizar el filtrado LPC en la señal residuo LP reconstruida \hat{r}(n) para crear la señal reconstruida de voz \hat{s}(n) para el marco actual. En una realización alterna, la síntesis LPC de la señal de voz \hat{s}(n) puede ser realizada para el prototipo antes de hacer la interpolación/síntesis del marco actual. Se dice del desdiscretizador prototipo 508, del módulo interpolación/síntesis 510, y del módulo síntesis LPC 512 que realizan síntesis PPP del marco actual.
En una realización un codificador de voz PPP, como el codificador de voz 500 de la figura 7, identifica un número de bandas de frecuencia, B, para las cuales B defasajes lineales son computados. Las fases ventajosamente pueden ser submuestreadas inteligentemente antes de la discretización de conformidad con los métodos y el aparato descrito en la Patente USA No. 6.397.175, titulada MÉTODO Y APARATO PARA SUBMUESTREAR INFORMACIÓN ESPECTRAL de FASE, la cual está asignada al apoderado de la invención presente. El codificador de voz ventajosamente puede particionar el vector de la serie discreta de Fourier (DFS por sus siglas en inglés) del prototipo del marco siendo procesado en un pequeño número de bandas con ancho variable dependiendo de la importancia de amplitudes armónicas en la DFS entera, por lo tanto reduciendo proporcionalmente la discretización requerida. El rango entero de frecuencia desde 0 Hz hasta Fm Hz (siendo Fm la frecuencia máxima del prototipo siendo procesado) es dividido en L segmentos. Hay por lo tanto un número de armónicos, M, de manera que M es igual a Fm/Fo, donde Fo Hz es la frecuencia fundamental. Consecuentemente, el vector DFS para el prototipo, con vector constitutivo de amplitud y vector de fase, tiene M elementos. El codificador de voz preasigna b1, b2, b3, ..., bL bandas para los L segmentos, de forma que b1 + b2 + b3 + ... + bL es igual a B, el número total de bandas requeridos. Consecuentemente, hay b1bandas en el primer segmento, b2 bandas en el segundo segmento, etc., bL bandas en el segmento L-ésimo, y B bandas en el rango total de frecuencia. En una realización el rango entero de frecuencia es desde cero hasta 4000 Hz, el rango de la voz humana hablada.
En una realización bi bandas son uniformemente distribuidas en el i-ésimo segmento de los L segmentos. Esto es logrado dividiendo el rango de frecuencia en el i-ésimo segmento en bi partes iguales. Consecuentemente, el primer segmento está dividido en b1 bandas iguales, el segundo segmento está dividido en b2 bandas iguales, etc., y el segmento L-ésimo está dividido en bL bandas iguales.
En una realización alterna, un conjunto fijo de bordes de banda no uniformemente colocados es seleccionado para cada una de las bi bandas en el i-ésimo segmento. Esto es logrado escogiendo un conjunto arbitrario de bi bandas u obteniendo un promedio global del histograma de energía a lo largo del i-ésimo segmento. Una concentración alta de energía puede requerir una banda estrecha, y una concentración baja de energía puede usar una banda más ancha. Consecuentemente, el primer segmento está dividido en b1 bandas fijas desiguales, el segundo segmento está dividido en b2 bandas fijas desiguales, etc., y el segmento L-ésimo está dividido en bL bandas fijas desiguales.
En una realización alterna, un conjunto variable de bordes de banda es seleccionado para cada una de las bi bandas en cada subbanda. Esto es logrado comenzando con una anchura objetivo de bandas iguales para un valor razonablemente bajo, Fb Hz. Los siguientes pasos son entonces realizados. Un contador, n, es establecido a uno. El vector de amplitud es entonces analizado para encontrar la frecuencia, Fbm Hz, y el número armónico correspondiente, mb (que es igual a Fbm/Fo) del valor de amplitud más alto. Esta búsqueda es realizada excluyendo los rangos cubiertos por todos los bordes de bandas previamente establecidos (correspondientes a las iteraciones desde la 1 hasta la n-1). Los bordes de banda para la n-ésima banda entre las bi bandas son entonces establecidos en mb - Fb/Fo/2 y mb + Fb/Fo/2 en números armónicos, y, respectivamente, a Fmb - Fb/2 y Fmb + Fb/2 en Hz. El contador n es entonces incrementado, y los pasos de analizar el vector de amplitud y establecer los bordes de la banda son repetidos hasta que el contador n exceda bi. Consecuentemente, el primer segmento es dividido en b1 bandas variables desiguales, el segundo segmento es dividido en b2 bandas variables desiguales, etc., y el segmento L-ésimo es dividido en bL bandas variables desiguales.
En la realización descrita inmediatamente arriba, las bandas son adicionalmente refinadas para eliminar cualquier abertura entre bordes de bandas adyacentes. En una realización ambos el borde derecho de banda de la banda de frecuencia inferior y el borde izquierdo de banda de la banda de frecuencia inmediata superior son extendidos para reunirse en la mitad de la abertura entre los dos bordes (en donde una primera banda localizada a la izquierda de una segunda banda es menor en frecuencia que la segunda banda). Una forma para lograr esto es establecer los dos bordes de banda a su valor medio en Hz (y los números armónicos correspondientes). En una realización alterna, el borde derecho de banda de la banda de frecuencia inferior o el borde izquierdo de banda de la banda de frecuencia inmediata superior se establece igual al otro en Hz (o es establecido a un número armónico adyacente al número armónico del otro). La igualación de bordes de banda podría ser dependiente del contenido de energía en la banda que termina con el borde derecho de banda y en la banda que comienza a partir del borde izquierdo de banda. El borde de banda correspondiente a la banda que tiene más energía podría mantenerse sin cambiar mientras el otro borde de banda debería variarse. Alternativamente, el borde de banda correspondiente a la banda que tiene localización superior de energía en su centro podría variarse mientras el otro borde de banda sería igual. En una realización alterna, ambos el borde derecho de banda descrito arriba y el borde izquierdo de banda descrito arriba son movidos una distancia desigual (en Hz y número armónico) con una proporción de x a y, dónde x y y son las energías de banda de la banda a partir del borde izquierdo de banda y de la banda que termina con el borde derecho de banda, respectivamente. Alternativamente, x y y podrían ser la proporción de la energía en el centro armónico de la energía total de la banda que termina con el borde derecho de banda y la proporción de energía central en armónico para la energía total de la banda a partir del borde izquierdo de banda, respectivamente.
En una realización alterna, las bandas uniformemente distribuidas podrían ser usadas en alguno de los L segmentos del vector DFS, bandas fijas distribuidas no uniformemente podrían ser usadas en otros de los L segmentos del vector DFS, y las bandas variables distribuidas no uniformemente podrían ser usadas aún en los otros L segmentos del vector DFS.
En una realización un codificador de voz PPP, como el codificador de voz 500 de la figura 7, realiza los pasos de algoritmo ilustrados en el diagrama de flujo de la figura 8 para identificar bandas de frecuencia en una representación por serie discreta de Fourier (DFS por sus siglas en inglés) de un prototipo de período de tono. Las bandas son identificadas con el propósito de calcular alineaciones o defasajes lineales en las bandas con relación a la DFS de un prototipo de referencia.
En el paso 600 el codificador de voz empieza el proceso de identificar bandas de frecuencia. El codificador de voz luego procede al paso 602. En el paso 602 el codificador de voz calcula la DFS del prototipo a la frecuencia fundamental, Fo. El codificador de voz luego procede al paso 604. En el paso 604 el codificador de voz divide el rango de frecuencia en L segmentos. En una realización el rango de frecuencia va de cero a 4000 Hz, el rango de la voz humana hablada. El codificador de voz luego procede al paso 606.
En el paso 606 el codificador de voz ubica bL bandas para los L de manera que b1 + b2 + ... + bL es igual a un número total de bandas, B, para las cuales B defasajes lineales son computados. El codificador de voz luego procede al paso 608. En el paso 608, el codificador de voz establece un contador i de segmento igual a uno. El codificador de voz luego procede al paso 610. En el paso 610 el codificador de voz escoge un método de asignación para distribuir las bandas en cada segmento. El codificador de voz luego procede al paso 612.
En el paso 612 el codificador de voz determina si el método de asignación de la banda de paso 610 fue para distribuir las bandas uniformemente en el segmento. Si el método de asignación de la banda de paso 610 fue para distribuir las bandas uniformemente en el segmento, entonces el codificador de voz procede al paso 614. Si, por otra parte, el método de asignación de la banda de paso 610 no fue para distribuir las bandas uniformemente en el segmento, entonces el codificador de voz procede al paso 616.
En el paso 614 el codificador de voz divide el i-ésimo segmento en bi bandas iguales. El codificador de voz luego procede al paso 618. En el paso 618 el codificador de voz incrementa el contador del segmento. El codificador de voz luego procede al paso 620. En el paso 620 el codificador de voz determina si el contador i de segmento es mayor que L. Si el contador i de segmento es mayor que L, entonces el codificador de voz procede al paso 622. Si, por otra parte, el contador i de segmento no es mayor que L, entonces el codificador de voz regresa al paso 610 para escoger el método de asignación de la banda para el siguiente segmento. En el paso 622 el codificador de voz sale del algoritmo de identificación de banda.
En el paso 616 el codificador de voz determina si el método de asignación de banda del paso 610 fue para distribuir bandas fijas no uniformes en el segmento. Si el método de asignación de banda del paso 610 fue para distribuir bandas fijas no uniforme en el segmento, entonces el codificador de voz procede al paso 624. Si, por otra parte, el método de asignación de banda del paso 610 no fue para distribuir bandas fijas no uniforme en el segmento, entonces el codificador de voz procede al paso 626.
En el paso 624 el codificador de voz divide el i-ésimo segmento en bi bandas desiguales preprogramadas. Esto puede ser logrado usando métodos descrito arriba. El codificador de voz luego procede al paso 618, incrementando el contador i de segmento y continuando con la asignación de banda para cada segmento hasta que sean ubicadas bandas a todo lo largo del rango entero de frecuencia.
En el paso 626 el codificador de voz establece un contador n de banda igual a uno, y establece un ancho de banda inicial igual a Fb Hz. El codificador de voz luego procede al paso 628. En el paso 628 el codificador de voz excluye amplitudes para bandas en el rango de 1 a n-1. El codificador de voz luego procede al paso 630. En el paso 630 el codificador de voz ordena los vectores de amplitud restantes. El codificador de voz luego procede al paso 632.
En el paso 632 el codificador de voz determina la posición de la banda que tiene el número armónico más alto, mb. El codificador de voz luego procede al paso 634. En el paso 634 el codificador de voz establece los bordes de la banda alrededor de mb de manera que el número total de armónicos contenidos entre los bordes de la banda sea igual a Fb/Fo. El codificador de voz luego procede al paso 636.
En el paso 636 el codificador de voz mueve los bordes de banda de bandas adyacentes para llenar aberturas entre las bandas. El codificador de voz luego procede al paso 638. En el paso 638 el codificador de voz incrementa el contador n de banda. El codificador de voz luego procede al paso 640. En el paso 640 el codificador de voz determina si el contador n de banda es mayor que bi. Si el contador n de banda es mayor, entonces el codificador de voz procede al paso 618, incrementando el contador i de segmento y continuando con la asignación de banda para cada segmento hasta que sean ubicadas bandas a todo lo largo del rango entero de frecuencia. Si, por otra parte, el contador n de banda no es mayor, entonces el codificador de voz regresa al paso 628 para establecer el ancho para la siguiente banda en el segmento.
Por lo tanto, un aparato y método nuevo para identificar bandas de frecuencia para computar defasajes lineales entre prototipos de marco en un codificador de voz han sido descritos. Los expertos en la técnica tendrían por entendido que los diversos bloques lógicos ilustrativos y pasos de algoritmos descritos con respecto a las realizaciones reveladas aquí pueden ser implementados o realizados con un procesador de señales digitales (PSD por sus siglas en inglés), un circuito integrado para aplicaciones específicas (ASIC por sus siglas en inglés), lógica discreta de compuertas o por transistores, componentes discretos de hardware como, por ejemplo, registros y FIFO, un procesador que ejecuta un conjunto de instrucciones de soporte lógico inalterable (del inglés firmware), o cualquier módulo programable convencional de software y un microprocesador. El procesador ventajosamente puede ser un microprocesador, pero en la alternativa, el procesador puede ser cualquier procesador convencional, controlador, microcontrolador, o cualquier máquina de estados. El módulo del software podría radicar en memoria RAM, memoria flash, registros, o cualquier otra forma de medio de almacenamiento masivo escribible conocido en la técnica. Los expertos apreciarán además que los datos, instrucciones, las órdenes, información, señales, bits, símbolos, y chips que pueden ser referenciados a lo largo de la anterior descripción son ventajosamente representados por voltajes, corrientes, ondas electromagnéticas, partículas o campos magnéticos, partículas o campos ópticos, o cualquier combinación de estos.
Las realizaciones preferidas de la invención presente han sido entonces mostradas y descritas. Sería aparente para un experto en la técnica, sin embargo, que numerosas alteraciones pueden ser hechas a las realizaciones aquí reveladas sin irse del alcance de la invención como es definido por las reivindicaciones.

Claims (17)

1. Un método de segmentación del espectro de frecuencia de un prototipo de un marco, el método comprende:
Dividir (604) el espectro de frecuencia en una pluralidad de segmentos;
Asignar (606) una pluralidad de bandas de frecuencia a cada segmento; y
Establecer, para cada segmento, un conjunto de anchos de banda para la pluralidad de bandas de la frecuencia fundamental;
Seleccionar (610) cuándo establecer el conjunto de anchos de banda mediante:
Asignar (614) anchos de banda fijos uniformes para todas las bandas en un segmento particular; o
Asignar (624) anchos de banda fijos no uniformes para la pluralidad de bandas en un segmento particular; o
Asignar (626 a 640) anchos de banda variable a la pluralidad de bandas en un segmento particular; y
Asignar los anchos de banda de conformidad con la selección,
En donde, si el conjunto de anchos de banda es establecido mediante asignar anchos de banda variable (626 a 640) a la pluralidad de bandas en un segmento particular, entonces asignar comprende:
Establecer (626) un ancho de banda objetivo;
Buscar (628 a 632), para cada banda, un vector de amplitud del prototipo para determinar el número armónico máximo de la frecuencia fundamental en la banda, excluyendo de la búsqueda los rangos cubiertos por cualquier borde de banda previamente establecido; y
Posicionar (634), para cada banda, los bordes de banda alrededor del número armónico máximo de modo que el número total de armónicos de la frecuencia fundamental localizada entre los bordes de banda sea igual al ancho de banda objetivo dividido por la frecuencia fundamental.
2. El método de la reivindicación 1, en donde asignar comprende variar el ancho de banda inversamente con la concentración de energía en las bandas si el conjunto de anchos de banda es establecido ubicando anchos de banda fijos no uniformes.
3. El método de la reivindicación 1, que además comprende eliminar (636) aberturas entre bordes de bandas adyacentes.
4. El método de la reivindicación 3, en donde eliminar (636) comprende establecer, para cada abertura, los bordes de bandas adyacentes que circundan la abertura iguales al valor de la frecuencia promedio de los dos bordes de bandas adyacentes.
5. El método de la reivindicación 3, en donde eliminar (636) comprende establecer, para cada abertura, el borde de banda adyacente correspondiente a la banda con la menor energía igual al valor de frecuencia del borde de banda adyacente correspondiente a la banda con la mayor energía.
6. El método de la reivindicación 3, en donde eliminar (636) comprende establecer, para cada abertura, el borde de banda adyacente correspondiente a la banda con mayor localización de energía en el centro de la banda igual al valor de frecuencia del borde de banda adyacente correspondiente a la banda con menor localización de energía en el centro de la banda.
7. El método de la reivindicación 3, en donde eliminar (636) comprende ajustar, para cada abertura, los valores de frecuencia de los dos bordes de bandas adyacentes, el valor de frecuencia del borde de banda adyacente correspondiente a la banda que tiene frecuencias superiores estando ajustado relativo al ajuste del valor de frecuencia del borde de banda adyacente que tiene frecuencias inferiores a una proporción de x a y, en donde la x es la energía de banda de la banda adyacente que tiene frecuencias superiores, y la y es la energía de banda de la banda adyacente que tiene frecuencias inferiores.
8. El método de la reivindicación 3, en donde eliminar (636) comprende ajustar, para cada abertura, los valores de frecuencia de los dos bordes de bandas adyacentes, el valor de frecuencia del borde de banda adyacente correspondiente a la banda que tiene frecuencias superiores estando ajustado relativo al ajuste del valor de frecuencia del borde de banda adyacente que tiene frecuencias inferiores a una proporción de x a y, en donde la x es la proporción de la energía en el armónico central de la banda adyacente que tiene frecuencias inferiores con la energía total de la banda adyacente que tiene frecuencias inferiores, y la y es la proporción de la energía en el armónico central de la banda adyacente que tiene frecuencias superiores con la energía total de la banda adyacente que tiene frecuencias
superiores.
9. Un codificador de voz (100, 104, 106, 110, 200, 500) configurado para segmentar el espectro de frecuencia de un prototipo de un marco, el codificador de voz (100, 104, 106, 110, 200, 500) comprende:
Medios para dividir (604) el espectro de frecuencia en una pluralidad de segmentos;
Medios para asignar (606) una pluralidad de bandas de frecuencia a cada segmento; y
Medios para establecer, para cada segmento, un conjunto de anchos de banda a la pluralidad de bandas de la frecuencia fundamental;
Medios para seleccionar (610) si establecer el conjunto de anchos de banda mediante:
Asignar (614) anchos de banda fijos uniformes para todas las bandas en un segmento particular; o
Asignar (624) anchos de banda fijos no uniformes a la pluralidad de bandas en un segmento particular; o
Asignar (626 a 640) los anchos de banda variables a la pluralidad de bandas en un segmento particular; y
Medios para asignar los anchos de banda de conformidad con la selección,
En donde, si los medios para seleccionar establecen el conjunto de anchos de banda mediante asignar (626 a 640) anchos de banda variable a la pluralidad de bandas en un segmento particular, entonces los medios para asignar comprenden:
Medios para establecer (626) un ancho de banda objetivo;
Medios para buscar (628 a 632), para cada banda, un vector de amplitud del prototipo para determinar el número armónico máximo de la frecuencia fundamental en la banda, excluyendo de la búsqueda los rangos cubiertos por cualquier borde de banda previamente establecido; y
Medios para posicionar (634), para cada banda, los bordes de banda alrededor del número armónico máximo de manera que el número total de armónicos de la frecuencia fundamental localizados entre los bordes de banda sea igual al ancho de banda objetivo dividida por la frecuencia fundamental.
10. El codificador de voz (100, 104, 106, 110, 200, 500) de la reivindicación 9, en donde los medios para asignar comprenden medios para variar el ancho de banda inversamente con la concentración de energía en las bandas si los medios para seleccionar seleccionan establecer el conjunto de anchos de banda mediante asignar anchos de banda fijos no uniformes a la pluralidad de bandas en un segmento particular.
11. El codificador de voz (100, 104, 106, 110, 200, 500) de la reivindicación 9, además comprende medios para eliminar aberturas entre bordes de bandas adyacentes.
12. El codificador de voz (100, 104, 106, 110, 200, 500) de la reivindicación 11, en donde los medios para eliminar (636) comprenden medios para establecer, para cada abertura, los bordes de bandas adyacentes que circundan la abertura iguales al valor de frecuencia promedio de los dos bordes de bandas adyacentes.
13. El codificador de voz (100, 104, 106, 110, 200, 500) de la reivindicación 11, en donde los medios para eliminar (636) comprenden medios para establecer, para cada abertura, el borde de banda adyacente correspondiente a la banda con menor energía igual al valor de frecuencia del borde de banda adyacente correspondiente a la banda con mayor energía.
14. El codificador de voz (100, 104, 106, 110, 200, 500) de la reivindicación 11, en donde los medios para eliminar (636) comprenden medios para establecer, para cada abertura, el borde de banda adyacente correspondiente a la banda con mayor localización de energía en el centro de la banda igual al valor de frecuencia del borde de banda adyacente correspondiente a la banda con menor localización de energía en el centro de la banda.
15. El codificador de voz (100, 104, 106, 110, 200, 500) de la reivindicación 11, en donde los medios para eliminar (636) comprenden medios para ajustar, para cada abertura, los valores de frecuencia de los dos bordes de bandas adyacentes, el valor de frecuencia del borde de banda adyacente correspondiente a la banda que tiene frecuencias superiores estando ajustado relativo al ajuste del valor de frecuencia del borde de banda adyacente que tiene frecuencias inferiores por una proporción de x a y, en donde la x es la energía de la banda de la banda adyacente que tiene frecuencias superiores, y la y es la energía de la banda de la banda adyacente que tiene frecuencias inferiores.
16. El codificador de voz (100, 104, 106, 110, 200, 500) de la reivindicación 11, en donde los medios para eliminar (636) comprenden medios para ajustar, para cada abertura, los valores de frecuencia de los dos bordes de bandas adyacentes, el valor de frecuencia del borde de banda adyacente correspondiente a la banda que tiene frecuencias superiores estando ajustado relativo al ajuste del valor de frecuencia del borde de banda adyacente que tiene frecuencias inferiores por una proporción de x a y, en donde la x es la proporción de la energía en el armónico central de la banda adyacente que tiene frecuencias inferiores con la energía total de la banda adyacente que tiene frecuencias inferiores, y la y es la proporción de la energía en el armónico central de la banda adyacente que tiene frecuencias superiores con la energía total de la banda adyacente que tiene frecuencias superiores.
17. El codificador de voz (100, 104, 106, 110, 200, 500) de la reivindicación 9, en donde el codificador de voz (100, 104, 106, 110, 200, 500) reside en una unidad de suscriptor (10) de un sistema inalámbrico de comunicación.
ES00950431T 1999-07-19 2000-07-18 Particion de espectro de frecuencia de una forma de onda prototipo. Expired - Lifetime ES2276690T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US356861 1989-05-24
US09/356,861 US6434519B1 (en) 1999-07-19 1999-07-19 Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder

Publications (1)

Publication Number Publication Date
ES2276690T3 true ES2276690T3 (es) 2007-07-01

Family

ID=23403272

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00950431T Expired - Lifetime ES2276690T3 (es) 1999-07-19 2000-07-18 Particion de espectro de frecuencia de una forma de onda prototipo.

Country Status (16)

Country Link
US (1) US6434519B1 (es)
EP (1) EP1222658B1 (es)
JP (1) JP4860860B2 (es)
KR (1) KR100756570B1 (es)
CN (1) CN1271596C (es)
AT (1) ATE341073T1 (es)
AU (1) AU6353700A (es)
BR (1) BRPI0012543B1 (es)
CA (1) CA2380992A1 (es)
DE (1) DE60030997T2 (es)
ES (1) ES2276690T3 (es)
IL (1) IL147571A0 (es)
MX (1) MXPA02000737A (es)
NO (1) NO20020294L (es)
RU (1) RU2002104020A (es)
WO (1) WO2001006494A1 (es)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1944759B1 (en) * 2000-08-09 2010-10-20 Sony Corporation Voice data processing device and processing method
KR100383668B1 (ko) * 2000-09-19 2003-05-14 한국전자통신연구원 시간 분리 부호화 알고리즘을 이용한 음성 부호화기 및부호화 방법
US7386444B2 (en) * 2000-09-22 2008-06-10 Texas Instruments Incorporated Hybrid speech coding and system
EP1395980B1 (en) * 2001-05-08 2006-03-15 Koninklijke Philips Electronics N.V. Audio coding
US7333929B1 (en) 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US7275084B2 (en) * 2002-05-28 2007-09-25 Sun Microsystems, Inc. Method, system, and program for managing access to a device
US7130434B1 (en) 2003-03-26 2006-10-31 Plantronics, Inc. Microphone PCB with integrated filter
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
WO2006030754A1 (ja) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、復号化装置、方法、及びプログラム
FR2884989A1 (fr) * 2005-04-26 2006-10-27 France Telecom Procede d'adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques.
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
DE102007023683A1 (de) * 2007-05-22 2008-11-27 Cramer, Annette, Dr. Verfahren zur individuellen und gezielten Klangbeaufschlagung einer Person und Vorrichtung zur Durchführung des Verfahrens
CN102724518B (zh) * 2012-05-16 2014-03-12 浙江大华技术股份有限公司 一种高清视频信号传输方法与装置
US9224402B2 (en) * 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL76283A0 (en) * 1985-09-03 1986-01-31 Ibm Process and system for coding signals
JPH0364800A (ja) * 1989-08-03 1991-03-20 Ricoh Co Ltd 音声符号化及び復号化方式
ES2164640T3 (es) * 1991-08-02 2002-03-01 Sony Corp Codificador digital con asignacion dinamica de bits de cuantificacion.
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
DE4316297C1 (de) * 1993-05-14 1994-04-07 Fraunhofer Ges Forschung Frequenzanalyseverfahren
US5574823A (en) 1993-06-23 1996-11-12 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications Frequency selective harmonic coding
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
US5684926A (en) 1996-01-26 1997-11-04 Motorola, Inc. MBE synthesizer for very low bit rate voice messaging systems
FR2766032B1 (fr) 1997-07-10 1999-09-17 Matra Communication Codeur audio
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法

Also Published As

Publication number Publication date
BRPI0012543B1 (pt) 2016-08-02
EP1222658A1 (en) 2002-07-17
JP2003527622A (ja) 2003-09-16
IL147571A0 (en) 2002-08-14
JP4860860B2 (ja) 2012-01-25
CA2380992A1 (en) 2001-01-25
AU6353700A (en) 2001-02-05
NO20020294L (no) 2002-02-22
NO20020294D0 (no) 2002-01-18
CN1451154A (zh) 2003-10-22
CN1271596C (zh) 2006-08-23
KR100756570B1 (ko) 2007-09-07
DE60030997T2 (de) 2007-06-06
US6434519B1 (en) 2002-08-13
DE60030997D1 (de) 2006-11-09
HK1058427A1 (en) 2004-05-14
ATE341073T1 (de) 2006-10-15
EP1222658B1 (en) 2006-09-27
MXPA02000737A (es) 2002-08-20
KR20020033736A (ko) 2002-05-07
WO2001006494A1 (en) 2001-01-25
BR0012543A (pt) 2003-07-01
RU2002104020A (ru) 2003-08-27

Similar Documents

Publication Publication Date Title
KR100805983B1 (ko) 가변율 음성 코더에서 프레임 소거를 보상하는 방법
ES2287122T3 (es) Procedimiento y aparato para cuantificar de manera predictiva habla sonora.
JP4861271B2 (ja) 位相スペクトル情報をサブサンプリングする方法および装置
EP1214705B1 (en) Method and apparatus for maintaining a target bit rate in a speech coder
BRPI0012542B1 (pt) Método para quantizar informações espectrais em um codificador de fala, bem como, codificador de fala
WO2002017500A2 (en) Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system
ES2276690T3 (es) Particion de espectro de frecuencia de una forma de onda prototipo.
CA2671881C (en) Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
HK1091583B (en) Method and apparatus for subsampling phase spectrum information