ES2347825T3

ES2347825T3 - Atenuacion del registro de tono en bucle abierto.

Info

Publication number: ES2347825T3
Application number: ES06826927T
Authority: ES
Inventors: Yang Gao
Original assignee: Mindspeed Technologies LLC
Current assignee: Mindspeed Technologies LLC
Priority date: 2006-03-20
Filing date: 2006-10-27
Publication date: 2010-11-04
Anticipated expiration: 2026-10-27
Also published as: EP1997104A4; US20100241424A1; WO2007111649A2; DE602006015712D1; EP1997104A2; CN101506873B; EP2228789B1; EP1997104B1; US8386245B2; CN101506873A; WO2007111649A3; EP2228789A1; ATE475170T1

Abstract

Procedimiento para realizar un análisis de tono en bucle abierto de una señal de voz, comprendiendo el procedimiento las etapas siguientes: obtener una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3; obtener una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto; seleccionar un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, presentando el valor de correlación de largo plazo max correspondiente a p_max el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo; realizar las etapas (x, y) siguientes: x) si p_max2 es inferior a p_max, realizar las etapas (a, b) siguientes: a) establecer un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y establecer el primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado y b) si el valor max multiplicado por el primer valor umbral es inferior a max2, establecer max en max2 y de p_max en p_max2; y) si p_max3 es inferior a p_max, realizar las etapas (a', b') siguientes: a') establecer un segundo valor umbral en un tercer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max3 es inferior a un segundo valor de comparación predeterminado y establecer el segundo valor umbral en un cuarto valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 no es inferior al segundo valor de comparación predeterminado; y b') si el valor max multiplicado por el segundo valor umbral es inferior a max3, establecimiento de p_max en p_max3.

Description

Atenuación del registro de tono en bucle abierto.

Solicitudes relacionadas

La presente solicitud se basa en la solicitud US provisional de número de serie 60/784.384, presentada el 20 de marzo de 2006, y reivindica la prioridad de la misma.

Antecedentes de la invención 1. Campo de la invención

La presente invención se refiere, en general, a la codificación de voz. Más particularmente, la presente invención se refiere al análisis de tono en bucle abierto.

2. Técnica relacionada

La compresión de la voz puede utilizarse para reducir el número de bits que representan la señal de voz, y reducir de ese modo el ancho de banda necesario para la transmisión. No obstante, la compresión de la voz puede provocar la degradación de la calidad de la voz descomprimida. En general, una tasa de bits más alta da por resultado una calidad más alta, mientras que una tasa de bits más baja da por resultado una calidad más baja. Sin embargo, con las técnicas de compresión de voz modernas, tales como las técnicas de codificación, se puede obtener voz descomprimida de una calidad relativamente alta a una tasa de bits relativamente baja. En general, las técnicas de codificación modernas procuran representar las características de la señal de voz que tienen importancia desde el punto de vista perceptivo, sin conservar la forma de onda de voz particular. Los sistemas de compresión de voz, comúnmente denominados códec, comprenden un codificador y un decodificador y pueden utilizase para reducir la tasa de bits de las señales de voz digitales. Se han elaborado numerosos algoritmos para los códecs de voz, que reducen el número de bits necesarios para codificar digitalmente la voz original y al mismo tiempo tratan de mantener una voz reconstruida de alta calidad.

En 1996, el Sector de Telecomunicaciones de la Unión Internacional de Telecomunicaciones (ITU-T) adoptó un algoritmo de codificación de voz de alta calidad que se conoce como Recomendación G.729, titulada "Coding of Speech Signals at 8 kbit/s usign Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP)", y que se describe por ejemplo en la patente US n.º 5732389.

La figura 1 ilustra el flujo de señales de voz en un codificador de predicción lineal con excitación por código algebraico de estructura conjugada (CS-ACELP, por sus siglas en inglés) 100 de la Recomendación G.729 mencionada en la presente memoria. Los números de referencia situados junto a cada bloque de la figura 1 indican los números de sección de la Recomendación G.729 que describen las operaciones y funciones de cada bloque. Como se representa, la señal de voz o las muestras de entrada 105 entran en el bloque de paso alto y reducción de escala (descrito en la Sección 3.1 de la Recomendación G.729), en el que se aplica un preprocesamiento 110 a cada trama de las muestras de entrada 105. A continuación, se aplica un análisis LP 115 y una búsqueda de tono en bucle abierto 120 a cada trama de la señal de voz preprocesada. Después de la búsqueda de tono en bucle abierto 120, se aplica una búsqueda de tono en bucle cerrado 125 y una búsqueda algebraica 130 a cada subtrama de la señal de voz, tal como se representa en la figura 1, obteniéndose como resultado la generación del índice del código 135.

Tal como se ilustra en la figura 1, la búsqueda de tono en bucle abierto 120 comprende la búsqueda del retardo de tono en bucle abierto 124, que se describe en la Sección 3.4 de la Recomendación G.729. Como se describe en dicha sección, para reducir la complejidad de la búsqueda del mejor retardo de libro de códigos adaptativo, el rango de búsqueda se limita en torno a un retardo propuesto T_{op,} obtenido a partir de un análisis de tono en bucle abierto. Este análisis de tono en bucle abierto se realiza una vez por trama (10 ms). En el cálculo de tono en bucle abierto, se utiliza la señal de voz ponderada sw(n) obtenida en el bloque de cálculo de voz ponderada 122, y el cálculo se implementa de la forma indicada a continuación.

En la primera etapa, se determinan tres máximos de correlación:

1

siendo,

2

en los tres rangos siguientes:

i = 1: 80,...,143

i = 2: 40,...,79

i = 3: 20,...,39

\vskip1.000000\baselineskip

Los máximos retenidos R(t_{i}), i = 1,...,3, se normalizan mediante:

3

\vskip1.000000\baselineskip

A continuación, se selecciona la mejor de las tres correlaciones normalizadas favoreciendo los retardos cuyos valores se hallan en el rango inferior. Esto se logra ponderando las correlaciones normalizadas correspondientes a los retardos más prolongados. El mejor retardo en bucle abierto T_{op} se determina de la siguiente manera:

4

\vskip1.000000\baselineskip

El procedimiento indicado de división del rango de retardos en tres secciones para favorecer los valores menores tiene por objetivo evitar la elección de los múltiplos del tono. El registro de tono en bucle abierto atenuado puede ayudar a estabilizar la calidad perceptiva de la voz. Más particularmente, el registro de tono atenuado puede facilitar la predicción del tono (cálculo del tono para tramas perdidas) cuando se aplica un algoritmo de ocultación de tramas borradas en el decodificador. No obstante, el algoritmo convencional de la Recomendación G.729 descrito anteriormente no proporciona un resultado óptimo y puede perfeccionarse. Por ejemplo, uno de los inconvenientes de dicho algoritmo es que sólo utiliza la información de la trama actual para atenuar el registro de tono en bucle abierto y evitar múltiplos del tono. Sin embargo, se conocen otros algoritmos tales como el descrito en la patente US nº 6199035 que efectúan la estimación del retardo de tono por medio de la ponderación de la función de autocorrelación para acentuar los valores cercanos a los retardos de tono anteriores, o el descrito en la patente US nº 6260010, en el que también se toman en consideración los retardos de tono anteriores.

En consecuencia, se plantea dentro del ámbito de la técnica la necesidad de perfeccionar el análisis de tono en bucle abierto convencional para obtener un registro de tono en bucle abierto más atenuado para estabilizar la calidad perceptiva de la voz.

\vskip1.000000\baselineskip

Sumario de la invención

La presente invención, definida en las reivindicaciones adjuntas, se refiere a un procedimiento para llevar a cabo un análisis de tono en bucle abierto de una señal de voz. El procedimiento comprende la obtención de una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3; la obtención de una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto; y la selección de un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, en la que el valor de correlación de largo plazo max correspondiente a p_max posee el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo.

El procedimiento comprende también la determinación del cumplimiento de p_max2 < p_max. Si esta condición se cumple, el algoritmo comprende el establecimiento de un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y el establecimiento del primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado; y si el valor max multiplicado por el primer valor umbral es inferior a max2, el establecimiento de max en max2 y p_max en p_max2.

El procedimiento comprende además la determinación del cumplimiento de p_max3 < p_max. Si la condición se cumple, el algoritmo comprende el establecimiento de un segundo valor umbral en un tercer valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 es inferior a un segundo valor de comparación predeterminado y el establecimiento del segundo valor umbral en un cuarto valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 no es inferior al segundo valor de comparación predeterminado; y si el valor max multiplicado por el segundo valor umbral es inferior a max3, el establecimiento de p_max en p_max3.

En otro aspecto, el primer valor de comparación predeterminado es 10, el primer valor umbral predeterminado es 0,7, el segundo valor umbral predeterminado es 0,9, el segundo valor de comparación predeterminado es 5, el tercer valor umbral predeterminado es 0,7 y el cuarto valor umbral predeterminado es 0,9.

En otro aspecto, el tono anterior pertenece a una o más tramas anteriores. En otro aspecto, el tono anterior pertenece a la trama inmediatamente anterior.

En un aspecto aparte, se proporciona un codificador de voz configurado para realizar el procedimiento indicado.

Estos y otros aspectos de la presente invención se pondrán de manifiesto tras la consulta de los dibujos y la presente memoria. La presente invención se define de manera exclusiva en las reivindicaciones adjuntas.

Breve descripción de los dibujos

Las características y ventajas de la presente invención se pondrán más claramente de manifiesto para los expertos ordinarios en la materia tras la consulta de la siguiente descripción detallada y los dibujos adjuntos, en los que:

la figura 1 ilustra el flujo de señales de voz en un codificador CS-ACELP de la Recomendación G.729, que comprende un módulo de búsqueda de retardo de tono en bucle abierto que ejecuta un algoritmo de análisis de tono en bucle abierto convencional y

las figuras 2A y 2B ilustran un diagrama de flujo para la ejecución de un algoritmo de análisis de tono en bucle abierto en un codificador, según una forma de realización de la presente invención.

Descripción detallada de la invención

Aunque la presente invención se describe con respecto a unas formas de realización particulares, como resultará obvio, los principios de la presente invención definidos en las reivindicaciones adjuntas pueden aplicarse a otras formas de realización distintas a las formas de realización particulares de la presente invención descritas en la presente memoria. Por ejemplo, aunque algunas formas de realización de la presente invención se describen en conjunción con el codificador de la Recomendación G.729, la invención de la presente solicitud no está limitada a esta norma particular. Por otra parte, en la descripción de la presente invención, se han omitido ciertos detalles para no hacer más confusos los aspectos inventivos de la presente invención. Los detalles omitidos están al alcance de los expertos ordinarios en la materia.

Los dibujos de la presente solicitud y la descripción detallada adjunta se refieren simplemente a ejemplos de formas de realización de la presente invención. Para mantener la brevedad de la descripción, en los dibujos de la presente solicitud no se ilustran específicamente otras formas de realización de la presente invención en las que se utilizan los principios de la misma. Deberá tenerse presente que, a menos que se indique lo contrario, los elementos similares o correspondientes de las figuras pueden identificarse mediante números de referencia similares o correspondientes.

Las figuras 2A y 2B ilustran un diagrama de flujo para ejecutar el algoritmo de análisis de tono en bucle abierto (OLPA) 200 en un codificador, tal como un codificador de la Recomendación G.729, que es activado por un controlador, según una forma de realización de la presente invención. En una forma de realización, el algoritmo OLPA 200 de la presente invención genera un registro de tono en bucle abierto atenuado que perfecciona los algoritmos convencionales, utilizando la información vocal de una o varias tramas anteriores.

Como se muestra, el algoritmo OLPA 200 empieza por la etapa 205, en la que el análisis de tono en bucle abierto inicial aporta un grupo de candidatos de tono en bucle abierto de un grupo de rangos de búsqueda, por ejemplo tres (3) candidatos de tono en bucle abierto de tres (3) rangos de búsqueda como los siguientes:

: {p_max1, max1}, {p_max2, max2}, {p_max3, max3},

: en los que p_max1, p_max2 y p_max3 denotan los candidatos de tono en bucle abierto, y max1, max2 y max3, los correspondientes valores de correlación de tono de largo plazo para los candidatos de tono en bucle abierto, y en los que se cumple p_max1 > p_max2 > p_max3. En una forma de realización, los rangos de búsqueda son mutuamente exclusivos.

A continuación, en la etapa 210 el algoritmo OLPA 200 selecciona una de los candidatos de tono en bucle abierto que presenta el valor máximo de los valores de correlación de tono de largo plazo de los tonos máximos de los candidatos de tono en bucle abierto, es decir, max = MAX{max1, max2, max3}, en la que max denota el valor máximo del valor de correlación de tono de largo plazo del tono máximo, y p_max denota el candidato de tono en bucle abierto correspondiente a max. Por ejemplo, si max2 presenta el valor de correlación de tono de largo plazo del tono máximo respecto de max1 y max3, entonces inicialmente p_max se establecerá en p_max2.

Subsiguientemente, en las etapas 215 a 245 el algoritmo OLPA 200 realiza las siguientes operaciones, descritas en detalle a continuación.

5

En la etapa 215, el algoritmo OLPA 200 determina si p_max2 es inferior a p_max. De ser así, el algoritmo OLPA 200 avanza hasta la etapa 225; en caso contrario, el algoritmo OLPA 200 avanza hasta el estado 220. En la etapa 225, el algoritmo OLPA 200 determina si un tono anterior (pit_old) menos p_max2 es inferior a un valor predeterminado, por ejemplo, si el valor absoluto del tono anterior menos p_max2 es inferior a 10. Como se ha indicado anteriormente, a diferencia de los sistemas convencionales, el algoritmo OLPA 200 utiliza información de una o más tramas anteriores. Por ejemplo, en la etapa 225 la información de tono de una trama anterior, por ejemplo la trama inmediatamente anterior, se utiliza en el algoritmo OLPA 200 para generar un registro de tono en bucle abierto atenuado. En otras formas de realización, se pueden utilizar varios valores de tono de tramas anteriores, un valor de tono de una trama anterior que no sea la trama inmediatamente anterior u otro tipo de información de tramas anteriores para atenuar el registro de tono en bucle abierto. Haciendo referencia a la etapa 225, si el tono anterior menos p_max2 es inferior al valor predeterminado, el algoritmo OLPA 200 continúa por la etapa 235, en la que se establece un valor umbral (thresh) en un valor predeterminado, por ejemplo, 0,7. En caso contrario, el algoritmo OLPA 200 continúa por la etapa 230, en la que el valor umbral se establece en un valor predeterminado diferente, por ejemplo, 0,9. En ambos casos, tras las etapas 230 y 235, el algoritmo OLPA 200 avanza hasta la etapa 240, en la que se determina si el valor max multiplicado por el valor umbral, que se determina en las etapas 230 ó 235, es inferior a max2. Si éste no es el caso, el algoritmo OLPA 200 avanza hasta el estado 220, que se describe más adelante. En caso contrario, el algoritmo OLPA 200 avanza hasta la etapa 245, donde el valor max recibe el valor de max2, y p_max recibe el valor de p_max2. Dicho de otro modo, en ese momento se selecciona p_max2 como tono en bucle abierto provisional. Tras la etapa 245, el algoritmo OLPA 200 avanza hasta el estado 220, que se describe a continuación.

El estado 220 es el estado inicial para el procedimiento realizado en las etapas 250 a 280, en las que el algoritmo OLPA 200 efectúa las operaciones siguientes que se describen a continuación de forma más detallada.

6

Desde el estado 220, el algoritmo OLPA 200 continúa por la etapa 250, en la que el algoritmo OLPA 200 determina si p_max3 es inferior a p_max. De ser así, el algoritmo OLPA 200 avanza hasta la etapa 260; en caso contrario, el algoritmo OLPA 200 avanza hasta el estado 255. En la etapa 260, el algoritmo OLPA 200 determina si un tono anterior menos p_max3 es inferior a un valor predeterminado, por ejemplo, si el valor absoluto del tono anterior menos p_max3 es inferior a 5. Como se ha indicado anteriormente, a diferencia de los sistemas convencionales, el algoritmo OLPA 200 utiliza información de una o más tramas anteriores. Por ejemplo, en la etapa 260 la información de tono de una trama anterior, por ejemplo la trama inmediatamente anterior, se utiliza en el algoritmo OLPA 200 para generar un registro de tono en bucle abierto atenuado. En otras formas de realización, pueden utilizarse varios valores de tono de tramas anteriores, un valor de tono de una trama anterior que no sea la trama inmediatamente anterior u otro tipo de información de tramas anteriores para atenuar el registro de tono en bucle abierto. Haciendo referencia a la etapa 260, si el tono anterior menos p_max3 es inferior al valor predeterminado, el algoritmo OLPA 200 continúa con la etapa 270, en la que se establece un valor umbral en un valor predeterminado, por ejemplo, 0,7. En caso contrario, el algoritmo OLPA 200 continúa por la etapa 265, en la que el valor umbral se establece en un valor predeterminado diferente, por ejemplo, 0,9. En ambos casos, tras las etapas 265 y 270, el algoritmo OLPA 200 avanza hasta la etapa 275, en la que se determina si el valor max multiplicado por el valor umbral, que se determina en la etapa 265 y 270, es inferior a max3. De no ser así, el algoritmo OLPA 200 avanza hasta el estado 255, que se describe más adelante. En caso contrario, el algoritmo OLPA 200 avanza hasta la etapa 280, en la que p_max recibe el valor de p_max3. Dicho de otro modo, en ese momento se selecciona p_max3 como tono en bucle abierto. Tras la etapa 280, el algoritmo OLPA 200 avanza hasta el estado 255 que se describe a continuación.

En la etapa 255, el algoritmo OLPA 200 concluye, y el valor actual p_max indica el valor del tono en bucle abierto seleccionado y max indica la correspondiente correlación de tono de largo plazo para p_max.

A partir de la descripción anterior de la presente invención, se pone de manifiesto que es posible utilizar diversas técnicas para poner en práctica los conceptos de la presente invención sin apartarse, por ello, del alcance de la misma. Por otra parte, aunque la presente invención se ha descrito haciendo referencia particular a ciertas formas de realización, como reconocerán los expertos ordinarios en la materia, es posible realizar cambios en la forma y los detalles sin apartarse, por ello, del alcance de la presente invención Por ejemplo, está previsto que los circuitos dados a conocer en la presente memoria puedan implementarse en software o viceversa. Las formas de realización descritas no deben considerarse limitativas, sino ilustrativas en todos los sentidos. Debe tenerse en cuenta también que la presente invención no se limita a las formas de realización particulares descritas en la presente memoria, sino que admite muchas disposiciones, modificaciones y sustituciones sin apartarse, por ello, del alcance de la presente invención, definido en las reivindicaciones adjuntas.

Claims

1. Procedimiento para realizar un análisis de tono en bucle abierto de una señal de voz, comprendiendo el procedimiento las etapas siguientes:

: obtener una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3;

: obtener una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto;

: seleccionar un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, presentando el valor de correlación de largo plazo max correspondiente a p_max el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo;

: realizar las etapas (x, y) siguientes:

x): si p_max2 es inferior a p_max, realizar las etapas (a, b) siguientes:

a): establecer un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y establecer el primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado y

b): si el valor max multiplicado por el primer valor umbral es inferior a max2, establecer max en max2 y de p_max en p_max2;

y): si p_max3 es inferior a p_max, realizar las etapas (a', b') siguientes:

a'): establecer un segundo valor umbral en un tercer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max3 es inferior a un segundo valor de comparación predeterminado y establecer el segundo valor umbral en un cuarto valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 no es inferior al segundo valor de comparación predeterminado; y

b'): si el valor max multiplicado por el segundo valor umbral es inferior a max3, establecimiento de p_max en p_max3.

2. Procedimiento según la reivindicación 1, en el que el primer valor de comparación predeterminado es 10, el primer valor umbral predeterminado es 0,7 y el segundo valor umbral predeterminado es 0,9.

3. Procedimiento según la reivindicación 2, en el que el segundo valor de comparación predeterminado es 5, el tercer valor umbral predeterminado es 0,7 y el cuarto valor umbral predeterminado es 0,9.

4. Procedimiento según la reivindicación 1, en el que el tono anterior pertenece a una o varias tramas anteriores.

5. Procedimiento según la reivindicación 1, en el que el tono anterior pertenece a una trama inmediatamente anterior.

6. Codificador de voz configurado para realizar un procedimiento según cualquiera de las reivindicaciones 1 a 5.