ES2347825T3 - Atenuacion del registro de tono en bucle abierto. - Google Patents

Atenuacion del registro de tono en bucle abierto. Download PDF

Info

Publication number
ES2347825T3
ES2347825T3 ES06826927T ES06826927T ES2347825T3 ES 2347825 T3 ES2347825 T3 ES 2347825T3 ES 06826927 T ES06826927 T ES 06826927T ES 06826927 T ES06826927 T ES 06826927T ES 2347825 T3 ES2347825 T3 ES 2347825T3
Authority
ES
Spain
Prior art keywords
value
tone
threshold value
max
max2
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06826927T
Other languages
English (en)
Inventor
Yang Gao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mindspeed Technologies LLC
Original Assignee
Mindspeed Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mindspeed Technologies LLC filed Critical Mindspeed Technologies LLC
Application granted granted Critical
Publication of ES2347825T3 publication Critical patent/ES2347825T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephone Function (AREA)
  • Auxiliary Devices For Music (AREA)
  • Soil Working Implements (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmission And Conversion Of Sensor Element Output (AREA)
  • Telephonic Communication Services (AREA)
  • Analogue/Digital Conversion (AREA)
  • Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)

Abstract

Procedimiento para realizar un análisis de tono en bucle abierto de una señal de voz, comprendiendo el procedimiento las etapas siguientes: obtener una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3; obtener una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto; seleccionar un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, presentando el valor de correlación de largo plazo max correspondiente a p_max el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo; realizar las etapas (x, y) siguientes: x) si p_max2 es inferior a p_max, realizar las etapas (a, b) siguientes: a) establecer un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y establecer el primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado y b) si el valor max multiplicado por el primer valor umbral es inferior a max2, establecer max en max2 y de p_max en p_max2; y) si p_max3 es inferior a p_max, realizar las etapas (a', b') siguientes: a') establecer un segundo valor umbral en un tercer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max3 es inferior a un segundo valor de comparación predeterminado y establecer el segundo valor umbral en un cuarto valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 no es inferior al segundo valor de comparación predeterminado; y b') si el valor max multiplicado por el segundo valor umbral es inferior a max3, establecimiento de p_max en p_max3.

Description

Atenuación del registro de tono en bucle abierto.
Solicitudes relacionadas
La presente solicitud se basa en la solicitud US provisional de número de serie 60/784.384, presentada el 20 de marzo de 2006, y reivindica la prioridad de la misma.
Antecedentes de la invención 1. Campo de la invención
La presente invención se refiere, en general, a la codificación de voz. Más particularmente, la presente invención se refiere al análisis de tono en bucle abierto.
2. Técnica relacionada
La compresión de la voz puede utilizarse para reducir el número de bits que representan la señal de voz, y reducir de ese modo el ancho de banda necesario para la transmisión. No obstante, la compresión de la voz puede provocar la degradación de la calidad de la voz descomprimida. En general, una tasa de bits más alta da por resultado una calidad más alta, mientras que una tasa de bits más baja da por resultado una calidad más baja. Sin embargo, con las técnicas de compresión de voz modernas, tales como las técnicas de codificación, se puede obtener voz descomprimida de una calidad relativamente alta a una tasa de bits relativamente baja. En general, las técnicas de codificación modernas procuran representar las características de la señal de voz que tienen importancia desde el punto de vista perceptivo, sin conservar la forma de onda de voz particular. Los sistemas de compresión de voz, comúnmente denominados códec, comprenden un codificador y un decodificador y pueden utilizase para reducir la tasa de bits de las señales de voz digitales. Se han elaborado numerosos algoritmos para los códecs de voz, que reducen el número de bits necesarios para codificar digitalmente la voz original y al mismo tiempo tratan de mantener una voz reconstruida de alta calidad.
En 1996, el Sector de Telecomunicaciones de la Unión Internacional de Telecomunicaciones (ITU-T) adoptó un algoritmo de codificación de voz de alta calidad que se conoce como Recomendación G.729, titulada "Coding of Speech Signals at 8 kbit/s usign Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP)", y que se describe por ejemplo en la patente US n.º 5732389.
La figura 1 ilustra el flujo de señales de voz en un codificador de predicción lineal con excitación por código algebraico de estructura conjugada (CS-ACELP, por sus siglas en inglés) 100 de la Recomendación G.729 mencionada en la presente memoria. Los números de referencia situados junto a cada bloque de la figura 1 indican los números de sección de la Recomendación G.729 que describen las operaciones y funciones de cada bloque. Como se representa, la señal de voz o las muestras de entrada 105 entran en el bloque de paso alto y reducción de escala (descrito en la Sección 3.1 de la Recomendación G.729), en el que se aplica un preprocesamiento 110 a cada trama de las muestras de entrada 105. A continuación, se aplica un análisis LP 115 y una búsqueda de tono en bucle abierto 120 a cada trama de la señal de voz preprocesada. Después de la búsqueda de tono en bucle abierto 120, se aplica una búsqueda de tono en bucle cerrado 125 y una búsqueda algebraica 130 a cada subtrama de la señal de voz, tal como se representa en la figura 1, obteniéndose como resultado la generación del índice del código 135.
Tal como se ilustra en la figura 1, la búsqueda de tono en bucle abierto 120 comprende la búsqueda del retardo de tono en bucle abierto 124, que se describe en la Sección 3.4 de la Recomendación G.729. Como se describe en dicha sección, para reducir la complejidad de la búsqueda del mejor retardo de libro de códigos adaptativo, el rango de búsqueda se limita en torno a un retardo propuesto T_{op,} obtenido a partir de un análisis de tono en bucle abierto. Este análisis de tono en bucle abierto se realiza una vez por trama (10 ms). En el cálculo de tono en bucle abierto, se utiliza la señal de voz ponderada sw(n) obtenida en el bloque de cálculo de voz ponderada 122, y el cálculo se implementa de la forma indicada a continuación.
En la primera etapa, se determinan tres máximos de correlación:
1
siendo,
2
en los tres rangos siguientes:
i = 1: 80,...,143
i = 2: 40,...,79
i = 3: 20,...,39
\vskip1.000000\baselineskip
Los máximos retenidos R(t_{i}), i = 1,...,3, se normalizan mediante:
3
\vskip1.000000\baselineskip
A continuación, se selecciona la mejor de las tres correlaciones normalizadas favoreciendo los retardos cuyos valores se hallan en el rango inferior. Esto se logra ponderando las correlaciones normalizadas correspondientes a los retardos más prolongados. El mejor retardo en bucle abierto T_{op} se determina de la siguiente manera:
4
\vskip1.000000\baselineskip
El procedimiento indicado de división del rango de retardos en tres secciones para favorecer los valores menores tiene por objetivo evitar la elección de los múltiplos del tono. El registro de tono en bucle abierto atenuado puede ayudar a estabilizar la calidad perceptiva de la voz. Más particularmente, el registro de tono atenuado puede facilitar la predicción del tono (cálculo del tono para tramas perdidas) cuando se aplica un algoritmo de ocultación de tramas borradas en el decodificador. No obstante, el algoritmo convencional de la Recomendación G.729 descrito anteriormente no proporciona un resultado óptimo y puede perfeccionarse. Por ejemplo, uno de los inconvenientes de dicho algoritmo es que sólo utiliza la información de la trama actual para atenuar el registro de tono en bucle abierto y evitar múltiplos del tono. Sin embargo, se conocen otros algoritmos tales como el descrito en la patente US nº 6199035 que efectúan la estimación del retardo de tono por medio de la ponderación de la función de autocorrelación para acentuar los valores cercanos a los retardos de tono anteriores, o el descrito en la patente US nº 6260010, en el que también se toman en consideración los retardos de tono anteriores.
En consecuencia, se plantea dentro del ámbito de la técnica la necesidad de perfeccionar el análisis de tono en bucle abierto convencional para obtener un registro de tono en bucle abierto más atenuado para estabilizar la calidad perceptiva de la voz.
\vskip1.000000\baselineskip
Sumario de la invención
La presente invención, definida en las reivindicaciones adjuntas, se refiere a un procedimiento para llevar a cabo un análisis de tono en bucle abierto de una señal de voz. El procedimiento comprende la obtención de una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3; la obtención de una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto; y la selección de un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, en la que el valor de correlación de largo plazo max correspondiente a p_max posee el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo.
El procedimiento comprende también la determinación del cumplimiento de p_max2 < p_max. Si esta condición se cumple, el algoritmo comprende el establecimiento de un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y el establecimiento del primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado; y si el valor max multiplicado por el primer valor umbral es inferior a max2, el establecimiento de max en max2 y p_max en p_max2.
El procedimiento comprende además la determinación del cumplimiento de p_max3 < p_max. Si la condición se cumple, el algoritmo comprende el establecimiento de un segundo valor umbral en un tercer valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 es inferior a un segundo valor de comparación predeterminado y el establecimiento del segundo valor umbral en un cuarto valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 no es inferior al segundo valor de comparación predeterminado; y si el valor max multiplicado por el segundo valor umbral es inferior a max3, el establecimiento de p_max en p_max3.
En otro aspecto, el primer valor de comparación predeterminado es 10, el primer valor umbral predeterminado es 0,7, el segundo valor umbral predeterminado es 0,9, el segundo valor de comparación predeterminado es 5, el tercer valor umbral predeterminado es 0,7 y el cuarto valor umbral predeterminado es 0,9.
En otro aspecto, el tono anterior pertenece a una o más tramas anteriores. En otro aspecto, el tono anterior pertenece a la trama inmediatamente anterior.
En un aspecto aparte, se proporciona un codificador de voz configurado para realizar el procedimiento indicado.
Estos y otros aspectos de la presente invención se pondrán de manifiesto tras la consulta de los dibujos y la presente memoria. La presente invención se define de manera exclusiva en las reivindicaciones adjuntas.
Breve descripción de los dibujos
Las características y ventajas de la presente invención se pondrán más claramente de manifiesto para los expertos ordinarios en la materia tras la consulta de la siguiente descripción detallada y los dibujos adjuntos, en los que:
la figura 1 ilustra el flujo de señales de voz en un codificador CS-ACELP de la Recomendación G.729, que comprende un módulo de búsqueda de retardo de tono en bucle abierto que ejecuta un algoritmo de análisis de tono en bucle abierto convencional y
las figuras 2A y 2B ilustran un diagrama de flujo para la ejecución de un algoritmo de análisis de tono en bucle abierto en un codificador, según una forma de realización de la presente invención.
Descripción detallada de la invención
Aunque la presente invención se describe con respecto a unas formas de realización particulares, como resultará obvio, los principios de la presente invención definidos en las reivindicaciones adjuntas pueden aplicarse a otras formas de realización distintas a las formas de realización particulares de la presente invención descritas en la presente memoria. Por ejemplo, aunque algunas formas de realización de la presente invención se describen en conjunción con el codificador de la Recomendación G.729, la invención de la presente solicitud no está limitada a esta norma particular. Por otra parte, en la descripción de la presente invención, se han omitido ciertos detalles para no hacer más confusos los aspectos inventivos de la presente invención. Los detalles omitidos están al alcance de los expertos ordinarios en la materia.
Los dibujos de la presente solicitud y la descripción detallada adjunta se refieren simplemente a ejemplos de formas de realización de la presente invención. Para mantener la brevedad de la descripción, en los dibujos de la presente solicitud no se ilustran específicamente otras formas de realización de la presente invención en las que se utilizan los principios de la misma. Deberá tenerse presente que, a menos que se indique lo contrario, los elementos similares o correspondientes de las figuras pueden identificarse mediante números de referencia similares o correspondientes.
Las figuras 2A y 2B ilustran un diagrama de flujo para ejecutar el algoritmo de análisis de tono en bucle abierto (OLPA) 200 en un codificador, tal como un codificador de la Recomendación G.729, que es activado por un controlador, según una forma de realización de la presente invención. En una forma de realización, el algoritmo OLPA 200 de la presente invención genera un registro de tono en bucle abierto atenuado que perfecciona los algoritmos convencionales, utilizando la información vocal de una o varias tramas anteriores.
Como se muestra, el algoritmo OLPA 200 empieza por la etapa 205, en la que el análisis de tono en bucle abierto inicial aporta un grupo de candidatos de tono en bucle abierto de un grupo de rangos de búsqueda, por ejemplo tres (3) candidatos de tono en bucle abierto de tres (3) rangos de búsqueda como los siguientes:
{p_max1, max1}, {p_max2, max2}, {p_max3, max3},
en los que p_max1, p_max2 y p_max3 denotan los candidatos de tono en bucle abierto, y max1, max2 y max3, los correspondientes valores de correlación de tono de largo plazo para los candidatos de tono en bucle abierto, y en los que se cumple p_max1 > p_max2 > p_max3. En una forma de realización, los rangos de búsqueda son mutuamente exclusivos.
A continuación, en la etapa 210 el algoritmo OLPA 200 selecciona una de los candidatos de tono en bucle abierto que presenta el valor máximo de los valores de correlación de tono de largo plazo de los tonos máximos de los candidatos de tono en bucle abierto, es decir, max = MAX{max1, max2, max3}, en la que max denota el valor máximo del valor de correlación de tono de largo plazo del tono máximo, y p_max denota el candidato de tono en bucle abierto correspondiente a max. Por ejemplo, si max2 presenta el valor de correlación de tono de largo plazo del tono máximo respecto de max1 y max3, entonces inicialmente p_max se establecerá en p_max2.
Subsiguientemente, en las etapas 215 a 245 el algoritmo OLPA 200 realiza las siguientes operaciones, descritas en detalle a continuación.
5
En la etapa 215, el algoritmo OLPA 200 determina si p_max2 es inferior a p_max. De ser así, el algoritmo OLPA 200 avanza hasta la etapa 225; en caso contrario, el algoritmo OLPA 200 avanza hasta el estado 220. En la etapa 225, el algoritmo OLPA 200 determina si un tono anterior (pit_old) menos p_max2 es inferior a un valor predeterminado, por ejemplo, si el valor absoluto del tono anterior menos p_max2 es inferior a 10. Como se ha indicado anteriormente, a diferencia de los sistemas convencionales, el algoritmo OLPA 200 utiliza información de una o más tramas anteriores. Por ejemplo, en la etapa 225 la información de tono de una trama anterior, por ejemplo la trama inmediatamente anterior, se utiliza en el algoritmo OLPA 200 para generar un registro de tono en bucle abierto atenuado. En otras formas de realización, se pueden utilizar varios valores de tono de tramas anteriores, un valor de tono de una trama anterior que no sea la trama inmediatamente anterior u otro tipo de información de tramas anteriores para atenuar el registro de tono en bucle abierto. Haciendo referencia a la etapa 225, si el tono anterior menos p_max2 es inferior al valor predeterminado, el algoritmo OLPA 200 continúa por la etapa 235, en la que se establece un valor umbral (thresh) en un valor predeterminado, por ejemplo, 0,7. En caso contrario, el algoritmo OLPA 200 continúa por la etapa 230, en la que el valor umbral se establece en un valor predeterminado diferente, por ejemplo, 0,9. En ambos casos, tras las etapas 230 y 235, el algoritmo OLPA 200 avanza hasta la etapa 240, en la que se determina si el valor max multiplicado por el valor umbral, que se determina en las etapas 230 ó 235, es inferior a max2. Si éste no es el caso, el algoritmo OLPA 200 avanza hasta el estado 220, que se describe más adelante. En caso contrario, el algoritmo OLPA 200 avanza hasta la etapa 245, donde el valor max recibe el valor de max2, y p_max recibe el valor de p_max2. Dicho de otro modo, en ese momento se selecciona p_max2 como tono en bucle abierto provisional. Tras la etapa 245, el algoritmo OLPA 200 avanza hasta el estado 220, que se describe a continuación.
El estado 220 es el estado inicial para el procedimiento realizado en las etapas 250 a 280, en las que el algoritmo OLPA 200 efectúa las operaciones siguientes que se describen a continuación de forma más detallada.
6
Desde el estado 220, el algoritmo OLPA 200 continúa por la etapa 250, en la que el algoritmo OLPA 200 determina si p_max3 es inferior a p_max. De ser así, el algoritmo OLPA 200 avanza hasta la etapa 260; en caso contrario, el algoritmo OLPA 200 avanza hasta el estado 255. En la etapa 260, el algoritmo OLPA 200 determina si un tono anterior menos p_max3 es inferior a un valor predeterminado, por ejemplo, si el valor absoluto del tono anterior menos p_max3 es inferior a 5. Como se ha indicado anteriormente, a diferencia de los sistemas convencionales, el algoritmo OLPA 200 utiliza información de una o más tramas anteriores. Por ejemplo, en la etapa 260 la información de tono de una trama anterior, por ejemplo la trama inmediatamente anterior, se utiliza en el algoritmo OLPA 200 para generar un registro de tono en bucle abierto atenuado. En otras formas de realización, pueden utilizarse varios valores de tono de tramas anteriores, un valor de tono de una trama anterior que no sea la trama inmediatamente anterior u otro tipo de información de tramas anteriores para atenuar el registro de tono en bucle abierto. Haciendo referencia a la etapa 260, si el tono anterior menos p_max3 es inferior al valor predeterminado, el algoritmo OLPA 200 continúa con la etapa 270, en la que se establece un valor umbral en un valor predeterminado, por ejemplo, 0,7. En caso contrario, el algoritmo OLPA 200 continúa por la etapa 265, en la que el valor umbral se establece en un valor predeterminado diferente, por ejemplo, 0,9. En ambos casos, tras las etapas 265 y 270, el algoritmo OLPA 200 avanza hasta la etapa 275, en la que se determina si el valor max multiplicado por el valor umbral, que se determina en la etapa 265 y 270, es inferior a max3. De no ser así, el algoritmo OLPA 200 avanza hasta el estado 255, que se describe más adelante. En caso contrario, el algoritmo OLPA 200 avanza hasta la etapa 280, en la que p_max recibe el valor de p_max3. Dicho de otro modo, en ese momento se selecciona p_max3 como tono en bucle abierto. Tras la etapa 280, el algoritmo OLPA 200 avanza hasta el estado 255 que se describe a continuación.
En la etapa 255, el algoritmo OLPA 200 concluye, y el valor actual p_max indica el valor del tono en bucle abierto seleccionado y max indica la correspondiente correlación de tono de largo plazo para p_max.
A partir de la descripción anterior de la presente invención, se pone de manifiesto que es posible utilizar diversas técnicas para poner en práctica los conceptos de la presente invención sin apartarse, por ello, del alcance de la misma. Por otra parte, aunque la presente invención se ha descrito haciendo referencia particular a ciertas formas de realización, como reconocerán los expertos ordinarios en la materia, es posible realizar cambios en la forma y los detalles sin apartarse, por ello, del alcance de la presente invención Por ejemplo, está previsto que los circuitos dados a conocer en la presente memoria puedan implementarse en software o viceversa. Las formas de realización descritas no deben considerarse limitativas, sino ilustrativas en todos los sentidos. Debe tenerse en cuenta también que la presente invención no se limita a las formas de realización particulares descritas en la presente memoria, sino que admite muchas disposiciones, modificaciones y sustituciones sin apartarse, por ello, del alcance de la presente invención, definido en las reivindicaciones adjuntas.

Claims (6)

1. Procedimiento para realizar un análisis de tono en bucle abierto de una señal de voz, comprendiendo el procedimiento las etapas siguientes:
obtener una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3;
obtener una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto;
seleccionar un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, presentando el valor de correlación de largo plazo max correspondiente a p_max el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo;
realizar las etapas (x, y) siguientes:
x)
si p_max2 es inferior a p_max, realizar las etapas (a, b) siguientes:
a)
establecer un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y establecer el primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado y
b)
si el valor max multiplicado por el primer valor umbral es inferior a max2, establecer max en max2 y de p_max en p_max2;
y)
si p_max3 es inferior a p_max, realizar las etapas (a', b') siguientes:
a')
establecer un segundo valor umbral en un tercer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max3 es inferior a un segundo valor de comparación predeterminado y establecer el segundo valor umbral en un cuarto valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 no es inferior al segundo valor de comparación predeterminado; y
b')
si el valor max multiplicado por el segundo valor umbral es inferior a max3, establecimiento de p_max en p_max3.
2. Procedimiento según la reivindicación 1, en el que el primer valor de comparación predeterminado es 10, el primer valor umbral predeterminado es 0,7 y el segundo valor umbral predeterminado es 0,9.
3. Procedimiento según la reivindicación 2, en el que el segundo valor de comparación predeterminado es 5, el tercer valor umbral predeterminado es 0,7 y el cuarto valor umbral predeterminado es 0,9.
4. Procedimiento según la reivindicación 1, en el que el tono anterior pertenece a una o varias tramas anteriores.
5. Procedimiento según la reivindicación 1, en el que el tono anterior pertenece a una trama inmediatamente anterior.
6. Codificador de voz configurado para realizar un procedimiento según cualquiera de las reivindicaciones 1 a 5.
ES06826927T 2006-03-20 2006-10-27 Atenuacion del registro de tono en bucle abierto. Active ES2347825T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US78438406P 2006-03-20 2006-03-20
US784384P 2006-03-20

Publications (1)

Publication Number Publication Date
ES2347825T3 true ES2347825T3 (es) 2010-11-04

Family

ID=38541563

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06826927T Active ES2347825T3 (es) 2006-03-20 2006-10-27 Atenuacion del registro de tono en bucle abierto.

Country Status (7)

Country Link
US (1) US8386245B2 (es)
EP (2) EP2228789B1 (es)
CN (1) CN101506873B (es)
AT (1) ATE475170T1 (es)
DE (1) DE602006015712D1 (es)
ES (1) ES2347825T3 (es)
WO (1) WO2007111649A2 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251782B2 (en) 2007-03-21 2016-02-02 Vivotext Ltd. System and method for concatenate speech samples within an optimal crossing point
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5793843A (en) * 1989-10-31 1998-08-11 Intelligence Technology Corporation Method and apparatus for transmission of data and voice
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US6564182B1 (en) * 2000-05-12 2003-05-13 Conexant Systems, Inc. Look-ahead pitch determination
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
US6584437B2 (en) * 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
KR100516678B1 (ko) * 2003-07-05 2005-09-22 삼성전자주식회사 음성 코덱의 음성신호의 피치검출 장치 및 방법
KR20050008356A (ko) * 2003-07-15 2005-01-21 한국전자통신연구원 음성의 상호부호화시 선형 예측을 이용한 피치 지연 변환장치 및 방법
US7146309B1 (en) * 2003-09-02 2006-12-05 Mindspeed Technologies, Inc. Deriving seed values to generate excitation values in a speech coder

Also Published As

Publication number Publication date
EP1997104A4 (en) 2009-10-28
US20100241424A1 (en) 2010-09-23
WO2007111649A2 (en) 2007-10-04
DE602006015712D1 (de) 2010-09-02
EP1997104A2 (en) 2008-12-03
CN101506873B (zh) 2012-08-15
EP2228789B1 (en) 2012-07-25
EP1997104B1 (en) 2010-07-21
US8386245B2 (en) 2013-02-26
CN101506873A (zh) 2009-08-12
WO2007111649A3 (en) 2009-04-30
EP2228789A1 (en) 2010-09-15
ATE475170T1 (de) 2010-08-15

Similar Documents

Publication Publication Date Title
US10535358B2 (en) Method and apparatus for encoding/decoding speech signal using coding mode
KR101406113B1 (ko) 스피치 신호에서 천이 프레임을 코딩하기 위한 방법 및 장치
ES2433043T3 (es) Conmutación del modo de codificación ACELP a TCX
ES2338117T3 (es) Codificacion de audio con diferentes longitudes de trama de codificacion.
RU2419167C2 (ru) Система, способы и устройство для восстановления при стирании кадра
ES2347473T3 (es) Procedimiento y aparato de deteccion de componentes tonales de señales de audio.
ES2659838T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
US8630863B2 (en) Method and apparatus for encoding and decoding audio/speech signal
ES2547457T3 (es) Generación de ruido de confort
JP5019479B2 (ja) ボコーダにおけるフレームの位相整合のための方法および装置
JP6153661B2 (ja) 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
ES2432625T3 (es) Cálculo de máscara de escalamiento selectiva basado en detección de picos
ES3044088T3 (en) Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
ES2908183T3 (es) Decisión no sonora para el procesamiento de la voz
BRPI0409970B1 (pt) “Método para codificar um sinal de som amostrado, método para decodificar um fluxo de bit representativo de um sinal de som amostrado, codificador, decodificador e fluxo de bit”
BRPI0620838A2 (pt) método e dispositivo para uma eficiente ocultação de apagamento de quadro em codecs de voz
BRPI0116002B1 (pt) Método e equipamento para classificação de fala robusta
JP2010539528A (ja) 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置
JP7202161B2 (ja) 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
KR20040042903A (ko) 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더
ES2347825T3 (es) Atenuacion del registro de tono en bucle abierto.
KR102808306B1 (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
Gibson et al. A Reinforcement Learning Approach to Speech Coding. Information 2022, 13, 331
JPH10105200A (ja) 音声符号化/復号化方法
RECOMMENDATION ITU-Tg. 722.2