ES2347825T3 - Atenuacion del registro de tono en bucle abierto. - Google Patents
Atenuacion del registro de tono en bucle abierto. Download PDFInfo
- Publication number
- ES2347825T3 ES2347825T3 ES06826927T ES06826927T ES2347825T3 ES 2347825 T3 ES2347825 T3 ES 2347825T3 ES 06826927 T ES06826927 T ES 06826927T ES 06826927 T ES06826927 T ES 06826927T ES 2347825 T3 ES2347825 T3 ES 2347825T3
- Authority
- ES
- Spain
- Prior art keywords
- value
- tone
- threshold value
- max
- max2
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007774 longterm Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 20
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 claims description 12
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 claims description 6
- 101100462143 Nicotiana tabacum OLPA gene Proteins 0.000 description 32
- 230000002238 attenuated effect Effects 0.000 description 6
- 230000001934 delay Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Telephone Function (AREA)
- Auxiliary Devices For Music (AREA)
- Soil Working Implements (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Transmission And Conversion Of Sensor Element Output (AREA)
- Telephonic Communication Services (AREA)
- Analogue/Digital Conversion (AREA)
- Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
Abstract
Procedimiento para realizar un análisis de tono en bucle abierto de una señal de voz, comprendiendo el procedimiento las etapas siguientes: obtener una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3; obtener una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto; seleccionar un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, presentando el valor de correlación de largo plazo max correspondiente a p_max el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo; realizar las etapas (x, y) siguientes: x) si p_max2 es inferior a p_max, realizar las etapas (a, b) siguientes: a) establecer un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y establecer el primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado y b) si el valor max multiplicado por el primer valor umbral es inferior a max2, establecer max en max2 y de p_max en p_max2; y) si p_max3 es inferior a p_max, realizar las etapas (a', b') siguientes: a') establecer un segundo valor umbral en un tercer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max3 es inferior a un segundo valor de comparación predeterminado y establecer el segundo valor umbral en un cuarto valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 no es inferior al segundo valor de comparación predeterminado; y b') si el valor max multiplicado por el segundo valor umbral es inferior a max3, establecimiento de p_max en p_max3.
Description
Atenuación del registro de tono en bucle
abierto.
La presente solicitud se basa en la solicitud US
provisional de número de serie 60/784.384, presentada el 20 de
marzo de 2006, y reivindica la prioridad de la misma.
La presente invención se refiere, en general, a
la codificación de voz. Más particularmente, la presente invención
se refiere al análisis de tono en bucle abierto.
La compresión de la voz puede utilizarse para
reducir el número de bits que representan la señal de voz, y
reducir de ese modo el ancho de banda necesario para la transmisión.
No obstante, la compresión de la voz puede provocar la degradación
de la calidad de la voz descomprimida. En general, una tasa de bits
más alta da por resultado una calidad más alta, mientras que una
tasa de bits más baja da por resultado una calidad más baja. Sin
embargo, con las técnicas de compresión de voz modernas, tales como
las técnicas de codificación, se puede obtener voz descomprimida de
una calidad relativamente alta a una tasa de bits relativamente
baja. En general, las técnicas de codificación modernas procuran
representar las características de la señal de voz que tienen
importancia desde el punto de vista perceptivo, sin conservar la
forma de onda de voz particular. Los sistemas de compresión de voz,
comúnmente denominados códec, comprenden un codificador y un
decodificador y pueden utilizase para reducir la tasa de bits de
las señales de voz digitales. Se han elaborado numerosos algoritmos
para los códecs de voz, que reducen el número de bits necesarios
para codificar digitalmente la voz original y al mismo tiempo
tratan de mantener una voz reconstruida de alta calidad.
En 1996, el Sector de Telecomunicaciones de la
Unión Internacional de Telecomunicaciones (ITU-T)
adoptó un algoritmo de codificación de voz de alta calidad que se
conoce como Recomendación G.729, titulada "Coding of Speech
Signals at 8 kbit/s usign Conjugate-Structure
Algebraic-Code-Excited
Linear-Prediction (CS-ACELP)", y
que se describe por ejemplo en la patente US n.º 5732389.
La figura 1 ilustra el flujo de señales de voz
en un codificador de predicción lineal con excitación por código
algebraico de estructura conjugada (CS-ACELP, por
sus siglas en inglés) 100 de la Recomendación G.729 mencionada en
la presente memoria. Los números de referencia situados junto a cada
bloque de la figura 1 indican los números de sección de la
Recomendación G.729 que describen las operaciones y funciones de
cada bloque. Como se representa, la señal de voz o las muestras de
entrada 105 entran en el bloque de paso alto y reducción de escala
(descrito en la Sección 3.1 de la Recomendación G.729), en el que se
aplica un preprocesamiento 110 a cada trama de las muestras de
entrada 105. A continuación, se aplica un análisis LP 115 y una
búsqueda de tono en bucle abierto 120 a cada trama de la señal de
voz preprocesada. Después de la búsqueda de tono en bucle abierto
120, se aplica una búsqueda de tono en bucle cerrado 125 y una
búsqueda algebraica 130 a cada subtrama de la señal de voz, tal
como se representa en la figura 1, obteniéndose como resultado la
generación del índice del código 135.
Tal como se ilustra en la figura 1, la búsqueda
de tono en bucle abierto 120 comprende la búsqueda del retardo de
tono en bucle abierto 124, que se describe en la Sección 3.4 de la
Recomendación G.729. Como se describe en dicha sección, para
reducir la complejidad de la búsqueda del mejor retardo de libro de
códigos adaptativo, el rango de búsqueda se limita en torno a un
retardo propuesto T_{op,} obtenido a partir de un análisis
de tono en bucle abierto. Este análisis de tono en bucle abierto se
realiza una vez por trama (10 ms). En el cálculo de tono en bucle
abierto, se utiliza la señal de voz ponderada sw(n)
obtenida en el bloque de cálculo de voz ponderada 122, y el cálculo
se implementa de la forma indicada a continuación.
En la primera etapa, se determinan tres máximos
de correlación:
siendo,
en los tres rangos
siguientes:
i = 1: 80,...,143
i = 2: 40,...,79
i = 3: 20,...,39
\vskip1.000000\baselineskip
Los máximos retenidos R(t_{i}), i =
1,...,3, se normalizan mediante:
\vskip1.000000\baselineskip
A continuación, se selecciona la mejor de las
tres correlaciones normalizadas favoreciendo los retardos cuyos
valores se hallan en el rango inferior. Esto se logra ponderando las
correlaciones normalizadas correspondientes a los retardos más
prolongados. El mejor retardo en bucle abierto T_{op} se
determina de la siguiente manera:
\vskip1.000000\baselineskip
El procedimiento indicado de división del rango
de retardos en tres secciones para favorecer los valores menores
tiene por objetivo evitar la elección de los múltiplos del tono. El
registro de tono en bucle abierto atenuado puede ayudar a
estabilizar la calidad perceptiva de la voz. Más particularmente, el
registro de tono atenuado puede facilitar la predicción del tono
(cálculo del tono para tramas perdidas) cuando se aplica un
algoritmo de ocultación de tramas borradas en el decodificador. No
obstante, el algoritmo convencional de la Recomendación G.729
descrito anteriormente no proporciona un resultado óptimo y puede
perfeccionarse. Por ejemplo, uno de los inconvenientes de dicho
algoritmo es que sólo utiliza la información de la trama actual para
atenuar el registro de tono en bucle abierto y evitar múltiplos del
tono. Sin embargo, se conocen otros algoritmos tales como el
descrito en la patente US nº 6199035 que efectúan la estimación del
retardo de tono por medio de la ponderación de la función de
autocorrelación para acentuar los valores cercanos a los retardos de
tono anteriores, o el descrito en la patente US
nº 6260010, en el que también se toman en consideración los
retardos de tono anteriores.
En consecuencia, se plantea dentro del ámbito de
la técnica la necesidad de perfeccionar el análisis de tono en
bucle abierto convencional para obtener un registro de tono en bucle
abierto más atenuado para estabilizar la calidad perceptiva de la
voz.
\vskip1.000000\baselineskip
La presente invención, definida en las
reivindicaciones adjuntas, se refiere a un procedimiento para llevar
a cabo un análisis de tono en bucle abierto de una señal de voz. El
procedimiento comprende la obtención de una pluralidad de
candidatos de tono en bucle abierto que comprenden un primer
candidato de tono en bucle abierto p_max1, un segundo
candidato de tono en bucle abierto p_max2 y un tercer
candidato de tono en bucle abierto p_max3, siendo p_max1
> p_max2 > pmax3; la obtención de una pluralidad de
valores de correlación de largo plazo, que comprenden un primer
valor de correlación max1, un segundo valor de correlación
max2 y un tercer valor de correlación max3, para cada
una de las correspondientes propuestas de la pluralidad de
candidatos de tono en bucle abierto; y la selección de un tono en
bucle abierto inicial p_max de la pluralidad de candidatos
de tonos en bucle abierto, en la que el valor de correlación de
largo plazo max correspondiente a p_max posee el
valor máximo de correlación de largo plazo de los valores de
correlación de largo plazo.
El procedimiento comprende también la
determinación del cumplimiento de p_max2 < p_max. Si esta
condición se cumple, el algoritmo comprende el establecimiento de
un primer valor umbral en un primer valor umbral predeterminado si
el valor absoluto de un tono anterior menos p_max2 es
inferior a un primer valor de comparación predeterminado y el
establecimiento del primer valor umbral en un segundo valor umbral
predeterminado si el valor absoluto del tono anterior menos
p_max2 no es inferior al primer valor de comparación
predeterminado; y si el valor max multiplicado por el primer
valor umbral es inferior a max2, el establecimiento de
max en max2 y p_max en p_max2.
El procedimiento comprende además la
determinación del cumplimiento de p_max3 < p_max. Si la
condición se cumple, el algoritmo comprende el establecimiento de
un segundo valor umbral en un tercer valor umbral predeterminado si
el valor absoluto del tono anterior menos p_max3 es inferior
a un segundo valor de comparación predeterminado y el
establecimiento del segundo valor umbral en un cuarto valor umbral
predeterminado si el valor absoluto del tono anterior menos
p_max3 no es inferior al segundo valor de comparación
predeterminado; y si el valor max multiplicado por el
segundo valor umbral es inferior a max3, el establecimiento
de p_max en p_max3.
En otro aspecto, el primer valor de comparación
predeterminado es 10, el primer valor umbral predeterminado es 0,7,
el segundo valor umbral predeterminado es 0,9, el segundo valor de
comparación predeterminado es 5, el tercer valor umbral
predeterminado es 0,7 y el cuarto valor umbral predeterminado es
0,9.
En otro aspecto, el tono anterior pertenece a
una o más tramas anteriores. En otro aspecto, el tono anterior
pertenece a la trama inmediatamente anterior.
En un aspecto aparte, se proporciona un
codificador de voz configurado para realizar el procedimiento
indicado.
Estos y otros aspectos de la presente invención
se pondrán de manifiesto tras la consulta de los dibujos y la
presente memoria. La presente invención se define de manera
exclusiva en las reivindicaciones adjuntas.
Las características y ventajas de la presente
invención se pondrán más claramente de manifiesto para los expertos
ordinarios en la materia tras la consulta de la siguiente
descripción detallada y los dibujos adjuntos, en los que:
la figura 1 ilustra el flujo de señales de voz
en un codificador CS-ACELP de la Recomendación
G.729, que comprende un módulo de búsqueda de retardo de tono en
bucle abierto que ejecuta un algoritmo de análisis de tono en bucle
abierto convencional y
las figuras 2A y 2B ilustran un diagrama de
flujo para la ejecución de un algoritmo de análisis de tono en
bucle abierto en un codificador, según una forma de realización de
la presente invención.
Aunque la presente invención se describe con
respecto a unas formas de realización particulares, como resultará
obvio, los principios de la presente invención definidos en las
reivindicaciones adjuntas pueden aplicarse a otras formas de
realización distintas a las formas de realización particulares de la
presente invención descritas en la presente memoria. Por ejemplo,
aunque algunas formas de realización de la presente invención se
describen en conjunción con el codificador de la Recomendación
G.729, la invención de la presente solicitud no está limitada a
esta norma particular. Por otra parte, en la descripción de la
presente invención, se han omitido ciertos detalles para no hacer
más confusos los aspectos inventivos de la presente invención. Los
detalles omitidos están al alcance de los expertos ordinarios en la
materia.
Los dibujos de la presente solicitud y la
descripción detallada adjunta se refieren simplemente a ejemplos de
formas de realización de la presente invención. Para mantener la
brevedad de la descripción, en los dibujos de la presente solicitud
no se ilustran específicamente otras formas de realización de la
presente invención en las que se utilizan los principios de la
misma. Deberá tenerse presente que, a menos que se indique lo
contrario, los elementos similares o correspondientes de las figuras
pueden identificarse mediante números de referencia similares o
correspondientes.
Las figuras 2A y 2B ilustran un diagrama de
flujo para ejecutar el algoritmo de análisis de tono en bucle
abierto (OLPA) 200 en un codificador, tal como un codificador de la
Recomendación G.729, que es activado por un controlador, según una
forma de realización de la presente invención. En una forma de
realización, el algoritmo OLPA 200 de la presente invención genera
un registro de tono en bucle abierto atenuado que perfecciona los
algoritmos convencionales, utilizando la información vocal de una o
varias tramas anteriores.
Como se muestra, el algoritmo OLPA 200 empieza
por la etapa 205, en la que el análisis de tono en bucle abierto
inicial aporta un grupo de candidatos de tono en bucle abierto de un
grupo de rangos de búsqueda, por ejemplo tres (3) candidatos de
tono en bucle abierto de tres (3) rangos de búsqueda como los
siguientes:
- {p_max1, max1}, {p_max2, max2}, {p_max3, max3},
- en los que p_max1, p_max2 y p_max3 denotan los candidatos de tono en bucle abierto, y max1, max2 y max3, los correspondientes valores de correlación de tono de largo plazo para los candidatos de tono en bucle abierto, y en los que se cumple p_max1 > p_max2 > p_max3. En una forma de realización, los rangos de búsqueda son mutuamente exclusivos.
A continuación, en la etapa 210 el algoritmo
OLPA 200 selecciona una de los candidatos de tono en bucle abierto
que presenta el valor máximo de los valores de correlación de tono
de largo plazo de los tonos máximos de los candidatos de tono en
bucle abierto, es decir, max = MAX{max1, max2, max3}, en la
que max denota el valor máximo del valor de correlación de
tono de largo plazo del tono máximo, y p_max denota el
candidato de tono en bucle abierto correspondiente a max.
Por ejemplo, si max2 presenta el valor de correlación de
tono de largo plazo del tono máximo respecto de max1 y
max3, entonces inicialmente p_max se establecerá en
p_max2.
Subsiguientemente, en las etapas 215 a 245 el
algoritmo OLPA 200 realiza las siguientes operaciones, descritas en
detalle a continuación.
En la etapa 215, el algoritmo OLPA 200 determina
si p_max2 es inferior a p_max. De ser así, el
algoritmo OLPA 200 avanza hasta la etapa 225; en caso contrario, el
algoritmo OLPA 200 avanza hasta el estado 220. En la etapa 225, el
algoritmo OLPA 200 determina si un tono anterior (pit_old) menos
p_max2 es inferior a un valor predeterminado, por ejemplo,
si el valor absoluto del tono anterior menos p_max2 es
inferior a 10. Como se ha indicado anteriormente, a diferencia de
los sistemas convencionales, el algoritmo OLPA 200 utiliza
información de una o más tramas anteriores. Por ejemplo, en la etapa
225 la información de tono de una trama anterior, por ejemplo la
trama inmediatamente anterior, se utiliza en el algoritmo OLPA 200
para generar un registro de tono en bucle abierto atenuado. En
otras formas de realización, se pueden utilizar varios valores de
tono de tramas anteriores, un valor de tono de una trama anterior
que no sea la trama inmediatamente anterior u otro tipo de
información de tramas anteriores para atenuar el registro de tono en
bucle abierto. Haciendo referencia a la etapa 225, si el tono
anterior menos p_max2 es inferior al valor predeterminado,
el algoritmo OLPA 200 continúa por la etapa 235, en la que se
establece un valor umbral (thresh) en un valor
predeterminado, por ejemplo, 0,7. En caso contrario, el algoritmo
OLPA 200 continúa por la etapa 230, en la que el valor umbral se
establece en un valor predeterminado diferente, por ejemplo, 0,9. En
ambos casos, tras las etapas 230 y 235, el algoritmo OLPA 200
avanza hasta la etapa 240, en la que se determina si el valor
max multiplicado por el valor umbral, que se determina en las
etapas 230 ó 235, es inferior a max2. Si éste no es el caso,
el algoritmo OLPA 200 avanza hasta el estado 220, que se describe
más adelante. En caso contrario, el algoritmo OLPA 200 avanza hasta
la etapa 245, donde el valor max recibe el valor de
max2, y p_max recibe el valor de p_max2. Dicho
de otro modo, en ese momento se selecciona p_max2 como tono
en bucle abierto provisional. Tras la etapa 245, el algoritmo OLPA
200 avanza hasta el estado 220, que se describe a continuación.
El estado 220 es el estado inicial para el
procedimiento realizado en las etapas 250 a 280, en las que el
algoritmo OLPA 200 efectúa las operaciones siguientes que se
describen a continuación de forma más detallada.
Desde el estado 220, el algoritmo OLPA 200
continúa por la etapa 250, en la que el algoritmo OLPA 200 determina
si p_max3 es inferior a p_max. De ser así, el
algoritmo OLPA 200 avanza hasta la etapa 260; en caso contrario, el
algoritmo OLPA 200 avanza hasta el estado 255. En la etapa 260, el
algoritmo OLPA 200 determina si un tono anterior menos
p_max3 es inferior a un valor predeterminado, por ejemplo, si
el valor absoluto del tono anterior menos p_max3 es inferior
a 5. Como se ha indicado anteriormente, a diferencia de los
sistemas convencionales, el algoritmo OLPA 200 utiliza información
de una o más tramas anteriores. Por ejemplo, en la etapa 260 la
información de tono de una trama anterior, por ejemplo la trama
inmediatamente anterior, se utiliza en el algoritmo OLPA 200 para
generar un registro de tono en bucle abierto atenuado. En otras
formas de realización, pueden utilizarse varios valores de tono de
tramas anteriores, un valor de tono de una trama anterior que no
sea la trama inmediatamente anterior u otro tipo de información de
tramas anteriores para atenuar el registro de tono en bucle
abierto. Haciendo referencia a la etapa 260, si el tono anterior
menos p_max3 es inferior al valor predeterminado, el
algoritmo OLPA 200 continúa con la etapa 270, en la que se
establece un valor umbral en un valor predeterminado, por ejemplo,
0,7. En caso contrario, el algoritmo OLPA 200 continúa por la etapa
265, en la que el valor umbral se establece en un valor
predeterminado diferente, por ejemplo, 0,9. En ambos casos, tras
las etapas 265 y 270, el algoritmo OLPA 200 avanza hasta la etapa
275, en la que se determina si el valor max multiplicado por
el valor umbral, que se determina en la etapa 265 y 270, es
inferior a max3. De no ser así, el algoritmo OLPA 200 avanza
hasta el estado 255, que se describe más adelante. En caso
contrario, el algoritmo OLPA 200 avanza hasta la etapa 280, en la
que p_max recibe el valor de p_max3. Dicho de otro
modo, en ese momento se selecciona p_max3 como tono en bucle
abierto. Tras la etapa 280, el algoritmo OLPA 200 avanza hasta el
estado 255 que se describe a continuación.
En la etapa 255, el algoritmo OLPA 200 concluye,
y el valor actual p_max indica el valor del tono en bucle
abierto seleccionado y max indica la correspondiente
correlación de tono de largo plazo para p_max.
A partir de la descripción anterior de la
presente invención, se pone de manifiesto que es posible utilizar
diversas técnicas para poner en práctica los conceptos de la
presente invención sin apartarse, por ello, del alcance de la
misma. Por otra parte, aunque la presente invención se ha descrito
haciendo referencia particular a ciertas formas de realización,
como reconocerán los expertos ordinarios en la materia, es posible
realizar cambios en la forma y los detalles sin apartarse, por
ello, del alcance de la presente invención Por ejemplo, está
previsto que los circuitos dados a conocer en la presente memoria
puedan implementarse en software o viceversa. Las formas de
realización descritas no deben considerarse limitativas, sino
ilustrativas en todos los sentidos. Debe tenerse en cuenta también
que la presente invención no se limita a las formas de realización
particulares descritas en la presente memoria, sino que admite
muchas disposiciones, modificaciones y sustituciones sin apartarse,
por ello, del alcance de la presente invención, definido en las
reivindicaciones adjuntas.
Claims (6)
1. Procedimiento para realizar un análisis de
tono en bucle abierto de una señal de voz, comprendiendo el
procedimiento las etapas siguientes:
- obtener una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3;
- obtener una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto;
- seleccionar un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, presentando el valor de correlación de largo plazo max correspondiente a p_max el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo;
- realizar las etapas (x, y) siguientes:
- x)
- si p_max2 es inferior a p_max, realizar las etapas (a, b) siguientes:
- a)
- establecer un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y establecer el primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado y
- b)
- si el valor max multiplicado por el primer valor umbral es inferior a max2, establecer max en max2 y de p_max en p_max2;
- y)
- si p_max3 es inferior a p_max, realizar las etapas (a', b') siguientes:
- a')
- establecer un segundo valor umbral en un tercer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max3 es inferior a un segundo valor de comparación predeterminado y establecer el segundo valor umbral en un cuarto valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 no es inferior al segundo valor de comparación predeterminado; y
- b')
- si el valor max multiplicado por el segundo valor umbral es inferior a max3, establecimiento de p_max en p_max3.
2. Procedimiento según la reivindicación 1, en
el que el primer valor de comparación predeterminado es 10, el
primer valor umbral predeterminado es 0,7 y el segundo valor umbral
predeterminado es 0,9.
3. Procedimiento según la reivindicación 2, en
el que el segundo valor de comparación predeterminado es 5, el
tercer valor umbral predeterminado es 0,7 y el cuarto valor umbral
predeterminado es 0,9.
4. Procedimiento según la reivindicación 1, en
el que el tono anterior pertenece a una o varias tramas
anteriores.
5. Procedimiento según la reivindicación 1, en
el que el tono anterior pertenece a una trama inmediatamente
anterior.
6. Codificador de voz configurado para realizar
un procedimiento según cualquiera de las reivindicaciones 1 a
5.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US78438406P | 2006-03-20 | 2006-03-20 | |
| US784384P | 2006-03-20 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2347825T3 true ES2347825T3 (es) | 2010-11-04 |
Family
ID=38541563
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES06826927T Active ES2347825T3 (es) | 2006-03-20 | 2006-10-27 | Atenuacion del registro de tono en bucle abierto. |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US8386245B2 (es) |
| EP (2) | EP2228789B1 (es) |
| CN (1) | CN101506873B (es) |
| AT (1) | ATE475170T1 (es) |
| DE (1) | DE602006015712D1 (es) |
| ES (1) | ES2347825T3 (es) |
| WO (1) | WO2007111649A2 (es) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9251782B2 (en) | 2007-03-21 | 2016-02-02 | Vivotext Ltd. | System and method for concatenate speech samples within an optimal crossing point |
| JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
| US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5793843A (en) * | 1989-10-31 | 1998-08-11 | Intelligence Technology Corporation | Method and apparatus for transmission of data and voice |
| US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
| US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
| US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
| JPH1091194A (ja) | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
| FI113903B (fi) * | 1997-05-07 | 2004-06-30 | Nokia Corp | Puheen koodaus |
| US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
| US6507814B1 (en) * | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
| US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
| US6564182B1 (en) * | 2000-05-12 | 2003-05-13 | Conexant Systems, Inc. | Look-ahead pitch determination |
| US7136810B2 (en) * | 2000-05-22 | 2006-11-14 | Texas Instruments Incorporated | Wideband speech coding system and method |
| US6584437B2 (en) * | 2001-06-11 | 2003-06-24 | Nokia Mobile Phones Ltd. | Method and apparatus for coding successive pitch periods in speech signal |
| KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
| KR100516678B1 (ko) * | 2003-07-05 | 2005-09-22 | 삼성전자주식회사 | 음성 코덱의 음성신호의 피치검출 장치 및 방법 |
| KR20050008356A (ko) * | 2003-07-15 | 2005-01-21 | 한국전자통신연구원 | 음성의 상호부호화시 선형 예측을 이용한 피치 지연 변환장치 및 방법 |
| US7146309B1 (en) * | 2003-09-02 | 2006-12-05 | Mindspeed Technologies, Inc. | Deriving seed values to generate excitation values in a speech coder |
-
2006
- 2006-10-27 EP EP10168483A patent/EP2228789B1/en not_active Not-in-force
- 2006-10-27 EP EP06826927A patent/EP1997104B1/en active Active
- 2006-10-27 WO PCT/US2006/042096 patent/WO2007111649A2/en not_active Ceased
- 2006-10-27 DE DE602006015712T patent/DE602006015712D1/de active Active
- 2006-10-27 CN CN200680053928XA patent/CN101506873B/zh active Active
- 2006-10-27 ES ES06826927T patent/ES2347825T3/es active Active
- 2006-10-27 AT AT06826927T patent/ATE475170T1/de not_active IP Right Cessation
- 2006-10-27 US US12/224,003 patent/US8386245B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| EP1997104A4 (en) | 2009-10-28 |
| US20100241424A1 (en) | 2010-09-23 |
| WO2007111649A2 (en) | 2007-10-04 |
| DE602006015712D1 (de) | 2010-09-02 |
| EP1997104A2 (en) | 2008-12-03 |
| CN101506873B (zh) | 2012-08-15 |
| EP2228789B1 (en) | 2012-07-25 |
| EP1997104B1 (en) | 2010-07-21 |
| US8386245B2 (en) | 2013-02-26 |
| CN101506873A (zh) | 2009-08-12 |
| WO2007111649A3 (en) | 2009-04-30 |
| EP2228789A1 (en) | 2010-09-15 |
| ATE475170T1 (de) | 2010-08-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10535358B2 (en) | Method and apparatus for encoding/decoding speech signal using coding mode | |
| KR101406113B1 (ko) | 스피치 신호에서 천이 프레임을 코딩하기 위한 방법 및 장치 | |
| ES2433043T3 (es) | Conmutación del modo de codificación ACELP a TCX | |
| ES2338117T3 (es) | Codificacion de audio con diferentes longitudes de trama de codificacion. | |
| RU2419167C2 (ru) | Система, способы и устройство для восстановления при стирании кадра | |
| ES2347473T3 (es) | Procedimiento y aparato de deteccion de componentes tonales de señales de audio. | |
| ES2659838T3 (es) | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo | |
| US8630863B2 (en) | Method and apparatus for encoding and decoding audio/speech signal | |
| ES2547457T3 (es) | Generación de ruido de confort | |
| JP5019479B2 (ja) | ボコーダにおけるフレームの位相整合のための方法および装置 | |
| JP6153661B2 (ja) | 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法 | |
| ES2432625T3 (es) | Cálculo de máscara de escalamiento selectiva basado en detección de picos | |
| ES3044088T3 (en) | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information | |
| ES2908183T3 (es) | Decisión no sonora para el procesamiento de la voz | |
| BRPI0409970B1 (pt) | “Método para codificar um sinal de som amostrado, método para decodificar um fluxo de bit representativo de um sinal de som amostrado, codificador, decodificador e fluxo de bit” | |
| BRPI0620838A2 (pt) | método e dispositivo para uma eficiente ocultação de apagamento de quadro em codecs de voz | |
| BRPI0116002B1 (pt) | Método e equipamento para classificação de fala robusta | |
| JP2010539528A (ja) | 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置 | |
| JP7202161B2 (ja) | 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法 | |
| KR20040042903A (ko) | 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더 | |
| ES2347825T3 (es) | Atenuacion del registro de tono en bucle abierto. | |
| KR102808306B1 (ko) | 음성 정보를 갖는 개선된 프레임 손실 보정 | |
| Gibson et al. | A Reinforcement Learning Approach to Speech Coding. Information 2022, 13, 331 | |
| JPH10105200A (ja) | 音声符号化/復号化方法 | |
| RECOMMENDATION | ITU-Tg. 722.2 |