ES2643746T3 - Dispositivo de codificación de audio de voz, dispositivo de descodificación de audio de voz, método de codificación de audio de voz y método de descodificación de audio de voz - Google Patents
Dispositivo de codificación de audio de voz, dispositivo de descodificación de audio de voz, método de codificación de audio de voz y método de descodificación de audio de voz Download PDFInfo
- Publication number
- ES2643746T3 ES2643746T3 ES13862073.7T ES13862073T ES2643746T3 ES 2643746 T3 ES2643746 T3 ES 2643746T3 ES 13862073 T ES13862073 T ES 13862073T ES 2643746 T3 ES2643746 T3 ES 2643746T3
- Authority
- ES
- Spain
- Prior art keywords
- section
- group
- groups
- energy
- dominant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 25
- 230000003595 spectral effect Effects 0.000 claims description 95
- 230000009466 transformation Effects 0.000 claims description 39
- 238000001228 spectrum Methods 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000011002 quantification Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 6
- 241000792859 Enema Species 0.000 claims 1
- 239000007920 enema Substances 0.000 claims 1
- 229940095399 enema Drugs 0.000 claims 1
- 230000001052 transient effect Effects 0.000 description 22
- 239000013598 vector Substances 0.000 description 20
- 238000010586 diagram Methods 0.000 description 13
- NRNCYVBFPDDJNE-UHFFFAOYSA-N pemoline Chemical compound O1C(N)=NC(=O)C1C1=CC=CC=C1 NRNCYVBFPDDJNE-UHFFFAOYSA-N 0.000 description 6
- 238000013139 quantization Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 101001109518 Homo sapiens N-acetylneuraminate lyase Proteins 0.000 description 3
- 102100022686 N-acetylneuraminate lyase Human genes 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
5
10
15
20
25
30
35
40
45
50
DESCRIPCION
Dispositivo de codificacion de audio de voz, dispositivo de descodificacion de audio de voz, metodo de codificacion de audio de voz y metodo de descodificacion de audio de voz
Campo tecnico
La presente invencion se refiere a un aparato de codificacion de voz/audio, a un aparato de descodificacion de voz/audio, a un metodo de codificacion de voz/audio y a un metodo de descodificacion de voz/audio que usan un esquema de codificacion de transformacion.
Tecnica anterior
Como esquema que puede codificar de manera eficiente una senal de voz o una senal de musica en una banda completa (FB) de 0,02 a 20 kHz, existe una tecnica normalizada en la ITU-T (sector de normalizacion de las telecomunicaciones de la union internacional de telecomunicaciones). Esta tecnica transforma una senal de entrada en una senal de dominio de frecuencia y codifica una banda de hasta 20 kHz (codificacion de transformacion).
En el presente documento, la codificacion de transformacion es un esquema de codificacion que transforma una senal de entrada de un dominio de tiempo a un dominio de frecuencia usando una transformacion tiempo/frecuencia tal como la transformada de coseno discreta (DCT) o transformada de coseno discreta modificada (MDCT) para permitir que una senal se mapee con correspondencia precisa con caractensticas acusticas.
En la codificacion de transformacion, se divide un coeficiente espectral en una pluralidad de subbandas de frecuencia. En la codificacion de cada subbanda, asignar mas bits de cuantificacion a una banda que es perceptivamente importante para los ofdos humanos hace posible mejorar la calidad global del sonido.
Con el fin de conseguir este objetivo, estan llevandose a cabo estudios sobre esquemas de asignacion de bits eficientes, y por ejemplo, se conoce una tecnica dada a conocer en la bibliograffa no de patente 1 (denominada a continuacion en el presente documento “NPL”). A continuacion en el presente documento, se describira el esquema de asignacion de bits dado a conocer en la NPL1 usando la figura 1 y la figura 2.
La figura 1 es un diagrama de bloques que ilustra una configuracion de un aparato de codificacion de voz/audio dado a conocer en la NPL 1. Una senal de entrada muestreada a 48 kHz se introduce en el detector transitorio 11 y la seccion de transformacion 12 del aparato de codificacion de voz/audio.
El detector transitorio 11 detecta, a partir de la senal de entrada, o bien una trama transitoria correspondiente a un borde delantero o un borde final de voz o bien una trama estacionaria correspondiente a una seccion de voz distinta de esta, y la seccion de transformacion 12 aplica, a la trama de la senal de entrada, transformacion de resolucion de alta frecuencia o transformacion de resolucion de baja frecuencia dependiendo de si la trama detectada por el detector transitorio 11 es una trama transitoria o una trama estacionaria, y adquiere un coeficiente espectral (o coeficiente de transformacion).
La seccion de estimacion de norma 13 divide el coeficiente espectral obtenido en la seccion de transformacion 12 en bandas de anchos de banda diferentes. La seccion de estimacion de norma 13 estima una norma (o energfa) de cada banda dividida.
La seccion de cuantificacion de norma 14 determina una envolvente espectral compuesta por las normas de todas las bandas basandose en la norma de cada banda estimada por la seccion de estimacion de norma 13 y cuantifica la envolvente espectral determinada.
La seccion de normalizacion de espectro 15 normaliza el coeficiente espectral obtenido por la seccion de transformacion 12 segun la norma cuantificada por la seccion de cuantificacion de norma 14.
La seccion de ajuste de norma 16 ajusta la norma cuantificada por la seccion de cuantificacion de norma 14 basandose en la ponderacion espectral adaptativa.
La seccion de asignacion de bits 17 asigna bits disponibles para cada banda en una trama usando la norma de cuantificacion ajustada por la seccion de ajuste de norma 16.
La seccion de codificacion de vectores de red 18 realiza la codificacion de vectores de red en el coeficiente espectral normalizado por la seccion de normalizacion de espectro 15 usando bits asignados para cada banda por la seccion de asignacion de bits 17.
La seccion de ajuste de nivel de ruido 19 estima el nivel del coeficiente espectral antes de codificarlo en la seccion de codificacion de vectores de red 18 y codifica el nivel estimado. De esta manera se obtiene un mdice de ajuste de nivel de ruido.
El multiplexor 20 multiplexa una configuracion de trama de la senal de entrada adquirida por la seccion de
5
10
15
20
25
30
35
40
45
50
transformacion 12, es dedr, un indicador de senal transitoria que indica si la trama es una trama estacionaria o una trama transitoria, la norma cuantificada por la seccion de cuantificacion de norma 14, el vector de codificacion de red obtenido por la seccion de codificacion de vectores de red 18 y el mdice de ajuste de nivel de ruido obtenido por la seccion de ajuste de nivel de ruido 19, y forma un flujo de bits y transmite el flujo de bits a un aparato de descodificacion de voz/audio.
La figura 2 es un diagrama de bloques que ilustra una configuracion del aparato de descodificacion de voz/audio dado a conocer en la NPL 1. El aparato de descodificacion de voz/audio recibe el flujo de bits transmitido desde el aparato de codificacion de voz/audio y el demultiplexor 21 desmultiplexa el flujo de bits.
La seccion de descuantificacion de norma 22 descuantifica la norma cuantificada, adquiere una envolvente espectral compuesta por normas de todas las bandas, y la seccion de ajuste de norma 23 ajusta la norma descuantificada por la seccion de descuantificacion de norma 22 basandose en una ponderacion espectral adaptativa.
La seccion de asignacion de bits 24 asigna bits disponibles para cada banda en una trama usando las normas ajustadas por la seccion de ajuste de norma 23. Es decir, la seccion de asignacion de bits 24 recalcula la asignacion de bits indispensable para descodificar el codigo de vector de red del coeficiente espectral normalizado.
La seccion de descodificacion de red 25 descodifica un indicador de senal transitoria, descodifica el vector de codificacion de red basandose en una configuracion de trama indicada por el indicador de senal transitoria descodificado y los bits asignados por la seccion de asignacion de bits 24 y adquiere un coeficiente espectral.
El generador de llenado espectral 26 regenera un coeficiente espectral de baja frecuencia al que no se han asignado bits usando un libro de codigos creado basandose en el coeficiente espectral descodificado por la seccion de descodificacion de red 25. El generador de llenado espectral 26 ajusta el nivel del coeficiente espectral regenerado usando un mdice de ajuste de nivel de ruido. Ademas, el generador de llenado espectral 26 regenera un coeficiente espectral sin codificar de alta frecuencia usando un coeficiente espectral codificado de baja frecuencia.
El sumador 27 suma el coeficiente espectral descodificado y el coeficiente espectral regenerado, y genera un coeficiente espectral normalizado.
La seccion de conformacion de envolvente 28 aplica la envolvente espectral descuantificada por la seccion de descuantificacion de norma 22 al coeficiente espectral normalizado generado por el sumador 27 y genera un coeficiente espectral de banda completa.
La seccion de transformacion inversa 29 aplica una transformacion inversa tal como la transformada de coseno discreta modificada inversa (IMDCT) al coeficiente espectral de banda completa generado por la seccion de conformacion de envolvente 28 para transformarlo en una senal de dominio de tiempo. En este caso, la transformacion inversa con resolucion de alta frecuencia se aplica a un caso con una trama estacionaria y la transformacion inversa con resolucion de baja frecuencia se aplica a un caso con una trama transitoria.
En G.719, los coeficientes espectrales se dividen en grupos espectrales. Cada grupo espectral se divide en bandas con subvectores de igual longitud tal como se muestra en la figura 3. Los subvectores tienen diferente longitud de un grupo a otro y esta longitud aumenta a medida que aumenta la frecuencia. Con respecto a la resolucion de transformacion, se usa resolucion de frecuencia mas alta para frecuencias bajas, mientras que se usa una resolucion de frecuencia mas baja para frecuencias altas. Tal como se describe en G.719, la agrupacion permite un uso eficiente de los bits disponibles durante la codificacion.
En G.719, el esquema de asignacion de bits es identico en un aparato de codificacion y un aparato de descodificacion. En este caso, el esquema de asignacion de bits se describira usando la figura 4.
Tal como se muestra en la figura 4, en la etapa (abreviada a continuacion en el presente documento como “ST”) 31, se ajustan normas cuantificadas antes de la asignacion de bits para ajustar la ponderacion psicoacustica y los efectos de enmascaramiento.
En ST32, se identifican subbandas que tienen una norma maxima de entre todas las subbandas y en ST33, se asigna un bit a cada coeficiente espectral para las subbandas que tienen la norma maxima. Es decir, se asignan tantos bits como coeficientes espectrales.
En ST34, se reducen las normas segun los bits asignados, y en ST35, se determina si el numero de bits asignables restante es de 8 o mas. Cuando el numero de bits asignables restante es de 8 o mas, el flujo vuelve a ST32 y cuando el numero de bits asignables restante es menor que 8, se termina el procedimiento de asignacion de bits.
Por tanto, en el esquema de asignacion de bits, los bits disponibles dentro de una trama se asignan entre subbandas usando las normas de cuantificacion ajustadas. Los coeficientes espectrales normalizados se codifican mediante codificacion de vectores de red usando los bits asignados a cada subbanda.
Lista de referencias
5
10
15
20
25
30
35
40
45
Bibliografia no de patente
NPL1
Recomendacion G.719 de ITU-T, “Low-complexity full-band audio coding for high-quality conversational applications”, ITU-T, 2009. Sumario de la invencion
Problema tecnico
Sin embargo, el esquema de asignacion de bits anterior no tiene en cuenta caractensticas de la senal de entrada al agrupar bandas espectrales, y por lo tanto tiene un problema en cuanto a que no es posible una asignacion de bits eficiente y no puede esperarse una mejora adicional de la calidad de sonido.
La patente europea EP0259553 describe la designacion de bits (asignacion de bits) a una pluralidad de subbandas, en las que los niveles de energfa de pico (correspondientes a picos en las envolventes de energfa) de las subbandas respectivas se agrupan en una pluralidad de grupos de banda. La designacion de bits se realiza de manera que algunas bandas que tienen energfas de pico mas grandes reciben designaciones de bits mas grandes (truncamiento de tablas). 5
Un objeto de la presente invencion es proporcionar un aparato de codificacion de voz/audio, un aparato de descodificacion de voz/audio, un metodo de codificacion de voz/audio y un metodo de descodificacion de voz/audio que puedan realizar una asignacion de bits eficiente y mejorar la calidad de sonido.
Solucion al problema
Un aparato de codificacion de voz/audio de la presente invencion incluye las caractensticas de la reivindicacion 1.
Un aparato de descodificacion de voz/audio segun la presente invencion incluye las caractensticas de la reivindicacion 4.
Un metodo de codificacion de voz/audio segun la presente invencion incluye las caractensticas de la reivindicacion 7
Un metodo de descodificacion de voz/audio segun la presente invencion incluye las caractensticas de la reivindicacion 8.
Efectos ventajosos de la invencion
Segun la presente invencion, es posible realizar una asignacion de bits eficiente y mejorar la calidad de sonido.
Breve descripcion de los dibujos
La figura 1 es un diagrama de bloques que ilustra una configuracion de un aparato de codificacion de voz/audio dado a conocer en la NPL 1;
la figura 2 es un diagrama de bloques que ilustra una configuracion de un aparato de descodificacion de voz/audio dado a conocer en la NPL 1;
la figura 3 es un diagrama que ilustra la agrupacion de coeficientes espectrales en un modo estacionario dado a conocer en la NPL 1;
la figura 4 es un diagrama de flujo que ilustra un esquema de asignacion de bits dado a conocer en la NPL 1;
la figura 5 es un diagrama de bloques que ilustra una configuracion de un aparato de codificacion de voz/audio segun una realizacion de la presente invencion;
la figura 6 es un diagrama de bloques que ilustra una configuracion de un aparato de descodificacion de voz/audio segun una realizacion de la presente invencion;
la figura 7 es un diagrama de bloques que ilustra una configuracion interna de la seccion de asignacion de bits mostrada en la figura 5;
las figuras 8A a 8C son diagramas proporcionados para describir un metodo de agrupacion segun una realizacion de la presente invencion; y
la figura 9 es un diagrama que ilustra una variacion de norma.
Descripcion de realizaciones
A continuacion en el presente documento, se describiran en detalle realizaciones de la presente invencion con referencia a los dibujos adjuntos.
5
10
15
20
25
30
35
40
45
50
(Realizacion)
La figura 5 es un diagrama de bloques que ilustra una configuracion del aparato de codificacion de voz/audio 100 segun una realizacion de la presente invencion. Una senal de entrada muestreada a 48 kHz se introduce en el detector transitorio 101 y la seccion de transformacion 102 del aparato de codificacion de voz/audio 100.
El detector transitorio 101 detecta, a partir de una senal de entrada, o bien una trama transitoria correspondiente a un borde delantero o un borde final de voz o bien una trama estacionaria correspondiente a una seccion de voz distinta de esta, y emite el resultado de deteccion a la seccion de transformacion 102. La seccion de transformacion 102 aplica, a la trama de la senal de entrada, transformacion de resolucion de alta frecuencia o transformacion de resolucion de baja frecuencia dependiendo de si el resultado de deteccion emitido desde el detector transitorio 101 es una trama transitoria o una trama estacionaria, y adquiere un coeficiente espectral (o coeficiente de transformacion) y emite el coeficiente espectral a la seccion de estimacion de norma 103 y la seccion de normalizacion de espectro 105. La seccion de transformacion 102 emite una configuracion de trama que es el resultado de deteccion emitido desde el detector transitorio 101, es decir, un indicador de senal transitoria que indica si la trama es una trama estacionaria o una trama transitoria al multiplexor 110.
La seccion de estimacion de norma 103 divide el coeficiente espectral emitido desde la seccion de transformacion 102 en bandas de anchos de banda diferentes y estima una norma (o energfa) de cada banda dividida. La seccion de estimacion de norma 103 emite la norma estimada de cada banda a la seccion de cuantificacion de norma 104.
La seccion de cuantificacion de norma 104 determina una envolvente espectral compuesta por normas de todas las bandas basandose en normas de bandas respectivas emitidas desde la seccion de estimacion de norma 103, cuantifica la envolvente espectral determinada y emite la envolvente espectral cuantificada a la seccion de normalizacion de espectro 105 y la seccion de ajuste de norma 106.
La seccion de normalizacion de espectro 105 normaliza el coeficiente espectral emitido desde la seccion de transformacion 102 segun la envolvente espectral cuantificada emitida desde la seccion de cuantificacion de norma 104 y emite el coeficiente espectral normalizado a la seccion de codificacion de vectores de red 108.
La seccion de ajuste de norma 106 ajusta la envolvente espectral cuantificada emitida desde la seccion de cuantificacion de norma 104 basandose en la ponderacion espectral adaptativa y emite la envolvente espectral cuantificada ajustada a la seccion de asignacion de bits 107.
La seccion de asignacion de bits 107 asigna bits disponibles para cada banda en una trama usando la envolvente espectral cuantificada ajustada emitida desde la seccion de ajuste de norma 106 y emite los bits asignados a la seccion de codificacion de vectores de red 108. Mas adelante se describiran detalles de la seccion de asignacion de bits 107.
La seccion de codificacion de vectores de red 108 realiza la codificacion de vectores de red en el coeficiente espectral normalizado por la seccion de normalizacion de espectro 105 usando los bits asignados para cada banda en la seccion de asignacion de bits 107 y emite el vector de codificacion de red a la seccion de ajuste de nivel de ruido 109 y el multiplexor 110.
La seccion de ajuste de nivel de ruido 109 estima el nivel del coeficiente espectral antes de la codificacion en la seccion de codificacion de vectores de red 108 y codifica el nivel estimado. De esta manera se determina un mdice de ajuste de nivel de ruido. El mdice de ajuste de nivel de ruido se emite al multiplexor 110.
El multiplexor 110 multiplexa el indicador de senal transitoria emitido desde la seccion de transformacion 102, la envolvente espectral cuantificada emitida desde la seccion de cuantificacion de norma 104, el vector de codificacion de red emitido desde la seccion de codificacion de vectores de red 108 y el mdice de ajuste de nivel de ruido emitido desde la seccion de ajuste de nivel de ruido 109, y forma un flujo de bits y transmite el flujo de bits a un aparato de descodificacion de voz/audio.
La figura 6 es un diagrama de bloques que ilustra una configuracion del aparato de descodificacion de voz/audio 200 segun una realizacion de la presente invencion. Un flujo de bits transmitido desde el aparato de codificacion de voz/audio 100 se recibe mediante el aparato de descodificacion de voz/audio 200 y se desmultiplexa mediante el demultiplexor 201.
La seccion de descuantificacion de norma 202 descuantifica la envolvente espectral cuantificada (es decir, la norma) emitida desde el multiplexor, obtiene una envolvente espectral compuesta por normas de todas las bandas y emite la envolvente espectral obtenida a la seccion de ajuste de norma 203.
La seccion de ajuste de norma 203 ajusta la envolvente espectral emitida desde la seccion de descuantificacion de norma 202 basandose en la ponderacion espectral adaptativa y emite la envolvente espectral ajustada a la seccion de asignacion de bits 204.
La seccion de asignacion de bits 204 asigna bits disponibles para cada banda en una trama usando la envolvente
5
10
15
20
25
30
35
40
45
50
55
espectral emitida desde la seccion de ajuste de norma 203. Es dedr, la seccion de asignacion de bits 204 recalcula la asignacion de bits indispensable para descodificar el codigo de vectores de red del coeficiente espectral normalizado. Los bits asignados se emiten a la seccion de descodificacion de red 205.
La seccion de descodificacion de red 205 descodifica el vector de codificacion de red emitido desde el demultiplexor 201 basandose en una configuracion de trama indicada por el indicador de senal transitoria emitido desde el demultiplexor 201 y los bits emitidos desde la seccion de asignacion de bits 204 y adquiere un coeficiente espectral. El coeficiente espectral se emite al generador de llenado espectral 206 y el sumador 207.
El generador de llenado espectral 206 regenera un coeficiente espectral de baja frecuencia al que no se han asignado bits usando un libro de codigos creado basandose en el coeficiente espectral emitido desde la seccion de descodificacion de red 205. El generador de llenado espectral 206 ajusta el nivel del coeficiente espectral regenerado usando el mdice de ajuste de nivel de ruido emitido desde el demultiplexor 201. Ademas, el generador de llenado espectral 206 regenera el coeficiente espectral no sometido a codificacion de alta frecuencia usando un coeficiente espectral codificado de baja frecuencia. El coeficiente espectral de baja frecuencia de nivel ajustado y coeficiente espectral de alta frecuencia regenerado se emiten al sumador 207.
El sumador 207 suma el coeficiente espectral emitido desde la seccion de descodificacion de red 205 y el coeficiente espectral emitido desde el generador de llenado espectral 206, genera un coeficiente espectral normalizado y emite el coeficiente espectral normalizado a la seccion de conformacion de envolvente 208.
La seccion de conformacion de envolvente 208 aplica la envolvente espectral emitida desde la seccion de descuantificacion de norma 202 al coeficiente espectral normalizado generado por el sumador 207 y genera un coeficiente espectral de banda completa (correspondiente al espectro descodificado). El coeficiente espectral de banda completa generado se emite a la seccion de transformacion inversa 209.
La seccion de transformacion inversa 209 aplica una transformacion inversa tal como transformada de coseno discreta modificada inversa (IMDCT) al coeficiente espectral de banda completa emitido desde la seccion de conformacion de envolvente 208, lo transforma en una senal de dominio de tiempo y emite una senal de salida. En este caso, se aplica transformacion inversa con resolucion de alta frecuencia a un caso de una trama estacionaria y se aplica transformacion inversa con resolucion de baja frecuencia a un caso de una trama transitoria.
A continuacion, se describiran los detalles de la seccion de asignacion de bits 107 usando la figura 7. Observese que la seccion de asignacion de bits 107 del aparato de codificacion de voz/audio 100 es identica en cuanto a la configuracion a la seccion de asignacion de bits 204 del aparato de descodificacion de voz/audio 200, y por lo tanto solo se describira la seccion de asignacion de bits 107 y la descripcion de la seccion de asignacion de bits 204 se omitira en el presente documento.
La figura 7 es un diagrama de bloques que ilustra una configuracion interna de la seccion de asignacion de bits 107 mostrada en la figura 5. La seccion de identificacion de banda de frecuencia dominante 301 identifica, basandose en la envolvente espectral cuantificada emitida desde la seccion de ajuste de norma 106, una banda de frecuencia dominante que es una subbanda en la que un valor de coeficiente de norma en el espectro tiene un valor maximo local, y emite cada banda de frecuencia dominante identificada a las secciones de determinacion de grupo dominante 302-1 a 302N. Ademas de designar una banda de frecuencia para la que un valor de coeficiente de norma tiene un valor maximo local, los ejemplos del metodo de determinacion de una banda de frecuencia dominante pueden incluir designar una banda de entre todas las subbandas en las que un valor de coeficiente de norma tiene un valor maximo como banda de frecuencia dominante o designar como banda de frecuencia dominante una banda que tiene un valor de coeficiente de norma que supera un umbral predeterminado o un umbral calculado a partir de normas de todas las subbandas.
Las secciones de determinacion de grupo dominante 302-1 a 302N determinan de manera adaptativa las anchuras de grupo segun las caractensticas de la senal de entrada centrada en la banda de frecuencia dominante emitida desde la seccion de identificacion de banda de frecuencia dominante 301. Mas espedficamente, la anchura de grupo se define como la anchura de un grupo de subbandas centrado en y a ambos lados de la banda de frecuencia dominante hasta subbandas en las que se detiene una pendiente descendente del valor de coeficiente de norma. Las secciones de determinacion de grupo dominante 302-1 a 302N determinan bandas de frecuencia incluidas en anchuras de grupo como grupos dominantes y emiten los grupos dominantes determinados a la seccion de determinacion de grupo no dominante 303. Observese que cuando una banda de frecuencia dominante esta ubicada en un borde (extremo de una frecuencia disponible), solo se incluye en el grupo un lado de la pendiente descendente.
La seccion de determinacion de grupo no dominante 303 determina subbandas continuas emitidas desde las secciones de determinacion de grupo dominante 302-1 a 302N distintas de los grupos dominantes como grupos no dominantes sin bandas de frecuencia dominantes. La seccion de determinacion de grupo no dominante 303 emite los grupos dominantes y los grupos no dominantes a la seccion de calculo de energfa de grupo 304 y la seccion de calculo de variacion de norma 306.
La seccion de calculo de energfa de grupo 304 calcula la energfa espedfica de grupo de los grupos dominantes y
5
10
15
20
25
30
35
40
los grupos no dominantes emitidos desde la seccion de determinacion de grupo no dominante 303 y emite la energfa calculada a la seccion de calculo de ene^a total 305 y la seccion de distribucion de bits de grupo 308. La energfa espedfica de grupo se calcula mediante la siguiente ecuacion 1.
[1]
Energia (G(k)) = Norma(i) ... (Ecuacion 1)
En este caso, k indica un mdice de cada grupo, Energfa(G(k)) indica la energfa del grupo k, i indica un mdice de subbanda del grupo k, M indica el numero total de subbandas del grupo k y Norma(i) indica un valor de coeficiente de norma de la subbanda i del grupo k.
La seccion de calculo de energfa total 305 suma toda la energfa espedfica de grupo emitida desde la seccion de calculo de energfa de grupo 304 y calcula la energfa total de todos los grupos. La energfa total calculada se emite a la seccion de distribucion de bits de grupo 308. La energfa total se calcula mediante la siguiente ecuacion 2.
[2]
EnergiatoW= , Energia(G(k)) ... (Ecuacion 2)
En este caso, Energfatotal indica la energia total de todos los grupos, N indica el numero total de grupos en un espectro, k indica un mdice de cada grupo y Energfa(G(k)) indica la energia del grupo k.
La seccion de calculo de variacion de norma 306 calcula la variacion de norma espedfica de grupo para los grupos dominantes y los grupos no dominantes emitidos desde la seccion de determinacion de grupo no dominante 303, y emite la variacion de norma calculada a la seccion de calculo de variacion de norma total 307 y la seccion de distribucion de bits de grupo 308. La variacion de norma espedfica de grupo se calcula mediante la siguiente ecuacion 3.
[3]
Norma mr{G{k)) = Norma j^Gik)) - NormajG(k)) .. .(Ecuacion 3)
En este caso, k indica un mdice de cada grupo, Normavar(G(k)) indica una variacion de norma del grupo k, Normamax(G(k)) indica un valor de coeficiente de norma maximo del grupo k y Normamin(G(k)) indica un valor de coeficiente de norma mmimo del grupo k.
La seccion de calculo de variacion de norma total 307 calcula una variacion de norma total de todos los grupos basandose en la variacion de norma espedfica de grupo emitida desde la seccion de calculo de variacion de norma 306. La variacion de norma total calculada se emite a la seccion de distribucion de bits de grupo 308. La variacion de norma total se calcula mediante la siguiente ecuacion 4.
[4]
Norma^lsi= Tjorma™ ( (*)) • ■ • (Ecuacion 4)
En este caso, Normavartotal indica una variacion de norma total de todos los grupos, N indica el numero total de grupos en un espectro, k indica un mdice de cada grupo, y Normavar(G(k)) indica una variacion de norma del grupo k.
La seccion de distribucion de bits de grupo 308 (correspondiente a una primera seccion de asignacion de bits) distribuye bits de grupo en grupo basandose en la energia espedfica de grupo emitida desde la seccion de calculo de energia de grupo 304, la energia total de todos los grupos emitida desde la seccion de calculo de energia total 305, la variacion de norma espedfica de grupo emitida desde la seccion de calculo de variacion de norma 306 y la variacion de norma total de todos los grupos emitida desde la seccion de calculo de variacion de norma total 307, y emite bits distribuidos de grupo en grupo a la seccion de distribucion de bits de subbanda 309. Los bits distribuidos de grupo en grupo se calculan mediante la siguiente ecuacion 5.
5
10
15
20
25
30
35
40
45
En este caso, k indica un mdice de cada grupo, Bits(G(k)) indica el numero de bits distribuidos al grupo k, Bitstotai indica el numero total de bits disponibles, escala1 indica la proporcion de bits asignados por energfa, Ene^a(G(k)) indica la energfa del grupo k, Ene^atotal indica la energfa total de todos los grupos y Normavar(G(k)) indica una variacion de norma del grupo k.
Ademas, escalal en la ecuacion 5 anterior adopta un valor dentro de un intervalo de [0, 1] y ajusta la proporcion de bits asignados por energfa o variacion de norma. Cuanto mayor es el valor de escalal, mas bits se asignan por energfa, y en un caso extremo, si el valor es 1, todos los bits se asignan por energfa. Cuanto menor es el valor de escalal, mas bits se asignan por variacion de norma, y en un caso extremo, si el valor es 0, todos los bits se asignan por variacion de norma.
Distribuyendo bits de grupo en grupo tal como se describio anteriormente, la seccion de distribucion de bits de grupo 308 puede distribuir mas bits a grupos dominantes y distribuir menos bits a grupos no dominantes.
Por tanto, la seccion de distribucion de bits de grupo 308 puede determinar la importancia perceptiva de cada grupo por energfa y variacion de norma y potencia mas los grupos dominantes. La variacion de norma cumple una teona de enmascaramiento y puede determinar la importancia perceptiva de manera mas precisa.
La seccion de distribucion de bits de subbanda 309 (correspondiente a una segunda seccion de asignacion de bits) distribuye bits a subbandas en cada grupo basandose en los bits espedficos de grupo emitidos desde la seccion de distribucion de bits de grupo 308 y emite los bits asignados a subbandas espedficas de grupo a la seccion de codificacion de vectores de red 108 como el resultado de la asignacion de bits. En este caso, se distribuyen mas bits a subbandas perceptivamente importantes y se distribuyen menos bits a subbandas perceptivamente menos importantes. Los bits distribuidos a cada subbanda en un grupo se calculan mediante la siguiente ecuacion 6.
[6]
Norma (0 Energia(G(k))
...(Ecuacion 6)
En este caso, BitsG(k)sb(i) indica un bit asignado a la subbanda i del grupo k, i indica un mdice de subbanda del grupo k, Bits(G(k)) indica un bit asignado al grupo k, Energfa(G(k)) indica la energfa del grupo k y Norma(i) indica un valor de coeficiente de norma de la subbanda i del grupo k.
A continuacion, se describira un metodo de agrupacion usando las figuras 8A a 8C. Se supone que se introduce una envolvente espectral cuantificada mostrada en la figura 8A a la seccion de identificacion de banda de frecuencia de pico 301. La seccion de identificacion de banda de frecuencia de pico 301 identifica las bandas de frecuencia dominantes 9 y 20 basandose en la envolvente espectral cuantificada introducida (vease la figura 8B).
Las secciones de generacion de grupo dominante 302-1 a 302-N determinan subbandas centradas en y a ambos lados de las bandas de frecuencia dominantes 9 y 20 hasta las subbandas en las que se detiene una pendiente descendente del valor de coeficiente de norma como grupo dominante identico. En los ejemplos en las figuras 8A a 8C, al igual que para la banda de frecuencia dominante 9, las subbandas 6 a 12 se determinan como grupo dominante (grupo 2), mientras que al igual que para la banda de frecuencia dominante 20, las subbandas 17 a 22 se determinan como grupo dominante (grupo 4) (vease la figura 8C).
La seccion de determinacion de grupo no dominante 303 determina bandas de frecuencia continuas distintas de los grupos dominantes como grupos no dominantes sin las bandas de frecuencia dominantes. En el ejemplo en las figuras 8A a 8C, las subbandas 1 a 5 (grupo 1), las subbandas 13 a 16 (grupo 3) y las subbandas 23 a 25 (grupo 5) se determinan como grupos no dominantes respectivamente (vease la figura 8C).
Como resultado, las envolventes espectrales cuantificadas se dividen en cinco grupos, es decir, dos grupos dominantes (grupos 2 y 4) y tres grupos no dominantes (grupos 1, 3 y 5).
Usando un metodo de agrupacion de este tipo, es posible determinar de manera adaptativa anchuras de grupo segun las caractensticas de la senal de entrada. Segun este metodo, el aparato de descodificacion de voz/audio tambien usa coeficientes de norma cuantificados disponibles, y por lo tanto no necesita transmitirse informacion adicional al aparato de descodificacion de voz/audio.
5
10
15
20
25
30
35
40
45
50
Observese que la seccion de calculo de variacion de norma 306 calcula una variacion de norma espedfica de grupo. En los ejemplos en las figuras 8A a 8C, se muestra la variacion de norma Energfavar(G(2)) en el grupo 2 en la figura 9 como referencia.
A continuacion, se describira la importancia perceptiva. Un espectro de una senal de voz/audio incluye generalmente una pluralidad de picos (montanas) y valles. Un pico esta compuesto por una componente espectral ubicada en una frecuencia dominante de la senal de voz/audio (componente de sonido dominante). El pico es perceptivamente muy importante. La importancia perceptiva del pico puede determinarse mediante una diferencia entre la energfa del pico y la energfa del valle, es decir, mediante una variacion de norma. Teoricamente, cuando un pico tiene una energfa suficientemente grande en comparacion con bandas de frecuencia vecinas, el pico debe codificarse con un numero de bits suficiente, pero si el pico se codifica con un numero de bits insuficiente, el ruido de codificacion que se mezcla se vuelve destacado, provocando que se deteriore la calidad de sonido. Por otra parte, un valle no esta compuesto por ninguna componente de sonido dominante de una senal de voz/audio y no es perceptivamente importante.
Segun el metodo de agrupacion de banda de frecuencia de la presente realizacion, una banda de frecuencia dominante corresponde a un pico de un espectro y agrupar bandas de frecuencia significa separar los picos (grupos dominantes que incluyen bandas de frecuencia dominantes) de los valles (grupos no dominantes sin bandas de frecuencia dominantes).
La seccion de distribucion de bits de grupo 308 determina la importancia perceptiva de un pico. Al contrario que la tecnica de G.719 en la que se determina la importancia perceptiva solo mediante la energfa, la presente realizacion determina la importancia perceptiva basandose tanto en la energfa como en distribuciones de la norma (energfa) y determina los bits que van a distribuirse a cada grupo basandose en la importancia perceptiva determinada.
En la seccion de distribucion de bits de subbanda 309, cuando una variacion de norma en un grupo es grande, significa que este grupo es uno de picos, el pico es perceptivamente mas importante y debe codificarse de manera precisa un coeficiente de norma que tiene un valor maximo. Por este motivo, se distribuyen mas bits a cada subbanda de este pico. Por otra parte, cuando una variacion de norma en un grupo es muy pequena, significa que este grupo es uno de valles, y el valle no es perceptivamente importante y no necesita codificarse de manera precisa. Por este motivo, se distribuyen menos bits a cada subbanda de este grupo.
Por tanto, la presente realizacion identifica una banda de frecuencia dominante en la que un valor de coeficiente de norma en un espectro de una senal de voz/audio de entrada tiene un valor maximo local, agrupa todas las subbandas en grupos dominantes que incluyen una banda de frecuencia dominante y grupos no dominantes que no incluyen ninguna banda de frecuencia dominante, distribuye bits a cada grupo basandose en la energfa espedfica de grupo y las variaciones de norma, y distribuye adicionalmente los bits distribuidos de grupo en grupo a cada subbanda segun una razon de una norma con respecto a la energfa de cada grupo. De esta manera, es posible asignar mas bits a grupos y subbandas perceptivamente importantes y realizar una distribucion de bits eficiente. Como resultado, puede mejorarse la calidad de sonido.
Observese que el coeficiente de norma en la presente realizacion representa la energfa de subbanda y tambien se denomina “envolvente de energfa”.
La divulgacion de la solicitud de patente japonesa n.° 2012-272571, presentada el 13 de diciembre de 2012, que incluye la memoria descriptiva, los dibujos y el resumen se incorpora en el presente documento como referencia en su totalidad.
Aplicabilidad industrial
El aparato de codificacion de voz/audio, el aparato de descodificacion de voz/audio, el metodo de codificacion de voz/audio y el metodo de descodificacion de voz/audio segun la presente invencion pueden aplicarse a un aparato de terminal de comunicacion por radio, un aparato de estacion base de comunicacion por radio, un aparato de terminal de conferencia telefonica, un aparato de terminal de conferencia de video y un aparato de terminal de protocolo de voz por Internet (VoIP) o similares.
Lista de signos de referencia
101 Detector transitorio
102 Seccion de transformacion
103 Seccion de estimacion de norma
104 Seccion de cuantificacion de norma
105 Seccion de normalizacion de espectro 106, 203 Seccion de ajuste de norma
107, 204 Seccion de asignacion de bits
108 Seccion de codificacion de vectores de red
109 Seccion de ajuste de nivel de ruido
110 Multiplexor
5 201 Demultiplexor
202 Seccion de descuantificacion de norma
205 Seccion de descodificacion de red
206 Generador de llenado espectral
207 Sumador
10 208 Seccion de conformacion de envolvente
209 Seccion de transformacion inversa
301 Seccion de identificacion de banda de frecuencia dominante 302-1 a 302-N Seccion de determinacion de grupo dominante 303 Seccion de determinacion de grupo no dominante 15 304 Seccion de calculo de energfa de grupo
305 Seccion de calculo de energfa total
306 Seccion de calculo de variacion de norma
307 Seccion de calculo de variacion de norma total
308 Seccion de distribucion de bits de grupo
20 309 Seccion de distribucion de bits de subbanda
Claims (1)
- 51015202530354045REIVINDICACIONESAparato de codificacion de voz/audio que comprende:una seccion de transformacion que transforma una senal de entrada de un dominio de tiempo a un dominio de frecuencia;una seccion de estimacion que estima una envolvente de ene^a que representa un nivel de energfa para cada una de una pluralidad de subbandas obtenidas dividiendo un espectro de frecuencia de la senal de entrada;una seccion de cuantificacion que cuantifica las envolventes de energfa;una seccion de determinacion de grupo que agrupa las envolventes de energfa cuantificadas en una pluralidad de grupos;en el que la seccion de determinacion de grupo determinauna banda de frecuencia dominante que es una subbanda en la que una envolvente de energfa del espectro de frecuencia tiene un valor maximo localy subbandas a ambos lados de la banda de frecuencia dominante que forman, cada una, una pendiente descendente de una envolvente de energfa como grupos dominantes, y determina subbandas mutuamente adyacentes distintas de los grupos dominantes como grupos no dominantes;una primera seccion de asignacion de bits que asigna bits a la pluralidad de grupos determinados;una segunda seccion de asignacion de bits que asigna los bits asignados a la pluralidad de grupos determinados a subbandas de grupo en grupo; yuna seccion de codificacion que codifica el espectro de frecuencia usando bits asignados a las subbandas. Aparato de codificacion de voz/audio segun la reivindicacion 1, que comprende ademas: una seccion de calculo de energfa que calcula energfa espedfica de grupo; yuna seccion de calculo de distribucion que calcula una distribucion de envolvente de energfa espedfica de grupo, en el quela primera seccion de asignacion de bits asigna, basandose en la energfa espedfica de grupo calculada y la distribucion de envolvente de energfa espedfica de grupo, mas bits a un grupo cuando al menos una de la energfa y la distribucion de envolvente de energfa es mayor y asigna menos bits a un grupo cuando al menos una de la energfa y la distribucion de envolvente de energfa es menor.Aparato de codificacion de voz/audio segun la reivindicacion 1, en el que la segunda seccion de asignacion de bits asigna mas bits a una subbanda que tiene una envolvente de energfa mayor y asigna menos bits a una subbanda que tiene una envolvente de energfa menor.Aparato de descodificacion de voz/audio que comprende:una seccion de descuantificacion que descuantifica una envolvente espectral cuantificada;una seccion de determinacion de grupo que agrupa las envolventes espectrales cuantificadas en una pluralidad de grupos;en el que la seccion de determinacion de grupo determinauna banda de frecuencia dominante que es una subbanda en la que una envolvente de energfa del espectro de frecuencia tiene un valor maximo localy subbandas a ambos lados de la banda de frecuencia dominante que forman, cada una, una pendiente descendente de una envolvente de energfa como grupos dominantes y determina subbandas mutuamente adyacentes distintas de los grupos dominantes como grupos no dominantesuna primera seccion de asignacion de bits que asigna bits a la pluralidad de grupos determinados;una segunda seccion de asignacion de bits que asigna los bits asignados a la pluralidad de grupos determinados a subbandas de grupo en grupo;una seccion de descodificacion que descodifica un espectro de frecuencia de una senal de voz/audio51015202530354045usando los bits asignados a las subbandas;una seccion de conformacion de envolvente que aplica la envolvente espectral descuantificada al espectro de frecuencia descodificado y reproduce un espectro descodificado; yuna seccion de transformacion inversa que realiza la transformacion inversa del espectro descodificado de un dominio de frecuencia a un dominio de tiempo.Aparato de descodificacion de voz/audio segun la reivindicacion 4, que comprende ademas: una seccion de calculo de ene^a que calcula energfa espedfica de grupo; yuna seccion de calculo de distribucion que calcula una envolvente de energfa espedfica de grupo, en el quela primera seccion de asignacion de bits asigna, basandose en la ene^a espedfica de grupo calculada y la distribucion de envolvente de energfa espedfica de grupo, mas bits a grupos cuando al menos una de la energfa y la distribucion de envolvente de energfa es mayor y asigna menos bits a grupos cuando al menos una de la energfa y la distribucion de envolvente de energfa es menor.Aparato de descodificacion de voz/audio segun la reivindicacion 4, en el que la segunda seccion de asignacion de bits asigna mas bits a subbandas que tienen una envolvente de energfa mayor y asigna menos bits a subbandas que tienen una envolvente de energfa menor.Metodo de codificacion de voz/audio que comprende:transformar una senal de entrada de un dominio de tiempo a un dominio de frecuencia;estimar una envolvente de energfa que representa un nivel de energfa para cada una de una pluralidad de subbandas obtenidas dividiendo un espectro de frecuencia de la senal de entrada;cuantificar las envolventes de energfa;agrupar las envolventes de energfa cuantificadas en una pluralidad de grupos en el que, en la agrupacion, se determina una banda de frecuencia dominante que es una subbanda en la que una envolvente de energfa del espectro de frecuencia tiene un valor maximo local y subbandas a ambos lados de la banda de frecuencia dominante que forman, cada una, una pendiente descendente de una envolvente de energfa como grupos dominantes, y se determinan subbandas mutuamente adyacentes distintas de los grupos dominantes como grupos no dominantes;asignar bits a la pluralidad de grupos determinados;asignar los bits asignados a la pluralidad de grupos determinados a subbandas de grupo en grupo; y codificar el espectro de frecuencia usando bits asignados a las subbandas.Metodo de descodificacion de voz/audio que comprende:descuantificar una envolvente espectral cuantificada;agrupar la envolvente espectral cuantificada en una pluralidad de grupos;en el que, en la agrupacion, se determina una banda de frecuencia dominante que es una subbanda en la que una envolvente de energfa del espectro de frecuencia tiene un valor maximo local y subbandas a ambos lados de la banda de frecuencia dominante que forman, cada una, una pendiente descendente de una envolvente de energfa como grupos dominantes, y se determinan subbandas mutuamente adyacentes distintas de los grupos dominantes como grupos no dominantes;asignar bits a la pluralidad de grupos determinados;asignar los bits asignados a la pluralidad de grupos determinados a subbandas de grupo en grupo;descodificar un espectro de frecuencia de una senal de voz/audio usando los bits asignados a las subbandas;aplicar la envolvente espectral descuantificada al espectro de frecuencia descodificado y reproducir un espectro descodificado; yrealizar la transformacion inversa del espectro descodificado de un dominio de frecuencia a un dominio de tiempo.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012272571 | 2012-12-13 | ||
| JP2012272571 | 2012-12-13 | ||
| PCT/JP2013/006948 WO2014091694A1 (ja) | 2012-12-13 | 2013-11-26 | 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2643746T3 true ES2643746T3 (es) | 2017-11-24 |
Family
ID=50934002
Family Applications (3)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES13862073.7T Active ES2643746T3 (es) | 2012-12-13 | 2013-11-26 | Dispositivo de codificación de audio de voz, dispositivo de descodificación de audio de voz, método de codificación de audio de voz y método de descodificación de audio de voz |
| ES17173916T Active ES2706148T3 (es) | 2012-12-13 | 2013-11-26 | Dispositivo de codificación de audio vocal, dispositivo de decodificación de audio vocal, procedimiento de codificación de audio vocal, y procedimiento de decodificación de audio vocal |
| ES18202397T Active ES2970676T3 (es) | 2012-12-13 | 2013-11-26 | Dispositivo de codificación de audio vocal, dispositivo de decodificación de audio vocal, procedimiento decodificación de audio vocal, y procedimiento de decodificación de audio vocal |
Family Applications After (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES17173916T Active ES2706148T3 (es) | 2012-12-13 | 2013-11-26 | Dispositivo de codificación de audio vocal, dispositivo de decodificación de audio vocal, procedimiento de codificación de audio vocal, y procedimiento de decodificación de audio vocal |
| ES18202397T Active ES2970676T3 (es) | 2012-12-13 | 2013-11-26 | Dispositivo de codificación de audio vocal, dispositivo de decodificación de audio vocal, procedimiento decodificación de audio vocal, y procedimiento de decodificación de audio vocal |
Country Status (12)
| Country | Link |
|---|---|
| US (3) | US9767815B2 (es) |
| EP (3) | EP3457400B1 (es) |
| JP (3) | JP6535466B2 (es) |
| KR (1) | KR102200643B1 (es) |
| CN (2) | CN104838443B (es) |
| BR (1) | BR112015013233B8 (es) |
| ES (3) | ES2643746T3 (es) |
| MX (1) | MX341885B (es) |
| PL (3) | PL3232437T3 (es) |
| PT (2) | PT2933799T (es) |
| RU (1) | RU2643452C2 (es) |
| WO (1) | WO2014091694A1 (es) |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| PL3232437T3 (pl) * | 2012-12-13 | 2019-05-31 | Fraunhofer Ges Forschung | Urządzenie do kodowania głosowego audio, urządzenie do dekodowania głosowego audio, sposób kodowania głosowego audio i sposób dekodowania głosowego audio |
| BR112016010273B1 (pt) * | 2013-11-07 | 2022-05-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Método para particionamento de vetores de entrada para codificação de sinais de áudio, unidade de particionamento, codificador e meio não-transitório legível por máquina |
| MX357353B (es) | 2013-12-02 | 2018-07-05 | Huawei Tech Co Ltd | Metodo y aparato de codificacion. |
| CN105096957B (zh) * | 2014-04-29 | 2016-09-14 | 华为技术有限公司 | 处理信号的方法及设备 |
| JP6318904B2 (ja) * | 2014-06-23 | 2018-05-09 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
| PL3723086T3 (pl) | 2014-07-25 | 2025-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie do kodowania sygnałów audio, urządzenie do dekodowania sygnałów audio i ich sposoby |
| KR102709737B1 (ko) * | 2016-11-30 | 2024-09-26 | 삼성전자주식회사 | 오디오 신호를 전송하는 전자 장치 및 오디오 신호를 전송하는 전자 장치의 제어 방법 |
| US10699721B2 (en) * | 2017-04-25 | 2020-06-30 | Dts, Inc. | Encoding and decoding of digital audio signals using difference data |
| KR20190069192A (ko) | 2017-12-11 | 2019-06-19 | 한국전자통신연구원 | 오디오 신호의 채널 파라미터 예측 방법 및 장치 |
| US10559315B2 (en) | 2018-03-28 | 2020-02-11 | Qualcomm Incorporated | Extended-range coarse-fine quantization for audio coding |
| US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
| US10762910B2 (en) | 2018-06-01 | 2020-09-01 | Qualcomm Incorporated | Hierarchical fine quantization for audio coding |
| US10580424B2 (en) * | 2018-06-01 | 2020-03-03 | Qualcomm Incorporated | Perceptual audio coding as sequential decision-making problems |
| US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
| CN109286922B (zh) * | 2018-09-27 | 2021-09-17 | 珠海市杰理科技股份有限公司 | 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备 |
| US10810373B1 (en) * | 2018-10-30 | 2020-10-20 | Oath Inc. | Systems and methods for unsupervised neologism normalization of electronic content using embedding space mapping |
| KR20200142787A (ko) * | 2019-06-13 | 2020-12-23 | 네이버 주식회사 | 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법 |
| CN112037802B (zh) * | 2020-05-08 | 2022-04-01 | 珠海市杰理科技股份有限公司 | 基于语音端点检测的音频编码方法及装置、设备、介质 |
Family Cites Families (41)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4899384A (en) * | 1986-08-25 | 1990-02-06 | Ibm Corporation | Table controlled dynamic bit allocation in a variable rate sub-band speech coder |
| US5222189A (en) * | 1989-01-27 | 1993-06-22 | Dolby Laboratories Licensing Corporation | Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio |
| US5893065A (en) * | 1994-08-05 | 1999-04-06 | Nippon Steel Corporation | Apparatus for compressing audio data |
| US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
| JP3189660B2 (ja) * | 1996-01-30 | 2001-07-16 | ソニー株式会社 | 信号符号化方法 |
| US6246945B1 (en) * | 1996-08-10 | 2001-06-12 | Daimlerchrysler Ag | Process and system for controlling the longitudinal dynamics of a motor vehicle |
| JPH10233692A (ja) * | 1997-01-16 | 1998-09-02 | Sony Corp | オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法 |
| KR100261254B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치 |
| KR100261253B1 (ko) | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
| KR100548891B1 (ko) * | 1998-06-15 | 2006-02-02 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성 부호화 장치 및 음성 부호화 방법 |
| JP3466507B2 (ja) * | 1998-06-15 | 2003-11-10 | 松下電器産業株式会社 | 音声符号化方式、音声符号化装置、及びデータ記録媒体 |
| JP3434260B2 (ja) * | 1999-03-23 | 2003-08-04 | 日本電信電話株式会社 | オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体 |
| US6246345B1 (en) | 1999-04-16 | 2001-06-12 | Dolby Laboratories Licensing Corporation | Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding |
| KR100893281B1 (ko) * | 1999-04-16 | 2009-04-17 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 코딩을 위해 이득-적응형 양자화 및 비균일 심볼길이를 사용하는 방법 및 장치 |
| JP4242516B2 (ja) * | 1999-07-26 | 2009-03-25 | パナソニック株式会社 | サブバンド符号化方式 |
| JP4168976B2 (ja) * | 2004-05-28 | 2008-10-22 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
| KR100888474B1 (ko) * | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
| JP4548348B2 (ja) | 2006-01-18 | 2010-09-22 | カシオ計算機株式会社 | 音声符号化装置及び音声符号化方法 |
| KR101434198B1 (ko) * | 2006-11-17 | 2014-08-26 | 삼성전자주식회사 | 신호 복호화 방법 |
| AU2007332508B2 (en) | 2006-12-13 | 2012-08-16 | Iii Holdings 12, Llc | Encoding device, decoding device, and method thereof |
| JP4973397B2 (ja) * | 2007-09-04 | 2012-07-11 | 日本電気株式会社 | 符号化装置および符号化方法、ならびに復号化装置および復号化方法 |
| BRPI0820488A2 (pt) * | 2007-11-21 | 2017-05-23 | Lg Electronics Inc | método e equipamento para processar um sinal |
| EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
| WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
| KR101301245B1 (ko) * | 2008-12-22 | 2013-09-10 | 한국전자통신연구원 | 스펙트럼 계수의 서브대역 할당 방법 및 장치 |
| US8386266B2 (en) * | 2010-07-01 | 2013-02-26 | Polycom, Inc. | Full-band scalable audio codec |
| CN102081927B (zh) * | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
| CN102714036B (zh) | 2009-12-28 | 2014-01-22 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
| US20130030796A1 (en) | 2010-01-14 | 2013-01-31 | Panasonic Corporation | Audio encoding apparatus and audio encoding method |
| US9236063B2 (en) * | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
| US20130173275A1 (en) | 2010-10-18 | 2013-07-04 | Panasonic Corporation | Audio encoding device and audio decoding device |
| EP2502155A4 (en) * | 2010-11-12 | 2013-12-04 | Polycom Inc | SCALABLE AUDIO REPRODUCTION IN A MULTIPORT ENVIRONMENT |
| BR112013021164B1 (pt) * | 2011-03-04 | 2021-02-17 | Telefonaktiebolaget L M Ericsson (Publ) | método e aparelho de ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas, decodificador e nó de rede |
| WO2012144128A1 (ja) | 2011-04-20 | 2012-10-26 | パナソニック株式会社 | 音声音響符号化装置、音声音響復号装置、およびこれらの方法 |
| EP2701144B1 (en) * | 2011-04-20 | 2016-07-27 | Panasonic Intellectual Property Corporation of America | Device and method for execution of huffman coding |
| WO2012157932A2 (en) | 2011-05-13 | 2012-11-22 | Samsung Electronics Co., Ltd. | Bit allocating, audio encoding and decoding |
| CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
| EP2772912B1 (en) * | 2011-10-28 | 2016-08-10 | Panasonic Intellectual Property Corporation of America | Audio encoding apparatus, audio decoding apparatus, audio encoding method, and audio decoding method |
| WO2013118476A1 (ja) | 2012-02-10 | 2013-08-15 | パナソニック株式会社 | 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法 |
| PL3232437T3 (pl) * | 2012-12-13 | 2019-05-31 | Fraunhofer Ges Forschung | Urządzenie do kodowania głosowego audio, urządzenie do dekodowania głosowego audio, sposób kodowania głosowego audio i sposób dekodowania głosowego audio |
| MX357353B (es) * | 2013-12-02 | 2018-07-05 | Huawei Tech Co Ltd | Metodo y aparato de codificacion. |
-
2013
- 2013-11-26 PL PL17173916T patent/PL3232437T3/pl unknown
- 2013-11-26 ES ES13862073.7T patent/ES2643746T3/es active Active
- 2013-11-26 EP EP18202397.8A patent/EP3457400B1/en active Active
- 2013-11-26 KR KR1020157016672A patent/KR102200643B1/ko active Active
- 2013-11-26 CN CN201380063794.XA patent/CN104838443B/zh active Active
- 2013-11-26 ES ES17173916T patent/ES2706148T3/es active Active
- 2013-11-26 MX MX2015006161A patent/MX341885B/es active IP Right Grant
- 2013-11-26 JP JP2014551851A patent/JP6535466B2/ja active Active
- 2013-11-26 PL PL13862073T patent/PL2933799T3/pl unknown
- 2013-11-26 EP EP17173916.2A patent/EP3232437B1/en active Active
- 2013-11-26 PL PL18202397.8T patent/PL3457400T3/pl unknown
- 2013-11-26 PT PT138620737T patent/PT2933799T/pt unknown
- 2013-11-26 EP EP13862073.7A patent/EP2933799B1/en active Active
- 2013-11-26 ES ES18202397T patent/ES2970676T3/es active Active
- 2013-11-26 WO PCT/JP2013/006948 patent/WO2014091694A1/ja not_active Ceased
- 2013-11-26 CN CN201710759624.5A patent/CN107516531B/zh active Active
- 2013-11-26 US US14/650,093 patent/US9767815B2/en active Active
- 2013-11-26 RU RU2015121716A patent/RU2643452C2/ru active
- 2013-11-26 PT PT17173916T patent/PT3232437T/pt unknown
- 2013-11-26 BR BR112015013233A patent/BR112015013233B8/pt active Search and Examination
-
2017
- 2017-08-10 US US15/673,957 patent/US10102865B2/en active Active
-
2018
- 2018-09-25 US US16/141,934 patent/US10685660B2/en active Active
-
2019
- 2019-06-03 JP JP2019103964A patent/JP7010885B2/ja active Active
-
2022
- 2022-01-13 JP JP2022003475A patent/JP7581265B2/ja active Active
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2643746T3 (es) | Dispositivo de codificación de audio de voz, dispositivo de descodificación de audio de voz, método de codificación de audio de voz y método de descodificación de audio de voz | |
| ES2989615T3 (es) | Aparato de codificación de señales de audio, aparato de decodificación de señales de audio, método de codificación de señales de audio y método de decodificación de señales de audio | |
| JP6435392B2 (ja) | 音声音響符号化装置及び音声音響符号化方法 | |
| ES3033829T3 (en) | Inter-channel phase difference parameter extraction method and apparatus | |
| ES2975073T3 (es) | Codificador, descodificador, procedimiento de codificación, procedimiento de descodificación y programa | |
| ES2707337T3 (es) | Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo | |
| HK40002240B (en) | Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method | |
| HK40002240A (en) | Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method | |
| HK1242832A1 (en) | Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method | |
| HK1242832B (en) | Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method | |
| HK1249651B (zh) | 语音声响编码装置和解码装置、语音声响编码和解码方法 |