ES2643746T3

ES2643746T3 - Dispositivo de codificación de audio de voz, dispositivo de descodificación de audio de voz, método de codificación de audio de voz y método de descodificación de audio de voz

Info

Publication number: ES2643746T3
Application number: ES13862073.7T
Authority: ES
Inventors: Zongxian Liu; Srikanth NAGISETTY; Masahiro Oshikiri
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2012-12-13
Filing date: 2013-11-26
Publication date: 2017-11-24
Anticipated expiration: 2033-11-26
Also published as: CN104838443A; KR102200643B1; JP2019191594A; KR20150095702A; US9767815B2; PL3457400T3; WO2014091694A1; PT3232437T; BR112015013233A2; ES2706148T3; EP3457400B1; PL3232437T3; EP3457400A1; PL2933799T3; ES2970676T3; US20190027155A1; EP3232437A1; JP2022050609A; EP2933799A1; BR112015013233B8

Description

5

10

15

20

25

30

35

40

45

50

DESCRIPCION

Dispositivo de codificacion de audio de voz, dispositivo de descodificacion de audio de voz, metodo de codificacion de audio de voz y metodo de descodificacion de audio de voz

Campo tecnico

La presente invencion se refiere a un aparato de codificacion de voz/audio, a un aparato de descodificacion de voz/audio, a un metodo de codificacion de voz/audio y a un metodo de descodificacion de voz/audio que usan un esquema de codificacion de transformacion.

Tecnica anterior

Como esquema que puede codificar de manera eficiente una senal de voz o una senal de musica en una banda completa (FB) de 0,02 a 20 kHz, existe una tecnica normalizada en la ITU-T (sector de normalizacion de las telecomunicaciones de la union internacional de telecomunicaciones). Esta tecnica transforma una senal de entrada en una senal de dominio de frecuencia y codifica una banda de hasta 20 kHz (codificacion de transformacion).

En el presente documento, la codificacion de transformacion es un esquema de codificacion que transforma una senal de entrada de un dominio de tiempo a un dominio de frecuencia usando una transformacion tiempo/frecuencia tal como la transformada de coseno discreta (DCT) o transformada de coseno discreta modificada (MDCT) para permitir que una senal se mapee con correspondencia precisa con caractensticas acusticas.

En la codificacion de transformacion, se divide un coeficiente espectral en una pluralidad de subbandas de frecuencia. En la codificacion de cada subbanda, asignar mas bits de cuantificacion a una banda que es perceptivamente importante para los ofdos humanos hace posible mejorar la calidad global del sonido.

Con el fin de conseguir este objetivo, estan llevandose a cabo estudios sobre esquemas de asignacion de bits eficientes, y por ejemplo, se conoce una tecnica dada a conocer en la bibliograffa no de patente 1 (denominada a continuacion en el presente documento “NPL”). A continuacion en el presente documento, se describira el esquema de asignacion de bits dado a conocer en la NPL1 usando la figura 1 y la figura 2.

La figura 1 es un diagrama de bloques que ilustra una configuracion de un aparato de codificacion de voz/audio dado a conocer en la NPL 1. Una senal de entrada muestreada a 48 kHz se introduce en el detector transitorio 11 y la seccion de transformacion 12 del aparato de codificacion de voz/audio.

El detector transitorio 11 detecta, a partir de la senal de entrada, o bien una trama transitoria correspondiente a un borde delantero o un borde final de voz o bien una trama estacionaria correspondiente a una seccion de voz distinta de esta, y la seccion de transformacion 12 aplica, a la trama de la senal de entrada, transformacion de resolucion de alta frecuencia o transformacion de resolucion de baja frecuencia dependiendo de si la trama detectada por el detector transitorio 11 es una trama transitoria o una trama estacionaria, y adquiere un coeficiente espectral (o coeficiente de transformacion).

La seccion de estimacion de norma 13 divide el coeficiente espectral obtenido en la seccion de transformacion 12 en bandas de anchos de banda diferentes. La seccion de estimacion de norma 13 estima una norma (o energfa) de cada banda dividida.

La seccion de cuantificacion de norma 14 determina una envolvente espectral compuesta por las normas de todas las bandas basandose en la norma de cada banda estimada por la seccion de estimacion de norma 13 y cuantifica la envolvente espectral determinada.

La seccion de normalizacion de espectro 15 normaliza el coeficiente espectral obtenido por la seccion de transformacion 12 segun la norma cuantificada por la seccion de cuantificacion de norma 14.

La seccion de ajuste de norma 16 ajusta la norma cuantificada por la seccion de cuantificacion de norma 14 basandose en la ponderacion espectral adaptativa.

La seccion de asignacion de bits 17 asigna bits disponibles para cada banda en una trama usando la norma de cuantificacion ajustada por la seccion de ajuste de norma 16.

La seccion de codificacion de vectores de red 18 realiza la codificacion de vectores de red en el coeficiente espectral normalizado por la seccion de normalizacion de espectro 15 usando bits asignados para cada banda por la seccion de asignacion de bits 17.

La seccion de ajuste de nivel de ruido 19 estima el nivel del coeficiente espectral antes de codificarlo en la seccion de codificacion de vectores de red 18 y codifica el nivel estimado. De esta manera se obtiene un mdice de ajuste de nivel de ruido.

El multiplexor 20 multiplexa una configuracion de trama de la senal de entrada adquirida por la seccion de

5

10

15

20

25

30

35

40

45

50

transformacion 12, es dedr, un indicador de senal transitoria que indica si la trama es una trama estacionaria o una trama transitoria, la norma cuantificada por la seccion de cuantificacion de norma 14, el vector de codificacion de red obtenido por la seccion de codificacion de vectores de red 18 y el mdice de ajuste de nivel de ruido obtenido por la seccion de ajuste de nivel de ruido 19, y forma un flujo de bits y transmite el flujo de bits a un aparato de descodificacion de voz/audio.

La figura 2 es un diagrama de bloques que ilustra una configuracion del aparato de descodificacion de voz/audio dado a conocer en la NPL 1. El aparato de descodificacion de voz/audio recibe el flujo de bits transmitido desde el aparato de codificacion de voz/audio y el demultiplexor 21 desmultiplexa el flujo de bits.

La seccion de descuantificacion de norma 22 descuantifica la norma cuantificada, adquiere una envolvente espectral compuesta por normas de todas las bandas, y la seccion de ajuste de norma 23 ajusta la norma descuantificada por la seccion de descuantificacion de norma 22 basandose en una ponderacion espectral adaptativa.

La seccion de asignacion de bits 24 asigna bits disponibles para cada banda en una trama usando las normas ajustadas por la seccion de ajuste de norma 23. Es decir, la seccion de asignacion de bits 24 recalcula la asignacion de bits indispensable para descodificar el codigo de vector de red del coeficiente espectral normalizado.

La seccion de descodificacion de red 25 descodifica un indicador de senal transitoria, descodifica el vector de codificacion de red basandose en una configuracion de trama indicada por el indicador de senal transitoria descodificado y los bits asignados por la seccion de asignacion de bits 24 y adquiere un coeficiente espectral.

El generador de llenado espectral 26 regenera un coeficiente espectral de baja frecuencia al que no se han asignado bits usando un libro de codigos creado basandose en el coeficiente espectral descodificado por la seccion de descodificacion de red 25. El generador de llenado espectral 26 ajusta el nivel del coeficiente espectral regenerado usando un mdice de ajuste de nivel de ruido. Ademas, el generador de llenado espectral 26 regenera un coeficiente espectral sin codificar de alta frecuencia usando un coeficiente espectral codificado de baja frecuencia.

El sumador 27 suma el coeficiente espectral descodificado y el coeficiente espectral regenerado, y genera un coeficiente espectral normalizado.

La seccion de conformacion de envolvente 28 aplica la envolvente espectral descuantificada por la seccion de descuantificacion de norma 22 al coeficiente espectral normalizado generado por el sumador 27 y genera un coeficiente espectral de banda completa.

La seccion de transformacion inversa 29 aplica una transformacion inversa tal como la transformada de coseno discreta modificada inversa (IMDCT) al coeficiente espectral de banda completa generado por la seccion de conformacion de envolvente 28 para transformarlo en una senal de dominio de tiempo. En este caso, la transformacion inversa con resolucion de alta frecuencia se aplica a un caso con una trama estacionaria y la transformacion inversa con resolucion de baja frecuencia se aplica a un caso con una trama transitoria.

En G.719, los coeficientes espectrales se dividen en grupos espectrales. Cada grupo espectral se divide en bandas con subvectores de igual longitud tal como se muestra en la figura 3. Los subvectores tienen diferente longitud de un grupo a otro y esta longitud aumenta a medida que aumenta la frecuencia. Con respecto a la resolucion de transformacion, se usa resolucion de frecuencia mas alta para frecuencias bajas, mientras que se usa una resolucion de frecuencia mas baja para frecuencias altas. Tal como se describe en G.719, la agrupacion permite un uso eficiente de los bits disponibles durante la codificacion.

En G.719, el esquema de asignacion de bits es identico en un aparato de codificacion y un aparato de descodificacion. En este caso, el esquema de asignacion de bits se describira usando la figura 4.

Tal como se muestra en la figura 4, en la etapa (abreviada a continuacion en el presente documento como “ST”) 31, se ajustan normas cuantificadas antes de la asignacion de bits para ajustar la ponderacion psicoacustica y los efectos de enmascaramiento.

En ST32, se identifican subbandas que tienen una norma maxima de entre todas las subbandas y en ST33, se asigna un bit a cada coeficiente espectral para las subbandas que tienen la norma maxima. Es decir, se asignan tantos bits como coeficientes espectrales.

En ST34, se reducen las normas segun los bits asignados, y en ST35, se determina si el numero de bits asignables restante es de 8 o mas. Cuando el numero de bits asignables restante es de 8 o mas, el flujo vuelve a ST32 y cuando el numero de bits asignables restante es menor que 8, se termina el procedimiento de asignacion de bits.

Por tanto, en el esquema de asignacion de bits, los bits disponibles dentro de una trama se asignan entre subbandas usando las normas de cuantificacion ajustadas. Los coeficientes espectrales normalizados se codifican mediante codificacion de vectores de red usando los bits asignados a cada subbanda.

Lista de referencias

5

10

15

20

25

30

35

40

45

Bibliografia no de patente

NPL1

Recomendacion G.719 de ITU-T, “Low-complexity full-band audio coding for high-quality conversational applications”, ITU-T, 2009. Sumario de la invencion

Problema tecnico

Sin embargo, el esquema de asignacion de bits anterior no tiene en cuenta caractensticas de la senal de entrada al agrupar bandas espectrales, y por lo tanto tiene un problema en cuanto a que no es posible una asignacion de bits eficiente y no puede esperarse una mejora adicional de la calidad de sonido.

La patente europea EP0259553 describe la designacion de bits (asignacion de bits) a una pluralidad de subbandas, en las que los niveles de energfa de pico (correspondientes a picos en las envolventes de energfa) de las subbandas respectivas se agrupan en una pluralidad de grupos de banda. La designacion de bits se realiza de manera que algunas bandas que tienen energfas de pico mas grandes reciben designaciones de bits mas grandes (truncamiento de tablas). 5

Un objeto de la presente invencion es proporcionar un aparato de codificacion de voz/audio, un aparato de descodificacion de voz/audio, un metodo de codificacion de voz/audio y un metodo de descodificacion de voz/audio que puedan realizar una asignacion de bits eficiente y mejorar la calidad de sonido.

Solucion al problema

Un aparato de codificacion de voz/audio de la presente invencion incluye las caractensticas de la reivindicacion 1.

Un aparato de descodificacion de voz/audio segun la presente invencion incluye las caractensticas de la reivindicacion 4.

Un metodo de codificacion de voz/audio segun la presente invencion incluye las caractensticas de la reivindicacion 7

Un metodo de descodificacion de voz/audio segun la presente invencion incluye las caractensticas de la reivindicacion 8.

Efectos ventajosos de la invencion

Segun la presente invencion, es posible realizar una asignacion de bits eficiente y mejorar la calidad de sonido.

Breve descripcion de los dibujos

La figura 1 es un diagrama de bloques que ilustra una configuracion de un aparato de codificacion de voz/audio dado a conocer en la NPL 1;

la figura 2 es un diagrama de bloques que ilustra una configuracion de un aparato de descodificacion de voz/audio dado a conocer en la NPL 1;

la figura 3 es un diagrama que ilustra la agrupacion de coeficientes espectrales en un modo estacionario dado a conocer en la NPL 1;

la figura 4 es un diagrama de flujo que ilustra un esquema de asignacion de bits dado a conocer en la NPL 1;

la figura 5 es un diagrama de bloques que ilustra una configuracion de un aparato de codificacion de voz/audio segun una realizacion de la presente invencion;

la figura 6 es un diagrama de bloques que ilustra una configuracion de un aparato de descodificacion de voz/audio segun una realizacion de la presente invencion;

la figura 7 es un diagrama de bloques que ilustra una configuracion interna de la seccion de asignacion de bits mostrada en la figura 5;

las figuras 8A a 8C son diagramas proporcionados para describir un metodo de agrupacion segun una realizacion de la presente invencion; y

la figura 9 es un diagrama que ilustra una variacion de norma.

Descripcion de realizaciones

A continuacion en el presente documento, se describiran en detalle realizaciones de la presente invencion con referencia a los dibujos adjuntos.

5

10

15

20

25

30

35

40

45

50

(Realizacion)

La figura 5 es un diagrama de bloques que ilustra una configuracion del aparato de codificacion de voz/audio 100 segun una realizacion de la presente invencion. Una senal de entrada muestreada a 48 kHz se introduce en el detector transitorio 101 y la seccion de transformacion 102 del aparato de codificacion de voz/audio 100.

El detector transitorio 101 detecta, a partir de una senal de entrada, o bien una trama transitoria correspondiente a un borde delantero o un borde final de voz o bien una trama estacionaria correspondiente a una seccion de voz distinta de esta, y emite el resultado de deteccion a la seccion de transformacion 102. La seccion de transformacion 102 aplica, a la trama de la senal de entrada, transformacion de resolucion de alta frecuencia o transformacion de resolucion de baja frecuencia dependiendo de si el resultado de deteccion emitido desde el detector transitorio 101 es una trama transitoria o una trama estacionaria, y adquiere un coeficiente espectral (o coeficiente de transformacion) y emite el coeficiente espectral a la seccion de estimacion de norma 103 y la seccion de normalizacion de espectro 105. La seccion de transformacion 102 emite una configuracion de trama que es el resultado de deteccion emitido desde el detector transitorio 101, es decir, un indicador de senal transitoria que indica si la trama es una trama estacionaria o una trama transitoria al multiplexor 110.

La seccion de estimacion de norma 103 divide el coeficiente espectral emitido desde la seccion de transformacion 102 en bandas de anchos de banda diferentes y estima una norma (o energfa) de cada banda dividida. La seccion de estimacion de norma 103 emite la norma estimada de cada banda a la seccion de cuantificacion de norma 104.

La seccion de cuantificacion de norma 104 determina una envolvente espectral compuesta por normas de todas las bandas basandose en normas de bandas respectivas emitidas desde la seccion de estimacion de norma 103, cuantifica la envolvente espectral determinada y emite la envolvente espectral cuantificada a la seccion de normalizacion de espectro 105 y la seccion de ajuste de norma 106.

La seccion de normalizacion de espectro 105 normaliza el coeficiente espectral emitido desde la seccion de transformacion 102 segun la envolvente espectral cuantificada emitida desde la seccion de cuantificacion de norma 104 y emite el coeficiente espectral normalizado a la seccion de codificacion de vectores de red 108.

La seccion de ajuste de norma 106 ajusta la envolvente espectral cuantificada emitida desde la seccion de cuantificacion de norma 104 basandose en la ponderacion espectral adaptativa y emite la envolvente espectral cuantificada ajustada a la seccion de asignacion de bits 107.

La seccion de asignacion de bits 107 asigna bits disponibles para cada banda en una trama usando la envolvente espectral cuantificada ajustada emitida desde la seccion de ajuste de norma 106 y emite los bits asignados a la seccion de codificacion de vectores de red 108. Mas adelante se describiran detalles de la seccion de asignacion de bits 107.

La seccion de codificacion de vectores de red 108 realiza la codificacion de vectores de red en el coeficiente espectral normalizado por la seccion de normalizacion de espectro 105 usando los bits asignados para cada banda en la seccion de asignacion de bits 107 y emite el vector de codificacion de red a la seccion de ajuste de nivel de ruido 109 y el multiplexor 110.

La seccion de ajuste de nivel de ruido 109 estima el nivel del coeficiente espectral antes de la codificacion en la seccion de codificacion de vectores de red 108 y codifica el nivel estimado. De esta manera se determina un mdice de ajuste de nivel de ruido. El mdice de ajuste de nivel de ruido se emite al multiplexor 110.

El multiplexor 110 multiplexa el indicador de senal transitoria emitido desde la seccion de transformacion 102, la envolvente espectral cuantificada emitida desde la seccion de cuantificacion de norma 104, el vector de codificacion de red emitido desde la seccion de codificacion de vectores de red 108 y el mdice de ajuste de nivel de ruido emitido desde la seccion de ajuste de nivel de ruido 109, y forma un flujo de bits y transmite el flujo de bits a un aparato de descodificacion de voz/audio.

La figura 6 es un diagrama de bloques que ilustra una configuracion del aparato de descodificacion de voz/audio 200 segun una realizacion de la presente invencion. Un flujo de bits transmitido desde el aparato de codificacion de voz/audio 100 se recibe mediante el aparato de descodificacion de voz/audio 200 y se desmultiplexa mediante el demultiplexor 201.

La seccion de descuantificacion de norma 202 descuantifica la envolvente espectral cuantificada (es decir, la norma) emitida desde el multiplexor, obtiene una envolvente espectral compuesta por normas de todas las bandas y emite la envolvente espectral obtenida a la seccion de ajuste de norma 203.

La seccion de ajuste de norma 203 ajusta la envolvente espectral emitida desde la seccion de descuantificacion de norma 202 basandose en la ponderacion espectral adaptativa y emite la envolvente espectral ajustada a la seccion de asignacion de bits 204.

La seccion de asignacion de bits 204 asigna bits disponibles para cada banda en una trama usando la envolvente

5

10

15

20

25

30

35

40

45

50

55

espectral emitida desde la seccion de ajuste de norma 203. Es dedr, la seccion de asignacion de bits 204 recalcula la asignacion de bits indispensable para descodificar el codigo de vectores de red del coeficiente espectral normalizado. Los bits asignados se emiten a la seccion de descodificacion de red 205.

La seccion de descodificacion de red 205 descodifica el vector de codificacion de red emitido desde el demultiplexor 201 basandose en una configuracion de trama indicada por el indicador de senal transitoria emitido desde el demultiplexor 201 y los bits emitidos desde la seccion de asignacion de bits 204 y adquiere un coeficiente espectral. El coeficiente espectral se emite al generador de llenado espectral 206 y el sumador 207.

El generador de llenado espectral 206 regenera un coeficiente espectral de baja frecuencia al que no se han asignado bits usando un libro de codigos creado basandose en el coeficiente espectral emitido desde la seccion de descodificacion de red 205. El generador de llenado espectral 206 ajusta el nivel del coeficiente espectral regenerado usando el mdice de ajuste de nivel de ruido emitido desde el demultiplexor 201. Ademas, el generador de llenado espectral 206 regenera el coeficiente espectral no sometido a codificacion de alta frecuencia usando un coeficiente espectral codificado de baja frecuencia. El coeficiente espectral de baja frecuencia de nivel ajustado y coeficiente espectral de alta frecuencia regenerado se emiten al sumador 207.

El sumador 207 suma el coeficiente espectral emitido desde la seccion de descodificacion de red 205 y el coeficiente espectral emitido desde el generador de llenado espectral 206, genera un coeficiente espectral normalizado y emite el coeficiente espectral normalizado a la seccion de conformacion de envolvente 208.

La seccion de conformacion de envolvente 208 aplica la envolvente espectral emitida desde la seccion de descuantificacion de norma 202 al coeficiente espectral normalizado generado por el sumador 207 y genera un coeficiente espectral de banda completa (correspondiente al espectro descodificado). El coeficiente espectral de banda completa generado se emite a la seccion de transformacion inversa 209.

La seccion de transformacion inversa 209 aplica una transformacion inversa tal como transformada de coseno discreta modificada inversa (IMDCT) al coeficiente espectral de banda completa emitido desde la seccion de conformacion de envolvente 208, lo transforma en una senal de dominio de tiempo y emite una senal de salida. En este caso, se aplica transformacion inversa con resolucion de alta frecuencia a un caso de una trama estacionaria y se aplica transformacion inversa con resolucion de baja frecuencia a un caso de una trama transitoria.

A continuacion, se describiran los detalles de la seccion de asignacion de bits 107 usando la figura 7. Observese que la seccion de asignacion de bits 107 del aparato de codificacion de voz/audio 100 es identica en cuanto a la configuracion a la seccion de asignacion de bits 204 del aparato de descodificacion de voz/audio 200, y por lo tanto solo se describira la seccion de asignacion de bits 107 y la descripcion de la seccion de asignacion de bits 204 se omitira en el presente documento.

La figura 7 es un diagrama de bloques que ilustra una configuracion interna de la seccion de asignacion de bits 107 mostrada en la figura 5. La seccion de identificacion de banda de frecuencia dominante 301 identifica, basandose en la envolvente espectral cuantificada emitida desde la seccion de ajuste de norma 106, una banda de frecuencia dominante que es una subbanda en la que un valor de coeficiente de norma en el espectro tiene un valor maximo local, y emite cada banda de frecuencia dominante identificada a las secciones de determinacion de grupo dominante 302-1 a 302N. Ademas de designar una banda de frecuencia para la que un valor de coeficiente de norma tiene un valor maximo local, los ejemplos del metodo de determinacion de una banda de frecuencia dominante pueden incluir designar una banda de entre todas las subbandas en las que un valor de coeficiente de norma tiene un valor maximo como banda de frecuencia dominante o designar como banda de frecuencia dominante una banda que tiene un valor de coeficiente de norma que supera un umbral predeterminado o un umbral calculado a partir de normas de todas las subbandas.

Las secciones de determinacion de grupo dominante 302-1 a 302N determinan de manera adaptativa las anchuras de grupo segun las caractensticas de la senal de entrada centrada en la banda de frecuencia dominante emitida desde la seccion de identificacion de banda de frecuencia dominante 301. Mas espedficamente, la anchura de grupo se define como la anchura de un grupo de subbandas centrado en y a ambos lados de la banda de frecuencia dominante hasta subbandas en las que se detiene una pendiente descendente del valor de coeficiente de norma. Las secciones de determinacion de grupo dominante 302-1 a 302N determinan bandas de frecuencia incluidas en anchuras de grupo como grupos dominantes y emiten los grupos dominantes determinados a la seccion de determinacion de grupo no dominante 303. Observese que cuando una banda de frecuencia dominante esta ubicada en un borde (extremo de una frecuencia disponible), solo se incluye en el grupo un lado de la pendiente descendente.

La seccion de determinacion de grupo no dominante 303 determina subbandas continuas emitidas desde las secciones de determinacion de grupo dominante 302-1 a 302N distintas de los grupos dominantes como grupos no dominantes sin bandas de frecuencia dominantes. La seccion de determinacion de grupo no dominante 303 emite los grupos dominantes y los grupos no dominantes a la seccion de calculo de energfa de grupo 304 y la seccion de calculo de variacion de norma 306.

La seccion de calculo de energfa de grupo 304 calcula la energfa espedfica de grupo de los grupos dominantes y

5

10

15

20

25

30

35

40

los grupos no dominantes emitidos desde la seccion de determinacion de grupo no dominante 303 y emite la energfa calculada a la seccion de calculo de ene^a total 305 y la seccion de distribucion de bits de grupo 308. La energfa espedfica de grupo se calcula mediante la siguiente ecuacion 1.

[1]

Energia (G(k)) = Norma(i) ... (Ecuacion 1)

En este caso, k indica un mdice de cada grupo, Energfa(G(k)) indica la energfa del grupo k, i indica un mdice de subbanda del grupo k, M indica el numero total de subbandas del grupo k y Norma(i) indica un valor de coeficiente de norma de la subbanda i del grupo k.

La seccion de calculo de energfa total 305 suma toda la energfa espedfica de grupo emitida desde la seccion de calculo de energfa de grupo 304 y calcula la energfa total de todos los grupos. La energfa total calculada se emite a la seccion de distribucion de bits de grupo 308. La energfa total se calcula mediante la siguiente ecuacion 2.

[2]

EnergiatoW= , Energia(G(k)) ... (Ecuacion 2)

En este caso, Energfatotal indica la energia total de todos los grupos, N indica el numero total de grupos en un espectro, k indica un mdice de cada grupo y Energfa(G(k)) indica la energia del grupo k.

La seccion de calculo de variacion de norma 306 calcula la variacion de norma espedfica de grupo para los grupos dominantes y los grupos no dominantes emitidos desde la seccion de determinacion de grupo no dominante 303, y emite la variacion de norma calculada a la seccion de calculo de variacion de norma total 307 y la seccion de distribucion de bits de grupo 308. La variacion de norma espedfica de grupo se calcula mediante la siguiente ecuacion 3.

[3]

Norma mr{G{k)) = Norma j^Gik)) - NormajG(k)) .. .(Ecuacion 3)

En este caso, k indica un mdice de cada grupo, Normavar(G(k)) indica una variacion de norma del grupo k, Normamax(G(k)) indica un valor de coeficiente de norma maximo del grupo k y Normamin(G(k)) indica un valor de coeficiente de norma mmimo del grupo k.

La seccion de calculo de variacion de norma total 307 calcula una variacion de norma total de todos los grupos basandose en la variacion de norma espedfica de grupo emitida desde la seccion de calculo de variacion de norma 306. La variacion de norma total calculada se emite a la seccion de distribucion de bits de grupo 308. La variacion de norma total se calcula mediante la siguiente ecuacion 4.

[4]

Norma^lsi= Tjorma™ ( (*)) • ■ • (Ecuacion 4)

En este caso, Normavartotal indica una variacion de norma total de todos los grupos, N indica el numero total de grupos en un espectro, k indica un mdice de cada grupo, y Normavar(G(k)) indica una variacion de norma del grupo k.

La seccion de distribucion de bits de grupo 308 (correspondiente a una primera seccion de asignacion de bits) distribuye bits de grupo en grupo basandose en la energia espedfica de grupo emitida desde la seccion de calculo de energia de grupo 304, la energia total de todos los grupos emitida desde la seccion de calculo de energia total 305, la variacion de norma espedfica de grupo emitida desde la seccion de calculo de variacion de norma 306 y la variacion de norma total de todos los grupos emitida desde la seccion de calculo de variacion de norma total 307, y emite bits distribuidos de grupo en grupo a la seccion de distribucion de bits de subbanda 309. Los bits distribuidos de grupo en grupo se calculan mediante la siguiente ecuacion 5.

5

10

15

20

25

30

35

40

45

imagen1

En este caso, k indica un mdice de cada grupo, Bits(G(k)) indica el numero de bits distribuidos al grupo k, Bitstotai indica el numero total de bits disponibles, escala1 indica la proporcion de bits asignados por energfa, Ene^a(G(k)) indica la energfa del grupo k, Ene^atotal indica la energfa total de todos los grupos y Normavar(G(k)) indica una variacion de norma del grupo k.

Ademas, escalal en la ecuacion 5 anterior adopta un valor dentro de un intervalo de [0, 1] y ajusta la proporcion de bits asignados por energfa o variacion de norma. Cuanto mayor es el valor de escalal, mas bits se asignan por energfa, y en un caso extremo, si el valor es 1, todos los bits se asignan por energfa. Cuanto menor es el valor de escalal, mas bits se asignan por variacion de norma, y en un caso extremo, si el valor es 0, todos los bits se asignan por variacion de norma.

Distribuyendo bits de grupo en grupo tal como se describio anteriormente, la seccion de distribucion de bits de grupo 308 puede distribuir mas bits a grupos dominantes y distribuir menos bits a grupos no dominantes.

Por tanto, la seccion de distribucion de bits de grupo 308 puede determinar la importancia perceptiva de cada grupo por energfa y variacion de norma y potencia mas los grupos dominantes. La variacion de norma cumple una teona de enmascaramiento y puede determinar la importancia perceptiva de manera mas precisa.

La seccion de distribucion de bits de subbanda 309 (correspondiente a una segunda seccion de asignacion de bits) distribuye bits a subbandas en cada grupo basandose en los bits espedficos de grupo emitidos desde la seccion de distribucion de bits de grupo 308 y emite los bits asignados a subbandas espedficas de grupo a la seccion de codificacion de vectores de red 108 como el resultado de la asignacion de bits. En este caso, se distribuyen mas bits a subbandas perceptivamente importantes y se distribuyen menos bits a subbandas perceptivamente menos importantes. Los bits distribuidos a cada subbanda en un grupo se calculan mediante la siguiente ecuacion 6.

[6]

Norma (0 Energia(G(k))

...(Ecuacion 6)

En este caso, BitsG(k)sb(i) indica un bit asignado a la subbanda i del grupo k, i indica un mdice de subbanda del grupo k, Bits(G(k)) indica un bit asignado al grupo k, Energfa(G(k)) indica la energfa del grupo k y Norma(i) indica un valor de coeficiente de norma de la subbanda i del grupo k.

A continuacion, se describira un metodo de agrupacion usando las figuras 8A a 8C. Se supone que se introduce una envolvente espectral cuantificada mostrada en la figura 8A a la seccion de identificacion de banda de frecuencia de pico 301. La seccion de identificacion de banda de frecuencia de pico 301 identifica las bandas de frecuencia dominantes 9 y 20 basandose en la envolvente espectral cuantificada introducida (vease la figura 8B).

Las secciones de generacion de grupo dominante 302-1 a 302-N determinan subbandas centradas en y a ambos lados de las bandas de frecuencia dominantes 9 y 20 hasta las subbandas en las que se detiene una pendiente descendente del valor de coeficiente de norma como grupo dominante identico. En los ejemplos en las figuras 8A a 8C, al igual que para la banda de frecuencia dominante 9, las subbandas 6 a 12 se determinan como grupo dominante (grupo 2), mientras que al igual que para la banda de frecuencia dominante 20, las subbandas 17 a 22 se determinan como grupo dominante (grupo 4) (vease la figura 8C).

La seccion de determinacion de grupo no dominante 303 determina bandas de frecuencia continuas distintas de los grupos dominantes como grupos no dominantes sin las bandas de frecuencia dominantes. En el ejemplo en las figuras 8A a 8C, las subbandas 1 a 5 (grupo 1), las subbandas 13 a 16 (grupo 3) y las subbandas 23 a 25 (grupo 5) se determinan como grupos no dominantes respectivamente (vease la figura 8C).

Como resultado, las envolventes espectrales cuantificadas se dividen en cinco grupos, es decir, dos grupos dominantes (grupos 2 y 4) y tres grupos no dominantes (grupos 1, 3 y 5).

Usando un metodo de agrupacion de este tipo, es posible determinar de manera adaptativa anchuras de grupo segun las caractensticas de la senal de entrada. Segun este metodo, el aparato de descodificacion de voz/audio tambien usa coeficientes de norma cuantificados disponibles, y por lo tanto no necesita transmitirse informacion adicional al aparato de descodificacion de voz/audio.

5

10

15

20

25

30

35

40

45

50

Observese que la seccion de calculo de variacion de norma 306 calcula una variacion de norma espedfica de grupo. En los ejemplos en las figuras 8A a 8C, se muestra la variacion de norma Energfavar(G(2)) en el grupo 2 en la figura 9 como referencia.

A continuacion, se describira la importancia perceptiva. Un espectro de una senal de voz/audio incluye generalmente una pluralidad de picos (montanas) y valles. Un pico esta compuesto por una componente espectral ubicada en una frecuencia dominante de la senal de voz/audio (componente de sonido dominante). El pico es perceptivamente muy importante. La importancia perceptiva del pico puede determinarse mediante una diferencia entre la energfa del pico y la energfa del valle, es decir, mediante una variacion de norma. Teoricamente, cuando un pico tiene una energfa suficientemente grande en comparacion con bandas de frecuencia vecinas, el pico debe codificarse con un numero de bits suficiente, pero si el pico se codifica con un numero de bits insuficiente, el ruido de codificacion que se mezcla se vuelve destacado, provocando que se deteriore la calidad de sonido. Por otra parte, un valle no esta compuesto por ninguna componente de sonido dominante de una senal de voz/audio y no es perceptivamente importante.

Segun el metodo de agrupacion de banda de frecuencia de la presente realizacion, una banda de frecuencia dominante corresponde a un pico de un espectro y agrupar bandas de frecuencia significa separar los picos (grupos dominantes que incluyen bandas de frecuencia dominantes) de los valles (grupos no dominantes sin bandas de frecuencia dominantes).

La seccion de distribucion de bits de grupo 308 determina la importancia perceptiva de un pico. Al contrario que la tecnica de G.719 en la que se determina la importancia perceptiva solo mediante la energfa, la presente realizacion determina la importancia perceptiva basandose tanto en la energfa como en distribuciones de la norma (energfa) y determina los bits que van a distribuirse a cada grupo basandose en la importancia perceptiva determinada.

En la seccion de distribucion de bits de subbanda 309, cuando una variacion de norma en un grupo es grande, significa que este grupo es uno de picos, el pico es perceptivamente mas importante y debe codificarse de manera precisa un coeficiente de norma que tiene un valor maximo. Por este motivo, se distribuyen mas bits a cada subbanda de este pico. Por otra parte, cuando una variacion de norma en un grupo es muy pequena, significa que este grupo es uno de valles, y el valle no es perceptivamente importante y no necesita codificarse de manera precisa. Por este motivo, se distribuyen menos bits a cada subbanda de este grupo.

Por tanto, la presente realizacion identifica una banda de frecuencia dominante en la que un valor de coeficiente de norma en un espectro de una senal de voz/audio de entrada tiene un valor maximo local, agrupa todas las subbandas en grupos dominantes que incluyen una banda de frecuencia dominante y grupos no dominantes que no incluyen ninguna banda de frecuencia dominante, distribuye bits a cada grupo basandose en la energfa espedfica de grupo y las variaciones de norma, y distribuye adicionalmente los bits distribuidos de grupo en grupo a cada subbanda segun una razon de una norma con respecto a la energfa de cada grupo. De esta manera, es posible asignar mas bits a grupos y subbandas perceptivamente importantes y realizar una distribucion de bits eficiente. Como resultado, puede mejorarse la calidad de sonido.

Observese que el coeficiente de norma en la presente realizacion representa la energfa de subbanda y tambien se denomina “envolvente de energfa”.

La divulgacion de la solicitud de patente japonesa n.° 2012-272571, presentada el 13 de diciembre de 2012, que incluye la memoria descriptiva, los dibujos y el resumen se incorpora en el presente documento como referencia en su totalidad.

Aplicabilidad industrial

El aparato de codificacion de voz/audio, el aparato de descodificacion de voz/audio, el metodo de codificacion de voz/audio y el metodo de descodificacion de voz/audio segun la presente invencion pueden aplicarse a un aparato de terminal de comunicacion por radio, un aparato de estacion base de comunicacion por radio, un aparato de terminal de conferencia telefonica, un aparato de terminal de conferencia de video y un aparato de terminal de protocolo de voz por Internet (VoIP) o similares.

Lista de signos de referencia

101 Detector transitorio

102 Seccion de transformacion

103 Seccion de estimacion de norma

104 Seccion de cuantificacion de norma

105 Seccion de normalizacion de espectro 106, 203 Seccion de ajuste de norma

107, 204 Seccion de asignacion de bits

108 Seccion de codificacion de vectores de red

109 Seccion de ajuste de nivel de ruido

110 Multiplexor

5 201 Demultiplexor

202 Seccion de descuantificacion de norma

205 Seccion de descodificacion de red

206 Generador de llenado espectral

207 Sumador

10 208 Seccion de conformacion de envolvente

209 Seccion de transformacion inversa

301 Seccion de identificacion de banda de frecuencia dominante 302-1 a 302-N Seccion de determinacion de grupo dominante 303 Seccion de determinacion de grupo no dominante 15 304 Seccion de calculo de energfa de grupo

305 Seccion de calculo de energfa total

306 Seccion de calculo de variacion de norma

307 Seccion de calculo de variacion de norma total

308 Seccion de distribucion de bits de grupo

20 309 Seccion de distribucion de bits de subbanda

Claims

5

10

15

20

25

30

35

40

45

REIVINDICACIONES

Aparato de codificacion de voz/audio que comprende:

una seccion de transformacion que transforma una senal de entrada de un dominio de tiempo a un dominio de frecuencia;

una seccion de estimacion que estima una envolvente de ene^a que representa un nivel de energfa para cada una de una pluralidad de subbandas obtenidas dividiendo un espectro de frecuencia de la senal de entrada;

una seccion de cuantificacion que cuantifica las envolventes de energfa;

una seccion de determinacion de grupo que agrupa las envolventes de energfa cuantificadas en una pluralidad de grupos;

en el que la seccion de determinacion de grupo determina

una banda de frecuencia dominante que es una subbanda en la que una envolvente de energfa del espectro de frecuencia tiene un valor maximo local

y subbandas a ambos lados de la banda de frecuencia dominante que forman, cada una, una pendiente descendente de una envolvente de energfa como grupos dominantes, y determina subbandas mutuamente adyacentes distintas de los grupos dominantes como grupos no dominantes;

una primera seccion de asignacion de bits que asigna bits a la pluralidad de grupos determinados;

una segunda seccion de asignacion de bits que asigna los bits asignados a la pluralidad de grupos determinados a subbandas de grupo en grupo; y

una seccion de codificacion que codifica el espectro de frecuencia usando bits asignados a las subbandas. Aparato de codificacion de voz/audio segun la reivindicacion 1, que comprende ademas: una seccion de calculo de energfa que calcula energfa espedfica de grupo; y

una seccion de calculo de distribucion que calcula una distribucion de envolvente de energfa espedfica de grupo, en el que

la primera seccion de asignacion de bits asigna, basandose en la energfa espedfica de grupo calculada y la distribucion de envolvente de energfa espedfica de grupo, mas bits a un grupo cuando al menos una de la energfa y la distribucion de envolvente de energfa es mayor y asigna menos bits a un grupo cuando al menos una de la energfa y la distribucion de envolvente de energfa es menor.

Aparato de codificacion de voz/audio segun la reivindicacion 1, en el que la segunda seccion de asignacion de bits asigna mas bits a una subbanda que tiene una envolvente de energfa mayor y asigna menos bits a una subbanda que tiene una envolvente de energfa menor.

Aparato de descodificacion de voz/audio que comprende:

una seccion de descuantificacion que descuantifica una envolvente espectral cuantificada;

una seccion de determinacion de grupo que agrupa las envolventes espectrales cuantificadas en una pluralidad de grupos;

en el que la seccion de determinacion de grupo determina

una banda de frecuencia dominante que es una subbanda en la que una envolvente de energfa del espectro de frecuencia tiene un valor maximo local

y subbandas a ambos lados de la banda de frecuencia dominante que forman, cada una, una pendiente descendente de una envolvente de energfa como grupos dominantes y determina subbandas mutuamente adyacentes distintas de los grupos dominantes como grupos no dominantes

una primera seccion de asignacion de bits que asigna bits a la pluralidad de grupos determinados;

una segunda seccion de asignacion de bits que asigna los bits asignados a la pluralidad de grupos determinados a subbandas de grupo en grupo;

una seccion de descodificacion que descodifica un espectro de frecuencia de una senal de voz/audio

5

10

15

20

25

30

35

40

45

usando los bits asignados a las subbandas;

una seccion de conformacion de envolvente que aplica la envolvente espectral descuantificada al espectro de frecuencia descodificado y reproduce un espectro descodificado; y

una seccion de transformacion inversa que realiza la transformacion inversa del espectro descodificado de un dominio de frecuencia a un dominio de tiempo.

Aparato de descodificacion de voz/audio segun la reivindicacion 4, que comprende ademas: una seccion de calculo de ene^a que calcula energfa espedfica de grupo; y

una seccion de calculo de distribucion que calcula una envolvente de energfa espedfica de grupo, en el que

la primera seccion de asignacion de bits asigna, basandose en la ene^a espedfica de grupo calculada y la distribucion de envolvente de energfa espedfica de grupo, mas bits a grupos cuando al menos una de la energfa y la distribucion de envolvente de energfa es mayor y asigna menos bits a grupos cuando al menos una de la energfa y la distribucion de envolvente de energfa es menor.

Aparato de descodificacion de voz/audio segun la reivindicacion 4, en el que la segunda seccion de asignacion de bits asigna mas bits a subbandas que tienen una envolvente de energfa mayor y asigna menos bits a subbandas que tienen una envolvente de energfa menor.

Metodo de codificacion de voz/audio que comprende:

transformar una senal de entrada de un dominio de tiempo a un dominio de frecuencia;

estimar una envolvente de energfa que representa un nivel de energfa para cada una de una pluralidad de subbandas obtenidas dividiendo un espectro de frecuencia de la senal de entrada;

cuantificar las envolventes de energfa;

agrupar las envolventes de energfa cuantificadas en una pluralidad de grupos en el que, en la agrupacion, se determina una banda de frecuencia dominante que es una subbanda en la que una envolvente de energfa del espectro de frecuencia tiene un valor maximo local y subbandas a ambos lados de la banda de frecuencia dominante que forman, cada una, una pendiente descendente de una envolvente de energfa como grupos dominantes, y se determinan subbandas mutuamente adyacentes distintas de los grupos dominantes como grupos no dominantes;

asignar bits a la pluralidad de grupos determinados;

asignar los bits asignados a la pluralidad de grupos determinados a subbandas de grupo en grupo; y codificar el espectro de frecuencia usando bits asignados a las subbandas.

Metodo de descodificacion de voz/audio que comprende:

descuantificar una envolvente espectral cuantificada;

agrupar la envolvente espectral cuantificada en una pluralidad de grupos;

en el que, en la agrupacion, se determina una banda de frecuencia dominante que es una subbanda en la que una envolvente de energfa del espectro de frecuencia tiene un valor maximo local y subbandas a ambos lados de la banda de frecuencia dominante que forman, cada una, una pendiente descendente de una envolvente de energfa como grupos dominantes, y se determinan subbandas mutuamente adyacentes distintas de los grupos dominantes como grupos no dominantes;

asignar bits a la pluralidad de grupos determinados;

asignar los bits asignados a la pluralidad de grupos determinados a subbandas de grupo en grupo;

descodificar un espectro de frecuencia de una senal de voz/audio usando los bits asignados a las subbandas;

aplicar la envolvente espectral descuantificada al espectro de frecuencia descodificado y reproducir un espectro descodificado; y

realizar la transformacion inversa del espectro descodificado de un dominio de frecuencia a un dominio de tiempo.