ES2969117T3 - Dispositivo de codificación de audio de voz, y procedimiento de codificación de audio de voz - Google Patents

Dispositivo de codificación de audio de voz, y procedimiento de codificación de audio de voz Download PDF

Info

Publication number
ES2969117T3
ES2969117T3 ES19190764T ES19190764T ES2969117T3 ES 2969117 T3 ES2969117 T3 ES 2969117T3 ES 19190764 T ES19190764 T ES 19190764T ES 19190764 T ES19190764 T ES 19190764T ES 2969117 T3 ES2969117 T3 ES 2969117T3
Authority
ES
Spain
Prior art keywords
band
spectrum
subband
section
limited
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19190764T
Other languages
English (en)
Inventor
Takuya Kawashima
Masahiro Oshikiri
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Panasonic Holdings Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Holdings Corp filed Critical Panasonic Holdings Corp
Application granted granted Critical
Publication of ES2969117T3 publication Critical patent/ES2969117T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Mediante la presente invención, se reduce el número de bits de codificación asignados a la codificación del espectro de banda extendida mientras se suprime la degradación de la calidad del sonido en la banda extendida. Una unidad de compresión de banda (105) crea combinaciones de espectros de subbanda en pares de dos muestras cada una en orden desde un lado de rango bajo en una subbanda objetivo de compresión de banda, selecciona un espectro que tiene una gran amplitud de valor absoluto entre las combinaciones. y organiza el espectro seleccionado cerca del lado de rango bajo en un eje de frecuencia. Una unidad de recálculo del número de unidades (106) redistribuye los bits guardados en la subbanda para la cual se realizó la compresión de banda a un rango bajo fuera de la banda extendida, y redistribuye el número de unidades en base a los bits redistribuidos. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Dispositivo de codificación de audio de voz, y procedimiento de codificación de audio de voz
Campo de la técnica
La presente invención se refiere a un aparato de codificación de voz/audio y un procedimiento de codificación de voz/audio.
Antecedentes de la técnica
Como un esquema capaz de codificar eficientemente una señal de voz o una señal de música en una banda ultra ancha (SWB: Super-Banda-Ancha) de 0,05 a 14 kHz, existen técnicas desveladas en la bibliografía no patente (en lo sucesivo en el presente documento denominada como "NPL") 1 y NPL 2 estandarizados en el UIT-T (Sector de normalización de las telecomunicaciones de la unión internacional de telecomunicaciones). De acuerdo con estas técnicas, una sección de codificación central codifica una banda de hasta 7 kHz y una sección de codificación mejorada codifica una banda de 7 kHz o superior (en lo sucesivo en el presente documento denominada "banda extendida").
La sección de codificación de núcleo realiza la codificación usando la predicción lineal con excitación por código, transforma una señal residual que no puede codificarse por CELP en un dominio de frecuencia a través de MDCT (Transforma de coseno discreta modificada) y, a continuación codifica la señal residual transformada a través de la codificación de transformada tal como FPC (codificación de pulso factorial) o AVQ (cuantificación algebraica de vectores). La sección de codificación mejorada realiza la codificación usando una técnica de búsqueda de una banda que tiene una alta correlación con un espectro de banda baja de hasta 7 kHz en una banda extendida de 7 kHz o superior y usa una banda que tiene la mayor correlación para codificar la banda extendida. De acuerdo con NPL 1 y NPL 2, el número de bits codificados está predeterminado para el lado de banda baja de hasta 7 kHz y el lado de banda alta de 7 kHz o más, respectivamente, y el lado de banda baja y el lado de banda alta están codificados con unos números determinados respectivamente de bits codificados.
NPL 3 también desvela que un esquema para codificar SWB está estandarizado en ITU-T. El aparato de codificación de acuerdo con NPL 3 transforma una señal de entrada en un dominio de frecuencia a través de MDCT, divide la señal de entrada en subbandas y realiza la codificación en una base de subbanda. Más específicamente, este aparato de codificación calcula primero la energía de cada subbanda y realiza la codificación. A continuación, el aparato de codificación asigna los bits codificados para codificar una estructura fina de frecuencia a cada subbanda basándose en la energía de subbanda para codificar la estructura fina de frecuencia. La estructura fina de frecuencia se codifica usando la cuantificación de vector de rejilla. Al igual que con FPC o AVQ, la cuantificación de vector de rejilla también es un tipo de codificación de transformada adecuado para la codificación del espectro. Ya que los bits codificados no están suficientemente asignados en la cuantificación de vector de rejilla, puede haber un gran error entre la energía del espectro decodificado y la energía de subbanda. En este caso, la codificación se realiza a través del procesamiento de llenar el error entre la energía de subbanda y la energía del espectro decodificado con un vector de ruido.
NPL 4 desvela una técnica de codificación que usa AAC (codificación de audio avanzada). AAC calcula un umbral de enmascaramiento basándose en un modelo perceptual, excluye los coeficientes MDCT iguales o inferiores al umbral de enmascaramiento de los objetivos de codificación y, por lo tanto, realiza la codificación de manera eficaz.
Lista de citas
Bibliografía no de patente
NPL 1
Norma UIT-T G718 Anexo B, 2010
NPL 2
Norma UIT-T G729.1 Anexo E, 2010
NPL 3
Norma UIT-T G719, 2008
NPL 4
MP3 Y AAC explicados, 17a Conferencia internacional AES sobre Codificación de audio de alta calidad, 1999
Literatura de patente
El documento US 2008/0312758 A1 se refiere a un codificador/descodificador de audio para proporcionar una compresión eficiente de datos de coeficientes de transformación espectral caracterizados por picos espectrales dispersos. 10 El codificador/descodificador de audio aplica una predicción temporal de la posición de frecuencia de los picos espectrales. Los picos espectrales en los coeficientes de transformación que se predicen a partir de aquellos en un bloque de codificación de transformación anterior se codifican como un cambio en la posición de frecuencia desde el bloque de codificación de transformación anterior y dos niveles de coeficiente distintos de cero. La predicción puede evitar la codificación de ejecuciones de coeficientes de transformación de nivel cero muy grandes en comparación con la codificación de longitud de ejecución convencional. Para los picos espectrales no predichos a partir de aquellos en un bloque de codificación de transformación anterior, los picos espectrales se codifican como un trío de valores de una longitud de una ejecución de coeficientes de transformación espectral de nivel cero y dos niveles de coeficientes distintos de cero.
Sumario de la invención
Problema técnico
De acuerdo con NPL 1 y NPL 2, los bits se asignan de manera fija al lado de banda baja a codificar por la sección de codificación de núcleo y el lado de banda alta a codificar por la sección de codificación mejorada, y no es posible asignar apropiadamente los bits codificados a la banda baja y a la banda alta de acuerdo con las características de las señales. Por esta razón, existe el problema de que no se puede exhibir un rendimiento suficiente en función de las características de las señales de entrada.
Mientras tanto, de acuerdo con NPL 3, se proporciona un mecanismo para asignar de forma adaptable los bits desde la banda baja a la banda alta de acuerdo con la energía de subbandas, pero centrándose en una característica perceptual que cuanto mayor es la banda, menor es la sensibilidad a un error espectral, existe el problema de que es probable que se asignen más bits de los necesarios a la banda alta. Estos problemas se describirán a continuación.
En un procedimiento de codificación, se calcula una cantidad de bits necesaria para cada subbanda de manera que cuanto mayor sea la energía de subbanda calculada para cada subbanda, más bits se asignan. Sin embargo, con la codificación de transformada, de acuerdo con la naturaleza del algoritmo, incluso cuando el número de bits codificados asignados se incrementa en un bit, el rendimiento de codificación puede no mejorar y el resultado de la codificación puede no cambiar a menos que se asigne un cierto número sustancial de bits. Por esta razón, puede ser conveniente que los bits se asignen, no bit a bit, sino en unidades de un cierto número sustancial de bits. Tal unidad de bits necesaria para la codificación se denomina en lo sucesivo en el presente documento una "unidad". Cuanto mayor sea el número de unidades asignadas, más exactamente puede expresarse la forma y amplitud de un espectro. Esto es una práctica general, en consideración de la característica perceptiva, que se tome un ancho de banda más amplio para las subbandas en una banda más alta que en una banda más baja, que se tome un ancho de banda más amplio para las subbandas en una banda más alta que en una banda más baja, pero cuanto más ancho es el ancho de banda, más bits son necesarios para una unidad y, por lo tanto, el número de bits por unidad cambia de acuerdo con el ancho de banda.
En la codificación de transformada considerada en la presente invención, ya que un espectro se aproxima por un pequeño número de secuencias de impulsos en un dominio de frecuencia, se consumen los bits codificados asignados en una base de unidad a la información de amplitud y a la información de posición.
Además, de acuerdo con NPL 4, la codificación se realiza de manera eficaz excluyendo los coeficientes MDCT que no son importantes en términos de características de percepción de los objetivos de codificación, pero la información de posición de los espectros individuales a codificar se expresa con precisión. Por esta razón, cuanto mayor sea el ancho de banda de una subbanda, más bits deben consumirse para expresar las posiciones de los espectros individuales.
Sin embargo, la sensibilidad perceptual a una posición espectral se deteriora a medida que la banda se hace más alta, y si la amplitud espectral principal y la energía de subbanda pueden expresarse, el deterioro perceptual apenas se percibe. Sin embargo, de acuerdo con NPL 3 y NPL 4, se consumen más bits también en una banda alta de tal manera que las posiciones de los espectros individuales puedan expresarse con precisión. Es decir, existe el problema de que se usan más bits codificados que los necesarios para expresar con precisión las posiciones espectrales.
Un objeto de la presente invención es proporcionar un aparato de codificación de voz/audio, un aparato de decodificación de voz/audio, un procedimiento de codificación de voz/audio y un procedimiento de decodificación de voz/audio capaz de reducir el número de bits codificados que se asignarán a la codificación de un espectro de una banda extendida mientras se evita el deterioro de la calidad del sonido en la banda extendida.
Solución al problema
En un ejemplo adecuado para la comprensión de los antecedentes de la presente invención, un aparato de codificación de voz/audio incluye: una sección de transformación de tiempo/frecuencia que transforma una señal de entrada de dominio de tiempo en un espectro de dominio de frecuencia; una sección de división que divide el espectro en subbandas; una sección de compresión de banda que divide un espectro en una subbanda dentro de una banda extendida en combinaciones de una pluralidad de muestras en orden desde un lado de banda baja o un lado de banda alta, que selecciona espectros que tienen grandes valores absolutos de amplitud de entre las combinaciones, que dispone estrechamente los espectros seleccionados en el dominio de frecuencia, y que comprime la banda de la subbanda; y una sección de codificación de transformada que codifica un espectro de una subbanda menor que a la banda extendida y un espectro comprimido de banda a través de la codificación de transformada.
En otro ejemplo, un aparato de decodificación de voz/audio incluye: una sección de decodificación de codificación de transformada que decodifica los datos de codificación resultantes de la transformación que codifica tanto un espectro en una banda de subbanda obtenida dividiendo un espectro de una subbanda dentro de una banda extendida en combinaciones de una pluralidad de muestras en orden desde un lado de banda baja o un lado de banda alta, seleccionando los espectros que tienen grandes valores absolutos de amplitud de entre las combinaciones, disponiendo estrechamente los espectros seleccionados en un dominio de frecuencia y comprimiendo la banda de la subbanda y un espectro de una subbanda más baja que la banda extendida; una sección de extensión de banda que extiende el ancho de banda de la subbanda comprimida a un ancho de banda de la subbanda original; una sección de integración de subbanda que integra un espectro de una subbanda más bajo que la banda extendida decodificada y un espectro de una subbanda dentro de la banda extendida en un vector; y una sección de transformación de frecuencia/tiempo que transforma el espectro de dominio de frecuencia integrado en una señal de dominio de tiempo.
En otro ejemplo, un procedimiento de codificación de voz/audio incluye: transformar una señal de entrada de dominio de tiempo en un espectro de dominio de frecuencia; dividir el espectro en subbandas; dividir un espectro en una subbanda dentro de una banda extendida en combinaciones de una pluralidad de muestras en orden desde un lado de banda baja o un lado de banda alta, seleccionar los espectros que tengan valores absolutos de amplitud grandes entre las combinaciones, disponer estrechamente los espectros seleccionados en la dominio de frecuencia y comprimir la banda de la subbanda; y codificar un espectro de una subbanda menor que la banda extendida y un espectro comprimido en banda a través de la codificación de transformada.
En otro ejemplo, un procedimiento de codificación de voz/audio incluye: decodificar los datos codificados resultantes de la codificación de transformada tanto un espectro en una banda de subbanda obtenida dividiendo un espectro de una subbanda dentro de una banda extendida en combinaciones de una pluralidad de muestras en orden desde un lado de banda baja o un lado de banda alta, seleccionar los espectros que tienen grandes valores absolutos de amplitud de entre las combinaciones, disponer estrechamente los espectros seleccionados en un dominio de frecuencia y comprimir la banda de la subbanda y un espectro de una subbanda más baja que la banda extendida; extender el ancho de banda de la subbanda comprimida a un ancho de banda de la subbanda original; integrar un espectro de una subbanda menor que la banda extendida decodificada y un espectro de una subbanda dentro de la banda extendida en un vector; y transformar el espectro de dominio de frecuencia integrado en una señal de dominio de tiempo.
La invención está definida por las reivindicaciones adjuntas. En la solicitud se proporcionan ejemplos, aspectos y aspectos que no necesariamente caen dentro del alcance de las reivindicaciones para comprender mejor la invención.
Efectos ventajosos de la invención
De acuerdo con la presente invención, es posible reducir el número de bits codificados a asignar para la codificación de un espectro de una banda extendida, mientras que se evita el deterioro de la calidad de sonido en la banda extendida.
Breve descripción de dibujos
La figura 1 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de voz/audio de acuerdo con los Aspectos 1, 3 y 5 de la presente invención;
las figuras 2A a 2C son diagramas proporcionados para describir la compresión de banda;
la figura 3 es un diagrama proporcionado para describir la operación de una sección de recálculo de número de unidad;
la figura 4 es un diagrama de bloques que ilustra una configuración de un aparato de decodificación de voz/audio de acuerdo con los Aspectos 1, 3 y 5 de la presente invención;
la figura 5 es un diagrama proporcionado para describir la extensión de banda;
la figura 6 es un diagrama de bloques que ilustra otra configuración del aparato de codificación de voz/audio de acuerdo con el Ejemplo 1;
la figura 7 es un diagrama de bloques que ilustra otra configuración del aparato de decodificación de voz/audio de acuerdo con el Aspecto 1 de la presente invención;
la figura 8 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de voz/audio de acuerdo con el Aspecto 2 de la presente invención;
la figura 9 es un diagrama de bloques que ilustra una configuración de un aparato de decodificación de voz/audio de acuerdo con el Aspecto 2 de la presente invención;
la figura 10 es un diagrama que ilustra una banda extendida basada en la información de corrección de posición; la figura 11 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de voz/audio de acuerdo con el Aspecto 4 de la presente invención;
Las figuras 12A a 12D son diagramas proporcionados para describir el intercalado;
la figura 13 es un diagrama de bloques que ilustra una configuración de un aparato de decodificación de voz/audio de acuerdo con el Aspecto 4 de la presente invención;
la figura 14 es un diagrama que ilustra un ejemplo de compresión de banda;
la figura 15 es un diagrama que ilustra un ejemplo de extensión de banda;
la figura 16 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de voz/audio de acuerdo con el Aspecto 6 de la presente invención;
la figura 17 es un diagrama que ilustra un ejemplo de codificación de transformada no acompañado de limitación de banda;
la figura 18 es un diagrama que ilustra un ejemplo de codificación de transformada acompañado de limitación de banda; y
la figura 19 es un diagrama de bloques que ilustra una configuración de un aparato de decodificación de voz/audio de acuerdo con el Aspecto 6 de la presente invención.
Descripción de los aspectos
En lo sucesivo en el presente documento, los aspectos se describirán en detalle haciendo referencia a los dibujos adjuntos. Mientras tanto, los componentes entre los aspectos que tienen la misma función, tienen asignados los mismos números de referencia y se omitirá una descripción superpuesta.
(Aspecto 1)
La figura 1 es un diagrama de bloques que ilustra una configuración del aparato 100 de codificación de voz/audio de acuerdo con el Aspecto 1 de la presente invención. En lo sucesivo en el presente documento, la configuración del aparato 100 de codificación de voz/audio se describirá usando la figura 1.
La sección 101 de transformación de tiempo/frecuencia adquiere una señal de entrada, transforma la señal de entrada de dominio de tiempo adquirida en una señal de dominio de frecuencia y emite la señal de dominio de frecuencia a la sección 102 de división de subbanda como un espectro de señal de entrada. Obsérvese que en el aspecto, la TCMD se describirá como un ejemplo de transformación de tiempo/frecuencia, pero también puede usarse la transformación ortogonal tal como la f Ft (Transformada rápida de Fourier) o DCT (Transformada de coseno discreta).
La sección 102 de división de subbanda divide el espectro de señal de entrada emitido desde la sección 101 de transformación de tiempo/frecuencia en M subbandas y emite el espectro de subbanda a la sección 103 de cálculo de energía de subbanda y a la sección 105 de compresión de banda. Con las características perceptivas humanas tomadas en cuenta, la división no uniforme se realiza en general de tal manera que cuanto más baja sea la banda, más estrecho se vuelve el ancho de banda, y cuanto más alta es la banda, más ancho se vuelve el ancho de banda. El presente aspecto también se describirá basándose en esta premisa. Supóngase que una longitud de subbanda de una n-ésima subbanda está representada por W [n] y un vector de espectro de subbanda está representado por Sn. Cada Sn almacena los W [n] espectros. Supóngase que hay una relación de W [k-1] < W [k]. Un ejemplo del esquema de codificación que realiza una división no uniforme es ITU-T G719. El tiempo/frecuencia de G719 transforma una señal de entrada que tiene una frecuencia de muestreo de 48 kHz. Después de eso, G.719 divide el espectro en subbandas en cada 8 puntos en el dominio de frecuencia en la banda más baja y divide el espectro en subbandas en cada 32 puntos en la banda más alta. Obsérvese que G719 es un esquema de codificación que puede usar muchos bits codificados de 32 kbps a 128 kbps, pero para reducir aún más la velocidad de bits, es útil aumentar la longitud de cada subbanda y aumentar la longitud de subbanda para las bandas altas en particular.
La sección 103 de cálculo de energía de subbanda calcula la energía para cada subbanda a partir del espectro de subbanda emitido desde la sección 102 de división de subbanda, emite la energía de subbanda cuantificada a una sección 104 de cálculo de número de unidad, y emite los datos codificados de energía de subbanda obtenidos codificando la energía de subbanda a la sección 108 de multiplexación. Supóngase en este caso que la energía de subbanda es la energía de un espectro incluido en la subbanda expresada por el logaritmo de base 2. Una ecuación de cálculo de energía de subbanda se muestra en la siguiente ecuación 1.
[1]
En este caso, n representa un número de subbanda, E [n] representa la energía de subbanda de la subbanda n, W [n] representa una longitud de subbanda de la subbanda n y Sn [i] representa un i-ésimo espectro de la n-ésima subbanda. Supóngase que la longitud de subbanda se registra anteriormente en la sección 103 de cálculo de energía de subbanda.
La sección 104 de cálculo de número de unidad calcula un número provisional de bits asignados a asignar a una subbanda basándose en la energía de subbanda cuantificada emitida desde la sección 103 de cálculo de energía de subbanda, y emite el número provisional de bits asignados junto con el número de unidad calculada a la sección 106 de recálculo de número de unidad. Al igual que con la sección 103 de cálculo de energía de subbanda, supóngase que la longitud de subbanda se registra anteriormente en la sección 104 de cálculo de número de unidad. Básicamente, cuanto mayor es la energía de subbanda E [n], más bits codificados se asignan. Sin embargo, los bits codificados se asignan por base de unidad y el número de bits por unidad depende de la longitud de subbanda. Por esta razón, es necesario hacer una asignación óptima que incluya la asignación de bits en otras subbandas. Los detalles de la sección 104 de cálculo de número de unidad se describirán más adelante.
La sección 105 de compresión de banda comprime cada subbanda en una banda extendida usando el espectro de subbanda emitido desde la sección 102 de división de subbanda y emite la subbanda en el lado de banda baja y un espectro comprimido de subbanda que incluye la subbanda comprimida a la sección 107 de codificación de transformada. Es un objeto de compresión de banda para eliminar información en una posición de espectro mientras deja un espectro principal como un objetivo de codificación y, por lo tanto, reduce el número de bits codificados necesarios para la codificación de transformada. Los detalles de la sección 105 de compresión de banda se describirán más adelante.
La sección 106 de recálculo de número de unidad reasigna los bits reducidos en la subbanda de banda comprimida a una banda de baja en el exterior de la banda extendida basándose en el número provisional de bits asignados y el número de unidades emitidas desde la sección 104 de cálculo de número de unidad. La sección 106 de recálculo de número de unidad reasigna el número de unidades basándose el bit reasignado y emite el número de unidades reasignadas a la sección 107 de codificación de transformada. Los detalles de la sección 106 de recálculo de número de unidad se describirán más adelante.
La sección 107 de codificación de transformada codifica el espectro comprimido de subbanda emitido desde la sección 105 de compresión de banda a través de la codificación de transformada y emite los datos codificados de transformada a la sección 108 de multiplexación. Como el esquema de codificación de transformada, se usa un esquema de codificación de transformada tal como FPC, AVQ o LVQ. La sección 107 de codificación de transformada codifica el espectro comprimido de subbanda introducido usando los bits codificados determinados por el número de unidades reasignadas emitidas desde la sección 106 de recálculo de número de unidad. A medida que aumenta el número de unidades reasignadas, es posible aumentar el número de pulsos para aproximar el espectro o hacer que el valor de amplitud del mismo sea más preciso. Se determina si aumentar el número de pulsos o mejorar la precisión de la amplitud usando la distorsión entre el espectro de entrada a codificar y el espectro decodificado como referencia.
La sección 108 de multiplexación multiplexa los datos codificados de energía de subbanda emitidos desde la sección 103 de cálculo de energía de subbanda y los datos codificados de transformada emitidos desde la sección 107 de codificación de transformada y emite los datos multiplexados como datos codificados.
En este caso, el procedimiento de asignación de número de unidad en la sección 104 de cálculo de número de unidad mostrado en la figura 1 se describirá con un ejemplo específico. En primer lugar, la sección 104 de cálculo de número de unidad calcula el número de bits asignados a cada subbanda basándose en la energía de subbanda emitida por la sección 103 de cálculo de energía de subbanda. En lo sucesivo en el presente documento, el número de bits calculados se denomina "número provisional de bits asignados". Por ejemplo, cuando el número total de bits codificados dados para codificar una estructura fina de espectro es 320 bits, y la energía de subbanda total de las subbandas respectivas calculada de acuerdo con la ecuación 1 y a continuación cuantificada es 160, ya que 320/160 = 2,0, la energía que cada subbanda multiplicada por 2.0 puede suponerse que es el número provisional de bits asignados.
A continuación, la sección 104 de cálculo de número de unidad determina los bits a asignar realmente a cada subbanda (en lo sucesivo en el presente documento denominado "número de bits asignados"), pero ya que los bits codificados se asignan sobre una base de unidad en la codificación de transformada, el número provisional de los bits asignados no puede suponerse como el número de bits asignados sin cambio. Por ejemplo, cuando el número provisional de bits asignados es 30 y una unidad es 7 bits, si el número de bits asignados no supera el número provisional de bits asignados, el número de unidades es 4, el número de bits asignados es 28, y 2 bits son bits redundantes con respecto al número provisional de bits asignados.
Por lo tanto, cuando el número de bits asignados se calcula de manera secuencial para cada subbanda, puede producirse un exceso o deficiencia en el número de bits codificados en un punto en el tiempo en que se completa el cálculo para todas las subbandas. Por esta razón, es necesario encontrar una manera de asignar eficientemente los bits codificados. Por ejemplo, los bits pueden asignarse sin exceso o deficiencia agregando bits redundantes generados en una determinada subbanda al número provisional de bits asignados en la siguiente subbanda.
Esto se describirá usando un ejemplo específico. En el presente documento, se describirá como un ejemplo un caso donde solo se codifica la información de posición de un pulso para aproximar un espectro, y supóngase que la información de posición simplemente se agrega cada vez que aumenta el número de pulsos codificados. Por ejemplo, si la longitud de subbanda es 32, ya que 32 es 2 elevado a la potencia de 5, es necesario un mínimo de 5 bits para hacer que todas las posiciones espectrales dentro de la subbanda sean los objetivos de codificación. Es decir, una unidad en esta subbanda es de 5 bits.
Si el número provisional de bits asignados calculado a partir de la energía de una subbanda es 33, el número de unidades asignado es 6, el número de bits asignados es 30, y los bits redundantes son 3 bits. Sin embargo, si se generan dos bits redundantes en la subbanda anterior, se agregan dos bits redundantes de la subbanda anterior al número provisional de bits asignados de esta subbanda y el número provisional de bits asignados se convierte en 35. Como resultado, el número de unidades es 7 y el número de bits asignados es 35. Es decir, los bits redundantes son 0 bits. Al repetir secuencialmente este procedimiento para todas las subbandas, es posible la asignación eficaz de unidades.
A continuación, se describirá un procedimiento de compresión de banda en la sección 105 de compresión de banda mostrado en la figura 1. Como procedimiento de compresión de banda, se describirá un caso como un ejemplo en el que se crean combinaciones de dos muestras en orden desde el lado de banda baja de la subbanda sometida a compresión de banda y se deja una muestra de cada combinación que tiene una mayor amplitud de valor absoluto.
Las figuras 2A a 2C son diagramas proporcionados para describir la compresión de banda. Las figuras 2A a 2C ilustran una situación en la que la subbanda sometida a compresión de banda n se extrae en una banda extendida, y se supone que la longitud de subbanda es W (n), el eje horizontal muestra una frecuencia y el eje vertical muestra un valor absoluto de la amplitud de un espectro.
La figura 2A ilustra un espectro de subbandas antes de la compresión de banda. En este ejemplo, se supone que un ancho de banda antes de la compresión de banda es W (n) = 8. La sección 105 de compresión de banda crea combinaciones de dos muestras en orden desde el lado de banda baja de los espectros de subbanda emitidos desde la sección 102 de división de subbanda y deja un espectro que tiene un mayor valor absoluto de amplitud de cada combinación. En el ejemplo de la figura 2a , de una combinación de espectros localizados en la primera y segunda posición, se selecciona el segundo espectro y se descarta el primer espectro. De manera similar, la sección 105 de compresión de banda selecciona un espectro mayor a partir de una combinación de las posiciones tercera y cuarta, una combinación de las posiciones quinta y sexta y una combinación de las posiciones séptima y octava respectivamente. Los resultados de selección son como se muestran en la figura 2B y se seleccionan cuatro espectros en las posiciones segunda, cuarta, quinta y octava.
A continuación, la sección 105 de compresión de banda comprime en banda los espectros seleccionados. La compresión de banda se realiza disponiendo estrechamente los espectros seleccionados en el lado de banda baja en el dominio de frecuencia. Como resultado, los espectros de subbanda comprimidos en banda se expresan en la figura 2C y el ancho de banda después de la compresión de banda se convierte en la mitad del ancho de banda antes de la compresión. Cuando también se considera un caso donde el ancho de banda antes de la compresión es un número impar, el ancho de subbandaW(n) después de la compresión de banda puede expresarse siguiendo la ecuación 2.
[2]
W ’(n)=(int)(W(n)/2)+W(n)%2 ...(Ecuación 2)
En la ecuación 2, (int) indica una función que descarta todos los dígitos a la derecha del punto decimal para hacer un número entero, % indica un operador para calcular un resto.
Por lo tanto, con cada subbanda sometida a compresión de banda en la banda extendida, es posible reducir el ancho de banda en la mitad, dejando los espectros que tienen un mayor valor absoluto de la amplitud de entre las combinaciones de dos muestras en orden desde el lado de banda baja.
A continuación, se describirá un procedimiento de cálculo de número de unidad en la sección 106 de recálculo de número de unidad mostrada en la figura 1. La sección 106 de recálculo de número de unidad es similar a la sección 104 de cálculo de número de unidad en la que se calcula el número de bits asignados con el fin de aproximarse al número provisional de bits asignados, pero es diferente porque mantiene el número de unidades calculadas en la sección 104 de cálculo de número de unidad en la subbanda sometida a compresión de banda y que reasigna los bits reducidos en la subbanda sometida a compresión de banda a la banda baja.
Con el fin de reasignar los bits reducidos en la subbanda sometida a compresión de banda para la banda baja, en primer lugar la sección 106 de recálculo de número de unidad confirma el número de bits asignados de la subbanda sometida a compresión de banda. Ya que el número de unidades es fijo y la longitud de subbanda se reduce por compresión de banda, el número de bits asignados puede reducirse. En este caso, ya que se ha descrito un caso en el que la longitud de subbanda se reduce a la mitad a través de la compresión de banda, el número de bits por unidad se reduce en 1. Cuando el número total de unidades de la subbanda sometida a compresión de banda es 10, el número de bits puede reducirse a 10.
Al agregar los bits que se han reducido con éxito al número provisional de bits asignados en las subbandas de banda baja, pueden asignarse más unidades a las subbandas de banda baja. En este caso, supóngase que los bits reducidos se agregan al número provisional de bits asignados en la subbanda más baja para simplificar. Como resultado, el número provisional de bits asignados aumenta en la subbanda de banda más baja y, por lo tanto, puede esperarse que aumente el número de unidades asignadas.
En lo sucesivo en el presente documento, los bits redundantes generados de esta subbanda se añaden secuencialmente al número provisional de bits asignados en las subbandas en el lado de banda alta y las unidades se reasignan. Al repetir esto hasta la subbanda inmediatamente antes de la subbanda sometida a compresión de banda, es posible reasignar unidades a todas las subbandas después de la compresión de banda.
La figura 3 muestra un diagrama proporcionado para describir la operación de la sección 106 de recálculo de número de unidad. La fila superior de la figura 3 (fila descrita como "subbanda") muestra una imagen de división de subbanda. Supóngase que una banda se divide en las subbandas 1 a M, siendo la subbanda 1 una subbanda en el lado de la banda más baja y siendo la subbanda M una subbanda en el lado de la banda más alta. Supóngase que las subbandas 1 a (kh-1) corresponden al lado de banda baja no sometido a la compresión de banda y las subbandas kh a M corresponden a subbandas cometidas a la compresión de banda.
La fila central (fila descrita como "salida de la sección de cálculo de número de unidad") muestra el número de unidades emitidas desde la sección 104 de cálculo de número de unidad. Como el número de unidades, supóngase que u (k), se asigna a la subbanda k mediante la sección 104 de cálculo de número de unidad.
La sección 106 de recálculo de número de unidad usa el u (k) calculado en la sección 104 de cálculo de número de unidad sin cambio para la subbanda kh a la subbanda M. Esto está destinado a mantener el número de pulsos para aproximar un espectro incluso después de comprimir un ancho de banda. De este modo, el ancho de banda se comprime mientras se mantiene el rendimiento aproximado del espectro en las subbandas comprimidas en banda, y de ese modo es posible reducir el número de bits codificados y convertir los bits reducidos en bits redundantes.
En la figura 3, la fila inferior (fila descrita como "salida de la sección de recálculo de número de unidad") muestra una imagen de salida de la sección 106 de recálculo de número de unidad. Ya que la sección 106 de recálculo de número de unidad usa la salida de la sección 104 de cálculo de número de unidad ya que es para la subbanda kh a la subbanda M, el número de unidades se mantiene en u (k). La sección 106 de recálculo de número de unidad puede usar bits redundantes para las subbandas en el lado de banda baja y calcular nuevamente u' (k). Esto permite aumentar la precisión de codificación de los espectros de banda baja, que son perceptivamente importantes, y por lo tanto pueden mejorar la calidad de sonido total.
Se ha descrito anteriormente un ejemplo donde se añaden todos los bits reducidos en las subbandas comprimidas en banda con el número provisional de bits asignados de la subbanda en el lado de banda más bajo, pero también es posible asignar de manera uniforme el número de bits asignados reducidos a subbandas cuyo número de bits asignados aún no se ha calculado y añadirlos al número provisional de bits asignados de estas subbandas. Como alternativa, se pueden agregar más bits a una subbanda que tiene mayor energía de subbanda. El procesamiento no siempre necesita realizarse en orden ascendente desde el lado de banda baja hasta el lado de banda alta.
Con la configuración descrita anteriormente, el aparato 100 de codificación de voz/audio comprime por banda cada subbanda en la banda extendida, reduce los bits codificados, reasigna los bits codificados reducidos a la banda baja como bits redundantes, y por lo tanto puede mejorar la calidad de sonido.
La figura 4 es un diagrama de bloques que ilustra una configuración del aparato 200 de decodificación de voz/audio de acuerdo con el Aspecto 1 de la presente invención. El número de unidades o el número de bits por unidad no se transmite y, por lo tanto, el número necesita calcularse en el lado del aparato de decodificación. Por esta razón, el aparato 200 de decodificación de voz/audio está provisto de una sección de cálculo de número de unidad y una sección de recálculo de número de unidad como en el caso del aparato de codificación. La configuración del aparato 200 de decodificación de voz/audio se describirá a continuación usando la figura 4.
La sección 201 de demultiplexación de código recibe los datos codificados, demultiplexa los datos codificados recibidos en datos codificados de energía de subbanda y datos codificados por transformada, emite los datos codificados de energía de subbanda a la sección 202 de decodificación de energía de subbanda y los datos codificados por transformada a la sección 205 de codificación/decodificación de transformada.
La sección 202 de decodificación de energía de subbanda decodifica los datos codificados de energía de subbanda emitidos desde la sección 201 de demultiplexación de código y emite la energía de subbanda cuantificada obtenida por la decodificación a la sección 203 de cálculo de número de unidad.
La sección 203 de cálculo de número de unidad calcula el número provisional de bits asignados y el número de unidades que usan la energía de subbanda cuantificada emitida desde la sección 202 de decodificación de energía de subbanda y emite el número provisional calculado de bits asignados y el número de unidades a la sección 204 de recálculo de número de unidad. Obsérvese que la sección 203 de cálculo de número de unidad es idéntica a la sección 104 de cálculo de número de unidad del aparato 100 de codificación de voz/audio y, por lo tanto, se omitirá su descripción detallada.
La sección 204 de recálculo de número de unidad calcula el número de unidades reasignadas basándose en el número provisional de bits asignados y el número de unidades emitidas desde la sección 203 de cálculo de número de unidad y emite el número calculado de unidades reasignadas a la sección 205 de codificación/decodificación de transformada. La sección 204 de recálculo de número de unidad es idéntica a la sección 106 de recálculo de número de unidad del aparato 100 de codificación de voz/audio, y por lo tanto se omitirá su descripción detallada.
La sección 205 de codificación/decodificación de transformada emite un resultado de decodificación para cada subbanda a la sección 206 de extensión de banda como un espectro comprimido de subbanda basándose en los datos codificados por transformada emitidos desde la sección 201 de demultiplexación de código y el número de unidades reasignadas emitido desde la sección 204 de recálculo de número de unidad. La sección 205 de codificación/decodificación de transformada adquiere el número de bits codificados necesarios para codificar a partir del número de unidades reasignadas y decodifica los datos codificados por transformada.
En una subbanda no sometida a la compresión de banda entre los espectros comprimidos de subbanda emitidos desde la sección 205 de codificación/decodificación de transformada, la sección 206 de extensión de banda emite el espectro comprimido de subbanda como es a la sección 207 de integración de subbanda como un espectro de subbanda. En una subbanda sometida a compresión de banda entre los espectros comprimidos de subbanda emitidos desde la sección 205 de codificación/decodificación de transformada, la sección 206 de extensión de banda extiende el espectro comprimido de subbanda a un ancho de la subbanda y emite el espectro extendido a la sección 207 de integración de subbanda como un espectro de subbanda.
De acuerdo con el presente aspecto, la sección 105 de compresión de banda del aparato 100 de codificación de voz/audio realiza la compresión de banda usando un procedimiento de crear combinaciones de dos muestras en orden desde el lado de banda baja de la subbanda comprimida por banda y dejando una muestra de un mayor valor absoluto de amplitud de cada combinación y, por lo tanto, la sección 206 de extensión de banda almacena cualquier otro espectro decodificado en una dirección par o impar, y de este modo puede obtener un espectro extendido para un ancho de banda original (ancho de banda antes de la compresión). En este caso, una desviación de posición de espectro de subbanda decodificado es un máximo de una muestra. Los detalles de la sección 206 de extensión de banda se describirán más adelante.
La sección 207 de integración de subbanda dispone estrechamente los espectros de subbanda emitidos desde la sección 206 de extensión de banda desde el lado de banda baja, los integra en un vector y emite el vector integrado a la sección 208 de transformación de frecuencia/tiempo como un espectro de señal decodificada.
La sección 208 de transformación de frecuencia/tiempo transforma el espectro de señal decodificada que es una señal de dominio de frecuencia emitida desde la sección 207 de integración de subbanda en una señal de dominio de tiempo y emite la señal decodificada.
A continuación, se describirá el procedimiento de extensión de banda en la sección 206 de extensión de banda mostrado en la figura 4. La figura 5 muestra un diagrama proporcionado para describir la extensión de banda. Sin embargo, en la figura 5, como en el caso de la figura 2, se supone que la longitud de subbanda es W (n), el eje horizontal muestra una frecuencia, el eje vertical muestra un valor absoluto de amplitud de un espectro y se describirá un caso donde se extiende el espectro comprimido de subbanda mostrado en la figura 2C.
Un espectro comprimido de subbanda localizado en la posición 1 después de la compresión de banda existía en la posición 1 o en la posición 2 antes de la compresión. De manera similar, un espectro comprimido de subbanda localizado en la posición 2 después de la compresión de banda existía en la posición 3 o en la posición 4 antes de la compresión. De manera similar, el espectro comprimido de subbanda existente en la posición 3 y la posición 4 después de la compresión de banda existía en la posición 5 o en la posición 6, y en la posición 7 o en la posición 8 respectivamente.
Ya que la sección 206 de extensión de banda no puede saber en qué posición existía un espectro después de la compresión de banda antes de la compresión de banda, la sección 206 de extensión de banda extiende el espectro después de la compresión de banda colocando el espectro en una posición cualquiera. En el ejemplo de la figura 5, el espectro comprimido de subbanda en la posición 1 después de la compresión de banda se coloca en la posición 1 después de la extensión, el espectro comprimido de subbanda en la posición 2 después de la compresión de banda se coloca en la posición 3 después de la extensión, y así sucesivamente, es decir, los espectros comprimidos de subbanda se colocan secuencialmente en direcciones impares. Como resultado, solo el espectro localizado en la posición de espectro 5 después de la extensión se coloca en una posición correcta y otros espectros se colocan en posiciones obtenidas por una muestra.
Con la configuración descrita anteriormente, los datos codificados pueden decodificarse por el aparato 200 de decodificación de voz/audio.
De esta manera, de acuerdo con el Aspecto 1, el aparato 100 de codificación de voz/audio crea combinaciones de dos muestras de espectro de subbanda en orden desde el lado de banda baja en una subbanda sometida a compresión de banda, selecciona un espectro que tiene un mayor valor absoluto de amplitud de cada combinación, dispone estrechamente el espectro seleccionado por el lado de banda baja en el dominio de frecuencia y, por lo tanto, puede diluir los espectros perceptualmente sin importancia y comprimir la banda. Además, de este modo es posible reducir el número de bits asignados necesarios para la codificación de transformada de un espectro.
De acuerdo con el Aspecto 1, el número de bits asignados reducidos en la subbanda sometida a compresión de banda se reasigna para la codificación de transformada del espectro en una banda más baja que la banda extendida, y es posible de este modo expresar perceptualmente el espectro importante con más precisión y mejorar de este modo la calidad de sonido.
Se ha descrito un caso en el presente aspecto donde en el aparato 100 de codificación de voz/audio, la sección 104 de cálculo de número de unidad calcula el número de unidades y la sección 106 de recálculo de número de unidad calcula el número de unidades reasignadas. Sin embargo, en la presente invención, como se muestra en la figura 6, las funciones de la sección 104 de cálculo de número de unidad y de la sección 106 de recálculo de número de unidad como el aparato 110 de codificación de voz/audio pueden integrarse en la sección 111 de cálculo de número de unidad.
Se ha descrito un caso en el presente aspecto donde en el aparato 200 de decodificación de voz/audio, la sección 203 de cálculo de número de unidad calcula el número de unidades y la sección 204 de recálculo de número de unidad calcula el número de unidades reasignadas. Sin embargo, en la presente invención, como se muestra en la figura 7, las funciones de la sección 203 de cálculo de número de unidad y de la sección 204 de recálculo de número de unidad como el aparato 210 de decodificación de voz/audio pueden integrarse en la sección 211 de cálculo de número de unidad.
Se ha descrito un caso en el presente aspecto donde como un procedimiento de compresión de banda, se crean combinaciones de dos muestras en orden desde el lado de banda baja de una subbanda sometida a compresión de banda y se deja una muestra que tiene un mayor valor absoluto de amplitud de cada combinación, pero también pueden usarse otros procedimientos de compresión de banda. Por ejemplo, sin limitarse a combinaciones de dos muestras, pueden crearse combinaciones de tres muestras o más y puede dejarse una muestra que tenga el mayor valor absoluto de amplitud de cada combinación. En este caso, es posible aumentar el número de bits que pueden reducirse por compresión de banda.
Por otra parte, cuanto mayor es la banda, más muestras pueden combinarse. En lugar de crear combinaciones en orden desde el lado de banda baja, también pueden crearse combinaciones en orden desde el lado de banda alta.
(Aspecto 2)
La figura 8 es un diagrama de bloques que ilustra una configuración del aparato de codificación de voz/audio 120 de acuerdo con el Aspecto 2 de la presente invención. La configuración del aparato de codificación de voz/audio 120 se describirá a continuación usando la figura 8. La figura 8 es diferente de la figura 1 en que la sección 106 de recálculo de número de unidad se elimina, la sección 104 de cálculo de número de unidad se cambia a la sección 111 de cálculo de número de unidad y se agrega la sección 121 de atenuación de energía de subbanda.
La sección 121 de atenuación de energía de subbanda hace que se atenúe la energía de subbanda de la subbanda sometida a compresión de banda de la energía de subbanda cuantificada emitida desde la sección 103 de cálculo de energía de subbanda y emite la energía de subbanda atenuada a la sección 111 de cálculo de número de unidad.
La razón por la que se hace que se atenúe la energía de subbanda de la subbanda sometida a compresión de banda se describirá en el presente documento. Si la energía de subbanda no se atenúa, como se describe en el Aspecto 1, los bits de asignación provisionales se determinan mediante la sección 111 de cálculo de número de unidad basándose en esta energía de subbanda, pero si la banda se reduce, por ejemplo, a la mitad de la compresión de banda, el número de bits de una unidad se reduce en un bit y, por lo tanto, se generan bits redundantes. Sin embargo, ya que la sección 106 de recálculo de número de unidad no está presente, los bits redundantes no siempre pueden reasignarse adecuadamente desde una subbanda en el lado de banda alta a una subbanda en el lado de banda baja y pueden desperdiciarse.
Por lo tanto, la sección 121 de atenuación de energía de subbanda hace que la energía de subbanda se atenúe con respecto a la subbanda sometida a compresión de banda y por lo tanto evita que se generen bits redundantes inútiles. Sin embargo, incluso cuando la longitud de subbanda se reduce a la mitad a través de la compresión de banda, quedan espectros principales y, por lo tanto, cortar la energía de subbanda a la mitad puede provocar una atenuación excesiva. Por lo tanto, la sección 121 de atenuación de energía de subbanda puede, por ejemplo, multiplicar la energía de subbanda por una tasa fija tal como 0,8 o restar una constante, por ejemplo, 3,0 de la energía de subbanda.
La figura 9 es un diagrama de bloques que ilustra una configuración del aparato 220 de decodificación de voz/audio de acuerdo con el Aspecto 2 de la presente invención. En lo sucesivo en el presente documento, la configuración del aparato 220 de codificación de voz/audio se describirá usando la figura 9. La figura 9 es diferente de la figura 4 en que la sección 204 de recálculo de número de unidad se elimina, la sección 104 de cálculo de número de unidad se cambia a la sección 211 de cálculo de número de unidad, y se agrega la sección 221 de atenuación de energía de subbanda.
La sección 221 de atenuación de energía de subbanda provoca que se atenúe la energía de subbanda de la subbanda sometida a compresión de banda de la energía de subbanda emitida desde la sección 202 de decodificación de energía de subbanda y emite la energía de subbanda atenuada a la sección 211 de cálculo de número de unidad. Sin embargo, la sección 221 de atenuación de energía de subbanda realiza la atenuación bajo la misma condición que la sección 121 de atenuación de energía de subbanda del aparato 120 de codificación de voz/audio.
Por lo tanto, de acuerdo con el Aspecto 2, el aparato 120 de codificación de voz/audio hace que la energía de subbanda de la subbanda sometida a compresión de banda se atenúe de tal manera que los bits de asignación provisionales tienen los mismos valores que aquellos en el lado de codificación.
(Aspecto 3)
De acuerdo con el Aspecto 1, la posición de espectro de la subbanda sometida a compresión de banda después de la extensión puede cambiar desde la de la subbanda antes de la compresión de banda. Por lo tanto, para al menos un espectro cuyo valor absoluto de amplitud que tiene una gran influencia en la percepción dentro de una subbanda es un espectro máximo (en lo sucesivo en el presente documento denominado "espectro con amplitud máxima"), la posición de espectro puede adaptarse con el fin de no cambiar antes y después de la compresión de banda.
Se describirá un caso en el Aspecto 3, donde se corrige la posición de un espectro con la amplitud máxima después de la decodificación en la subbanda sometida a compresión de banda.
Las configuraciones de un aparato de codificación de voz/audio y un aparato de decodificación de voz/audio de acuerdo con el Aspecto 3 son similares a las configuraciones mostradas en el Aspecto 1 en la figura 1 y en la figura 4, y son diferentes solo en las funciones de la sección 105 de compresión de banda y de la sección 206 de extensión de banda, y por lo tanto solo se describirán las diferentes funciones haciendo referencia a la figura 1 y a la figura 4. Además, las configuraciones se describirán a continuación usando la figura 2A, la figura 2B y la figura 5.
Haciendo referencia a la figura 1, la sección 105 de compresión de banda busca un espectro con amplitud máxima a partir de los espectros de subbanda emitidos desde la sección 102 de división de subbanda. La sección 105 de compresión de banda calcula la información de corrección de posición que se supone que es 0 si el espectro con amplitud máxima se localiza en una dirección de número impar y se supone que es 1 si el espectro con la amplitud máxima se localiza en una dirección de número par y emite la información de corrección de posición a la sección 107 de codificación de transformada. En la figura 2B, ya que el espectro con amplitud máxima es un espectro localizado en la posición 2 (dirección de número par), la sección 105 de compresión de banda calcula la información de corrección de posición como 1. La información de corrección de posición calculada se codifica por la sección 107 de codificación de transformada y se transmite al aparato 200 de decodificación de voz/audio.
Haciendo referencia a la figura 4, en la subbanda no sometida a compresión de banda del espectro comprimido de subbanda emitido desde la sección 205 de codificación/decodificación de transformada, la sección 206 de extensión de banda supone el espectro comprimido de subbanda como un espectro de subbanda como es y emite el espectro comprimido de subbanda a la sección 207 de integración de subbanda. En la subbanda sometida a compresión de banda del espectro comprimido de subbanda emitido desde la sección 205 de codificación/decodificación de transformada, la sección 206 de extensión de banda dispone el espectro con la amplitud máxima basándose en la información de corrección de posición decodificada, extiende el espectro comprimido de subbanda restante al ancho de subbanda y emite el espectro comprimido de subbanda extendida a la sección 207 de integración de subbanda como un espectro de subbanda. En este caso, ya que la información de corrección de posición es 1, el espectro con la amplitud máxima se dispone en una dirección de número par. Este resultado se muestra en la figura 10. Puede verse a partir de una comparación con la figura 2A que el espectro con amplitud máxima localizado en la posición 2 está dispuesto en una posición correcta. Obsérvese que el espectro que no sea el espectro con la amplitud máxima puede desplazarse un máximo de una muestra.
Por lo tanto, disponiendo un espectro con la amplitud máxima basándose en la información de corrección de posición, es posible mantener la posición de espectro del espectro con amplitud máxima antes y después de la compresión de banda.
Obsérvese que cuando una banda se reduce a la mitad, necesita asignarse un bit a la información de corrección de posición, y por lo tanto cuando el número de unidades es 5, el número final de bits a reducir es 4 a partir de los cinco bits reducidos y un bit correspondiente a la información de corrección de posición a aumentar. Cuando una banda se comprime a 1/4 y el número de unidades es 5, el número final de bits a reducir es 8 a partir de los diez bits reducidos y dos bits correspondientes a la información de corrección de posición a aumentar.
Por lo tanto, de acuerdo con el Aspecto 3, el aparato 100 de codificación de voz/audio calcula 0 si el espectro con la amplitud máxima de la subbanda sometida a compresión de banda se localiza en una dirección de número impar y calcula 1 si el espectro con la amplitud máxima de la subbanda sometida a compresión de banda se localiza en una dirección de número par, transmite el resultado del cálculo al aparato 200 de decodificación de voz/audio, y el aparato 200 de decodificación de voz/audio dispone el espectro con la amplitud máxima basándose en la información de corrección de posición, y de este modo puede mantener la posición de espectro del espectro con la amplitud máxima lo que tiene una gran influencia en la percepción dentro de una subbanda antes y después de la compresión de banda.
En el presente aspecto, dicho cálculo se ha descrito como que la información de corrección de posición se supone que es 0 si el espectro con amplitud máxima se localiza en una dirección de número impar y se supone que es 1 si el espectro con amplitud máxima se localiza en una dirección de número par, pero la invención actual no se limita a esto. Por ejemplo, puede suponerse que la información de corrección de posición es 1 si el espectro con amplitud máxima se localiza en una dirección de número impar y se supone que 0 si el espectro con amplitud máxima se localiza en una dirección de número par. Cuando la subbanda sometida a compresión de banda se comprime a 1/3, 1/4 o similares, se calcula la información de corrección de posición asociada con la misma.
(Aspecto 4)
Se ha descrito un caso en el Aspecto 1 donde, como un procedimiento de compresión de una banda se crean combinaciones de dos muestras en orden desde el lado de banda baja de una subbanda sometida a compresión de banda y se deja una muestra que tiene un mayor valor absoluto de amplitud de cada combinación. Sin embargo, en un caso donde un espectro que tiene la siguiente amplitud más alta después del espectro con la amplitud máxima (en lo sucesivo en el presente documento denominado "siguiente espectro más alto") es adyacente al espectro con la amplitud máxima, el siguiente espectro más alto puede excluirse de los objetivos de codificación. Se confirma a partir de una observación que hay estocásticamente muchos casos en una banda extendida donde el siguiente espectro más alto es adyacente a un espectro con amplitud máxima.
Por lo tanto, el Aspecto 4 describirá un caso donde se cambia la disposición del espectro de una subbanda sometida a compresión de banda de acuerdo con un procedimiento predeterminado (en lo sucesivo en el presente documento denominado "intercalado") de tal manera que el espectro con la amplitud máxima y el siguiente espectro más alto no son adyacentes entre sí.
La figura 11 es un diagrama de bloques que ilustra una configuración del aparato 130 de codificación de voz/audio de acuerdo con el Aspecto 4 de la presente invención. En lo sucesivo en el presente documento, la configuración del aparato 130 de codificación de voz/audio se describirá usando la figura 11. Sin embargo, la figura 11 es diferente de la figura 6 en que se agrega el intercalador 131.
El intercalador 131 intercala la disposición del espectro de subbanda emitido desde la sección 102 de división de subbanda y emite el espectro de subbanda intercalado a la sección 105 de compresión de banda.
Las figuras 12A a 12D muestran un diagrama proporcionado para describir el intercalado. Las figuras 12A a 12D muestran una situación en la que se extrae una subbanda n sometida a compresión de banda, y se supone que la longitud de subbanda está representada por W (n), el eje horizontal muestra una frecuencia y el eje vertical muestra un valor absoluto de amplitud de un espectro.
La figura 12A muestra un espectro antes de la compresión de banda, y se supone que el espectro en la posición 2 es un espectro con amplitud máxima y el espectro en la posición 1 es el siguiente espectro más alto. En este caso, si se selecciona un espectro usando el procedimiento mostrado en el Aspecto 1, el espectro en la posición 2 se selecciona como se muestra en la figura 12B y el siguiente espectro más alto en la posición 1 se excluye de los objetivos de codificación.
La figura 12C ilustra un espectro después de la intercalación. Más específicamente, la figura 12C ilustra una situación en la que las direcciones de número impar se vuelven a disponer en el lado de banda baja del espectro y las direcciones de número par se vuelven a disponer en el lado de banda alta del espectro. Op (x) (x = 1 a 8) en la figura indica que la posición de espectro de subbanda antes de la intercalación es x.
Por lo tanto, el intercalador 131 intercala la disposición del espectro en las subbandas sometidas a compresión de banda, por lo que la posición del espectro con la amplitud máxima se convierte en 5, la posición del siguiente espectro más alto se convierte en 1, y los dos espectros se separan uno de otro. Por esta razón, incluso cuando la compresión de banda se realiza usando el procedimiento mostrado en el Aspecto 1, el espectro con la amplitud máxima y el siguiente espectro más alto pueden codificar objetivos como se muestra en la figura 12D. Sin embargo, el desplazamiento en las posiciones de espectro después de la decodificación se convierte en un máximo de dos muestras en este ejemplo.
La figura 13 es un diagrama de bloques que ilustra una configuración del aparato 230 de decodificación de voz/audio de acuerdo con el Aspecto 4 de la presente invención. A continuación, la configuración del aparato 230 de decodificación de voz/audio se describirá usando la figura 13. Sin embargo, la figura 13 es diferente de la figura 7 en que se agrega el desintercalador 231.
En una subbanda sometida a compresión de banda del espectro de subbanda separado para cada subbanda emitida desde la sección 206 de extensión de banda, el desintercalador 231 desintercala la disposición del espectro de subbanda y emite el espectro de subbanda en la disposición desintercalada a la sección 207 de integración de subbanda.
Por lo tanto, en el Aspecto 4, el aparato 130 de codificación de voz/audio intercala la disposición del espectro de una subbanda sometida a compresión de banda, realiza la compresión de banda y, por lo tanto, puede separar ambos espectros uno de otro incluso cuando el siguiente espectro más alto es adyacente al espectro con la amplitud máxima, y evita que el siguiente espectro más alto se excluya por compresión de banda.
Obsérvese que el presente aspecto puede combinarse opcionalmente con uno de los Aspectos 1 a 3. A este respecto, cuando el procedimiento de codificar la información de corrección de posición con respecto a un espectro con la amplitud máxima del Aspecto 3 se combina con el presente aspecto, es posible codificar con precisión la posición de espectro con la amplitud máxima incluso cuando se realiza el intercalado.
(Aspecto 5)
El Aspecto 4 ha descrito un procedimiento para evitar, cuando el intercalado hace que el espectro con la amplitud máxima y el siguiente espectro más alto sean adyacentes entre sí, que el siguiente espectro más alto se excluya de los objetivos de codificación. En el Aspecto 5 de la presente invención, se dará una descripción de un procedimiento para evitar que el siguiente espectro más alto se excluya de los objetivos de codificación excluyendo la proximidad de un espectro con la amplitud máxima de los objetivos de compresión de banda.
Las configuraciones de un aparato de codificación de voz/audio y un aparato de decodificación de voz/audio de acuerdo con el Aspecto 5 son similares a las configuraciones mostradas en el Aspecto 1 en la figura 1 y en la figura 4 y solo son diferentes en las funciones de la sección 105 de compresión de banda y de la sección 206 de extensión de banda, y por lo tanto se describirán diferentes funciones usando la figura 1 y la figura 4.
Haciendo referencia a la figura 1, la sección 105 de compresión de banda busca un espectro con amplitud máxima a partir de los espectros de subbanda emitidos desde la sección 102 de división de subbanda. Cuando hay una pluralidad de espectros con amplitud máxima, un espectro en el lado de banda baja se designa como un espectro con amplitud máxima. La sección 105 de compresión de banda extrae el espectro buscado con la amplitud máxima y los espectros en la proximidad del mismo y los designa como espectros no sometidos a compresión de banda, es decir, algunos de los espectros comprimidos de subbanda. Por ejemplo, supóngase que una muestra antes y después del espectro con amplitud máxima, es decir, se excluyen tres muestras de los objetivos de compresión de banda.
La sección 105 de compresión de banda realiza la compresión de banda en los espectros más cercanos del lado de banda baja que los espectros no sometidos a compresión de banda y dispone el resultado de compresión de banda desde el lado de banda baja de los espectros comprimidos de subbanda. La sección 105 de compresión de banda dispone los espectros no sometidos a compresión de banda a continuación del lado de banda alta del espectro comprimido de subbanda. A continuación, la sección 105 de compresión de banda realiza la compresión de banda en los espectros más cercanos al lado de banda alta que los espectros que no sometidos a compresión de banda y dispone el resultado de compresión de banda a continuación del lado de banda alta del espectro comprimido de subbanda.
La realización de tal procesamiento por la sección 105 de compresión de banda hace que sea posible obtener un espectro comprimido de subbanda con la proximidad del espectro con la amplitud máxima excluido del objetivo de compresión de banda y hacer que el espectro con la amplitud máxima y el siguiente espectro más alto sean los objetivos de codificación. Si la posición de espectro con la amplitud máxima después de la extensión no se expresa con precisión, no hay información a enviar específicamente al aparato 200 de decodificación de voz/audio con respecto a este procedimiento de compresión de banda.
Haciendo referencia a la figura 4, la sección 206 de extensión de banda busca un valor máximo de amplitud del espectro comprimido de subbanda emitido desde la sección 205 de codificación/decodificación de transformada. Cuando se detecta una pluralidad de valores máximos de amplitud, se designa un espectro en el lado de banda baja como un espectro con la amplitud máxima como en el caso del aparato 100 de codificación de voz/audio. Como resultado, la sección 206 de extensión de banda designa un espectro en la proximidad del espectro con la amplitud máxima como un espectro no sometido a compresión de banda. En este caso, el espectro con la amplitud máxima y una muestra antes y después del espectro, es decir, se extraen un total de tres muestras como espectros que no sometidos a compresión de banda.
A continuación, la sección 206 de extensión de banda extiende un espectro comprimido de subbanda más cerca del lado de banda baja que el espectro no sometido a compresión de banda. La extensión se realiza disponiendo secuencialmente los espectros del lado de banda baja de los espectros comprimidos de subbanda en direcciones de números impares y repitiendo la disposición hasta inmediatamente antes del espectro no sometido a compresión de banda. La sección 206 de extensión de banda dispone el espectro no sometido a compresión de banda a continuación del lado de banda alta el espectro de subbanda extendida en el lado de banda baja. A continuación, la sección 206 de extensión de banda extiende el espectro comprimido de subbanda más cerca del lado de banda alta que el espectro no sometido a compresión de banda y dispone el espectro de subbanda extendida en el lado de banda alta del espectro no sometido a compresión de banda.
La realización de tal procesamiento por la sección 206 de extensión de banda hace posible extender el espectro comprimido de subbanda con la proximidad del espectro con la amplitud máxima excluida de los objetivos de compresión de banda.
A continuación, se describirá un procedimiento de compresión de banda mediante la sección 105 de compresión de banda mencionada anteriormente. La figura 14 ilustra un ejemplo de compresión de banda. En este caso, se supone que la longitud de subbanda es 10 y los valores de amplitud son 8, 3, 6, 2, 10, 9, 5, 7, 4 y 1 desde el lado de banda baja.
La sección 105 de compresión de banda busca en primer lugar un espectro con una amplitud máxima de espectros de subbanda y extrae un espectro con amplitud máxima y una muestra antes y después del espectro con amplitud máxima, un total de tres muestras como espectros no sometidos a compresión de banda. En este ejemplo, ya que un espectro en la posición 5 es un máximo, los espectros en las posiciones 4, 5 y 6 son espectros no sometidos a compresión de banda. Es decir, los espectros en las posiciones 1, 2 y 3 en el lado de banda baja y los espectros en las posiciones 7, 8, 9 y 10 en el lado de banda alta son espectros sometidos a compresión de banda. Como resultado, se seleccionan los espectros en las posiciones 1 y 3, se disponen los espectros en las posiciones 4, 5 y 6 que son distintos de los objetivos de compresión de banda a continuación de los mismos, se seleccionan los espectros en las posiciones 8 y 10 a continuación de los mismos, y de este modo se forma un espectro comprimido de subbanda como se muestra en la figura 14.
A continuación, se describirá el procedimiento de extensión de banda por la sección 206 de extensión de banda mencionado anteriormente. La figura 15 ilustra un ejemplo de extensión de banda. La sección 206 de extensión de banda busca un valor máximo de amplitud de un espectro comprimido de subbanda. En este ejemplo, un espectro en la posición 4 es un espectro con amplitud máxima y, por lo tanto, los espectros en las posiciones 3, 4 y 5 son espectros no sometidos a compresión de banda. Es decir, puede verse que los espectros en las posiciones 1 y 2 en el lado de banda baja y los espectros en las posiciones 6 y 7 en el lado de banda alta son espectros comprimidos de banda.
La sección 206 de extensión de banda dispone los espectros comprimidos de subbanda en las posiciones 1 y 2 en las posiciones 1 y 3 de los espectros de subbanda, respectivamente. A continuación, la sección 206 de extensión de banda dispone los espectros no sometidos a compresión de banda en las posiciones 5, 6 y 7 de los espectros de subbanda a continuación de los mismos. Además, la sección 206 de extensión de banda dispone los espectros comprimidos de subbanda en las posiciones 6 y 7 en las posiciones 8 y 10 de los espectros de subbanda. Con un procedimiento de este tipo, es posible extender un espectro comprimido de subbanda comprimido en banda excluyendo el espectro con la amplitud máxima y la proximidad del mismo de los objetivos de compresión de banda.
Por lo tanto, de acuerdo con el Aspecto 5, el aparato 100 de codificación de voz/audio excluye un espectro con amplitud máxima y los espectros en la proximidad del mismo en una subbanda sometida a compresión de banda de los objetivos de compresión de banda y comprime en banda otros espectros, y de este modo puede evitar, incluso cuando el siguiente espectro más alto es adyacente al espectro con la amplitud máxima, que se excluya el siguiente espectro más alto por compresión de banda.
En el presente aspecto, la posición de espectro con la amplitud máxima después de la extensión puede no ser una posición precisa, pero es posible disponer el espectro con la amplitud máxima en una posición precisa codificando y transmitiendo la información de corrección de posición descrita en el Aspecto 2
(Aspecto 6)
En general, a menudo se da el caso de que un espectro perceptualmente importante tiene una gran amplitud y se genera consecutivamente a sustancialmente la misma frecuencia durante un largo período de tiempo que es un tiempo predeterminado o más largo. Las vocales en el habla humana tienen esta característica, y esta característica puede observarse en muchos casos con una banda alta generada por instrumentos musicales distintos del habla, aunque no es comparable con una vocal. Aprovechando esta característica, extrayendo espectros subjetivamente importantes en una trama anterior y codificando exclusivamente solo bandas periféricas a los espectros como objetivos de codificación en la trama actual, es posible codificar los espectros perceptualmente importantes de manera eficaz.
En el espectro de subbandas que es la señal original, la cantidad de bits codificados del espectro que se ha emitido de manera estable para varias tramas puede fluctuar trama por trama junto con la fluctuación de la energía de subbanda, provocando un fenómeno que codifica éxito o fallo trama por trama. En este caso, la claridad de la voz decodificada puede degradarse y la voz se vuelve ruidosa.
Por lo tanto, en el Aspecto 6 de la presente invención, se dará una descripción de una configuración por la que puede realizarse una codificación más eficaz no asignando todos los espectros de una subbanda en una banda extendida como objetivos de codificación, sino asignando solo bandas periféricas de un espectro perceptualmente importante como objetivos de codificación.
La figura 16 es un diagrama de bloques que ilustra una configuración del aparato 140 de codificación de voz/audio de acuerdo con el Aspecto 6 de la presente invención. En lo sucesivo en el presente documento, la configuración del aparato 140 de codificación de voz/audio se describirá usando la figura 16. Sin embargo, la figura 16 es diferente de la figura 1 en que la sección 106 de recálculo de número de unidad y la sección 105 de compresión de banda se eliminan, la sección 104 de cálculo de número de unidad se cambia a la sección 141 de cálculo de número de unidad, la sección 107 de codificación de transformada se cambia a la sección 142 de codificación de transformada, la sección 108 de multiplexación se cambia a la sección 145 de multiplexación y se agregan la sección 143 de almacenamiento de resultados de codificación de transformada y la sección 144 de ajuste de banda objetivo.
La sección 141 de cálculo de número de unidad calcula el número provisional de bits asignados que se asignan a cada subbanda basándose en la energía de subbanda emitida desde la sección 103 de cálculo de energía de subbanda. La sección 141 de cálculo de número de unidad adquiere una longitud de subbanda de una banda objetivo de codificación de codificación de transformada basándose en la información de subbanda limitada de banda emitida desde la sección 144 de ajuste de banda objetivo que se describirá más adelante. Ya que el número de unidades puede calcularse a partir de la longitud de subbanda adquirida, la sección 141 de cálculo de número de unidad calcula el número de bits codificados con el fin de aproximarse al número provisional de bits asignados. La sección 141 de cálculo de número de unidad emite la información equivalente a la cantidad de bits codificados calculada para transformar la sección 142 de codificación como el número de unidades. Los bits se asignan básicamente de tal manera que cuanto mayor es la energía de subbanda E [n], más bits se asignan. Sin embargo, los bits se asignan en una base de unidad y el número de bits necesarios para la unidad depende de la longitud de subbanda. Es decir, incluso cuando el número provisional de bits asignados es el mismo, si la longitud de subbanda es pequeña, el número de bits necesarios para la unidad es pequeño y pueden usarse más unidades. Cuando pueden usarse más unidades, pueden codificarse más espectros o puede aumentarse la precisión de la amplitud.
La sección 142 de codificación de transformada codifica el espectro de subbanda emitido desde la sección 102 de división de subbanda a través de una codificación de transformada usando el número de unidades emitidas desde la sección 141 de cálculo de número de unidad y la información de subbanda limitada de banda emitida desde la sección 144 de ajuste de banda objetivo que se describirá más adelante. Los datos codificados por transformada codificada se emiten a la sección 145 de multiplexación. La sección 142 de codificación de transformada decodifica los datos codificados por transformada y emite el espectro decodificado a la sección 143 de almacenamiento de resultados de codificación de transformada como el espectro de subbanda decodificado. En el momento de la codificación, la sección 142 de codificación de transformada adquiere una posición de espectro inicial, una posición de espectro final y una longitud de subbanda o similares de una banda a codificar a partir del número de unidades emitidas desde la sección 141 de cálculo de número de unidad y la información de subbanda limitada de banda emitida desde la sección 144 de ajuste de banda objetivo, y realiza la codificación de transformada. En lo sucesivo en el presente documento, una subbanda objetivo de codificación más corta que una longitud de subbanda normal ajustada por la sección 144 de ajuste de banda objetivo se denominará una "banda limitada" y cuando todos los espectros dentro de una subbanda son objetivos de codificación, los espectros se denominarán "banda completa". La codificación eficaz es posible cuando se usa un esquema de codificación de transformada tal como FPC, AVQ o LVQ como un esquema de codificación de transformada. Obsérvese que los espectros en el exterior de la banda limitada se excluyen de los objetivos de codificación, por lo que no se codifican mediante la codificación de transformada. En este caso, se supone que la amplitud de todos los espectros en el exterior de la banda limitada en los espectros de la subbanda decodificados, es 0.
La sección 143 de almacenamiento de resultados de codificación de transformada almacena información de espectro de subbanda decodificada emitida desde la sección 142 de codificación de transformada. En este caso, por simplicidad de la descripción, se supone que la sección 143 de almacenamiento de resultados de codificación de transformada almacena solo información en un espectro con amplitud máxima en la subbanda (espectro con un valor absoluto de amplitud). La sección 143 de almacenamiento de resultados de codificación de transformada supone la posición de espectro almacenada como la información de espectro de la trama anterior y emite la posición de espectro almacenado a la sección 144 de ajuste de banda objetivo en una trama siguiente a la trama almacenada. Obsérvese que cuando hay pocos bits y el número de unidades se convierte en 0 y cuando no se realiza la codificación de transformada, la información de espectro se realiza para indicar que los espectros no están almacenados. Por ejemplo, la información de espectro en la trama anterior puede ajustarse a -1.
La sección 144 de ajuste de banda objetivo genera la información de subbanda limitada de banda usando la información de espectro en la trama anterior emitida desde la sección 143 de almacenamiento de resultados de codificación de transformada y el espectro de subbanda emitido desde la sección 102 de división de subbanda, y emite la información de subbanda limitada de banda a la sección 141 de cálculo de número de unidad y a la sección 142 de codificación de transformada. La información de subbanda limitada de banda puede ser cualquier información que al menos identifique una posición de espectro inicial y una posición de espectro final de una banda a codificar y una longitud de subbanda de la banda a codificar.
La sección 144 de ajuste de banda objetivo emite un indicador de limitación de banda que indica si se debe limitar o no una subbanda a la sección 145 de multiplexación. Supóngase en este caso que la limitación de banda se realiza cuando el indicador de limitación de banda es 1 y se supone que toda la banda es un objetivo de codificación cuando el indicador de limitación de banda es 0.
La sección de multiplexación 145 multiplexa los datos codificados de energía de subbanda emitidos desde la sección 103 de cálculo de energía de subbanda, los datos codificados por transformada emitidos desde la sección 142 de codificación de transformada y el indicador de limitación de banda emitido desde la sección 144 de ajuste de banda objetivo y emite el resultado de multiplexación como los datos codificados.
Con la configuración descrita anteriormente, el aparato 140 de codificación de voz/audio puede generar datos codificados limitados por banda usando el resultado de codificación de transformada en la trama anterior.
A continuación, se describirá el procedimiento de ajuste de banda objetivo por la sección 144 de ajuste de banda objetivo mostrada en la figura 16.
La sección 144 de ajuste de banda objetivo determina si todos los espectros incluidos en la subbanda a codificar debería ser un objetivo de codificación de transformada o los espectros incluidos en la banda limitada a la periferia de un espectro perceptualmente importante deberían ser objetivos de codificación de transformada. El procedimiento para determinar si un espectro es o no un espectro perceptivamente importante se ilustrará usando a continuación un procedimiento simple.
Entre los espectros de subbanda, un espectro con amplitud máxima se considera perceptivamente importante. En la trama actual, si un espectro con la amplitud máxima entre espectros de subbanda está dentro de una banda cercana al espectro con la amplitud máxima en la trama anterior, es posible determinar que el espectro perceptualmente importante es temporalmente continuo. En tal caso, el intervalo de codificación puede reducirse a solo una banda periférica del espectro perceptualmente importante en la trama anterior.
Por ejemplo, en una n-ésima subbanda, se supone que la posición del espectro perceptualmente importante en la trama anterior es P [t-1, n]. Cuando el ancho de banda después de la limitación de objetivo de codificación es WL [n], una posición de espectro inicial de una banda objetivo de codificación después de la limitación de banda se expresa mediante P [t-1, n] - (int) (WL [n]/2) y una posición de espectro final se expresa mediante P [t-1, n] (int) (WL [n])/2). Sin embargo, suponiendo que W l [n] representa un número impar e (int) representa en este caso un procedimiento de descartar un punto decimal. En este caso, si la longitud de subbanda W [n] es 100 y WL [n] es 31, el número mínimo de bits necesarios para expresar la posición de un espectro puede reducirse de 7 a 5.
WL[n] se describirá como predeterminado para cada subbanda, pero también puede ser variable de acuerdo con la característica del espectro de subbanda. Por ejemplo, hay un procedimiento que aumenta WL [n] cuando la energía de subbanda es grande y disminuye WL [n] cuando un cambio en la energía de subbanda en la trama t-1 y la energía de subbanda en la trama t es pequeña.
Aunque existe una relación de W [n-1] < W [n] en la longitud de subbanda W [n], el ancho de banda limitado WL [n] no necesita estar restringido por dicha relación. Cuando la posición de espectro inicial o la posición de espectro final de una banda limitada está en el exterior del intervalo de la subbanda original, la posición de espectro inicial de la subbanda original puede ser la posición de espectro inicial de la banda limitada o la posición de espectro final de la subbanda original puede ser la posición de espectro final de la banda limitada, y WL [n] puede no cambiarse.
Cuando la banda limitada está determinada solo por un resultado de codificación de transformada en una trama anterior, si un espectro subjetivamente importante se mueve al exterior de la banda limitada, existe el riesgo de que el espectro no se codifique y alguna banda subjetivamente sin importancia pueda continuar para codificarse como una banda limitada. Sin embargo, como se describe en el presente ejemplo, al determinar si existe o no un espectro con la amplitud máxima de una subbanda actual en una banda limitada, es posible saber si existe o no un espectro subjetivamente importante en el exterior de la banda limitada. En ese caso, al suponer que toda la banda es un objetivo de codificación, es posible contribuir a la codificación sucesiva de los espectros subjetivamente importantes.
Se ha descrito un caso como un ejemplo en el que la sección 144 de ajuste de banda objetivo calcula una banda perceptivamente importante a partir de las posiciones de los espectros con la amplitud máxima en la trama anterior y en la trama actual, pero también es posible estimar una estructura armónica de un espectro de banda alta a partir de una estructura armónica de un espectro de banda baja y calcular una banda perceptivamente importante. La estructura armónica es una estructura en la que los espectros de banda baja están sustancialmente separadas de manera uniforme también en el lado de banda alta. Por lo tanto, es posible estimar la estructura armónica a partir del espectro de banda baja y también estimar la estructura armónica en la banda alta. La periferia de la banda estimada también puede codificarse como una banda limitada. En este caso, si los espectros de banda baja se codifican primero y los espectros de banda alta se codifica usando el resultado de codificación, es posible obtener una información de subbanda limitada de banda idéntica entre el aparato de codificación de voz/audio y el aparato de decodificación de voz/audio.
A continuación se describirá, una serie de operaciones del aparato 140 de codificación de voz/audio mencionado anteriormente.
En primer lugar, la codificación de una banda extendida sin limitación de banda se describirá usando la figura 17. La figura 17 muestra dos subbandas: la subbanda n-1 y la subbanda n, y el eje horizontal muestra una frecuencia y el eje vertical muestra un valor absoluto de la amplitud de espectro. El espectro muestra solo un espectro con amplitud máxima en cada subbanda. Tres tramas temporalmente continuas t-1, t y t+1 se muestran en orden desde la parte superior. Supóngase que la posición de un espectro con la amplitud máxima de la trama t, subbanda n-1 está representada por P [t, n-1].
Basándose en la energía de subbanda calculada por la sección 103 de cálculo de energía de subbanda, se supone que el número provisional de bits asignados para la trama t-1, la subbanda n-1 es 7 y el número provisional de bits asignados para la subbanda n es 5. En lo sucesivo en el presente documento, se supone que los números provisionales de los bits asignados son 5 bits y 7 bits para la trama t, y 7 bits y 5 bits para la trama t+1.
Supóngase que la longitud de subbanda W [n-1] de la subbanda n-1 es 100 y la longitud de subbanda W [n] es 110, y ya que ambos son menores que 2 a la séptima potencia, la unidad se hace entera para que sea 7 bits por simplicidad. En la trama t-1, la unidad supera el número provisional de bits asignados de la subbanda n-1 y, por lo tanto, puede codificarse un espectro. Mientras tanto, el número provisional de bits asignados de la subbanda n no supera la unidad y, por lo tanto, el espectro no se codifica. En la trama t, ya que los números provisionales de los bits asignados son 5 y 7, el espectro se codifica solo con la subbanda n, y en la trama t+1, los números provisionales de los bits asignados son 7 y 5, y por lo tanto, se supone que el espectro de la subbanda n-1 se codifica por transformada.
En un caso de este tipo, cuando se coloca el foco en la subbanda n-1, aunque los espectros existían consecutivamente dentro de una banda cercana en un espectro de entrada, el número provisional de bits asignados de alguna manera no es suficiente, y por lo tanto el espectro no se codifica en la trama t, y no se codifican temporalmente de manera consecutiva de t-1 a t+1. Cuando se pierde la continuidad como en el caso del presente ejemplo, la claridad de una señal decodificada se deteriora, dando una impresión de estrépito.
A continuación, se describirá la codificación de una banda extendida de banda limitada usando la figura 18. La configuración básica en la figura 18 es similar a la de la figura 17. Supóngase que la trama t-1 es completamente idéntica a la del ejemplo descrito en la figura 17.
En primer lugar, se describirá la subbanda n en la trama t. La subbanda n en la trama t-1 no se codifica por la codificación de transformada, y por lo tanto, en la trama t, la información de espectro de una trama anterior se emite como -1 a la sección 144 de ajuste de banda objetivo desde la sección 143 de almacenamiento de resultados de codificación de transformada. Por lo tanto, en la subbanda n en la trama t, no se aplica la limitación de banda y todos los espectros dentro de la subbanda están sujetos a la codificación de transformada. El indicador de limitación de banda en la subbanda n se ajusta en 0. En el caso del presente ejemplo, ya que el número provisional de bits asignados es 7, se codifica un espectro.
A continuación, se describirá la subbanda n-1 en la trama t. En la trama t-1, la codificación de transformada se realiza en la subbanda n-1 y, por lo tanto, la información de espectro P [t-1, n-1] de la trama anterior se emite desde la sección 143 de almacenamiento de resultados de codificación de transformada a la sección 144 de ajuste de banda objetivo. La sección 144 de ajuste de banda objetivo ajusta una banda limitada en un intervalo de P [t-1, n-1] - (int) (WL [n-1]/2) a P [t-1, n-1] (int) (WL [n-1]/2). A continuación, se busca el espectro con la amplitud máxima P [t, n-1] de entre los espectros de subbanda introducidos. En el presente ejemplo, ya que P [t, n-1] existe dentro de la banda limitada, el indicador de limitación de banda de la subbanda n-1 se ajusta en 1. Además, la sección 144 de ajuste de banda objetivo emite la posición de espectro de inicio de banda limitada P [t -1, n-1] - (int) (WL [n-1]/2), la posición de espectro final P [t-1, n-1] (int) (WL [n-1]/2), y el ancho de banda limitado W l [n-1] como la información de subbanda limitada de banda.
Ya que la longitud de subbanda se acorta desde W [n-1] a WL [n-1] en la sección 141 de cálculo de número de unidad, es más probable que aumente el número de unidades.
La sección 142 de codificación de transformada codifica solamente espectros dentro de la banda limitada especificada por la información de subbanda limitada de banda emitida desde la sección 144 de ajuste de banda objetivo entre los espectros de subbanda emitidos desde la sección 102 de división de subbanda. Si WL [n-1] es 31, ya que 31 es menos que 2 a la quinta potencia, la unidad se expresa por 5 por simplicidad. En este ejemplo, ya que el número provisional de bits asignados es 5, puede codificarse un espectro. En lo sucesivo en el presente documento, en la trama t+1, la codificación también es posible usando un procedimiento similar al de la trama t.
Se ha descrito anteriormente que realizando la codificación de transformada exclusivamente en una banda periférica a un espectro importante, cuando se coloca el foco en la subbanda n-1, es posible realizar una codificación continuamente desde la trama t-1 a t+1 a través de la codificación de transformada. Por lo tanto, ya que los espectros perceptivamente importantes puede codificarse temporalmente de manera continua, es posible obtener una voz decodificada de alta claridad con menos estrépito.
La figura 19 es un diagrama de bloques que ilustra una configuración del aparato 240 de decodificación de voz/audio de acuerdo con el Aspecto 6 de la presente invención. En lo sucesivo en el presente documento, la configuración del aparato 240 de decodificación de voz/audio se describirá usando la figura 19. Sin embargo, la figura 19 es diferente de la figura 7 en que la sección 201 de demultiplexación de código se cambia a la sección 241 de demultiplexación de código, la sección 211 de cálculo de número de unidad se cambia a la sección 242 de cálculo de número de unidad, la sección 205 de codificación/decodificación de transformada se cambia a la sección 243 de codificación/decodificación de transformada, la sección 207 de integración de subbanda se cambia a la sección 246 de integración de subbanda, y se añaden la sección 244 de almacenamiento de resultados de codificación de transformada y la sección 245 de decodificación de banda objetivo.
La sección 241 de demultiplexación de código recibe los datos codificados y demultiplexa los datos codificados recibidos en los datos codificados de energía de subbanda, los datos codificados por transformada y un indicador de limitación de banda, emite los datos codificados de energía de subbanda a la sección 202 de decodificación de energía de subbanda, emite los datos codificados por transformada a la sección 243 de codificación/decodificación de transformada, y emite el indicador de limitación de banda a la sección 245 de decodificación de banda objetivo.
La sección 242 de cálculo de número de unidad es idéntica a la sección 141 de cálculo de número de unidad de un aparato 140 de codificación de voz/audio, y por lo tanto se omitirá la descripción detallada de la misma.
La sección 243 de codificación/decodificación de transformada emite el resultado de decodificación para cada subbanda a la sección 246 de integración de subbanda como un espectro de subbanda decodificada basándose en los datos codificados por transformada emitidos desde la sección 241 de demultiplexación de código, el número de unidades emitidas desde la sección 242 de cálculo de número de unidad y la información de subbanda limitada de banda emitida desde la sección 245 de decodificación de banda objetivo. Obsérvese que cuando se decodifican los datos codificados limitados en banda, la amplitud de todos los espectros en el exterior de la banda limitada se establece en 0 y la longitud de subbanda a emitir se emite como un espectro de la longitud de subbanda W [n] antes de la limitación de banda.
La sección 244 de almacenamiento de resultados de codificación de transformada tiene funciones sustancialmente idénticas a las de la sección 143 de almacenamiento de resultados de codificación de transformada del aparato 140 de codificación de voz/audio. Sin embargo, cuando se reciben las influencias de errores por los canales de comunicación tales como el borrado de trama, la pérdida de paquetes, el espectro de subbanda decodificado no puede almacenarse en la sección 244 de almacenamiento de resultados de codificación de transformada y, por lo tanto, la información de espectro de una trama anterior se ajusta, por ejemplo, en -1.
La sección 245 de decodificación de banda objetivo emite la información de subbanda limitada de banda a la sección 242 de cálculo de número de unidad y a la sección 243 de codificación/decodificación de transformada basándose en la indicación de limitación de banda emitida desde la sección 241 de demultiplexación de código y la información de espectro de la trama anterior emitida desde la sección 244 de almacenamiento de resultados de codificación de transformada. La sección 245 de decodificación de banda objetivo determina si se realiza o no la limitación de banda dependiendo del valor del indicador de limitación de banda. En este caso, cuando el indicador de limitación de banda es 1, la sección 245 de decodificación de banda objetivo realiza la limitación de banda y emite la información de subbanda limitada de banda que indica la limitación de banda. Por otro lado, cuando el indicador de limitación de banda es 0, la sección 245 de decodificación de banda objetivo no realiza la limitación de banda y emite la información de subbanda limitada de banda que indica que todos los espectros de la subbanda son un objetivo de codificación. Sin embargo, incluso cuando la información de espectro de la trama anterior emitida desde la sección 244 de almacenamiento de resultados de codificación de transformada es -1, si el indicador de limitación de banda es 1, la sección 245 de decodificación de banda objetivo calcula la información de subbanda limitada de banda que indica la limitación de banda. Esto se debe a que, cuando los datos codificados por transformada no se decodifican en la trama anterior debido a un borrado de trama o similar, la información de espectro de la trama anterior se convierte en -1, pero ya que el aparato 140 de codificación de voz/audio realiza la codificación de transformada acompañada por la limitación de banda, es necesario decodificar los datos codificados por transformada basándose en la premisa de la limitación de banda.
La sección 246 de integración de subbanda dispone estrechamente los espectros de subbanda decodificada emitidos desde la sección 243 de codificación/decodificación de transformada del lado de banda baja, los integra en un vector y emite el vector integrado a la sección 208 de transformación de frecuencia/tiempo como un espectro de señal decodificada.
A continuación, se describirá una serie de operaciones del aparato 240 de decodificación de voz/audio usando la figura 18.
En este caso, se supone que la subbanda n-1 está codificada por transformada en la trama t-1 y la subbanda n no está codificada por codificación de transformada. Supóngase que la subbanda n-1 y la subbanda n están codificadas por transformada en la trama t y la subbanda n-1 está codificada por limitación de banda.
En primer lugar, se describirá la trama t. La sección 245 de decodificación de banda objetivo puede saber, a partir del indicador de limitación de banda emitido desde la sección 241 de demultiplexación de código, si cada subbanda es una subbanda codificada por transformada sin limitación de banda o una subbanda codificada por transformada después de la limitación de banda. La subbanda codificada por transformada sin limitación de banda, la subbanda n en este caso, se decodifica como objetivos de codificación de todos los espectros. La sección 243 de codificación/decodificación de transformada puede decodificar datos codificados emitidos desde la sección 241 de demultiplexación de código usando la longitud de subbanda W [n] emitida desde la sección 245 de decodificación de banda objetivo y el número de unidades emitidas desde la sección 242 de cálculo de número de unidad.
Por otro lado, la sección 245 de decodificación de banda objetivo puede saber, a partir de la indicación de limitación de banda, que la subbanda n-1 está codificada en un estado de banda limitada. Por esta razón, la sección 243 de codificación/decodificación de transformada puede decodificar los datos codificados emitidos desde la sección 241 de demultiplexación de código usando la longitud de subbanda limitada por banda WL [n-1] de la subbanda n-1 emitida desde la sección 245 de decodificación de banda objetivo y el número de unidades emitidas desde la sección 242 de cálculo de número de unidad.
Sin embargo, si la situación sigue siendo la misma, la sección 243 de codificación/decodificación de transformada no puede identificar una localización precisa del espectro de subbanda decodificada y, por lo tanto, la sección 243 de codificación/decodificación de transformada identifica la localización precisa usando un resultado de decodificación de la subbanda n-1 en la trama anterior. Supóngase que la sección 244 de almacenamiento de resultados de codificación de transformada almacena P [t-1, n-1]. La sección 245 de decodificación de banda objetivo ajusta la información de subbanda limitada de banda de tal manera que el ancho de subbanda se convierta en WL [n-1] centrado en P [t-1, n-1] emitido desde la sección 244 de almacenamiento de resultados de codificación de transformada. Más específicamente, la posición de espectro de inicio de la subbanda de limitación de banda se supone que es P [t-1, n-1] - (int) (WL [n-1]/2) y se supone que la posición de espectro final es P [t-1, n -1] (int) (WL [n-1]/2). La información de subbanda limitada de banda calculada de esta manera se emite a la sección 243 de codificación/decodificación de transformada.
Por lo tanto, la sección 243 de codificación/decodificación de transformada puede disponer los espectros de subbanda decodificados en posiciones precisas. Para espectros en el exterior de la banda limitada indicada por la información de subbanda limitada de banda, la amplitud de los espectros se ajusta en 0.
Al fallar la recepción de la trama t-1 debido a las influencias de un canal de comunicación y al no decodificarla, la sección 244 de almacenamiento de resultados de codificación de transformada no puede almacenar un resultado de decodificación correcto. Por esta razón, en el caso de una subbanda codificada por limitación de banda en la trama t, los espectros de subbanda decodificada no pueden disponerse en las posiciones correctas. En este caso, la posición de espectro inicial y la posición de espectro final de la información de subbanda limitada de banda pueden fijarse, por ejemplo, con el fin de estar cerca del centro de la subbanda. La sección 244 de almacenamiento de resultados de codificación de transformada puede estimarlos usando los resultados de decodificación anteriores. La sección 243 de codificación/decodificación de transformada puede calcular una estructura armónica a partir del espectro de banda baja, estimar la estructura armónica en la subbanda y estimar la posición del espectro con la amplitud máxima.
El aparato 240 de decodificación de voz/audio puede decodificar los datos codificados, codificados por limitación de banda a través de una serie de las operaciones descritas anteriormente.
El aparato 140 de codificación de voz/audio descrito anteriormente puede codificar eficazmente un espectro con continuidad de tiempo alta en una banda alta y un aparato 240 de decodificación de voz/audio puede obtener una señal decodificada con alta claridad.
Por lo tanto, el Aspecto 6 codifica solo bandas periféricas al espectro subjetivamente importantes en una trama anterior, y puede codificar una banda objetivo con menos bits, y de ese modo puede mejorar la posibilidad de codificar espectros perceptualmente importantes temporalmente de manera consecutiva. Como resultado, es posible obtener una señal decodificada con alta claridad.
Aplicabilidad industrial
El aparato de codificación de voz/audio, el aparato de decodificación de voz/audio, el procedimiento de codificación de voz/audio y el procedimiento de decodificación de voz/audio de acuerdo con la presente invención pueden aplicarse a un aparato de comunicación que realiza una llamada de voz o similares.
Lista de signos de referencia
101 Sección de transformación de tiempo/frecuencia
102 Sección de división de subbanda
103 Sección de cálculo de energía de subbanda
104, 203, 111, 141,211, 242 Sección de cálculo de número de unidad
105 Sección de compresión de banda
106, 204 Sección de recálculo de número de unidad
107, 142 Sección de codificación de transformada
108, 145 Sección de multiplexación
121,221 Sección de atenuación de energía de subbanda
131 Intercalador
143, 244 Sección de almacenamiento de resultados de codificación de transformada
144 Sección de ajuste de banda objetivo
201,241 Sección de demultiplexación de código
202 Sección de decodificación de energía de subbanda
205, 243 Sección de codificación/decodificación de transformada
206 Sección de extensión de banda
207, 246 Sección de integración de subbanda
208 Sección de transformación de frecuencia/tiempo
231 Desintercalador
245 Sección de decodificación de banda objetivo

Claims (8)

REIVINDICACIONES
1. Un aparato (140) de codificación de voz/audio, que comprende:
un receptor que recibe una señal de entrada de voz en el dominio de tiempo; y
un procesador que
transforma la señal de entrada de voz en el dominio de tiempo en un espectro en el dominio de frecuencia; divide una región de frecuencia del espectro en una banda extendida en una pluralidad de bandas divididas; establece una banda limitada para una banda dividida de la banda extendida en una trama actual, cuando hay una diferencia entre una primera frecuencia con una primera amplitud máxima en un espectro de la banda dividida en una trama anterior y una segunda frecuencia con una segunda amplitud máxima en un espectro de la banda dividida en la trama actual está por debajo de un umbral, en el que el umbral es igual a la mitad del ancho de la banda limitada; y
codifica el espectro en la banda limitada dentro de la banda dividida en la trama actual, y no codifica un espectro fuera de la banda limitada dentro de la banda dividida en la trama actual,
en el que el procesador establece la banda limitada de manera que la banda limitada incluya tanto la primera frecuencia con la primera amplitud máxima en el espectro en la trama anterior como la segunda frecuencia con la segunda amplitud máxima en el espectro de la banda dividida en la trama actual, y
cuando una posición de frecuencia inicial de la banda limitada establecida para la banda dividida es menor que la posición de frecuencia inicial de la banda dividida, una posición de espectro inicial de la banda limitada se establece en la posición de frecuencia inicial de la banda dividida, y
cuando una posición de frecuencia final de la banda limitada establecida para la banda dividida es mayor que la posición de frecuencia final de la banda dividida, una posición de espectro final de la banda limitada se establece en la posición de frecuencia final de la banda dividida.
2. El aparato (140) de codificación de voz/audio de acuerdo con la reivindicación 1, que comprende además:
una memoria (143) que almacena información relativa a la posición del espectro de amplitud máxima en la banda dividida,
en el que el procesador establece la banda limitada, utilizando la información almacenada con respecto a la posición del espectro de amplitud máxima en la trama anterior.
3. El aparato (140) de codificación de voz/audio de acuerdo con la reivindicación 1 o 2, en el que el procesador genera un indicador de limitación de banda que indica si la banda limitada está configurada o no para la banda dividida.
4. El aparato (140) de codificación de voz/audio de acuerdo con una de las reivindicaciones 1 a 3, en el que el procesador no establece una banda limitada cuando la banda dividida en la trama anterior no está codificada mediante codificación de transformada, y todos los espectros dentro de la banda en la trama actual están codificados.
5. El aparato de codificación de voz/audio (140) de acuerdo con una de las reivindicaciones 1 a 4,
en el que la segunda amplitud máxima es mayor que una amplitud predeterminada.
6. Un procedimiento de codificación de voz/audio, que comprende:
transformar una señal de entrada de voz en el dominio de tiempo en un espectro del dominio de frecuencia; dividir una región de frecuencia del espectro en una banda extendida en una pluralidad de bandas divididas; establecer una banda limitada para una banda dividida de la banda extendida en una trama actual, cuando hay una diferencia entre una primera frecuencia con una primera amplitud máxima en un espectro de la banda dividida en una trama anterior y una segunda frecuencia con una segunda amplitud máxima en un espectro de la banda dividida en la trama actual está por debajo de un umbral, en el que el umbral es igual a la mitad del ancho de la banda limitada; y
codificar el espectro en la banda limitada dentro de la banda dividida en la trama actual, y no codificar un espectro fuera de la banda limitada dentro de la banda dividida en la trama actual,
en el que
la banda limitada incluye tanto la primera frecuencia con la primera amplitud máxima en el espectro en la trama anterior como la segunda frecuencia con la segunda amplitud máxima en el espectro de la banda dividida en la trama actual, y
cuando una posición de frecuencia inicial de la banda limitada establecida para la banda dividida es menor que la posición de frecuencia inicial de la banda dividida, una posición de espectro inicial de la banda limitada se establece en la posición de frecuencia inicial de la banda dividida, y
cuando una posición de frecuencia final de la banda limitada establecida para la banda dividida es mayor que la posición de frecuencia final de la banda dividida, una posición de espectro final de la banda limitada se establece en la posición de frecuencia final de la banda dividida.
7. El procedimiento de codificación de voz/audio de acuerdo con la reivindicación 6, que comprende además:
almacenar información con respecto a la posición del espectro de amplitud máxima en la banda dividida; y establecer la banda limitada, utilizando la información almacenada con respecto a la posición de frecuencia del espectro de amplitud máxima en la trama anterior.
8. El procedimiento de codificación de voz/audio de acuerdo con la reivindicación 6 o 7, que comprende además: generar un indicador de limitación de banda que indica si la banda limitada está configurada o no para la banda dividida.
ES19190764T 2012-11-05 2013-11-01 Dispositivo de codificación de audio de voz, y procedimiento de codificación de audio de voz Active ES2969117T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012243707 2012-11-05
JP2013115917 2013-05-31

Publications (1)

Publication Number Publication Date
ES2969117T3 true ES2969117T3 (es) 2024-05-16

Family

ID=50626940

Family Applications (2)

Application Number Title Priority Date Filing Date
ES19190764T Active ES2969117T3 (es) 2012-11-05 2013-11-01 Dispositivo de codificación de audio de voz, y procedimiento de codificación de audio de voz
ES13850858T Active ES2753228T3 (es) 2012-11-05 2013-11-01 Dispositivo de codificación de audio de voz, dispositivo de decodificación de audio de voz, procedimiento de codificación de audio de voz y procedimiento de decodificación de audio de voz

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES13850858T Active ES2753228T3 (es) 2012-11-05 2013-11-01 Dispositivo de codificación de audio de voz, dispositivo de decodificación de audio de voz, procedimiento de codificación de audio de voz y procedimiento de decodificación de audio de voz

Country Status (13)

Country Link
US (4) US9679576B2 (es)
EP (3) EP3584791B1 (es)
JP (3) JP6234372B2 (es)
KR (2) KR102161162B1 (es)
CN (2) CN104737227B (es)
BR (1) BR112015009352B1 (es)
CA (1) CA2889942C (es)
ES (2) ES2969117T3 (es)
MX (1) MX355630B (es)
MY (2) MY189358A (es)
PL (2) PL3584791T3 (es)
RU (3) RU2648629C2 (es)
WO (1) WO2014068995A1 (es)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2960286B2 (ja) 1993-07-16 1999-10-06 オルガノ株式会社 テクスチャーの改良された小麦粉製品およびその製造方法
RU2662693C2 (ru) 2014-02-28 2018-07-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство декодирования, устройство кодирования, способ декодирования и способ кодирования
WO2016013164A1 (ja) 2014-07-25 2016-01-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法
CN107294579A (zh) * 2016-03-30 2017-10-24 索尼公司 无线通信系统中的装置和方法以及无线通信系统
JP6348562B2 (ja) * 2016-12-16 2018-06-27 マクセル株式会社 復号化装置および復号化方法
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US11682406B2 (en) * 2021-01-28 2023-06-20 Sony Interactive Entertainment LLC Level-of-detail audio codec
CN115512711B (zh) * 2021-06-22 2025-07-01 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
JPWO2023008260A1 (es) * 2021-07-29 2023-02-02
CN115331647B (zh) * 2022-07-04 2026-04-07 北京期音信息科技有限公司 多音轨音乐生成方法及装置
CN116013367A (zh) * 2022-12-30 2023-04-25 阿里巴巴(中国)有限公司 音频质量的分析方法和装置、电子设备以及存储介质
CN117095685B (zh) * 2023-10-19 2023-12-19 深圳市新移科技有限公司 一种联发科平台终端设备及其控制方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2523286B2 (ja) * 1986-08-01 1996-08-07 日本電信電話株式会社 音声符号化及び復号化方法
JP2570603B2 (ja) 1993-11-24 1997-01-08 日本電気株式会社 音声信号伝送装置およびノイズ抑圧装置
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6353808B1 (en) 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP4359949B2 (ja) * 1998-10-22 2009-11-11 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4287545B2 (ja) * 1999-07-26 2009-07-01 パナソニック株式会社 サブバンド符号化方式
JP4008244B2 (ja) * 2001-03-02 2007-11-14 松下電器産業株式会社 符号化装置および復号化装置
JP2002374171A (ja) * 2001-06-15 2002-12-26 Sony Corp 符号化装置および方法、復号装置および方法、記録媒体、並びにプログラム
JP4506039B2 (ja) 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
JP2004094090A (ja) * 2002-09-03 2004-03-25 Matsushita Electric Ind Co Ltd オーディオ信号圧縮伸長装置及び方法
JP3877158B2 (ja) * 2002-10-31 2007-02-07 ソニー・エリクソン・モバイルコミュニケーションズ株式会社 周波数偏移検出回路及び周波数偏移検出方法、携帯通信端末
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
JP5142727B2 (ja) * 2005-12-27 2013-02-13 パナソニック株式会社 音声復号装置および音声復号方法
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
EP2080270A4 (en) 2006-10-06 2010-11-17 Agency Science Tech & Res ENCODING METHOD, DECODING METHOD, ENCODER, DECODER, AND COMPUTER PROGRAM PRODUCTS
KR101412255B1 (ko) * 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
KR101291672B1 (ko) * 2007-03-07 2013-08-01 삼성전자주식회사 노이즈 신호 부호화 및 복호화 장치 및 방법
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US20100280833A1 (en) * 2007-12-27 2010-11-04 Panasonic Corporation Encoding device, decoding device, and method thereof
JPWO2009125588A1 (ja) * 2008-04-09 2011-07-28 パナソニック株式会社 符号化装置および符号化方法
JP5267115B2 (ja) * 2008-12-26 2013-08-21 ソニー株式会社 信号処理装置、その処理方法およびプログラム
KR101924192B1 (ko) * 2009-05-19 2018-11-30 한국전자통신연구원 계층형 정현파 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
WO2011048798A1 (ja) * 2009-10-20 2011-04-28 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US8831933B2 (en) * 2010-07-30 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization
EP2676268B1 (en) * 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
JP5732614B2 (ja) 2011-05-24 2015-06-10 パナソニックIpマネジメント株式会社 放電灯点灯装置及びそれを用いた灯具並びに車両
JP2013115917A (ja) 2011-11-29 2013-06-10 Nec Tokin Corp 非接触電力伝送送電装置、非接触電力伝送受電装置、非接触電力伝送及び通信システム

Also Published As

Publication number Publication date
KR102215991B1 (ko) 2021-02-16
US20190147897A1 (en) 2019-05-16
EP2916318A1 (en) 2015-09-09
RU2678657C1 (ru) 2019-01-30
PL2916318T3 (pl) 2020-04-30
RU2648629C2 (ru) 2018-03-26
RU2701065C1 (ru) 2019-09-24
EP2916318A4 (en) 2015-12-09
MY171754A (en) 2019-10-28
MY189358A (en) 2022-02-07
US10210877B2 (en) 2019-02-19
US20150294673A1 (en) 2015-10-15
CN107633847A (zh) 2018-01-26
US10510354B2 (en) 2019-12-17
EP4220636A1 (en) 2023-08-02
CN104737227B (zh) 2017-11-10
MX2015004981A (es) 2015-07-17
US9679576B2 (en) 2017-06-13
CN104737227A (zh) 2015-06-24
EP3584791B1 (en) 2023-10-18
CA2889942C (en) 2019-09-17
EP3584791A1 (en) 2019-12-25
JP6435392B2 (ja) 2018-12-05
KR20150082269A (ko) 2015-07-15
RU2015116610A (ru) 2016-12-27
JP6234372B2 (ja) 2017-11-22
JP2019040206A (ja) 2019-03-14
MX355630B (es) 2018-04-25
CA2889942A1 (en) 2014-05-08
US20180114535A1 (en) 2018-04-26
EP4220636B1 (en) 2025-10-08
EP4220636C0 (en) 2025-10-08
PL3584791T3 (pl) 2024-03-18
BR112015009352B1 (pt) 2021-10-26
JP2018018100A (ja) 2018-02-01
JP6647370B2 (ja) 2020-02-14
KR102161162B1 (ko) 2020-09-29
JPWO2014068995A1 (ja) 2016-09-08
US9892740B2 (en) 2018-02-13
ES2753228T3 (es) 2020-04-07
WO2014068995A1 (ja) 2014-05-08
CN107633847B (zh) 2020-09-25
EP2916318B1 (en) 2019-09-25
BR112015009352A8 (pt) 2019-09-17
BR112015009352A2 (pt) 2017-07-04
US20170243594A1 (en) 2017-08-24
KR20200111830A (ko) 2020-09-29

Similar Documents

Publication Publication Date Title
ES2969117T3 (es) Dispositivo de codificación de audio de voz, y procedimiento de codificación de audio de voz
ES2665646T3 (es) Codificación de entropía basada en el contexto de valores de muestra de una envolvente espectral
KR100952693B1 (ko) 멀티채널 디지털 오디오 코딩을 위한 장치 및 방법
ES2989615T3 (es) Aparato de codificación de señales de audio, aparato de decodificación de señales de audio, método de codificación de señales de audio y método de decodificación de señales de audio
ES2430414T3 (es) Cálculo de máscara de escalado selectivo basado en detección de pico
ES2432625T3 (es) Cálculo de máscara de escalamiento selectiva basado en detección de picos
ES2430639T3 (es) Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales
ES2772173T3 (es) Dispositivo de decodificación de audio, dispositivo de codificación de audio, método de decodificación de audio, método de codificación de audio, programa de decodificación de audio y programa de codificación de audio
ES3019398T3 (en) Method and device for efficiently distributing a bit-budget in a celp codec
ES2400987T3 (es) Atenuación de pre-ecos en una señal de audio digital
ES2312142T3 (es) Aparato avanzado para codificar datos de audio digitales.
BRPI0813178B1 (pt) Processo de codificação de um sinal de áudio de entrada, processo de decodificação escalável de um sinal de áudio, codificador de sinal de áudio de entrada, e codificador de um sinal de áudio