ES2964807T3 - Procedimiento y aparato para controlar la ocultación de la pérdida de tramas de audio - Google Patents

Procedimiento y aparato para controlar la ocultación de la pérdida de tramas de audio Download PDF

Info

Publication number
ES2964807T3
ES2964807T3 ES21162222T ES21162222T ES2964807T3 ES 2964807 T3 ES2964807 T3 ES 2964807T3 ES 21162222 T ES21162222 T ES 21162222T ES 21162222 T ES21162222 T ES 21162222T ES 2964807 T3 ES2964807 T3 ES 2964807T3
Authority
ES
Spain
Prior art keywords
frame
spectrum
phase
signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES21162222T
Other languages
English (en)
Inventor
Stefan Bruhn
Jonas Svedberg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2964807T3 publication Critical patent/ES2964807T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Stereophonic System (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Auxiliary Devices For Music (AREA)
  • Error Detection And Correction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Se divulga un método y un aparato para la adaptación de un método de ocultación de pérdida de cuadros en la decodificación de audio. El método comprende analizar una señal de audio recibida previamente para realizar una detección transitoria selectiva de frecuencia en base a bandas de frecuencia y modificar el método de ocultación de pérdida de trama por banda de frecuencia ajustando selectivamente una magnitud espectral de un espectro de trama de sustitución en respuesta a un transitorio detectado en la banda de frecuencia. El método comprende además detectar una pérdida de ráfaga y modificar adicionalmente el método de ocultación ajustando selectivamente una magnitud de un espectro de trama de sustitución en respuesta a la pérdida de ráfaga detectada. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procedimiento y aparato para controlar la ocultación de la pérdida de tramas de audio
Sector técnico
La solicitud se refiere a procedimientos y aparatos para controlar un procedimiento de ocultación para una trama de audio perdida de una señal de audio recibida.
Antecedentes
Los sistemas de comunicación de audio convencionales transmiten señales de voz y audio en tramas, lo que significa que el lado emisor primero dispone la señal en segmentos cortos o tramas de longitud comprendida entre, por ejemplo, 20 y 40 ms, que, posteriormente, se codifican y transmiten como una unidad lógica, por ejemplo un paquete de transmisión. El receptor descodifica cada una de estas unidades y reconstruye las tramas de señal correspondientes que, a su vez, finalmente, se emiten como una secuencia continua de muestras de señal reconstruidas. Antes de la codificación, suele haber una etapa de conversión de analógico a digital (A/D), que convierte la señal de voz o audio analógica de un micrófono en una secuencia de muestras de audio. Por el contrario, en el extremo receptor, habitualmente hay una etapa final de conversión de D/A que convierte la secuencia de muestras de señales digitales reconstruidas en una señal analógica continua en el tiempo para la reproducción del altavoz.
Sin embargo, dicho sistema de transmisión para señales de voz y audio puede sufrir errores de transmisión, lo que podría conducir a una situación en la que una o varias de las tramas transmitidas no estén disponibles en el receptor para su reconstrucción. En ese caso, el descodificador tiene que generar una señal de sustitución para cada una de las tramas borradas, es decir, no disponibles. Esto se realiza en la denominada unidad de ocultación de la pérdida o error de tramas del descodificador de señales del lado del receptor. El propósito de la ocultación de la pérdida de tramas es hacer que la pérdida de tramas sea lo más inaudible posible y, por lo tanto, mitigar, tanto tal como sea posible, el impacto de la pérdida de tramas en la calidad de la señal reconstruida.
Los procedimientos convencionales de ocultación de la pérdida de tramas pueden depender de la estructura o arquitectura del códec, por ejemplo aplicando una forma de repetición de parámetros de códec recibidos previamente. Estas técnicas de repetición de parámetros dependen claramente de los parámetros específicos del códec utilizado y, por lo tanto, no se pueden aplicar fácilmente a otros códecs con una estructura diferente. Los procedimientos actuales de ocultación de la pérdida de tramas pueden, por ejemplo, aplicar el concepto de congelación y extrapolación de parámetros de una trama recibida previamente para generar una trama de sustitución de la trama perdida.
Estos procedimientos de ocultación de la pérdida de tramas de la técnica anterior incorporan algunos esquemas de manejo de pérdida de ráfagas. En general, después de varias pérdidas de tramas seguidas, la señal sintetizada se atenúa hasta quedar completamente silenciada después de largas ráfagas de errores. Además, los parámetros de codificación que se repiten y extrapolan esencialmente se modifican de manera que se consigue la atenuación, y los máximos espectrales se aplanan.
Las técnicas actuales de ocultación de la pérdida de tramas del estado de la técnica normalmente aplican el concepto de congelación y extrapolación de parámetros de una trama recibida previamente para generar una trama de sustitución para la trama perdida. Muchos códecs de voz paramétricos, tales como los códecs predictivos lineales tales como AMR o AMR-WB, habitualmente congelan los parámetros recibidos anteriormente o utilizan alguna extrapolación de los mismos, y utilizan el descodificador con ellos. En esencia, el principio es tener un modelo determinado para codificar/descodificar, y aplicar el mismo modelo con parámetros congelados o extrapolados. Las técnicas de ocultación de la pérdida de tramas de AMR y AMR-WB se pueden considerar representativas. Se especifican en detalle en las memorias descriptivas de los estándares correspondientes.
Muchos códecs de la clase de códecs de audio se aplican a técnicas de codificación del dominio de la frecuencia. Esto significa que después de una cierta transformación en el dominio de la frecuencia, se aplica un modelo de codificación a los parámetros espectrales. El descodificador reconstruye el espectro de la señal a partir de los parámetros recibidos y, finalmente, transforma el espectro nuevamente en una señal de tiempo. Habitualmente, la señal de tiempo se reconstruye trama a trama. Dichas tramas son combinadas mediante técnicas de superposición y adición a la señal reconstruida final. Incluso en el caso de los códecs de audio, la ocultación de errores de la técnica anterior suele aplicar el mismo modelo de descodificación, o al menos uno similar, para las tramas perdidas. Los parámetros del dominio de la frecuencia de una trama recibida previamente son congelados o se extrapolados adecuadamente y, a continuación, utilizados en la conversión del dominio de la frecuencia al dominio del tiempo. Ejemplos de dichas técnicas se proporcionan con los códecs de audio del 3GPP, según los estándares del 3GPP.
El documento US2004/122680 describe un sistema para la ocultación de errores de trama que enseña a ajustar la magnitud de la trama de sustitución según el número de tramas consecutivas perdidas. El documento EP 1722359 A1 describe un procedimiento de ocultación que incluye la detección de transitorios.
Compendio
Las soluciones actuales de la técnica anterior para la ocultación de la pérdida de tramas suelen adolecer de falta de calidad. El principal problema es que la técnica de congelación y extrapolación de parámetros y la nueva aplicación del mismo modelo de descodificador, incluso para tramas perdidas, no siempre garantiza una evolución continua y fiable de la señal desde las tramas de señal previamente descodificadas hasta la trama perdida. Esto conduce habitualmente a discontinuidades de la señal audible, con el correspondiente impacto en la calidad.
Se describen nuevos esquemas para la ocultación de la pérdida de tramas para sistemas de transmisión de voz y audio. Los nuevos esquemas mejoran la calidad en caso de pérdida de tramas con respecto a la calidad alcanzable con las técnicas de ocultación de la pérdida de tramas de la técnica anterior.
El objetivo de las presentes realizaciones es controlar un esquema de ocultación de la pérdida de tramas que, preferentemente, es del tipo de los nuevos procedimientos relacionados descritos de tal manera que se consigue la mejor calidad de sonido posible de la señal reconstruida. Las realizaciones tienen como objetivo optimizar esta calidad de reconstrucción tanto con respecto a las propiedades de la señal como a la distribución temporal de las pérdidas de trama. Particularmente problemáticos para que la ocultación de la pérdida de tramas proporcione una buena calidad son los casos en los que la señal de audio tiene propiedades que varían mucho, tal como inicios o desplazamientos de energía, o si es espectralmente muy fluctuante. En ese caso, los procedimientos de ocultación descritos pueden repetir el inicio, el desplazamiento o la fluctuación espectral, lo que conduce a grandes desviaciones con respecto a la señal original y la correspondiente pérdida de calidad.
Otro caso problemático es si se producen ráfagas de pérdida de tramas seguidas. Conceptualmente, el esquema para la ocultación de la pérdida de tramas según los procedimientos descritos puede tratar estos casos, aunque resulta que aún se pueden producir artefactos tonales molestos. Otro objetivo de las presentes realizaciones es mitigar dichos artefactos tanto tal como sea posible.
Según un primer aspecto, se da a conocer un procedimiento para la adaptación de un procedimiento de ocultación de la pérdida de tramas en la descodificación de audio, según la reivindicación 1.
Según un segundo aspecto, se describe un aparato para la adaptación de un procedimiento de ocultación de la pérdida de tramas, según la reivindicación 8.
Según un tercer aspecto, se da a conocer un programa informático, según la reivindicación 15.
Una ventaja de una realización aborda el control de las adaptaciones de los procedimientos de ocultación de la pérdida de tramas que permiten mitigar el impacto audible de la pérdida de tramas en la transmisión de señales de voz y audio codificadas incluso más allá de la calidad lograda solo con los procedimientos de ocultación descritos. El beneficio general de las realizaciones es proporcionar una evolución continua y fiable de la señal reconstruida incluso para tramas perdidas. El impacto audible de las pérdidas de tramas se reduce considerablemente en comparación con la utilización de técnicas de última generación.
Breve descripción de los dibujos
Para una comprensión más completa de las realizaciones de ejemplo de la presente invención, a continuación se hace referencia a la siguiente descripción, tomada junto con los dibujos que se acompañan, en los que:
la figura 1 muestra una función de ventana rectangular;
la figura 2 muestra una combinación de la ventana de Hamming con la ventana rectangular;
la figura 3 muestra un ejemplo de un espectro de magnitud de una función de ventana;
la figura 4 ilustra un espectro de líneas de una señal sinusoidal, a modo de ejemplo, con la frecuenciafk;
la figura 5 muestra un espectro de una señal sinusoidal con ventana, con la frecuenciafk;
la figura 6 ilustra las barras correspondientes a la magnitud de los puntos de la cuadrícula de una DFT, según una trama de análisis;
la figura 7 ilustra un ajuste parabólico a través de los puntos P1, P2 y P3 de la cuadrícula de la DFT;
la figura 8 ilustra un ajuste de un lóbulo principal de un espectro de ventana;
la figura 9 ilustra un ajuste de la función P de aproximación del lóbulo principal a través de los puntos P1 y P2 de la cuadrícula de la DFT;
la figura 10 es un diagrama de flujo que ilustra un procedimiento de ejemplo, según las realizaciones de la invención, para controlar un procedimiento de ocultación de una trama de audio perdida de una señal de audio recibida;
la figura 11 es un diagrama de flujo que ilustra otro procedimiento de ejemplo, según las realizaciones de la invención, para controlar un procedimiento de ocultación de una trama de audio perdida de una señal de audio recibida;
la figura 12 ilustra otro ejemplo de realización de la invención;
la figura 13 muestra un ejemplo de un aparato, según una realización de la invención;
la figura 14 muestra otro ejemplo de un aparato, según una realización de la invención;
la figura 15 muestra otro ejemplo de un aparato, según una realización de la invención.
Descripción detallada
El nuevo esquema de control para las nuevas técnicas de ocultación de la pérdida de tramas descritas implica las siguientes etapas, tal como se muestra en la figura 10. Cabe señalar que el procedimiento puede ser implementado en un controlador en un descodificador.
1. Detectar condiciones en las propiedades de la señal de audio previamente recibida y reconstruida o en las propiedades estadísticas de las pérdidas de trama observadas para las cuales la sustitución de una trama perdida según los procedimientos descritos proporciona una calidad relativamente reducida,101.
2. En caso de que se detecte dicha condición en la etapa 1, modificar el elemento de los procedimientos según los cuales el espectro de la trama de sustitución se calcula mediante7{m) ~ Y(m) ■ e]0kajustando selectivamente las fases o las magnitudes del espectro,102.
Análisis sinusoidal
Una primera etapa de la técnica de ocultación de la pérdida de tramas a la que se puede aplicar la nueva técnica de control implica un análisis sinusoidal de una parte de la señal recibida previamente. El propósito de este análisis sinusoidal es encontrar las frecuencias de las principales sinusoides de esa señal, y la suposición subyacente es que la señal está compuesta por un número limitado de sinusoides individuales, es decir, que es una señal multisinusoidal del siguiente tipo :
K j
s ( " ) = Y . a x ^ ■ n <pk )
k=i' c°s(<2>
.1 s
En esta ecuación, K es el número de sinusoides en las que se supone que consiste la señal. Para cada una de las sinusoides con índice k = 1...K,akes la amplitud,fkes la frecuencia y$kes la fase. La frecuencia de muestreo se denominafs,y el índice de tiempo de la señal discreta de tiempo muestreas(n)mediante n.
Es de suma importancia encontrar las frecuencias de las sinusoides tan exactas como sea posible. Si bien una señal sinusoidal ideal tendría un espectro de líneas con frecuencias de líneafk,encontrar sus valores verdaderos requeriría en principio un tiempo de medición infinito. Por lo tanto, en la práctica es difícil encontrar estas frecuencias puesto que solo pueden ser estimadas basándose en un período de medición corto, que corresponde al segmento de señal utilizado para el análisis sinusoidal descrito en el presente documento; este segmento de señal se denomina en lo que sigue trama de análisis. Otra dificultad es que la señal puede variar en el tiempo en la práctica, lo que significa que los parámetros de la ecuación anterior varían en el tiempo. Por lo tanto, por un lado, es deseable utilizar una trama de análisis larga, que haga que la medición sea más precisa; por otro lado, sería necesario un período de medición corto, para tratar mejor con las posibles variaciones de la señal. Una buena solución de compromiso es utilizar una longitud de trama de análisis del orden de, por ejemplo, entre 20 y 40 ms.
Una posibilidad preferida para identificar las frecuencias de las sinusoidesfkes realizar un análisis del dominio de la frecuencia de la trama de análisis. Con este fin, la trama de análisis se transforma en el dominio de la frecuencia, por ejemplo por medio de una DFT o una DCT, o transformadas del dominio de la frecuencia similares. En caso de que se utilice una DFT de la trama de análisis, el espectro viene dado por:
£-1.j,
X(m)<=>DFT(w(n<) •>x(n))<=>’JTe 11 ■ w(n) ■ x(n)
n=0 .
En esta ecuación, w(n) designa la función de ventana con la que se extrae y pondera la trama de análisis de longitud L. Las funciones de ventana habituales son, por ejemplo, ventanas rectangulares, que son iguales a 1 para n E [0...E-1] y, en caso contrario, 0, tal como se muestra en la figura 1. En este caso, se supone que los índices de tiempo de la señal de audio recibida previamente se establecen de tal manera que la trama de análisis es referenciada por los índices de tiempo n = 0...L-1. Otras funciones de ventana que pueden ser más adecuadas para el análisis espectral son, por ejemplo, la ventana de Hamming, la ventana de Hanning, la ventana de Kaiser o la ventana de Blackman. Una función de ventana que resulta particularmente útil es una combinación de la ventana de Hamming con la ventana rectangular. Esta ventana tiene una forma de borde ascendente como la mitad izquierda de una ventana de Hamming de longitud L1, y una forma de borde descendente como la mitad derecha de una ventana de Hamming de longitudL1, y entre los bordes ascendente y descendente la ventana es igual a 1 para la longitud deL-L1, tal como se muestra en la figura 2.
Los máximos del espectro de magnitud de la trama de análisis de ventana |X(m)| constituyen una aproximación de las frecuencias sinusoidalesfkrequeridas. Sin embargo, la precisión de esta aproximación está limitada por la separaciónA
de frecuencias de la DFT. Con la DFT con longitud de bloqueL,la precisión está limitada a 2¿.
Los experimentos muestran que este nivel de precisión puede ser demasiado bajo en el alcance de los procedimientos descritos en el presente documento. Se puede obtener una precisión mejorada basándose en los resultados de la siguiente consideración:
El espectro de la trama de análisis con ventana viene dado por la convolución del espectro de la función de ventana con el espectro de líneas de la señal del modelo sinusoidal S(D),
posteriormente muestreado en los puntos de cuadrícula de la DFT:
X{m )= J8(0. - m -?f) ■ (W(Q)*S(Clj) ■ dQ.
2tt
Utilizando la expresión de espectro de la señal del modelo sinusoidal, esto se puede escribir como
Por lo tanto, el espectro muestreado viene dado por
Sobre la base de esta consideración, se supone que los máximos observados en el espectro de magnitud de la trama de análisis provienen de una señal sinusoidal con ventana conKsinusoides, donde las verdaderas frecuencias sinusoidales se encuentran en la proximidad de los máximos.
Seamkel índice de la DFT (punto de la cuadrícula) del máximo de orden k observado; por lo tanto, la frecuencia
h = ~ f ,
correspondiente es '■ , que puede ser considerada una aproximación de la verdadera frecuencia sinusoidalfk.Se puede suponer que la verdadera frecuencia sinusoidalfkse encuentra dentro del intervalo
En aras de la claridad, cabe señalar que la convolución del espectro de la función de ventana con el espectro del espectro de líneas de la señal del modelo sinusoidal se puede entender como una superposición de versiones desplazadas en frecuencia, del espectro de la función de ventana, donde las frecuencias de desplazamiento son las frecuencias de las sinusoides. A continuación, esta superposición es muestreada en los puntos de la cuadrícula de la DFT. Estas etapas se ilustran con las siguientes figuras. La figura 3 muestra un ejemplo del espectro de magnitud de una función de ventana. La figura 4 muestra el espectro de magnitud (espectro de líneas) de una señal sinusoidal de ejemplo con una sola sinusoide de frecuencia. La figura 5 muestra el espectro de magnitud de la señal sinusoidal con ventana que replica y superpone los espectros de la ventana con desplazamiento de frecuencia en las frecuencias de la sinusoide. Las barras de la figura 6 corresponden a la magnitud de los puntos de la cuadrícula de la DFT de la sinusoide con ventana que se obtienen al calcular la DFT de la trama de análisis. Cabe señalar que todos los espectros son periódicos con el parámetro de frecuencia estandarizado D, donde D = 2n que corresponde a la frecuencia de muestreofs.
La explicación anterior y la ilustración de la figura 6 sugieren que solo se puede encontrar una mejor aproximación de las frecuencias sinusoidales verdaderas aumentando la resolución de la búsqueda sobre la resolución de la frecuencia de la transformada del dominio de la frecuencia utilizada.
Un modo preferido de encontrar mejores aproximaciones de las frecuenciasfkde las sinusoides es aplicar la interpolación parabólica. Uno de esos enfoques es ajustar parábolas a través de los puntos de la cuadrícula del espectro de magnitud de la DFT que rodean a los máximos, y calcular las respectivas frecuencias pertenecientes a los máximos de la parábola. Una elección adecuada para el orden de las parábolas es 2. En detalle, se puede aplicar el siguiente procedimiento:
1. Identificar los máximos de la DFT de la trama de análisis con ventana. La búsqueda de máximos proporcionará el númeroKde máximos, y los índices de la DFT correspondientes de los máximos. La búsqueda de máximos se puede realizar habitualmente en el espectro de magnitud de la DFT o en el espectro de magnitud de la DFT logarítmica.
2. Para cada máximok(siendok= 1...K) con el correspondiente índicemkde la DFT, ajustar una parábola a través de los tres puntos {P1; P2; P3} = {(m<k>-1, log(|X(m<k>-1)|); (m<k>, log(|X(m<k>)|); (m<k>+1, log(|X(m<k>+1)|)}. Esto da como resultado los coeficientes de parábola b<k>(0), b<k>(1), b<k>(2) de la parábola definida por
2
<a>( ‘/ ) = 2 > ( 0 V
i=0
Este ajuste parabólico se ilustra en la figura 7.
3. Para cada una de lasKparábolas, calcular el índice de frecuencia interpoladomkcorrespondiente al valor deqpara
el cual la parábola tiene su máximo. Utilizarf k ~ n,ks^ - , como aproximación para la frecuencia sinusoidalfk.
El enfoque descrito proporciona buenos resultados, pero puede tener algunas limitaciones, puesto que las parábolas no se aproximan a la forma del lóbulo principal del espectro de magnitud | W(Q)| de la función de ventana. Un esquema alternativo que hace esto es una estimación de frecuencia mejorada utilizando una aproximación de lóbulo principal, que se describe a continuación. La idea principal de esta alternativa es ajustar una funciónP(q),que aproxima el lóbulo
m ~ q ) \
principal de'■, a través de los puntos de la cuadrícula del espectro de magnitud de la DFT que rodean a los máximos, y calcular las respectivas frecuencias pertenecientes a la función máxima. La funciónP(q)podría ser 9jr
IW (—— ■ (q — (]))|
idéntica al espectro de magnitud desfasada en frecuencia ¿ de la función de ventana. Sin embargo, por sencillez informática, debería ser, por ejemplo, un polinomio que permita un cálculo sencillo del máximo de la función. Se puede aplicar el siguiente procedimiento detallado:
1. Identificar los máximos de la DFT de la trama de análisis con ventana. La búsqueda de máximos proporcionará el número de máximosKy los índices de la DFT correspondientes de los máximos. La búsqueda de máximos se puede realizar habitualmente en el espectro de magnitud de la DFT o en el espectro de magnitud de la DFT logarítmica.
2n
\ W { ~ q ) \
2. Obtener la funciónP(q)que aproxima el espectro de magnitudL-de la función de ventana o del espectro
\0g \ W ( 2^ - q ) \
de magnitud logarítmica'■para un intervalo(q1, <72) determinado. La elección de la función de aproximación que aproxima el lóbulo principal del espectro de la ventana se ilustra mediante la figura 8.
3. Para cada máximok(conk -1...K) con el índicemkde la DFT correspondiente, ajustar la función de desplazamiento de frecuencia ^ )a través de los dos puntos de la cuadrícula de la DFT que rodean el máximo real esperado
del espectro continuo de la señal sinusoidal con ventana. Por lo tanto, si I 1 ) l es mayor que |2f(W£ 1)|
ajustar a través de los puntos log(|4 f(fM A-l)|),(ntk,log(|A^(/W*)|)} y en caso
contrario, a través de los puntos O *'" P ¡> = « " " • 1° S ( W » 'i ) l ) ; ( r o L l o g ( W » « l ) | ) ! . Por sencillez,P(q)se puede elegir para que sea un polinomio de orden 2 o 4. Esto hace que la aproximación en la etapa 2 sea un cálculo de regresión lineal simple, y el cálculo de ?*, directo. El intervalo (<71,172) puede ser elegido para ser fijo e idéntico para todos los máximos, por ejemplo (91, q2) = (-1, 1), o adaptativo.
En el enfoque adaptativo, el intervalo se puede elegir de tal manera que la función P(q—qk) se ajuste al lóbulo principal del espectro de función con ventana en el rango de los puntos de la cuadrícula de la DFT {P<1>; P<2>} relevantes. El proceso de ajuste se visualiza en la figura 9.
4. Para cada uno de losKparámetros de cambio de frecuencia9kpara los que se espera que el espectro continuo
de la señal sinusoidal con ventana tenga su máximo, calcularf ' ’Llcomo aproximación para la frecuencia sinusoidalfk.
Hay muchos casos en los que la señal transmitida es armónica, lo que significa que la señal consta de ondas sinusoidales cuyas frecuencias son múltiplos enteros de alguna frecuencia fundamentalfo.Este es el caso cuando la señal es muy periódica, tal como, por ejemplo para la conversación de voz o los tonos sostenidos de algún instrumento musical. Esto significa que las frecuencias del modelo sinusoidal de las realizaciones no son independientes, sino que tienen una relación armónica y parten de la misma frecuencia fundamental. Tener en cuenta esta propiedad armónica puede mejorar sustancialmente el análisis de las frecuencias de componentes sinusoidales.
A continuación se describe una posibilidad de mejora:
1. Comprobar si la señal es armónica. Esto se puede hacer, por ejemplo, evaluando la periodicidad de la señal antes de la pérdida de la trama. Un procedimiento sencillo es realizar un análisis de autocorrelación de la señal. El máximo de dicha función de autocorrelación para un retraso de tiempo<t>> 0 se puede utilizar como indicador. Si el valor de este máximo supera un umbral determinado, la señal se puede considerar armónica. El retraso de tiempo<t>correspondiente corresponde, por lo tanto, al período de la señal que está relacionado con la frecuencia fundamental
a través d .
Muchos procedimientos de codificación de voz predictiva lineal aplican la llamada predicción de tono de bucle abierto o cerrado o codificación CELP (Closed-Loop Pitch Prediction) utilizando libros de códigos adaptativos. La ganancia de tono y los parámetros del retraso de tono asociados derivados de dichos procedimientos de codificación también son indicadores útiles si la señal es armónica y, respectivamente, para el retraso de tiempo.
A continuación se describe otro procedimiento para obtenerfo.
2. Para cada índice armónicojdentro del rango de enteros 1...Jmax,verificar si hay un máximo en el espectro de magnitud de la DFT (logarítmico) de la trama de análisis dentro de la proximidad de la frecuencia armónicaf j J f ° .La proximidad defj,se puede definir como el rango delta alrededor defjdonde delta corresponde a la resolución deL
frecuencia de la DFTL, es decir, al intervalo
En el caso de que esté presente dicho máximo con la correspondiente frecuencia sinusoidal estimadafk, sustituirfk
porfkporf k ~ í f ° .
Para el procedimiento de dos etapas proporcionado anteriormente, también existe la posibilidad de verificar si la señal es armónica y obtener la frecuencia fundamental implícitamente y, posiblemente de manera iterativa, sin utilizar necesariamente indicadores de algún procedimiento separado. A continuación se proporciona un ejemplo de dicha técnica:
Para cadafoi. pPu dec un u couniijun iutou u dec va culouriecas c uacunlduiiduat ious 'f (Kl f ° - p' < d ajpjuliucadrf la etapa 2 del procedimiento, aunque sin sustituir i , do cuántos máximos de la DFT están presentes en la proximidad alrededor de las frecuencias armónicas, es decir, los múltiplos enteros defo,p.Identificar la frecuencia fundamentalfo,pmaxpara la cual se obtiene el mayor número de máximos en o alrededor de las frecuencias armónicas. Si este mayor número de máximos supera un umbral determinado, se supone que la señal es armónica. En ese caso, se puede suponer quefo.pmax,es la
frecuencia fundamental con la que se ejecuta la etapa 2, lo que conduce a unas frecuencias sinusoidalesfmejoradas. Sin embargo, una alternativa más preferente es optimizar primero la frecuencia fundamentalfobasándose en las
frecuencias máximasf, que se ha encontrado que coinciden con las frecuencias armónicas. Suponer un conjunto deMarmónicos, es decir, los múltiplos enteros i W|nAi}de alguna frecuencia fundamental que se ha encontrado que
coinciden con algún conjunto deMmáximos espectrales en las frecuenciasf k,m), m =1...ÍW, entonces la frecuencia fundamental subyacente (optimizada)fo,optse puede calcular para minimizar el error entre las frecuencias armónicas y las frecuencias espectrales máximas. Si el error a minimizar es el error cuadrático medio
= £ > » > -/o - / « o ) 2
entonces la frecuencia fundamental óptima se calcula como
El conjunto inicial de valores candidatos{ fo . i . ". '.f JoU,p ‘<}>>se puede obtener a partir de las frecuencias de los máximos
<de la DFT o de las frecuencias sinusoidales estimadas>f k.
<Otra posibilidad para mejorar la precisión de las frecuencias sinusoidales estimadas>fk<es considerar su evolución en>el tiempo. Con ese fin, las estimaciones de las frecuencias sinusoidales de un múltiplo de tramas de análisis pueden ser combinadas, por ejemplo, mediante promediación o predicción. Antes de promediar o predecir, se puede aplicar un seguimiento de los máximos que conecta los máximos espectrales estimados con las mismas sinusoides subyacentes respectivas.
Aplicación del modelo sinusoidal
La aplicación de un modelo sinusoidal para realizar una operación de ocultación de la pérdida de trama descrita en el presente documento se puede describir como sigue.
Se supone que el descodificador no puede reconstruir un segmento determinado de la señal codificada, puesto que la información codificada correspondiente no está disponible. Se supone, además, que una parte de la señal anterior a este segmento está disponible. Sea y(n), siendon= 0...N-1 el segmento no disponible para el cual debe generarse una trama de sustitución z(n), y sea y(n) siendo n<0 la señal disponible previamente descodificada. A continuación, en una primera etapa, una trama prototipo de la señal disponible de longitudLe índice de inicio n-1 se extrae con una función de ventanaw(n)y se transforma en el dominio de la frecuencia, por ejemplo por medio de la DFT:
.27T
Y -X(m ) = Y,nZoy(n -n _ x) • w (n ) •e~}T nm
La función de ventana puede ser una de las funciones de ventana descritas anteriormente en el análisis sinusoidal. Preferentemente, para ahorrar complejidad informática, la trama transformada en el dominio de la frecuencia debe ser idéntica a la utilizada durante el análisis sinusoidal.
En una siguiente etapa, se aplica la suposición del modelo sinusoidal. Según eso, la DFT de la trama prototipo se puede escribir de la siguiente manera:
La siguiente etapa es darse cuenta de que el espectro de la función de ventana utilizada solo tiene una contribución significativa en un rango de frecuencias cercano a cero. Tal como se ilustra en la figura 3, el espectro de magnitud de la función de ventana es grande para frecuencias cercanas a cero, y pequeño en caso contrario (dentro del rango de frecuencias estandarizado entre -n y n, correspondiente a la mitad de la frecuencia de muestreo). Por lo tanto, como una aproximación se supone que el espectro de la ventana W(m) es distinto de cero solo para un intervalo M = [-mm/n,mmax],siendomminymmaxnúmeros positivos pequeños. En particular, se utiliza una aproximación del espectro de la función de ventana de modo que, para cada k, las contribuciones de los espectros de ventana desplazados en la expresión anterior son estrictamente no superpuestas. Por lo tanto, en la ecuación anterior para cada índice de frecuencia siempre existe como máximo la contribución de un sumando, es decir, de un espectro de ventana desplazado. Esto significa que la expresión anterior se reduce a la siguiente expresión aproximada:
parameMkno negativo y para cada k.
En este caso,Mkdesigna el intervalo de enteros
M k = [redondeo ( E • ¿ ) - m m in k t o n t e o (<t>' L ) m ™ u x ,k ]
15hdondeMmin.kyMmax.kcumplen la restricción explicada anteriormente, de tal manera que los intervalos no se superponen. Una elección adecuada paraMmin,kyMmax,kes establecerlos en un valor entero 5 pequeño, por ejemplo 5 = 3. Sin embargo, si los índices de la DFT relacionados con dos frecuencias sinusoidales adyacentesfkyfk+1son menores que 25, entonces 5 se establece en Redondeo hacia infinito negativo
de tal manera que se garantiza que los intervalos no son superpuestos. La función redondeo hacia infinito negativo (■) es el entero más cercano al argumento de la función que es menor o igual a él.
La siguiente etapa según la realización es aplicar el modelo sinusoidal según la expresión anterior y hacer evolucionar en el tiempo susKsinusoides. La suposición de que los índices de tiempo del segmento borrado en comparación con los índices de tiempo de la trama prototipo difieren en n-1 muestras significa que las fases de las sinusoides avanzan en
9k = 2n ■ j~n- i
Por lo tanto, el espectro de la DFT del modelo sinusoidal evolucionado viene dado por:
Aplicar nuevamente la aproximación según la cual los espectros de la función de ventana desplazada no se superponen proporciona:
para m EMkno negativo y para cadak.
Comparando la DFT de la trama prototipo Y-i(m) con la DFT del modelo sinusoidal evolucionadoYo(m)utilizando la aproximación, se encuentra que el espectro de magnitud permanece sin cambios mientras la fase se desplaza en
0 k = 27117 -n _ !
■s , para cadam e Mk.Por lo tanto, los coeficientes del espectro de frecuencias de la trama prototipo en la proximidad de cada sinusoide se desplazan proporcionalmente a la frecuencia sinusoidalfky a la diferencia de tiempo entre la trama de audio perdida y la trama prototipo n-1.
Por lo tanto, según la realización, la trama de sustitución se puede calcular mediante la siguiente expresión:
z(n)=lDTF{Z(m)}conZ(m)=Y(m)■e j0k para m e Mk nonegativo y para cadak.
Una realización específica aborda la aleatorización de fase para índices de la DFT que no pertenecen a ningún intervaloMk.Tal como se describió anteriormente, los intervalosMk, k= 1...K deben ser configurados de modo que no se superpongan estrictamente, lo que se realiza mediante algún parámetro, que controla el tamaño de los intervalos. Puede suceder que 5 sea pequeño en relación con la distancia de frecuencia de dos sinusoides adyacentes. Por lo tanto, en ese caso sucede que existe un espacio entre dos intervalos. En consecuencia, para los correspondientes
índices m de la DFT no se define ningún desfase según la expresión anteriorZ (m )— )(m ) ■ e j i¡u na e|ecc¡ón
adecuada según esta realización es aleatorizar la fase para estos índices, lo que conduce aZ(m) = Y(m) 'ey2'Trand()donde la función rand() devuelve algún número aleatorio.
Se ha encontrado beneficioso para la calidad de las señales reconstruidas optimizar el tamaño de los intervalosMk.En particular, los intervalos deben ser mayores si la señal es muy tonal, es decir, cuando tiene máximos espectrales claros y distintos. Este es el caso, por ejemplo, cuando la señal es armónica con una periodicidad clara. En otros casos en los que la señal tiene una estructura espectral menos pronunciada con máximos espectrales más amplios, se ha encontrado que la utilización de intervalos pequeños conduce a una mejor calidad. Este hallazgo conduce a una mejora adicional según la cual el tamaño del intervalo e se adapta según las propiedades de la señal. Una realización es utilizar un detector de tonalidad o periodicidad. Si este detector identifica la señal como tonal, el parámetro 5 que controla el tamaño del intervalo se establece en un valor relativamente grande. De lo contrario, el parámetro 5 se establece en valores relativamente más pequeños.
Con base en lo anterior, los procedimientos de ocultación de la pérdida de tramas de audio implican las siguientes etapas:
1. Analizar un segmento de la señal disponible, previamente sintetizada, para obtener las frecuencias sinusoidales constituyentesfkde un modelo sinusoidal, utilizando opcionalmente una estimación de frecuencia mejorada.
2. Extraer una trama prototipo y-1 de la señal disponible previamente sintetizada y calcular la DFT de esa trama.
3. Calcular el desfaseQkpara cada sinusoide k en respuesta a la frecuencia sinusoidalfky al avance de tiempon- 1entre la trama prototipo y la trama de sustitución. Opcionalmente en esta etapa se puede haber adaptado el tamaño del intervaloMen respuesta a la tonalidad de la señal de audio.
4. Para cada sinusoidekque avanza la fase de la DFT de la trama prototipo conQkselectivamente para los índices de la DFT relacionados con una proximidad alrededor de la frecuenciafkde la sinusoide.
5. Calcular la DFT inversa del espectro obtenido en la etapa 4.
Análisis y detección de propiedades de pérdida de señal y trama
Los procedimientos descritos anteriormente se basan en la suposición de que las propiedades de la señal de audio no cambian significativamente durante el breve período de tiempo desde la trama de señal recibida y reconstruida previamente y una trama perdida. En ese caso, es una muy buena opción retener el espectro de magnitud de la trama previamente reconstruida y evolucionar las fases de las componentes principales sinusoidales detectadas en la señal previamente reconstruida. Sin embargo, hay casos en los que esta suposición es incorrecta, por ejemplo, transitorios con cambios de energía repentinos o cambios espectrales repentinos.
Por consiguiente, una primera realización de un detector de transitorios, según la invención, puede basarse en variaciones de energía dentro de la señal previamente reconstruida. Este procedimiento, ilustrado en la figura 11, calcula la energía en una parte izquierda y una parte derecha de alguna trama de análisis113. La trama de análisis puede ser idéntica a la trama utilizada para el análisis sinusoidal descrito anteriormente. Una parte (izquierda o derecha) de la trama de análisis puede ser la primera o respectivamente la última mitad de la trama de análisis o, por ejemplo el primer o, respectivamente, el último, cuarto de la trama de análisis110. El cálculo de la energía respectiva se realiza sumando los cuadrados de las muestras en estas tramas parciales:
_ Y1 Aparte ^
<derec>= ^ n = Gy 2 ( n — -r )
yE<ha>tderedia
En este caso y(n) designa la trama de análisis,rnzquieidaynderechadesignan los respectivos índices de inicio de las tramas parciales que son ambas de tamañoNparte.
Ahora las energías de las tramas parciales izquierda y derecha se utilizan para la detección de una discontinuidad de señal. Esto se hace calculando la relación
Rl/r = Eizquierda / Ederecha.
Se puede detectar una discontinuidad con una disminución repentina de energía (desplazamiento) si la relaciónRi/rsupera algún umbral (por ejemplo, 10),115. De manera similar, se puede detectar una discontinuidad con un aumento repentino de energía (inicio) si la relaciónRwestá por debajo de algún otro umbral (por ejemplo, 0,1),117.
En el contexto de los procedimientos de ocultación descritos anteriormente, se ha descubierto que la relación de energía definida anteriormente puede ser, en muchos casos, un indicador demasiado inmune. En particular, en las señales reales y, especialmente, en la música, hay casos en los que un tono en alguna frecuencia aparece repentinamente mientras que otro tono en alguna otra frecuencia se detiene repentinamente. El análisis de una trama de señal de este tipo con la relación de energía definida anteriormente conduciría en cualquier caso a un resultado de detección erróneo para al menos uno de los tonos, puesto que este indicador es insensible a diferentes frecuencias.
Una solución a este problema se describe en la siguiente realización. La detección de transitorios se realiza ahora en el plano de tiempo y frecuencia. La trama de análisis se divide de nuevo en una trama parcial izquierda y una derecha,110. Aunque ahora, estos dos tramas parciales son (después de una creación de ventana adecuada con, por ejemplo, una ventana de Hamming,111) transformadas en el dominio de la frecuencia, por ejemplo por medio de una DFT de N<parte>-punto,112.
%quierda(^0D F T {y (ni^zquierda) parte
' 5 y
, siendom = 0 Nparte-1
A continuación, la detección de transitorios se puede realizar de manera selectiva en frecuencia para cada bin de la DFT con índice m. Utilizando las potencias de los espectros de magnitud de trama parcial izquierda y derecha, para cada índicemde la DFT se puede calcular una relación de energía113respectiva como
r
| derecha ( ) | |_os eXper¡ment0S muestran que la deteCCión de transitorios seleetivos de freCuenCia Con resolución de bin de la DFT es relativamente imprecisa debido a las fluctuaciones estadísticas (errores de estimación). Se encontró que la calidad de la operación mejora bastante cuando se realiza la detección de transitorios selectivos
en frecuencia sobre la base de bandas de frecuencia. Sea que * — especifica el intervalo de orden k,k=1...K,cubriendo los bins de la DFT desde mk-1 1 hastamk,entonces estos intervalos definirKbandas de frecuencia. La detección transitoria selectiva del grupo de frecuencias ahora se puede basar en la relación de banda entre las energías de banda respectivas de las tramas parciales izquierda y derecha:
de frecuencias
|7rt£_2^1 ^ ,J ^ k _ m fi
Bu<L>AHparte' Js> Ar,v parte' Jsl
donde fs designa la frecuencia de muestreo de audio.
El límite inferior de la banda de frecuencias más baja, m<o>, se puede establecer en 0, pero también se puede establecer en un índice de la DFT correspondiente a una frecuencia mayor para mitigar los errores de estimación que aumentan con las frecuencias más bajas. El límite superior de la banda de frecuencia más altamkse puede configurar en N<parte>/2 pero se elige, preferentemente, para que corresponda a alguna frecuencia más baja en la que un transitorio todavía tiene un efecto audible significativo.
Una opción adecuada para estos tamaños o anchos de banda de frecuencia es hacerlos del mismo tamaño, por ejemplo un ancho de varios 100 Hz. Otro modo preferido es hacer que los anchos de banda de frecuencia sigan el tamaño de las bandas críticas auditivas humanas, es decir, relacionarlos con la resolución de frecuencia del sistema auditivo. Esto significa aproximadamente igualar los anchos de banda de frecuencia para frecuencias de hasta 1 kHz, y aumentarlos exponencialmente por encima de 1 kHz. Un aumento exponencial significa, por ejemplo, duplicar el ancho de banda de frecuencias al incrementar el índice de banda k.
Tal como se ha descrito en la primera realización del detector de transitorios que estaba basado en una relación de energía de dos tramas parciales, cualquiera de las relaciones relacionadas con las energías de banda o las energías de bin de la DFT de dos tramas parciales se comparan con ciertos umbrales. Se utiliza un umbral superior respectivo para la detección de desplazamiento115(selectivo en frecuencia) y un umbral inferior respectivo para la detección de inicio117(selectivo en frecuencia).
Otro indicador dependiente de la señal de audio que es adecuado para una adaptación del procedimiento de ocultación de la pérdida de trama puede basarse en los parámetros del códec transmitidos al descodificador. Por ejemplo, el códec puede ser un códec multimodo, tal como según el estándar ITU-T G.718. Dicho códec puede utilizar modos de códec particulares para diferentes tipos de señales y un cambio del modo de códec en una trama poco antes de la pérdida de trama puede considerarse como un indicador de un transitorio.
Otro indicador útil para la adaptación de la ocultación de la pérdida de tramas es un parámetro de códec relacionado con una propiedad de sonorización y la señal transmitida. La sonorización se relaciona con la voz altamente periódica que se genera por una excitación glótica periódica del tracto vocal humano.
Otro indicador preferido es si se estima que el contenido de la señal es música o voz. Dicho indicador se puede obtener de un clasificador de señal que habitualmente puede formar parte del códec. En caso de que el códec realice dicha clasificación y ponga a disposición del descodificador una decisión de clasificación correspondiente como parámetro de codificación, este parámetro se utiliza preferentemente como indicador de contenido de señal para adaptar el procedimiento de ocultación de la pérdida de trama.
Otro indicador que se utiliza preferentemente para la adaptación de los procedimientos de ocultación de la pérdida de tramas es el carácter de ráfaga de las pérdidas de tramas. El carácter de ráfaga de las pérdidas de tramas significa que se producen varias pérdidas de tramas seguidas, lo que dificulta que el procedimiento de ocultación de la pérdida de tramas utilice porciones de señal válidas recientemente descodificadas para su funcionamiento. Un indicador de la técnica anterior es el númeronráfagade pérdidas de trama observadas seguidas. Este contador se incrementa en uno con cada pérdida de trama y se restablece a cero con la recepción de una trama válida. Este indicador también se utiliza en el contexto de las presentes realizaciones de ejemplo de la invención.
Adaptación del procedimiento de ocultación de la pérdida de tramas
En caso de que las etapas realizadas anteriormente indiquen una condición que sugiera una adaptación de la operación de ocultación de la pérdida de trama, se modifica el cálculo del espectro de la trama de sustitución.
Si bien el cálculo original del espectro de la trama de sustitución se realiza según la expresión m ) —' e >Je k,., ahora se introduce una adaptación modificando tanto la magnitud como la fase. La magnitud se modifica mediante escalado con dos factores a(m) yfi(m)y la fase se modifica con un componente de fase aditivo -9(m). Esto conduce al siguiente cálculo modificado de la trama de sustitución:
Cabe señalar que los procedimientos originales (no adaptados) de ocultación de la pérdida de tramas se utilizan sia {m ) =1,p (n t)= 1, and>%m)= 0. p0r lo tanto, estos valores respectivos son los predeterminados.
El objetivo general con la introducción de adaptaciones de magnitud es evitar artefactos audibles del procedimiento de ocultación de la pérdida de tramas. Dichos artefactos pueden ser sonidos musicales o tonales o sonidos extraños que surgen de repeticiones de sonidos transitorios. Dichos artefactos conducirían a su vez a degradaciones de la calidad, cuya evitación es el objetivo de las adaptaciones descritas. Un modo adecuado de dichas adaptaciones es modificar el espectro de magnitud de la trama de sustitución en un grado adecuado.
La figura 12 ilustra una realización de modificación del procedimiento de ocultación. La adaptación de la magnitud,123, se realiza preferentemente si el contador de pérdidas en ráfagasnráfagasupera algún umbralthrá a g a ,por ejemplothrráfaga= 3,121. En ese caso, se utiliza un valor inferior a 1 para el factor de atenuación, por ejemplo a(m) = 0,1.
Sin embargo, se ha encontrado que es beneficioso realizar la atenuación con un grado gradualmente creciente. Una realización preferida que consigue esto es definir un parámetro logarítmico que especifica un aumento logarítmico en la atenuación por cada trama,att_per_frame.A continuación, en caso de que el contador de ráfagas exceda el umbral, el factor de atenuación que aumenta gradualmente se calcula mediante
a ( m )<= i o c '>att-Per-frame'(n' ^~lhrTát<ac>
En este caso, la constante c es simplemente una constante de escala que permite especificar el parámetroatt_per_frame,por ejemplo, en decibelios (dB).
Se realiza una adaptación preferida adicional en respuesta al indicador de si se estima que la señal es música o voz. Para el contenido de música en comparación con el contenido de voz, es preferente aumentar el umbralthráfagay disminuir la atenuación por cada trama. Esto es equivalente a realizar la adaptación del procedimiento de ocultación de la pérdida de trama con un grado inferior. Los antecedentes de este tipo de adaptación son que la música es, en general, menos sensible a las ráfagas de pérdida más largas que la voz. Por lo tanto, el original, es decir, el procedimiento de ocultación de la pérdida de tramas sin modificar sigue siendo preferente para este caso, al menos para un mayor número de pérdidas de tramas seguidas.
Otra adaptación del procedimiento de ocultación con respecto al factor de atenuación de magnitud se realiza preferentemente en caso de que se haya detectado un transitorio basado en que el indicadorRi/r,banda(k)o alternativamenteR/ r (m)oR/ rhan pasado un umbral,122. En ese caso, una acción de adaptación adecuada,125, es modificar el segundo factor de atenuación de magnitud¡3(m) de modo que la atenuación total esté controlada por el producto de los dos factoresa (m ) f i ( m )
P(m)se establece en respuesta a un transitorio indicado. En caso de que se detecte un desplazamiento, el factorfi(m)se elige preferentemente para reflejar la disminución de energía del desplazamiento. Una opción adecuada es establecerfi(m)para el cambio de ganancia detectado:
p(m )= VKyr.i— ( * ) , param e l k, k =1...K
En caso de que se detecte un inicio, se considera ventajoso limitar el aumento de energía en la trama de sustitución. En ese caso, el factor se puede establecer en un valor fijo de, por ejemplo 1, lo que significa que no hay atenuación pero tampoco amplificación.
En lo anterior, se debe observar que el factor de atenuación de magnitud se aplica preferentemente de manera selectiva en frecuencia, es decir, con factores calculados individualmente para cada banda de frecuencias. En caso de que no se utilice el enfoque de banda, los factores de atenuación de magnitud correspondientes aún pueden obtenerse de manera analógica.f i(m)se puede configurar individualmente para cada bin de la DFT en caso de que se utilice la detección transitoria selectiva de frecuencias en el nivel del bin de la DFT. O bien, en caso de que no se utilice ninguna indicación de transitorios selectivos en frecuencia,f i(m )puede ser globalmente idéntico para todos losm.
Otra adaptación preferida del factor de atenuación de la magnitud se realiza junto con una modificación de la fase por medio del componente de fase adicionald(m)127. En caso de que se utilice dicha modificación de fase para unmdeterminado, el factor de atenuaciónf i(m)se reduce aún más. Preferentemente, se tiene en cuenta incluso el grado de modificación de fase. Si la modificación de fase es solo moderada,f i (m )solo se reduce ligeramente, mientras que si la modificación de fase es grande,f i (m )se reduce en un grado mayor.
El objetivo general con la introducción de adaptaciones de fase es evitar una tonalidad demasiado fuerte o una periodicidad de la señal en las tramas de sustitución generadas, lo que a su vez conduciría a degradaciones de la calidad. Un modo adecuado de dichas adaptaciones es aleatorizar o difuminar la fase en un grado adecuado.
Dicho difuminado de fase se consigue si el componente de fase adicionald(m)se establece en un valor aleatorio escalado con algún factor de control: = ' rand0 )
El valor aleatorio obtenido por la función rand( ) es, por ejemplo, generado por algún generador de números pseudoaleatorios. En este caso, se supone que proporciona un número aleatorio dentro del intervalo [0, 2n].
El factor de escalaa(m )en la ecuación anterior controla el grado en el que se altera la fase originalGk.Las siguientes realizaciones abordan la adaptación de fase por medio del control de este factor de escala. El control del factor de escala se realiza de manera análoga al control de los factores de modificación de magnitud descritos anteriormente.
Según una primera realización, el factor de escalaa(m)se adapta en respuesta al contador de pérdidas en ráfagas. Si el contador de pérdidas en ráfagasnráfagasupera algún umbralthrráfaga,por ejemplothrráfaga= 3, se utiliza un valor mayor que 0, por ejemplo a(m) = 0,2.
Sin embargo, se ha encontrado que es beneficioso realizar el difuminado con un grado gradualmente creciente. Una realización preferida que consigue esto es definir un parámetro que especifica un aumento en el difuminado por cada trama,dith_increase_per_frame.Entonces, en el caso de que el contador de ráfagas supere el umbral, el factor de control del difuminado que aumenta gradualmente se calcula mediante
Cl(_TTl'j= ^^^^¡ncr»nertoporca<Jatrana ' (HráfagatflT~ráfaga )
Cabe señalar en la fórmula anterior quea(m)se tiene que limitar a un valor máximo de 1 para que se consiga el difuminado de fase completa.
Cabe señalar que el valor umbral de pérdida de ráfagathrráfagautilizado para iniciar el difuminado de fase puede ser el mismo umbral que el utilizado para la atenuación de la magnitud. Sin embargo, se puede obtener una mejor calidad estableciendo estos umbrales en valores óptimos individuales, lo que, en general, significa que estos umbrales pueden ser diferentes.
Se realiza una adaptación preferida adicional en respuesta al indicador de si se estima que la señal es música o voz. Para el contenido de música en comparación con el contenido de voz, es preferente aumentar el umbralthrráfaga,lo que significa que el difuminado de fase para la música en comparación con el habla se realiza solo en caso de que se pierdan más tramas seguidas. Esto es equivalente a realizar la adaptación del procedimiento de ocultación de la pérdida de tramas para música con un grado inferior. Los antecedentes de este tipo de adaptación son que la música es, en general, menos sensible a las ráfagas de pérdida más largas que la voz. Por lo tanto, el procedimiento de ocultación de la pérdida de tramas original, es decir, no modificado, sigue siendo preferente para este caso, al menos para un mayor número de pérdidas de tramas seguidas.
Otra realización preferente es adaptar el difuminado de fase en respuesta a un transitorio detectado. En ese caso, se puede utilizar un mayor grado de difuminado de fase para losmbins de la DFT para los que se indica un transitorio, ya sea para ese bin, los bins de la DFT de la banda de frecuencia correspondiente o de la trama completa.
Parte de los esquemas descritos optimizan la dirección del procedimiento de ocultación de la pérdida de tramas para señales armónicas y, en particular, para conversación de voz.
En caso de que los procedimientos que utilizan una estimación de frecuencia mejorada, tales como los descritos anteriormente no se lleven a cabo, otra posibilidad de adaptación para el procedimiento de ocultación de la pérdida de tramas que optimiza la calidad de las señales de voz sonora es cambiar a algún otro procedimiento de ocultación de la pérdida de tramas que esté específicamente diseñado y optimizado para voz en lugar de para las señales de audio generales que contienen música y voz. En ese caso, el indicador de que la señal comprende una señal de voz sonora se utiliza para seleccionar otro esquema optimizado de ocultación de la pérdida de tramas para voz en lugar de los esquemas descritos anteriormente.
Las realizaciones se aplican a un controlador en un descodificador, tal como se ilustra en la figura 13. La figura 13 es un diagrama de bloques esquemático de un descodificador según las realizaciones. El descodificador130comprende una unidad de entrada132configurada para recibir una señal de audio codificada. La figura ilustra la ocultación de la pérdida de tramas mediante una unidad de ocultación de la pérdida de tramas lógica134, lo que indica que el descodificador está configurado para implementar una ocultación de una trama de audio perdida, según las realizaciones descritas anteriormente. Además, el descodificador comprende un controlador136para implementar las realizaciones descritas anteriormente. El controlador136está configurado para detectar condiciones en las propiedades de la señal de audio previamente recibida y reconstruida o en las propiedades estadísticas de las pérdidas de trama observadas para las que la sustitución de una trama perdida según los procedimientos descritos proporciona una calidad relativamente reducida. En caso de que se detecte dicha condición, el controlador136está configurado para modificar el elemento de los procedimientos de ocultación según los cuales el espectro de la trama de sustitución se calcula medianteZ(m )=Y(m ) eJBkajustando selectivamente las fases o las magnitudes del espectro. La detección puede ser realizada mediante una unidad de detección146y la modificación puede ser realizada mediante una unidad de modificación148tal como se ilustra en la figura 14.
El descodificador con sus unidades incluidas podría ser implementado en hardware. Hay numerosas variantes de elementos de circuitería que se pueden utilizar y combinar para conseguir las funciones de las unidades del descodificador. Dichas variantes están abarcadas por las realizaciones. Ejemplos particulares de implementación de hardware del descodificador es la implementación en hardware de procesador de señal digital (Digital Signal Processor, DSP) y tecnología de circuitos integrados, que incluye tanto circuitos electrónicos de propósito general como circuitos específicos de aplicaciones.
El descodificador150descrito en el presente documento podría ser implementado alternativamente, por ejemplo tal como se ilustra en la figura 15, es decir, mediante uno o más procesadores154y software155adecuados con almacenamiento o memoria156adecuados por lo tanto, para reconstruir la señal de audio, que incluye realizar la ocultación de la pérdida de tramas de audio según las realizaciones descritas en el presente documento, tal como se muestra en la figura 13. La señal de audio codificada entrante es recibida por una entrada (IN)152, a la que están conectados el procesador154y la memoria156. La señal de audio descodificada y reconstruida obtenida del software se emite desde la salida (OUT)158.
La tecnología descrita anteriormente se puede utilizar, por ejemplo en un receptor, que se puede utilizar en un dispositivo móvil (por ejemplo, un teléfono móvil, un ordenador portátil) o un dispositivo estacionario, tal como un ordenador personal.
Se debe entender que la elección de las unidades o módulos que interactúan, así como la denominación de las unidades son solo para fines de ejemplo, y pueden ser configuradas en una pluralidad de modos alternativos para poder ejecutar las acciones del proceso dado a conocer.
Cabe señalar, asimismo, que las unidades o módulos descritos en esta invención deben ser consideradas como entidades lógicas y no necesariamente como entidades físicas separadas. Se apreciará que el alcance de la tecnología dada a conocer en el presente documento abarca completamente otras realizaciones que pueden resultar evidentes para los expertos en la materia y que, por consiguiente, el alcance de esta invención no debe estar limitado.
La referencia a un elemento en singular no pretende significar “uno y solo uno” a menos que se declare explícitamente así, sino más bien “uno o más”. Además, no es necesario que un dispositivo o procedimiento aborde todos y cada uno de los problemas que se busca resolver mediante la tecnología descrita en el presente documento, para que esté abarcado en el presente documento.
En la descripción anterior, con fines de explicación y no de limitación, los detalles específicos se establecen como arquitecturas particulares, interfaces, técnicas, etc. para proporcionar una comprensión completa de la tecnología dada a conocer. Sin embargo, será evidente para los expertos en la materia que la tecnología dada a conocer se puede poner en práctica en otras realizaciones y/o combinaciones de realizaciones que se apartan de estos detalles específicos. Es decir, los expertos en la materia serán capaces de idear diversas disposiciones que, aunque no se describan o muestren explícitamente en el presente documento, incorporan los principios de la tecnología dada a conocer. En algunos casos, se omiten descripciones detalladas de dispositivos, circuitos y procedimientos bien conocidos para no oscurecer la descripción de la tecnología dada a conocer con detalles innecesarios.

Claims (15)

REIVINDICACIONES
1. Un procedimiento para la adaptación de un procedimiento de ocultación de la pérdida de tramas en la descodificación de audio, comprendiendo el procedimiento:
- analizar (101, 122) una señal de audio recibida previamente para realizar una detección de transitorios selectiva en frecuencia sobre la base de bandas de frecuencia;
- modificar (102, 125) el procedimiento de ocultación de la pérdida de tramas por banda de frecuencia ajustando selectivamente una magnitud de espectro de un espectro de la trama de sustitución en respuesta a un transitorio detectado en la banda de frecuencias;
- detectar (101, 121) una pérdida de ráfaga con varias pérdidas de tramas consecutivas; y
- modificar adicionalmente (102, 123) el procedimiento de ocultación de la pérdida de tramas ajustando selectivamente la magnitud del espectro de la trama de sustitución en respuesta a la pérdida de ráfaga detectada.
2. El procedimiento según la reivindicación 1, en el que la detección de transitorios se basa en una relación en el sentido de la banda entre las respectivas energías de banda de las tramas parciales izquierda y derecha.
3. El procedimiento según la reivindicación 1, en el que la magnitud del espectro es ajustada en respuesta a la pérdida de ráfaga detectada realizando atenuación con un grado que aumenta gradualmente.
4. El procedimiento según cualquiera de las reivindicaciones anteriores, en el que el procedimiento de ocultación de la pérdida de tramas se modifica adicionalmente ajustando selectivamente una fase del espectro de la trama de sustitución.
5. El procedimiento según la reivindicación 4, en el que la fase del espectro de la trama de sustitución es ajustada si un número de tramas perdidas supera un umbral determinado.
6. El procedimiento según la reivindicación 4 o 5, en el que el ajuste de la fase del espectro de la trama de sustitución comprende aleatorizar o difuminar un espectro de fase.
7. El procedimiento según la reivindicación 6, en el que el espectro de fase se ajusta realizando el difuminado con un grado que aumenta gradualmente.
8. Un aparato para la adaptación de un procedimiento de ocultación de la pérdida de tramas en la descodificación de audio, estando configurado el aparato para:
- analizar una señal de audio recibida previamente para realizar una detección transitoria selectiva de frecuencia sobre la base de las bandas de frecuencia;
- modificar el procedimiento de ocultación de la pérdida de tramas ajustando la banda de frecuencias selectivamente una magnitud de espectro de un espectro de la trama de sustitución en respuesta a un transitorio detectado en la banda de frecuencias;
- detectar una pérdida de ráfaga con varias pérdidas de tramas consecutivas; y
- modificar aún más el procedimiento de ocultación de la pérdida de tramas ajustando selectivamente la magnitud de espectro del espectro de la trama de sustitución en respuesta a la pérdida de ráfaga detectada.
9. El aparato según la reivindicación 8, en el que la detección de transitorios se basa en la relación de banda entre las respectivas energías de banda de las tramas parciales izquierda y derecha.
10. El aparato según la reivindicación 8, configurado, además, para ajustar la magnitud del espectro en respuesta a la pérdida de ráfaga detectada realizando atenuación con un grado que aumenta gradualmente.
11. El aparato según cualquiera de las reivindicaciones 8 a 10, configurado para modificar aún más el procedimiento de ocultación de la pérdida de tramas ajustando selectivamente una fase del espectro de la trama de sustitución.
12. El aparato según la reivindicación 11, configurado para ajustar la fase del espectro de la trama de sustitución si un número de tramas perdidas supera un umbral determinado.
13. El aparato según la reivindicación 11 o 12, en el que ajustar la fase del espectro de la trama de sustitución comprende aleatorizar o difuminar un espectro de fase.
14. El aparato según cualquiera de las reivindicaciones 8 a 13, en el que el aparato es un descodificador en un dispositivo móvil.
15. Un programa informático (155), que comprende instrucciones que, cuando son ejecutadas en un aparato, hacen que el aparato lleve a cabo el procedimiento según cualquiera de las reivindicaciones 1 a 7.
ES21162222T 2013-02-05 2014-01-22 Procedimiento y aparato para controlar la ocultación de la pérdida de tramas de audio Active ES2964807T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361760822P 2013-02-05 2013-02-05
US201361760814P 2013-02-05 2013-02-05
US201361761051P 2013-02-05 2013-02-05

Publications (1)

Publication Number Publication Date
ES2964807T3 true ES2964807T3 (es) 2024-04-09

Family

ID=50114514

Family Applications (5)

Application Number Title Priority Date Filing Date
ES21162222T Active ES2964807T3 (es) 2013-02-05 2014-01-22 Procedimiento y aparato para controlar la ocultación de la pérdida de tramas de audio
ES19178384T Active ES2881510T3 (es) 2013-02-05 2014-01-22 Método y aparato para controlar la ocultación de pérdida de trama de audio
ES23202489T Active ES3036851T3 (en) 2013-02-05 2014-01-22 Method and appartus for controlling audio frame loss concealment
ES14704935.7T Active ES2603827T3 (es) 2013-02-05 2014-01-22 Método y aparato para controlar la ocultación de pérdida de trama de audio
ES16183917T Active ES2750783T3 (es) 2013-02-05 2014-01-22 Procedimiento y aparato para controlar la ocultación de pérdida de trama de audio

Family Applications After (4)

Application Number Title Priority Date Filing Date
ES19178384T Active ES2881510T3 (es) 2013-02-05 2014-01-22 Método y aparato para controlar la ocultación de pérdida de trama de audio
ES23202489T Active ES3036851T3 (en) 2013-02-05 2014-01-22 Method and appartus for controlling audio frame loss concealment
ES14704935.7T Active ES2603827T3 (es) 2013-02-05 2014-01-22 Método y aparato para controlar la ocultación de pérdida de trama de audio
ES16183917T Active ES2750783T3 (es) 2013-02-05 2014-01-22 Procedimiento y aparato para controlar la ocultación de pérdida de trama de audio

Country Status (20)

Country Link
US (6) US9293144B2 (es)
EP (5) EP3561808B1 (es)
JP (3) JP6069526B2 (es)
KR (4) KR102349025B1 (es)
CN (3) CN104969290B (es)
AU (5) AU2014215734B2 (es)
BR (1) BR112015018316B1 (es)
CA (2) CA2978416C (es)
DK (2) DK3125239T3 (es)
ES (5) ES2964807T3 (es)
MX (3) MX2021000353A (es)
MY (2) MY198868A (es)
NZ (2) NZ739387A (es)
PH (4) PH12020500243A1 (es)
PL (2) PL3125239T3 (es)
PT (2) PT2954518T (es)
RU (3) RU2628144C2 (es)
SG (3) SG10201700846UA (es)
WO (1) WO2014123471A1 (es)
ZA (1) ZA201504881B (es)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112015017222B1 (pt) 2013-02-05 2021-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Método e decodificador configurado para ocultar um quadro de áudio perdido de um sinal de áudio recebido, receptor, e, meio legível por computador
WO2014123469A1 (en) 2013-02-05 2014-08-14 Telefonaktiebolaget L M Ericsson (Publ) Enhanced audio frame loss concealment
NO2780522T3 (es) 2014-05-15 2018-06-09
CN111312261B (zh) 2014-06-13 2023-12-05 瑞典爱立信有限公司 突发帧错误处理
US10373608B2 (en) 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
CA3016837C (en) 2016-03-07 2021-09-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Hybrid concealment method: combination of frequency and time domain packet loss concealment in audio codecs
MX384925B (es) * 2016-03-07 2025-03-11 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio y método relacionado y programa de computadora que desaparece una trama de audio ocultada de acuerdo con factores de amortiguamiento diferentes para bandas de frecuencia diferentes.
MX386551B (es) 2016-03-07 2025-03-19 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente.
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
US20190074805A1 (en) * 2017-09-07 2019-03-07 Cirrus Logic International Semiconductor Ltd. Transient Detection for Speaker Distortion Reduction
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2020126120A1 (en) 2018-12-20 2020-06-25 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for controlling multichannel audio frame loss concealment
CN111402904B (zh) * 2018-12-28 2023-12-01 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
CN109887515B (zh) * 2019-01-29 2021-07-09 北京市商汤科技开发有限公司 音频处理方法及装置、电子设备和存储介质
ES3021337T3 (en) * 2019-02-21 2025-05-26 Ericsson Telefon Ab L M Spectral shape estimation from mdct coefficients
US12437770B2 (en) 2019-03-25 2025-10-07 Razer (Asia-Pacific) Pte. Ltd. Method and apparatus for using incremental search sequence in audio error concealment
ES3017157T3 (en) 2019-06-13 2025-05-12 Ericsson Telefon Ab L M Time reversed audio subframe error concealment
CN111883173B (zh) * 2020-03-20 2023-09-12 珠海市杰理科技股份有限公司 基于神经网络的音频丢包修复方法、设备和系统
US12562174B2 (en) 2020-11-26 2026-02-24 Telefonaktiebolaget Lm Ericsson (Publ) Noise suppression logic in error concealment unit using noise-to-signal ratio
US20240313886A1 (en) * 2023-03-17 2024-09-19 Mediatek Inc. Signal loss compensation method
CN121263837A (zh) 2023-06-08 2026-01-02 瑞典爱立信有限公司 用于分组丢失隐藏的正弦识别的方法和设备

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06130999A (ja) * 1992-10-22 1994-05-13 Oki Electric Ind Co Ltd コード励振線形予測復号化装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
WO1997019444A1 (en) * 1995-11-22 1997-05-29 Philips Electronics N.V. Method and device for resynthesizing a speech signal
JP3617503B2 (ja) * 1996-10-18 2005-02-09 三菱電機株式会社 音声復号化方法
KR100361883B1 (ko) * 1997-10-03 2003-01-24 마츠시타 덴끼 산교 가부시키가이샤 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
JP3567750B2 (ja) * 1998-08-10 2004-09-22 株式会社日立製作所 圧縮音声再生方法及び圧縮音声再生装置
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6988236B2 (en) * 2000-04-07 2006-01-17 Broadcom Corporation Method for selecting frame encoding parameters in a frame-based communications network
US6996521B2 (en) * 2000-10-04 2006-02-07 The University Of Miami Auxiliary channel masking in an audio signal
JP2002229593A (ja) * 2001-02-06 2002-08-16 Matsushita Electric Ind Co Ltd 音声信号復号化処理方法
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
JPWO2002071389A1 (ja) * 2001-03-06 2004-07-02 株式会社エヌ・ティ・ティ・ドコモ オーディオデータ補間装置および方法、オーディオデータ関連情報作成装置および方法、オーディオデータ補間情報送信装置および方法、ならびにそれらのプログラムおよび記録媒体
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4215448B2 (ja) * 2002-04-19 2009-01-28 日本電気株式会社 音声復号装置及び音声復号方法
US20040122680A1 (en) 2002-12-18 2004-06-24 Mcgowan James William Method and apparatus for providing coder independent packet replacement
US6985856B2 (en) 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
EP1589330B1 (en) 2003-01-30 2009-04-22 Fujitsu Limited Audio packet vanishment concealing device, audio packet vanishment concealing method, reception terminal, and audio communication system
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
CN100576318C (zh) * 2003-05-14 2009-12-30 冲电气工业株式会社 用于隐藏被擦除的周期信号数据的装置与方法
CN100508030C (zh) * 2003-06-30 2009-07-01 皇家飞利浦电子股份有限公司 一种编码/解码音频信号的方法及相应设备
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US7079251B2 (en) * 2003-10-16 2006-07-18 4D Technology Corporation Calibration and error correction in multi-channel imaging
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US7324937B2 (en) * 2003-10-24 2008-01-29 Broadcom Corporation Method for packet loss and/or frame erasure concealment in a voice communication system
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN1930607B (zh) * 2004-03-05 2010-11-10 松下电器产业株式会社 差错隐藏装置以及差错隐藏方法
US8725501B2 (en) * 2004-07-20 2014-05-13 Panasonic Corporation Audio decoding device and compensation frame generation method
US7930184B2 (en) 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
US7734381B2 (en) * 2004-12-13 2010-06-08 Innovive, Inc. Controller for regulating airflow in rodent containment system
EP1846921B1 (en) * 2005-01-31 2017-10-04 Skype Method for concatenating frames in communication system
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
WO2006128144A2 (en) * 2005-05-26 2006-11-30 Groove Mobile, Inc. Systems and methods for high resolution signal analysis
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
US7457746B2 (en) * 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
US8358704B2 (en) * 2006-04-04 2013-01-22 Qualcomm Incorporated Frame level multimedia decoding with frame information table
DE102006017280A1 (de) * 2006-04-12 2007-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals
US8024192B2 (en) 2006-08-15 2011-09-20 Broadcom Corporation Time-warping of decoded audio signal after packet loss
JP2008058667A (ja) 2006-08-31 2008-03-13 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム
FR2907586A1 (fr) 2006-10-20 2008-04-25 France Telecom Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch.
PL3848928T3 (pl) 2006-10-25 2023-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób do generowania wartości podpasm audio o wartościach zespolonych
US7991612B2 (en) * 2006-11-09 2011-08-02 Sony Computer Entertainment Inc. Low complexity no delay reconstruction of missing packets for LPC decoder
AU2007318506B2 (en) 2006-11-10 2012-03-08 Iii Holdings 12, Llc Parameter decoding device, parameter encoding device, and parameter decoding method
RU2459283C2 (ru) * 2007-03-02 2012-08-20 Панасоник Корпорэйшн Кодирующее устройство, декодирующее устройство и способ
US20090198500A1 (en) * 2007-08-24 2009-08-06 Qualcomm Incorporated Temporal masking in audio coding based on spectral dynamics in frequency sub-bands
EP2037449B1 (en) * 2007-09-11 2017-11-01 Deutsche Telekom AG Method and system for the integral and diagnostic assessment of listening speech quality
CN101207665B (zh) * 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
CN101261833B (zh) * 2008-01-24 2011-04-27 清华大学 一种使用正弦模型进行音频错误隐藏处理的方法
CN101308660B (zh) * 2008-07-07 2011-07-20 浙江大学 一种音频压缩流的解码端错误恢复方法
CN102222505B (zh) 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
US20150051452A1 (en) * 2011-04-26 2015-02-19 The Trustees Of Columbia University In The City Of New York Apparatus, method and computer-accessible medium for transform analysis of biomedical data
WO2012158159A1 (en) 2011-05-16 2012-11-22 Google Inc. Packet loss concealment for audio codec
US9053699B2 (en) * 2012-07-10 2015-06-09 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
BR112015017222B1 (pt) * 2013-02-05 2021-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Método e decodificador configurado para ocultar um quadro de áudio perdido de um sinal de áudio recebido, receptor, e, meio legível por computador
CN111312261B (zh) * 2014-06-13 2023-12-05 瑞典爱立信有限公司 突发帧错误处理
US10943072B1 (en) * 2019-11-27 2021-03-09 ConverSight.ai, Inc. Contextual and intent based natural language processing system and method
CN117059068A (zh) * 2022-05-07 2023-11-14 腾讯科技(深圳)有限公司 语音处理方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
NZ739387A (en) 2020-03-27
RU2728832C2 (ru) 2020-07-31
EP3561808B1 (en) 2021-03-31
AU2021212049A1 (en) 2021-08-26
PH12015501507A1 (en) 2015-09-28
PL3125239T3 (pl) 2019-12-31
PT3125239T (pt) 2019-09-12
EP2954518B1 (en) 2016-08-31
RU2020122689A3 (es) 2022-01-10
CN108831490B (zh) 2023-05-02
ES2750783T3 (es) 2020-03-27
ES2603827T3 (es) 2017-03-01
US20220375480A1 (en) 2022-11-24
CA2978416C (en) 2019-06-18
JP6698792B2 (ja) 2020-05-27
KR20200052983A (ko) 2020-05-15
AU2016225836A1 (en) 2016-10-06
US10332528B2 (en) 2019-06-25
US9721574B2 (en) 2017-08-01
HK1258094A1 (zh) 2019-11-01
ZA201504881B (en) 2016-12-21
CN104969290A (zh) 2015-10-07
KR20160045917A (ko) 2016-04-27
WO2014123471A1 (en) 2014-08-14
US20150228287A1 (en) 2015-08-13
PH12018500083A1 (en) 2019-06-10
AU2021212049B2 (en) 2023-02-16
MX2020001307A (es) 2021-01-12
EP3561808A1 (en) 2019-10-30
EP3125239B1 (en) 2019-07-17
PH12018500083B1 (en) 2019-06-10
SG10201700846UA (en) 2017-03-30
CN104969290B (zh) 2018-07-31
MX2021000353A (es) 2023-02-24
JP6069526B2 (ja) 2017-02-01
RU2017124644A (ru) 2019-01-30
US12579988B2 (en) 2026-03-17
KR20150108937A (ko) 2015-09-30
MX344550B (es) 2016-12-20
PH12020500243A1 (en) 2022-04-18
US20160155446A1 (en) 2016-06-02
BR112015018316A2 (pt) 2017-07-18
MY198868A (en) 2023-10-02
BR112015018316B1 (pt) 2022-03-08
US11437047B2 (en) 2022-09-06
PT2954518T (pt) 2016-12-01
EP4322159A2 (en) 2024-02-14
EP3855430A1 (en) 2021-07-28
MX378911B (es) 2025-03-10
CA2978416A1 (en) 2014-08-14
DK3125239T3 (da) 2019-08-19
AU2018203449A1 (en) 2018-06-07
AU2014215734A1 (en) 2015-08-06
KR102238376B1 (ko) 2021-04-08
NZ710308A (en) 2018-02-23
AU2020200577A1 (en) 2020-02-13
HK1210315A1 (en) 2016-04-15
US20170287494A1 (en) 2017-10-05
RU2015137708A (ru) 2017-03-10
JP2019061254A (ja) 2019-04-18
EP3855430B1 (en) 2023-10-18
EP4322159C0 (en) 2025-07-09
RU2020122689A (ru) 2022-01-10
RU2628144C2 (ru) 2017-08-15
US9293144B2 (en) 2016-03-22
MY170368A (en) 2019-07-24
JP2016510432A (ja) 2016-04-07
PL3561808T3 (pl) 2021-10-04
US10559314B2 (en) 2020-02-11
JP6440674B2 (ja) 2018-12-19
SG10202106262SA (en) 2021-07-29
ES2881510T3 (es) 2021-11-29
EP3855430C0 (en) 2023-10-18
CA2900354C (en) 2017-10-24
AU2014215734B2 (en) 2016-08-11
EP4322159A3 (en) 2024-04-17
KR102110212B1 (ko) 2020-05-13
RU2017124644A3 (es) 2020-05-27
KR102349025B1 (ko) 2022-01-07
CN108899038A (zh) 2018-11-27
DK3561808T3 (da) 2021-05-03
CN108831490A (zh) 2018-11-16
KR20210041107A (ko) 2021-04-14
EP3125239A1 (en) 2017-02-01
SG11201505231VA (en) 2015-08-28
PH12018500600A1 (en) 2019-06-10
ES3036851T3 (en) 2025-09-24
US20190267011A1 (en) 2019-08-29
EP4322159B1 (en) 2025-07-09
JP2017097365A (ja) 2017-06-01
PH12018500600B1 (en) 2019-06-10
AU2016225836B2 (en) 2018-06-21
CA2900354A1 (en) 2014-08-14
AU2020200577B2 (en) 2021-08-05
PH12015501507B1 (en) 2018-08-31
MX2015009210A (es) 2015-11-25
AU2018203449B2 (en) 2020-01-02
EP2954518A1 (en) 2015-12-16
US20200126567A1 (en) 2020-04-23
CN108899038B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
ES2964807T3 (es) Procedimiento y aparato para controlar la ocultación de la pérdida de tramas de audio
US12159635B2 (en) Burst frame error handling
HK1210315B (en) Method and apparatus for controlling audio frame loss concealment