ES3025975T3 - Method and apparatus for processing of audio using a neural network - Google Patents

Method and apparatus for processing of audio using a neural network Download PDF

Info

Publication number
ES3025975T3
ES3025975T3 ES21798908T ES21798908T ES3025975T3 ES 3025975 T3 ES3025975 T3 ES 3025975T3 ES 21798908 T ES21798908 T ES 21798908T ES 21798908 T ES21798908 T ES 21798908T ES 3025975 T3 ES3025975 T3 ES 3025975T3
Authority
ES
Spain
Prior art keywords
audio signal
perceptual domain
neural network
domain
perceptual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES21798908T
Other languages
English (en)
Inventor
Mark S Vinton
Cong Zhou
Roy M Fejgin
Grant A Davidson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES3025975T3 publication Critical patent/ES3025975T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

Se describe un método para procesar una señal de audio mediante una red neuronal o mediante una primera y una segunda red neuronal. También se describe un método para entrenar dicha red neuronal o para entrenar conjuntamente un conjunto de dichas redes. Asimismo, se describe un método para obtener y transmitir una representación del espacio de características latentes de una señal de audio del dominio perceptual mediante una red neuronal, así como un método para obtener una señal de audio a partir de una representación del espacio de características latentes de una señal de audio del dominio perceptual mediante una red neuronal. También se describen los respectivos aparatos y programas informáticos. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procedimiento y aparato para el procesamiento de audio utilizando una red neuronal
Referencia cruzada a solicitudes relacionadas
Esta solicitud reivindica la prioridad de las siguientes solicitudes prioritarias: la solicitud provisional estadounidense 63/092,118, presentada el 15 de octubre de 2020, y la solicitud de patente europea 20210968.2, presentada el 1 de diciembre de 2020.
Tecnología
La presente divulgación se refiere en general a un procedimiento de procesamiento de una señal de audio utilizando una red neuronal o utilizando una primera y una segunda red neuronal y, en particular, a un procedimiento de procesamiento de una señal de audio en un dominio perceptual utilizando una red neuronal o utilizando una primera y una segunda red neuronal. La presente divulgación se refiere además a un procedimiento de entrenamiento de dicha red neuronal o de entrenamiento conjunto de un conjunto de dicha primera y dicha segunda red neuronal. La presente divulgación se refiere además a un procedimiento de obtención y transmisión de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal y a un procedimiento de obtención de una señal de audio a partir de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal. La presente divulgación también se refiere a los respectivos aparatos y productos de programas informáticos.
Si bien en la presente memoria se describirán algunas realizaciones con referencia particular a dicha divulgación, se apreciará que la presente divulgación no está limitada a dicho campo de uso y es aplicable en contextos más amplios.
Estado de la técnica
Cualquier análisis sobre la técnica anterior a lo largo de la divulgación no debe considerarse de ninguna manera como una admisión de que dicha técnica es ampliamente conocida o forma parte del conocimiento general común en el campo.
Los codificadores y descodificadores de audio de alto rendimiento aprovechan las limitaciones del sistema auditivo humano para eliminar información irrelevante que los humanos no pueden oír. Típicamente, los sistemas de codificación utilizan modelos psicoacústicos o perceptuales para calcular el umbral de enmascaramiento respectivo. Luego se utiliza el umbral de enmascaramiento para controlar el proceso de codificación de modo que el ruido introducido tenga un impacto audible mínimo.
Hasta ahora, las redes neuronales han demostrado ser prometedoras en muchas aplicaciones, incluida la codificación y/o descodificación de imágenes, vídeos e incluso habla. Sin embargo, todavía existe una necesidad de aplicación de redes neuronales en aplicaciones generales de codificación y/o descodificación de audio utilizando técnicas de entrenamiento típicas y, en particular, en aplicaciones de codificación y/o descodificación que involucran señales de audio en el dominio perceptual.
El documento US 2019/164052 A1 se refiere a un procedimiento de entrenamiento de una red neuronal que se aplica a un procedimiento de codificación de señales de audio utilizando un aparato de codificación de señales de audio. El procedimiento de entrenamiento incluye generar un umbral de enmascaramiento de una primera señal de audio antes de realizar el entrenamiento, calcular una matriz de ponderación que se aplicará a un componente de frecuencia de la primera señal de audio en base al umbral de enmascaramiento, generar una función de error ponderada obtenida al corregir una función de error preestablecida que utiliza la matriz de ponderación y generar una segunda señal de audio mediante la aplicación de un parámetro aprendido con la función de error ponderada a la primera señal de audio.
Compendio
La presente invención se define en las reivindicaciones adjuntas. A continuación, se entiende que las partes de la descripción y los dibujos que se refieren a realizaciones anteriores que no comprenden necesariamente todas las características para implementar realizaciones de la invención reivindicada no representan realizaciones de la invención, sino que se refieren a ejemplos útiles para comprender las realizaciones de la invención.
En un ejemplo, se proporciona un procedimiento de procesamiento de una señal de audio utilizando una red neuronal. El procedimiento puede incluir la etapa de (a) obtener una señal de audio en el dominio perceptual. El procedimiento puede incluir además la etapa de (b) introducir la señal de audio en el dominio perceptual
O
dentro de la red neurona! para procesar la señal de audio en el dominio perceptual. El procedimiento puede incluir además la etapa de (c) obtener, como salida de la red neuronal, una señal de audio procesada en el dominio perceptual. Y el procedimiento puede incluir la etapa de (d) convertir la señal de audio procesada en el dominio perceptual en un dominio de la señal original en base a una máscara que indica umbrales de enmascaramiento derivados a partir de un modelo psicoacústico.
En algunos ejemplos, el procesamiento de la señal de audio en el dominio perceptual mediante la red neuronal puede realizarse en un dominio del tiempo.
En algunos ejemplos, el procedimiento puede incluir, además, antes de la etapa (d), convertir la señal de audio a un dominio de la frecuencia.
En algunos ejemplos, la red neuronal puede estar condicionada a información indicativa de la máscara.
En algunos ejemplos, la red neuronal puede estar condicionada a la señal de audio en el dominio perceptual.
En algunos ejemplos, el procesamiento de la señal de audio en el dominio perceptual mediante la red neuronal puede incluir la predicción de la señal de audio procesada en el dominio perceptual a lo largo del tiempo.
En algunos ejemplos, el procesamiento de la señal de audio en el dominio perceptual mediante la red neuronal puede incluir la predicción de la señal de audio procesada en el dominio perceptual a lo largo de la frecuencia.
En algunos ejemplos, el procesamiento de la señal de audio en el dominio perceptual mediante la red neuronal puede incluir la predicción de la señal de audio procesada en el dominio perceptual a lo largo del tiempo y la frecuencia.
En algunos ejemplos, la señal de audio en el dominio perceptual se puede obtener: (a) al convertir una señal de audio desde el dominio de la señal original al dominio perceptual mediante la aplicación de la máscara; (b) al codificar la señal de audio en el dominio perceptual; y (c) al descodificar la señal de audio en el dominio perceptual. En algunos ejemplos, se puede aplicar cuantificación a la señal de audio en el dominio perceptual antes de la codificación y se puede aplicar cuantificación inversa a la señal de audio en el dominio perceptual después de la descodificación.
Según un aspecto de la presente divulgación, se proporciona un procedimiento de procesamiento de una señal de audio utilizando una primera y una segunda red neuronal. El procedimiento puede incluir la etapa de (a) obtener, mediante un primer aparato, una señal de audio en el dominio perceptual al aplicar una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico a una señal de audio en un dominio de la señal original. El procedimiento puede incluir además la etapa de (b) introducir la señal de audio en el dominio perceptual dentro de la primera red neuronal para proporcionar la correspondencia entre la señal de audio en el dominio perceptual y una representación del espacio de características latentes. El procedimiento puede incluir además la etapa de (c) obtener, como salida de la primera red neuronal, la representación del espacio de características latentes. El procedimiento puede incluir además la etapa de (d) transmitir la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara a un segundo aparato. El procedimiento puede incluir además la etapa de (e) recibir, mediante el segundo aparato, la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara. El procedimiento puede incluir además la etapa de (f) introducir la representación del espacio de características latentes dentro de la segunda red neuronal para generar una señal de audio aproximada en el dominio perceptual. El procedimiento puede incluir además la etapa de (g) obtener, como salida de la segunda red neuronal, la señal de audio aproximada en el dominio perceptual. Y el procedimiento puede incluir la etapa de (h) convertir la señal de audio aproximada en el dominio perceptual al dominio de la señal original en base a la máscara.
En algunas realizaciones, el procedimiento puede incluir además codificar la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara en una corriente de bits y transmitir la corriente de bits al segundo aparato, en el que el procedimiento puede incluir además recibir la corriente de bits mediante el segundo aparato y descodificar la corriente de bits para obtener la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara.
En algunas realizaciones, la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara se pueden cuantificar antes de la codificación en la corriente de bits y descuantificar antes del procesamiento mediante la segunda red neuronal.
En algunas realizaciones, la segunda red neuronal puede estar condicionada a la representación del espacio de características latentes de la señal de audio en el dominio perceptual y/o la máscara.
n
En algunas realizaciones, la correspondencia entre la señal de audio en el dominio perceptual y la representación del espacio de características latentes mediante la primera red neuronal y la generación de la señal de audio aproximada en el dominio perceptual mediante la segunda red neuronal se puede realizar en un dominio del tiempo.
En algunas realizaciones, la obtención de la señal en el dominio perceptual en la etapa (a) y la conversión de la señal en el dominio perceptual aproximada en la etapa (h) pueden realizarse en un dominio de la frecuencia.
En otro ejemplo, se proporciona un procedimiento para entrenar conjuntamente un conjunto de una primera y una segunda red neuronal. El procedimiento puede incluir la etapa de (a) introducir una señal de entrenamiento de audio en el dominio perceptual dentro de la primera red neuronal para proporcionar la correspondencia entre la señal de entrenamiento de audio en el dominio perceptual y una representación del espacio de características latentes. El procedimiento puede incluir además la etapa de (b) obtener, como salida de la primera red neuronal, la representación del espacio de características latentes de la señal de entrenamiento de audio en el dominio perceptual. El procedimiento puede incluir además la etapa de (c) introducir la representación del espacio de características latentes de la señal de entrenamiento de audio en el dominio perceptual dentro de la segunda red neuronal para generar una señal de entrenamiento de audio aproximada en el dominio perceptual. El procedimiento puede incluir además la etapa de (d) obtener, como salida de la segunda red neuronal, la señal de entrenamiento de audio aproximada en el dominio perceptual. Y el procedimiento puede incluir la etapa de (e) ajustar de forma iterativa los parámetros de la primera y la segunda red neuronal basándose en una diferencia entre la señal de entrenamiento de audio aproximada en el dominio perceptual y una señal de audio original en el dominio perceptual.
En algunos ejemplos, la primera y la segunda red neuronal pueden entrenarse en el dominio perceptual basándose en una o más funciones de pérdida.
En algunos ejemplos, la primera y la segunda red neuronal pueden entrenarse en el dominio perceptual basándose en una condición de probabilidad logarítmica negativa.
En otro ejemplo, se proporciona un procedimiento de entrenamiento de una red neuronal. El procedimiento puede incluir la etapa de (a) introducir una señal de entrenamiento de audio en el dominio perceptual dentro de la red neuronal para procesar la señal de entrenamiento de audio en el dominio perceptual. El procedimiento puede incluir además la etapa de (b) obtener, como salida de la red neuronal, una señal de entrenamiento de audio procesada en el dominio perceptual. Y el procedimiento puede incluir la etapa de (c) ajustar de forma iterativa los parámetros de la red neuronal basándose en una diferencia entre la señal de entrenamiento de audio procesada en el dominio perceptual y una señal de audio original en el dominio perceptual.
En algunos ejemplos, la red neuronal puede entrenarse en el dominio perceptual basándose en una o más funciones de pérdida.
En algunos ejemplos, la red neuronal puede entrenarse en el dominio perceptual basándose en una condición de probabilidad logarítmica negativa.
Según otro aspecto de la presente divulgación, se proporciona un procedimiento de obtención de y transmisión de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal. El procedimiento puede incluir la etapa de (a) obtener una señal de audio en el dominio perceptual mediante la aplicación de una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico a una señal de audio en un dominio de la señal original. El procedimiento puede incluir además la etapa de (b) introducir la señal de audio en el dominio perceptual dentro de una red neuronal para proporcionar la correspondencia entre la señal de audio en el dominio perceptual y una representación del espacio de características latentes. El procedimiento puede incluir además la etapa de (c) obtener, como salida de la red neuronal, la representación del espacio de características latentes de la señal de audio en el dominio perceptual. Y el procedimiento puede incluir la etapa de (d) emitir la representación del espacio de características latentes de la señal de audio en el dominio perceptual como una corriente de bits.
En algunos ejemplos, se puede emitir información adicional indicativa de la máscara como la corriente de bits en la etapa (d).
En algunos ejemplos, la representación del espacio de características latentes de la señal de audio en el dominio perceptual y/o la información indicativa de la máscara se pueden cuantificar antes de la salida como la corriente de bits.
En algunos ejemplos, la correspondencia entre la señal de audio en el dominio perceptual y la representación del espacio de características latentes mediante la red neuronal se puede realizar en un dominio del tiempo.
En algunos ejemplos, la obtención de la señal de audio en el dominio perceptual puede realizarse en un dominio de la frecuencia.
Según otro aspecto de la presente divulgación, se proporciona un procedimiento de obtención de una señal de audio a partir de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal. El procedimiento puede incluir la etapa de (a) recibir una representación del espacio de características latentes de una señal de audio en el dominio perceptual como una corriente de bits. El procedimiento puede incluir además la etapa de (b) introducir la representación del espacio de características latentes dentro de una red neuronal para generar la señal de audio en el dominio perceptual. El procedimiento puede incluir además la etapa de (c) obtener, como salida de la red neuronal, la señal de audio en el dominio perceptual. Y el procedimiento puede incluir la etapa de (d) convertir la señal de audio en el dominio perceptual a un dominio de la señal original en base a una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico.
En algunos ejemplos, la red neuronal puede estar condicionada a la representación del espacio de características latentes de la señal de audio en el dominio perceptual.
En algunos ejemplos, en la etapa (a) se puede recibir información adicional indicativa de la máscara como la corriente de bits y la red neuronal puede estar condicionada a dicha información.
En algunos ejemplos, la representación del espacio de características latentes de la señal de audio en el dominio perceptual y/o la información indicativa de la máscara pueden recibirse cuantificadas y puede realizarse una cuantificación inversa antes de la etapa (b).
En algunos ejemplos, la generación de la señal de audio en el dominio perceptual mediante la red neuronal puede realizarse en un dominio del tiempo.
En algunos ejemplos, la conversión de la señal de audio en el dominio perceptual al dominio de la señal original puede realizarse en un dominio de la frecuencia.
En otro ejemplo, se proporciona un aparato para procesar una señal de audio utilizando una red neuronal. El aparato puede incluir una red neuronal y uno o más procesadores configurados para realizar un procedimiento que incluye las etapas de (a) obtener una señal de audio en el dominio perceptual; (b) introducir la señal de audio en el dominio perceptual dentro de la red neuronal para procesar la señal de audio en el dominio perceptual; (c) obtener, como salida de la red neuronal, una señal de audio procesada en el dominio perceptual; y (d) convertir la señal de audio procesada en el dominio perceptual en un dominio de la señal original en base a una máscara que indica umbrales de enmascaramiento derivados a partir de un modelo psicoacústico.
En otro ejemplo, se proporciona un aparato para obtener y transmitir una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal. El aparato puede incluir una red neuronal y uno o más procesadores configurados para realizar un procedimiento que incluye las etapas de: (a) obtener una señal de audio en el dominio perceptual mediante la aplicación de una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico a una señal de audio en un dominio de la señal original; (b) introducir la señal de audio en el dominio perceptual dentro de una red neuronal para proporcionar la correspondencia entre la señal de audio en el dominio perceptual y una representación del espacio de características latentes; (c) obtener, como salida de la red neuronal, la representación del espacio de características latentes de la señal de audio en el dominio perceptual; y (d) emitir la representación del espacio de características latentes de la señal de audio en el dominio perceptual como una corriente de bits.
En otro ejemplo, se proporciona un aparato para obtener una señal de audio a partir de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal. El aparato puede incluir una red neuronal y uno o más procesadores configurados para realizar un procedimiento que incluye las etapas de: (a) recibir una representación del espacio de características latentes de una señal de audio en el dominio perceptual como una corriente de bits; (b) introducir la representación del espacio de características latentes dentro de una red neuronal para generar la señal de audio en el dominio perceptual; (c) obtener, como salida de la segunda red neuronal, la señal de audio en el dominio perceptual; y (d) convertir la señal de audio en el dominio perceptual en un dominio de la señal original en base a una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico.
Según aspectos adicionales de la presente divulgación, se proporcionan productos de programas informáticos que comprenden medios de almacenamiento legibles por ordenador con instrucciones adaptadas para hacer que los dispositivos lleven a cabo los procedimientos descritos en la presente memoria cuando son ejecutados por un dispositivo que tiene capacidad de procesamiento.
Breve descripción de los dibujos
A continuación, se describirán realizaciones de ejemplo de la divulgación únicamente a modo de ejemplo, en referencia a los dibujos adjuntos, en los que:
La FIG. 1 ilustra un ejemplo de un procedimiento de procesamiento de una señal de audio utilizando una red neuronal.
La FIG. 2 ilustra un ejemplo adicional de un procedimiento de procesamiento de una señal de audio utilizando una red neuronal.
La FIG. 3 ilustra un ejemplo de un sistema que incluye un aparato para procesar una señal de audio utilizando una red neuronal.
Las FIGS. 4a y 4b ilustran un ejemplo de un procedimiento de procesamiento de una señal de audio utilizando una primera y una segunda red neuronal.
La FIG. 5 ilustra un ejemplo de un sistema de un aparato para obtener y transmitir una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal y un aparato para obtener una señal de audio a partir de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal.
La FIG. 6 ilustra un ejemplo de un procedimiento de entrenamiento de una red neuronal.
La FIG. 7 ilustra un ejemplo de un procedimiento para entrenar conjuntamente un conjunto de una primera y una segunda red neuronal.
La FIG. 8 ilustra un ejemplo de una señal de audio original y una máscara en función del nivel y la frecuencia. La FIG. 9 ilustra un ejemplo de una señal de audio en el dominio perceptual en función del nivel y la frecuencia obtenida a partir de la aplicación de la máscara a la señal de audio original.
La FIG. 10 ilustra un ejemplo de conversión de una señal de audio a un dominio perceptual y el procesamiento de dicha señal de audio utilizando una red neuronal.
La FIG. 11 ilustra un ejemplo de un codificador y descodificador de audio que funciona en el dominio perceptual con una red neuronal tanto en el codificador como en el descodificador. La figura también ilustra un ejemplo del uso de funciones de pérdida sencillas para el entrenamiento de las redes neuronales mientras las redes funcionan en el dominio perceptual.
La FIG. 12 ilustra un ejemplo de un codificador y descodificador de audio que funciona en el dominio perceptual con una red neuronal en el descodificador. La figura también ilustra un ejemplo del uso de funciones de pérdida sencillas para el entrenamiento de la red neuronal mientras la red funciona en el dominio perceptual.
Descripción de las realizaciones de ejemplo
Descripción general
Si bien las redes neuronales han demostrado ser prometedoras para codificar y/o descodificar imágenes, vídeos e incluso habla, codificar y/o descodificar audio general es complejo mediante el uso de redes neuronales. Existen dos factores que hacen que la compresión de audio general sea complicada con redes neuronales: en primer lugar, los codificadores y descodificadores de audio necesitan aprovechar las limitaciones del sistema auditivo humano para lograr un alto rendimiento. Para aprovechar la limitación perceptual del sistema auditivo humano, las redes neuronales no se pueden entrenar directamente con funciones de pérdida no perceptual tales como L1 o L2:
C
donde, xn es el objetivo (verdad fundamental) yx nes la predicción (salida de la red).
En segundo lugar, las señales de audio generales tienen un rango dinámico muy alto y son de naturaleza muy diversa, lo que complica el entrenamiento de redes neuronales.
La presente divulgación describe procedimientos y aparatos para transformar la señal de audio en un dominio perceptual antes de la aplicación de una red neuronal en los respectivos codificadores y/o descodificadores de audio. La conversión en el dominio perceptual de la señal de audio no solo reduce significativamente el rango dinámico, sino que también permite utilizar funciones de pérdida no perceptual, tales como L1 y L2, para entrenar la red.
Un procedimiento de procesamiento de una señal de audio utilizando una red neuronal
En referencia al ejemplo de la Figura 1, se ilustra un procedimiento de procesamiento de una señal de audio utilizando una red neuronal. En la etapa S101, se obtiene una señal de audio en el dominio perceptual. El término dominio perceptual tal como se usa en la presente memoria se refiere a una señal en la que la diferencia relativa de nivel entre los componentes de frecuencia es (aproximadamente) proporcional a su importancia subjetiva relativa. En general, una señal de audio convertida a un dominio perceptual minimiza el impacto audible de añadir ruido blanco (ruido espectralmente plano) a la señal en el dominio perceptual, puesto que el ruido se moldeará para minimizar la audibilidad cuando la señal se convierta nuevamente en el dominio de la señal original.
En referencia al ejemplo de la Figura 2, la señal de audio en el dominio perceptual se puede obtener a partir de las etapas S101a, S101b y S101c, en el que en la etapa S101a una señal de audio se puede convertir desde el dominio de la señal original al dominio perceptual mediante la aplicación de una máscara.
Una forma de convertir una señal de audio al dominio perceptual puede ser, por ejemplo, utilizar un modelo psicoacústico para estimar una máscara o curva de enmascaramiento. Una curva de enmascaramiento generalmente define el nivel de distorsión apenas perceptible (JND) que el sistema auditivo humano puede detectar para una señal de estímulo determinada. Una vez se ha derivado la curva de enmascaramiento a partir del modelo psicoacústico, el espectro de la señal de audio se puede dividir por la curva de enmascaramiento para producir una señal de audio en el dominio perceptual. La señal de audio en el dominio perceptual derivada a partir de la multiplicación por la estimación de la máscara inversa se puede convertir nuevamente a la señal original multiplicándola por la máscara después de la codificación y/o descodificación de la red neuronal. La multiplicación por la máscara después de la descodificación asegurará que el error introducido por el proceso de codificación y descodificación siga la curva de enmascaramiento. Si bien esta es una forma de convertir una señal de audio original en el dominio perceptual, obsérvese que también son concebibles varias otras formas, por ejemplo, el filtrado en el dominio del tiempo mediante un filtro variable en el tiempo diseñado apropiadamente. En referencia al ejemplo de las Figuras 8 y 9, se ilustra una conversión de un espectro de una señal de audio original al dominio perceptual. La gráfica de la Figura 8 ilustra el espectro de una señal de audio original (línea continua) y la máscara estimada o curva de enmascaramiento (línea de puntos y guiones) calculada con un modelo psicoacústico. La señal en el dominio perceptual resultante de la multiplicación por la estimación de la máscara inversa se ilustra en el gráfico de la Figura 9. La señal en el dominio perceptual no solo permite utilizar términos de pérdida sencillas durante el entrenamiento de una red neuronal, sino que, como se ilustra en la Figura 8, presenta un rango dinámico mucho menor que el espectro de la señal de audio original.
En referencia nuevamente al ejemplo de la Figura 2, en la etapa S101b, la señal de audio en el dominio perceptual puede luego codificarse y posteriormente descodificarse en la etapa S101c para obtener la señal de audio en el dominio perceptual. En algunas realizaciones, se puede aplicar cuantificación a la señal de audio en el dominio perceptual antes de que se pueda aplicar codificación y cuantificación inversa a la señal de audio en el dominio perceptual después de la descodificación.
Volviendo al ejemplo de la Figura 1, en la etapa S102, la señal de audio en el dominio perceptual se introduce dentro de la red neuronal para procesar la señal de audio en el dominio perceptual. La red neuronal utilizada no está limitada y puede elegirse según los requisitos de procesamiento. Si bien la red neuronal puede funcionar en un dominio de la frecuencia, así como también en un dominio del tiempo, en algunas realizaciones, el procesamiento de la señal de audio en el dominio perceptual mediante la red neuronal puede realizarse en el dominio del tiempo. Además, en algunas realizaciones, la red neuronal puede estar condicionada a información indicativa de la máscara. De forma adicional o alternativa, en algunas realizaciones, la red neuronal puede estar condicionada a la señal de audio en el dominio perceptual.
El procesamiento de la señal de audio en el dominio perceptual mediante la red neuronal, en algunas realizaciones, puede incluir la predicción de la señal de audio procesada en el dominio perceptual a lo largo del tiempo. De forma alternativa, en algunas realizaciones, el procesamiento de la señal de audio en el dominio perceptual por la red neuronal puede incluir la predicción de la señal de audio procesada en el dominio perceptual a lo largo de la frecuencia. Además, de forma alternativa, en algunas realizaciones, el procesamiento de la señal de audio en el dominio perceptual por la red neuronal puede incluir la predicción de la señal de audio procesada en el dominio perceptual a lo largo del tiempo y la frecuencia.
En la etapa S103, se obtiene una señal de audio procesada en el dominio perceptual como salida de la red neuronal. En algunas realizaciones, la señal de audio procesada en el dominio perceptual se puede convertir al dominio de la frecuencia antes de la etapa siguiente S104.
En la etapa S104, la señal de audio procesada en el dominio perceptual se convierte en un dominio de la señal original en base a una máscara que indica umbrales de enmascaramiento derivados a partir de un modelo psicoacústico. Por ejemplo, para calcular la máscara, el modelo psicoacústico puede utilizar coeficientes de frecuencia de la transformación de tiempo a frecuencia aplicada para convertir la señal de audio en el dominio perceptual procesada en el dominio de la frecuencia. De forma adicional o alternativa, la máscara utilizada en la etapa S104 puede basarse en la máscara que se había utilizado para convertir la señal de audio original en el dominio perceptual. En este caso, la máscara puede obtenerse como información secundaria; opcionalmente, la máscara puede cuantificarse.
El término "señal de audio original" tal como se usa en la presente memoria se refiere al dominio de la señal respectivo de la señal de audio antes de la conversión de la señal de audio al dominio perceptual.
El procedimiento como se describe anteriormente puede implementarse de diversas maneras. Por ejemplo, dicho procedimiento puede implementarse mediante un aparato para procesar una señal de audio utilizando una red neuronal, en el que el aparato incluye una red neuronal y uno o más procesadores configurados para realizar dicho procedimiento.
En referencia al ejemplo de la Figura 3, se ilustra un sistema que incluye un aparato para procesar una señal de audio utilizando una red neuronal. El aparato puede ser un descodificador. En este caso, la red neuronal solo se utiliza en el descodificador.
Como se ilustra en el ejemplo de la Figura 3, una señal de audio en el dominio perceptual puede ser sometida a una cuantificación en un cuantificador, 101, y puede ser codificada (por entropía) por un codificador heredado respectivo, 102, por ejemplo. La señal de audio perceptual codificada cuantificada puede luego transmitirse, por ejemplo, como una corriente de bits, al descodificador, 103, para obtener la señal de audio en el dominio perceptual cuantificada, por ejemplo, mediante descodificación (por entropía) de la corriente de bits recibida. La señal de audio en el dominio perceptual cuantificado puede luego ser sometida a una cuantificación inversa en un cuantificador inverso respectivo, 104. La señal de audio en el dominio perceptual obtenida puede luego introducirse dentro de una red neuronal (red neuronal descodificadora), 105, para obtener una señal de audio procesada en el dominio perceptual como salida de la red neuronal, 105.
De forma adicional o alternativa, el procedimiento descrito anteriormente puede implementarse mediante un producto de programa informático que comprende un medio de almacenamiento legible por ordenador con instrucciones adaptadas para hacer que un dispositivo lleve a cabo dicho procedimiento cuando es ejecutado por un dispositivo que tiene capacidad de procesamiento.
Un procedimiento de procesamiento de una señal de audio utilizando una primera y una segunda red neuronal
En referencia al ejemplo de las Figuras 4a y 4b, se ilustra un procedimiento de procesamiento de una señal de audio utilizando una primera y una segunda red neuronal. La primera red neuronal puede, por ejemplo, implementarse en un sitio codificador, mientras que la segunda red neuronal puede implementarse en un sitio descodificador.
Q
Como se ilustra en el ejemplo de la Figura 4a, en la etapa S201, un primer aparato obtiene una señal de audio en el dominio perceptual al aplicar una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico a una señal de audio en un dominio de la señal original. El primer aparato puede ser, por ejemplo, un codificador. En algunas realizaciones, la obtención de la señal de audio en el dominio perceptual puede realizarse en un dominio de la frecuencia.
En la etapa S202, la señal de audio en el dominio perceptual obtenida se introduce luego dentro de la primera red neuronal para proporcionar la correspondencia entre la señal de audio en el dominio perceptual y una representación del espacio de características latentes.
En algunas realizaciones, la correspondencia entre la señal de audio en el dominio perceptual y la representación del espacio de características latentes mediante la primera red neuronal se puede realizar en un dominio del tiempo.
Como salida de la primera red neuronal, en la etapa S203, se obtiene la representación del espacio de características latentes.
En la etapa S204, la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara se transmiten luego a un segundo aparato. En algunas realizaciones, el procedimiento descrito anteriormente puede incluir además la codificación de la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara en una corriente de bits y la transmisión de la corriente de bits al segundo aparato. En algunas realizaciones, la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara pueden cuantificarse adicionalmente antes de la codificación en la corriente de bits.
En referencia a continuación al ejemplo de la Figura 4b, en la etapa S205, la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara se reciben mediante el segundo aparato. El segundo aparato puede ser, por ejemplo, un descodificador. En algunas realizaciones, el procedimiento puede incluir además recibir la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara como una corriente de bits mediante el segundo aparato y descodificar la corriente de bits para obtener la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara. En algunas realizaciones, en el caso de que la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara estén cuantificadas, la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara pueden descuantificarse antes del procesamiento mediante la segunda red neuronal.
En la etapa S206, la representación del espacio de características latentes se introduce dentro de la segunda red neuronal para generar una señal de audio aproximada en el dominio perceptual. En algunas realizaciones, la segunda red neuronal puede estar condicionada a la representación del espacio de características latentes de la señal de audio en el dominio perceptual y/o la máscara. En algunas realizaciones, la generación de la señal de audio aproximada en el dominio perceptual mediante la segunda red neuronal puede realizarse en el dominio del tiempo.
En la etapa S207, como salida de la segunda red neuronal, se obtiene la señal de audio aproximada en el dominio perceptual.
La señal de audio aproximada en el dominio perceptual se convierte en la etapa S208 al dominio de la señal original en base a la máscara. En algunas realizaciones, la conversión de la señal en el dominio perceptual aproximado se puede realizar en el dominio de la frecuencia.
El procedimiento descrito anteriormente puede implementarse mediante un sistema de un primer y un segundo aparato respectivos. De forma adicional o alternativa, el procedimiento descrito anteriormente a continuación también puede implementarse mediante un producto de programa informático respectivo que comprende un medio de almacenamiento legible por ordenador con instrucciones adaptadas para hacer que un dispositivo lleve a cabo dichos procedimientos cuando son ejecutados por un dispositivo que tiene capacidad de procesamiento.
De forma alternativa, el procedimiento descrito anteriormente puede implementarse en parte mediante un aparato para obtener y transmitir una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal y en parte mediante un aparato para obtener una señal de audio a partir de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal. Los aparatos pueden entonces implementarse como aparatos autónomos o como un sistema.
Q
El procedimiento de obtención y transmisión de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal incluye las etapas siguientes. En la etapa (a), se obtiene una señal de audio en el dominio perceptual mediante la aplicación de una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico a una señal de audio en un dominio de la señal original. En algunas realizaciones, la obtención de la señal de audio en el dominio perceptual puede realizarse en un dominio de la frecuencia.
En la etapa (b), la señal de audio en el dominio perceptual se introduce dentro de una red neuronal para proporcionar la correspondencia entre la señal de audio en el dominio perceptual y una representación del espacio de características latentes. En algunas realizaciones, la correspondencia entre la señal de audio en el dominio perceptual y la representación del espacio de características latentes mediante la red neuronal se puede realizar en un dominio del tiempo.
Como salida de la red neuronal, en la etapa (c), se obtiene la representación del espacio de características latentes de la señal de audio en el dominio perceptual. Y en la etapa (d), la representación del espacio de características latentes de la señal de audio en el dominio perceptual se emite luego como una corriente de bits.
En algunas realizaciones, se puede emitir información adicional indicativa de la máscara como la corriente de bits en la etapa (d). En algunas realizaciones, la representación del espacio de características latentes de la señal de audio en el dominio perceptual y/o la información indicativa de la máscara se pueden cuantificar antes de la salida como la corriente de bits.
Un procedimiento de obtención de una señal de audio a partir de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal incluye las etapas siguientes. En la etapa (a), se recibe una representación del espacio de características latentes de una señal de audio en el dominio perceptual como una corriente de bits. En la etapa (b), la representación del espacio de características latentes se introduce dentro de una red neuronal para generar la señal de audio en el dominio perceptual. En la etapa (c), como salida de la red neuronal, se obtiene la señal de audio en el dominio perceptual. Y en la etapa (d), la señal de audio en el dominio perceptual se convierte en un dominio de la señal original en base a una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico.
En algunas realizaciones, la red neuronal puede estar condicionada a la representación del espacio de características latentes de la señal de audio en el dominio perceptual. En algunas realizaciones, además, en la etapa (a), la información indicativa de la máscara puede recibirse como la corriente de bits y la red neuronal puede estar condicionada a dicha información. En algunas realizaciones, la representación del espacio de características latentes de la señal de audio en el dominio perceptual y/o la información indicativa de la máscara pueden recibirse cuantificadas y puede realizarse una cuantificación inversa antes de la etapa (b). En algunas realizaciones, la generación de la señal de audio en el dominio perceptual mediante la red neuronal puede realizarse en un dominio del tiempo. En algunas realizaciones, la conversión de la señal de audio en el dominio perceptual al dominio de la señal original puede realizarse en un dominio de la frecuencia.
En referencia al ejemplo de la Figura 5, se ilustra un sistema de un aparato para obtener y transmitir una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal (también primer aparato) y un aparato para obtener una señal de audio a partir de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red neuronal (también segundo aparato).
En el ejemplo de la Figura 5, en el (primer) aparato, 201, una señal de audio en el dominio perceptual puede introducirse en una (primera) red neuronal, 202, para su procesamiento como se describe anteriormente. La primera red neuronal, 202, puede ser una red neuronal codificadora. La representación del espacio de características latentes resultante de la (primera) red neuronal se puede cuantificar en un cuantificador, 203, y transmitir al (segundo) aparato, 204. La representación del espacio de características latentes cuantificado se puede codificar y transmitir al (segundo) aparato, 204, como una corriente de bits. En el (segundo) aparato, 204, la representación del espacio de características latentes recibida primero puede cuantificarse inversamente en un cuantificador inverso, 205, y opcionalmente descodificarse antes de introducirla dentro de la (segunda) red neuronal, 206, para generar una señal de audio aproximada en el dominio perceptual basada en la representación del espacio de características latentes. Como salida de la (segunda) red neuronal, 206, se puede obtener la señal de audio aproximada en el dominio perceptual.
Un procedimiento de entrenamiento de una red neuronal
En referencia al ejemplo de la Figura 6, se ilustra un procedimiento de entrenamiento de una red neuronal. En la etapa S301, se introduce una señal de entrenamiento de audio en el dominio perceptual dentro de la red neuronal para procesar la señal de entrenamiento de audio en el dominio perceptual. La señal de entrenamiento de audio en el dominio perceptual es procesada por la red neuronal y en la etapa S302, se obtiene una señal de entrenamiento de audio procesada en el dominio perceptual como salida de dicha red neuronal. Basándose en una diferencia entre la señal de entrenamiento de audio procesada en el dominio perceptual y una señal de audio original en el dominio perceptual de la cual puede obtenerse la señal de entrenamiento de audio en el dominio perceptual, los parámetros de la red neuronal se ajustan de forma iterativa en la etapa S303. Basándose en este ajuste iterativo, la red neuronal se entrena para generar señales de entrenamiento de audio en el dominio perceptual cada vez mejor procesadas. El objetivo de este ajuste iterativo es hacer que la red neuronal genere una señal de entrenamiento de audio procesada en el dominio perceptual que sea indistinguible de la respectiva señal de audio original en el dominio perceptual.
En algunas realizaciones, la red neuronal puede entrenarse en el dominio perceptual basándose en una o más funciones de pérdida. Una red neuronal diseñada para codificar señales de audio en el dominio perceptual se puede entrenar con funciones de pérdida sencillas tales como L1 y L2, ya que pueden introducir un error espectral blanco. En el caso de L1 y L2, la red neuronal puede predecir la media de la señal de entrenamiento de audio procesada en el dominio perceptual.
De forma alternativa, en algunas realizaciones, la red neuronal puede entrenarse en el dominio perceptual basándose en una condición de probabilidad logarítmica negativa (NLL). En el caso de NLL, la red neuronal puede predecir la media y la escala como parametrización de una distribución preseleccionada. Típicamente se puede utilizar una operación logarítmica del parámetro de escala para evitar la inestabilidad numérica. La distribución preseleccionada puede ser laplaciana. De forma alternativa, la distribución preseleccionada puede ser una distribución logística o gaussiana. En el caso de una distribución gaussiana, el parámetro de escala puede reemplazarse por un parámetro de varianza. En el caso NLL, se puede utilizar una operación de muestreo para convertir los parámetros de distribución a la señal de entrenamiento de audio procesada en el dominio perceptual. La operación de muestreo se puede escribir como:
x=mean+ F(u,escala)
dondeXes la señal de entrenamiento de audio procesada en el dominio perceptual prevista, la media y la escala son los parámetros previstos de la red neuronal, FQ es la función de muestreo determinada por la distribución preseleccionada yuse muestrea a partir de una distribución uniforme.
Por ejemplo, en un caso laplaciano,
F= -escalaasigno (u) *log(1— 2 *|u |) ,u ~ (— 0.5,0.5) se puede aplicar una función de ponderación derivada a partir de una máscara cuantificada al parámetro de escala en la función de muestreo F(). Además, en el caso del muestreo de una mezcla para cada coeficiente de salida (p. ej., mezcla gaussiana), puede haber un vector de parámetros.
Un procedimiento para entrenar conjuntamente un conjunto de una primera y una segunda red neuronal
En referencia al ejemplo de la Figura 7, se ilustra un procedimiento para entrenar conjuntamente un conjunto de una primera y una segunda red neuronal.
En la etapa S401, se introduce una señal de entrenamiento de audio en el dominio perceptual dentro de la primera red neuronal para proporcionar la correspondencia entre la señal de entrenamiento de audio en el dominio perceptual y una representación del espacio de características latentes. En la etapa S402, como salida de la primera red neuronal, se obtiene la representación del espacio de características latentes de la señal de entrenamiento de audio en el dominio perceptual. En la etapa S403, la representación del espacio de características latentes de la señal de entrenamiento de audio en el dominio perceptual se introduce dentro de la segunda red neuronal para generar una señal de entrenamiento de audio aproximada en el dominio perceptual. Como salida de la segunda red neuronal, en la etapa S404, se obtiene la señal de entrenamiento de audio aproximada en el dominio perceptual. Y en la etapa S405, los parámetros de la primera y la segunda red neuronal se ajustan de forma iterativa basándose en una diferencia entre la señal de entrenamiento de audio aproximada en el dominio perceptual y una señal de audio original en el dominio perceptual en base a la cual se ha derivado la señal de entrenamiento de audio en el dominio perceptual.
En algunas realizaciones, la primera y la segunda red neuronal pueden entrenarse en el dominio perceptual basándose en una o más funciones de pérdida. En algunas realizaciones, la primera y la segunda red neuronal pueden entrenarse en el dominio perceptual basándose en una condición de probabilidad logarítmica negativa (NLL). El objetivo del ajuste iterativo es hacer que la primera y la segunda red neuronal generen una señal de entrenamiento de audio aproximada en el dominio perceptual que sea indistinguible de la respectiva señal de audio original en el dominio perceptual.
■i i
Otras realizaciones ejemplares
En referencia a los ejemplos de las Figuras 10 a 12, se ilustran realizaciones ejemplares adicionales de los procedimientos y aparatos descritos en la presente memoria. En el ejemplo de la Figura 10, se ilustra un esquema que muestra la conversión de una señal de audio a un dominio perceptual para la reducción de datos utilizando una red neuronal. En el ejemplo de la Figura 10, se utilizan datos de audio PCM como entrada.
En el ejemplo de la Figura 11, se ilustra un esquema de un codificador y descodificador de audio que funciona en el dominio perceptual con una red neuronal tanto en el codificador como en el descodificador. La Figura 11 también muestra el uso de funciones de pérdida sencillas para el entrenamiento de las redes neuronales mientras las redes funcionan en el dominio perceptual. En el ejemplo de la Figura 11, la señal de la verdad fundamental se refiere a una señal de audio original en el dominio perceptual en base a la cual se puede derivar la respectiva señal de entrenamiento de audio en el dominio perceptual y la cual se puede comparar con la señal de audio aproximada en el dominio perceptual para ajustar de forma iterativa las redes neuronales.
En el ejemplo de la Figura 12, se ilustra un esquema de un codificador y descodificador de audio que funciona en el dominio perceptual con una red neuronal en el descodificador. La figura 12 también muestra el uso de funciones de pérdida sencillas para el entrenamiento de la red neuronal mientras la red funciona en el dominio perceptual. Además, en este caso, la señal de la verdad fundamental se refiere a una señal de audio original en el dominio perceptual en base a la cual se puede derivar la respectiva señal de entrenamiento de audio en el dominio perceptual y la cual se puede comparar con la señal de audio procesada en el dominio perceptual para ajustar de forma iterativa la red neuronal.
Interpretación
A menos que se indique específicamente lo contrario, como se desprende de los análisis siguientes, se entiende que, en toda la divulgación, los análisis que utilizan términos como "procesamiento", "cálculo", "determinación", "análisis" o similares, se refieren a la acción y/o procesos de un ordenador o sistema informático, o dispositivos informáticos electrónicos similares, que manipulan y/o transforman datos representados como cantidades físicas, tales como electrónicas, en otros datos representados de forma similar tales como cantidades físicas.
De forma similar, el término "procesador" puede referirse a cualquier dispositivo o porción de un dispositivo que procese datos electrónicos, p. ej., de registros y/o memoria para transformar esos datos electrónicos en otros datos electrónicos que, p. ej., puedan almacenarse en registros y/o memoria. Una "ordenador", una "máquina de cálculo" o una "plataforma informática" pueden incluir uno o más procesadores.
Las metodologías descritas en la presente memoria son, en una realización de ejemplo, ejecutables por uno o más procesadores que aceptan código legible por ordenador (también llamado legible por máquina) que contiene un conjunto de instrucciones que cuando son ejecutadas por uno o más de los procesadores llevan a cabo por lo menos uno de los procedimientos descritos en la presente memoria. Se incluye cualquier procesador capaz de ejecutar un conjunto de instrucciones (secuenciales o de otro tipo) que especifiquen acciones a realizar. Así, un ejemplo es un sistema de procesamiento típico que incluye uno o más procesadores. Cada procesador puede incluir uno o más de los siguientes: una CPU, una unidad de procesamiento de gráficos y una unidad DSP programable. El sistema de procesamiento puede incluir además un subsistema de memoria que incluye RAM principal y/o una RAM estática y/o ROM. Se puede incluir un subsistema de bus para la comunicación entre los componentes. El sistema de procesamiento también puede ser un sistema de procesamiento distribuido con procesadores acoplados por una red. Si el sistema de procesamiento requiere un visualizador, se puede incluir dicho visualizador, p. ej., un visualizador de cristal líquido (LCD) o un visualizador de tubo de rayos catódicos (CRT). Si se requiere la entrada de datos manual, el sistema de procesamiento también incluye un dispositivo de entrada, tal como una o más unidades de entrada alfanumérica tal como un teclado, un dispositivo de control apuntador tal como un ratón, etc. El sistema de procesamiento también puede englobar un sistema de almacenamiento, tal como una unidad de disco. El sistema de procesamiento en algunas configuraciones puede incluir un dispositivo de salida de sonido y un dispositivo de interfaz de red. El subsistema de memoria incluye así un medio portador legible por ordenador que transporta un código legible por ordenador (p. ej., software) que incluye un conjunto de instrucciones para hacer que se realicen, cuando es ejecutado por uno o más procesadores, uno o más de los procedimientos descritos en la presente memoria. Obsérvese que cuando el procedimiento incluye varios elementos, p. ej., varias etapas, no hay ningún orden de dichos elementos implicado, a menos que se indique específicamente. El software puede residir en el disco duro, o también puede residir, total o por lo menos parcialmente, en la memoria RAM y/o en el procesador durante la ejecución del mismo por el sistema informático. Así, la memoria y el procesador también constituyen un medio portador legible por ordenador que transporta código legible por ordenador. Es más, un medio portador legible por ordenador puede formar o estar incluido en un producto de programa informático.
■iO
En realizaciones de ejemplo alternativas, el uno o más procesadores funcionan como un dispositivo autónomo o pueden estar conectados, p. ej., en red con otro(s) procesador(es), en una implementación en red, el uno o más procesadores pueden funcionar en la capacidad de un servidor o una máquina de usuario en un entorno de red servidor-usuario, o como una máquina del mismo nivel en un entorno de red entre pares o distribuido. El uno o más procesadores pueden formar un ordenador personal (PC), una tableta electrónica, un asistente personal digital (PDA), un teléfono celular, un electrodoméstico conectado a Internet, un enrutador, conmutador o puente de red, o cualquier máquina capaz de ejecutar un conjunto de instrucciones (secuenciales o de otro tipo) que especifiquen acciones que debe realizar esa máquina.
Obsérvese que el término "máquina" también debe entenderse como cualquier conjunto de máquinas que, individual o conjuntamente, ejecuten un conjunto (o múltiples conjuntos) de instrucciones para realizar una o más de las metodologías analizadas en la presente memoria.
Así, una realización de ejemplo de cada uno de los procedimientos descritos en la presente memoria es en forma de un medio portador legible por ordenador que transporta un conjunto de instrucciones, p. ej., un programa informático que se va a ejecutar en uno o más procesadores, p. ej., uno o más procesadores que forman parte de una disposición de servidor web. Así, como apreciarán los expertos en la materia, las realizaciones de ejemplo de la presente divulgación pueden materializarse como un procedimiento, un aparato tal como un aparato de propósito especial, un aparato tal como un sistema de procesamiento de datos o un medio portador legible por ordenador, p. ej., un producto de programa informático. El medio portador legible por ordenador transporta un código legible por ordenador que incluye un conjunto de instrucciones que, cuando se ejecutan en uno o más procesadores, hacen que el procesador o los procesadores implementen un procedimiento. En consecuencia, los aspectos de la presente divulgación pueden adoptar la forma de un procedimiento, una realización de ejemplo completamente de hardware, una realización de ejemplo completamente de software o una realización de ejemplo que combina aspectos de software y hardware. Es más, la presente divulgación puede adoptar la forma de un medio portador (p. ej., un producto de programa informático en un medio de almacenamiento legible por ordenador) que transporta un código de programa legible por ordenador incorporado en el medio.
El software también puede transmitirse o recibirse a través de una red por medio de un dispositivo de interfaz de red. Si bien en una realización de ejemplo el medio portador es un medio único, el término "medio portador" debe entenderse como que incluye un medio único o múltiples medios (p. ej., una base de datos centralizada o distribuida, y/o memorias cachés y servidores asociados) que almacenan el uno o más conjuntos de instrucciones. El término "medio portador" también se entenderá que incluye cualquier medio que sea capaz de almacenar, codificar o transportar un conjunto de instrucciones para su ejecución por uno o más de los procesadores y que haga que el uno o más procesadores realicen una o más de las metodologías de la presente divulgación. Un medio de este tipo puede adoptar muchas formas, incluyendo pero sin limitarse a, medios no volátiles, medios volátiles y medios de transmisión. Un medio portador puede adoptar muchas formas que incluyen, pero no se limitan a, medios no volátiles, medios volátiles y medios de transmisión. Los medios no volátiles incluyen, por ejemplo, discos ópticos, discos magnéticos y discos magnetoópticos. Los medios volátiles incluyen la memoria dinámica, tal como la memoria principal. Los medios de transmisión incluyen cables coaxiales, cables de cobre y fibra óptica, incluidos los cables que comprenden un subsistema de bus. Los medios de transmisión también pueden adoptar la forma de ondas acústicas o luminosas, tales como las que se generan durante las comunicaciones de datos por ondas radioeléctricas o infrarrojos. Por ejemplo, el término "medio portador" se entenderá que incluye, pero no se limita a, memorias de estado sólido, un producto informático incorporado en medios ópticos y magnéticos; un medio que tiene una señal propagada detectable por al menos un procesador o uno o más procesadores y que representa un conjunto de instrucciones que, cuando se ejecutan, implementan un procedimiento; y un medio de transmisión en una red que tiene una señal propagada detectable por al menos un procesador del uno o más procesadores y que representa el conjunto de instrucciones.
Se entenderá que las etapas de los procedimientos analizados se realizan en una realización de ejemplo mediante un procesador (o procesadores) apropiado de un sistema de procesamiento (p. ej., un ordenador) que ejecuta instrucciones (código legible por ordenador) almacenadas en el almacenamiento. También se entenderá que la divulgación no está limitada a ninguna implementación o técnica de programación en particular y que la divulgación puede implementarse utilizando cualquier técnica apropiada para implementar la funcionalidad descrita en la presente memoria. La divulgación no se limita a ningún lenguaje de programación o sistema operativo en particular.
La referencia a lo largo de la presente divulgación a "una realización", "algunas realizaciones" o "una realización de ejemplo" significa que una función, estructura o característica en particular descrito en relación con la realización está incluido en por lo menos una realización de la presente divulgación. Así, cuando aparecen expresiones como "en una realización", "en algunas realizaciones" o "en una realización de ejemplo" en diversos lugares de la presente divulgación no necesariamente se refieren todas a la misma realización de ejemplo. Es más, las funciones, estructuras o características en particular pueden combinarse de cualquier manera adecuada, como sería evidente para una persona con experiencia ordinaria en la técnica a partir de la presente divulgación, en una o más realizaciones de ejemplo.
■\ n
Tal como se usa en la presente memoria, a menos que se especifique lo contrario, el uso de los adjetivos ordinales "primero", "segundo", "tercero", etc., para describir un objeto común, meramente indica que se hace referencia a diferentes instancias de objetos similares y no pretende implicar que los objetos así descritos deben estar en una secuencia dada, ya sea temporalmente, espacialmente, en clasificación o de cualquier otra manera.
En las reivindicaciones siguientes y la descripción en la presente memoria, uno cualquiera de los términos comprendiendo, compuesto de o que comprende es un término abierto que significa incluir por lo menos los elementos/características que siguen, pero sin excluir otros. Así, el término que comprende, cuando se utiliza en las reivindicaciones, no debe interpretarse como limitativo de los medios, elementos o etapas enumerados después. Por ejemplo, el alcance de la expresión un dispositivo que comprende A y B no debe limitarse a dispositivos que consisten únicamente en los elementos A y B. Uno cualquiera de los términos incluyendo o el cual incluye o que incluye como se usa en la presente memoria también es un término abierto que también significa incluir por lo menos los elementos/características que siguen al término, pero sin excluir otros. Así, incluir es sinónimo de comprender y significa comprender.
Se debe tener en cuenta que, en la descripción anterior de realizaciones de ejemplo de la divulgación, diversas características de la divulgación a veces se agrupan juntas en una única realización de ejemplo, Fig., o descripción de la misma con el propósito de simplificar la divulgación y ayudar en la comprensión de uno o más de los diversos aspectos de la invención. Sin embargo, este procedimiento de divulgación no debe interpretarse como un reflejo de una intención de que las reivindicaciones requieran más características que las que se mencionan expresamente en cada reivindicación. Más bien, como reflejan las reivindicaciones siguientes, los aspectos de la invención residen en menos de todas las características de una única realización de ejemplo divulgada anteriormente. Así, las reivindicaciones que siguen a la descripción se incorporan por este medio expresamente a esta descripción, y cada reivindicación constituye por sí sola una realización de ejemplo independiente de esta divulgación.
Es más, aunque algunas realizaciones de ejemplo descritas en la presente memoria incluyen algunas, pero no otras características incluidas en otras realizaciones de ejemplo, se pretende que las combinaciones de las características de diferentes realizaciones de ejemplo estén dentro del alcance de la divulgación, y formen realizaciones de ejemplo distintas, como entenderán las personas con experiencia en la materia. Por ejemplo, en las siguientes reivindicaciones, cualquiera de las realizaciones de ejemplo reivindicadas puede utilizarse en cualquier combinación.
En la descripción proporcionada en la presente memoria, se exponen numerosos detalles concretos. Sin embargo, se entiende que las realizaciones de ejemplo de la divulgación pueden ponerse en práctica sin estos detalles concretos. En otros casos, los procedimientos, estructuras y técnicas bien conocidos no se han mostrado en detalle para no oscurecer la comprensión de esta descripción.
Así, si bien se han descrito los que se cree que son los mejores modos de la divulgación, los expertos en la materia reconocerán que pueden realizarse otras modificaciones adicionales. Por ejemplo, las fórmulas dadas anteriormente son meramente representativas de procedimientos que pueden utilizarse. Se pueden añadir o eliminar funcionalidades de los diagramas de bloques y se pueden intercambiar operaciones entre bloques funcionales. Se pueden añadir o eliminar etapas a los procedimientos descritos dentro del alcance de la presente divulgación.

Claims (15)

REIVINDICACIONES
1. Un procedimiento implementado por ordenador para codificar una señal de audio utilizando una red (202) neuronal, incluyendo el procedimiento las etapas de:
(a) obtener una señal de audio en el dominio perceptual mediante la aplicación de una máscara indicativa
de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico a la señal de audio
en un dominio de la señal original;
(b) introducir la señal de audio en el dominio perceptual dentro de una red (202) neuronal para proporcionar la correspondencia entre la señal de audio en el dominio perceptual y una representación
del espacio de características latentes;
(c) obtener, como salida de la red (202) neuronal, la representación del espacio de características latentes
de la señal de audio en el dominio perceptual; y
(d) emitir la representación del espacio de características latentes de la señal de audio en el dominio perceptual en una corriente de bits.
2. Un procedimiento implementado por ordenador para descodificar una señal de audio utilizando una red (206) neuronal, en el que el procedimiento incluye las etapas de:
(a) obtener una representación de una señal de audio en el dominio perceptual mediante la descodificación de una corriente de bits recibida;
(b) introducir la representación de la señal de audio en el dominio perceptual dentro de la red (206)
neuronal para procesar la representación de la señal de audio en el dominio perceptual;
(c) obtener, como salida de la red (206) neuronal, una señal de audio procesada en el dominio perceptual;
y
(d) convertir la señal de audio procesada en el dominio perceptual en un dominio de la señal original en
base a una máscara que indica umbrales de enmascaramiento derivados a partir de un modelo psicoacústico.
3. El procedimiento según la reivindicación 2, en el que la red (206) neuronal está condicionada a información
indicativa de la máscara; y/o
en el que la red (206) neuronal está condicionada a la señal de audio en el dominio perceptual.
4. El procedimiento según la reivindicación 3, en el que el procesamiento de la señal de audio en el dominio perceptual mediante la red (206) neuronal incluye por lo menos uno de:
predecir la señal de audio procesada en el dominio perceptual lo largo del tiempo; predecir la señal de audio procesada en el dominio perceptual lo largo de la frecuencia; y predecir la señal de audio procesada en el dominio perceptual
lo largo del tiempo y la frecuen
5. El procedimiento según una cualquiera de las reivindicaciones 2 a 4, en el que la representación de la señal
de audio en el dominio perceptual comprende la señal de audio en el dominio perceptual, y/o
en el que la representación de la señal de audio en el dominio perceptual se obtiene a partir de:
convertir una señal de audio desde el dominio de la señal original al dominio perceptual mediante la
aplicación de la máscara;
codificar la señal de audio en el dominio perceptual; y
descodificar la señal de audio en el dominio perceptual; y opcionalmente
en el que la cuantificación se aplica a la señal de audio en el dominio perceptual antes de la codificación
y la cuantificación inversa se aplica a la señal de audio en el dominio perceptual después de la descodificación.
6. El procedimiento según la reivindicación 2,
en el que la etapa (a) implica recibir una representación del espacio de características latentes de la señal
de audio en el dominio perceptual en una corriente de bits; y
en el que la etapa (b) implica introducir la representación del espacio de características latentes dentro
de la red (206) neuronal para generar la señal de audio procesada en el dominio perceptual, y/o
en el que la red (206) neuronal está condicionada a la representación del espacio de características
latentes de la señal de audio en el dominio perceptual; y/o
en el que el procedimiento comprende además recibir información adicional indicativa de la máscara como
la corriente de bits, y en el que la red (206) neuronal está condicionada a dicha información adicional.
■iE
7. Un procedimiento implementado por ordenador para procesar una señal de audio utilizando una primera (202) y una segunda red (206) neuronal, en el que el procedimiento incluye las etapas de:
(a) obtener, mediante un primer aparato (201), una señal de audio en el dominio perceptual mediante la aplicación a una señal de audio en un dominio de la señal original de una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo (203) psicoacústico;
(b) introducir la señal de audio en el dominio perceptual dentro de la primera red (202) neuronal para proporcionar la correspondencia entre la señal de audio en el dominio perceptual y una representación del espacio de características latentes;
(c) obtener, como salida de la primera red (202) neuronal, la representación del espacio de características latentes;
(d) transmitir la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara a un segundo aparato (204);
(e) recibir, mediante el segundo aparato (204), la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara;
(f) introducir la representación del espacio de características latentes dentro de la segunda red (206) neuronal para generar una señal de audio aproximada en el dominio perceptual;
(g) obtener, como salida de la segunda red (206) neuronal, la señal de audio aproximada en el dominio perceptual; y
(h) convertir la señal de audio aproximada en el dominio perceptual al dominio de la señal original en base a la máscara.
8. El procedimiento según la reivindicación 7, en el que el procedimiento incluye además codificar la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara en una corriente de bits y transmitir la corriente de bits al segundo aparato (204), y en el que el procedimiento incluye además recibir la corriente de bits mediante el segundo aparato (204) y descodificar la corriente de bits para obtener la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara.
9. El procedimiento según la reivindicación 8, en el que la representación del espacio de características latentes de la señal de audio en el dominio perceptual y la máscara se cuantifican antes de la codificación en la corriente de bits y se descuantifican antes del procesamiento mediante la segunda red (206) neuronal.
10. El procedimiento según una cualquiera de las reivindicaciones 7 a 9, en el que la segunda red (206) neuronal está condicionada a la representación del espacio de características latentes de la señal de audio en el dominio perceptual y/o la máscara; y/o
en el que la correspondencia entre la señal de audio en el dominio perceptual y la representación del espacio de características latentes mediante la primera red (202) neuronal y la generación de la señal de audio aproximada en el dominio perceptual mediante la segunda red (206) neuronal se realiza en un dominio del tiempo; y/o
en el que la obtención de la señal en el dominio perceptual en la etapa (a) y la conversión de la señal en el dominio perceptual aproximada en la etapa (h) se realizan en un dominio de la frecuencia.
11. Un procedimiento implementado por ordenador para obtener y transmitir una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red (202) neuronal, incluyendo el procedimiento las etapas de:
(a) obtener una señal de audio en el dominio perceptual mediante la aplicación de una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico a una señal de audio en un dominio de la señal original;
(b) introducir la señal de audio en el dominio perceptual dentro de una red (202) neuronal para proporcionar la correspondencia entre la señal de audio en el dominio perceptual y una representación del espacio de características latentes;
(c) obtener, como salida de la red (202) neuronal, la representación del espacio de características latentes de la señal de audio en el dominio perceptual; y
(d) emitir la representación del espacio de características latentes de la señal de audio en el dominio perceptual como una corriente de bits.
12. Un procedimiento implementado por ordenador para obtener una señal de audio a partir de una representación del espacio de características latentes de una señal de audio en el dominio perceptual utilizando una red (206) neuronal, incluyendo el procedimiento las etapas de:
(a) recibir una representación del espacio de características latentes de una señal de audio en el dominio perceptual como una corriente de bits;
■iC
(b) introducir la representación del espacio de características latentes dentro de una red (206) neuronal para generar la señal de audio en el dominio perceptual;
(c) obtener, como salida de la red (206) neuronal, la señal de audio en el dominio perceptual; y
(d) convertir la señal de audio en el dominio perceptual a un dominio de la señal original en base a una máscara indicativa de los umbrales de enmascaramiento derivados a partir de un modelo psicoacústico.
13. Un dispositivo configurado para llevar a cabo el procedimiento según una cualquiera de las reivindicaciones 1 a 12.
14. Un programa informático que comprende instrucciones adaptadas para hacer que un dispositivo que tiene capacidad de procesamiento lleve a cabo el procedimiento según una cualquiera de las reivindicaciones 1 a 12 cuando es ejecutado por el dispositivo.
15. Un medio de almacenamiento legible por ordenador con instrucciones adaptadas para hacer que un dispositivo que tiene capacidad de procesamiento lleve a cabo el procedimiento según una cualquiera de las reivindicaciones 1 a 12 cuando son ejecutadas por el dispositivo.
■iT
ES21798908T 2020-10-15 2021-10-14 Method and apparatus for processing of audio using a neural network Active ES3025975T3 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063092118P 2020-10-15 2020-10-15
EP20210968 2020-12-01
PCT/US2021/055090 WO2022081915A1 (en) 2020-10-15 2021-10-14 Method and apparatus for processing of audio using a neural network

Publications (1)

Publication Number Publication Date
ES3025975T3 true ES3025975T3 (en) 2025-06-10

Family

ID=78402288

Family Applications (1)

Application Number Title Priority Date Filing Date
ES21798908T Active ES3025975T3 (en) 2020-10-15 2021-10-14 Method and apparatus for processing of audio using a neural network

Country Status (5)

Country Link
US (1) US12548579B2 (es)
EP (2) EP4229627B1 (es)
JP (1) JP2023548670A (es)
ES (1) ES3025975T3 (es)
WO (1) WO2022081915A1 (es)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11817111B2 (en) * 2018-04-11 2023-11-14 Dolby Laboratories Licensing Corporation Perceptually-based loss functions for audio encoding and decoding based on machine learning
WO2021245015A1 (en) 2020-06-01 2021-12-09 Dolby International Ab Method and apparatus for determining parameters of a generative neural network
EP4229635B1 (en) 2020-10-15 2025-09-17 Dolby International AB Method and system for neural network based processing of audio
US11600282B2 (en) * 2021-07-02 2023-03-07 Google Llc Compressing audio waveforms using neural networks and vector quantizers
EP4435781B8 (en) * 2023-03-23 2026-04-29 GN Hearing A/S Audio device with uncertainty quantification and related methods

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0317700A (ja) * 1989-06-14 1991-01-25 Nec Corp 音声符号化復号化方式
US5404377A (en) 1994-04-08 1995-04-04 Moses; Donald W. Simultaneous transmission of data and audio signals by means of perceptual coding
DE10347211A1 (de) 2003-10-10 2005-05-25 Siemens Audiologische Technik Gmbh Verfahren zum Nachtrainieren und Betreiben eines Hörgeräts und entsprechendes Hörgerät
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
US20120023051A1 (en) 2010-07-22 2012-01-26 Ramin Pishehvar Signal coding with adaptive neural network
WO2014042718A2 (en) * 2012-05-31 2014-03-20 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for synthesizing sounds using estimated material parameters
US8484022B1 (en) 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
FR3049084B1 (fr) * 2016-03-15 2022-11-11 Fraunhofer Ges Forschung Dispositif de codage pour le traitement d'un signal d'entree et dispositif de decodage pour le traitement d'un signal code
US10806405B2 (en) 2016-12-13 2020-10-20 Cochlear Limited Speech production and the management/prediction of hearing loss
US11545162B2 (en) * 2017-10-24 2023-01-03 Samsung Electronics Co., Ltd. Audio reconstruction method and device which use machine learning
US11416742B2 (en) * 2017-11-24 2022-08-16 Electronics And Telecommunications Research Institute Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function
US11817111B2 (en) * 2018-04-11 2023-11-14 Dolby Laboratories Licensing Corporation Perceptually-based loss functions for audio encoding and decoding based on machine learning
AU2019312209B2 (en) 2018-07-26 2022-07-28 Med-El Elektromedizinische Geraete Gmbh Neural network audio scene classifier for hearing implants
WO2020041363A1 (en) 2018-08-21 2020-02-27 Eko Devices, Inc. Methods and systems for determining a physiological or biological state or condition of a subject
US11024321B2 (en) 2018-11-30 2021-06-01 Google Llc Speech coding using auto-regressive generative neural networks
US11257507B2 (en) 2019-01-17 2022-02-22 Deepmind Technologies Limited Speech coding using content latent embedding vectors and speaker latent embedding vectors
JP7088403B2 (ja) * 2019-02-20 2022-06-21 ヤマハ株式会社 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
US11222651B2 (en) * 2019-06-14 2022-01-11 Robert Bosch Gmbh Automatic speech recognition system addressing perceptual-based adversarial audio attacks
US12347447B2 (en) 2019-12-05 2025-07-01 Dolby Laboratories Licensing Corporation Psychoacoustic model for audio processing
US11790926B2 (en) * 2020-01-28 2023-10-17 Electronics And Telecommunications Research Institute Method and apparatus for processing audio signal

Also Published As

Publication number Publication date
US12548579B2 (en) 2026-02-10
US20230395086A1 (en) 2023-12-07
EP4229627A1 (en) 2023-08-23
EP4589480A2 (en) 2025-07-23
JP2023548670A (ja) 2023-11-20
EP4589480A3 (en) 2025-08-06
EP4229627B1 (en) 2025-04-09
WO2022081915A1 (en) 2022-04-21

Similar Documents

Publication Publication Date Title
ES3025975T3 (en) Method and apparatus for processing of audio using a neural network
ES2453098T3 (es) Códec multimodo de audio
ES2966063T3 (es) Separación de fuentes mediante una estimación y control de la calidad de sonido
ES2615891T3 (es) Codificador de audio, decodificador de audio, método para codificar una información de audio, método para decodificar una información de audio y programa informático que utiliza una tabla de troceo que describe tanto valores de estado significativos como límites de intervalo
ES2660392T3 (es) Codificación de coeficientes espectrales de un espectro de una señal de audio
ES2993454T3 (en) Energy lossless coding apparatus
RU2752127C2 (ru) Усовершенствованный квантователь
ES2707888T3 (es) Sistemas y procedimientos para mitigar la inestabilidad potencial de tramas
ES2981063T3 (es) Método y aparato para la indexación de cuantificación vectorial piramidal
RU2530926C2 (ru) Изменение формы шума округления для основанных на целочисленном преобразовании кодирования и декодирования аудио и видеосигнала
ES2727748T3 (es) Dispositivo y método de codificación de audio
ES2559040T3 (es) Relleno de subvectores no codificados en señales de audio codificadas por transformada
JP5945626B2 (ja) ハーモニックオーディオ信号の帯域幅拡張
ES2703873T3 (es) Codificación/descodificación de la transformada de señales armónicas de audio
ES2757907T3 (es) Encubrimiento de pérdida de trama de audio
ES2807241T3 (es) Método de codificación, codificador, programa y medio de grabación
ES2657802T3 (es) Decodificación de audio basada en una representación eficiente de coeficientes autoregresivos
WO2007132750A1 (ja) Lspベクトル量子化装置、lspベクトル逆量子化装置、およびこれらの方法
JP2019529979A (ja) インデックスコーディング及びビットスケジューリングを備えた量子化器
ES2771104T3 (es) Aparato de codificación y procedimiento de codificación
ES2901749T3 (es) Método de descodificación, aparato de descodificación, programa y soporte de registro correspondientes
Klejsa et al. Multiple description distribution preserving quantization
JP5325340B2 (ja) 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体
ES2786198T7 (en) Audio signal encoder
KR20240161342A (ko) 오디오 신호의 부호화/복호화 방법 및 장치