BRPI0516392B1 - conformação de som difuso para esquemas bcc e similares - Google Patents

conformação de som difuso para esquemas bcc e similares Download PDF

Info

Publication number
BRPI0516392B1
BRPI0516392B1 BRPI0516392A BRPI0516392A BRPI0516392B1 BR PI0516392 B1 BRPI0516392 B1 BR PI0516392B1 BR PI0516392 A BRPI0516392 A BR PI0516392A BR PI0516392 A BRPI0516392 A BR PI0516392A BR PI0516392 B1 BRPI0516392 B1 BR PI0516392B1
Authority
BR
Brazil
Prior art keywords
input
envelope
signal
fact
audio signal
Prior art date
Application number
BRPI0516392A
Other languages
English (en)
Inventor
Eric Allamanche
Sascha Disch
Christof Faller
Jürgen Herre
Original Assignee
Agere Systems Inc
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agere Systems Inc, Fraunhofer Ges Forschung filed Critical Agere Systems Inc
Publication of BRPI0516392A publication Critical patent/BRPI0516392A/pt
Publication of BRPI0516392B1 publication Critical patent/BRPI0516392B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Golf Clubs (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Television Systems (AREA)

Abstract

conformação de som difuso para esquemas bcc e similares. um sinal de áudio de entrada com um envelope temporal de entrada é convertido em um sinal de áudio de saída com um envelope temporal de saída. o envelope temporal de entrada do sinal de áudio de entrada é caracterizado, o sinal de áudio de entrada é processado para gerar um sinal de áudio processado, caracterizado pelo fato de que o processamento descorrelaciona o sinal de áudio de entrada. o sinal de áudio processado é ajustado com base no envelope temporal de entrada caracterizado, para gerar o sinal de áudio de saída, onde o envelope temporal de saída substancialmente corresponde ao envelope temporal de entrada.

Description

CONFORMAÇÃO DE SOM DIFUSO PARA ESQUEMAS BCC E SIMILARES
HISTÓRICO DA INVENÇÃO
Referência Cruzada com Pedidos Relacionados
Este pedido reivindica o beneficio da data de depósito do pedido norte-americano provisório n2 60/620,401, depositado em 20/10/04 com protocolo do agente n2 Allamanche 1-2-173, cujos ensinamentos sâo aqui incorporados por referência.
Além disso, a matéria deste pedido está relacionada à matéria dos seguintes pedidos norte-americanos, cujos ensinamentos são aqui incorporados por referência:
o Pedido norte-americano número de série 09/848,877, depositado em 04/05/01 com protocolo do agente n2 Faller 5;
o Pedido norte-americano número de série 10/045,458, depositado em 07/11/01 com protocolo do agente n2 Baumgarte 1-6-8, o qual reivindicou o beneficio da data de depósito do pedido norte-americano provisório n2 60/311,565, depositado em 10/08/01;
o Pedido norte-americano número de série
10/155,437, depositado em 24/05/02 com protocolo do agente n2
Baumgarte 2- 10;
o Pedido norte-americano número de série
10/246,570, depositado em 18/09/02 com protocolo do agente n2
Baumgarte 3- 11;
o Pedido norte-americano número de série
10/815,591, depositado em 01/04/04 com protocolo do agente n2
Baumgarte 7-12;
o Pedido norte-americano número de série
10/936,464, depositado em
08/09/04 com protocolo do agente n9
Baumgarte 8-7-15;
o Pedido norte-americano número de série
10/762,100, depositado em
20/01/04 (Faller 13-1); e o Pedido norte-americano número de série
10/xxx,xxx, depositado na mesma data que este pedido com protocolo do agente n- Allamanche 2-3-18-4.
A matéria deste pedido também está relacionada à matéria descrita nos trabalhos a seguir, cujos ensinamentos são aqui incorporados por referência:
o F. Baumgarte and C. Faller, Binaural cue coding
- Part I: Psychoacoustic fundamentais and design principies, IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003;
o C. Faller and F. Baumgarte, Binaural cue coding
- Part II: Schemes and applications, IEEE Trans. on Speech and
Audio Proc., vol. 11, no. 6, Nov. 2003; e o C. Faller, Coding of spatial audio compatible with different playback formats, Preprint 117íh Conv. Aud. Eng.
Soc., October 2004.
Campo da Invenção
A presente invenção refere-se à codificação de sinais de áudio e à subseqüente síntese de cenas auditivas com base nos dados de áudio codificados.
Descrição da Técnica Relacionada
Quando uma pessoa ouve um sinal de áudio (isto é, sons) gerado por uma determinada fonte de áudio, o sinal de áudio tipicamente chega aos ouvidos esquerdo e direito da pessoa em dois
tempos diferentes e com dois níveis de áudio diferentes (por exemplo, decibéis), quando esses tempos e níveis são funções das diferenças dos caminhos que o sinal de áudio percorre para atingir as orelhas esquerda e direita, respectivamente. 0 cérebro da pessoa interpreta 5 estas diferenças de tempo e nível, proporcionando à pessoa a percepção de que o sinal de áudio fonte de áudio localizada em uma direção e distância) em relação recebido está sendo gerado por uma determinada posição (por exemplo, à pessoa. Uma cena auditiva é o efeito em rede de uma pessoa ouvindo simultaneamente sinais de áudio gerados por uma ou mais fontes de áudio diferentes localizadas em uma ou mais posições diferentes em relação à pessoa.
A existência deste processamento pelo cérebro pode ser usada para sintetizar cenas auditivas, quando sinais de áudio de uma ou mais fontes de áudio diferentes são modificadas propositalmente para gerar sinais de áudio esquerdos e direitos, os quais proporcionam a percepção de que as diferentes fontes de áudio estão localizadas em posições diferentes em relação ao ouvinte.
A Figura 1 apresenta um diagrama de blocos de alto nível do sintetizador de sinal binaural convencional 100, o qual converte um sinal único de fonte de áudio (por exemplo, um sinal mono) nos sinais de áudio esquerdo e direito de um sinal binaural, sendo um sinal binaural definido como os dois sinais recebidos nos tímpanos de um ouvinte. Além do sinal da fonte de áudio, o sintetizador 100 recebe um conjunto de sinalizações espaciais correspondentes à posição desejada da fonte de áudio em relação ao ouvinte. Em implementações típicas, o conjunto de sinalizações espaciais compreende um valor de diferença de nível intercanal (ICLD) (que identifica a diferença de nível de áudio entre os sinais de
• 4
• · 4 4 4 4 4 4 4 4
φ · 4 4 4 4 4 4
• 4 4 4 4 «
4 4 4 4 4
4 4 4 4 4 • 4 4 4 4 4 4
áudio esquerdo e direito recebidos nos ouvidos esquerdo e direito, respectivamente) e um valor de diferença de tempo intercanal (ICTD) (que identifica a diferença de tempo de chegada entre os sinais de áudio esquerdo e direito recebidos nos ouvidos esquerdo e direito, respectivamente). Além disso ou alternativamente, algumas técnicas de síntese envolvem a moldagem de uma função de transferência condicionada à direção para o som proveniente da fonte de sinal para os tímpanos, também chamada de função de transferência em relação à cabeça (HRTF). Ver, por exemplo, J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983, cujos ensinamentos foram aqui incorporados por referência.
Ao usar-se o sintetizador de sinal binaural 100 da Figura 1, o sinal de áudio mono gerado por uma única fonte de som pode ser processado de maneira que, ao ser ouvido em fones de ouvido, a fonte de som seja espacialmente localizada aplicando-se um conjunto apropriado de sinalizações espaciais (por exemplo, ICLD, ICTD e/ou HRTF) para gerar o sinal de áudio para cada ouvido. Vide, por exemplo, D.R. Begault, 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA, 1994.
O sintetizador de sinal binaural 100 da Figura 1 gera o tipo mais simples de cenas auditivas: as que apresentam uma fonte única de áudio posicionada em relação ao ouvinte. É possível gerar cenas auditivas mais complexas compostas de duas ou mais fontes de áudio localizadas em posições diferentes em relação ao ouvinte, usando-se um sintetizador de cena auditiva que seja essencialmente implementado usando-se múltiplos tipos de sintetizador de sinal binaural, quando cada tipo de sintetizador de sinal binaural gera o sinal binaural correspondente a uma fonte de áudio diferente. Uma vez • ·
• ·
9 « • · · 9 99· « ··
9 * « 9 9 99 9
• 9 9 9 9 • · 4
• · 9 9 « · »
9 « · 9 9 • 9 ·
9 99 4 • ·· ·
• »
9 que cada fonte diferente de áudio apresenta uma localização diferente em relação ao ouvinte, um conjunto diferente de sinalizações espaciais é usado para gerar o sinal de áudio binaural para cada fonte diferente de áudio.
SUMÁRIO DA INVENÇÃO
De acordo com uma configuração, a presente invenção é um método e aparelho para conversão de um sinal de áudio de entrada com um envelope temporal de entrada em um sinal de áudio de saída com um envelope temporal de entrada. O envelope temporal de entrada de sinal de áudio de entrada é caracterizado. O sinal de áudio de entrada é processado, gerando um sinal de áudio processado, caracterizado pelo fato de que o processamento descorrelaciona c sinal de áudio de entrada. O sinal de áudio processado é ajustado, com base no envelope temporal de entrada caracterizado, gerando c sinal de áudio de saída, onde o envelope temporal de saída substancialmente corresponde ao envelope temporal de entrada.
De acordo com outra configuração, a presente invenção é um método e aparelho para codificação de canais de áudio de entrada C para geração de canal(is) de áudio transmitido(s) E. Um ou mais códigos de sinalizaçãos são gerados para dois ou mais canais de entrada C. Os canais de entrada C passam por downmix, gerando o(s) canal (is) transmitido (s) E, sendo OE^l. Um ou mais canais de entrada Ce o(s) canal(is) transmitido(s) E são analisados, gerando uma flag que indica se um decodificador do(s) canal(is) transmitido(s) E deve ou não executar conformação do envelope durante a decodificação do(s) canal (is) transmitido(s) E.
De acordo com outra configuração, a presente invenção é um fluxo de bits de áudio codificado gerado pelo método do
to t* • · • ·· •
V · •4 *9 •
··· ·
··
9 • · • · • « • · ··
V « · parágrafo anterior.
De acordo com outra configuração, a presente invenção é um fluxo de bits de áudio codificado composto transmitido(s) E, um ou mais códigos de sinalização e de canal(is) uma flag. O código ou códigos de sinalização é(são) gerado(s) através da geração de um ou mais códigos de sinalização para dois ou mais canais de entrada C. O(s) canal(is) transmitido(s) E é(são) gerado(s) por um processo de downmix dos canais de entrada C, sendo OEàl. A flag é gerada através da análise de um ou mais canais de entrada C e do(s) canal (is) transmitido (s) E, caracterizado pelo fato de gue a flag indica se um decodificador do(s) canal(is) transmitido(s) E deve ou não executar conformação da envelope durante a decodificação do(s) canal(is) transmitido(s) E.
BREVE DESCRIÇÃO DOS DESENHOS
Outros aspectos, recursos e vantagens da presente invenção ficarão mais totalmente aparentes com base na descrição detalhada a seguir, nas reivindicações anexas e nos desenhos associados, nos quais numerais de referência semelhantes identificam elementos similares ou idênticos.
A Figura 1 apresenta um diagrama de blocos de alto nível do sintetizador de sinal binaural convencional;
A Figura 2 é um diagrama de blocos de um sistema de processamento de áudio de binaural cue coding (BCC) genérico;
A Figura 3 apresenta um diagrama de blocos de um downmixer que pode ser usado para o downmixer da Figura 2;
A Figura 4 apresenta um diagrama de blocos de um sintetizador BCC que pode ser usado para o decodificador da Figura 2;
A Figura 5 apresenta um diagrama de blocos do
avaliador do BCC da Figura 2, de acordo com uma configuração da presente invenção;
A Figura 6 ilustra a geração de dados de ICTD e ICLD para áudio de cinco canais;
A Figura 7 ilustra a geração de dados de ICC para áudio de cinco canais;
A Figura 8 apresenta um diagrama de blocos de uma implementação do sintetizador BCC da Figura 4 que pode ser usado em um decodificador BCC para gerar um sinal de áudio estéreo ou multicanal, com base em um sinal de soma simples transmitido s(n) dado mais as sinalizações espaciais;
A Figura 9 ilustra como as ICTDs e ICLDs sãc variadas dentro de uma sub-banda como função de freqüência;
A Figura 10 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC, de acordo com uma configuração da presente invenção;
A Figura 11 ilustra um exemplo de aplicação do
esquema de conformação de envelope da Figura 10 no contexto do
sintetizador BCC da Figura 4;
A Figura 12 ilustra um exemplo alternativo de
aplicação do esquema de conformação de envelope da Figura 10 no contexto do sintetizador BCC da Figura 4, quando é aplicado conformação de envelope no domínio de tempo;
As Figuras 13 (a) e (b) apresentam possíveis implementações do TPA e TP da Figura 12, quando é aplicado conformação de envelope somente em frequências acima da freqüência crítica fTP;
A Figura 14 ilustra um exemplo de aplicação do
esquema de conformação de envelope da Figura 10 no contexto do esquema de síntese de ICC baseada em reverberação atrasada descrito no pedido norte-americano número de série 10/815,591, depositado em 01/04/04 com protocolo do agente n9 Baumgarte 7-12;
A Figura 15 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC, de acordo com uma configuração da presente invenção, o qual é uma alternativa ao esquema apresentado na Figura 10;
A Figura 16 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC, de acordo com uma configuração da presente invenção, que é uma alternativa aos esquemas apresentados nas Figuras 10 e 15;
A Figura 17 ilustra um exemplo de aplicação do esquema de conformação de envelope da Figura 15 no contexto do sintetizador BCC da Figura 4; e
As Figuras 18(a)-(c) apresentam diagramas de blocos de possíveis implementações dos TPA, ITP e TP da Figura 17.
DESCRIÇÃO DETALHADA
Na binaural cue coding (BCC), um codificador codifica canais de áudio de entrada C para gerar canais de áudio transmitidos E, sendo Oí21. Em particular, dois ou mais canais de entrada C são providos em um domínio de freqüência, e um ou mais códigos de sinalização são gerados para cada uma ou mais diferentes bandas de freqüência nos dois ou mais canais de entrada do domínio de freqüência. Além disso, os canais de entrada C passam por downmixing, gerando os canais transmitidos E. Em algumas implementações de downmixing, pelo menos um dos canais transmitidos E baseia-se em dois ou mais canais de entrada C, e pelo menos um canal transmitido E
• · ·
somente
Em uma configuração, um codificador de BCC possui dois ou mais bancos de filtro, um estimador de código e um downmixer. Os dois ou mais bancos de filtro convertem dois ou mais canais de 5 entrada C de um domínio de tempo para um domínio de freqüência. O estimador de código gera um ou mais códigos de sinalização para cada uma ou mais diferentes bandas de freqüência nos dois ou mais canais de entrada convertidos. 0 downmixer executa o downmixing dos canais de entrada C, gerando os canais transmitidos E, sendo OEèl.
Na decodificação de BCC, os canais de áudio transmitidos E são decodificados, gerando canais de áudio de playback C. Em particular, para cada uma ou mais diferentes bandas de freqüência, é executado upmix de um ou mais canais transmitidos E em um domínio de freqüência, gerando dois ou mais canais de playback C 15 no domínio de freqüência, sendo OE^l. Um ou mais códigos de sinalização são aplicados a cada uma ou mais diferentes bandasde freqüência nos dois ou mais canais de playback do domíniode freqüência, gerando dois ou mais canais modificados, e os doisou mais canais modificados são convertidos do domínio de freqüência para 20 o domínio de tempo. Em algumas implementações com upmixing, pelo menos um dos canais de playback C baseia-se em pelo menos um dos canais transmitidos E e em pelo menos um código de sinalização, e pelo menos um dos canais de playback C baseia-se em somente um único canal transmitido E e independe de qualquer código de sinalização.
Em uma configuração, um decodificador BCC possui um upmixer, um sintetizador, e um ou mais bancos de filtro inversos. Para cada uma ou mais diferentes bandas de freqüência, o upmixer executa o upmixing de um ou mais canais transmitidos E em um domínio de freqüência, de freqüência, de sinalização gerando dois ou mais canais de playback C no domínio sendo OE^l. O sintetizador aplica um ou mais códigos a cada uma ou mais diferentes bandas de freqüência nos dois ou mais canais de playback do domínio de freqüência, gerando dois ou mais canais modificados.
O banco ou bancos de filtro inverso
existente(s) converte(m) os dois ou mais canais modificados do domínio de freqüência para um domínio de tempo.
Dependendo da implementação em particular, um determinado canal de playback pode basear-se em um único canal 10 transmitido, ao invés de em uma combinação de dois ou mais canais transmitidos. Por exemplo, quando existe um único canal transmitido, cada canal de playback C baseia-se nesse canal transmitido. Nestas situações, o upmixing corresponde à cópia do canal transmitido correspondente. Assim, para aplicações nas quais existe somente um 15 canal transmitido, o upmixer pode ser implementado usando-se um replicador que copie o canal transmitido para cada canal de playback.
Os codificadores e/ou decodificadores BCC podem ser incorporados a vários sistemas ou aplicações, inclusive, por exemplo, gravadores / reprodutores digitais de vídeo, gravadores / 20 reprodutores digitais de áudio, computadores, transmissores / receptores de satélite, transmissores / receptores a cabo, transmissores / receptores de difusão terrestre, sistemas de entretenimento domésticos e sistemas de movie theater.
Processamento de BCC Genérico
A Figura 2 é um diagrama de blocos de um sistema de processamento de áudio de binaural cue coding (BCC) genérico 200, composto de um codificador 202 e um decodificador 204. O codificador 202 inclui o downmixer 206 e o estimador de BCC 208.
II
downmixer 206 converte os canais de áudio de entrada C Xi(n) em canais de áudio transmitidos E yi(n), sendo ΟΕΪ1.
Nesta especificação, os sinais expressos com uso da variável n são sinais de domínio de tempo, e os sinais expressos com uso da variável k são sinais de domínio de freqüência. Dependendo da implementação em particular, o downmixing pode ser implementado no domínio de tempo ou no domínio de freqüência. O estimador de BCC 208 gera códigos de BCC a partir dos canais de áudio de entrada C, e transmite esses códigos de BCC como informações secundárias de arquitetura in-band ou out-of10 band, em relação aos canais de áudio transmitidos E. Códigos típicos de BCC incluem um ou mais dados de diferença de tempo intercanal (ICTD), diferença de nível intercanal (ICLD) e correlação intercanal (ICC), estimados entre determinados pares de canais de entrada como função de freqüência e tempo. A implementação em particular determinará entre quais pares específicos de canais de entrada os códigos de BCC são estimados.
Os dados de ICC correspondem à coerência de um sinal binaural, o qual está relacionado à largura percebida da fonte de áudio. Quanto mais larga for a fonte de áudio, mais baixa será a 20 coerência entre os canais esquerdo e direito do sinal binaural resultante. Por exemplo, a coerência do sinal binaural correspondente a uma orquestra irradiado sobre um palco de auditório é tipicamente mais baixa que a coerência do sinal binaural correspondente a um único violino tocando sozinho. Em geral, um sinal de áudio com 25 coerência mais baixa é geralmente percebido como mais irradiado em um espaço auditivo. Assim, os dados de ICC estão tipicamente relacionados à aparente largura da fonte e ao grau de envolvimento do ouvinte. Vide, por exemplo, J. Blauert, The Psychophysics of Human
4.
Sound Locahzation, MIT Press, 1983.
Dependendo da aplicação em particular, os canais de áudio transmitidos E e os códigos de BCC correspondentes podem ser transmitidos diretamente ao decodificador 204, ou armazenados em algum tipo adequado de dispositivo de armazenamento, para ser posteriormente acessado pelo decodificador 204. Dependendo da situação, o termo transmissão pode estar relacionado à transmissão direta para um decodificador, ou ao armazenamento para posterior fornecimento a um decodificador. Em ambos os casos, o decodificador
204 recebe os canais de áudio transmitidos e as informações secundárias, executa o upmixing e a síntese de
BCC, usando os
códigos de BCC para converter os canais de áudio transmitidos E em mais que canais de áudio de playback E (tipicamente, mas não necessariamente C) A'((/z) para playback de áudio. Dependendo da implementação em particular, o upmixing pode ser executado no domínio de tempo ou no domínio de freqüência.
Além do processamento de BCC apresentado na Figura 2, um sistema de processamento de áudio com BCC genérico pode incluir outros estágios de codificação e decodificação para comprimir ainda mais os sinais de áudio no codificador, e posteriormente descomprimir os sinais de áudio no decodificador, respectivamente. Estes codificadores-decodificadores de áudio podem basear-se em técnicas convencionais de compressão / descompressão de áudio, como as baseadas em modulação de código de pulso (PCM), PCM diferencial (DPCM) ou DPCM adaptável (ADPCM).
Quando o downmixer 206 gera um sinal de soma simples (isto é, E=l) , a codificação BCC consegue representar sinais de áudio multicanal a uma taxa de transferência somente um pouco mais alta que a necessária para representar um sinal de áudio mono. Isto ocorre porque os dados estimados de ICTD, ICLD e ICC entre um par de canais contêm aproximadamente duas vezes menos informações que uma forma de onda de áudio.
Não só a baixa taxa de transferência da codificação BCC é interessante, mas também seu aspecto de compatibilidade reversa. Um sinal de soma simples transmitido corresponde a um downmix em mono do sinal original estéreo ou multicanal. Para receptores que não suportam reprodução de som estéreo ou multicanal, ouvir o sinal de soma transmitido é um método válido para apresentação do material de áudio em equipamentos simples de reprodução em mono. A codificação BCC pode, portanto, também ser usada para ampliar serviços existentes envolvendo a reprodução de material de áudio em mono para áudio em multicanal. Por exemplo, sistemas de radiodifusão com áudio em mono existentes podem ser ampliados para playback estéreo ou multicanal se as informações secundárias de BCC puderem ser inseridas no canal de transmissão existente. Existem capacidades análogas ao se executar downmixing em áudio multicanal para dois sinais de soma que correspondam ao áudio em estéreo.
O BCC processa sinais de áudio com resolução de tempo e freqüência determinada. A resolução de freqüência usada é amplamente motivada pela resolução de freqüência do sistema auditivo humano. A psicoacústica sugere que a percepção espacial muito provavelmente baseia-se em uma representação de banda crítica do sinal de entrada acústico. Esta resolução de freqüência é considerada usando-se um banco de filtro reversível (por exemplo, baseado em uma transformada rápida de Fourier (FFT) ou um filtro em espelho de ·· · · · · • · · ·· · • · · · · · • · · · · · · banda iguais ou auditivo humano.
o(s) sinal(is)
ο)5 ·· ··· · ··· · • · · · · ··· • · · · · ··;
• · · · · ·· • · · · · ·· • ··· · · ··<
quadratura (QMF)) com sub-bandas com larguras de proporcionais à largura de banda crítica do sistema
Downmixing Genérico
Em implementações preferidas, somado(s) transmitido(s) contém(êm) todos os componentes de sinal do sinal de áudio de entrada. O objetivo é que cada componente de sinal seja totalmente mantido. A simples soma dos canais de entrada de áudio freqüentemente resulta em amplificação ou atenuação dos componentes de sinal. Em outras palavras, a potência dos componentes de sinal em uma soma “simples é frequentemente maior ou menor que a soma da potência do componente de sinal correspondente de cada canal. Uma técnica de downmixing pode ser usada, a qual equaliza o sinal de soma de maneira que a potência dos componentes de sinal do sinal de soma seja aproximadamente a mesma que a potência correspondente em todos os canais de entrada.
A Figura 3 apresenta um diagrama de blocos de um downmixer 300 que pode ser usado para o downmixer 206 da Figura 2 de acordo com determinadas implementações do sistema de BCC 200. O downmixer 300 possui um banco de filtros (FB) 302 para cada canal de entrada Xi(n), um bloco de downmixing 304, um bloco opcional de escalonamento / retardo 306, e um FB inverso (IFB) 308 para cada canal codificado yd (n).
Cada banco de filtros 302 converte cada quadro (por exemplo, 20 msec) de um canal de entrada digital correspondente xi(n) do domínio de tempo em um conjunto de coeficientes de entrada xt(k) do domínio de freqüência. O bloco de downmixing 304 executa downmixing em cada sub-banda de coeficientes de entrada correspondente C em uma sub-banda correspondente de coeficientes de domínio de frequência com downmixing E.
downmixing da k-ésima sub-banda dos • · · · • ·· • ·· · • ·♦ • · ··
A equação • · • · • · ♦ · (1) coeficientes • · · · · • · · • · · · • · · representa o de entrada
(.f|(£),x2(£),...,.r(.(Âr)), gerando a Tc-ésima sub-banda de coeficientes com downmixing íyx{k),y2(k),...,yF(k)) , como segue:
Λ(*) X)(£)
= Dca· x2(£)
.y,W. Λ (k)_
quando Dt/; é uma
, (D matriz de downmixing C-por-E de valor real.
O bloco opcional de escalonamento / retardo 306 é composto de um conjunto de multiplicadores 310, cada um dos quais multiplicando um coeficiente com downmixing correspondente y,(k) por um fator de escalonamento e, (k), gerando um coeficiente escalonado correspondente >',(&) . A motivação para a operação de escalonamento é equivalente à equalização generalizada para downmixing com fatores de ponderação arbitrários para cada canal. Se os canais de entrada forem independentes, a potência p?ik) do sinal com downmixing de cada subbanda é dada pela Equação (2), como segue:
Λμ*·) = w •à*1 «*<· 1
_ Pyp. (_
, (2) quando deriva-se DCA· elevando-se ao quadrado cada elemento matriz da matriz de downmixing C-por-E 1)(7,, e é a potência de sub-banda k do canal de entrada i.
Se as sub-bandas não forem independentes, os
..
• · • ·· • ·· · • ·· • · ♦· • · valores de potência do sinal com downmixing serão maiores ou menores que os computados com uso da Equação (2), devido amplificações ou cancelamentos de sinal quando os componentes de sinal estão em fase ou fora de fase, respectivamente. Para que isto seja evitado, a operação de downmixing da Equação (1) é aplicada em sub-bandas, seguida pela operação de escalonamento dos multiplicadores 310. Os fatores de escalonamento ei(k) (l.i.E) podem ser derivados usando-se a Equação (3), como segue:
(3) quando /?f, (jt) é a potência de sub-banda computada pela Equação 2, e P^/,} é a potência do sinal de sub-banda com downmixing correspondente y,(k) .
Além de ou ao invés de prover escalonamento opcional, o bloco de escalonamento / retardo 306 pode, opcionalmente, aplicar retardos aos sinais.
Cada banco de filtros inverso 308 converte um conjunto de coeficientes escalonados correspondente y,(k) do domínio de freqüência em um quadro de um canal transmitido digital correspondente y, (nj.
Apesar de a figura 3 apresentar todos os canais de entrada C sendo convertidos no domínio de freqüência para subseqüente downmixing, em implementações alternativas, um ou mais (porém menos que C-l) canais de entrada C pode(m) derivar o processamento apresentado na Figura 3 em parte ou totalmente, e ser transmitido como um número equivalente de canais de áudio inalterados. Dependendo da implementação em particular, estes canais de áudio inalterados • ♦ · • · • · · • · podem ou não ser usados pelo estimador de BCC 208 da
Figura 2 na
geração dos códigos BCC transmitidos.
Em uma implementação do downmixer
300 que gera um sinal de soma simples y(n), E=1 e os sinais xc(k) de cada sub-banda de cada canal de entrada C são adicionados um fator e(k), de acordo com a Equação 4, e depois multiplicados com como segue:
y(k) = etk^xc(k) . (4) o fator e(k) é dado pela
Equação (5) como segue:
(5) quando /2f (k) xc é uma estimativa de curto prazo da potência de xc(k) no índice de tempo k, e //f(A) é uma estimativa de curto prazo da potência de
As sub-bandas equalizadas são transformadas novamente no domínio de tempo, resultando no sinal de soma y(n), que é transmitido ao decodificador BCC.
Síntese de BCC Genérica
A Figura 4 apresenta um diagrama de blocos de um sintetizador BCC 400 que pode ser usado para o decodificador
204 da
Figura
2, de acordo com determinadas implementações do sistema de BCC
200. 0 sintetizador BCC 400 possui um banco de filtros 402 para cada canal transmitido yi(n), um bloco de upmixing 404, retardos 406, multiplicadores 408, bloco de correlação 410, e um banco de filtros inverso 412 para cada canal de playback X,(ri) .
Cada banco de filtros 402 converte cada quadro de um canal transmitido digital correspondente y^ (n) do domínio de tempo ♦
• · • · • · • ·♦· · · ··· em um conjunto de coeficientes de entrada yt(k) do domínio de freqüência. O bloco de upmixing 404 executa o upmixing em cada subbanda de coeficientes de canal transmitido correspondente E em uma sub-banda correspondente de coeficientes de domínio de freqüência C com upmixing. A
Equação 4 representa o upmixing da k-ésima sub-banda de coeficientes de canal transmitido (·Ρι(£)»Λ(^)’···’Λ·(^)) ' gerando a késima sub-banda de coeficientes com upmixing (5,(^),52(^),....5,(^)), como segue:
valor real. A possibilita que
5,(£) 'W
52(A) = y2(k)
_5r(^)_ y,(k)
quando U/-r é uma execução do o upmixing seja (6) matriz de upmixing E-por-C de upmixing no domínio de freqüência aplicado individualmente em cada subbanda diferente.
Cada retardo
406 aplica um valor de retardo di(k) baseado em um código de BCC correspondente para dados de ICTD, para garantir que os valores desejados de ICTD apareçam entre determinados pares de canais de playback. Cada multiplicador 408 aplica um fator de escalonamento aí(k) baseado em um código de BCC correspondente para dados de ICLD, para garantir que os valores desejados de ICLD apareçam entre determinados pares de canais de playback. O bloco de correlação 410 executa uma operação de descorrelação A baseada nos códigos de BCC correspondentes para dados de ICC, para garantir que os valores desejados de ICC apareçam entre determinados pares de canais de playback. Uma descrição mais detalhada das operações do bloco de correlação 410 pode ser encontrada no pedido de patente norte-americana n2
2-10.
problemática que a
• · • · · ·♦· ♦
«w to to • ·
• · 9 • 9
• ·
to V
• to · to • ·
• 4 • · • to
10/155,437, depositado síntese de valores síntese de valores de • · · to • · to • · · · * · ·
• · ·« · » · em 24/05/02 como Baumgarte de ICLD pode ser menos
ICTD e ICC, uma vez que a síntese de ICLD envolve meramente o escalonamento de sinais de subbanda. Como as sinalizações de ICLD são as sinalizações direcionais mais comumente usadas, em geral é mais importante que os valores
ICLD aproximem-se dos valores do sinal de áudio original. Assim, dados de ICLD podem ser estimados entre todos os pares de canal.
de os
Os fatores de escalonamento a,(k) (l.i.C) para cada sub-banda são preferivelmente escolhidos de maneira que a potência de sub-banda de cada canal de playback se aproxime da potência correspondente do canal de áudio de entrada original.
Um objetivo pode ser aplicar relativamente poucas modificações de
Assim, os dados todos os pares sinal para sintetização de valores de ICTD e
ICC.
de BCC podem não incluir valores de ICTD e ICC para de canal.
Nesse caso, o sintetizador BCC
400 sintetizaria valores de ICTD e ICC somente entre determinados pares de canal.
Cada banco de filtros inverso 412 converte um conjunto de coeficientes sintetizados correspondente x,(£) do domínio de freqüência em um quadro de um canal de playback digital correspondente X,(/z) .
Apesar de a Figura 4 apresentar todos os canais transmitidos E sendo convertidos para o domínio de freqüência para subseqüente upmixing e processamento de BCC, em implementações alternativas, um ou mais (porém não todos) canais transmitidos E podem derivar o processamento apresentado na Figura 4 em parte ou
20 • 4 * r • • · • ♦ * • • • · 9 · • tf * * • • • * • • «
• · • · • • * • · V · • 4 ·♦ • • · • • • ·· • · • · • r 5 · • · ·· • • V •
• ·· • » · • · • »♦
totalmente. Por exemplo, um ou mais canais transmitidos pode(m) ser canais inalterados que não estão sujeitos a upmixing. Além de serem um ou mais canais de playback C, estes canais inalterados, por sua vez, podem ser, mas não precisam ser, usados como canais de referência aos quais é aplicado processamento BCC, para sintetização de um ou mais dos outros canais de playback. Em ambos os casos, esses canais inalterados podem estar sujeitos a retardos para compensar o tempo de processamento envolvido no upmixing e/ou processamento de
BCC usados para gerar o restante dos canais de playback.
Deve ser observado que, apesar de a Figura 4 apresentar canais de playback C sendo sintetizados de canais transmitidos E, quando C era também o número de canais de entrada originais, a síntese de BCC não se limita a esse número de canais de playback. Em geral, o número de canais de playback pode ser qualquer número de canais, inclusive números maiores ou menores que C, e possivelmente até mesmo situações em que o número de canais de playback é igual ou menor que o número de canais transmitidos.
Diferenças perceptivamente relevantes entre canais de áudio
Pressupondo-se um único sinal de soma, o BCC sintetiza um sinal de áudio estéreo ou multicanal de maneira que
ICTD, ICLD e ICC aproximem-se das sinalizações correspondentes do sinal de áudio original. A seguir, é discutido o papel de ICTD, ICLD e ICC em relação aos atributos de imagem espacial auditiva.
O conhecimento a respeito da audição espacial sugere que para um evento auditivo, ICTD e ICLD estão relacionadas à direção percebida. Ao considerarem-se respostas impulsivas binaurais do ambiente (BRIRs) de uma fonte, existe uma relação entre a largura
4 · • •4
• * 4
• ·
• · *
* a
···
*·· · ··
··
·· ··
9 • ·
• · 9 • ·
• ··
···
• · • ·
• ·
·· 9
J
• · w··
do evento auditivo e o envolvimento do ouvinte e os dados de ICC estimados para as primeiras e últimas partes das BRIRs. No entanto, a relação entre a ICC e estas propriedades para sinais gerais (e não somente as BRIRs) não é direta.
Sinais de áudio estéreo e multicanal em geral contêm uma mistura complexa de sinais de fonte simultaneamente ativos superpostos por componentes de sinal refletido resultantes de gravação em espaços confinados, ou adicionados pelo engenheiro de gravação para criar artificialmente uma impressão espacial. Diferentes sinais de fonte e seus reflexos ocupam diferentes áreas no plano tempo-freqüência. Isto é refletido pelas ICTD, ICLD e ICC, as quais variam em função de tempo e freqüência. Neste caso, a relação entre ICTD, ICLD e ICC instantâneas e as direções de evento auditivo e impressão espacial não é óbvia. A estratégia de determinadas configurações de BCC é sintetizar estas sinalizações cegamente, de maneira que elas se aproximem das sinalizações correspondentes do sinal de áudio original.
São usados bancos de filtros com sub-bandas com largura de banda igual a duas vezes a largura de banda retangular equivalente (ERB). Uma audição informal revela que a qualidade de áudio de BCC não melhora de maneira notável quando uma resolução de freqüência mais alta é escolhida. Uma resolução de freqüência mais baixa pode ser desejável, uma vez que resulta em menos valores de ICTD, ICLD e ICC precisando ser transmitidos ao decodificador, e assim, em taxa de bits transferência mais baixa.
Em relação à resolução de tempo, as ICTD, ICLD e ICC são tipicamente consideradas a intervalos de tempo regulares. Obtém-se alto desempenho quando ICTD, ICLD e ICC são consideradas aproximadamente a cada 4 a 16 ms. Deve ser observado que, a menos que as sinalizações sejam consideradas em intervalos de tempo muito curtos, o efeito de precedência não é considerado diretamente. Pressupondo um par de avanço-atraso clássico de estímulos de som, se o avanço e atraso caírem em um intervalo de tempo onde somente um conjunto de sinalizações está sintetizado, a dominação de localização do avanço não é considerada. Apesar disto, o BCC atinge qualidade de áudio refletida em um escore MUSHRA médio de aproximadamente 87 (isto é, qualidade de áudio excelente) em média, e até aproximadamente 100 para determinados sinais de áudio.
A diferença perceptivelmente pequena frequentemente obtida entre o sinal de referência e o sinal sintetizado sugere que as sinalizações relacionadas a uma ampla gama de atributos de imagem espacial auditiva são implicitamente consideradas sintetizando-se ICTD, ICLD e ICC em intervalos de tempo regulares. A seguir, são apresentados alguns argumentos sobre como ICTD, ICLD e ICC podem relacionar-se a uma gama de atributos de imagem espacial auditiva.
Estimativa de sinalizações espaciais
A seguir, uma descrição de como ICTD, ICLD e ICC são estimadas. A taxa de frequência para transmissão destas sinalizações espaciais (quantizadas e codificadas) pode ser somente alguns kb/s, e portanto, com o BCC, é possível transmitir sinais de áudio estéreo e multicanal em taxas de transferência próximas às necessárias para um canal de áudio único.
A Figura 5 apresenta um diagrama de blocos do estimador de BCC 208 da Figura 2, de acordo com uma configuração da presente invenção. O estimador de BCC 208 é composto de bancos de filtro (FB) 502, os quais podem ser os mesmos que os bancos de filtro
302 da Figura 3, do
bloco de estimativa 504, o qual gera sinalizações espaciais de ICTD, ICLD e ICC para cada diferente subbanda de frequência gerada pelos bancos de filtro 502.
Estimativa de ICTD, ICLD e ICC para sinais estéreo
As medidas a seguir são usadas para ICTD, ICLD e
ICC para sinais de sub-banda correspondente χ,(Λ) e x2(k) de dois (por exemplo, estéreo) canais de áudio:
oICTD [amostras]:
r12(£) = argmax{Φ12(ί/,£)| , (7) d
com estimativa de curto prazo da função de correlação cruzada normalizada dada pela Equação (8) como segue:
/MO)
Φ, 2 (í/, k) = , ,
y]l\(k-dt)pi2(k-d2) quando niax{-</, 0} max{í/,0} e /\i2(O) é uma estimativa de curto prazo da média de x,(k -í/,)x2(k -d2) .
oICLD [dB]:
Áí12(*) = 101ogl0 (*)Ί • (10) o ICC:
cl2(k) = ηΐ3χ|Φ12(ί/,Λ)| . (11)
Deve ser observado que valor absoluto da correlação cruzada normalizada é considerado e apresenta uma faixa de [0,1].
Estimativa de ICTD, ICLD e ICC para sinais de áudio multicanal
Quando tipicamente suficiente referência (por exemplo, ilustra a Figura
6, para denotam a ICTD e a ICLD, e o canal c.
Como apresenta mais graus apresentar diferentes houver mais de dois canais de entrada, é definir ICTD e canal número 1) o caso de canais
ICLD entre um canal de e os outros canais, como
0=5, quando rk.(£) e AL^Çk) respectivamente, entre o canal de referência oposto à ICTD e à ICLD, a ICC tipicamente de liberdade.
valores entre entrada possíveis. Para canais C,
A ICC por definição pode todos os pares de canal de há 0/0-1)/2 pares de canal possíveis; por exemplo, para 5 canais há 10 pares de canais, ilustra a Figura 7(a). No entanto, esse esquema demanda que, como para cada sub-banda em cada índice de tempo, os valores de ICC 0/0-1)/2 sejam estimados e transmitidos, resultando em alta complexidade computacional e taxa de transferência alta.
Alternativamente, para cada sub-banda, ICTD e ICLD determinam a direção na qual ocorre o evento auditivo do componente de sinal correspondente da sub-banda. Um único parâmetro de ICC por sub-banda pode então ser usado para descrever a coerência geral entre todos os canais de áudio. Podem-se obter bons resultados estimando-se e transmitindo-se sinalizações de ICC somente entre os dois canais com mais energia de cada sub-banda, em cada índice de tempo. Isto é ilustrado na Figura 7(b), na qual para instantes de tempo k-1 e k, os pares de canal (3,4) e (1,2) são os mais fortes, respectivamente. Uma regra heurística pode ser usada para determinar a ICC entre os outros pares de canal.
Síntese de sinalizações espaciais
Figuraapresenta
diagrama
uma implementação do sintetizador BCC 400 da Figura 4 que pode ser usado em um decodificador BCC para gerar um sinal de áudio estéreo ou multicanal, dado um único sinal de soma transmitido s(n) mais as sinalizações espaciais. O sinal de soma s (n) é decomposto em subbandas, quando s(k) denota uma dessas sub-bandas. Para gerar as subbandas correspondentes de cada canal de saída, são aplicados retardos dc, fatores de escalonamento ac e filtros hc à sub-banda correspondente do sinal de soma. (Para simplicidade de observação, o índice de tempo k é ignorado nos retardos, fatores de escalonamento e filtros.) As ICTDs são sintetizadas através da imposição de retardos, as ICLD por escalonamento e as ICC pela aplicação de filtros de descorrelaçâo. O processamento apresentado na Figura 8 é aplicado independentemente a cada sub-banda. Síntese de ICTD
Os retardos dc são determinados a partir das ICTDs , de acordo com a Equação (12), como segue:
d =. “^(max2^c ^/(^) + 1111^^ c = 1 (12) < c < C.
O retardo para o canal de referência, dlz é computado de maneira que a grandeza máxima dos retardos dc seja minimizada. Quanto menos os sinais de sub-banda forem modificados, menor será o risco de que ocorram artefatos. Se a taxa de amostragem de sub-banda não prover tempo-resolução alta suficiente para síntese da ICTD, podem ser impostos retardos mais precisamente através do uso de filtros de desvio de fase adequados.
Síntese de ICLD
Para que os sinais de sub-banda de saída tenham as
ICLD desejadas ΔΖ,Ι2(Λ) entre o canal ceo canal de referência 1, os fatores de ganho ac devem satisfazer a Equação (13) como segue:
-^- = 10 20 . (13)
Além disso, as sub-bandas de saída são preferivelmente normalizadas de maneira que a soma da potência de todos os canais de saída seja igual à potência do sinal de soma de entrada. Uma vez que a potência de sinal original total de cada subbanda é preservada no sinal de soma, esta normalização resulta na potência de sub-banda absoluta para cada canal de saída que se aproxime da potência correspondente do sinal de áudio de entrada do codificador original. Considerando-se estas restrições, os fatores de escalonamento ac são dados pela Equação (14), como segue:
íl/Jl + yf JO11'10, c = l ac = V ’ ^'=2 (14) ao contrário
Síntese de ICC
Em determinadas configurações, o objetivo da síntese de ICC é reduzir a correlação entre as sub-bandas depois que retardos e escalonamentos tiverem sido aplicados, sem afetar as ICTDs e ICLDs. Isto pode ser obtido projetando-se os filtros hc da Figura 8 de maneira que ICTD e ICLD variem efetivamente em função da freqüência, de maneira que a variação média seja zero em cada subbanda (banda crítica auditiva).
A Figura 9 ilustra como ICTD e ICLD são variadas dentro de uma sub-banda em função da freqüência. A amplitude da variação de ICTD e ICLD determina o grau de descorrelação, e é controlada em função da ICC. Deve ser observado que as ICTDs sâo variadas uniformemente (como na Figura
9(a)), enquanto as ICLD sâo variadas aleatoriamente (como na Figura
9(b)). Poder-se-ia variar a
ICLD tão uniformemente quanto a ICTD, porém, isto resultaria em mais coloração nos sinais de áudio resultantes.
Outro método de sintetização de ICC, particularmente adequado para síntese de ICC de multicanal, é descrito em mais detalhes em C. Faller, Parametric multi-channel audio coding: Synthesis of coherence cues, IEEE Trans. on Speech and Audio Proc., 2003, cujos ensinamentos são aqui incorporados por referência. Como função de tempo e freqüência, quantidades específicas de reverberação atrasada artificial são adicionadas a cada canal de saída, para obtenção de uma ICC desejada. Além disso, a modificação espectral pode ser aplicada de maneira que o envelope espectral do sinal resultante aborde o envelope espectral do sinal de áudio original.
Outras técnicas de síntese de ICC relacionadas e não relacionadas para sinais estéreo (ou pares de canal de áudio) foram apresentadas em E. Schuijers, W. Oomen, B. den Brinker, e J. Breebaart, Advances in parametric coding for high-quality audio, in Preprint 114th Conv. Aud. Eng. Soc., Mar. 2003, e J. Engdegard, H. Purnhagen, J. Roden, and L. Liljeryd, Synthetic ambience in parametric stereo coding, in Preprint 117th Conv. Aud. Eng. Soc., May 2004, cujos ensinamentos, de ambos, são aqui incorporados por referência.
BCC C-para-E
Como foi descrito anteriormente, o BCC pode ser implementado com mais de um canal de transmissão. Uma variação de BCC • · · · · • · · · · • · · • · • · · • · • · · foi descrita, a qual representa canais de áudio
C não como um canal único (transmitido), porém como canais E, denominada
BCC C-para-E. Há (pelo menos) duas motivações para o BCC
C-para-E:
o O BCC com um canal de transmissão provê um caminho compatível de regresso para atualização de sistemas mono existentes para playback de áudio estéreo ou multicanal. Os sistemas atualizados transmitem o sinal de soma de BCC com downmixing através da infraestrutura de mono existente, ao mesmo tempo em que também transmitem as informações secundárias de BCC. O BCC C-para-E é aplicável à codificação compatível de regresso de canal E do áudio de canal
C.
o O BCC C-para-E introduz a possibilidade de escalonamento em termos de diferentes graus de redução do número de canais transmitidos. Espera-se que quanto mais canais de áudio forem transmitidos, melhor será a qualidade de áudio.
Detalhes de processamento de sinal para BCC C-paraE, por exemplo, como definir as sinalizações de ICTD, ICLD e ICC, são descritos no pedido norte-americano número de série 10/762,100, depositado em 20/01/04 (Faller 13-1) .
Conformação de Som Difuso
Em determinadas implementações, a codificação BCC envolve algoritmos para síntese de ICTD, ICLD e ICC.
Sinalizações de
ICC podem ser sintetizadas através da descorrelação dos componentes de sinal das sub-bandas correspondentes.
Isto pode ser feito através da variação condicionada à freqüência de
ICLD, variação condicionada á freqüência de ICTD e ICLD, filtração com desvio de fase, ou com idéias relacionadas a algoritmos de reverberação.
Quando estas técnicas são aplicadas a sinais áudio, as características do envelope temporal dos sinais não de são • · · • · · · preservadas. Especificamente, quando aplicada transientes, a energia de sinal instantâneo tende a irradiar-se em um determinado
AO período de tempo. Isto resulta em artefatos como pré-ecos ou transientes reduzidos.
Um princípio genérico de determinadas configurações da presente invenção refere-se à observação de que o som sintetizado por um decodificador BCC deve não só possuir características espectrais que sejam semelhantes às do som original, como também assemelhar-se ao envelope temporal do som original de maneira bem próxima, de modo a apresentar características de percepção semelhantes. Em geral, isto é obtido em esquemas similares ao BCC através da inclusão de uma síntese dinâmica de ICLD que aplique uma operação de escalonamento de tempo variável, para aproximar a envelope temporal de canal de cada sinal. Para o caso de sinais transitórios (ataques, instrumentos de percussão, etc.), a resolução temporal deste processo pode, no entanto, não ser suficiente para produzir sinais sintetizados que se aproximem do envelope temporal original tanto quanto necessário. Esta seção descreve várias abordagens para que isto seja feito com uma resolução de tempo suficientemente fina.
Além disso, para decodificadores BCC que não possuem acesso ao envelope temporal dos sinais originais, a idéia é, ao invés disso, considerar o envelope temporal do(s) sinal(is) somado(s) transmitido(s) como uma aproximação. Assim, não há informação secundária com necessidade de transmissão do codificador BCC para o decodificador BCC para transmitir essas informações de envelope. Em resumo, a invenção fundamenta-se no seguinte princípio:
o Os canais de áudio transmitidos (isto é,
canal(is) somado(s)) - ou combinações lineares destes canais nas quais a síntese de BCC pode estar baseada - são analisados por um extrator de envelope temporal para seu envelope temporal, com alta resolução de tempo (por exemplo, significativamente mais fina que o tamanho do bloco de BCC).
o O som sintetizado subseqüente para cada canal de salda é conformado de maneira que - mesmo após a síntese de ICC corresponda ao envelope temporal determinada pelo extrator o mais próximo possível. Isto garante que, mesmo no caso de sinais transitórios, o som de saída sintetizado não seja significativamente degradado pela síntese de ICC / processo de descorrelação de sinal.
A Figura 10 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC 1000, de acordo com uma configuração da presente invenção. Na Figura 10, o bloco 1002 representa o processamento de síntese de BCC que inclui pelo menos a síntese de ICC. O bloco de síntese de BCC 1002 recebe canais de base 1001 e gera canais sintetizados 1003. Em determinadas implementações, o bloco 1002 representa o processamento de blocos 406, 408 e 410 da Figura 4, quando canais de base 1001 são os sinais gerados pelo bloco de upmixing 404 e canais sintetizados 1003 são os sinais gerados pelo bloco de correlação 410. A Figura 10 representa o processamento implementado para um canal de base 1001' e seu canal sintetizado correspondente. Um processamento similar é também aplicado a cada um dos outros canais de base e seu canal sintetizado correspondente.
O extrator de envelope 1004 determina a envelope temporal fina a do canal de base 1001', e o extrator de envelope 1006 determina a envelope temporal fina b do canal sintetizado 1003'. O
• to • · 9 ·
• • • to • > • > • · • n • •
* • · • · • ·
• · to • · ·
31·· · φ · • to • * • · regulador de envelope inversa 1008 usa o envelope temporal b do extrator de envelope 1006 para normalizar a envelope (isto é, nivelar a estrutura temporal fina) do canal sintetizado 1003', produzindo um sinal nivelado 1005' com envelope de tempo nivelada (por exemplo, uniforme). Dependendo da implementação em particular, o nivelamento pode ser aplicado antes ou depois do upmixing. 0 regulador de envelope 1010 usa o envelope temporal a do extrator de envelope 1004 para reimpor o envelope de sinal original do sinal nivelado 1005', gerando o sinal de saída 1007', com envelope temporal substancialmente igual ao envelope temporal do canal de base 1001.
Dependendo da implementação, este processamento de envelope temporal (também referido na presente como conformação de envelope) pode ser aplicado ao canal sintetizado inteiro (como demonstrado), ou somente à parte ortogonalizada (por exemplo, parte de reverberação atrasada, parte descorrelacionada) do canal sintetizado (de acordo com a descrição subseqüente). Além disso, dependendo da implementação, a conformação de envelope pode ser aplicado aos sinais de domínio de tempo ou de maneira condicionada á freqüência (por exemplo, quando o envelope temporal é estimado e imposta individualmente em freqüências diferentes).
O regulador de envelope inversa 1008 e o regulador de envelope 1010 podem ser implementados de maneiras diferentes. Em um tipo de implementação, o envelope de um sinal é manipulado, multiplicando-se as amostras de domínio de tempo do sinal (ou amostras espectrais / de sub-banda) com uma função de modificação de amplitude de tempo variável (por exemplo, 1/b para o regulador de envelope inversa 1008 e a para o regulador de envelope 1010). Alternativamente, pode ser usada uma convolução / filtraçào da
32 »· ·· ··· .· • · · · ·
• · • · J · w » · i ·· r · * · R · · · · ·· · · · · • · ·~ · • · · · · !.
··· ' · · • · » · ··
representação espectral do sinal sobre freqüência, de maneira análoga
à usada na técnica anterior para a finalidade de conformação do ruído de quantização de um codificador de áudio de baixa taxa de transferência. De maneira similar, o envelope temporal de sinais pode ser extraído diretamente através da análise da estrutura de tempo do sinal ou através do exame da auto-correlação do espectro de sinal sobre freqüência.
A Figura 11 ilustra um exemplo de aplicação do esquema de conformação de envelope da Figura 10 no contexto do sintetizador BCC 400 da Figura 4. Nesta configuração, existe um único sinal de soma transmitido s (n), os sinais de base C são gerados replicando-se esse sinal de soma, e o conformação de envelope é aplicado individualmente a diferentes sub-bandas. Em configurações alternativas, a ordem de retardos, escalonamento e outros processamentos pode ser diferente. Além disso, em configurações alternativas, a conformação de envelope não fica restrito ao processamento de cada sub-banda independentemente. Isto aplica-se especialmente em casos de implementações baseadas em convolução / filtração que exploram a co-variância em bandas de freqüência para derivar informações sobre a estrutura fina temporal do sinal.
Na Figura 11(a), o analisador de processo temporal (TPA) 1104 é análogo ao extrator de envelope 1004 da Figura 10, e cada processador temporal (TP) 1106 é análogo à combinação de extrator de envelope 1006, regulador de envelope inversa 1008 e regulador de envelope 1010 da Figura 10.
A Figura 11(b) apresenta um diagrama de blocos de uma implementação possível baseada em domínio de tempo de TPA 1104, na qual as amostras de sinal de base são elevadas ao quadrado (1110)
envelope temporal a do sinal de base.
A Figura 11 (c) apresenta um diagrama de blocos de uma implementação possível baseada em domínio de tempo de TP 1106, na qual as amostras de sinal sintetizadas são elevadas ao quadrado (1114) e depois filtradas por filtro de passa-baixa (1116), caracterizando o envelope temporal b do sinal sintetizado. Um fator de escalonamento (por exemplo, sqrt (a/b)) é gerado (1118) e depois aplicado (1120) ao sinal sintetizado, gerando um sinal de saída com um envelope temporal substancialmente igual à do canal de base original.
Em implementações alternativas de TPA 1104 e TP 1106, os envelopes temporais são caracterizados através do uso de operações de grandeza, ao invés da elevação ao quadrado das amostras de sinal. Nessas implementações, a proporção a/b pode ser usada como fator de escalonamento sem a necessidade de aplicar-se a operação de raiz quadrada.
Apesar de a operação de escalonamento da Figura 11(c) corresponder a uma implementação baseada em domínio de tempo do processamento com TP, o processamento com TP (bem como o processamento com TPA e TP inverso (ITP)) pode também ser implementado usando-se sinais de domínio de freqüência, como na configuração das Figuras 17-18 (descrita abaixo). Assim, para finalidades desta especificação, o termo “função de escalonamento deve ser interpretado como abrangente das operações tanto de domínio de tempo como de domínio de freqüência, como por exemplo as operações de filtração das Figuras 18(b) e (c) .
Em geral, o TPA 1104 e o TP 1106 são
preferivelmente projetados de maneira a não modificar a potência do sinal (isto é, a energia). Dependendo da implementação em particular, esta potência de sinal pode ser uma potência de sinal média de curto prazo em cada canal, por exemplo, baseada na potência de sinal total 5 por canal no período de tempo definido pela janela de síntese ou por alguma outra medida adequada de energia. Assim, o escalonamento para síntese de ICLD (por exemplo, usando-se os multiplicadores 408) pode ser aplicado antes ou depois do conformação de envelope.
Deve ser observado que na Figura 11(a), para cada canal, existem duas saídas, quando o processamento com TP é aplicado a somente uma delas. Isto reflete um esquema de síntese de ICC que mistura dois componentes de sinal: sinais inalterados e ortogonalizados, quando a proporção de componentes de sinal inalterado e ortogonalizado determina a ICC. Na configuração apresentada na Figura 11(a), o TP é aplicado somente ao componente de sinal ortogonalizado, quando os nós de soma 1108 recombinam os componentes de sinal inalterado com os componentes de sinal ortogonalizado temporalmente conformados correspondentes.
A Figura 12 ilustra um exemplo de aplicação 20 alternativa do esquema de conformação de envelope da Figura 10 no contexto do sintetizador BCC 400 da Figura 4, quando o conformação de envelope é aplicado, no domínio de tempo. Essa configuração pode ser justificada quando a resolução de tempo da representação espectral na qual a síntese de ICTD, ICLD e ICC é realizada não for alta o 25 suficiente para efetivamente evitar pré-ecos, através da imposição do envelope temporal desejado. Por exemplo, este pode ser o caso quando o BCC for implementado com uma transformada de Fourier de curta duração (STFT).
Como mostra a Figura 12 (a), o TPA 1204 e cada TP 1206 são implementados no domínio de tempo, quando o sinal de banda total é escalonado de maneira a apresentar o envelope temporal desejado (por exemplo, o envelope de acordo com a estimativa baseada no sinal de soma transmitido). As Figuras 12(b) e (c) apresentam possíveis implementações do TPA 1204 e do TP 1206, as quais são análogas às apresentadas nas Figuras 11(b) e (c).
Nesta configuração, o processamento com TP é aplicado ao sinal de saída, não só aos componentes de sinal ortogonalizado. Em configurações alternativas, o processamento com TP baseado em domínio pode ser aplicado somente aos componentes de sinal ortogonalizado se desejado, nesse caso, as sub-bandas inalteradas e ortogonalizadas seriam convertidas para o domínio de tempo com bancos de filtro inversos separados.
Uma vez que o escalonamento de banda total dos sinais de saída do BCC pode resultar em artefatos, o conformação de envelope pode ser aplicado somente em frequências especificadas, por exemplo, freqüências maiores que uma determinada frequência critica
fTP (por exemplo, 500 Hz) . Deve ser observado que a faixa de
freqüência para análise (TPA) pode diferir da faixa de freqüência
para síntese (TP).
As Figuras 13(a) e (b) apresentam possíveis
implementações do TPA 1204 e do TP 1206, onde a conformação de envelope é aplicada somente em freqüências mais altas que a freqüência crítica frP. Em particular, a Figura 13 (a) apresenta a adição de filtro de passa-alta 1302, o qual elimina freqüências abaixo de fTP antes da caracterização do envelope temporal. A Figura 13(b) apresenta a adição do banco de filtros de duas bandas 1304 com
parte de alta freqüência é temporariamente conformada. O banco de filtros inverso de duas bandas 1306 recombina, então, a parte de baixa freqüência com a parte de alta freqüência temporariamente conformada, gerando o sinal de saída.
A Figura 14 ilustra um exemplo de aplicação do esquema de conformação de envelope da Figura 10 no contexto do esquema de síntese de ICC baseada em reverberação atrasada descrito no pedido norte-americano número de série 10/815,591, depositado em 01/04/04 com protocolo do agente n9 Baumgarte 7-12. Nesta configuração, o TPA 1404 e cada TP 1406 são aplicados no domínio de tempo, como na Figura 12 ou na Figura 13, porém quando cada TP 1406 é aplicado à saída de um bloco de reverberação atrasada (LR) diferente
1402 .
A Figura 15 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC 1500, de acordo com uma configuração da presente invenção que é uma alternativa ao esquema apresentado na Figura 10. Na Figura 15, o bloco de síntese de BCC 1502, o extrator de envelope 1504, e o regulador de envelope 1510 são análogos ao bloco de síntese de BCC 1002, extrator de envelope 1004 e regulador de envelope 1010 da Figura 10. Na Figura 15, no entanto, o regulador de envelope inversa 1508 é aplicado antes da síntese de BCC, ao invés de depois da síntese de BCC, como na Figura 10. Desta maneira, o regulador de envelope inversa 1508 nivela o canal de base antes da síntese de BCC ser aplicada.
A Figura 16 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC 1600, de
4?
acordo com uma configuração da presente invenção que é uma alternativa aos esquemas apresentados nas Figuras 10 e 15. Na Figura 16, o extrator de envelope 1604 e o regulador de envelope 1610 são análogos ao extrator de envelope 1504 e ao regulador de envelope 1510 da Figura 15. Na configuração da Figura 15, no entanto, o bloco de síntese 1602 representa síntese de ICC baseada em reverberação atrasada similar à apresentada na Figura 16. Neste caso, o conformação de envelope é aplicado somente ao sinal de reverberação atrasada não correlacionado, e o nó de soma 1612 adiciona o sinal de reverberação atrasada temporariamente conformado ao canal de base original (que já possui o envelope temporal desejado) . Deve ser observado que, neste caso, um regulador de envelope inversa não precisa ser aplicado, pois o sinal de reverberação atrasada apresenta um envelope temporal aproximadamente nivelado devido ao seu processo de geração no bloco 1602.
A Figura 17 ilustra um exemplo de aplicação do esquema de conformação de envelope da Figura 15 no contexto do sintetizador BCC 400 da Figura 4. Na Figura 17, o TPA 1704, o TP inverso (ITP) 1708 e o TP 1710 são análogos ao extrator de envelope 1504, regulador de envelope inversa 1508 e regulador de envelope 1510 da Figura 15.
Nesta configuração baseada em freqüência, o conformação de envelope de som difuso é implementado aplicando-se uma convolução aos compartimentos de freqüência do (por exemplo, STFT) banco de filtros 402, ao longo do eixo de freqüência. Referência feita à patente norte-americana 5,781,888 (Herre) e à patente norteamericana 5,812,971 (Herre), cujos ensinamentos são aqui incorporados por referência, para matéria relacionada a esta técnica.
A Figura 18 (a) apresenta um diagrama de bloco de
3&.
• · • ♦ • · uma possível implementação, implementação do TPA 1704 da Figura 17. Nesta o TPA 1704 é implementado como uma operação de análise de codificação preditiva linear (LPC) que determina os coeficientes ideais de previsão para as séries de coeficientes espectrais sobre frequência. Essas técnicas de análise de LPC são bem conhecidas, por exemplo, de codificação de voz, e muitos algoritmos para cálculo eficiente de coeficientes de LPC são conhecidos, como por exemplo o método de auto-correlação (envolvendo o cálculo da função de autocorrelação de sinal e uma recorrência de Levinson-Durbin subseqüente). Como resultado desta computação, é disponibilizado um conjunto de coeficientes de
LPC na saída, os quais representa, envelope temporal do sinal.
As Figuras de blocos de possíveis implementações do ITP 1708 e TP 1710 da Figura
17. Em ambas as implementações, os coeficientes espectrais do sinal a ser processado são processados em ordem de (crescente ou decrescente) freqüência, a qual é simbolizada aqui por um conjunto de circuitos de chave rotatória, convertendo estes coeficientes em uma ordem serial para processamento através de um processo de filtragem preditiva (e novamente de volta após este processamento). No caso do ITP 1708, a filtragem preditiva calcula o residual de previsão, nivelando, assim, o envelope de sinal temporal. No caso do TP 1710, o filtro inverso reintroduz o envelope temporal representado pelos coeficientes de LPC do TPA 1704.
Para calcular o envelope temporal de sinal pelo TPA
1704, é importante eliminar a influência da janela de análise do banco de filtros 402, se essa janela for usada. Isto pode ser feito
• · · · · • · · · ·
39..
• · normalizando-se o envelope resultante pelo conformação de janela de análise, ou usando-se um banco de filtros de análise separado, que não empregue uma janela de análise.
A técnica baseada em convolução / filtragem da
Figura 17 pode também ser aplicada no contexto do esquema de conformação de envelope da Figura 16, quando o extrator de envelope 1604 e o regulador de envelope 1610 baseiam-se no TPA da Figura 18 (a) e no TP da Figura 18 (c), respectivamente.
Outras Configurações Alternativas
Os decodificadores BCC podem ser projetados para habilitar / desabilitar seletivamente o conformação de envelope. Por exemplo, um decodificador BCC pode aplicar um esquema de síntese de BCC convencional e habilitar o conformação de envelope quando o envelope temporal do sinal sintetizado oscilar suficientemente, de maneira que os benefícios do conformação de envelope sejam superiores a qualquer artefato que o conformação de envelope possa gerar. Este controle de habilitação / desabilitação pode ser obtido por:
(1) Detecção de transiente: Se um transiente for detectado, o processamento com TP é habilitado. A detecção de transiente pode ser implementada por antecipação, para conformar efetivamente não só o transiente mas também o sinal, um pouco antes e logo após o transiente. Possíveis maneiras para detectar-se transientes incluem:
o Observação do envelope temporal do(s) sinal(is) somado(s) de BCC para determinar quando ocorre um aumento repentino de energia, indicando a ocorrência de um transiente; e o Exame do ganho do filtro preditivo (LPC). Se o ganho de previsão do LPC exceder um limite especificado, pode-se pressupor que o sinal de LPC é computada na
40·· · ·
· * · • · · · · · • · · · · • · · · · • · · · · • · · · · · • · · · · é transiente ou altamente oscilante. A análise auto-correlação do espectro.
(2)
Detecção de aleatoriedade: Existem cenários quando
Nesse o envelope temporal está oscilando pseudo-aleatoriamente.
cenário, não podem ser detectados transientes, porém, o processamento com TP ainda pode ser aplicado (por exemplo, um sinal denso de aplauso corresponde a esse cenário).
Além disso, em determinadas implementações, a fim de prevenirem-se possíveis artefatos em sinais tonais, o processamento com TP não é aplicado quando a tonalidade do(s) sinal(is) somado(s) transmitido(s) é alta.
E ainda, medidas similares podem ser usadas no codificador de BCC para detectar quando o processamento com TP deve estar ativo. Uma vez que o codificador tem acesso a todos os sinais de entrada originais, ele pode empregar algoritmos mais sofisticados (por exemplo, uma parte do bloco de estimativa 208), para decidir quando o processamento de TP deve ser habilitado. O resultado desta decisão (uma flag sinalizando quando o TP deve estar ativo) pode ser transmitido ao decodificador BCC (por exemplo, como parte das informações secundárias da Figura 2) .
Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC nos quais há um único sinal de soma, a presente invenção pode também ser implementada no contexto dos esquemas de codificação BCC com dois ou mais sinais de soma. Neste caso, o envelope temporal para cada sinal de soma de base diferente pode ser estimada antes da aplicação da síntese de BCC, e diferentes canais de saída de BCC podem ser gerados com base em diferentes envelopes temporais, dependendo de quais sinais de soma
41.. 9 · * 9 • 9 ·
• · V Λ 9
• 4 9 · • w
4 · 9 ·
9 * V
V 9 99 r J
9 9 tf · ·
9 9 9 ♦ · f» »
9 9 · 9 9 9 *
9 • 9 9 • · 9
9 9 9 9 · 9
99· 9 • · 9 9·
foram usados para sintetizar os diferentes canais de saída. Um canal de saída sintetizado a partir de dois ou mais canais somados poderia ser gerado com base em uma envelope temporal efetiva que leva em conta (por exemplo, através de média ponderada) os efeitos relativos dos canais somados que o constituem.
Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC envolvendo códigos de ICTD, ICLD e ICC, a presente invenção pode também ser implementada no contexto de outros esquemas de codificação BCC envolvendo somente um ou dois destes três tipos de códigos (por exemplo, ICLD e ICC, mas não ICTD) e/ou um ou mais tipos adicionais de códigos. E ainda, a seqüência do processamento de síntese de BCC e conformação de envelope podem variar em diferentes implementações. Por exemplo, quando o conformação de envelope é aplicado a sinais em domínio de freqüência, como nas Figuras 14 e 16, o conformação de envelope poderia alternativamente ser implementado após a síntese de ICTD (nas configurações que empregam síntese de ICTD), porém antes da síntese de ICLD. Em outras configurações, o conformação de envelope poderia ser aplicado a sinais com upmixing antes que qualquer outra síntese de BCC seja aplicada.
Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC, a presente invenção pode também ser implementada no contexto de outros sistemas de processamento de áudio nos quais sinais de áudio são descorrelacionados ou de outro processamento de áudio que necessite descorrelacionar sinais.
Apesar de a presente invenção ter sido descrita no contexto de implementações nas quais o codificador recebe sinal de
42· *·* * ·· • · · * · ·
• · 4 · · • ·
• · 4 • ·
r 4 4 • ·
9 · 4 r >
• · «
• 4 44 4 4 4
• 9 4 4 4 * 4
4 ·· • · 4
4 • · T 4 · 4
• ··· • 4 4 • · • • • • 444
áudio de entrada no domínio de tempo e gera sinais de áudio transmitidos no domínio de tempo, e o decodificador recebe os sinais de áudio transmitidos no domínio de tempo e gera sinais de áudio de playback no domínio de tempo, a presente invenção não é tão limitada. Por exemplo, em outras implementações, qualquer um ou mais dos sinais de áudio de entrada, transmitidos e de playback poderiam ser representados em um domínio de freqüência.
Codificadores e/ou decodificadores BCC podem ser usados em conjunto com ou incorporados a várias aplicações ou sistemas diferentes, incluindo sistemas para televisão ou distribuição de música eletrônica, salas de cinema, radiodifusão, streaming e/ou recepção. Aqui estão incluídos sistemas para codificação / decodificação de transmissões via, por exemplo, terrestre, satélite, cabo, Internet, intranets ou meios físicos (por exemplo, compact discs, discos digitais versáteis, chips semicondutores, discos rígidos, cartões de memória e similares). Os codificadores e/ou decodificadores BCC podem também ser empregados em jogos e sistemas de jogos, inclusive, por exemplo, produtos de software interativo destinados a interagir com o usuário para lazer (ação, role play, estratégia, aventura, simulações, corridas, esportes, fliperama, jogos de cartas e jogos de tabuleiro) e/ou educação, que podem ser editados para múltiplas máquinas, plataformas ou mídias. Além disso, codificadores e/ou decodificadores BCC podem ser incorporados a gravadores / reprodutores de áudio ou sistemas de CD-ROM/DVD. Os codificadores e/ou decodificadores BCC podem também ser incorporados a aplicativos de software para PC que incorporem decodificação digital (por exemplo, reprodutor, decodificador) e aplicativos de software que incorporem capacidades de codificação
43· • · · • · · « · • · · • · digital (por exemplo, codificador, ripper, recodificador e jukebox).
A presente invenção pode ser implementada como processos baseados em circuitos, incluindo uma possível implementação como circuito integrado único (como por exemplo ASIC ou
FPGA), como módulo de chips múltiplos, uma placa única, ou um pacote de circuito de placas múltiplas.
Como seria aparente aos técnicos no assunto, várias funções de elementos de circuito podem também ser implementadas como etapas de processamento em um programa de software. Esse software pode ser empregado, por exemplo, em um processador de sinal digital, micro-controlador ou computador de uso geral.
A presente invenção pode ser configurada na forma de métodos e aparelhos para prática desses métodos. A presente invenção pode também ser configurada na forma de código de programa configurado em meios tangíveis, como por exemplo disquetes, CD-ROMs, discos rígidos ou qualquer outro meio de armazenamento legível em máquina, caracterizado pelo fato de que quando o código de programa é carregado em e executado por uma máquina, como por exemplo um computador, a máquina torna-se um aparelho para a prática da invenção. A presente invenção pode também ser configurada na forma de código de programa, por exemplo, seja armazenada em um meio de armazenamento, carregada em e/ou executada por uma máquina, ou transmitida por algum meio de transmissão ou portador, como por exemplo por fiação ou cabeamento elétrico, através de fibra ótica, ou via radiação eletromagnética, onde, quando o código de programa é carregado em e executado por uma máquina, como por exemplo um computador, a máquina torna-se um aparelho para prática da invenção. Quando implementado em um processador de uso geral, os segmentos de r-C
Ch
44.
código de programa combinam-se ao processador para prover um dispositivo exclusivo que opera analogamente aos circuitos de lógica específicos.
Será também entendido que várias alterações nos detalhes, materiais e disposições das peças que foram descritas e ilustradas a fim de explicar a natureza desta invenção podem ser feitas pelos técnicos no assunto sem sair do escopo da invenção, como consta nas reivindicações a seguir.
Apesar de as etapas das reivindicações de método a seguir, quando presentes, constarem em uma determinada seqüência com denominação correspondente, a menos que o conteúdo das reivindicações de alguma outra maneira sugira uma seqüência particular para implementação de alguma ou todas essas etapas, essas etapas não precisam necessariamente estar limitadas a serem implementadas nessa 15 seqüência em particular.

Claims (8)

REIVINDICAÇÕES
1. Método para conversão de um sinal de áudio de entrada com envelope temporal de entrada em um sinal de áudio de saída com envelope temporal de saída, método este compreendendo: caracterização do envelope temporal de entrada do sinal de áudio de entrada; processamento do sinal de áudio de entrada para gerar um sinal de áudio processado, caracterizado pelo fato de que o processamento descorrelaciona o sinal de áudio de entrada; e ajuste do sinal de áudio processado, com base no envelope temporal de entrada, que gera o sinal de áudio de saída, onde o envelope temporal de saída substancialmente corresponde ao envelope temporal de entrada.
2/8 áudio processado, e ajuste do sinal de áudio processado com base em ambos os envelopes temporais com característica de entrada e processados, para gerar o sinal de áudio de saída.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o processamento compreende síntese de correlação intercanal (ICC).
3/8 sinal de áudio processado.
11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que: a caracterização é aplicada somente às freqüências do sinal de áudio de entrada acima de uma freqüência crítica especificada; e a regulagem é aplicada somente às freqüências do sinal de áudio processado acima da freqüência crítica especificada.
12. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a caracterização, o processamento e a regulagem são individualmente aplicados a um sinal de domínio de freqüência.
13. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que a caracterização, o processamento e a regulagem são individualmente aplicados a diferentes subbandas de sinal.
14. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que o domínio de freqüência corresponde a uma transformada rápida de Fourier (FFT).
15. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que o domínio de freqüência corresponde a um filtro em espelho de quadratura (QMF).
16. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a caracterização e a regulagem são individualmente aplicadas a um sinal de domínio de tempo.
17. Método, de acordo com a reivindicação 16, caracterizado pelo fato de que o processamento é aplicado a um sinal de domínio de freqüência.
18. Método, de acordo com a reivindicação 17,
Petição 870180067252, de 02/08/2018, pág. 8/15
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a síntese de ICC é parte da síntese de binaural cue coding (BCC).
4/8 caracterizado pelo fato de que o domínio de freqüência corresponde a uma FFT.
19. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que o domínio de freqüência corresponde a um QMF.
20. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende também a determinação de habilitar ou desabilitar a caracterização e a regulagem.
21. Método, de acordo com a reivindicação 20, caracterizado pelo fato de que a determinação baseia-se em uma flag de habilitar / desabilitar gerada por um codificador de áudio que gerou o sinal de áudio de entrada.
22. Método, de acordo com a reivindicação 20, caracterizado pelo fato de que a determinação baseia-se na análise do sinal de áudio de entrada para detectar transientes no sinal de áudio de entrada, de maneira que a caracterização e a regulagem são habilitadas se for detectada a ocorrência de uma transiente.
23. Um aparelho para conversão de um sinal de áudio de entrada com envelope temporal de entrada em um sinal de áudio de saída com um envelope temporal de saída, aparelho este compreendendo:
meio para caracterização do envelope temporal de entrada do sinal de áudio de entrada; meio para processamento do sinal de áudio de entrada para gerar um sinal de áudio processado, caracterizado pelo fato de que o meio para processamento é adaptado para descorrelacionar o sinal de áudio de entrada; e meio para regulagem do sinal de áudio processado baseado no envelope temporal com característica de entrada para gerar o sinal de áudio
Petição 870180067252, de 02/08/2018, pág. 9/15
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que a síntese de BCC compreende também pelo menos uma entre a síntese de diferença de nível intercanal (ICLD) e síntese de diferença de tempo intercanal (ICTD) .
5/8 de saída, onde o envelope temporal de saída substancialmente corresponde ao envelope temporal de entrada.
24. 0 aparelho da reivindicação 23, caracterizado pelo fato de que, no qual o meio para caracterização inclui um extrator de envelope, no qual o meio para processamento inclui um sintetizador adaptado para processar o sinal de áudio de entrada; e no qual o meio para regulagem inclui um regulador
de envelope adaptado para ajustar o sinal de áudio processado baseado. 25. 0 aparelho da reivindicação 24, caracterizado pelo fato de que: o aparelho é um sistema
selecionado a partir do grupo composto de um reprodutor de vídeo digital, um reprodutor de áudio digital, um computador, um receptor via satélite, um receptor a cabo, um receptor de radiodifusão terrestre, um sistema de lazer doméstico e um sistema de sala de cinema; e o sistema compreende o extrator de envelope, o sintetizador e o regulador de envelope.
26. Método para codificação de canais de áudio de entrada C para gerar canal(is) de áudio transmitido(s) E, método este caracterizado pelo fato de que compreende: geração de um ou mais códigos de sinalização para dois ou mais canais de entrada C; execução de downmixing nos canais de entrada C para gerar o(s) canal(is) transmitido(s) E, sendo C>E^1; e análise de um ou mais canais de entrada Ce do(s) canal(is) transmitido(s) E para gerar uma flag indicando se um decodificador do(s) canal(is) transmitido(s) E deve ou não executar conformação da envelope durante a decodificação do(s) canal(is) transmitido(s) E, sendo que a etapa de análise inclui detecção de transiente de maneira
Petição 870180067252, de 02/08/2018, pág. 10/15
5. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a síntese de ICC compreende síntese de ICC de reverberação atrasada.
6/8 antecipada para conformação, no decodificador, não só de uma transiente, mas também de um sinal antes e depois da transiente, sendo a flag estabelecida quando uma transiente for detectada, ou incluindo uma detecção aleatória para detecção se um envelope temporal está oscilando de maneira pseudo-aleatória, sendo a flag estabelecida quando uma envelope temporal estiver oscilando de maneira pseudo-aleatória, ou incluindo uma detecção de tonalidade para não estabelecimento da flag quando o(s) canal (is) transmitido(s) E forem tonais.
27. Método, de acordo com a reivindicação 26, caracterizado pelo fato de que a conformação de envelope ajusta um envelope temporal de um canal decodificado gerado pelo decodificador para substancialmente corresponder a um envelope temporal de um canal transmitido correspondente.
28. Um aparelho para codificação de canais de áudio de entrada C para gerar canal(is) de áudio transmitido(s) E, aparelho este caracterizado pelo fato de que compreende: meio para gerar um ou mais códigos de sinalização para dois ou mais canais de entrada C; meio para executar downmixing dos canais de entrada C para gerar o(s) canal(is) transmitido(s) E, sendo C>E>1; e meio para analisar um ou mais canais de entrada C e o(s) canal (is) transmitido (s) E para gerar uma flag indicando se um decodificador do(s) canal (is) transmitido(s) E deve ou não executar conformação da envelope durante a decodificação do(s) canal(is) transmitido(s) E, onde o meio de análise inclui detecção de transiente de maneira antecipada para conformação, no decodificador, não só de uma transiente, mas também de um sinal antes e depois da transiente, sendo a flag estabelecida quando
Petição 870180067252, de 02/08/2018, pág. 11/15
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a regulagem compreende: caracterização de um envelope temporal processado do sinal de
Petição 870180067252, de 02/08/2018, pág. 6/15
7/8 uma transiente for detectada, ou incluindo uma detecção aleatória para detecção se um envelope temporal está oscilando de maneira pseudo-aleatória, sendo a flag estabelecida quando uma envelope temporal estiver oscilando de maneira pseudo-aleatória, ou incluindo uma detecção de tonalidade para não estabelecimento da flag quando o(s) canal(is) transmitido(s) E forem tonais.
29. 0 aparelho da reivindicação 28, caracterizado pelo fato de que, no qual o meio para geração inclui um estimador de código; e no qual o meio para execução de downmixing inclui um downmixer.
30. O aparelho da reivindicação 29, caracterizado pelo fato de que: o aparelho é um sistema selecionado a partir do grupo composto de um gravador de vídeo digital, um gravador de áudio digital, um computador, um transmissor via satélite, um transmissor a cabo, um transmissor de radiodifusão terrestre, um sistema de lazer doméstico e um sistema de sala de cinema; e o sistema compreende o estimador de código e o downmixer.
31. Fluxo de bits de áudio codificado gerado pela codificação de canais de áudio de entrada C para gerar cana (is) de áudio transmitido(s) E, caracterizado pelo fato de que: um ou mais códigos de sinalização são gerados para dois ou mais canais de entrada C; os canais de entrada C passam por downmixing para gerar canal(is) transmitido(s) E, sendo C>E>1; uma flag é gerada através da análise de um ou mais canais de entrada C e do(s) canal(is) transmitido(s) E, onde a flag indica se um decodificador do(s) canal(is) transmitido(s) E deve executar conformação do envelope durante a decodificação do(s) canal(is) transmitido(s)
Petição 870180067252, de 02/08/2018, pág. 12/15
7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que a regulagem compreende: geração de uma função de escalonamento baseada nos envelopes temporais com característica de entrada e processados; e aplicação da função de escalonamento ao sinal de áudio processado para gerar o sinal de áudio de saída.
8. Método, de acordo com a reivindicação 1, compreendendo também a regulagem do sinal de áudio de entrada com base no envelope temporal com característica de entrada para gerar um sinal de áudio nivelado, caracterizado pelo fato de que o processamento é aplicado ao sinal de áudio nivelado para gerar o sinal de áudio processado.
9. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: o processamento gera um sinal processado não correlacionado e um sinal processado correlacionado; e a regulagem é aplicada ao sinal processado não correlacionado para gerar um sinal processado regulado, onde o sinal de saída é gerado somando-se o sinal processado ajustado e o sinal processado correlacionado.
10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: a caracterização é aplicada somente às freqüências especificadas do sinal de áudio de entrada; e a regulagem é aplicada somente às freqüências especificadas do
Petição 870180067252, de 02/08/2018, pág. 7/15
8/8
E, sendo a flag determinada pela detecção de transiente de maneira antecipada para conformação, no decodificador, não só de uma transiente, mas também de um sinal antes e depois da transiente, sendo a flag estabelecida quando uma transiente for detectada, ou incluindo uma detecção aleatória para detecção se um envelope temporal está oscilando de maneira pseudo-aleatória, sendo a flag estabelecida quando um envelope temporal estiver oscilando de maneira pseudo-aleatória, ou incluindo uma detecção de tonalidade para não estabelecimento da flag quando o(s) canal (is) transmitido(s) E forem tonais; e o(s) canal(is) transmitido(s) E, o(s) código(s) de sinalização, e a flag são codificados no fluxo de bits de áudio codificado.
BRPI0516392A 2004-10-20 2005-09-12 conformação de som difuso para esquemas bcc e similares BRPI0516392B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US62040104P 2004-10-20 2004-10-20
US11/006,492 US8204261B2 (en) 2004-10-20 2004-12-07 Diffuse sound shaping for BCC schemes and the like
PCT/EP2005/009784 WO2006045373A1 (en) 2004-10-20 2005-09-12 Diffuse sound envelope shaping for binaural cue coding schemes and the like

Publications (2)

Publication Number Publication Date
BRPI0516392A BRPI0516392A (pt) 2008-09-02
BRPI0516392B1 true BRPI0516392B1 (pt) 2019-01-15

Family

ID=36181866

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0516392A BRPI0516392B1 (pt) 2004-10-20 2005-09-12 conformação de som difuso para esquemas bcc e similares

Country Status (19)

Country Link
US (2) US8204261B2 (pt)
EP (1) EP1803325B1 (pt)
JP (1) JP4625084B2 (pt)
KR (1) KR100922419B1 (pt)
CN (2) CN101044794B (pt)
AT (1) ATE413792T1 (pt)
AU (1) AU2005299070B2 (pt)
BR (1) BRPI0516392B1 (pt)
CA (1) CA2583146C (pt)
DE (1) DE602005010894D1 (pt)
ES (1) ES2317297T3 (pt)
IL (1) IL182235A (pt)
MX (1) MX2007004725A (pt)
NO (1) NO339587B1 (pt)
PL (1) PL1803325T3 (pt)
PT (1) PT1803325E (pt)
RU (1) RU2384014C2 (pt)
TW (1) TWI330827B (pt)
WO (1) WO2006045373A1 (pt)

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010174B2 (en) 2003-08-22 2011-08-30 Dexcom, Inc. Systems and methods for replacing signal artifacts in a glucose sensor data stream
US8260393B2 (en) 2003-07-25 2012-09-04 Dexcom, Inc. Systems and methods for replacing signal data artifacts in a glucose sensor data stream
US20140121989A1 (en) 2003-08-22 2014-05-01 Dexcom, Inc. Systems and methods for processing analyte sensor data
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
BRPI0516658A (pt) * 2004-11-30 2008-09-16 Matsushita Electric Industrial Co Ltd aparelho de codificação de estéreo, aparelho de decodificação de estéreo e seus métodos
BRPI0608753B1 (pt) * 2005-03-30 2019-12-24 Koninl Philips Electronics Nv codificador de áudio, decodificador de áudio, método para codificar um sinal de áudio de multicanal, método para gerar um sinal de áudio de multicanal, sinal de áudio de multicanal codificado, e meio de armazenamento
DE602006004959D1 (de) * 2005-04-15 2009-03-12 Dolby Sweden Ab Zeitliche hüllkurvenformgebung von entkorrelierten signalen
US8090586B2 (en) * 2005-05-26 2012-01-03 Lg Electronics Inc. Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
JP5227794B2 (ja) * 2005-06-30 2013-07-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
EP1946294A2 (en) * 2005-06-30 2008-07-23 LG Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CA2613885C (en) * 2005-06-30 2014-05-06 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
JP4859925B2 (ja) * 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
US7761303B2 (en) * 2005-08-30 2010-07-20 Lg Electronics Inc. Slot position coding of TTT syntax of spatial audio coding application
EP1922721A4 (en) * 2005-08-30 2011-04-13 Lg Electronics Inc AUDIO SIGNAL DECODING METHOD
KR20080049735A (ko) * 2005-08-30 2008-06-04 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
JP4918490B2 (ja) * 2005-09-02 2012-04-18 パナソニック株式会社 エネルギー整形装置及びエネルギー整形方法
EP1946296A4 (en) * 2005-09-14 2010-01-20 Lg Electronics Inc METHOD AND DEVICE FOR DECODING AN AUDIO SIGNAL
EP1949368A4 (en) * 2005-10-05 2009-05-27 Lg Electronics Inc METHOD AND APPARATUS FOR SIGNAL PROCESSING AND CODING AND DECODING METHOD AND APPARATUS THEREOF
KR100857111B1 (ko) * 2005-10-05 2008-09-08 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7646319B2 (en) * 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7672379B2 (en) * 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7751485B2 (en) * 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
US7761289B2 (en) * 2005-10-24 2010-07-20 Lg Electronics Inc. Removing time delays in signal paths
US20070133819A1 (en) * 2005-12-12 2007-06-14 Laurent Benaroya Method for establishing the separation signals relating to sources based on a signal from the mix of those signals
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
US7752053B2 (en) * 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
ATE447224T1 (de) * 2006-03-13 2009-11-15 France Telecom Gemeinsame schallsynthese und -spatialisierung
US20090299755A1 (en) * 2006-03-20 2009-12-03 France Telecom Method for Post-Processing a Signal in an Audio Decoder
WO2007111568A2 (en) * 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US7876904B2 (en) * 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
EP2084703B1 (en) * 2006-09-29 2019-05-01 LG Electronics Inc. Apparatus for processing mix signal and method thereof
JP5238706B2 (ja) * 2006-09-29 2013-07-17 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置
JP5232791B2 (ja) 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
US7555354B2 (en) * 2006-10-20 2009-06-30 Creative Technology Ltd Method and apparatus for spatial reformatting of multi-channel audio content
WO2008060111A1 (en) * 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
US8265941B2 (en) 2006-12-07 2012-09-11 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
EP2102856A4 (en) * 2006-12-07 2010-01-13 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
EP2595151A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transcoding apparatus
CN101578656A (zh) * 2007-01-05 2009-11-11 Lg电子株式会社 用于处理音频信号的装置和方法
FR2911426A1 (fr) * 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
US20100121470A1 (en) * 2007-02-13 2010-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2008100067A1 (en) * 2007-02-13 2008-08-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP5355387B2 (ja) * 2007-03-30 2013-11-27 パナソニック株式会社 符号化装置および符号化方法
EP2212883B1 (en) * 2007-11-27 2012-06-06 Nokia Corporation An encoder
US8543231B2 (en) * 2007-12-09 2013-09-24 Lg Electronics Inc. Method and an apparatus for processing a signal
EP2254110B1 (en) * 2008-03-19 2014-04-30 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
KR101600352B1 (ko) * 2008-10-30 2016-03-07 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
JP5524237B2 (ja) * 2008-12-19 2014-06-18 ドルビー インターナショナル アーベー 空間キューパラメータを用いてマルチチャンネルオーディオ信号に反響を適用する方法と装置
WO2010138311A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
JP5365363B2 (ja) * 2009-06-23 2013-12-11 ソニー株式会社 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム
JP2011048101A (ja) * 2009-08-26 2011-03-10 Renesas Electronics Corp 画素回路および表示装置
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
RU2586851C2 (ru) 2010-02-24 2016-06-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство для формирования улучшенного сигнала микширования с понижением, способ формирования улучшенного сигнала микширования с понижением и компьютерная программа
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
CA2992917C (en) 2010-04-09 2020-05-26 Dolby International Ab Mdct-based complex prediction stereo coding
KR20120004909A (ko) * 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
WO2012040898A1 (en) * 2010-09-28 2012-04-05 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
KR101429564B1 (ko) 2010-09-28 2014-08-13 후아웨이 테크놀러지 컴퍼니 리미티드 디코딩된 다중채널 오디오 신호 또는 디코딩된 스테레오 신호를 포스트프로세싱하기 위한 장치 및 방법
TWI581250B (zh) 2010-12-03 2017-05-01 杜比實驗室特許公司 利用多媒體處理節點之適應性處理技術
BR112013017070B1 (pt) * 2011-01-05 2021-03-09 Koninklijke Philips N.V Sistema de áudio e método de operação para um sistema de áudio
TWI450266B (zh) * 2011-04-19 2014-08-21 Hon Hai Prec Ind Co Ltd 電子裝置及音頻資料的解碼方法
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
JP5997592B2 (ja) 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
US9799339B2 (en) 2012-05-29 2017-10-24 Nokia Technologies Oy Stereo audio signal encoder
EP2898506B1 (en) 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US20140379333A1 (en) * 2013-02-19 2014-12-25 Max Sound Corporation Waveform resynthesis
US9191516B2 (en) * 2013-02-20 2015-11-17 Qualcomm Incorporated Teleconferencing using steganographically-embedded audio data
US9530422B2 (en) 2013-06-27 2016-12-27 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
EP3028274B1 (en) 2013-07-29 2019-03-20 Dolby Laboratories Licensing Corporation Apparatus and method for reducing temporal artifacts for transient signals in a decorrelator circuit
US9794716B2 (en) 2013-10-03 2017-10-17 Dolby Laboratories Licensing Corporation Adaptive diffuse signal generation in an upmixer
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
RU2571921C2 (ru) * 2014-04-08 2015-12-27 Общество с ограниченной ответственностью "МедиаНадзор" Способ фильтрации бинауральных воздействий в аудиопотоках
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
MY196436A (en) * 2016-01-22 2023-04-11 Fraunhofer Ges Forschung Apparatus and Method for Encoding or Decoding a Multi-Channel Signal Using Frame Control Synchronization
AU2017219696B2 (en) 2016-02-17 2018-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
JP7224302B2 (ja) * 2017-05-09 2023-02-17 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャネル空間的オーディオ・フォーマット入力信号の処理
US20180367935A1 (en) * 2017-06-15 2018-12-20 Htc Corporation Audio signal processing method, audio positional system and non-transitory computer-readable medium
CN109326296B (zh) * 2018-10-25 2022-03-18 东南大学 一种非自由场条件下的散射声有源控制方法
WO2020100141A1 (en) * 2018-11-15 2020-05-22 Boaz Innovative Stringed Instruments Ltd. Modular string instrument
KR102603621B1 (ko) * 2019-01-08 2023-11-16 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
EP4531038A1 (en) * 2023-09-26 2025-04-02 Koninklijke Philips N.V. Generation of multichannel audio signal and audio data signal representing a multichannel audio signal
EP4531039A1 (en) * 2023-09-26 2025-04-02 Koninklijke Philips N.V. Generation of multichannel audio signal and audio data signal representing a multichannel audio signal
WO2025132058A1 (en) * 2023-12-19 2025-06-26 Koninklijke Philips N.V. Generation of multichannel audio signal
EP4576071A1 (en) * 2023-12-19 2025-06-25 Koninklijke Philips N.V. Generation of multichannel audio signal

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4236039A (en) 1976-07-19 1980-11-25 National Research Development Corporation Signal matrixing for directional reproduction of sound
US4815132A (en) 1985-08-30 1989-03-21 Kabushiki Kaisha Toshiba Stereophonic voice signal transmission system
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
DE3943879B4 (de) 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
EP0520068B1 (en) 1991-01-08 1996-05-15 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
DE4209544A1 (de) 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5703999A (en) 1992-05-25 1997-12-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
DE4236989C2 (de) 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US5371799A (en) 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
US5463424A (en) 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
JP3227942B2 (ja) 1993-10-26 2001-11-12 ソニー株式会社 高能率符号化装置
DE4409368A1 (de) 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277679B2 (ja) 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JPH0969783A (ja) 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5771295A (en) 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
US7012630B2 (en) 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
WO1997029555A1 (en) 1996-02-08 1997-08-14 Philips Electronics N.V. N-channel transmission, compatible with 2-channel transmission and 1-channel transmission
US5825776A (en) 1996-02-27 1998-10-20 Ericsson Inc. Circuitry and method for transmitting voice and data signals upon a wireless communication channel
US5889843A (en) 1996-03-04 1999-03-30 Interval Research Corporation Methods and systems for creating a spatial auditory environment in an audio conference system
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
KR0175515B1 (ko) 1996-04-15 1999-04-01 김광호 테이블 조사 방식의 스테레오 구현 장치와 방법
US6987856B1 (en) 1996-06-19 2006-01-17 Board Of Trustees Of The University Of Illinois Binaural signal processing techniques
US6697491B1 (en) 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
SG54379A1 (en) 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
US5912976A (en) 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6111958A (en) 1997-03-21 2000-08-29 Euphonics, Incorporated Audio spatial enhancement apparatus and methods
US6236731B1 (en) 1997-04-16 2001-05-22 Dspfactory Ltd. Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids
US5946352A (en) 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US5860060A (en) 1997-05-02 1999-01-12 Texas Instruments Incorporated Method for left/right channel self-alignment
US6108584A (en) 1997-07-09 2000-08-22 Sony Corporation Multichannel digital audio decoding method and apparatus
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
MY121856A (en) * 1998-01-26 2006-02-28 Sony Corp Reproducing apparatus.
US6021389A (en) 1998-03-20 2000-02-01 Scientific Learning Corp. Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
TW444511B (en) 1998-04-14 2001-07-01 Inst Information Industry Multi-channel sound effect simulation equipment and method
JP3657120B2 (ja) 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2000151413A (ja) 1998-11-10 2000-05-30 Matsushita Electric Ind Co Ltd オーディオ符号化における適応ダイナミック可変ビット割り当て方法
JP2000152399A (ja) 1998-11-12 2000-05-30 Yamaha Corp 音場効果制御装置
US6408327B1 (en) 1998-12-22 2002-06-18 Nortel Networks Limited Synthetic stereo conferencing over LAN/WAN
US6282631B1 (en) 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
CA2859333A1 (en) 1999-04-07 2000-10-12 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6823018B1 (en) 1999-07-28 2004-11-23 At&T Corp. Multiple description coding communication system
US6434191B1 (en) 1999-09-30 2002-08-13 Telcordia Technologies, Inc. Adaptive layered coding for voice over wireless IP applications
US6614936B1 (en) 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US6498852B2 (en) 1999-12-07 2002-12-24 Anthony Grimani Automatic LFE audio signal derivation system
US6845163B1 (en) 1999-12-21 2005-01-18 At&T Corp Microphone array for preserving soundfield perceptual cues
JP4842483B2 (ja) 1999-12-24 2011-12-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャネルオーディオ信号処理装置及び方法
US6782366B1 (en) 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
JP2001339311A (ja) 2000-05-26 2001-12-07 Yamaha Corp オーディオ信号圧縮回路および伸長回路
US6850496B1 (en) 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
US6973184B1 (en) 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7236838B2 (en) 2000-08-29 2007-06-26 Matsushita Electric Industrial Co., Ltd. Signal processing apparatus, signal processing method, program and recording medium
US6996521B2 (en) 2000-10-04 2006-02-07 The University Of Miami Auxiliary channel masking in an audio signal
JP3426207B2 (ja) 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
TW510144B (en) 2000-12-27 2002-11-11 C Media Electronics Inc Method and structure to output four-channel analog signal using two channel audio hardware
US6885992B2 (en) * 2001-01-26 2005-04-26 Cirrus Logic, Inc. Efficient PCM buffer
US20030007648A1 (en) 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US6934676B2 (en) 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7668317B2 (en) 2001-05-30 2010-02-23 Sony Corporation Audio post processing in DVD, DTV and other audio visual products
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
JP2003044096A (ja) 2001-08-03 2003-02-14 Matsushita Electric Ind Co Ltd マルチチャンネルオーディオ信号符号化方法、マルチチャンネルオーディオ信号符号化装置、記録媒体および音楽配信システム
KR20040029113A (ko) * 2001-08-27 2004-04-03 더 리전트 오브 더 유니버시티 오브 캘리포니아 주파수-진폭-변조-인코딩(fame) 방법들을 사용하여음향 신호들을 개선하기 위한 장치/방법, 및 인공와우이식기
US6539957B1 (en) * 2001-08-31 2003-04-01 Abel Morales, Jr. Eyewear cleaning apparatus
ATE315823T1 (de) 2002-02-18 2006-02-15 Koninkl Philips Electronics Nv Parametrische audiocodierung
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
ES2300567T3 (es) 2002-04-22 2008-06-16 Koninklijke Philips Electronics N.V. Representacion parametrica de audio espacial.
CN1647156B (zh) 2002-04-22 2010-05-26 皇家飞利浦电子股份有限公司 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备
JP4187719B2 (ja) 2002-05-03 2008-11-26 ハーマン インターナショナル インダストリーズ インコーポレイテッド マルチチャネル・ダウンミキシング装置
US6940540B2 (en) 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
CN100539742C (zh) 2002-07-12 2009-09-09 皇家飞利浦电子股份有限公司 多声道音频信号编解码方法和装置
WO2004008806A1 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
KR101001170B1 (ko) 2002-07-16 2010-12-15 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
US8437868B2 (en) 2002-10-14 2013-05-07 Thomson Licensing Method for coding and decoding the wideness of a sound source in an audio scene
US7644001B2 (en) 2002-11-28 2010-01-05 Koninklijke Philips Electronics N.V. Differentially coding an audio signal
JP2004193877A (ja) 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
EP1595247B1 (en) 2003-02-11 2006-09-13 Koninklijke Philips Electronics N.V. Audio coding
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
JP2006521577A (ja) 2003-03-24 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャネル信号を表す主信号と副信号の符号化
CN100339886C (zh) * 2003-04-10 2007-09-26 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
CN1460992A (zh) * 2003-07-01 2003-12-10 北京阜国数字技术有限公司 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
US7343291B2 (en) 2003-07-18 2008-03-11 Microsoft Corporation Multi-pass variable bitrate media encoding
US20050069143A1 (en) 2003-09-30 2005-03-31 Budnikov Dmitry N. Filtering for spatial audio rendering
US7672838B1 (en) 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
US7761289B2 (en) 2005-10-24 2010-07-20 Lg Electronics Inc. Removing time delays in signal paths

Also Published As

Publication number Publication date
KR100922419B1 (ko) 2009-10-19
JP2008517334A (ja) 2008-05-22
CN101853660A (zh) 2010-10-06
CN101853660B (zh) 2013-07-03
PT1803325E (pt) 2009-02-13
US20090319282A1 (en) 2009-12-24
US20060085200A1 (en) 2006-04-20
KR20070061882A (ko) 2007-06-14
RU2384014C2 (ru) 2010-03-10
HK1104412A1 (en) 2008-01-11
WO2006045373A1 (en) 2006-05-04
RU2007118674A (ru) 2008-11-27
AU2005299070B2 (en) 2008-12-18
CN101044794A (zh) 2007-09-26
DE602005010894D1 (de) 2008-12-18
MX2007004725A (es) 2007-08-03
CN101044794B (zh) 2010-09-29
NO20071492L (no) 2007-07-19
CA2583146C (en) 2014-12-02
IL182235A0 (en) 2007-09-20
IL182235A (en) 2011-10-31
JP4625084B2 (ja) 2011-02-02
ATE413792T1 (de) 2008-11-15
TW200627382A (en) 2006-08-01
EP1803325A1 (en) 2007-07-04
ES2317297T3 (es) 2009-04-16
AU2005299070A1 (en) 2006-05-04
CA2583146A1 (en) 2006-05-04
TWI330827B (en) 2010-09-21
US8238562B2 (en) 2012-08-07
NO339587B1 (no) 2017-01-09
BRPI0516392A (pt) 2008-09-02
PL1803325T3 (pl) 2009-04-30
EP1803325B1 (en) 2008-11-05
US8204261B2 (en) 2012-06-19

Similar Documents

Publication Publication Date Title
BRPI0516392B1 (pt) conformação de som difuso para esquemas bcc e similares
AU2005324210C1 (en) Compact side information for parametric coding of spatial audio
JP5106115B2 (ja) オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
JP4664371B2 (ja) バイノーラルキュー符号化方法等のための個別に行うチャネル時間エンベロープ整形
JP5017121B2 (ja) 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
US20060115100A1 (en) Parametric coding of spatial audio with cues based on transmitted channels
BR122018072501B1 (pt) Codificação paramétrica conjunta de fontes de áudio
BRPI0518507B1 (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial
HK1105236B (en) Compact side information for parametric coding of spatial audio
HK1105236A (en) Compact side information for parametric coding of spatial audio
HK1104412B (en) Diffuse sound envelope shaping for binaural cue coding schemes and the like

Legal Events

Date Code Title Description
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 15/01/2019, OBSERVADAS AS CONDICOES LEGAIS.