BRPI0516392B1

BRPI0516392B1 - conformação de som difuso para esquemas bcc e similares

Info

Publication number: BRPI0516392B1
Application number: BRPI0516392A
Authority: BR
Inventors: Eric Allamanche; Sascha Disch; Christof Faller; Jürgen Herre
Original assignee: Agere Systems Inc; Fraunhofer Ges Forschung
Priority date: 2004-10-20
Filing date: 2005-09-12
Publication date: 2019-01-15
Also published as: KR100922419B1; JP2008517334A; CN101853660A; CN101853660B; PT1803325E; US20090319282A1; US20060085200A1; KR20070061882A; RU2384014C2; HK1104412A1; WO2006045373A1; RU2007118674A; AU2005299070B2; CN101044794A; DE602005010894D1; MX2007004725A; CN101044794B; NO20071492L; CA2583146C; IL182235A0

Abstract

conformação de som difuso para esquemas bcc e similares. um sinal de áudio de entrada com um envelope temporal de entrada é convertido em um sinal de áudio de saída com um envelope temporal de saída. o envelope temporal de entrada do sinal de áudio de entrada é caracterizado, o sinal de áudio de entrada é processado para gerar um sinal de áudio processado, caracterizado pelo fato de que o processamento descorrelaciona o sinal de áudio de entrada. o sinal de áudio processado é ajustado com base no envelope temporal de entrada caracterizado, para gerar o sinal de áudio de saída, onde o envelope temporal de saída substancialmente corresponde ao envelope temporal de entrada.

Description

CONFORMAÇÃO DE SOM DIFUSO PARA ESQUEMAS BCC E SIMILARES

HISTÓRICO DA INVENÇÃO

Referência Cruzada com Pedidos Relacionados

Este pedido reivindica o beneficio da data de depósito do pedido norte-americano provisório n² 60/620,401, depositado em 20/10/04 com protocolo do agente n² Allamanche 1-2-173, cujos ensinamentos sâo aqui incorporados por referência.

Além disso, a matéria deste pedido está relacionada à matéria dos seguintes pedidos norte-americanos, cujos ensinamentos são aqui incorporados por referência:

o Pedido norte-americano número de série 09/848,877, depositado em 04/05/01 com protocolo do agente n² Faller 5;

o Pedido norte-americano número de série 10/045,458, depositado em 07/11/01 com protocolo do agente n²Baumgarte 1-6-8, o qual reivindicou o beneficio da data de depósito do pedido norte-americano provisório n² 60/311,565, depositado em 10/08/01;

	o Pedido	norte-americano número		de	série
10/155,437,	depositado em	24/05/02	com	protocolo	do	agente	n²
Baumgarte 2-	10;
	o Pedido	norte-americano número		de	série
10/246,570,	depositado em	18/09/02	com	protocolo	do	agente	n²
Baumgarte 3-	11;
	o Pedido	norte-americano número		de	série
10/815,591,	depositado em	01/04/04	com	protocolo	do	agente	n²

Baumgarte 7-12;

o Pedido norte-americano número de série

10/936,464, depositado em

08/09/04 com protocolo do agente n⁹

Baumgarte 8-7-15;

o Pedido norte-americano número de série

10/762,100, depositado em

20/01/04 (Faller 13-1); e o Pedido norte-americano número de série

10/xxx,xxx, depositado na mesma data que este pedido com protocolo do agente n- Allamanche 2-3-18-4.

A matéria deste pedido também está relacionada à matéria descrita nos trabalhos a seguir, cujos ensinamentos são aqui incorporados por referência:

o F. Baumgarte and C. Faller, Binaural cue coding

- Part I: Psychoacoustic fundamentais and design principies, IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003;

o C. Faller and F. Baumgarte, Binaural cue coding

- Part II: Schemes and applications, IEEE Trans. on Speech and

Audio Proc., vol. 11, no. 6, Nov. 2003; e o C. Faller, Coding of spatial audio compatible with different playback formats, Preprint 117^íh Conv. Aud. Eng.

Soc., October 2004.

Campo da Invenção

A presente invenção refere-se à codificação de sinais de áudio e à subseqüente síntese de cenas auditivas com base nos dados de áudio codificados.

Descrição da Técnica Relacionada

Quando uma pessoa ouve um sinal de áudio (isto é, sons) gerado por uma determinada fonte de áudio, o sinal de áudio tipicamente chega aos ouvidos esquerdo e direito da pessoa em dois

tempos diferentes e com dois níveis de áudio diferentes (por exemplo, decibéis), quando esses tempos e níveis são funções das diferenças dos caminhos que o sinal de áudio percorre para atingir as orelhas esquerda e direita, respectivamente. 0 cérebro da pessoa interpreta 5 estas diferenças de tempo e nível, proporcionando à pessoa a percepção de que o sinal de áudio fonte de áudio localizada em uma direção e distância) em relação recebido está sendo gerado por uma determinada posição (por exemplo, à pessoa. Uma cena auditiva é o efeito em rede de uma pessoa ouvindo simultaneamente sinais de áudio gerados por uma ou mais fontes de áudio diferentes localizadas em uma ou mais posições diferentes em relação à pessoa.

A existência deste processamento pelo cérebro pode ser usada para sintetizar cenas auditivas, quando sinais de áudio de uma ou mais fontes de áudio diferentes são modificadas propositalmente para gerar sinais de áudio esquerdos e direitos, os quais proporcionam a percepção de que as diferentes fontes de áudio estão localizadas em posições diferentes em relação ao ouvinte.

A Figura 1 apresenta um diagrama de blocos de alto nível do sintetizador de sinal binaural convencional 100, o qual converte um sinal único de fonte de áudio (por exemplo, um sinal mono) nos sinais de áudio esquerdo e direito de um sinal binaural, sendo um sinal binaural definido como os dois sinais recebidos nos tímpanos de um ouvinte. Além do sinal da fonte de áudio, o sintetizador 100 recebe um conjunto de sinalizações espaciais correspondentes à posição desejada da fonte de áudio em relação ao ouvinte. Em implementações típicas, o conjunto de sinalizações espaciais compreende um valor de diferença de nível intercanal (ICLD) (que identifica a diferença de nível de áudio entre os sinais de

• 4

• ·	4 4 4	4	4 4 4 4
φ ·	4	4	4	4	4 4
• 4	•	4	4	4 «
4 4	4	4	4	•
	4 4 4 4	4 •	4	4 4 4	4 4

áudio esquerdo e direito recebidos nos ouvidos esquerdo e direito, respectivamente) e um valor de diferença de tempo intercanal (ICTD) (que identifica a diferença de tempo de chegada entre os sinais de áudio esquerdo e direito recebidos nos ouvidos esquerdo e direito, respectivamente). Além disso ou alternativamente, algumas técnicas de síntese envolvem a moldagem de uma função de transferência condicionada à direção para o som proveniente da fonte de sinal para os tímpanos, também chamada de função de transferência em relação à cabeça (HRTF). Ver, por exemplo, J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983, cujos ensinamentos foram aqui incorporados por referência.

Ao usar-se o sintetizador de sinal binaural 100 da Figura 1, o sinal de áudio mono gerado por uma única fonte de som pode ser processado de maneira que, ao ser ouvido em fones de ouvido, a fonte de som seja espacialmente localizada aplicando-se um conjunto apropriado de sinalizações espaciais (por exemplo, ICLD, ICTD e/ou HRTF) para gerar o sinal de áudio para cada ouvido. Vide, por exemplo, D.R. Begault, 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA, 1994.

O sintetizador de sinal binaural 100 da Figura 1 gera o tipo mais simples de cenas auditivas: as que apresentam uma fonte única de áudio posicionada em relação ao ouvinte. É possível gerar cenas auditivas mais complexas compostas de duas ou mais fontes de áudio localizadas em posições diferentes em relação ao ouvinte, usando-se um sintetizador de cena auditiva que seja essencialmente implementado usando-se múltiplos tipos de sintetizador de sinal binaural, quando cada tipo de sintetizador de sinal binaural gera o sinal binaural correspondente a uma fonte de áudio diferente. Uma vez • ·

• ·

9 «	• · ·	9	99·	« ··
9 *	•	« 9	9	99 9
• 9	•	9 9	9	• · 4
• ·	•	9 9	•	« · »
	9	« ·	9 9	• 9 ·
	9 99		4	• ·· ·

• »

9 que cada fonte diferente de áudio apresenta uma localização diferente em relação ao ouvinte, um conjunto diferente de sinalizações espaciais é usado para gerar o sinal de áudio binaural para cada fonte diferente de áudio.

SUMÁRIO DA INVENÇÃO

De acordo com uma configuração, a presente invenção é um método e aparelho para conversão de um sinal de áudio de entrada com um envelope temporal de entrada em um sinal de áudio de saída com um envelope temporal de entrada. O envelope temporal de entrada de sinal de áudio de entrada é caracterizado. O sinal de áudio de entrada é processado, gerando um sinal de áudio processado, caracterizado pelo fato de que o processamento descorrelaciona c sinal de áudio de entrada. O sinal de áudio processado é ajustado, com base no envelope temporal de entrada caracterizado, gerando c sinal de áudio de saída, onde o envelope temporal de saída substancialmente corresponde ao envelope temporal de entrada.

De acordo com outra configuração, a presente invenção é um método e aparelho para codificação de canais de áudio de entrada C para geração de canal(is) de áudio transmitido(s) E. Um ou mais códigos de sinalizaçãos são gerados para dois ou mais canais de entrada C. Os canais de entrada C passam por downmix, gerando o(s) canal (is) transmitido (s) E, sendo OE^l. Um ou mais canais de entrada Ce o(s) canal(is) transmitido(s) E são analisados, gerando uma flag que indica se um decodificador do(s) canal(is) transmitido(s) E deve ou não executar conformação do envelope durante a decodificação do(s) canal (is) transmitido(s) E.

De acordo com outra configuração, a presente invenção é um fluxo de bits de áudio codificado gerado pelo método do

to t* • · • ·· •

9·

V · •4 *9 •

··· ·

··

9 • · • · • « • · ··

V « · parágrafo anterior.

De acordo com outra configuração, a presente invenção é um fluxo de bits de áudio codificado composto transmitido(s) E, um ou mais códigos de sinalização e de canal(is) uma flag. O código ou códigos de sinalização é(são) gerado(s) através da geração de um ou mais códigos de sinalização para dois ou mais canais de entrada C. O(s) canal(is) transmitido(s) E é(são) gerado(s) por um processo de downmix dos canais de entrada C, sendo OEàl. A flag é gerada através da análise de um ou mais canais de entrada C e do(s) canal (is) transmitido (s) E, caracterizado pelo fato de gue a flag indica se um decodificador do(s) canal(is) transmitido(s) E deve ou não executar conformação da envelope durante a decodificação do(s) canal(is) transmitido(s) E.

BREVE DESCRIÇÃO DOS DESENHOS

Outros aspectos, recursos e vantagens da presente invenção ficarão mais totalmente aparentes com base na descrição detalhada a seguir, nas reivindicações anexas e nos desenhos associados, nos quais numerais de referência semelhantes identificam elementos similares ou idênticos.

A Figura 1 apresenta um diagrama de blocos de alto nível do sintetizador de sinal binaural convencional;

A Figura 2 é um diagrama de blocos de um sistema de processamento de áudio de binaural cue coding (BCC) genérico;

A Figura 3 apresenta um diagrama de blocos de um downmixer que pode ser usado para o downmixer da Figura 2;

A Figura 4 apresenta um diagrama de blocos de um sintetizador BCC que pode ser usado para o decodificador da Figura 2;

A Figura 5 apresenta um diagrama de blocos do

avaliador do BCC da Figura 2, de acordo com uma configuração da presente invenção;

A Figura 6 ilustra a geração de dados de ICTD e ICLD para áudio de cinco canais;

A Figura 7 ilustra a geração de dados de ICC para áudio de cinco canais;

A Figura 8 apresenta um diagrama de blocos de uma implementação do sintetizador BCC da Figura 4 que pode ser usado em um decodificador BCC para gerar um sinal de áudio estéreo ou multicanal, com base em um sinal de soma simples transmitido s(n) dado mais as sinalizações espaciais;

A Figura 9 ilustra como as ICTDs e ICLDs sãc variadas dentro de uma sub-banda como função de freqüência;

A Figura 10 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC, de acordo com uma configuração da presente invenção;

A	Figura	11	ilustra um exemplo	de aplicação	do
esquema de conformação de	envelope da	Figura 10	no contexto	do
sintetizador BCC da	Figura	4;
A	Figura	12	ilustra	um exemplo	alternativo	de

aplicação do esquema de conformação de envelope da Figura 10 no contexto do sintetizador BCC da Figura 4, quando é aplicado conformação de envelope no domínio de tempo;

As Figuras 13 (a) e (b) apresentam possíveis implementações do TPA e TP da Figura 12, quando é aplicado conformação de envelope somente em frequências acima da freqüência crítica f_TP;

A Figura 14 ilustra um exemplo de aplicação do

esquema de conformação de envelope da Figura 10 no contexto do esquema de síntese de ICC baseada em reverberação atrasada descrito no pedido norte-americano número de série 10/815,591, depositado em 01/04/04 com protocolo do agente n⁹ Baumgarte 7-12;

A Figura 15 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC, de acordo com uma configuração da presente invenção, o qual é uma alternativa ao esquema apresentado na Figura 10;

A Figura 16 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC, de acordo com uma configuração da presente invenção, que é uma alternativa aos esquemas apresentados nas Figuras 10 e 15;

A Figura 17 ilustra um exemplo de aplicação do esquema de conformação de envelope da Figura 15 no contexto do sintetizador BCC da Figura 4; e

As Figuras 18(a)-(c) apresentam diagramas de blocos de possíveis implementações dos TPA, ITP e TP da Figura 17.

DESCRIÇÃO DETALHADA

Na binaural cue coding (BCC), um codificador codifica canais de áudio de entrada C para gerar canais de áudio transmitidos E, sendo Oí21. Em particular, dois ou mais canais de entrada C são providos em um domínio de freqüência, e um ou mais códigos de sinalização são gerados para cada uma ou mais diferentes bandas de freqüência nos dois ou mais canais de entrada do domínio de freqüência. Além disso, os canais de entrada C passam por downmixing, gerando os canais transmitidos E. Em algumas implementações de downmixing, pelo menos um dos canais transmitidos E baseia-se em dois ou mais canais de entrada C, e pelo menos um canal transmitido E

• · ·

somente

Em uma configuração, um codificador de BCC possui dois ou mais bancos de filtro, um estimador de código e um downmixer. Os dois ou mais bancos de filtro convertem dois ou mais canais de 5 entrada C de um domínio de tempo para um domínio de freqüência. O estimador de código gera um ou mais códigos de sinalização para cada uma ou mais diferentes bandas de freqüência nos dois ou mais canais de entrada convertidos. 0 downmixer executa o downmixing dos canais de entrada C, gerando os canais transmitidos E, sendo OEèl.

Na decodificação de BCC, os canais de áudio transmitidos E são decodificados, gerando canais de áudio de playback C. Em particular, para cada uma ou mais diferentes bandas de freqüência, é executado upmix de um ou mais canais transmitidos E em um domínio de freqüência, gerando dois ou mais canais de playback C 15 no domínio de freqüência, sendo OE^l. Um ou mais códigos de sinalização são aplicados a cada uma ou mais diferentes bandasde freqüência nos dois ou mais canais de playback do domíniode freqüência, gerando dois ou mais canais modificados, e os doisou mais canais modificados são convertidos do domínio de freqüência para 20 o domínio de tempo. Em algumas implementações com upmixing, pelo menos um dos canais de playback C baseia-se em pelo menos um dos canais transmitidos E e em pelo menos um código de sinalização, e pelo menos um dos canais de playback C baseia-se em somente um único canal transmitido E e independe de qualquer código de sinalização.

Em uma configuração, um decodificador BCC possui um upmixer, um sintetizador, e um ou mais bancos de filtro inversos. Para cada uma ou mais diferentes bandas de freqüência, o upmixer executa o upmixing de um ou mais canais transmitidos E em um domínio de freqüência, de freqüência, de sinalização gerando dois ou mais canais de playback C no domínio sendo OE^l. O sintetizador aplica um ou mais códigos a cada uma ou mais diferentes bandas de freqüência nos dois ou mais canais de playback do domínio de freqüência, gerando dois ou mais canais modificados.

O banco ou bancos de filtro inverso

existente(s) converte(m) os dois ou mais canais modificados do domínio de freqüência para um domínio de tempo.

Dependendo da implementação em particular, um determinado canal de playback pode basear-se em um único canal 10 transmitido, ao invés de em uma combinação de dois ou mais canais transmitidos. Por exemplo, quando existe um único canal transmitido, cada canal de playback C baseia-se nesse canal transmitido. Nestas situações, o upmixing corresponde à cópia do canal transmitido correspondente. Assim, para aplicações nas quais existe somente um 15 canal transmitido, o upmixer pode ser implementado usando-se um replicador que copie o canal transmitido para cada canal de playback.

Os codificadores e/ou decodificadores BCC podem ser incorporados a vários sistemas ou aplicações, inclusive, por exemplo, gravadores / reprodutores digitais de vídeo, gravadores / 20 reprodutores digitais de áudio, computadores, transmissores / receptores de satélite, transmissores / receptores a cabo, transmissores / receptores de difusão terrestre, sistemas de entretenimento domésticos e sistemas de movie theater.

Processamento de BCC Genérico

A Figura 2 é um diagrama de blocos de um sistema de processamento de áudio de binaural cue coding (BCC) genérico 200, composto de um codificador 202 e um decodificador 204. O codificador 202 inclui o downmixer 206 e o estimador de BCC 208.

II

downmixer 206 converte os canais de áudio de entrada C Xi(n) em canais de áudio transmitidos E yi(n), sendo ΟΕΪ1.

Nesta especificação, os sinais expressos com uso da variável n são sinais de domínio de tempo, e os sinais expressos com uso da variável k são sinais de domínio de freqüência. Dependendo da implementação em particular, o downmixing pode ser implementado no domínio de tempo ou no domínio de freqüência. O estimador de BCC 208 gera códigos de BCC a partir dos canais de áudio de entrada C, e transmite esses códigos de BCC como informações secundárias de arquitetura in-band ou out-of10 band, em relação aos canais de áudio transmitidos E. Códigos típicos de BCC incluem um ou mais dados de diferença de tempo intercanal (ICTD), diferença de nível intercanal (ICLD) e correlação intercanal (ICC), estimados entre determinados pares de canais de entrada como função de freqüência e tempo. A implementação em particular determinará entre quais pares específicos de canais de entrada os códigos de BCC são estimados.

Os dados de ICC correspondem à coerência de um sinal binaural, o qual está relacionado à largura percebida da fonte de áudio. Quanto mais larga for a fonte de áudio, mais baixa será a 20 coerência entre os canais esquerdo e direito do sinal binaural resultante. Por exemplo, a coerência do sinal binaural correspondente a uma orquestra irradiado sobre um palco de auditório é tipicamente mais baixa que a coerência do sinal binaural correspondente a um único violino tocando sozinho. Em geral, um sinal de áudio com 25 coerência mais baixa é geralmente percebido como mais irradiado em um espaço auditivo. Assim, os dados de ICC estão tipicamente relacionados à aparente largura da fonte e ao grau de envolvimento do ouvinte. Vide, por exemplo, J. Blauert, The Psychophysics of Human

4.

Sound Locahzation, MIT Press, 1983.

Dependendo da aplicação em particular, os canais de áudio transmitidos E e os códigos de BCC correspondentes podem ser transmitidos diretamente ao decodificador 204, ou armazenados em algum tipo adequado de dispositivo de armazenamento, para ser posteriormente acessado pelo decodificador 204. Dependendo da situação, o termo transmissão pode estar relacionado à transmissão direta para um decodificador, ou ao armazenamento para posterior fornecimento a um decodificador. Em ambos os casos, o decodificador

204 recebe os canais de áudio transmitidos e as informações secundárias, executa o upmixing e a síntese de

BCC, usando os

códigos de BCC para converter os canais de áudio transmitidos E em mais que canais de áudio de playback E (tipicamente, mas não necessariamente C) A'₍(/z) para playback de áudio. Dependendo da implementação em particular, o upmixing pode ser executado no domínio de tempo ou no domínio de freqüência.

Além do processamento de BCC apresentado na Figura 2, um sistema de processamento de áudio com BCC genérico pode incluir outros estágios de codificação e decodificação para comprimir ainda mais os sinais de áudio no codificador, e posteriormente descomprimir os sinais de áudio no decodificador, respectivamente. Estes codificadores-decodificadores de áudio podem basear-se em técnicas convencionais de compressão / descompressão de áudio, como as baseadas em modulação de código de pulso (PCM), PCM diferencial (DPCM) ou DPCM adaptável (ADPCM).

Quando o downmixer 206 gera um sinal de soma simples (isto é, E=l) , a codificação BCC consegue representar sinais de áudio multicanal a uma taxa de transferência somente um pouco mais alta que a necessária para representar um sinal de áudio mono. Isto ocorre porque os dados estimados de ICTD, ICLD e ICC entre um par de canais contêm aproximadamente duas vezes menos informações que uma forma de onda de áudio.

Não só a baixa taxa de transferência da codificação BCC é interessante, mas também seu aspecto de compatibilidade reversa. Um sinal de soma simples transmitido corresponde a um downmix em mono do sinal original estéreo ou multicanal. Para receptores que não suportam reprodução de som estéreo ou multicanal, ouvir o sinal de soma transmitido é um método válido para apresentação do material de áudio em equipamentos simples de reprodução em mono. A codificação BCC pode, portanto, também ser usada para ampliar serviços existentes envolvendo a reprodução de material de áudio em mono para áudio em multicanal. Por exemplo, sistemas de radiodifusão com áudio em mono existentes podem ser ampliados para playback estéreo ou multicanal se as informações secundárias de BCC puderem ser inseridas no canal de transmissão existente. Existem capacidades análogas ao se executar downmixing em áudio multicanal para dois sinais de soma que correspondam ao áudio em estéreo.

O BCC processa sinais de áudio com resolução de tempo e freqüência determinada. A resolução de freqüência usada é amplamente motivada pela resolução de freqüência do sistema auditivo humano. A psicoacústica sugere que a percepção espacial muito provavelmente baseia-se em uma representação de banda crítica do sinal de entrada acústico. Esta resolução de freqüência é considerada usando-se um banco de filtro reversível (por exemplo, baseado em uma transformada rápida de Fourier (FFT) ou um filtro em espelho de ·· · · · · • · · ·· · • · · · · · • · · · · · · banda iguais ou auditivo humano.

o(s) sinal(is)

ο)5 ·· ··· · ··· · • · · · · ··· • · · · · ··;

• · · · · ·· • · · · · ·· • ··· · · ··<

quadratura (QMF)) com sub-bandas com larguras de proporcionais à largura de banda crítica do sistema

Downmixing Genérico

Em implementações preferidas, somado(s) transmitido(s) contém(êm) todos os componentes de sinal do sinal de áudio de entrada. O objetivo é que cada componente de sinal seja totalmente mantido. A simples soma dos canais de entrada de áudio freqüentemente resulta em amplificação ou atenuação dos componentes de sinal. Em outras palavras, a potência dos componentes de sinal em uma soma “simples é frequentemente maior ou menor que a soma da potência do componente de sinal correspondente de cada canal. Uma técnica de downmixing pode ser usada, a qual equaliza o sinal de soma de maneira que a potência dos componentes de sinal do sinal de soma seja aproximadamente a mesma que a potência correspondente em todos os canais de entrada.

A Figura 3 apresenta um diagrama de blocos de um downmixer 300 que pode ser usado para o downmixer 206 da Figura 2 de acordo com determinadas implementações do sistema de BCC 200. O downmixer 300 possui um banco de filtros (FB) 302 para cada canal de entrada Xi(n), um bloco de downmixing 304, um bloco opcional de escalonamento / retardo 306, e um FB inverso (IFB) 308 para cada canal codificado y_d (n).

Cada banco de filtros 302 converte cada quadro (por exemplo, 20 msec) de um canal de entrada digital correspondente xi(n) do domínio de tempo em um conjunto de coeficientes de entrada x_t(k) do domínio de freqüência. O bloco de downmixing 304 executa downmixing em cada sub-banda de coeficientes de entrada correspondente C em uma sub-banda correspondente de coeficientes de domínio de frequência com downmixing E.

downmixing da k-ésima sub-banda dos • · · · • ·· • ·· · • ·♦ • · ··

A equação • · • · • · ♦ · (1) coeficientes • · · · · • · · • · · · • · · representa o de entrada

(.f|(£),x₂(£),...,.r₍.(Âr)), gerando a Tc-ésima sub-banda de coeficientes com downmixing íy_x{k),y₂(k),...,y_F(k)) , como segue:

Λ(*)		X)(£)
	= Dca·	x₂(£)
.y,W.		Λ (k)_
quando	D_t/_;	é uma

, (D matriz de downmixing C-por-E de valor real.

O bloco opcional de escalonamento / retardo 306 é composto de um conjunto de multiplicadores 310, cada um dos quais multiplicando um coeficiente com downmixing correspondente y,(k) por um fator de escalonamento e, (k), gerando um coeficiente escalonado correspondente >',(&) . A motivação para a operação de escalonamento é equivalente à equalização generalizada para downmixing com fatores de ponderação arbitrários para cada canal. Se os canais de entrada forem independentes, a potência p?_ik) do sinal com downmixing de cada subbanda é dada pela Equação (2), como segue:

Λμ*·)	= w	•à¹ «<· 1
_ Pyp. (_

, (2) quando deriva-se D_CA· elevando-se ao quadrado cada elemento matriz da matriz de downmixing C-por-E 1)₍₇,, e é a potência de sub-banda k do canal de entrada i.

Se as sub-bandas não forem independentes, os

..

• · • ·· • ·· · • ·· • · ♦· • · valores de potência do sinal com downmixing serão maiores ou menores que os computados com uso da Equação (2), devido amplificações ou cancelamentos de sinal quando os componentes de sinal estão em fase ou fora de fase, respectivamente. Para que isto seja evitado, a operação de downmixing da Equação (1) é aplicada em sub-bandas, seguida pela operação de escalonamento dos multiplicadores 310. Os fatores de escalonamento ei(k) (l.i.E) podem ser derivados usando-se a Equação (3), como segue:

(3) quando /?_f, _(jt) é a potência de sub-banda computada pela Equação 2, e P^/,} é a potência do sinal de sub-banda com downmixing correspondente y,(k) .

Além de ou ao invés de prover escalonamento opcional, o bloco de escalonamento / retardo 306 pode, opcionalmente, aplicar retardos aos sinais.

Cada banco de filtros inverso 308 converte um conjunto de coeficientes escalonados correspondente y,(k) do domínio de freqüência em um quadro de um canal transmitido digital correspondente y, (nj.

Apesar de a figura 3 apresentar todos os canais de entrada C sendo convertidos no domínio de freqüência para subseqüente downmixing, em implementações alternativas, um ou mais (porém menos que C-l) canais de entrada C pode(m) derivar o processamento apresentado na Figura 3 em parte ou totalmente, e ser transmitido como um número equivalente de canais de áudio inalterados. Dependendo da implementação em particular, estes canais de áudio inalterados • ♦ · • · • · · • · podem ou não ser usados pelo estimador de BCC 208 da

Figura 2 na

geração dos códigos BCC transmitidos.

Em uma implementação do downmixer

300 que gera um sinal de soma simples y(n), E=1 e os sinais x_c(k) de cada sub-banda de cada canal de entrada C são adicionados um fator e(k), de acordo com a Equação 4, e depois multiplicados com como segue:

y(k) = etk^x_c(k) . (4) o fator e(k) é dado pela

Equação (5) como segue:

(5) quando /2_f (k) ^xc é uma estimativa de curto prazo da potência de x_c(k) no índice de tempo k, e //f(A) é uma estimativa de curto prazo da potência de

As sub-bandas equalizadas são transformadas novamente no domínio de tempo, resultando no sinal de soma y(n), que é transmitido ao decodificador BCC.

Síntese de BCC Genérica

A Figura 4 apresenta um diagrama de blocos de um sintetizador BCC 400 que pode ser usado para o decodificador

204 da

Figura

2, de acordo com determinadas implementações do sistema de BCC

200. 0 sintetizador BCC 400 possui um banco de filtros 402 para cada canal transmitido yi(n), um bloco de upmixing 404, retardos 406, multiplicadores 408, bloco de correlação 410, e um banco de filtros inverso 412 para cada canal de playback X,(ri) .

Cada banco de filtros 402 converte cada quadro de um canal transmitido digital correspondente y^ (n) do domínio de tempo ♦

• · • · • · • ·♦· · · ··· em um conjunto de coeficientes de entrada y_t(k) do domínio de freqüência. O bloco de upmixing 404 executa o upmixing em cada subbanda de coeficientes de canal transmitido correspondente E em uma sub-banda correspondente de coeficientes de domínio de freqüência C com upmixing. A

Equação 4 representa o upmixing da k-ésima sub-banda de coeficientes de canal transmitido (·Ρι(£)»Λ(^)’···’Λ·(^)) ' gerando a késima sub-banda de coeficientes com upmixing (5,(^),52(^),....5,(^)), como segue:

valor real. A possibilita que

5,(£)		'W
5₂(A)	=	y₂(k)
_5_r(^)_		y,(k)

quando U_/-r é uma execução do o upmixing seja (6) matriz de upmixing E-por-C de upmixing no domínio de freqüência aplicado individualmente em cada subbanda diferente.

Cada retardo

406 aplica um valor de retardo di(k) baseado em um código de BCC correspondente para dados de ICTD, para garantir que os valores desejados de ICTD apareçam entre determinados pares de canais de playback. Cada multiplicador 408 aplica um fator de escalonamento aí(k) baseado em um código de BCC correspondente para dados de ICLD, para garantir que os valores desejados de ICLD apareçam entre determinados pares de canais de playback. O bloco de correlação 410 executa uma operação de descorrelação A baseada nos códigos de BCC correspondentes para dados de ICC, para garantir que os valores desejados de ICC apareçam entre determinados pares de canais de playback. Uma descrição mais detalhada das operações do bloco de correlação 410 pode ser encontrada no pedido de patente norte-americana n²

2-10.

problemática que a

• ·	• · ·	•	·♦· ♦
«w to	to	•		•		• ·
• ·	•	9	•	• 9
• ·	•	•	•		•
	•	to	V	•	•
	• to ·	to		•		• ·

• 4 • · • to

10/155,437, depositado síntese de valores síntese de valores de • · · to • · to • · · · * · ·

• · ·« · » · em 24/05/02 como Baumgarte de ICLD pode ser menos

ICTD e ICC, uma vez que a síntese de ICLD envolve meramente o escalonamento de sinais de subbanda. Como as sinalizações de ICLD são as sinalizações direcionais mais comumente usadas, em geral é mais importante que os valores

ICLD aproximem-se dos valores do sinal de áudio original. Assim, dados de ICLD podem ser estimados entre todos os pares de canal.

de os

Os fatores de escalonamento a,(k) (l.i.C) para cada sub-banda são preferivelmente escolhidos de maneira que a potência de sub-banda de cada canal de playback se aproxime da potência correspondente do canal de áudio de entrada original.

Um objetivo pode ser aplicar relativamente poucas modificações de

Assim, os dados todos os pares sinal para sintetização de valores de ICTD e

ICC.

de BCC podem não incluir valores de ICTD e ICC para de canal.

Nesse caso, o sintetizador BCC

400 sintetizaria valores de ICTD e ICC somente entre determinados pares de canal.

Cada banco de filtros inverso 412 converte um conjunto de coeficientes sintetizados correspondente x,(£) do domínio de freqüência em um quadro de um canal de playback digital correspondente X,(/z) .

Apesar de a Figura 4 apresentar todos os canais transmitidos E sendo convertidos para o domínio de freqüência para subseqüente upmixing e processamento de BCC, em implementações alternativas, um ou mais (porém não todos) canais transmitidos E podem derivar o processamento apresentado na Figura 4 em parte ou

20	• 4 * r	•	• • ·	• ♦ * •	• • ·	9 · •	tf * * •	• • *	• • «
	• · • ·	• • *	• · V · • 4	·♦ • • ·	• • •	·· • · • ·	• r 5 ·	• · ·· •	• V •
	•	• ··		•	• » ·	•	•	• ·	• »♦

totalmente. Por exemplo, um ou mais canais transmitidos pode(m) ser canais inalterados que não estão sujeitos a upmixing. Além de serem um ou mais canais de playback C, estes canais inalterados, por sua vez, podem ser, mas não precisam ser, usados como canais de referência aos quais é aplicado processamento BCC, para sintetização de um ou mais dos outros canais de playback. Em ambos os casos, esses canais inalterados podem estar sujeitos a retardos para compensar o tempo de processamento envolvido no upmixing e/ou processamento de

BCC usados para gerar o restante dos canais de playback.

Deve ser observado que, apesar de a Figura 4 apresentar canais de playback C sendo sintetizados de canais transmitidos E, quando C era também o número de canais de entrada originais, a síntese de BCC não se limita a esse número de canais de playback. Em geral, o número de canais de playback pode ser qualquer número de canais, inclusive números maiores ou menores que C, e possivelmente até mesmo situações em que o número de canais de playback é igual ou menor que o número de canais transmitidos.

Diferenças perceptivamente relevantes entre canais de áudio

Pressupondo-se um único sinal de soma, o BCC sintetiza um sinal de áudio estéreo ou multicanal de maneira que

ICTD, ICLD e ICC aproximem-se das sinalizações correspondentes do sinal de áudio original. A seguir, é discutido o papel de ICTD, ICLD e ICC em relação aos atributos de imagem espacial auditiva.

O conhecimento a respeito da audição espacial sugere que para um evento auditivo, ICTD e ICLD estão relacionadas à direção percebida. Ao considerarem-se respostas impulsivas binaurais do ambiente (BRIRs) de uma fonte, existe uma relação entre a largura

4 ·	• •4	•
• *	•	4	•
• ·		r·	•
• ·	•	•	*
•	*	a	•
•	···

*·· ·	··
•	··	•
··	•	··
9	•	• ·
• ·	9	• ·
•	• ··	•

···	•	•
•	• ·	• ·
	• ·	•
-·	··	9
•	J	•
•	• ·	w··

do evento auditivo e o envolvimento do ouvinte e os dados de ICC estimados para as primeiras e últimas partes das BRIRs. No entanto, a relação entre a ICC e estas propriedades para sinais gerais (e não somente as BRIRs) não é direta.

Sinais de áudio estéreo e multicanal em geral contêm uma mistura complexa de sinais de fonte simultaneamente ativos superpostos por componentes de sinal refletido resultantes de gravação em espaços confinados, ou adicionados pelo engenheiro de gravação para criar artificialmente uma impressão espacial. Diferentes sinais de fonte e seus reflexos ocupam diferentes áreas no plano tempo-freqüência. Isto é refletido pelas ICTD, ICLD e ICC, as quais variam em função de tempo e freqüência. Neste caso, a relação entre ICTD, ICLD e ICC instantâneas e as direções de evento auditivo e impressão espacial não é óbvia. A estratégia de determinadas configurações de BCC é sintetizar estas sinalizações cegamente, de maneira que elas se aproximem das sinalizações correspondentes do sinal de áudio original.

São usados bancos de filtros com sub-bandas com largura de banda igual a duas vezes a largura de banda retangular equivalente (ERB). Uma audição informal revela que a qualidade de áudio de BCC não melhora de maneira notável quando uma resolução de freqüência mais alta é escolhida. Uma resolução de freqüência mais baixa pode ser desejável, uma vez que resulta em menos valores de ICTD, ICLD e ICC precisando ser transmitidos ao decodificador, e assim, em taxa de bits transferência mais baixa.

Em relação à resolução de tempo, as ICTD, ICLD e ICC são tipicamente consideradas a intervalos de tempo regulares. Obtém-se alto desempenho quando ICTD, ICLD e ICC são consideradas aproximadamente a cada 4 a 16 ms. Deve ser observado que, a menos que as sinalizações sejam consideradas em intervalos de tempo muito curtos, o efeito de precedência não é considerado diretamente. Pressupondo um par de avanço-atraso clássico de estímulos de som, se o avanço e atraso caírem em um intervalo de tempo onde somente um conjunto de sinalizações está sintetizado, a dominação de localização do avanço não é considerada. Apesar disto, o BCC atinge qualidade de áudio refletida em um escore MUSHRA médio de aproximadamente 87 (isto é, qualidade de áudio excelente) em média, e até aproximadamente 100 para determinados sinais de áudio.

A diferença perceptivelmente pequena frequentemente obtida entre o sinal de referência e o sinal sintetizado sugere que as sinalizações relacionadas a uma ampla gama de atributos de imagem espacial auditiva são implicitamente consideradas sintetizando-se ICTD, ICLD e ICC em intervalos de tempo regulares. A seguir, são apresentados alguns argumentos sobre como ICTD, ICLD e ICC podem relacionar-se a uma gama de atributos de imagem espacial auditiva.

Estimativa de sinalizações espaciais

A seguir, uma descrição de como ICTD, ICLD e ICC são estimadas. A taxa de frequência para transmissão destas sinalizações espaciais (quantizadas e codificadas) pode ser somente alguns kb/s, e portanto, com o BCC, é possível transmitir sinais de áudio estéreo e multicanal em taxas de transferência próximas às necessárias para um canal de áudio único.

A Figura 5 apresenta um diagrama de blocos do estimador de BCC 208 da Figura 2, de acordo com uma configuração da presente invenção. O estimador de BCC 208 é composto de bancos de filtro (FB) 502, os quais podem ser os mesmos que os bancos de filtro

302 da Figura 3, do

bloco de estimativa 504, o qual gera sinalizações espaciais de ICTD, ICLD e ICC para cada diferente subbanda de frequência gerada pelos bancos de filtro 502.

Estimativa de ICTD, ICLD e ICC para sinais estéreo

As medidas a seguir são usadas para ICTD, ICLD e

ICC para sinais de sub-banda correspondente χ,(Λ) e x₂(k) de dois (por exemplo, estéreo) canais de áudio:

oICTD [amostras]:

r₁₂(£) = argmax{Φ₁₂(ί/,£)| , (7) d

com estimativa de curto prazo da função de correlação cruzada normalizada dada pela Equação (8) como segue:

/MO)

Φ, ₂ (í/, k) = , ,

y]l\(k-d_t)p_i2(k-d₂) quando niax{-</, 0} max{í/,0} ^e /\i₂(O) ^é uma estimativa de curto prazo da média de x,(k -í/,)x₂(k -d₂) .

oICLD [dB]:

Áí₁₂(*) = 101og_l0 (*)Ί • (10) o ICC:

c_l2(k) = ηΐ3χ|Φ₁₂(ί/,Λ)| . (11)

Deve ser observado que valor absoluto da correlação cruzada normalizada é considerado e apresenta uma faixa de [0,1].

Estimativa de ICTD, ICLD e ICC para sinais de áudio multicanal

Quando tipicamente suficiente referência (por exemplo, ilustra a Figura

6, para denotam a ICTD e a ICLD, e o canal c.

Como apresenta mais graus apresentar diferentes houver mais de dois canais de entrada, é definir ICTD e canal número 1) o caso de canais

ICLD entre um canal de e os outros canais, como

0=5, quando r_k.(£) e AL^Çk) respectivamente, entre o canal de referência oposto à ICTD e à ICLD, a ICC tipicamente de liberdade.

valores entre entrada possíveis. Para canais C,

A ICC por definição pode todos os pares de canal de há 0/0-1)/2 pares de canal possíveis; por exemplo, para 5 canais há 10 pares de canais, ilustra a Figura 7(a). No entanto, esse esquema demanda que, como para cada sub-banda em cada índice de tempo, os valores de ICC 0/0-1)/2 sejam estimados e transmitidos, resultando em alta complexidade computacional e taxa de transferência alta.

Alternativamente, para cada sub-banda, ICTD e ICLD determinam a direção na qual ocorre o evento auditivo do componente de sinal correspondente da sub-banda. Um único parâmetro de ICC por sub-banda pode então ser usado para descrever a coerência geral entre todos os canais de áudio. Podem-se obter bons resultados estimando-se e transmitindo-se sinalizações de ICC somente entre os dois canais com mais energia de cada sub-banda, em cada índice de tempo. Isto é ilustrado na Figura 7(b), na qual para instantes de tempo k-1 e k, os pares de canal (3,4) e (1,2) são os mais fortes, respectivamente. Uma regra heurística pode ser usada para determinar a ICC entre os outros pares de canal.

Síntese de sinalizações espaciais

Figuraapresenta

diagrama

uma implementação do sintetizador BCC 400 da Figura 4 que pode ser usado em um decodificador BCC para gerar um sinal de áudio estéreo ou multicanal, dado um único sinal de soma transmitido s(n) mais as sinalizações espaciais. O sinal de soma s (n) é decomposto em subbandas, quando s(k) denota uma dessas sub-bandas. Para gerar as subbandas correspondentes de cada canal de saída, são aplicados retardos d_c, fatores de escalonamento a_c e filtros h_c à sub-banda correspondente do sinal de soma. (Para simplicidade de observação, o índice de tempo k é ignorado nos retardos, fatores de escalonamento e filtros.) As ICTDs são sintetizadas através da imposição de retardos, as ICLD por escalonamento e as ICC pela aplicação de filtros de descorrelaçâo. O processamento apresentado na Figura 8 é aplicado independentemente a cada sub-banda. Síntese de ICTD

Os retardos d_c são determinados a partir das ICTDs , de acordo com a Equação (12), como segue:

d =. “^(^max2^c ^/(^) + ¹¹¹¹^^ c = 1 (12) < c < C.

O retardo para o canal de referência, d_lz é computado de maneira que a grandeza máxima dos retardos d_c seja minimizada. Quanto menos os sinais de sub-banda forem modificados, menor será o risco de que ocorram artefatos. Se a taxa de amostragem de sub-banda não prover tempo-resolução alta suficiente para síntese da ICTD, podem ser impostos retardos mais precisamente através do uso de filtros de desvio de fase adequados.

Síntese de ICLD

Para que os sinais de sub-banda de saída tenham as

ICLD desejadas ΔΖ,_Ι2(Λ) entre o canal ceo canal de referência 1, os fatores de ganho a_c devem satisfazer a Equação (13) como segue:

-^- = 10 ²⁰ . (13)

Além disso, as sub-bandas de saída são preferivelmente normalizadas de maneira que a soma da potência de todos os canais de saída seja igual à potência do sinal de soma de entrada. Uma vez que a potência de sinal original total de cada subbanda é preservada no sinal de soma, esta normalização resulta na potência de sub-banda absoluta para cada canal de saída que se aproxime da potência correspondente do sinal de áudio de entrada do codificador original. Considerando-se estas restrições, os fatores de escalonamento a_c são dados pela Equação (14), como segue:

íl/Jl + y^f JO¹¹'¹⁰, c = l a_c = V ’ ^'⁼² (14) ao contrário

Síntese de ICC

Em determinadas configurações, o objetivo da síntese de ICC é reduzir a correlação entre as sub-bandas depois que retardos e escalonamentos tiverem sido aplicados, sem afetar as ICTDs e ICLDs. Isto pode ser obtido projetando-se os filtros h_c da Figura 8 de maneira que ICTD e ICLD variem efetivamente em função da freqüência, de maneira que a variação média seja zero em cada subbanda (banda crítica auditiva).

A Figura 9 ilustra como ICTD e ICLD são variadas dentro de uma sub-banda em função da freqüência. A amplitude da variação de ICTD e ICLD determina o grau de descorrelação, e é controlada em função da ICC. Deve ser observado que as ICTDs sâo variadas uniformemente (como na Figura

9(a)), enquanto as ICLD sâo variadas aleatoriamente (como na Figura

9(b)). Poder-se-ia variar a

ICLD tão uniformemente quanto a ICTD, porém, isto resultaria em mais coloração nos sinais de áudio resultantes.

Outro método de sintetização de ICC, particularmente adequado para síntese de ICC de multicanal, é descrito em mais detalhes em C. Faller, Parametric multi-channel audio coding: Synthesis of coherence cues, IEEE Trans. on Speech and Audio Proc., 2003, cujos ensinamentos são aqui incorporados por referência. Como função de tempo e freqüência, quantidades específicas de reverberação atrasada artificial são adicionadas a cada canal de saída, para obtenção de uma ICC desejada. Além disso, a modificação espectral pode ser aplicada de maneira que o envelope espectral do sinal resultante aborde o envelope espectral do sinal de áudio original.

Outras técnicas de síntese de ICC relacionadas e não relacionadas para sinais estéreo (ou pares de canal de áudio) foram apresentadas em E. Schuijers, W. Oomen, B. den Brinker, e J. Breebaart, Advances in parametric coding for high-quality audio, in Preprint 114^th Conv. Aud. Eng. Soc., Mar. 2003, e J. Engdegard, H. Purnhagen, J. Roden, and L. Liljeryd, Synthetic ambience in parametric stereo coding, in Preprint 117^th Conv. Aud. Eng. Soc., May 2004, cujos ensinamentos, de ambos, são aqui incorporados por referência.

BCC C-para-E

Como foi descrito anteriormente, o BCC pode ser implementado com mais de um canal de transmissão. Uma variação de BCC • · · · · • · · · · • · · • · • · · • · • · · foi descrita, a qual representa canais de áudio

C não como um canal único (transmitido), porém como canais E, denominada

BCC C-para-E. Há (pelo menos) duas motivações para o BCC

C-para-E:

o O BCC com um canal de transmissão provê um caminho compatível de regresso para atualização de sistemas mono existentes para playback de áudio estéreo ou multicanal. Os sistemas atualizados transmitem o sinal de soma de BCC com downmixing através da infraestrutura de mono existente, ao mesmo tempo em que também transmitem as informações secundárias de BCC. O BCC C-para-E é aplicável à codificação compatível de regresso de canal E do áudio de canal

C.

o O BCC C-para-E introduz a possibilidade de escalonamento em termos de diferentes graus de redução do número de canais transmitidos. Espera-se que quanto mais canais de áudio forem transmitidos, melhor será a qualidade de áudio.

Detalhes de processamento de sinal para BCC C-paraE, por exemplo, como definir as sinalizações de ICTD, ICLD e ICC, são descritos no pedido norte-americano número de série 10/762,100, depositado em 20/01/04 (Faller 13-1) .

Conformação de Som Difuso

Em determinadas implementações, a codificação BCC envolve algoritmos para síntese de ICTD, ICLD e ICC.

Sinalizações de

ICC podem ser sintetizadas através da descorrelação dos componentes de sinal das sub-bandas correspondentes.

Isto pode ser feito através da variação condicionada à freqüência de

ICLD, variação condicionada á freqüência de ICTD e ICLD, filtração com desvio de fase, ou com idéias relacionadas a algoritmos de reverberação.

Quando estas técnicas são aplicadas a sinais áudio, as características do envelope temporal dos sinais não de são • · · • · · · preservadas. Especificamente, quando aplicada transientes, a energia de sinal instantâneo tende a irradiar-se em um determinado

AO período de tempo. Isto resulta em artefatos como pré-ecos ou transientes reduzidos.

Um princípio genérico de determinadas configurações da presente invenção refere-se à observação de que o som sintetizado por um decodificador BCC deve não só possuir características espectrais que sejam semelhantes às do som original, como também assemelhar-se ao envelope temporal do som original de maneira bem próxima, de modo a apresentar características de percepção semelhantes. Em geral, isto é obtido em esquemas similares ao BCC através da inclusão de uma síntese dinâmica de ICLD que aplique uma operação de escalonamento de tempo variável, para aproximar a envelope temporal de canal de cada sinal. Para o caso de sinais transitórios (ataques, instrumentos de percussão, etc.), a resolução temporal deste processo pode, no entanto, não ser suficiente para produzir sinais sintetizados que se aproximem do envelope temporal original tanto quanto necessário. Esta seção descreve várias abordagens para que isto seja feito com uma resolução de tempo suficientemente fina.

Além disso, para decodificadores BCC que não possuem acesso ao envelope temporal dos sinais originais, a idéia é, ao invés disso, considerar o envelope temporal do(s) sinal(is) somado(s) transmitido(s) como uma aproximação. Assim, não há informação secundária com necessidade de transmissão do codificador BCC para o decodificador BCC para transmitir essas informações de envelope. Em resumo, a invenção fundamenta-se no seguinte princípio:

o Os canais de áudio transmitidos (isto é,

canal(is) somado(s)) - ou combinações lineares destes canais nas quais a síntese de BCC pode estar baseada - são analisados por um extrator de envelope temporal para seu envelope temporal, com alta resolução de tempo (por exemplo, significativamente mais fina que o tamanho do bloco de BCC).

o O som sintetizado subseqüente para cada canal de salda é conformado de maneira que - mesmo após a síntese de ICC corresponda ao envelope temporal determinada pelo extrator o mais próximo possível. Isto garante que, mesmo no caso de sinais transitórios, o som de saída sintetizado não seja significativamente degradado pela síntese de ICC / processo de descorrelação de sinal.

A Figura 10 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC 1000, de acordo com uma configuração da presente invenção. Na Figura 10, o bloco 1002 representa o processamento de síntese de BCC que inclui pelo menos a síntese de ICC. O bloco de síntese de BCC 1002 recebe canais de base 1001 e gera canais sintetizados 1003. Em determinadas implementações, o bloco 1002 representa o processamento de blocos 406, 408 e 410 da Figura 4, quando canais de base 1001 são os sinais gerados pelo bloco de upmixing 404 e canais sintetizados 1003 são os sinais gerados pelo bloco de correlação 410. A Figura 10 representa o processamento implementado para um canal de base 1001' e seu canal sintetizado correspondente. Um processamento similar é também aplicado a cada um dos outros canais de base e seu canal sintetizado correspondente.

O extrator de envelope 1004 determina a envelope temporal fina a do canal de base 1001', e o extrator de envelope 1006 determina a envelope temporal fina b do canal sintetizado 1003'. O

	•	•	• to	•	•	• ·	9 ·
•	•	•	• •	• to • >	• >	• · • ⁿ	• •
•	*	• ·	♦	• ·	• ·	•	•
		•	• · to	•	•	•	• · ·

31·· · φ · • to • * • · regulador de envelope inversa 1008 usa o envelope temporal b do extrator de envelope 1006 para normalizar a envelope (isto é, nivelar a estrutura temporal fina) do canal sintetizado 1003', produzindo um sinal nivelado 1005' com envelope de tempo nivelada (por exemplo, uniforme). Dependendo da implementação em particular, o nivelamento pode ser aplicado antes ou depois do upmixing. 0 regulador de envelope 1010 usa o envelope temporal a do extrator de envelope 1004 para reimpor o envelope de sinal original do sinal nivelado 1005', gerando o sinal de saída 1007', com envelope temporal substancialmente igual ao envelope temporal do canal de base 1001.

Dependendo da implementação, este processamento de envelope temporal (também referido na presente como conformação de envelope) pode ser aplicado ao canal sintetizado inteiro (como demonstrado), ou somente à parte ortogonalizada (por exemplo, parte de reverberação atrasada, parte descorrelacionada) do canal sintetizado (de acordo com a descrição subseqüente). Além disso, dependendo da implementação, a conformação de envelope pode ser aplicado aos sinais de domínio de tempo ou de maneira condicionada á freqüência (por exemplo, quando o envelope temporal é estimado e imposta individualmente em freqüências diferentes).

O regulador de envelope inversa 1008 e o regulador de envelope 1010 podem ser implementados de maneiras diferentes. Em um tipo de implementação, o envelope de um sinal é manipulado, multiplicando-se as amostras de domínio de tempo do sinal (ou amostras espectrais / de sub-banda) com uma função de modificação de amplitude de tempo variável (por exemplo, 1/b para o regulador de envelope inversa 1008 e a para o regulador de envelope 1010). Alternativamente, pode ser usada uma convolução / filtraçào da

32 »·		·· ··· .· • · · · ·
• · • ·	J · ^w » · i ·· r · * · R · · · ·	·· · · · · • · ·~ · • · · · · !.
•	··· ' · ·	• · » · ··
representação espectral do sinal sobre	freqüência,	de maneira análoga

à usada na técnica anterior para a finalidade de conformação do ruído de quantização de um codificador de áudio de baixa taxa de transferência. De maneira similar, o envelope temporal de sinais pode ser extraído diretamente através da análise da estrutura de tempo do sinal ou através do exame da auto-correlação do espectro de sinal sobre freqüência.

A Figura 11 ilustra um exemplo de aplicação do esquema de conformação de envelope da Figura 10 no contexto do sintetizador BCC 400 da Figura 4. Nesta configuração, existe um único sinal de soma transmitido s (n), os sinais de base C são gerados replicando-se esse sinal de soma, e o conformação de envelope é aplicado individualmente a diferentes sub-bandas. Em configurações alternativas, a ordem de retardos, escalonamento e outros processamentos pode ser diferente. Além disso, em configurações alternativas, a conformação de envelope não fica restrito ao processamento de cada sub-banda independentemente. Isto aplica-se especialmente em casos de implementações baseadas em convolução / filtração que exploram a co-variância em bandas de freqüência para derivar informações sobre a estrutura fina temporal do sinal.

Na Figura 11(a), o analisador de processo temporal (TPA) 1104 é análogo ao extrator de envelope 1004 da Figura 10, e cada processador temporal (TP) 1106 é análogo à combinação de extrator de envelope 1006, regulador de envelope inversa 1008 e regulador de envelope 1010 da Figura 10.

A Figura 11(b) apresenta um diagrama de blocos de uma implementação possível baseada em domínio de tempo de TPA 1104, na qual as amostras de sinal de base são elevadas ao quadrado (1110)

envelope temporal a do sinal de base.

A Figura 11 (c) apresenta um diagrama de blocos de uma implementação possível baseada em domínio de tempo de TP 1106, na qual as amostras de sinal sintetizadas são elevadas ao quadrado (1114) e depois filtradas por filtro de passa-baixa (1116), caracterizando o envelope temporal b do sinal sintetizado. Um fator de escalonamento (por exemplo, sqrt (a/b)) é gerado (1118) e depois aplicado (1120) ao sinal sintetizado, gerando um sinal de saída com um envelope temporal substancialmente igual à do canal de base original.

Em implementações alternativas de TPA 1104 e TP 1106, os envelopes temporais são caracterizados através do uso de operações de grandeza, ao invés da elevação ao quadrado das amostras de sinal. Nessas implementações, a proporção a/b pode ser usada como fator de escalonamento sem a necessidade de aplicar-se a operação de raiz quadrada.

Apesar de a operação de escalonamento da Figura 11(c) corresponder a uma implementação baseada em domínio de tempo do processamento com TP, o processamento com TP (bem como o processamento com TPA e TP inverso (ITP)) pode também ser implementado usando-se sinais de domínio de freqüência, como na configuração das Figuras 17-18 (descrita abaixo). Assim, para finalidades desta especificação, o termo “função de escalonamento deve ser interpretado como abrangente das operações tanto de domínio de tempo como de domínio de freqüência, como por exemplo as operações de filtração das Figuras 18(b) e (c) .

Em geral, o TPA 1104 e o TP 1106 são

preferivelmente projetados de maneira a não modificar a potência do sinal (isto é, a energia). Dependendo da implementação em particular, esta potência de sinal pode ser uma potência de sinal média de curto prazo em cada canal, por exemplo, baseada na potência de sinal total 5 por canal no período de tempo definido pela janela de síntese ou por alguma outra medida adequada de energia. Assim, o escalonamento para síntese de ICLD (por exemplo, usando-se os multiplicadores 408) pode ser aplicado antes ou depois do conformação de envelope.

Deve ser observado que na Figura 11(a), para cada canal, existem duas saídas, quando o processamento com TP é aplicado a somente uma delas. Isto reflete um esquema de síntese de ICC que mistura dois componentes de sinal: sinais inalterados e ortogonalizados, quando a proporção de componentes de sinal inalterado e ortogonalizado determina a ICC. Na configuração apresentada na Figura 11(a), o TP é aplicado somente ao componente de sinal ortogonalizado, quando os nós de soma 1108 recombinam os componentes de sinal inalterado com os componentes de sinal ortogonalizado temporalmente conformados correspondentes.

A Figura 12 ilustra um exemplo de aplicação 20 alternativa do esquema de conformação de envelope da Figura 10 no contexto do sintetizador BCC 400 da Figura 4, quando o conformação de envelope é aplicado, no domínio de tempo. Essa configuração pode ser justificada quando a resolução de tempo da representação espectral na qual a síntese de ICTD, ICLD e ICC é realizada não for alta o 25 suficiente para efetivamente evitar pré-ecos, através da imposição do envelope temporal desejado. Por exemplo, este pode ser o caso quando o BCC for implementado com uma transformada de Fourier de curta duração (STFT).

Como mostra a Figura 12 (a), o TPA 1204 e cada TP 1206 são implementados no domínio de tempo, quando o sinal de banda total é escalonado de maneira a apresentar o envelope temporal desejado (por exemplo, o envelope de acordo com a estimativa baseada no sinal de soma transmitido). As Figuras 12(b) e (c) apresentam possíveis implementações do TPA 1204 e do TP 1206, as quais são análogas às apresentadas nas Figuras 11(b) e (c).

Nesta configuração, o processamento com TP é aplicado ao sinal de saída, não só aos componentes de sinal ortogonalizado. Em configurações alternativas, o processamento com TP baseado em domínio pode ser aplicado somente aos componentes de sinal ortogonalizado se desejado, nesse caso, as sub-bandas inalteradas e ortogonalizadas seriam convertidas para o domínio de tempo com bancos de filtro inversos separados.

Uma vez que o escalonamento de banda total dos sinais de saída do BCC pode resultar em artefatos, o conformação de envelope pode ser aplicado somente em frequências especificadas, por exemplo, freqüências maiores que uma determinada frequência critica

f_TP (por exemplo, 500	Hz) .	Deve	ser observado que a	faixa de
freqüência para análise	(TPA)	pode	diferir	da faixa de	freqüência
para síntese (TP).
As Figuras	13(a)	e (b)	apresentam	possíveis

implementações do TPA 1204 e do TP 1206, onde a conformação de envelope é aplicada somente em freqüências mais altas que a freqüência crítica f_rP. Em particular, a Figura 13 (a) apresenta a adição de filtro de passa-alta 1302, o qual elimina freqüências abaixo de f_TP antes da caracterização do envelope temporal. A Figura 13(b) apresenta a adição do banco de filtros de duas bandas 1304 com

parte de alta freqüência é temporariamente conformada. O banco de filtros inverso de duas bandas 1306 recombina, então, a parte de baixa freqüência com a parte de alta freqüência temporariamente conformada, gerando o sinal de saída.

A Figura 14 ilustra um exemplo de aplicação do esquema de conformação de envelope da Figura 10 no contexto do esquema de síntese de ICC baseada em reverberação atrasada descrito no pedido norte-americano número de série 10/815,591, depositado em 01/04/04 com protocolo do agente n⁹ Baumgarte 7-12. Nesta configuração, o TPA 1404 e cada TP 1406 são aplicados no domínio de tempo, como na Figura 12 ou na Figura 13, porém quando cada TP 1406 é aplicado à saída de um bloco de reverberação atrasada (LR) diferente

1402 .

A Figura 15 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC 1500, de acordo com uma configuração da presente invenção que é uma alternativa ao esquema apresentado na Figura 10. Na Figura 15, o bloco de síntese de BCC 1502, o extrator de envelope 1504, e o regulador de envelope 1510 são análogos ao bloco de síntese de BCC 1002, extrator de envelope 1004 e regulador de envelope 1010 da Figura 10. Na Figura 15, no entanto, o regulador de envelope inversa 1508 é aplicado antes da síntese de BCC, ao invés de depois da síntese de BCC, como na Figura 10. Desta maneira, o regulador de envelope inversa 1508 nivela o canal de base antes da síntese de BCC ser aplicada.

A Figura 16 apresenta um diagrama de blocos representando pelo menos uma parte de um decodificador BCC 1600, de

4?

acordo com uma configuração da presente invenção que é uma alternativa aos esquemas apresentados nas Figuras 10 e 15. Na Figura 16, o extrator de envelope 1604 e o regulador de envelope 1610 são análogos ao extrator de envelope 1504 e ao regulador de envelope 1510 da Figura 15. Na configuração da Figura 15, no entanto, o bloco de síntese 1602 representa síntese de ICC baseada em reverberação atrasada similar à apresentada na Figura 16. Neste caso, o conformação de envelope é aplicado somente ao sinal de reverberação atrasada não correlacionado, e o nó de soma 1612 adiciona o sinal de reverberação atrasada temporariamente conformado ao canal de base original (que já possui o envelope temporal desejado) . Deve ser observado que, neste caso, um regulador de envelope inversa não precisa ser aplicado, pois o sinal de reverberação atrasada apresenta um envelope temporal aproximadamente nivelado devido ao seu processo de geração no bloco 1602.

A Figura 17 ilustra um exemplo de aplicação do esquema de conformação de envelope da Figura 15 no contexto do sintetizador BCC 400 da Figura 4. Na Figura 17, o TPA 1704, o TP inverso (ITP) 1708 e o TP 1710 são análogos ao extrator de envelope 1504, regulador de envelope inversa 1508 e regulador de envelope 1510 da Figura 15.

Nesta configuração baseada em freqüência, o conformação de envelope de som difuso é implementado aplicando-se uma convolução aos compartimentos de freqüência do (por exemplo, STFT) banco de filtros 402, ao longo do eixo de freqüência. Referência feita à patente norte-americana 5,781,888 (Herre) e à patente norteamericana 5,812,971 (Herre), cujos ensinamentos são aqui incorporados por referência, para matéria relacionada a esta técnica.

A Figura 18 (a) apresenta um diagrama de bloco de

3&.

• · • ♦ • · uma possível implementação, implementação do TPA 1704 da Figura 17. Nesta o TPA 1704 é implementado como uma operação de análise de codificação preditiva linear (LPC) que determina os coeficientes ideais de previsão para as séries de coeficientes espectrais sobre frequência. Essas técnicas de análise de LPC são bem conhecidas, por exemplo, de codificação de voz, e muitos algoritmos para cálculo eficiente de coeficientes de LPC são conhecidos, como por exemplo o método de auto-correlação (envolvendo o cálculo da função de autocorrelação de sinal e uma recorrência de Levinson-Durbin subseqüente). Como resultado desta computação, é disponibilizado um conjunto de coeficientes de

LPC na saída, os quais representa, envelope temporal do sinal.

As Figuras de blocos de possíveis implementações do ITP 1708 e TP 1710 da Figura

17. Em ambas as implementações, os coeficientes espectrais do sinal a ser processado são processados em ordem de (crescente ou decrescente) freqüência, a qual é simbolizada aqui por um conjunto de circuitos de chave rotatória, convertendo estes coeficientes em uma ordem serial para processamento através de um processo de filtragem preditiva (e novamente de volta após este processamento). No caso do ITP 1708, a filtragem preditiva calcula o residual de previsão, nivelando, assim, o envelope de sinal temporal. No caso do TP 1710, o filtro inverso reintroduz o envelope temporal representado pelos coeficientes de LPC do TPA 1704.

Para calcular o envelope temporal de sinal pelo TPA

1704, é importante eliminar a influência da janela de análise do banco de filtros 402, se essa janela for usada. Isto pode ser feito

• · · · · • · · · ·

39..

• · normalizando-se o envelope resultante pelo conformação de janela de análise, ou usando-se um banco de filtros de análise separado, que não empregue uma janela de análise.

A técnica baseada em convolução / filtragem da

Figura 17 pode também ser aplicada no contexto do esquema de conformação de envelope da Figura 16, quando o extrator de envelope 1604 e o regulador de envelope 1610 baseiam-se no TPA da Figura 18 (a) e no TP da Figura 18 (c), respectivamente.

Outras Configurações Alternativas

Os decodificadores BCC podem ser projetados para habilitar / desabilitar seletivamente o conformação de envelope. Por exemplo, um decodificador BCC pode aplicar um esquema de síntese de BCC convencional e habilitar o conformação de envelope quando o envelope temporal do sinal sintetizado oscilar suficientemente, de maneira que os benefícios do conformação de envelope sejam superiores a qualquer artefato que o conformação de envelope possa gerar. Este controle de habilitação / desabilitação pode ser obtido por:

(1) Detecção de transiente: Se um transiente for detectado, o processamento com TP é habilitado. A detecção de transiente pode ser implementada por antecipação, para conformar efetivamente não só o transiente mas também o sinal, um pouco antes e logo após o transiente. Possíveis maneiras para detectar-se transientes incluem:

o Observação do envelope temporal do(s) sinal(is) somado(s) de BCC para determinar quando ocorre um aumento repentino de energia, indicando a ocorrência de um transiente; e o Exame do ganho do filtro preditivo (LPC). Se o ganho de previsão do LPC exceder um limite especificado, pode-se pressupor que o sinal de LPC é computada na

40·· · ·

· * · • · · · · · • · · · · • · · · · • · · · · • · · · · · • · · · · é transiente ou altamente oscilante. A análise auto-correlação do espectro.

(2)

Detecção de aleatoriedade: Existem cenários quando

Nesse o envelope temporal está oscilando pseudo-aleatoriamente.

cenário, não podem ser detectados transientes, porém, o processamento com TP ainda pode ser aplicado (por exemplo, um sinal denso de aplauso corresponde a esse cenário).

Além disso, em determinadas implementações, a fim de prevenirem-se possíveis artefatos em sinais tonais, o processamento com TP não é aplicado quando a tonalidade do(s) sinal(is) somado(s) transmitido(s) é alta.

E ainda, medidas similares podem ser usadas no codificador de BCC para detectar quando o processamento com TP deve estar ativo. Uma vez que o codificador tem acesso a todos os sinais de entrada originais, ele pode empregar algoritmos mais sofisticados (por exemplo, uma parte do bloco de estimativa 208), para decidir quando o processamento de TP deve ser habilitado. O resultado desta decisão (uma flag sinalizando quando o TP deve estar ativo) pode ser transmitido ao decodificador BCC (por exemplo, como parte das informações secundárias da Figura 2) .

Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC nos quais há um único sinal de soma, a presente invenção pode também ser implementada no contexto dos esquemas de codificação BCC com dois ou mais sinais de soma. Neste caso, o envelope temporal para cada sinal de soma de base diferente pode ser estimada antes da aplicação da síntese de BCC, e diferentes canais de saída de BCC podem ser gerados com base em diferentes envelopes temporais, dependendo de quais sinais de soma

41..	9 · *	9	• 9 ·
• ·	V	^Λ 9
• 4	•	9 ·	• w
4 ·		9 ·	•
•	9	* V	•
V	9 99	r	J

•	9 9	tf · ·	•	•
9 9	9	•	♦ ·	f» »
9	9 ·	9	9 9	*
9	• 9	9	• ·	9
9	9 9	9 ·		9
99·	9	•	• ·	9 9·

foram usados para sintetizar os diferentes canais de saída. Um canal de saída sintetizado a partir de dois ou mais canais somados poderia ser gerado com base em uma envelope temporal efetiva que leva em conta (por exemplo, através de média ponderada) os efeitos relativos dos canais somados que o constituem.

Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC envolvendo códigos de ICTD, ICLD e ICC, a presente invenção pode também ser implementada no contexto de outros esquemas de codificação BCC envolvendo somente um ou dois destes três tipos de códigos (por exemplo, ICLD e ICC, mas não ICTD) e/ou um ou mais tipos adicionais de códigos. E ainda, a seqüência do processamento de síntese de BCC e conformação de envelope podem variar em diferentes implementações. Por exemplo, quando o conformação de envelope é aplicado a sinais em domínio de freqüência, como nas Figuras 14 e 16, o conformação de envelope poderia alternativamente ser implementado após a síntese de ICTD (nas configurações que empregam síntese de ICTD), porém antes da síntese de ICLD. Em outras configurações, o conformação de envelope poderia ser aplicado a sinais com upmixing antes que qualquer outra síntese de BCC seja aplicada.

Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC, a presente invenção pode também ser implementada no contexto de outros sistemas de processamento de áudio nos quais sinais de áudio são descorrelacionados ou de outro processamento de áudio que necessite descorrelacionar sinais.

Apesar de a presente invenção ter sido descrita no contexto de implementações nas quais o codificador recebe sinal de

42· *·* * ·· • · · * · ·

• ·	4 · ·	• ·
• ·	4	• ·	•
•	r	4 4	• ·
•	9 · 4	r	>

• · «

•	• 4	44 4	4	4
• 9	4	•	4 4	* 4
4	··	•	• ·	4
4	• ·	T	4 ·	4
• ···	• 4 4	• · •	• •	• 444

áudio de entrada no domínio de tempo e gera sinais de áudio transmitidos no domínio de tempo, e o decodificador recebe os sinais de áudio transmitidos no domínio de tempo e gera sinais de áudio de playback no domínio de tempo, a presente invenção não é tão limitada. Por exemplo, em outras implementações, qualquer um ou mais dos sinais de áudio de entrada, transmitidos e de playback poderiam ser representados em um domínio de freqüência.

Codificadores e/ou decodificadores BCC podem ser usados em conjunto com ou incorporados a várias aplicações ou sistemas diferentes, incluindo sistemas para televisão ou distribuição de música eletrônica, salas de cinema, radiodifusão, streaming e/ou recepção. Aqui estão incluídos sistemas para codificação / decodificação de transmissões via, por exemplo, terrestre, satélite, cabo, Internet, intranets ou meios físicos (por exemplo, compact discs, discos digitais versáteis, chips semicondutores, discos rígidos, cartões de memória e similares). Os codificadores e/ou decodificadores BCC podem também ser empregados em jogos e sistemas de jogos, inclusive, por exemplo, produtos de software interativo destinados a interagir com o usuário para lazer (ação, role play, estratégia, aventura, simulações, corridas, esportes, fliperama, jogos de cartas e jogos de tabuleiro) e/ou educação, que podem ser editados para múltiplas máquinas, plataformas ou mídias. Além disso, codificadores e/ou decodificadores BCC podem ser incorporados a gravadores / reprodutores de áudio ou sistemas de CD-ROM/DVD. Os codificadores e/ou decodificadores BCC podem também ser incorporados a aplicativos de software para PC que incorporem decodificação digital (por exemplo, reprodutor, decodificador) e aplicativos de software que incorporem capacidades de codificação

43· • · · • · · « · • · · • · digital (por exemplo, codificador, ripper, recodificador e jukebox).

A presente invenção pode ser implementada como processos baseados em circuitos, incluindo uma possível implementação como circuito integrado único (como por exemplo ASIC ou

FPGA), como módulo de chips múltiplos, uma placa única, ou um pacote de circuito de placas múltiplas.

Como seria aparente aos técnicos no assunto, várias funções de elementos de circuito podem também ser implementadas como etapas de processamento em um programa de software. Esse software pode ser empregado, por exemplo, em um processador de sinal digital, micro-controlador ou computador de uso geral.

A presente invenção pode ser configurada na forma de métodos e aparelhos para prática desses métodos. A presente invenção pode também ser configurada na forma de código de programa configurado em meios tangíveis, como por exemplo disquetes, CD-ROMs, discos rígidos ou qualquer outro meio de armazenamento legível em máquina, caracterizado pelo fato de que quando o código de programa é carregado em e executado por uma máquina, como por exemplo um computador, a máquina torna-se um aparelho para a prática da invenção. A presente invenção pode também ser configurada na forma de código de programa, por exemplo, seja armazenada em um meio de armazenamento, carregada em e/ou executada por uma máquina, ou transmitida por algum meio de transmissão ou portador, como por exemplo por fiação ou cabeamento elétrico, através de fibra ótica, ou via radiação eletromagnética, onde, quando o código de programa é carregado em e executado por uma máquina, como por exemplo um computador, a máquina torna-se um aparelho para prática da invenção. Quando implementado em um processador de uso geral, os segmentos de r-C

Ch

44.

código de programa combinam-se ao processador para prover um dispositivo exclusivo que opera analogamente aos circuitos de lógica específicos.

Será também entendido que várias alterações nos detalhes, materiais e disposições das peças que foram descritas e ilustradas a fim de explicar a natureza desta invenção podem ser feitas pelos técnicos no assunto sem sair do escopo da invenção, como consta nas reivindicações a seguir.

Apesar de as etapas das reivindicações de método a seguir, quando presentes, constarem em uma determinada seqüência com denominação correspondente, a menos que o conteúdo das reivindicações de alguma outra maneira sugira uma seqüência particular para implementação de alguma ou todas essas etapas, essas etapas não precisam necessariamente estar limitadas a serem implementadas nessa 15 seqüência em particular.

Claims

REIVINDICAÇÕES

1. Método para conversão de um sinal de áudio de entrada com envelope temporal de entrada em um sinal de áudio de saída com envelope temporal de saída, método este compreendendo: caracterização do envelope temporal de entrada do sinal de áudio de entrada; processamento do sinal de áudio de entrada para gerar um sinal de áudio processado, caracterizado pelo fato de que o processamento descorrelaciona o sinal de áudio de entrada; e ajuste do sinal de áudio processado, com base no envelope temporal de entrada, que gera o sinal de áudio de saída, onde o envelope temporal de saída substancialmente corresponde ao envelope temporal de entrada.

2/8 áudio processado, e ajuste do sinal de áudio processado com base em ambos os envelopes temporais com característica de entrada e processados, para gerar o sinal de áudio de saída.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o processamento compreende síntese de correlação intercanal (ICC).

3/8 sinal de áudio processado.

11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que: a caracterização é aplicada somente às freqüências do sinal de áudio de entrada acima de uma freqüência crítica especificada; e a regulagem é aplicada somente às freqüências do sinal de áudio processado acima da freqüência crítica especificada.

12. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a caracterização, o processamento e a regulagem são individualmente aplicados a um sinal de domínio de freqüência.

13. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que a caracterização, o processamento e a regulagem são individualmente aplicados a diferentes subbandas de sinal.

14. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que o domínio de freqüência corresponde a uma transformada rápida de Fourier (FFT).

15. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que o domínio de freqüência corresponde a um filtro em espelho de quadratura (QMF).

16. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a caracterização e a regulagem são individualmente aplicadas a um sinal de domínio de tempo.

17. Método, de acordo com a reivindicação 16, caracterizado pelo fato de que o processamento é aplicado a um sinal de domínio de freqüência.

18. Método, de acordo com a reivindicação 17,

Petição 870180067252, de 02/08/2018, pág. 8/15

3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a síntese de ICC é parte da síntese de binaural cue coding (BCC).

4/8 caracterizado pelo fato de que o domínio de freqüência corresponde a uma FFT.

19. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que o domínio de freqüência corresponde a um QMF.

20. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende também a determinação de habilitar ou desabilitar a caracterização e a regulagem.

21. Método, de acordo com a reivindicação 20, caracterizado pelo fato de que a determinação baseia-se em uma flag de habilitar / desabilitar gerada por um codificador de áudio que gerou o sinal de áudio de entrada.

22. Método, de acordo com a reivindicação 20, caracterizado pelo fato de que a determinação baseia-se na análise do sinal de áudio de entrada para detectar transientes no sinal de áudio de entrada, de maneira que a caracterização e a regulagem são habilitadas se for detectada a ocorrência de uma transiente.

23. Um aparelho para conversão de um sinal de áudio de entrada com envelope temporal de entrada em um sinal de áudio de saída com um envelope temporal de saída, aparelho este compreendendo:

meio para caracterização do envelope temporal de entrada do sinal de áudio de entrada; meio para processamento do sinal de áudio de entrada para gerar um sinal de áudio processado, caracterizado pelo fato de que o meio para processamento é adaptado para descorrelacionar o sinal de áudio de entrada; e meio para regulagem do sinal de áudio processado baseado no envelope temporal com característica de entrada para gerar o sinal de áudio

Petição 870180067252, de 02/08/2018, pág. 9/15

4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que a síntese de BCC compreende também pelo menos uma entre a síntese de diferença de nível intercanal (ICLD) e síntese de diferença de tempo intercanal (ICTD) .

5/8 de saída, onde o envelope temporal de saída substancialmente corresponde ao envelope temporal de entrada.

24. 0 aparelho da reivindicação 23, caracterizado pelo fato de que, no qual o meio para caracterização inclui um extrator de envelope, no qual o meio para processamento inclui um sintetizador adaptado para processar o sinal de áudio de entrada; e no qual o meio para regulagem inclui um regulador

de envelope adaptado para ajustar o sinal de áudio processado baseado. 25. 0 aparelho da reivindicação 24, caracterizado pelo fato de que: o aparelho é um sistema

selecionado a partir do grupo composto de um reprodutor de vídeo digital, um reprodutor de áudio digital, um computador, um receptor via satélite, um receptor a cabo, um receptor de radiodifusão terrestre, um sistema de lazer doméstico e um sistema de sala de cinema; e o sistema compreende o extrator de envelope, o sintetizador e o regulador de envelope.

26. Método para codificação de canais de áudio de entrada C para gerar canal(is) de áudio transmitido(s) E, método este caracterizado pelo fato de que compreende: geração de um ou mais códigos de sinalização para dois ou mais canais de entrada C; execução de downmixing nos canais de entrada C para gerar o(s) canal(is) transmitido(s) E, sendo C>E^1; e análise de um ou mais canais de entrada Ce do(s) canal(is) transmitido(s) E para gerar uma flag indicando se um decodificador do(s) canal(is) transmitido(s) E deve ou não executar conformação da envelope durante a decodificação do(s) canal(is) transmitido(s) E, sendo que a etapa de análise inclui detecção de transiente de maneira

Petição 870180067252, de 02/08/2018, pág. 10/15

5. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a síntese de ICC compreende síntese de ICC de reverberação atrasada.

6/8 antecipada para conformação, no decodificador, não só de uma transiente, mas também de um sinal antes e depois da transiente, sendo a flag estabelecida quando uma transiente for detectada, ou incluindo uma detecção aleatória para detecção se um envelope temporal está oscilando de maneira pseudo-aleatória, sendo a flag estabelecida quando uma envelope temporal estiver oscilando de maneira pseudo-aleatória, ou incluindo uma detecção de tonalidade para não estabelecimento da flag quando o(s) canal (is) transmitido(s) E forem tonais.

27. Método, de acordo com a reivindicação 26, caracterizado pelo fato de que a conformação de envelope ajusta um envelope temporal de um canal decodificado gerado pelo decodificador para substancialmente corresponder a um envelope temporal de um canal transmitido correspondente.

28. Um aparelho para codificação de canais de áudio de entrada C para gerar canal(is) de áudio transmitido(s) E, aparelho este caracterizado pelo fato de que compreende: meio para gerar um ou mais códigos de sinalização para dois ou mais canais de entrada C; meio para executar downmixing dos canais de entrada C para gerar o(s) canal(is) transmitido(s) E, sendo C>E>1; e meio para analisar um ou mais canais de entrada C e o(s) canal (is) transmitido (s) E para gerar uma flag indicando se um decodificador do(s) canal (is) transmitido(s) E deve ou não executar conformação da envelope durante a decodificação do(s) canal(is) transmitido(s) E, onde o meio de análise inclui detecção de transiente de maneira antecipada para conformação, no decodificador, não só de uma transiente, mas também de um sinal antes e depois da transiente, sendo a flag estabelecida quando

Petição 870180067252, de 02/08/2018, pág. 11/15

6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a regulagem compreende: caracterização de um envelope temporal processado do sinal de

Petição 870180067252, de 02/08/2018, pág. 6/15

7/8 uma transiente for detectada, ou incluindo uma detecção aleatória para detecção se um envelope temporal está oscilando de maneira pseudo-aleatória, sendo a flag estabelecida quando uma envelope temporal estiver oscilando de maneira pseudo-aleatória, ou incluindo uma detecção de tonalidade para não estabelecimento da flag quando o(s) canal(is) transmitido(s) E forem tonais.

29. 0 aparelho da reivindicação 28, caracterizado pelo fato de que, no qual o meio para geração inclui um estimador de código; e no qual o meio para execução de downmixing inclui um downmixer.

30. O aparelho da reivindicação 29, caracterizado pelo fato de que: o aparelho é um sistema selecionado a partir do grupo composto de um gravador de vídeo digital, um gravador de áudio digital, um computador, um transmissor via satélite, um transmissor a cabo, um transmissor de radiodifusão terrestre, um sistema de lazer doméstico e um sistema de sala de cinema; e o sistema compreende o estimador de código e o downmixer.

31. Fluxo de bits de áudio codificado gerado pela codificação de canais de áudio de entrada C para gerar cana (is) de áudio transmitido(s) E, caracterizado pelo fato de que: um ou mais códigos de sinalização são gerados para dois ou mais canais de entrada C; os canais de entrada C passam por downmixing para gerar canal(is) transmitido(s) E, sendo C>E>1; uma flag é gerada através da análise de um ou mais canais de entrada C e do(s) canal(is) transmitido(s) E, onde a flag indica se um decodificador do(s) canal(is) transmitido(s) E deve executar conformação do envelope durante a decodificação do(s) canal(is) transmitido(s)

Petição 870180067252, de 02/08/2018, pág. 12/15

7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que a regulagem compreende: geração de uma função de escalonamento baseada nos envelopes temporais com característica de entrada e processados; e aplicação da função de escalonamento ao sinal de áudio processado para gerar o sinal de áudio de saída.

8. Método, de acordo com a reivindicação 1, compreendendo também a regulagem do sinal de áudio de entrada com base no envelope temporal com característica de entrada para gerar um sinal de áudio nivelado, caracterizado pelo fato de que o processamento é aplicado ao sinal de áudio nivelado para gerar o sinal de áudio processado.

9. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: o processamento gera um sinal processado não correlacionado e um sinal processado correlacionado; e a regulagem é aplicada ao sinal processado não correlacionado para gerar um sinal processado regulado, onde o sinal de saída é gerado somando-se o sinal processado ajustado e o sinal processado correlacionado.

10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: a caracterização é aplicada somente às freqüências especificadas do sinal de áudio de entrada; e a regulagem é aplicada somente às freqüências especificadas do

Petição 870180067252, de 02/08/2018, pág. 7/15

8/8

E, sendo a flag determinada pela detecção de transiente de maneira antecipada para conformação, no decodificador, não só de uma transiente, mas também de um sinal antes e depois da transiente, sendo a flag estabelecida quando uma transiente for detectada, ou incluindo uma detecção aleatória para detecção se um envelope temporal está oscilando de maneira pseudo-aleatória, sendo a flag estabelecida quando um envelope temporal estiver oscilando de maneira pseudo-aleatória, ou incluindo uma detecção de tonalidade para não estabelecimento da flag quando o(s) canal (is) transmitido(s) E forem tonais; e o(s) canal(is) transmitido(s) E, o(s) código(s) de sinalização, e a flag são codificados no fluxo de bits de áudio codificado.