BRPI0713236A2

BRPI0713236A2 - conceito para combinaÇço de méltiplas fontes de Áudio parametricamente codificadas

Info

Publication number: BRPI0713236A2
Application number: BRPI0713236-0A
Authority: BR
Original assignee: Fraunhofer Ges Ev
Priority date: 2006-07-07
Filing date: 2007-04-24
Publication date: 2013-04-02
Also published as: ES2380059T3; KR20090025332A; AU2007271532B2; PL2038878T3; NO341259B1; BRPI0713236B1; CA2656867A1; RU2009104047A; IL196217A0; PL2112652T3; AR061241A1; NO343321B1; EP2112652A1; JP5134623B2; EP2112652B1; KR101056325B1; NO20090515L; ATE542216T1; NO20170534A1; HK1124424A1

Abstract

CONCEITO PARA COMBINAÇAO DE MéLTIPLAS FONTES DE ÁUDIO PARAMETRICIAMENTE CODIFICADAS De acordo com a presente invenção, diversos sinais de áudio parametricamente codificados podem ser eficientemente combinados utilizando um gerador de sinal de áudio (100) que gera um sinal de saida de áudio (120) pela combinação dos canais down-mix (11Oa,112a) e de parâmetros associados (l110b,112b) dos sinais de áudio diretamente dentro do domínio de parâmetro, ou seja, sem reconstruir ou decodificar os sinais individuais de entrada áudio antes da geração do sinal de saida de áudio (120) . Isso é realizado pela mixagem direta dos canais down-mix associados (l110a,112a) dos sinais de entrada individuais. É uma característica principal da presente invenção que a combinação dos canais down-mix (l110a,112a) seja realizada por meio de operações aritméticas simples e baratas do ponto de vista computacional.

Description

"CONCEITO PARA COMBINAÇAO DE MÚLTIPLAS FONTES DE ÁUDIO PARAMETRICAMENTE CODIFICADAS"

Campo da invenção

A presente invenção refere-se à codificação de áudio multicanais e, em particular, a um conceito de combinação de fluxos de áudio parametricamente codificados de forma flexível e eficiente.

Histórico da invenção e técnica anterior

0 recente desenvolvimento na área de codificação de áudio originou diversas técnicas de codificação paramétrica de áudio para codificação conjunta de um sinal de áudio multicanais (por exemplo, 5,1 canais) em um (ou mais) canal down-mix e ainda um fluxo de informações auxiliares. De modo geral, o fluxo de informações auxiliares possui parâmetros relacionados às propriedades dos canais originais do sinal multicanais tanto em relação a outros canais originais do sinal multicanais como em relação ao canal down-mix. A definição particular de parâmetros do canal de referência, aos quais esses parâmetros estão relacionados, depende da implementação específica. Algumas das técnicas conhecidas nesse campo são "binaural cue coding", "spatial áudio coding" e "parametric stereo".

Para mais detalhes sobre essas implementações em particular, faz-se aqui referência a publicações relacionadas. Por exemplo, o binaural cue coding é detalhado em: C. Faller and F. Baumgarte, "Efficient

representation of spatial áudio using perceptual parametrization," IEEE WASPAA, Mohonk, NY, October 2001; F. Baumgarte and C. Faller, "Estimation of auditory spatial cues for binaural cue coding," ICASSΡ, Orlando, FL, May 2002; C. Faller and F. Baumgarte, "Binaural cue coding: a novel and efficient representation of spatial áudio," ICASSP, Orlando, FL, May 2002; C. Faller and F. Baumgarte, "Binaural cue coding applied to áudio compression flexible rendering," AES 113th Convention, Los Angeles, Preprint 5686, October 2002; C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proe., vol. 11, no. 6, Nov. 2003, and J. Herre, C. Faller et al., "Spatial Audio Coding: Next-generation efficient and compatible coding of multi-channel áudio", Audio Engineering Society Convention Paper, Oct. 28, 2004, San Francisco, CA, USA.

Apesar de o binaural cue coding usar múltiplos canais originais, o estéreo paramétrico é uma técnica relacionada para a codificação paramétrica de um sinal estéreo de dois canais resultando em um sinal mono transmitido e informações paramétricas auxiliares, como por exemplo, revistas nas seguintes publicações: J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High- Quality Parametric Spatial Audio Coding at Low Bitrates", AES 116th Convention, Berlin, Preprint 6072, May 2004; E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, "Low Complexity Parametric Stereo Coding", AES 116th Convention, Berlin, Preprint 6073, May 2004.

Outras tecnologias se baseiam na multiplexação de números arbitrários de fontes ou objetos de áudio em um único canal de transmissão de áudio. Os esquemas baseados em multiplexação são, por exemplo, apresentados como "apresentação flexível" em publicações relativas ao BCC (binaural cue coding) ou, mais recentemente, por um esquema denominado "joínt source coding" (JSC). As publicações relacionadas são, por exemplo: C. Faller, "Parametric Joint Coding of Audio Sources", Convention Paper 6752, 120th AES Convention, Paris, May 2006. Similar aos esquemas de estéreo paramétrico e binaural cue coding, essas técnicas pretendem codificar múltiplos objetos originais de áudio (canais) para transmissão por menos canais down-mix. Pela obtenção adicional de parâmetros baseados em objetos para cada canal de entrada, que podem ser codificados com uma taxa de dados muito baixa e que também são transmitidos para um receptor, esses objetos podem ser separados no lado do receptor e apresentados (mixados) em um determinado número de dispositivos de saida, como por exemplo, fones de ouvido, alto-falantes estéreos de dois canais, ou instalações de alto-falantes multicanais. Esta abordagem permite o ajuste de nivel e a redistribuição (panníng) dos diferentes objetos de áudio em diferentes locais na instalação de reprodução, isto é, no lado do receptor.

Basicamente, essas técnicas operam como transmissor M-k-N, com M sendo o número de objetos de áudio na entrada, k sendo o número de canais down-mix transmitidos, 2 0 tipicamente k ^ 2. N é o número de canais de áudio na saida do apresentador, isto é, por exemplo, o número de alto-falantes. Isto é, N = 2 para um apresentador estéreo ou N = 6 para uma instalação de falantes multicanais 5.1 . Em termos de eficiência de compressão, os valores típicos são, por exemplo, 64 kbps ou menos para um canal down-mix perceptualmente codificado (consistindo de k canais de áudio) e aproximadamente 3 kbps para parâmetros de objeto por objeto de áudio transmitido.

Os cenários de aplicação das técnicas acima são, por exemplo, a codificação de cenas de áudio espacial relacionadas com produções de filmes e cinema, de maneira a permitir a reprodução espacial do som em um sistema de home theater. Os exemplos comuns são as pistas amplamente conhecidas 5.1 e 7.1 de som surround em midia de filmes, como DVD e similares. As produções em filmes estão se tornando mais e mais complexas com referência às cenas de áudio, que devem prover uma experiência de audição espacial e, portanto, devem ser mixadas com muito cuidado. Podem ser indicados diferentes engenheiros de som para a mixagem de diferentes fontes surround ou de efeitos sonoros sendo, portanto, desejável a transmissão de cenários multicanais parametricamente codificados entre os engenheiros de som individuais, de maneira a transportar eficientemente os fluxos de áudio dos engenheiros de som individuais.

Outro cenário de aplicação dessa tecnologia é a teleconferência com vários interlocutores em cada ponta de uma conexão ponto a ponto. Para economizar largura de banda, a maior parte das instalações de teleconferência opera com transmissão monofônica. Usando, por exemplo, o joint source coding ou uma das demais técnicas de codificação multicanais para transmissão, a redistribuição e o alinhamento de níveis dos diferentes interlocutores na ponta de recepção (cada ponta) podem ser obtidos, e assim, a inteligibilidade e o equilíbrio dos interlocutores são ampliados, gastando-se uma taxa de bits marginalmente aumentada quando comparada com um sistema monofônico. A vantagem da maior inteligibilidade se torna particularmente evidente no caso especial da indicação de cada participante individual da conferência para um único canal (e, assim, o participante) de uma instalação de falantes multicanais na ponta de recepção. Entretanto, este é um caso especial. No geral, o número de participantes não combina com o número de interlocutores na ponta de recepção. Entretanto, usando a instalação existente de interlocutores, é possível tornar o sinal associado a cada participante, de maneira que pareça estar se originando de qualquer posição desejada. Isto é, o participante individual não somente é reconhecido por sua voz diferente, como também pela localização da fonte de áudio relacionada com o participante interlocutor.

Apesar de as técnicas do estado da arte implementarem conceitos sobre como codificar de maneira eficiente múltiplos canais ou objetos de áudio, todas as técnicas atualmente conhecidas não possuem a possibilidade de combinar dois ou mais desses fluxos de áudio transmitido de maneira eficiente e obterem um fluxo de saída (sinal de saída) , que é uma representação de todos os fluxos de entrada de áudio (sinais de entrada de áudio).

0 problema surge, por exemplo, quando é considerado um cenário de teleconferência com mais do que duas localizações, cada localização tendo um ou mais interlocutores. Então, é necessária uma instância intermediária para receber os sinais de áudio de entrada das fontes individuais e gerar um sinal de áudio de saída para cada local de teleconferência, tendo somente a informação dos locais restantes da teleconferência. Isto é, a instância intermediária deve gerar um sinal de saída, que é obtido a partir de uma combinação de dois ou mais sinais de áudio de entrada e que permite uma reprodução dos canais individuais de áudio ou objetos de áudio dos dois ou mais sinais de entrada. Pode ocorrer um cenário similar quando dois engenheiros de áudio de uma produção de filmes - cinema querem combinar seus sinais de áudio espacial de maneira a verificarem a impressão de audição gerada por ambos os sinais. Então, pode ser desejável combinar diretamente dois sinais multicanais codificados para verificar a impressão combinada de audição. Isto é, um sinal combinado deve ser tal que pareça com todos os objetos de áudio (fontes) dos dois engenheiros de áudio.

Entretanto, de acordo com as técnicas anteriores, essa combinação somente é possível por meio da decodificação dos sinais de áudio (fluxos). Então, os sinais decodificados de áudio podem, novamente, ser recodifiçados pelos codificadores multicanais da técnica anterior, para gerarem um sinal combinado em que todos os canais originais de áudio ou objetos de áudio estão adequadamente representados.

Isto tem a desvantagem de uma alta complexidade computacional, gastando-se então muita energia e tornando, por vezes, impossível a· aplicação do conceito, especialmente em cenários de tempo real. Além disso, uma combinação por meio de subsequente decodificação e recodificação de áudio pode provocar um retardo considerável devido às duas etapas de processamento, o que é inaceitável para determinadas aplicações, como em teleconferências/telecomunicações.

Sumário da invenção É objetivo da presente invenção prover um

conceito para combinar de forma eficiente múltiplos sinais de áudio codificados parametricamente.

De acordo com um primeiro aspecto da presente invenção, este objetivo é alcançado por um gerador de sinais de áudio para a geração de um sinal de áudio de saida, o gerador de sinais de áudio compreendendo: um receptor de sinais de áudio para a recepção de um primeiro sinal de áudio compreendendo um primeiro canal down-mix tendo informações sobre dois ou mais primeiros canais originais, e compreendendo um parâmetro original associado a um dos primeiros canais .originais, descrevendo uma propriedade de um dos primeiros canais originais com relação a um canal de referência; e um segundo sinal de áudio compreendendo um segundo canal down-mix tendo informações sobre pelo menos um segundo canal original; um combinador de canais para a obtenção de um canal down-mix combinado, combinando o primeiro canal down-mix com o segundo canal down-mix; um calculador de parâmetros para a obtenção de um primeiro parâmetro combinado que descreva as propriedades de um dos primeiros canais originais com relação a um canal comum de referência, e um segundo parâmetro combinado que descreva as propriedades de outro dos primeiros canais originais ou do pelo menos um segundo canal original com relação ao canal comum de referência; e uma interface de saida para enviar o sinal 2 0 de áudio de saida, compreendendo o canal down-mix combinado, o primeiro e o segundo parâmetros combinados.

De acordo com um segundo aspecto da presente invenção, este objetivo é alcançado por um método de geração de um sinal de áudio de saida, o método compreendendo: receber um primeiro sinal de áudio compreendendo um primeiro canal down-mix tendo informações sobre dois ou mais primeiros canais originais, e compreendendo um parâmetro original associado a um dos primeiros canais originais, descrevendo uma propriedade de um dos primeiros canais originais com relação a um canal de referência e um segundo sinal de áudio compreendendo um segundo canal down-mix tendo informações sobre pelo menos um segundo canal original; obter um canal down-mix combinado pela combinação do primeiro canal down- mix e do segundo canal down-mix; obter um primeiro parâmetro combinado descrevendo as propriedades de um dos primeiros canais originais com relação a um canal comum de referência e um segundo parâmetro combinado descrevendo as propriedades de outro dos primeiros canais originais ou do pelo menos um segundo canal original com relação a um canal comum de referência; e enviando o sinal de áudio de saida compreendendo o canal down-mix combinado e o primeiro e o segundo parâmetros combinados.

De acordo com um terceiro aspecto da presente invenção, este objetivo é alcançado por uma representação de três ou mais canais de áudio, compreendendo: um canal down-mix combinado, sendo uma combinação de um primeiro canal down-mix tendo informações sobre pelo menos dois primeiros canais originais e um segundo canal down-mix tendo informações sobre pelo menos um segundo canal original; um primeiro parâmetro descrevendo uma propriedade de um dos pelo menos dois primeiros canais originais com relação a um canal de referência; e um segundo parâmetro descrevendo as propriedades de outro canal dos primeiros canais originais ou a propriedade do pelo menos um segundo canal original com relação ao canal de referência. De acordo com um quarto aspecto da presente

invenção, este objetivo é alcançado por um programa de computador que implementa um método para a geração de um sinal de áudio de saida, o método compreendendo: receber um primeiro sinal de áudio compreendendo um primeiro canal down-mix tendo informações sobre dois ou mais primeiros canais originais, e compreendendo um parâmetro original associado a um dos primeiros canais originais descrevendo uma propriedade de um dos primeiros canais originais com relação a um canal de referência e um segundo sinal de áudio compreendendo um segundo canal down-mix tendo informações sobre pelo menos um segundo canal original; obter um canal down-mix combinado pela combinação do primeiro canal down-mix e do segundo canal down-mix; obter um primeiro parâmetro combinado descrevendo as propriedades de um dos primeiros canais originais com relação a um canal comum de referência e um segundo parâmetro combinado descrevendo as propriedades de outro dos primeiros canais originais ou do pelo menos um segundo canal original com relação a um canal comum de referência; e enviar o sinal de áudio de saida compreendendo o canal down-mix combinado e o primeiro e o segundo parâmetros combinados.

De acordo com um quinto aspecto da presente invenção, este objetivo é alcançado por meio de um sistema de conferência tendo um gerador de sinais de áudio para a geração de um sinal de áudio de saida, compreendendo: um receptor de sinais de áudio para a recepção de um primeiro sinal de áudio compreendendo um primeiro canal down-mix tendo informações sobre dois ou mais primeiros canais originais, e compreendendo um parâmetro original associado a um dos primeiros canais originais descrevendo uma propriedade de um dos primeiros canais originais com relação a um canal de referência; e um segundo sinal de áudio compreendendo um segundo canal down-mix tendo informações sobre pelo menos um segundo canal original; um combinador de canais para obter um canal down-mix combinado pela combinação do primeiro canal down-mix com o segundo canal down-mix; um calculador de parâmetros para a obtenção de um primeiro parâmetro combinado descrevendo as propriedades de um dos primeiros canais originais com relação a um canal comum de referência, e um segundo parâmetro combinado descrevendo as propriedades de outro dos primeiros canais originais ou do pelo menos um segundo canal original com relação ao canal comum de referência; e uma interface de saida para enviar o sinal de áudio de saida, compreendendo o canal down-mix combinado, o primeiro e o segundo parâmetros combinados.

A presente invenção se baseia no achado que múltiplos sinais de áudio parametricamente codificados podem ser combinados de forma eficiente usando um gerador de sinais de áudio 1·5 ou combinador de sinais de áudio, que gere um sinal de áudio de saida, combinando os canais down-mix e os parâmetros associados dos sinais de áudio de entrada diretamente dentro do domínio do parâmetro, isto é, sem reconstruir ou decodificar os sinais individuais de áudio de entrada antes da geração do sinal de áudio de saída. Para ser mais específico, isto é obtido pela mixagem direta dos canais down-mix associados dos sinais individuais de entrada, por exemplo, pela soma ou pela formação de uma combinação destes. É uma importante característica da presente invenção que a combinação dos canais down-mix seja obtida por meio de simples operações aritméticas computacionalmente baratas, como por soma.

Isto também é verdade para a combinação dos parâmetros que associam os canais down-mix. Como em geral, pelo menos um subconjunto dos parâmetros associados deverá ser alterado durante a combinação dos sinais de entrada de áudio, é muito importante que os cálculos realizados para a alteração dos parâmetros sejam simples e, portanto, não precisem de potência computacional significativa, nem que incorram em retardos adicionais, por exemplo, pelo uso de bancos de filtros ou outras operações que envolvam memória.

De acordo com uma configuração da presente invenção, é implementado um gerador de sinais de áudio para a geração de um sinal de áudio de saida para combinar um primeiro e um segundo sinais de áudio, ambos estando parametricamente codificados. Para a geração do sinal de áudio de saida, o gerador de sinais de áudio do invento extrai os canais down-mix dos sinais de entrada de áudio e gera um canal down-mix combinado, pela formação de uma combinação linear de dois canais down-mix. Isto é, os canais individuais são adicionados com pesos adicionais aplicados.

Em uma configuração preferida da presente invenção, os pesos aplicados são obtidos por meio de operações aritméticas extremamente simples, por exemplo, usando o número de canais representado pelo primeiro sinal de áudio e pelo segundo sinal de áudio como base de cálculo.

Em outra configuração preferida, o cálculo de pesos é feito na suposição de que cada canal original de áudio dos sinais de entrada contribui para a energia total de sinais com a mesma quantidade. Isto é, os pesos aplicados são simples relações entre os números de canais dos sinais de entrada e o número total de canais.

Em outra configuração preferida da presente invenção, os pesos dos canais down-mix individuais são calculados com base na energia contida nos canais down-mix, de maneira a permitir uma reprodução mais autêntica do canal down-mix combinado incluído no sinal de saída de áudio gerado.

Em outra configuração preferida da presente invenção, o esforço computacional é ainda reduzido, já que são alterados somente os parâmetros associados a um dos dois sinais de áudio. Isto é, os parâmetros do outro sinal de áudio são transmitidos inalterados, portanto, não precisando de computação e assim, minimizando a carga no gerador de sinais de áudio do invento.

Nos parágrafos a seguir, o conceito do invento será detalhado principalmente para um esquema de codificação que usa o joint source coding (JSC). Nesse sentido, a presente invenção estende esta tecnologia para a conexão de múltiplos transceptores monofônicos ou habilitados em JSC para estações remotas, misturando os sinais down-mix JSC e as informações de objeto dentro do domínio do parâmetro. Como mostraram as considerações acima, o conceito do invento não está restrito ao uso da codificação JSC, mas também pode ser implementado com a codificação BCC ou outros esquemas de codificações multicanais, como o MPEG spatial áudio coding (MPEG Surround) e similares.

Como o conceito do invento será detalhado principalmente usando a codificação JSC, a codificação JSC será revista brevemente nos parágrafos a seguir, de maneira a indicar mais claramente a flexibilidade do conceito do invento e as melhorias que podem ser obtidas em relação à técnica anterior, quando é aplicado o conceito do invento aos esquemas de codificações de áudio multicanais existentes.

Breve descrição dos desenhos

A Fig.l mostra um exemplo de um esquema de

codificação JSC;

A Fig. 2 mostra um exemplo de um apresentador

JSC;

A Fig. 3 mostra um cenário de teleconferência com duas localizações;

A Fig. 4 mostra um cenário de teleconferência com três localizações;

A Fig. 5 mostra um exemplo de teleconferência usando um gerador de sinais de áudio do invento;

A Fig. 6 mostra outro exemplo de teleconferência usando um gerador de sinais de áudio do invento; A Fig. 6b mostra a compatibilidade para trás do

conceito do invento; e

A Fig. 7 mostra um exemplo de um gerador de sinais de áudio do invento.

Para a explicação da codificação JSC, será feita referência a seguir às Figuras 1 e 2. Nas figuras seguintes, componentes funcionalmente idênticos compartilham as mesmas marcas de referência, indicando que componentes individuais que proporcionam a mesma funcionalidade podem ser intercambiados entre as configurações individuais da presente invenção sem perderem ou terem funcionalidade restrita, e sem limitar o escopo da presente invenção.

A Fig. 1 mostra um diagrama de blocos do joint source coding scheme, um codificador correspondente 2 um decodificador correspondente 4.

0 codificador 2 recebe entradas discretas de áudio Si (n) 6a, 6b, e 6c e cria um sinal down-mix s (n) 8, por exemplo, somando as formas de ondas.

Além disso, um extrator de parâmetros 10 dentro do codificador 2 extrai informações paramétricas auxiliares de cada objeto simples(sinal 6a, 6b, e 6c). Apesar de não ser mostrado na Fig. 1, o sinal down-mix 8 pode ainda ser comprimido por um codificador de fala ou de áudio, sendo transmitido com as informações paramétricas auxiliares adjacentes ao decodificador JSC 4. Um módulo de síntese 12 dentro do decodificador 4 regenera as estimativas 14a, 14b, e 14c (£,(») dos objetos de entrada

(canais 6a, 6b, e 6c) .

Para reconstruir as estimativas 14a, 14b, e 14c, sendo perceptualmente similares aos objetos discretos de entrada (canais de entrada) 6a, 6b, e 6c, devem ser extraídas as adequadas informações paramétricas auxiliares de cada canal. Como os canais individuais são somados para a geração do sinal down-mix 8, as taxas de potência entre os canais são essas quantidades adequadas. Portanto, as informações paramétricas dos diferentes objetos ou canais consistem de taxas de potência Δρ de cada objeto com relação ao primeiro objeto (objeto de referência).

Essas informações são obtidas no domínio de freqüência ou em bandas de freqüência não igualmente espaçadas (sub-bandas) correspondentes à resolução crítica de banda da percepção de audição humana. Este é um conceito descrito em mais detalhes, por exemplo, em: J. Blauert, "Spatial Hearing: The Psychophysics of Human Sound Localization", The MIT Press, Cambridge, MA, revised edition 1997.

Isto é, os canais de entrada de áudio de banda larga são filtrados em várias bandas de freqüências com larguras finitas de bandas e para cada uma das bandas _ individuais de freqüência, são feitos os seguintes cálculos. Como já mencionado, a potência de banda do primeiro objeto (objeto de referência ou canal de referência) atua como valor de referência.

Efo2O)!

Apl(H) = IOlog10 ) , i = 2...M Equação 1

Efo O) }

Para evitar outras introduções de problemas, por exemplo, introduzidos por uma divisão por zero, essas taxas de potência (em representação logarítmica) podem ainda estar limitadas a um máximo de, por exemplo, 2 4 dB em cada sub-banda. A taxa de potência pode ainda ser quantizada antes da apresentação, para uma maior economia de largura de banda de transmissão.

Não é necessário transmitir explicitamente a potência do primeiro objeto. Ao invés disso, este valor pode ser obtido a partir da suposição de que para objetos estatisticamente independentes, a soma das potências dos sinais sintetizados s^n) é igual à potência do sinal down-mix s(n). Em termos de expressão matemática, significa:

M

Efo20?)}=EEfo2O)} Equação 2

/=1

Com base nesta suposição e nesta equação, as potências de sub-banda do primeiro objeto (o objeto de referência ou o canal de referência) podem ser reconstruídas, como será mais bem descrito abaixo ao detalhar o conceito do invento.

Para resumir, um sinal de áudio ou fluxo de áudio de acordo com JSC, compreende um canal down-mix e os parâmetros associados, os parâmetros descrevendo taxas de potência dos canais originais com relação a um canal original de referência. Pode-se notar que este cenário pode facilmente ser alterado quando os outros canais selecionados são o canal de referência. Por exemplo, o próprio canal down-mix pode ser o canal de referência, exigindo a transmissão de outro parâmetro, relacionando a potência do primeiro, canal de referência inicial, com a potência do canal down-mix. Também, o canal de referência pode ser escolhido como variando, já que o canal que tem a maior potência é selecionado como sendo o canal de referência. Assim, como a potência nos canais individuais pode variar com o tempo, o canal de referência também pode variar com o tempo. Também, devido ao fato de que todo o processamento é feito tipicamente na forma seletiva de freqüência, o canal de referência pode ser diferente para diferentes bandas de freqüência.

A Fig. 2 mostra outro esquema ampliado de codificação JSC, com base no esquema da Fig. 1. As características detalhadas com relação à Fig. 1 estão anexadas na armazenagem ou na caixa de transmissão 20, recebendo os canais de entrada 6 para serem codificados e enviando estimativas 14 dos canais de entrada 6. O esquema da Fig. 2 é ampliado por ainda compreender um mixer 22 que recebe as estimativas. Isto é, os objetos sintetizados 14 não são enviados como simples sinais de áudio diretamente, mas apresentados a N canais de saída no módulo do mixer. Esse mixer pode ser implementado de diferentes formas, por exemplo, recebendo novos parâmetros de mixagem 24 como entrada, para conduzir a mixagem dos objetos sintetizados 14. Somente como exemplo, pode-se considerar um cenário de teleconferência, em cada um dos canais de saida 2 6 é atribuído a um participante da conferência. Portanto, um participante na ponta de recepção tem a possibilidade de virtualmente separar os demais participantes indicando suas vozes a posições individuais. Assim, não somente a voz pode servir como critério para distinguir entre diferentes participantes da conferência telefônica, como também a direção em que o ouvinte recebe a voz de um participante. Além disso, um ouvinte pode dispor do canal de saída de maneira que todos os participantes do mesmo local de teleconferência estejam agrupados na mesma direção, ampliando ainda mais a experiência perceptual.

Como mostrado na Fig. 2, sx(n)...sM(n)denota os objetos discretos de áudio na entrada do codificador JSC. Na saída do decodif icador JSC sx(n)..sM(n) representa os objetos de áudio ,virtualmente' separados que são enviados ao mixer. Os parâmetros de mixagem 24 podem ser interativamente modificados no lado do receptor para colocar os diferentes objetos em um estágio de som que é reproduzido pelos canais de saída xx(n)...xN(n) .

A Fig. 3 mostra a aplicação de esquemas de codificação de áudio multicanais a um cenário de teleconferência básico, ocorrendo entre duas localizações. Aqui, uma primeira localização 40 comunica-se com uma segunda localização 42. A primeira localização pode ter A participantes, isto é, A objetos de áudio, a segunda localização tem B participantes ou objetos de áudio. Para teleconferência ponto a ponto, a tecnologia descrita da codificação JSC pode ser aplicada para frente de maneira a transmitir sinais de áudio de múltiplos objetos em cada localização para a estação remota correspondente. Isto é, (A-I) parâmetros Si e um down-mix associado são transferidos para a localização 42. Na direção oposta, (B-I) parâmetros bi são transmitidos em conjunto com um down-mix associado para a localização 40.

Para teleconferência com mais que dois pontos

extremos, a situação é completamente diferente, como ilustrada na Fig. 4.

A Fig. 4 mostra, além das localizações 40 e 42 uma terceira localização 44. Como pode ser visto na Fig. 4, este cenário precisa de um distribuidor central para os sinais associados de áudio, geralmente chamados de multi point control unit, MCU. Cada uma das localizações (sites) 40, 42 e 44 está conectada ao MCU 46. Para cada site 40, 42 e 44, existe um único montante ao MCU que contém o sinal do site. Como cada site individual precisa receber os sinais dos demais sites, a jusante de cada site 40, 42 e 44 existe uma mistura dos sinais dos outros sites, excluindo o próprio sinal do site, que também é denominado como o sinal (N-I) . Em geral, para preencher as exigências da instalação e para manter a largura da banda de transmissão razoavelmente baixa, não é viável transmitir N-I fluxos codificados JSC a partir da MCU para cada site. Esta seria, é claro, uma opção para frente.

A abordagem do estado da arte para a obtenção dos down-streams individuais é a ressintetização de todos os fluxos de entrada (objetos) dentro da MCU 46 usando um decodificador JSC. Então, os objetos de áudio ressintetizados poderiam ser reagrupados e recodifiçados, de maneira a fornecer a cada site fluxos de áudio compreendendo os desejados objetos de áudio ou canais de áudio. Mesmo neste cenário simples, isto significaria três tarefas de decodificação e três de codificação, que devem ser feitas simultaneamente na MCU 46. Apesar das significativas demandas de computação, também podem ser esperados problemas audíveis com este processo paramétrico de "codificação em tandem" (codificação/decodificação repetidas). 0 aumento do número de sites aumentaria ainda mais o número de fluxos, e assim o número de processos de codificação ou de decodificação necessários, tornando nenhuma das abordagens para frente realizáveis em cenários de tempo real.

De acordo com a presente invenção, portanto, é desenvolvido um esquema para mixar diferentes fluxos parametricamente codificados (fluxos JSC neste exemplo em particular) diretamente dentro do down-mix e do domínio do parâmetro de objeto para este cenário tipo MCU, criando os desejados sinais de saída (fluxos de áudio de saída) com um mínimo de esforço computacional e de perda de qualidade.

Dentro dos parágrafos seguintes, é detalhado o conceito do invento de mixagem direta dos fluxos de áudio multicanais codificados parametricamente dentro do domínio do parâmetro para os fluxos de áudio com codificação JSC.

0 conceito do invento é explicado com a combinação de dois sinais originais de áudio (fluxos) em um sinal de saída. Unir três ou mais fluxos em um conjunto pode ser facilmente obtido a partir do caso da combinação de dois fluxos. As seguintes considerações matemáticas são ilustradas na Fig. 5, mostrando um caso em que três canais de áudio do site A devem ser combinados com quatro canais de áudio do site B. Isto é, claramente, somente um exemplo para a visualização do conceito do invento. Ao usar a codificação JSC, o site 50 (A) tendo três participantes de conferência (interlocutores) 52a a 52c gerando sinais SpiX, transmite um fluxo de áudio ou um sinal de áudio 54. 0 sinal de áudio 54 tem um canal down-mix sA e parâmetros a2 e a3, referentes à potência dos canais 52b e 52c com relação à potência do canal 52a. De forma equivalente, o site 56 (B) transmite um sinal de áudio 58 tendo um canal down-mix sB e três parâmetros b2, b3, e b4, sendo a representação codificada JSC de quatro interlocutores 60a a 60d. A MCU 46 combina os sinais de áudio 54 e 58 para obter o sinal de saida 62 tendo um canal down-mix combinado sY e 6 parâmetros Υ2,···,Υ7·

No lado de recepção, o receptor 64 decodifica o sinal de saida 62 para obter representações dos 7 objetos de áudio ou canais de áudio dos sites 50 e 56.

Em termos gerais, o objetivo é formar uma única representação combinada 62 de dois fluxos JSC 54 e 58, cada uma representando um número de objetos por um sinal comum down-mix sY e um conjunto de parâmetros objeto caracterizando os objetos. De forma ideal, a representação combinada JSC será idêntica à que seria obtida pela codificação de todo o conjunto de sinais fonte originais subjacente a ambos os fluxos JSC em um único fluxo JSC em uma etapa.

Para manter simples as equações a seguir, supomos que as taxas de potência relativas da Equação 1 não estão disponíveis no domínio logarítmico, mas somente as taxas de potência. Cada parâmetro objeto η(η) de um determinado objeto i pode ser obtido como rii.n)= ) Equaçao 3

Efo(O)

A transposição no domínio logaritmico pode ser posteriormente aplicada a cada parâmetro para permitir a quantização usando uma escala de potência logaritmica.

Supõe-se que todos os sinais abaixo sejam decompostos em uma representação de sub-banda e, portanto, cada cálculo é aplicado separadamente a cada sub-banda.

Temos o fluxo A com seu sinal down-mix sA e os parâmetros (taxas de potência relativas) para U objetos α2...αυ. O fluxo B consiste do sinal down-mix sB e dos parâmetros para V objetos b2..bv .

0 sinal down-mix combinado Sr pode ser formado como uma combinação linear de ambos os sinais down-mix sA e S8. Para garantir o correto nivelamento de volume das diferentes contribuições de objetos, podem ser aplicados os fatores de ganho gA e gB.

sy = Sa ' sa + Sb ' sb

U V

com Sa =-/ Sr --

A (iU+V) β (Í/+K)

Esse tipo de medição pode ser significativo se fontes sonoras simples de igual potência média tiverem sido somadas e normalizadas em toda a escala do caminho down-mix.

De forma alternativa, pode-se usar uma abordagem de preservação de potência para os fatores de ganho com

^ lJ(U+V)'ge \(U+V)

Outra possibilidade é escolher o fator de ganho de maneira que ambos os sinais down-mix contribuam com a mesma

energia média para o down-mix combinado, isto é, escolhendo

& =

Za íe{4(")}'

Os parâmetros de objeto yi do fluxo combinado representarão todos os objetos U + V.

Como os parâmetros associados aos canais down-mix

são taxas de potência relativas, os parâmetros a2,...,au podem ser usados no estado (inalterados) e os parâmetros dos objetos de B podem ser concatenados com os parâmetros a2,...,au. Uma vez sendo escolhido o objeto do sinal A como sendo o objeto de referência ou canal de referência, os parâmetros originais bi devem ser transformados para se relacionarem com aquele canal de referência. Pode ser notado que somente os parâmetros de um fluxo devem ser recalculados, reduzindo ainda mais a carga de computação dentro de uma MCU 46.

Pode ainda ser notado que não há necessidade de

usar o canal de referência de um dos fluxos de áudio originais como o novo canal de referência. 0 conceito do invento de combinar fluxos de áudio codificados parametricamente dentro do domínio do parâmetro pode também ser muito bem implementado com outros canais de referência, escolhidos a partir do número de canais originais de sites A ou B. Outra possibilidade seria usar o canal down-mix combinado como o novo canal de referência.

Seguindo esta abordagem de usar o canal de referência original do site A como o novo canal de referência (canal de referência combinado), a energia (potência) do primeiro objeto (canal) de cada sinal AeB deve ser calculada primeiro, já que estão somente implicitamente disponíveis.

A preservação de potência do sinal down-mix A, supondo-se fontes estatisticamente independentes, fornece:

1=1

As potências de sinal são

definidas por suas potências relativas a2...Ciu a E-^i (zj)):

Efo(zz)}=a2-Efo(zz)}

Efo(Zi)J=A3 -Efo(H)) Efo(")}=«£/-Efo(W)J

Isto leva à potência de S4i como:

E«j (n)\=-——--

1 1 (1 + a2 + α3 + ...+ αυ)

Aplicando-a ao sinal down-mix sB, podemos

calcular a potência do objeto sB como:

Etfwl-_e^w?

XBl 's (1 + b2 + b, + ...+ bv)

Agora podemos construir o novo conjunto de parâmetros para todos os objetos de sinal Sr:

yi: (não transmitido, objeto de referência, implicitamente disponível)

y2 = a 2

y3 = a3

yu = au yu+1— 2

2 Ε{4,(")}

'á E{*»}'

(taxa de potência do primeiro objeto de sinal B com relação ao objeto de referência Al)

2

a eK Kl·

SU + 2 — °2

Si E^1 (/!)}'

(taxa de potência do segundo objeto de sinal B renormalizado para a potência do objeto de referência Al)

v h Á

2 E{4,(«)}

_ L· &B_ _

SU + V ~ °V ' 2 ' c ( 2 / λ-)

SA (Ji))

Como já mostrado pelos parágrafos anteriores, o

conceito do invento permite a geração de um fluxo combinado de áudio usando somente operações aritméticas simples sendo, portanto, de extrema eficiência computacional. Assim, a combinação de múltiplos fluxos de áudio codificados parametricamente pode ser

feita em tempo real.

Para melhor enfatizar a grande flexibilidade do

conceito do invento, a Fig. 6 mostra como um sinal monofônico 70, emitido por um único alto-falante no site 56 pode ser combinado, de acordo com o invento, a dois ou mais sinais codificados JSC de alto-falantes no site 50. Isto é, devido à flexibilidade do conceito do invento, sinais monofônicos de sistemas arbitrários de teleconferência podem ser combinados, de acordo com o invento, com fontes (muiti-objetos) multicanais codificadas parametricamente para gerarem um sinal de áudio com codificação JSC representando todos os canais originais de áudio (objetos).

Ampliando a compatibilidade também para estações remotas que não podem transmitir objetos JSC, mas sinais monofônicos tradicionais, esta técnica é também aplicável para inserir um objeto monofônico, por exemplo, a partir de um dispositivo legado de conferência no fluxo baseado no objeto.

O exemplo acima com o fluxo JSC A (down-mix Sa , parâmetros α2...αυ) e um objeto monofônico C (down-mix Sc) leva a um sinal combinado Z com o sinal down-mix

sz = Sa ' sa + Sc ' sc

Com os fatores de ganho discutidos anteriormente e seus parâmetros de objetos:

: não transmitido (canal de referência, implicitamente disponível)

y2 = a2

y3 = a3

yu = au v é.

(taxa de potência de sinal C com relação ao objeto de referência Al)

O exemplo supramencionado de transcodificação / fusão de dois fluxos JSC depende da representação da potência dos objetos como dados na Equação 1. Não obstante, o mesmo esquema de invento pode ser também aplicado a outras formas de representação dessas informações.

A Fig. 6b enfatiza novamente a grande flexibilidade do conceito do invento que incorpora uma fonte monofônica de áudio. A Fig. 6b se baseia no cenário multicanais da Fig. 4, mostrando também a facilidade com que um codificador monofônico de áudio da técnica anterior na fonte de áudio C (44) pode ser integrado em uma conferência de áudio multicanais usando a MCU 4 6 do invento.

invento não se restringe à codificação JSC, tendo um canal de referência fixo predeterminado. Portanto, em um exemplo alternativo, a taxa de potência pode ser computada com relação a um canal de referência, que varia com o tempo, o canal de referência sendo o canal de maior energia dentro de um dado intervalo predeterminado de tempo.

sinal em banda com a potência da banda correspondente de um canal de referência fixo (objeto) e transpor o resultado para o domínio logaritmico (dB) como definido pela Equação 1, a normalização pode ocorrer relativa à potência máxima em todos os objetos de uma determinada banda de freqüência:

dados em uma representação linear) não precisam de nenhuma outra limitação até um determinado limite superior já que, de forma inata, podem somente ter valores entre 0 e 1. Essa vantagem traz a desvantagem de ter que transmitir outro parâmetro para o canal de referência não mais conhecido previamente.

Como mencionado anteriormente, o conceito do

Ao invés de normalizar os valores de potência do

Equação 4

20

Esses valores normalizados de potência (que são

0 processo de mixagem desse cenário incluiria as seguintes etapas (que, novamente, devem ser realizadas para cada sub-banda, separadamente):

Temos o fluxo A com seu sinal down-mix sA e dos parâmetros (valores de potência normalizada, Equação 3, Equação 1) para U objetos αν..αυ.

0 fluxo B consiste do sinal down-mix sB e dos parâmetros para V objetos br.i)v .

Pode ser formado um sinal down-mix combinado de acordo com uma das opções já mostradas:

Sy =gA-Sa+Sb- sB

Todos os valores de potência normalizada da representação combinada y, devem ser colocados em relação ao objeto com a maior potência entre todos os objetos de sinal Y. Existem dois candidatos para serem este 'objeto máximo' de Y, seja o objeto máximo de A ou o objeto máximo de B, ambos podendo ser identificados como tendo uma taxa de potência normalizada de Λ1'.

Essa decisão pode ser tomada comparando a potência absoluta de ambos os candidatos. Novamente, podemos usar a relação com a potência dos sinais down-mix (Equação 2) para obter:

AA AA

i=\ · "/= ι

Agora, podemos comparar as potências máximas de objeto pesadas com os fatores de ganho do processo down-mix:

Seja qual for a maior potência de objeto, este objeto servirá como 'objeto máximo' para os parâmetros combinados y,-

Como exemplo, seja a2 o objeto de potência máxima geral amax de ambos os sinais AeB, então todos os demais parâmetros podem ser combinados como:

yx=ax

y2 = a2

yu = au

v ,gl EfrLa»}

SU+1 2 ' c ( 2 / O '

Sa eI^.....M)\

(taxa de potência do primeiro objeto de sinal B

com relação ao ^objeto máximo', aqui a2)

SU +2 ~ °2 ' 2 ' ~ ( 2 / O

SA E^max(Zi)I

v h ÍÍ^ÇM

SU+ V - uV ' 2 ' „ ( 2 / n")

Sa EK>)}

Para esse exemplo, todos os parâmetros dos objetos de A podem permanecer inalterados, já que o sinal A transporta o objeto máximo geral. Também nesta representação, pode ser feita

consequentemente a inserção de um objeto monofônico, por exemplo, supondo V=I.

Em geral, o processo de transcodificação é feito de maneira que seu resultado aborde o resultado que seria obtido se todos os objetos originais de ambos os fluxos tivessem inicialmente sido codificados em um único fluxo JSC. A Fig. 7 mostra um exemplo de um gerador de sinais de áudio do invento para a geração de um sinal de áudio de saida, que pode ser usado dentro da MCU 46 para implementar o conceito do invento.

0 gerador de sinais de áudio 100 compreende um receptor de sinais de áudio 102, um combinador de canais 104, um calculador de parâmetros 106 e uma interface de saida 108.

O receptor de sinais de áudio 102 recebe um primeiro sinal de áudio 110, compreendendo um primeiro canal down- mix 110a tendo informações sobre dois ou mais primeiros canais originais e compreendendo um parâmetro original 110b associado a um dos primeiros canais originais, descrevendo uma propriedade de um dos primeiros canais originais com relação a um canal de referência. O receptor de sinais de áudio 102 ainda recebe um segundo sinal de áudio 112 compreendendo um segundo canal down- mix 112a tendo informações sobre pelo menos um segundo canal original.

O receptor de sinais de áudio envia o primeiro canal down-mix 110a e o segundo canal down-mix 112a para uma entrada do combinador de canais 104 e do primeiro canal down- mix 110a, o segundo canal down-mix 112a e o parâmetro original 110b para o calculador de parâmetros 106.

O combinador de canais 104 recebe um canal down- mix combinado 114 combinando o primeiro canal down-mix 110a com um segundo canal down-mix 112b, isto é, combinando os canais down-mix diretamente sem reconstruir os canais originais de áudio subj acentes.

O calculador de parâmetros 106 recebe um primeiro parâmetro combinado 116a descrevendo as propriedades de um dos primeiros canais originais com relação a um canal comum de referência e um segundo parâmetro combinado 116b descrevendo as propriedades de outro dos primeiros canais originais ou do pelo menos um segundo canal original com relação ao mesmo canal comum de referência. O primeiro e o segundo parâmetros combinados são enviados à interface de saída 108, que ainda recebe o canal down- mix combinado 114 do combinador de canais 104. Finalmente, a interface de saída envia um sinal de saída 120 compreendendo o canal down-mix combinado 114 e o primeiro e o segundo parâmetros combinados 116a e 116b.

O sinal de áudio de saída foi assim recebido sem a total reconstrução dos sinais de entrada de áudio e, portanto, sem operações custosas de computador. Dentro dos parágrafos acima, foi demonstrado o

conceito geral de mixagem de dois ou mais sinais, cada qual baseado em uma abordagem paramétrica JSC. Em particular, as equações acima mostram como aplicar essa técnica para um caso, onde as informações paramétricas consistem de taxas relativas de potência. Não obstante, essa técnica não está restrita a uma representação específica de parâmetros de objetos. Portanto, também podem ser usados os parâmetros que descrevem amplitude, medidas ou outras propriedades dos canais individuais de áudio, como correlações. As taxas de potência também podem ser computadas 2 5 com relação a um canal down-mix combinado, com os custo de transmissão de outro parâmetro. Por um lado, existe o benefício neste cenário alternativo de reduzida complexidade de computação durante a mixagem dos fluxos de áudio, já que a reconstrução da potência do canal de referência, que não é explicitamente transmitido em JSC "genérico", é obsoleta.

Além disso, a invenção não é limitada a um cenário de teleconferência, podendo ser aplicada sempre que for desejada a multiplexação de objetos paramétricos e um fluxo único. Este pode ser, por exemplo, o caso dentro de esquemas de codificação BCC, MPEG spatial surround e outros.

Como demonstrado, o conceito do invento até permite a inclusão sem costuras de estações legacy remotas proporcionando um único sinal monofônico no cenário baseado no objeto. Além da combinação de diferentes fluxos de objetos, o conceito do invento também mostra como caminhos diferentes de representação de dados paramétricos podem ser gerados, de maneira que sejam adequados para permitir processos de combinação computacionalmente eficientes. Assim, é uma característica vantajosa de uma sintaxe de fluxo paramétrico de bits do invento expressar as propriedades de objeto de maneira que dois fluxos possam ser combinados por meio de operações muito simples.

Portanto, o conceito do invento também ensina como criar fluxos adequados de bits ou formatos de fluxos de bits para codificar parametricamente múltiplos canais originais de áudio (objetos de áudio), observando-se os seguintes critérios:

• O sinal down-mix combinado é formado simplesmente a partir dos sinais down-mix parciais. · As informações paramétricas auxiliares

combinadas são formadas a partir da combinação de informações paramétricas auxiliares individuais e de algumas simples para a computação das características dos sinais down-mix (por exemplo, energia).

• Em nenhum caso, é necessária a realização de uma operação complexa, como uma etapa de decodificação / recodificação para os objetos de áudio.

Portanto, a representação paramétrica descrevendo

os objetos deve ser escolhida de maneira que uma combinação ("adição") de dois ou mais fluxos de objetos seja possível usando somente campos de fluxos de bits disponíveis como parte das informações paramétricas auxiliares, e possivelmente de simples computação da métrica dos sinais down-mix (por exemplo, energia, valor de pico).

Um exemplo desta representação poderia usar valores de potência normalizada (Equação 4) para cada objeto. Estes podem ser transformados em representação logarítmica (dB) e então quantizados em determinados números de etapas quantizadoras ou seus índices quantizadores representativos. A sintaxe do fluxo de bits deve permitir o fácil aumento (ou redução) do número de parâmetros de objetos em um fluxo, por exemplo, pela simples concatenação, inserção ou remoção de parâmetros. 2 0 Em resumo, o conceito do invento permite uma

combinação de fluxos de áudio codificados parametricamente mais flexível e computacionalmente eficiente. Devido à alta eficiência computacional, o conceito do invento não se restringe a um número máximo de canais a ser combinado. Principalmente, os canais que 2 5 podem ser combinados em tempo real, podem ser fornecidos a um gerador de sinais de áudio do invento em números arbitrários. Também, não é obrigatória a exata representação paramétrica (JSC) usada para ilustrar o conceito do invento. Além disso, como já mencionado, outros esquemas de codificação paramétrica, como os conhecidos esquemas surround, podem ser a base para a aplicação e o conceito do invento.

Além disso, as computações necessárias não necessariamente devem ser aplicadas em software. Também podem ser usadas implementações em hardware usando, por exemplo, DSPs, ASICs, e outros circuitos integrados para fazer os cálculos, que aumentarão ainda mais a velocidade do conceito do invento, permitindo a aplicação do conceito do invento em cenários de tempo real.

Devido à flexibilidade do conceito do invento, os fluxos de áudio do invento podem se basear em diferentes representações paramétricas. Os parâmetros a serem transmitidos também podem, por exemplo, ser medidas de amplitude, de diferenças de tempos entre canais originais de áudio, medidas de coerência e outras.

Assim, foi demonstrado o conceito geral de mixagem de dois ou mais sinais, cada qual baseado em uma abordagem paramétrica do estilo JSC.

As equações acima mostram como aplicar essa técnica para um caso, em que as informações paramétricas consistem de taxas relativas de potência. Entretanto, essa técnica não se restringe a uma representação especifica de parâmetros de objetos.

Além disso, a invenção não se limita a um cenário de teleconferências, podendo ser aplicada a qualquer caso, em que seja vantajosa a multiplexação de objetos paramétricos em um único fluxo JSC.

Além disso, essa técnica permite a inclusão sem costuras de estações remotas legacy proporcionando um único sinal monofônico no cenário baseado em objeto.

Além do processo real de combinação de diferentes fluxos de objetos, a invenção também mostra como formas diferentes de representação de dados paramétricos são adequadas para habilitar este processo de combinação. Já que nem todas as possíveis representações paramétricas admitem o processo de combinação descrito sem a completa decodificação / recodificação dos objetos, trata-se de uma característica vantajosa de uma sintaxe de fluxo de bits paramétricos expressar as propriedades dos objetos de maneira que dois fluxos possam ser combinados, com a realização de simples operações.

Dependendo de determinadas exigências de implementação dos métodos do · invento, estes podem ser implementados em hardware ou em software. A implementação pode ser feita usando um meio de armazenagem digital, em particular um disco, DVD ou um CD dotado de sinais de controle de leitura eletrônica armazenados, que cooperam com um sistema de computador programável, para que os métodos do invento sejam realizados. Portanto, em geral, a presente invenção é um produto de programa de computador com um código de programa armazenado em um veículo com leitura por máquina, o código de programa sendo operacional para a realização dos métodos do invento quando o produto de programa de computador opera em um computador. Em outras palavras, os métodos do invento são, portanto, um programa de computador tendo um código de programa para a realização de pelo menos um dos métodos da invenção quando o programa de computador opera em um computador. Apesar de o exposto ter sido mostrado e descrito em particular com referência a determinadas configurações, será compreendido pelos técnicos no assunto que várias outras alterações de forma e detalhes podem ser feitas sem abandonar seu escopo. Fica entendido que várias alterações podem ser feitas na adaptação a diferentes configurações, sem abandonar os conceitos mais amplos revelados na presente e contidos pelas reivindicações a seguir.

Claims

1. Gerador de sinal de áudio (100) para gerar um sinal de saída de áudio, caracterizado por compreender: um receptor de sinal de áudio (102) para receber: um primeiro sinal de áudio (110) compreendendo um primeiro canal down-mix (110a) tendo informações sobre dois ou mais primeiros canais originais, e compreendendo pelo menos um parâmetro original (110b) associado a um dos primeiros canais originais que descreve uma propriedade de um dos primeiros canais 10 um segundo sinal de áudio (112) compreendendo um segundo canal down-mix (112a) tendo informações sobre pelo menos um segundo canal original; um combinador de canal (104) para derivar um canal down-mix combinado (114) pela combinação do primeiro canal down-mix (110a) e do segundo canal down-mix (112a); um calculador de parâmetro (106) para derivar um primeiro parâmetro combinado (116a) que descreve a propriedade de um dos primeiros canais originais em relação a um canal de referência comum, e um segundo parâmetro combinado (116b) que descreve a propriedade do outro primeiro canal original ou de pelo menos um segundo canal original em relação ao canal de referência comum; e uma interface de saída para emitir o sinal de saída de áudio (120) compreendendo o canal down-mix combinado (114), o primeiro (116a) e o segundo parâmetros combinados (116b).

2. Gerador de sinal de áudio (100), de acordo com a reivindicação 1, caracterizado pelo fato de que o combinador de canal (104) funciona para derivar o canal down-mix combinado (114) utilizando uma combinação linear do primeiro (110a) e do segundo canal down-mix (110b).

3. Gerador de sinal de áudio (100), de acordo com a reivindicação 2, caracterizado pelo fato de que o combinador de canal (104) funciona para utilizar uma combinação linear tendo coeficientes que dependem da energia E(sA2(n)) dentro do primeiro canal down-mix (110a) e da energia E(sB2(n)) dentro do segundo canal down-mix (112a).

4. Gerador de sinal de áudio (100), de acordo com a reivindicação 3, caracterizado pelo fato de que o combinador de canal (104) funciona para utilizar um combinação linear tendo um coeficiente gA para o primeiro canal down-mix e um coeficiente gB para o segundo canal down-mix derivado utilizando a seguinte equação: <formula>formula see original document page 38</formula>

5. Gerador de sinal de áudio (100), de acordo com a reivindicação 2, caracterizado pelo fato de que o combinador de canal (104) funciona para utilizar um combinação linear tendo coeficientes que dependem do número U dos primeiros canais originais e do número V dos segundos canais originais.

6. Gerador de sinal de áudio (100), de acordo com a reivindicação 5, caracterizado pelo fato de que o combinador de canal (104) funciona para utilizar um combinação linear tendo um coeficiente gA do primeiro canal down-mix (110a) e um coeficiente gB do segundo canal down-mix (112a) derivado de acordo com uma das seguintes equações: <formula>formula see original document page 39</formula>

7. Gerador de sinal de áudio (100), de acordo com as reivindicações de 1 a 6, caracterizado pelo fato de que o calculador de parâmetro (106) funciona para utilizar um canal predeterminado dos primeiros canais originais ou pelo menos um segundo canal original como canal de referência comum.

8. Gerador de sinal de áudio (100), de acordo com as reivindicações de 1 a 6, caracterizado pelo fato de que o calculador de parâmetro (106) funciona para utilizar o canal de referência do primeiro sinal de áudio (110) como o canal de referência comum.

9. Gerador de sinal de áudio (100), de acordo com as reivindicações de 1 a 6, caracterizado pelo fato de que o calculador de parâmetro (106) funciona para utilizar o canal down- mix combinado (114) como o canal de referência comum.

10. Gerador de sinal de áudio (100), de acordo com as reivindicações de 1 a 6, caracterizado pelo fato de que o calculador de parâmetro (106) funciona para utilizar o canal original como o canal de referência comum que possui a maior energia.

11. Gerador de sinal de áudio (100), de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o calculador de parâmetro (106) funciona para calcular a energia E{sAref} do canal de referência pela derivação da energia E{sa2} do primeiro canal down-mix (IlOa) e dos parâmetros ai{i = l,...,n} associados a canais que não o canal de referência de acordo com a equação: com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o calculador de parâmetro (106) funciona para utilizar o canal de referência como o canal de referência comum e o parâmetro original a2 como o primeiro parâmetro combinado yu e para derivar o segundo parâmetro combinado yu+i para pelo menos um segundo canal original em relação ao canal de referência. com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o calculador de- parâmetro (106) funciona para derivar os parâmetros combinados utilizando a energia E{sA2(n)} do primeiro canal down-mix (110a) e a energia E{sB2(n)} do segundo canal down- mix (112b). com a reivindicação 13, caracterizado pelo fato de que o calculador de parâmetro (106) funciona para ainda utilizar coeficientes gA associados ao primeiro canal down-mix (110a) e gB associado ao segundo canal down-mix (112a), os coeficientes utilizados para a combinação linear do primeiro e segundo down-mix utilizado pelo combinador de canal (104). com a reivindicação 14, caracterizado pelo fato de que o calculador de parâmetro (106) funciona para calcular o segundo

12. Gerador de sinal de áudio (100), de acordo

13. Gerador de sinal de áudio (100), de acordo

14. Gerador de sinal de áudio (100), de acordo

15. Gerador de sinal de áudio (100), de acordo parâmetro combinado yu+i para pelo menos um segundo canal original de acordo com a seguinte equação: <formula>formula see original document page 41</formula> onde e{^(?7)} é a energia do canal de referência derivado utilizando a energia do primeiro canal down-mix de acordo com a seguinte fórmula: ÍA ] (l + a2) onde a2 é o parâmetro original que relaciona um primeiro canal original ao canal de referência.

16. Gerador de sinal de áudio (100), de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o calculador de parâmetro (106) funciona para processar porções de freqüência do primeiro e segundo canais down- mix associados a intervalos de freqüência discretos, de modo que os parâmetros combinados sejam derivados para cada intervalo de freqüência discreto.

17. Gerador de sinal de áudio (100), de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o receptor de sinal de áudio funciona para receber sinais de áudio (110, 112) compreendendo canais down-mix (110a, 112a) representados por parâmetros de amostragem amostrados com uma freqüência de amostra predeterminada.

18. Método de geração de um sinal de saida de áudio, o método caracterizado por compreender: recepção de um primeiro sinal de áudio (110) compreendendo um primeiro canal down-mix (110a) tendo informações sobre dois ou mais primeiros canais originais, e compreendendo pelo menos um parâmetro original (IlOb) associado a um dos primeiros canais originais que descreve uma propriedade de um dos primeiros canais originais em relação a um canal de referência e um segundo sinal de áudio (112) compreendendo um segundo canal down-mix (112a) tendo informações sobre pelo menos um segundo canal original; derivação de um canal down-mix combinado (114) pela combinação do primeiro canal down-mix (110) e do segundo canal down-mix (112); derivação de um primeiro parâmetro combinado (116a) que descreve a propriedade de um dos primeiros canais originais em relação a um canal de referência comum e um segundo parâmetro combinado (116b) que descreve a propriedade do outro primeiro canal original ou de pelo menos um segundo canal original em relação a um canal de referência comum; e emissão do sinal de saida de áudio (120) compreendendo o canal down-mix combinado (114) e o primeiro (116a) e segundo (116b) parâmetros combinados.

19. Representação de três ou mais canais de áudio (120), caracterizada por compreender: um canal down-mix combinado (114) sendo uma combinação de um primeiro canal down-mix tendo informações sobre pelo menos dois primeiros canais originais e um segundo canal down-mix tendo informações sobre pelo menos um segundo canal original; um primeiro parâmetro (116a) que descreve uma propriedade de pelo menos um dos dois primeiros canais originais em relação a um canal de referência; e um segundo parâmetro (116b) que descreve a propriedade do outro canal dos primeiros canais originais ou a propriedade de pelo menos um segundo canal original em relação ao canal de referência.

20. Sistema de conferência de acordo com a reivindicação 1, caracterizado por compreender um gerador de sinal de áudio (100) para gerar um sinal de saida de áudio.

21. Programa de computador para que, quando executado em um computador, implemente um método para gerar um sinal de saida de áudio, sendo o método caracterizado por compreender: recepção de um primeiro sinal de áudio compreendendo um primeiro canal down-mix tendo informações sobre dois ou mais primeiros canais originais, e compreendendo pelo menos um parâmetro original associado a um dos primeiros canais originais que descreve uma propriedade de um dos primeiros canais originais em relação a um canal de referência e um segundo sinal de áudio compreendendo um segundo canal down-mix tendo informações sobre pelo menos um segundo canal original; derivação de um canal down-mix combinado pela combinação do primeiro canal down-mix e do segundo canal down-mix; derivação de um primeiro parâmetro combinado que descreve a propriedade de um dos primeiros canais originais em relação a um canal de referência comum e um segundo parâmetro combinado que descreve a propriedade do outro primeiro canal original ou de pelo menos um segundo canal original em relação a um canal de referência comum; e emissão do sinal de saida de áudio compreendendo o canal down-mix combinado e o primeiro e segundo parâmetros combinados.

22. Representação paramétrica, caracterizada por utilizar um parâmetro que descreve a propriedade de sinal de um canal de um sinal multicanais em relação a um canal de referência, o canal de referência sendo outro canal do sinal multicanais ou um down-mix do sinal multicanais, o parâmetro tendo um valor proveniente de uma faixa de valores de parâmetro, a representação paramétrica sendo tal que um parâmetro alternativo que descreve a propriedade de um sinal em relação a um canal de referência alternativo possa ser derivado utilizando-se somente informações sobre o down-mix, o parâmetro e um parâmetro correspondente do canal de referência alternativo, de modo que o parâmetro alternativo tenha um valor proveniente da faixa de valores de parâmetro.

23. Representação paramétrica, de acordo com a reivindicação 22, caracterizada pelo fato de que a propriedade do sinal é uma energia ou uma medida de amplitude.

24. Representação paramétrica, de acordo com as reivindicações 22 ou 23, caracterizada pelo fato de que o parâmetro descreve a propriedade do sinal para um intervalo de freqüência com largura finita do canal.