BRPI0809760B1

BRPI0809760B1 - aparelho e método para sintetizar um sinal de saída

Info

Publication number: BRPI0809760B1
Application number: BRPI0809760-7A
Authority: BR
Inventors: Jonas Engdegard; Lars Villemors; Heiko Purnhagen; Resch Barbara; Cornelia FALCH; Herre Juergen; Hilpert Johannes; Andreas Hoelzer; Leonid Terentiev
Original assignee: Dolby International Ab; Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date: 2007-04-26
Filing date: 2008-04-23
Publication date: 2020-12-01
Also published as: MX2009011405A; EP2137725A1; BRPI0809760A2; US8515759B2; AU2008243406B2; CN101809654B; CN101809654A; RU2439719C2; US20100094631A1; AU2008243406A1; MY148040A; KR20120048045A; KR20100003352A; KR101175592B1; PL2137725T3; KR101312470B1; WO2008131903A1; TW200910328A; RU2009141391A; TWI372385B

Abstract

A presente invenção resolve o problema da combinação ideal de matrizamento com decorrelação na reprodução de cenas de estéreo de alta qualidade de vários objetos individuais de áudio usando um downmix multicanais e outros dados de controle que descrevem os objetos.

Description

Especificação

A presente invenção se refere à sintetização de um sinal de saida processado, tal como um sinal de saida estéreo ou um sinal de saida tendo mais sinais de canal de áudio baseados em um downmix de canais múltiplos disponíveis e dados de controle adicionais. Especificamente, o downmix de multicanal é um downmix de uma pluralidade de sinais de objeto de áudio.

Desenvolvimento recente em áudio facilita a recriação de uma representação de multicanais de um sinal de áudio baseado em um sinal estéreo (ou mono) e em dados de controle correspondentes. Estesmétodos de codificação "surround" paramétrica usualmentecompreendem uma parametrização. Um decodificador de áudio de multicanal paramétrico (por exemplo, o decodificador MPEG Surround definido na ISO/IEC 23003-1 [1], [2]), reconstrói M canais baseados em canais K transmitidos, onde M > K, por meio do uso dos dados de controle adicionais. Os dados de controle consistem de uma parametrização do sinal de multicanal em IID (Inter-channel Intensity Difference) e ICC (Inter-Channel Coherence). Estes parâmetros são normalmente extraídos no estágio de codificação e descrevem proporção de energia e correlação entre pares de canal usados no processo de upmix. Usar este esquema de codificação permite a codificação em uma taxa de dados significativamente menor que a transmissão de todos os canais M, tornando a codificação muito eficiente, enquanto simultaneamente garantindo compatibilidade com ambos os dispositivos de canal K e dispositivos de canal M.

Um sistema de codificação muito relacionado é o codificador de objeto de áudio correspondente [3], [4] onde vários objetos de áudio são passados por downmix no codificador e posteriormente passam por upmix, guiados por dados de controle. 0 5 processo de upmix pode também ser visto como uma separação dos objetos que são mixados no downmix. 0 sinal de upmix resultante pode ser processado em um ou mais canais de reprodução. Mais precisamente, [3, 4] apresentam um método para sintetizar canais de áudio de um downmix (referido como sinal de soma), informação 10 estatística sobre os objetos fonte, e dados que descrevem o formato de saida desejado. No caso de vários sinais de downmix serem usados, estes sinais de downmix consistem de diferentes subconjuntos dos objetos, e o upmix é executado para cada canal de downmix individualmente.

No caso de um downmix de objeto estéreo e processamento de objeto para estéreo, ou geração de um sinal estéreo adequado para processamento adicional, por exemplo, por um decodificador MPEG surround, é sabido no estado da técnica que uma vantagem significativa no desempenho é atingida por processamento <r conjunto dos dois canais com um esquema de matriz dependente de tempo e frequência. Fora do escopo de codificação de objeto de áudio, uma técnica relacionada é aplicada para parcialmente transformar um sinal de áudio estéreo em um outro sinal de áudio estéreo no WO2006/103584. É também bem conhecido que para um 25 sistema de codificação de objeto de áudio geral é necessário introduzir a adição deum processo de descorrelação ao processamento, de modo a reproduzir perceptualmente a cena de referência desejada. Entretanto, não existe descrição no estado da técnica de uma combinação otimizada conjunta de matriz e descorrelação. Uma combinação simples dos métodos do estado da técnica conduz tanto a uso ineficiente e inflexivel das capacidades oferecidas por um downmix de objeto de multicanal quanto à qualidade de imagem estéreo ruim nos processamentos de decodificador de objeto resultantes.

Referências: [1]L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, e K. Kjõrling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding," na "28th International AES Conference, The Future of Audio Technology Surround and Beyond", Piteâ, Suécia, 30 de Junho a 2 de Julho de 2006. [2]J. Breebaart, J. Herre, L. Villemoes, C. Jin, , K. Kjõrling, J. Plogsties, e J. Koppens, "Multi-Channels goes Mobile: MPEG Surround Binaural Rendering," na "29th International AES Conference, Audio for Mobile and Handheld Devices", Seoul, 2 a 4 de setembro de 2006. [3]C. Faller, "Parametric Joint-Coding of Audio Sources," Documento da Convenção 6752 apresentado na "120th AES Convention", Paris, França, 20 a 23 de maio de 2006. [4]C. Faller, "Parametric Joint-Coding of Audio Sources," Pedido de Patente PCT/EP2006/050904, 2006.

É objetivo de a presente invenção prover um conceito melhorado para sintetização de um sinal de saida processado.

Este objetivo é atingido por um aparelho para reivindicação 1, um método de sintetização de um sinal de saida processado de acordo com a reivindicação 27 ou um programa de computador de acordo com a reivindicação 28.

A presente invenção provê uma sintese de um sinalde saida processado tendo dois sinais de canal de áudio (estéreo) ou mais que dois sinais de canal de áudio. No caso de muitos objetos de áudio, um número de sinais de canal de áudio sintetizados é, entretanto, menor que o número de objetos de áudio originais. Entretanto, quando o número de objetos de áudio é 10 pequeno (por exemplo, 2) ou o número de canais de saida é 2, 3 ou mesmo maior, o número de canais de saida de áudio pode ser maior que o número de objetos. A sintese do sinal de saida processado é feita sem uma operação de decodificação de objeto de áudio completa nos objetos de áudio decodificados e um processamento 15 alvo subsequente dosobjetosdeáudio sintetizados.Ao invés disso, um cálculo dossinaisdesaidaprocessados éfeitono dominio de parâmetro com base na informação de downmix, na informação de processamento alvoe nainformação deobjetode áudio que descreve osobjetosdeáudiotais como informaçãode energia e informação de correlação. Dessa maneira, o número de descorrelacionadoresque contribuemgrandementepara a complexidade de implementação de um aparelho de sintetização pode ser reduzido para ser menor que o número de canais de saida e, ainda, substancialmente menor que o número de objetos de áudio.

Especificamente, sintetizadores com apenas um descorrelacionador único ou com dois descorrelacionadores podem ser implementados para sintese de áudio de alta qualidade. Além disso, devido ao fato de que uma decodif icação de objeto de áudio completa e um processamento alvo subsequente não devem ser conduzidos, recursos de memória e computacionais podem ser economizados. Além disso, cada operação introduz artefatos potenciais. Portanto, o cálculo de acordo com a presente invenção é preferivelmente efetuado apenas no domínio de parâmetro, de modo que apenas sinais de áudio que não são providos nos parâmetros, mas que são providos como, por exemplo, sinais de domínio de tempo ou domínio de sub-banda são os pelo menos dois sinais de downmix de objeto. Durante a síntese de áudio, eles são introduzidos no descorrelacionador tanto em uma forma de downmix quando um descorrelacionador único é usado quanto em uma forma mista, quando um descorrelacionador para cada canal é usado. Outras operações efetuadas no domínio de tempo ou domínio de banco de filtro ou sinais de canais mixados são apenas combinações pesadas tal como adições pesadas ou subtrações pesadas, isto é, operações lineares. Dessa maneira, a introdução de artefatos devido a uma operação de decodificação de objeto de áudio completa e uma operação de processamento alvo subsequente, é evitada.

Preferivelmente, a informação de objeto de áudio é provida como uma informação de energia e informação de correlação, por exemplo, na forma de uma matriz de covariância de objeto. Além disso, é preferido que esta matriz esteja disponível pra cada sub-banda e cada bloco de tempo, de modo que exista um mapa de f reqüência-tempo, onde cada entrada de mapa inclui uma matriz de covariância de objeto de áudio descrevendo a energia dos respectivos objetos de áudio nesta sub-banda e a correlação entre respectivos pares de objetos de áudio na sub-banda correspondente.

Naturalmente, esta informação está relacionada a certo bloco de tempo ou quadro de tempo ou porção de tempo de um sinal de subbanda ou de um sinal de áudio.

Preferivelmente, a sintese de áudio é executada em um sinal de saida estéreo processado tendo um primeiro sinal de canal ou sinal de canal esquerdo de áudio e um segundo sinal de canal de áudio ou sinal de canal de áudio direito. Dessa maneira, é possivel abordar uma aplicação de codificação de objeto de áudio, na qual o processamento dos objetos em estéreo é tão próximo quanto possivel do processamento estéreo de referência.

Em muitas aplicações de codificação de objeto de áudio é de grande importância que o processamento dos objetos em estéreo seja tão próximo quanto possivel do processamento estéreo de referência. Atingir uma alta qualidade do processamento de estéreo, como uma aproximação do processamento de estéreo de referência, é importante tanto em termos de qualidade de áudio para o caso onde o processamento de estéreo é a saida final do decodificador de objeto, quanto no caso onde o sinal estéreo deve ser alimentado a um dispositivo subsequente, tal como um decodificador MPEG Surround operando no modo de downmix estéreo.

A presente invenção provê uma combinação otimizada conjunta de método de execução de matriz e descorrelação que permite que um decodificador de objeto de áudio explore o potencial total de um esquema de codificação de objeto de áudio usando um downmix de objeto com mais que um canal.

As configurações da presente invenção compreendem as características a seguir: - decodificador de objeto de áudio para processamento de uma pluralidade de objetos de áudio individuais usando um downmix de multicanais, dados de controle descrevendo os objetos, dados de controle descrevendo o downmix, e informação de processamento, compreendendo um processador de estéreo compreendendo uma unidade de matriz aumentada, operacional em combinação linear dos canais de downmix de multicanais em um sinal de mixagem original e um sinal de entrada de descorrelacionador e subsequentemente alimentando o sinal de entrada do descorrelacionador em uma unidade de descorrelacionador, o sinal de saida do qual é linearmente combinado em um sinal que, mediante adição em âmbito de canal com o sinal de mixagem original, constitui a saida estéreo da unidade de matriz aumentada; ou um calculador de matriz para computar os pesos para combinação linear usados pela unidade de matriz aumentada, com base nos dados de controle descrevendo os objetos, nos dados de controle descrevendo o downmix e na informação de processamento de estéreo.

A presente invenção será, agora, descrita por meio de exemplos ilustrativos, não limitativos ao escopo ou espirito da invenção, com referência aos desenhos em anexo, nos quais:

A Figura 1 ilustra a operação de codificação de objeto de áudio compreendendo codificação e decodificação;

A Figura 2a ilustra a operação de decodificação de objeto de áudio em estéreo;

A Figura 2b ilustra a operação de decodificação de objeto de áudio;

A Figura 3a ilustra a estrutura de um processador de estéreo;

A Figura 3b ilustra um aparelho para sintetizar um sinal de saida processado;

A Figura 4a ilustra o primeiro aspecto da invenção incluindo uma matriz de mixagem de sinal original Co, uma matriz de mixagem de pré-descorrelacionador Q e uma matriz de upmix de descorrelacionador P;

A Figura 4b ilustra um outro aspecto da presente invenção que é implementado sem uma matriz de mixagem de pré- descorrelacionador;

A Figura 4c ilustra um outro aspecto da presente invenção que é implementado sem a matriz de upmix de descorrelacionador;

A Figura 4d ilustra um outro aspecto da presente invenção que é implementado com uma matriz de compensação de ganho adicional G;

A Figura 4e ilustra uma implementação da matriz de downmix de descorrelacionador Q e da matriz de upmix de descorrelacionador P quando um único descorrelacionador é usado;

A Figura 4f ilustra uma implementação da matriz de mixagem original Co;

A Figura 4g ilustra uma vista detalhada da combinação real do resultado da mixagem de sinal original e o resultado do descorrelacionador ou operação de upmix do descorrelacionador;

A Figura 5 ilustra uma operação de um estágio de descorrelacionador de multicanal tendo muitos descorrelacionadores;

A Figura 6 ilustra um mapa indicando vários objetos de áudio identificados por certo ID, tendo um arquivo de áudio de objeto, e uma matriz de informação de objeto de áudio E;

A Figura 7 ilustra uma explanação de uma matriz de covariância de objeto E da Figura 6;

A Figura 8 ilustra uma matriz de downmix e um codificador de objeto de áudio controlado pela matriz de downmix D;

A Figura 9 ilustra uma matriz de processamento alvo A que é normalmente provida por um usuário e um exemplo para um cenário de processamento alvo especifico;

A Figura 10 ilustra uma coleção de etapas de pré- cálculo executadas para determinar os elementos de matriz das matrizes nas Figuras 4a a 4d de acordo com quatro configurações diferentes;

A Figura11ilustraumacoleçãodeetapasde cálculo de acordo com a primeira configuração;

A Figura12ilustraumacoleçãodeetapasde cálculo de acordo com a segunda configuração;

A Figura13ilustrauma coleçãode etapasde cálculo de acordo com a terceira configuração; e

A Figura14ilustrauma coleçãode etapasde cálculo de acordo com a quarta configuração.

As configurações descritas abaixo são meramente ilustrativas dos principios da presente invenção para APARELHO E MÉTODO PARA SINTETIZAÇÃO DE UM SINAL DE SAÍDA. Deve ser entendido que modificações e variações dos arranjos e dos detalhes descritos aqui ficarão aparentes para aqueles especializados na técnica. É seu objetivo, portanto, ser limitada apenas pelo escopo das reivindicações de patente independentes e não pelos detalhes específicos apresentados como descrição e explanação das configurações aqui apresentadas.

A Figura 1 ilustra a operação de codificação de objeto de áudio, compreendendo um codificador de objeto 101 e um decodificador de objeto 102. O codificador de objeto de áudio espacial 101 codifica N objetos em um downmix de objeto consistindo de canais de áudio K > 1, de acordo com parâmetros do codificador. Informação sobre a matriz de peso de downmix D aplicada é enviada pelo codificador de objeto juntamente com dados opcionais referentes à energia e correlação do downmix. A matriz D é frequentemente, mas não necessariamente sempre, constante no tempo e freqüência, e, portanto, representa uma quantidade relativamente pequena de informação. Finalmente, o codificador de objeto extrai parâmetros de objeto para cada objeto como uma função de tempo e freqüência em uma resolução definida pelas considerações perceptuais. O decodificador de objeto de áudio espacial 102 toma os canais de downmix de objeto, a informação de downmix, e os parâmetros de objeto (conforme gerados pelo codificador) como entrada e gera uma saida com M canais de áudio para apresentação ao usuário. O processamento de N objetos em M canais de áudio faz uso de uma matriz de processamento provida como entrada do usuário para o decodificador de objeto.

A Figura 2a ilustra os componentes de um decodificador de objeto de áudio 102 no caso onde a saida desejada é áudio estéreo. O downmix de objeto de áudio é alimentado em um processador de estéreo 201, que executa processamento de sinal conduzindo a uma saída de áudio estéreo. Este processamento depende da informação de matriz fornecida pelo calculador de matriz 202.A informação de matriz é derivada dos parâmetros de objeto, da informação de downmix e da informação de processamento de objeto suprida, que descrevem o processamento alvo desejado dos N objetos no estéreo por meio de uma matriz de processamento.

A Figura 2b ilustra os componentes de um decodificador de objeto de áudio 102 no caso onde a saída desejada é um sinal de áudio de multicanal geral. O downmix de objeto de áudio é alimentado a um processador de estéreo 201, que executa processamento de sinal conduzindo a uma saída de sinal estéreo. Este processamento depende da informação de matriz fornecida pelo calculador de matriz 202.A informação de matriz é derivada dos parâmetros de objeto, da informação de downmix e de uma informação de processamento de objeto reduzida, que é enviada pelo redutor de processamento 204. A informação de processamento de objeto reduzida descreve o processamento desejado dos N objetos em estéreo por meio de uma matriz de processamento, e é derivada da informação de processamento descrevendo o processamento de N objetos em M canais de áudio supridos ao decodificador de objeto de áudio 102, os parâmetros de objeto, e a informação de downmix de objeto. O processador adicional 203 converte o sinal estéreo fornecido pelo processador de estéreo 201 na saída de áudio de multicanal final, baseado na informação de processamento, na informação de downmix e nos parâmetros de objeto. Um decodificador de MPEG Surround operando no modo de downmix de estéreo é um componente principal típico do processador adicional 203.

A Figura 3a ilustra a estrutura do processador de estéreo 201. Dado o downmix de objeto transmitido no formato de uma saida de corrente de bits de um codificador de áudio de canal K, esta corrente de bits é primeiramente decodificada pelo decodificador de áudio 301 em K sinais de áudio de dominio de tempo. Estes sinais são, então, todos transformados no dominio de frequência pela unidade T/F 302. A matriz aumentada inventiva com variação de tempo e frequência definida pela informação de matriz fornecida para o processador de estéreo 201 é executada nos sinais de dominio de frequência resultantes X pela unidade de matriz aumentada 303. Esta unidade envia um sinal estéreo Y' no dominio de frequência, que é convertido no sinal de dominio de tempo pela unidade F/T 304.

A Figura 3b ilustra um aparelho para sintetização de um sinal de saida processado 350 tendo um primeiro sinal de canal de áudio e um segundo sinal de canal de áudio no caso de uma operação de processamento de estéreo, ou tendo mais que dois sinais de canal de saida no caso de um processamento de canal mais elevado. Entretanto, para um número mais alto de objetos de áudio, tal como três ou mais, o número de canais de saida é preferivelmente menor que o número de objetos de áudio originais, que contribuiram para o sinal de downmix 352. Especificamente, o sinal de downmix 352 tem pelo menos um primeiro sinal de downmix de objeto e um segundo sinal de downmix de objeto, onde o sinal de downmix representa um downmix de uma pluralidade de sinais de objeto de áudio de acordo com informação de downmix 354. Especificamente, o sintetizador de áudio da invenção, conforme ilustrado na Figura 3b, inclui um estágio de descorrelacionador 356 enquanto gera um sinal descorrelacionado tendo um sinal de canal único descorrelacionado ou um primeiro sinal de canal descorrelacionado e um segundo sinal de canal descorrelacionado no caso de dois descorrelacionadores ou tendo mais que dois sinais de canal de descorrelacionador no caso de uma implementação tendo três ou mais descorrelacionadores. Entretanto, um número menor de descorrelacionadores e, portanto, um número menor de sinais de canal descorrelacionados é preferido em relação a um número mais elevado devido à complexidade de implementação resultante de um descorrelacionador. Preferivelmente, o número de descorrelacionadores é menor que número de objetos de áudio incluido no sinal de downmix 352 e, preferivelmente, será igual ao número de sinais de canal no sinal de saida 352 ou menor que o número de sinais de canal de áudio no sinal de saida processado 350. Para um pequeno número de objetos de áudio (por exemplo, 2 ou 3), entretanto, o número de descorrelacionadores pode ser igual ou ainda maior que o número de objetos de áudio.

Conforme indicado na Figura 3b, o estágio do descorrelacionador recebe, como uma entrada, o sinal de downmix 352 e gera, como um sinal de saida, o sinal descorrelacionado 358. Em adição à informação de downmix 354, informação de processamento alvo 360 e informação de parâmetro de objeto de áudio 362 são providas. Especificamente, a informação de parâmetro de objeto de áudio é, pelo menos, usada em um combinador 364 e pode, opcionalmente, ser usada no estágio do descorrelacionador 356 como será descrito posteriormente. A informação de parâmetro de objeto de áudio 362, preferivelmente compreende energia e informação de correlação descrevendo o objeto de áudio em uma forma parametrizada, tal como um número entre 0 e 1 ou certo número que é definido em certa faixa de valor, e que indica uma energia, uma força ou uma medida de correlação entre dois objetos de áudio conforme descrito posteriormente. O combinador 364 é configurado para executar uma combinação pesada do sinal de downmix 352 e do sinal descorrelacionado 358. Adicionalmente, o combinador 364 é operacional para calcular fatores de peso para a combinação pesada da informação de downmix 354 e da informação de processamento alvo 360. A informação de processamento alvo indica posições virtuais dos objetos de áudio em um ajuste de reprodução virtual e indica a colocação especifica dos objetos de áudio de modo a determinar se certo objeto deve ser processado no primeiro canal de saida ou no segundo canal de saida, isto é, em um canal de saida esquerdo ou um canal de saida direito para um processamento estéreo. Quando, entretanto, um processamento de multicanais é executado, então a informação de processamento alvo adicionalmente indica se certo canal deve ser colocado mais ou menos em um surround esquerdo ou um surround direito ou canal central etc. Quaisquer cenários de processamento podem ser implementados, mas serão diferentes um do outro devido à informação de processamento alvo preferivelmente na forma da matriz de processamento alvo, que é normalmente provida pelo usuário e que será discutida posteriormente.

Finalmente, o combinador 364 usa a informação de parâmetro de objeto de áudio 362 indicando, preferivelmente, informação de energia e informação de correlação descrevendo os objetos de áudio. Em uma configuração, a informação de parâmetro de objeto de áudio é provida como uma matriz de covariância de objeto de áudio para cada "ladrilho" no plano de tempo/freqüência.

Apresentado diferentemente, para cada sub-banda e para cada bloco de tempo, no qual esta sub-banda é definida, uma matriz de covariância de objeto completa, isto é, uma matriz tendo informação de força/energia e informação de correlação é provida como a informação de parâmetro de objeto de áudio 362.

Quando a Figura 3b e Figura 2a são comparadas, fica claro que o decodificador de objeto de áudio 102 na Figura 1 corresponde ao aparelho para sintetização de um sinal de saida processado.

Além disso, o processador de estéreo 201 inclui o estágio do descorrelacionador 356 da Figura 3b. Por outro lado, o combinador 364 inclui o calculador de matriz 202 na Figura 2a. Adicionalmente, quando o estágio de descorrelacionador 356 inclui uma operação de downmix de descorrelacionador, esta porção do calculador de matriz 202 é incluída no estágio de descorrelacionador 356 ao invés de no combinador 364.

No entanto, qualquer local específico de certa função não decisivo aqui, visto que uma implementação da presente invenção em software ou dentro de um processador de sinal digital dedicado ou mesmo dentro de um computador pessoal de uso geral está no escopo da presente invenção. Portanto, a atribuição de certa função a certo bloco é uma maneira de implementar a presente invenção em hardware. Quando, entretanto, todos os diagramas de circuito de bloco são considerados como fluxogramas, para ilustrar fluxos de etapas operacionais, fica claro que a contribuição de certas funções para certo bloco é livremente possível e pode ser feita dependendo de requisitos da implementação ou de programação.

Além disso, quando a Figura 3b é comparada à

Figura 3a, fica claro que a funcionalidade do combinador 364 para calcular fatores de peso para a combinação pesada é incluida no calculador de matriz 202. Apresentado diferentemente, a informação de matriz constitui uma coleção de fatores de peso que são aplicados à unidade de matriz aumentada 303, que é implementada no combinador 364, mas que pode também incluir a porção do estágio de descorrelacionador 356 (com relação à matriz Q como será discutido posteriormente). Assim, a unidade de matriz aumentada 303 executa a operação de combinação de sub-bandas, preferivelmente, de pelo menos dois sinais de downmix de objeto, onde a informação de matriz inclui fatores de peso para pesar pelo menos estes dois sinais de downmix ou o sinal descorrelacionado antes de executar a operação de combinação.

Subsequentemente, a estrutura detalhada de uma configuração preferida do combinador 364 e o estágio de descorrelacionador 356 são discutidos. Especificamente, várias implementações diferentes da funcionalidade do estágio de descorrelacionador 356 e do combinador 364 são discutidas com relação às Figuras 4a a 4d. As Figura 4e até a Figura 4g ilustram implementações especificas de itens na Figura 4a até a Figura 4d. Antes de discutir as Figuras 4a a 4d em detalhes, a estrutura geral destas figuras é discutida. Cada figura inclui uma ramificação superior relacionada ao sinal descorrelacionado e uma ramificação inferior relacionada com o sinal original. Além disso, o sinal de saida de cada ramificação, isto é, um sinal na linha 450 e um sinal na linha 452 são combinados em um combinador 454 de modo a, finalmente, obter o sinal de saida processado 350. De forma geral, o sistema na figura 4a ilustra três unidades de processamento de matriz 401, 402, 404. 401 é a unidade de mixagem do sinal original. Os pelo menos dois sinais de downmix de objeto 352 são pesados e/ou mixados uns com os outros para obter dois sinais de objeto de mixagem originais que correspondem aos sinais da ramificação de sinal original que é inserida no adicionador 454. Entretanto, a ramificação do sinal original pode ter uma outra unidade de processamento de matriz, isto é, a unidade de compensação de ganho 409 na figura 4d, que é conectada a jusante da unidade de mixagem de sinal original 401.

Além disso, a unidade do combinador 364 pode ou não incluir a unidade de upmix do descorrelacionador 404 tendo a matriz de upmix do descorrelacionador P. Naturalmente, a separação das unidades de matriz 404, 401 e 409 (Figura 4d) e a unidade do combinador 454 é apenas artificialmente verdadeira, embora uma implementação correspondente seja, obviamente, possivel. Alternativamente, entretanto, as funcionalidades destas matrizes podem ser implementadas por meio de uma matriz única "grande" que recebe, como uma entrada, o sinal descorrelacionado 358 e o sinal de downmix 352, e que envia os dois ou três ou mais canais de saida processados 350. Nesta implementação "matriz grande", os sinais nas linhas 450 e 452 podem não ocorrer necessariamente, mas a funcionalidade desta "matriz grande" pode ser descrita em um sentido que um resultado de uma aplicação desta matriz é representado pelas sub-operações diferentes executadas pelas unidades de matriz 404, 401 ou 409 e uma unidade de combinador 454, embora os resultados intermediários 450 e 452 possam nunca ocorrer de uma maneira explicita.

Adicionalmente, o estágio do descorrelacionador 356 pode incluir a unidade de mixagem do pré-descorrelacionador 402 ou nâo. A Figura 4b ilustra uma situação na qual esta unidade não é provida. Isto é especificamente útil quando dois 5 descorrelacionadores para os dois sinais de canal de downmix são providos e um downmix especifico não é necessário. Naturalmente, certos fatores de ganho poderiam ser aplicados a ambos os canais de downmix, ou é possivel fazer a mixagem dos dois canais de downmix antes que eles sejam inseridos em um estágio de 10 descorrelacionador, dependendo de um requisito de implementação especifico. Por outro lado, entretanto, a funcionalidade de matriz Q pode também ser incluida em uma matriz especifica P. Isto significa que a matriz P na Figura 4b é diferente da matriz P na Figura 4a, embora o mesmo resultado seja obtido. Em vista disso, o 15 estágio de descorrelacionador 356 pode não incluir matriz alguma, e o cálculo de informação de matriz completa é executado no combinador e a aplicação completa das matrizes é executada também no combinador. Entretanto, com o objetivo de ilustrar melhor as funcionalidades técnicas que sustentam essa matemática,a descrição subseqüente da presente invenção será executada com relação ao esquema de processamento de matriz especifico e tecnicamente transparente ilustrado nas Figuras 4a a 4d.

A Figura 4a ilustra a estrutura da unidade de matriz aumentada da invenção 303. A entrada X compreendendo pelo 25 menos dois canais é alimentada na unidade de mixagem de sinal original 401 que executa uma operação de matriz de acordo com a matriz de mixagem original C e envia o sinal de upmix original estéreo Y. A entrada X é também alimentada na unidade de mixagem do pré-descorrelacionador 402 que executa uma operação de matriz de acordo com a matriz de mixagem do pré-descorrelacionador Q e envia um sinal de canal Nd a ser alimentado na unidade do descorrelacionador 403. 0 sinal descorrelacionado Z de canal Nd é subsequentemente alimentado na unidade de upmix do descorrelacionador 404 que executa uma operação de matriz de acordo com a matriz de upmix do descorrelacionador P e envia um sinal estéreo descorrelacionado. Finalmente, o sinal estéreo descorrelacionado é mixado por adição simples em âmbito de canal com o sinal de upmix original estéreo Y, de modo a formar o sinal de saida Y'da unidade de matriz aumentada.As três matrizes de mixagem (C, Q, P) são todas descritas pela informação de matriz suprida para o processador de estéreo 201 pelo calculador de matriz 202. Um sistema do estado da técnica conteria apenas a ramificação de sinal original inferior. Este sistema executaria com baixa qualidade no caso simples onde um objeto de música estéreo é contido em um canal de downmix de objeto e um objeto de voz mono é contido no outro canal de downmix de objeto. Isto ocorre porque o processamento da música para estéreo se basearia inteiramente na colocação de uma fonte de som em um campo estéreo ("panning") seletiva de freqüência, embora seja sabido que uma abordagem estéreo paramétrica incluindo descorrelaçâo atinge qualidade de áudio percebida muito superior. Um sistema do estado da técnica inteiramente diferente incluindo descorrelaçâo, mas baseado em dois downmixes de objeto mono separados, executaria melhor para este exemplo especifico, mas, por outro lado, atingiria a mesma qualidade do primeiro sistema de estéreo retroativamente, onde a música é mantida em estéreo verdadeiro e a voz é mixada com alturas iguais aos dois canais de downmix de objeto. Como um exemplo considere o caso de um processamento alvo do tipo de Karaokê consistindo somente do objeto de música estéreo. Um tratamento separado de cada um dos canais de downmix, então, permite uma supressão menos ideal do objeto de voz que um tratamento conjunto considerando informação de objeto de áudio estéreo transmitida tal como correlação entre os canais. A característica crucial da presente invenção é permitir a melhor qualidade possivel, não apenas nestas duas situações simples, mas também para combinações muito mais complexas de downmix de objeto e processamento.

A Figura 4b ilustra, conforme apresentado aqui, uma situação onde, em contraste com a Figura 4a, a matriz de mixagem do pré-descorrelacionador Q não é requerida ou é "absorvida" na matriz de upmix do descorrelacionador P.

A Figura 4c ilustra uma situação, na qual a matriz do pré-descorrelacionador Q é provida e implementada no estágio de descorrelacionador 356, e na qual a matriz de upmix do descorrelacionador P não é requerida ou é "absorvida" na matriz Q.

Além disso, A Figura 4d ilustra uma situação, na qual as mesmas matrizes da Figura 4a estão presentes, mas nas quais uma matriz de compensação de ganho G adicional é provida, a qual é especificamente útil na terceira configuração a ser discutida em conexão com a Figura 13 e a quarta configuração a ser discutida na Figura 14. O estágio do descorrelacionador 356 pode incluir um descorrelacionador único ou dois descorrelacionadores. A Figura 4e ilustra uma situação, na qual um descorrelacionador 403 único é provido e no qual o sinal de downmix é um sinal de downmix de objeto de dois canais, e o sinal de saida é um sinal de saida de áudio de dois canais. Neste caso, a matriz de downmix do 5 descorrelacionador Q tem uma linha e duas colunas, e a matriz de upmix de descorrelacionador tem uma coluna e duas linhas. Quando, entretanto, o sinal de downmix tem mais que dois canais, então o número de colunas de Q será igual ao número de canais do sinal de downmix, e quando o sinal de saida processado sintetizado tem mais 10 que dois canais, então a matriz de upmix de descorrelacionador P terá um número de linha igual ao número de canais do sinal de saida processado.

A Figura 4f ilustra uma implementação do tipo de circuito da unidade de mixagem de sinal original 401, que é 15 indicada como Co e que tem, na configuração de dois por dois, duas linhas em duas colunas. Os elementos de matriz são ilustrados na estrutura do tipo de circuito como os fatores de pesagem Cij. Além disso, os canais pesados são combinados usando adicionadores como é visivel da Figura 4f. Quando, entretanto, o número de canais de 20 downmix é diferente do número de canais de sinal de saida processado, então a matriz de mixagem original Co não será uma matriz quadrática, mas terá um número de linhas que é diferente do número de colunas.

A Figura 4g ilustra em detalhe a funcionalidade 25 de estágio de adição 454 na Figura 4a. Especificamente, para o caso de dois canais de saida, tal como o sinal de canal de estéreo esquerdo e o sinal de canal de estéreo direito, dois estágios de adicionador diferentes 454 são providos, que combinam sinais de saída da ramificação superior relacionada com o sinal do descorrelacionador e a ramificação inferior relacionada com o sinal original conforme ilustrado na Figura 4g.

Com relação à matriz de compensação de ganho G 409, os elementos da matriz de compensação de ganho estão apenas na diagonal da matriz G. No caso de dois por dois, que é ilustrado na Figura 4f para a matriz de mixagem de sinal original Co, o fator de ganho para compensação de ganho do sinal original esquerdo estaria na posição de Cn, e um fator de ganho para compensação de ganho do sinal original direito estaria na posição de c22 da matriz Co na Figura 4f. Os valores para c12 e c2i seriam iguais a 0 na matriz de ganho dois por dois G conforme ilustrado em 409 na Figura 4d.

A Figura 5 ilustra a operação do estado da técnica de um descorrelacionador de multicanais 403. Esta ferramenta é usada, por exemplo, em MPEG Surround. Os sinais Nd, sinal 2, sinal 2, ..., sinais Nd são separadamente alimentados, descorrelacionador 1, descorrelacionador 2, ... descorrelacionador Nd . Cada descorrelacionador consiste tipicamente de um filtro que objetiva a produção de uma saída que seja tão descorrelacionada quanto possível com a entrada, enquanto mantendo a energia do sinal de entrada. Além disso, os filtros de descorrelacionador diferentes são escolhidos de modo que o sinal 1 de descorrelacionador de saídas, sinal de descorrelacionador 2, ..., sinal de descorrelacionador Nd são também tão descorrelacionados quanto possível em um sentido no âmbito de pares. Visto que descorrelacionadores são tipicamente de alta complexidade computacional comparados com outras partes de um decodificador de objeto de áudio, é de interesse manter o número Nd tão pequeno quanto possivel.

A presente invenção oferece soluções para Nd igual a 1, 2 ou mais, mas preferivelmente menor que o número de objetos de áudio. Especificamente, o número de descorrelacionadores é, em uma configuração preferida, igual ao número de sinais de canal de áudio do sinal de saida processado ou ainda menor que o número de sinais de canal de áudio do sinal de saida processado 350.

No texto a seguir, uma descrição matemática da presente invenção será apresentada. Todos os sinais considerados aqui são amostras de sub-bandas de um banco de filtro modulado ou análise FFT de janela de sinais de tempo discretos. É entendido que estas sub-bandas têm que ser transformadas de volta para o dominio de tempo discreto por operações de banco de filtro de sintese correspondentes. Um bloco de sinal de L amostras representa o sinal em um intervalo de tempo e freqüência que é uma parte do ladrilhamento motivado perceptualmente do plano de tempo- freqüência que é aplicado à descrição de propriedades de sinal. Neste ajuste, os objetos de áudio dados podem ser representados por N filas de comprimento L em uma matriz,

A Figura 6 ilustra uma configuração de um mapa de objeto de áudio ilustrando um número de N objetos. Na explanação exemplificativa da Figura 6, cada objeto tem um ID de objeto, um arquivo de áudio de objeto correspondente, e, de grande importância, informação de parâmetro de objeto de áudio que é, preferivelmente, informação referente à energia do objeto de áudio e da correlação entre objetos do objeto de áudio. Especificamente, a informação de parâmetro de objeto de áudio inclui uma matriz de co-variância de objeto E para cada sub-banda e para cada bloco de 5 tempo.

Umexemplo paraesta matrizdeinformaçãode parâmetro de áudiode objeto Eé ilustradonaFigura 7.Os elementos diagonais eu incluem informação de força ou energia do objeto de áudio i na sub-banda correspondente e no bloco de tempo 10 correspondente. Para esta finalidade, o sinal de sub-banda representando certo objeto de áudio i é inserido em um calculador de força ou energia que pode, por exemplo, executar uma função de correlação de áudio (acf) para obter o valor en com ou sem alguma normalização. Alternativamente, a energia pode ser calculada como 15 a soma dos quadrados do sinal sobre certo comprimento (isto é, o produto do vetor: ss*). A acf pode, em certo sentido, descrever a distribuição espectral da energia, mas devido ao fato de que uma T/F transformada para seleção de freqüência é preferivelmente usada de qualquer maneira, o cálculo de energia pode ser executado 20 sem uma acf para cada sub-banda separadamente. Dessa maneira, os elementos diagonais principais de matriz de parâmetro de áudio de objeto E indicam uma medição para a força de energia de um objeto de áudio em certa sub-banda em certo bloco de tempo.

Por outro lado, o elemento fora da diagonal eij 25 indica uma medição de correlação respectiva entre objetos de áudio i, j na sub-banda e bloco de tempo correspondentes. Fica claro a partir da Figura 7 que a matriz E é - para entradas de valores simétrica com relação à diagonal principal. De forma geral, esta matriz é uma matriz hermitiana. O elemento de medição de correlação e^ pode ser calculado, por exemplo, por uma correlação cruzada dos dois sinais de sub-banda dos objetos de áudio respectivos, de modo que uma medida de correlação cruzada é 5 obtida, a qual pode ou não ser normalizada. Podem ser usadas outras medições de correlação que não são calculadas usando uma operação de correlação cruzada, mas que são calculadas por outras maneiras de determinação de correlação entre dois sinais. Por razões práticas, todos os elementos de matriz E são normalizadas, 10 de modo que eles têm magnitudes entre 0 e 1, onde 1 indica uma força máxima ou uma correlação máxima e 0 indica uma força minima (força zero) e -1 indica uma correlação minima (fora de fase).

A matriz de downmix D de tamanho K x N onde K>1 determina o sinal de downmix de canal K na forma de uma matriz com 15 K filas através da multiplicação de matriz X = DS.(2) A Figura 8 ilustra um exemplo de uma matriz de downmix D tendo elementos de matriz de downmix djj. Este elemento dij indica se uma porção do objeto inteiro j está incluido no sinal 20 de downmix do objeto i ou não. Quando, por exemplo, di2 é igual a zero, isto significa que o objeto 2 não está incluido no sinal de downmix de objeto 1. Por outro lado, um valor de d23 igual a 1 indica que o objeto 3 está totalmente incluido no sinal de downmix do objeto 2.

Valores de elementos de matriz de downmix entre 0 e 1 são possiveis. Especificamente, o valor de 0,5 indica que certo objeto está incluido em um sinal de downmix, mas apenas com metade de sua energia. Dessa maneira, quando um objeto de áudio tal como o número de objeto 4 está igualmente distribuído para ambos os canais de sinal de downmix, então d24 e d14 seriam iguais a 0,5. Esta maneira de downmix é uma operação de downmix de conservação de energia que é preferida para algumas situações. Alternativamente, entretanto, um downmix que não conserva energia pode ser usado também, no qual o objeto de áudio inteiro é introduzido no canal de downmix esquerdo e no canal de downmix direito, de modo que a energia deste objeto de áudio foi dobrada com relação aos outros objetos de áudio dentro do sinal de downmix. Na porção inferior da Figura 8, um diagrama esquematizado do codificador de objeto 101 da Figura 1 é provido. Especificamente, o codificador de objeto 101 inclui duas porções diferentes 101a e 101b. A porção 101a é um dispositivo de downmix que preferivelmente executa uma combinação linear pesada de objetos de áudio 1, 2, ..., N, e a segunda porção do codificador de objeto 101 é um calculador de parâmetro de objeto de áudio 101b, que calcula a informação de parâmetro de objeto de áudio tal como matriz E para cada bloco de tempo ou sub-banda, de modo a prover a energia de áudio e informação de correlação que é uma informação paramétrica e pode, portanto, ser transmitida com uma taxa de bits baixa ou pode ser armazenada consumindo uma pequena quantidade de recursos de memória. A matriz de processamento de objeto controlada por usuário A de tamanho M x N determina o processamento alvo do canal M dos objetos de áudio na forma de uma matriz com M filas através da multiplicação da matriz Y = AS .

Será pressuposto através da derivação a seguir que M = 2, visto que o foco está no processamento de estéreo. Dada uma matriz de processamento inicial para mais que dois canais, e uma regra de downmix daqueles vários canais em dois canais, fica óbvio para aqueles com especialização na técnica derivar a matriz de processamento A correspondente de tamanho 2xN para processamento de estéreo. Esta redução é executada no redutor de processamento 204. Será também pressuposto para simplicidade que K =2, de modo que o downmix de objeto é também um sinal estéreo. O caso de um downmix de objeto estéreo é, além disso, o mais importante caso especial em termos de cenários de aplicação.

A Figura 9 ilustra uma explanação detalhada da matriz de processamento alvo A. Dependente da aplicação, a matriz de processamento alvo A pode ser provida pelo usuário. 0 usuário tem liberdade total para indicar onde um objeto de áudio deve estar localizado de uma maneira virtual para um ajuste de reprodução. A resistência do conceito de objeto de áudio é que a informação de downmix e a informação de parâmetro de objeto de áudio são completamente independentes de uma localização especifica dos objetos de áudio. Esta localização de objetos de áudio é provida por um usuário na forma de informação de processamento alvo. Preferivelmente, a informação de processamento alvo pode ser implementada como uma matriz de processamento alvo A que pode estar na forma da matriz na Figura 9. Especificamente, a matriz de processamento A tem M linhas e N colunas, onde M é igual ao número de canais no sinal de saida processado, e onde N é igual ao número de objetos de áudio. M é igual a dois dos cenários de processamento de estéreo preferidos, mas se um processamento de M canais é executado, então a matriz A tem M linhas.

Especificamente, um elemento de matriz a^, indica se uma porção ou o objeto inteiro j deve ser processado no canal de saida especifico i ou não. A porção inferior da Figura 9 provê 5 um exemplo simples para a matriz de processamento alvo de um cenário, no qual existem seis objetos de áudio A01 a A06, onde apenas os primeiros cinco objetos de áudio devem ser processados em posições especificas e o sexto objeto de áudio não deve ser processado de modo algum.

Com relação ao objeto de áudio AO1, o usuário quer que este objeto de áudio seja processado no lado esquerdo de um cenário de reprodução. Portanto, este objeto é colocado na posição de um falante esquerdo em uma sala de reprodução (virtual), que resulta na primeira coluna da matriz de 15 processamento A sendo (10) .Com relação ao segundo objeto de áudio, a22 é um e a12 é 0, o que significa que o segundo objeto de áudio deve ser processado no lado direito.

O objeto de áudio 3 deve ser processado no meio entre o falante esquerdo e o falante direito, de modo que 50% do 20 nivel ou sinal deste objeto de áudio vão para o canal esquerdo e 50% do nivel o sinal vão para o canal direito, de modo que a terceira coluna correspondente da matriz de processamento alvo A é (0,5 comprimento 0,5).

Similarmente, qualquer colocação entre o falante 25 esquerdo e o falante direito pode ser indicada pela matriz de processamento alvo. Com referência ao objeto de áudio 4, a colocação é mais para o lado direito, visto que o elemento de matriz a24 é maior que ai4. Similarmente, o quinto objeto de áudio

A05 é processado para ser mais para o falante esquerdo conforme indicado pelos elementos de matriz de processamento alvo a15 e a2$. A matriz de processamento alvo A adicionalmente permite não processar certo objeto de áudio. Isto é ilustrado exemplificativamente pela sexta coluna da matriz de processamento alvo A que tem zero elementos.

Será pressuposto durante a derivação a seguir que M = 2, visto que o foco está no processamento estéreo. Dadas uma matriz de processamento inicial a mais que dois canais e uma regra de downmix daqueles vários canais em dois canais, fica óbvio para aqueles especializados na técnica derivar a matriz de processamento correspondente A de tamanho 2 x N para processamento estéreo. Esta redução é executada no redutor de processamento 204. Será também pressuposto, por uma questão de simplicidade, que K = 2 de modo que o downmix de objeto é também um sinal estéreo. O caso de um downmix de objeto estéreo é adicionalmente o caso especial mais importante em termos de cenários de aplicação.

Desconsiderando por um momento os efeitos de codificação perdida do sinal de áudio de downmix de objeto, a tarefa do decodificador de objeto de áudio é gerar uma aproximação no sentido perceptual do processamento alvo Y dos objetos de áudio originais, dados a matriz de processamento A, o downmix X da matriz de downmix D, e parâmetros de objeto. A estrutura da unidade de matriz aumentada inventiva 303 é provida na Figura 4. Dado um número Nd de descorrelacionadores mutuamente ortogonais em 403, existe três matrizes de mixagem. • C de tamanho 2x2 executa a mixagem de sinal original •Q de tamanho 7Vdx2 executa a mixagem do pré- descorrelacionador •P de tamanho 2x77^ executa o upmix de descorrelacionador. Pressupondo que os descorrelacionadores são preservadores de força, a matriz de sinal descorrelacionado Z tem uma matriz de covariância NdxNd diagonal Rz=ZZ', cujos valores diagonais são iguais àqueles da matriz de covariância QXX’Q*(4) do downmix de objeto processado da mixagem de pré-descorrelacionadores. (Aqui e a seguir, a estrela denota a operação de matriz transposta conjugada complexa. É também entendido que as matrizes de covariância deterministicas da forma UV* que são usadas para conveniência computacional podem ser substituidas por expectativas E|UV’| .) Além disso, todos os sinais descorrelacionados podem ser pressupostos como sendo não correlacionados dos sinais de downmix de objeto. Assim, a covariância R' da saida combinada da unidade de matriz aumentada inventiva 303, Y' = Y + PZ = CX + PZ , (5) pode ser escrita como a soma da covariância R = YY’ da mixagem de sinal original Y = CX e a covariância de saida do descorrelacionador resultante R' = R + PRZP*. (6)

Os parâmetros do objeto carregam tipicamente informação das energias do objeto e correlações entre os objetos selecionados. Destes parâmetros, um modelo E é atingido da covariância SS* do objeto N x N. SS’=E.(7)

Os dados disponíveis ao decodificador de objeto 5 de áudio são, neste caso, descritos pelo trio de matrizes (D,E,A), e o método ensinado pela presente invenção consiste do uso destes dados para conjuntamente otimizar a correspondência de forma de onda da saida combinada (5) e sua covariância (6) para o sinal de processamento alvo (4). Para uma matriz de mixagem de sinal 10 original dada, o problema existente é focar na covariância alvo correta R' = R que pode ser estimada por R = YY* = ASS A* = AEA’ .(8) Com a definição da matriz de erro ΔR = R - R ,(9) 15uma comparação com (6) conduz ao requisito de desenho PRZP*=ΔR. (10)

Visto que o lado esquerdo de (10) é uma matriz semi-definitiva positiva para qualquer escolha de matriz de .20 mixagem de descorrelacionador P, é necessário que a matriz de erro de (9) seja uma matriz semi-definitiva positiva também. De modo a esclarecer os detalhes das fórmulas subsequentes, deixemos as covariâncias da mixagem de sinal original e o processamento alvo serem parametrizadas como segue

Para a matriz de erro

o requisito necessário para ser semi-definitivo positivo pode ser expresso como as três condições

Subsequentemente, a Figura 10 é discutida.A Figura 10 ilustra uma coleção de algumas etapas de pré-cálculo que são preferivelmente pré-formadas para todas as quatro configurações a serem discutidas em conexão com as Figuras 11 a 14. Esta etapa de pré-cálculo é o cálculo da matriz de covariância R do sinal de processamento alvo conforme indicado em 1000 na Figura 10. O bloco 1000 corresponde à equação (8).

Conforme indicado no bloco 1002, a matriz de mixagem original pode ser calculada usando a equação (15). Especificamente, a matriz de mixagem original Co é calculada de modo que a melhor correspondência do sinal de processamento alvo seja obtida pelo uso de sinais de downmix, pressupondo que o sinal descorrelacionado não seja adicionado. Dessa maneira, a matriz de mixagem original certifica que uma forma de onda do sinal de saida de matriz de mixagem corresponde ao sinal de processamento alvo tão proximamente quanto possivel, sem qualquer sinal descorrelacionado adicional. Este pré-requisito para a matriz de mixagem original é especificamente útil para manter a porção do sinal descorrelacionado no canal de saida tão baixo quanto possivel. De forma geral, o sinal descorrelacionado é um sinal que foi modificado pelo descorrelacionador em uma grande extensão. Assim, este sinal usualmente tem artefatos tais como uma colorização, truncamento de tempo e resposta transiente ruim.

Portanto, esta configuração provê a vantagem de que menos o sinal do processo de descorrelação usualmente resulte em uma qualidade melhor de saida de áudio. Ao executar uma correspondência de forma de onda, isto é, pesagem e combinação dos dois canais ou mais canais no sinal de downmix, de modo que estes canais após a operação de mixagem original se aproximam do sinal de processamento alvo tão proximamente quanto possivel, apenas uma quantidade minima de sinal descorrelacionado é necessária. 0 combinador 364 é operacional para calcular os fatores de peso, assim o resultado 452 de uma operação de mixagem do primeiro sinal de downmix de objeto e do segundo sinal de downmix de objeto é correspondido em sua forma de onda a um resultado de processamento alvo, que corresponderá, tanto quanto possivel, com uma situação que seria obtida, quando processando os objetos de áudio originais usando a informação de processamento alvo 360, contanto que a informação de objeto de áudio paramétrica 362 seja uma representação com menor perda dos objetos de áudio. Assim, a reconstrução exata do sinal nunca será garantida, mesmo com uma matriz E não quantizada. O erro é minimizado em um sentido de quadrado médio. Assim, o objetivo é obter uma correspondência de forma de onda, e as forças e as correlações cruzadas são reconstruidas. Tão logo a matriz de mixagem original Co é calculada, por exemplo, da maneira acima, então a matriz de covariância Ro do sinal de mixagem original pode ser calculada. Especificamente, é preferido usar a equação escrita à direita na Figura 10, isto é, C0DED Co. Esta fórmula de cálculo garante que, para o cálculo da matriz de covariância Ro do resultado da mixagem do sinal original, apenas parâmetros são necessários, e amostras de sub-bandas nâo são requeridas. Alternativamente, entretanto, é possivel calcular a matriz de covariância do resultado da mixagem de sinal original usando a matriz de mixagem original Co e os sinais de downmix também, mas o primeiro cálculo que ocorre no dominio do parâmetro apenas é menos complexo.

Subsequente às etapas de cálculo 1000, 1002, 1004, a matriz de mixagem de sinal original Co, a matriz de covariância R do sinal de processamento alvo e a matriz de covariância Ro do sinal de mixagem original estão disponíveis.

Para a determinação especifica de matrizes Q, P, quatro configurações diferentes são subsequentemente descritas. Adicionalmente, uma situação da Figura 4d (por exemplo, para a terceira configuração e a quarta configuração) é descrita, na qual os valores da matriz de compensação de ganho G são determinados também. Aqueles especializados na técnica observarão que existem outras configurações para calcular os valores destas matrizes, visto que existe certo grau de liberdade para determinar os fatores de peso da matriz requerida.

Em uma primeira configuração da presente invenção, a operação do calculador de matriz 202 é designada como segue. A matriz de upmix original é primeiramente derivada de modo a atingir a solução dos quadrados minimos para a correspondência da forma de onda do sinal Y = CX®Y = AS, (14) Neste contexto, é observado que Yo = Co • X = Co • D-S é válido. Além disso, as equações a seguir são verdadeiras: R„ = Y0Y0* = Cfl ■ D• S • (Co ■ D-S■)* = Co • D • (s ■ S* )■ D* ■ Co* = Co • D • E • D‘• Co’ A solução para este problema é provida por C«C0 = AED‘(DED‘)’1(15) e tem a propriedade adicional bem conhecida de soluções dos quadrados minimos, que também pode ser facilmente verificada a partir de (13) que o erro ΔY = Y — Yo = AS — C0X é ortogonal à aproximação Y = C0X. Portanto, os termos cruzados desaparecem na computação a seguir, R = YY‘ = (Y0 + AY)(Y0 + AY)" = YOYO‘ + (AYXAY)’(16) = Ro + (AY)(AY)‘ E segue que ΔR = (ΔY)(ΔY)’,(17) que é trivialmente semi-definitivo positivo, de modo que (10) pode ser resolvido. De uma maneira simbólica, a solução é P = TR’12,(18)

Aqui, o segundo fator R^'72 é simplesmente definido pela operação em âmbito de elementos na diagonal, e a matriz T resolve a equação da matriz TT*=ΔR. Existe grande liberdade na escolha de solução para esta equação de matriz. O método ensinado pela presente invenção é iniciar da decomposição do valor singular de ΔR . Para esta matriz simétrica ele reduz para a decomposição de vetor próprio usual,

onde a matriz de vetor próprio U é unitária e suas colunas contém os vetores próprios correspondendo aos valores próprios escolhidos em tamanho decrescente Amax > 2min > 0 . A primeira solução com um descorrelacionador (7^=1) ensinada pela presente invenção é obtida pelo ajuste Árajn = 0 em (19), e inserindo a aproximação natural correspondente.

em (18). A solução total com descorrelacionadores Nd=2 é obtida pela adição da contribuição perdida menos significativa do menor valor próprio 2min de ΔR e adicionando uma segunda coluna à (20) correspondente a um produto do primeiro fator U de (19) e a raiz quadrada em âmbito de elemento da matriz de valor próprio diagonal. Descrito detalhadamente isto representa

Subsequentemente, o cálculo da matriz P de acordo com a primeira configuração é sumarizado em conexão com a Figura 11. Na etapa 1101, a matriz de covariância EJR de sinal de erro ou, quando a Figura 4a é considerada, que o sinal correlacionado na 20 ramificação superior é calculado pelo uso dos resultados da etapa 1000 e etapa 1004 da Figura 10. Então, uma decomposição de valor próprio desta matriz é executada, a qual foi discutida em conexão com a equação (19) . Então, a matriz Q é escolhida de acordo com uma dentre uma pluralidade de estratégias disponíveis que serão discutidas posteriormente. Com base na matriz Q escolhida, a matriz de covariância Rz de sinal descorrelacionado de matriz é calculada usando a equação escrita à direita da caixa 1103 na Figura 11, isto é, a multiplicação de matriz de QDED Q . Então, 5 com base em Rz conforme obtido na etapa 1103, a matriz de upmix de descorrelacionador P é calculada. Fica claro que esta matriz não tem necessariamente que executar um upmix real dizendo que na saida do bloco P 404 na Figura 4a existem mais sinais de canal que na entrada. Isto pode ser feito no caso de um correlacionador 10 único, mas no caso de dois descorrelacionadores, a matriz de upmix do descorrelacionado P recebe dois canais de entrada e envia dois canais de saida e pode ser implementada como matriz de upmix original ilustrada na Figura 4f.

Assim, a primeira configuração é única por Co e P serem calculados. É referido que, de modo a garantir a estrutura de correlação resultante correta da saida, são necessários dois descorrelacionadores. Por outro lado, é uma vantagem poder usar apenas um descorrelacionador. Esta solução é indicada pela equação (20) .Especificamente, o descorrelacionador tendo o menor valor 20 próprio é implementado.

Em uma segunda configuração da presente invenção, a operação do calculador de matriz 202 é designada como segue. A matriz de mixagem do descorrelacionador é restrita à forma

(22)

Com esta restrição, a matriz de covariância desinal descorrelacionado único é um escalar Rz =rz e a covariância da saida combinada (6) se torna

onde a=c2rz. Uma correspondência total com a covariância alvo R'=R é, de forma geral, impossivel, mas a correlação normalizada perceptualmente importante entre os canais de saida pode ser ajustada para aquela do alvo em uma faixa ampla de situações. Aqui, a correlação alvo é definida por

e a correlação atingida pela saida combinada (23) é provida por

Equacionar (24) e (25) conduz a uma equagao quadratica em a ,

p2(z+ a)2 . (26)

Para os casos onde (26) tem uma solugao positiva a = a0>0, a segunda configuração da presente invenção ensina o uso da constante

na definição da matriz de mixagem (22) . Se ambas as soluções de (26) são positivas, aquela resultando na menor norma de c deve ser usada. No caso onde esta solução não existe, a contribuição do descorrelacionador é definida para zero escolhendo c=0, visto que soluções complexas de c conduzem a distorções de fase perceptíveis nos sinais descorrelacionados. A computação de p pode ser implementada de duas maneiras diferentes, tanto diretamente do sinal Y quanto incorporando a matriz de covariância do objeto em combinação com a informação de downmix e processamento, como R = CDED’C’. Aqui, o primeiro método resultará em p de valor complexo e, portanto, no lado à direita de (26) o quadrado deve ser tomado da parte real ou magnitude de respectivamente.Alternativamente, entretanto, mesmo um p de valor complexo pode ser usado.Este valor complexo indica uma correlação com um termo de fase especifica que é também útil para configurações especificas.

Uma característica desta configuração, como pode ser visto de (25) , é que ela pode apenas diminuir a correlação se comparada com aquela da mixagem original. Isto é,

Para resumir, a segunda configuração é ilustrada conforme mostrado na Figura 12. Ela inicia com o cálculo da matriz de covariância ΔR na etapa 1101, que é idêntica à etapa 1101 na Figura 11. Então, a equação (22) é implementada. Especificamente, a aparência da matriz P é pré-definida e apenas o fator de peso c, que é idêntico para ambos os elementos de P, é aberto para ser calculado. Especificamente, uma matriz P tendo uma coluna única indica que apenas um descorrelacionador único é usado nesta segunda configuração. Além disso, os sinais dos elementos de p tornam claro que o sinal descorrelacionado é adicionado a um canal como o canal esquerdo do sinal de mixagem original e é subtraido do canal direito do sinal de mixagem original. Assim, uma descorrelaçâo máxima éobtidapela adiçãodo sinal descorrelacionado a umcanale subtraçãodo sinal descorrelacionado do outro canal. De modo a determinar o valor c, as etapas 1203,1206,1103,e 1208 sãoexecutadas.

Especificamente, a fila de correlação conforme indicada na equação (24) é calculada na etapa 1203. Este valor é o valor de correlação cruzada entre os canais, entre os dois sinais de canal de áudio quando um processamento de estéreo é executado. Com base no resultado da etapa 1203, o fator de peso D..é determinado conforme 5 indicado na etapa 1206 com base na equação (26) . Além disso, os valores para os elementos de matriz da matriz Q são escolhidos e a matriz de covariância, que é, neste caso, apenas um valor escalar Rz é calculada conforme indicado na etapa 1103 e conforme ilustrado pela equação à direita da caixa 1103 na Figura 12. 10 Finalmente, o fator c é calculado conforme indicado na etapa 1208.

Equação (26) é uma equação quadrática que pode prover duas soluções positivas a □. Neste caso, conforme apresentado antes, a solução resultando em norma menor de c deve ser usada. Quando, entretanto, nenhuma solução positiva é obtida, c é definido como 150.

Assim, na segunda configuração, P é calculado usando um caso especial de uma distribuição de descorrelacionador para os dois canais indicados pela matriz P na caixa 1201. Para alguns casos, a solução não existe e o descorrelacionador é 20 simplesmente fechado.Uma vantagem desta configuração é que ela nunca adiciona um sinal sintético com correlação positiva. Isto é benéfico, visto que este sinal poderia ser percebido como uma fonte fantasma localizada que é um artefato que diminui a qualidade de áudio do sinal de saida processado. Em vista do fato 25 de que assuntos de força não são considerados na derivação, é possivel obter uma não correspondência no sinal de saida que significa que o sinal de saida tem mais ou menos força que o sinal de downmix. Neste caso, é possivel implementar uma compensação de ganho adicional em uma configuração preferida de modo a aumentar adicionalmente a qualidade de áudio.

Em uma terceira configuração da presente invenção a operação do calculador de matriz 202 é designada como segue. O ponto de inicio é uma mixagem original de ganho compensado

onde, por exemplo , a mixagem original não compensada Yo é o resultado da aproximação dos quadrados minimos Y0=C0X com a matriz de mixagem provida por (15) . Além disso, C = GC0, onde G é uma matriz diagonal com entradas gi e g2. Neste Caso

e a matriz de erro é

É ensinado, então, pela terceira configuração da presente invenção a escolher os ganhos de compensação (g,,g2) de modo a minimizar uma soma pesada das forças de erro

de acordo comas restriçõesdadas por (13).

Escolhadeexemplos de pesosem (30) são (w,,w2) = (1,1)ou (wt,w2) = (R,L) .Amatriz de erro resultante ΔR é,então, usadacomo entradaparaa computaçãoda matrizde mixagemdo descorrelacionador P de acordo com as etapas de equações (18)— (21). Uma característica atraente desta configuração é que nos casos onde sinal de erro Y-Yo é similar à upmix original, a quantidade de sinal descorrelacionado adicionado à saída final é menor que aquela adicionada à saída final pela primeira configuração da presente invenção.

Na terceira configuração, que é resumida em conexão com a Figura 13, uma matriz de ganho adicional G é pressuposta conforme indicado na Figura 4d. De acordo com o que é apresentado nas equações (29) e (30), fatores de ganho gi e g2 são calculados usando wl, w2 selecionados conforme indicado na equação abaixo no texto (30) e baseado nas restrições na matriz de erro conforme indicado na equação (13). Após executar estas duas etapas 1301, 1302, é possível calcular uma matriz de covariância de sinal de erro ΔR usando glz g2 conforme indicado na etapa 1303. É observado que esta matriz de covariância de sinal de erro calculada na etapa 1303 é diferente da matriz de covariância R conforme calculado na etapa 1101 na Figura 11 e Figura 12. Então, as mesmas etapas 1102, 1103, 1104 são executadas como já foi discutido em conexão com a primeira configuração da Figura 11.

A terceira configuração é vantajosa pela mixagem original não ser apenas correspondida na forma de onda, mas, adicionalmente, de ganho compensado. Isto ajuda a reduzir adicionalmente a quantidade de sinal descorrelacionado de modo que quaisquer artefatos que incorram pela adição do sinal descorrelacionado são também reduzidos. Dessa maneira, a terceira configuração tenta obter o melhor possível de uma combinação de compensação de ganho e adição de descorrelacionador. Novamente, o objetivo é reproduzir totalmente a estrutura de covariância incluindo forças de canal, e usar tão pouco quanto possivel do sinal sintético tal como pela equação de minimização (30).

Subsequentemente, uma quarta configuração é discutida.Na etapa 1401, o descorrelacionador único é implementado.Dessa maneira, uma configuração de baixa complexidade é criada visto que um descorrelacionador único é, do ponto de vista de uma implementação prática, mais vantajoso. Na etapa subsequente 1101, os dados de matriz de covariância R são calculados conforme descritos e discutidos em conexão com a etapa 1101 da primeira configuração. Alternativamente, entretanto, os dados de matriz de covariância R podem também ser calculados conforme indicado na etapa 1303 da Figura 13, onde existe a compensação de ganho em adição à correspondência de forma de onda. Subsequentemente, o sinal de Δp, que é o elemento fora da diagonal da matriz de covariância ΔR, é verificado. Quando a etapa 1402 determina que este sinal seja negativo, então as etapas 1102, 1103, 1104 da primeira configuração são processadas, onde a etapa 1103 é especificamente não complexa devido ao fato de que rz é um valor escalar, visto que existe apenas um descorrelacionador único.

Quando, entretanto, é determinado que o sinal de Δp é positivo, uma adição do sinal descorrelacionado é completamente eliminada tal como pelo ajuste em zero dos elementos de matriz P. Alternativamente, a adição de um sinal descorrelacionado pode ser reduzida para um valor acima de zero, mas a um valor menor que um valor que, se estivesse presente, o sinal seria negativo. Preferivelmente, entretanto, os elementos de matriz da matriz P não são apenas definidos para valores menores, mas são definidos como zero conforme indicado no bloco 1404 na Figura 14. De acordo com a Figura 4d, entretanto, fatores de ganho g1A g2 são determinados de modo a executar uma compensação de ganho 5 conforme indicado no bloco 1406. Especificamente, os fatores de ganho são calculados de modo que os elementos diagonais principais da matriz no lado direito da equação (29) se tornam zero. Isto significa que a matriz de covariância do sinal de erro tem zero elementos como sua diagonal principal. Dessa maneira, uma 10 compensação de ganho é atingida no caso em que o sinal descorrelacionador é reduzido ou completamente desligado devido à estratégia para evitar artefatos de fonte fantasma que podem ocorrer quando um sinal descorrelacionado tendo propriedades de correlação especificas é adicionado.

Dessa maneira, a quarta configuração combina algumas características da primeira configuração e se baseia em uma solução de descorrelacionador único, mas inclui um teste para determinar a qualidade do sinal descorrelacionado, de modo que o sinal descorrelacionado possa ser reduzido ou completamente 20 eliminado quando um indicador de qualidade, tal como o valor Δp na matriz de covariância ΔR do sinal de erro (sinal adicionado), se torna positivo.

A escolha de matriz de pré-descorrelacionador Q deve ser baseada em considerações perceptuais, visto que a teoria 25 da segunda ordem acima é insensível à matriz especifica usada.

Isto implica também no fato de que as considerações que conduzem a uma escolha de Q são independentes da seleção entre cada uma das configurações mencionadas acima.

Uma primeira solução preferida ensinada pela presente invenção consiste do uso de downmix mono da mixagem estéreo original como entrada para todos os descorrelacionadores. Em termos de elementos de matriz, isto significa que Qn.k = ct,k + C2,k>= n = \,2,...,Nd ,(31) onde são os elementos de matriz de Q e |cnJi| são os elementos de matriz de Co.

Uma segunda solução ensinada pela presente invenção conduz a uma matriz de pré-descorrelacionador Q derivada da matriz de downmix D sozinha. A derivação é baseada na pressuposição de que todos os objetos têm força unitária e são não correlacionados. Uma matriz de upmix dos objetos para seus erros de previsãoindividuais é formadadeacordocom aquela pressuposição.Então,o quadradodos pesos do pré- descorrelacionador são escolhidos em proporção à energia de erro de objeto prevista através dos canais de downmix. Os mesmos pesos são finalmente usados para todos os descorrelacionadores. Em detalhe, estes pesos são obtidos primeiramente pela formação da matriz NxN , W = I-D*(DD ) D , (32) e, então, derivando uma matriz de energia de erro de previsão de objeto estimada Wo definida pelo ajuste de todos os valores fora da diagonal de (32) em zero. Denotando os valores diagonais de DW0D* por tx,t2 , que representam as contribuições de energia de erro de objeto total para cada canal de downmix, a escolha final de elementos de matriz de pré-descorrelacionado é provida por

Com relação a uma implementação especifica dos descorrelacionadores, todos os descorrelacionadores tais como reverberadores ou quaisquer outros descorrelacionadores podem ser 5 usados. Em umaconfiguração preferida,entretanto, os descorrelacionadores devem ser conservadores de força.Isto significa que a força do sinal de saida do descorrelacionador deve ser igual à força do sinal de entrada do descorrelacionador. No entanto, desvios que incorrem por um descorrelacionador que não 10 conserva força podem também ser absorvidos, por exemplo, ao considerar isto quando a matriz P é calculada.

Conforme declarado anteriormente, configurações preferidas tentam evitar a adição de um sinal sintético com correlação positiva, visto que este sinal poderia ser percebido 15 como umafontefantasma sintética localizada. Na segunda configuração, isto é explicitamente evitado devido à estrutura especifica de matriz P conforme indicado no bloco 1201. Além disso,esteproblemaé explicitamentecircundadonaquarta configuraçãodevido àoperação deverificação naetapa1402. Outrasmaneiras dedeterminaraqualidadedosinal descorrelacionado e, especificamente, as características de correlação de modo que estes artefatos de fonte fantasma possam ser evitados, estão disponíveis para aqueles especializados na técnica, e podem ser usadas para desativar a adição do sinal descorrelacionado como na forma de algumas configurações, ou podem ser usadas para reduzir a energia do sinal descorrelacionado e aumentar a energia do sinal original, de modo a ter um sinal de saida de ganho compensado.

Embora todas as matrizes E, D, A tenham sido descritas como matrizes complexas, estas matrizes podem também ser de valor real. No entanto, a presente invenção é também útil em 5 conexão com matrizes complexas D, A, E que realmente têm coeficientes complexos com uma parte imaginária diferente de zero.

Além disso, frequentemente ocorrerá que a matriz

D e a matriz A têm uma resolução espectral e de tempo muito inferior se comparada com a matriz E que tem a resolução de tempo 10 e freqüência mais elevada de todas as matrizes. Especificamente, a matriz de processamento de áudio e a matriz de downmix não dependerão da freqüência, mas pode depender do tempo. Com relação à matriz de downmix, isto pode ocorrer em uma operação de downmix otimizada especifica.Com relação à matriz de processamento alvo, 15 isto pode ser o caso em conexão com objetos de áudio em movimento que podem mudar sua posição entre esquerda e direita periodicamente.

As configurações descritas abaixo são meramente ilustrativas dos princípios da presente invenção. É compreendido 20 que modificações e variações dos arranjos e detalhes descritos aqui ficarão aparentes para aqueles especializados na técnica. É objetivo, portanto, que estejam limitadas apenas pelo escopo das reivindicações de patente independentes e não pelos detalhes específicos apresentados como descrição e explanação das 25 configurações aqui.

Dependendo de certos requisitos de implementação dos métodos inventivos, os métodos inventivos podem ser implementados em hardware ou software. A implementação pode ser executada usando um meio de armazenagem digital, em especial, um disco, um DVD ou um CD tendo sinais de controle eletronicamente legiveis armazenados no mesmo, que cooperam com sistemas de computador programáveis, de modo que os métodos inventivos sejam 5 executados. De forma geral, a presente invenção é, portanto, um produto de programa de computador com um código de programa em um veiculo legivel por máquina, o código de programa sendo operado para executar os métodos inventivos quando o produto de programa de computador operar em um computador.Em outras palavras, os 10 métodos inventivos são, portanto, um programa de computador tendo um código de programa para executar pelo menos um dos métodos inventivos quando o programa de computador operar em um computador.

Claims

1.Aparelho para sintetizar um sinal de saída (350) tendo um primeiro sinal de canal de áudio e um segundo sinal de canal de áudio, caracterizado por compreender; um estágio de descorrelação (356) para gerar um sinal descorrelacionado (358) tendo um sinal de canal único descorrelacionado ou um sinal de primeiro canal descorrelacionado e um segundo sinal de canal descorrelacionado de um sinal downmix, o sinal downmix tendo um primeiro sinal downmix de objeto de áudio e um segundo sinal de downmix de objeto de áudio, o sinal de downmix representando uma mistura de uma pluralidade de sinais de objeto de áudio de acordo com a informação de downmix (354); e um combinador (364) para executar uma combinação ponderada do sinal de downmix (352) e do sinal descorrelacionado (358) usando fatores de peso (P, Q, C0, G), onde o combinador (364) é operacional para calcular os fatores de peso (P, Q, C0, G) para a combinação ponderada da informação de downmix (354), da informação de processamento alvo (360) indicando posições virtuais dos objetos de áudio em um ajuste de reprodução virtual, e informação de objeto de áudio paramétrica (362) descrevendo objetos de áudio, em que o combinador (364) é operativo para calcular uma matriz de mistura C0 para misturar o primeiro sinal de downmix de objeto de áudio e o segundo sinal de downmix de objeto de áudio com base na seguinte equação: C0 = A E D* (D E D*)-1 em que C0 é a matriz de mistura, em que A é uma matriz de renderização de destino que representa a informação de processamento alvo (360), em que D é uma matriz de downmix representando a informação de downmix (354), em que * representa uma operação complexa de transposição de conjugado e em que E é uma matriz de covariância de objetos representando as informações paramétricas de objetos de áudio (362).

2.Aparelho de acordo com a reivindicação 1, caracterizado por o combinador (364) operar para calcular os fatores de ponderação para a combinação ponderada, de modo que a combinação ponderada seja obtida, calculando uma matriz upmix de descorrelacionador (P) e aplicando (404) a matriz upmix de descorrelacionador (P) ao sinal descorrelacionado (358), e combinando os resultados (454) das operações de aplicação (404, 401) para obter o sinal de saída renderizado (550).

3.Aparelho, de acordo com uma das reivindicações anteriores, caracterizado pelo fato de que o estágio de descorrelação (356) é operativo para executar uma operação (402) para manipular o sinal de downmix (352), em que o sinal manipulado de downmix é alimentado para o descorrelacionador (403).

4.Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que a matriz upmix de descorrelação (P) é baseada na realização (1102) de uma decomposição de autovalor de uma matriz de covariância do sinal descorrelacionado adicionado a um resultado de mix de sinal seco (452).

5.Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que o combinador (364) opera para calcular os fatores de ponderação para a combinação ponderada, de modo que a matriz upmix de descorrelacionador (P) seja calculada de modo que o sinal descorrelacionado seja adicionado a dois canais resultantes (452) de uma operação de mistura seca com sinais opostos (1201).

6.Aparelho, de acordo com a reivindicação 5, caracterizado pelo fato de que o combinador (364) opera para calcular os fatores de ponderação de modo que o sinal correlacionado (358) seja ponderado por um fator de ponderação (c) determinado por uma sugestão de correlação entre dois canais de sinal da saída renderizada, sendo a sugestão de correlação um valor de correlação determinado por uma operação de renderização de destino virtual com base em uma matriz de renderização de destino (A) (1203).

7.Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que o combinador (364) opera para calcular os fatores de ponderação, de modo que a combinação ponderada realizada pelo combinador (364) resulta em uma compensação de ganho (409) na qual um resultado de mistura de sinal seco é ponderado de modo que um erro de energia no resultado da mistura de sinal seco comparado à energia do sinal de downmix seja reduzido (1302).

8.Aparelho de acordo com qualquer uma das reivindicações 1 a 2, caracterizado por o combinador (364) operar para determinar se uma adição de um sinal correlacionado resultará em um artefato (1402), e em que o combinador (364) opera para desativar ou reduzir uma adição do sinal descorrelacionado (1404), quando uma situação de criação de artefato é determinada, e reduzir (1406) um erro de energia incorrido pela redução ou desativação (1404) do sinal correlacionado.

9.Aparelho de acordo com a reivindicação 8, caracterizado por o combinador (364) operar para calcular os fatores de ponderação de modo que a potência de um resultado da operação de mistura a seco (401) seja aumentada.

10.Aparelho, de acordo com a reivindicação 8, caracterizado pelo fato de que o combinador (364) opera para calcular dados da matriz de covariância de erro (R) (1104) representando uma estrutura de correlação do sinal de erro entre o sinal de upmix seco e o sinal de saída determinado por um virtual esquema de renderização de destino usando as informações de renderização de destino (360) e em que o combinador (364) é operativo para determinar um sinal (1402) de um elemento fora da diagonal dos dados da matriz de covariância de erro (R) e desativar (1104) ou reduzir a adição se o sinal for positivo.

11.Aparelho, de acordo com qualquer uma das reivindicações de 1 a 10, caracterizado pelo fato de que o combinador (364) inclui uma unidade de matriz aprimorada (303) operacional na combinação linear do primeiro sinal de downmix de objeto de áudio e do segundo sinal de downmix de objeto de áudio em um sinal de mistura seca (452), e em que o combinador (364) é operativo para combinar linearmente o sinal descorrelacionado (358) em um sinal que, por adição em canal com o sinal de mistura seca, constitui uma saída estéreo da unidade de matriz aprimorada (303), e em que o combinador (364) inclui uma calculadora de matriz (202) para calcular os fatores de ponderação para a combinação linear usada pela unidade de matriz aprimorada (303) com base nas informações paramétricas do objeto de áudio (362) da informação de downmix (354) e a informações de renderização de destino (360).

12.Aparelho, de acordo com uma das reivindicações anteriores, caracterizado pelo fato de que o combinador (364) é operativo para calcular os fatores de ponderação de modo que uma porção de energia do sinal descorrelacionado (358) no sinal de saída renderizado seja mínima e que uma porção de energia de um o sinal de mistura seca (452) obtido por combinação linear do primeiro sinal de downmix de objeto de áudio e o segundo sinal de downmix de objeto de áudio é máximo.

13.Método para sintetizar um sinal de saída (350) tendo um primeiro sinal de canal de áudio e um segundo sinal de canal de áudio, caracterizado por compreender; gerar (356) um sinal correlacionado (358) tendo um sinal de canal único correlacionado ou um sinal de primeiro canal correlacionado e um sinal de segundo canal correlacionado de um sinal de downmix, o sinal downmix tendo um primeiro sinal de downmix de objeto de áudio e um segundo sinal de downmix de objeto de áudio , o sinal de downmix representando uma downmix de uma pluralidade de sinais de objeto de áudio de acordo com a informação de downmix (354); e realizar (364) uma combinação ponderada do sinal de downmix (352) e o sinal descorrelacionado (358) usando fatores de ponderação, com base em um cálculo dos fatores de ponderação para a combinação ponderada a partir da informação de downmix (354), a partir de informações de renderização de destino ( 360) indicando posições virtuais dos objetos de áudio em uma configuração de reprodução virtual e informações paramétricas de objetos de áudio (362) que descrevem os objetos de áudio, em que o combinador (364) opera para calcular uma matriz de mistura C0 para misturar o primeiro sinal de downmix de objeto de áudio e o segundo sinal de downmix de objeto de áudio com base na seguinte equação: C0 = A E D* (D E D*)-1 em que C0 é a matriz de mistura, em que A é uma matriz de renderização de destino que representa a informação de renderização de destino (360), em que D é uma matriz de downmix que representa a informação de downmix (354), em que * representa uma operação de transposição conjugada complexa e em que E é uma matriz de covariância de objetos representando as informações paramétricas de objetos de áudio (362).