BRPI0912451A2

BRPI0912451A2 - aparelho para determinar um sinal de áudio espacial convertido.

Info

Publication number: BRPI0912451A2
Application number: BRPI0912451A
Authority: BR
Inventors: Galdo Giovanni Del; Markus Kallinger; Fabian Kuech; Mikko-Ville Laitinen; Ville Pulkki; Richard Schultz-Amling
Original assignee: Fraunhofer Ges Forschung
Priority date: 2008-08-13
Filing date: 2009-08-12
Publication date: 2019-01-02
Also published as: US8611550B2; CN102124513B; KR101476496B1; EP2154677B1; JP5525527B2; BRPI0912451B1; EP2311026A1; ES2523793T3; HK1155846A1; US20110222694A1; RU2011106584A; PL2154677T3; KR20110052702A; EP2154677A1; MX2011001657A; AU2009281367B2; CA2733904C; PL2311026T3; CN102124513A; ES2425814T3

Description

Descrição

Ά presente invenção está no campo de processamento de áudio, especialmente processamento de áudio espacial e conversão de formatos de áudio espacial diferentes.

Codificação de áudio DirAC (DirAC = Codificação de Áudio Direcional) é um método para a reprodução e processamento de áudio espacial. Sistemas convencionais aplicam DirAC em reprodução de qualidade alta bidimensional e tridimensional de som gravado, aplicações de teleconferência, microfones direcionais, e upmix de estéreo para surround, conforme V. Pulkki e C. Faller, Directional audio coding: Filterbank and STFT-based design, na 120^a Convenção AES, 20-23 de Maio de 2006, Paris, França, Maio de 2006,--V. Pulkki and C. Faller, Directional - audio- coding in spatial-— ....sound__reproduction and_stereo upmixing, in.. AES 28^th International.-----Conference, Pitea, Sweden, June 2006, V. Pulkki, Spatial sound reproduction with directional audio coding, Journal of the Audio Engineering Society, 55(6):503-516, Junho de 2007, Jukka Ahonen, V. Pulkki e Tapio Lokki, Teleconference application and B-format microphone array for directional audio coding, na 30^a Conferência Internacional AES.

Outras aplicações convencionais usando DirAC são, por exemplo, o formato de codificação universal e cancelamento de ruido. Na DirAC, algumas propriedades direcionais de som são analisadas em bandas de freqüência dependentes do tempo. Os dados de análise são transmitidos com dados de áudio e sintetizados para diferentes objetivos. A análise é comumente feita usando sinais de formato B, embora teoricamente DirAC não esteja limitada a este formato. Formato B, conforme Michael Gerzon, Surround Sound psychoacoustics, no Wireless World, volume 80, páginas 483-486, dezembro de 1974, foi desenvolvido dentro do trabalho sobre Ambisonics, um sistema desenvolvido pelos pesquisadores britânicos nos anos 70 para trazer o som surround de salas de concerto para salas de estar. O formato B consiste de quatro sinais, isto é w(t) , x(t), y (t) , e z (t) . 0 primeiro corresponde à pressão medida por um microfone omnidirecional, enquanto os três últimos são leituras de pressão de microfones tendo padrões de captação no formato de oito direcionados para os três eixos de um sistema de coordenada cartesiana. Os sinais x (t), y (t), e z (t) são proporcionais aos componentes de vetor de velocidade de partícula direcionado para x, y e z, respectivamente.

A corrente DirAC consiste—de 1-4 canais de áudio--com metadados direcionais. Em teleconferência e alguns outros casos, a corrente consiste de apenas um único canal de áudio com metadados, denominado de corrente Dirac mono. Esta é uma maneira bastante compacta de descrever áudio espacial, visto que apenas um único canal de áudio necessita ser transmitido com informação de lado, que, por exemplo, provê boa separação espacial entre os interlocutores. Entretanto, nestes casos alguns tipos de som, tais como cenários de som reverberado ou ambiente podem ser reproduzidos com qualidade limitada. Para obter uma qualidade melhor nestes casos, canais de áudio adicionais necessitam serem transmitidos.

A conversão do formato B em DirAC é descrita por V. Pulkki, A method for reproducing natural or modified spatial impression in multichannel listening, Patente WO 2004/077884 Al, setembro de 2004. Codificação de Áudio Direcional é uma abordagem eficiente para a análise e reprodução de som espacial. DirAC usa uma representação paramétrica de campos de som com base nas características que são relevantes para a percepção de som espacial, isto é a DOA (DOA = Direção de chegada) e difusão do campo de som nas sub-bandas de frequência. Na verdade, DirAC assume que diferenças de tempo interaurais (ITD) e diferenças de nível interaural (ILD) são percebidas corretamente quando a DOA de um campo é corretamente reproduzida, enquanto coerência interaural (IC) é percebida corretamente, se a difusão for reproduzida com precisão. Estes parâmetros, isto é DOA e difusão, representam “infoTmaçãÕ' de lado que acompanha ~um sinal mono que é referido como uma corrente DirAC mono.

_ _ _ _ A_Figura 7,. mostra o, codificador—DirAC, que a~ partir dos sinais de microfone próprios,. computa um,canal de-áudiomono e informação de lado, isto é, difusão Ψ(Κ,η) e direção de chegada e»,* (Ττ,.η; . A Figura 7 mostra um codificador DirAC 200, que é adaptado para computar um canal de áudio mono e informação de lado de sinais de microfones apropriados. Em outras palavras, a Figura 7 ilustra um codificador DirAC 200 para determinar a difusão e direção de chegada de sinais de microfone apropriados. A Figura 7 mostra um codificador DirAC 200 compreendendo uma unidade de estimativa P/U 210, onde P(k,n) representa um sinal de pressão e U(k_rn) representa um vetor de velocidade de partícula. A unidade de estimativa P/U recebe os sinais de microfone como informação de entrada, na qual a estimativa de P/U é baseada. Um estágio de análise energética 220 permite a estimativa da direção de chegada e parâmetro de difusão da corrente DirAC mono.

Os parâmetros DirAC, como por exemplo, uma representação de áudio mono W(k,n), um parâmetro de difusão W(k,n) e uma direção de chegada (DOA) e^Afk,!!), podem ser obtidos de uma representação de freqüência-tempo dos sinais de microfone. Portanto, os parâmetros são dependentes de tempo e frequência. No lado da reprodução, esta informação permite uma transmissão espacial precisa. Para recriar o som espacial em uma posição de audição desejada, um arranjo de alto-falantes múltiplos é requerido. Entretanto, sua geometria pode ser arbitrária. Na verdade, os canais de alto-falantes podem ser determinados como uma função dos parâmetros DirAC.

Existem diferenças substanciais entre DirAC e codificação de- áudio- de canais múltiplos paramétrica, rsvccmc MPEG Surround, conforme La-rs- Villemocs, Juer-gen Herre, -Jeroen Breebaart, Gerard Hotho, Sascha Disch, Heiko Purnhagen, e Kristofer Kjrling, MPEG surround: The forthcoming ISO standard for spatial audio coding, na 28^a Conferência Internacional AES, Pitea, Suécia, junho de 2006, embora eles partilhem estruturas de processamento similares. Embora MPEG Surround seja baseado em uma análise de tempo/freqüência dos canais de alto-falantes diferentes, DirAC toma uma entrada dos canais de microfones coincidentes, o que efetivamente descreve o campo de som em um ponto. Dessa maneira, DirAC também representa uma técnica de gravação eficiente para áudio espacial.

Outro sistema que trata de áudio espacial é SAOC (SAOC = Codificação de Objeto de Áudio Espacial), conforme Jonas

Engdegard, Barbara Resch, Cornelia Falch, Oliver Hellmuth,

Johannes Hilpert, Andreas Hoelzer, Leonid Terentiev, Jeroen Breebaart, Jeroen Koppens, Erik Schuijers, e Werner Oomen, Spatial audio object (SAOC) the upcoming MPEG standard on parametric object based audio coding, na 12^a Convenção AES, 17-20 de Maio de 2008, Amsterdã, Holanda, 2008, atualmente sob normatização ISO/MPEG. É baseada na máquina de transmissão de MPEG Surround e trata diferentes fontes de som como objetos. Esta codificação de áudio oferece eficiência bastante alta em termos de 10 taxa de bits e provê liberdade inigualável de interação no lado da reprodução. Esta abordagem promete novas características convincentes e funcionalidade em sistemas 'legacy', assim como várias outras aplicações novas.

O objetivo da presente invenção é prover um 15 conceito- melhorado de processamento espacial. — — — _________ _______ ___O objetivo é—atingido- por -um aparelho para determinar um sinal de áudio espacial convertido de acordo com a

reivindicação	1 e um método	correspondente	de	acordo corr	ϊ a
reivindicação	14 .
20	A presente invenção é baseada	na	descoberta	de
que um processamento espacial	melhorado pode	ser	atingido,	por

exemplo, ao converter um sinal de áudio espacial codificado, como uma corrente DirAC mono, em um sinal de formato B. Nas configurações, o sinal de formato B convertido pode ser processado 25 ou transmitido antes de ser adicionado a alguns outros sinais de áudio e codificados de volta para uma corrente DirAC. Configurações podem ter diferentes aplicações, por exemplo, misturar diferentes tipos de correntes DirAC e de formato B, baseado em DirAC, etc.. Configurações podem introduzir uma operação inversa a WO 2004/077884 Al, isto é a conversão de uma corrente DirAC mono em um formato B.

A presente invenção é baseada na descoberta de que processamento melhorado pode ser atingido, se sinais de áudio forem convertidos em componentes direcionais. Em outras palavras, é a descoberta da presente invenção que processamento espacial melhorado pode ser atingido quando o formato de um sinal de áudio espacial corresponde a componentes direcionais conforme gravados, por exemplo, por um microfone direcional de formato B. Além do mais, é uma descoberta da presente invenção que componentes direcionais ou omnidirecionais de diferentes fontes podem ser processados conjuntamente e com uma eficiência aumentada. Em outras palavras, especialmente quando processando sinais de áudio espaciais de múltiplas fontes de áudio, processamento pode ser -executado -mais--efic-ientemente-, se os sinais das múltiplas fontes de áudio estiverem disponíveis no formato de seus componentes omnidirecionais e direcionais, visto que estes podem ser processados conjuntamente. Nas configurações, portanto, geradores de efeito de áudio ou processadores de áudio podem ser usados mais eficientemente pelo processamento de componentes combinados de fontes múltiplas.

Nas configurações, sinais de áudio espacial podem ser representados como uma corrente DirAC mono denotando uma técnica de distribuição de informação de multimídia DirAC onde os dados de mídia são acompanhados apenas por um canal de áudio na transmissão. Este formato pode ser convertido, por exemplo, em uma corrente de formato B, tendo múltiplos componentes direcionais.

Configurações podem permitir processamento espacial melhorado pela conversão de sinais de áudio espacial nos componentes direcionais.

Configurações podem prover uma vantagem em relação à decodificação DirAC mono, onde apenas um canal de áudio é usado para criar todos os sinais de alto-falante, pelo fato de que processamento espacial adicional é permitido com base em componentes de áudio direcional, que são determinados antes de criar sinais de alto-falante. Configurações podem prover a vantagem de que problemas na criação de sons reverberantes são reduzidos.

Nas configurações, por exemplo, a corrente DirAC pode usar um sinal de áudio estéreo em lugar de um sinal de áudio mono, onde os canais estéreos são L (L= canal estéreo esquerdo) e R (R= canal estéreo direito) e são transmitidos para serem usados na decodificação DirA&-, Configurações—podem atingir—uma qualidade melhor—para som r-e-ve-rberante e prever uma - compatibilidade direta com sistemas de alto-falantes estéreos, por exemplo.

Configurações podem prover a vantagem de que decodificação DirAC de microfone virtual pode ser habilitada. Detalhes sobre decodificação DirAC de microfone virtual podem ser encontrados em V. Pulkki, Spatial sound reproduction with directional audio coding, Journal of the Áudio Engineering Society, 55(6):503-516, junho de 2007. Estas configurações obtêm os sinais de áudio para os alto-falantes colocando microfones virtuais orientados para a posição dos alto-falantes e tendo fontes de som do tipo de ponto, cuja posição é determinada pelos parâmetros DirAC. Configurações podem prover a vantagem de que pela conversão, combinação linear conveniente de sinais de áudio,podem ser habilitadas.

Configurações da presente invenção serão detalhadas usando as Figuras em anexo, nas quais

A Figura la mostra uma configuração de um aparelho para determinar um sinal de áudio espacial convertido;

A Figura 1b mostra pressão e componentes de um vetor de velocidade de partícula em um plano Gaussiano para uma onda plana;

A Figura 2 mostra outra configuração para converter uma corrente mono DirAC de um sinal de formato B;

A Figura 3 mostra uma configuração para combinar múltiplos sinais de áudio éspaciãT convertidos;

As Figuras 4a-4d mostram configurações para combinar múltiplos sinais de áudio espacial baseados em. DirAC aplicando diferentes efeitos de áudio;_______ ___ _ ___

A Figura 5 ilustra uma configuração de um gerador de efeito de áudio;

A Figura 6 mostra uma configuração de um gerador de efeito de áudio aplicando efeitos de áudio múltiplos em componentes direcionais; e

A Figura 7 mostra um estado da técnica do codificador DirAC.

A Figura la mostra um aparelho 100 para determinar um sinal de áudio espacial convertido, o sinal de áudio espacial convertido tendo um componente omnidirecional e pelo menos um componente direcional (X; Y; Z) , de um sinal de áudio espacial de entrada, o sinal de áudio espacial de entrada tendo uma representação de áudio de entrada (W) e uma direção de chegada de entrada (0).

O aparelho 100 compreende um estimador 110 para estimar uma representação de onda compreendendo uma medição de campo de onda e uma medição de direção de chegada de onda com base na representação de áudio de entrada (W) e a direção de chegada de entrada (0) . Além do mais, o aparelho 100 compreende um processador 120 para processamento da medição de campo de onda e medição da direção de chegada da onda para obter o componente 10 omnidirecional e o pelo menos um componente direcional. O estimador 110 pode ser adaptado para estimar a representação de onda como uma representação de onda plana.

⁼ Nas^- co'nf igurãçoes”, o processador pode ser adaptado para prover a representação do áudio de entrada (W) como 15 o componente de_ áudio omnidirecional (WfJ . Em outras .palavras, -o componente de áudio omnidirecional _W'....._pode____ser_____igual „à representação de áudio de entrada W. Portanto, de acordo com as linhas pontilhadas na Figura la, a representação de áudio de entrada pode desviar do estimador 110, do processador 120, ou de 20 ambos. Em outras configurações, o componente de áudio omnidirecional W' pode ser baseado na intensidade da onda e na direção da onda de chegada sendo processada pelo processador 120 com a representação do áudio de entrada W. Nas configurações, componentes de áudio direcional múltiplos (X;Y;Z) podem ser 25 processados, como, por exemplo, um primeiro (X) , um segundo (Y) e/ou um terceiro (Z) componentes de áudio direcional correspondendo a diferentes direções espaciais. Nas configurações, por exemplo, três componentes de áudio direcional diferentes »·)' (X;Y;Z) podem ser derivados de acordo com as direções diferentes de um sistema de coordenadas Cartesianas.

O estimador 110 pode ser adaptado para estimar a medição de campo de onda em termos de uma amplitude de campo de onda e uma fase de campo de onda. Em outras palavras, nas configurações, a medição de campo de onda pode ser estimada como quantidade valorizada complexa. Ά amplitude de campo de onda pode corresponder a uma magnitude de pressão de som e a fase de campo de onda pode corresponder a uma fase de pressão de som em algumas configurações.

Nas configurações a medição de direção de chegada de onda pode corresponder a qualquer quantidade direcional, expressa, por ^:exemplo/’por'um vetor/ um” ou mais ângulos, etc. e pode ser derivada de qualquer medição direcional representando um componente de áudio, como por exemplo, um„vetor de intensidade, um« vetor de velocidade de _part_ícula_, etc . Amedição de campo_ de _onda------pode corresponder a qualquer quantidade física descrevendo um componente de áudio, que pode ser de valor real ou complexo, corresponder a um sinal de pressão, uma amplitude ou magnitude de velocidade de partícula, altura de som, etc. Além do mais, medições podem ser consideradas no domínio de tempo e/ou freqüência.

Configurações podem ser baseadas na estimativa de uma representação de onda plana para cada uma das correntes de entrada, que pode ser executada pelo estimador 110 na Figura la. Em outras palavras, a medição de campo de onda pode ser modelada usando uma representação de onda plana. Em geral, existem várias descrições exaustivas (isto é, completas) equivalentes de uma onda »«s plana ou ondas em geral. A seguir, uma descrição matemática será introduzida para computar parâmetros de difusão e direções dé chegada ou medições de direção para diferentes componentes. Embora apenas umas poucas descrições se relacionem diretamente com quantidades físicas, como, por exemplo, pressão, velocidade de partícula, etc., potencialmente existe um número infinito de diferentes maneiras de descrever representações de onda, das quais uma deve ser apresentada como um exemplo subsequentemente, entretanto, não significando ser limitativa de qualquer maneira às configurações da presente invenção. Qualquer combinação pode corresponder à medição de campo de onda e à medição de direção de chegada de onda.

™ Oe modo a detalhar adicíonalmente descrições potenciais, dois números reais a e b são considerados. A informação contida em_a e b pode ser_transferida pelo envio.de c e d, quando _________ _ _____ __ .___ _______ —

onde Ώ é uma matriz 2x2 conhecida. O exemplo considera apenas combinações lineares, geralmente qualquer combinação, isto é, também uma combinação não linear é concebível.

Os seguintes escalares são representados por letras minúsculas a, b, c, enquanto vetores de coluna são representados por letras minúsculas em negrito a, b, c. O sobrescrito ( denota a transposição, respectivamente, enquanto 0| e θ denota conjugação complexa. A anotação de fasor complexa é distinguida daquela temporal. Por exemplo, a pressão p(t), que é um número real e da qual uma medição de campo de onda possível pode ser derivada, pode ser expressa por meio do fasor P, que é um número complexo e do qual outra medição de campo de onda possível pode ser derivada, por p(z) = Re{Pe-'^a'}, onde Re{} denota a parte real e a=2nf é a freqüência angular. Além do mais, letras maiusculas usadas para quantidades físicas representam fasores a seguir. Para a anotação do exemplo introdutório a seguir, e para evitar confusão, por favor observe que todas as quantidades com PW subscrito se referem a ondas planas.

de velocidade de de propagação da de direção. Pode

Para uma partícula onda plana monocromática

U_PW pode ser anotado como

TT — _c — Po^c

U>

u, ideal o vetor onde o vetor de unidade e_d aponta para a onda, por exemplo, correspondendo a uma ser provado que ^Ia ~ 2p^^Pp^^ed

Ψ = 0 onde denota a intensidade denota a velocidade do som

E denota direção medição denota a a ene densidade do ar, de campo de som e Ψ denota a difusão.

É interessante observar que desde que todos os componentes de e_d são números reais, os componentes de U_PW estão todos em fase com P_pw. A Figura 1b ilustra um exemplar U_P„ e P_pw no plano gaussiano. Conforme mencionado, todos os componentes de U_PW partilham a mesma fase que P_PH, isto é Θ. Suas magnitudes, por outro lado, são ligadas a

Configurações da presente invenção podem prover um método para converter uma corrente mono DirAC em um sinal de formato B. Uma corrente DirAC mono pode ser representada por um sinal de pressão capturado, por exemplo, por um microfone omnidirecional e por informação de lado. A informação de lado pode compreender medições dependentes de tempo-frequência de difusão e 10 direção de chegada de som.

Nas configurações o sinal de áudio espacial de entrada pode compreender ainda um parâmetro de. .difusã^o Ψo estimador 110 pode ser adaptado para estimar a medição de campo de onda adicionalmente baseada no parâmetro de difusão Ψ.

A direção de entrada de chegada e a direção de onda de medição de chegada pode se referir a um ponto de referência correspondendo a um local de registro do sinal de áudio espacial de entrada, isto é, em outras palavras todas as direções podem se referir ao mesmo ponto de referência. O ponto de referência pode ser o local onde um microfone está colocado ou onde microfones direcionais múltiplos estão colocados para gravar um campo de som.

Nas configurações, o sinal de áudio espacial convertido pode compreender um primeiro (X) , um segundo (Y) e um 25 terceiro (Z) componente direcional. O processador 120 pode ser adaptado para processamento adicional da medição de campo de onda e da medição de direção de chegada da onda para obter o primeiro (X) e/ou o segundo (Y) e/ou o terceiro (Z) componentes direcionais e/ou os componentes de áudio omnidirecionais.

A seguir as anotações e um modelo de dados serão apresentados.

Deixemos pft) e u (t) = [u_x (t) ,Uy (t) ,·α_ζ (t) ]^r serem a pressão e vetor de velocidade de partícula, respectivamente, para um ponto específico no espaço, onde [.]^T denota a transposição. p(t) pode corresponder a uma representação de áudio e u(t)=[u_x(t) ,t2y (t) ,u_z (t) ]~ pode corresponder a componentes 10 direcionais. Estes sinais podem ser transformados em um domínio de tempo-frequência por meio de um banco de filtro apropriado ou uma STFT (STFT = Transformada de Fourier de Curta Duração) conforme sugerido, pòr exemplo, por V. Pulkki e C. Faller, Directional audio coding: Filterbank and STFT-based design, na 120^a Convenção 15 AE_S, 20^23 de Maio de. 2006, Paris, -França, Maio -de 2006. — — ~ _ _ _ Deixemos_______ __________ P(k,n) — — -- eU(k,n)=[U_x(k,zi) ,U_y(k,n) ,U_z(k,n) ]^r denotarem os sinais transformados, onde ken são índices para frequência (ou banda de frequência) e tempo, respectivamente. O vetor de intensidade ativa I_a(k,n) pode 20 ser definido como l_o(k,_n)^^l-Re{p(k,n) V'(k.n)} , ₍₁₎ onde (‘)denota conjugação complexa e Re{} extrai a parte real. O vetor de intensidade ativa pode expressar o fluxo líquido de energia caracterizando o campo de som, conforme F.J.

Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd.,

1989.

Deixemos c denotar a velocidade de som no meio considerado e E a energia de campo de som definida por F.J. Fahy.

4p_ec (2) onde I I . I I computa o 2-norm. A seguir, o conteúdo de uma corrente DirAC mono será detalhado.

A corrente DirAC mono pode consistir do sinal mono p(t) ou representação de áudio e de informação de lado, por exemplo, uma medição de direção de chegada. Esta informação de lado pode compreender a direção dependente de tempo-frequência de 10 chegada e uma medição dependendo de tempo-frequência de difusão. O anterior pode ser denotado por βνοΑ&,η) , que é um vetor de unidade apontando para a direção da qual_o som_chega,-isto é, pode=estarmodelando a direção de chegada. O último, por difusão, pode ser denotado por

15—___ ______ _______ _....._ ......._

Nas configurações, o estimador 110 e/ou o processador 120 podem ser adaptados para estimar/processar a DOA de entrada e/ou a medição DOA de onda em termos de um vetor de unidade . Ά direção de chegada pode ser obtida como ^et*>* (k,n)^-e_J (k, n),

Onde o vetor de unidade e₁(k,rL), indica a direção na qual a intensidade ativa aponta, isto é, e_t{k, n) = I_c (k, rí)/||I_o {k, n)j, _(3} respectivamente. Alternativamente nas configurações, a DOA ou medição DOA pode ser expressa em termos de ângulos azimute e de elevação em um sistema de coordenadas esférico. Por exemplo, se <p(k,n) e S(k,n) são ângulos azimute e de elevação, respectivamente, então = [cos(p(A,«)) cos(5(A,«)), sin(p(l, n)) · cos(5(i, n)), sin(^(A, n))f = [ ^eDOAA^k'ⁿT ^eDOAA^k>n), e^yk^n)} (4) onde eDOA,_x(k,n) é um componente do vetor de unidade eoo_A(k,n) da direção de chegada de entrada ao longo de um eixo x de um sistema de coordenadas Cartesianas, &οοα,_υ (k ,n) é um componente de e^^k,!!) ao longo de um eixo y e βοο_Α/Ζ (k,n) é um componente de βνο_Α(Χ,η) ao longo de um eixo z.

Nas configurações, o estimador 110 pode ser adaptado para estimar a medição de campo de onda adi'cion.a Imente baseada no parâmetro de difusão Ψ, opcionalmente também expresso por W(k,n) de uma maneira dependente de tempo-frequência. O estimador 110 pode ser adaptado para estimar com base no parâmetro de difusão em termos de |[<4(Μ)>,|| c < E(k,n)>_t (5) onde <·> indica uma média temporal.

Existem diferentes estratégias para obter P(k,n) e U(k,n) na prática. Uma possibilidade é usar um microfone de formato B, que envia 4 sinais, isto é w(t) , x(t), yft) e z(t). O primeiro, w(t), pode corresponder à leitura de pressão de um microfone omnidirecional. Os três últimos podem corresponder a leituras de pressão de microfones tendo padrões de captação no formato de oito, direcionados para três eixos de um sistema de coordenadas cartesianas. Estes sinais são, também, proporcionais à velocidade de partícula. Portanto, em algumas configurações

P(k,ri)-W(k,ri)

U(k,n) = —~—[Υ(Μ)> r(k,ri), Z(k,n)]^T (6) onde W(t), X(t), Y(t) e Z (t) são os sinais de formato B transformados correspondendo ao componente omnidirecional W(k,n) e aos três componentes direcionais X(k,n), Y(k,n) e Z(k,n). Observe que o fator d2 em (6) se origina da convenção usada na definição dos sinais de formato B, conforme Michael Gerzon, Surround sound psychoacoustics, no Wireless 10 World, volume 80, páginas 483-486, Dezembro de 1974.

Alternativamente, P(k,n) e U(k,n) podem ser estimados por meio de um arranjo de microfone omnidirecional conforme sugerido por J. Merimaa, Applications of a 3-D microphone array, na 112^a Convenção AES, Documento 5501, Munique, 15 maio de 2002. As etapas de processamento descritas acima são também ilustradas na Figura 7.

A Figura 7 mostra um codificador DirAC 200, que é adaptado para computar um canal de áudio mono e informação de lado de sinais de microfone apropriados. Em outras palavras, a Figura 7 20 ilustra um codificador DirAC 200 para determinar a difusão Ψ&,η) e direção de chegada e_CÜA(k,n) de sinais de microfone apropriados. A Figura 7 mostra um codificador DirAC 200 compreendendo uma unidade de estimativa P/U 210. A unidade de estimativa P/U recebe os sinais de microfone como informação de entrada, na qual a 25 estimativa P/U é baseada. Visto que toda informação está disponível, a estimativa P/U é direta de acordo com as equações acima. Um estágio de análise energética 220 permite a estimativa da direção de chegada e do parâmetro de difusão da corrente combinada .

Nas configurações, o estimador 110 pode ser adaptado para determinar a medição do campo de onda ou amplitude baseada em uma fração P(k,n) da representação de áudio de entrada P(k,n). Ά Figura 2 mostra as etapas de processamento de uma configuração para computar os sinais de formato B de uma corrente DirAC mono. Todas as quantidades dependem dos indices de tempo e freqüência (k,n) e são parcialmente omitidas a seguir por uma questão de simplicidade.

Em outras palavras, a Figura 2 ilustra outra configuração. De acordo com a Eq. (6), Wfk,n) é igual à pressão P(k,n) . Portanto, o—problema de sintetização do formato B'de uma corrente DirAC mono é reduzido à estimativa do vetor de velocidade de partícula U(k,zi), visto que seus componentes são proporcionais à X(k,n) , Y(k,n) e Z(k,n). _

Configurações podem se aproximar da estimativa com base na pressuposição de que o campo consiste de uma onda plana somada a um campo difuso. Portanto, a pressão e velocidade de partícula podem ser expressas como

P(k,n)= P_FW(k,n) +P_dlf].(k,n)\ ₍₇₎

Ιί(Λ,») = ^(Λ,η) + ^(λ,7ΐ). ₍₈₎ onde os subscritos Ptf e diff denotam a onda plana e o campo difuso, respectivamente.

Os parâmetros DirAC carregam informação apenas com relação à intensidade ativa. Portanto, o vetor de velocidade de partícula U(k,n) é estimado com O_PW(k,n) , que é o estimador para a velocidade de partícula da onda plana apenas. Ele pode ser definido como

Ü_pa, (k, rí) = ——0(k_t rí) P(k, rí) e^yk.n), Po^c onde o número real P(k,n) é um fator de ponderação apropriado, que no geral é dependente da freqüência e pode exibir uma proporcionalidade inversa à difusão V(k,n). Na verdade, para difusão baixa, isto é, W(k,n) próximo de 0, pode ser pressuposto que o campo é composto de uma onda plana única, de modo que ₌ ΰ (^„)l ,

ZV I «*·->· (10) implicando que p(k,zi) = 1.

Considerando a equação acima e Eq. (6), o componente omnidirecional e/ou o primeiro e/ou segundo e/ou -terceiro componentes direcionais podem-ser expresses como ~~ ----... ---------W(k,n) = P(k,n)------- ------------- ------------- ---------X(k, rí) - -Jz0(k,rí) P(k, rí) · /11)

Y (k, rí) = 42p{k, rí) P(k, rí) e^_y(k, rí)

Z(k, rí) - -Jipik, rí) · P(k,rí) · (k, rí) onde eix,_ArX(k,n) é o componente do vetor de unidade eix>A(k,n) da direção de chegada de entrada junto ao eixo x de um sistema de coordenadas Cartesianas, βοο_Λ,_γ (k,n) é o componente de ecoA(k,n) junto ao eixo Y e euoA^ík,!!) é o componente de βυο_Α(7Γ,η> junto ao eixo z. Na configuração mostrada na Figura 2, a medição de direção de chegada de onda estimada pelo estimador 110 corresponde a eDOA_rX(k,n) , eDOA,_y(k_rn) e &doa,_x (k,n) e a medição do campo de onda corresponde a β(k,n)P(k,n). O primeiro componente direcional conforme enviado pelo processador 120 pode corresponder a qualquer um dentre X(k,a), Y(k,n) ou

Z (k,n) e o segundo componente direcional, consequentemente, a qualquer outro dentre

X(k,n) , Y(k,n) ou Z(k,n).

seguir, duas configurações práticas serão apresentadas sobre como determinar o fator P(k,n).

primeira configuração objetiva estimar a pressão de uma onda plana primeiramente, isto é E_PW(k,n) e, então dela, derivar o vetor de velocidade de partícula.

Definindo a densidade do ar igual a 1, e derrubando a dependência funcional (k,n) para simplicidade, pode (12)

Providas as propriedades estatísticas de campos difusos, uma aproximação pode ser introduzida por ώγτ (13) v

onde Eoif é a energia do campo difuso. O estimador pode, assim, ser obtido por

Para computar as estimativas instantâneas, isto é, para cada telha de tempo-f reqüência os operadores de expectativa podem ser removidos, obtendo = 71-Ψ(Λ:,η)Ρ(Λ,π).

Pela exploração da pressuposição de onda plana, a estimativa para a velocidade de partícula pode ser derivada diretamente

Ü_fw (k, ri) - — p_fíf (fc, _t ^p*^c (16) da qual ocorre que /?(*,«)₍₁₇₎

Em outras palavras, o estimador 110 pode ser 5 adaptado para estimar a fração 0(k,n) com base no parâmetro de difusão V(k,n), de acordo com p(k_>n) = ^l-^k,n) .

e a medição do campo de onda de acordo com

AM)P(M) ,| onde o processador 120 pode ser adaptado para obter a magnitude do primeiro__componente direcional X(k,τι)_e/ou_o segundo componente direcional Y(k_fn) e/ou o terceiro componente direcional Z(k,ix) e/ou o componente de áudio omnidirecional W(k,n) por

W(k,ri) = P(k,ri)

X (A, ri) = Jip(k,ri) · P(fc, ri) · ri)

Y(k,ri) = 45p{k,ri)· PÇk^-e^^ri) ₁₅ Z(k, ri) = 41p(k, ri) P(k, ri) (k, ri) onde a direção de onda da medição de chegada é representada pelo vetor de unidade [&doa,x (k_f n) , SnoA.y (Xr n) , &DOA,z (k,n)] r οπάθ x, y e z i udicam as direções de um sistema de coordenadas Cartesianas.

Uma solução alternativa nas configurações pode ser derivada pela obtenção do fator 0(k,n) diretamente da expressão da difusão V(k,n). Conforme já foi mencionado, a velocidade de partícula U(k,n) pode ser modelada como

U(k,ri) = n) · _e (fc, .

P₀C (18)

A Equação (18) pode ser substituída em (5) conduzindo a —1|< |£(*>«) · «)|² · e,

2p₆c² (19)

Para obter valores instantâneos os operadores de expectativa podem ser removidos e resolvendo para β(k,n) resultar

Ι-Ψ(^η) (20)

Em outras palavras, nas configurações o estimador

110 pode ser adaptado para estimar a fração βίλ,π) com baso em

W(k,n) de acordo com

Nas configurações, o sinal de áudio espacial de entrada pode corresponder a um sinal DirAC mono. Configurações podem ser estendidas para processamento de outras correntes. No caso onde a corrente ou o sinal de áudio espacial de entrada não carrega um canal omnidirecional, configurações podem combinar os canais disponíveis para se aproximarem de um padrão de captação omnidirecional. Por exemplo, no caso de uma corrente DirAC estéreo como sinal de áudio espacial de entrada, o sinal de pressão P na Figura 2 pode ser aproximado pela soma dos canais L e R.

A seguir, uma configuração com Ψ=1 será iluminada. A Figura 2 ilustra que se a difusão for igual a um para ambas as configurações, o som é direcionado exclusivamente para o canal W visto que β é igual a zero, de modo que os sinais X, Y e

Z, isto é, os componentes direcionais, são também zero. Se Ψ=1 constantemente no tempo, o canal de áudio mono pode, dessa maneira, ser direcionado para o canal W sem quaisquer computações adicionais. A interpretação fisica disto é que o sinal de áudio é apresentado ao ouvinte como sendo um campo reativo puro, visto que o vetor de velocidade de partícula tem magnitude zero.

Outro caso quando Ψ=1 ocorre considerando uma situação onde um sinal de áudio está presente apenas em um ou qualquer subconjunto de sinais dipolos, e não no sinal W. Na análise de difusão DirAC este cenário é analisado para ter Ψ=1 com Eq. 5, visto que o vetor de intensidade tem constantemente o comprimento de zero visto que a pressão P é zero na Eq. (1) . A interpretação física disto é também que o sinal de áudio é apresentado ao ouvinte sendo reativo, visto que nesta vez o sinal de pressão é constantemente zero, enquanto o vetor de—velocidade de partícula é diference de zero .--------- ----------Devido ao fato de que o formato B é inerentemente uma representação independente de definição de alto-falante, configurações podem usar o formato B como um idioma comum falado por diferentes dispositivos de áudio, significando que a conversão de um para outro pode ser possível pelas configurações por meio de uma conversão intermediária no formato B. Por exemplo, configurações podem unir correntes DirAC de diferentes ambientes acústicos gravados com diferentes ambientes de com sintetizados no formato B. A união de correntes DirAC mono a correntes de formato B pode também ser permitida pelas configurações.

Configurações podem permitir a união de sinais de áudio de canais múltiplos em qualquer formato 'surround' com uma corrente DirAC mono. Além do mais, configurações podem permitir a união de uma corrente DirAC mono com qualquer corrente de formato B. Além do mais, configurações podem permitir a união de uma corrente DirAC mono com uma corrente de formato B.

Estas configurações podem prover uma vantagem, por exemplo, na criação de reverberação ou introduzindo efeitos de áudio, como será detalhado subsequentemente. Na produção de música, reverberadores podem ser usados como dispositivos de efeito que colocam perceptualmente o áudio processado em um espaço virtual. Na realidade virtual, síntese de reverberação pode ser necessária quando fontes virtuais são auralizadas dentro de um espaço fechado, por exemplo, em salas ou halls de concerto.

Quando um sinal para reverberação está disponível, esta auralização pode ser executada pelas

- 4*5——configurações por meio de aplicação de som—seco e som reverberador·-----a - d-i-fe-rentes correntes—DirAC. Con~igu-r-ações—podem- usar di ferent.es-----abordagens sobre como processar o sinal reverberado no contexto de DirAc, onde configurações podem produzir o som reverberado sendo extremamente difuso ao redor do ouvinte.

A Figura 3 ilustra uma configuração de um aparelho 300 para determinar um sinal de áudio espacial convertido combinado, o sinal de áudio espacial convertido combinado tendo pelo menos um primeiro componente combinado e um segundo componente combinado, onde o sinal de áudio espacial convertido combinado é determinado de um primeiro e um segundo sinal de áudio espacial de entrada tendo uma primeira e uma segunda representação de áudio de entrada e uma primeira e uma segunda direção de chegada.

O aparelho 300 compreende uma primeira configuração do aparelho 101 para determinar um sinal de áudio espacial convertido de acordo com a descrição acima, para prover um primeiro sinal convertido tendo um primeiro componente omnidirecional e pelo menos um componente direcional do primeiro aparelho 101. Além do mais, o aparelho 300 compreende outra configuração de um aparelho 102 para determinar um sinal de áudio espacial convertido de acordo com a descrição acima para prover um

segundo	sinal	convertido,	tendo um segundo	componente
omnidirecional e	pelo menos um	componente direcional	do segundo
aparelho	102 .
		De forma geral,	configurações não estã	o limitadas

à compreensão de apenas dois dos aparelhos 100, em geral, uma pluralidade dos aparelhos descritos acima pode estar compreendida no-aparelho 300, por exemplo, o aparelho 300 pode ser adaptado para combinar uma pluralidade de sinais DirAC. --- ---De acordo com a Figura 3, o aparelho 300 compreende ainda um gerador de efeito de áudio 301 para transmitir o primeiro componente omnidirecional ou o primeiro componente de áudio direcional do primeiro aparelho 101 para obter um primeiro componente transmitido.

Além do mais, o aparelho 300 compreende um primeiro combinador 311 para combinar o primeiro componente transmitido com o primeiro e segundo componentes omnidirecionais, ou para combinar o primeiro componente transmitido com os componentes direcionais do primeiro aparelho 101 e do segundo aparelho 102 para obter o primeiro componente combinado. O aparelho 300 compreende ainda um segundo combinador 312 para combinar o primeiro e segundo componentes omnidirecionais ou os componentes direcionais do primeiro ou segundo aparelho 101 e 102 para obter o segundo componente combinado.

Em outras palavras, o gerador de efeito de áudio

301 pode transmitir o primeiro componente omnidirecional, de modo que o primeiro combinador 311 pode, então, combinar o primeiro componente omnidirecional transmitido, o primeiro componente omnidirecional e o segundo componente omnidirecional para obter o primeiro componente combinado. O primeiro componente combinado 10 pode, então, corresponder, por exemplo, a um componente omnidirecional combinado. Nesta configuração, o segundo combinador

312 pode combinar o componente direcional do primeiro aparelho 101 e o componente direcional do segundo aparelho para obter o segundo componente combinado, por exemplo, correspondendo a um primeiro 15 componente direcional combinado.- — - — ” ___.....____________ —Em outras configurações, o gerador—de efeito de— áudio 301 pode transmitir os componentes direcionais. Nestas configurações, o combinador 311 pode combinar o componente direcional do primeiro aparelho 101, o componente direcional do 20 segundo aparelho 102 e o primeiro componente transmitido para obter o primeiro componente combinado, neste caso correspondendo a um componente direcional combinado. Nesta configuração, o segundo combinador 312 pode combinar o primeiro e segundo componentes omnidirecionais do primeiro aparelho 101 e do segundo aparelho 102 25 para obter o segundo componente combinado, isto é, um componente omnidirecional combinado.

De acordo com as configurações descritas acima, cada um dos aparelhos pode produzir múltiplos componentes direcionais, por exemplo, um componente X, Y e Z. Nas configurações, geradores de efeito de áudio múltiplos podem ser usados, o que é indicado na Figura 3 pelas caixas tracejadas 302, 303 e 304. Estes geradores de efeito de áudio opcionais podem gerar componentes transmitidos correspondentes, baseados nos sinais de entrada omnidirecionais e direcionais. Em uma configuração, um gerador de efeito de áudio pode transmitir um componente direcional com base em um componente omnidirecional. Além do mais, o aparelho 300 pode compreender combinadores múltiplos, isto é, combinadores 311, 312, 313 e 314, de modo a combinar um componente combinado omnidirecional e múltiplos componentes direcionais combinados, por exemplo, para as três dimensões espaciais.

Uma das vantagens da estrutura do aparelho 300 é que - um máximo de quatro geradores de 'efeito de—áudio é~necessário para__transmit ir, de—forma gorai, um—número ilimitado do fontes de áudio.

Conforme indicado pelos combinadores tracejados 331, 332, 333 e 334 na Figura 3, um gerador de efeito de áudio pode ser adaptado para transmitir uma combinação de componentes direcionais e omnidirecionais dos aparelhos 101 e 102. Em uma configuração o gerador de efeito de áudio 301 pode ser adaptado para transmitir uma combinação dos componentes omnidirecionais do primeiro aparelho 101 e do segundo aparelho 102, ou para transmitir uma combinação dos componentes direcionais do primeiro aparelho 101 e do segundo aparelho 102 para obter o primeiro componente transmitido. Conforme indicado pelos caminhos tracejados na Figura 3, combinações de múltiplos componentes podem ser providas para os diferentes geradores de efeito de áudio.

Em uma configuração, todos os componentes omnidirecionais de todas as fontes de som, representados na Figura 3 pelo primeiro aparelho 101 e pelo segundo aparelho 102, podem ser combinados de modo a gerar componentes transmitidos múltiplos. Em cada um dos quatro caminhos mostrados na Figura 3, cada gerador de efeito de áudio pode gerar um componente transmitido a ser adicionado aos componentes direcionais ou omnidirecionais correspondentes das fontes de som.

Além do mais, conforme mostrado na Figura 3, estágios múltiplos de atraso e escalonamento 321 e 322 podem ser usados. Em outras palavras, cada aparelho 101 ou 102 pode ter em seu caminho de saída um estágio de atraso e escalonamento 321 ou 322, de modo a retardar*um ou mais de^-seus componentes' de sãída. Em algumas—configurações,—os estágios—de atraso e escalonamento podem retardar e escalonar os respectivos componentes omnidirecionais, apenas. De forma geral, estágios de atraso e escalonamento podem ser usados para componentes omnidirecionais e direcionais.

Nas configurações, o aparelho 300 pode compreender uma pluralidade de aparelhos 100 representando fontes de áudio e correspondentemente, uma pluralidade de geradores de efeito de áudio, onde o número de geradores de efeito de áudio é menor que o número de aparelhos correspondendo às fontes de som. Conforme já foi mencionado acima, em uma confiquração pode existir até quatro geradores de efeito de áudio, com um número basicamente ilimitado de fontes de som. Nas configurações, um gerador de

efeito de	áudio	pode corresponder a um	reverberador.
A Figura	4a mostra	outra configuração	de um
aparelho	300	em maiores	detalhes.	A· Figura 4a mostra	dois
aparelhos	101	e 102, cada	um enviando um componente de	áudio
omnídirecional	W, e três	componentes	direcionais X, Y,	Z. De

acordo com a configuração mostrada na Figura 4a, os componentes omnidirecionais de cada um dos aparelhos 101 e 102 são providos para dois estágios de atraso e escalonamento 321 e 322, que enviam três componentes retardados e escalonados, que são, então, adicionados por combinadores 331, 332, 333 e 334. Cada um dos sinais combinados é, então, transmitido separadamente por um dos quatro geradores de efeito de áudio 301, 302, 303 e 304, que são implementados como reverberadores na Figura 4a. Conforme indicado —na Figura 4a, cada um dos -geradores—de efeito de áudio envia^-um —c omp o n e n t e—cor r e-s-p onde ndo - - a— um- component e omn i d i r e ci ona 1 o três componentes direcionais no total. Os combinadores 311, 312, 313 e 314 são, então, usados para combinar os respectivos componentes transmitidos com os componentes originais enviados pelos aparelhos 101 e 102, onde na Figura 4a geralmente pode existir uma multiplicidade de aparelhos 100.

Em outras palavras, no combinador 311, uma versão transmitida dos sinais de salda omnidirecionais combinados de todos os aparelhos, pode ser combinada com os componentes de saída omnidirecionais originais ou não transmitidos. Combinações similares podem ser executadas pelos outros combinadores com relação aos componentes direcionais. Na configuração mostrada na Figura 4a, componentes direcionais transmitidos são criados com base em versões retardadas e escalonadas dos componentes omnidirecionais.

De forma geral, configurações podem aplicar um efeito de áudio como, por exemplo, uma reverberação eficientemente a uma ou mais correntes DirAC. Por exemplo, pelo menos duas correntes DirAC são inseridas à configuração do aparelho 300, conforme mostrado na Figura 4a. Nas configurações, estas correntes podem ser correntes DirAC reais ou correntes sintetizadas, por exemplo, tomando um sinal mono e adicionando informação de lado como uma direção e difusão. De acordo com a discussão acima, os aparelhos 101, 102 podem gerar até quatro sinais para cada corrente, isto é, W, X, Y e Z. De forma geral, configurações dos aparelhos 101 ou 102 podem prover menos que três componentes direcionais, por exemplo, apenas X, ou X e Y, ou qualquer outra .15 combinação dos mesmos. ----______ _____________ Em-------algumas— configurações, os - componentesomnidirecionais W podem ser providos para geradores de efeito de áudio, como, por exemplo, reverberadores de modo a criar os componentes transmitidos. Em algumas configurações, para cada uma das correntes DirAC de entrada, os sinais podem ser copiados para as quatro ramificações mostradas na Figura 4a, que podem ser índependentemente retardados, isto é, individualmente por aparelho 101 ou 102, quatro índependentemente retardados, por exemplo, pelos atrasos τ_χ, τ_γ, τ_ζ, e escalonados, por exemplo, por fatores de escalonamento y_vr γ_χ, γ_Υ,γ₂, versões podem ser combinadas antes de serem providas para um gerador de efeito de áudio.

De acordo com as Figuras 3 e 4a, as ramificações de diferentes correntes, isto é, as saídas dos aparelhos 101 e

102, podem ser combinadas para obter quatro sinais combinados. Os sinais combinados podem, então, serem independentemente transmitidos pelos geradores de áudio, por exemplo, reverberadores monofônicos convencionais. Os sinais transmitidos resultantes podem, então, serem somados aos sinais W, X, Y e Z enviados originalmente dos diferentes aparelhos 101 e 102.

Nas configurações, sinais de formato B gerais podem ser obtidos, os quais podem, então, por exemplo, serem reproduzidos com um decodif icador de formato B como é, por exemplo, executado em Ambisonics. Em outras configurações os sinais de formato B podem ser codificados como, por exemplo, com o codificador DirAC conforme mostrado na Figura 7, de modo que a corrente DirAC resultante possa, então, ser transmitida, adicionalmente processada ou decodificada com um decodificador —DirAC mono convencionai. -A etapa de~* decodificação pode“ — corresponder —à- computação de sinais de alto-falante para— reprodução.

A Figura 4b mostra outra configuração de um aparelho 300. A figura 4b mostra os dois aparelhos 101 e 102 com os quatro componentes de saída correspondentes. Na configuração mostrada na Figura 4b, apenas os componentes W omnidirecionais são usados para serem primeiramente individualmente retardados e escalonados nos estágios de atraso e escalonamento 321 e 322 antes de serem combinados pelo combinador 331. O sinal combinado é, então, provido para o gerador de efeito de áudio 301, que é, novamente, implementado como um reverberador na Figura 4b. A saída transmitida do reverberador 301 é, então, combinada com os componentes omnidirecionais originais dos aparelhos 101 e 102 pelo combinador 311. Os outros combinadores 312, 313 e 314 são usados para combinar os componentes direcionais X, Y e Z dos aparelhos 101 e 102, de modo a obter componentes direcionais combinados correspondentes.

Em uma relação com a configuração ilustrada na

Figura 4a, a configuração ilustrada na Figura 4b corresponde com a definição de fatores de escalonamento para as ramificações X, Y e Z como zero. Nesta configuração, apenas um gerador de efeito de áudio ou reverberador 301 é usado.

No geral, conforme os aparelhos 101, 102 e aparelhos N potencialmente correspondendo a fontes N de som, os estágios N potencialmente de atraso e escalonamento 321 podem simular as distâncias de fontes de som, um atraso curto pode corresponder à percepção de uma fonte de som virtual mais próxima do ouvinte. A impressão espacial de um~-ambiente—surround~pode, ----—então,—se-r—criada—pelos geradores ou—reverberadores de efeito de áudio correspondentes.

Configurações, conforme ilustrado nas Figuras 3,

4a e 4b podem ser utilizadas para casos quando decodificação DirAC mono é usada para fontes N de som que são, então, conjuntamenté reverberadas. Visto que pode ser pressuposto que a saída de um reverberador tem uma saída que é totalmente difusa, isto é, ela também pode ser interpretada como um sinal omnidirecional W. Este sinal pode ser combinado com outros sinais de formatoB sintetizados, tais como os sinais de formato B originadosde fontes N de áudio, dessa maneira representando o caminho direto para o ouvinte. Quando o sinal de formato B resultanteé adicionalmente codificado e decodificado por DirAC, o som reverberado pode ser disponibilizado pelas configurações.

Na Figura 4c, outra configuração do aparelho 300 é mostrada. Na configuração mostrada na Figura 4c, com base nos sinais omnidirecionais de saída dos aparelhos 101 e 102, componentes transmitidos reverberados direcionais são criados. Portanto, com base na saída omnidirecional, os estágios de atraso e escalonamento 321 e 322 criam componentes individualmente retardados e escalonados, gue são combinados pelos combinadores 331, 332 e 333. A cada um dos sinais combinados, reverberadores diferentes 301, 302 e 303 são aplicados, que, de forma geral, correspondem a diferentes geradores de efeito de áudio. De acordo com a descrição acima, os componentes omnidirecionais, direcionais e transmitidos correspondentes são combinados pelos combinadores 311, 312, 313 e 314, de modo a prover -um componente omnidirecional combinado e-componentes direcionais combinados.----- --Em outras palavras, os sinais W ou sinais omnidirecionais para cada corrente são alimentados a três geradores de efeito de áudio, como, por exemplo, reverberadores, conforme mostrado nas figuras. De forma geral, existem também apenas duas ramificações dependendo do fato de um sinal de som bidimensional ou tridimensional ser gerado. Após os sinais de formato B serem obtidos, as correntes podem ser decodificadas por meio de um decodificador de microfone virtual DirAC. O último é descrito em detalhe por V. Pulkki, Spatial Sound Reproduction With Directional Audio Coding, Journal of the Audio Engineering Society, 55 (6): 503-516.

Com este decodificador, os sinais de alto-falante Dp(k_fn) podem ser obtidos como uma combinação linear dos sinais W, !

X, Y e Z, por exemplo, de acordo com = G(A,»)[íK(A,n)V2+A'(A,«)cos(a_í,)cosO?_í,) <

+Y (k, n)sin(a_f )cos(fi_p)+Z(A,n)sin<^)] onde a_P e β_Ρ são os ângulos azimute e de elevação I do p-ésimos alto-falante. O termo G(k,n) é um ganho de colocação de uma fonte de som em um campo estéreo (panning) dependente da direção de chegada e da configuração do alto-falante.

Em outras palavras, a configuração mostrada na Figura 4c pode prover os sinais de áudio para os alto-falantes correspondendo aos sinais de áudio que podem ser obtidos pela colocação de microfones virtuais orientados para a posição dos alto-falantes e tendo fontes de som do tipo de ponto, cuja posição é determinada pelos parâmetros DirAC. Os microfones virtuais podem .ter padrões de captação formatados como cardióides, como dipolos, ou como qualquer padrão direcional de primeira ordem.

Os sons reverberados podem, por exemplo, serem eficientemente usados como X e Y na soma do formato B. Estas

configurações	podem ser aplicadas	a layouts de	alto-falantes
horizontais	tendo qualquer número de	alto-falantes,	sem criar uma
necessidade	de	mais reverberadores.
		Conforme discutido	anteriormente,	decodificação

DirAC mono tem limitações na qualidade de reverberação, onde nas configurações a qualidade pode ser melhorada com decodificação DirAC de microfone virtual, que se beneficia também de sinais dipolos em uma corrente de formato B.

A criação apropriada de sinais de formato B para reverberar um sinal de áudio para decodificação de microfone virtual DirAC pode ser executada nas configurações. Um conceito simples e efetivo que pode ser usado pelas configurações é 5 direcionar diferentes canais de áudio para diferentes sinais dipolos, por exemplo, para canais X e Y. As configurações podem implementar isto por meio de dois reverberadores que produzem canais de áudio mono incoerentes do mesmo canal de entrada, tratando suas saídas como canais de áudio dipolo de formato Β X e 10 Y, respectivamente, conforme mostrado na Figura 4c para os componentes direcionais. Visto que os sinais não são aplicados a W, eles serão analisados para serem totalmente difusos na codificação DirAC subseqüente. Também, qualidade aumentada para reverberação pode ser obtida na decodificação de microfone virtual 15 DirAC, visto que os canais- dipolos contêm som diferentemente --------rev-erberado-. Configurações —podem, aqui , gerar uma percepção mais ampla e mais envolvente de reverberação do que com decodificação DirAC mono. Configurações podem, portanto, usar um máximo de dois reverberadores nos layouts de alto-falantes 20 horizontais, e três para layouts de alto-falantes 3-D na reverberação baseada em DirAC descrita.

As configurações podem não estar limitadas a reverberação de sinais, mas podem aplicar quaisquer outros efeitos de áudio que objetivem, por exemplo, uma percepção totalmente 25 difusa de som. Similar às configurações descritas acima, o sinal de formato B reverberado pode ser somado a outros sinais de formato B sintetizados nas configurações, tais como aqueles originados de fontes N de áudio, dessa maneira representando um caminho direto para o ouvinte.

Ainda outra configuração é mostrada na Figura 4d.

A Figura 4d mostra uma configuração similar àquela da Figura 4a, entretanto, nenhum estágio de atraso ou escalonamento 321 ou 322 está presente, isto é, os sinais individuais nas ramificações são apenas reverberados. Ά configuração ilustrada na Figura 4d pode também ser vista como sendo similar à configuração ilustrada na figura 4a com os atrasos e escalonamentos ou ganhos antes dos 10 reverberadores serem ajustados como 0 e 1, respectivamente, entretanto, nesta configuração os reverberadores 301, 302, 303 e 304 não são pressupostos como sendo arbitrários e independentes.

Na configuração ilustrada na Figura 4d, os quatro geradores de efeito de áudio são pressupostamente dependentes entre si tendo 1'5 uma estrutura específica. - = — -= __ ___ — ----- ----- ---------- Cada um aos geradores dc efeito de _ áudio ou reverberadores pode ser implementado como um tapped-delay line como será detalhado subsequentemente com a ajuda da Figura 5. Os atrasos e ganhos ou escalas podem ser escolhidos apropriadamente 20 de uma maneira tal que cada um dos taps modela um eco distinto cuja direção, atraso e energia podem ser definidos conforme desejado.

Nesta configuração, o i-ésimo eco pode ser caracterizado por um fator de ponderação, por exemplo, com 25 referência a um som DirAC p_ír um atraso τ, e uma direção de chegada Θ, e 0, correspondendo à elevação e azimute, respectivamente.

Os parâmetros dos reverberadores podem ser definidos como segue τ w — τ_χ Ty — τ _z — t £ γ_ν = p_±i para o reverberador W,

Y* ⁼ Pi cos (Θ) . cos (θι) , para o reverberador X,

Y_y = pi sen (Θ) . cos (θι) , para o reverberador Ύ,

Yz = Pi sen(9), para o reverberador Z.

Em algumas configurações os parâmetros fisicos de cada eco podem ser extraídos de processos aleatórios ou tomados de uma resposta de impulso espacial de sala. O último podería, por exemplo, ser medido ou simulado com uma ferramenta de acompanhamento de raio.

No geral, configurações podem, aqui^-,’ prover a vantagem de que o número de geradores de efeito de áudio é 1-5 independente do número de fontes. _ _ __ — ------- ...--- ------a Figura . 5__ilustra uma__configuração^ usando um esquema conceituai de um efeito de áudio mono, como, por exemplo, usado dentro de um gerador de efeito de áudio, que é estendido dentro do contexto DirAC. Por exemplo, um reverberador pode ser 20 efetuado de acordo com este esquema. A Figura 5 mostra uma configuração de um reverberador 500. A Figura 5 mostra, em princípio, uma estrutura de filtro FIR (FIR = Resposta de Impulso Finito) . Outras configurações podem usar filtros HR (IIR = Resposta de Impulso Infinito), também. Um sinal de entrada é 25 retardado pelos estágios de atraso K rotulados como 511 a 51K. As cópias retardadas K, para as quais os atrasos são denotados por Xi a r_k do sinal, são, então, amplificadas pelos amplificadores 521 a

52K com fatores de amplificação γι a y_k antes de serem somados no estágio de soma 530.

A Figura 6 mostra outra configuração com uma extensão da cadeia de processamento da Figura 5 dentro do contexto DirAC. A saída do bloco de processamento pode ser um sinal de formato B. A Figura 6 mostra uma configuração onde múltiplos estágios de soma 560, 562 e 564 são utilizados resultando nos três sinais de salda W, X e Y. De modo a estabelecer diferentes combinações, as cópias de sinal retardado podem ser escalonadas diferentemente antes de serem adicionadas nos três estágios de adição diferentes 560, 562 e 564. Isto é executado pelos amplificadores adicionais 531 a 53K e 541 a 54K. Em outras palavras, a. configuração 600 -mostrada na Figura 6 executa reverberação para diferentes componentes de um sinal de formato B baseado em uma corrente DirAC mono. Três_ cópias^ reye.rb.eradas diferentes do sinal são geradas usando três filtros FIR diferentes sendo estabelecidos através de diferentes coeficientes de filtro Pi 3. p_k e iji a i]k.

A configuração a seguir pode se aplicar a um reverberador ou efeito de áudio que pode ser modelado como na Figura 5. Um sinal de entrada opera através de um tapped-delay line simples, onde cópias múltiplas são somadas. O i-ésimo de ramificações K é retardado e atenuado, por e Yír respectivamente.

Os fatores γ e τ podem ser obtidos dependendo do efeito de áudio desejado. No caso de um reverberador, estes fatores imitam a resposta de impulso da sala que deve ser simulada. De qualquer maneira, sua determinação não é iluminada e eles são, dessa maneira, pressupostamente providos.

Uma configuração é ilustrada na Figura 6. O esquema da Figura 5 é estendido, de modo que mais duas camadas são obtidas. Nas configurações, para cada ramificação um ângulo de chegada Θ pode ser designado, obtido de um processo estocástico. Por exemplo, Θ pode ser a realização de uma distribuição uniforme na faixa [-π, π]. Ά i-ésima ramificação é multiplicada com os fatores e pi, que podem ser definidos como = sen(Qi) (21)

Pi = aos(e_±) (22)

Nas configurações, o i-ésimo eco pode ser percebido como vindo de θ/. A èxtensão para 3D é direta. Neste caso, mais uma camada necessita ser adicionada, e um ângulo de elevação necessita _ser considerado.. Após o„sinal .de formato B ter sido gerado, isto__é, W,X,Y, e possivelmente Z,__combinações com..

outros sinais de formato B podem ser executadas. Então, ele pode ser enviado diretamente para um decodificador DirAC de microfone virtual, ou após codificação DirAC a corrente DirAC mono pode ser enviada para um decodificador DirAC mono.

Configurações podem compreender um método para determinar um sinal de áudio espacial convertido, o sinal de áudio espacial convertido tendo um primeiro componente de áudio direcional e um segundo componentes de áudio direcional, de um sinal de áudio espacial de entrada, o sinal de áudio espacial de entrada tendo uma representação de áudio de entrada e uma direção de entrada de chegada. O método compreende uma etapa de estimar uma representação de onda compreendendo uma medição de campo de onda e uma medição de direção de chegada de onda baseada na representação de áudio de entrada e na direção de chegada de entrada. Além do mais, o método compreende uma etapa de processamento da medição de campo de onda e medição de direção de 5 chegada de onda para obter o primeiro componente direcional e o segundo componente direcional.

Nas configurações, um método para determinar um sinal de áudio espacial convertido pode ser compreendido de uma etapa de obtenção de uma corrente DirAC mono que é para ser 10 convertida no formato B. Opcionalmente, W pode ser obtido de P, quando disponível. Se não, uma etapa de aproximação de W como uma combinação linear dos sinais de áudio disponíveis pode ser executada. Subsequentemente, uma etapa de computação do fator β como um fator de ponderação dependente de freqüência e tempo 1_5_ inversamente .proporcional à difusão -pode ser executada, po-r exemplo, de acordo com_____ ____ ...__... ------ --or pa.n)=ⁿ»³ .

J - Ψ(κ,η)

Ο método pode compreender ainda uma etapa de computação dos sinais X, Y e Z de P,/3 e βζχ>_Α.

Para casos nos quais Ψ-1, a etapa de obtenção de

W de P pode ser substituída pela obtenção de W de P com X, Y, e Z sendo zero, obtendo pelo menos um sinal dipolo X, Y, ou Z de P; W sendo zero, respectivamente. Configurações da presente invenção podem executar processamento de sinal no domínio do formato B, resultando na vantagem de que processamento de sinal avançado pode ser executado antes de os sinais de alto-falante serem gerados.

Dependendo de certos requisitos de implementação dos métodos da invenção, os métodos inventivos podem ser implementados em hardware e software. Ά implementação pode ser executada usando um meio de armazenagem digital, e especificamente 5 uma memória flash, um disco, um DVD ou um CD tendo sinais de controle eletronicamente legíveis armazenados nos mesmos, que cooperam com um sistema de computador programável, de modo que os métodos inventivos sejam executados. De forma geral, a presente invenção é, portanto, um código de programa de computador com um 10 código de programa armazenado em um veículo legível por máquina, o código de programa sendo operacional para executar os métodos inventivos quando o programa de computador opera em um computador ou processador. Em outras palavras, os métodos inventivos são, portanto, um programa de computador tendo um código de programa 15. para. ...executar pelo menos um dos métodos inventivos, quando o ________programa __de . computador-. ... opera em um- computador—

Claims

Reivindicações

15..

1. Aparelho (100) para determinar um sinal de áudio espacial convertido, o sinal de áudio espacial convertido tendo um componente de áudio omnidirecional (W' ) e pelo menos um componente de áudio direcional (X; Y; Z) , de um sinal de áudio espacial de entrada, o sinal de áudio espacial de entrada tendo uma representação de áudio de entrada (W) e uma direção de chegada de entrada (0), compreendendo um estimador (110) para estimar uma representação de onda, a representação de onda compreendendo uma medição de campo de onda e uma medição de direção de chegada de onda, com base na representação de áudio de entrada (W) e na direção de chegada de entrada (0); e um processador (120) para processar a medição de campo de onda e a medição de direção de chegada de onda para-obter— o componente omnidirecional ( 'W) e—pelo -menos -um componente — direcional (X; Y; Z).
2. Aparelho (100), de acordo com a reivindicação 1, caracterizado pelo fato de que o estimador (110) é adaptado para estimar a medição do campo de onda em termos de uma amplitude de campo de onda e de fase de campo de onda.
3. Aparelho (100), de acordo com uma das reivindicações 1 ou 2, caracterizado pelo fato de que o sinal de áudio espacial de entrada compreende ainda um parâmetro de difusão Ψ e onde o estimador (110) é adaptado para estimar a medição do campo de onda baseada adicionalmente no parâmetro de difusão Ψ.
4. Aparelho (100), de acordo com uma das reivindicações de 1 a 3, caracterizado pelo fato de que a direção de chegada de entrada e a medição de direção de chegada de onda se referem a um ponto de referência, o ponto de referência correspondendo a um local de gravação do sinal de áudio espacial de entrada.
5.

Aparelho (100) de acordo com uma das reivindicações de 1 a 4, caracterizado pelo fato de que o sinal de áudio espacial convertido compreende um primeiro um segundo (Y) e um terceiro componente direcional e onde o processador (120) adaptado para processamento adicional da medição de campo de onda e da medição de direção de chegada de onda para obter o primeiro (X) , segundo (Y) e terceiro (Z) componentes direcionais.
6. Aparelho (100) de acordo com uma das reivindicações de 2a 5, caracterizado pelo fato de que o estimador (110) é adaptado para determinar a medição de campo de onda baseado em uma fração p(k,n) da_ representação de áudio- de — entrada P(k,n) onde k denota um_índiçe de tempo e n denota— um índice de frequência.
7. Aparelho (100), de acordo com a reivindicação

6, caracterizado pelo fato de que o processador (120) é adaptado para obter uma medição complexa do primeiro componente direcional

X(k,n) e/ou do segundo componente direcional Y(k,n) e/ou do terceiro componente direcional Z(k,n) e/ou do componente de áudio omnidirecional W(k,n) por

W(k,n) = P(k,n)

X(k, n) = 41p(k, ri) · P(k, n) · (k, ri)

Y(k,n) = Vw.n)· P(.k,n)_eD0A^k,n) Z(k„ ri) = -Jip^ri) P(k,ri) (k, ri) onde θοοΑ,χ&,η) é um componente de um vetor de unidade e^fk,!!) da direção de chegada de entrada ao longo do eixo

x de um sistema de coordenadas Cartesianas, evoA^y (k,n) é um componente de ©doa (k_rn) ao longo do eixo Y e &οοα,ζ (k,n) é um componente de βρο_{Α/ z} (k,n) ao longo do eixo z.
8. Aparelho (100), de acordo com uma das reivindicações 6 ou 7, caracterizado pelo fato de que o estimador (110) é adaptado para estimar uma fração P(k,n) baseada no parâmetro de difusão W(k,n), de acordo com
9. Aparelho (100), de acordo com uma das reivindicações 6 ou 7, caracterizado pelo fato de que o estimador (110) é adaptado para estimar uma fração P(k,n) baseada em W(k_rn), de acordo com l-V(k.n) — ~ Ί0. Aparelho (T00) , de’ acordo com uma das reivindi~cações 1 a 9, caracterizado pelo faLo de que dsinal dè áudio espacial de entrada corresponde a um sinal de áudio codificado por DirAC e o sinal de áudio espacial convertido corresponde a um sinal de formato B.
11. Aparelho (300) para determinar um sinal de áudio espacial convertido combinado, o sinal de áudio espacial convertido combinado tendo pelo menos um primeiro componente combinado e um segundo componente combinado, de um primeiro e um segundo sinal de áudio espacial de entrada, o primeiro sinal de áudio espacial de entrada tendo uma primeira representação de áudio de entrada e uma primeira direção de chegada, o segundo sinal de entrada espacial tendo uma segunda representação de áudio de entrada e uma segunda direção de chegada, compreendendo:

um primeiro aparelho (101) de acordo com uma das reivindicações 1 a 10, para prover um primeiro sinal convertido, tendo um primeiro componente omnidirecional e pelo menos um componente direcional do primeiro aparelho (101);

um segundo aparelho (102) de acordo com uma das reivindicações 1 a 10, para prover um segundo sinal convertido, tendo um segundo componente omnidirecional e pelo menos um componente direcional do segundo aparelho (102);

um gerador de efeito de áudio (301) para transmitir o primeiro componente omnidirecional ou o componente direcional do primeiro aparelho (101) para obter um primeiro componente transmitido;

um primeiro combinador (311) para combinar o primeiro componente transmitido, o primeiro componente omnidirecional e o segundo componente omnidirecional, ou para combinar------o—primeiro--componente transmitido, o componente direcional do primeiro aparelho (101), e o componente direcional do segundo aparelho (102) para obter o primeiro componente combinado; e um segundo combinador (312) para combinar o componente direcional do primeiro aparelho (101) e o componente direcional do segundo aparelho (102), ou para combinar o primeiro componente omnidirecional e o segundo componente omnidirecional para obter o segundo componente combinado.
12. Aparelho (300), de acordo com a reivindicação 11, caracterizado pelo fato de que o gerador de efeito de áudio (301) é adaptado para transmitir uma combinação do primeiro componente omnidirecional e do segundo componente omnidirecional, ou para transmitir uma combinação do componente direcional do primeiro aparelho (101) e o componente direcional do segundo aparelho (102) para obter o primeiro componente transmitido.
13. Aparelho (300), de acordo com qualquer uma das reivindicações 11 ou 12, compreendendo ainda um primeiro estágio de atraso e escalonamento (321) para retardar e/ou escalonar o primeiro componente omnidirecional e/ou o componente direcional do primeiro aparelho (101), e/ou o segundo estágio de atraso e escalonamento (322) para retardar e/ou escalonar o segundo componente omnidirecional e/ou componente direcional do segundo aparelho (102).
14. Aparelho (300), de acordo com uma das reivindicações 11 a 13, compreendendo uma pluralidade de aparelhos (100) de acordo com uma das reivindicações 1 a 10 para converter uma pluralidade de sinais de áudio espaciais de entrada, o aparelho (300)- compreendendo ainda uma pluralidade de geradores de efeito de áudio, caracterizado pelo fato de que o número de geradores de efeito de áudio é menor que o número de aparelhos (100) de acordo com uma das reivindicações 1 a 10.
15. Aparelho (300), de acordo com uma das reivindicações 11 a 14, caracterizado pelo fato de que o gerador de efeito de áudio (301) é adaptado para reverberar o primeiro componente omnidirecional ou o componente direcional do primeiro aparelho (101) para obter o primeiro componente transmitido.
16. Método para determinar um sinal de áudio espacial convertido, o sinal de áudio espacial convertido tendo um componente de áudio omnidirecional (W' ) e pelo menos um componente de áudio direcional (X;Y;Z), de um sinal de áudio espacial de entrada, o sinal de áudio espacial de entrada tendo uma representação de áudio de entrada (W) e uma direção de entrada de chegada (0) , compreendendo as etapas de:

estimar uma representação de onda compreendendo

5 uma medição de campo de onda e uma medição de direção de chegada de onda baseada na representação de áudio de entrada (W) e na direção de chegada de entrada (0); e processamento da medição de campo de onda e da medição de direção de chegada de onda para obter o componente 10 omnidirecional e pelo menos um componente direcional (X;Y;Z).
17. Programa de computador tendo um código de programa para executar o método da reivindicação 16, quando o código de programa opera em um processador de computador.