BRPI0912451A2 - aparelho para determinar um sinal de áudio espacial convertido. - Google Patents

aparelho para determinar um sinal de áudio espacial convertido. Download PDF

Info

Publication number
BRPI0912451A2
BRPI0912451A2 BRPI0912451A BRPI0912451A BRPI0912451A2 BR PI0912451 A2 BRPI0912451 A2 BR PI0912451A2 BR PI0912451 A BRPI0912451 A BR PI0912451A BR PI0912451 A BRPI0912451 A BR PI0912451A BR PI0912451 A2 BRPI0912451 A2 BR PI0912451A2
Authority
BR
Brazil
Prior art keywords
component
audio
directional
input
omnidirectional
Prior art date
Application number
BRPI0912451A
Other languages
English (en)
Inventor
Galdo Giovanni Del
Markus Kallinger
Fabian Kuech
Mikko-Ville Laitinen
Ville Pulkki
Richard Schultz-Amling
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of BRPI0912451A2 publication Critical patent/BRPI0912451A2/pt
Publication of BRPI0912451B1 publication Critical patent/BRPI0912451B1/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Descrição
Ά presente invenção está no campo de processamento de áudio, especialmente processamento de áudio espacial e conversão de formatos de áudio espacial diferentes.
Codificação de áudio DirAC (DirAC = Codificação de Áudio Direcional) é um método para a reprodução e processamento de áudio espacial. Sistemas convencionais aplicam DirAC em reprodução de qualidade alta bidimensional e tridimensional de som gravado, aplicações de teleconferência, microfones direcionais, e upmix de estéreo para surround, conforme V. Pulkki e C. Faller, Directional audio coding: Filterbank and STFT-based design, na 120a Convenção AES, 20-23 de Maio de 2006, Paris, França, Maio de 2006,--V. Pulkki and C. Faller, Directional - audio- coding in spatial-— ....sound__reproduction and_stereo upmixing, in.. AES 28th International.-----Conference, Pitea, Sweden, June 2006, V. Pulkki, Spatial sound reproduction with directional audio coding, Journal of the Audio Engineering Society, 55(6):503-516, Junho de 2007, Jukka Ahonen, V. Pulkki e Tapio Lokki, Teleconference application and B-format microphone array for directional audio coding, na 30a Conferência Internacional AES.
Outras aplicações convencionais usando DirAC são, por exemplo, o formato de codificação universal e cancelamento de ruido. Na DirAC, algumas propriedades direcionais de som são analisadas em bandas de freqüência dependentes do tempo. Os dados de análise são transmitidos com dados de áudio e sintetizados para diferentes objetivos. A análise é comumente feita usando sinais de formato B, embora teoricamente DirAC não esteja limitada a este formato. Formato B, conforme Michael Gerzon, Surround Sound psychoacoustics, no Wireless World, volume 80, páginas 483-486, dezembro de 1974, foi desenvolvido dentro do trabalho sobre Ambisonics, um sistema desenvolvido pelos pesquisadores britânicos nos anos 70 para trazer o som surround de salas de concerto para salas de estar. O formato B consiste de quatro sinais, isto é w(t) , x(t), y (t) , e z (t) . 0 primeiro corresponde à pressão medida por um microfone omnidirecional, enquanto os três últimos são leituras de pressão de microfones tendo padrões de captação no formato de oito direcionados para os três eixos de um sistema de coordenada cartesiana. Os sinais x (t), y (t), e z (t) são proporcionais aos componentes de vetor de velocidade de partícula direcionado para x, y e z, respectivamente.
A corrente DirAC consiste—de 1-4 canais de áudio--com metadados direcionais. Em teleconferência e alguns outros casos, a corrente consiste de apenas um único canal de áudio com metadados, denominado de corrente Dirac mono. Esta é uma maneira bastante compacta de descrever áudio espacial, visto que apenas um único canal de áudio necessita ser transmitido com informação de lado, que, por exemplo, provê boa separação espacial entre os interlocutores. Entretanto, nestes casos alguns tipos de som, tais como cenários de som reverberado ou ambiente podem ser reproduzidos com qualidade limitada. Para obter uma qualidade melhor nestes casos, canais de áudio adicionais necessitam serem transmitidos.
A conversão do formato B em DirAC é descrita por V. Pulkki, A method for reproducing natural or modified spatial impression in multichannel listening, Patente WO 2004/077884 Al, setembro de 2004. Codificação de Áudio Direcional é uma abordagem eficiente para a análise e reprodução de som espacial. DirAC usa uma representação paramétrica de campos de som com base nas características que são relevantes para a percepção de som espacial, isto é a DOA (DOA = Direção de chegada) e difusão do campo de som nas sub-bandas de frequência. Na verdade, DirAC assume que diferenças de tempo interaurais (ITD) e diferenças de nível interaural (ILD) são percebidas corretamente quando a DOA de um campo é corretamente reproduzida, enquanto coerência interaural (IC) é percebida corretamente, se a difusão for reproduzida com precisão. Estes parâmetros, isto é DOA e difusão, representam “infoTmaçãÕ' de lado que acompanha ~um sinal mono que é referido como uma corrente DirAC mono.
_ _ _ _ A_Figura 7,. mostra o, codificador—DirAC, que a~ partir dos sinais de microfone próprios,. computa um,canal de-áudiomono e informação de lado, isto é, difusão Ψ(Κ,η) e direção de chegada e»,* (Ττ,.η; . A Figura 7 mostra um codificador DirAC 200, que é adaptado para computar um canal de áudio mono e informação de lado de sinais de microfones apropriados. Em outras palavras, a Figura 7 ilustra um codificador DirAC 200 para determinar a difusão e direção de chegada de sinais de microfone apropriados. A Figura 7 mostra um codificador DirAC 200 compreendendo uma unidade de estimativa P/U 210, onde P(k,n) representa um sinal de pressão e U(krn) representa um vetor de velocidade de partícula. A unidade de estimativa P/U recebe os sinais de microfone como informação de entrada, na qual a estimativa de P/U é baseada. Um estágio de análise energética 220 permite a estimativa da direção de chegada e parâmetro de difusão da corrente DirAC mono.
Os parâmetros DirAC, como por exemplo, uma representação de áudio mono W(k,n), um parâmetro de difusão W(k,n) e uma direção de chegada (DOA) e^Afk,!!), podem ser obtidos de uma representação de freqüência-tempo dos sinais de microfone. Portanto, os parâmetros são dependentes de tempo e frequência. No lado da reprodução, esta informação permite uma transmissão espacial precisa. Para recriar o som espacial em uma posição de audição desejada, um arranjo de alto-falantes múltiplos é requerido. Entretanto, sua geometria pode ser arbitrária. Na verdade, os canais de alto-falantes podem ser determinados como uma função dos parâmetros DirAC.
Existem diferenças substanciais entre DirAC e codificação de- áudio- de canais múltiplos paramétrica, rsvccmc MPEG Surround, conforme La-rs- Villemocs, Juer-gen Herre, -Jeroen Breebaart, Gerard Hotho, Sascha Disch, Heiko Purnhagen, e Kristofer Kjrling, MPEG surround: The forthcoming ISO standard for spatial audio coding, na 28a Conferência Internacional AES, Pitea, Suécia, junho de 2006, embora eles partilhem estruturas de processamento similares. Embora MPEG Surround seja baseado em uma análise de tempo/freqüência dos canais de alto-falantes diferentes, DirAC toma uma entrada dos canais de microfones coincidentes, o que efetivamente descreve o campo de som em um ponto. Dessa maneira, DirAC também representa uma técnica de gravação eficiente para áudio espacial.
Outro sistema que trata de áudio espacial é SAOC (SAOC = Codificação de Objeto de Áudio Espacial), conforme Jonas
Engdegard, Barbara Resch, Cornelia Falch, Oliver Hellmuth,
Johannes Hilpert, Andreas Hoelzer, Leonid Terentiev, Jeroen Breebaart, Jeroen Koppens, Erik Schuijers, e Werner Oomen, Spatial audio object (SAOC) the upcoming MPEG standard on parametric object based audio coding, na 12a Convenção AES, 17-20 de Maio de 2008, Amsterdã, Holanda, 2008, atualmente sob normatização ISO/MPEG. É baseada na máquina de transmissão de MPEG Surround e trata diferentes fontes de som como objetos. Esta codificação de áudio oferece eficiência bastante alta em termos de 10 taxa de bits e provê liberdade inigualável de interação no lado da reprodução. Esta abordagem promete novas características convincentes e funcionalidade em sistemas 'legacy', assim como várias outras aplicações novas.
O objetivo da presente invenção é prover um 15 conceito- melhorado de processamento espacial. — — — _________ _______ ___O objetivo é—atingido- por -um aparelho para determinar um sinal de áudio espacial convertido de acordo com a
reivindicação 1 e um método correspondente de acordo corr ϊ a
reivindicação 14 .
20 A presente invenção é baseada na descoberta de
que um processamento espacial melhorado pode ser atingido, por
exemplo, ao converter um sinal de áudio espacial codificado, como uma corrente DirAC mono, em um sinal de formato B. Nas configurações, o sinal de formato B convertido pode ser processado 25 ou transmitido antes de ser adicionado a alguns outros sinais de áudio e codificados de volta para uma corrente DirAC. Configurações podem ter diferentes aplicações, por exemplo, misturar diferentes tipos de correntes DirAC e de formato B, baseado em DirAC, etc.. Configurações podem introduzir uma operação inversa a WO 2004/077884 Al, isto é a conversão de uma corrente DirAC mono em um formato B.
A presente invenção é baseada na descoberta de que processamento melhorado pode ser atingido, se sinais de áudio forem convertidos em componentes direcionais. Em outras palavras, é a descoberta da presente invenção que processamento espacial melhorado pode ser atingido quando o formato de um sinal de áudio espacial corresponde a componentes direcionais conforme gravados, por exemplo, por um microfone direcional de formato B. Além do mais, é uma descoberta da presente invenção que componentes direcionais ou omnidirecionais de diferentes fontes podem ser processados conjuntamente e com uma eficiência aumentada. Em outras palavras, especialmente quando processando sinais de áudio espaciais de múltiplas fontes de áudio, processamento pode ser -executado -mais--efic-ientemente-, se os sinais das múltiplas fontes de áudio estiverem disponíveis no formato de seus componentes omnidirecionais e direcionais, visto que estes podem ser processados conjuntamente. Nas configurações, portanto, geradores de efeito de áudio ou processadores de áudio podem ser usados mais eficientemente pelo processamento de componentes combinados de fontes múltiplas.
Nas configurações, sinais de áudio espacial podem ser representados como uma corrente DirAC mono denotando uma técnica de distribuição de informação de multimídia DirAC onde os dados de mídia são acompanhados apenas por um canal de áudio na transmissão. Este formato pode ser convertido, por exemplo, em uma corrente de formato B, tendo múltiplos componentes direcionais.
Configurações podem permitir processamento espacial melhorado pela conversão de sinais de áudio espacial nos componentes direcionais.
Configurações podem prover uma vantagem em relação à decodificação DirAC mono, onde apenas um canal de áudio é usado para criar todos os sinais de alto-falante, pelo fato de que processamento espacial adicional é permitido com base em componentes de áudio direcional, que são determinados antes de criar sinais de alto-falante. Configurações podem prover a vantagem de que problemas na criação de sons reverberantes são reduzidos.
Nas configurações, por exemplo, a corrente DirAC pode usar um sinal de áudio estéreo em lugar de um sinal de áudio mono, onde os canais estéreos são L (L= canal estéreo esquerdo) e R (R= canal estéreo direito) e são transmitidos para serem usados na decodificação DirA&-, Configurações—podem atingir—uma qualidade melhor—para som r-e-ve-rberante e prever uma - compatibilidade direta com sistemas de alto-falantes estéreos, por exemplo.
Configurações podem prover a vantagem de que decodificação DirAC de microfone virtual pode ser habilitada. Detalhes sobre decodificação DirAC de microfone virtual podem ser encontrados em V. Pulkki, Spatial sound reproduction with directional audio coding, Journal of the Áudio Engineering Society, 55(6):503-516, junho de 2007. Estas configurações obtêm os sinais de áudio para os alto-falantes colocando microfones virtuais orientados para a posição dos alto-falantes e tendo fontes de som do tipo de ponto, cuja posição é determinada pelos parâmetros DirAC. Configurações podem prover a vantagem de que pela conversão, combinação linear conveniente de sinais de áudio,podem ser habilitadas.
Configurações da presente invenção serão detalhadas usando as Figuras em anexo, nas quais
A Figura la mostra uma configuração de um aparelho para determinar um sinal de áudio espacial convertido;
A Figura 1b mostra pressão e componentes de um vetor de velocidade de partícula em um plano Gaussiano para uma onda plana;
A Figura 2 mostra outra configuração para converter uma corrente mono DirAC de um sinal de formato B;
A Figura 3 mostra uma configuração para combinar múltiplos sinais de áudio éspaciãT convertidos;
As Figuras 4a-4d mostram configurações para combinar múltiplos sinais de áudio espacial baseados em. DirAC aplicando diferentes efeitos de áudio;_______ ___ _ ___
A Figura 5 ilustra uma configuração de um gerador de efeito de áudio;
A Figura 6 mostra uma configuração de um gerador de efeito de áudio aplicando efeitos de áudio múltiplos em componentes direcionais; e
A Figura 7 mostra um estado da técnica do codificador DirAC.
A Figura la mostra um aparelho 100 para determinar um sinal de áudio espacial convertido, o sinal de áudio espacial convertido tendo um componente omnidirecional e pelo menos um componente direcional (X; Y; Z) , de um sinal de áudio espacial de entrada, o sinal de áudio espacial de entrada tendo uma representação de áudio de entrada (W) e uma direção de chegada de entrada (0).
O aparelho 100 compreende um estimador 110 para estimar uma representação de onda compreendendo uma medição de campo de onda e uma medição de direção de chegada de onda com base na representação de áudio de entrada (W) e a direção de chegada de entrada (0) . Além do mais, o aparelho 100 compreende um processador 120 para processamento da medição de campo de onda e medição da direção de chegada da onda para obter o componente 10 omnidirecional e o pelo menos um componente direcional. O estimador 110 pode ser adaptado para estimar a representação de onda como uma representação de onda plana.
= Nas- co'nf igurãçoes”, o processador pode ser adaptado para prover a representação do áudio de entrada (W) como 15 o componente de_ áudio omnidirecional (WfJ . Em outras .palavras, -o componente de áudio omnidirecional _W'....._pode____ser_____igual „à representação de áudio de entrada W. Portanto, de acordo com as linhas pontilhadas na Figura la, a representação de áudio de entrada pode desviar do estimador 110, do processador 120, ou de 20 ambos. Em outras configurações, o componente de áudio omnidirecional W' pode ser baseado na intensidade da onda e na direção da onda de chegada sendo processada pelo processador 120 com a representação do áudio de entrada W. Nas configurações, componentes de áudio direcional múltiplos (X;Y;Z) podem ser 25 processados, como, por exemplo, um primeiro (X) , um segundo (Y) e/ou um terceiro (Z) componentes de áudio direcional correspondendo a diferentes direções espaciais. Nas configurações, por exemplo, três componentes de áudio direcional diferentes »·)' (X;Y;Z) podem ser derivados de acordo com as direções diferentes de um sistema de coordenadas Cartesianas.
O estimador 110 pode ser adaptado para estimar a medição de campo de onda em termos de uma amplitude de campo de onda e uma fase de campo de onda. Em outras palavras, nas configurações, a medição de campo de onda pode ser estimada como quantidade valorizada complexa. Ά amplitude de campo de onda pode corresponder a uma magnitude de pressão de som e a fase de campo de onda pode corresponder a uma fase de pressão de som em algumas configurações.
Nas configurações a medição de direção de chegada de onda pode corresponder a qualquer quantidade direcional, expressa, por :exemplo/’por'um vetor/ um” ou mais ângulos, etc. e pode ser derivada de qualquer medição direcional representando um componente de áudio, como por exemplo, um„vetor de intensidade, um« vetor de velocidade de _part_ícula_, etc . Amedição de campo_ de _onda------pode corresponder a qualquer quantidade física descrevendo um componente de áudio, que pode ser de valor real ou complexo, corresponder a um sinal de pressão, uma amplitude ou magnitude de velocidade de partícula, altura de som, etc. Além do mais, medições podem ser consideradas no domínio de tempo e/ou freqüência.
Configurações podem ser baseadas na estimativa de uma representação de onda plana para cada uma das correntes de entrada, que pode ser executada pelo estimador 110 na Figura la. Em outras palavras, a medição de campo de onda pode ser modelada usando uma representação de onda plana. Em geral, existem várias descrições exaustivas (isto é, completas) equivalentes de uma onda »«s plana ou ondas em geral. A seguir, uma descrição matemática será introduzida para computar parâmetros de difusão e direções dé chegada ou medições de direção para diferentes componentes. Embora apenas umas poucas descrições se relacionem diretamente com quantidades físicas, como, por exemplo, pressão, velocidade de partícula, etc., potencialmente existe um número infinito de diferentes maneiras de descrever representações de onda, das quais uma deve ser apresentada como um exemplo subsequentemente, entretanto, não significando ser limitativa de qualquer maneira às configurações da presente invenção. Qualquer combinação pode corresponder à medição de campo de onda e à medição de direção de chegada de onda.
™ Oe modo a detalhar adicíonalmente descrições potenciais, dois números reais a e b são considerados. A informação contida em_a e b pode ser_transferida pelo envio.de c e d, quando _________ _ _____ __ .___ _______ —
Figure BRPI0912451A2_D0001
onde Ώ é uma matriz 2x2 conhecida. O exemplo considera apenas combinações lineares, geralmente qualquer combinação, isto é, também uma combinação não linear é concebível.
Os seguintes escalares são representados por letras minúsculas a, b, c, enquanto vetores de coluna são representados por letras minúsculas em negrito a, b, c. O sobrescrito ( denota a transposição, respectivamente, enquanto 0| e θ denota conjugação complexa. A anotação de fasor complexa é distinguida daquela temporal. Por exemplo, a pressão p(t), que é um número real e da qual uma medição de campo de onda possível pode ser derivada, pode ser expressa por meio do fasor P, que é um número complexo e do qual outra medição de campo de onda possível pode ser derivada, por p(z) = Re{Pe-'a'}, onde Re{} denota a parte real e a=2nf é a freqüência angular. Além do mais, letras maiusculas usadas para quantidades físicas representam fasores a seguir. Para a anotação do exemplo introdutório a seguir, e para evitar confusão, por favor observe que todas as quantidades com PW subscrito se referem a ondas planas.
de velocidade de de propagação da de direção. Pode
Para uma partícula onda plana monocromática
UPW pode ser anotado como
TT — c — Poc
U>
u, ideal o vetor onde o vetor de unidade ed aponta para a onda, por exemplo, correspondendo a uma ser provado que Ia ~ 2p^Pp^ed
Ψ = 0 onde denota a intensidade denota a velocidade do som
E denota direção medição denota a a ene densidade do ar, de campo de som e Ψ denota a difusão.
É interessante observar que desde que todos os componentes de ed são números reais, os componentes de UPW estão todos em fase com Ppw. A Figura 1b ilustra um exemplar UP„ e Ppw no plano gaussiano. Conforme mencionado, todos os componentes de UPW partilham a mesma fase que PPH, isto é Θ. Suas magnitudes, por outro lado, são ligadas a
Configurações da presente invenção podem prover um método para converter uma corrente mono DirAC em um sinal de formato B. Uma corrente DirAC mono pode ser representada por um sinal de pressão capturado, por exemplo, por um microfone omnidirecional e por informação de lado. A informação de lado pode compreender medições dependentes de tempo-frequência de difusão e 10 direção de chegada de som.
Nas configurações o sinal de áudio espacial de entrada pode compreender ainda um parâmetro de. .difusã^o Ψo estimador 110 pode ser adaptado para estimar a medição de campo de onda adicionalmente baseada no parâmetro de difusão Ψ.
A direção de entrada de chegada e a direção de onda de medição de chegada pode se referir a um ponto de referência correspondendo a um local de registro do sinal de áudio espacial de entrada, isto é, em outras palavras todas as direções podem se referir ao mesmo ponto de referência. O ponto de referência pode ser o local onde um microfone está colocado ou onde microfones direcionais múltiplos estão colocados para gravar um campo de som.
Nas configurações, o sinal de áudio espacial convertido pode compreender um primeiro (X) , um segundo (Y) e um 25 terceiro (Z) componente direcional. O processador 120 pode ser adaptado para processamento adicional da medição de campo de onda e da medição de direção de chegada da onda para obter o primeiro (X) e/ou o segundo (Y) e/ou o terceiro (Z) componentes direcionais e/ou os componentes de áudio omnidirecionais.
A seguir as anotações e um modelo de dados serão apresentados.
Deixemos pft) e u (t) = [ux (t) ,Uy (t) ,·αζ (t) ]r serem a pressão e vetor de velocidade de partícula, respectivamente, para um ponto específico no espaço, onde [.]T denota a transposição. p(t) pode corresponder a uma representação de áudio e u(t)=[ux(t) ,t2y (t) ,uz (t) ]~ pode corresponder a componentes 10 direcionais. Estes sinais podem ser transformados em um domínio de tempo-frequência por meio de um banco de filtro apropriado ou uma STFT (STFT = Transformada de Fourier de Curta Duração) conforme sugerido, pòr exemplo, por V. Pulkki e C. Faller, Directional audio coding: Filterbank and STFT-based design, na 120a Convenção 15 AE_S, 20^23 de Maio de. 2006, Paris, -França, Maio -de 2006. — — ~ _ _ _ Deixemos_______ __________ P(k,n) — — -- eU(k,n)=[Ux(k,zi) ,Uy(k,n) ,Uz(k,n) ]r denotarem os sinais transformados, onde ken são índices para frequência (ou banda de frequência) e tempo, respectivamente. O vetor de intensidade ativa Ia(k,n) pode 20 ser definido como lo(k,n)^l-Re{p(k,n) V'(k.n)} , (1) onde (‘)denota conjugação complexa e Re{} extrai a parte real. O vetor de intensidade ativa pode expressar o fluxo líquido de energia caracterizando o campo de som, conforme F.J.
Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd.,
1989.
Deixemos c denotar a velocidade de som no meio considerado e E a energia de campo de som definida por F.J. Fahy.
4pec (2) onde I I . I I computa o 2-norm. A seguir, o conteúdo de uma corrente DirAC mono será detalhado.
A corrente DirAC mono pode consistir do sinal mono p(t) ou representação de áudio e de informação de lado, por exemplo, uma medição de direção de chegada. Esta informação de lado pode compreender a direção dependente de tempo-frequência de 10 chegada e uma medição dependendo de tempo-frequência de difusão. O anterior pode ser denotado por βνοΑ&,η) , que é um vetor de unidade apontando para a direção da qual_o som_chega,-isto é, pode=estarmodelando a direção de chegada. O último, por difusão, pode ser denotado por
15—___ ______ _______ _....._ ......._
Nas configurações, o estimador 110 e/ou o processador 120 podem ser adaptados para estimar/processar a DOA de entrada e/ou a medição DOA de onda em termos de um vetor de unidade . Ά direção de chegada pode ser obtida como et*>* (k,n)^-eJ (k, n),
Onde o vetor de unidade e1(k,rL), indica a direção na qual a intensidade ativa aponta, isto é, et{k, n) = Ic (k, rí)/||Io {k, n)j, (3} respectivamente. Alternativamente nas configurações, a DOA ou medição DOA pode ser expressa em termos de ângulos azimute e de elevação em um sistema de coordenadas esférico. Por exemplo, se <p(k,n) e S(k,n) são ângulos azimute e de elevação, respectivamente, então = [cos(p(A,«)) cos(5(A,«)), sin(p(l, n)) · cos(5(i, n)), sin(^(A, n))f = [ eDOAAk'nT eDOAAk>n), e^yk^n)} (4) onde eDOA,x(k,n) é um componente do vetor de unidade eooA(k,n) da direção de chegada de entrada ao longo de um eixo x de um sistema de coordenadas Cartesianas, &οοα,υ (k ,n) é um componente de e^^k,!!) ao longo de um eixo y e βοοΑ/Ζ (k,n) é um componente de βνοΑ(Χ,η) ao longo de um eixo z.
Nas configurações, o estimador 110 pode ser adaptado para estimar a medição de campo de onda adi'cion.a Imente baseada no parâmetro de difusão Ψ, opcionalmente também expresso por W(k,n) de uma maneira dependente de tempo-frequência. O estimador 110 pode ser adaptado para estimar com base no parâmetro de difusão em termos de |[<4(Μ)>,|| c < E(k,n)>t (5) onde <·> indica uma média temporal.
Existem diferentes estratégias para obter P(k,n) e U(k,n) na prática. Uma possibilidade é usar um microfone de formato B, que envia 4 sinais, isto é w(t) , x(t), yft) e z(t). O primeiro, w(t), pode corresponder à leitura de pressão de um microfone omnidirecional. Os três últimos podem corresponder a leituras de pressão de microfones tendo padrões de captação no formato de oito, direcionados para três eixos de um sistema de coordenadas cartesianas. Estes sinais são, também, proporcionais à velocidade de partícula. Portanto, em algumas configurações
P(k,ri)-W(k,ri)
U(k,n) = —~—[Υ(Μ)> r(k,ri), Z(k,n)]T (6) onde W(t), X(t), Y(t) e Z (t) são os sinais de formato B transformados correspondendo ao componente omnidirecional W(k,n) e aos três componentes direcionais X(k,n), Y(k,n) e Z(k,n). Observe que o fator d2 em (6) se origina da convenção usada na definição dos sinais de formato B, conforme Michael Gerzon, Surround sound psychoacoustics, no Wireless 10 World, volume 80, páginas 483-486, Dezembro de 1974.
Alternativamente, P(k,n) e U(k,n) podem ser estimados por meio de um arranjo de microfone omnidirecional conforme sugerido por J. Merimaa, Applications of a 3-D microphone array, na 112a Convenção AES, Documento 5501, Munique, 15 maio de 2002. As etapas de processamento descritas acima são também ilustradas na Figura 7.
A Figura 7 mostra um codificador DirAC 200, que é adaptado para computar um canal de áudio mono e informação de lado de sinais de microfone apropriados. Em outras palavras, a Figura 7 20 ilustra um codificador DirAC 200 para determinar a difusão Ψ&,η) e direção de chegada eCÜA(k,n) de sinais de microfone apropriados. A Figura 7 mostra um codificador DirAC 200 compreendendo uma unidade de estimativa P/U 210. A unidade de estimativa P/U recebe os sinais de microfone como informação de entrada, na qual a 25 estimativa P/U é baseada. Visto que toda informação está disponível, a estimativa P/U é direta de acordo com as equações acima. Um estágio de análise energética 220 permite a estimativa da direção de chegada e do parâmetro de difusão da corrente combinada .
Nas configurações, o estimador 110 pode ser adaptado para determinar a medição do campo de onda ou amplitude baseada em uma fração P(k,n) da representação de áudio de entrada P(k,n). Ά Figura 2 mostra as etapas de processamento de uma configuração para computar os sinais de formato B de uma corrente DirAC mono. Todas as quantidades dependem dos indices de tempo e freqüência (k,n) e são parcialmente omitidas a seguir por uma questão de simplicidade.
Em outras palavras, a Figura 2 ilustra outra configuração. De acordo com a Eq. (6), Wfk,n) é igual à pressão P(k,n) . Portanto, o—problema de sintetização do formato B'de uma corrente DirAC mono é reduzido à estimativa do vetor de velocidade de partícula U(k,zi), visto que seus componentes são proporcionais à X(k,n) , Y(k,n) e Z(k,n). _
Configurações podem se aproximar da estimativa com base na pressuposição de que o campo consiste de uma onda plana somada a um campo difuso. Portanto, a pressão e velocidade de partícula podem ser expressas como
P(k,n)= PFW(k,n) +Pdlf].(k,n)\ (7)
Ιί(Λ,») = ^(Λ,η) + ^(λ,7ΐ). (8) onde os subscritos Ptf e diff denotam a onda plana e o campo difuso, respectivamente.
Os parâmetros DirAC carregam informação apenas com relação à intensidade ativa. Portanto, o vetor de velocidade de partícula U(k,n) é estimado com OPW(k,n) , que é o estimador para a velocidade de partícula da onda plana apenas. Ele pode ser definido como
Üpa, (k, rí) = ——0(kt rí) P(k, rí) e^yk.n), Poc onde o número real P(k,n) é um fator de ponderação apropriado, que no geral é dependente da freqüência e pode exibir uma proporcionalidade inversa à difusão V(k,n). Na verdade, para difusão baixa, isto é, W(k,n) próximo de 0, pode ser pressuposto que o campo é composto de uma onda plana única, de modo que = ΰ (^„)l ,
ZV I «*·->· (10) implicando que p(k,zi) = 1.
Considerando a equação acima e Eq. (6), o componente omnidirecional e/ou o primeiro e/ou segundo e/ou -terceiro componentes direcionais podem-ser expresses como ~~ ----... ---------W(k,n) = P(k,n)------- ------------- ------------- ---------X(k, rí) - -Jz0(k,rí) P(k, rí) · /11)
Y (k, rí) = 42p{k, rí) P(k, rí) e^y(k, rí)
Z(k, rí) - -Jipik, rí) · P(k,rí) · (k, rí) onde eix,ArX(k,n) é o componente do vetor de unidade eix>A(k,n) da direção de chegada de entrada junto ao eixo x de um sistema de coordenadas Cartesianas, βοοΛ,γ (k,n) é o componente de ecoA(k,n) junto ao eixo Y e euoA^ík,!!) é o componente de βυοΑ(7Γ,η> junto ao eixo z. Na configuração mostrada na Figura 2, a medição de direção de chegada de onda estimada pelo estimador 110 corresponde a eDOArX(k,n) , eDOA,y(krn) e &doa,x (k,n) e a medição do campo de onda corresponde a β(k,n)P(k,n). O primeiro componente direcional conforme enviado pelo processador 120 pode corresponder a qualquer um dentre X(k,a), Y(k,n) ou
Z (k,n) e o segundo componente direcional, consequentemente, a qualquer outro dentre
X(k,n) , Y(k,n) ou Z(k,n).
seguir, duas configurações práticas serão apresentadas sobre como determinar o fator P(k,n).
primeira configuração objetiva estimar a pressão de uma onda plana primeiramente, isto é EPW(k,n) e, então dela, derivar o vetor de velocidade de partícula.
Definindo a densidade do ar igual a 1, e derrubando a dependência funcional (k,n) para simplicidade, pode (12)
Providas as propriedades estatísticas de campos difusos, uma aproximação pode ser introduzida por ώγτ (13) v
onde Eoif é a energia do campo difuso. O estimador pode, assim, ser obtido por
Para computar as estimativas instantâneas, isto é, para cada telha de tempo-f reqüência os operadores de expectativa podem ser removidos, obtendo = 71-Ψ(Λ:,η)Ρ(Λ,π).
Pela exploração da pressuposição de onda plana, a estimativa para a velocidade de partícula pode ser derivada diretamente
Üfw (k, ri) - — pfíf (fc, t p*c (16) da qual ocorre que /?(*,«)(17)
Em outras palavras, o estimador 110 pode ser 5 adaptado para estimar a fração 0(k,n) com base no parâmetro de difusão V(k,n), de acordo com p(k>n) = ^l-^k,n) .
e a medição do campo de onda de acordo com
AM)P(M) ,| onde o processador 120 pode ser adaptado para obter a magnitude do primeiro__componente direcional X(k,τι)_e/ou_o segundo componente direcional Y(kfn) e/ou o terceiro componente direcional Z(k,ix) e/ou o componente de áudio omnidirecional W(k,n) por
W(k,ri) = P(k,ri)
X (A, ri) = Jip(k,ri) · P(fc, ri) · ri)
Y(k,ri) = 45p{k,ri)· PÇk^-e^^ri) 15 Z(k, ri) = 41p(k, ri) P(k, ri) (k, ri) onde a direção de onda da medição de chegada é representada pelo vetor de unidade [&doa,x (kf n) , SnoA.y (Xr n) , &DOA,z (k,n)] r οπάθ x, y e z i udicam as direções de um sistema de coordenadas Cartesianas.
Uma solução alternativa nas configurações pode ser derivada pela obtenção do fator 0(k,n) diretamente da expressão da difusão V(k,n). Conforme já foi mencionado, a velocidade de partícula U(k,n) pode ser modelada como
U(k,ri) = n) · e (fc, .
P0C (18)
A Equação (18) pode ser substituída em (5) conduzindo a —1|< |£(*>«) · «)|2 · e,
2p6c2 (19)
Para obter valores instantâneos os operadores de expectativa podem ser removidos e resolvendo para β(k,n) resultar
Ι-Ψ(^η) (20)
Em outras palavras, nas configurações o estimador
110 pode ser adaptado para estimar a fração βίλ,π) com baso em
W(k,n) de acordo com
Nas configurações, o sinal de áudio espacial de entrada pode corresponder a um sinal DirAC mono. Configurações podem ser estendidas para processamento de outras correntes. No caso onde a corrente ou o sinal de áudio espacial de entrada não carrega um canal omnidirecional, configurações podem combinar os canais disponíveis para se aproximarem de um padrão de captação omnidirecional. Por exemplo, no caso de uma corrente DirAC estéreo como sinal de áudio espacial de entrada, o sinal de pressão P na Figura 2 pode ser aproximado pela soma dos canais L e R.
A seguir, uma configuração com Ψ=1 será iluminada. A Figura 2 ilustra que se a difusão for igual a um para ambas as configurações, o som é direcionado exclusivamente para o canal W visto que β é igual a zero, de modo que os sinais X, Y e
Z, isto é, os componentes direcionais, são também zero. Se Ψ=1 constantemente no tempo, o canal de áudio mono pode, dessa maneira, ser direcionado para o canal W sem quaisquer computações adicionais. A interpretação fisica disto é que o sinal de áudio é apresentado ao ouvinte como sendo um campo reativo puro, visto que o vetor de velocidade de partícula tem magnitude zero.
Outro caso quando Ψ=1 ocorre considerando uma situação onde um sinal de áudio está presente apenas em um ou qualquer subconjunto de sinais dipolos, e não no sinal W. Na análise de difusão DirAC este cenário é analisado para ter Ψ=1 com Eq. 5, visto que o vetor de intensidade tem constantemente o comprimento de zero visto que a pressão P é zero na Eq. (1) . A interpretação física disto é também que o sinal de áudio é apresentado ao ouvinte sendo reativo, visto que nesta vez o sinal de pressão é constantemente zero, enquanto o vetor de—velocidade de partícula é diference de zero .--------- ----------Devido ao fato de que o formato B é inerentemente uma representação independente de definição de alto-falante, configurações podem usar o formato B como um idioma comum falado por diferentes dispositivos de áudio, significando que a conversão de um para outro pode ser possível pelas configurações por meio de uma conversão intermediária no formato B. Por exemplo, configurações podem unir correntes DirAC de diferentes ambientes acústicos gravados com diferentes ambientes de com sintetizados no formato B. A união de correntes DirAC mono a correntes de formato B pode também ser permitida pelas configurações.
Configurações podem permitir a união de sinais de áudio de canais múltiplos em qualquer formato 'surround' com uma corrente DirAC mono. Além do mais, configurações podem permitir a união de uma corrente DirAC mono com qualquer corrente de formato B. Além do mais, configurações podem permitir a união de uma corrente DirAC mono com uma corrente de formato B.
Estas configurações podem prover uma vantagem, por exemplo, na criação de reverberação ou introduzindo efeitos de áudio, como será detalhado subsequentemente. Na produção de música, reverberadores podem ser usados como dispositivos de efeito que colocam perceptualmente o áudio processado em um espaço virtual. Na realidade virtual, síntese de reverberação pode ser necessária quando fontes virtuais são auralizadas dentro de um espaço fechado, por exemplo, em salas ou halls de concerto.
Quando um sinal para reverberação está disponível, esta auralização pode ser executada pelas
- 4*5——configurações por meio de aplicação de som—seco e som reverberador·-----a - d-i-fe-rentes correntes—DirAC. Con~igu-r-ações—podem- usar di ferent.es-----abordagens sobre como processar o sinal reverberado no contexto de DirAc, onde configurações podem produzir o som reverberado sendo extremamente difuso ao redor do ouvinte.
A Figura 3 ilustra uma configuração de um aparelho 300 para determinar um sinal de áudio espacial convertido combinado, o sinal de áudio espacial convertido combinado tendo pelo menos um primeiro componente combinado e um segundo componente combinado, onde o sinal de áudio espacial convertido combinado é determinado de um primeiro e um segundo sinal de áudio espacial de entrada tendo uma primeira e uma segunda representação de áudio de entrada e uma primeira e uma segunda direção de chegada.
O aparelho 300 compreende uma primeira configuração do aparelho 101 para determinar um sinal de áudio espacial convertido de acordo com a descrição acima, para prover um primeiro sinal convertido tendo um primeiro componente omnidirecional e pelo menos um componente direcional do primeiro aparelho 101. Além do mais, o aparelho 300 compreende outra configuração de um aparelho 102 para determinar um sinal de áudio espacial convertido de acordo com a descrição acima para prover um
segundo sinal convertido, tendo um segundo componente
omnidirecional e pelo menos um componente direcional do segundo
aparelho 102 .
De forma geral, configurações não estã o limitadas
à compreensão de apenas dois dos aparelhos 100, em geral, uma pluralidade dos aparelhos descritos acima pode estar compreendida no-aparelho 300, por exemplo, o aparelho 300 pode ser adaptado para combinar uma pluralidade de sinais DirAC. --- ---De acordo com a Figura 3, o aparelho 300 compreende ainda um gerador de efeito de áudio 301 para transmitir o primeiro componente omnidirecional ou o primeiro componente de áudio direcional do primeiro aparelho 101 para obter um primeiro componente transmitido.
Além do mais, o aparelho 300 compreende um primeiro combinador 311 para combinar o primeiro componente transmitido com o primeiro e segundo componentes omnidirecionais, ou para combinar o primeiro componente transmitido com os componentes direcionais do primeiro aparelho 101 e do segundo aparelho 102 para obter o primeiro componente combinado. O aparelho 300 compreende ainda um segundo combinador 312 para combinar o primeiro e segundo componentes omnidirecionais ou os componentes direcionais do primeiro ou segundo aparelho 101 e 102 para obter o segundo componente combinado.
Em outras palavras, o gerador de efeito de áudio
301 pode transmitir o primeiro componente omnidirecional, de modo que o primeiro combinador 311 pode, então, combinar o primeiro componente omnidirecional transmitido, o primeiro componente omnidirecional e o segundo componente omnidirecional para obter o primeiro componente combinado. O primeiro componente combinado 10 pode, então, corresponder, por exemplo, a um componente omnidirecional combinado. Nesta configuração, o segundo combinador
312 pode combinar o componente direcional do primeiro aparelho 101 e o componente direcional do segundo aparelho para obter o segundo componente combinado, por exemplo, correspondendo a um primeiro 15 componente direcional combinado.- — - — ” ___.....____________ —Em outras configurações, o gerador—de efeito de— áudio 301 pode transmitir os componentes direcionais. Nestas configurações, o combinador 311 pode combinar o componente direcional do primeiro aparelho 101, o componente direcional do 20 segundo aparelho 102 e o primeiro componente transmitido para obter o primeiro componente combinado, neste caso correspondendo a um componente direcional combinado. Nesta configuração, o segundo combinador 312 pode combinar o primeiro e segundo componentes omnidirecionais do primeiro aparelho 101 e do segundo aparelho 102 25 para obter o segundo componente combinado, isto é, um componente omnidirecional combinado.
De acordo com as configurações descritas acima, cada um dos aparelhos pode produzir múltiplos componentes direcionais, por exemplo, um componente X, Y e Z. Nas configurações, geradores de efeito de áudio múltiplos podem ser usados, o que é indicado na Figura 3 pelas caixas tracejadas 302, 303 e 304. Estes geradores de efeito de áudio opcionais podem gerar componentes transmitidos correspondentes, baseados nos sinais de entrada omnidirecionais e direcionais. Em uma configuração, um gerador de efeito de áudio pode transmitir um componente direcional com base em um componente omnidirecional. Além do mais, o aparelho 300 pode compreender combinadores múltiplos, isto é, combinadores 311, 312, 313 e 314, de modo a combinar um componente combinado omnidirecional e múltiplos componentes direcionais combinados, por exemplo, para as três dimensões espaciais.
Uma das vantagens da estrutura do aparelho 300 é que - um máximo de quatro geradores de 'efeito de—áudio é~necessário para__transmit ir, de—forma gorai, um—número ilimitado do fontes de áudio.
Conforme indicado pelos combinadores tracejados 331, 332, 333 e 334 na Figura 3, um gerador de efeito de áudio pode ser adaptado para transmitir uma combinação de componentes direcionais e omnidirecionais dos aparelhos 101 e 102. Em uma configuração o gerador de efeito de áudio 301 pode ser adaptado para transmitir uma combinação dos componentes omnidirecionais do primeiro aparelho 101 e do segundo aparelho 102, ou para transmitir uma combinação dos componentes direcionais do primeiro aparelho 101 e do segundo aparelho 102 para obter o primeiro componente transmitido. Conforme indicado pelos caminhos tracejados na Figura 3, combinações de múltiplos componentes podem ser providas para os diferentes geradores de efeito de áudio.
Em uma configuração, todos os componentes omnidirecionais de todas as fontes de som, representados na Figura 3 pelo primeiro aparelho 101 e pelo segundo aparelho 102, podem ser combinados de modo a gerar componentes transmitidos múltiplos. Em cada um dos quatro caminhos mostrados na Figura 3, cada gerador de efeito de áudio pode gerar um componente transmitido a ser adicionado aos componentes direcionais ou omnidirecionais correspondentes das fontes de som.
Além do mais, conforme mostrado na Figura 3, estágios múltiplos de atraso e escalonamento 321 e 322 podem ser usados. Em outras palavras, cada aparelho 101 ou 102 pode ter em seu caminho de saída um estágio de atraso e escalonamento 321 ou 322, de modo a retardar*um ou mais de-seus componentes' de sãída. Em algumas—configurações,—os estágios—de atraso e escalonamento podem retardar e escalonar os respectivos componentes omnidirecionais, apenas. De forma geral, estágios de atraso e escalonamento podem ser usados para componentes omnidirecionais e direcionais.
Nas configurações, o aparelho 300 pode compreender uma pluralidade de aparelhos 100 representando fontes de áudio e correspondentemente, uma pluralidade de geradores de efeito de áudio, onde o número de geradores de efeito de áudio é menor que o número de aparelhos correspondendo às fontes de som. Conforme já foi mencionado acima, em uma confiquração pode existir até quatro geradores de efeito de áudio, com um número basicamente ilimitado de fontes de som. Nas configurações, um gerador de
efeito de áudio pode corresponder a um reverberador.
A Figura 4a mostra outra configuração de um
aparelho 300 em maiores detalhes. A· Figura 4a mostra dois
aparelhos 101 e 102, cada um enviando um componente de áudio
omnídirecional W, e três componentes direcionais X, Y, Z. De
acordo com a configuração mostrada na Figura 4a, os componentes omnidirecionais de cada um dos aparelhos 101 e 102 são providos para dois estágios de atraso e escalonamento 321 e 322, que enviam três componentes retardados e escalonados, que são, então, adicionados por combinadores 331, 332, 333 e 334. Cada um dos sinais combinados é, então, transmitido separadamente por um dos quatro geradores de efeito de áudio 301, 302, 303 e 304, que são implementados como reverberadores na Figura 4a. Conforme indicado —na Figura 4a, cada um dos -geradores—de efeito de áudio envia-um —c omp o n e n t e—cor r e-s-p onde ndo - - a— um- component e omn i d i r e ci ona 1 o três componentes direcionais no total. Os combinadores 311, 312, 313 e 314 são, então, usados para combinar os respectivos componentes transmitidos com os componentes originais enviados pelos aparelhos 101 e 102, onde na Figura 4a geralmente pode existir uma multiplicidade de aparelhos 100.
Em outras palavras, no combinador 311, uma versão transmitida dos sinais de salda omnidirecionais combinados de todos os aparelhos, pode ser combinada com os componentes de saída omnidirecionais originais ou não transmitidos. Combinações similares podem ser executadas pelos outros combinadores com relação aos componentes direcionais. Na configuração mostrada na Figura 4a, componentes direcionais transmitidos são criados com base em versões retardadas e escalonadas dos componentes omnidirecionais.
De forma geral, configurações podem aplicar um efeito de áudio como, por exemplo, uma reverberação eficientemente a uma ou mais correntes DirAC. Por exemplo, pelo menos duas correntes DirAC são inseridas à configuração do aparelho 300, conforme mostrado na Figura 4a. Nas configurações, estas correntes podem ser correntes DirAC reais ou correntes sintetizadas, por exemplo, tomando um sinal mono e adicionando informação de lado como uma direção e difusão. De acordo com a discussão acima, os aparelhos 101, 102 podem gerar até quatro sinais para cada corrente, isto é, W, X, Y e Z. De forma geral, configurações dos aparelhos 101 ou 102 podem prover menos que três componentes direcionais, por exemplo, apenas X, ou X e Y, ou qualquer outra .15 combinação dos mesmos. ----______ _____________ Em-------algumas— configurações, os - componentesomnidirecionais W podem ser providos para geradores de efeito de áudio, como, por exemplo, reverberadores de modo a criar os componentes transmitidos. Em algumas configurações, para cada uma das correntes DirAC de entrada, os sinais podem ser copiados para as quatro ramificações mostradas na Figura 4a, que podem ser índependentemente retardados, isto é, individualmente por aparelho 101 ou 102, quatro índependentemente retardados, por exemplo, pelos atrasos τχ, τγ, τζ, e escalonados, por exemplo, por fatores de escalonamento yvr γχ, γΥ2, versões podem ser combinadas antes de serem providas para um gerador de efeito de áudio.
De acordo com as Figuras 3 e 4a, as ramificações de diferentes correntes, isto é, as saídas dos aparelhos 101 e
102, podem ser combinadas para obter quatro sinais combinados. Os sinais combinados podem, então, serem independentemente transmitidos pelos geradores de áudio, por exemplo, reverberadores monofônicos convencionais. Os sinais transmitidos resultantes podem, então, serem somados aos sinais W, X, Y e Z enviados originalmente dos diferentes aparelhos 101 e 102.
Nas configurações, sinais de formato B gerais podem ser obtidos, os quais podem, então, por exemplo, serem reproduzidos com um decodif icador de formato B como é, por exemplo, executado em Ambisonics. Em outras configurações os sinais de formato B podem ser codificados como, por exemplo, com o codificador DirAC conforme mostrado na Figura 7, de modo que a corrente DirAC resultante possa, então, ser transmitida, adicionalmente processada ou decodificada com um decodificador —DirAC mono convencionai. -A etapa de~* decodificação pode“ — corresponder —à- computação de sinais de alto-falante para— reprodução.
A Figura 4b mostra outra configuração de um aparelho 300. A figura 4b mostra os dois aparelhos 101 e 102 com os quatro componentes de saída correspondentes. Na configuração mostrada na Figura 4b, apenas os componentes W omnidirecionais são usados para serem primeiramente individualmente retardados e escalonados nos estágios de atraso e escalonamento 321 e 322 antes de serem combinados pelo combinador 331. O sinal combinado é, então, provido para o gerador de efeito de áudio 301, que é, novamente, implementado como um reverberador na Figura 4b. A saída transmitida do reverberador 301 é, então, combinada com os componentes omnidirecionais originais dos aparelhos 101 e 102 pelo combinador 311. Os outros combinadores 312, 313 e 314 são usados para combinar os componentes direcionais X, Y e Z dos aparelhos 101 e 102, de modo a obter componentes direcionais combinados correspondentes.
Em uma relação com a configuração ilustrada na
Figura 4a, a configuração ilustrada na Figura 4b corresponde com a definição de fatores de escalonamento para as ramificações X, Y e Z como zero. Nesta configuração, apenas um gerador de efeito de áudio ou reverberador 301 é usado.
No geral, conforme os aparelhos 101, 102 e aparelhos N potencialmente correspondendo a fontes N de som, os estágios N potencialmente de atraso e escalonamento 321 podem simular as distâncias de fontes de som, um atraso curto pode corresponder à percepção de uma fonte de som virtual mais próxima do ouvinte. A impressão espacial de um~-ambiente—surround~pode, ----—então,—se-r—criada—pelos geradores ou—reverberadores de efeito de áudio correspondentes.
Configurações, conforme ilustrado nas Figuras 3,
4a e 4b podem ser utilizadas para casos quando decodificação DirAC mono é usada para fontes N de som que são, então, conjuntamenté reverberadas. Visto que pode ser pressuposto que a saída de um reverberador tem uma saída que é totalmente difusa, isto é, ela também pode ser interpretada como um sinal omnidirecional W. Este sinal pode ser combinado com outros sinais de formatoB sintetizados, tais como os sinais de formato B originadosde fontes N de áudio, dessa maneira representando o caminho direto para o ouvinte. Quando o sinal de formato B resultanteé adicionalmente codificado e decodificado por DirAC, o som reverberado pode ser disponibilizado pelas configurações.
Na Figura 4c, outra configuração do aparelho 300 é mostrada. Na configuração mostrada na Figura 4c, com base nos sinais omnidirecionais de saída dos aparelhos 101 e 102, componentes transmitidos reverberados direcionais são criados. Portanto, com base na saída omnidirecional, os estágios de atraso e escalonamento 321 e 322 criam componentes individualmente retardados e escalonados, gue são combinados pelos combinadores 331, 332 e 333. A cada um dos sinais combinados, reverberadores diferentes 301, 302 e 303 são aplicados, que, de forma geral, correspondem a diferentes geradores de efeito de áudio. De acordo com a descrição acima, os componentes omnidirecionais, direcionais e transmitidos correspondentes são combinados pelos combinadores 311, 312, 313 e 314, de modo a prover -um componente omnidirecional combinado e-componentes direcionais combinados.----- --Em outras palavras, os sinais W ou sinais omnidirecionais para cada corrente são alimentados a três geradores de efeito de áudio, como, por exemplo, reverberadores, conforme mostrado nas figuras. De forma geral, existem também apenas duas ramificações dependendo do fato de um sinal de som bidimensional ou tridimensional ser gerado. Após os sinais de formato B serem obtidos, as correntes podem ser decodificadas por meio de um decodificador de microfone virtual DirAC. O último é descrito em detalhe por V. Pulkki, Spatial Sound Reproduction With Directional Audio Coding, Journal of the Audio Engineering Society, 55 (6): 503-516.
Com este decodificador, os sinais de alto-falante Dp(kfn) podem ser obtidos como uma combinação linear dos sinais W, !
X, Y e Z, por exemplo, de acordo com = G(A,»)[íK(A,n)V2+A'(A,«)cos(aí,)cosO?í,) <
+Y (k, n)sin(af )cos(fip)+Z(A,n)sin<^)] onde aP e βΡ são os ângulos azimute e de elevação I do p-ésimos alto-falante. O termo G(k,n) é um ganho de colocação de uma fonte de som em um campo estéreo (panning) dependente da direção de chegada e da configuração do alto-falante.
Em outras palavras, a configuração mostrada na Figura 4c pode prover os sinais de áudio para os alto-falantes correspondendo aos sinais de áudio que podem ser obtidos pela colocação de microfones virtuais orientados para a posição dos alto-falantes e tendo fontes de som do tipo de ponto, cuja posição é determinada pelos parâmetros DirAC. Os microfones virtuais podem .ter padrões de captação formatados como cardióides, como dipolos, ou como qualquer padrão direcional de primeira ordem.
Os sons reverberados podem, por exemplo, serem eficientemente usados como X e Y na soma do formato B. Estas
configurações podem ser aplicadas a layouts de alto-falantes
horizontais tendo qualquer número de alto-falantes, sem criar uma
necessidade de mais reverberadores.
Conforme discutido anteriormente, decodificação
DirAC mono tem limitações na qualidade de reverberação, onde nas configurações a qualidade pode ser melhorada com decodificação DirAC de microfone virtual, que se beneficia também de sinais dipolos em uma corrente de formato B.
A criação apropriada de sinais de formato B para reverberar um sinal de áudio para decodificação de microfone virtual DirAC pode ser executada nas configurações. Um conceito simples e efetivo que pode ser usado pelas configurações é 5 direcionar diferentes canais de áudio para diferentes sinais dipolos, por exemplo, para canais X e Y. As configurações podem implementar isto por meio de dois reverberadores que produzem canais de áudio mono incoerentes do mesmo canal de entrada, tratando suas saídas como canais de áudio dipolo de formato Β X e 10 Y, respectivamente, conforme mostrado na Figura 4c para os componentes direcionais. Visto que os sinais não são aplicados a W, eles serão analisados para serem totalmente difusos na codificação DirAC subseqüente. Também, qualidade aumentada para reverberação pode ser obtida na decodificação de microfone virtual 15 DirAC, visto que os canais- dipolos contêm som diferentemente --------rev-erberado-. Configurações —podem, aqui , gerar uma percepção mais ampla e mais envolvente de reverberação do que com decodificação DirAC mono. Configurações podem, portanto, usar um máximo de dois reverberadores nos layouts de alto-falantes 20 horizontais, e três para layouts de alto-falantes 3-D na reverberação baseada em DirAC descrita.
As configurações podem não estar limitadas a reverberação de sinais, mas podem aplicar quaisquer outros efeitos de áudio que objetivem, por exemplo, uma percepção totalmente 25 difusa de som. Similar às configurações descritas acima, o sinal de formato B reverberado pode ser somado a outros sinais de formato B sintetizados nas configurações, tais como aqueles originados de fontes N de áudio, dessa maneira representando um caminho direto para o ouvinte.
Ainda outra configuração é mostrada na Figura 4d.
A Figura 4d mostra uma configuração similar àquela da Figura 4a, entretanto, nenhum estágio de atraso ou escalonamento 321 ou 322 está presente, isto é, os sinais individuais nas ramificações são apenas reverberados. Ά configuração ilustrada na Figura 4d pode também ser vista como sendo similar à configuração ilustrada na figura 4a com os atrasos e escalonamentos ou ganhos antes dos 10 reverberadores serem ajustados como 0 e 1, respectivamente, entretanto, nesta configuração os reverberadores 301, 302, 303 e 304 não são pressupostos como sendo arbitrários e independentes.
Na configuração ilustrada na Figura 4d, os quatro geradores de efeito de áudio são pressupostamente dependentes entre si tendo 1'5 uma estrutura específica. - = — -= __ ___ — ----- ----- ---------- Cada um aos geradores dc efeito de _ áudio ou reverberadores pode ser implementado como um tapped-delay line como será detalhado subsequentemente com a ajuda da Figura 5. Os atrasos e ganhos ou escalas podem ser escolhidos apropriadamente 20 de uma maneira tal que cada um dos taps modela um eco distinto cuja direção, atraso e energia podem ser definidos conforme desejado.
Nesta configuração, o i-ésimo eco pode ser caracterizado por um fator de ponderação, por exemplo, com 25 referência a um som DirAC pír um atraso τ, e uma direção de chegada Θ, e 0, correspondendo à elevação e azimute, respectivamente.
Os parâmetros dos reverberadores podem ser definidos como segue τ w — τχ Ty — τ z — t £ γν = p±i para o reverberador W,
Y* = Pi cos (Θ) . cos (θι) , para o reverberador X,
Yy = pi sen (Θ) . cos (θι) , para o reverberador Ύ,
Yz = Pi sen(9), para o reverberador Z.
Em algumas configurações os parâmetros fisicos de cada eco podem ser extraídos de processos aleatórios ou tomados de uma resposta de impulso espacial de sala. O último podería, por exemplo, ser medido ou simulado com uma ferramenta de acompanhamento de raio.
No geral, configurações podem, aqui-,’ prover a vantagem de que o número de geradores de efeito de áudio é 1-5 independente do número de fontes. _ _ __ — ------- ...--- ------a Figura . 5__ilustra uma__configuração^ usando um esquema conceituai de um efeito de áudio mono, como, por exemplo, usado dentro de um gerador de efeito de áudio, que é estendido dentro do contexto DirAC. Por exemplo, um reverberador pode ser 20 efetuado de acordo com este esquema. A Figura 5 mostra uma configuração de um reverberador 500. A Figura 5 mostra, em princípio, uma estrutura de filtro FIR (FIR = Resposta de Impulso Finito) . Outras configurações podem usar filtros HR (IIR = Resposta de Impulso Infinito), também. Um sinal de entrada é 25 retardado pelos estágios de atraso K rotulados como 511 a 51K. As cópias retardadas K, para as quais os atrasos são denotados por Xi a rk do sinal, são, então, amplificadas pelos amplificadores 521 a
52K com fatores de amplificação γι a yk antes de serem somados no estágio de soma 530.
A Figura 6 mostra outra configuração com uma extensão da cadeia de processamento da Figura 5 dentro do contexto DirAC. A saída do bloco de processamento pode ser um sinal de formato B. A Figura 6 mostra uma configuração onde múltiplos estágios de soma 560, 562 e 564 são utilizados resultando nos três sinais de salda W, X e Y. De modo a estabelecer diferentes combinações, as cópias de sinal retardado podem ser escalonadas diferentemente antes de serem adicionadas nos três estágios de adição diferentes 560, 562 e 564. Isto é executado pelos amplificadores adicionais 531 a 53K e 541 a 54K. Em outras palavras, a. configuração 600 -mostrada na Figura 6 executa reverberação para diferentes componentes de um sinal de formato B baseado em uma corrente DirAC mono. Três_ cópias^ reye.rb.eradas diferentes do sinal são geradas usando três filtros FIR diferentes sendo estabelecidos através de diferentes coeficientes de filtro Pi 3. pk e iji a i]k.
A configuração a seguir pode se aplicar a um reverberador ou efeito de áudio que pode ser modelado como na Figura 5. Um sinal de entrada opera através de um tapped-delay line simples, onde cópias múltiplas são somadas. O i-ésimo de ramificações K é retardado e atenuado, por e Yír respectivamente.
Os fatores γ e τ podem ser obtidos dependendo do efeito de áudio desejado. No caso de um reverberador, estes fatores imitam a resposta de impulso da sala que deve ser simulada. De qualquer maneira, sua determinação não é iluminada e eles são, dessa maneira, pressupostamente providos.
Uma configuração é ilustrada na Figura 6. O esquema da Figura 5 é estendido, de modo que mais duas camadas são obtidas. Nas configurações, para cada ramificação um ângulo de chegada Θ pode ser designado, obtido de um processo estocástico. Por exemplo, Θ pode ser a realização de uma distribuição uniforme na faixa [-π, π]. Ά i-ésima ramificação é multiplicada com os fatores e pi, que podem ser definidos como = sen(Qi) (21)
Pi = aos(e±) (22)
Nas configurações, o i-ésimo eco pode ser percebido como vindo de θ/. A èxtensão para 3D é direta. Neste caso, mais uma camada necessita ser adicionada, e um ângulo de elevação necessita _ser considerado.. Após o„sinal .de formato B ter sido gerado, isto__é, W,X,Y, e possivelmente Z,__combinações com..
outros sinais de formato B podem ser executadas. Então, ele pode ser enviado diretamente para um decodificador DirAC de microfone virtual, ou após codificação DirAC a corrente DirAC mono pode ser enviada para um decodificador DirAC mono.
Configurações podem compreender um método para determinar um sinal de áudio espacial convertido, o sinal de áudio espacial convertido tendo um primeiro componente de áudio direcional e um segundo componentes de áudio direcional, de um sinal de áudio espacial de entrada, o sinal de áudio espacial de entrada tendo uma representação de áudio de entrada e uma direção de entrada de chegada. O método compreende uma etapa de estimar uma representação de onda compreendendo uma medição de campo de onda e uma medição de direção de chegada de onda baseada na representação de áudio de entrada e na direção de chegada de entrada. Além do mais, o método compreende uma etapa de processamento da medição de campo de onda e medição de direção de 5 chegada de onda para obter o primeiro componente direcional e o segundo componente direcional.
Nas configurações, um método para determinar um sinal de áudio espacial convertido pode ser compreendido de uma etapa de obtenção de uma corrente DirAC mono que é para ser 10 convertida no formato B. Opcionalmente, W pode ser obtido de P, quando disponível. Se não, uma etapa de aproximação de W como uma combinação linear dos sinais de áudio disponíveis pode ser executada. Subsequentemente, uma etapa de computação do fator β como um fator de ponderação dependente de freqüência e tempo 1_5_ inversamente .proporcional à difusão -pode ser executada, po-r exemplo, de acordo com_____ ____ ...__... ------ --or pa.n)=n»3 .
J - Ψ(κ,η)
Ο método pode compreender ainda uma etapa de computação dos sinais X, Y e Z de P,/3 e βζχ>Α.
Para casos nos quais Ψ-1, a etapa de obtenção de
W de P pode ser substituída pela obtenção de W de P com X, Y, e Z sendo zero, obtendo pelo menos um sinal dipolo X, Y, ou Z de P; W sendo zero, respectivamente. Configurações da presente invenção podem executar processamento de sinal no domínio do formato B, resultando na vantagem de que processamento de sinal avançado pode ser executado antes de os sinais de alto-falante serem gerados.
Dependendo de certos requisitos de implementação dos métodos da invenção, os métodos inventivos podem ser implementados em hardware e software. Ά implementação pode ser executada usando um meio de armazenagem digital, e especificamente 5 uma memória flash, um disco, um DVD ou um CD tendo sinais de controle eletronicamente legíveis armazenados nos mesmos, que cooperam com um sistema de computador programável, de modo que os métodos inventivos sejam executados. De forma geral, a presente invenção é, portanto, um código de programa de computador com um 10 código de programa armazenado em um veículo legível por máquina, o código de programa sendo operacional para executar os métodos inventivos quando o programa de computador opera em um computador ou processador. Em outras palavras, os métodos inventivos são, portanto, um programa de computador tendo um código de programa 15. para. ...executar pelo menos um dos métodos inventivos, quando o ________programa __de . computador-. ... opera em um- computador—

Claims (16)

  1. Reivindicações
    15..
    1. Aparelho (100) para determinar um sinal de áudio espacial convertido, o sinal de áudio espacial convertido tendo um componente de áudio omnidirecional (W' ) e pelo menos um componente de áudio direcional (X; Y; Z) , de um sinal de áudio espacial de entrada, o sinal de áudio espacial de entrada tendo uma representação de áudio de entrada (W) e uma direção de chegada de entrada (0), compreendendo um estimador (110) para estimar uma representação de onda, a representação de onda compreendendo uma medição de campo de onda e uma medição de direção de chegada de onda, com base na representação de áudio de entrada (W) e na direção de chegada de entrada (0); e um processador (120) para processar a medição de campo de onda e a medição de direção de chegada de onda para-obter— o componente omnidirecional ( 'W) e—pelo -menos -um componente — direcional (X; Y; Z).
  2. 2. Aparelho (100), de acordo com a reivindicação 1, caracterizado pelo fato de que o estimador (110) é adaptado para estimar a medição do campo de onda em termos de uma amplitude de campo de onda e de fase de campo de onda.
  3. 3. Aparelho (100), de acordo com uma das reivindicações 1 ou 2, caracterizado pelo fato de que o sinal de áudio espacial de entrada compreende ainda um parâmetro de difusão Ψ e onde o estimador (110) é adaptado para estimar a medição do campo de onda baseada adicionalmente no parâmetro de difusão Ψ.
  4. 4. Aparelho (100), de acordo com uma das reivindicações de 1 a 3, caracterizado pelo fato de que a direção de chegada de entrada e a medição de direção de chegada de onda se referem a um ponto de referência, o ponto de referência correspondendo a um local de gravação do sinal de áudio espacial de entrada.
  5. 5.
    Aparelho (100) de acordo com uma das reivindicações de 1 a 4, caracterizado pelo fato de que o sinal de áudio espacial convertido compreende um primeiro um segundo (Y) e um terceiro componente direcional e onde o processador (120) adaptado para processamento adicional da medição de campo de onda e da medição de direção de chegada de onda para obter o primeiro (X) , segundo (Y) e terceiro (Z) componentes direcionais.
  6. 6. Aparelho (100) de acordo com uma das reivindicações de 2a 5, caracterizado pelo fato de que o estimador (110) é adaptado para determinar a medição de campo de onda baseado em uma fração p(k,n) da_ representação de áudio- de — entrada P(k,n) onde k denota um_índiçe de tempo e n denota— um índice de frequência.
  7. 7. Aparelho (100), de acordo com a reivindicação
    6, caracterizado pelo fato de que o processador (120) é adaptado para obter uma medição complexa do primeiro componente direcional
    X(k,n) e/ou do segundo componente direcional Y(k,n) e/ou do terceiro componente direcional Z(k,n) e/ou do componente de áudio omnidirecional W(k,n) por
    W(k,n) = P(k,n)
    X(k, n) = 41p(k, ri) · P(k, n) · (k, ri)
    Y(k,n) = Vw.n)· P(.k,n)eD0A^k,n) Z(k„ ri) = -Jip^ri) P(k,ri) (k, ri) onde θοοΑ,χ&,η) é um componente de um vetor de unidade e^fk,!!) da direção de chegada de entrada ao longo do eixo
    x de um sistema de coordenadas Cartesianas, evoA^y (k,n) é um componente de ©doa (krn) ao longo do eixo Y e &οοα,ζ (k,n) é um componente de βροΑ/ z (k,n) ao longo do eixo z.
  8. 8. Aparelho (100), de acordo com uma das reivindicações 6 ou 7, caracterizado pelo fato de que o estimador (110) é adaptado para estimar uma fração P(k,n) baseada no parâmetro de difusão W(k,n), de acordo com
  9. 9. Aparelho (100), de acordo com uma das reivindicações 6 ou 7, caracterizado pelo fato de que o estimador (110) é adaptado para estimar uma fração P(k,n) baseada em W(krn), de acordo com l-V(k.n) — ~ Ί0. Aparelho (T00) , de’ acordo com uma das reivindi~cações 1 a 9, caracterizado pelo faLo de que dsinal dè áudio espacial de entrada corresponde a um sinal de áudio codificado por DirAC e o sinal de áudio espacial convertido corresponde a um sinal de formato B.
  10. 11. Aparelho (300) para determinar um sinal de áudio espacial convertido combinado, o sinal de áudio espacial convertido combinado tendo pelo menos um primeiro componente combinado e um segundo componente combinado, de um primeiro e um segundo sinal de áudio espacial de entrada, o primeiro sinal de áudio espacial de entrada tendo uma primeira representação de áudio de entrada e uma primeira direção de chegada, o segundo sinal de entrada espacial tendo uma segunda representação de áudio de entrada e uma segunda direção de chegada, compreendendo:
    um primeiro aparelho (101) de acordo com uma das reivindicações 1 a 10, para prover um primeiro sinal convertido, tendo um primeiro componente omnidirecional e pelo menos um componente direcional do primeiro aparelho (101);
    um segundo aparelho (102) de acordo com uma das reivindicações 1 a 10, para prover um segundo sinal convertido, tendo um segundo componente omnidirecional e pelo menos um componente direcional do segundo aparelho (102);
    um gerador de efeito de áudio (301) para transmitir o primeiro componente omnidirecional ou o componente direcional do primeiro aparelho (101) para obter um primeiro componente transmitido;
    um primeiro combinador (311) para combinar o primeiro componente transmitido, o primeiro componente omnidirecional e o segundo componente omnidirecional, ou para combinar------o—primeiro--componente transmitido, o componente direcional do primeiro aparelho (101), e o componente direcional do segundo aparelho (102) para obter o primeiro componente combinado; e um segundo combinador (312) para combinar o componente direcional do primeiro aparelho (101) e o componente direcional do segundo aparelho (102), ou para combinar o primeiro componente omnidirecional e o segundo componente omnidirecional para obter o segundo componente combinado.
  11. 12. Aparelho (300), de acordo com a reivindicação 11, caracterizado pelo fato de que o gerador de efeito de áudio (301) é adaptado para transmitir uma combinação do primeiro componente omnidirecional e do segundo componente omnidirecional, ou para transmitir uma combinação do componente direcional do primeiro aparelho (101) e o componente direcional do segundo aparelho (102) para obter o primeiro componente transmitido.
  12. 13. Aparelho (300), de acordo com qualquer uma das reivindicações 11 ou 12, compreendendo ainda um primeiro estágio de atraso e escalonamento (321) para retardar e/ou escalonar o primeiro componente omnidirecional e/ou o componente direcional do primeiro aparelho (101), e/ou o segundo estágio de atraso e escalonamento (322) para retardar e/ou escalonar o segundo componente omnidirecional e/ou componente direcional do segundo aparelho (102).
  13. 14. Aparelho (300), de acordo com uma das reivindicações 11 a 13, compreendendo uma pluralidade de aparelhos (100) de acordo com uma das reivindicações 1 a 10 para converter uma pluralidade de sinais de áudio espaciais de entrada, o aparelho (300)- compreendendo ainda uma pluralidade de geradores de efeito de áudio, caracterizado pelo fato de que o número de geradores de efeito de áudio é menor que o número de aparelhos (100) de acordo com uma das reivindicações 1 a 10.
  14. 15. Aparelho (300), de acordo com uma das reivindicações 11 a 14, caracterizado pelo fato de que o gerador de efeito de áudio (301) é adaptado para reverberar o primeiro componente omnidirecional ou o componente direcional do primeiro aparelho (101) para obter o primeiro componente transmitido.
  15. 16. Método para determinar um sinal de áudio espacial convertido, o sinal de áudio espacial convertido tendo um componente de áudio omnidirecional (W' ) e pelo menos um componente de áudio direcional (X;Y;Z), de um sinal de áudio espacial de entrada, o sinal de áudio espacial de entrada tendo uma representação de áudio de entrada (W) e uma direção de entrada de chegada (0) , compreendendo as etapas de:
    estimar uma representação de onda compreendendo
    5 uma medição de campo de onda e uma medição de direção de chegada de onda baseada na representação de áudio de entrada (W) e na direção de chegada de entrada (0); e processamento da medição de campo de onda e da medição de direção de chegada de onda para obter o componente 10 omnidirecional e pelo menos um componente direcional (X;Y;Z).
  16. 17. Programa de computador tendo um código de programa para executar o método da reivindicação 16, quando o código de programa opera em um processador de computador.
BRPI0912451-9A 2008-08-13 2009-08-12 Aparelho para determinar um sinal de áudio espacial convertido BRPI0912451B1 (pt)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US8851308P 2008-08-13 2008-08-13
US61/088,513 2008-08-13
US9168208P 2008-08-25 2008-08-25
US61/091,682 2008-08-25
EP09001398.8A EP2154677B1 (en) 2008-08-13 2009-02-02 An apparatus for determining a converted spatial audio signal
EP09001398.8 2009-02-02
PCT/EP2009/005859 WO2010017978A1 (en) 2008-08-13 2009-08-12 An apparatus for determining a converted spatial audio signal

Publications (2)

Publication Number Publication Date
BRPI0912451A2 true BRPI0912451A2 (pt) 2019-01-02
BRPI0912451B1 BRPI0912451B1 (pt) 2020-11-24

Family

ID=40568458

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0912451-9A BRPI0912451B1 (pt) 2008-08-13 2009-08-12 Aparelho para determinar um sinal de áudio espacial convertido

Country Status (13)

Country Link
US (1) US8611550B2 (pt)
EP (2) EP2154677B1 (pt)
JP (1) JP5525527B2 (pt)
KR (2) KR101476496B1 (pt)
CN (1) CN102124513B (pt)
AU (1) AU2009281367B2 (pt)
BR (1) BRPI0912451B1 (pt)
CA (1) CA2733904C (pt)
ES (2) ES2425814T3 (pt)
MX (1) MX2011001657A (pt)
PL (2) PL2154677T3 (pt)
RU (1) RU2499301C2 (pt)
WO (1) WO2010017978A1 (pt)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007083739A1 (ja) * 2006-01-19 2007-07-26 Nippon Hoso Kyokai 3次元音響パンニング装置
KR102294460B1 (ko) 2010-03-26 2021-08-27 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
ES2525839T3 (es) 2010-12-03 2014-12-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Adquisición de sonido mediante la extracción de información geométrica de estimativos de dirección de llegada
WO2012072787A1 (en) * 2010-12-03 2012-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatially selective sound acquisition by acoustic triangulation
FR2982111B1 (fr) * 2011-10-27 2014-07-25 Cabasse Enceinte acoustique comprenant un haut-parleur coaxial a directivite controlee et variable.
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
KR102429953B1 (ko) 2012-07-19 2022-08-08 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
KR101703333B1 (ko) 2013-03-29 2017-02-06 삼성전자주식회사 오디오 장치 및 이의 오디오 제공 방법
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
KR102766957B1 (ko) * 2014-03-21 2025-02-14 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
WO2015147532A2 (ko) 2014-03-24 2015-10-01 삼성전자 주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
EP3143779B1 (en) * 2014-05-13 2020-10-07 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for edge fading amplitude panning
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
TWI584657B (zh) * 2014-08-20 2017-05-21 國立清華大學 一種立體聲場錄音以及重建的方法
TWI567407B (zh) * 2015-09-25 2017-01-21 國立清華大學 電子裝置及電子裝置之操作方法
GB2554446A (en) 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
CN108346432B (zh) * 2017-01-25 2022-09-09 北京三星通信技术研究有限公司 虚拟现实vr音频的处理方法及相应设备
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
PT3692523T (pt) * 2017-10-04 2022-03-02 Fraunhofer Ges Forschung Aparelho, método e programa de computador para codificação, descodificação, processamento de cena e outros procedimentos relacionados com codificação de áudio espacial com base em dirac
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
CN108845292B (zh) * 2018-06-15 2020-11-27 北京时代拓灵科技有限公司 一种声源定位的方法及装置
IL319278A (en) * 2018-07-02 2025-04-01 Dolby Laboratories Licensing Corp Methods and devices for generating or decoding a bit sequence comprising embedded audio signals
US11984102B2 (en) * 2018-10-09 2024-05-14 Roland Corporation Sound effect generation method and information processing device
CN111145793B (zh) * 2018-11-02 2022-04-26 北京微播视界科技有限公司 音频处理方法和装置
EP4462821A3 (en) * 2018-11-13 2024-12-25 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
EP3881559B1 (en) 2018-11-13 2024-02-14 Dolby Laboratories Licensing Corporation Audio processing in immersive audio services
KR20210124283A (ko) 2019-01-21 2021-10-14 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 공간 오디오 표현을 인코딩하기 위한 장치 및 방법 또는 인코딩된 오디오 신호를 트랜스포트 메타데이터를 이용하여 디코딩하기 위한 장치 및 방법 및 연관된 컴퓨터 프로그램들
US20200304933A1 (en) * 2019-03-19 2020-09-24 Htc Corporation Sound processing system of ambisonic format and sound processing method of ambisonic format

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2738099B1 (fr) * 1995-08-25 1997-10-24 France Telecom Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe
AUPO099696A0 (en) * 1996-07-12 1996-08-08 Lake Dsp Pty Limited Methods and apparatus for processing spatialised audio
EP1013140B1 (en) * 1997-09-05 2012-12-05 Harman International Industries, Incorporated 5-2-5 matrix decoder system
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
AU2000280030A1 (en) 2000-04-19 2001-11-07 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preservespatial harmonics in three dimensions
JP3810004B2 (ja) * 2002-03-15 2006-08-16 日本電信電話株式会社 ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
WO2004107318A1 (en) * 2003-05-27 2004-12-09 Koninklijke Philips Electronics N.V. Audio coding
JP2005345979A (ja) * 2004-06-07 2005-12-15 Nippon Hoso Kyokai <Nhk> 残響信号付加装置
ATE378793T1 (de) * 2005-06-23 2007-11-15 Akg Acoustics Gmbh Methode zur modellierung eines mikrofons
JP2007124023A (ja) * 2005-10-25 2007-05-17 Sony Corp 音場再現方法、音声信号処理方法、音声信号処理装置
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
ATE495635T1 (de) * 2006-09-25 2011-01-15 Dolby Lab Licensing Corp Verbesserte räumliche auflösung des schallfeldes für mehrkanal-tonwiedergabesysteme mittels ableitung von signalen mit winkelgrössen hoher ordnung
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US20090045275A1 (en) * 2007-08-14 2009-02-19 Beverly Ann Lambert Waste Chopper Kit

Also Published As

Publication number Publication date
US8611550B2 (en) 2013-12-17
CN102124513B (zh) 2014-04-09
KR101476496B1 (ko) 2014-12-26
EP2154677B1 (en) 2013-07-03
JP5525527B2 (ja) 2014-06-18
BRPI0912451B1 (pt) 2020-11-24
EP2311026A1 (en) 2011-04-20
ES2523793T3 (es) 2014-12-01
HK1155846A1 (en) 2012-05-25
US20110222694A1 (en) 2011-09-15
RU2011106584A (ru) 2012-08-27
PL2154677T3 (pl) 2013-12-31
KR20110052702A (ko) 2011-05-18
EP2154677A1 (en) 2010-02-17
MX2011001657A (es) 2011-06-20
AU2009281367B2 (en) 2013-04-11
CA2733904C (en) 2014-09-02
PL2311026T3 (pl) 2015-01-30
CN102124513A (zh) 2011-07-13
ES2425814T3 (es) 2013-10-17
EP2311026B1 (en) 2014-07-30
JP2011530915A (ja) 2011-12-22
HK1141621A1 (en) 2010-11-12
KR20130089277A (ko) 2013-08-09
CA2733904A1 (en) 2010-02-18
WO2010017978A1 (en) 2010-02-18
AU2009281367A1 (en) 2010-02-18
RU2499301C2 (ru) 2013-11-20

Similar Documents

Publication Publication Date Title
BRPI0912451A2 (pt) aparelho para determinar um sinal de áudio espacial convertido.
CN102138342B (zh) 用于合并空间音频流的设备
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
CN101933344B (zh) 用于产生双声道音频信号的方法及装置
CN104185869B9 (zh) 用于合并基于几何的空间音频编码流的设备和方法
CN102209988B (zh) 基于麦克风信号来提供空间提示集合的设备、方法以及用于提供双声道音频信号和空间提示集合的设备
BR112015019526B1 (pt) MÉTODO E APARELHO PARA APRIMORAR A DIRETIVIDADE DE UM SINAL AMBISONICS DE 1ª ORDEM E MEIO DE ARMAZENAMENTO LEGÍVEL POR COMPUTADOR NÃO TRANSITÓRIO.
KR20180042397A (ko) 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩 및 디코딩
HK1141621B (en) An apparatus for determining a converted spatial audio signal
HK1155846B (en) An apparatus for determining a converted spatial audio signal
BR122024013696A2 (pt) Aparelho, método e programa de computador para codificação, decodificação, processamento de cena e outros procedimentos relacionados com a codificação de áudio espacial baseada em dirac
HK1157986B (en) Apparatus for merging spatial audio streams
HK1141384A (en) Apparatus for merging spatial audio streams

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06T Formal requirements before examination [chapter 6.20 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10H 1/00 , G10L 19/14 , H04S 3/02

Ipc: H04S 3/02 (2006.01), G10H 1/00 (2006.01), G10L 19/

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 24/11/2020, OBSERVADAS AS CONDICOES LEGAIS.