BRPI0808217A2 - "método e equipamento para conversão entre formatos de áudio multicanal" - Google Patents
"método e equipamento para conversão entre formatos de áudio multicanal" Download PDFInfo
- Publication number
- BRPI0808217A2 BRPI0808217A2 BRPI0808217-0A BRPI0808217A BRPI0808217A2 BR PI0808217 A2 BRPI0808217 A2 BR PI0808217A2 BR PI0808217 A BRPI0808217 A BR PI0808217A BR PI0808217 A2 BRPI0808217 A2 BR PI0808217A2
- Authority
- BR
- Brazil
- Prior art keywords
- representation
- multichannel
- audio signal
- signal
- spatial audio
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000006243 chemical reaction Methods 0.000 title description 21
- 230000005236 sound signal Effects 0.000 claims description 70
- 239000013598 vector Substances 0.000 claims description 32
- 238000009795 derivation Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004091 panning Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H20/00—Arrangements for broadcast or for distribution combined with broadcast
- H04H20/86—Arrangements characterised by the broadcast information itself
- H04H20/88—Stereophonic broadcast systems
- H04H20/89—Stereophonic broadcast systems using three or more audio channels, e.g. triphonic or quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Description
"MÉTODO E EQUIPAMENTO PARA CONVERSÃO ENTRE FORMATOS DE ÁUDIO MULTI CANAL"
Campo da Invenção
A presente invenção refere-se a uma técnica de como converter entre diferentes formatos de áudio multicanal com a qualidade mais alta possível sem limitar-se a representações multicanal específicas, isto é, a presente invenção refere-se a uma técnica que permite a conversão entre formatos multicanal arbitrários.
Histórico da Invenção e método anterior
Em geral, em reprodução e escuta em multicanal, o ouvinte é circundado por múltiplos alto-falantes. Existem vários métodos para captar sinais de áudio para configurações específicas. Um objetivo geral na reprodução é reproduzir a composição espacial do evento de som registrado originalmente, isto é, as origens das fontes de áudio individuais, como por exemplo, a localização de um trompete dentro de uma orquestra. Várias configurações de alto-falantes são bastante comuns, e podem criar diferentes impressões espaciais. Sem usar técnicas de pósprodução especiais, as configurações em estéreo de dois canais comumente conhecidas podem somente recriar eventos auditivos em uma linha entre os dois alto-falantes. Isto é conseguido principalmente pela assim chamada "panorâmica de amplitude", onde a amplitude do sinal associado a uma fonte de áudio é distribuída entre os dois alto-falantes, dependendo da posição da fonte de áudio em relação aos alto-falantes. Isto normalmente é feito durante a gravação ou mixagem subsequente. Isto é, uma fonte de áudio que vem da extremidade esquerda em relação à posição de escuta, será reproduzida principalmente pelo alto-falante esquerdo, enquanto uma fonte de áudio em frente à posição de escuta será reproduzida com amplitude (nivel) idêntica por ambos os alto-falantes. No entanto, o som que emanar de outras direções não pode ser reproduzido.
Consequentemente, quando se usa mais altofalantes que são distribuídos ao redor do ouvinte, mais direções podem ser abrangidas, e uma impressão espacial mais natural pode ser criada. 0 layout de alto-falante multicanal provavelmente melhor conhecido é o padrão 5.1 (ITU-R775-1), que é composto de 5 alto-falantes cujos ângulos azimutais em relação à posição de escuta são pré-determinados em 0o, ±30° e ±110°. Isso significa que durante a gravação ou mixagem, o sinal é customizado para aquela configuração específica de alto-falante, e desvios do padrão de uma configuração de reprodução resultarão em uma redução na qualidade de reprodução.
Foram propostos também vários outros sistemas, com números variáveis de alto-falantes localizados em diferentes direções. Sistemas profissionais e especiais, especialmente em teatros e instalações de som, também incluem alto-falantes em diferentes alturas.
Um sistema de reprodução de áudio universal chamado DirAC foi recentemente proposto, o qual é capaz de gravar e reproduzir som para configurações arbitrárias de alto-falante. A finalidade do DirAC é reproduzir a impressão espacial de um ambiente acústico existente o mais precisamente possível, usando um sistema de alto-falante multicanal com configuração geométrica arbitrária. Dentro do ambiente de gravação, as respostas do ambiente (que podem ser som gravado contínuo ou respostas de impulso) são medidas com um microfone onidirecional (W) , e com um conjunto de microfones que permitem medir a direção de chegada do som e a difusibilidade do som. Nos parágrafos a seguir e dentro da aplicação, o termo "difusibilidade" deve ser compreendido como uma medida para a não-diretividade do som, isto é, o som que chega à posição de escuta ou gravação com potência igual de todas as direções, é maximamente difuso. Uma maneira comum de quantificar a difusão é usar valores de difusibilidade do intervalo [Ο,.,.,Ι], onde um valor de 1 descreve som maximamente difuso e um valor de O descreve som perfeitamente direcional, isto é, som que emana de somente uma direção claramente distinguível. Um método comumente conhecido de medir a direção de chegada do som é aplicar 3 microfones figura de oito (XYZ) alinhados com eixos de coordenada cartesiana. Microfones especiais, os chamados "microfones SoundField", foram projetados, os quais produzem diretamente todas as respostas desejadas. No entanto, conforme foi mencionado acima, os sinais W, X, Y e Z podem também ser computados de um conjunto de microfones onidirecionais discretos.
Outro método para armazenar formatos de áudio para número arbitrário de canais em um ou dois canais de áudio de "downmix" com dados direcionais acompanhados foi recentemente proposto por Goodwin e Jot. Este formato pode ser aplicado a sistemas de reprodução arbitrários. Os dados direcionais, isto é, os dados que contêm informações sobre a direção de fontes de áudio são computados usando-se "vetores Gerzon", que são compostos de um vetor de velocidade e um vetor de energia. O vetor de velocidade é uma soma ponderada de vetores voltados para alto-falantes da posição de escuta, onde cada peso é a magnitude de um espectro de freqüência em um determinado momento / "tile" de freqüência de um alto-falante. 0 vetor de energia é uma soma de vetor ponderada de maneira semelhante. No entanto, os pesos são estimativas de energia de curto prazo dos sinais de alto-falante, isto é, eles descrevem um sinal de alguma maneira suavizado ou a íntegra da energia do sinal contida no sinal dentro de intervalos de tempo de extensão finita. Estes vetores compartilham a desvantagem de não estarem relacionados a uma quantidade física ou perceptual de maneira bem embasada. Por exemplo, a fase relativa dos altofalantes um relação ao outro não é devidamente levada em conta. Isso significa, por exemplo, que se um sinal de banda larga for fornecido aos alto-falantes de um conjunto estereofônico à frente de uma posição de escuta com fase oposta, um ouvinte perceberia o som pela direção ambiente, e o campo de som na posição de escuta teria oscilações de energia sonora de um lado para o outro (por exemplo, do lado esquerdo para o lado direito). Nessas condições, os vetores Gerzon estariam apontando para a direção frontal, que obviamente não está representando a situação física ou perceptual. Naturalmente, com múltiplos formatos multicanal
ou representações no mercado, existe uma exigência da capacidade de converter entre as diferentes representações, de maneira que as representações individuais possam ser reproduzidas com conjuntos originalmente desenvolvidos para a reconstrução de uma 25 representação multicanal alternativa. Isto é, por exemplo, pode ser necessária uma transformação entre os canais 5.1 e canais 7.1 ou 7.2 para usar-se uma configuração de reprodução de canal 7.1 ou 7.2 existente para reproduzir a representação multicanal 5.1 comumente usada em DVD. A grande variedade de formatos de áudio torna a produção de conteúdo de áudio dificil, pois todos os formatos requerem mixes e formatos de armazenamento / transmissão específicos. Assim, é necessária a conversão entre diferentes formatos de gravação para reprodução em diferentes configurações de reprodução.
Existem alguns métodos propostos para converter áudio de um formato de áudio específico em outro formato de áudio. No entanto, estes métodos são sempre customizados para formatos multicanal ou representações específicos. Isto é, são somente aplicáveis à conversão de uma representação multicanal prédeterminada específica em outra representação multicanal específica.
Em geral, uma redução no número de canais de reprodução (chamada "downmix") é mais simples de implementar que um aumento no número de canais de reprodução ("upmix") . Para algumas configurações padrão de reprodução de alto-falante, são feitas exigências, por exemplo, a ITU de como fazer "downmix" em configurações de reprodução com um número menor de canais de reprodução. Nestas assim chamadas equações de "downmix" "ITU", os sinais de saída são derivados como simples combinações lineares estáticas de sinais de entrada. Normalmente, uma redução do número de canais de reprodução leva a uma degradação da imagem espacial percebida, isto é, uma qualidade de reprodução degradada de um sinal de áudio espacial.
Para um possível benefício de um alto número de canais de reprodução ou alto-falantes de reprodução, foram desenvolvidas técnicas de "upmixing" para tipos específicos de conversões. Um problema frequentemente investigado é como converter áudio estereofônico de 2 canais para reprodução com sistemas de alto-falante surround de 5 canais. Uma abordagem ou implementação para esse tipo de "upmix" 2-a-5 é usar um assim chamado decodificador de "matriz". Esses decodificadores tornaramse comuns para prover ou fazer "upmix" de som multicanal 5.1 em infraestruturas de transmissão em estéreo, especialmente no início do som surround para cinema e home theaters. A idéia básica é reproduzir componentes de som que estejam em fase no sinal estéreo na frente da imagem do som, e pôr os componentes fora de fase nos alto-falantes traseiros. Um método de "upmixing" 2-a-5 alternativo propõe extrair os componentes ambientes do sinal estéreo e reproduzir esses componentes pelos alto-falantes traseiros da configuração 5.1. Uma abordagem que segue as mesmas idéias básicas de maneira perceptivamente mais justificada e usando uma implementação matematicamente mais elegante foi recentemente proposta por C. Faller em "Parametric Multi-channel Audio Coding: Synthesis of Coherence Cues", IEEE Trans. On Speech and Audio Proc., vol. 14, no. I, January 2006.
0 padrão recentemente publicado de surround MPEG executa um "upmix" a partir de um ou dois canais com "downmix" e transmitidos, para os canais finais usados em reprodução ou playback, que normalmente é 5.1. Isto é implementado usando-se informações de lado espacial (informação de lado semelhante à técnica BBC) ou sem informações de lado, usando as relações de fase entre os dois canais de um "downmix" estéreo ("modo não guiado" ou "modo de matriz ampliada").
Todos os métodos de conversão de formato descritos nos parágrafos anteriores são especializados para serem aplicados a configurações específicas do formato de reprodução tanto de origem como de destino, não sendo, portanto, universais. Isto é, uma conversão entre representações multicanal de entrada arbitrárias em representações multicanal de saída arbitrárias não pode ser executada. Isto significa que as técnicas de transformação do método anterior são especificamente projetadas para o número de alto-falantes e sua posição exata para a representação de áudio multicanal de entrada, bem como para a representação multicanal de saída.
0 pedido de patente internacional 2004/077884 propõe utilizar a codificação DirAC para gravar respostas de impulso de sinais de áudio dentro de ambientes de escuta. Usando essas respostas de impulso gravadas, sinais de áudio podem ser reproduzidos com a impressão espacial do ambiente de escuta.
O trabalho da convenção AES 6658 é direcionado à codificação de áudio DirAC e propõe um método para criar uma representação codificada eficiente de sinais gravados por microfones de formato b.
O pedido de patente internacional 01/82651 refere-se a técnicas de masterização de surround e reprodução multicanal. Uma técnica de codificação espacial particular é proposta, a fim de possibilitar a transmissão de uma representação codificada compacta. A representação codificada pode então ser decodificada por um decodificador especialmente projetado na extremidade de recepção.
Naturalmente é desejável ter um conceito para transformação multicanal que seja aplicável a combinações arbitrárias de representações multicanal de entrada e de saída. Sumário da Invenção
De acordo com uma configuração da presente invenção, equipamento para conversão de uma representação multicanal de entrada em uma representação multicanal de saída diferente de um sinal de áudio espacial, composto de: analisador para derivar uma representação intermediária do sinal de áudio espacial, sendo que a representação intermediária contém parâmetros de direção que indicam uma direção de origem de uma porção do sinal de áudio espacial; e um compositor de sinal para gerar a representação multicanal de saída do sinal de áudio espacial usando a representação intermediária do sinal de áudio espacial.
Como é usada uma representação intermediária, a qual possui parâmetros de direção que indicam uma direção de origem de uma porção do sinal de áudio espacial, a conversão pode ser obtida entre representações multicanal arbitrárias, contanto que a configuração de alto-falante da representação multicanal de saída seja conhecida. É importante observar que a configuração de alto-falante da representação multicanal de saída não precisa ser conhecida com antecedência, isto é, durante o projeto do equipamento de conversão. Como o equipamento de conversão e o método são universais, uma representação multicanal provida como representação multicanal de entrada e projetada para uma configuração de alto-falante específica pode ser alterada no lado de recepção, para adequar-se à configuração de reprodução disponível, de maneira que a qualidade de uma reprodução de um sinal de áudio espacial seja melhorada. De acordo com uma outra configuração da presente invenção, a direção de origem de uma porção do sinal de áudio espacial é analisada dentro de diferentes bandas de freqüência. Assim, diferentes parâmetros de direção são derivados para finito com porções de freqüência do sinal de áudio espacial. Para derivar as porções de freqüência de largura finita, pode ser usado, por exemplo, um banco de filtros ou um transformador de Fourier. De acordo com outra configuração, as porções de freqüência ou bandas de freqüência, para as quais a análise é realizada individualmente, são escolhidas de maneira a corresponderem à resolução de freqüência do processo auditivo humano. Estas configurações podem ter a vantagem de que a direção de origem das porções do sinal de áudio espacial é executada tão bem quanto o próprio sistema auditivo humano é capaz de determinar a direção de origem dos sinais de áudio. Portanto, a análise é realizada sem uma perda potencial de precisão na determinação da origem de um objeto de áudio ou uma porção de sinal, quando esse sinal analisado é reconstruído e reproduzido através de uma configuração de alto-falante arbitrária.
De acordo com uma outra configuração da presente invenção, um ou mais canais de "downmix" são também derivados, pertencendo à representação intermediária. Isto é, os canais com "downmix" são derivados de canais de áudio correspondentes aos alto-falantes associados à representação multicanal de entrada, que pode então ser usada para gerar a representação multicanal de saída, ou para gerar canais de áudio correspondentes aos altofalantes associados à representação multicanal de saída.
Por exemplo, um "downmix" monofônico de um canal pode ser gerado pelos canais de entrada 5.1 de um sinal de áudio de canal 5.1 comum. Isso poderia, por exemplo, ser realizado computando-se a soma de todos os canais de áudio individuais. Com base nesse canal de "downmix" monofônico derivado, um compositor de sinal pode distribuir essas porções do canal de "downmix" monofônico correspondentes às porções analisadas da representação multicanal de entrada nos canais da representação multicanal de saida, conforme indicado pelos parâmetros de direção. Isto é, uma freqüência / tempo ou porção de sinal analisada como proveniente da extremidade esquerda de um sinal de áudio espacial será redistribuída para os alto-falantes da representação multicanal de saida, que estão localizados no lado esquerdo em relação à posição de escuta.
De maneira geral, algumas configurações da presente invenção permitem distribuir porções do sinal de áudio espacial com maior intensidade em um canal correspondente a um alto-falante mais próximo da direção indicada pelos parâmetros de direção que a um canal mais longe dessa direção. Isto é, independentemente de como a localização dos alto-falantes usados para reprodução estiver definida na representação multicanal de saída, será obtida uma redistribuição espacial adequando-se a configuração de reprodução disponível da melhor maneira possível.
De acordo com algumas configurações da presente invenção, uma resolução espacial, com a qual pode ser determinada uma direção de origem de uma porção do sinal de áudio espacial, é muito mais alta que o ângulo do espaço tridimensional associado a um único alto-falante da representação multicanal de entrada. Isto é, a direção de origem de uma porção do sinal de áudio espacial pode ser derivada com uma melhor precisão que uma resolução espacial que pode ser obtida simplesmente redistribuindo-se os canais de áudio de uma configuração distinta para outra configuração especifica, como por exemplo, redistribuindo-se os canais de uma configuração 5.1 em uma configuração 7.1 ou 7.2.
Em resumo, algumas configurações da invenção permitem a aplicação de um método melhorado para conversão de formato, o qual é universalmente aplicável e não depende de um layout / configuração-alvo de alto-falante particular desejado(a). Algumas configurações convertem um formato (representação) de áudio multicanal de entrada com canais Nl em um formato (representação) multicanal de saída com canais N2 extraindo parâmetros de direção (semelhantes ao DirAC), os quais são então utilizados para sintetizar o sinal de saída com canais N2. Além disso, de acordo com algumas configurações, alguns canais de "downmix" NO são computados a partir dos sinais de entrada Nl (canais de áudio correspondentes a alto-falantes de acordo com a representação multicanal de entrada), os quais são então utilizados como base para um processo de decodificação usando-se os parâmetros de direção extraídos.
Breve descrição dos desenhos
Várias configurações da presente invenção serão descritas a seguir, com referência aos desenhos anexos.
A Fig. 1 mostra uma ilustração da derivação de 2 5 parâmetros de direção que indicam uma direção de origem de uma porção de um sinal de áudio; e
A Fig. 2 mostra uma outra configuração de derivação de parâmetros de direção com base em uma representação de canal 5.1;
A Fig. 3 mostra um exemplo de geração de uma representação multicanal de saída;
A Fig. 4 mostra um exemplo de conversão de áudio 5 a partir de uma configuração de canal 5.1 em uma configuração de canal 8.1; e
A Fig. 5 mostra um exemplo de um equipamento inventivo para conversão entre formatos de áudio multicanal.
Algumas configurações da presente invenção 10 derivam uma representação intermediária de um sinal de áudio espacial com parâmetros de direção que indicam uma direção de origem de uma porção do sinal de áudio espacial. Uma possibilidade é derivar um vetor de velocidade que indique a direção de origem de uma porção de um sinal de áudio espacial. Um exemplo para fazer 15 isso será descrito nos parágrafos a seguir, com referência à Fig. 1.
Antes de detalhar o conceito, pode-se observar que a análise a seguir pode ser aplicada a múltiplas porções de freqüência ou tempo individuais do sinal de áudio espacial 20 subjacente simultaneamente. Para manter a simplicidade, no entanto, a análise será descrita para somente uma freqüência ou tempo específicos ou porção de tempo / freqüência. A análise baseia-se em uma análise energética do campo de som gravado em uma posição de gravação 2, localizada no centro de um sistema de 25 coordenadas, como indica a Fig. 1.
O sistema de coordenadas é um Sistema de Coordenadas Cartesianas, com um eixo x 4 e um eixo y 6, perpendiculares um ao outro. Usando-se um sistema de mão direita, o eixo ζ, não mostrado na Fig. 1, aponta para a direção fora do plano do desenho.
Para a análise de direção, presume-se que os sinais 4 (conhecidos como sinais de formato B) são gravados. Um 5 sinal onidirecional w é gravado, isto é, um sinal que recebe sinais de todas as direções com (idealmente) igual sensibilidade. Além disso, três sinais direcionais X, Y e Z são gravados, com uma distribuição de sensibilidade apontando na direção dos eixos do Sistema de Coordenadas Cartesianas. Exemplos de possíveis padrões 10 de sensibilidade dos microfones usados são dados na Fig. 1, mostrando dois padrões "figura de oito" 8a e 8b, apontando nas direções dos eixos. Duas possíveis fontes de áudio 10 e 12 são ainda ilustradas na projeção bidimensional do sistema de coordenadas mostrado na Fig. 1.
Para a análise de direção, um vetor de velocidade
instantâneo (no índice de tempo n) é composto para diferentes porções de freqüência (descritas pelo índice i) por
v (n, i) = X (n, i) ex+Y (n, i) ey + Z(n,i)ez. (1)
Isto é, um vetor é criado com os sinais de microfone gravados individualmente dos microfones associados ao eixo do sistema de coordenadas como componentes. Na equação anterior e nas próximas, as Quantidades são indexadas em Tempo (n) e também em freqüência (i) por dois índices (n,l). Isto é,
ex, ey e ez representam vetores de unidade
cartesiana.
Usando-se o sinal onidirecional gravado simultaneamente W, uma intensidade I instantânea é computada como
I (n, i) = w (n, i) v (n, i) , (2) a energia instantânea é derivada de acordo com a seguinte fórmula:
E (n, i) = w2 (n, i)+||v||2(«,/'), (3)
onde I I denota norma de vetor.
Isto é, uma quantidade de intensidade é derivada, permitindo uma possível interferência entre dois sinais (pois podem ocorrer amplitudes positivas e negativas). Além disso, é derivada uma quantidade de energia, a qual naturalmente não permite interferência entre dois sinais, pois a quantidade de energia não contém valores negativos que permitam um cancelamento do sinal.
Estas propriedades da intensidade e os sinais de energia podem ser usados vantajosamente para derivar uma direção de origem de porções de sinal com alta precisão, preservando uma correlação virtual de canais de áudio (uma fase relativa entre os canais), como será detalhado abaixo.
Por outro lado, o vetor de intensidade instantânea pode ser usado como vetor que indica a direção de origem de uma porção do sinal de áudio espacial. No entanto, este vetor pode passar por alterações rápidas, causando, assim, artefatos dentro da reprodução do sinal. Portanto, alternativamente, pode ser computada uma direção instantânea usando-se média de curto prazo, utilizando-se uma janela de Hanning W2 de acordo com a seguinte fórmula:
M/ 2
D(n,i) = - ]>]I(n + m,i)W2(m), (4)
m=-M/ 2
onde W2 é a janela de Hanning para fazer a média
de curto prazo D. Isto é, opcionalmente, pode ser derivado um vetor de direção com média de curto prazo com parâmetros que indicam uma direção de origem do sinal de áudio espacial.
Opcionalmente, uma medida de difusividade ψ pode ser computada como segue:
onde W1 (m) é uma função de janela definida entre -M/2 e M/2 para média de curto prazo.
Deve-se novamente observar que a derivação é realizada de maneira a preservar a correlação virtual dos canais de áudio. Isto é, as informações de fase são devidamente consideradas, o que não é o caso para estimativas de direção baseadas somente em estimativas de energia (como por exemplo, vetores de Gerzon).
explicar isto em mais detalhes. Considere um sinal perfeitamente difuso que seja reproduzido por dois alto-falantes de um sistema estéreo. Como o sinal é difuso (origina-se de todas as direções), ele deve ser reproduzido por ambos os alto-falantes com igual intensidade. No entanto, como a percepção será difusa, é necessário um deslocamento de fase de 180 graus. Nesse panorama, uma estimativa de direção baseada puramente em energia produziria um vetor de direção que apontaria exatamente para o meio, entre os dois alto-falantes, o que certamente é um resultado indesejável que não reflete a realidade.
De acordo com o conceito inventivo detalhado acima, a correlação virtual dos canais de áudio é preservada, ao
(5)
Im=-M /2
0 exemplo simples a seguir deve servir para mesmo tempo em que estima os parâmetros de direção (vetores de direção) . Neste exemplo particular, o vetor de direção seria zero, indicando que o som não se origina de uma direção distinta, o que claramente não é o caso na realidade. De maneira correspondente, o parâmetro de difusividade da equação (5) é 1, correspondendo perfeitamente à situação real.
As janelas de Hanning nas equações acima podem ainda ter diferentes extensões para diferentes bandas de freqüência.
Como resultado desta análise, para cada fatia de tempo de uma porção de freqüência, um vetor de direção ou parâmetros de direção são derivados, indicando uma direção de origem da porção do sinal de áudio espacial, para o qual a análise foi realizada. Opcionalmente, um parâmetro de difusibilidade pode ser derivado, indicando a difusibilidade da direção de uma porção do sinal de áudio espacial. Como foi descrito anteriormente, um valor de difusão de um derivado de acordo com a equação (4) descreve um sinal de difusibilidade máxima, isto é, originário de todas as direções com igual intensidade.
Contrariamente, valores de difusibilidade pequenos são atribuídos a porções de sinal originárias predominantemente de uma direção.
A Fig. 2 mostra um exemplo para a derivação de parâmetros de direção de uma representação multicanal de entrada com cinco canais, de acordo com ITU-775-1. 0 sinal de áudio de entrada multicanal, isto é, a representação multicanal de entrada, é primeiramente transformado em formato B, simulando-se uma gravação anecóica da configuração de áudio multicanal correspondente. Em relação a um centro 20 do Sistema de Coordenadas Cartesianas com um eixo x 22 e y 24, um alto-falante traseiro direito 26 está localizado em um ângulo de 110°. Um altofalante frontal direito 28 está localizado a +30°, um alto-falante 5 central a 0o, um alto-falante frontal esquerdo 32 a 31°, e um alto-falante traseiro esquerdo 34 a -110°. Na prática, uma gravação anecóica pode ser simulada aplicando-se operações simples de matriz, a configuração geométrica da representação multicanal de entrada é conhecida.
Um sinal onidirecional w pode ser obtido fazendo
se uma soma direta de todos os sinais de alto-falante, isto é, de todos os canais de áudio correspondentes aos alto-falantes associados à representação multicanal de entrada. O dipolo ou sinais de "figura de oito" X, Y e Z podem ser formados 15 adicionando-se os sinais de alto-falante ponderados pelo co-seno do ângulo entre o alto-falante e os eixos cartesianos correspondentes, isto é, a direção de máxima sensibilidade do microfone dipolo a ser simulada. Suponhamos que Ln seja o vetor cartesiano 2-D ou 3-D que aponta na direção do enésimo alto20 falante e V seja o vetor de unidade que aponta para a direção do eixo cartesiano correspondente ao microfone do dipolo. Assim, o fator ponderante é cos(ângulo(Ln,V)). O sinal direcional X seria, por exemplo, escrito como
N
X = YjCn ·cos(ângulo(Ln,V)),
/7=1
quando Cn denota o sinal do alto-falante do
enésimo canal e N é o número de canais. O termo ângulo deve ser interpretado como um operador, computando o ângulo espacial entre os dois vetores dados. Isto é, por exemplo, o ângulo 40 (Θ) entre o eixo Y 24 e o alto-falante frontal esquerdo 32 no caso bidimensional ilustrado na Fig. 2.
A derivação adicional de parâmetros de direção 5 poderia, por exemplo, ser feita de acordo com a ilustração da Fig.
1, e detalhada na descrição correspondente, isto é, os sinais de áudio X, Y e Z podem ser divididos em bandas de freqüência de acordo com a resolução de freqüência do sistema auditivo humano. A direção do som, isto é, a direção de origem das porções do sinal 10 de áudio espacial e, opcionalmente, a difusibilidade, são analisadas, dependendo do tempo em cada canal de freqüência. Opcionalmente, uma substituição para difusibilidade de som usandose outra medida de dessemelhança de sinal que não seja a difusibilidade também pode ser utilizada, como por exemplo a 15 coerência entre canais (estéreo) associados ao sinal de áudio espacial.
Se, em um exemplo simplificado, uma fonte de áudio 44 estiver presente, como indica a Fig. 2, onde essa fonte somente contribua para o sinal dentro de uma banda de freqüência 20 específica, um vetor de direção 4 6 que aponta para a fonte de áudio 44 seria derivado. O vetor de direção é representado por parâmetros de direção (componentes de vetor) que indicam a direção da porção do sinal de áudio espacial originária da fonte de áudio 44. Na configuração de reprodução da Fig. 2, esse sinal seria 25 reproduzido principalmente pelo alto-falante frontal esquerdo 32, conforme ilustrado pela onda simbólica associada a este altofalante. No entanto, pequenas porções de sinal também serão reproduzidas pelo alto-falante traseiro esquerdo 32. Assim, o sinal direcional do microfone associado à coordenada X 22 receberia os componentes de sinal do canal frontal esquerdo 32 (o canal de áudio associado ao alto-falante frontal esquerdo 32) e do canal traseiro esquerdo 34.
Como, de acordo com a implementação acima, o sinal direcional Y associado ao eixo y receberá também porções de sinal reproduzidas pelo alto-falante frontal esquerdo 32, uma análise direcional baseada em sinais direcionais XeY poderá reconstruir o som que vem do vetor de direção 4 6 com alta precisão.
Para a conversão final na representação multicanal desejada (formato multicanal), os parâmetros de direção que indicam a direção de origem de porções dos sinais de áudio são usados. Opcionalmente, um ou mais (NO) canais de "downmix" de áudio adicionais podem ser usados. Esse canal de "downmix" pode, por exemplo, ser o canal onidirecional W ou qualquer outro canal monofônico. No entanto, para a distribuição espacial, o uso de somente um canal único associado à representação intermediária é de impacto negativo pequeno. Isto é, vários canais de "downmix", como por exemplo, um mix estéreo, os canais W, X e Y ou todos os canais de um formato B podem ser usados, contanto que os parâmetros de direção ou os dados direcionais tenham sido derivados e possam ser usados para a reconstrução ou geração da representação multicanal de saída. É também alternativamente possível usar os 5 canais da Fig. 2 diretamente, ou qualquer combinação de canais associada à representação multicanal de entrada como uma substituição de possíveis canais de "downmix". Quando somente um canal é armazenado, pode haver uma degradação da qualidade da reprodução do som difuso. A Fig. 3 mostra um exemplo da reprodução do sinal da fonte de áudio 44 com uma configuração de alto-falante que difere significativamente da configuração de alto-falante da Fig.
2, a qual era a representação multicanal de entrada da qual os parâmetros tinham sido derivados. A Fig. 3 mostra, como exemplo, seis alto-falantes 50a a 50f, igualmente distribuídos ao longo de uma linha na frente de uma posição de escuta 60, definindo o centro de um sistema de coordenadas com um eixo x 22 e um eixo y 24, conforme introduzido na Fig. 2. Como uma análise anterior proveu parâmetros de direção que descrevem a direção do vetor de direção 4 6 que aponta para a fonte do sinal de áudio 44, uma representação multicanal de saída adaptada à configuração de altofalante da Fig. 3 pode ser facilmente derivada, redistribuindo-se a porção do sinal de áudio espacial a ser reproduzido para os alto-falantes próximos à direção da fonte de áudio 44, isto é, pelos alto-falantes próximos à direção indicada pelos parâmetros de direção. Isto é, os canais de áudio correspondentes aos altofalantes na direção indicada pelos parâmetros de direção são enfatizados em relação aos canais de áudio correspondentes aos alto-falantes que estão distantes desta direção. Isto é, os altofalantes 50a e 50b podem ser orientados (por exemplo, usando-se panorâmica de amplitude) para reproduzir a porção do sinal, enquanto os alto-falantes 50c e 50f não reproduzem essa porção específica do sinal, mas podem ser usados para reprodução de som difuso ou outras porções de sinal de diferentes bandas de freqüência.
O uso de um compositor de sinal para gerar a representação multicanal de saída do sinal de áudio espacial usando-se os parâmetros de direção pode também ser interpretado como sendo uma decodificação do sinal intermediário no formato de saída de multicanal desejado, com canais de saída N2. Os canais de "downmix" de áudio ou sinais gerados são tipicamente processados na mesma banda de freqüência na qual eles foram analisados. A decodificação pode ser realizada de maneira semelhante ao DirAC. Na reprodução opcional de som difuso, o uso de áudio para representar uma corrente não difusa é tipicamente um dos dois sinais de canal de "downmix" NO opcionais ou combinações lineares deles.
Para a criação opcional de uma corrente difusa, existem várias opções de síntese para criar a parte difusa dos sinais de saída ou dos canais de saída correspondentes aos altofalantes de acordo com a representação multicanal de saída. Se houver somente um canal de "downmix" transmitido, esse canal tem que ser usado para criar sinais não-difusos para cada altofalante. Se houver mais canais transmitidos, existem mais opções para a maneira pela qual o som difuso pode ser criado. Se, por exemplo, um "downmix" estéreo for usado no processo de conversão, um método obviamente adequado é aplicar o canal de "downmix" esquerdo aos alto-falantes à esquerda, e o canal de "downmix" direito aos alto-falantes do lado direito. Se vários canais de "downmix" forem usados para a conversão (isto é, NO > 1), a corrente difusa de cada alto-falante pode ser computada como uma soma diferentemente ponderada destes canais de "downmix". Uma possibilidade seria, por exemplo, transmitir um sinal de formato B (canais X, Y, ZeW conforme descrito anteriormente) e computar o sinal de um microfone cardióide virtual para cada alto-falante.
0 texto a seguir descreve um possível procedimento para a conversão de uma representação multicanal de entrada em uma representação multicanal de saída como uma lista.
5 Neste exemplo, o som é gravado com um microfone de formato B simulado e depois continua a ser processado por um compositor de sinal para escuta ou reprodução com uma configuração de altofalante multicanal ou monofônica. As etapas únicas são explicadas com referência à Fig. 4, mostrando a conversão de uma 10 representação multicanal de entrada de canal 5.1 em uma representação multicanal de saída de canal 8. A base é um formato de áudio de canal NI (NI sendo 5 no exemplo específico) . Para converter a representação multicanal de entrada em uma representação multicanal de saída diferente, as etapas a seguir 15 devem ser executadas.
1. Simule uma gravação anecóica de uma representação de áudio multicanal arbitrária com canais de áudio Nl (5 canais), conforme ilustrado na seção de gravação 70 (com um microfone de formato B simulado em um centro 72 do layout).
2. Em uma etapa de análise 74, os sinais de
microfone simulados são divididos em bandas de freqüência, e em uma etapa 7 6 de análise direcional, é derivada a direção de origem de porções dos sinais de microfone simulados. Além disso, opcionalmente, a difusibilidade (ou coerência) pode ser determinada em uma etapa de término de difusibilidade 78.
Como foi anteriormente mencionado, uma análise de direção pode ser realizada sem a utilização de uma etapa intermediária de formato B. Isto é, em geral, uma representação intermediária do sinal de áudio espacial tem que ser derivada com base em uma representação multicanal de entrada, onde a representação intermediária possui parâmetros de direção que indicam uma direção de origem de uma porção do sinal de áudio espacial.
3. Em uma etapa de "downmix" 80, são derivados sinais de áudio de "downmix" NO, para serem usados como base para a conversão / criação da representação multicanal de saída. Em uma etapa de composição 82, os sinais de áudio de "downmix" são decodificados ou é feito "upmix" para uma configuração de altofalante arbitrária que requer canais de áudio N2 por um método de síntese apropriado (por exemplo, usando panorâmica de amplitude ou técnicas igualmente adequadas).
0 resultado pode ser reproduzido por um sistema de alto-falante multicanal, tendo por exemplo 8 alto-falantes, conforme indicado no exemplo de reprodução 8 4 da Fig. 4. No entanto, graças à universalidade do conceito, uma conversão pode também ser feita para uma configuração de alto-falante monofônica, provendo um efeito como se o sinal de áudio espacial tivesse sido gravado com um único microfone direcional.
A Fig. 5 mostra um esquema de princípio de um exemplo de um equipamento para conversão entre formatos de áudio multicanal 100.
O Equipamento 100 recebe uma representação multicanal de entrada 102.
O Equipamento 100 é composto de um analisador 104 para derivar uma representação intermediária 106 do sinal de áudio espacial, sendo que a representação intermediária 106 possui parâmetros de direção que indicam uma direção de origem de uma porção do sinal de áudio espacial.
0 Equipamento 100 é composto ainda de um compositor de sinal 108 para gerar uma representação multicanal de saída 110 do sinal de áudio espacial usando-se a representação intermediária (106) do sinal de áudio espacial.
Em resumo, as configurações dos equipamentos de conversão e métodos de conversão descritas anteriormente provêem algumas grandes vantagens. Primeiramente, virtualmente qualquer formato de áudio de entrada pode ser processado desta maneira. Além disso, o processo de conversão pode gerar saída para qualquer layout de alto-falante, inclusive layout / configurações de altofalante não-padrão, sem a necessidade de customizar especificamente novas relações para novas combinações de layout / configurações de alto-falante de entrada e layout / configurações de alto-falante de saída. E ainda, a resolução espacial de reprodução de áudio aumenta quando o número de alto-falantes é aumentado, ao contrário das implementações do método anterior.
Dependendo de determinados requisitos de implementação dos métodos inventivos, os métodos inventivos podem ser implementados em hardware ou em software. A implementação pode ser feita utilizando-se um meio de armazenamento digital, em particular um disco, DVD ou CD com sinais de controle legíveis eletronicamente armazenados neles, os quais funcionam em conjunto com um sistema de computador programável para que os métodos inventivos sejam executados. Em geral, a presente invenção é, portanto, um produto de programa de computador com um código de programa armazenado em um portador legível em máquina, sendo que o código de programa funciona para executar os métodos inventivos quando o programa de computador roda em um computador. Em outras palavras, os métodos inventivos são, portanto, um programa de computador com um código de programa para executar pelo menos um dos métodos inventivos quando o programa de computador roda em um computador.
Apesar da revelação acima ter sido particularmente demonstrada e descrita com referência a configurações particulares, será compreendido pelos técnicos no assunto que várias outras alterações na forma e detalhes podem ser feitas sem sair do espírito e escopo da invenção. Deve-se entender que várias alterações podem ser feitas na adaptação a diferentes configurações sem sair dos conceitos mais amplos revelados neste documento e abrangidos pelas reivindicações a seguir.
Claims (22)
1. Equipamento para conversão de uma representação multicanal de entrada em uma representação multicanal de saída diferente de um sinal de áudio espacial, caracterizado pelo fato de que compreende: decodificador de representação de entrada para derivar alguns canais de áudio correspondentes aos alto-falantes associados à representação multicanal de entrada; analisador para derivação, usando o número de canais de áudio correspondentes aos alto-falantes associados à representação multicanal de entrada, uma representação intermediária do sinal de áudio espacial, sendo que a representação intermediária possui parâmetros de direção que indicam uma direção de origem de uma porção do sinal de áudio espacial; e compositor de sinal para gerar a representação multicanal de saída do sinal de áudio espacial usando a representação intermediária do sinal de áudio espacial.
2. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o analisador funciona derivando parâmetros de direção, dependendo de uma correlação virtual dos canais de áudio associados à representação multicanal de entrada.
3. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o analisador funciona derivando parâmetros de direção que preservam as informações de fase relativa dos canais de áudio associados à representação multicanal de entrada
4. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o analisador funciona derivando diferentes parâmetros de direção para porções de freqüência de largura finita do sinal de áudio espacial.
5. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o analisador funciona derivando diferentes parâmetros de direção para porções de tempo de extensão finita do sinal de áudio espacial.
6. Equipamento, de acordo com a reivindicação 4, caracterizado pelo fato de que o analisador funciona derivando os diferentes parâmetros de direção para porções de tempo de extensão finita do sinal de áudio espacial associado às porções de freqüência, onde a extensão de uma primeira porção de tempo associada a uma primeira porção de freqüência difere da extensão de uma associação de uma segunda porção de tempo a uma segunda porção de freqüência diferente do sinal de áudio espacial.
7. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o analisador funciona derivando parâmetros de direção que descrevem um vetor que aponta para a direção de origem da porção do sinal de áudio espacial.
8. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o analisador funciona também derivando um ou mais canais de áudio associados à representação intermediária.
9. Equipamento, de acordo com a reivindicação 8, caracterizado pelo fato de que o analisador funciona derivando canais de áudio correspondentes aos alto-falantes associados à representação multicanal de entrada.
10. Equipamento, de acordo com a reivindicação 8, caracterizado pelo fato de que o analisador funciona derivando um canal de "downmix" como a soma dos canais de áudio correspondentes aos alto-falantes associados à representação multicanal de entrada.
11. Equipamento, de acordo com a reivindicação 8, caracterizado pelo fato de que o analisador funciona derivando pelo menos um canal de áudio associado à direção de um eixo de um Sistema de Coordenadas Cartesianas.
12. Equipamento, de acordo com a reivindicação11, caracterizado pelo fato de que o analisador funciona derivando pelo menos um canal de áudio que perfaz a soma ponderada dos canais de áudio correspondentes aos alto-falantes associados à representação multicanal de entrada.
13. Equipamento, de acordo com a reivindicação11, caracterizado pelo fato de que o analisador funciona de maneira que a derivação de pelo menos um canal de áudio x associado à direção V de um eixo do Sistema de Coordenadas Cartesianas possa ser descrita por uma combinação de canais de áudio n Cn correspondente aos alto-falantes n associados à representação multicanal de entrada e direcionado a Ln, de acordo com a seguinte fórmula: <formula>formula see original document page 29</formula>
14. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o analisador funciona ainda derivando um parâmetro de difusibilidade que indica uma difusibilidade da direção de origem da porção do sinal de áudio espacial.
15. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o compositor de sinal funciona distribuindo a porção do sinal de áudio espacial por um número de canais correspondente a um número de alto-falantes associado à representação multicanal de saída.
16. Equipamento, de acordo com a reivindicação15, caracterizado pelo fato de que o compositor de sinal funciona de maneira que a porção do sinal de áudio espacial é distribuída com maior intensidade para um canal correspondente a um altofalante mais próximo da direção indicada pelos parâmetros de direção que para um canal correspondente a um alto-falante mais longe dessa direção.
17. Equipamento, de acordo com a reivindicação14, caracterizado pelo fato de que o compositor de sinal funciona de maneira que a porção do sinal de áudio espacial é distribuída com mais intensidade uniforme para canais correspondentes a altofalantes associados à representação multicanal de saída quando o parâmetro de difusibilidade indica difusibilidade mais alta que quando o parâmetro de difusibilidade indica difusibilidade mais baixa.
18. Equipamento, de acordo com a reivindicação 1 caracterizado pelo fato de que compreende ainda: uma interface de entrada para receber a representação multicanal de entrada.
19. Equipamento, de acordo com a reivindicação15, caracterizado pelo fato de que o compositor de sinal compreende ainda um codificador de canal de saída para derivar a representação multicanal de saída com base nos canais de áudio correspondentes aos alto-falantes associados à representação de canal de saída.
20. Equipamento, de acordo com a reivindicação 1 caracterizado pelo fato de que compreende ainda uma interface de saída para prover a representação multicanal de saída.
21. Método para conversão de uma representação multicanal de entrada em uma representação multicanal de saída diferente de um sinal de áudio espacial, sendo que o método caracterizado pelo fato de que compreende: derivar um número de canais de áudio correspondente aos alto-falantes associados à representação multicanal de entrada; derivar, usando o número de canais de áudio correspondente aos alto-falantes associados à representação multicanal de entrada, uma representação intermediária do sinal de áudio espacial, sendo que a representação intermediária possui parâmetros de direção que indicam uma direção de origem de uma porção do sinal de áudio espacial; e gerar a representação multicanal de saída do sinal de áudio espacial usando a representação intermediária do sinal de áudio espacial.
22. Programa de computador para, quando for rodado em um computador, implementar o método para conversão de uma representação multicanal em uma representação multicanal de saída diferente de um sinal de áudio espacial, caracterizado pelo fato de que o método compreende: derivar um número de canais de áudio correspondente aos alto-falantes associados à representação multicanal de entrada; derivar, usando o número de canais de áudio correspondente aos alto-falantes associados à representação multicanal de entrada, uma representação intermediária do sinal de áudio espacial, sendo que a representação intermediária possui parâmetros de direção que indicam uma direção de origem de uma porção do sinal de áudio espacial; e gerar a representação multicanal de saída do sinal de áudio espacial usandorepresentação intermediária do sinal de áudio espacial.
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US89618407P | 2007-03-21 | 2007-03-21 | |
| US60/896,184 | 2007-03-21 | ||
| US11/742,502 | 2007-04-30 | ||
| US11/742,502 US8290167B2 (en) | 2007-03-21 | 2007-04-30 | Method and apparatus for conversion between multi-channel audio formats |
| PCT/EP2008/000830 WO2008113428A1 (en) | 2007-03-21 | 2008-02-01 | Method and apparatus for conversion between multi-channel audio formats |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| BRPI0808217A2 true BRPI0808217A2 (pt) | 2014-07-01 |
| BRPI0808217B1 BRPI0808217B1 (pt) | 2021-04-06 |
Family
ID=39313182
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| BRPI0808217-0A BRPI0808217B1 (pt) | 2007-03-21 | 2008-02-01 | Método e equipamento para conversão entre formatos de áudio multicanal |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US8290167B2 (pt) |
| EP (1) | EP2130204A1 (pt) |
| JP (1) | JP4993227B2 (pt) |
| KR (1) | KR101195980B1 (pt) |
| CN (1) | CN101669167A (pt) |
| BR (1) | BRPI0808217B1 (pt) |
| RU (1) | RU2449385C2 (pt) |
| TW (1) | TWI369909B (pt) |
| WO (1) | WO2008113428A1 (pt) |
Families Citing this family (44)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2007083739A1 (ja) * | 2006-01-19 | 2007-07-26 | Nippon Hoso Kyokai | 3次元音響パンニング装置 |
| US9014377B2 (en) * | 2006-05-17 | 2015-04-21 | Creative Technology Ltd | Multichannel surround format conversion and generalized upmix |
| US8908873B2 (en) * | 2007-03-21 | 2014-12-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
| US9015051B2 (en) * | 2007-03-21 | 2015-04-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reconstruction of audio channels with direction parameters indicating direction of origin |
| US8180062B2 (en) * | 2007-05-30 | 2012-05-15 | Nokia Corporation | Spatial sound zooming |
| WO2009131658A2 (en) | 2008-04-21 | 2009-10-29 | Snap Networks, Inc. | An electrical system for a speaker and its control |
| US9025775B2 (en) * | 2008-07-01 | 2015-05-05 | Nokia Corporation | Apparatus and method for adjusting spatial cue information of a multichannel audio signal |
| EP2205007B1 (en) * | 2008-12-30 | 2019-01-09 | Dolby International AB | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
| KR101387195B1 (ko) | 2009-10-05 | 2014-04-21 | 하만인터내셔날인더스트리스인코포레이티드 | 오디오 신호의 공간 추출 시스템 |
| EP2346028A1 (en) | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
| CN102859590B (zh) * | 2010-02-24 | 2015-08-19 | 弗劳恩霍夫应用研究促进协会 | 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序 |
| KR102294460B1 (ko) * | 2010-03-26 | 2021-08-27 | 돌비 인터네셔널 에이비 | 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치 |
| EP2375779A3 (en) | 2010-03-31 | 2012-01-18 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for measuring a plurality of loudspeakers and microphone array |
| KR20120004909A (ko) | 2010-07-07 | 2012-01-13 | 삼성전자주식회사 | 입체 음향 재생 방법 및 장치 |
| WO2012025580A1 (en) | 2010-08-27 | 2012-03-01 | Sonicemotion Ag | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
| JP5567997B2 (ja) * | 2010-12-07 | 2014-08-06 | 日本放送協会 | 音響信号比較装置およびそのプログラム |
| KR101871234B1 (ko) | 2012-01-02 | 2018-08-02 | 삼성전자주식회사 | 사운드 파노라마 생성 장치 및 방법 |
| CN104054126B (zh) * | 2012-01-19 | 2017-03-29 | 皇家飞利浦有限公司 | 空间音频渲染和编码 |
| CN103379424B (zh) * | 2012-04-24 | 2016-08-10 | 华为技术有限公司 | 一种混音方法及多点控制服务器 |
| EP2733964A1 (en) | 2012-11-15 | 2014-05-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup |
| BR112015013154B1 (pt) * | 2012-12-04 | 2022-04-26 | Samsung Electronics Co., Ltd | Aparelho fornecedor de áudio, e método fornecedor de áudio |
| EP2981960B1 (en) | 2013-04-05 | 2019-03-13 | Dolby International AB | Stereo audio encoder and decoder |
| US9478224B2 (en) * | 2013-04-05 | 2016-10-25 | Dolby International Ab | Audio processing system |
| RU2630754C2 (ru) * | 2013-05-24 | 2017-09-12 | Долби Интернешнл Аб | Эффективное кодирование звуковых сцен, содержащих звуковые объекты |
| BR112015029113B1 (pt) | 2013-05-24 | 2022-03-22 | Dolby International Ab | Método para a codificação de objetos de áudio como um fluxo de dados, método para a reconstrução de objetos de áudio com base em um fluxo de dados e decodificador para reconstruir objetos de áudio com base em um fluxo de dados |
| US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
| EP2814027B1 (en) | 2013-06-11 | 2016-08-10 | Harman Becker Automotive Systems GmbH | Directional audio coding conversion |
| EP2830332A3 (en) | 2013-07-22 | 2015-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration |
| EP3293734B1 (en) | 2013-09-12 | 2019-05-15 | Dolby International AB | Decoding of multichannel audio content |
| JP6412931B2 (ja) * | 2013-10-07 | 2018-10-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 空間的オーディオ・システムおよび方法 |
| WO2015150384A1 (en) | 2014-04-01 | 2015-10-08 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
| US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
| US9852737B2 (en) * | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
| CN105657633A (zh) | 2014-09-04 | 2016-06-08 | 杜比实验室特许公司 | 生成针对音频对象的元数据 |
| US9774974B2 (en) * | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
| US9913061B1 (en) * | 2016-08-29 | 2018-03-06 | The Directv Group, Inc. | Methods and systems for rendering binaural audio content |
| EP3297298B1 (en) * | 2016-09-19 | 2020-05-06 | A-Volute | Method for reproducing spatially distributed sounds |
| US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
| PT3692523T (pt) | 2017-10-04 | 2022-03-02 | Fraunhofer Ges Forschung | Aparelho, método e programa de computador para codificação, descodificação, processamento de cena e outros procedimentos relacionados com codificação de áudio espacial com base em dirac |
| BR112020011026A2 (pt) | 2017-11-17 | 2020-11-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | aparelho e método para codificar ou decodificar parâmetros de codificação de áudio direcional com o uso de quantização e codificação de entropia |
| EP3824463A4 (en) * | 2018-07-18 | 2022-04-20 | Sphereo Sound Ltd. | Detection of audio panning and synthesis of 3d audio from limited-channel surround sound |
| WO2022164229A1 (ko) * | 2021-01-27 | 2022-08-04 | 삼성전자 주식회사 | 오디오 처리 장치 및 방법 |
| EP4243015A4 (en) | 2021-01-27 | 2024-04-17 | Samsung Electronics Co., Ltd. | AUDIO PROCESSING APPARATUS AND METHOD |
| CN115134716A (zh) * | 2022-06-23 | 2022-09-30 | 咪咕文化科技有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
Family Cites Families (39)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| BG60225B2 (bg) | 1988-09-02 | 1993-12-30 | Qsound Ltd. | Метод и устройство за формиране на звукови изображения |
| US5208860A (en) * | 1988-09-02 | 1993-05-04 | Qsound Ltd. | Sound imaging method and apparatus |
| KR100228688B1 (ko) * | 1991-01-08 | 1999-11-01 | 쥬더 에드 에이. | 다차원 음장용 인코우더/디코우더 |
| GB9103207D0 (en) | 1991-02-15 | 1991-04-03 | Gerzon Michael A | Stereophonic sound reproduction system |
| DE4236989C2 (de) | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
| JPH07222299A (ja) | 1994-01-31 | 1995-08-18 | Matsushita Electric Ind Co Ltd | 音像移動処理編集装置 |
| US5850453A (en) * | 1995-07-28 | 1998-12-15 | Srs Labs, Inc. | Acoustic correction apparatus |
| FR2738099B1 (fr) * | 1995-08-25 | 1997-10-24 | France Telecom | Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe |
| US5870484A (en) * | 1995-09-05 | 1999-02-09 | Greenberger; Hal | Loudspeaker array with signal dependent radiation pattern |
| JP4132109B2 (ja) | 1995-10-26 | 2008-08-13 | ソニー株式会社 | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 |
| US6697491B1 (en) * | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
| JP3594281B2 (ja) | 1997-04-30 | 2004-11-24 | 株式会社河合楽器製作所 | ステレオ拡大装置及び音場拡大装置 |
| US6694033B1 (en) * | 1997-06-17 | 2004-02-17 | British Telecommunications Public Limited Company | Reproduction of spatialized audio |
| US5890125A (en) | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
| FI116990B (fi) | 1997-10-20 | 2006-04-28 | Nokia Oyj | Menetelmä ja järjestelmä akustisen virtuaaliympäristön käsittelemiseksi |
| AUPP272598A0 (en) * | 1998-03-31 | 1998-04-23 | Lake Dsp Pty Limited | Wavelet conversion of 3-d audio signals |
| AU2000280030A1 (en) | 2000-04-19 | 2001-11-07 | Sonic Solutions | Multi-channel surround sound mastering and reproduction techniques that preservespatial harmonics in three dimensions |
| US7110953B1 (en) | 2000-06-02 | 2006-09-19 | Agere Systems Inc. | Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction |
| WO2002007481A2 (en) | 2000-07-19 | 2002-01-24 | Koninklijke Philips Electronics N.V. | Multi-channel stereo converter for deriving a stereo surround and/or audio centre signal |
| EP1184676B1 (en) * | 2000-09-02 | 2004-05-06 | Nokia Corporation | System and method for processing a signal being emitted from a target signal source into a noisy environment |
| WO2002078388A2 (en) * | 2001-03-27 | 2002-10-03 | 1... Limited | Method and apparatus to create a sound field |
| SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
| JP3810004B2 (ja) | 2002-03-15 | 2006-08-16 | 日本電信電話株式会社 | ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム |
| TWI236307B (en) | 2002-08-23 | 2005-07-11 | Via Tech Inc | Method for realizing virtual multi-channel output by spectrum analysis |
| FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
| SE0400997D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Efficient coding of multi-channel audio |
| US7818077B2 (en) | 2004-05-06 | 2010-10-19 | Valve Corporation | Encoding spatial data in a multi-channel sound file for an object in a virtual environment |
| EP1749420A4 (en) | 2004-05-25 | 2008-10-15 | Huonlabs Pty Ltd | AUDIO APPARATUS AND METHOD |
| US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
| WO2006003813A1 (ja) | 2004-07-02 | 2006-01-12 | Matsushita Electric Industrial Co., Ltd. | オーディオ符号化及び復号化装置 |
| ES2333137T3 (es) | 2004-07-14 | 2010-02-17 | Koninklijke Philips Electronics N.V. | Conversion de canal de audio. |
| US7720232B2 (en) * | 2004-10-15 | 2010-05-18 | Lifesize Communications, Inc. | Speakerphone |
| US7853022B2 (en) * | 2004-10-28 | 2010-12-14 | Thompson Jeffrey K | Audio spatial environment engine |
| SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
| US8873768B2 (en) | 2004-12-23 | 2014-10-28 | Motorola Mobility Llc | Method and apparatus for audio signal enhancement |
| JP4804014B2 (ja) | 2005-02-23 | 2011-10-26 | 沖電気工業株式会社 | 音声会議装置 |
| US8023659B2 (en) * | 2005-06-21 | 2011-09-20 | Japan Science And Technology Agency | Mixing system, method and program |
| EP1761110A1 (en) | 2005-09-02 | 2007-03-07 | Ecole Polytechnique Fédérale de Lausanne | Method to generate multi-channel audio signals from stereo signals |
| US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
-
2007
- 2007-04-30 US US11/742,502 patent/US8290167B2/en active Active
-
2008
- 2008-02-01 KR KR1020097019537A patent/KR101195980B1/ko active Active
- 2008-02-01 CN CN200880009025A patent/CN101669167A/zh active Pending
- 2008-02-01 WO PCT/EP2008/000830 patent/WO2008113428A1/en not_active Ceased
- 2008-02-01 EP EP08707513A patent/EP2130204A1/en not_active Withdrawn
- 2008-02-01 RU RU2009134474/08A patent/RU2449385C2/ru active
- 2008-02-01 JP JP2009553931A patent/JP4993227B2/ja active Active
- 2008-02-01 BR BRPI0808217-0A patent/BRPI0808217B1/pt active IP Right Grant
- 2008-03-19 TW TW097109731A patent/TWI369909B/zh active
Also Published As
| Publication number | Publication date |
|---|---|
| EP2130204A1 (en) | 2009-12-09 |
| JP2010521910A (ja) | 2010-06-24 |
| RU2009134474A (ru) | 2011-04-27 |
| KR101195980B1 (ko) | 2012-10-30 |
| BRPI0808217B1 (pt) | 2021-04-06 |
| JP4993227B2 (ja) | 2012-08-08 |
| TW200845801A (en) | 2008-11-16 |
| WO2008113428A1 (en) | 2008-09-25 |
| RU2449385C2 (ru) | 2012-04-27 |
| TWI369909B (en) | 2012-08-01 |
| CN101669167A (zh) | 2010-03-10 |
| KR20090117897A (ko) | 2009-11-13 |
| US20080232616A1 (en) | 2008-09-25 |
| US8290167B2 (en) | 2012-10-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| BRPI0808217A2 (pt) | "método e equipamento para conversão entre formatos de áudio multicanal" | |
| US10820134B2 (en) | Near-field binaural rendering | |
| US10609503B2 (en) | Ambisonic depth extraction | |
| US8908873B2 (en) | Method and apparatus for conversion between multi-channel audio formats | |
| US9552819B2 (en) | Multiplet-based matrix mixing for high-channel count multichannel audio | |
| EP2805326B1 (en) | Spatial audio rendering and encoding | |
| BRPI0707969B1 (pt) | codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador | |
| CN101889307A (zh) | 相位-幅度3d立体声编码器和解码器 | |
| BR112015010995B1 (pt) | Ajuste por segmento do sinal de áudio espacial para configuração diferente do autofalante de reprodução | |
| BR112015000247B1 (pt) | Decodificador, método de decodificação, codificador, método de codificação, e sistema de codificação e decodificação. | |
| BR112020000759A2 (pt) | aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro | |
| BRPI0816618B1 (pt) | método e aparelho para gerar sinal de áudio binaural | |
| KR102114440B1 (ko) | 일정-파워 페어와이즈 패닝을 갖는 매트릭스 디코더 | |
| Angelo | Advanced techniques for measuring and reproducing spatial sound properties of auditoria | |
| Takahashi et al. | Down-mixing of multi-channel audio for sound field reproduction based on spatial covariance | |
| BR122024013696A2 (pt) | Aparelho, método e programa de computador para codificação, decodificação, processamento de cena e outros procedimentos relacionados com a codificação de áudio espacial baseada em dirac | |
| HK1218596B (en) | Matrix decoder with constant-power pairwise panning |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
| B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
| B15K | Others concerning applications: alteration of classification |
Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 19/00 , H04S 3/02 Ipc: H04S 3/02 (1980.01), G10L 19/16 (2013.01), G10L 19 |
|
| B07A | Application suspended after technical examination (opinion) [chapter 7.1 patent gazette] | ||
| B06A | Patent application procedure suspended [chapter 6.1 patent gazette] | ||
| B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
| B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 06/04/2021, OBSERVADAS AS CONDICOES LEGAIS. |