BRPI1007777B1 - Aparelho para prover um ou mais parâmetros ajustados para uma provisão de uma representação de sinal de decodificação, transcodificador de sinal de áudio, codificador de sinal de áudio e método - Google Patents
Aparelho para prover um ou mais parâmetros ajustados para uma provisão de uma representação de sinal de decodificação, transcodificador de sinal de áudio, codificador de sinal de áudio e métodoInfo
- Publication number
- BRPI1007777B1 BRPI1007777B1 BRPI1007777-4A BRPI1007777A BRPI1007777B1 BR PI1007777 B1 BRPI1007777 B1 BR PI1007777B1 BR PI1007777 A BRPI1007777 A BR PI1007777A BR PI1007777 B1 BRPI1007777 B1 BR PI1007777B1
- Authority
- BR
- Brazil
- Prior art keywords
- parameters
- signal
- information
- playback
- distortion
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Abstract
APARELHO PARA PROVER UM OU MAIS PARÂMETROS AJUSTADOS PARA UMA PROVISÃO DE UMA REPRESENTAÇÃO DE SINAL DE DECODIFICAÇÃO, TRANSCODIFICADOR DE SINAL DE ÁUDIO, CODIFICADOR DE SINAL DE ÁUDIO, FLUXO DE BIT DE ÁUDIO, MÉTODO E PROGRAMA DE COMPUTADOR Um aparelho para prover um ou mais parâmetros ajustados para uma provisão de uma representação de sinal de decodificação à base de uma representação de sinal de codificação e uma informação paramétrica relacionada ao objeto compreende um ajustador de parâmetro. O ajustador de parâmetro é configurado para receber um ou mais parâmetros de entrada e para prover, com base neles, um ou mais parâmetros ajustados. O ajustador de parâmetro é configurado para prover um ou mais parâmetros ajustados dependendo dos um ou mais parâmetros de entrada e da informação paramétrica relacionada ao objeto, de maneira que uma distorção da representação do sinal decodificado causada pelo uso de parâmetros não ideais seja reduzida pelo menos para parâmetros de entrada que desviam dos parâmetros ideais além de um desvio pré- determinado.
Description
[0001] Realizações, de acordo com a invenção referem-se a um aparelho para prover um ou mais parâmetros ajustados para uma provisão de uma representação de sinal de decodificação à base de uma representação de sinal de codificação e uma informação paramétrica relacionada
[0002] Outra a um objeto. realização, de acordo com a invenção refere-se a um decodificador de sinal de áudio.
[0003] Outra realização, de acordo com a invenção refere-se a um transcodificador de sinal de áudio.
[0004] E ainda outras realizações, de acordo com a invenção referem-se a um método para prover um ou mais parâmetros ajustados.
[0005] E ainda outras realizações referem-se a um método para prover, como uma representação de sinal de decodificação, uma pluralidade de canais de áudio de decodificação à base de uma representação de sinal de codificação, uma informação paramétrica relacionada a um objeto e uma informação de reprodução.
[0006] E uma outra realização refere-se a um método para prover, como uma representação de sinal de decodificação, uma representação de sinal de codificação e uma informação paramétrica relacionada ao canal à base de uma representação de sinal de codificação, uma informação paramétrica relacionada a um objeto e uma informação de reprodução desejada. codificação, uma informação paramétrica relacionada a um objeto e uma informação de reprodução desejada. E ainda outras realizações, de acordo com a invenção referem-se a um codificador de sinal de áudio, um método para prover uma representação de sinal de áudio codificado e um fluxo de bit de áudio. E ainda outras realizações referem-se a programas de computador correspondentes. E ainda, outras realizações de acordo com a invenção referem-se a métodos, aparelho e programas de computador para evitar a distorção do processamento de sinal de áudio.
Na técnica de processamento de áudio, transmissão de áudio e armazenamento de áudio existe um desejo cada vez maior de tratar conteúdos de multicanal para melhorar a impressão auditiva. A utilização de conteúdo de áudio multicanal inclui melhorias significativas para o usuário. Por exemplo, pode ser obtida uma impressão auditiva tridimensional, que inclui uma melhor satisfação do usuário em aplicações de entretenimento. No entanto, conteúdos de áudio multicanal também são úteis em ambientes profissionais, por exemplo, em aplicações de conferência telefônica, pois a inteligibilidade do falante pode ser melhorada com a utilização de um playback de áudio multicanal.
No entanto, é também desejável ter uma boa escolha entre qualidade de áudio e requisitos de fluxo de bits, para evitar uma carga excessiva de recursos por aplicações de multicanal.
Recentemente, técnicas paramétricas para a transmissão eficiente de fluxo de bits e/ou armazenamento de cenas de áudio contendo múltiplos objetos de áudio foram propostas, por exemplo, Codificação de Indicação Biauricular (Tipo I) (vide por exemplo, referência [BCC]), Codificação Conjunta de Fonte (vide por exemplo, referência [JSC]), e Codificação de Objeto de Áudio Espacial (SAOC) (MPEG) (vide por exemplo, referências [SAOC1], [SAOC2]). O objetivo dessas técnicas é reconstruir perceptivamente a cena de áudio de saida desejada, ao invés de fazê-lo por uma correspondência de formato de onda.
A Fig. 8 mostra uma visão geral desse sistema (aqui: SAOC MPEG) . O sistema SAOC MPEG 800 mostrado na Fig. 8 compreende um codificador SAOC 810 e um decodificador SAOC 820. O codificador SAOC 810 recebe uma pluralidade de sinais de objeto xT a xN, que podem ser representados, por exemplo, como sinais de dominio de tempo ou como sinais de dominio de tempo-frequência (por exemplo, na forma de um conjunto de coeficientes de transformada de uma transformada do tipo de Fourier, ou na forma de sinais de sub-banda QMF) . O codificador SAOC 810 tipicamente também recebe coeficientes de codificação di a dN, que estão associados aos sinais de objeto x: a xN. Conjuntos separados de coeficientes de codificação podem estar disponíveis para cada canal do sinal de codificação. O codificador SAOC 810 é tipicamente configurado para obter um canal do sinal de codificação através da combinação dos sinais de objeto Xi a xs de acordo com os coeficientes de codificação associados dT a dN. Tipicamente, existem menos canais de codificação que sinais de objeto Xi a xN. Para permitir (pelo menos aproximadamente) uma separação (ou tratamento separado) dos sinais de objeto na adicional do decodificador SAOC 820, o codificador SAOC 810 provê os um ou mais sinais de codificação (designados como canais de codificação) 812, e uma informação adicional 814. A informação adicional 814 descreve características dos sinais de objeto xx a xN, para permitir processamento especifico do objeto adicional do decodificador.
O decodificador SAOC 820 é configurado para receber os um ou mais sinais de codificação 812 e a informação adicional 814. Além disso, o decodificador SAOC 820 é tipicamente configurado para receber uma informação de interação de usuário e/ou uma informação de controle de usuário 822, a qual descreve uma configuração de reprodução desejada. Por exemplo, a informação de interação de usuário / informação de controle de usuário 822 pode descrever uma realização de falante e a localização espacial desejada dos objetos que provêem os sinais de objeto xx a xN.
O decodificador SAOC 820 é configurado para prover, por exemplo, uma pluralidade de sinais de canal de decodificação decodificados yi a yM. O sinais de canal de decodificação podem por exemplo estar associados a falantes individuais de uma disposição de reprodução de falantes múltiplos. O decodificador SAOC 820 pode, por exemplo, compreender um separador de objeto 820a, que é configurado para reconstruir, pelo menos aproximadamente, os sinais de objeto Xi a xN com base em um dos um ou mais sinais de codificação 812 e na informação adicional 814, obtendo assim sinais de objeto reconstruídos 820b. No entanto, os sinais de objeto reconstruídos 820b podem desviar-se de alguma maneira dos sinais de objeto originais x: a xN, por exemplo, porque a informação adicional 814 não é totalmente suficiente para uma reconstrução perfeita devido às restrições do fluxo de bits. O decodificador SAOC 820 pode ainda compreender um mixer 820c, que pode ser configurado para receber os sinais de objeto reconstruídos 820b e a informação de interação de usuário / informação de controle de usuário 822 para prover, com base nisso, os sinais de canal upmix yx a yM. O mixer 820 pode ser configurado para usar a informação de interação de usuário / informação de controle de usuário 822 para determinar a contribuição dos sinais de objeto reconstruídos individuais para os sinais de canal de decodificação yx a yM. A informação de interação de usuário / informação de controle de usuário 822 pode, por exemplo, compreender parâmetros de reprodução (também designados coeficientes de reprodução), que determinam a contribuição dos sinais de objeto reconstruídos individuais 822 para os sinais de canal de decodificação yx a yM.
No entanto, deve-se observar que em muitas realizações, a separação de objeto, que é indicada pelo separador de objeto 820a na Fig. 8, e a mixagem, que é indicada pelo mixer 820c na Fig. 8, são executadas em uma única etapa. Para isso, parâmetros gerais podem ser computados, os quais descrevam um mapeamento direto dos um ou mais sinais de codificação 812 nos sinais de canal de decodificação yx a yM. Esses parâmetros podem ser computados à base da informação adicional e da informação de interação do usuário / informação de controle do usuário 820.
Com referência agora às Fig. 9a, 9b e 9c, diferentes aparelhos para obtenção de uma representação de sinal de decodificação à base de uma representação de sinal de codificação e informação adicional relacionada ao objeto, serão descritos. A Fig. 9a mostra um diagrama esquemático em bloco de um sistema SAOC MPEG 900 que compreende um decodificador SAOC 920. O decodificador SAOC 920 compreende, como blocos funcionais separados, um decodificador de objeto 922 e um mixer / reprodutor 926. 0 decodificador de objeto 922 provê uma pluralidade de sinais de objeto reconstruídos 924 que dependem da representação de sinal de codificação (por exemplo, na forma de um ou mais sinais de codificação representados no dominio de tempo ou no dominio tempo- frequência) e informação adicional relacionada ao objeto (por exemplo, na forma de metadados de objeto). O mixer / reprodutor 924 recebe os sinais de objeto reconstruídos 924 associados a uma pluralidade de objetos N, e provê, com base neles, um ou mais sinais de canal de decodificação 928. No decodificador SAOC 920, a extração dos sinais de objeto 924 é feita separadamente da mixagem / reprodução, o que permite uma separação dos sinais do objeto que decodificam funcionalidade da funcionalidade de mixagem / reprodução, mas acarreta em uma complexidade computacional relativamente alta.
Com referência agora à Fig. 9b, outro sistema SAOC MPEG 930 será brevemente discutido, o qual compreende um decodificador SAOC 950. 0 decodificador SAOC 950 provê uma pluralidade de sinais de canal de decodificação 958 que dependem de uma representação de sinal de decodificação (por exemplo, na forma de um ou mais sinais de codificação) e uma informação adicional relacionada ao objeto (por exemplo, na forma de metadados de objeto). O decodificador SAOC 950 compreende um decodificador de objeto combinado e um mixer / reprodutor, que é configurado para obter os sinais de canal de decodificação 958 em um processo conjunto de mixagem sem uma separação da decodificação do objeto e da mixagem / reprodução, onde os parâmetros para o dito processo de decodificação conjunta dependem tanto da informação adicional relacionada ao objeto como da informação de reprodução. O processo de decodificação conjunta depende também da informação de codificação, que é considerada como parte da informação adicional relacionada ao objeto.
Para resumir o acima descrito, a provisão dos sinais de canal de decodificação 928, 958 pode ser feita em um processo de uma etapa ou um processo de duas etapas.
Com referência agora à Fig. 9c, um sistema SAOC MPEG 960 será descrito. O sistema SAOC 960 compreende um transcodif icador surround SAOC para MPEG 980, ao invés de um decodificador SAOC.
O transcodificador surround SAOC para MPEG compreende um transcodificador de informação adicional 982, que é configurado para receber a informação adicional relacionada ao objeto (por exemplo, na forma de metadados de objeto) e, opcionalmente, informação sobre os um ou mais sinais de decodificação e informação de reprodução. O transcodificador de informação adicional é também configurado para prover uma informação adicional de surround de MPEG (por exemplo, na forma de um fluxo de bits de surround de MPEG) com base nos dados recebidos. Consequentemente, o transcodificador de informação adicional 982 é configurado para transformar uma informação adicional (paramétrica) relacionada ao objeto, a qual é liberada pelo codificador do objeto, em uma informação adicional (paramétrica) relacionada ao canal, levando em consideração a informação de reprodução e, opcionalmente, a informação sobre o conteúdo dos um ou mais sinais de decodificação.
Opcionalmente, o transcodificador surround SAOC para MPEG 980 pode ser configurado para manipular os um ou mais sinais de codificação, descritos, por exemplo, pela representação de sinal de decodificação, para obter uma representação de sinal de decodificação manipulada 988. No entanto, o manipulador de sinal de codificação 986 pode ser omitido, de maneira que a representação de sinal de codificação de saida 988 do transcodificador surround SAOC para MPEG seja idêntica à representação de sinal de codificação de entrada do transcodificador surround SAOC para MPEG. O manipulador de sinal de codificação 986 pode, por exemplo, ser usado se a informação adicional de surround de MPEG relacionada ao canal não permitisse a provisão de uma impressão auditiva desejada com base na representação de sinal de codificação de entrada do transcodificador surround SAOC para MPEG, o que pode ser o caso em algumas constelações de leitura.
Consequentemente, o transcodificador surround SAOC para MPEG 980 provê a representação de sinal de codificação 988 e o fluxo de bits de surround MPEG 984, de maneira que uma pluralidade de sinais de canal de decodificação, que representam os objetos de áudio de acordo com a entrada de informação de reprodução para o transcodificador surround SAOC para MPEG 980, possa ser gerada utilizando-se um decodificador de surround MPEG que receba o fluxo de bits de surround MPEG 984 e a representação de sinal de codificação 988.
Para resumir o acima descrito, podem ser usados diferentes conceitos para decodificar sinais de áudio codificados em SAOC. Em alguns casos, um decodificador de SAOC é usado, o qual provê sinais de canal de decodificação (por exemplo, sinais de canal de decodificação 928, 958), dependendo da representação de sinal de codificação e da informação adicional paramétrica relacionada ao objeto. Exemplos desse conceito podem ser vistos nas Fig. 9a e 9b. Alternativamente, a informação de áudio codificada de SAOC pode ser transcodifiçada para obter uma representação de sinal de codificação (por exemplo, uma representação de sinal de codificação 988) e uma informação adicional relacionada ao canal (por exemplo, o fluxo de bit de surround MPEG relacionado ao canal 984), a qual pode ser usada por um decodificador surround MPEG para prover os sinais de canal de decodificação desejados.
No sistema SAOC MPEG 800, uma visão geral do sistema que é dado na Fig. 8, o processamento geral é realizado de maneira seletiva de frequência, e pode ser descrito como segue, dentro de cada faixa de frequência: • Sinais de objeto de áudio de entrada N xi a xN são codificados como parte do processamento do codificador SAOC. Para uma codificação mono, os coeficientes de codificação são denotados por dT a dN. Além disso, o codificador SAOC 810 extrai informação adicional 814 que descreve as características dos objetos de áudio de entrada. Para SAOC MPEG, as relações das potências do objeto em relação umas às outras são a forma mais básica desse tipo de informação adicional. • Um sinal (ou sinais) de codificação 812 e a informação adicional 814 são transmitidos e/ou armazenados. Com essa finalidade, o sinal de áudio de codificação pode ser comprimido com uso de codificadores de áudio perceptivos bem conhecidos, como o MPEG-1 Layer II ou III (também conhecido como ".mp3", Código de Áudio Avançado MPEG (AAC), ou qualquer outro codificador de áudio. • No lado da recepção, o decodificador SAOC 820 conceitualmente tenta restaurar o sinal de objeto original ("separação de objeto"), usando a informação adicional transmitida 814 (e naturalmente, os um ou mais sinais de codificação 812) . Esses sinais de objeto aproximados (também denominados sinais de objetos reconstruídos 820b) são então mixados em uma cena-alvo representada por canais de saída de áudio M (que podem, por exemplo, ser representados pelos sinais de canal de decodificação Yi a yM), utilizando-se uma matriz de reprodução. Para uma saída em mono, os coeficientes de matriz de reprodução dão dados por rT a rM. • Efetivamente, a separação dos sinais de objeto raramente é executada (ou nunca é executada) , pois tanto a etapa de separação (indicada pelo separador de objeto 820a) como a etapa de mixagem (indicada pelo mixer 820c) são combinadas em uma única etapa de transcodificação, o que muitas vezes resulta em uma enorme redução da complexidade computacional.
Observou-se que esse esquema é tremendamente eficiente, tanto em termos de frequência de bits de transmissão (só é necessário transmitir poucos canais de codificação mais alguma informação adicional, ao invés de sinais de áudio de objeto discretos N ou um sistema discreto) como complexidade funcional (a complexidade do processamento relaciona-se principalmente ao número de canais de saida e não ao número de objetos de áudio). Outras vantagens para o usuário no lado da recepção incluem a liberdade de escolher uma configuração de reprodução de sua escolha (mono, estéreo, surround, playback de fone virtualizado, etc.) e a característica de interatividade de usuário: a matriz de reprodução, e assim a cena de saida, pode ser configurada e alterada interativamente pelo usuário de acordo com a vontade, preferência pessoal ou outros critérios. Por exemplo, é possivel localizar os falantes de um grupo juntos em uma área espacial para maximizar a discriminação de outros falantes restantes. Essa interatividade é obtida com a provisão de uma interface de usuário de decodificador:
Para cada objeto sonoro transmitido, seu nivel relativo e (para representação não mono) posição espacial de reprodução podem ser ajustados. Isso pode acontecer em tempo real, pois o usuário altera a posição dos cursores da interface gráfica de usuário (GUI) associada (por exemplo: nivel de objeto = +5 dB, posição de objeto = -30 graus).
No entanto, observou-se que a escolha de parâmetros do lado do decodificador para a provisão de representação de sinal de decodificação (por exemplo, os sinais de canal de decodificação yi a yM) incluem degradações audiveis em alguns casos.
Considerando essa situação, o objeto da presente invenção é criar um conceito que permita reduzir, ou até evitar, distorção audivel ao se prover uma representação de sinal de decodificação (por exemplo, na forma de sinais de canal de decodificação yi a yM) .
Esse problema é resolvido por um aparelho para prover um ou mais parâmetros ajustados para uma provisão de uma representação de sinal de decodificação à base de uma representação de sinal de codificação e uma informação paramétrica relacionada ao objeto de acordo com a reivindicação 1, um decodificador de sinal de áudio de acordo com a reivindicação 24, um transcodificador de sinal de áudio de acordo com a reivindicação 25, métodos de acordo com as reivindicações 26, 27 e 28, um codificador de sinal de áudio de acordo com a reivindicação 29, um método de acordo com a reivindicação 31, um fluxo de bits de áudio de acordo com a reivindicação 32 e um programa de computador de acordo com a reivindicação 34.
Uma realização de acordo com a invenção cria um aparelho para prover um ou mais parâmetros ajustados para uma provisão de uma representação de sinal de decodificação à base de uma representação de sinal de codificação e uma informação paramétrica relacionada ao objeto. O aparelho compreende um ajustador de parâmetro (por exemplo, um ajustador de coeficiente de reprodução) configurado para receber um ou mais parâmetros de entrada (por exemplo, um coeficiente de reprodução ou uma descrição de uma matriz de reprodução desejada) e para prover, com base nele(s), um ou mais parâmetros ajustados. O ajustador de parâmetro é configurado para prover os um ou mais parâmetros ajustados dependendo dos um ou mais parâmetros de entrada e da informação paramétrica relacionada ao objeto (por exemplo, dependendo dos um ou mais coeficientes de codificação, e/ou um ou mais valores de diferença de nivel de objeto, e/ou um ou mais valores de correlação inter-objeto), de maneira que uma distorção da representação de sinal de decodificação, que seria causada pelo uso de parâmetros não ideais, seja reduzida pelo menos quanto a parâmetros de entrada que desviem dos parâmetros ideais além de um desvio pré-determinado.
Essa realização de acordo com a invenção baseia- se na ideia de que distorções de sinal de áudio que são causadas por parâmetros de entrada escolhidos indevidamente podem ser reduzidas pela provisão de parâmetros ajustados para a provisão da representação de sinal de decodificação, e que a provisão dos parâmetros ajustados pode ser feita com boa precisão, considerando-se a informação paramétrica relacionada ao objeto. Observou-se que a utilização da informação paramétrica relacionada ao objeto permite obter uma medida estimada de distorções audiveis, que seriam causadas pela utilização dos parâmetros de entrada, os quais por sua vez permitem prover parâmetros ajustados que são apropriados para manter as distorções audiveis dentro de uma faixa pré-determinada, ou que são apropriados para reduzir distorções audiveis quando comparados aos parâmetros de entrada. A informação relacionada ao objeto descreve, por exemplo, características dos objetos de áudio e/ou dá informações sobre o processamento do lado do codificador dos objetos.
Consequentemente, distorções de sinal de áudio indesejáveis e muitas vezes incômodas, que seriam causadas pela utilização de parâmetros inadequados (por exemplo, coeficientes de reprodução inadequados) podem ser reduzidas, ou até mesmo evitadas, pela provisão de um ou mais parâmetros ajustados, onde a consideração da informação paramétrica relacionada ao objeto para o ajuste dos parâmetros ajuda a garantir uma redução efetiva e/ou limitação das distorções de sinal de áudio permitindo uma estimativa comparativamente confiável de distorções audiveis.
Em uma realização preferida, o aparelho é configurado para receber, como parâmetros de entrada, os parâmetros de reprodução desejados que descrevem um escalonamento de intensidade desejado de uma pluralidade de sinais de objeto de áudio em um ou mais canais descritos pela representação de sinal de decodificação. Nesse caso, o ajustador de parâmetro é configurado para prover um ou mais parâmetros de reprodução reais, dependendo dos um ou mais parâmetros de reprodução desejados. Observou-se que a escolha de parâmetros de reprodução inadequados inclui uma degradação significativa (e muitas vezes audivel) de uma representação de sinal de decodificação, que é obtida com o uso desses parâmetros de reprodução escolhidos inadequadamente. E ainda, observou-se que os parâmetros de reprodução podem ser eficientemente ajustados dependendo da informação paramétrica relacionada ao objeto, pois a informação paramétrica relacionada ao objeto permite uma estimativa de distorções, a qual seria introduzida por uma determinada escolha dos parâmetros de reprodução (que podem ser definidos pelos parâmetros de entrada).
Em uma realização preferida, o ajustador de parâmetro é configurado para obter os um ou mais valores limite de parâmetro de reprodução dependendo da informação paramétrica relacionada ao objeto, e uma informação de codificação que descreve uma contribuição dos sinais de objeto de áudio para a representação de sinal de codificação, de maneira que uma métrica de distorção esteja dentro de uma faixa pré-determinada para valores de parâmetro de reprodução que obedecem limites definidos pelos valores limite de parâmetro de reprodução. Nesse caso, o ajustador de parâmetro é configurado para obter os parâmetros de reprodução reais, dependendo dos parâmetros de reprodução desejados e dos um ou mais valores limite de parâmetro de reprodução, de maneira que os parâmetros de reprodução reais obedeçam os limites definidos pelos valores limite de parâmetro de reprodução. A computação de valores limite de parâmetro de reprodução constitui um mecanismo computacionalmente simples e confiável para garantir que as distorções audiveis fiquem dentro de uma faixa permitida de acordo com uma métrica de distorção.
Em uma realização preferida, o ajustador de parâmetro é configurado para obter os um ou mais valores limite de parâmetro de reprodução, de maneira que uma contribuição relativa de um sinal de objeto em uma sobreposição reproduzida de uma pluralidade de sinais de objeto, reproduzida com uso de um parâmetro de reprodução que obedece os um ou mais valores limite de parâmetro de reprodução, difere de uma contribuição relativa do sinal de objeto em um sinal de codificação em não mais que uma diferença pré-determinada. Observou-se que as distorções são tipicamente suficientemente pequenas, se a contribuição de um sinal de objeto em uma sobreposição reproduzida de sinais de objeto for semelhante a uma contribuição do sinal de objeto em um sinal de codificação, enquanto uma forte diferença das ditas contribuições relativas tipicamente inclui distorções audiveis. Isso deve-se ao fato de que uma forte alteração do nivel (relativo) de um sinal de objeto comparada ao nivel (relativo) do sinal de objeto na representação de sinal de codificação muitas vezes inclui artefatos, pois muitas vezes não é possivel separar sinais de objeto de diferentes objetos de áudio da maneira ideal. Consequentemente, observou-se que bons resultados ocorrem quando se ajusta os parâmetros de reprodução de maneira que a contribuição relativa dos sinais de objeto seja alterada somente moderadamente, pela escolha dos parâmetros de reprodução.
Em outra realização, o ajustador de parâmetro é configurado para obter os um ou mais valores limite de parâmetro de reprodução, de maneira que uma medida de distorção que descreva uma coerência entre um sinal de codificação descrito pela representação de sinal de codificação e um sinal de reprodução, reproduzido com uso de um ou mais parâmetros de reprodução que obedecem os um ou mais valores limite de parâmetro de reprodução, fique dentro de uma faixa pré-determinada. Observou-se que a escolha de parâmetros de reprodução desejados, que formem os parâmetros de entrada do ajustador de parâmetro, deve ser feita de maneira que uma "semelhança" suficiente seja mantida entre o sinal de codificação descrito pela representação do sinal de codificação e o sinal reproduzido, pois se não for assim, o risco de se obter artefatos audiveis no processo de entrada é bem grande.
Em uma outra realização preferida, o ajustador de parâmetro é configurado para computar uma combinação linear entre um quadrado de um parâmetro de reprodução desejado (que pode formar o parâmetro de entrada do ajustador de parâmetro) e um quadrado de um parâmetro de reprodução ideal (que pode, por exemplo, ser definido como um parâmetro de reprodução que minimiza uma métrica de distorção), para obter o parâmetro de reprodução real (que pode ser produzido pelo aparelho como o parâmetro ajustado). Nesse caso, o ajustador de parâmetro é configurado para determinar uma contribuição do parâmetro de reprodução desejado e do parâmetro de reprodução ideal à combinação linear, dependendo de um parâmetro limite pré-determinado T e da métrica de distorção, onde a métrica de distorção descreve uma distorção que seria causada pela utilização de um ou mais parâmetros de reprodução desejados, ao invés dos parâmetros de reprodução ideais, para obter a representação de sinal de decodificação com base na representação de sinal de codificação. Esse conceito permite reduzir a distorção a uma medida aceitável e ao mesmo tempo manter um impacto suficiente dos parâmetros de reprodução desejados. De acordo com esse conceito, um meio-termo razoavelmente bom entre os parâmetros de reprodução ideais e os parâmetros de reprodução desejados pode ser encontrado, considerando-se um grau desejado de limitação das distorções audiveis.
Em uma realização preferida, o ajustador de parâmetro é configurado para prover um ou mais parâmetros ajustados dependendo de uma medida computacional de degradação perceptiva, de maneira que uma distorção avaliada perceptivamente da representação de sinal de decodificação causadas pelo uso de parâmetros não ideais e representada pela medida computacional de degradação perceptiva seja limitada. Dessa maneira, pode-se conseguir que os parâmetros sejam ajustados de acordo com a impressão auditiva, evitando assim uma impressão auditiva inaceitavelmente ruim, ao mesmo tempo que provê flexibilidade suficiente no ajuste dos parâmetros de acordo com os desejos de um usuário.
Em uma realização preferida, o ajustador de parâmetro é configurado para receber uma informação de propriedade de objeto que descreve propriedades de um ou mais sinais de objeto originais, que formam a base de um sinal de codificação descrito pela representação de sinal de codificação. Nesse caso, o ajustador de parâmetro é configurado para considerar a informação de propriedade do objeto para prover os parâmetros ajustados, de maneira que uma distorção da representação do sinal de decodificação em relação às propriedades de sinais de objeto incluídas na representação de sinal de decodificação seja reduzida pelo menos para os parâmetros de entrada que desviem de parâmetros ideais além de um desvio pré-determinado. Essa realização de acordo com a invenção baseia-se na observação de que as propriedades dos um ou mais sinais de objeto originais podem ser usadas para avaliar se os parâmetros de entrada são apropriados ou se devem ser ajustados, pois é desejável prover o sinal de decodificação de maneira que as características do sinal de decodificação estejam relacionadas às propriedades dos um ou mais sinais de objeto originais, pois de outra maneira, a impressão preceptiva seria significativamente degradada em muitos casos.
Em uma realização preferida, o ajustador de parâmetro é configurado para receber e considerar, como informação de propriedade de objeto, uma informação de tonalidade de sinal, a fim de prover os um ou mais parâmetros ajustados. Observou-se que a tonalidade dos sinais de objeto é uma quantidade que tem impacto significativo sobre a impressão perceptiva, e que a escolha de parâmetros que alteram significativamente a impressão de tonalidade deve ser evitada, para que se tenha uma boa impressão auditiva.
Em uma realização preferida, o ajustador de parâmetro é configurado para estimar uma tonalidade de um sinal de decodificação idealmente reproduzido, dependendo da informação de tonalidade de sinal de objeto recebida e de uma informação de potência de objeto recebida. Nesse caso, o ajustador de parâmetro é configurado para prover os um ou mais parâmetros ajustados para reduzir a diferença entre a tonalidade estimada e a tonalidade de um sinal de decodificação obtido com uso de um ou mais parâmetros ajustados, em comparação a uma diferença entre a tonalidade estimada e uma tonalidade de um sinal de decodificação obtido com uso dos parâmetros de entrada, ou para manter uma diferença entre a tonalidade estimada e uma tonalidade de um sinal decodificado obtido com uso dos um ou mais parâmetros ajustados dentro de uma faixa pré-determinada. Utilizando esse conceito, uma medida para uma degradação de uma impressão auditiva pode ser obtida com alta eficiência computacional, que permite um ajuste apropriado dos parâmetros de reprodução.
Em uma realização preferida, o ajustador de parâmetro é configurado para executar um ajuste de variante de tempo e frequência dos parâmetros de entrada. Consequentemente, o ajuste dos parâmetros de entrada, para obter-se parâmetros ajustados, pode ser feito somente para esses intervalos de tempo ou regiões de frequência para os quais o ajuste realmente inclui uma melhora da impressão auditiva, ou evita uma degradação significativa da impressão auditiva.
Em uma outra realização preferida, o ajustador de parâmetro é configurado para considerar também a representação de sinal de codificação para prover os um ou mais parâmetros ajustados. Ao considerar a representação de sinal de codificação, uma estimativa ainda mais precisa da possivel distorção da impressão auditiva pode ser obtida.
Em uma realização preferida, o ajustador de parâmetro é configurado para obter uma medida de distorção geral, que é uma combinação de medidas de distorção que descreve uma pluralidade de tipos de artefatos. Nesse caso, o ajustador de parâmetro é configurado para obter a medida de distorção geral de maneira que a medida de distorção geral seja uma medida de distorções que seriam causadas pelo uso de um ou mais dos parâmetros de representação de entrada, ao invés dos parâmetros de reprodução ideais para obtenção da representação de sinal de decodificação com base na representação de sinal de codificação. Ao se combinar uma pluralidade de medidas de distorção que descrevem uma pluralidade de tipos de artefatos, é criado um mecanismo bem controlado para ajustar a impressão auditiva.
Outra realização de acordo com a invenção cria um decodificador de sinal de áudio para prover, como uma representação de sinal de decodificação, uma pluralidade de canais de áudio decodificados com base em uma representação de sinal de codificação, uma informação paramétrica relacionada ao objeto e uma informação de reprodução desejada. 0 decodificador de sinal de áudio compreende um decodificador configurado para obter os canais de áudio decodificados com base na representação de sinal de codificação e dependendo da informação paramétrica relacionada ao objeto e da informação de reprodução real que descreve uma alocação de uma pluralidade de sinais de objeto de objetos de áudio descritos pela informação paramétrica relacionada ao objeto para os canais de áudio decodificados. O decodificador de sinal de áudio compreende também um aparelho para prover um ou mais parâmetros ajustados, conforme discutido anteriormente. O aparelho para prover um ou mais parâmetros ajustados é configurado para receber a informação de reprodução desejada como os um ou mais parâmetros de entrada, e para prover os um ou mais parâmetros ajustados como a informação de reprodução real. O aparelho para prover os um ou mais parâmetros ajustados é também configurado para prover os um ou mais parâmetros ajustados de maneira que as distorções dos canais de áudio decodificados causadas pelo uso dos parâmetros de reprodução reais, que se desviam dos parâmetros de reprodução ideais, sejam reduzidas pelo menos em relação aos parâmetros de reprodução desejados que se desviam dos parâmetros de reprodução ideais além de um desvio pré-determinado.
A utilização do aparelho para prover os um ou mais parâmetros ajustados em um decodificador de sinal de áudio permite evitar uma geração de fortes distorções audiveis, que seriam causadas pela execução da decodificação de áudio com informação desejada escolhida inadequadamente.
Uma realização de acordo com a invenção cria um transcodificador de sinal de áudio para prover, como uma representação de sinal de decodificação, uma informação de parâmetro relacionada ao canal, com base em uma representação de sinal de decodificação, uma informação paramétrica relacionada ao objeto e uma informação de reprodução desejada. O transcodificador de sinal de áudio compreende um transcodificador de informação adicional configurado para obter a informação paramétrica relacionada ao canal com base na representação de sinal de codificação e dependendo da informação paramétrica relacionada ao objeto e uma informação de reprodução real que descreve uma alocação de uma pluralidade de sinais de objeto de objetos de áudio descritos pela informação paramétrica relacionada ao objeto para os canais de áudio de decodificação. O decodificador de sinal de áudio compreende também um aparelho para prover um ou mais parâmetros ajustados, conforme descrito acima. O aparelho para prover um ou mais parâmetros ajustados é configurado para receber a informação de reprodução desejada como os um ou mais parâmetros de entrada, e para prover os um ou mais parâmetros ajustados como a informação de reprodução real. Além disso, o aparelho para prover os um ou mais parâmetros ajustados é configurado para prover os um ou mais parâmetros ajustados de maneira que as distorções de canais de áudio decodificados representados pela informação paramétrica relacionada ao canal (em combinação com a informação de sinal de codificação) , que são causadas pelo uso dos parâmetros de reprodução reais, que se desviam dos parâmetros de reprodução ideal, sejam reduzidas pelo menos para os parâmetros de reprodução desejados que se desviem dos parâmetros de reprodução ideais além de um desvio pré-determinado. Observou-se que o conceito de prover parâmetros ajustados é também apropriado para uso em combinação com um transcodificador de sinal de áudio.
Outras realizações de acordo com a invenção criam um método para prover um ou mais parâmetros ajustados, um método para decodificar um sinal de áudio e um método para transcodificar um sinal de áudio. Os ditos métodos baseiam-se nas mesmas ideias básicas do aparelho discutido acima.
Outra realização de acordo com a invenção cria um codificador de sinal de áudio para prover uma representação de sinal de codificação e uma informação paramétrica relacionada ao objeto com base em uma pluralidade de sinais de objeto. O codificador de áudio compreende um codificador configurado para prover um ou mais sinais de codificação, dependendo dos coeficientes de codificação associados aos sinais de objeto, de maneira que os um ou mais sinais de codificação compreendam uma sobreposição de uma pluralidade de sinais de objeto. O codificador de áudio compreende também um provedor de informação adicional configurado para prover uma informação adicional de relação inter- objeto que descreve diferenças de nivel e características de correlação de sinais de objeto e uma informação adicional de objeto individual que descreve uma ou mais propriedades individuais dos sinais de objeto individual. Observou-se que a provisão tanto de uma informação adicional de relação inter-objeto como de uma informação adicional de objeto individual por um codificador de sinal de áudio permite reduzir de maneira eficiente, ou até mesmo evitar, distorções audiveis no lado de um decodificador de sinal de áudio multicanal. Apesar da informação adicional de relação inter-objeto ser utilizada para separar os sinais de objeto no lado do decodificador, a informação adicional de objeto individual pode ser usada para determinar se as características individuais dos sinais do objeto são mantidas no lado do decodificador, o que indica que as distorções estão dentro das tolerâncias aceitáveis.
Em uma realização preferida, o provedor de informação adicional é configurado para prover a informação adicional de objeto individual de maneira que a informação adicional de objeto individual descreva tonalidades dos objetos individuais. Observou-se que a tonalidade dos objetos individuais é uma quantidade psicoacusticamente importante, que permite uma limitação de distorções do lado do decodificador. Outra realização de acordo com a invenção cria um método para codificar um sinal de áudio.
Outra realização de acordo com a invenção cria um fluxo de bits que representa uma pluralidade de sinais de objeto (de áudio) em uma forma codificada. O fluxo de bits de áudio compreende uma representação de sinal de codificação que representa um ou mais sinais de codificação, onde pelo menos um dos sinais de codificação compreende uma sobreposição de uma pluralidade de sinais de objeto (de áudio) . O fluxo de bits de áudio também compreende uma informação adicional de relação inter- objeto que descreve uma ou mais propriedades individuais dos sinais de objeto individual. Conforme discutido acima, esse fluxo de bits de áudio permite uma reconstrução do sinal de áudio multicanal, onde distorções audiveis, que seriam causadas por configuração inadequada de parâmetros de reprodução, podem ser reconhecidas e reduzidas, ou até eliminadas. Outras realizações de acordo com a invenção criam um programa de computador para implementar os métodos discutidos acima.
Realizações de acordo com a invenção serão subsequentemente descritas fazendo referência às figuras anexo, nas quais: A Fig. 1 mostra um diagrama esquemático de bloco de um aparelho para prover um ou mais parâmetros ajustados para uma provisão de uma representação de sinal de decodificação com base em uma representação de sinal de codificação e uma informação paramétrica relacionada ao objeto; A Fig. 2 mostra um diagrama esquemático em bloco de um sistema SAOC MPEG, de acordo com uma realização da invenção; A Fig. 3 mostra um diagrama esquemático em bloco de um sistema SAOC MPEG, de acordo com outra realização da invenção; A Fig. 4 mostra uma representação esquemática de uma contribuição de sinais de objeto para um sinal de codificação e para um sinal mixado; A Fig. 5a mostra um diagrama esquemático em bloco de um transcodif icador surround mono SAOC para MPEG à base de codificação, de acordo com uma realização da invenção; A Fig. 5b mostra um diagrama esquemático em bloco de um transcodificador surround estéreo SAOC para MPEG à base de codificação, de acordo com uma realização da invenção; A Fig. 6 mostra um diagrama esquemático em bloco de um codificador de sinal de áudio, de acordo com uma realização da invenção; A Fig. 7 mostra uma representação esquemática de um fluxo de bits de áudio, de acordo com uma realização da invenção; A Fig. 8 mostra um diagrama esquemático em bloco de um sistema SAOC MPEG de referência; A Fig. 9a mostra um diagrama esquemático em bloco de um sistema SAOC de referência que utiliza um decodificador e mixer separados; A Fig. 9b mostra um diagrama esquemático em bloco de um sistema SAOC de referência que utiliza um decodificador e mixer integrados; e A Fig. 9c mostra um diagrama esquemático em bloco de um sistema SAOC de referência que utiliza um transcodificador SAOC para MPEG.
A seguir, um aparelho 100 para prover um ou mais parâmetros ajustados para uma provisão de uma representação de sinal de decodificação com base em uma representação de sinal de codificação e uma informação paramétrica relacionada ao objeto será descrito fazendo referência à Fig. 1. A Fig. 1 mostra um diagrama esquemático em bloco desse aparelho 100, que é configurado para receber um ou mais parâmetros de entrada 110. Os parâmetros de entrada 110 podem, por exemplo, ser parâmetros de reprodução desejados. O aparelho 100 é também configurado para prover, com base nisso, um ou mais parâmetros ajustados 120. Os parâmetros ajustados podem, por exemplo, ser parâmetros de reprodução ajustados. O aparelho 100 é também configurado para receber uma informação paramétrica relacionada ao objeto 130. A informação paramétrica relacionada ao objeto 130 pode, por exemplo, ser uma informação de diferença de nivel de objeto e/ou uma informação de correlação inter-objeto que descreve uma pluralidade de objetos. 0 aparelho 100 compreende um ajustador de parâmetro 140, que é configurado para receber os um ou mais parâmetros de entrada 110 e para prover, com base neles, os um ou mais parâmetros ajustados 120. O ajustador de parâmetro 140 é configurado para prover os um ou mais parâmetros ajustados 120 dependendo dos um ou mais parâmetros de entrada 110 e da informação paramétrica relacionada ao objeto 130, de maneira que uma distorção de uma representação de sinal de decodificação, que seria causada pelo uso de parâmetros não ideais (por exemplo, os um ou mais parâmetros de entrada 110) em um aparelho para prover uma representação de sinal de decodificação com base em uma representação de sinal de codificação e na informação paramétrica relacionada ao objeto 130, seja reduzida pelo menos para os parâmetros de entrada 110 que se desviam dos parâmetros ideais além de um desvio pré-determinado.
Consequentemente, o aparelho 100 recebe os um ou mais parâmetros de entrada 110 e provê, com base neles, os um ou mais parâmetros ajustados 120. Ao prover os um ou mais parâmetros ajustados 120, o aparelho 100 determina, explicita ou implicitamente, se o uso inalterado dos um ou mais parâmetros de entrada 110 causaria distorções inaceitavelmente altas se os um ou mais parâmetros de entrada 110 fossem usados para controlar uma provisão de uma representação de sinal de decodificação com base em uma representação de sinal de codificação e na informação paramétrica relacionada ao objeto 130. Assim, os parâmetros ajustados 120 são tipicamente mais adequados para ajustar esse tipo de aparelho para a provisão da representação de sinal de decodificação que os um ou mais parâmetros de entrada 110, pelo menos se os um ou mais parâmetros de entrada 110 forem escolhidos de uma maneira desvantajosa.
Consequentemente, o aparelho 100 tipicamente melhora a impressão perceptiva de uma representação de sinal de decodificação, que é provida por um provedor de representação de sinal de decodificação dependendo dos um ou mais parâmetros ajustados 120. Observou-se que a utilização da informação paramétrica relacionada ao objeto para o ajuste dos um ou mais parâmetros de entrada, para derivar os um ou mais parâmetros ajustados produziu bons resultados, pois a qualidade da representação de sinal de decodificação é tipicamente boa se os um ou mais parâmetros ajustados 120 corresponder à informação paramétrica relacionada ao objeto 130, apesar dos parâmetros que violam a relação desejada com a informação paramétrica relacionada ao objeto 130 tipicamente resultarem em distorções audiveis. A informação paramétrica relacionada ao objeto pode, por exemplo, compreender parâmetros de codificação, que descrevem uma contribuição dos sinais de objeto (de uma pluralidade de objetos de áudio) para os um ou mais sinais de codificação. A informação paramétrica relacionada ao objeto pode também compreender, alternativa ou adicionalmente, parâmetros de diferença de nivel de objeto e/ou parâmetros de correlação inter-objeto, que descrevam características dos sinais de objeto. Observou-se que ambos os parâmetros que descrevem características dos objetos de áudio em si podem ser considerados informações úteis para uso pelo ajustador de parâmetro 120. No entanto, outra informação paramétrica relacionada ao objeto 130 pode ser usada pelo aparelho 100 alternativa ou adicionalmente.
No entanto, deve-se observar que o ajustador de parâmetro 140 pode utilizar informações adicionais para prover os um ou mais parâmetros ajustados 120 com base nos um ou mais parâmetros de entrada 110. Por exemplo, o ajustador de parâmetro 140 pode opcionalmente avaliar coeficientes de decodificação, um ou mais sinais de codificação ou qualquer informação adicional para até melhorar a provisão dos um ou mais parâmetros ajustados 120.
A seguir, o sistema SAOC MPEG 200 da Fig. 2 será descrito em detalhes. A fim de prover uma boa compreensão do sistema SAOC MPEG 200, será dada uma visão geral das especificações de sistema desejadas e das considerações de design. Subsequentemente, será dada uma visão geral estrutural do sistema. E ainda, uma pluralidade de métricas de distorção de SAOC será discutida, e a aplicação dessas métricas de distorção de SAOC para uma limitação de distorções será descrita. Além disso, outras extensões do sistema 200 serão discutidas.
Conforme discutido acima, técnicas paramétricas para transmissão eficiente de fluxo de bits / armazenamento de cenas de áudio que contêm múltiplos objetos de áudio são tipicamente eficientes, tanto em termos de fluxo de bits de transmissão como de complexidade computacional. Outras vantagens para o usuário desse sistema no lado de recepção incluem a liberdade para escolher uma configuração de reprodução de sua escolha (mono, estéreo, surround, playback de fone virtualizado, etc.) e o recurso de interatividade do usuário: a matriz de reprodução, e consequentemente a cena de produção, pode ser configurada e alterada interativamente de acordo com a vontade, preferência pessoal, ou outros critérios. Por exemplo, é possivel localizar falantes de um grupo juntos em uma área espacial para maximizar a discriminação dos outros falantes restantes. Essa interatividade é obtida provendo-se uma interface do usuário com o decodificador: Para cada objeto sonoro transmitido, seu nivel relativo e (para reprodução não mono) posição espacial de reprodução podem ser ajustados. Isso pode acontecer em tempo real quando o usuário altera a posição dos cursores da interface gráfica de usuário (GUI) associada (por exemplo: nivel de objeto = +5 dB, posição de objeto = -30 graus). No entanto, observou-se que devido à separação de decodificação / abordagem paramétrica à base de mixagem, a qualidade subjetiva da saida de áudio reproduzida depende das configurações do parâmetro de reprodução. Observou-se que alterações no nivel de objeto relativo afetam a qualidade de áudio final mais que alterações na posição de reprodução espacial ("re-panoramização") . Observou-se também que configurações extremas para parâmetros relativos (por exemplo, +20 dB) podem até levar a uma qualidade de saida inaceitável. Apesar disso ser simplesmente um resultado da violação de alguns dos pressupostos perceptivos que são subordinados a este esquema, ainda é inaceitável para um produto comercial produzir som ruim e artefatos, dependendo da interface do usuário. Consequentemente, realizações de acordo com a invenção, como por exemplo, o sistema 200, resolvem esse problema de evitar degradações inaceitáveis independentemente das configurações da interface de usuário (configurações da interface de usuário estas que podem ser consideradas como "parâmetros de entrada").
A seguir, alguns detalhes relacionados às abordagens para evitar distorções de SAOC serão discutidos. A abordagem para limitação de distorção de SAOC apresentada no presente documento baseia-se nos seguintes conceitos: • Distorções proeminentes de SAOC aparecem para escolhas inadequadas de coeficientes de reprodução (que podem ser considerados como parâmetros de entrada). Essa escolha é em geral feita pelo usuário de maneira interativa (por exemplo, através de uma interface gráfica de usuário (GUI) em tempo real para aplicativos interativos). Portanto, uma etapa adicional de processamento é introduzida, a qual modifica os coeficientes de reprodução que foram fornecidos pelo usuário (por exemplo, limita- os com base em determinados cálculos) e utiliza esses coeficientes modificados para o motor de reprodução do SAOC. Por exemplo, os coeficientes de reprodução que foram fornecidos pelo usuário podem ser considerados como parâmetros de entrada, e os coeficientes modificados para o motor de reprodução do SAOC podem ser considerados como parâmetros modificados. • Para controlar a degradação excessiva da saida de áudio de SAOC produzido, é desejável desenvolver uma medida computacional de degradação perceptiva (também denominada medida de distorção DM). Observou-se que essa medida de distorção deve atender determinados critérios: o A medida de distorção deve ser facilmente computável por parâmetros internos do motor de decodificação do SAOC. Por exemplo, é desejável que nenhuma computação de banco de filtro extra seja necessária para obter a medida de distorção. o O valor da medida de distorção deve correlacionar-se com a qualidade sonora percebida subjetivamente (degradação perceptiva) , isto é, deve estar de acordo com os fundamentos básicos da psicoacústica. Para tanto, a computação da medida de distorção pode preferivelmente ser feita de maneira seletiva de frequência, como é comumente conhecido na codificação e processamento de áudio perceptivo.
Observou-se que múltiplas medidas de distorção de SAOC podem ser definidas e calculadas. No entanto, observou-se que as medidas de distorção de SAOC devem considerar preferivelmente determinados fatores básicos, para chegar a uma avaliação correta de uma qualidade de SAOC de reprodução e assim, ter frequentemente (mas não necessariamente) determinados pontos em comum: • Elas consideram os coeficientes de codificação. Estes determinam as frações de mixagem relativas de cada objeto de áudio dentro dos um ou mais sinais de codificação. Como informação de histórico, deve-se observar que observou-se que a distorção de SAOC que ocorre depende da relação entre a codificação e os coeficientes de reprodução: se a contribuição relativa do objeto definida pelos coeficientes de reprodução forem substancialmente diferentes da contribuição relativa de objeto dentro da codificação, o motor de decodificação do SAOC (que utiliza os parâmetros modificados) tem que executar um ajuste considerável do sinal de codificação para convertê-lo na saida reproduzida. Observou-se que isso resulta em distorção de SAOC. • Elas consideram os coeficientes de reprodução. Estes determinam a potência de saida relativa de cada objeto de áudio para cada um dos um ou mais sinais de saida reproduzidos. Como informação de histórico, deve-se observar que observou-se que a distorção de SAOC que ocorre depende da relação das potências de objeto umas em relação às outras. Se um objeto em um determinado momento no tempo tiver uma potência muito mais alta que outros objetos (e se o coeficiente de codificação desse objeto não for pequeno demais), então esse objeto domina a codificação e é reproduzido muito bem no sinal de saida reproduzido. Objetos fracos ao contrário, são representados somente muito fracamente na codificação, não podendo assim alcançar niveis altos de saida sem distorções significativas. • Elas consideram a potência de objeto (relativa) / nivel de cada objeto um em relação ao outro. Essa informação é descrita, por exemplo, como diferenças de nivel de objeto (OLD) de SAOC. Como informação de histórico, deve-se observar que observou-se que a distorção de SAOC que ocorre depende também das propriedades dos sinais de objeto individuais. Como exemplo, elevar um objeto de uma natureza tonal na saida reproduzida a niveis maiores (enquanto os outros objetos podem ter uma natureza mais semelhante a ruido) resultará em uma distorção percebida considerável. • Além disso, outras informações sobre propriedades dos sinais de objeto originais podem ser consideradas. Elas podem ser então transmitidas pelo codificador de SAOC como parte da informação adicional de SAOC. Por exemplo, a informação sobre a tonalidade do ruido de cada item de objeto pode ser transmitida como parte da informação adicional de SAOC e ser usada para a finalidade de limitação de distorção.
Com base nas considerações acima, será agora dada uma visão geral do sistema SAOC MPEG 200 para um bom entendimento da presente invenção. Deve-se observar que o sistema SAOC 200 de acordo com a Fig. 2 é uma versão estendida do sistema SAOC MPEG 800 de acordo com a Fig. 8, de maneira que a discussão acima também se aplica. Além disso, deve-se observar que o sistema SAOC MPEG 200 pode ser modificado de acordo com as alternativas de implementação 900, 930, 960, mostradas nas Fig. 9a, 9b e 9c, onde o codificador de objeto corresponde ao codificador de SAOC, onde a informação de interação de usuário / informação de controle de usuário 822 corresponde à informação de controle de reprodução / coeficiente de reprodução.
Além disso, o decodificador SAOC do sistema SAOC MPEG 100 pode ser substituído pelo decodificador de objeto separado e combinação mixer / reprodutor 920, pelo decodificador de objeto integrado e combinação mixer / reprodutor 930 ou pelo transcodificador surround SAOC para MPEG 980.
Com referência agora à Fig. 2, pode-se observar que o sistema SAOC MPEG 200 compreende um codificador SAOC 210, que é configurado para receber uma pluralidade de sinais de objeto Xi a xN, associados a uma pluralidade de objetos numerados de 1 a N. O codificador SAOC 210 é também configurado para receber (ou obter de alguma outra maneira) os coeficientes de codificação di a dN. Por exemplo, o codificador SAOC 210 pode obter um conjunto de coeficientes de codificação dx a dN para cada canal do sinal de codificação 212 provido pelo codificador SAOC 210. O codificador SAOC 210 pode, por exemplo, ser configurado para obter uma combinação ponderada dos sinais de objeto xx a xN, para obter um sinal de codificação, onde cada um dos sinais de objeto Xi a xN é ponderado com seu coeficiente de codificação associado di a dN. O codificador SAOC 210 é também configurado para obter informação de relação inter-objeto, que descreve uma relação entre os diferentes sinais de objeto. Por exemplo, a informação de relação inter- objeto pode compreender informação de diferença de nivel de objeto, por exemplo, na forma de parâmetros OLD e informação de correlação inter-objeto, por exemplo, na forma de parâmetros IOC. Consequentemente, o codificador SAOC 200 é então configurado para prover um ou mais sinais de codificação 212, cada um dos quais compreendendo uma combinação ponderada de um ou mais sinais de objeto, ponderada de acordo com um conjunto de parâmetros de codificação associados ao respectivo sinal de codificação (ou um canal do sinal de codificação multicanal 212) . O codificador SAOC 210 também é configuardo para prover informação adicional 214, onde a informação adicional 214 compreende a informação de relação inter-objeto (por exemplo, na forma de parâmetros de diferença de nivel de objeto e parâmetros de correlação inter-objeto). A informação adicional 214 compreende também uma informação de parâmetro de codificação, por exemplo, na forma de parâmetros de ganho de codificação e parâmetros de diferença de nivel de canal de codificação. A informação adicional 214 pode também compreender uma informação adicional de propriedade de objeto opcional, que pode representar propriedades de objeto individuais. Detalhes relacionados à informação adicional de propriedade de objeto opcional serão discutidos abaixo.
O sistema SAOC MPEG 200 compreende também um decodificador SAOC 220, que pode compreender a funcionalidade do decodificador SAOC 820. Consequentemente, o decodificador SAOC 220 recebe os um ou mais sinais de codificação 212 e informação adicional 214, bem como os coeficientes de reprodução modificados (ou "ajustados", ou "reais") 222, e provê, com base neles, um ou mais sinais de canal de decodificação y x a j)N.
O sistema SAOC MPEG 200 compreende também um aparelho 240 para prover um ou mais parâmetros modificados (ou ajustados, ou "reais"), a saber, os coeficientes de reprodução modificados 222, dependendo dos um ou mais parâmetros de entrada, a saber, parâmetros de entrada que descrevem uma informação de controle de reprodução ou coeficientes de reprodução 242. O aparelho 240 é configurado para também receber pelo menos uma parte da informação adicional 214. Por exemplo, o aparelho 240 é configurado para receber os parâmetros 214a que descrevem as potências de objeto (por exemplo, potências dos sinais de objeto xi a xN) . Por exemplo, os parâmetros 214a podem compreender os parâmetros de diferença de nivel de objeto (também designados OLD) . O aparelho 240 também preferivelmente recebe os parâmetros 214b da informação adicional 214, que descrevem os coeficientes de codificação. Por exemplo, os parâmetros 214b descrevem os coeficientes de codificação di a dN. Opcionalmente, o aparelho 240 pode receber também parâmetros adicionais 214c, que constituem uma informação adicional de propriedade de objeto individual.
O aparelho 240 é em geral configurado para prover os coeficientes de reprodução modificados 222 com base nos coeficientes de reprodução de entrada 242 (que podem, por exemplo, ser recebidos de uma interface de usuário, ou podem, por exemplo, ser computados dependendo da entrada do usuário ou ser providos como informação pré-configurada), de maneira que uma distorção da representação de sinal de decodificação, que seria causada pelo uso de parâmetros de reprodução não ideais pelo decodificador SAOC 220, é reduzida. Em outras palavras, os coeficientes de reprodução modificados 222 são uma versão modificada dos coeficientes de reprodução de entrada 242, onde as alterações são feitas, dependendo dos parâmetros 214a, 214b, de modo que todas as distorções audiveis nos sinais de canal de decodificação yT a _yN (que formam a representação de sinal de decodificação) sejam reduzidas ou limitadas.
O aparelho 240 para prover os um ou mais parâmetros ajustados 242 pode, por exemplo, compreender um ajustador de coeficiente de reprodução 250, que recebe os coeficientes de reprodução de entrada 242 e provê, com base neles, os coeficientes de reprodução modificados 222. Com essa finalidade, o ajustador de coeficiente de reprodução 250 pode receber uma medida de distorção 252 que descreva distorções que seriam causadas pela utilização dos coeficientes de reprodução de entrada 242. A medida de distorção 252 pode, por exemplo, ser provida pela calculadora de distorção 260, dependendo dos parâmetros 214a, 214b e dos coeficientes de reprodução de entrada 242.
No entanto, as funcionalidades do ajustador de coeficiente de reprodução 250 e da calculadora de distorção 260 podem também ser integradas em uma única unidade funcional, de maneira que os coeficientes de reprodução modificados 222 sejam providos sem uma computação explicita de uma medida de distorção 252. Ao invés disso, mecanismos implicitos para reduzir ou limitar a medida de distorção podem ser aplicados.
Em relação à funcionalidade do sistema SAOC MPEG 200, deve-se observar que a representação de sinal de decodificação, que sai na forma dos sinais de canal de decodificação y i a j)N, é criada com boa qualidade perceptiva, pois distorções audiveis, que seriam causadas por uma escolha inadequada da informação de interação de usuário / informação de controle de usuário 822 no sistema de referência 800, são evitadas pela modificação ou ajuste dos coeficientes de reprodução. A modificação ou ajuste é realizada pelo aparelho 240, de maneira que degradações graves da impressão perceptiva sejam evitadas, ou de maneira que degradações da impressão perceptiva sejam pelo menos reduzidas em comparação a um caso no qual os coeficientes de reprodução de entrada 242 sejam usados diretamente (sem modificação ou ajuste) pelo decodificador SAOC 220.
A seguir, a funcionalidade do conceito inventivo será brevemente resumida. Considerando-se uma medida de distorção (DM) , a distorção excessiva na saida de áudio pode ser evitada calculando-se o valor da medida de distorção para os sinais dados, e modificando-se o algoritmo de decodificação de SAOC (limitando os coeficientes de reprodução realmente usados 212), de maneira que o valor da medida de distorção não ultrapasse um determinado limite. Um sistema 200 de acordo com esse conceito é mostrado na Fig. 2 e foi explicado em alguns detalhes acima.
Em relação ao sistema 200, podem ser feitas as seguintes observações: • Os coeficientes de reprodução desejados 242 são inseridos pelo usuário ou outra interface. • Antes de serem aplicados no motor de decodificação SAOC 220, os coeficientes de reprodução 242 são modificados por um ajustador de coeficiente de reprodução 250, o qual utiliza uma ou mais medidas de distorção calculadas 252, que são fornecidas por uma calculadora de distorção 260. • A calculadora de distorção 260 avalia a informação (por exemplo, os parâmetros 214a, 214b) pela informação adicional 214 (por exemplo, potência relativa do objeto / OLD, coeficientes de codificação, e - opcionalmente - informação de propriedade de objeto-sinal). Além disso, ele baseia-se na entrada do coeficiente de reprodução desejado 242.
Em uma realização preferida o aparelho 240 é configurado para modificar os coeficientes de reprodução com base em uma medida de distorção. Preferivelmente, os coeficientes são ajustados de maneira frequência-seletiva, utilizando, por exemplo, peso seletivo de frequência.
A modificação dos coeficientes de reprodução pode basear-se nesse quadro (por exemplo, em um quadro atual), ou os coeficientes de reprodução podem ser ajustados ao longo do tempo não só quadro a quadro, mas também processados / controlados ao longo do tempo (por exemplo, nivelados ao longo do tempo), onde constantes possivelmente diferentes ataques / quedas podem ser aplicadas, como para um compressor / limitador de faixa dinâmica.
Em algumas realizações, a medida de distorção pode ser frequência-seletiva. Em algumas realizações, a medida de distorção pode considerar uma ou mais das seguintes características: • Potência / energia / nivel de cada objeto; • Coeficientes de codificação; • Coeficientes de reprodução; e/ou • Outra informação adicional de propriedade de objeto, se aplicável. Em algumas realizações, a medida de distorção pode ser calculada por objeto e combinada para chegar em uma distorção geral.
Em algumas realizações, uma outra informação adicional de propriedade de objeto 214c pode opcionalmente ser avaliada. A outra informação adicional de propriedade de objeto 214c pode ser extraida em um codificador SAOC aperfeiçoado, por exemplo, no codificador SAOC 210. A outra informação adicional de propriedade de objeto pode ser embutida, por exemplo, em um fluxo de bits SAOC aperfeiçoado, que será descrito com referência à Fig. 7. Além disso, a outra informação adicional de propriedade de objeto pode ser usada para limitação de distorção por um decodificador SAOC aperfeiçoado.
Em um caso especial, o ruido / tonalidade podem ser usados como a propriedade de objeto descrita pela outra informação adicional de propriedade de objeto. Nesse caso, o ruido / tonalidade podem ser transmitidos com uma resolução de frequência muito mais grosseira que outros parâmetros de objeto (por exemplo, OLD) para economizar informação adicional. Em um caso extremo, a informação adicional de propriedade de objeto ruido / tonalidade pode ser transmitida com somente uma informação por objeto (por exemplo, como características de banda larga).
A seguir, uma pluralidade de diferentes medidas de distorção será descrita, as quais podem, por exemplo, ser obtidas usando-se a calculadora de distorção 260. Detalhes relacionados à aplicação dessas medidas de distorção para a limitação dos coeficientes de reprodução serão discutidos abaixo na seção 2.4.
Em outras palavras, esta seção delineia várias medidas de distorção. Elas podem ser usadas individualmente ou podem ser combinadas para formar uma métrica de distorção composta, mais complexa, por exemplo, por adição ponderada dos valores de métrica de distorção individual. Deve-se observar que os termos "medida de distorção" e "métrica de distorção" designam quantidades semelhantes e não precisam ser distinguidos na maioria dos casos.
A seguir, uma pluralidade de métricas de distorção será descrita, as quais podem ser calculadora de distorção 260, e que podem ser usadas pelo ajustador de coeficiente de reprodução 250 para obter os coeficientes de reprodução modificados 222 com base nos coeficientes de reprodução de entrada 242.
A seguir, uma primeira medida de distorção (também designada medida de distorção N° 1) será descrita. No interesse de uma simplicidade conceituai, um sistema SAOC N-l-1 (por exemplo, um sinal de codificação mono (212) e um canal de decodificação único (sinal)) será considerado. Objetos de áudio de entrada N são codificados em um sinal de mono e reproduzidos em uma saida mono. Como mostra a Fig. 8, os coeficientes de codificação são indicados por di..dN e os coeficientes de reprodução são denotados por ri .. rn. Nas fórmulas a seguir, os indices de tempo foram omitidos para simplificar. Da mesma maneira, os indices de frequência foram deixados de fora, observando-se que as equações relacionam-se a sinais de sub-banda. Em algumas das equações abaixo, letras minúsculas denotam coeficientes ou sinais, e letras maiúsculas denotam as potências correspondentes, que podem ser observadas pelo contexto das equações. Além disso, deve-se observar que os sinais algumas vezes são representados por coeficientes tempo-frequência-dominio correspondentes, ao invés de no tempo-dominio. Presumindo-se que o objeto #m (indice de objeto auditivo m) seja um objeto de interesse, por exemplo, o objeto mais dominante que é aumentado em seu nivel relativo, limitando assim a qualidade geral do som. Então o sinal de saida desejado ideal (sinal de canal de decodificação) é dado por
No presente documento, o primeiro termo é a contribuição desejada do objeto de interesse para o sinal de saida, enquanto o segundo termo denota as contribuições de todos os outros objetos ("interferência").
Na realidade, no entanto, devido ao processo de decodificação, o sinal de saida é dado por isto é, o sinal de codificação é subsequentemente escalado por um coeficiente de transcodificação, t, que corresponde à matriz "m2" em um decodificador de surround MPEG. E novamente, isto pode ser dividido em um primeiro termo (contribuição real do sinal de objeto ao sinal de saida) e um segundo termo ("interferência" real por outros sinais de objeto). No presente documento, o sistema SAOC (por exemplo, o decodificador SAOC 220, e opcionalmente também o aparelho 240) determina dinamicamente o coeficiente de transcodificação, t, de maneira que a potência do sinal de saida reproduzido realmente corresponda à potência do sinal ideal:
Uma medida de distorção (DM) pode ser definida computando-se a relação entre a contribuição de potência ideal do objeto #m e sua contribuição de potência real: No presente documento, denota a potência do sinal reproduzido finalmente, e , é a potência do sinal /=! de codificação. Observe que, em uma implementação real, os valores Xi podem ser diretamente substituídos pelos valores correspondentes de Diferença de Nivel de Objeto (OLDd que são transmitidos como parte da informação adicional SAOC 214. Para uma melhor interpretação de dmi, sua definição pode ser reformulada como segue:
Efetivamente, isso significa que a métrica de distorção é a relação da contribuição de potência de objeto relativa no sinal reproduzido (saida) idealmente versus o sinal de decodificação (entrada). Isso combina com a observação que o esquema SAOC funciona melhor quando não tem que alterar as potências de objeto relativas por fatores grandes.
Valores maiores de dmx indicam diminuição da qualidade do som em relação ao objeto sonoro #m. Observou-se que o valor de dmx permanece constante se todos os coeficientes de reprodução forem escalados por um fator comum, ou se todos os coeficientes de codificação forem escalados da mesma maneira. E ainda, observou-se que aumentar o coeficiente de reprodução para o objeto #m (aumentar seu nivel relativo) leva a uma maior distorção. Os valores de dmi podem ser interpretados como segue: • Um valor de 1 indica qualidade ideal em relação ao objeto #m; • Valores maiores de dm! acima de 1 indicam diminuição da qualidade; • Valores de dmi abaixo de 1 não melhoram mais a qualidade em relação ao objeto #m. Consequentemente, uma medida geral de qualidade de cena sonora (isto é, a qualidade para todos os objetos) pode ser computada como segue:
Nesta equação, w (m) indica um fator de ponderação do objeto #m que refere-se à relevância e sensibilidade do objeto em particular dentro da cena de áudio. Como exemplo, w (m) pode então ser escolhido dependendo da potência / altura do objeto w (m) = (rm2 X^)a onde a pode tipicamente ser escolhido como 0,25 para emular grosseiramente o crescimento da altura psicoacústica desse objeto. Além disso, w(m) pode considerar tonalidade de conta e fenômenos de mascaramento. Alternativamente, w(m) pode ser ajustado em 1, o que facilita a computação de DMi.
uma medida de distorção alternativa pode ser construída iniciando-se com a equação (4) para formar uma medida perceptiva no estilo de uma Relação Ruído-Máscara (NMR), isto é, computar a relação entre ruido / interferência e o limite de mascaramento
Nesta equação, msr relação máscara-sinal do sinal de áudio total que depende de sua tonalidade. Valores maiores de dm2 indicam distorção maior em relação ao objeto sonoro #m. Novamente, o valor de dm2 permanece constante se todos os coeficientes de reprodução forem escalados por um fator comum, ou se todos os coeficientes de decodificação forem escalados da mesma maneira. A faixa de valor de dm2 pode ser interpretada como segue: • Um valor de 0 indica qualidade ideal em relação ao objeto #m; • Valores maiores de dm2 acima de 1 indicam degradações audíveis progressivas; • Valores de dm2 abaixo de 1 indicam qualidade indistinguível em relação ao objeto #m.
Consequentemente, uma medida geral de qualidade de cena sonora (isto é, a qualidade para todos os objetos) pode ser computada como segue: Novamente, w(m) indica um fator de ponderação do objeto #m que relaciona-se à relevância / nivel / altura do objeto particular dentro da cena de áudio, tipicamente escolhido como w(m) = (rm2 Xm)a com « = 0.25.
A medida de distorção na equação (6) computa a distorção como a diferença das potências (isto corresponde a uma medida de "NMR com diferença espectral"). Alternativamente, a distorção pode ser computada à base de um formato de onda que leve à seguinte medida, incluindo um termo de produto mixado adicional:
Uma terceira medida de distorção é apresentada, a qual descreve a coerência entre o sinal de codificação e o sinal reproduzido. Resultados de maior coerência em melhor qualidade sonora subjetiva. Além disso, a correlação dos objetos de áudio de entrada pode ser levada em consideração se dados de IOC estiverem presentes no decodificador SAOC.
Um modelo da covariância do objeto pode ser determinado pelos parâmetros SAOC (por exemplo, parâmetros 214a, que podem compreender parâmetros de diferença de nivel de objeto e parâmetros de correlação inter-objeto) Para calcular a medida de distorção, uma Matriz M é montada, contendo os coeficientes de reprodução e de codificação (M pode ser interpretada como uma matriz de reprodução para um sistema SAOC N-l-2) A covariância entre a codificação e o sinal C é então
Uma medida de distorção DM3 é definida como Os valores de DM3 podem ser interpretados como segue: • Os valores estão na faixa [0 . . 1] e indicam a coerência entre codificação e sinal reproduzido. • Um valor de 0 indica qualidade ideal. • Valores maiores de DM3 indicam diminuição da qualidade.
Esta abordagem propõe usar como medida de distorção a relação ponderada média entre a energia de reprodução alvo (DECODIFICAÇÃO) e a energia de codificação ideal (calculada a partir da codificação DMX). Para detalhes, fazemos referência também à Fig. 4, que mostra uma representação gráfica da codificação (DMX), a energia de codificação ideal (DMX_opt) e a energia de reprodução alvo (CODIFICAÇÃO).
ch = {1,2,...,Nch} indice para canais de decodificação dX = {1,2} indice para canais de codificação ob = {l,2,...,Nob} indice para objetos de áudio pb = {1,2,...,Nb} indice para bandas de parâmetro matriz de reprodução para canal ch, objeto de áudio ob e banda de parâmetro pb matriz de codificação para canal de codificação dx, objeto de áudio ob e banda de parâmetro Pb fator de ponderação que representa a relevância / nivel / altura de um objeto de áudio ob para a banda de parâmetro pb potência de objeto absoluta do objeto de áudio com a energia mais alta da banda de frequência pb diferença de nivel de objeto, que descreve as diferenças de intensidade entre um objeto de áudio ob e o objeto com a energia mais alta para a banda de frequência correspondente pb correlação inter- objeto, que descreve a correlação entre dois canais de objetos de áudio.
As etapas de um algoritmo para obtenção da medida de distorção #4 serão brevemente descritas a seguir: Calculo das energias relativas de decodificação e codificação: • Normalização de energias de maneira que • Construção da codificação ideal para cada canal e banda de decodificação:
As constantes multiplicativas sao calculadas resolvendo-se o sistema superdefinido de equações lineares para atender à seguinte condição: Cálculo da medida de distorção:
O controle de distorção é obtido limitando-se um ou mais coeficientes de reprodução, dependendo da medida de distorção DM4. Pode-se observar que (i) a medida é relevante somente para o caso de codificação estéreo, e (ii) ela pode ser reduzida para DM1 para #dx=l e #ch=l.
A seguir, as propriedades do conceito para cálculo da medida de distorção número 4 serão resumidas. O conceito • pressupõe transcodificação ideal • pode tratar de codificação estéreo; e • permite uma generalização em uma reprodução de canal múltiplo.
Uma computação alternativa do coeficiente de transcodificação t é sugerida. Ela pode ser interpretada como uma extensão de t e leva à matriz de transcodif icação T que é caracterizada pela incorporação da coerência inter-objeto (IOC) e ao mesmo tempo estende as métricas atuais DM#1 e DM#2 para codificação estéreo e decodificação multicanal.
A implementação atual do coeficiente de transcodificação t considera a correspondência da potência do sinal de saida realmente reproduzido com a potência do sinal reproduzido ideal, isto é
A incorporação da matriz de covariância E produz uma formulação modificada para t, a saber, a matriz de transcodificação T , que considera a coerência inter-objeto também. Os elementos de E são computados pelos parâmetros SAOC 214 como
A matriz de transcodificação representa a conversão da codificação no sinal de saida reproduzido, de maneira que TDx«Rx . Ela é obtida através da minimização do erro quadrado médio, produzindo Com
a medida de distorção no estilo de , mas agora para todas as combinações de codificação / reprodução (n,k} do objeto m é dada por
Considerando-se dm} (m) separadamente para os canais de codificação esquerdo e direito, leva a Pode-se pressupor que o melhor dos dois caminhos de codificação / decodificação é relevante para a qualidade da saida reproduzida, assim, a medida corresponde ao valor minimo, isto é
Uma medida geral de todos os canais de saida, designados pelo indice k, pode ser computada como A medida geral de todos os canais de saida, designada pelo indice k, pode ser computada como com com antes. Uma extensão semelhante de t a T é possivel para dm2 e dm2 .
A seguir, será descrita uma sexta medida de distorção. Suponhamos ei(t) como o envelope de Hilbert quadrado do sinal de objeto #i e Pi e a potência do sinal de objeto #i (ambos tipicamente dentro de uma sub-banda), então, uma medida N de semelhança tonalidade / ruido pode ser obtida por uma estimativa de variância normalizada do envelope de Hilbert como
Alternativamente, também a potência / variância do sinal de diferença de envelope de Hilbert pode ser usada, no lugar da variância do envelope de Hilbert em si. Em qualquer dos casos, a medida descreve a resistência da flutuação do envelope ao longo do tempo.
Esta medida de semelhança de tonalidade / ruido, N, pode ser determinada tanto para a mistura de sinal reproduzida idealmente como para a mistura de som reproduzida SAOC realmente, e uma medida de distorção pode ser computada pela diferença entre ambas, por exemplo: onde β é um parâmetro (por exemplo, β =2).
Para calcular as energias de objeto da imagem fonte na referência e na cena reproduzida SAOC usada para as medidas de distorção, é preciso levar em conta a matriz de transcodificação T para a cena reproduzida SAOC, como é feito na "Medida de distorção 5", mas também a correlação dos sinais fonte para ambas, a cena de referência e a cena reproduzida. Observação-. A notação dos sinais em maiúsculas reflete aqui a notação da matriz dos sinais, não as energias de sinais como nos capitulos anteriores
Para uma fonte arbitrária xm o sinal parte de xm em todas as fontes xi pode ser calculado como segue: Divida todos os sinais fonte xi em uma parte de sinal que esteja correlacionada ao objeto de interesse xm e uma parte xjLm que não esteja correlacionada a xm . Isso pode ser feito por projeção de sub-espaço de xm em todos os sinais x, , isto é,. A parte correlacionada é dada por
Fonte yr na cena de referência y : Com, a imagem yx de fonte 5 xm para todos os canais reproduzidos pode ser calculada através de onde Yr pode ser calculado por Portanto a energia da imagem fonte Y,. na cena de referência será:
Fonte yr na cena reproduzida SAOC y : isto pode ser feito da mesma maneira que para Com a matriz de transcodificação e D a matriz de codificação, para todos os canais na xm cena reproduzida serão: Usando
Portanto a energia da imagem fonte Na cena de referência será:
A medida de distorção no estilo de dmx pode ser calculada para todo objeto m e canal de reprodução de saida k como
com com antes.
A seguir, um exemplo de propriedades objeto-sinal será descrito, o qual pode ser usado, por exemplo, pelo aparelho 250 ou pela redução de artefato 320 para obtenção de uma medida de distorção.
No processamento SAOC, vários sinais de objeto de áudio são codificados em um sinal de codificação que é então usado para gerar a saida reproduzida final. Se um sinal de objeto tonal for mixado com um segundo sinal de objeto mais semelhante a ruido de igual potência de sinal, o resultado tende a ser semelhante a ruido. O mesmo se aplica, se o segundo sinal de objeto tiver uma potência maior. Só que, se o segundo sinal de objeto tiver uma potência que seja substancialmente mais baixa que a primeira, o resultado tende a ser tonal. Da mesma maneira, a semelhança tonalidade / ruido do sinal de saida SAOC reproduzido é majoritariamente determinada pela semelhança tonalidade / ruido do sinal de codificação, independentemente dos coeficientes de reprodução aplicados. Para obter uma boa qualidade de saida subjetiva, também a semelhança tonalidade / ruido do sinal reproduzido realmente deve ser próxima à semelhança tonalidade / ruido do sinal reproduzido idealmente. Para usar este conceito na medida de distorção, é necessário transmitir a informação sobre a semelhança tonalidade / ruido de cada objeto como parte do fluxo de bits. A semelhança tonalidade / ruido N da saida reproduzida idealmente pode então ser estimada no decodificador SAOC como função da semelhança tonalidade / ruido de cada objeto e sua potência de objeto Pif isto é N = f (Nx, Plf N2, P2, N3, P3, ...) e em comparação à semelhança tonalidade / ruido do sinal de saida reproduzido realmente, para computar uma medida de distorção. Como exemplo, a função a seguir f() pode ser usada: a qual combina valores de semelhança tonalidade / ruido e potências de objeto em uma única saida, estimando o valor da semelhança tonalidade / ruido da mistura dos sinais. O parâmetro α pode ser escolhido de modo a otimizar a precisão do procedimento de estimativa para uma determinada medida de semelhança tonalidade / ruido (por exemplo, ot=2) . Uma métrica de distorção adequada baseada na semelhança tonalidade / ruido é descrita na Seção 2.3.6 como medida de distorção N° 6.
A seguir, uma breve visão geral de uma pluralidade de esquemas de limitação de distorção será dada. Conforme discutido acima, o ajustador de coeficiente de reprodução 250 recebe os coeficientes de reprodução de entrada 242 e provê, com base neles, um coeficiente de reprodução modificado 222, par uso pelo decodificador SAOC 220.
Diferentes conceitos para a provisão dos coeficientes de reprodução modificados podem ser distinguidos, onde os conceitos podem também ser combinados em algumas realizações. De acordo com o primeiro conceito, um ou mais valores limite de parâmetro de reprodução são obtidos em uma primeira etapa, dependendo dos um ou mais parâmetros da informação adicional 214 (isto é, dependendo da informação paramétrica relacionada ao objeto 214) . Subsequentemente, os coeficientes de reprodução reais "(modificados ou ajustados)" 222 são obtidos dependendo do parâmetro de reprodução desejado 242 e dos um ou mais valores limite de parâmetro de reprodução, de maneira que os parâmetros de reprodução reais obedeçam aos limites definidos pelos valores limite do parâmetro de reprodução. Consequentemente, esses parâmetros de reprodução, que ultrapassam os valores limite do parâmetro de reprodução, são ajustados (modificados) para obedecer aos valores limite de parâmetro de reprodução. O primeiro conceito é fácil de implementar, mas pode algumas vezes incluir uma satisfação de usuário levemente degradada, pois a escolha do usuário dos parâmetros de reprodução desejados 242 é desconsiderada se os parâmetros de reprodução desejados definidos pelo usuário 242 ultrapassarem os valores limite do parâmetro de reprodução.
De acordo com o segundo conceito, o ajustador de parâmetro computa uma combinação linear entre um quadrado de um parâmetro de reprodução desejado e um quadrado de um parâmetro de reprodução ideal, para obter o parâmetro de reprodução real. Neste caso, o ajustador de parâmetro é configurado para determinar uma contribuição do parâmetro de reprodução desejado e do parâmetro de reprodução ideal para a combinação linear dependendo de um parâmetro limite pré-determinado e de uma métrica de distorção (conforme descrito acima).
Além disso, pode-se distinguir se a medida de distorção (métrica de distorção) é computada através do uso de propriedades de relação inter-objeto e/ou propriedades de objeto individual. Em algumas realizações, somente propriedades de relação inter-objeto são avaliadas, e as propriedades de objeto individual (que estão relacionadas a somente um único objeto) são desconsideradas. Em algumas outras realizações, somente propriedades de objeto individual são consideradas, e propriedades de relação inter-objeto são desconsideradas. No entanto, em algumas realizações, uma combinação de ambas as propriedades, de relação inter-objeto e de objeto individual, é avaliada.
Com base nas considerações acima, e também com base na discussão acima de diferentes medidas de distorção, serão definidos alguns esquemas para limitação de distorção, conforme estabelecido nas sub-seções a seguir. Esses esquemas para limitação de distorção podem ser aplicados pelo ajustador de coeficiente de reprodução 250, a fim de obter-se os coeficientes de reprodução modificados, dependendo dos coeficientes de reprodução de entrada 242.
Na sub-seção 2.3.1, uma simples medida de distorção foi definida computando-se a relação entre a contribuição de potência ideal do objeto #m e sua contribuição de potência real (equação 4): Nesta equação, as únicas variáveis que estão sob controle do reprodutor SAOC são os coeficientes de reprodução que são usados no processo de transcodificação. Então, se a métrica de distorção resultante não ultrapassar um determinado valor limite, T, isto impõe uma condição ao coeficiente de matriz de reprodução correspondente: (6.1.a)
Para encontrar uma solução para todos, um conjunto de equações lineares Ax=b pode ser estabelecido, onde com As primeiras linhas N de A são diretamente adicionada, de maneira que a energia dos novos coeficientes de reprodução (limitados) iguale-se à energia dos coeficientes especificados pelo usuário. Uma solução para (que pode ser considerado como valores limite de parâmetro de reprodução) é então obtida como:
Começando com isso, um primeiro esquema de limitação de distorção simplista pode ser observado como segue: Ao invés de utilizar os coeficientes de matriz de reprodução 242 como eles são providos ao decodificador SAOC pela interface de usuário, o coeficiente de reprodução usado efetivamente rm' , 222 para objeto #m é modificado / limitado (por exemplo, pelo ajustador de coeficiente de reprodução 240 por quadro), antes de ser usado para o processo de decodificação SAOC: Observe que o processo de limitação depende das energias de objeto individual em cada quadro particular. A abordagem é simples, e tem as seguintes pequenas desvantagens: • Não considera altura de objeto relativa nem mascaramento perceptivo; e • Capta somente os efeitos de impulsionamento de um objeto particular, mas não capta os efeitos por atenuação de ganhos de objeto. Isto pode ser resolvido determinando-se também uma ligação mais baixa para o valor dm.
Esta seção descreve uma função de limitação que considera os seguintes aspectos: • a medida de distorção é restrita por uma limitação, • a derivação da matriz de reprodução limitada baseia-se na função de limitação e na sua distância da matriz de reprodução inicial.
Esta função de limitação (ou esquema de limitação) pode, por exemplo, ser executada pelo ajustador de coeficiente de reprodução 250 em combinação com a calculadora de distorção 260. A medida de distorção é uma função da matriz de reprodução, de maneira que • uma matriz de reprodução inicial (descrita, por exemplo, pelos coeficientes de reprodução de entrada 242) produz uma medida de distorção inicial, • a medida de distorção ideal produz uma matriz de reprodução ideal, mas a distância dessa matriz de reprodução ideal á matriz de reprodução inicial pode não ser ideal, • a medida de distorção é inversamente proporcional à distância de uma matriz de reprodução à matriz de reprodução inicial, • para um determinado limite, a matriz de reprodução limitada (descrita, por exemplo, pelos coeficientes de reprodução ajustados ou modificados 222) é derivada através de interpolação (por exemplo, interpolação linear) entre o ponto de trabalho inicial e o ideal.
Além disso, a potência do sinal reproduzido em cada ponto de trabalho pode ser pressuposta aproximadamente constante, de maneira que O esquema de limitação #2 pode ser usado em combinação a diferentes medidas de distorção, como será discutido a seguir.
Para cada banda de parâmetro, a medida de distorção dm} (m) para um objeto de interesse m é definida como A matriz de reprodução ideal ocorre quando se ajusta em seu valor ideal, isto é
Consequentemente, os valores de matriz reproduzida podem ser obtidos utilizando-se um sistema de equações, onde é substituido por . Com o limite pré-definido T para , a matriz de reprodução limitada é dada por
A medida de distorção , que algumas vezes abreviadamente designada como e definida como para o objeto m e cada banda de parâmetro pb a relação máscara-sinal msr(pb) é uma função da potência do sinal reproduzido
O valor ideal da medida de distorção é zero, isto é, Isso corresponde a um processe de transcodificação perfeito que não introduz nenhum erro. Assim, reprodução ideal produz Com sendo a matriz de reprodução limitada, que pode ser descrita pelos coeficientes de reprodução modificados 222, torna-se
A medida de distorção que é também algumas vezes abreviadamente designada como , pode também ser usada pelo aparelho 240 para obtenção da matriz de reprodução limitada, que pode ser descrita pelos coeficientes de reprodução modificados 222, dependendo dos coeficientes de reprodução e entrada 242.
A medida de distorção é definida como para o objeto m e cada banda de parâmetro e seu valor ideal é . Consequentemente, as matrizes de reprodução ideais e limitadas resultam em Consequentemente, o aparelho 240 pode prover os coeficientes de reprodução modificada 222 dependendo dos coeficientes de reprodução de entrada 242, e também dependendo da medida de distorção 252, que pode ser igual à quarta medida de distorção
Correspondendo à fórmula (6.1.a), o coeficiente de reprodução limitada para o objeto m pode ser calculado para a medida de distorção #3 como segue. Com as abreviações é estabelecida uma equação quadrática cuja solução (positiva) é
Consequentemente, o aparelho 240 pode compreender os valores limite de parâmetro de reprodução rm , e pode limitar os coeficientes de reprodução ajustados (ou modificados) 222 de acordo com os ditos valores limite de parâmetro de reprodução.
O conceito descrito acima para limitação dos coeficientes de reprodução 222, que são executados individualmente ou combinados, pelo aparelho 240, pode ser mais melhorado. Por exemplo, pode ser feita uma generalização para reprodução de canal M. Com essa finalidade, a soma de quadrados / potência de coeficientes de reprodução pode ser usada, no lugar de um único coeficiente de reprodução.
Além disso, pode ser feita uma generalização para uma codificação estéreo. Com essa finalidade, uma soma de quadrados / potência de coeficientes de codificação pode ser usada no lugar de um único coeficiente de codificação.
Em algumas realizações, a métrica de distorção pode ser combinada pela frequência em uma única, que é usada para controle de degradação. Alternativamente, ela pode ser melhor (e mais simples) em alguns casos para fazer o controle de distorção independentemente para cada banda de frequência.
Diferentes conceitos podem ser aplicados para realmente fazer o controle de distorção. Por exemplo, os um ou mais coeficientes de reprodução podem ser limitados. Alternativa ou adicionalmente, um coeficiente de matriz m2 (por exemplo, de uma decodificação surround MPEG) pode ser limitado. Alternativa ou adicionalmente, um ganho de objeto relativo pode ser limitado.
A seguir, outra realização de um decodificador SAOC será descrita, tomando como referência a Fig. 3. Para facilitar o entendimento, uma breve discussão das considerações subjacentes será feita primeiro. A saida de um sistema (SAOC) de "codificação de objeto de áudio espacial" (como a que é padronizada como ISO/IEC 23003-2) pode apresentar artefatos que dependem das propriedades do objeto de áudio e da relação entre a matriz de reprodução e da matriz de codificação. Para discutir esse problema, o caso onde as matrizes de codificação e de reprodução têm a mesma dimensão é considerado aqui sem perda de generalidade. Considerações correspondentes aplicam-se se o número de canais da codificação e a cena reproduzida forem diferentes.
Observou-se que, em geral, o risco de artefatos aumenta quando a matriz de reprodução torna-se significativamente diferente da matriz de codificação. Diferentes tipos de artefatos podem ser distinguidos: 1. Imperfeições da reprodução, isto é, a matriz de reprodução "efetiva" difere da matriz de reprodução desejada que é inserida no decodificador SAOC (a atenuação ou ganho efetivamente obtido de um objeto é diferente do que está especificado na matriz de reprodução). Este é tipicamente o efeito da sobreposição de objetos em determinadas bandas de parâmetro. 2. Alterações indesejadas e possivelmente até variáveis no tempo, do timbre de um objeto. Esse artefato é especialmente grave quando o "vazamento" mencionado em 1. somente ocorre localmente para uma única banda de parâmetro. 3. Artefatos, como sinais de objeto modulados, tons musicais, ou ruido modulado, causados pelo processamento de sinal de tempo e frequência variáveis no decodificador SAOC. Observou-se que é desejável minimizar todos os tipos de artefatos.
Uma abordagem generalizada para resolver esse problema e para minimizar os artefatos é empregar um pós- processamento com tempo e frequência variáveis da matriz de reprodução desejada antes que ela seja enviada ao decodificador SAOC. Essa abordagem é mostrada na Fig. 3.
A Fig. 3 mostra um diagrama esquemático em blocos de um dispositivo decodificador SAOC 300. O decodificador SAOC 300 pode também ser abreviadamente designado como um decodificador de sinal de áudio. O decodificador de sinal de áudio 300 compreende um núcleo decodificador SAOC 310, que é configurado para receber uma representação de sinal de codificação 312 e um fluxo de bits de SAOC 314, e para prover, com base neles, uma descrição 316 de uma cena representada, por exemplo, na forma de uma representação de uma pluralidade de canais de áudio de decodificação.
O decodificador de sinal de áudio 300 compreende também uma redução de artefato 320, que pode, por exemplo, ser provida na forma de um aparelho para prover um ou mais parâmetros ajustados, dependendo dos um ou mais parâmetros de entrada. A redução de artefato 320 é configurada para receber a informação 322 sobre uma matriz de reprodução desejada. A informação 322 pode, por exemplo, ter a forma de uma pluralidade de parâmetros de reprodução desejados, que podes formar parâmetros de entrada da redução de artefato. A redução de artefato 320 é também configurada para receber a representação de sinal de codificação 312 e o fluxo de bits SAOC 314, onde o fluxo de bits SAOC 314 pode portar uma informação paramétrica relacionada ao objeto. A redução de artefato 320 é também configurada para prover uma matriz de reprodução modificada 324 (por exemplo, na forma de uma pluralidade de parâmetros de reprodução ajustados), dependendo da informação 322 sobre a matriz de reprodução desejada.
Consequentemente, o núcleo decodificador SAOC 310 pode ser configurado para prover a representação 316 da cena reproduzida, dependendo da representação de sinal de codificação 312, do fluxo de bits SAOC 314 e da matriz de reprodução modificada 324.
A seguir, alguns detalhes relacionados à funcionalidade do decodificador de sinal de áudio serão providos. Observou-se que para avaliar o risco de artefatos devidos a capacidades de separação potencialmente limitadas do sistema SAOC para uma determinada matriz de reprodução desejada, é desejável levar em conta tanto o sinal de codificação (descrito pela representação de sinal de codificação 312) como o fluxo de bits SAOC 314. Com essa informação disponível, é possível tentar mitigar esses artefatos, por exemplo, pela modificação da matriz de reprodução. Isso é feito pela redução de artefato 320. Estratégias avançadas para mitigação levam em conta tanto as limitações (sobreposição) da seletividade de tempo e frequência do sistema SAOC como também efeitos perceptivos na conta, isto é, elas devem tentar fazer o sinal reproduzido soar semelhante ao sinal de saída desejado, e ao mesmo tempo ter o mínimo possível de artefatos audíveis.
Uma abordagem preferida para redução de artefato, que é usada no decodificador de sinal de áudio 300 mostrado na Fig. 3, baseia-se em uma medida de distorção geral que é uma combinação ponderada de medidas de distorção que avaliam diferentes tipos de artefatos listados acima. Essas ponderações determinam uma alternância adequada entre os diferentes tipos de artefatos listados acima. Deve-se observar que as ponderações para esses diferentes tipos de artefatos podem depender da aplicação na qual o sistema SAOC é usado.
Em outras palavras, a redução de artefato 320 pode ser configurada para obter medidas de distorção para uma pluralidade de tipos de artefatos. Por exemplo, o artefato de redução 320 pode aplicar algumas das medidas de distorção dm! a dm6 conforme discutido acima. Alternativa ou adicionalmente, a redução de artefato 320 pode usar outras medidas de distorção que descrevam outros tipos de artefatos, conforme discutido nesta seção. E ainda, a redução de artefatos pode ser configurada para obtenção da matriz de reprodução modificada 324 com base na matriz de reprodução desejada 322, usando um ou mais dos esquemas de limitação de distorção, que foram discutidos acima (por exemplo, nas seções 2.4.2, 2.4.3 e 2.4.4), ou esquemas de limitação de artefato comparáveis.
Deve-se observar que os conceitos descritos acima podem ser aplicados tanto em um decodificador de sinal de áudio como em um transcodificador de sinal de áudio. Fazendo referência às Fig. 2 e 3, o conceito foi descrito combinado aos decodificadores de sinal de áudio. A seguir, o uso do conceito inventivo será brevemente discutido combinado aos transcodificadores de sinal de áudio.
A respeito dessa questão, deve-se observar que as semelhanças de decodificadores de sinal de áudio e transcodificadores de sinal de áudio já foram discutidas com referência às Fig. 9a, 9b e 9c, de maneira que as explicações dadas em relação às Fig. 9a, 9b e 9c são aplicáveis ao conceito inventivo.
A Fig. 5a mostra um diagrama esquemático de blocos de um transcodificador de sinal de áudio 500 combinado a um decodificador surround MPEG 510. Como pode ser observado, o transcodif icador de sinal de áudio 500, que pode ser um transcodificador surround SAOC para MPEG, é configurado para receber um fluxo de bits SAOC 520 e para prover, com base nele, um fluxo de bits surround MPEG 522 sem afetar (nem modificar) uma representação de sinal de codificação 524. O transcodificador de sinal de áudio 500 compreende uma análise SAOC 530, que é configurada para receber o fluxo de bits SAOC 520 e para extrair os parâmetros SAOC desejados do fluxo de bits SAOC 530. O transcodificador de sinal de áudio 500 compreende também um motor de reprodução de cena 540, que é configurado para receber parâmetros SAOC providos pela análise SAOC 530 e uma informação de matriz de reprodução 542, que pode ser considerada uma informação de reprodução (matriz) real, e que pode ser representada, por exemplo, na forma de uma pluralidade de parâmetros de reprodução ajustados (ou modificados) . O motor de reprodução de cena 540 é configurado para prover o fluxo de bits surround MPEG 522 dependendo dos ditos parâmetros SAOC e da matriz de reprodução 542. Com essa finalidade, o motor de reprodução de cena 540 é configurado para computar os parâmetros de fluxo de bits surround MPEG 522, que são parâmetros relacionados ao canal (também designados informação paramétrica). Assim, o motor de reprodução de cena 540 é configurado para transformar (ou "transcodificar") os parâmetros do fluxo de bits SAOC 520, que constitui uma informação paramétrica relacionada ao objeto, nos parâmetros do fluxo de bits surround MPEG, que constitui uma informação paramétrica relacionada ao canal, dependendo da matriz de reprodução real 542.
O transcodificador de sinal de áudio 500 compreende também uma geração de matriz de reprodução 550, que é configurada para receber uma informação sobre uma matriz de reprodução desejada, por exemplo, na forma de uma informação 552 sobre uma realização de playback e uma informação 554 sobre posições de objeto. Alternativamente, a geração de matriz de reprodução 550 pode receber informação sobre parâmetros de reprodução desejados (por exemplo, lançamentos de matriz de reprodução). A geração de matriz de reprodução é também configurada para receber o fluxo de bits SAOC 520 (ou, pelo menos, um subconjunto das informações paramétricas relacionadas ao objeto representadas pelo fluxo de bits SAOC 520) . A geração de matriz de reprodução 550 também é configurada para prover a matriz de reprodução real (ajustada ou modificada) 542, com base na informação recebida. Até onde se sabe, a geração de matriz de reprodução 542 pode assumir a funcionalidade do aparelho 100 ou do aparelho 240.
O decodificador surround MPEG 510 é tipicamente configurado para obter uma pluralidade de sinais de canal de decodificação com base na informação de sinal de codificação 524 e no fluxo de bits surround MPEG 522 provido pelo motor de reprodução de cena 540.
Resumindo, o transcodificador de sinal de áudio 500 é configurado para prover o fluxo de bits surround MPEG 522 de maneira que o fluxo de bits surround MPEG 522 permita a provisão de uma representação de sinal de decodificação com base na representação de sinal de codificação 524, onde a representação de sinal de decodificação é na verdade provida pelo decodificador surround MPEG 510. A geração de matriz de reprodução 550 ajusta a matriz de reprodução 542 usada pelo motor de reprodução de cena 540 de maneira que a representação de sinal de decodificação gerada pelo decodificador surround MPEG 510 não compreenda uma distorção audivel inaceitável.
A Fig. 5b mostra outro dispositivo de um transcodificador de sinal de áudio 560 e um decodificador surround MPEG 510. Deve-se observar que o dispositivo da Fig. 5b é muito semelhante ao dispositivo da Fig. 5a, de maneira que meios e sinais idênticos são designados com numerais de referência idênticos. O transcodificador de sinal de áudio 560 difere do transcodificador de sinal de áudio 500 porque o transcodificador de sinal de áudio 560 compreende um transcodificador de codificação 570, que é configurado para receber a representação de codificação de entrada 524 e para prover uma representação de codificação modificada 574, que é fornecida ao decodificador surround MPEG 510. A modificação da representação do sinal de codificação é feita para obter mais flexibilidade na definição do resultado de áudio desejado. Isso deve-se ao fato de que o fluxo de bits surround MPEG 522 não pode representar alguns mapeamentos do sinal de entrada do decodificador surround MPEG 510 na saida dos sinais de canal de decodificação pelo decodificador surround MPEG 510. Consequentemente, a modificação da representação do sinal de codificação com uso do transcodificador de codificação 570 pode incluir uma maior flexibilidade. Novamente, a geração de matriz de reprodução 550 pode assumir a funcionalidade do aparelho 100 ou do aparelho 240, garantindo assim que distorções audiveis na representação de sinal de decodificação provido pelo decodificador surround MPEG 510 sejam mantidas suficientemente pequenas.
A seguir, um codificador de sinal de áudio 600 será descrito fazendo referência à Fig. 6, que mostra um diagrama esquemático de blocos desse codificador de sinal de áudio. O codificador de sinal de áudio 600 é configurado para receber uma pluralidade de sinais de objeto 612a, 612N (também designados Xx a xN) e para prover, com base neles, uma representação de sinal de codificação 614 e uma informação paramétrica relacionada ao objeto 616. O codificador de sinal de áudio 600 compreende um codificador 620 configurado para prover um ou mais sinais de codificação (que constituem a representação de sinal de codificação 614), dependendo dos coeficientes di a dN associados aos sinais de objeto, de maneira que os um ou mais sinais de codificação compreendam uma sobreposição de uma pluralidade de sinais de objeto. 0 codificador de sinal de áudio 600 compreende também um provedor de informação adicional 630, que é configurado para prover uma informação adicional de relação inter-objeto que descreve diferenças de nivel e características de correlação de dois ou mais sinais de objeto 612a a 612N. O provedor de informação adicional 630 também é configurado para prover uma informação adicional de objeto individual que descreve uma ou mais propriedades individuais dos sinais de objeto individuais.
O codificador de sinal de áudio 600 provê assim a informação paramétrica relacionada ao objeto 616 de maneira que a informação paramétrica relacionada ao objeto compreenda tanto uma informação adicional de relação inter-objeto como uma informação adicional de objeto individual.
Observou-se que essa informação paramétrica relacionada ao objeto, que descreve tanto uma relação entre sinais de objeto como características individuais de sinais de objeto único permite a provisão de um sinal de áudio multicanal em um decodificador de sinal de áudio, conforme discutido acima. A informação adicional de relação inter-objeto pode ser explorada pelo decodificador de sinal de áudio que recebe a informação paramétrica relacionada ao objeto 616, para extrair, pelo menos aproximadamente, sinais de objeto individual da representação de sinal de codificação. A informação adicional de objeto individual, que também é incluída na informação paramétrica relacionada ao objeto 614, pode ser usada pelo decodificador de sinal de áudio para verificar se o processo de decodificação inclui distorções de sinal fortes demais, de maneira que os parâmetros de decodificação (por exemplo, parâmetros de reprodução) precisem ser ajustados. Preferivelmente, o provedor de informação adicional 630 é configurado para prover a informação adicional de objeto individual de maneira que a informação adicional de objeto individual descreva uma tonalidade dos sinais de objeto individual. Observou-se que uma informação de tonalidade pode ser usada como um critério confiável para avaliar se o processo de decodificação inclui distorções significativas ou não.
Deve-se também observar que o codificador de sinal de áudio 600 pode ser suplementado por qualquer dos recursos e funcionalidades discutidos no presente documento em relação a codificadores de sinal de áudio, e que a representação de sinal de codificação 614 e a informação paramétrica relacionada ao objeto 616 podem ser providas pelo codificador de sinal de áudio 600 de maneira que compreendam as características discutidas em relação ao decodificador de sinal de áudio inventivo.
Uma realização de acordo com a invenção cria um fluxo de áudio 700, cuja representação esquemática é mostrada na Fig. 7. O fluxo de bits de áudio representa uma pluralidade de sinais de objeto em uma forma codificada.
O fluxo de bits de áudio 700 compreende uma representação de sinal de codificação 710 que representa um ou mais sinais de codificação, onde pelo menos um dos sinais de codificação compreende uma sobreposição de uma pluralidade de sinais de objeto. 0 fluxo de bits de áudio 700 compreende também uma informação adicional de relação inter-objeto 720 que descreve diferenças de nivel e características de correlação de sinais de objeto. O fluxo de bits de áudio compreende também uma informação adicional de objeto individual 730 que descreve uma ou mais propriedades individuais dos sinais de objeto individual (que formam a base da representação de sinal de codificação 710).
A informação adicional de relação inter-objeto e a informação de objeto individual podem ser consideradas, em sua totalidade, uma informação adicional paramétrica relacionada ao obj eto. Em uma realização preferida, a informação adicional de objeto individual descreve tonalidades de sinais de objeto individual.
Naturalmente, o fluxo de bits de áudio 700 é tipicamente provido por um codificador de sinal de áudio, conforme discutido no presente documento e avaliado por um decodificador de sinal de áudio, conforme discutido no presente documento. O fluxo de bits de áudio pode compreender características como as discutidas em relação ao codificador de sinal de áudio e ao decodificador de sinal de áudio. Consequentemente, o fluxo de bits de áudio 700 pode ser adequado para a provisão de um sinal de áudio multicanal que utiliza um decodificador de sinal de áudio, conforme discutido no presente documento.
As realizações de acordo com a invenção provêem soluções para reduzir ou evitar o problema de distorção explicado acima, que origina-se do fato de que os sinais de objeto único, original, não podem ser reconstruídos perfeitamente a partir dos poucos sinais de codificação transmitidos. Existem soluções mais simples para esse problema a serem aplicadas: • Uma abordagem simplista seria limitar a faixa de ganho relativo de objeto em, por exemplo, ±12 dB. Apesar de ser verdade, essas configurações de ganho de objeto grandes podem levar a degradações audiveis (exemplo, intensificar um objeto em 20 dB e deixar os niveis do outro objeto em 0 dB), porém, isso não é necessário: como exemplo, a intensificação de todos os niveis de objeto relativo pelo mesmo fator produz uma saida de sistema não prejudicada. • Uma visão mais elaborada seria observar as diferenças de niveis de objeto relativo. Para a reprodução de dois objetos de áudio, a diferença de ambos os niveis de objeto relativo realmente provê uma possibilidade para possiveis degradações na saida reproduzida. No entanto, não fica claro como esta ideia generaliza-se para mais de dois objetos de áudio reproduzidos.
Considerando essa situação, as realizações de acordo com a presente invenção provêem meios para resolver esse problema, evitando assim uma experiência de usuário insatisfatória. Algumas realizações podem, de acordo com a invenção, incluir soluções ainda mais elaboradas que as discutidas na seção anterior.
Consequentemente, uma boa impressão auditiva pode ser obtida através do uso da presente invenção, mesmo se parâmetros de reprodução inadequados forem providos pelo usuário.
Falando de maneira geral, as realizações de acordo com a invenção referem-se a um aparelho, um método ou um programa de computador para codificar um sinal de áudio ou para decodificar um sinal de áudio codificado, ou para um sinal de áudio codificado (por exemplo, na forma de um fluxo de bits de áudio), conforme descrito acima.
Apesar de alguns aspectos terem sido descritos no contexto de um aparelho, fica claro que esses aspectos representam também uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou a uma característica de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método representam também uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou usando) um aparelho de hardware, como por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas realizações, alguma ou mais de uma das etapas mais importantes do método podem ser executadas por esse aparelho.
O sinal de áudio codificado ou fluxo de bits de áudio inventivos podem ser armazenados em um meio de armazenamento digital, ou podem ser transmitidos em um meio de transmissão como um meio de transmissão sem fio ou meio de transmissão com fio como a Internet.
Dependendo de determinados requisitos de implementação, realizações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser feita usando-se um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blue-Ray, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, com sinais de controle legiveis eletronicamente armazenados nele, que cooperem (ou sejam capazes de cooperar) com um sistema de computador programável de maneira que o respectivo método seja executado. Portanto, o meio de armazenamento digital pode ser legivel em computador.
Algumas realizações de acordo com a invenção compreendem um portador de dados com sinais de controle eletronicamente legiveis, que são capazes de cooperar com um sistema de computador programável, de maneira que um dos métodos descritos no presente documento seja executado.
Em geral, realizações da presente invenção podem ser implementadas como um produto programa de computador com um código de programa, sendo o código de programa operante para a execução de um dos métodos quando o produto programa de computador for executado em um computador. O código de programa pode por exemplo ser armazenado em um portador legível em máquina. Outras realizações compreendem o programa de computador para executar um dos métodos descritos no presente documento, armazenado em um portador legível em máquina.
Em outras palavras, uma realização do método inventivo é, portanto, um programa de computador com um código de programa para executar um dos métodos descritos no presente documento, quando o programa de computador for executado em um computador.
Uma outra realização do método inventivo é, portanto, um portador de dados (ou um meio de armazenamento digital, ou um meio legível em computador) que compreende, gravado nele, o programa de computador para executar um dos métodos descritos no presente documento.
Uma outra realização do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representem o programa de computador para executar um dos métodos descritos no presente documento. O fluxo de dado ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação, por exemplo, pela Internet.
Uma outra realização compreende um meio de processamento, por exemplo, um computador, ou um dispositivo de lógica programável, configurado ou adaptado para executar um dos métodos descritos no presente documento. Uma outra realização compreende um computador com o programa de computador para executar um dos métodos descritos no presente documento instalado nele.
Em algumas realizações, um dispositivo de lógica programável (por exemplo, um conjunto de portas programável de campo) pode ser usado para executar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas realizações, um conjunto de portas programável de campo pode cooperar com um microprocessador para executar um dos métodos descritos no presente documento. Em geral, os métodos são preferivelmente executados por qualquer aparelho de hardware.
As realizações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações dos dispositivos e os detalhes descritos no presente documento ficarão aparentes a outros técnicos no assunto. Portanto, a intenção é que elas sejam limitadas somente pelo escopo das reivindicações da patente pendentes e não pelos detalhes especificos apresentados através de descrição e explicação das realizações no presente documento.
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans, on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003 [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752 [SAOC1] J. Herre, S. Disch, J. Hilpert, 0. Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007 [SAOC2] J. Engdegârd, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. 5 Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377 .
Claims (28)
1. Aparelho, sendo o aparelho (100; 240; 320; 550) para prover um ou mais parâmetros ajustados (120; 222; 324; rm' , riim,m) para uma provisão de uma representação de sinal de decodificação (y i a y n; 316; 522,524; 522,574) à base de uma representação de sinal de codificação (212;312;524) e uma informação paramétrica relacionada a um objeto (214; 314; 520), sendo o aparelho caracterizado por compreender: um ajustador de parâmetro (140;240) configurado para receber um ou mais parâmetros de entrada (110; 242; 322; 552,554; r±) e para prover, com base neles, um ou mais parâmetros ajustados (120;222;324;542), em que o ajustador de parâmetro é configurado para prover um ou mais parâmetros ajustados dependendo dos um ou mais parâmetros de entrada e da informação paramétrica relacionada ao objeto (130; 214a,214b,214c;314;520) , de maneira que uma distorção da representação do sinal de decodificação causada pelo uso de parâmetros não ideais é reduzida, pelo menos para parâmetros de entrada que se desviam de parâmetros ideais além do desvio pré-determinado; em que o aparelho ser configurado para receber, como parâmetros de entrada (110; 242; 322; 552,554; ri), parâmetros de reprodução desejados (r±) que descrevem um escalonamento de intensidade desejada de uma pluralidade de sinais de objeto de áudio (xi a xN) em um ou mais canais de áudio descritos pela representação de sinal de decodificação (y i a _pN; 316; 522,524; 522,574); e em que o ajustador de parâmetro é configurado para prover um ou mais parâmetros de reprodução reais (rm', rn^m) dependendo dos um ou mais parâmetros de reprodução desejados (r±) .
2. Aparelho, de acordo com a reivindicação 1, caracterizado por o ajustador de parâmetro ser configurado para obter um ou mais valores de limite de parametro de reprodução (rm ) dependendo da informação paramétrica relacionada ao objeto (130; 214a,214b,214c;314; 520) e uma informação de codificação (214b; di) , que descreve uma contribuição dos sinais de objeto de áudio (xi a xN) para a representação de sinal de codificação, de maneira que uma métrica de distorção (dmi (m) , dm2 (m) , dms (m) , drrie (m) , DMi, DM2, DM3, DM4, DM5, DMe) , fique dentro de uma faixa pré-determinada para valores de parâmetro de reprodução que obedecem aos limites definidos pelos valores de limite de parâmetro de reprodução, e em que o ajustador de parâmetro é configurado para obter os parâmetros de reprodução ideais (rm', riim,m) dependendo dos parâmetros de reprodução desejados (ri) e um ou mais valores de limite de parâmetro de reprodução, de maneira que os parâmetros de reprodução reais obedeçam aos limites definidos pelos valores de limite de parâmetro de reprodução.
3. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que o ajustador de parâmetro é configurado para fornecer os um ou mais parâmetros ajustados em dependência de uma medida computacional de degradação perceptiva, de modo que uma distorção perceptivamente avaliada da representação do sinal de upmix causada pelo uso de parâmetros não ideais parâmetros e representados pela medida computacional da degradação perceptiva são limitados.
4. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que o ajustador de parâmetro é configurado para receber uma informação de propriedade de objeto individual que descreve as propriedades individuais de um ou mais sinais de objetos originais que formam a base para um sinal de downmix descrito pela representação de sinal de downmix; e em que o ajustador de parâmetro é configurado para considerar as informações da propriedade de objeto individual e fornecer os parâmetros ajustados de modo que uma distorção da representação do sinal de upmix em relação a uma representação de sinal de upmix idealmente renderizada seja reduzida pelo menos para parâmetros de entrada que se desviem dos parâmetros ótimos por mais do que um desvio predeterminado.
5. Aparelho, de acordo com a reivindicação 4, caracterizado pelo fato de que o ajustador de parâmetro é configurado para receber e considerar, como uma informação de propriedade de objeto individual, uma informação de tonalidade de sinal de objeto, a fim de fornecer os um ou mais parâmetros ajustados.
6. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que o ajustador de parâmetro é configurado para executar um ajuste variante de tempo e frequência dos parâmetros de entrada.
7. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que o ajustador de parâmetro é configurado para também considerar a representação do sinal de downmix para fornecer os um ou mais parâmetros ajustados.
8. Aparelho para fornecer um ou mais parâmetros ajustados para o fornecimento de uma representação de sinal upmix com base em uma representação de sinal downmix e em uma informação paramétrica relacionada ao objeto, o aparelho caracterizado por compreender: um processador receptor para receber um ou mais parâmetros de entrada; um ajustador de parâmetro configurado para receber um ou mais parâmetros de entrada do processador receptor e fornecer, com base nisso, um ou mais parâmetros ajustados, em que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros ajustados, dependendo de um ou mais parâmetros de entrada e das informações paramétricas relacionadas ao objeto, de modo que uma distorção da representação do sinal de upmix causada pelo uso de parâmetros não ideais seja reduzido pelo menos para parâmetros de entrada que se desviam dos parâmetros ótimos em mais de um desvio predeterminado; em que o aparelho está configurado para receber, como parâmetros de entrada, parâmetros de renderização desejados que descrevem uma escala de intensidade desejada de uma pluralidade de sinais de objetos de áudio em um ou mais canais de áudio descritos pela representação de sinal upmix; e em que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros de renderização reais, dependendo dos um ou mais parâmetros de renderização desejados; em que o ajustador de parâmetro é configurado para adquirir um ou mais valores-limite de parâmetros de renderização, de modo que uma contribuição relativa de um sinal de objeto em uma superposição renderizada de uma pluralidade de sinais de objeto, renderizada usando um ou mais parâmetros de renderização que obedeçam ao um ou mais parâmetros de renderização valores limite, difere de uma contribuição relativa do sinal do objeto em um sinal de downmix por não mais do que uma diferença predeterminada.
9. Aparelho, de acordo com a reivindicação 8, caracterizado pelo fato de que o ajustador de parâmetro é configurado para determinar um ou mais valores de parâmetros de renderização rm, de modo que a equação: é atendido para um ou mais objetos de áudio designados por um indice de objeto m, em que rm designa um parâmetro de renderização que descreve uma contribuição de um sinal de objeto de um objeto de áudio que compreende o indice de objeto m para um determinado canal do sinal de upmix, em que dm designa um parâmetro de downmix que descreve uma contribuição do sinal de objeto do objeto compreendendo o indice m em um sinal de downmix, e quando Xi designa uma medida de energia do objeto de áudio que compreende o indice de objeto m, cuja medida de energia é determinada pela informação paramétrica relacionada ao obj eto; em que T é um valor limite; e em que i é uma variável.
10. Aparelho para fornecer um ou mais parâmetros ajustados para o fornecimento de uma representação de sinal upmix com base em uma representação de sinal downmix e em uma informação paramétrica relacionada ao objeto, caracterizado pelo aparelho compreender: um processador receptor para receber um ou mais parâmetros de entrada; um ajustador de parâmetro configurado para receber um ou mais parâmetros de entrada do processador receptor e fornecer, com base nisso, um ou mais parâmetros ajustados, em que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros ajustados, dependendo de um ou mais parâmetros de entrada e das informações paramétricas relacionadas ao objeto, de modo que uma distorção da representação do sinal de upmix causada pelo uso de parâmetros não ideais seja reduzido pelo menos para parâmetros de entrada que se desviam dos parâmetros ótimos em mais de um desvio predeterminado; em que o aparelho está configurado para receber, como parâmetros de entrada, parâmetros de renderização desejados que descrevem uma escala de intensidade desejada de uma pluralidade de sinais de objetos de áudio em um ou mais canais de áudio descritos pela representação de sinal upmix; e em que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros de renderização reais, dependendo dos um ou mais parâmetros de renderização desejados; em que o ajustador de parâmetro é configurado para adquirir um ou mais valores-limite de parâmetros de renderização, de modo que uma medida de distorção, que descreve uma coerência entre um sinal de downmix descrito pela representação do sinal de downmix e um sinal renderizado, processada usando um ou mais parâmetros de renderização que obedecem ao um ou mais valores-limite de parâmetros de renderização está dentro de um intervalo predeterminado.
11. Aparelho, de acordo com a reivindicação 8, 9 ou 10, caracterizado por o ajustador de parâmetro ser configurado para obter a métrica de distorção (dmi) de maneira que a métrica de distorção dependa de uma proporção entre uma contribuição relativa de um determinado sinal de objeto (xi a xN) em uma superposição reproduzida de uma pluralidade de sinais de objeto, reproduzida, de acordo com os parâmetros de reprodução desejados (rm) , e uma contribuição relativa do determinado sinal de objeto (xi a xN) em um sinal de codificação que compreende o determinado sinal de objeto (xi a xN) .
12. Aparelho, de acordo com a reivindicação 10, caracterizado pelo fato de que o ajustador de parâmetro é configurado para adquirir um ou mais valores-limite de parâmetros de renderização para A(r)m2 de modo que a medida de distorção leva um valor predeterminado, em que C é definido como em que é uma matriz que compreende uma primeira linha de parâmetros de renderização π a rn e uma segunda linha de parâmetros de downmix di a dn descrevendo uma contribuição dos sinais do objeto de áudio para a representação do sinal de downmix; em que E é uma matriz de covariância de objetos que é adquirida usando parâmetros da informação paramétrica relacionada ao objeto, e em que designa um operador conjugado complexo.
13. Aparelho para fornecer um ou mais parâmetros ajustados para o fornecimento de uma representação de sinal upmix com base em uma representação de sinal downmix e em uma informação paramétrica relacionada ao objeto, o aparelho caracterizado por compreender: um processador receptor para receber um ou mais parâmetros de entrada; um ajustador de parâmetro configurado para receber um ou mais parâmetros de entrada do processador receptor e fornecer, com base nisso, um ou mais parâmetros ajustados, em que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros ajustados, dependendo de um ou mais parâmetros de entrada e das informações paramétricas relacionadas ao objeto, de modo que uma distorção da representação do sinal de upmix causada pelo uso de parâmetros não ideais seja reduzido pelo menos para parâmetros de entrada que se desviam dos parâmetros ótimos em mais de um desvio predeterminado; em que o aparelho está configurado para receber, como parâmetros de entrada, parâmetros de renderização desejados que descrevem uma escala de intensidade desejada de uma pluralidade de sinais de objetos de áudio em um ou mais canais de áudio descritos pela representação de sinal upmix; e em que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros de renderização reais, dependendo dos um ou mais parâmetros de renderização desejados; em que o ajustador de parâmetro é configurado para calcular uma combinação linear entre um quadrado de um parâmetro de renderização desejado e um quadrado de um parâmetro de renderização ideal, para adquirir o parâmetro de renderização real, em que o ajustador de parâmetro é configurado para determinar uma contribuição do parâmetro de renderização desejado e do parâmetro de renderização ideal para a combinação linear em dependência de um parâmetro de limite predeterminado T e uma métrica de distorção, em que a métrica de distorção descreve uma distorção que seria causada por usar o um ou mais parâmetros de renderização desejados, em vez dos parâmetros de renderização ideais, para adquirir a representação do sinal de upmix com base na representação de sinal de downmix.
14. Aparelho, de acordo com a reivindicação 8, caracterizado por o ajustador de parâmetro ser configurado para avaliar a equação para obter o parâmetro de reprodução real rnm,m que descreve uma contribuição de um sinal de objeto de um objeto com indice m para um determinado canal do sinal de decodificação, onde T designa um parâmetro limite de distorção pré-determinado, onde dmx (m) designa uma métrica de distorção associada ao parâmetro de reprodução desejado rm que descreve uma contribuição desejada de um sinal de objeto de um objeto de áudio com indice de objeto m para um determinado canal de sinal de decodificação; onde ropt,m designa um parâmetro de reprodução ideal que descreve uma contribuição ideal de um sinal de objeto do objeto de áudio com indice de objeto m para o determinado canal de sinal de decodificação.
15. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de que o ajustador de parâmetro é configurado para adquirir a métrica de distorção de modo que a métrica de distorção dependa de uma relação entre uma contribuição relativa de um determinado sinal de objeto em uma superposição renderizada de uma pluralidade de sinais de objeto, renderizados em de acordo com os parâmetros de renderização desejados e uma contribuição relativa do sinal de objeto fornecido em um sinal de downmix compreendendo o sinal de objeto fornecido.
16. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de que o ajustador de parâmetro é configurado para adquirir a métrica de distorção de modo que a métrica de distorção dependa de uma razão entre uma contribuição relativa de um determinado sinal de objeto em uma superposição renderizada de uma pluralidade de sinais de objeto, renderizados em de acordo com os parâmetros de renderização desejados e uma contribuição relativa do sinal de objeto fornecido em um sinal de downmix compreendendo o sinal de objeto fornecido.
17. Aparelho, de acordo com qualquer uma das reivindicações 8 a 11, caracterizado por o ajustador de parâmetro ser configurado para computar a métrica de distorção dmx (m) , de acordo com onde rm e r± designam parâmetros de reprodução desejados associados a objetos de áudio com índices de objeto m e i, respectivamente; onde dm e d± designam parâmetros de codificação que descrevem uma contribuição de sinais de objeto de objetos de áudio com índices de objeto m e i, respectivamente, para um sinal de codificação da representação do sinal de codificação; onde Nob designa um número de objetos de áudio sob consideração; onde Xi designa medidas de energia associadas aos sinais de objeto dos objetos de áudio com índices de objeto i.
18. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de que o ajustador de parâmetro é configurado para adquirir a métrica de distorção de modo que a métrica de distorção dependa de uma diferença entre uma contribuição relativa de um determinado sinal de objeto em uma superposição renderizada de uma pluralidade de sinais de objeto, renderizados em de acordo com os parâmetros de renderização desejados e uma contribuição relativa do sinal de objeto fornecido em um sinal de downmix compreendendo o sinal de objeto fornecido.
19. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de que o ajustador de parâmetro é configurado para calcular a métrica de distorção de modo que a métrica de distorção dependa de uma proporção de máscara para sinal, de modo que a métrica de distorção diminua, indicando uma distorção menor, se a máscara relação sinal-sinal aumenta.
20. Aparelho, de acordo com a reivindicação 12, caracterizado por o ajustador de parâmetro ser configurado para computar a métrica de distorção, de acordo com onde rm e r± designam parâmetros de reprodução desejados associados a objetos de áudio com indices de objeto m e i, respectivamente; onde d® e d± designam parâmetros de codificação que descrevem uma contribuição de sinais de objeto de objetos de áudio com indices de objeto m e i, respectivamente, para um sinal de codificação da representação do sinal de codificação; onde N designa um número de objetos de áudio sob consideração; onde Xi e Xm designam medidas de energia associadas aos sinais de objeto dos objetos de áudio com indices de objeto i e m, respectivamente; e onde msr define uma relação sinal-máscara, onde Mask define um limiar de mascaramento; em que P define a potência; e em que y define valores de uma forma de onda.
21. Aparelho para fornecer um ou mais parâmetros ajustados para o fornecimento de uma representação de sinal upmix com base em uma representação de sinal downmix e em uma informação paramétrica relacionada ao objeto, o aparelho caracterizado por: um processador receptor para receber um ou mais parâmetros de entrada; um ajustador de parâmetro configurado para receber um ou mais parâmetros de entrada do processador receptor e fornecer, com base nisso, um ou mais parâmetros ajustados, em que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros ajustados, dependendo de um ou mais parâmetros de entrada e das informações paramétricas relacionadas ao objeto, de modo que uma distorção da representação do sinal de upmix causada pelo uso de parâmetros não ideais seja reduzido pelo menos para parâmetros de entrada que se desviam dos parâmetros ótimos em mais de um desvio predeterminado; em que o ajustador de parâmetro é configurado para receber uma informação de propriedade de objeto individual que descreve as propriedades individuais de um ou mais sinais de objetos originais que formam a base para um sinal de downmix descrito pela representação de sinal de downmix; e em que o ajustador de parâmetro é configurado para considerar as informações da propriedade de objeto individual e fornecer os parâmetros ajustados de modo que uma distorção da representação do sinal de upmix em relação a uma representação de sinal de upmix idealmente renderizada seja reduzida pelo menos para parâmetros de entrada que se desviem dos parâmetros ótimos por mais do que um desvio predeterminado; em que o ajustador de parâmetro está configurado para receber e considerar, como uma informação de propriedade de objeto individual, uma informação de tonalidade de sinal de objeto, a fim de fornecer os um ou mais parâmetros ajustados; em que o ajustador de parâmetro é configurado para estimar uma tonalidade de um sinal upmix idealmente renderizado, dependendo das informações de tonalidade do sinal do objeto recebido e das informações de potência do objeto recebido; e em que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros ajustados para reduzir uma diferença entre a tonalidade estimada e a tonalidade de um sinal de upmix adquirido usando os um ou mais parâmetros ajustados quando comparado a uma diferença entre a tonalidade estimada e uma tonalidade de um sinal de upmix adquirido usando os um ou mais parâmetros de entrada ou para manter uma diferença entre a tonalidade estimada e uma tonalidade de um sinal de upmix adquirido usando os um ou mais parâmetros ajustados dentro de uma faixa predeterminada.
22. Aparelho (100; 240; 320; 550) para prover um ou mais parâmetros ajustados (120; 222; 324; rm', rlim,m) para uma provisão de uma representação de sinal de decodificação (la n; 316; 522,524; 522,574) à base de uma representação de sinal de codificação (212;312;524) e uma informação paramétrica relacionada a um objeto (214; 314; 520), compreendendo: um ajustador de parâmetro (140;240) configurado para receber um ou mais parâmetros de entrada (110; 242; 322; 552,554; ri) e para prover, com base neles, um ou mais parâmetros ajustados (120;222;324;542), em que o ajustador de parâmetro é configurado para prover um ou mais parâmetros ajustados dependendo dos um ou mais parâmetros de entrada e da informação paramétrica relacionada ao objeto (130; 214a,214b,214c;314;520) , de maneira que uma distorção da representação do sinal de decodificação causada pelo uso de parâmetros não ideais é reduzida, pelo menos para parâmetros de entrada que se desviam de parâmetros ideais além do desvio pré-determinado; caracterizado por o ajustador de parâmetro ser configurado para obter uma medida de distorção geral, a qual é uma combinação ponderada de medidas de distorção que descrevem uma pluralidade de tipos de artefatos; em que o ajustador de parâmetro é configurado para obter a medida de distorção geral de maneira que a medida de distorção geral seja uma medida de distorções que seria causada pelo uso de um ou mais dos parâmetros de reprodução de entrada, ao invés dos parâmetros de reprodução ideais, para obter a representação de sinal de decodificação à base da representação do sinal de codificação.
23. Aparelho, de acordo com a reivindicação 21, caracterizado por ajustador de parâmetro ser configurado para combinar pelo menos duas das medidas de distorção a seguir, a fim de obter a medida de distorção geral: • uma medida que descreve uma alteração parasita de timbre de um objeto de áudio; • uma medida que descreve uma modulação parasita de um sinal de objeto associado a um objeto de áudio; • uma medida que descreve a presença de um tom musical parasita; • uma medida que descreve a presença de um ruido modulado parasita.
24. DECODIFICADOR de sinal de áudio (220,240; 300;) para prover como representação de sinal de decodificação, uma pluralidade de canais de áudio de decodificação (yi a y n; 316) à base de uma representação de sinal de codificação (212;312) uma informação paramétrica relacionada a objeto (214; 314) e uma informação de reprodução desejada (242; 322), sendo o decodificador de sinal de áudio caracterizado por compreender: um decodificador (220; 310) configurado para obter os canais de áudio decodificados (j>i a j/N; 316) à base da representação de sinal de codificação (212;312) e dependendo da informação paramétrica relacionada ao objeto (214; 314) e uma informação de reprodução real (222; 324) que descreve uma alocação de uma pluralidade de sinais de objeto de objetos de áudio descritos pela informação paramétrica relacionada ao objeto aos canais de áudio decodificados; e em que o aparelho para fornecer um ou mais parâmetros ajustados é configurado para receber, como os parâmetros de entrada, os parâmetros de renderização desejados que descrevem uma escala de intensidade desejada de uma pluralidade de sinais de objetos de áudio em um ou mais canais de áudio descritos pela representação de sinal upmix; e em que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros de renderização reais, dependendo dos um ou mais parâmetros de renderização desejados e das informações paramétricas relacionadas ao objeto; um equipamento (100; 240; 320) para prover um ou mais parâmetros ajustados, de acordo com uma das reivindicações 1 a 23, em que o aparelho para prover um ou mais parâmetros ajustados é configurado para receber a informação de reprodução desejada (242; 322) como os um ou mais parâmetros de entrada (110) e para prover os um ou mais parâmetros ajustados (222;324) como a informação de reprodução real; e em que o aparelho para prover os um ou mais parâmetros ajustados é configurado para prover os um ou mais parâmetros ajustados de maneira que as distorções dos canais de áudio decodificados (y i a y^; 316) causadas pelo uso dos parâmetros de reprodução reais (rm', riim,m) , que se desviam dos parâmetros de reprodução ideais (ropt,m) , são reduzidas pelo menos para parâmetros de reprodução desejados (r±) que se desviam dos parâmetros de reprodução ideais (ropt,m) além de um desvio pré- determinado .
25. TRANSCODIFICADOR DE SINAL DE ÁUDIO (500;560) para prover como uma representação de sinal de decodificação (522) uma informação paramétrica relacionada ao canal à base de uma representação de sinal de codificação (524) uma informação paramétrica relacionada ao objeto (520) e uma informação de reprodução desejada (552,554), sendo o transcodificador de sinal de áudio caracterizado por compreender: um transcodificador de informação lateral (540) configurado para obter a informação paramétrica relacionada ao canal (522) à base da representação de sinal de codificação (524) e dependendo da informação paramétrica relacionada ao objeto (520) e uma informação de reprodução real (542) que descreve uma alocação de uma pluralidade de sinais de objeto de objetos de áudio descritos pela informação paramétrica relacionada ao objeto (522) para decodificar canais de áudio descritos pela informação paramétrica relacionada ao canal; e em que o aparelho para fornecer um ou mais parâmetros ajustados é configurado para receber, como os parâmetros de entrada, os parâmetros de renderização desejados que descrevem uma escala de intensidade desejada de uma pluralidade de sinais de objetos de áudio em um ou mais canais de áudio descritos pela representação de sinal upmix; e em que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros de renderização reais, dependendo dos um ou mais parâmetros de renderização desejados e das informações paramétricas relacionadas ao objeto; um aparelho (100; 550) para prover um ou mais parâmetros ajustados (542), de acordo com uma das reivindicações 1 a 23, em que o aparelho para prover um ou mais parâmetros ajustados é configurado para receber a informação de reprodução desejada (552,554) como um ou mais parâmetros de entrada (110) e para prover um ou mais parâmetros ajustados (120) como a informação de reprodução real (542); e em que o aparelho para prover um ou mais parâmetros ajustados é configurado para prover um ou mais parâmetros ajustados (120) de maneira que distorções dos canais de áudio decodificados causadas pelo uso dos parâmetros de reprodução reais (542), que se desviam dos parâmetros de reprodução ideais, sejam reduzidas pelo menos para parâmetros de reprodução desejados (552,554) que se desviam dos parâmetros de reprodução ideais mais que um desvio pré-determinado.
26. MÉTODO, para prover um ou mais parâmetros ajustados para uma provisão de uma representação de sinal decodificado à base de uma representação de sinal codificado e uma informação paramétrica relacionada ao objeto, sendo o método caracterizado por compreender: o recebimento de um ou mais parâmetros de entrada e provisão, com base neles, de um ou mais parâmetros ajustados, em que um ou mais parâmetros ajustados são providos dependendo de um ou mais parâmetros de entrada e da informação paramétrica relacionada ao objeto, de maneira que uma distorção da representação de sinal de decodificação causada pelo uso de parâmetros não ideais é reduzida pelo menos para parâmetros de entrada que se desviam de parâmetros ideais além de um desvio pré-determinado, em que os parâmetros de renderização desejados que descrevem uma escala de intensidade desejada de uma pluralidade de sinais de objetos de áudio em um ou mais canais de áudio descritos pela representação de sinal upmix são recebidos como parâmetros de entrada, e em que um ou mais parâmetros de renderização reais são fornecidos dependendo dos um ou mais parâmetros de renderização desejados e das informações paramétricas relacionadas ao objeto, em que o método é realizado usando um aparelho de hardware ou usando um computador ou usando uma combinação de um aparelho de hardware e um computador.
27. MÉTODO, para prover como representação de sinal decodificado uma pluralidade de canais de áudio decodificados à base de uma representação de sinal de codificação, uma informação paramétrica relacionada ao objeto e uma informação de reprodução desejada, o método sendo caracterizado por compreender: a provisão de um ou mais parâmetros ajustados, em que o recebimento de um ou mais parâmetros de entrada e provisão, com base neles, de um ou mais parâmetros ajustados, em que um ou mais parâmetros ajustados são providos dependendo de um ou mais parâmetros de entrada e da informação paramétrica relacionada ao objeto, de maneira que uma distorção da representação de sinal de decodificação causada pelo uso de parâmetros não ideais é reduzida pelo menos para parâmetros de entrada que se desviam de parâmetros ideais além de um desvio pré-determinado, em que a informação de reprodução desejada é recebida como um ou mais parâmetros de entrada, e em que um ou mais parâmetros ajustados são providos como uma informação de reprodução real, e em que os um ou mais parâmetros ajustados são providos de maneira que as distorções dos canais de áudio decodificados causadas pelo uso dos parâmetros de reprodução reais, que se desviem dos parâmetros de reprodução ideais, são reduzidas pelo menos para os parâmetros de reprodução desejados que se desviam dos parâmetros de reprodução ideais além de um desvio pré-determinado; e a obtenção dos canais de áudio decodificados à base da representação de sinal de codificação e dependendo da informação paramétrica relacionada ao objeto e da informação de reprodução real que descreve uma alocação de uma pluralidade de sinais de objeto de objetos de áudio descritos pela informação paramétrica relacionada ao objeto para os canais de áudio decodificados.
28. MÉTODO, para prover como representação de sinal de decodificação uma informação paramétrica relacionada ao canal à base de uma representação de sinal de codificação uma informação paramétrica relacionada ao objeto e uma informação de reprodução desejada, o método sendo caracterizado por compreender: a provisão de um ou mais parâmetros ajustados, em que o recebimento de um ou mais parâmetros de entrada e provisão, com base neles, de um ou mais parâmetros ajustados, em que um ou mais parâmetros ajustados são providos dependendo de um ou mais parâmetros de entrada e da informação paramétrica relacionada ao objeto, de maneira que uma distorção da representação de sinal de decodificação causada pelo uso de parâmetros não ideais é reduzida pelo menos para parâmetros de entrada que se desviam de parâmetros ideais além de um desvio pré-determinado, em que a informação de reprodução desejada é recebida como um ou mais parâmetros de entrada, e em que um ou mais parâmetros ajustados são providos como informação de reprodução real, e em que um ou mais parâmetros ajustados são providos de maneira que as distorções dos canais de áudio decodificados causadas pelo uso dos parâmetros de reprodução reais, que se desviam dos parâmetros de reprodução ideais, sejam reduzidas pelo menos para os parâmetros de reprodução desejados que se desviam dos parâmetros de reprodução ideais além de um desvio pré-determinado; e a obtenção da informação paramétrica relacionada ao canal, que descreve os canais de áudio decodificados, à base da representação do sinal de codificação e dependendo da informação paramétrica relacionada ao objeto e da informação de reprodução real que descreve uma alocação de uma pluralidade de sinais de objeto de objetos de áudio descritos pela informação paramétrica relacionada ao objeto para canais de áudio decodificados, canais de áudio decodificados esses que são descritos pela informação paramétrica relacionada ao canal.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17345609P | 2009-04-28 | 2009-04-28 | |
| US61/173,456 | 2009-04-28 | ||
| PCT/EP2010/055717 WO2010125104A1 (en) | 2009-04-28 | 2010-04-28 | Apparatus for providing one or more adjusted parameters for a provision of an upmix signal representation on the basis of a downmix signal representation, audio signal decoder, audio signal transcoder, audio signal encoder, audio bitstream, method and computer program using an object-related parametric information |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| BRPI1007777A2 BRPI1007777A2 (pt) | 2017-02-14 |
| BRPI1007777B1 true BRPI1007777B1 (pt) | 2026-01-06 |
Family
ID=
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101431889B1 (ko) | 객체 관련 파라메트릭 정보를 이용하는 다운믹스 신호 표현에 기초하여 업믹스 신호 표현을 제공하기 위해 하나 이상의 조정된 매개 변수들을 제공하기 위한 장치, 오디오 신호 디코더, 오디오 신호 트랜스코더, 오디오 신호 인코더, 오디오 비트스트림, 방법 및 컴퓨터 프로그램 | |
| JP7156986B2 (ja) | 無相関化信号の寄与の残差信号ベースの調整を用いたマルチチャンネルオーディオデコーダ、マルチチャンネルオーディオエンコーダ、方法およびコンピュータプログラム | |
| US10424309B2 (en) | Apparatuses and methods for encoding or decoding a multi-channel signal using frame control synchronization | |
| TWI545559B (zh) | 解碼器、編碼器、音訊信號系統、產生未經混合音訊信號之方法、編碼輸入音訊物件信號之方法、以及相關電腦可讀取媒體及電腦程式 | |
| JP5426680B2 (ja) | 信号処理方法及び装置 | |
| MX2012005781A (es) | Aparato para proporcionar una representacion de señal de mezcla ascendente con base en la representacion de señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, metodos, programas informaticos y flujo de bits que representan una señal de audio multicanal usando un parametro de combinacion lineal. | |
| PT2941771T (pt) | Descodificador, codificador e método de estimativa informada da percepção sonora empregando sinais de objetos de áudio de bypass em sistemas de codificação de áudio baseada em objetos | |
| PT2483887T (pt) | Descodificador de sinal de áudio mpeg-saoc, método para fornecer uma representação de sinal de mistura ascendente usando descodificação mpeg-saoc e programa de comutador usando um valor comum de parâmetros de correlação inter-objetos dependente de tempo/frequência | |
| EP2981956A2 (en) | Audio processing system | |
| BR122021008670B1 (pt) | Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio | |
| BRPI1007777B1 (pt) | Aparelho para prover um ou mais parâmetros ajustados para uma provisão de uma representação de sinal de decodificação, transcodificador de sinal de áudio, codificador de sinal de áudio e método | |
| TWI867879B (zh) | 包含有通道間相位差計算器裝置之編碼器以及用以操作此編碼器之方法 | |
| HK1173551B (en) | Apparatus for providing one or more adjusted parameters for a provision of an upmix signal representation on the basis of a downmix signal representation, audio signal decoder, audio signal transcoder, audio signal encoder, audio bitstream, method and computer program using an object-related parametric information | |
| HK1205340B (en) | Audio signal encoder, audio bitstream, method and computer program using an object-related parametric information | |
| HK40101661A (zh) | 用於多声道编码中的立体声填充的装置和方法 | |
| BR112018014916B1 (pt) | Aparelho e método para codificação ou decodificação de um sinal multicanal utilizando sincronização de controle de quadro | |
| BR112017025314B1 (pt) | Aparelho e método para codificação ou decodificação de um sinal multicanal utilizando reamostragem de domínio espectral | |
| BR112012008921B1 (pt) | Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio |