PT931386E

PT931386E - Processo para a sinalizacao de uma substituicao de ruido durante a codificacao de um sinal de audio

Info

Publication number: PT931386E
Application number: PT98916947T
Authority: PT
Inventors: Jurgen Herre; Karlheinz Brandenburg; Heinz Gerhauser; Oliver Kunz; Martin Dietz; Uwe Gbur; Bodo Teichmann; Andreas Ehret
Original assignee: Fraunhofer Ges Zur For Der Ang
Priority date: 1997-07-14
Filing date: 1998-03-13
Publication date: 2000-10-31
Also published as: KR100304055B1; AU7035298A; US6766293B1; EP0931386A1; JP3926399B2; ES2150313T3; CA2284220A1; JP2000515266A; GR3033861T3; ATE194440T1; DE59800189D1; DK0931386T3; DE19730129A1; KR20000070280A; WO1999004505A1; JP3878952B2; JP2005049889A; EP0931386B1; DE19730129C2; AU716982B2

Description

&3<· 3½

DESCRIÇÃO "PROCESSO PARA A SINALIZAÇÃO DE DMA SUBSTITUIÇÃO DE RUÍDO DURANTE A CODIFICAÇÃO DE UM SINAL DE ÁUDIO" A presente invenção refere-se a um processo de codificação áudio e em especial ao processo de codificação áudio de acordo com a norma ISO/MPEG, tal como por exemplo MPEG-1, MPEG-2, MPEG-2 AAC, para a representação reduzida de dados de sinais de áudio de elevada qualidade. 0 comité de normalização ISO/IEC JTC1/SC29/WG11, o qual também é conhecido como Moving Pictures Expert Group (MPEG), foi fundado em 1988, para especificar esquemas de codificação de vídeo e áudio digitais para baixas velocidades de dados. Em Novembro de 1992 foi terminada a primeira fase da especificação com a norma MPEG-1. 0 sistema de codificação de áudio de acordo com MPEG-1, que se encontra especificado na ISO 11172-3, trabalha no modo de estereofonia de um canal ou dois canais a frequências de exploração de 32 KHz, 44.1 KHz e 48 KHz. A norma MPEG-1 camada II fornece qualidade de rádio tal como se encontra especificado pela União Internacional de Telecomunicações, a uma velocidade de dados de 128 Kb/s por canal.

Na sua segunda fase de desenvolvimento, os objectivos da MPEG eram o de definir uma ampliação multi-canal para áudio MPEG-1, que devia ser retro compatível com os sistemas MPEG-1 existentes, e definir igualmente uma norma de codificação áudio a frequências de exploração mais baixas (16 KHz, 22,5 KHz, 24 KHz) do que na MPEG-1. A norma da retro compatibilidade (MPEG-2 BC) assim como a norma com frequências de exploração mais baixas (MPEG-2 LSF) foram terminadas em Novembro de 1994. A MPEG-2 BC fornece uma boa qualidade de áudio a velocidades de dados de 640 - 896 Kb/s 1

para 5 canais com largura de banda completa. Desde 1994 existem esforços adicionais do comité de normalização de áudio MPEG-2 para definir uma norma multi-canal com qualidade mais elevada, do que pode ser alcançada, quando é exigida uma retro compatibilidade para com a MPEG-1. Esta norma de áudio não retro compatível de acordo com a MPEG-2 é denominada MPEG-2 NBC. 0 objectivo deste desenvolvimento é o de tentar obter a qualidade de rádio de acordo com as exigências ITU-R a velocidades de dados de 38 4 Kb/s ou abaixo para sinais de áudio de 5 canais, no qual cada canal possui toda a largura de banda. A norma de codificação de áudio MPEG-2 NBC foi terminada em Abril 1997. 0 esquema MPEG-2 NBC irá formar o núcleo para a norma de áudio MPEG-4 já planeada, a qual virá ter velocidades de dados mais elevadas (acima de 40 Kb/s por canal). O NBC ou a norma não retro compatível combina o rendimento da codificação de um banco de filtros de alta resolução, de técnicas de previsão e a codificação Huffman que reduz a redundância, para obter uma codificação de áudio com qualidade de rádio a velocidades de dados muito baixas. A norma MPEG-2 NBC é também designada como MPEG-2 NBC AAC (AAC= Advanced Audio Coding - Codificação de Audio Avançada -). Uma representação pormenorizada do conteúdo técnico de MPEG-2 AAC pode ser encontrada em "ISO/IEC MPEG-2 Advanced Audio Coding", 101 Convenção AES, Los Angeles 1996, Preprint 4382, de M. Bosi, K.Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Yoshiaki Oikawa.

Os processos de codificação de áudio eficientes afastam tanto as redundâncias como as irrelevâncias dos sinais de áudio. As correlações entre os valores de exploração de áudio e estatísticas da representação do valor das explorações são utilizadas para afastar as redundâncias. As propriedades de disfarce da gama de frequências e do domínio temporal do sistema auditivo humano são utilizadas para afastar as partes de sinal não perceptíveis (irrelevâncias). O conteúdo da frequência do sinal de áudio é dividido em bandas parciais 2

É obtida a redução da espectro do sinal de por meio de um banco de filtros, velocidade dos dados, em que o temporização é quantificado de acordo com modelos psico-acústicos, podendo o mesmo englobar um processo de codificação sem perdas.

No geral, é explorado um sinal de áudio continuo no tempo, de modo a se obter um sinal de áudio discreto no tempo. 0 sinal de áudio discreto no tempo é colocado em janela por meio de uma função de janela, para receber blocos ou quadros seguidos com um número especifico de valores de exploração discretos no tempo, em janela, por exemplo 1024. Um atrás do outro, cada bloco dos valores de exploração discretos no tempo colocados em janela do sinal de áudio, é transformado na gama de frequências, em que por exemplo se pode utilizar uma transformação co-seno discreta modificada (MDCT —TCDM—). Os valores espectrais que se obtêm assim, não se encontram ainda quantificados, tendo que ser depois quantificados. 0 objectivo principal neste caso é o de quantificar de tal modo os dados espectrais que o ruido de quantificação seja mascarado ou escondido pelos sinais quantificados. Para isso vai-se utilizar um modelo psico-acústico descrito na norma MPEG-AAC, o qual calcula limites de disfarce dependentes do sinal de áudio presente, considerando as propriedade especiais da audição humana. Os valores espectrais serão entretanto de tal modo quantificados, que o ruido de quantificação inserido é escondido, tornando-se assim inaudível. A quantificação não conduz também a qualquer ruído audível.

Na norma NBC é utilizado um denominado quantificador desigual. Adicionalmente, é utilizado um processo para formar o ruído de quantificação. O processo NBC utiliza tal como as normas anteriormente mencionadas, a amplificação isolada de grupos de coeficientes espectrais, os quais são conhecidos como bandas de factor de escala. Para trabalhar tanto quanto possível eficientemente, é desejável estar em condições de 3

formar o ruído de quantificação em unidades, que se encostam tanto quanto possível próximas dos grupos de frequência do sistema auditivo humano. É deste modo possível, agrupar valores espectrais, os quais reproduzem a largura de banda muito próximo dos grupos de frequência. As bandas isoladas de factor de escala podem ser reforçadas, por meio de factores de escala, em passos de 1,5 dB. A formação do ruído é obtida porque coeficientes reforçados têm amplitudes maiores. Por isso, irão apresentar no geral uma relação de sinal ruído mais elevada, após a quantificação. Por outro lado, amplitudes maiores necessitam de mais bits para a codificação, quer dizer, a distribuição de bits entre as bandas de factor de escala é implicitamente alterada. Naturalmente que a amplificação tem que ser corrigida no descodificador através dos factores de escala. Por esse motivo, as informações de amplificação que se encontram armazenadas nos factores de escala em unidades de passos de 1,5 dB, têm que ser transmitidas para o descodif icador como informações laterais.

Após a quantificação dos valores espectrais que se encontram nas bandas de factor de escala e eventualmente reforçados por factores de escala, devem os mesmos ser codificados. 0 sinal de entrada no módulo de codificação sem ruido é deste modo o conjunto de por exemplo 1024 coeficientes espectrais quantificados. Através do módulo de codificação sem ruído os conjuntos de 1024 coeficientes espectrais quantificados são divididos em troços ou "secções", de tal modo, que é utilizada uma única tabela de codificação Huffman ("Codebook"), para codificar cada troço. Devido à eficiência de codificação, os limites dos troços só podem estar presentes nos limites da banda de factor de escala, de tal modo, que por cada troço ou "secção" do espectro têm que ser transmitidos, como informações laterais, tanto o comprimento do troço em bandas de factor escala como também o número da tabela de codificação Huffman, que é utilizado para o troço. 4 A formação dos troços é dinâmica e varia tipicamente de bloco para bloco, de tal modo, que o número de bits que são necessários para representar o bloco completo de coeficientes espectrais quantificados, é diminuído. A codificação Huffman é utilizada para representar coeficientes quantificados em n-Tupel, em que o código Huffman é retirado de uma de 12 tabelas de codificação. 0 valor absoluto máximo dos coeficientes quantificados que pode ser representado por cada tabela de codificação Huffman e o número de coeficientes em cada n-Tupel encontram-se previamente fixados para cada tabela de codificação. 0 motivo da formação dos troços ou secções é o de agrupar zonas com a mesma estatística de sinal, para poder obter por meio de uma única tabela de codificação Huffman para uma secção, um ganho da codificação o mais possível elevado, em que o ganho de codificação no geral se encontra definido pelo quociente de bits antes da codificação, e bits após a codificação. Por meio de um número da tabela de codificação ("Codebook-number") que se encontra fixado na sintaxe da corrente de bits utilizado para o processo NBC, é indicada uma das 12 tabelas de codificação Huffman, a qual para um troço especial possibilita o ganho de codificação mais elevado. A expressão "número de tabela de codificação" deve deste modo nesta patente designar o lugar na sintaxe da corrente de bits, que se encontra reservado para o número da tabela de codificação. Para codificar 11 números diferentes da tabela de codificação, são utilizados 4 bits. Estes 4 bits têm que ser transmitidos para cada troço, quer dizer para cada grupo de valores espectrais, como informações laterais, para que o descodificador possa escolher para descodificar, a tabela de codificação correcta correspondente.

Uma técnica adicional considerada recentemente é a da "substituição de ruído", cujos aspectos se encontram descritos pormenorizadamente em "Improving Audio Codecs by Noise Substituion" de Donald Schutz, Journal of Audio Eng.

Soc.r Bd. 44, Nr. 7/8, pág. 593-598, Julho/Agosto de 1996. Tal como anteriormente mencionado, os algoritmos de codificação de áudio correntes utilizam vulgarmente os efeitos de máscara do ouvido humano, para reduzir de modo decisivo a velocidade dos dados ou número de bits a serem transmitidos. 0 efeito de máscara significa também que um ou vários componentes da frequência como valores espectrais tornam inaudíveis outros componentes com níveis inferiores. Este efeito pode ser utilizado de duas maneiras. Primeiro, os componentes do sinal de áudio que são mascarados por outros componentes, não têm que ser codificados. Segundo, é permitida a introdução de ruído através da quantificação agora mesmo descrita, quando este ruído é escondido por componentes do sinal inicial.

Nos sinais susceptíveis de ruído, o sistema auditivo humano não é capaz de abranger o decorrer exacto do tempo de um tal sinal. Nos algoritmos correntes, isto fez com que até a forma de onda do ruído branco, o qual é quase irrelevante para a audição humana, tenha sido codificada. Uma codificação correcta de acordo com a audição de sinais susceptíveis de ruído, exige por isso elevadas velocidades de bits para informações, que não são audíveis, quando não existam quaisquer exigências especiais. Caso todavia componentes de sinais susceptíveis de ruído sejam definidos e sejam codificados com informações sobre o seu nível de ruído, sobre a sua gama de frequências ou através da sua zona de expansão temporal, uma tal codificação desnecessária pode ser diminuída o que pode conduzir a uma economia de bits extraordinariamente grande. Esta realidade é cimentada pela psico-acústica, que refere, que a impressão de percepção de sinais de ruído é determinada pela sua composição espectral e não pela forma de onda real. Isto possibilita também a utilização da técnica de substituição de ruído na redução de dados de sinais de áudio. 6

0 codificador tem por isso como tarefa, encontrar ou reconhecer em todo o espectro do sinal de áudio, valores espectrais com ruído ou susceptíveis de ruído. Uma definição para valores espectrais susceptíveis de ruído é a seguinte: quando um componente do sinal pode ser caracterizado pelo seu nível, pela sua gama de frequências e pela sua zona expansão temporal de tal modo que ele possa ser reconstruído, sem diferenças audíveis para o sistema auditivo humano, por um processo de substituição de ruído, este componente de sinal é classificado como ruído. A recolha desta característica pode ser efectuada na gama de frequências ou no domínio temporal, tal como se encontra descrito no último documento mencionado. 0 processo mais simples, por exemplo, compreende componentes tonais, quer dizer, não susceptíveis de ruído, no qual é utilizada uma transformação da frequência temporal, e no qual picos estacionários são seguidos por espectros temporais seguidos. Estes picos são designados tonais; tudo o resto' é designado como susceptível de ruído. Isto representa todavia uma definição de ruído relativamente vasta. Uma possibilidade adicional de diferenciar entre componentes espectrais susceptíveis de ruído e tonais, é a utilização de um previsor para valores espectrais, em blocos seguidos. Neste caso, é efectuada uma previsão de um espectro para o espectro seguinte, quer dizer para o espectro que se encontra atribuído ao próximo bloco ou quadro temporal. Se um valor espectral previsto não se diferenciar ou se diferenciar pouco do valor espectral calculado, na verdade através de transformação do próximo bloco ou quadro temporal, pressupõe-se que se trata neste valor espectral de um componente espectral tonal. Daí pode ser retirada uma medida de tonalidade cujo valor se encontra sujeito a uma decisão para diferenciar um do outro valores espectrais tonais e susceptíveis de ruído. Este processo de percepçâo é todavia apropriado somente para sinais fortemente estacionários. Falha neste caso a definição de situações nas quais os sinais seno se encontram presentes com pequenas frequências alteradas no tempo. Tais sinais surgem frequentemente nos 7 sinais de áudio, tal como por exemplo vibratos, sendo visível para o técnico que estes não podem ser substituídos por um componente susceptível de ruído.

Uma possibilidade adicional para a detecção de sinais susceptíveis de ruído é constituída pela apreciação do ruído através de previsão no domínio temporal. Para isso, é apropriado um filtro adaptado como previsor, o qual pode ser reutilizado, para executar uma previsão linear, tal como é suficientemente conhecido na técnica. Os sinais de áudio anteriores são armazenados, sendo o sinal de saída comparado com o valor de exploração áudio real. No caso de um pequeno erro de previsão, pode ser aceite a tonalidade. Para determinar o carácter de diferentes zonas de frequência, quer dizer para identificar se um grupo de valores espectrais é um grupo susceptível de ruído, têm que ser executadas transformações na frequência e no tempo tanto do sinal inicial como também do sinal previsto. Depois pode ser calculado para cada grupo de frequências uma medida de tonalidade, em que são comparados uns com os outros os valores iniciais e previstos. Um problema principal neste caso é a zona dinâmica limitada do previsor. Um grupo de frequências sujeitas a ruído com um elevado nível domina o previsor devido ao grande erro resultante. Outras zonas de frequência com componentes tonais poderiam ser interpretadas como susceptíveis de ruído. Este problema pode ser diminuído pela utilização de um algoritmo ir.teractivo, no qual o sinal de erro tem normalmente um nível mais baixo do que o sinal inicial, sendo novamente armazenado por um previsor adicional, após o qual os dois sinais previstos são adicionados. No documento de Schulz encontram-se descritos os processos adicionais. 0 grupo de valores espectrais entretanto classificado como susceptível de ruído, não é quantificado como é corrente e transmitido para um receptor codificado em entropia ou redundância (por meio por exemplo de uma tabela Huffman) . Em

vez disso são transmitidos somente uma identificação da substituição de ruido assim como uma medida para a energia do grupo, passível de ruído, de valores espectrais como informações laterais. No receptor são então aplicados, para os coeficientes substituídos, valores aleatórios (ruído) com a energia transmitida. Os valores espectrais susceptíveis de ruído são substituídos também pôr valores espectrais aleatórios com a correspondente medida de energia.

Através da transmissão de uma única informação de energia em vez de um grupo de códigos, quer dizer vários valores espectrais quantificados, e codificados, para os coeficientes espectrais quantificados são possíveis enormes economias de dados. É visível que a economia da velocidade de dados alcançada depende do sinal. Trata-se por exemplo de um sinal como muito poucas partes de ruído, quer dizer muito poucos grupos susceptíveis de ruido, ou com propriedades transientes, tornando-se deste modo possível uma pequena economia na velocidade dos dados, do que quando é codificado um sinal com muitos grupos susceptíveis de ruído. A norma MPEG-2 Advanced Audio Coding (AAC) descrita no início, não suporta a possibilidade da substituição de ruído. As elevadas economias na velocidade dos dados não são possíveis com as normas actuais. 0 objectivo da presente invenção é o de aumentar de tal modo a norma MPEG-2 AAC existente para a possibilidade da substituição do ruído, que nem a estrutura básica de codificação nem a estrutura de sintaxe da corrente de bits existente é tocada.

Este objectivo é alcançado por um processo para a sinalização do uma substituição do ruído durante a codificação de um sinal de áudio de acordo com a reivindicação 1, por um processo para a codificação de um sinal de áudio de acordo 9

ο com reivindicação 10 e por um processo para descodificação de um sinal de áudio de acordo com a reivindicação 11. À presente invenção é sabido que no caso da execução do uma substituição da ruido por uma banda sujeita a ruído, não é necessário executar qualquer quantificação e codificação de redundância ou codificação Huffman de valores espectrais. Em vez disso, tal como já foi descrito, são produzidos no descodificador valores espectrais de ruído para um grupo susceptível de ruído, cuja medida para a energia corresponde à medida para a energia dos valores espectrais substituídos pelo ruído. Por outras palavras, para grupos susceptíveis de ruído não são utilizadas quaisquer tabelas de codificação, dado que não tem lugar qualquer codificação da redundância. Deste modo, é também desnecessário o número da tabela de codificação, quer dizer o lugar correspondente na sintaxe da corrente de bits do sinal de áudio codificado. Este lugar da sintaxe da corrente de bits, quer dizer o número da tabela de codificação, pode agora, de acordo com a presente invenção, ser utilizado para mostrar que um grupo se encontra susceptível de ruído, sendo sujeito a uma substituição de ruído. Dado que, tal como já foi igualmente mencionado, se encontram previstas 12 tabelas de codificação, sendo o lugar na sintaxe da corrente de bits todavia de 4 bits, com o qual no total pode ser representado de modo binário uma gama de números de 0 - 15, existem os denominados números adicionais da tabela de codificação, os quais não apontam para qualquer tabela de codificação. Somente os números 0 - 11 da tabela de codificação apontam para uma tabela de codificação. Numa forma de realização preferida da presente invenção, é utilizado o número 13 da tabela de codificação, para sinalizar ao descodificador, que o grupo, que nas suas informações laterais apresenta o número 13 da tabela de codificação, quer dizer apresenta o número adicional da tabela de codificação, é um grupo susceptível de ruído, tendo sido sujeito a uma substituição do ruído. Para os técnicos é todavia visível, que também os números adicionais ou livres 10 12, 14 ou 15 da tabela de codificação, podem também ser utilizados.

Tal como representado a seguir, os valores espectrais, que se encontram presentes após uma transformação da gama de frequências do sinal de áudio temporal, podem ser agrupados em bandas de factor de escala, para obter um disfarce optimizado do ruído de quantificação. Na norma MPEG-2 AAC encontram-se adicionalmente agrupadas em troços ou "secções" várias bandas de factor de escala. Uma secção é constituída por isso geralmente por várias bandas de factor de escala. Quer dizer, que uma substituição de ruído é sinalizada sempre para uma secção completa, quer dizer, se uma substituição de ruído se encontra ou não activa. Devido ao facto de as bandas de factor de escala susceptíveis de ruído não serem quantificadas, não têm que ser também calculados ou transmitidos ou seja codificados, os factores de escala para os mesmos. Quer dizer que, adicionalmente ao número da tabela de codificação, o qual indica em si a substituição do ruído, se encontra adicionalmente livre um lugar na corrente de bits, o qual pode ser ocupado de outro modo. Na forma de realização preferida da presente invenção no local que se encontra previsto para o factor de escala nas informações laterais para uma banda de factor de escala, é escrita uma medida para a energia do coeficiente espectral substituído. Tal como já foi mencionado, a percepção dos sinais de ruído dependem primeiramente da sua composição espectral e não da sua forma de onda real. Dos valores espectrais de uma banda de factor de escala susceptível de ruído é deste modo calculada uma medida para a energia dos valores espectrais na banda de factor de escala susceptível de ruído. Este valor é inserido nas informações laterais em lugar da banda de factor de escala, sem que sejam necessárias informações laterais adicionais ou que a estrutura da sintaxe da corrente de bits tenha que ser alterada. Este valor a ser transmitido pode ser a energia total do valor espectral numa banda de factor de escala susceptível de ruido ou energia central, a qual por 11

J exemplo tem que estar normalizada para um valor espectral ou uma linha espectral na banda de factor de escala. Na forma de realização preferida da presente invenção, não é todavia utilizada a energia central mas sim a energia global como medida para a energia.

Para a transmissão da medida para a energia do valor espectral substituído, é de preferência utilizada a mesma resolução que é utilizada para o escalonamento inverso dos dados espectrais transmitidos, quer dizer, um escalonamento logarítmico com uma resolução de 1,5 dB pela norma AAC. De modo semelhante ao processo de camada III, no processo AAC para a reconstrução dos troços espectrais não susceptíveis de ruído, quer dizer tonais, a) é utilizado a curva característica inversa do quantificador não linear sobre o valor quantificado (X) da linha espectral (Y = X4/3), e depois b) é executado um "escalonamento inverso" de acordo com os factores de escalas transmitidos (Z = Y x 2(SF/4)) em que SF é o valor de escala da respectiva banda de factor de escala, e em que Z representa valores requantifiçados. A resolução é neste caso de 1,5 dB.

No processo para a sinalização de uma substituição de ruído durante a codificação de um sinal de áudio de acordo com a presente invenção, no qual para uma banda de factor de escala susceptível de ruído não é necessário um factor de escala, mas sim em vez disso é aplicada a medida para a energia dos valores espectrais substituídos, são aplicadas as mesmas leis de codificação para a medida da energia dos valores espectrais substituídos tal como eles seriam utilizados no factor de escala. Isto representa uma utilização vantajosa dos recursos já existentes no codificador AAC e não necessita de qualquer género de informações laterais adicionais.

Uma utilização vantajosa adicional da sinalização da substituição de ruído é dada pelos sinais de áudio em estereofonia. 0 ouvido humano é susceptível de percepcionar, 12

até uma certa medida, uma correlação entre os sinais ou canais (L e R) de um par de canais estéreo, o qual no AAC é designado como "Charmel Pair". Por isso devia, em caso de uma substituição de ruído, a correlação dos sinais de ruído entre os dois substituídos dos pares de canais ser semelhante ao sinal original. As bandas de factor de escala no canal esquerdo e direito que possuem a mesma frequência central podem ser substituídas no ruído, quando é reconhecida uma susceptibilidade de ruído. Se for efectuada uma substituição de ruído dos dois canais e se não existirem outras exigências, os valores espectrais de ruído produzidos casualmente no codificador, embora tenham a mesma energia total que no sinal de áudio inicial, encontram-se todavia devido à produção casual, totalmente não correlacionados. Isto pode conduzir, sob condições específicas a erros audíveis. Para evitar isto, é possível utilizar para os dois canais os mesmos valores espectrais de ruído de uma banda de factor de escala produzidos, o que corresponde a uma correlação completa das bandas de factor de escala susceptíveis de ruído do canal esquerdo e direito.

Neste caso, procede-se do seguinte modo, de acordo com um exemplo de realização preferido da presente invenção: para cada par de canal existe na norma AAC uma denominada mascara Central/Lateral (mascara C/L), a qual na norma em si é denominada "ms_used" (= utilizada em C/L). Esta mascara C/L é um vector de bits, o qual apresenta em modo banda, se foi utilizada entre os dois canais uma codificação estéreo C/L a qual é conhecida pelos técnicos e que se encontra descrita introdutoriamente em "Sum-Difference Stereo Transform Coding" de J.D. Johnston, A.J. Ferreira, IEEE ICASSP 1992, pág. 569-571, e também na norma MPEG-AAC. A mascara C/L é constituída por um número de bits, em que cada bit se encontra atribuído a uma banda de factor de escala. Se for utilizada numa banda de factor de escala uma codificação C/L, é aplicado um bit de sinalização na mascara C/L nas informações laterais, que a codificação C/L participa ao codificador. Se todavia for 13

reconhecida uma banda de factor de escala susceptivel de ruido tanto no canal esquerdo como no canal direito para a mesma frequência central das bandas de factor de escala (para L e para R) , não tem assim lugar naturalmente qualquer codificação Central/Lateral. 0 bit C/L para esta banda de factor de escala encontra-se disponível igualmente tal como o número da tabela de codificação e factor de escala na corrente de bits de acordo com a sintaxe da corrente de bits disponível, para sinalizar outra coisa qualquer. Neste caso, pode ser utilizado o bit da mascara C/L para a banda de factor de escala passível de ruído dos dois canais, para mostrar se devem ser produzidos valores espectrais de ruído ou vectores de ruído independentes para o canal esquerdo e direito, ou que iria corresponder ao caso normal, o se deve ser utilizado o mesmo vector de ruído tanto para o canal esquerdo como direito na banda de factor de escala susceptivel de ruído.

Tal como é conhecido pelos técnicos, os factores de escala nas bandas de factor de escala não susceptíveis de ruído, podem ser codificados por meio de uma codificação da diferença. Para um factor de escala correspondente numa banda de factor de escala seguinte não tem que ser novamente codificado todo o valor de factor de escala, mas sim simplesmente a diferença dos mesmos, dos anteriores. Isto é designado como codificação da diferença. Esta codificação da diferença é utilizada no exemplo de realização preferido da presente invenção igualmente para codificação da medida para a energia dos troços espectrais numa banda de factor de escala susceptivel de ruído. Deste modo não tem que ser codificada novamente toda a medida da energia para uma banda de factor de escala seguinte mas sim simplesmente a diferença da actual com a anterior, o que por sua vez conduz a uma economia de bits. Naturalmente que tem que estar sempre presente um primeiro valor inicial, o qual todavia também pode ser um valor fixo, antecipadamente definido. Este processo da codificação da diferença é especialmente 14 em vantajoso quando bandas de factor de escala continuas, quadros, são susceptiveis de ruído.

Lisboa, 28 de Julho de 2000

15

Claims

reivindicações 1. Processo para a sinalização de uma substituição de ruído na codificação de um sinal de áudio, com os seguintes passos: Transformar um sinal de áudio temporal na gama de frequências, para obter valores espectrais; Agrupar valores espectrais em grupos de valores espectrais; Definir se um grupo de valores espectrais é um grupo passível de ruído; caso um grupo não seja passível de ruído, atribuir uma tabela de codificação, de várias tabelas de codificação para a codificação redundante dos grupos não passíveis de ruído, em que por meio de um número da tabela de codificação é indicado a tabela de codificação atribuída ao grupo; e caso um grupo seja passível de ruído, atribuir um número adicional de tabela de codificação, que não indica uma tabela de codificação, para este grupo, para sinalizar que este grupo é passível de ruído e por isso não codificado para a redundância.
2. Processo de acordo com a reivindicação 1, no qual os grupos de valores espectrais são troços, em que são cedidos um número da tabela de codificação para troços não passíveis de ruído e um número adicional dé tabela de codificação para troços passíveis de ruído.
3. Processo de acordo com a reivindicação 2, 1 no qual um troço apresenta uma ou várias bandas de factor de escala, em que a cada banda de factor de escala se encontra atribuído um factor de escala; e no qual em caso de uma banda de factor de escala passível de ruído se encontra codificada uma medida para a energia dos valores espectrais na banda de factor de escala em vez de um factor de escala.
4. Processo de acordo com a reivindicação 3, no qual a medida para a energia dos valores espectrais num grupo passível de ruído, a energia central normalizada para um valor de referência é a mesma numa banda de factor de escala.
5. Processo de acordo com a reivindicação 3, no qual a medida para a energia é a energia total dos valores espectrais na banda de factor de escala passível de ruído.
6. Processo de acordo com a reivindicação 3 ou 4, no qual para a codificação da medida para a energia dos valores espectrais passíveis de ruído na banda de factor de escala é utilizada a mesma escala, a qual é utilizada normalmente para a codificação de um factor de escala de uma banda de factor de escala, que não é nenhuma banda de factor de escala passível de ruído.
7. Processo de acordo com qualquer das reivindicações 3 a 6, no qual a codificação da medida para a energia dos valores espectrais em bandas de factor de escala passíveis de ruído é uma codificação da diferença.
Processo de acordo com qualquer das reivindicações 1 a 7, no qual o sinal de áudio é um sinal estéreo, 8.

no qual pode ser apresentada em grupo, uma codificação Central/Lateral dos dois canais do sinal estéreo através da mascara Central/Lateral, e no qual em caso de grupos passíveis de ruído com frequências correspondentes, podem ser apresentados os dois canais através da mascara Central/Lateral, se é de se utilizar os valores espectrais de ruído diferentes ou iguais para os dois canais durante a descodificação de um sinal de áudio codificado.
9. Processo de acordo com qualquer das reivindicações anteriores, no qual a apreciação se um grupo de valores espectrais é um grupo passível de ruído, é executada por meio do sinal de áudio temporal ou tanto por meio do sinal de áudio temporal como também dos valores espectrais do sinal de áudio temporal.
10. Processo para a codificação de um sinal de áudio com os seguintes passos: Sinalizar uma substituição de ruído de acordo com qualquer das reivindicações 1 a 9; Calcular uma medida para a energia de um grupo passível de ruído; Inserir a medida para a energia nas informações laterais atribuídas ao grupo; Inserir o número da tabela de codificação adicional na informação lateral atribuída ao grupo; Quantificar os grupos não passíveis de ruído e codificar os grupos não passíveis de ruído quantificados sob utilização da tabela de codificação, a qual é considerada (?) pelo número da tabela de codificação, enquanto que 3

para grupos passíveis de ruído não tem lugar qualquer quantificação ou codificação; e Formar uma corrente de bits, dos grupos quantificados e não passíveis de ruído assim como, para grupos passíveis de ruído, uma medida para a energia dos valores espectrais dos grupos passíveis de ruído, apresentando o número da tabela de codificação adicional para a sinalização dos grupos passíveis de ruído.
11. Processo para a descodificação de um sinal de áudio codificado com os seguintes passos: Recepção de uma corrente de bits; Descodificação redundante de grupos não passíveis de ruído devido a uma tabela de codificação indicada por um número de tabela de codificação e requantificação de valores espectrais descodificados em redundância e quantificados; Apreciação de um grupo de valores espectrais passível de ruído devido a um número de tabela de codificação adicional, que se encontra atribuído a este grupo; Apreciação de uma medida para a energia dos valores espectrais no grupo passível de ruído devido às informações laterais atribuídas pelo grupo; Produção de valores espectrais de ruído para o grupo passível de ruído, em que a medida da energia dos valores espectrais de ruído no grupo passível de ruído é igual à medida para a energia de valores espectrais dos grupos passíveis de ruído no sinal inicial; 4 Transformação dos valores espectrais requantifiçados e dos valores espectrais de ruído no domínio temporal, para receber um sinal de áudio descodificado.
12. Processo de acordo com a reivindicação 11, no qual a produção dos valores espectrais de ruído tem lugar através da produção de números aleatórios ou através da recepção dos mesmos de uma tabela, em que a energia adicionada dos valores espectrais de ruído corresponde ao grupo passível de ruido do sinal de áudio inicial.
13. Processo de acordo com as reivindicações 11 ou 12, que adicionalmente apresenta os seguintes passos: Apreciação de uma mascara Central/Lateral para sinais de áudio estereofonia; devido à mascara Central/Lateral para sinais de áudio estereofonia, valores espectrais de ruído idênticos utilizam para grupos passíveis de ruído dos dois canais correspondentes, ou produzem dois grupos independentes de valores espectrais de ruído para os dois canais.

Lisboa, 28 de uulho de 2000 íp»CENTE OFICIAI. DA PROPRIEDADE INTOTISTRÍAL. 5