PT931386E - Processo para a sinalizacao de uma substituicao de ruido durante a codificacao de um sinal de audio - Google Patents

Processo para a sinalizacao de uma substituicao de ruido durante a codificacao de um sinal de audio Download PDF

Info

Publication number
PT931386E
PT931386E PT98916947T PT98916947T PT931386E PT 931386 E PT931386 E PT 931386E PT 98916947 T PT98916947 T PT 98916947T PT 98916947 T PT98916947 T PT 98916947T PT 931386 E PT931386 E PT 931386E
Authority
PT
Portugal
Prior art keywords
noise
group
coding
spectral values
groups
Prior art date
Application number
PT98916947T
Other languages
English (en)
Inventor
Jurgen Herre
Karlheinz Brandenburg
Heinz Gerhauser
Oliver Kunz
Martin Dietz
Uwe Gbur
Bodo Teichmann
Andreas Ehret
Original Assignee
Fraunhofer Ges Zur For Der Ang
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=7835662&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=PT931386(E) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Ges Zur For Der Ang filed Critical Fraunhofer Ges Zur For Der Ang
Publication of PT931386E publication Critical patent/PT931386E/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Stereophonic System (AREA)
  • Noise Elimination (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

&3<· 3½
DESCRIÇÃO "PROCESSO PARA A SINALIZAÇÃO DE DMA SUBSTITUIÇÃO DE RUÍDO DURANTE A CODIFICAÇÃO DE UM SINAL DE ÁUDIO" A presente invenção refere-se a um processo de codificação áudio e em especial ao processo de codificação áudio de acordo com a norma ISO/MPEG, tal como por exemplo MPEG-1, MPEG-2, MPEG-2 AAC, para a representação reduzida de dados de sinais de áudio de elevada qualidade. 0 comité de normalização ISO/IEC JTC1/SC29/WG11, o qual também é conhecido como Moving Pictures Expert Group (MPEG), foi fundado em 1988, para especificar esquemas de codificação de vídeo e áudio digitais para baixas velocidades de dados. Em Novembro de 1992 foi terminada a primeira fase da especificação com a norma MPEG-1. 0 sistema de codificação de áudio de acordo com MPEG-1, que se encontra especificado na ISO 11172-3, trabalha no modo de estereofonia de um canal ou dois canais a frequências de exploração de 32 KHz, 44.1 KHz e 48 KHz. A norma MPEG-1 camada II fornece qualidade de rádio tal como se encontra especificado pela União Internacional de Telecomunicações, a uma velocidade de dados de 128 Kb/s por canal.
Na sua segunda fase de desenvolvimento, os objectivos da MPEG eram o de definir uma ampliação multi-canal para áudio MPEG-1, que devia ser retro compatível com os sistemas MPEG-1 existentes, e definir igualmente uma norma de codificação áudio a frequências de exploração mais baixas (16 KHz, 22,5 KHz, 24 KHz) do que na MPEG-1. A norma da retro compatibilidade (MPEG-2 BC) assim como a norma com frequências de exploração mais baixas (MPEG-2 LSF) foram terminadas em Novembro de 1994. A MPEG-2 BC fornece uma boa qualidade de áudio a velocidades de dados de 640 - 896 Kb/s 1
para 5 canais com largura de banda completa. Desde 1994 existem esforços adicionais do comité de normalização de áudio MPEG-2 para definir uma norma multi-canal com qualidade mais elevada, do que pode ser alcançada, quando é exigida uma retro compatibilidade para com a MPEG-1. Esta norma de áudio não retro compatível de acordo com a MPEG-2 é denominada MPEG-2 NBC. 0 objectivo deste desenvolvimento é o de tentar obter a qualidade de rádio de acordo com as exigências ITU-R a velocidades de dados de 38 4 Kb/s ou abaixo para sinais de áudio de 5 canais, no qual cada canal possui toda a largura de banda. A norma de codificação de áudio MPEG-2 NBC foi terminada em Abril 1997. 0 esquema MPEG-2 NBC irá formar o núcleo para a norma de áudio MPEG-4 já planeada, a qual virá ter velocidades de dados mais elevadas (acima de 40 Kb/s por canal). O NBC ou a norma não retro compatível combina o rendimento da codificação de um banco de filtros de alta resolução, de técnicas de previsão e a codificação Huffman que reduz a redundância, para obter uma codificação de áudio com qualidade de rádio a velocidades de dados muito baixas. A norma MPEG-2 NBC é também designada como MPEG-2 NBC AAC (AAC= Advanced Audio Coding - Codificação de Audio Avançada -). Uma representação pormenorizada do conteúdo técnico de MPEG-2 AAC pode ser encontrada em "ISO/IEC MPEG-2 Advanced Audio Coding", 101 Convenção AES, Los Angeles 1996, Preprint 4382, de M. Bosi, K.Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Yoshiaki Oikawa.
Os processos de codificação de áudio eficientes afastam tanto as redundâncias como as irrelevâncias dos sinais de áudio. As correlações entre os valores de exploração de áudio e estatísticas da representação do valor das explorações são utilizadas para afastar as redundâncias. As propriedades de disfarce da gama de frequências e do domínio temporal do sistema auditivo humano são utilizadas para afastar as partes de sinal não perceptíveis (irrelevâncias). O conteúdo da frequência do sinal de áudio é dividido em bandas parciais 2
É obtida a redução da espectro do sinal de por meio de um banco de filtros, velocidade dos dados, em que o temporização é quantificado de acordo com modelos psico-acústicos, podendo o mesmo englobar um processo de codificação sem perdas.
No geral, é explorado um sinal de áudio continuo no tempo, de modo a se obter um sinal de áudio discreto no tempo. 0 sinal de áudio discreto no tempo é colocado em janela por meio de uma função de janela, para receber blocos ou quadros seguidos com um número especifico de valores de exploração discretos no tempo, em janela, por exemplo 1024. Um atrás do outro, cada bloco dos valores de exploração discretos no tempo colocados em janela do sinal de áudio, é transformado na gama de frequências, em que por exemplo se pode utilizar uma transformação co-seno discreta modificada (MDCT —TCDM—). Os valores espectrais que se obtêm assim, não se encontram ainda quantificados, tendo que ser depois quantificados. 0 objectivo principal neste caso é o de quantificar de tal modo os dados espectrais que o ruido de quantificação seja mascarado ou escondido pelos sinais quantificados. Para isso vai-se utilizar um modelo psico-acústico descrito na norma MPEG-AAC, o qual calcula limites de disfarce dependentes do sinal de áudio presente, considerando as propriedade especiais da audição humana. Os valores espectrais serão entretanto de tal modo quantificados, que o ruido de quantificação inserido é escondido, tornando-se assim inaudível. A quantificação não conduz também a qualquer ruído audível.
Na norma NBC é utilizado um denominado quantificador desigual. Adicionalmente, é utilizado um processo para formar o ruído de quantificação. O processo NBC utiliza tal como as normas anteriormente mencionadas, a amplificação isolada de grupos de coeficientes espectrais, os quais são conhecidos como bandas de factor de escala. Para trabalhar tanto quanto possível eficientemente, é desejável estar em condições de 3
formar o ruído de quantificação em unidades, que se encostam tanto quanto possível próximas dos grupos de frequência do sistema auditivo humano. É deste modo possível, agrupar valores espectrais, os quais reproduzem a largura de banda muito próximo dos grupos de frequência. As bandas isoladas de factor de escala podem ser reforçadas, por meio de factores de escala, em passos de 1,5 dB. A formação do ruído é obtida porque coeficientes reforçados têm amplitudes maiores. Por isso, irão apresentar no geral uma relação de sinal ruído mais elevada, após a quantificação. Por outro lado, amplitudes maiores necessitam de mais bits para a codificação, quer dizer, a distribuição de bits entre as bandas de factor de escala é implicitamente alterada. Naturalmente que a amplificação tem que ser corrigida no descodificador através dos factores de escala. Por esse motivo, as informações de amplificação que se encontram armazenadas nos factores de escala em unidades de passos de 1,5 dB, têm que ser transmitidas para o descodif icador como informações laterais.
Após a quantificação dos valores espectrais que se encontram nas bandas de factor de escala e eventualmente reforçados por factores de escala, devem os mesmos ser codificados. 0 sinal de entrada no módulo de codificação sem ruido é deste modo o conjunto de por exemplo 1024 coeficientes espectrais quantificados. Através do módulo de codificação sem ruído os conjuntos de 1024 coeficientes espectrais quantificados são divididos em troços ou "secções", de tal modo, que é utilizada uma única tabela de codificação Huffman ("Codebook"), para codificar cada troço. Devido à eficiência de codificação, os limites dos troços só podem estar presentes nos limites da banda de factor de escala, de tal modo, que por cada troço ou "secção" do espectro têm que ser transmitidos, como informações laterais, tanto o comprimento do troço em bandas de factor escala como também o número da tabela de codificação Huffman, que é utilizado para o troço. 4 A formação dos troços é dinâmica e varia tipicamente de bloco para bloco, de tal modo, que o número de bits que são necessários para representar o bloco completo de coeficientes espectrais quantificados, é diminuído. A codificação Huffman é utilizada para representar coeficientes quantificados em n-Tupel, em que o código Huffman é retirado de uma de 12 tabelas de codificação. 0 valor absoluto máximo dos coeficientes quantificados que pode ser representado por cada tabela de codificação Huffman e o número de coeficientes em cada n-Tupel encontram-se previamente fixados para cada tabela de codificação. 0 motivo da formação dos troços ou secções é o de agrupar zonas com a mesma estatística de sinal, para poder obter por meio de uma única tabela de codificação Huffman para uma secção, um ganho da codificação o mais possível elevado, em que o ganho de codificação no geral se encontra definido pelo quociente de bits antes da codificação, e bits após a codificação. Por meio de um número da tabela de codificação ("Codebook-number") que se encontra fixado na sintaxe da corrente de bits utilizado para o processo NBC, é indicada uma das 12 tabelas de codificação Huffman, a qual para um troço especial possibilita o ganho de codificação mais elevado. A expressão "número de tabela de codificação" deve deste modo nesta patente designar o lugar na sintaxe da corrente de bits, que se encontra reservado para o número da tabela de codificação. Para codificar 11 números diferentes da tabela de codificação, são utilizados 4 bits. Estes 4 bits têm que ser transmitidos para cada troço, quer dizer para cada grupo de valores espectrais, como informações laterais, para que o descodificador possa escolher para descodificar, a tabela de codificação correcta correspondente.
Uma técnica adicional considerada recentemente é a da "substituição de ruído", cujos aspectos se encontram descritos pormenorizadamente em "Improving Audio Codecs by Noise Substituion" de Donald Schutz, Journal of Audio Eng.
Soc.r Bd. 44, Nr. 7/8, pág. 593-598, Julho/Agosto de 1996. Tal como anteriormente mencionado, os algoritmos de codificação de áudio correntes utilizam vulgarmente os efeitos de máscara do ouvido humano, para reduzir de modo decisivo a velocidade dos dados ou número de bits a serem transmitidos. 0 efeito de máscara significa também que um ou vários componentes da frequência como valores espectrais tornam inaudíveis outros componentes com níveis inferiores. Este efeito pode ser utilizado de duas maneiras. Primeiro, os componentes do sinal de áudio que são mascarados por outros componentes, não têm que ser codificados. Segundo, é permitida a introdução de ruído através da quantificação agora mesmo descrita, quando este ruído é escondido por componentes do sinal inicial.
Nos sinais susceptíveis de ruído, o sistema auditivo humano não é capaz de abranger o decorrer exacto do tempo de um tal sinal. Nos algoritmos correntes, isto fez com que até a forma de onda do ruído branco, o qual é quase irrelevante para a audição humana, tenha sido codificada. Uma codificação correcta de acordo com a audição de sinais susceptíveis de ruído, exige por isso elevadas velocidades de bits para informações, que não são audíveis, quando não existam quaisquer exigências especiais. Caso todavia componentes de sinais susceptíveis de ruído sejam definidos e sejam codificados com informações sobre o seu nível de ruído, sobre a sua gama de frequências ou através da sua zona de expansão temporal, uma tal codificação desnecessária pode ser diminuída o que pode conduzir a uma economia de bits extraordinariamente grande. Esta realidade é cimentada pela psico-acústica, que refere, que a impressão de percepção de sinais de ruído é determinada pela sua composição espectral e não pela forma de onda real. Isto possibilita também a utilização da técnica de substituição de ruído na redução de dados de sinais de áudio. 6
0 codificador tem por isso como tarefa, encontrar ou reconhecer em todo o espectro do sinal de áudio, valores espectrais com ruído ou susceptíveis de ruído. Uma definição para valores espectrais susceptíveis de ruído é a seguinte: quando um componente do sinal pode ser caracterizado pelo seu nível, pela sua gama de frequências e pela sua zona expansão temporal de tal modo que ele possa ser reconstruído, sem diferenças audíveis para o sistema auditivo humano, por um processo de substituição de ruído, este componente de sinal é classificado como ruído. A recolha desta característica pode ser efectuada na gama de frequências ou no domínio temporal, tal como se encontra descrito no último documento mencionado. 0 processo mais simples, por exemplo, compreende componentes tonais, quer dizer, não susceptíveis de ruído, no qual é utilizada uma transformação da frequência temporal, e no qual picos estacionários são seguidos por espectros temporais seguidos. Estes picos são designados tonais; tudo o resto' é designado como susceptível de ruído. Isto representa todavia uma definição de ruído relativamente vasta. Uma possibilidade adicional de diferenciar entre componentes espectrais susceptíveis de ruído e tonais, é a utilização de um previsor para valores espectrais, em blocos seguidos. Neste caso, é efectuada uma previsão de um espectro para o espectro seguinte, quer dizer para o espectro que se encontra atribuído ao próximo bloco ou quadro temporal. Se um valor espectral previsto não se diferenciar ou se diferenciar pouco do valor espectral calculado, na verdade através de transformação do próximo bloco ou quadro temporal, pressupõe-se que se trata neste valor espectral de um componente espectral tonal. Daí pode ser retirada uma medida de tonalidade cujo valor se encontra sujeito a uma decisão para diferenciar um do outro valores espectrais tonais e susceptíveis de ruído. Este processo de percepçâo é todavia apropriado somente para sinais fortemente estacionários. Falha neste caso a definição de situações nas quais os sinais seno se encontram presentes com pequenas frequências alteradas no tempo. Tais sinais surgem frequentemente nos 7 sinais de áudio, tal como por exemplo vibratos, sendo visível para o técnico que estes não podem ser substituídos por um componente susceptível de ruído.
Uma possibilidade adicional para a detecção de sinais susceptíveis de ruído é constituída pela apreciação do ruído através de previsão no domínio temporal. Para isso, é apropriado um filtro adaptado como previsor, o qual pode ser reutilizado, para executar uma previsão linear, tal como é suficientemente conhecido na técnica. Os sinais de áudio anteriores são armazenados, sendo o sinal de saída comparado com o valor de exploração áudio real. No caso de um pequeno erro de previsão, pode ser aceite a tonalidade. Para determinar o carácter de diferentes zonas de frequência, quer dizer para identificar se um grupo de valores espectrais é um grupo susceptível de ruído, têm que ser executadas transformações na frequência e no tempo tanto do sinal inicial como também do sinal previsto. Depois pode ser calculado para cada grupo de frequências uma medida de tonalidade, em que são comparados uns com os outros os valores iniciais e previstos. Um problema principal neste caso é a zona dinâmica limitada do previsor. Um grupo de frequências sujeitas a ruído com um elevado nível domina o previsor devido ao grande erro resultante. Outras zonas de frequência com componentes tonais poderiam ser interpretadas como susceptíveis de ruído. Este problema pode ser diminuído pela utilização de um algoritmo ir.teractivo, no qual o sinal de erro tem normalmente um nível mais baixo do que o sinal inicial, sendo novamente armazenado por um previsor adicional, após o qual os dois sinais previstos são adicionados. No documento de Schulz encontram-se descritos os processos adicionais. 0 grupo de valores espectrais entretanto classificado como susceptível de ruído, não é quantificado como é corrente e transmitido para um receptor codificado em entropia ou redundância (por meio por exemplo de uma tabela Huffman) . Em
vez disso são transmitidos somente uma identificação da substituição de ruido assim como uma medida para a energia do grupo, passível de ruído, de valores espectrais como informações laterais. No receptor são então aplicados, para os coeficientes substituídos, valores aleatórios (ruído) com a energia transmitida. Os valores espectrais susceptíveis de ruído são substituídos também pôr valores espectrais aleatórios com a correspondente medida de energia.
Através da transmissão de uma única informação de energia em vez de um grupo de códigos, quer dizer vários valores espectrais quantificados, e codificados, para os coeficientes espectrais quantificados são possíveis enormes economias de dados. É visível que a economia da velocidade de dados alcançada depende do sinal. Trata-se por exemplo de um sinal como muito poucas partes de ruído, quer dizer muito poucos grupos susceptíveis de ruido, ou com propriedades transientes, tornando-se deste modo possível uma pequena economia na velocidade dos dados, do que quando é codificado um sinal com muitos grupos susceptíveis de ruído. A norma MPEG-2 Advanced Audio Coding (AAC) descrita no início, não suporta a possibilidade da substituição de ruído. As elevadas economias na velocidade dos dados não são possíveis com as normas actuais. 0 objectivo da presente invenção é o de aumentar de tal modo a norma MPEG-2 AAC existente para a possibilidade da substituição do ruído, que nem a estrutura básica de codificação nem a estrutura de sintaxe da corrente de bits existente é tocada.
Este objectivo é alcançado por um processo para a sinalização do uma substituição do ruído durante a codificação de um sinal de áudio de acordo com a reivindicação 1, por um processo para a codificação de um sinal de áudio de acordo 9
ο com reivindicação 10 e por um processo para descodificação de um sinal de áudio de acordo com a reivindicação 11. À presente invenção é sabido que no caso da execução do uma substituição da ruido por uma banda sujeita a ruído, não é necessário executar qualquer quantificação e codificação de redundância ou codificação Huffman de valores espectrais. Em vez disso, tal como já foi descrito, são produzidos no descodificador valores espectrais de ruído para um grupo susceptível de ruído, cuja medida para a energia corresponde à medida para a energia dos valores espectrais substituídos pelo ruído. Por outras palavras, para grupos susceptíveis de ruído não são utilizadas quaisquer tabelas de codificação, dado que não tem lugar qualquer codificação da redundância. Deste modo, é também desnecessário o número da tabela de codificação, quer dizer o lugar correspondente na sintaxe da corrente de bits do sinal de áudio codificado. Este lugar da sintaxe da corrente de bits, quer dizer o número da tabela de codificação, pode agora, de acordo com a presente invenção, ser utilizado para mostrar que um grupo se encontra susceptível de ruído, sendo sujeito a uma substituição de ruído. Dado que, tal como já foi igualmente mencionado, se encontram previstas 12 tabelas de codificação, sendo o lugar na sintaxe da corrente de bits todavia de 4 bits, com o qual no total pode ser representado de modo binário uma gama de números de 0 - 15, existem os denominados números adicionais da tabela de codificação, os quais não apontam para qualquer tabela de codificação. Somente os números 0 - 11 da tabela de codificação apontam para uma tabela de codificação. Numa forma de realização preferida da presente invenção, é utilizado o número 13 da tabela de codificação, para sinalizar ao descodificador, que o grupo, que nas suas informações laterais apresenta o número 13 da tabela de codificação, quer dizer apresenta o número adicional da tabela de codificação, é um grupo susceptível de ruído, tendo sido sujeito a uma substituição do ruído. Para os técnicos é todavia visível, que também os números adicionais ou livres 10 12, 14 ou 15 da tabela de codificação, podem também ser utilizados.
Tal como representado a seguir, os valores espectrais, que se encontram presentes após uma transformação da gama de frequências do sinal de áudio temporal, podem ser agrupados em bandas de factor de escala, para obter um disfarce optimizado do ruído de quantificação. Na norma MPEG-2 AAC encontram-se adicionalmente agrupadas em troços ou "secções" várias bandas de factor de escala. Uma secção é constituída por isso geralmente por várias bandas de factor de escala. Quer dizer, que uma substituição de ruído é sinalizada sempre para uma secção completa, quer dizer, se uma substituição de ruído se encontra ou não activa. Devido ao facto de as bandas de factor de escala susceptíveis de ruído não serem quantificadas, não têm que ser também calculados ou transmitidos ou seja codificados, os factores de escala para os mesmos. Quer dizer que, adicionalmente ao número da tabela de codificação, o qual indica em si a substituição do ruído, se encontra adicionalmente livre um lugar na corrente de bits, o qual pode ser ocupado de outro modo. Na forma de realização preferida da presente invenção no local que se encontra previsto para o factor de escala nas informações laterais para uma banda de factor de escala, é escrita uma medida para a energia do coeficiente espectral substituído. Tal como já foi mencionado, a percepção dos sinais de ruído dependem primeiramente da sua composição espectral e não da sua forma de onda real. Dos valores espectrais de uma banda de factor de escala susceptível de ruído é deste modo calculada uma medida para a energia dos valores espectrais na banda de factor de escala susceptível de ruído. Este valor é inserido nas informações laterais em lugar da banda de factor de escala, sem que sejam necessárias informações laterais adicionais ou que a estrutura da sintaxe da corrente de bits tenha que ser alterada. Este valor a ser transmitido pode ser a energia total do valor espectral numa banda de factor de escala susceptível de ruido ou energia central, a qual por 11
J exemplo tem que estar normalizada para um valor espectral ou uma linha espectral na banda de factor de escala. Na forma de realização preferida da presente invenção, não é todavia utilizada a energia central mas sim a energia global como medida para a energia.
Para a transmissão da medida para a energia do valor espectral substituído, é de preferência utilizada a mesma resolução que é utilizada para o escalonamento inverso dos dados espectrais transmitidos, quer dizer, um escalonamento logarítmico com uma resolução de 1,5 dB pela norma AAC. De modo semelhante ao processo de camada III, no processo AAC para a reconstrução dos troços espectrais não susceptíveis de ruído, quer dizer tonais, a) é utilizado a curva característica inversa do quantificador não linear sobre o valor quantificado (X) da linha espectral (Y = X4/3), e depois b) é executado um "escalonamento inverso" de acordo com os factores de escalas transmitidos (Z = Y x 2(SF/4)) em que SF é o valor de escala da respectiva banda de factor de escala, e em que Z representa valores requantifiçados. A resolução é neste caso de 1,5 dB.
No processo para a sinalização de uma substituição de ruído durante a codificação de um sinal de áudio de acordo com a presente invenção, no qual para uma banda de factor de escala susceptível de ruído não é necessário um factor de escala, mas sim em vez disso é aplicada a medida para a energia dos valores espectrais substituídos, são aplicadas as mesmas leis de codificação para a medida da energia dos valores espectrais substituídos tal como eles seriam utilizados no factor de escala. Isto representa uma utilização vantajosa dos recursos já existentes no codificador AAC e não necessita de qualquer género de informações laterais adicionais.
Uma utilização vantajosa adicional da sinalização da substituição de ruído é dada pelos sinais de áudio em estereofonia. 0 ouvido humano é susceptível de percepcionar, 12
até uma certa medida, uma correlação entre os sinais ou canais (L e R) de um par de canais estéreo, o qual no AAC é designado como "Charmel Pair". Por isso devia, em caso de uma substituição de ruído, a correlação dos sinais de ruído entre os dois substituídos dos pares de canais ser semelhante ao sinal original. As bandas de factor de escala no canal esquerdo e direito que possuem a mesma frequência central podem ser substituídas no ruído, quando é reconhecida uma susceptibilidade de ruído. Se for efectuada uma substituição de ruído dos dois canais e se não existirem outras exigências, os valores espectrais de ruído produzidos casualmente no codificador, embora tenham a mesma energia total que no sinal de áudio inicial, encontram-se todavia devido à produção casual, totalmente não correlacionados. Isto pode conduzir, sob condições específicas a erros audíveis. Para evitar isto, é possível utilizar para os dois canais os mesmos valores espectrais de ruído de uma banda de factor de escala produzidos, o que corresponde a uma correlação completa das bandas de factor de escala susceptíveis de ruído do canal esquerdo e direito.
Neste caso, procede-se do seguinte modo, de acordo com um exemplo de realização preferido da presente invenção: para cada par de canal existe na norma AAC uma denominada mascara Central/Lateral (mascara C/L), a qual na norma em si é denominada "ms_used" (= utilizada em C/L). Esta mascara C/L é um vector de bits, o qual apresenta em modo banda, se foi utilizada entre os dois canais uma codificação estéreo C/L a qual é conhecida pelos técnicos e que se encontra descrita introdutoriamente em "Sum-Difference Stereo Transform Coding" de J.D. Johnston, A.J. Ferreira, IEEE ICASSP 1992, pág. 569-571, e também na norma MPEG-AAC. A mascara C/L é constituída por um número de bits, em que cada bit se encontra atribuído a uma banda de factor de escala. Se for utilizada numa banda de factor de escala uma codificação C/L, é aplicado um bit de sinalização na mascara C/L nas informações laterais, que a codificação C/L participa ao codificador. Se todavia for 13
reconhecida uma banda de factor de escala susceptivel de ruido tanto no canal esquerdo como no canal direito para a mesma frequência central das bandas de factor de escala (para L e para R) , não tem assim lugar naturalmente qualquer codificação Central/Lateral. 0 bit C/L para esta banda de factor de escala encontra-se disponível igualmente tal como o número da tabela de codificação e factor de escala na corrente de bits de acordo com a sintaxe da corrente de bits disponível, para sinalizar outra coisa qualquer. Neste caso, pode ser utilizado o bit da mascara C/L para a banda de factor de escala passível de ruído dos dois canais, para mostrar se devem ser produzidos valores espectrais de ruído ou vectores de ruído independentes para o canal esquerdo e direito, ou que iria corresponder ao caso normal, o se deve ser utilizado o mesmo vector de ruído tanto para o canal esquerdo como direito na banda de factor de escala susceptivel de ruído.
Tal como é conhecido pelos técnicos, os factores de escala nas bandas de factor de escala não susceptíveis de ruído, podem ser codificados por meio de uma codificação da diferença. Para um factor de escala correspondente numa banda de factor de escala seguinte não tem que ser novamente codificado todo o valor de factor de escala, mas sim simplesmente a diferença dos mesmos, dos anteriores. Isto é designado como codificação da diferença. Esta codificação da diferença é utilizada no exemplo de realização preferido da presente invenção igualmente para codificação da medida para a energia dos troços espectrais numa banda de factor de escala susceptivel de ruído. Deste modo não tem que ser codificada novamente toda a medida da energia para uma banda de factor de escala seguinte mas sim simplesmente a diferença da actual com a anterior, o que por sua vez conduz a uma economia de bits. Naturalmente que tem que estar sempre presente um primeiro valor inicial, o qual todavia também pode ser um valor fixo, antecipadamente definido. Este processo da codificação da diferença é especialmente 14 em vantajoso quando bandas de factor de escala continuas, quadros, são susceptiveis de ruído.
Lisboa, 28 de Julho de 2000
15

Claims (13)

  1. reivindicações 1. Processo para a sinalização de uma substituição de ruído na codificação de um sinal de áudio, com os seguintes passos: Transformar um sinal de áudio temporal na gama de frequências, para obter valores espectrais; Agrupar valores espectrais em grupos de valores espectrais; Definir se um grupo de valores espectrais é um grupo passível de ruído; caso um grupo não seja passível de ruído, atribuir uma tabela de codificação, de várias tabelas de codificação para a codificação redundante dos grupos não passíveis de ruído, em que por meio de um número da tabela de codificação é indicado a tabela de codificação atribuída ao grupo; e caso um grupo seja passível de ruído, atribuir um número adicional de tabela de codificação, que não indica uma tabela de codificação, para este grupo, para sinalizar que este grupo é passível de ruído e por isso não codificado para a redundância.
  2. 2. Processo de acordo com a reivindicação 1, no qual os grupos de valores espectrais são troços, em que são cedidos um número da tabela de codificação para troços não passíveis de ruído e um número adicional dé tabela de codificação para troços passíveis de ruído.
  3. 3. Processo de acordo com a reivindicação 2, 1 no qual um troço apresenta uma ou várias bandas de factor de escala, em que a cada banda de factor de escala se encontra atribuído um factor de escala; e no qual em caso de uma banda de factor de escala passível de ruído se encontra codificada uma medida para a energia dos valores espectrais na banda de factor de escala em vez de um factor de escala.
  4. 4. Processo de acordo com a reivindicação 3, no qual a medida para a energia dos valores espectrais num grupo passível de ruído, a energia central normalizada para um valor de referência é a mesma numa banda de factor de escala.
  5. 5. Processo de acordo com a reivindicação 3, no qual a medida para a energia é a energia total dos valores espectrais na banda de factor de escala passível de ruído.
  6. 6. Processo de acordo com a reivindicação 3 ou 4, no qual para a codificação da medida para a energia dos valores espectrais passíveis de ruído na banda de factor de escala é utilizada a mesma escala, a qual é utilizada normalmente para a codificação de um factor de escala de uma banda de factor de escala, que não é nenhuma banda de factor de escala passível de ruído.
  7. 7. Processo de acordo com qualquer das reivindicações 3 a 6, no qual a codificação da medida para a energia dos valores espectrais em bandas de factor de escala passíveis de ruído é uma codificação da diferença.
  8. Processo de acordo com qualquer das reivindicações 1 a 7, no qual o sinal de áudio é um sinal estéreo, 8.
    no qual pode ser apresentada em grupo, uma codificação Central/Lateral dos dois canais do sinal estéreo através da mascara Central/Lateral, e no qual em caso de grupos passíveis de ruído com frequências correspondentes, podem ser apresentados os dois canais através da mascara Central/Lateral, se é de se utilizar os valores espectrais de ruído diferentes ou iguais para os dois canais durante a descodificação de um sinal de áudio codificado.
  9. 9. Processo de acordo com qualquer das reivindicações anteriores, no qual a apreciação se um grupo de valores espectrais é um grupo passível de ruído, é executada por meio do sinal de áudio temporal ou tanto por meio do sinal de áudio temporal como também dos valores espectrais do sinal de áudio temporal.
  10. 10. Processo para a codificação de um sinal de áudio com os seguintes passos: Sinalizar uma substituição de ruído de acordo com qualquer das reivindicações 1 a 9; Calcular uma medida para a energia de um grupo passível de ruído; Inserir a medida para a energia nas informações laterais atribuídas ao grupo; Inserir o número da tabela de codificação adicional na informação lateral atribuída ao grupo; Quantificar os grupos não passíveis de ruído e codificar os grupos não passíveis de ruído quantificados sob utilização da tabela de codificação, a qual é considerada (?) pelo número da tabela de codificação, enquanto que 3
    para grupos passíveis de ruído não tem lugar qualquer quantificação ou codificação; e Formar uma corrente de bits, dos grupos quantificados e não passíveis de ruído assim como, para grupos passíveis de ruído, uma medida para a energia dos valores espectrais dos grupos passíveis de ruído, apresentando o número da tabela de codificação adicional para a sinalização dos grupos passíveis de ruído.
  11. 11. Processo para a descodificação de um sinal de áudio codificado com os seguintes passos: Recepção de uma corrente de bits; Descodificação redundante de grupos não passíveis de ruído devido a uma tabela de codificação indicada por um número de tabela de codificação e requantificação de valores espectrais descodificados em redundância e quantificados; Apreciação de um grupo de valores espectrais passível de ruído devido a um número de tabela de codificação adicional, que se encontra atribuído a este grupo; Apreciação de uma medida para a energia dos valores espectrais no grupo passível de ruído devido às informações laterais atribuídas pelo grupo; Produção de valores espectrais de ruído para o grupo passível de ruído, em que a medida da energia dos valores espectrais de ruído no grupo passível de ruído é igual à medida para a energia de valores espectrais dos grupos passíveis de ruído no sinal inicial; 4 Transformação dos valores espectrais requantifiçados e dos valores espectrais de ruído no domínio temporal, para receber um sinal de áudio descodificado.
  12. 12. Processo de acordo com a reivindicação 11, no qual a produção dos valores espectrais de ruído tem lugar através da produção de números aleatórios ou através da recepção dos mesmos de uma tabela, em que a energia adicionada dos valores espectrais de ruído corresponde ao grupo passível de ruido do sinal de áudio inicial.
  13. 13. Processo de acordo com as reivindicações 11 ou 12, que adicionalmente apresenta os seguintes passos: Apreciação de uma mascara Central/Lateral para sinais de áudio estereofonia; devido à mascara Central/Lateral para sinais de áudio estereofonia, valores espectrais de ruído idênticos utilizam para grupos passíveis de ruído dos dois canais correspondentes, ou produzem dois grupos independentes de valores espectrais de ruído para os dois canais.
    Lisboa, 28 de uulho de 2000 íp»CENTE OFICIAI. DA PROPRIEDADE INTOTISTRÍAL. 5
PT98916947T 1997-07-14 1998-03-13 Processo para a sinalizacao de uma substituicao de ruido durante a codificacao de um sinal de audio PT931386E (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19730129A DE19730129C2 (de) 1997-07-14 1997-07-14 Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals

Publications (1)

Publication Number Publication Date
PT931386E true PT931386E (pt) 2000-10-31

Family

ID=7835662

Family Applications (1)

Application Number Title Priority Date Filing Date
PT98916947T PT931386E (pt) 1997-07-14 1998-03-13 Processo para a sinalizacao de uma substituicao de ruido durante a codificacao de um sinal de audio

Country Status (13)

Country Link
US (1) US6766293B1 (pt)
EP (1) EP0931386B1 (pt)
JP (2) JP3926399B2 (pt)
KR (1) KR100304055B1 (pt)
AT (1) ATE194440T1 (pt)
AU (1) AU716982B2 (pt)
CA (1) CA2284220C (pt)
DE (2) DE19730129C2 (pt)
DK (1) DK0931386T3 (pt)
ES (1) ES2150313T3 (pt)
GR (1) GR3033861T3 (pt)
PT (1) PT931386E (pt)
WO (1) WO1999004505A1 (pt)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
BR0206611A (pt) * 2001-11-23 2004-02-17 Koninkl Philips Electronics Nv Método usando fontes de ruìdo sintéticas em um sistema de codificação de áudio de multi-canais para codificar um conjunto de sinais de áudio, codificador, para codificar canais de áudio codificados, decodificador para receber canais de áudio codificados e transformados, e, portador de dados
PT1423847E (pt) * 2001-11-29 2005-05-31 Coding Tech Ab Reconstrucao de componentes de frequencia elevada
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
JP3900000B2 (ja) * 2002-05-07 2007-03-28 ソニー株式会社 符号化方法及び装置、復号方法及び装置、並びにプログラム
JP4296752B2 (ja) * 2002-05-07 2009-07-15 ソニー株式会社 符号化方法及び装置、復号方法及び装置、並びにプログラム
US7016547B1 (en) * 2002-06-28 2006-03-21 Microsoft Corporation Adaptive entropy encoding/decoding for screen capture content
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
DE60330198D1 (de) 2002-09-04 2009-12-31 Microsoft Corp Entropische Kodierung mittels Anpassung des Kodierungsmodus zwischen Niveau- und Lauflängenniveau-Modus
US7433824B2 (en) 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
WO2004107318A1 (en) 2003-05-27 2004-12-09 Koninklijke Philips Electronics N.V. Audio coding
US7782954B2 (en) * 2003-09-07 2010-08-24 Microsoft Corporation Scan patterns for progressive video content
US7724827B2 (en) 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
US7688894B2 (en) * 2003-09-07 2010-03-30 Microsoft Corporation Scan patterns for interlaced video content
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
KR100707173B1 (ko) * 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치
CN101116135B (zh) * 2005-02-10 2012-11-14 皇家飞利浦电子股份有限公司 声音合成
US7693709B2 (en) 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
US7684981B2 (en) 2005-07-15 2010-03-23 Microsoft Corporation Prediction of spectral coefficients in waveform coding and decoding
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7599840B2 (en) 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US8599925B2 (en) 2005-08-12 2013-12-03 Microsoft Corporation Efficient coding and decoding of transform blocks
US7933337B2 (en) 2005-08-12 2011-04-26 Microsoft Corporation Prediction of transform coefficients for image compression
US7565018B2 (en) 2005-08-12 2009-07-21 Microsoft Corporation Adaptive coding and decoding of wide-range coefficients
US7953604B2 (en) 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
DE602006002381D1 (de) * 2006-04-24 2008-10-02 Nero Ag Erweiterte vorrichtung zur kodierung digitaler audiodaten
US8184710B2 (en) 2007-02-21 2012-05-22 Microsoft Corporation Adaptive truncation of transform coefficient data in a transform-based digital media codec
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7774205B2 (en) 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
JP5485909B2 (ja) * 2007-12-31 2014-05-07 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
KR101756834B1 (ko) * 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
KR101259120B1 (ko) * 2008-11-04 2013-04-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
CN111125423A (zh) * 2019-11-29 2020-05-08 维沃移动通信有限公司 一种去噪方法及移动终端

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
DE9006717U1 (de) * 1990-06-15 1991-10-10 Philips Patentverwaltung GmbH, 22335 Hamburg Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen
US5703999A (en) * 1992-05-25 1997-12-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
TW295747B (pt) * 1994-06-13 1997-01-11 Sony Co Ltd
JP3371590B2 (ja) * 1994-12-28 2003-01-27 ソニー株式会社 高能率符号化方法及び高能率復号化方法
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
DE19538852A1 (de) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Verfahren und Anordnung zur Klassifizierung von Sprachsignalen

Also Published As

Publication number Publication date
KR100304055B1 (ko) 2001-11-03
AU7035298A (en) 1999-02-10
US6766293B1 (en) 2004-07-20
EP0931386A1 (de) 1999-07-28
JP3926399B2 (ja) 2007-06-06
ES2150313T3 (es) 2000-11-16
CA2284220A1 (en) 1999-01-28
JP2000515266A (ja) 2000-11-14
GR3033861T3 (en) 2000-10-31
ATE194440T1 (de) 2000-07-15
DE59800189D1 (de) 2000-08-10
DK0931386T3 (da) 2000-11-20
DE19730129A1 (de) 1999-01-21
KR20000070280A (ko) 2000-11-25
WO1999004505A1 (de) 1999-01-28
JP3878952B2 (ja) 2007-02-07
JP2005049889A (ja) 2005-02-24
EP0931386B1 (de) 2000-07-05
DE19730129C2 (de) 2002-03-07
AU716982B2 (en) 2000-03-16
CA2284220C (en) 2002-09-24

Similar Documents

Publication Publication Date Title
PT931386E (pt) Processo para a sinalizacao de uma substituicao de ruido durante a codificacao de um sinal de audio
JP3577324B2 (ja) オーディオ信号の符号化方法
EP1479071B1 (en) Parametric audio coding
CN111656442B (zh) 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法
US7627480B2 (en) Support of a multichannel audio extension
RU2197776C2 (ru) Способ и устройство масштабируемого кодирования-декодирования стереофонического звукового сигнала (варианты)
RU2325046C2 (ru) Аудиокодирование
KR100458969B1 (ko) 신호부호화또는복호화장치,및신호부호화또는복호화방법
PT910928E (pt) Codificacao e descodificacao de sinais de audio utilizando intensidade de estereofonia e previsao
JP7035154B2 (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
JPH06149292A (ja) 高能率符号化方法及び装置
BR112015010023B1 (pt) Codificador de áudio e método para codificar um sinal de áudio
CN1240048C (zh) 音频编码
US7835915B2 (en) Scalable stereo audio coding/decoding method and apparatus
US7583804B2 (en) Music information encoding/decoding device and method
Herre et al. Analysis of Decompressed Audio-The-Inverse Decoder
JPH09101799A (ja) 信号符号化方法及び装置
JPH07168593A (ja) 信号符号化方法及び装置、信号復号化方法及び装置、並びに信号記録媒体
Oomen et al. Advances in parametric coding for high-quality audio
JPH07336231A (ja) 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
Dimkovic Improved ISO AAC Coder
Absar et al. AC-3 Encoder Implementation on the D950 DSP-Core
KR100340368B1 (ko) 고능률부호화장치,복호화장치및디지털데이터도출방법
KR20070011100A (ko) 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및그 보정을 위한 부호화된 오디오 신호 생성방법
Bosi et al. Dolby AC-3