BRPI0923669A2

BRPI0923669A2 - mÉtodo, aparelho e programa de computador para aperfeiÇoar audibilidade de fala em um sinal de Áudio de méltiplos canais

Info

Publication number: BRPI0923669A2
Application number: BRPI0923669-4A
Authority: BR
Inventors: Hannes Muesch
Original assignee: Dolby Lab Licensing Corp
Priority date: 2008-04-18
Filing date: 2009-04-17
Publication date: 2013-07-30
Also published as: AU2009274456A1; UA101974C2; EP2279509B1; JP2011172235A; RU2010146924A; IL208436A0; EP2373067B1; WO2010011377A3; EP2373067A1; KR101227876B1; CN102007535B; UA104424C2; RU2010150367A; CN102137326A; CN102137326B; CN102007535A; CA2720636A1; KR101238731B1; CA2720636C; JP2011518520A

Abstract

Patente de Invenção: "MÉTODO, APARELHO E PROGRAMA DE COMPUTADOR PARA APERFEIÇOAR AUDIOBILIDADE DE FALA EM UM SINAL DE ÁUDIO DE MéLTIPLOS CANAIS". A presente invenção refere-se a um método de aperfeiçoar audiobilidade de fala em um sinal de áudio de múltiplos canais. O método inclui comparar uma primeira característica e uma segunda característica do sinal de áudio de múltiplos canais para gerar um fator de atenuação. A primeira característica corresponde aum primeiro canal do sinal de áudio de múltiplos canais que contêm áudio de fala e de não fala, e a segunda característica corresponde a um segundo canal de sinal de áudio de múltiplos canais que contém predominantemente áudio de não fala. O método inclui ainda ajustar o fator de atenuação de acordo com um valor de verossimilhança de fala para gerar um fator de atenuação ajustado. O método inclui ainda atenuar o segundo canal usando ofator de atenuação ajustado.

Description

Relatorio Descritivo da Patente de Invengao para "METODO, APARELHO E PROGRAMA DE COMPUTADOR PARA APERFEigOAR AUD旧IIJDADE DE FALA EM UM SINAL DE AUDIO DE MIILTIPLOS CA- NAIS".

Dividido do Pl depositado em 17.04.2009, relativo a entrada na

fase nacional do PCT/US2009/040900 realizada em 25.10.2010 atraves da petigao 020100099638. Referencia Cruzada a Pedidos Relacionados

Este pedido reivindica ο beneficio de prioridade do Pedido de Paterite Provisorio Estados Unidos No. 61/046.271, depositado em 18 de abril de 2008’ incorporado na sua totalidade neste pedido pela referencia. Antecedentes

A presente invengao refere-se a processamento de sinal de au- dio em geral e a aperfeigoar clareza de dialogo e narrativa em audio de en- tretenimento envolvente em particular.

A nao ser que indicado de outro modo neste documento, as a- bordagens descritas nesta segao nao sao de tecnica anterior para as reivin- dicagdes neste pedido e nao sao admitidas para serem de tecnica anterior por inclusao nesta segao. Audio de entretenimento moderno com mCiltiplos canais simulta-

neos de audio (som envolvente) fornece audiencias com ambientes de som realisticos e imersivos de imenso valor de entretenimento. Em tais ambien- tes muitos elementos de som tais como dialogo, mCisica e efeitos sao apre- sentados simultaneamente e competem pela atengao do ouvinte. Para al- gumas pessoas da audiencia - especialmente aquelas com capacidades sensorials auditivas reduzidas ou processamento cognitivo reduzido - dialo- go e narrativa podem ser dificeis de entender durante partes do programa onde elementos de som concorrendo estrondosamente estao presentes. Du- rante essas passagens estes ouvintes seriam beneficiados se ο nivel dos sons concorrentes fosse abaixado.

O reconhecimento de que miisica e efeitos podem sobrepujar dialogo nao e novo e diversos metodos para solucionar a situagao tern sido sugeridos. Entretanto, tal como sera delineado a seguir, os metodos sugeri- dos sao incompativeis com a pratica de difusao corrente, ou aplicam um - pre?o desnecessariamente alto no experimento de entretenimento total, ou ambos.

E uma convengao comumente adotada na produgao de audio

envolvente para filme e televisao colocar a maior parte de dialogo e narrativa somente em um canal (o canal central, tambem referido como ο canal de fala). Miisica, sons ambientes e efeitos sonoros sao tipicamente mixados tanto no canal de fala quanto em todos os canais restantes (por exemplo, -10 Left [L], Right [R], Envolvente Esquerdo [Is] e Envolvente Direito [rs], tambem referidos como os canais de naofala). Como resultado, ο canal de fala car- rega a maioria da fala e uma quantidade significativa do audio de nao-fala contido no programa de audio, enquanto que os canais de nao fala carregam predominantemente audio de nao fala, mas tambem podem carregar uma pequena quantidade de fala. Uma abordagem simples para ajudar na per- cepgao de dialogo e narrativa nestas mixagens convencionais e reduzir per- manentemente ο nivel de todos os canais de nao fala em relagao ao nivel do canal de fala, por exemplo, por 6 dB. Esta abordagem e simples e efetiva e e praticada atualmente (por exemplo, Clareza de Dialogo SRS [Sistema de Recuperagao de Som] ou equagdes de submixagens modificadas em deco- dificadores envolventes). Entretanto, ela sofre de pelo menos uma desvan- tagem: a atenuagao constante dos canais de nao fala pode diminuir ο nivel de sons ambientes tranquilos que nao interferem com recepgao de fala para ο ponto onde eles nao podem mais ser ouvidos. Ao atenuar sons ambientes nao interferindo ο balango estetico do programa e alterado sem qualquer beneficio concomitante para entendimento de fala.

Uma solugao alternativa esta descrita em uma serie de patentee (Patente U.S. No. 7.266.501, Patente U.S. No. 6.772.127, Patente U.S. No 6.912.501 e Patente U.S. No. 6.650.755) para Vaudrey e Saunders. Tal co- mo entendido, sua abordagem envolve modificar a produgao e distribuigao de conteiido. De acordo com esse arranjo, ο consumidor recebe dois sinais

de audio separados. O primeiro destes sinais compreende ο audio de "Con- teiido Primario". Em muitos casos este sinal sera dominado por fala, mas, se ο produtor de conteiido desejar, podera confer outros tipos de sinal igual- mente. O segundo sinal compreende ο audio de "Conteiido Secundario", ο qual e composto de todos os elementos de sons restantes. Ao usuario e da- do controle sobre os niveis relativos destes dois sinais, ao ajustar manual- mente ο nivel de cada sinal ou ao manter automaticamente uma relagao de potencia selecionada pelo usuario. Embora este arranjo possa Iimitar a ate- nuagao desnecessaria de sons ambientes nao interferindo, sua implementa- gao mais difundida e obstruida por sua incompatibilidade com metodos de produgao e distribuigao estabelecidos.

Um outro exemplo de um metodo para gerenciar os niveis relati- vos de audio de fala e nao fala foi proposto por Bennett na Publicagao de Pedido U.S. No. 20070027682.

Todos os exemplos da tecnica anterior compartilham a Iimitagao de nao fornecer quaisquer meios para minimizar ο efeito que ο aperfei^oa- mento de dialogo tern sobre a experiencia de ouvir pretendida pelo criador de conteiido, entre outras deficiencias. Portanto, e ο objetivo da presente invengao fornecer um meio de Iimitar ο nivel de canais de audio de nao fala em um programa de entretenimento de mCiltiplos canais mixados convencio- nalmente de maneira que fala permanece compreensivel enquanto manten- do tambem a audibilidade dos componentes de audio de nao fala.

Assim, existe uma necessidade de modos aperfeigoados de manter audibilidade de fala. A presente invengao resolve estes e outros pro- blemas ao fornecer um aparelho e metodo de aperfei^oar audibilidade de fala em um sinal de audio de mCiltiplos canais. Sumario

Modalidades da presente invengao aperfeigoam audibilidade de fala. Em uma modalidade a presente invengao inclui um metodo de aperfei- goar audibilidade de fala em um sinal de audio de mCiltiplos canais. O meto- do inclui comparar uma primeira caracteristica e uma segunda caracteristica do sinal de audio de mCiltiplos canais para gerar um fator de atenuagao. A

primeira caracteristica corresponde a um primeiro canal do sinal de audio de múltiplos canais que contém áudio de fala e não fala, e a segunda caracte- rística corresponde a um segundo canal do sinal de áudio de múltiplos ca- nais que contém predominantemente áudio de não fala. O método inclui ain- da ajustar o fator de atenuação de acordo com um valor de verossimilhança de fala para gerar um fator de atenuação ajustado. O método inclui ainda atenuar o segundo canal usando o fator de atenuação ajustado.

Um primeiro aspecto da invenção é baseado na observação de que o canal de fala de um programa de entretenimento típico carrega um sinal de não fala por uma parte substancial da duração de programa. Con- sequentemente de acordo com este primeiro aspecto da invenção, masca- ramento de áudio de fala por áudio de não fala pode ser controlado por meio de (a) determinar a atenuação de um sinal em um canal de não fala neces- sária para limitar a razão da potência de sinal no canal de não fala para a potência de sinal no canal de fala para não exceder um limiar predetermina- do e (b) escalar a atenuação por um fator que seja relacionado de forma uni- forme com a probabilidade do sinal no canal de fala ser fala, e (c) aplicar a atenuação escalada.

Um segundo aspecto da invenção é baseado na observação de que a razão entre a potência do sinal de fala e a potência do sinal de masca- ramento é um preditor inferior de inteligibilidade de fala. Consequentemente, de acordo com este segundo aspecto da invenção, a atenuação do sinal no canal de não fala que é necessária para manter um nível predeterminado de inteligibilidade é calculada ao predizer a inteligibilidade do sinal de fala na presença dos sinais de não fala com um modelo de predição de inteligibili- dade baseado em psicoacústica.

Um terceiro aspecto da invenção é baseado nas observações de que, se atenuação for permitida para variar através da freqüência, (a) um dado nível de inteligibilidade pode ser alcançado com uma variedade de pa- drões de atenuação, e (b) diferentes padrões de atenuação podem produzir diferentes níveis de sonoridade ou ênfase do áudio de não fala. Consequen- temente de acordo com este terceiro aspecto da invenção, mascaramento de áudio de fala por áudio de não fala é controlado ao descobrir o padrão de atenuação que maximiza sonoridade ou alguma outra medida de ênfase do áudio de não fala sob a restrição de que um nível predeterminado de inteligi- bilidade de fala predita é alcançado.

As modalidades da presente invenção podem ser executadas como um método ou processo. Os métodos podem ser implementados por meio de conjunto de circuitos eletrônicos, tais como hardware ou software ou uma combinação dos mesmos. O conjunto de circuitos usado para imple- mentar o processo pode ser um conjunto de circuitos dedicado (que executa somente uma tarefa específica) ou conjunto de circuitos geral (que é pro- gramado para executar uma ou mais tarefas específicas).

A descrição detalhada a seguir e os desenhos anexos fornecem um melhor entendimento da natureza e vantagens da presente invenção. Breve descrição dos Desenhos

A figura 1 ilustra um processador de sinal de acordo com uma modalidade da presente invenção.

A figura 2 ilustra um processador de sinal de acordo com uma outra modalidade da presente invenção.

A figura 3 ilustra um processador de sinal de acordo com uma outra modalidade da presente invenção. As figuras 4A-4B são diagramas de blocos ilustrando variações

adicionais das modalidades das figuras 1-3. Descrição Detalhada

São descritas neste documento técnicas para manter audibilida- de de fala. Na descrição a seguir, para propósitos de explicação, inúmeros exemplos e detalhes específicos estão expostos a fim de fornecer um com- pleto entendimento da presente invenção. Estará evidente, entretanto, para os versados na técnica que a presente invenção tal como definida pelas rei- vindicações pode incluir alguns ou todos os recursos nestes exemplos sozi- nhos ou em combinação com outros recursos descritos a seguir, e pode in- cluir ainda modificações e equivalências dos recursos e conceitos descritos neste documento.

Vários métodos e processos são descritos a seguir. Que eles são descritos em uma certa ordem é principalmente para facilidade de apre- sentação. É para ser entendido que etapas particulares podem ser executa- das em outras ordens ou em paralelo tal como desejado de acordo com vá- rias implementações. Quando uma etapa particular deve preceder ou seguir uma outra, isto será salientado especificamente quando não evidente a partir do contexto.

O princípio do primeiro aspecto da invenção está ilustrado na fi- gura 1. Referindo-se agora à figura 1, um sinal de múltiplos canais consistin- do em um canal de fala (101) e dois canais de não fala (102 e 103) é recebi- ~ 10 do. A potência dos sinais em cada um destes canais é medida com um ban- co de estimadores de potência (104, 105 e 106) e expressada em uma esca- la logarítmica [dB]. Estes estimadores de potência podem conter um meca- nismo de uniformização, tal como um integrador com fuga, de maneira que o nível de potência medido reflete o nível de potência determinado pela média sobre a duração de uma sentença ou uma passagem total. O nível de potên- cia do sinal no canal de fala é subtraído do nível de potência em cada um dos canais de não fala (pelos somadores 107 e 108) para dar uma medida da diferença de nível de potência entre os dois tipos de sinais. O circuito de comparação 109 determina para cada canal de não fala o número de dB pe- Io qual o canal de não fala deve ser atenuado a fim de seu nível de potência permanecer pelo menos ν dB abaixo do nível de potência do sinal no canal de fala (o símbolo "v" indica uma variável e também pode ser referido como a letra grega teta (Θ) manuscrita). De acordo com uma modalidade, uma im- plementação disto é adicionar o valor limiar ν (armazenado pelo circuito 110) à diferença de nível de potência (este resultado intermediário é referido co- mo a margem) e limitar o resultado para ser igual ou menor que zero (pelos limitadores 111 e 112). O resultado é o ganho (ou atenuação negada) em dB que deve ser aplicado aos canais de não fala para manter seu nível de po- tência ν dB abaixo do nível de potência do canal de fala. Um valor adequado para ν é 15 dB. O valor de ν pode ser ajustado tal como desejado em outras modalidades.

Por causa de existir uma relação exclusiva entre uma medida expressada em uma escala logarítmica (dB) e essa mesma medida expres- sada em uma escala linear, um circuito que é equivalente à figura 1 pode ser construído onde potência, ganho e limiar são todos expressados em uma escala linear. Nessa implementação todas as diferenças de nível são substi- tuídas por razões das medidas lineares. Implementações alternativas podem substituir a medida de potência por medidas que estejam relacionadas com intensidade de sinal, tal como o valor absoluto do sinal.

Um recurso digno de nota do primeiro aspecto da invenção é es- calar o ganho assim derivado por um valor de forma uniforme relacionado com a probabilidade de o sinal no canal de fala ser fala de fato. Referindo-se ainda à figura 1, um sinal de controle (113) é recebido e multiplicado pelos ganhos (pelos multiplicadores 114 e 115). Os ganhos escalados são então aplicados aos canais de não fala correspondentes (pelos amplificadores 116 e 117) para produzir os sinais modificados L' e R' (118 e 119). O sinal de controle (113) tipicamente será uma medida derivada automaticamente da probabilidade de o sinal no canal de fala ser fala. Vários métodos de deter- minar automaticamente a probabilidade de um sinal ser um sinal de fala po- dem ser usados. De acordo com uma modalidade, um processador de pro- babilidade de fala 130 gera o valor de verossimilhança de fala ρ (113) a par- tir da informação no canal C 101. Um exemplo de um mecanismo como este está descrito por Robinson e Vinton em "Automated Speech/Other Discrimi- nation for Loudness Monitoring" (Audio Engineering Society1 número pré- impresso 6437 da Convenção 118 de maio de 2005). Alternativamente, o sinal de controle (113) pode ser criado manualmente, por exemplo, pelo cri- ador de conteúdo e transmitido ao lado do sinal de áudio para o usuário final.

Os versados na técnica reconhecerão facilmente como o arranjo pode ser estendido para qualquer número de canais de entrada.

O princípio do segundo aspecto da invenção está ilustrado na fi- gura 2. Referindo-se agora à figura 2, um sinal de múltiplos canais consistin- do em um canal de fala (101) e dois canais de não fala (102 e 103) é recebi- do. A potência dos sinais em cada um destes canais é medida com um ban- co de estimadores de potência (201, 202 e 203). Ao contrário de suas con- trapartes na figura 1, estes estimadores de potência mediram a distribuição da potência de sinal através da freqüência, resultando em um espectro de potência em vez de um único número. A resolução espectral do espectro de potência idealmente casa com a resolução espectral do modelo de predição de inteligibilidade (205 e 206, ainda não discutido).

Os espectros de potência são alimentados para o circuito de comparação 204. O propósito deste bloco é determinar a atenuação a ser aplicada a cada canal de não fala para assegurar que o sinal no canal de não fala não reduz a inteligibilidade do sinal no canal de fala para ser menos que um critério predeterminado. Esta funcionalidade é alcançada ao empre- gar um circuito de predição de inteligibilidade (205 e 206) que prediz inteligi- bilidade de fala a partir dos espectros de potência do sinal de fala (201) e dos sinais de não fala (202 e 203). Os circuitos de predição de inteligibilida- de 205 e 206 podem implementar um modelo de predição de inteligibilidade adequado de acordo com opções de projeto e trocas compensatórias. E- xemplos são o índice de Inteligibilidade de Fala tal como especificado na ANSI S3.5-1997 ("Methods for Calculation of the Speech Index") e o modelo de Sensibilidade de Reconhecimento de Fala de Muesch e Buus ("Using sta- tistical decision theory to predict speech intelligibility. I. Model structure" Jor- nal da Acoustical Society of America, 2001, Vol 109, ρ 2896-2909). É claro que a saída do modelo de predição de inteligibilidade não tem significado quando o sinal no canal de fala é alguma coisa a não ser fala. Apesar disto, no que se segue a saída do modelo de predição de inteligibilidade será refe- rida como a inteligibilidade de fala predita. O erro percebido será considera- do no processamento subsequente ao escalar a saída de valores de ganho do circuito de comparação 204 com um parâmetro que está relacionado com a probabilidade do sinal ser fala (113, ainda não discutido).

Os modelos de predição de inteligibilidade têm em comum que eles predizem inteligibilidade de fala aumentada ou inalterada como o resul- tado de abaixamento do nível do sinal de não fala. Continuando no fluxo de processo da figura 2, os circuitos de comparação 207 e 208 comparam a inteligibilidade predita com um valor de critério. Se o nível do sinal de não fala for baixo de maneira que a inteligibilidade predita excede o critério, o parâmetro de ganho, o qual é inicializado para 0 dB, é recuperado do circuito 209 ou 210 e fornecido para os circuitos 211 e 212 como a saída do circuito de comparação 204. Se o critério não for satisfeito, o parâmetro de ganho é diminuído por uma quantidade fixada e a predição de inteligibilidade é repe- tida. Um tamanho de incremento adequado para diminuir o ganho é 1 dB. A iteração tal como descrita exatamente continua até que a inteligibilidade pre- dita satisfaça ou exceda o valor de critério. Certamente é possível que o si- nal no canal de fala seja de tal maneira que a inteligibilidade de critério não possa ser alcançada mesmo na falta de um sinal no canal de não fala. Um exemplo de uma situação como esta é um sinal de fala de nível muito inferior ou com largura de banda seriamente restringida. Se isso acontecer será al- cançado um ponto onde qualquer redução adicional do ganho aplicado ao canal de não fala não afetará a inteligibilidade de fala predita e o critério nunca será satisfeito. Em uma condição como esta, o laço formado por (205, 206), (207, 208) e (209, 210) continua indefinidamente, e lógica adicional (não mostrada) pode ser aplicada para romper o laço. Um exemplo particu- larmente simples de tal lógica é contar o número de iterações e sair do laço uma vez que um número predeterminado de iterações tenha sido excedido. Continuando no fluxo de processo da figura 2, um sinal de con-

trole ρ (113) é recebido e multiplicado pelos ganhos (pelos multiplicadores 114 e 115). O sinal de controle (113) tipicamente será uma medida derivada automaticamente da probabilidade de o sinal no canal de fala ser fala. Méto- dos de determinar automaticamente a probabilidade de um sinal ser um sinal de fala são conhecidos por si e foram discutidos no contexto da figura 1 (vide o processador de probabilidade de fala 130). Os ganhos escalados são en- tão aplicados aos seus canais de não fala correspondentes (pelos amplifica- dores 116 e 117) para produzir os sinais modificados R' e L' (118 e 119).

O princípio do terceiro aspecto da invenção está ilustrado na fi- gura 3. Referindo-se agora à figura 3, um sinal de múltiplos canais consistin- do em um canal de fala (101) e dois canais de não fala (102 e 103) é recebi- do. Cada um dos três sinais é dividido nos seus componentes espectrais (pelos bancos de filtros 301, 302 e 303). A análise espectral pode ser alcan- çada com um banco de filtros de N canais de domínio de tempo. De acordo com uma modalidade, o banco de filtros divide a faixa de freqüências em bandas de 1/3 de oitava ou se parece com a filtragem suposta para ocorrer no ouvido interno humano. O fato de que o sinal agora consiste em N subsi- nais está ilustrado pelo uso de linhas em negrito. O processo da figura 3 po- de ser reconhecido como um processo de linha secundária lateral. Seguindo o caminho de sinal, cada um dos N subsinais que formam os canais de não fala é escalado por um elemento de um conjunto de N valores de ganho (pe- - 10 Ios amplificadores 116 e 117). A derivação destes valores de ganho será descrita mais tarde. A seguir, os subsinais escalados são recombinados em um único sinal de áudio. Isto pode ser feito por meio de soma simples (pelos circuitos de soma 313 e 314). Alternativamente, um banco de filtros de sínte- se que é casado com o banco de filtros de análise pode ser usado. Este pro- cesso resulta nos sinais de não fala modificados R' e L' (118 e 119).

Descrevendo agora o caminho de linha secundária lateral do processo da figura 3, cada saída de banco de filtros é tornada disponível para um banco correspondente de N estimadores de potência (304, 305 e 306). Os espectros de potência resultantes servem como entradas para um circuito de otimização (307 e 308) que tem como saída um vetor de ganho N dimensional. A otimização emprega tanto um circuito de predição de inteligi- bilidade (309 e 310) quanto um circuito de cálculo de sonoridade (311 e 312) para descobrir o vetor de ganho que maximiza sonoridade do canal de não fala enquanto mantendo um nível predeterminado de inteligibilidade predita do sinal de fala. Modelos adequados para predizer inteligibilidade foram dis- cutidos em conexão com a figura 2. Os circuitos de cálculo de sonoridade 311 e 312 podem implementar um modelo de predição de sonoridade ade- quado de acordo com opções de projeto e trocas compensatórias. Exemplos de modelos adequados são o Padrão Nacional Americano ANSI S3.4-2007 "Procedure for the Computation of Loudness of Steady Sounds" e o padrão alemão DIN 45631 "Berechnung des Lautstãrkepegels und der Lautheit aus dem Gerãuschspektrum". Dependendo dos recursos computacionais disponíveis e das restrições impostas, a forma e complexidade dos circuitos de otimização (307, 308) pode variar muito. De acordo com uma modalidade uma otimiza- ção restringida multidimensional iterativa de N parâmetros livres é usada.

Cada parâmetro representa o ganho aplicado a uma das bandas de freqüên- cia do canal de não fala. Técnicas padrões, tais como seguir o gradiente mais alto no espaço de pesquisa N dimensional, podem ser aplicadas para descobrir o máximo. Em uma outra modalidade, uma abordagem exigindo menos de forma computacional restringe as funções de ganho versus fre- quência para serem elementos de um pequeno conjunto de possíveis fun- ções de ganho versus freqüência, tal como um conjunto de diferentes gradi- entes espectrais ou filtros de prateleira. Com esta restrição adicional o pro- blema de otimização pode ser reduzido para um pequeno número de otimi- zações unidimensionais. Também em uma outra modalidade uma pesquisa exaustiva é feita sobre um conjunto muito pequeno de possíveis funções de ganho. Esta última abordagem pode ser particularmente desejável em apli- cações em tempo real onde uma carga computacional constante e velocida- de de pesquisa são desejadas.

Os versados na técnica reconhecerão facilmente restrições adi- cionais que podem ser impostas à otimização de acordo com modalidades adicionais da presente invenção. Um exemplo é restringir a sonoridade do canal de não fala modificado para não ser maior que a sonoridade antes da modificação. Um outro exemplo é impor um limite para as diferenças de ga- nho entre bandas de freqüência adjacentes a fim de limitar o potencial para serrilhado temporal no banco de filtros de reconstrução (313, 314) ou para reduzir a possibilidade para modificações de timbre censuráveis. Restrições desejáveis dependem tanto da implementação técnica do banco de filtros quanto da troca compensatória escolhida entre melhoramento de inteligibili- dade e modificação de timbre. Para clareza de ilustração, estas restrições estão omitidas na figura 3.

Continuando no fluxo de processo da figura 3, um sinal de con- trole ρ (113) é recebido e multiplicado com as funções de ganho (pelos mui- tiplicadores 114 e 115). O sinal de controle (113) tipicamente será uma me- dida derivada automaticamente da probabilidade de o sinal no canal de fala ser fala. Métodos adequados para calcular automaticamente a probabilidade de um sinal ser fala foram discutidos em conexão com a figura 1 (vide o pro- cessador de probabilidade de fala 130). As funções de ganho escalado são então aplicadas aos seus canais de não fala correspondentes (pelos amplifi- cadores 116 e 117), tal como descrito anteriormente.

As figuras 4A e 4B são diagramas de blocos ilustrando variações dos aspectos mostrados nas figuras 1-3. Além do mais, os versados na téc- nica reconhecerão diversos modos de combinar os elementos da invenção descritos nas figuras 1 a 3.

A figura 4A mostra que o arranjo da figura 1 também pode ser aplicado para uma ou mais sub-bandas de freqüência de L, C e R. Especifi- camente, cada um dos sinais L, C e R pode ser passado através de um ban- co de filtros (441, 442 e 443), produzindo três conjuntos de η sub-bandas: (L1, L2, ..., Ln}, {Ci, C2, ..., Cn} e {Ri, R2, ..., Rn}. Sub-bandas de comparação são passadas para η instâncias do circuito 125 ilustrado na figura 1, e os subsinais processados são recombinados (pelos circuitos de soma 451 e 452). Um valor limiar separado vn pode ser selecionado para cada sub- banda. Uma boa escolha é um conjunto onde vn é proporcional ao número médio de deixas de fala transportadas na região de freqüência correspon- dente; isto é, bandas nos extremos do espectro de freqüência são designa- das com limiares mais baixos que bandas correspondendo às freqüências de fala dominantes. Esta implementação da invenção oferece uma troca com- pensatória muito boa entre complexidade computacional e desempenho.

A figura 4B mostra uma outra variação. Por exemplo, para redu- zir a carga computacional, um sinal sonoro envolvente típico com cinco ca- nais (C, L, R, Is e rs) pode ser aprimorado ao processar os sinais L e R de acordo com o circuito 325 mostrado na figura 3, e os sinais Is e rs, os quais tipicamente são menos potentes que os sinais L e R, de acordo com o circui- to 125 mostrado na figura 1.

Na descrição anterior, os termos e expressões "fala" (ou áudio de fala ou canal de fala ou sinal de fala) e " não fala" (ou áudio de não fala ou canal de não fala ou sinal de não fala) são usados. Os versados na técni- ca reconhecerão que estes termos e expressões são usados mais para dife- renciar uns dos outros e menos para serem descritores absolutos do conte- údo dos canais. Por exemplo, em uma cena de restaurante em um filme, o canal de fala pode conter predominantemente o diálogo em uma mesa e os canais de não fala podem conter o diálogo em outras mesas (consequente- mente, ambos contêm "fala" tal como um leigo usa o termo). Também é o diálogo em outras mesas que certas modalidades da presente invenção são direcionadas para atenuar. Implementação

A invenção pode ser implementada em hardware ou software, ou em uma combinação de ambos (por exemplo, matrizes lógicas programá- veis). A não ser que especificado de outro modo, os algoritmos incluídos como parte da invenção não estão relacionados inerentemente a qualquer computador ou outro aparelho particular. Em particular, várias máquinas de uso geral podem ser usadas com programas gravados de acordo com os preceitos neste documento, ou pode ser mais conveniente construir aparelho mais especializado (por exemplo, circuitos integrados) para executar as eta- pas de método exigidas. Assim, a invenção pode ser implementada em um ou mais programas de computador executando em um ou mais sistemas de computador programável, cada um compreendendo pelo menos um proces- sador, pelo menos um sistema de armazenamento de dados (incluindo me- mória volátil e não volátil e/ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada e pelo menos um dispositivo ou porta de saída. Código de programa é aplicado para introduzir dados para executar as funções descritas neste documento e gerar informação de saída. A infor- mação de saída é aplicada a um ou mais dispositivos de saída, em modo conhecido.

Cada tal programa pode ser implementado em qualquer lingua-

gem de computador desejada (incluindo linguagens de máquina, montagem, ou de alto nível processual, lógica, ou de programação orientada a objeto) para se comunicar com um sistema de computador. Em qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.

Cada tal programa de computador preferivelmente é armazena- do ou transferido para uma mídia ou dispositivo de armazenamento (por e- xemplo, memória ou mídia de estado sólido, ou mídia magnética ou ótica) legível por um computador programável de uso geral ou especial, para con- figurar e operar o computador quando a mídia ou dispositivo de armazena- mento é lido pelo sistema de computador para executar os procedimentos descritos neste documento. O sistema inventivo também pode ser conside- rado para ser implementado como uma mídia de armazenamento legível por computador, configurada com um programa de computador, onde a mídia de armazenamento assim configurada induz um sistema de computador para operar em um modo específico e predefinido para executar as funções des- critas neste documento. A descrição anterior ilustra várias modalidades da presente in-

venção juntamente com exemplos de como aspectos da presente invenção podem ser implementados. Os exemplos e modalidades anteriores não de- vem ser supostos como sendo as únicas modalidades, e são apresentados para ilustrar a flexibilidade e vantagens da presente invenção tal como defi- nida pelas reivindicações a seguir. Com base na descrição anterior e nas reivindicações a seguir, outros arranjos, modalidades, implementações e equivalências estarão evidentes para os versados na técnica e poderão ser empregados sem divergir do espírito e escopo da invenção tal como definido pelas reivindicações.

Claims

1. Método de aperfeiçoar a audibilidade de fala em um sinal de áudio de múltiplos canais, caracterizado pelo fato de que compreende as etapas de: comparar uma primeira característica e uma segunda caracterís- tica do sinal de áudio de múltiplos canais para gerar um fator de atenuação, em que a primeira característica corresponde a um primeiro canal do sinal de áudio de múltiplos canais que contêm áudio de fala e áudio de não fala, em que a primeira característica corresponde a um primeiro espectro de po- tência de um sinal no primeiro canal, em que a segunda característica cor- responde a um segundo canal do sinal de áudio de múltiplos canais que con- têm predominantemente áudio de não fala, e em que a segunda característi- ca corresponde a um segundo espectro de potência de um sinal no segundo canal, em que a etapa de comparar a primeira característica com a segunda característica compreende as etapas de: realizar predição de inteligibilidade com base no primeiro es- pectro de potência e no segundo espectro de potência para gerar uma inteli- gibilidade predita; ajustar um ganho aplicado ao segundo espectro de potência até que a inteligibilidade predita satisfaça um critério; e utilizar o ganho, tendo sido ajustado, como o fator de atenua- ção, uma vez que a inteligibilidade predita satisfaça o critério; ajustar o fator de atenuação conforme um valor de verossimi- lhança de fala para gerar um fator de atenuação ajustado; e atenuar o segundo canal usando o fator de atenuação ajustado.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda a etapa de processar o sinal de áudio de múl- tiplos canais para gerar a primeira característica e a segunda característica.

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda a etapa de processar o primeiro canal para gerar o valor de verossimilhança de fala.

4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o segundo canal é um dentre uma pluralidade de segundos ca- nais, em que a segunda característica é uma dentre uma pluralidade de se- gundas características, em que o fator de atenuação é um dentre uma plura- lidade de fatores de atenuação, e em que o fator de atenuação ajustado é um dentre uma pluralidade de fatores de atenuação ajustados, que ainda compreende as etapas de: comparar a primeira característica e a pluralidade de segundas características para gerar a pluralidade de fatores de atenuação; ajustar a pluralidade de fatores de atenuação conforme o valor de verossimilhança de fala para gerar a pluralidade de fatores de atenuação ajustados; e atenuar a pluralidade de segundos canais usando a pluralidade de fatores de atenuação ajustados.

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal de áudio de múltiplos canais inclui um terceiro canal que contém predominantemente áudio de não fala, compreendendo ainda: comparar a primeira característica e uma terceira característica para gerar um fator de atenuação adicional, em que a terceira característica corresponde ao terceiro canal; ajustar o fator de atenuação adicional conforme o valor de ve- rossimilhança de fala para gerar um fator de atenuação adicional ajustado; e atenuar o terceiro canal usando o fator de atenuação ajustado.

6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o segundo espectro de potência tem uma pluralidade de bandas, em que a etapa de comparar a primeira característica e a segunda caracte- rística ainda compreende a etapa de executar cálculo de sonoridade com base no segundo espectro de potência para gerar uma sonoridade calcula- da; em que a etapa de ajustar um ganho ainda compreende a etapa de ajustar uma pluralidade de ganhos aplicados, respectivamente, a cada banda do segundo espectro de potência até que a inteligibilidade predita sa- tisfaça um critério de inteligibilidade e a sonoridade calculada satisfaça um critério de sonoridade; e em que a etapa de usar o ganho compreende a etapa de usar a pluralidade de ganhos, tendo sido ajustados, como o fator de atenuação pa- ra cada banda, respectivamente, uma vez que a inteligibilidade predita satis- faça o critério de inteligibilidade e a sonoridade calculada satisfaça o critério de sonoridade.

7. Aparelho incluindo um circuito para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais, caracterizado pelo fato de que compreende: um circuito de comparação (204) que é configurado para compa- rar uma primeira característica e uma segunda característica do sinal de áu- dio de múltiplos canais para gerar um fator de atenuação, em que a primeira característica corresponde a um primeiro canal do sinal de áudio de múlti- plos canais que contém áudio de fala e áudio de não fala, em que a primeira característica corresponde a um primeiro espectro de potência, em que a segunda característica corresponde a um segundo canal do sinal de áudio de múltiplos canais que contém predominantemente o áudio de não fala, e em que a segunda característica corresponde a um segundo espectro de potência de um sinal no segundo canal, em que o circuito de comparação compreende: um circuito de predição de inteligibilidade (205, 206) que é confi- gurado para executar predição de inteligibilidade com base no primeiro es- pectro de potência e no segundo espectro de potência para gerar uma inteli- gibilidade predita; um circuito de ajuste de ganho que é configurado para ajustar um ganho aplicado ao segundo espectro de potência até que a inteligibilida- de predita satisfaça um critério; e um circuito de seleção de ganho que é configurado para selecio- nar o ganho, tendo sido ajustado, como o fator de atenuação uma vez que a inteligibilidade predita satisfaça o critério; um multiplicador (114, 115) que é configurado para ajustar o fa- tor de atenuação conforme um valor de verossimilhança de fala para gerar um fator de atenuação ajustado; e um amplificador (116, 117) que é configurado para atenuar o se- gundo canal usando o fator de atenuação ajustado.

8. Aparelho, de acordo com a reivindicação 7, caracterizado pelo fato de que o segundo espectro de potência tem uma pluralidade de bandas, em que o circuito de comparação (204) compreende ainda: um circuito de cálculo de sonoridade (311, 312) que é configura- do para executar cálculo de sonoridade com base no segundo espectro de potência para gerar uma sonoridade calculada; e um circuito de otimização (307, 308) que é configurado para a- justar uma pluralidade de ganhos aplicados, respectivamente, a cada banda do segundo espectro de potência até que a inteligibilidade predita satisfaça um critério de inteligibilidade e a sonoridade calculada satisfaça um critério de sonoridade, e que usa a pluralidade de ganhos, tendo sido ajustados, como o fator de atenuação para cada banda, respectivamente, uma vez que a inteligibilidade predita satisfaça o critério de inteligibilidade e a sonoridade calculada satisfaça o critério de sonoridade.

9. Aparelho, de acordo com a reivindicação 7, caracterizado pelo fato de que compreende ainda: um primeiro calculador de densidade espectral de potência que é configurado para calcular o primeiro espectro de potência do primeiro ca- nal; e um segundo calculador de densidade espectral de potência que é configurado para calcular o segundo espectro de potência do segundo ca- nal.

10. Aparelho, de acordo com a reivindicação 7, caracterizado pe- lo fato de que compreende ainda: um primeiro banco de filtros que ê configurado para dividir o pri- meiro canal em uma primeira pluralidade de componentes espectrais; um primeiro banco de estimadores de potência que é configura- do para calcular o primeiro espectro de potência a partir da primeira plurali- dade de componentes espectrais; um segundo banco de filtros que é configurado para dividir o se- gundo canal em uma segunda pluralidade de componentes espectrais; e um segundo banco de estimadores de potência que é configura- do para calcular o segundo espectro de potência a partir da segunda plurali- dade de componentes espectrais.

11. Aparelho, de acordo com a reivindicação 7, caracterizado pe- lo fato de que compreende ainda um processador de determinação de fala que é configurado para processar o primeiro canal para gerar o valor de ve- rossimilhança de fala.

12. Programa de computador incorporado em mídia de gravação tangível para aperfeiçoar audibilidade de fala em um sinal de áudio de múlti- plos canais, o programa de computador controlando um dispositivo para e- xecutar processamento, caracterizado pelo fato de que compreende as eta- pas de: comparar uma primeira característica e uma segunda caracterís- tica do sinal de áudio de múltiplos canais para gerar um fator de atenuação, em que a primeira característica corresponde a um primeiro canal do sinal de áudio de múltiplos canais que contêm áudio de fala e áudio de não fala, em que a primeira característica corresponde a um primeiro espectro de po- tência de um sinal no primeiro canal, em que a segunda característica cor- responde a um segundo canal do sinal de áudio de múltiplos canais que con- têm predominantemente o áudio de não fala, e em que a segunda caracte- rística corresponde a um segundo espectro de potência de um sinal no se- gundo canal, incluindo: realizar predição de inteligibilidade com base no primeiro espec- tro de potência e no segundo espectro de potência para gerar uma inteligibi- lidade predita; ajustar um ganho aplicado ao segundo espectro de potência até que a inteligibilidade predita satisfaça um critério; utilizar o ganho, tendo sido ajustado, como o fator de atenuação, uma vez que a inteligibilidade predita satisfaça o critério; ajustar o fator de atenuação conforme um valor de verossimi- lhança de fala para gerar um fator de atenuação ajustado; e atenuar o segundo canal usando o fator de atenuação ajustado.

13. Aparelho para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais caracterizado pelo fato de que compreende: um dispositivo para comparar uma primeira característica e uma segunda característica do sinal de áudio de múltiplos canais para gerar um fator de atenuação, em que a primeira característica corresponde a um pri- meiro canal do sinal de áudio de múltiplos canais que contêm áudio de fala e áudio de não fala, em que a primeira característica corresponde a um primei- ro espectro de potência de um sinal no primeiro canal, em que a segunda característica corresponde a um segundo canal do sinal de áudio de múlti- plos canais que contêm predominantemente o áudio de não fala, e em que a segunda característica corresponde a um segundo espectro de potência de um sinal no segundo canal, em que o dispositivo para comparar compreen- de: um dispositivo para executar predição de inteligibilidade com ba- se no primeiro espectro de potência e no segundo espectro de potência para gerar uma inteligibilidade predita; um dispositivo para ajustar um ganho aplicado ao segundo es- pectro de potência até que a inteligibilidade predita satisfaça um critério; e um dispositivo para usar o ganho, tendo sido ajustado, como o fator de atenuação uma vez que a inteligibilidade predita satisfaça o critério; um dispositivo para ajustar o fator de atenuação conforme um valor de verossimilhança de fala para gerar um fator de atenuação ajustado; e um dispositivo para atenuar o segundo canal usando o fator de atenuação ajustado.

14. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de que o segundo espectro de potência possui uma pluralidade de bandas, em que o dispositivo para comparar ainda compreende: um dispositivo para executar cálculo de sonoridade com base no segundo espectro de potência para gerar uma sonoridade calculada; em que o dispositivo para ajustar um ganho corresponde a um dispositivo para ajustar uma pluralidade de ganhos aplicados, respectiva- mente, a cada banda do segundo espectro de potência até que a inteligibili- dade predita satisfaça um critério de inteligibilidade e a sonoridade calculada satisfaça um critério de sonoridade; e o dispositivo para usar o ganho corresponde ao dispositivo para usar a pluralidade de ganhos, tendo sido ajustados, como o fator de atenua- ção para cada banda, respectivamente, uma vez que a inteligibilidade predi- ta satisfaça o critério de inteligibilidade e a sonoridade calculada satisfaça o critério de sonoridade.