BRPI0512882B1

BRPI0512882B1 - Método para corrigir os metadados que afetam a sonoridade de reprodução e a faixa dinâmica de informações de áudio

Info

Publication number: BRPI0512882B1
Application number: BRPI0512882-0A
Authority: BR
Inventors: John Smithers Michael; Charles Riedmiller Jeffrey; Quito Robinson Charles; Graham Crockett Brett
Original assignee: Dolby Laboratories Licensing Corporation
Priority date: 2004-07-01
Filing date: 2005-04-08
Publication date: 2018-02-14
Also published as: KR20070031920A; IL179309A0; JP4726898B2; WO2006006977A1; US8032385B2; IL179309A; EP2214308A1; US20060002572A1; BRPI0512882A; AU2005262870A1; US20100250258A1; MXPA06015132A; ATE488911T1; EP1771945B1; CA2566345A1; KR20100061759A; HK1097963A1; JP2008505586A; CA2566345C; DE602005024812D1

Abstract

método para corrigir os metadados que afetam a sonoridade de reprodução e a faixa dinâmica de informações de áudio. a presente invenção refere-se a um sinal codificado que transporta informações de áudio codificadas e metadados que podem ser utilizados para controlar a sonoridade e a faixa dinâmica das informações de áudio durante a sua reprodução. se os valores para estes parâmetros de metadados forem incorretamente ajustados, flutuações irritantes em sonoridade durante a reprodução podem resultar. a presente invenção supera este problema detectando os valores de parâmetro de metadados incorretos no sinal e substituindo os valores incorretos por valores corrigidos.

Description

(54) Título: MÉTODO PARA CORRIGIR OS METADADOS QUE AFETAM A SONORIDADE DE REPRODUÇÃO Ε A FAIXA DINÂMICA DE INFORMAÇÕES DE ÁUDIO (51) Int.CI.: H03G 9/00; G10L 25/00 (52) CPC: H03G 9/005,G10L 25/00 (30) Prioridade Unionista: 01/07/2004 US 10/884,177 (73) Titular(es): DOLBY LABORATORIES LICENSING CORPORATION (72) Inventor(es): MICHAEL JOHN SMITHERS; JEFFREY CHARLES RIEDMILLER; CHARLES QUITO ROBINSON; BRETT GRAHAM CROCKETT

1/29

Relatório Descritivo da Patente de Invenção para MÉTODO PARA CORRIGIR OS METADADOS QUE AFETAM A SONORIDADE DE REPRODUÇÃO E A FAIXA DINÂMICA DE INFORMAÇÕES DE ÁUDIO.

Campo da Técnica [001] A presente invenção refere-se à codificação e reprodução de áudio, e refere-se mais especificamente ao controle de sonoridade e faixa dinâmica de informações de áudio durante a reprodução. Antecedentes da Técnica [002] Existe um crescente nível de insatisfação entre os consumidores e os profissionais de áudio também com as extremas variações na sonoridade do áudio nas transmissões de rádio e de televisão e em material de áudio pré-gravado. Grandes variações em sonoridade frequentemente ocorrem conforme os ouvintes sintonizam de uma estação para a outra, conforme o programa recebido de uma dada estação muda entre um programa principal e os anúncios comerciais, e conforme os ouvintes mudam de mídia nos seus sistemas de reprodução tal como mudando entre diferentes discos compactos ou diferentes DVDs. Os ouvintes são frequentemente forçados a ajustar os controles de volume de seus receptores e sistemas de reprodução para manter uma sonoridade relativamente uniforme.

[003] Uma solução que foi proposta para superar este problema é a utilização de informações de controle ou metadados que acompanham as informações de áudio. Os metadados, ou os dados que descrevem os dados de áudio, podem ser providos em um sinal transmitido ou gravado para controlar a sonoridade de reprodução das informações de áudio. Um exemplo deste tipo de metadados está descrito no documento do Advanced Television System Committee (ATSC) A/52A intitulado Revisão A do Padrão de Compressão de Áudio Digital (AC-3) publicado em 20 de Agosto de 2001. Este padrão específiPetição 870170056979, de 09/08/2017, pág. 10/45

2/29 co especifica os metadados que incluem os parâmetros DIALNORM, COMPR e DYNRNG, os quais pertencem ao nível de sinal e faixa dinâmica de reprodução. Tanto o nível de sinal quanto a faixa dinâmica afetam o nível percebido ou subjetivo de um sinal, o que é referido como sonoridade. Os receptores que estão em conformidade com este padrão de áudio ASTC utilizam o parâmetro DIALNORM para controlar os níveis de sinal de reprodução, e podem utilizar os parâmetros COMPR e DYNRNG para controlar a compressão da faixa dinâmica do sinal de reprodução.

[004] Se este tipo de metadados for adequadamente utilizado durante a criação, distribuição, transmissão e processos de gravação do conteúdo de áudio, o problema com as excessivas variações de sonoridade de reprodução poderia ser eliminado ou pelo menos grandemente reduzido. Infelizmente, os metadados são algumas vezes mal utilizados ou não utilizados de todo por que estas são mal compreendidas, porque as pessoas adequadas não sabem como utilizá-los adequadamente, ou porque estes são utilizados para criar efeitos artísticos em modos inadequados.

Descrição da Invenção [005] É um objeto da presente invenção prover a correção de sonoridade de reprodução e faixa dinâmica de informações de áudio durante a reprodução.

[006] De acordo com um aspecto da presente invenção, um método para corrigir a sonoridade de reprodução e a faixa dinâmica de informações de áudio recebe um sinal de entrada que transporta dados que representam um primeiro nível de normalização de sonoridade, um primeiro nível de ajuste de faixa dinâmica e informações de áudio codificadas produzidas por um processo de codificação; obtém as informações de áudio decodificadas de um aplicativo de um processo de decodificação para o sinal de entrada; obtém uma medição

Petição 870170056979, de 09/08/2017, pág. 11/45

3/29 de sonoridade de uma análise das informações de áudio decodificadas e deriva um segundo nível de normalização de sonoridade da medição de sonoridade; obtém uma estimativa de um perfil de compressão utilizado pelo processo de codificação de uma análise das informações de áudio decodificadas e do primeiro nível de ajuste de faixa dinâmica; e gera um sinal de saída que condicionalmente transporta os dados que representam o segundo nível de normalização de sonoridade e um nível de ajuste de faixa obtido em resposta à amplitude de informações de áudio, ao segundo nível de normalização de sonoridade e à estimativa do perfil de compressão.

[007] Os vários aspectos da presente invenção e as suas modalidades preferidas podem ser melhor compreendidos referindo-se à discussão seguinte e aos desenhos acompanhantes nos quais os números de referência iguais referem-se a elementos iguais nas diversas figuras. O conteúdo da discussão seguinte e os desenhos são apresentados como exemplos somente e não devem ser compreendidos representarem limitações sobre o escopo da presente invenção.

Breve Descrição dos Desenhos [008] figura 1 é um diagrama de blocos esquemático de processos que ocorrem em sistemas de transmissão e de gravação típicos. [009] figura 2 é um diagrama de blocos esquemático de um dispositivo que provê um sinal de saída com informações de áudio e metadados que podem ser utilizados para corrigir a sonoridade de reprodução e a faixa dinâmica das informações de áudio.

[0010] figuras 3-4 são diagramas de blocos esquemáticos de componentes dentro do dispositivo ilustrado na figura 2.

[0011] figuras 5-8 são diagramas esquemáticos de sinais que transportam as informações de áudio codificadas e os metadados.

[0012] figuras 9-11 são ilustrações gráficas hipotéticas de como os metadados podem ser utilizados para corrigir a sonoridade e a faixa

Petição 870170056979, de 09/08/2017, pág. 12/45

4/29 dinâmica de três segmentos de informações de áudio.

[0013] figura 12 é um diagrama que ilustra as etapas em um processo que pode ser utilizado para gerar um quadro de um sinal de saída com parâmetros de metadados modificados.

[0014] figura 13 é um diagrama de blocos esquemático de um dispositivo que pode ser utilizado para implementar vários aspectos da presente invenção.

MODOS PARA EXECUTAR A INVENÇÃO

A. INTRODUÇÃO [0015] A figura 1 é uma ilustração esquemática de processos que ocorrem em um sistema de transmissão ou de gravação típico. O processo de fonte 1 representa as atividades que obtém as informações de áudio por síntese ou por captura de uma fonte tal como uma apresentação musical ao vivo ou um evento esportivo. O processo de distribuição 2 representa uma ampla gama de atividades que recebem as informações de áudio de uma ou mais fontes e montam toda ou parte destas informações em um programa acabado para transmitir ou gravar. As informações de vídeo assim como outros tipos de informações podem também ser obtidas e montadas no programa acabado em uma variedade de modos. O processo de entrega 3 representa as atividades que fazem com que o programa acabado seja transmitido ou gravado e subsequentemente entregue para o processo de reprodução 4. Durante alguns ou todos estes processos, as informações de áudio podem ser codificadas para reduzir as suas necessidades de capacidade de informações de modo que estas possam ser armazenadas em menos espaço ou transmitidas utilizando uma menor largura de banda. [0016] Em implementações preferidas de sistemas de transmissão e de gravação, cada um dos processos mostrados na figura 1 permite que os autores de conteúdo de áudio e os engenheiros de áudio especifiquem os metadados que definem a sonoridade e a faixa dinâmica

Petição 870170056979, de 09/08/2017, pág. 13/45

5/29 pretendidas das informações de áudio durante a sua reprodução. Infelizmente, mesmo nestas implementações preferidas, este tipo de metadados é ou equivocada e incorretamente utilizado ou deliberadamente mal utilizado. A presente invenção está direcionada para métodos e aparelhos que podem ser utilizados para corrigir a sonoridade e a faixa dinâmica de reprodução de informações de áudio durante a reprodução. A presente invenção pode ser utilizada uma ou mais vezes em qualquer um dos processos que estão ilustrados na figura 1; no entanto, é previsto que a presente invenção pode ser utilizada mais eficientemente próximo do final do processo de distribuição 2 ou próximo do início do processo de entrega 3. Por exemplo, a presente invenção poderia ser utilizada imediatamente antes da transmissão ou gravação de um programa acabado.

[0017] As implementações da presente invenção abaixo descritas incluem aspectos pertinentes à utilização com os sinais que transportam as informações de áudio codificadas em um formato que está em conformidade com o padrão ATSC acima mencionado. Estas implementações e aspectos específicos são meramente exemplos. Os princípios da presente invenção podem ser utilizados vantajosamente com essencialmente qualquer forma de sinal que transporte as informações de áudio e os metadados relativos à sonoridade e à faixa dinâmica das informações de áudio.

B. VISTA GERAL DO DISPOSITIVO [0018] A figura 2 é um diagrama de blocos esquemático de um dispositivo 10 que incorpora vários aspectos da presente invenção que podem ser utilizados para corrigir a sonoridade e a faixa dinâmica de reprodução de informações de áudio durante a reprodução. O dispositivo 10 recebe um sinal de entrada do percurso de comunicação 11 que transporta as informações de áudio codificadas e os metadados processa estas informações, e gera um sinal de saída ao longo do

Petição 870170056979, de 09/08/2017, pág. 14/45

6/29 percurso 18 que transporta as informações de áudio codificadas e os metadados modificados. Os metadados representam um nível de normalização de sonoridade e um nível de ajuste de faixa dinâmica para utilização durante a reprodução das informações de áudio.

[0019] O decodificador 12 processa o sinal de entrada para obter os metadados e uma representação decodificada das informações de áudio pela execução de processos que são complementares aos processos utilizados para gerar o sinal de entrada. As informações de áudio decodificadas são passadas ao longo do percurso 13. Os metadados são passados ao longo do percurso 14. Se o dispositivo 10 for utilizado com um sinal de entrada que tenha um formato que esteja em conformidade com o padrão ATSC acima mencionado, por exemplo, o decodificador 12 executa processos que determinam como os bits estavam alocados para representar o conteúdo espectral de um sinal de áudio, utiliza esta alocação para recuperar os componentes espectrais quantizados do sinal de entrada, e aplica filtros de síntese nos componentes espectrais recuperados para gerar as informações de áudio decodificadas. Informações adicionais podem ser obtidas do documento de ATSC acima mencionado.

[0020] O processo de decodificação executado pelo decodificador 12 difere somente ligeiramente do processo de decodificação executado por um sistema de reprodução convencional porque o decodificador 12 não utiliza os metadados de nível de normalização de sonoridade e de nível de ajuste de faixa dinâmica para fazer qualquer ajuste nas informações decodificadas.

[0021] Em uma implementação alternativa, o decodificador 12 difere mais significativamente dos decodificadores convencionais pelo fato de que este não decodifica as informações de áudio codificadas em informações de domínio de tempo. Ao contrário, este decodifica as informações de áudio codificadas em componentes espectrais dequantiPetição 870170056979, de 09/08/2017, pág. 15/45

7/29 zados ou coeficientes de transformada, os quais são passados ao longo do percurso 13 para um subsequente processamento. Esta mudança na implementação do decodificador 12 afeta os detalhes de implementação para o analisador de sonoridade 15, o analisador de faixa dinâmica 23, o calculador de faixa dinâmica 25, o escalador 31, e o codificador 33, todos abaixo discutidos, mas este não muda a natureza do processamento que estes componentes executam.

[0022] O analisador de sonoridade 15 analisa as informações de áudio decodificadas que este recebe do percurso 13 para obter uma medição de sonoridade, a qual este passa ao longo do percurso 16. Essencialmente qualquer análise pode ser utilizada em princípio; no entanto, a escolha da análise pode afetar a precisão da medição de sonoridade. De preferência, uma medição da sonoridade é obtida pelo isolamento de segmentos das informações de áudio que são predominantemente fala. Alguns modos nos quais isto pode ser feito estão descritos no Pedido de Patente U.S. Número 10/233.073 por Vinton et al. intitulado Controle de Sonoridade de Fala em Sinais Que Contém Fala e Outros tipos de Material de Áudio requerido em 30 de Agosto de 2002, número de publicação US 2004-0044525 publicado em 04 de Março de 2004. A identificação de segmentos que são predominantemente fala não é essencial mas usualmente aperfeiçoa a precisão da medição de sonoridade. Se a fala não estiver presente ou não for dominante, uma medição de sonoridade média das informações de áudio inteiras pode prover uma medição suficiente.

[0023] A medição de sonoridade pode ser obtida para um programa de áudio inteiro ou pode ser obtida para segmentos de essencialmente qualquer extensão que possa ser desejada. Um modo que uma medição de sonoridade Leq_m pode ser calculada pode ser expresso como

Petição 870170056979, de 09/08/2017, pág. 16/45

8/29 ί τ < λ² ι

Leq_m = 101og₁₀ T ^dt onde P(t) = nível de pressão de som ponderado em frequência do sinal no tempo t;

P₀ = nível de pressão de som ponderado em frequência do sinal no tempo t=0; e m denota a ponderação de frequência aplicada ao sinal. [0024] Um exemplo bem conhecido de uma ponderação de frequência que pode ser utilizada é a assim denominada ponderação de sonoridade igual a A. Medições de potência ponderada B ou C padrão podem ser utilizadas. Ao contrário alternativamente, os modelos psicoacústicos de sonoridade podem ser utilizados tais como aqueles descritos em Acústica - Método para calcular o nível de sonoridade, ISO 532 (1975). De preferência, a medição de sonoridade é calculada em unidades de dB em relação à amplitude de uma senóide de tamanho natural digital (0 dB FS), a qual é o maior nível digital capaz de ser expresso pelos valores digitais de comprimento finito utilizados para representar as informações de áudio.

[0025] O gerador de sinal de saída 20 processa o sinal de saída recebido do percurso 11, os metadados de nível de normalização de sonoridade e de nível de ajuste de faixa recebidos do percurso 14, a representação decodificada das informações de áudio recebidas do percurso 13, e a medição de sonoridade derivada recebida do percurso 16, e gera ao longo do percurso 18 um sinal de saída que transporta uma representação codificada do sinal de áudio e um conjunto de metadados que pode ser utilizado para corrigir a sonoridade e a faixa dinâmica das informações de áudio durante a reprodução.

[0026] Detalhes adicionais da implementação estão abaixo descritos.

C. FORMATO DE SINAL

Petição 870170056979, de 09/08/2017, pág. 17/45

9/29 [0027] As implementações do dispositivo 10 que estão aqui descritas processam um sinal de entrada com informações de áudio codificadas e dados de metadados transportados em um formato que está em conformidade com o padrão ATSC acima mencionado. O sinal de entrada compreende dados binários que estão dispostos em quadros. Cada quadro contém as informações de áudio e os metadados que representam 1536 amostras de um a seis canais de sinais de áudio digitais. Os metadados são configuráveis e podem incluir informações tais como o idioma do conteúdo de áudio falado, se o conteúdo de áudio está sujeito à proteção de direitos autorais, e as informações de temporização. Os metadados também incluem o nível de normalização de sonoridade e um nível de ajuste de faixa dinâmica para utilização durante a reprodução das informações de áudio.

[0028] Cada quadro de sinal de entrada está dividido em seções como esquematicamente mostrado na figura 5. A seção de Informações de Sincronização (SI), mostrada na figura 6, transporta uma palavra de sincronização (SW) e o primeiro de dois códigos de redundância cíclica (CRC1) para a detecção de erros de bits nos primeiros 5/8^o do quadro. A seção de Informações de Fluxo de Bits (BSI), mostrada na figura 7, transporta a maioria dos metadados para o quadro. Seis Blocos de Áudio (AB0 a AB5) transportam as informações de áudio codificadas e os metadados individuais, como mostrado na figura

8. As seções restantes do quadro incluem uma seção de bits de Refugo (W) que transporta os bits não utilizados que restam após o conteúdo de áudio ser codificado de modo que cada quadro tenha um número constante de bits, uma seção Auxiliar (AUX), a qual pode transportar os metadados adicionais que não são pertinentes à presente invenção, e o segundo de dois códigos de redundância cíclica (CRC2) para a detecção de erros de bits nos últimos 3/8^o do quadro. Normalização de Sonoridade

Petição 870170056979, de 09/08/2017, pág. 18/45

10/29 [0029] A seção de BSI de cada quadro transporta um parâmetro de metadados referido como DIALNORM, o qual é um nível de normalização de sonoridade para utilização durante a reprodução. Este parâmetro está destinado a indicar a sonoridade média ou predominante da fala ou diálogo nas informações de áudio. Na ausência de fala, o parâmetro pode representar uma sonoridade média do conteúdo inteiro de um item de áudio. Um item de áudio é um intervalo de informações de áudio tal como, por exemplo, o áudio para um anúncio de televisão de 30 segundos ou a trilha sonora inteira de um filme de longa metragem.

[0030] A figura 9 é uma ilustração gráfica de níveis de sinal para três itens de áudio hipotéticos. O Nível Digital de cada item de áudio é a amplitude de suas informações de áudio em relação à amplitude de uma senóide de máxima amplitude digital (0 dB FS). Os níveis de sinal máximo e mínimo para cada item de áudio estão mostrados na figura juntamente com o valor de seu parâmetro DIALNORM. O valor de DIALNORM para cada item de áudio é arredondado para unidades de 1 dB.

[0031] Durante a reprodução, o processo de reprodução 4 utiliza o parâmetro DIALNORM para escalar a amplitude do sinal para a reprodução de modo que a sonoridade de fala percebida é consistente entre os diferentes itens de áudio. A figura 10 ilustra este processo graficamente. O processo de reprodução 4 ajusta o sinal em cada item de áudio de modo que a sua sonoridade, como indicada pelo parâmetro DIALNORM, é escalada para igual a um nível de referência de -31 dB FS. Este nível de referência pode ser calibrado em cada sistema de reprodução para corresponder a um nível de pressão de som desejado.

Ajuste de Faixa Dinâmica [0032] Cada quadro do sinal de entrada pode transportar os parâPetição 870170056979, de 09/08/2017, pág. 19/45

11/29 metros de metadados referidos como COMPR e DYNRNG, os quais são níveis de ajuste de faixa dinâmica para utilização durante a reprodução. Referindo às figuras 7 e 8, a seção de BSI de um quadro pode incluir um parâmetro COMPR que aplica ao quadro inteiro e cada bloco de áudio pode ter o seu respectivo parâmetro DYNRNG. Os valores para estes parâmetros são determinados durante o processo de codificação utilizando um de diversos perfis de compressão. Cada perfil inclui parâmetros de compressão típicos que especificam as características operacionais de um compressor tais como a razão de compressão, as constantes de tempo de ataque e liberação, e as faixas de amplitude para compressão. Os valores para estes parâmetros de compressão de faixa dinâmica são determinados com referência ao parâmetro DIALNORM de modo que a sonoridade média do item de áudio fica inalterada pela compressão.

[0033] Referindo novamente à figura 9, os níveis de sinal máximo e mínimo para três itens de áudio hipotéticos estão mostrados na figura juntamente com os valores dos parâmetros DIALNORM. Durante a reprodução, o processo de reprodução 4 pode utilizar o parâmetro COMPR ou os parâmetros DYNRNG para comprimir o sinal para a reprodução de modo que a faixa dinâmica seja reduzida. A figura 11 ilustra este processo graficamente. O processo de reprodução 4 comprime o sinal em cada item de áudio de modo que as faixas dinâmicas dos itens de áudio são mais uniformes.

[0034] A capacidade para reduzir a faixa dinâmica de um item de áudio é útil em uma variedade de situações. Por exemplo, é frequentemente desejável reduzir o nível re reprodução de áudio de um filme ou programa de televisão para assistir tarde da noite para evitar perturbar os membros da família que dormem ou os ocupantes de moradias adjacentes. Quando os itens de áudio tem uma faixa dinâmica muito grande tal como é típico para muitos filmes, a redução do nível

Petição 870170056979, de 09/08/2017, pág. 20/45

12/29 de reprodução para manter os segmentos mais altos em níveis toleráveis faz com que grande parte do diálogo seja difícil de escutar e quase impossível de compreender. A compressão de faixa dinâmica pode ser utilizada para reduzir a sonoridade dos segmentos mais altos, permitindo que a sonoridade de reprodução seja ajustada em um nível mais alto de modo que os segmentos de diálogo possam ser compreendidos. Além disso, a compressão de faixa dinâmica pode ser utilizada para aumentar a sonoridade de segmentos silenciosos que poderiam de outro modo não ser ouvidos sobre o ruído ambiente no ambiente de reprodução.

[0035] Uma operação adequada de compressão de faixa dinâmica requer um ajuste adequado para o parâmetro DIALNORM. Se o parâmetro DIALNORM for ajustado inadequadamente, então é muito provável que a compressão de faixa dinâmica alterará o nível de diálogo em um modo que é notável e irritante.

A Importância de Valores Adequados [0036] Quando o parâmetro DIALNORM é adequadamente ajustado, um sistema de reprodução pode prover uma experiência de ouvir mais consistente e previsível pela redução de dramáticas diferenças em sonoridade e faixa dinâmica do que de outro modo existiria na reprodução de itens de áudio. As diferenças irritantes podem ser eliminadas ou pelo menos grandemente reduzidas entre os anúncios de televisão, entretenimento de televisão e programas de notícias, e entre as diferentes estações de televisão.

[0037] Até agora, os sistemas de transmissão e de gravação precisavam basear-se nos autores de conteúdo de áudio e nos engenheiros de áudio para ajustar o DIALNORM adequadamente. Foi previsto que o nível de diálogo médio ou predominante de um item de áudio seria corretamente medido e o parâmetro DIALNORM seria ajustado consequentemente. Infelizmente, o parâmetro DIALNORM é algumas

Petição 870170056979, de 09/08/2017, pág. 21/45

13/29 vezes ajustado inadequadamente ou não expressamente ajustado, o que faz com que os sistemas de reprodução utilizem um valor padrão que é inadequado. Isto causa uma discrepância entre o nível indicado pelo parâmetro DIALNORM e o nível real de diálogo no áudio, o que impede ou pelo menos prejudica a capacidade de um sistema de reprodução prover uma experiência de audição consistente entre os diferentes itens de áudio.

[0038] Sob a maioria das circunstâncias, cada quadro transporta um único conjunto de parâmetros para a normalização de sonoridade e ajusta de faixa dinâmica que aplica-se a todos os canais; no entanto, o padrão ATSC permite que um quadro transporte um conjunto de parâmetros separado para cada canal em um sistema de dois canais. Referindo às figuras 7 e 8, o segundo conjunto de parâmetros está mostrado como DIALNORM2, COMPR2 e DYNRNG2. A discussão seguinte refere-se somente ao primeiro conjunto de parâmetros. Quando dois conjuntos de parâmetros estão presentes para um quadro, o segundo conjunto de parâmetros é utilizado do mesmo modo que o primeiro conjunto de parâmetros é utilizado.

D. GERADOR DE SINAL DE SAÍDA [0039] A figura 3 é um diagrama de blocos esquemático do gerador de sinal de saída 20 acima discutido em conexão com a figura 2. O comparador 21 compara os metadados de nível de normalização de sonoridade (DIALNORM) recebidos do percurso 14 e a medição de sonoridade derivada recebida do percurso 16, e gera um sinal de controle ao longo do percurso 22 que indica se o parâmetro DIALNORM é suficientemente preciso. O parâmetro DIALNORM pode ser considerado suficientemente preciso se o valor absoluto de uma diferença entre as duas entradas for menor do que um limite. Se desejado, este limite pode ser determinado igual a zero mas nas implementações preferidas o limite é escolhido para balancear uma negociação entre a precisão

Petição 870170056979, de 09/08/2017, pág. 22/45

14/29 dos parâmetros de metadados, o custo dos recursos computacionais necessários para implementar a presente invenção, e a possibilidade de que o valor calculado do parâmetro DIALNORM e assim como os valores de outros parâmetros de metadados estão incorretos e a sua utilização degradaria a qualidade das informações de áudio durante a reprodução. Um valor limite de três (3 dB) é adequado para muitas aplicações.

[0040] O montador de sinal 30 recebe o sinal de controle do percurso 22 e o sinal de entrada do percurso 11. Se o segundo sinal indicar que o parâmetro DIALNORM é suficientemente preciso, o sinal de entrada é passado para o percurso 18 inalterado. Se o sinal de controle indicar que o parâmetro DIALNORM não é suficientemente preciso, o montador de sinal 30 utiliza a medição de sonoridade derivada recebida do percurso 16 para prover um parâmetro DIALNORM modificado para o sinal de saída.

[0041] Sempre que o parâmetro DIALNORM é mudado, é provável que os valores dos parâmetros COMPR e DYNRNG devem ser também mudados. Os parâmetros COMPR e DYNRNG representam as mudanças de ganho que podem ser aplicadas por um decodificador em um sistema de reprodução convencional. O parâmetro COMPR representa um fator de escalagem que pode ser aplicado em todas as informações de áudio que são decodificadas de um quadro inteiro. O parâmetro DYNRNG em um respectivo bloco de áudio representa um fator de escalagem que pode ser aplicado nas informações de áudio que são decodificadas do bloco de áudio.

[0042] Os valores destes parâmetros foram calculados pelo codificador que gerou o sinal de entrada. Os valores originais poderiam ser deixados inalterados no sinal de entrada mas é provável que a decodificação do sinal de saída resultante por um sistema de reprodução convencional causaria severas flutuações de ganho possivelmente piPetição 870170056979, de 09/08/2017, pág. 23/45

15/29 cando o sinal de áudio. Uma implementação preferida da presente invenção provê valores modificados para os parâmetros COMPR e/ou DYNRNG quando é garantido. Estes valores modificados são gerados pelo analisador de faixa dinâmica 23 e pelo calculador de faixa dinâmica 25; no entanto, os valores modificados podem ser gerados mais precisamente se informações adicionais puderem ser obtidas sobre como o codificador calculou os valores de metadados originais.

[0043] As informações adicionais que são necessárias são o perfil de compressão que o codificador utilizou. Infelizmente, estas informações não são transportadas no sinal de entrada. O analisador de faixa dinâmica 23 estima qual perfil de compressão foi utilizado pelo codificador analisando os parâmetros DIALNORM, COMPR e DYNRNG recebidos do percurso 14 e a representação decodificada das informações de áudio recebidas do percurso 13. O perfil pode ser estimado repetidamente utilizando o mesmo processo de cálculo utilizado pelo codificador para calcular os parâmetros COMPR e/ou DYNRNG para cada perfil de compressão conhecido ser utilizado pelas implementações de codificador atuais. O perfil que gera os valores de parâmetro calculados que são mais próximos dos valores originais transportados no sinal de entrada é considerado ser o perfil de compressão utilizado pelo codificador. Uma indicação do perfil estimado é passada ao longo do percurso 24 para o calculador de faixa dinâmica 25.

[0044] A estimativa do perfil de compressão pode ser atualizada para cada quadro ou pode ser atualizada menos frequentemente. A frequência pode ser escolhida para balancear a negociação entre a precisão e a complexidade computacional.

[0045] É possível que o perfil de compressão estimado possa ser incorreto; portanto, pode ser desejável inserir metadados modificados no sinal de saída somente se o valor de parâmetro DIALNORM original for julgado não ser suficientemente preciso como acima discutido.

Petição 870170056979, de 09/08/2017, pág. 24/45

16/29

E. MONTADOR DE SINAL DE SAÍDA [0046] Sempre que metadados modificados são inseridos no sinal de saída, o sinal de saída resultante deve estar em conformidade com todas as especificações impostas pelo padrão ATSC. Isto é executado pelo montador de sinal 30. uma implementação alternativa do montador de sinal está ilustrada na figura 4 e abaixo discutida.

Reempacotamento do Sinal de Saída [0047] As etapas em um processo que pode ser utilizado para gerar um sinal de saída que está em conformidade com o padrão ATSC estão ilustradas ba figura 12 e abaixo discutidas.

[0048] A etapa 50 determina se o quadro do sinal de saída deve ou não ser gerado com um valor de parâmetro DIALNORM modificado. Isto pode ser feito pela determinação se o valor de parâmetro DIALNORM original é suficientemente preciso como acima descrito. Se nenhuma modificação no valor de parâmetro DIALNORM for necessária ou desejada, o processo continua com a etapa 61. De outro modo, o processo continua com a etapa 51.

[0049] A etapa 51 muda o valor de parâmetro DIALNORM em um quadro do sinal de saída. O parâmetro DIALNORM está representado por oito bits em todos os quadros de sinal que estão em conformidade com o padrão ATSC. O valor de parâmetro DIALNORM no sinal de saída pode ser facilmente modificado meramente mudando os valores dos bits que representam o parâmetro DIALNORM original.

[0050] A etapa 52 determina se existe alguma mudança em valor para o parâmetro COMPR ou para qualquer parâmetro DYNRNG. Se não, o processo continua com a etapa 61, a qual gera um quadro do sinal de saída com um valor de parâmetro DIALNORM modificado. De outro modo, o processo continua com a etapa 53.

[0051] As etapas necessárias para modificar os valores dos parâmetros COMPR e DYNRNG são mais complexas do que a etapa nePetição 870170056979, de 09/08/2017, pág. 25/45

17/29 cessária para modificar o valor de parâmetro DIALNORM porque os parâmetros COMPR e DYNRNG não estão sempre presentes em um quadro. As modificações podem mudar o número de bits necessários para representar estes parâmetros. A etapa 53 determina se existe alguma mudança no número de bits necessários para representar um valor de parâmetro COMPR ou qualquer valor de parâmetro DYNRNG. Se não, o processo continua com a etapa 60, a qual modifica estes parâmetros pela inserção dos valores modificados nas localizações apropriadas no quadro. A etapa 61 então gera um quadro do sinal de saída com um valor de parâmetro DIALNORM modificado e um ou mais valores modificados para os parâmetros COMPR e DYNRNG. [0052] Se a etapa 53 determinar que existe uma mudança no número de bits necessários para representar um valor de parâmetro COMPR ou qualquer valor de parâmetro DYNRNG, então os dados devem ser movidos dentro de um quadro para acomodar as mudanças. Nesta implementação específica, as mudanças no número de bits necessários para representar um parâmetro ocorrem somente se um parâmetro for ou adicionado ou removido de um quadro. Se um parâmetro deve ser adicionado, os dados são movidos para criar espaço para o novo parâmetro. Se um parâmetro deve ser removido, os dados são movidos para dentro do espaço vagado pelo parâmetro removido. [0053] Quando presentes em um quadro, os parâmetros COMPR e DYNRNG estão cada um representados por oito bits. A existência do parâmetro COMPR em um quadro está indicada por um sinalizador COMPRE de um bit. Quando ajustado para 1, o sinalizador COMPRE indica que um parâmetro COMPR está presente na seção de BSI de um quadro de sinal de entrada. A existência de um parâmetro DYNRNG em um respectivo bloco de áudio (AB0 a AB5) está indicada por um sinalizador DYNRNGE de um bit naquele bloco. Quando ajustado para 1, o sinalizador DYNRNGE indica que um valor de parâmetro

Petição 870170056979, de 09/08/2017, pág. 26/45

18/29

DYNRNG está presente no respectivo bloco de áudio. Se um valor de parâmetro DYNRNG não estiver presente no bloco de áudio AB0, um valor de parâmetro padrão de 0 dB (sem compressão) é suposto. Se um parâmetro DYNRNG não estiver presente em qualquer um dos blocos de áudio AB1 a AB5 subsequentes, então um valor de parâmetro para aquele bloco de áudio é implicitamente igual ao valor de parâmetro do bloco imediatamente precedente.

[0054] A etapa 54 calcula a mudança líquida em bits necessária para representar uma mudança em valor para cada um destes parâmetros. Isto pode ser expresso como:

D(k) = M(k) - O(k) onde D(k) = mudança líquida em bits necessária para representar o parâmetro k;

M(k) = número de bits necessários para representar o valor de parâmetro k modificado; e O(k) = número de bits necessários para representar o valor de parâmetro k original.

[0055] Uma simples notação é aqui utilizada para representar os parâmetros de metadados. Nesta notação, os parâmetros 0-5 correspondem ao parâmetro DYNRNG para os blocos de áudio AB0 a AB5, respectivamente, e o parâmetro 6 corresponde ao parâmetro COMPR. [0056] A etapa 55 utiliza os valores de D(k) para os parâmetros 0, 1 e 6 para determinar se as modificações propostas para os valores de parâmetro COMPR e para os parâmetros DYNRNG para os blocos de áudio AB0 e AB1 violarão o que é aqui referido como a Regra de 5/8^o. O padrão ATSC requer que o limite entre os blocos de áudio AB1 e AB2 em um quadro devem ocorrer dentro dos primeiros 5/8^o daquele quadro. Se o número de bits adicionais necessários para representar os valores modificados para o parâmetro COMPR e/ou os parâmetros DYNRNG nos blocos de áudio AB0 e AB1 requereria um movimento de dados em um quadro que viola a Regra de 5/8^o, então o processo

Petição 870170056979, de 09/08/2017, pág. 27/45

19/29 continua com a etapa 56, a qual reduz o número de bits necessários para representar um ou mais destes valores de parâmetro modificados. De outro modo, o processo continua com a etapa 57.

[0057] A etapa 56 faz uma redução inicial no número de bits necessários para representar os parâmetros DYNRNG modificados nos blocos de áudio AB0 e AB1. Isto é feito pela análise das modificações propostas nos sinalizadores de DYNRNGE para os blocos de áudio AB0 e AB1. Se somente o sinalizador de DYNRNGE modificado no bloco de áudio AB0 deve ser ajustado para 1, então este sinalizador é reinicializado para 0. Se somente o sinalizador de DYNRNGE modificado no bloco de áudio AB1 deve ser ajustado para 1, então este sinalizador e reinicializado para 0. Se os sinalizadores de DYNRNGE modificados em ambos os blocos de áudio AB0 e AB1 devem ser ajustados para 1, então um destes sinalizadores é reinicializado de acordo com o seguinte teste:

[0058] Se a diferença absoluta entre o valor de parâmetro DYNRNG modificado para o bloco de áudio AB0 e 0 dB for menor do que a diferença absoluta entre os valores de parâmetro DYNRNG modificados para os blocos de áudio AB0 e AB1, então o sinalizador de DYNRNGE modificado para o bloco de áudio AB0 é reinicializado para 0. De outro modo, o sinalizador de DYNRNGE modificado para o bloco de áudio AB1 é reinicializado para 0 e o valor de parâmetro DYNRNG modificado para o bloco de áudio AB0 é reinicializado para o menor dos dois valores de parâmetro DYNRNG modificado propostos para os blocos de áudio AB0 e AB1.

[0059] Se o sinalizador de DYNRNGE deve ser ajustado para 0 em ambos os blocos de áudio AB0 e AB1, então o sinalizador de

COMPRE é ajustado para 0. O parâmetro que está associado com um sinalizador que é reinicializado para 0 será omitido do quadro do sinal de saída. O valor para a mudança líquida D(k) correspondente é ajusPetição 870170056979, de 09/08/2017, pág. 28/45

20/29 tado para mostrar uma redução de oito bits.

[0060] O número de bits requerido é adicionalmente reduzido se a redução inicial não for suficiente. O sinalizador de DYNRNGE restante nos blocos de áudio AB0 e AB1 que deve ser ajustado para 1 é reinicializado para 0. O parâmetro de DYNRNG associado será omitido do quadro do sinal de saída e o valor da mudança líquida D(k) correspondente é ajustado para mostrar uma redução de oito bits. As uma ou mais reduções feitas nesta etapa são garantidas satisfazer a Regra de 5/8^o desde que o quadro do sinal de entrada inicialmente satisfazia a Regra de 5/8^o.

[0061] Se o calculador de faixa dinâmica 25 calculou um sinalizador de DYNRNGE modificado para o bloco de áudio AB2 que é igual a 0, então aquele cálculo foi executado na suposição de que um valor de parâmetro DYNRNG modificado para o bloco de áudio AB2 seria igual ao valor de parâmetro para o bloco de áudio AB1. Quaisquer mudanças feitas nos sinalizadores de DYNRNGE modificados para os blocos de áudio AB0 e AB1 para satisfazer a Regra de 5/8^o iria provavelmente violar esta suposição, causando uma mudança pretendida no valor de parâmetro DYNRNG para o bloco de áudio AB2. A única situação que não violaria esta suposição é o caso onde os sinalizadores de DYNRNGE modificados para ambos os blocos de áudio AB0 e AB1 fossem ajustados para 1 mas o sinalizador para somente o bloco de áudio AB0 foi reinicializado para 0. Para todas as outras situações, uma implementação preferida da presente invenção o sinalizador de DYNRNGE modificado para o bloco de áudio AB2 é reinicializado para 1 e o valor de parâmetro DYNRNG modificado é ajustado igual ao valor adequado calculado pelo calculador de faixa dinâmica 25.

[0062] As etapas restantes neste processo antes da geração do sinal de saída asseguram que um número suficiente de bits esteja disponível para representar todos os parâmetros de compressão modifiPetição 870170056979, de 09/08/2017, pág. 29/45

21/29 cados.

[0063] A etapa 57 determina o número total de bits necessários para representar todas as modificações propostas para os valores de parâmetro de compressão e o número total de bits não utilizados que estão disponíveis no quadro para representar estes valores de parâmetro modificados.

[0064] O número total de bits N_Tot que são necessários para representar todas as modificações propostas para os parâmetros de compressão podem ser determinados pelo cálculo da soma ^tot ~ MO h=Q [0065] O número total de bits não utilizado N_Av que estão disponíveis no quadro para representar os valores de parâmetro de compressão modificados é calculado das informações obtidas do quadro. Referindo à figura 5, cada quadro usualmente contém um número de bits não utilizados que podem ser utilizados para representar os novos parâmetros de metadados adicionados ao quadro. Alguns destes bits não utilizados estão dentro da seção W do quadro, os quais são bits não alocados que restam após as informações de áudio serem codificadas. Alguns bits não utilizados podem existir na área de Skip Data (SKIPD) de um bloco de áudio. Cada área de SKIPD está associada com um parâmetro SKIPL que indica o comprimento da área de SKIPD em bytes de 8 bits, e um sinalizador de SKIPLE de um bit que, se ajustado para 1, indica que o parâmetro SKIPL e a área de SKIPD existem. Se um respectivo bloco de áudio tiver um sinalizador de SKIPLE ajustado para 1 e um parâmetro SKIPL igual a 10, por exemplo, então a área de SKIPD daquele respectivo bloco de áudio contém 10 bytes ou 80 bits. O número total de bits não utilizados em um quadro pode ser determinado pela adição dos valores de todos os parâmetros SKIPL no quadro ao número de bits na seção W do quadro.

Petição 870170056979, de 09/08/2017, pág. 30/45

22/29 [0066] O número de bits N_W na seção W pode ser calculado de três valores conhecidos. O primeiro valor é o comprimento N_L do quadro expresso como um número de bits, o qual pode ser calculado de parâmetros transportados na seção de SI do quadro que especifica a taxa de amostra (FSCOD) e o tamanho de quadro (FRMSIZECOD). As informações adicionais podem ser obtidas do documento ATSC acima citado. O segundo valor é o número de bits ND utilizado para representar os dados transportados nas seções de SI e de BSI, todos os blocos de áudio AB0 a AB5 e o CRC2 no quadro. O terceiro valor é o comprimento NA da seção AUX do quadro, expresso como um número de bits. Este comprimento é transportado dentro do quadro no final da seção AUX. O cálculo pode ser expresso como

Nw = Nl - (ND + Na) [0067] A etapa 58 determina se o número de bits disponíveis N_AV é suficiente para satisfazer o número de bits total N_TOT necessário para representar os parâmetros de compressão modificados. Se um número suficiente de bits for disponível, o processo continua com a etapa 60. Se não, o processo continua com a etapa 59.

[0068] A etapa 59 muda um ou mais parâmetros de compressão modificados para reduzir o número de bits que são necessários para representá-los. Isto pode ser feito pela remoção do parâmetro DYNRNG de um ou mais blocos de áudio e associar estes blocos de áudio com o parâmetro DYNRNG de um bloco de áudio precedente. Os valores de parâmetro DYNRNG modificados e os sinalizadores de DYNRNGE nos seis blocos de áudio de um quadro são utilizados para agrupar os blocos em regiões. A primeira região inclui um bloco de áudio AB0 e todos os blocos de áudio imediatamente após este que tem o seu respectivo sinalizador de DYNRNGE modificado ajustado para 0. As regiões adicionais, se existirem, cada uma começa com um bloco de áudio que tem um sinalizador de DYNRNGE ajustado para 1 e inPetição 870170056979, de 09/08/2017, pág. 31/45

23/29 clui todos os blocos de áudio imediatamente seguintes ao bloco de início que tem um respectivo sinalizador de DYNRNGE modificado ajustado para 0. O número de regiões pode ser tão pouco quanto 1 se nenhum bloco de áudio em um quadro exceto possivelmente o bloco de áudio AB0 tem um sinalizador de DYNRNGE modificado ajustado para

1. O número de regiões pode ser tão grande quando seis se cada bloco de áudio no quadro tiver um sinalizador de DYNRNGE modificador ajustado para 1. Todos os blocos de áudio em uma região compartilham um valor de parâmetro DYNRNG comum. Se o sinalizador de DYNRNGE para o bloco de áudio AB0 for ajustado para 0, este valor para a primeira região está implicitamente especificado como acima explicado.

[0069] Se três ou mais regiões existirem, então o valor de parâmetro DYNRNG modificado compartilhado para a segunda região é comparado com o valor de parâmetro DYNRNG modificado compartilhado para cada região adjacente. O par de regiões que tiver os valores mais próximos é combinado em uma região ajustando o valor de parâmetro DYNRNG no primeiro bloco de áudio da região precedente com o menor dos dois valores de parâmetro DYNRNG modificados para as duas regiões e ajustando o sinalizador de DYNRNGE para 0 no primeiro bloco de áudio da região subsequente. Isto reduz o número total de bits necessário para representar os parâmetros DYNRNG modificados por oito bits. As regiões podem ser combinadas deste modo até que o número total de bits NTOT necessário para representar os valores de parâmetro DYNRNG modificados for menor do que ou igual ao número total de bits N_AV que estão disponíveis para representação, ou até que somente duas regiões restem.

[0070] Quando duas regiões existem e o N_AV é menor do que N_TOT as duas regiões são combinadas como descrito no parágrafo precedente.

Petição 870170056979, de 09/08/2017, pág. 32/45

24/29 [0071] Quando somente uma região existe e o N_AV é menor do que N_ToT, uma redução adicional é feita. Se o sinalizador de DYNRNGE modificado proposto para o bloco de áudio AB0 for ajustado para 1, a reinicialização deste sinalizador para 0 reduzirá N_ToT em oito bits. Se este sinalizador já foi ajustado para 0 ou se reinicializá-lo para zero não for suficiente, então a única mudança restante que pode ser feita é reinicializar o sinalizador de COMPRE para 0. Esta última mudança é garantida satisfazer as especificações de bits desde que o quadro do sinal de entrada inicialmente satisfazia as especificações de bits.

[0072] O processo continua com a etapa 60 quando a etapa 59 reduz N_ToT de modo que este seja menor do que ou igual a N_AV.

[0073] A etapa 60 move os dados dentro de um quadro quando necessário para acomodar a adição ou a remoção de parâmetros de compressão.

[0074] Para modificar o parâmetro COMPR, se o sinalizador de COMPRE original for ajustado para 1, o valor de parâmetro COMPR original é substituído pelo valor modificado. Se o sinalizador de COMPRE original for ajustado para 0 e o sinalizador de COMPRE modificado for ajustado para 1, os dados após o sinalizador de COMPRE são movidos na direção do final do quadro por oito bits para criar espaço para o novo parâmetro COMPR. O sinalizador de COMPRE no quadro do sinal de saída é ajustado para 1, e o novo valor de COMPR é escrito no novo espaço criado. Se o sinalizador de COMPRE original for ajustado para 1 o sinalizador de COMPRE modificado for ajustado para 0, então o sinalizador de COMPRE no quadro do sinal de saída é ajustado para 0 e os dados após o parâmetro COMPR são movidos na direção do início do quadro por oito bits porque o parâmetro COMPR não mais existe dentro do quadro.

[0075] Para modificar o parâmetro DYNRNG em cada bloco de áudio, se o sinalizador de DYNRNGE for ajustado para 1, o valor de

Petição 870170056979, de 09/08/2017, pág. 33/45

25/29 parâmetro DYNRNG original pode ser substituído pelo valor modificado. Se o sinalizador de DYNRNGE original for ajustado para e o sinalizador de DYNRNGE modificado for ajustado para 1, os dados após o sinalizador de DYNRNGE são movidos na direção do final do bloco de áudio por oito bits para criar espaço para o novo parâmetro DYNRNG. O sinalizador de DYNRNGE no bloco de áudio é ajustado para 1 e o novo valor de DYNRNG é escrito no novo espaço criado. Se o sinalizador de DYNRNGE original for ajustado para 1 e o sinalizador de DYNRNGE modificado for ajustado para 0, então o sinalizador de DYNRNGE no quadro do sinal de saída é ajustado para 0 e os dados após o parâmetro DYNRNG são movidos na direção do início do bloco de áudio por oito bits porque o parâmetro DYNRNG não mais existe no bloco.

[0076] É possível que a mudança no número de bits necessária para representar um parâmetro DYNRNG modificado em um respectivo bloco de áudio possa ser satisfeita fazendo mudanças somente naquele bloco de áudio. Se assim, isto pode ser feito pelo ajuste do número de bits na área de SKIPD e movendo os dados dentro do bloco de áudio. O parâmetro SKIPL é mudado para indicar o comprimento revisado da área de SKIPD. Se um parâmetro DYNRNG deve ser adicionado a um bloco de áudio e nenhuma área de SKIPD estiver presente naquele bloco, então os bits não utilizados devem ser obtidos da seção W ou de outro bloco de áudio.

[0077] A etapa 61 gera um quadro do sinal de saída. Se nenhum parâmetro de metadados for modificado, o quadro de sinal de saída pode ser idêntico a um respectivo quadro de sinal de entrada. Quando qualquer dado em um quadro mudou, um ou ambos os dois códigos de correção de erro CRC1 e CRC2 para o quadro devem ser recalculados. Se os dados forem mudados somente nos primeiros 5/8^o do quadro, é suficiente recalcular somente o código de CRC1. Se os daPetição 870170056979, de 09/08/2017, pág. 34/45

26/29 dos forem mudados somente nos últimos 3/8^o do quadro, é suficiente somente recalcular o código de CRC2.

Recodificação [0078] De acordo com o padrão ATSC, o parâmetro DIALNORM deve ter um valor inteiro dentro da faixa de -1 a -31 dB, inclusive. É possível que a medição de sonoridade obtida pelo analisador de sonoridade 15 esteja fora desta faixa. Esta situação poderia ser resolvida ajustando o parâmetro DIALNORM para o valor mais próximo dentro da faixa mas uma solução preferida é escalar as informações de áudio e escalar a medição de sonoridade de modo que o parâmetro DIALNORM possa expressar a medição de sonoridade correta. Por exemplo, se a medição de sonoridade calculada for -36 dB, a amplitude das informações de áudio pode ser intensificada em 5 dB de modo que o valor de parâmetro DIALNORM modificado possa ser ajustado corretamente para o valor válido mais próximo de -31 dB. Esta solução requer que as informações de áudio decodificadas sejam codificadas após a escalagem. Isto pode ser executado pela utilização de uma implementação do montador de sinal 30 como mostrado na figura 4. [0079] Nesta implementação, o escalador 31 escala as informações de áudio decodificadas recebidas do percurso 28 em resposta à medição de sonoridade calculada recebida do percurso 26. As informações de áudio escaladas são passadas ao longo do percurso 32 para o codificador 33, o qual codifica as informações de áudio escaladas. O valor da medição de sonoridade é ajustada para levar em conta a escalagem e passado para o formatador de sinal de saída 40 para inclusão no sinal de saída.

[0080] De preferência, o codificador 33 mantém todas as informações nas seções de BSI e AUX do quadro exceto para o parâmetro

DIALNORM. Os códigos de correção de erro CRC1 e CRC2 são recalculados e os parâmetros de metadados de compressão COMPR e/ou

Petição 870170056979, de 09/08/2017, pág. 35/45

27/29

DYNRNG são recalculados utilizando o perfil especificado pelas informações recebidas do percurso 27. Este processo de recodificação pode degradar a qualidade percebida das informações de áudio durante a reprodução; portanto, pode ser desejável executar a recodificação somente se o parâmetro DIALNORM original for considerado não suficientemente preciso como acima discutido.

[0081] As informações codificadas são passadas ao longo do percurso 34 para o formatador de sinal de saída 40, o qual formata e gera um sinal de saída ao longo do percurso 18 que transporta as informações de áudio recodificadas e os valores de parâmetro de metadados modificados.

[0082] Se o sinal de controle recebido do percurso 22 indicar que o parâmetro DIALNORM original é suficientemente preciso, as informações de áudio não precisam ser escaladas e recodificadas. Nesta situação, o formatador de sinal de saída 40 gera o sinal de saída pela modificação dos valores de parâmetro de metadados no sinal de entrada recebido do percurso 11.

F. IMPLEMENTAÇÃO DE HARDWARE [0083] Os dispositivos que incorporam vários aspectos da presente invenção podem estar implementados em uma variedade de modos que incluem um software para execução por um computador ou algum outro dispositivo que inclui componentes mais especializados tal como um circuito de processador de sinal digital (DSP) acoplado a componentes similares àqueles encontrados em um computador de uso geral. A figura 13 é um diagrama de blocos esquemático de um dispositivo 70 que pode ser utilizado para implementar os aspectos da presente invenção. O processador de sinal digital (DSP) 72 provê os recursos de computação. A RAM 73 é uma memória de acesso randômico (RAM) de sistema utilizada pelo DSP 72 para processamento. A ROM 74 representa alguma forma de armazenamento persistente tal como

Petição 870170056979, de 09/08/2017, pág. 36/45

28/29 uma memória somente de leitura (ROM) para armazenar os programas necessários para operar os dispositivos 70 e possivelmente para executar vários aspectos da presente invenção. O controle de I/O 75 representa um circuito de interface para receber e transmitir os sinais por meio dos canais de comunicação 76, 77. Na modalidade mostrada, todos os principais componentes do sistema conectam na barra condutora 71, a qual pode representar mais do que uma barra condutora física ou lógica; no entanto, uma arquitetura de barra não é requerida para implementar a presente invenção.

[0084] Nas modalidades implementadas por um sistema de computador de uso geral, componentes adicionais podem ser incluídos para o interfaceamento de dispositivos tais como um teclado ou um mouse e um display, e para controlar o dispositivo de armazenamento 78 que tem um meio de armazenamento tal como uma fita ou disco magnético, ou um meio ótico. O meio de armazenamento pode ser utilizado para gravar os programas de instruções para os sistemas operacionais, utilitários e aplicativos, e pode incluir programas que implementam vários aspectos da presente invenção. O sistema de computador pode ser feito tolerante a falhas de hardware. Um meio no qual isto pode ser feito é prover componentes redundantes tais como fontes de alimentação duplas e dispositivos de armazenamento redundantes e utilizar um sistema operacional que seja capaz de detectar e reagir a falhas.

[0085] As funções requeridas para praticar vários aspectos da presente invenção podem ser executadas por componentes que estão implementados em uma ampla variedade de modos que incluem os componentes lógicos discretos, os circuitos integrados, um ou mais ASICs e/ou processadores controlados por programa. O modo no qual estes componentes são implementados não é importante para a presente invenção.

Petição 870170056979, de 09/08/2017, pág. 37/45

29/29 [0086] As implementações de software da presente invenção podem ser transportadas por uma variedade de mídias legíveis por máquina tais como os percursos de comunicação de banda de base ou modulados através de todo o espectro que inclui de frequências supersônicas até ultravioleta, ou um meio de armazenamento que transporte as informações utilizado essencialmente qualquer tecnologia de gravação que inclui a fita, cartões ou disco magnéticos, cartões ou disco óticos, e marcações detectáveis sobre uma mídia que inclui o papel.

Petição 870170056979, de 09/08/2017, pág. 38/45

1/3

Claims

REIVINDICAÇÕES

1. Método para corrigir a sonoridade de reprodução e a faixa dinâmica de informações de áudio compreendendo as etapas de:

receber um sinal de entrada que transporta dados que representam um primeiro nível de normalização de sonoridade, um primeiro nível de ajuste de faixa dinâmica e primeiras informações de áudio codificadas, em que os dados transportados pelo sinal de entrada foram produzidos por um processo de codificação, em que gerou as primeiras informações de áudio codificadas de acordo com princípios psicoacústicos e determinou o primeiro nível de ajuste de faixa dinâmica em resposta à amplitude de informações de áudio, ao primeiro nível de normalização de sonoridade e a um perfil de compressão que especificam uma ou mais características operacionais de um compressor de sinal;

obter as informações de áudio decodificadas de um aplicativo de um processo de decodificação para o sinal de entrada;

caracterizado pelo fato de que ainda compreende as etapas de:

obter uma medição de sonoridade de uma análise das informações de áudio decodificadas e derivar um segundo nível de normalização de sonoridade da medição de sonoridade;

obter uma estimativa de um perfil de compressão utilizado pelo processo de codificação de uma análise das informações de áudio decodificadas e do primeiro nível de ajuste de faixa dinâmica;

gerar um sinal de saída que transporta os dados que representam um terceiro nível de normalização de sonoridade, um terceiro nível de ajuste de faixa dinâmica e terceiras informações de áudio codificadas que representam as informações de áudio em uma forma codificada, em que:

se uma diferença entre o primeiro e o segundo níPetição 870170081595, de 25/10/2017, pág. 4/9
2/3 veis de normalização de sonoridade não exceder um limite, o terceiro nível de normalização de sonoridade representa o primeiro nível de normalização de sonoridade, o terceiro nível de ajuste de faixa dinâmica representa o primeiro nível de ajuste de faixa dinâmica e as terceiras informações de áudio codificadas representam as primeiras informações de áudio codificadas, e se a diferença entre o primeiro e o segundo níveis de normalização de sonoridade exceder o limite, o terceiro nível de normalização de sonoridade é derivado do segundo nível de normalização de sonoridade e o terceiro nível de ajuste de faixa dinâmica é obtido em resposta à amplitude de informações de áudio, ao terceiro nível de normalização de sonoridade e à estimativa do perfil de compressão.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que, se a diferença entre o primeiro e o segundo níveis de normalização de sonoridade exceder o limite, as terceiras informações de áudio codificadas são geradas pela codificação das informações de áudio decodificadas de acordo com os princípios psicoacústico.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que, se a diferença entre o primeiro e o segundo níveis de normalização de sonoridade exceder o limite, as terceiras informações de áudio codificadas representam as primeiras informações de áudio codificadas.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal de entrada transporta um primeiro número de bits que representam o primeiro nível de ajuste de faixa dinâmica e o sinal de saída é gerado com os dados redispostos para acomodarem um segundo número de bits que representam o terceiro nível de ajuste de faixa dinâmica, em que o primeiro número de bits é maior do que o

Petição 870170081595, de 25/10/2017, pág. 5/9

3/3 segundo número de bits.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal de entrada transporta um primeiro número de bits que representam o primeiro nível de ajuste de faixa dinâmica e o sinal de saída é gerado com os dados redispostos para acomodarem um segundo número de bits que representam o terceiro nível de ajuste de faixa dinâmica, em que o primeiro número de bits é menor do que o segundo número de bits.
6. Aparelho para corrigir a sonoridade de reprodução e a faixa dinâmica de informações de áudio, caracterizado pelo fato de que o aparelho compreende um circuito adaptado para realizar o método conforme definido em qualquer uma das reivindicações 1 a 5.
7. Meio legível por computador caracterizado por conter o método conforme definido em qualquer uma das reivindicações 1 a 5.

Petição 870170081595, de 25/10/2017, pág. 6/9

1/5

• « · · * * w <

• · · * • * · ♦ • · 4 ' *

PROCESSO fc- PROCESSO DE PROCESSO PROCESSO DE DE FONTE DISTRIBUIÇÃO DE ENTREGA REPRODUÇÃO