BRPI0512882B1 - Método para corrigir os metadados que afetam a sonoridade de reprodução e a faixa dinâmica de informações de áudio - Google Patents

Método para corrigir os metadados que afetam a sonoridade de reprodução e a faixa dinâmica de informações de áudio Download PDF

Info

Publication number
BRPI0512882B1
BRPI0512882B1 BRPI0512882-0A BRPI0512882A BRPI0512882B1 BR PI0512882 B1 BRPI0512882 B1 BR PI0512882B1 BR PI0512882 A BRPI0512882 A BR PI0512882A BR PI0512882 B1 BRPI0512882 B1 BR PI0512882B1
Authority
BR
Brazil
Prior art keywords
level
audio information
dynamic range
loudness
audio
Prior art date
Application number
BRPI0512882-0A
Other languages
English (en)
Inventor
John Smithers Michael
Charles Riedmiller Jeffrey
Quito Robinson Charles
Graham Crockett Brett
Original Assignee
Dolby Laboratories Licensing Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation filed Critical Dolby Laboratories Licensing Corporation
Publication of BRPI0512882A publication Critical patent/BRPI0512882A/pt
Publication of BRPI0512882B1 publication Critical patent/BRPI0512882B1/pt

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/18Error detection or correction; Testing, e.g. of drop-outs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

método para corrigir os metadados que afetam a sonoridade de reprodução e a faixa dinâmica de informações de áudio. a presente invenção refere-se a um sinal codificado que transporta informações de áudio codificadas e metadados que podem ser utilizados para controlar a sonoridade e a faixa dinâmica das informações de áudio durante a sua reprodução. se os valores para estes parâmetros de metadados forem incorretamente ajustados, flutuações irritantes em sonoridade durante a reprodução podem resultar. a presente invenção supera este problema detectando os valores de parâmetro de metadados incorretos no sinal e substituindo os valores incorretos por valores corrigidos.

Description

(54) Título: MÉTODO PARA CORRIGIR OS METADADOS QUE AFETAM A SONORIDADE DE REPRODUÇÃO Ε A FAIXA DINÂMICA DE INFORMAÇÕES DE ÁUDIO (51) Int.CI.: H03G 9/00; G10L 25/00 (52) CPC: H03G 9/005,G10L 25/00 (30) Prioridade Unionista: 01/07/2004 US 10/884,177 (73) Titular(es): DOLBY LABORATORIES LICENSING CORPORATION (72) Inventor(es): MICHAEL JOHN SMITHERS; JEFFREY CHARLES RIEDMILLER; CHARLES QUITO ROBINSON; BRETT GRAHAM CROCKETT
1/29
Relatório Descritivo da Patente de Invenção para MÉTODO PARA CORRIGIR OS METADADOS QUE AFETAM A SONORIDADE DE REPRODUÇÃO E A FAIXA DINÂMICA DE INFORMAÇÕES DE ÁUDIO.
Campo da Técnica [001] A presente invenção refere-se à codificação e reprodução de áudio, e refere-se mais especificamente ao controle de sonoridade e faixa dinâmica de informações de áudio durante a reprodução. Antecedentes da Técnica [002] Existe um crescente nível de insatisfação entre os consumidores e os profissionais de áudio também com as extremas variações na sonoridade do áudio nas transmissões de rádio e de televisão e em material de áudio pré-gravado. Grandes variações em sonoridade frequentemente ocorrem conforme os ouvintes sintonizam de uma estação para a outra, conforme o programa recebido de uma dada estação muda entre um programa principal e os anúncios comerciais, e conforme os ouvintes mudam de mídia nos seus sistemas de reprodução tal como mudando entre diferentes discos compactos ou diferentes DVDs. Os ouvintes são frequentemente forçados a ajustar os controles de volume de seus receptores e sistemas de reprodução para manter uma sonoridade relativamente uniforme.
[003] Uma solução que foi proposta para superar este problema é a utilização de informações de controle ou metadados que acompanham as informações de áudio. Os metadados, ou os dados que descrevem os dados de áudio, podem ser providos em um sinal transmitido ou gravado para controlar a sonoridade de reprodução das informações de áudio. Um exemplo deste tipo de metadados está descrito no documento do Advanced Television System Committee (ATSC) A/52A intitulado Revisão A do Padrão de Compressão de Áudio Digital (AC-3) publicado em 20 de Agosto de 2001. Este padrão específiPetição 870170056979, de 09/08/2017, pág. 10/45
2/29 co especifica os metadados que incluem os parâmetros DIALNORM, COMPR e DYNRNG, os quais pertencem ao nível de sinal e faixa dinâmica de reprodução. Tanto o nível de sinal quanto a faixa dinâmica afetam o nível percebido ou subjetivo de um sinal, o que é referido como sonoridade. Os receptores que estão em conformidade com este padrão de áudio ASTC utilizam o parâmetro DIALNORM para controlar os níveis de sinal de reprodução, e podem utilizar os parâmetros COMPR e DYNRNG para controlar a compressão da faixa dinâmica do sinal de reprodução.
[004] Se este tipo de metadados for adequadamente utilizado durante a criação, distribuição, transmissão e processos de gravação do conteúdo de áudio, o problema com as excessivas variações de sonoridade de reprodução poderia ser eliminado ou pelo menos grandemente reduzido. Infelizmente, os metadados são algumas vezes mal utilizados ou não utilizados de todo por que estas são mal compreendidas, porque as pessoas adequadas não sabem como utilizá-los adequadamente, ou porque estes são utilizados para criar efeitos artísticos em modos inadequados.
Descrição da Invenção [005] É um objeto da presente invenção prover a correção de sonoridade de reprodução e faixa dinâmica de informações de áudio durante a reprodução.
[006] De acordo com um aspecto da presente invenção, um método para corrigir a sonoridade de reprodução e a faixa dinâmica de informações de áudio recebe um sinal de entrada que transporta dados que representam um primeiro nível de normalização de sonoridade, um primeiro nível de ajuste de faixa dinâmica e informações de áudio codificadas produzidas por um processo de codificação; obtém as informações de áudio decodificadas de um aplicativo de um processo de decodificação para o sinal de entrada; obtém uma medição
Petição 870170056979, de 09/08/2017, pág. 11/45
3/29 de sonoridade de uma análise das informações de áudio decodificadas e deriva um segundo nível de normalização de sonoridade da medição de sonoridade; obtém uma estimativa de um perfil de compressão utilizado pelo processo de codificação de uma análise das informações de áudio decodificadas e do primeiro nível de ajuste de faixa dinâmica; e gera um sinal de saída que condicionalmente transporta os dados que representam o segundo nível de normalização de sonoridade e um nível de ajuste de faixa obtido em resposta à amplitude de informações de áudio, ao segundo nível de normalização de sonoridade e à estimativa do perfil de compressão.
[007] Os vários aspectos da presente invenção e as suas modalidades preferidas podem ser melhor compreendidos referindo-se à discussão seguinte e aos desenhos acompanhantes nos quais os números de referência iguais referem-se a elementos iguais nas diversas figuras. O conteúdo da discussão seguinte e os desenhos são apresentados como exemplos somente e não devem ser compreendidos representarem limitações sobre o escopo da presente invenção.
Breve Descrição dos Desenhos [008] figura 1 é um diagrama de blocos esquemático de processos que ocorrem em sistemas de transmissão e de gravação típicos. [009] figura 2 é um diagrama de blocos esquemático de um dispositivo que provê um sinal de saída com informações de áudio e metadados que podem ser utilizados para corrigir a sonoridade de reprodução e a faixa dinâmica das informações de áudio.
[0010] figuras 3-4 são diagramas de blocos esquemáticos de componentes dentro do dispositivo ilustrado na figura 2.
[0011] figuras 5-8 são diagramas esquemáticos de sinais que transportam as informações de áudio codificadas e os metadados.
[0012] figuras 9-11 são ilustrações gráficas hipotéticas de como os metadados podem ser utilizados para corrigir a sonoridade e a faixa
Petição 870170056979, de 09/08/2017, pág. 12/45
4/29 dinâmica de três segmentos de informações de áudio.
[0013] figura 12 é um diagrama que ilustra as etapas em um processo que pode ser utilizado para gerar um quadro de um sinal de saída com parâmetros de metadados modificados.
[0014] figura 13 é um diagrama de blocos esquemático de um dispositivo que pode ser utilizado para implementar vários aspectos da presente invenção.
MODOS PARA EXECUTAR A INVENÇÃO
A. INTRODUÇÃO [0015] A figura 1 é uma ilustração esquemática de processos que ocorrem em um sistema de transmissão ou de gravação típico. O processo de fonte 1 representa as atividades que obtém as informações de áudio por síntese ou por captura de uma fonte tal como uma apresentação musical ao vivo ou um evento esportivo. O processo de distribuição 2 representa uma ampla gama de atividades que recebem as informações de áudio de uma ou mais fontes e montam toda ou parte destas informações em um programa acabado para transmitir ou gravar. As informações de vídeo assim como outros tipos de informações podem também ser obtidas e montadas no programa acabado em uma variedade de modos. O processo de entrega 3 representa as atividades que fazem com que o programa acabado seja transmitido ou gravado e subsequentemente entregue para o processo de reprodução 4. Durante alguns ou todos estes processos, as informações de áudio podem ser codificadas para reduzir as suas necessidades de capacidade de informações de modo que estas possam ser armazenadas em menos espaço ou transmitidas utilizando uma menor largura de banda. [0016] Em implementações preferidas de sistemas de transmissão e de gravação, cada um dos processos mostrados na figura 1 permite que os autores de conteúdo de áudio e os engenheiros de áudio especifiquem os metadados que definem a sonoridade e a faixa dinâmica
Petição 870170056979, de 09/08/2017, pág. 13/45
5/29 pretendidas das informações de áudio durante a sua reprodução. Infelizmente, mesmo nestas implementações preferidas, este tipo de metadados é ou equivocada e incorretamente utilizado ou deliberadamente mal utilizado. A presente invenção está direcionada para métodos e aparelhos que podem ser utilizados para corrigir a sonoridade e a faixa dinâmica de reprodução de informações de áudio durante a reprodução. A presente invenção pode ser utilizada uma ou mais vezes em qualquer um dos processos que estão ilustrados na figura 1; no entanto, é previsto que a presente invenção pode ser utilizada mais eficientemente próximo do final do processo de distribuição 2 ou próximo do início do processo de entrega 3. Por exemplo, a presente invenção poderia ser utilizada imediatamente antes da transmissão ou gravação de um programa acabado.
[0017] As implementações da presente invenção abaixo descritas incluem aspectos pertinentes à utilização com os sinais que transportam as informações de áudio codificadas em um formato que está em conformidade com o padrão ATSC acima mencionado. Estas implementações e aspectos específicos são meramente exemplos. Os princípios da presente invenção podem ser utilizados vantajosamente com essencialmente qualquer forma de sinal que transporte as informações de áudio e os metadados relativos à sonoridade e à faixa dinâmica das informações de áudio.
B. VISTA GERAL DO DISPOSITIVO [0018] A figura 2 é um diagrama de blocos esquemático de um dispositivo 10 que incorpora vários aspectos da presente invenção que podem ser utilizados para corrigir a sonoridade e a faixa dinâmica de reprodução de informações de áudio durante a reprodução. O dispositivo 10 recebe um sinal de entrada do percurso de comunicação 11 que transporta as informações de áudio codificadas e os metadados processa estas informações, e gera um sinal de saída ao longo do
Petição 870170056979, de 09/08/2017, pág. 14/45
6/29 percurso 18 que transporta as informações de áudio codificadas e os metadados modificados. Os metadados representam um nível de normalização de sonoridade e um nível de ajuste de faixa dinâmica para utilização durante a reprodução das informações de áudio.
[0019] O decodificador 12 processa o sinal de entrada para obter os metadados e uma representação decodificada das informações de áudio pela execução de processos que são complementares aos processos utilizados para gerar o sinal de entrada. As informações de áudio decodificadas são passadas ao longo do percurso 13. Os metadados são passados ao longo do percurso 14. Se o dispositivo 10 for utilizado com um sinal de entrada que tenha um formato que esteja em conformidade com o padrão ATSC acima mencionado, por exemplo, o decodificador 12 executa processos que determinam como os bits estavam alocados para representar o conteúdo espectral de um sinal de áudio, utiliza esta alocação para recuperar os componentes espectrais quantizados do sinal de entrada, e aplica filtros de síntese nos componentes espectrais recuperados para gerar as informações de áudio decodificadas. Informações adicionais podem ser obtidas do documento de ATSC acima mencionado.
[0020] O processo de decodificação executado pelo decodificador 12 difere somente ligeiramente do processo de decodificação executado por um sistema de reprodução convencional porque o decodificador 12 não utiliza os metadados de nível de normalização de sonoridade e de nível de ajuste de faixa dinâmica para fazer qualquer ajuste nas informações decodificadas.
[0021] Em uma implementação alternativa, o decodificador 12 difere mais significativamente dos decodificadores convencionais pelo fato de que este não decodifica as informações de áudio codificadas em informações de domínio de tempo. Ao contrário, este decodifica as informações de áudio codificadas em componentes espectrais dequantiPetição 870170056979, de 09/08/2017, pág. 15/45
7/29 zados ou coeficientes de transformada, os quais são passados ao longo do percurso 13 para um subsequente processamento. Esta mudança na implementação do decodificador 12 afeta os detalhes de implementação para o analisador de sonoridade 15, o analisador de faixa dinâmica 23, o calculador de faixa dinâmica 25, o escalador 31, e o codificador 33, todos abaixo discutidos, mas este não muda a natureza do processamento que estes componentes executam.
[0022] O analisador de sonoridade 15 analisa as informações de áudio decodificadas que este recebe do percurso 13 para obter uma medição de sonoridade, a qual este passa ao longo do percurso 16. Essencialmente qualquer análise pode ser utilizada em princípio; no entanto, a escolha da análise pode afetar a precisão da medição de sonoridade. De preferência, uma medição da sonoridade é obtida pelo isolamento de segmentos das informações de áudio que são predominantemente fala. Alguns modos nos quais isto pode ser feito estão descritos no Pedido de Patente U.S. Número 10/233.073 por Vinton et al. intitulado Controle de Sonoridade de Fala em Sinais Que Contém Fala e Outros tipos de Material de Áudio requerido em 30 de Agosto de 2002, número de publicação US 2004-0044525 publicado em 04 de Março de 2004. A identificação de segmentos que são predominantemente fala não é essencial mas usualmente aperfeiçoa a precisão da medição de sonoridade. Se a fala não estiver presente ou não for dominante, uma medição de sonoridade média das informações de áudio inteiras pode prover uma medição suficiente.
[0023] A medição de sonoridade pode ser obtida para um programa de áudio inteiro ou pode ser obtida para segmentos de essencialmente qualquer extensão que possa ser desejada. Um modo que uma medição de sonoridade Leqm pode ser calculada pode ser expresso como
Petição 870170056979, de 09/08/2017, pág. 16/45
8/29 ί τ < λ2 ι
Leqm = 101og10 T dt onde P(t) = nível de pressão de som ponderado em frequência do sinal no tempo t;
P0 = nível de pressão de som ponderado em frequência do sinal no tempo t=0; e m denota a ponderação de frequência aplicada ao sinal. [0024] Um exemplo bem conhecido de uma ponderação de frequência que pode ser utilizada é a assim denominada ponderação de sonoridade igual a A. Medições de potência ponderada B ou C padrão podem ser utilizadas. Ao contrário alternativamente, os modelos psicoacústicos de sonoridade podem ser utilizados tais como aqueles descritos em Acústica - Método para calcular o nível de sonoridade, ISO 532 (1975). De preferência, a medição de sonoridade é calculada em unidades de dB em relação à amplitude de uma senóide de tamanho natural digital (0 dB FS), a qual é o maior nível digital capaz de ser expresso pelos valores digitais de comprimento finito utilizados para representar as informações de áudio.
[0025] O gerador de sinal de saída 20 processa o sinal de saída recebido do percurso 11, os metadados de nível de normalização de sonoridade e de nível de ajuste de faixa recebidos do percurso 14, a representação decodificada das informações de áudio recebidas do percurso 13, e a medição de sonoridade derivada recebida do percurso 16, e gera ao longo do percurso 18 um sinal de saída que transporta uma representação codificada do sinal de áudio e um conjunto de metadados que pode ser utilizado para corrigir a sonoridade e a faixa dinâmica das informações de áudio durante a reprodução.
[0026] Detalhes adicionais da implementação estão abaixo descritos.
C. FORMATO DE SINAL
Petição 870170056979, de 09/08/2017, pág. 17/45
9/29 [0027] As implementações do dispositivo 10 que estão aqui descritas processam um sinal de entrada com informações de áudio codificadas e dados de metadados transportados em um formato que está em conformidade com o padrão ATSC acima mencionado. O sinal de entrada compreende dados binários que estão dispostos em quadros. Cada quadro contém as informações de áudio e os metadados que representam 1536 amostras de um a seis canais de sinais de áudio digitais. Os metadados são configuráveis e podem incluir informações tais como o idioma do conteúdo de áudio falado, se o conteúdo de áudio está sujeito à proteção de direitos autorais, e as informações de temporização. Os metadados também incluem o nível de normalização de sonoridade e um nível de ajuste de faixa dinâmica para utilização durante a reprodução das informações de áudio.
[0028] Cada quadro de sinal de entrada está dividido em seções como esquematicamente mostrado na figura 5. A seção de Informações de Sincronização (SI), mostrada na figura 6, transporta uma palavra de sincronização (SW) e o primeiro de dois códigos de redundância cíclica (CRC1) para a detecção de erros de bits nos primeiros 5/8o do quadro. A seção de Informações de Fluxo de Bits (BSI), mostrada na figura 7, transporta a maioria dos metadados para o quadro. Seis Blocos de Áudio (AB0 a AB5) transportam as informações de áudio codificadas e os metadados individuais, como mostrado na figura
8. As seções restantes do quadro incluem uma seção de bits de Refugo (W) que transporta os bits não utilizados que restam após o conteúdo de áudio ser codificado de modo que cada quadro tenha um número constante de bits, uma seção Auxiliar (AUX), a qual pode transportar os metadados adicionais que não são pertinentes à presente invenção, e o segundo de dois códigos de redundância cíclica (CRC2) para a detecção de erros de bits nos últimos 3/8o do quadro. Normalização de Sonoridade
Petição 870170056979, de 09/08/2017, pág. 18/45
10/29 [0029] A seção de BSI de cada quadro transporta um parâmetro de metadados referido como DIALNORM, o qual é um nível de normalização de sonoridade para utilização durante a reprodução. Este parâmetro está destinado a indicar a sonoridade média ou predominante da fala ou diálogo nas informações de áudio. Na ausência de fala, o parâmetro pode representar uma sonoridade média do conteúdo inteiro de um item de áudio. Um item de áudio é um intervalo de informações de áudio tal como, por exemplo, o áudio para um anúncio de televisão de 30 segundos ou a trilha sonora inteira de um filme de longa metragem.
[0030] A figura 9 é uma ilustração gráfica de níveis de sinal para três itens de áudio hipotéticos. O Nível Digital de cada item de áudio é a amplitude de suas informações de áudio em relação à amplitude de uma senóide de máxima amplitude digital (0 dB FS). Os níveis de sinal máximo e mínimo para cada item de áudio estão mostrados na figura juntamente com o valor de seu parâmetro DIALNORM. O valor de DIALNORM para cada item de áudio é arredondado para unidades de 1 dB.
[0031] Durante a reprodução, o processo de reprodução 4 utiliza o parâmetro DIALNORM para escalar a amplitude do sinal para a reprodução de modo que a sonoridade de fala percebida é consistente entre os diferentes itens de áudio. A figura 10 ilustra este processo graficamente. O processo de reprodução 4 ajusta o sinal em cada item de áudio de modo que a sua sonoridade, como indicada pelo parâmetro DIALNORM, é escalada para igual a um nível de referência de -31 dB FS. Este nível de referência pode ser calibrado em cada sistema de reprodução para corresponder a um nível de pressão de som desejado.
Ajuste de Faixa Dinâmica [0032] Cada quadro do sinal de entrada pode transportar os parâPetição 870170056979, de 09/08/2017, pág. 19/45
11/29 metros de metadados referidos como COMPR e DYNRNG, os quais são níveis de ajuste de faixa dinâmica para utilização durante a reprodução. Referindo às figuras 7 e 8, a seção de BSI de um quadro pode incluir um parâmetro COMPR que aplica ao quadro inteiro e cada bloco de áudio pode ter o seu respectivo parâmetro DYNRNG. Os valores para estes parâmetros são determinados durante o processo de codificação utilizando um de diversos perfis de compressão. Cada perfil inclui parâmetros de compressão típicos que especificam as características operacionais de um compressor tais como a razão de compressão, as constantes de tempo de ataque e liberação, e as faixas de amplitude para compressão. Os valores para estes parâmetros de compressão de faixa dinâmica são determinados com referência ao parâmetro DIALNORM de modo que a sonoridade média do item de áudio fica inalterada pela compressão.
[0033] Referindo novamente à figura 9, os níveis de sinal máximo e mínimo para três itens de áudio hipotéticos estão mostrados na figura juntamente com os valores dos parâmetros DIALNORM. Durante a reprodução, o processo de reprodução 4 pode utilizar o parâmetro COMPR ou os parâmetros DYNRNG para comprimir o sinal para a reprodução de modo que a faixa dinâmica seja reduzida. A figura 11 ilustra este processo graficamente. O processo de reprodução 4 comprime o sinal em cada item de áudio de modo que as faixas dinâmicas dos itens de áudio são mais uniformes.
[0034] A capacidade para reduzir a faixa dinâmica de um item de áudio é útil em uma variedade de situações. Por exemplo, é frequentemente desejável reduzir o nível re reprodução de áudio de um filme ou programa de televisão para assistir tarde da noite para evitar perturbar os membros da família que dormem ou os ocupantes de moradias adjacentes. Quando os itens de áudio tem uma faixa dinâmica muito grande tal como é típico para muitos filmes, a redução do nível
Petição 870170056979, de 09/08/2017, pág. 20/45
12/29 de reprodução para manter os segmentos mais altos em níveis toleráveis faz com que grande parte do diálogo seja difícil de escutar e quase impossível de compreender. A compressão de faixa dinâmica pode ser utilizada para reduzir a sonoridade dos segmentos mais altos, permitindo que a sonoridade de reprodução seja ajustada em um nível mais alto de modo que os segmentos de diálogo possam ser compreendidos. Além disso, a compressão de faixa dinâmica pode ser utilizada para aumentar a sonoridade de segmentos silenciosos que poderiam de outro modo não ser ouvidos sobre o ruído ambiente no ambiente de reprodução.
[0035] Uma operação adequada de compressão de faixa dinâmica requer um ajuste adequado para o parâmetro DIALNORM. Se o parâmetro DIALNORM for ajustado inadequadamente, então é muito provável que a compressão de faixa dinâmica alterará o nível de diálogo em um modo que é notável e irritante.
A Importância de Valores Adequados [0036] Quando o parâmetro DIALNORM é adequadamente ajustado, um sistema de reprodução pode prover uma experiência de ouvir mais consistente e previsível pela redução de dramáticas diferenças em sonoridade e faixa dinâmica do que de outro modo existiria na reprodução de itens de áudio. As diferenças irritantes podem ser eliminadas ou pelo menos grandemente reduzidas entre os anúncios de televisão, entretenimento de televisão e programas de notícias, e entre as diferentes estações de televisão.
[0037] Até agora, os sistemas de transmissão e de gravação precisavam basear-se nos autores de conteúdo de áudio e nos engenheiros de áudio para ajustar o DIALNORM adequadamente. Foi previsto que o nível de diálogo médio ou predominante de um item de áudio seria corretamente medido e o parâmetro DIALNORM seria ajustado consequentemente. Infelizmente, o parâmetro DIALNORM é algumas
Petição 870170056979, de 09/08/2017, pág. 21/45
13/29 vezes ajustado inadequadamente ou não expressamente ajustado, o que faz com que os sistemas de reprodução utilizem um valor padrão que é inadequado. Isto causa uma discrepância entre o nível indicado pelo parâmetro DIALNORM e o nível real de diálogo no áudio, o que impede ou pelo menos prejudica a capacidade de um sistema de reprodução prover uma experiência de audição consistente entre os diferentes itens de áudio.
[0038] Sob a maioria das circunstâncias, cada quadro transporta um único conjunto de parâmetros para a normalização de sonoridade e ajusta de faixa dinâmica que aplica-se a todos os canais; no entanto, o padrão ATSC permite que um quadro transporte um conjunto de parâmetros separado para cada canal em um sistema de dois canais. Referindo às figuras 7 e 8, o segundo conjunto de parâmetros está mostrado como DIALNORM2, COMPR2 e DYNRNG2. A discussão seguinte refere-se somente ao primeiro conjunto de parâmetros. Quando dois conjuntos de parâmetros estão presentes para um quadro, o segundo conjunto de parâmetros é utilizado do mesmo modo que o primeiro conjunto de parâmetros é utilizado.
D. GERADOR DE SINAL DE SAÍDA [0039] A figura 3 é um diagrama de blocos esquemático do gerador de sinal de saída 20 acima discutido em conexão com a figura 2. O comparador 21 compara os metadados de nível de normalização de sonoridade (DIALNORM) recebidos do percurso 14 e a medição de sonoridade derivada recebida do percurso 16, e gera um sinal de controle ao longo do percurso 22 que indica se o parâmetro DIALNORM é suficientemente preciso. O parâmetro DIALNORM pode ser considerado suficientemente preciso se o valor absoluto de uma diferença entre as duas entradas for menor do que um limite. Se desejado, este limite pode ser determinado igual a zero mas nas implementações preferidas o limite é escolhido para balancear uma negociação entre a precisão
Petição 870170056979, de 09/08/2017, pág. 22/45
14/29 dos parâmetros de metadados, o custo dos recursos computacionais necessários para implementar a presente invenção, e a possibilidade de que o valor calculado do parâmetro DIALNORM e assim como os valores de outros parâmetros de metadados estão incorretos e a sua utilização degradaria a qualidade das informações de áudio durante a reprodução. Um valor limite de três (3 dB) é adequado para muitas aplicações.
[0040] O montador de sinal 30 recebe o sinal de controle do percurso 22 e o sinal de entrada do percurso 11. Se o segundo sinal indicar que o parâmetro DIALNORM é suficientemente preciso, o sinal de entrada é passado para o percurso 18 inalterado. Se o sinal de controle indicar que o parâmetro DIALNORM não é suficientemente preciso, o montador de sinal 30 utiliza a medição de sonoridade derivada recebida do percurso 16 para prover um parâmetro DIALNORM modificado para o sinal de saída.
[0041] Sempre que o parâmetro DIALNORM é mudado, é provável que os valores dos parâmetros COMPR e DYNRNG devem ser também mudados. Os parâmetros COMPR e DYNRNG representam as mudanças de ganho que podem ser aplicadas por um decodificador em um sistema de reprodução convencional. O parâmetro COMPR representa um fator de escalagem que pode ser aplicado em todas as informações de áudio que são decodificadas de um quadro inteiro. O parâmetro DYNRNG em um respectivo bloco de áudio representa um fator de escalagem que pode ser aplicado nas informações de áudio que são decodificadas do bloco de áudio.
[0042] Os valores destes parâmetros foram calculados pelo codificador que gerou o sinal de entrada. Os valores originais poderiam ser deixados inalterados no sinal de entrada mas é provável que a decodificação do sinal de saída resultante por um sistema de reprodução convencional causaria severas flutuações de ganho possivelmente piPetição 870170056979, de 09/08/2017, pág. 23/45
15/29 cando o sinal de áudio. Uma implementação preferida da presente invenção provê valores modificados para os parâmetros COMPR e/ou DYNRNG quando é garantido. Estes valores modificados são gerados pelo analisador de faixa dinâmica 23 e pelo calculador de faixa dinâmica 25; no entanto, os valores modificados podem ser gerados mais precisamente se informações adicionais puderem ser obtidas sobre como o codificador calculou os valores de metadados originais.
[0043] As informações adicionais que são necessárias são o perfil de compressão que o codificador utilizou. Infelizmente, estas informações não são transportadas no sinal de entrada. O analisador de faixa dinâmica 23 estima qual perfil de compressão foi utilizado pelo codificador analisando os parâmetros DIALNORM, COMPR e DYNRNG recebidos do percurso 14 e a representação decodificada das informações de áudio recebidas do percurso 13. O perfil pode ser estimado repetidamente utilizando o mesmo processo de cálculo utilizado pelo codificador para calcular os parâmetros COMPR e/ou DYNRNG para cada perfil de compressão conhecido ser utilizado pelas implementações de codificador atuais. O perfil que gera os valores de parâmetro calculados que são mais próximos dos valores originais transportados no sinal de entrada é considerado ser o perfil de compressão utilizado pelo codificador. Uma indicação do perfil estimado é passada ao longo do percurso 24 para o calculador de faixa dinâmica 25.
[0044] A estimativa do perfil de compressão pode ser atualizada para cada quadro ou pode ser atualizada menos frequentemente. A frequência pode ser escolhida para balancear a negociação entre a precisão e a complexidade computacional.
[0045] É possível que o perfil de compressão estimado possa ser incorreto; portanto, pode ser desejável inserir metadados modificados no sinal de saída somente se o valor de parâmetro DIALNORM original for julgado não ser suficientemente preciso como acima discutido.
Petição 870170056979, de 09/08/2017, pág. 24/45
16/29
E. MONTADOR DE SINAL DE SAÍDA [0046] Sempre que metadados modificados são inseridos no sinal de saída, o sinal de saída resultante deve estar em conformidade com todas as especificações impostas pelo padrão ATSC. Isto é executado pelo montador de sinal 30. uma implementação alternativa do montador de sinal está ilustrada na figura 4 e abaixo discutida.
Reempacotamento do Sinal de Saída [0047] As etapas em um processo que pode ser utilizado para gerar um sinal de saída que está em conformidade com o padrão ATSC estão ilustradas ba figura 12 e abaixo discutidas.
[0048] A etapa 50 determina se o quadro do sinal de saída deve ou não ser gerado com um valor de parâmetro DIALNORM modificado. Isto pode ser feito pela determinação se o valor de parâmetro DIALNORM original é suficientemente preciso como acima descrito. Se nenhuma modificação no valor de parâmetro DIALNORM for necessária ou desejada, o processo continua com a etapa 61. De outro modo, o processo continua com a etapa 51.
[0049] A etapa 51 muda o valor de parâmetro DIALNORM em um quadro do sinal de saída. O parâmetro DIALNORM está representado por oito bits em todos os quadros de sinal que estão em conformidade com o padrão ATSC. O valor de parâmetro DIALNORM no sinal de saída pode ser facilmente modificado meramente mudando os valores dos bits que representam o parâmetro DIALNORM original.
[0050] A etapa 52 determina se existe alguma mudança em valor para o parâmetro COMPR ou para qualquer parâmetro DYNRNG. Se não, o processo continua com a etapa 61, a qual gera um quadro do sinal de saída com um valor de parâmetro DIALNORM modificado. De outro modo, o processo continua com a etapa 53.
[0051] As etapas necessárias para modificar os valores dos parâmetros COMPR e DYNRNG são mais complexas do que a etapa nePetição 870170056979, de 09/08/2017, pág. 25/45
17/29 cessária para modificar o valor de parâmetro DIALNORM porque os parâmetros COMPR e DYNRNG não estão sempre presentes em um quadro. As modificações podem mudar o número de bits necessários para representar estes parâmetros. A etapa 53 determina se existe alguma mudança no número de bits necessários para representar um valor de parâmetro COMPR ou qualquer valor de parâmetro DYNRNG. Se não, o processo continua com a etapa 60, a qual modifica estes parâmetros pela inserção dos valores modificados nas localizações apropriadas no quadro. A etapa 61 então gera um quadro do sinal de saída com um valor de parâmetro DIALNORM modificado e um ou mais valores modificados para os parâmetros COMPR e DYNRNG. [0052] Se a etapa 53 determinar que existe uma mudança no número de bits necessários para representar um valor de parâmetro COMPR ou qualquer valor de parâmetro DYNRNG, então os dados devem ser movidos dentro de um quadro para acomodar as mudanças. Nesta implementação específica, as mudanças no número de bits necessários para representar um parâmetro ocorrem somente se um parâmetro for ou adicionado ou removido de um quadro. Se um parâmetro deve ser adicionado, os dados são movidos para criar espaço para o novo parâmetro. Se um parâmetro deve ser removido, os dados são movidos para dentro do espaço vagado pelo parâmetro removido. [0053] Quando presentes em um quadro, os parâmetros COMPR e DYNRNG estão cada um representados por oito bits. A existência do parâmetro COMPR em um quadro está indicada por um sinalizador COMPRE de um bit. Quando ajustado para 1, o sinalizador COMPRE indica que um parâmetro COMPR está presente na seção de BSI de um quadro de sinal de entrada. A existência de um parâmetro DYNRNG em um respectivo bloco de áudio (AB0 a AB5) está indicada por um sinalizador DYNRNGE de um bit naquele bloco. Quando ajustado para 1, o sinalizador DYNRNGE indica que um valor de parâmetro
Petição 870170056979, de 09/08/2017, pág. 26/45
18/29
DYNRNG está presente no respectivo bloco de áudio. Se um valor de parâmetro DYNRNG não estiver presente no bloco de áudio AB0, um valor de parâmetro padrão de 0 dB (sem compressão) é suposto. Se um parâmetro DYNRNG não estiver presente em qualquer um dos blocos de áudio AB1 a AB5 subsequentes, então um valor de parâmetro para aquele bloco de áudio é implicitamente igual ao valor de parâmetro do bloco imediatamente precedente.
[0054] A etapa 54 calcula a mudança líquida em bits necessária para representar uma mudança em valor para cada um destes parâmetros. Isto pode ser expresso como:
D(k) = M(k) - O(k) onde D(k) = mudança líquida em bits necessária para representar o parâmetro k;
M(k) = número de bits necessários para representar o valor de parâmetro k modificado; e O(k) = número de bits necessários para representar o valor de parâmetro k original.
[0055] Uma simples notação é aqui utilizada para representar os parâmetros de metadados. Nesta notação, os parâmetros 0-5 correspondem ao parâmetro DYNRNG para os blocos de áudio AB0 a AB5, respectivamente, e o parâmetro 6 corresponde ao parâmetro COMPR. [0056] A etapa 55 utiliza os valores de D(k) para os parâmetros 0, 1 e 6 para determinar se as modificações propostas para os valores de parâmetro COMPR e para os parâmetros DYNRNG para os blocos de áudio AB0 e AB1 violarão o que é aqui referido como a Regra de 5/8o. O padrão ATSC requer que o limite entre os blocos de áudio AB1 e AB2 em um quadro devem ocorrer dentro dos primeiros 5/8o daquele quadro. Se o número de bits adicionais necessários para representar os valores modificados para o parâmetro COMPR e/ou os parâmetros DYNRNG nos blocos de áudio AB0 e AB1 requereria um movimento de dados em um quadro que viola a Regra de 5/8o, então o processo
Petição 870170056979, de 09/08/2017, pág. 27/45
19/29 continua com a etapa 56, a qual reduz o número de bits necessários para representar um ou mais destes valores de parâmetro modificados. De outro modo, o processo continua com a etapa 57.
[0057] A etapa 56 faz uma redução inicial no número de bits necessários para representar os parâmetros DYNRNG modificados nos blocos de áudio AB0 e AB1. Isto é feito pela análise das modificações propostas nos sinalizadores de DYNRNGE para os blocos de áudio AB0 e AB1. Se somente o sinalizador de DYNRNGE modificado no bloco de áudio AB0 deve ser ajustado para 1, então este sinalizador é reinicializado para 0. Se somente o sinalizador de DYNRNGE modificado no bloco de áudio AB1 deve ser ajustado para 1, então este sinalizador e reinicializado para 0. Se os sinalizadores de DYNRNGE modificados em ambos os blocos de áudio AB0 e AB1 devem ser ajustados para 1, então um destes sinalizadores é reinicializado de acordo com o seguinte teste:
[0058] Se a diferença absoluta entre o valor de parâmetro DYNRNG modificado para o bloco de áudio AB0 e 0 dB for menor do que a diferença absoluta entre os valores de parâmetro DYNRNG modificados para os blocos de áudio AB0 e AB1, então o sinalizador de DYNRNGE modificado para o bloco de áudio AB0 é reinicializado para 0. De outro modo, o sinalizador de DYNRNGE modificado para o bloco de áudio AB1 é reinicializado para 0 e o valor de parâmetro DYNRNG modificado para o bloco de áudio AB0 é reinicializado para o menor dos dois valores de parâmetro DYNRNG modificado propostos para os blocos de áudio AB0 e AB1.
[0059] Se o sinalizador de DYNRNGE deve ser ajustado para 0 em ambos os blocos de áudio AB0 e AB1, então o sinalizador de
COMPRE é ajustado para 0. O parâmetro que está associado com um sinalizador que é reinicializado para 0 será omitido do quadro do sinal de saída. O valor para a mudança líquida D(k) correspondente é ajusPetição 870170056979, de 09/08/2017, pág. 28/45
20/29 tado para mostrar uma redução de oito bits.
[0060] O número de bits requerido é adicionalmente reduzido se a redução inicial não for suficiente. O sinalizador de DYNRNGE restante nos blocos de áudio AB0 e AB1 que deve ser ajustado para 1 é reinicializado para 0. O parâmetro de DYNRNG associado será omitido do quadro do sinal de saída e o valor da mudança líquida D(k) correspondente é ajustado para mostrar uma redução de oito bits. As uma ou mais reduções feitas nesta etapa são garantidas satisfazer a Regra de 5/8o desde que o quadro do sinal de entrada inicialmente satisfazia a Regra de 5/8o.
[0061] Se o calculador de faixa dinâmica 25 calculou um sinalizador de DYNRNGE modificado para o bloco de áudio AB2 que é igual a 0, então aquele cálculo foi executado na suposição de que um valor de parâmetro DYNRNG modificado para o bloco de áudio AB2 seria igual ao valor de parâmetro para o bloco de áudio AB1. Quaisquer mudanças feitas nos sinalizadores de DYNRNGE modificados para os blocos de áudio AB0 e AB1 para satisfazer a Regra de 5/8o iria provavelmente violar esta suposição, causando uma mudança pretendida no valor de parâmetro DYNRNG para o bloco de áudio AB2. A única situação que não violaria esta suposição é o caso onde os sinalizadores de DYNRNGE modificados para ambos os blocos de áudio AB0 e AB1 fossem ajustados para 1 mas o sinalizador para somente o bloco de áudio AB0 foi reinicializado para 0. Para todas as outras situações, uma implementação preferida da presente invenção o sinalizador de DYNRNGE modificado para o bloco de áudio AB2 é reinicializado para 1 e o valor de parâmetro DYNRNG modificado é ajustado igual ao valor adequado calculado pelo calculador de faixa dinâmica 25.
[0062] As etapas restantes neste processo antes da geração do sinal de saída asseguram que um número suficiente de bits esteja disponível para representar todos os parâmetros de compressão modifiPetição 870170056979, de 09/08/2017, pág. 29/45
21/29 cados.
[0063] A etapa 57 determina o número total de bits necessários para representar todas as modificações propostas para os valores de parâmetro de compressão e o número total de bits não utilizados que estão disponíveis no quadro para representar estes valores de parâmetro modificados.
[0064] O número total de bits NTot que são necessários para representar todas as modificações propostas para os parâmetros de compressão podem ser determinados pelo cálculo da soma ^tot ~ MO h=Q [0065] O número total de bits não utilizado NAv que estão disponíveis no quadro para representar os valores de parâmetro de compressão modificados é calculado das informações obtidas do quadro. Referindo à figura 5, cada quadro usualmente contém um número de bits não utilizados que podem ser utilizados para representar os novos parâmetros de metadados adicionados ao quadro. Alguns destes bits não utilizados estão dentro da seção W do quadro, os quais são bits não alocados que restam após as informações de áudio serem codificadas. Alguns bits não utilizados podem existir na área de Skip Data (SKIPD) de um bloco de áudio. Cada área de SKIPD está associada com um parâmetro SKIPL que indica o comprimento da área de SKIPD em bytes de 8 bits, e um sinalizador de SKIPLE de um bit que, se ajustado para 1, indica que o parâmetro SKIPL e a área de SKIPD existem. Se um respectivo bloco de áudio tiver um sinalizador de SKIPLE ajustado para 1 e um parâmetro SKIPL igual a 10, por exemplo, então a área de SKIPD daquele respectivo bloco de áudio contém 10 bytes ou 80 bits. O número total de bits não utilizados em um quadro pode ser determinado pela adição dos valores de todos os parâmetros SKIPL no quadro ao número de bits na seção W do quadro.
Petição 870170056979, de 09/08/2017, pág. 30/45
22/29 [0066] O número de bits NW na seção W pode ser calculado de três valores conhecidos. O primeiro valor é o comprimento NL do quadro expresso como um número de bits, o qual pode ser calculado de parâmetros transportados na seção de SI do quadro que especifica a taxa de amostra (FSCOD) e o tamanho de quadro (FRMSIZECOD). As informações adicionais podem ser obtidas do documento ATSC acima citado. O segundo valor é o número de bits ND utilizado para representar os dados transportados nas seções de SI e de BSI, todos os blocos de áudio AB0 a AB5 e o CRC2 no quadro. O terceiro valor é o comprimento NA da seção AUX do quadro, expresso como um número de bits. Este comprimento é transportado dentro do quadro no final da seção AUX. O cálculo pode ser expresso como
Nw = Nl - (ND + Na) [0067] A etapa 58 determina se o número de bits disponíveis NAV é suficiente para satisfazer o número de bits total NTOT necessário para representar os parâmetros de compressão modificados. Se um número suficiente de bits for disponível, o processo continua com a etapa 60. Se não, o processo continua com a etapa 59.
[0068] A etapa 59 muda um ou mais parâmetros de compressão modificados para reduzir o número de bits que são necessários para representá-los. Isto pode ser feito pela remoção do parâmetro DYNRNG de um ou mais blocos de áudio e associar estes blocos de áudio com o parâmetro DYNRNG de um bloco de áudio precedente. Os valores de parâmetro DYNRNG modificados e os sinalizadores de DYNRNGE nos seis blocos de áudio de um quadro são utilizados para agrupar os blocos em regiões. A primeira região inclui um bloco de áudio AB0 e todos os blocos de áudio imediatamente após este que tem o seu respectivo sinalizador de DYNRNGE modificado ajustado para 0. As regiões adicionais, se existirem, cada uma começa com um bloco de áudio que tem um sinalizador de DYNRNGE ajustado para 1 e inPetição 870170056979, de 09/08/2017, pág. 31/45
23/29 clui todos os blocos de áudio imediatamente seguintes ao bloco de início que tem um respectivo sinalizador de DYNRNGE modificado ajustado para 0. O número de regiões pode ser tão pouco quanto 1 se nenhum bloco de áudio em um quadro exceto possivelmente o bloco de áudio AB0 tem um sinalizador de DYNRNGE modificado ajustado para
1. O número de regiões pode ser tão grande quando seis se cada bloco de áudio no quadro tiver um sinalizador de DYNRNGE modificador ajustado para 1. Todos os blocos de áudio em uma região compartilham um valor de parâmetro DYNRNG comum. Se o sinalizador de DYNRNGE para o bloco de áudio AB0 for ajustado para 0, este valor para a primeira região está implicitamente especificado como acima explicado.
[0069] Se três ou mais regiões existirem, então o valor de parâmetro DYNRNG modificado compartilhado para a segunda região é comparado com o valor de parâmetro DYNRNG modificado compartilhado para cada região adjacente. O par de regiões que tiver os valores mais próximos é combinado em uma região ajustando o valor de parâmetro DYNRNG no primeiro bloco de áudio da região precedente com o menor dos dois valores de parâmetro DYNRNG modificados para as duas regiões e ajustando o sinalizador de DYNRNGE para 0 no primeiro bloco de áudio da região subsequente. Isto reduz o número total de bits necessário para representar os parâmetros DYNRNG modificados por oito bits. As regiões podem ser combinadas deste modo até que o número total de bits NTOT necessário para representar os valores de parâmetro DYNRNG modificados for menor do que ou igual ao número total de bits NAV que estão disponíveis para representação, ou até que somente duas regiões restem.
[0070] Quando duas regiões existem e o NAV é menor do que NTOT as duas regiões são combinadas como descrito no parágrafo precedente.
Petição 870170056979, de 09/08/2017, pág. 32/45
24/29 [0071] Quando somente uma região existe e o NAV é menor do que NToT, uma redução adicional é feita. Se o sinalizador de DYNRNGE modificado proposto para o bloco de áudio AB0 for ajustado para 1, a reinicialização deste sinalizador para 0 reduzirá NToT em oito bits. Se este sinalizador já foi ajustado para 0 ou se reinicializá-lo para zero não for suficiente, então a única mudança restante que pode ser feita é reinicializar o sinalizador de COMPRE para 0. Esta última mudança é garantida satisfazer as especificações de bits desde que o quadro do sinal de entrada inicialmente satisfazia as especificações de bits.
[0072] O processo continua com a etapa 60 quando a etapa 59 reduz NToT de modo que este seja menor do que ou igual a NAV.
[0073] A etapa 60 move os dados dentro de um quadro quando necessário para acomodar a adição ou a remoção de parâmetros de compressão.
[0074] Para modificar o parâmetro COMPR, se o sinalizador de COMPRE original for ajustado para 1, o valor de parâmetro COMPR original é substituído pelo valor modificado. Se o sinalizador de COMPRE original for ajustado para 0 e o sinalizador de COMPRE modificado for ajustado para 1, os dados após o sinalizador de COMPRE são movidos na direção do final do quadro por oito bits para criar espaço para o novo parâmetro COMPR. O sinalizador de COMPRE no quadro do sinal de saída é ajustado para 1, e o novo valor de COMPR é escrito no novo espaço criado. Se o sinalizador de COMPRE original for ajustado para 1 o sinalizador de COMPRE modificado for ajustado para 0, então o sinalizador de COMPRE no quadro do sinal de saída é ajustado para 0 e os dados após o parâmetro COMPR são movidos na direção do início do quadro por oito bits porque o parâmetro COMPR não mais existe dentro do quadro.
[0075] Para modificar o parâmetro DYNRNG em cada bloco de áudio, se o sinalizador de DYNRNGE for ajustado para 1, o valor de
Petição 870170056979, de 09/08/2017, pág. 33/45
25/29 parâmetro DYNRNG original pode ser substituído pelo valor modificado. Se o sinalizador de DYNRNGE original for ajustado para e o sinalizador de DYNRNGE modificado for ajustado para 1, os dados após o sinalizador de DYNRNGE são movidos na direção do final do bloco de áudio por oito bits para criar espaço para o novo parâmetro DYNRNG. O sinalizador de DYNRNGE no bloco de áudio é ajustado para 1 e o novo valor de DYNRNG é escrito no novo espaço criado. Se o sinalizador de DYNRNGE original for ajustado para 1 e o sinalizador de DYNRNGE modificado for ajustado para 0, então o sinalizador de DYNRNGE no quadro do sinal de saída é ajustado para 0 e os dados após o parâmetro DYNRNG são movidos na direção do início do bloco de áudio por oito bits porque o parâmetro DYNRNG não mais existe no bloco.
[0076] É possível que a mudança no número de bits necessária para representar um parâmetro DYNRNG modificado em um respectivo bloco de áudio possa ser satisfeita fazendo mudanças somente naquele bloco de áudio. Se assim, isto pode ser feito pelo ajuste do número de bits na área de SKIPD e movendo os dados dentro do bloco de áudio. O parâmetro SKIPL é mudado para indicar o comprimento revisado da área de SKIPD. Se um parâmetro DYNRNG deve ser adicionado a um bloco de áudio e nenhuma área de SKIPD estiver presente naquele bloco, então os bits não utilizados devem ser obtidos da seção W ou de outro bloco de áudio.
[0077] A etapa 61 gera um quadro do sinal de saída. Se nenhum parâmetro de metadados for modificado, o quadro de sinal de saída pode ser idêntico a um respectivo quadro de sinal de entrada. Quando qualquer dado em um quadro mudou, um ou ambos os dois códigos de correção de erro CRC1 e CRC2 para o quadro devem ser recalculados. Se os dados forem mudados somente nos primeiros 5/8o do quadro, é suficiente recalcular somente o código de CRC1. Se os daPetição 870170056979, de 09/08/2017, pág. 34/45
26/29 dos forem mudados somente nos últimos 3/8o do quadro, é suficiente somente recalcular o código de CRC2.
Recodificação [0078] De acordo com o padrão ATSC, o parâmetro DIALNORM deve ter um valor inteiro dentro da faixa de -1 a -31 dB, inclusive. É possível que a medição de sonoridade obtida pelo analisador de sonoridade 15 esteja fora desta faixa. Esta situação poderia ser resolvida ajustando o parâmetro DIALNORM para o valor mais próximo dentro da faixa mas uma solução preferida é escalar as informações de áudio e escalar a medição de sonoridade de modo que o parâmetro DIALNORM possa expressar a medição de sonoridade correta. Por exemplo, se a medição de sonoridade calculada for -36 dB, a amplitude das informações de áudio pode ser intensificada em 5 dB de modo que o valor de parâmetro DIALNORM modificado possa ser ajustado corretamente para o valor válido mais próximo de -31 dB. Esta solução requer que as informações de áudio decodificadas sejam codificadas após a escalagem. Isto pode ser executado pela utilização de uma implementação do montador de sinal 30 como mostrado na figura 4. [0079] Nesta implementação, o escalador 31 escala as informações de áudio decodificadas recebidas do percurso 28 em resposta à medição de sonoridade calculada recebida do percurso 26. As informações de áudio escaladas são passadas ao longo do percurso 32 para o codificador 33, o qual codifica as informações de áudio escaladas. O valor da medição de sonoridade é ajustada para levar em conta a escalagem e passado para o formatador de sinal de saída 40 para inclusão no sinal de saída.
[0080] De preferência, o codificador 33 mantém todas as informações nas seções de BSI e AUX do quadro exceto para o parâmetro
DIALNORM. Os códigos de correção de erro CRC1 e CRC2 são recalculados e os parâmetros de metadados de compressão COMPR e/ou
Petição 870170056979, de 09/08/2017, pág. 35/45
27/29
DYNRNG são recalculados utilizando o perfil especificado pelas informações recebidas do percurso 27. Este processo de recodificação pode degradar a qualidade percebida das informações de áudio durante a reprodução; portanto, pode ser desejável executar a recodificação somente se o parâmetro DIALNORM original for considerado não suficientemente preciso como acima discutido.
[0081] As informações codificadas são passadas ao longo do percurso 34 para o formatador de sinal de saída 40, o qual formata e gera um sinal de saída ao longo do percurso 18 que transporta as informações de áudio recodificadas e os valores de parâmetro de metadados modificados.
[0082] Se o sinal de controle recebido do percurso 22 indicar que o parâmetro DIALNORM original é suficientemente preciso, as informações de áudio não precisam ser escaladas e recodificadas. Nesta situação, o formatador de sinal de saída 40 gera o sinal de saída pela modificação dos valores de parâmetro de metadados no sinal de entrada recebido do percurso 11.
F. IMPLEMENTAÇÃO DE HARDWARE [0083] Os dispositivos que incorporam vários aspectos da presente invenção podem estar implementados em uma variedade de modos que incluem um software para execução por um computador ou algum outro dispositivo que inclui componentes mais especializados tal como um circuito de processador de sinal digital (DSP) acoplado a componentes similares àqueles encontrados em um computador de uso geral. A figura 13 é um diagrama de blocos esquemático de um dispositivo 70 que pode ser utilizado para implementar os aspectos da presente invenção. O processador de sinal digital (DSP) 72 provê os recursos de computação. A RAM 73 é uma memória de acesso randômico (RAM) de sistema utilizada pelo DSP 72 para processamento. A ROM 74 representa alguma forma de armazenamento persistente tal como
Petição 870170056979, de 09/08/2017, pág. 36/45
28/29 uma memória somente de leitura (ROM) para armazenar os programas necessários para operar os dispositivos 70 e possivelmente para executar vários aspectos da presente invenção. O controle de I/O 75 representa um circuito de interface para receber e transmitir os sinais por meio dos canais de comunicação 76, 77. Na modalidade mostrada, todos os principais componentes do sistema conectam na barra condutora 71, a qual pode representar mais do que uma barra condutora física ou lógica; no entanto, uma arquitetura de barra não é requerida para implementar a presente invenção.
[0084] Nas modalidades implementadas por um sistema de computador de uso geral, componentes adicionais podem ser incluídos para o interfaceamento de dispositivos tais como um teclado ou um mouse e um display, e para controlar o dispositivo de armazenamento 78 que tem um meio de armazenamento tal como uma fita ou disco magnético, ou um meio ótico. O meio de armazenamento pode ser utilizado para gravar os programas de instruções para os sistemas operacionais, utilitários e aplicativos, e pode incluir programas que implementam vários aspectos da presente invenção. O sistema de computador pode ser feito tolerante a falhas de hardware. Um meio no qual isto pode ser feito é prover componentes redundantes tais como fontes de alimentação duplas e dispositivos de armazenamento redundantes e utilizar um sistema operacional que seja capaz de detectar e reagir a falhas.
[0085] As funções requeridas para praticar vários aspectos da presente invenção podem ser executadas por componentes que estão implementados em uma ampla variedade de modos que incluem os componentes lógicos discretos, os circuitos integrados, um ou mais ASICs e/ou processadores controlados por programa. O modo no qual estes componentes são implementados não é importante para a presente invenção.
Petição 870170056979, de 09/08/2017, pág. 37/45
29/29 [0086] As implementações de software da presente invenção podem ser transportadas por uma variedade de mídias legíveis por máquina tais como os percursos de comunicação de banda de base ou modulados através de todo o espectro que inclui de frequências supersônicas até ultravioleta, ou um meio de armazenamento que transporte as informações utilizado essencialmente qualquer tecnologia de gravação que inclui a fita, cartões ou disco magnéticos, cartões ou disco óticos, e marcações detectáveis sobre uma mídia que inclui o papel.
Petição 870170056979, de 09/08/2017, pág. 38/45
1/3

Claims (7)

  1. REIVINDICAÇÕES
    1. Método para corrigir a sonoridade de reprodução e a faixa dinâmica de informações de áudio compreendendo as etapas de:
    receber um sinal de entrada que transporta dados que representam um primeiro nível de normalização de sonoridade, um primeiro nível de ajuste de faixa dinâmica e primeiras informações de áudio codificadas, em que os dados transportados pelo sinal de entrada foram produzidos por um processo de codificação, em que gerou as primeiras informações de áudio codificadas de acordo com princípios psicoacústicos e determinou o primeiro nível de ajuste de faixa dinâmica em resposta à amplitude de informações de áudio, ao primeiro nível de normalização de sonoridade e a um perfil de compressão que especificam uma ou mais características operacionais de um compressor de sinal;
    obter as informações de áudio decodificadas de um aplicativo de um processo de decodificação para o sinal de entrada;
    caracterizado pelo fato de que ainda compreende as etapas de:
    obter uma medição de sonoridade de uma análise das informações de áudio decodificadas e derivar um segundo nível de normalização de sonoridade da medição de sonoridade;
    obter uma estimativa de um perfil de compressão utilizado pelo processo de codificação de uma análise das informações de áudio decodificadas e do primeiro nível de ajuste de faixa dinâmica;
    gerar um sinal de saída que transporta os dados que representam um terceiro nível de normalização de sonoridade, um terceiro nível de ajuste de faixa dinâmica e terceiras informações de áudio codificadas que representam as informações de áudio em uma forma codificada, em que:
    se uma diferença entre o primeiro e o segundo níPetição 870170081595, de 25/10/2017, pág. 4/9
  2. 2/3 veis de normalização de sonoridade não exceder um limite, o terceiro nível de normalização de sonoridade representa o primeiro nível de normalização de sonoridade, o terceiro nível de ajuste de faixa dinâmica representa o primeiro nível de ajuste de faixa dinâmica e as terceiras informações de áudio codificadas representam as primeiras informações de áudio codificadas, e se a diferença entre o primeiro e o segundo níveis de normalização de sonoridade exceder o limite, o terceiro nível de normalização de sonoridade é derivado do segundo nível de normalização de sonoridade e o terceiro nível de ajuste de faixa dinâmica é obtido em resposta à amplitude de informações de áudio, ao terceiro nível de normalização de sonoridade e à estimativa do perfil de compressão.
    2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que, se a diferença entre o primeiro e o segundo níveis de normalização de sonoridade exceder o limite, as terceiras informações de áudio codificadas são geradas pela codificação das informações de áudio decodificadas de acordo com os princípios psicoacústico.
  3. 3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que, se a diferença entre o primeiro e o segundo níveis de normalização de sonoridade exceder o limite, as terceiras informações de áudio codificadas representam as primeiras informações de áudio codificadas.
  4. 4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal de entrada transporta um primeiro número de bits que representam o primeiro nível de ajuste de faixa dinâmica e o sinal de saída é gerado com os dados redispostos para acomodarem um segundo número de bits que representam o terceiro nível de ajuste de faixa dinâmica, em que o primeiro número de bits é maior do que o
    Petição 870170081595, de 25/10/2017, pág. 5/9
    3/3 segundo número de bits.
  5. 5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal de entrada transporta um primeiro número de bits que representam o primeiro nível de ajuste de faixa dinâmica e o sinal de saída é gerado com os dados redispostos para acomodarem um segundo número de bits que representam o terceiro nível de ajuste de faixa dinâmica, em que o primeiro número de bits é menor do que o segundo número de bits.
  6. 6. Aparelho para corrigir a sonoridade de reprodução e a faixa dinâmica de informações de áudio, caracterizado pelo fato de que o aparelho compreende um circuito adaptado para realizar o método conforme definido em qualquer uma das reivindicações 1 a 5.
  7. 7. Meio legível por computador caracterizado por conter o método conforme definido em qualquer uma das reivindicações 1 a 5.
    Petição 870170081595, de 25/10/2017, pág. 6/9
    1/5
    • « · · * * w <
    • · · * • * · ♦ • · 4 ' *
    PROCESSO fc- PROCESSO DE PROCESSO PROCESSO DE DE FONTE DISTRIBUIÇÃO DE ENTREGA REPRODUÇÃO
BRPI0512882-0A 2004-07-01 2005-04-08 Método para corrigir os metadados que afetam a sonoridade de reprodução e a faixa dinâmica de informações de áudio BRPI0512882B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/884,177 2004-07-01
US10/884,177 US7617109B2 (en) 2004-07-01 2004-07-01 Method for correcting metadata affecting the playback loudness and dynamic range of audio information
PCT/US2005/011862 WO2006006977A1 (en) 2004-07-01 2005-04-08 Method for correcting metadata affecting the playback loudness and dynamic range of audio information

Publications (2)

Publication Number Publication Date
BRPI0512882A BRPI0512882A (pt) 2008-04-15
BRPI0512882B1 true BRPI0512882B1 (pt) 2018-02-14

Family

ID=34965214

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0512882-0A BRPI0512882B1 (pt) 2004-07-01 2005-04-08 Método para corrigir os metadados que afetam a sonoridade de reprodução e a faixa dinâmica de informações de áudio

Country Status (13)

Country Link
US (2) US7617109B2 (pt)
EP (2) EP2214308A1 (pt)
JP (1) JP4726898B2 (pt)
KR (2) KR101112565B1 (pt)
CN (1) CN1973434B (pt)
AT (1) ATE488911T1 (pt)
AU (1) AU2005262870B2 (pt)
BR (1) BRPI0512882B1 (pt)
CA (1) CA2566345C (pt)
DE (1) DE602005024812D1 (pt)
IL (1) IL179309A (pt)
MX (1) MXPA06015132A (pt)
WO (1) WO2006006977A1 (pt)

Families Citing this family (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
MXPA05012785A (es) * 2003-05-28 2006-02-22 Dolby Lab Licensing Corp Metodo, aparato y programa de computadora para el calculo y ajuste de la sonoridad percibida de una senal de audio.
ATE390683T1 (de) * 2004-03-01 2008-04-15 Dolby Lab Licensing Corp Mehrkanalige audiocodierung
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US7567897B2 (en) * 2004-08-12 2009-07-28 International Business Machines Corporation Method for dynamic selection of optimized codec for streaming audio content
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
MX2007005027A (es) 2004-10-26 2007-06-19 Dolby Lab Licensing Corp Calculo y ajuste de la sonoridad percibida y/o el balance espectral percibido de una senal de audio.
US7787974B2 (en) * 2005-01-05 2010-08-31 Verint Americas Inc. Independent source recording
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
EP2363421B1 (de) * 2005-04-18 2013-09-18 Basf Se Copolymere CP für die Herstellung von Zubereitungen, enthaltend wenigstens ein Conazolfungizid
WO2006126844A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
EP1927102A2 (en) * 2005-06-03 2008-06-04 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
KR100640477B1 (ko) * 2005-06-29 2006-10-30 삼성전자주식회사 디지털 멀티미디어 방송 채널에 따른 오디오 신호 출력방법 및 장치
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US20090254562A1 (en) * 2005-09-02 2009-10-08 Thomson Licensing Automatic Metadata Extraction and Metadata Controlled Production Process
KR100746010B1 (ko) * 2005-11-17 2007-08-06 삼성전자주식회사 수신된 음성 신호의 크기를 제어하는 장치 및 방법
WO2007083952A1 (en) * 2006-01-19 2007-07-26 Lg Electronics Inc. Method and apparatus for processing a media signal
KR100902899B1 (ko) 2006-02-07 2009-06-15 엘지전자 주식회사 부호화/복호화 장치 및 방법
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
EP2002426B1 (en) * 2006-04-04 2009-09-02 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
RU2417514C2 (ru) 2006-04-27 2011-04-27 Долби Лэборетериз Лайсенсинг Корпорейшн Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий
JP2007311965A (ja) * 2006-05-17 2007-11-29 Pioneer Electronic Corp デジタルオーディオ信号処理装置
US20080002839A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Smart equalizer
CN101529721B (zh) 2006-10-20 2012-05-23 杜比实验室特许公司 使用复位的音频动态处理
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
EP2111617B1 (en) * 2007-02-14 2013-09-04 LG Electronics Inc. Audio decoding method and corresponding apparatus
GB2451419A (en) * 2007-05-11 2009-02-04 Audiosoft Ltd Processing audio data
JP5192544B2 (ja) 2007-07-13 2013-05-08 ドルビー ラボラトリーズ ライセンシング コーポレイション 聴覚情景分析とスペクトルの歪みを用いた音響処理
KR101597375B1 (ko) * 2007-12-21 2016-02-24 디티에스 엘엘씨 오디오 신호의 인지된 음량을 조절하기 위한 시스템
US9275652B2 (en) * 2008-03-10 2016-03-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for manipulating an audio signal having a transient event
CN102113313B (zh) 2008-07-29 2013-10-30 Lg电子株式会社 处理音频信号的方法和装置
EP2329492A1 (en) * 2008-09-19 2011-06-08 Dolby Laboratories Licensing Corporation Upstream quality enhancement signal processing for resource constrained client devices
EP2347556B1 (en) 2008-09-19 2012-04-04 Dolby Laboratories Licensing Corporation Upstream signal processing for client devices in a small-cell wireless network
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
JP5603339B2 (ja) * 2008-10-29 2014-10-08 ドルビー インターナショナル アーベー 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
US7755526B2 (en) * 2008-10-31 2010-07-13 At&T Intellectual Property I, L.P. System and method to modify a metadata parameter
EP2374211B1 (en) 2008-12-24 2012-04-04 Dolby Laboratories Licensing Corporation Audio signal loudness determination and modification in the frequency domain
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
US8996826B2 (en) * 2009-04-28 2015-03-31 Symantec Corporation Techniques for system recovery using change tracking
US8302047B2 (en) * 2009-05-06 2012-10-30 Texas Instruments Incorporated Statistical static timing analysis in non-linear regions
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
WO2012004628A1 (en) * 2010-07-05 2012-01-12 Nokia Corporation Acoustic shock prevention apparatus
TWI896112B (zh) * 2010-12-03 2025-09-01 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
AU2015264941A1 (en) * 2010-12-03 2015-12-24 Dolby Laboratories Licensing Corporation Adaptive Processing with Multiple Media Processing Nodes
CN102044249B (zh) * 2010-12-10 2012-05-30 北京中科大洋科技发展股份有限公司 一种适用于文件播出系统的音频响度一致性控制方法
US9620131B2 (en) * 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
JP2013041197A (ja) * 2011-08-19 2013-02-28 Funai Electric Co Ltd デジタル放送受信装置
CN103946919B (zh) * 2011-11-22 2016-11-09 杜比实验室特许公司 用于产生音频元数据质量分数的方法和系统
EP2801095A1 (en) * 2012-01-06 2014-11-12 Sony Mobile Communications AB Smart automatic audio recording leveler
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN121122295A (zh) * 2012-05-18 2025-12-12 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
EP3957956A1 (en) * 2012-06-05 2022-02-23 Apple Inc. Context-aware voice guidance
US10156455B2 (en) 2012-06-05 2018-12-18 Apple Inc. Context-aware voice guidance
US9886794B2 (en) 2012-06-05 2018-02-06 Apple Inc. Problem reporting in maps
TWI578755B (zh) * 2012-07-06 2017-04-11 鴻海精密工業股份有限公司 遠端多方會議音量調整系統及方法
CN103577145B (zh) * 2012-08-10 2017-11-28 上海博泰悦臻电子设备制造有限公司 电子设备的音量处理装置及方法、电子系统
WO2014083569A1 (en) * 2012-11-29 2014-06-05 Ghose Anirvan A system for recording and playback for achieving standardization of loudness of soundtracks in cinemas
US9171552B1 (en) * 2013-01-17 2015-10-27 Amazon Technologies, Inc. Multiple range dynamic level control
CN119479682A (zh) * 2013-01-21 2025-02-18 杜比实验室特许公司 用于在不同回放设备之间优化响度和动态范围的系统和方法
TWM467148U (zh) * 2013-01-21 2013-12-01 Dolby Lab Licensing Corp 具響度處理狀態詮釋資料之音訊處理設備
KR102192755B1 (ko) * 2013-01-21 2020-12-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 프로그램 라우드니스 및 경계 메타데이터를 가진 오디오 인코더 및 디코더
CA2898567C (en) 2013-01-28 2018-09-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method and apparatus for normalized audio playback of media with and without embedded loudness metadata on new media devices
CN105074818B (zh) 2013-02-21 2019-08-13 杜比国际公司 音频编码系统、用于产生比特流的方法以及音频解码器
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9607624B2 (en) * 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
CN103399724B (zh) * 2013-07-08 2015-12-09 江苏省广播电视集团有限公司 一种数字音频响度测量卡
CN103345376B (zh) * 2013-07-08 2015-12-23 南京琅声声学科技有限公司 一种数字音频信号响度监测方法
EP2833549B1 (en) 2013-08-01 2016-04-06 EchoStar UK Holdings Limited Loudness level control for audio reception and decoding equipment
CN110675883B (zh) * 2013-09-12 2023-08-18 杜比实验室特许公司 用于下混合音频内容的响度调整
US9240763B2 (en) 2013-11-25 2016-01-19 Apple Inc. Loudness normalization based on user feedback
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
US9276544B2 (en) 2013-12-10 2016-03-01 Apple Inc. Dynamic range control gain encoding
US10073671B2 (en) * 2014-01-20 2018-09-11 Lenovo (Singapore) Pte. Ltd. Detecting noise or object interruption in audio video viewing and altering presentation based thereon
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
US20170246435A1 (en) 2014-09-02 2017-08-31 Helse Stavanger Hf Tube fixation device
RU2017106641A (ru) * 2014-09-08 2018-09-03 Сони Корпорейшн Устройство и способ кодирования, устройство и способ декодирования и программа
ES3033221T3 (en) 2014-10-01 2025-07-31 Dolby Int Ab Decoding an encoded audio signal using drc profiles
CN119296555A (zh) 2014-10-10 2025-01-10 杜比实验室特许公司 基于发送无关的表示的节目响度
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US9858063B2 (en) 2016-02-10 2018-01-02 Vignet Incorporated Publishing customized application modules
US9928230B1 (en) 2016-09-29 2018-03-27 Vignet Incorporated Variable and dynamic adjustments to electronic forms
US12217036B2 (en) 2016-02-10 2025-02-04 Vignet Incorporated Automating interactions for health data collection and patient engagement
CN111713016B (zh) * 2018-02-15 2023-11-28 杜比实验室特许公司 响度控制方法和装置
US10775974B2 (en) 2018-08-10 2020-09-15 Vignet Incorporated User responsive dynamic architecture
JP7019096B2 (ja) * 2018-08-30 2022-02-14 ドルビー・インターナショナル・アーベー 低ビットレート符号化オーディオの増強を制御する方法及び機器
KR102838620B1 (ko) * 2019-03-14 2025-07-25 가우디오랩 주식회사 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치
CN110231087B (zh) * 2019-06-06 2021-07-23 江苏省广播电视集团有限公司 一种高清电视音频响度分析报警及归一化制作方法和设备
US11250867B1 (en) * 2019-10-08 2022-02-15 Rockwell Collins, Inc. Incorporating data into a voice signal with zero overhead
WO2021138102A1 (en) 2019-12-30 2021-07-08 Arris Enterprises Llc Apparatus and method for automatic volume control with ambient noise compensation
US11763919B1 (en) 2020-10-13 2023-09-19 Vignet Incorporated Platform to increase patient engagement in clinical trials through surveys presented on mobile devices
US11907611B2 (en) * 2020-11-10 2024-02-20 Apple Inc. Deferred loudness adjustment for dynamic range control
CN112735446B (zh) * 2020-12-30 2022-05-17 北京百瑞互联技术有限公司 在lc3音频码流中添加额外信息的方法、系统及介质
US11417418B1 (en) 2021-01-11 2022-08-16 Vignet Incorporated Recruiting for clinical trial cohorts to achieve high participant compliance and retention
EP4243014A4 (en) 2021-01-25 2024-07-17 Samsung Electronics Co., Ltd. DEVICE AND METHOD FOR PROCESSING A MULTI-CHANNEL AUDIO SIGNAL
US11240329B1 (en) 2021-01-29 2022-02-01 Vignet Incorporated Personalizing selection of digital programs for patients in decentralized clinical trials and other health research
US11636500B1 (en) 2021-04-07 2023-04-25 Vignet Incorporated Adaptive server architecture for controlling allocation of programs among networked devices
US11705230B1 (en) 2021-11-30 2023-07-18 Vignet Incorporated Assessing health risks using genetic, epigenetic, and phenotypic data sources
US11901083B1 (en) 2021-11-30 2024-02-13 Vignet Incorporated Using genetic and phenotypic data sets for drug discovery clinical trials
KR20240098312A (ko) 2022-12-21 2024-06-28 서동민 가변 이득 증폭기를 이용한 음량 압축기
US12563339B2 (en) * 2023-02-09 2026-02-24 Samsung Electronics Co., Ltd. Signal normalization using loudness metadata for audio processing

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744502B2 (ja) * 1989-11-16 1995-05-15 名古屋テレビ放送株式会社 Cm音声レベルの自動制御方式
JP3056815B2 (ja) * 1991-04-05 2000-06-26 アルパイン株式会社 オ−ディオ信号のデジタル可変コンプレッサ−
JPH06152291A (ja) * 1992-10-30 1994-05-31 Clarion Co Ltd 入力信号のダイナミックレンジ圧縮装置
JPH0877726A (ja) * 1994-09-06 1996-03-22 Hitachi Ltd ディジタル信号処理装置、誤り検出方法および記録媒体再生装置
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
JP2001230647A (ja) * 2000-02-17 2001-08-24 Oki Electric Ind Co Ltd エキスパンダ回路
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
KR101014309B1 (ko) 2002-10-23 2011-02-16 닐슨 미디어 리서치 인코퍼레이티드 압축된 오디오/비디오 데이터와 함께 사용하기 위한 디지털데이터 삽입장치 및 방법
MXPA05012785A (es) 2003-05-28 2006-02-22 Dolby Lab Licensing Corp Metodo, aparato y programa de computadora para el calculo y ajuste de la sonoridad percibida de una senal de audio.
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming

Also Published As

Publication number Publication date
KR20070031920A (ko) 2007-03-20
IL179309A0 (en) 2007-03-08
JP4726898B2 (ja) 2011-07-20
WO2006006977A1 (en) 2006-01-19
US8032385B2 (en) 2011-10-04
IL179309A (en) 2010-12-30
EP2214308A1 (en) 2010-08-04
US20060002572A1 (en) 2006-01-05
BRPI0512882A (pt) 2008-04-15
AU2005262870A1 (en) 2006-01-19
US20100250258A1 (en) 2010-09-30
MXPA06015132A (es) 2007-03-26
ATE488911T1 (de) 2010-12-15
EP1771945B1 (en) 2010-11-17
CA2566345A1 (en) 2006-01-19
KR20100061759A (ko) 2010-06-08
HK1097963A1 (en) 2007-07-06
JP2008505586A (ja) 2008-02-21
CA2566345C (en) 2014-06-17
DE602005024812D1 (de) 2010-12-30
KR101112565B1 (ko) 2012-02-15
CN1973434B (zh) 2012-07-04
AU2005262870B2 (en) 2009-11-19
EP1771945A1 (en) 2007-04-11
CN1973434A (zh) 2007-05-30
US7617109B2 (en) 2009-11-10

Similar Documents

Publication Publication Date Title
BRPI0512882B1 (pt) Método para corrigir os metadados que afetam a sonoridade de reprodução e a faixa dinâmica de informações de áudio
CN101160616B (zh) 用于产生、处置或解码数字比特流的处理方法
KR102686742B1 (ko) 객체 기반 오디오 신호 균형화
CN111370007B (zh) 用于响度和动态范围控制的元数据
BR112013005958B1 (pt) método para misturar dois sinais de entrada de áudio em um único sinal de áudio misturado, dispositivo para misturar sinais, meio de armazenamento legível por processador e dispositivo para misturar sinais de entrada de áudio em um único sinal de áudio misturado
EP1742203B1 (en) Audio level control for compressed audio
HK1097963B (en) Method for correcting metadata affecting the playback loudness and dynamic range of audio information

Legal Events

Date Code Title Description
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B15K Others concerning applications: alteration of classification

Ipc: H03G 9/00 (2006.01), G10L 25/00 (2013.01)

B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]