BRPI0808202A2 - Dispositivo de codificação e método de codificação. - Google Patents
Dispositivo de codificação e método de codificação. Download PDFInfo
- Publication number
- BRPI0808202A2 BRPI0808202A2 BRPI0808202-2A BRPI0808202A BRPI0808202A2 BR PI0808202 A2 BRPI0808202 A2 BR PI0808202A2 BR PI0808202 A BRPI0808202 A BR PI0808202A BR PI0808202 A2 BRPI0808202 A2 BR PI0808202A2
- Authority
- BR
- Brazil
- Prior art keywords
- coding
- fixed waveform
- fixed
- amplitude
- section
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 16
- 238000001228 spectrum Methods 0.000 claims description 53
- 238000013139 quantization Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 description 18
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000005284 excitation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
Relatório Descritivo da Patente de Invenção para "DISPOSITIVO DE CODIFICAÇÃO E MÉTODO DE CODIFICAÇÃO".
Campo Técnico
A presente invenção refere-se a um aparelho de codificação e a um método de codificação para a codificação de sinais de fala e de sinais de áudio.
Técnica Antecedente
Em comunicações móveis, é necessário comprimir e codificar uma informação digital, tal como fala e imagens para uso eficiente de uma capacidade de canal de rádio e meios de armazenamento para ondas de rádio, e muitos esquemas de codificação e de decodificação foram desenvolvidos até agora.
Dentre estes, a performance de uma tecnologia de codificação de fala tem sido melhorada significativamente pelo esquema fundamental de 15 "CELP (Code Excited Linear Prediction -predição linear excitada por código)", a qual adota de forma hábil uma quantificação de vetor pela modelagem do sistema de trato vocal de fala. Ainda, a performance de uma tecnologia de codificação de som, tal como uma codificação de áudio foi melhorada significativamente por técnicas de codificação de transformada (tais como 20 ACC de MPEG-padrão e MP3).
Em uma codificação de sinal de fala com base no esquema de CELP e outros, um sinal de fala frequentemente é representado por uma excitação e um filtro de síntese. Se um vetor tendo um formato similar a um sinal de excitação, o qual é uma seqüência de vetor de domínio de tempo, 25 puder ser decodificado, será possível produzir uma forma de onda similar a uma fala introduzida através de um filtro de síntese, e obter uma boa qualidade perceptiva. Isto é a característica qualitativa que levou ao sucesso do livro de código algébrico usado em CELP.
Por outro lado, em um Codec (codificador - decodificador) escalável, cuja padronização está em andamento pela ITU-T (União de Telecomunicação Internacional - Setor de Padronização de Telecomunicação) e outros, é projetado para cobrir da banda de fala convencional (300 Hz a 3,4 kHz) até uma banda larga (de até 7 kHz), com sua taxa de bit regulada tão alta quanto até aproximadamente 32 kbps. Isto é, um codificador - decodificador de banda larga tem que aplicar uniformemente um certo grau de codificação a um áudio e, portanto, não pode ser suportado apenas por mé5 todos convencionais de codificação de fala de taxa de bit baixa, com base no modelo de voz humana, tal como CELP. Agora, a norma da ITU-T G.729.1, declarada anteriormente como uma recomendação, usa um esquema de codificação de Codec (codificador - decodificador) de áudio de codificação de transformada, para a codificação da fala de uma banda larga e acima.
O Documento de Patente 1 mostra um esquema de codificação
de um espectro de frequência que utiliza parâmetros espectrais e parâmetros tonais, por meio do que uma transformada ortogonal e uma codificação de um sinal adquirido por uma filtração inversa de um sinal de fala são realizadas com base em parâmetros espectrais, e mostra, mais ainda, como um 15 exemplo de codificação, um método de codificação com base em livros de código de estrutura algébricas.
Documento de Patente 1: Pedido de Patente Japonesa Aberta N0 em inspeção pública HE110-260698.
Exposição da Invenção Problemas a Serem Resolvidos pela Invenção
Contudo, em um esquema convencional de codificação de um espectro de frequência, uma informação de bit limitada é alocada à informação de posição de pulso. Por outro lado, esta informação de bit limitada não é alocada a uma informação de amplitude dos pulsos, e a amplitude de to25 dos os pulsos é fixada. Consequentemente, permanece uma distorção de codificação.
Portanto, é um objetivo da presente invenção prover um aparelho de codificação e um método de codificação que possam reduzir uma distorção de codificação média se comparado a um esquema convencional e obter uma boa qualidade perceptiva, em um esquema de codificação de um espectro de frequência.
Meios para Resolução do Problema O aparelho de codificação da presente invenção que modela e codifica um espectro de frequência com uma pluralidade de formas de onda fixas, emprega uma configuração que tem: uma seção de quantificação de formato que busca e codifica posições e polaridades das formas de onda 5 fixas; e uma seção de quantificação de ganho que codifica ganhos das formas de onda fixas, e na qual, mediante uma busca pelas posições das formas de onda fixas, a seção de quantificação de formato regula uma amplitude de uma forma de onda fixa a buscar mais tarde, para ser igual a ou mais baixa do que uma amplitude de uma forma de onda fixa buscada anterior10 mente.
O método de codificação da presente invenção inclui de modelagem e codificação de um espectro de frequência com uma pluralidade de formas de onda fixas inclui: uma etapa de quantificação de formato de busca e codificação de posições e polaridades das formas de onda fixas; e uma 15 etapa de quantificação de ganho de codificação de ganhos das formas de onda fixas, e no qual, mediante uma busca pelas posições das formas de onda fixas, a etapa de quantificação de formato compreende a regulagem de uma amplitude de uma forma de onda fixa para busca mais tarde, para ser igual a ou mais baixa do que uma amplitude de uma forma de onda fixa bus20 cada anteriormente.
Efeitos Vantajosos da Invenção
De acordo com a presente invenção, em um esquema de codificação de um espectro de frequência, pela regulagem da amplitude de um pulso para busca mais tarde, para ser igual a ou mais baixo do que a ampli25 tude de um pulso buscado anteriormente, é possível reduzir a distorção de codificação média, se comparado a um esquema convencional, e prover uma qualidade de aparelho de obturação mecânica alta, mesmo em uma taxa de bit baixa.
Breve Descrição dos Desenhos A figura 1 é um diagrama de blocos que mostra a configuração
de um aparelho de codificação de fala de acordo com uma modalidade da presente invenção; a figura 2 é um diagrama de blocos que mostra a configuração de um aparelho de decodificação de fala de acordo com uma modalidade da presente invenção;
a figura 3 é um fluxograma que mostra o algoritmo de busca de uma seção de quantificação de formato de acordo com uma modalidade da presente invenção; e
a figura 4 é um diagrama de exemplo representado por pulsos a buscar por uma seção de quantificação de formato de acordo com uma modalidade da presente invenção.
Melhor Modo para Realização da Invenção
Em uma codificação de sinal de fala com base no esquema de CELP e outros, um sinal de fala frequentemente é representado por uma excitação e um filtro de síntese. Se um vetor tendo um formato similar a um sinal de excitação, o qual é uma seqüência de vetor de domínio de tempo, 15 puder ser decodificado, será possível produzir uma forma de onda similar a uma fala introduzida através de um filtro de síntese, e obter uma boa qualidade perceptiva. Isto é a característica qualitativa que levou ao sucesso do livro de código algébrico usado em CELP.
Por outro lado, no caso de uma codificação de espectro de fre20 quência (vetor), um filtro de síntese tem ganhos espectrais como seus componentes e, portanto, a distorção das frequências (isto é, posições) de componentes de potência grande) é mais significativa do que a distorção destes ganhos. Isto é, pela busca por posições de energia alta e pela decodificação dos pulsos nas posições de energia alta, ao invés de uma decodificação de 25 um vetor tendo um formato similar para um espectro de entrada, é mais provável de obter uma boa qualidade perceptiva.
Portanto, uma codificação de espectro de frequência emprega um modelo de codificação de uma frequência por um número pequeno de pulsos e emprega um método de busca por pulsos em um laço aberto no intervalo de frequência do alvo de codificação.
Os presentes inventores se concentraram no ponto em que, uma vez que os pulsos são selecionados em ordem de pulsos que reduzem uma distorção, um pulso a buscar mais tarde tem um valor de expectativa mais baixo, e chegaram à presente invenção. Isto é, um recurso da presente invenção está na regulagem da amplitude de um pulso a buscar mais tarde, para ser igual a ou menor do que a amplitude de um pulso buscado anteri5 ormente.
Uma modalidade da presente invenção será explicada abaixo, usando-se os desenhos associados.
A figura 1 é um diagrama de blocos que mostra a configuração do aparelho de codificação de fala de acordo com a presente modalidade. O 10 aparelho de codificação de fala mostrado na figura 1 é provido com uma seção de análise de LPC 101, uma seção de quantificação de LPC 102, um filtro inverso 103, uma seção de transformada ortogonal 104, uma seção de codificação de espectro 105 e uma seção de multiplexação 106. A seção de codificação de espectro 105 é provida com uma seção de quantificação de 15 formato 111 e uma seção de quantificação de ganho 112.
A seção de análise de LPC 101 realiza uma análise de predição linear de um sinal de fala de entrada e extrai um parâmetro de envoltória espectral para a seção de quantificação de LPC 102 como um resultado de análise. A seção de quantificação de LPC 102 realiza um processamento de 20 quantificação do parâmetro de envoltória espectral (LPC: coeficiente de predição linear) extraído a partir da seção de análise de LPC 101, e extrai um código que representa o LPC de quantificação para a seção de multiplexação 106. Ainda, a seção de quantificação de LPC 102 extrai parâmetros decodificados adquiridos pela decodificação do código que representa o LPC 25 quantificação para o filtro inverso 103. Aqui, a quantificação de parâmetro pode empregar uma quantificação de vetor ("VQ"), uma quantificação de predição, uma VQ de estágio múltiplo, uma VQ dividida e outros modos.
O filtro inverso 103 filtra ao inverso uma fala de entrada usando os parâmetros decodificados e extrai a componente residual resultante para a seção de transformada ortogonal 104.
A seção de transformada ortogonal 104 aplica uma janela de combinação, tal como uma janela seno, à componente residual, realiza uma transformada ortogonal usando MDCT, e extrai um espectro transformado em um espectro de domínio de frequência (a partir deste ponto, um "espectro de entrada") para a seção de codificação de espectro 105. Aqui, a transformada ortogonal pode empregar outras transformadas, tais como FFT, KLT 5 e transformada de ondulação, e, embora seu uso varie, é possível transformar a componente residual em um espectro de entrada usando-se qualquer uma destas.
Aqui, a ordem de processamento entre o filtro inverso 103 e a seção de transformada ortogonal 104 pode ser revertida. Isto é, pela divisão da fala de entrada submetida a uma transformada ortogonal pelo espectro de frequência de um filtro inverso (isto é, uma subtração no eixo logarítmico), é possível produzir o mesmo espectro de entrada.
A seção de codificação de espectro 105 divide o espectro de entrada pela quantificação do formato e do ganho do espectro separada15 mente, e extrai os códigos de quantificação resultantes para a seção de multiplexação 106. A seção de quantificação de formato 111 quantifica o formato do espectro de entrada usando um número pequeno de posições de pulso e polaridades, e a seção de quantificação de ganho 112 calcula e quantifica os ganhos dos pulsos buscados pela seção de quantificação de formato 111, 20 em uma base por banda. A seção de quantificação de formato 111 e a seção de quantificação de ganho 112 serão descritas mais tarde em detalhes.
A seção de multiplexação 106 recebe como uma entrada um código que representa o LPC de quantificação da seção de quantificação de LPC 102 e um código que representa o espectro de entrada quantificado da seção de codificação de espectro 105, multiplexa esta informação e extrai o resultado para o canal de transmissão como uma informação de codificação.
A figura 2 é um diagrama de blocos que mostra a configuração do aparelho de decodificação de fala de acordo com a presente modalidade. O aparelho de decodificação de fala mostrado na figura 2 é provido com a 30 seção de demultiplexação 201, a seção de decodificação de parâmetro 202, a seção de decodificação de espectro 203, a seção de transformada ortogonal 204 e o filtro de síntese 205. Na figura 2, uma informação de codificação é demultiplexada em códigos individuais na seção de demultiplexação 201. O código que representa o LPC quantificado é extraído para a seção de decodificação de parâmetro 202, e o código do espectro de entrada é extraído para a seção de decodificação de espectro 203.
A seção de decodificação de parâmetro 202 decodifica o parâmetro de espectro de entrada e extrai o parâmetro decodificado resultante para o filtro de síntese 205.
A seção de decodificação de espectro 203 decodifica o vetor de 10 formato e o ganho pelo método que suporta o método de codificação na seção de codificação de espectro 105 mostrada na figura 1, adquire um espectro decodificado pela multiplicação do vetor de formato decodificado pelo ganho decodificado, e extrai o espectro decodificado para a seção de transformada ortogonal 204.
A seção de transformada ortogonal 204 realiza uma transforma
da inversa do espectro decodificado extraído a partir da seção de decodificação de espectro 203 comparada à seção de transformada ortogonal 104 mostrada na figura 1, e extrai o sinal residual decodificado de série no tempo resultante para o filtro de síntese 205.
O filtro de síntese 205 produz uma fala de saída pela aplicação
de uma filtração de síntese ao sinal residual decodificado extraído a partir da seção de transformada ortogonal 204, usando-se o parâmetro decodificado extraído a partir da seção de decodificação de parâmetro 202.
Aqui, para se reverter a ordem de processamento entre o filtro 25 inverso 103 e a seção de transformada ortogonal 104 mostrados na Flg. 1, o aparelho de decodificação de fala na figura 2 multiplica o espectro decodificado por um espectro de frequência do parâmetro decodificado (isto é, uma adição no eixo logarítmico) e realiza uma transformada ortogonal do espectro resultante.
Em seguida, a seção de quantificação de formato 111 e a seção
de quantificação de ganho 112 serão explicadas em detalhes.
A seção de quantificação de formato 111 busca a posição e a polaridade (+/-) de um pulso em uma base um a um pela totalidade de um intervalo de busca predeterminado.
A equação 1 a seguir provê uma referência para a busca. Aqui, na equação 1, E representa a distorção de codificação, Sj representa o es5 pectro de entrada, g é o ganho ótimo, δ é a função delta, p representa a posição de pulso, Yb representa a amplitude de pulso, e b representa o número de pulso. A seção de quantificação de formato 111 regula a amplitude de um pulso para busca mais tarde, para ser igual a ou mais baixo do que a amplitude de um pulso buscado anteriormente.
[1]
ε = Σ ί*ί~Σ S/bW-Pb)}2 ...(Equação 1)
i b
A partir da equação 1 acima, a posição de pulso para minimização da função de custo é a posição na qual o valor absoluto |sp| do espectro de entrada em cada banda é máximo, e sua polaridade é a polaridade do valor de espectro de entrada na posição daquele pulso.
De acordo com a presente modalidade, a amplitude de um pulso
a buscar é determinada de antemão, com base na busca de pulsos. A amplitude de pulso é regulada de acordo com, por exemplo, as etapas a seguir. (1) Em primeiro lugar, as amplitudes de todos os pulsos são reguladas para "1,0".
Ainda, "n" é regulado para "2" como o valor inicial. (2) Pela redu
ção da amplitude do enésimo pulso pouco a pouco e pela codificação / decodificação de dados de aprendizado, o valor no qual o desempenho (tal como uma relação S/N e SD (distância de espectro)), é um pico. Neste caso, assuma que as amplitudes dos (n+1)-ésimos pulsos posteriores são as mes25 mas que aquela do enésimo pulso. (3) Todas as amplitudes com a melhor performance são fixadas, e n = n+1 se mantém. (4) O processamento de (2) acima a (3) é repetido até n ser igual ao número de pulsos.
Um caso de exemplo será explicado abaixo, onde o comprimento de vetor de um espectro de entrada é de sessenta e quatro amostras (seis bits) e o espectro é codificado com cinco pulsos. Neste exemplo, seis bits são requeridos para se mostrar a posição de pulso (entradas de posição: 16) e um bit é requerido para se mostrar uma polaridade (+/-) requerendo trinta e cinco bits de bits de informação no total.
O fluxo do algoritmo de busca da seção de quantificação de formato 111 é mostrado na figura 3. Aqui, os símbolos usados no fluxograma 5 da figura 3 significam os conteúdos a seguir:
c: posição de pulso pos[b]: resultado de busca (posição) Pol[b]: resultado de busca (polaridade) s[i]: espectro de frequência x: termo de numerador Y- termo de denominador dn_mx: termo de numerador máximo cc:mx termo de denominador máximo dn: termo de numerador buscado anteriormente cc: termo de denominador buscado anteriormente b: número de posição Y[b]: amplitude de pulso A figura 3 ilustra o algoritmo de busca pela posição da energia mais alta e elevação de um pulso na posição primeiramente e, então, a busca por um próximo pulso não para elevação de dois pulsos na mesma posição (veja a marca na figura 3). Aqui, no algoritmo da figura 3, o denominador "y" depende apenas do número "b" e, consequentemente, pelo cálculo deste valor de antemão, é possível simplificar o algoritmo da figura 3.
Um exemplo de um espectro representando pelos pulsos busca25 dos pela seção de quantificação de formato 111 será mostrado na figura 4. Aqui, a figura 4 ilustra um caso em que os pulsos P1 a P5 são buscados em ordem. Conforme mostrado na figura 4, a presente modalidade regula a amplitude de um pulso a buscar mais tarde, para ser igual a ou mais baixo do que a amplitude buscada anteriormente. As amplitudes de pulsos a buscar 30 são determinadas de antemão com base na ordem de busca dos pulsos, de modo que é necessário usar os bits de informação para representação das amplitudes, e é possível tornar a quantidade geral de bits de informação a mesma que no caso de fixação de amplitudes.
A seção de quantificação de ganho 112 analisa a correlação entre uma seqüência de pulso decodificada e um espectro de entrada, e calcula um ganho ideal. O ganho ideal "g" é calculado pela equação 2 a seguir.
Aqui, na equação 2, s(i) representa o espectro de entrada e v(i) representa um vetor adquirido pela decodificação do formato.
[2]
YjS(I)XV(J)
£ = · · (Equação 2)
2^ν0)χν(ζ)
i
Ainda, a seção de quantificação de ganho 112 calcula os ganhos ideais e, então, realiza uma codificação por uma quantificação de escalar 10 ("SQ") ou realiza uma quantificação de vetor. No caso da realização de uma quantificação de vetor, é possível realizar uma codificação eficiente por uma quantificação de predição, uma VQ de estágio múltiplo, uma VQ dividida e assim por diante. Aqui, o ganho pode ser ouvido de forma perceptiva com base em uma escala logarítmica e, consequentemente, pela realização de 15 uma SQ ou de uma VQ após a realização da transformada logarítmica de ganho, é possível produzir um som de síntese perceptivamente bom.
Assim, de acordo com a presente modalidade, em um esquema de codificação de um espectro de frequência, pela regulagem da amplitude de um pulso a buscar mais tarde para ser igual a ou mais baixa do que a 20 amplitude de um pulso buscado anteriormente, é possível reduzir a distorção de codificação média, se comparado a um esquema convencional e obter uma boa qualidade de som, mesmo no caso de uma taxa de bit baixa.
Ainda, pela aplicação da presente invenção a um caso de agrupamento de amplitudes de pulso e busca pelos grupos de uma maneira a25 berta, é possível melhorar o desempenho. Por exemplo, quando oito pulsos no total são agrupados em cinco pulsos e três pulsos, cinco pulsos são buscados e fixados primeiramente e, então, o restante dos três pulsos é buscado, as amplitudes dos três últimos pulsos sendo igualmente reduzidas. É provado experimentalmente que, pela regulagem das amplitudes dos cinco 30 pulsos buscados primeiramente para [1,0, 1,0, 1,0, 1,0, 1,0] e pela regulagem dos três pulsos buscados mais tarde para [0,8, 0,8, 0,8], é possível melhorar o desempenho, se comparada a um caso de regulagem de todos os pulsos para "1,0".
Ainda, pela regulagem das amplitudes dos cinco pulsos busca5 dos primeiramente para "1,0", a multiplicação das amplitudes não é necessária, desse modo se suprimindo a quantidade de cálculos.
Ainda, embora tenha sido descrito acima um caso com a presente modalidade em que uma codificação de ganho é realizada após uma codificação de formato, a presente invenção pode prover o mesmo desempenho se uma codificação de formato for realizada após uma codificação de ganho.
Ainda, embora um caso de exemplo tenha sido descrito com a modalidade acima, em que o comprimento de um espectro é de sessenta e quadro e o número de pulsos é cinco quando da quantificação de formato do espectro, a presente invenção não depende dos valores numéricos acima e pode prover os mesmos efeitos com outros valores numéricos.
Ainda, pode ser possível empregar um método de realização de uma codificação de ganho em uma base por banda e, então, uma normalização do espectro pelos ganhos decodificados, e realizar uma codificação de formato da presente invenção. Por exemplo, se o processamento de 20 s[pos[b]]=0, dn=dn_mx e cc=cc_mx não for realizado, é possível elevar uma pluralidade de pulsos na mesma posição. Contudo, se uma pluralidade de pulsos ocorrer na mesma posição, suas amplitudes poderão aumentar e, portanto, será necessário checar o número de pulsos em cada posição e calcular o termo de denominador de forma acurada.
Ainda, embora uma codificação por pulsos seja realizada para
um espectro submetido a uma transformada ortogonal na presente modalidade, a presente invenção não está limitada a isto, e também é aplicável a outros vetores. Por exemplo, a presente invenção pode ser aplicada a vetores de número complexo na FFT ou DCT complexa, e pode ser aplicada a 30 uma seqüência de vetor de domínio de tempo na transformada de ondulação, ou similar. Ainda, a presente invenção também é aplicável a uma seqüência de vetor de domínio de tempo como formas de onda de excitação de CELP. Como formas de onda de excitação de CELP, um filtro de síntese está envolvido e, portanto, uma função de custo envolve um cálculo de matriz. Aqui, o desempenho não é suficiente por uma busca em um laço aberto, quando um filtro estiver envolvido e, portanto, uma busca de laço fechado 5 precisará ser realizada em algum grau. Quando há muitos pulsos, é efetivo usar uma busca de feixe ou similar, para redução dos cálculos.
Ainda, de acordo com a presente invenção, uma forma de onda para busca não está limitada a um pulso (impulso), e é igualmente possível buscar mesmo outras formas de onda fixas (tal como um pulso duplo, uma 10 onda triangular, uma onda finita de resposta de impulso, um coeficiente de filtro e formas de onda fixas que mudam o formato de forma adaptativa) e produzir o mesmo efeito.
Ainda, embora tenha sido descrito um caso como a presente modalidade em que a presente invenção é aplicada a CELP, a presente invenção não está limitada a isto, mas é efetiva com outros Codecs (codificadores - decodificadores).
Ainda, não apenas um sinal de fala, mas também um sinal de áudio pode ser usado como o sinal de acordo com a presente invenção. Também é possível empregar uma configuração na qual a presente invenção é aplicada um sinal residual de predição de LPC, ao invés de um sinal de entrada.
O aparelho de codificação e o aparelho de decodificação de acordo com a presente invenção podem ser montados em um aparelho de terminal de comunicação e um aparelho de estação base em um sistema de 25 comunicação móvel, de modo que seja possível prover um aparelho de terminal de comunicação, um aparelho de estação base e um sistema de comunicação móvel tendo o mesmo efeito operacional que acima.
Embora tenha sido descrito um caso com a modalidade acima como um exemplo em que a presente invenção é implementada com hardware, a presente invenção pode ser implementada com software. Por exemplo, pela descrição do algoritmo de acordo com a presente invenção em uma linguagem de programação, pelo armazenamento deste programa em uma memória e se fazendo com que a seção de processamento de informação execute este programa, é possível implementar a mesma função como no aparelho de codificação de acordo com a presente invenção.
Mais ainda, cada bloco de função empregado na descrição de 5 cada uma das modalidades mencionadas anteriormente tipicamente pode ser implementado como um LSI constituído por um circuito integrado. Estes podem ser chips individuais ou contidos parcial ou totalmente em um chip único.
"LSI" é adotado aqui, mas também pode ser referido como "IC", "LSI de sistema", "super-LSI" ou "ultra-LSI", dependendo de extensões diferentes de integração.
Ainda, o método de integração de circuito não está limitado aos LSIs e uma implementação usando um circuito dedicado ou processadores de finalidade geral também é possível. Após uma fabricação de LSI, a utili15 zação de um FPGA (arranjo de porta programável de campo) ou de um processador reconfigurável em que conexões e regulagens de células de circuito em um LSI podem ser reconfiguradas também é possível.
Ainda, se uma tecnologia de circuito integrado vier a substituir os LSIs como resultado do avanço na tecnologia de semicondutor ou um derivado de outra tecnologia, naturalmente também é possível realizar a integração de bloco de função usando esta tecnologia. Uma aplicação em biotecnologia também é possível.
A descrição do Pedido de Patente Japonesa N0 2007-053500, depositado em 2 de março de 2007, incluindo o relatório descritivo, os desenhos e o resumo, é incorporada aqui como referência em sua totalidade. Aplicabilidade Industrial
A presente invenção é adequada para um aparelho de codificação que codifica sinais de fala e sinais de áudio, e um aparelho de decodificação que decodifica estes sinais codificados.
Claims (5)
1. Aparelho de codificação que modela e codifica um espectro de frequência com uma pluralidade de formas de onda fixas, o aparelho compreendendo: uma seção de quantificação de formato que busca e codifica posições e polaridades das formas de onda fixas; e uma seção de quantificação de ganho que codifica ganhos das formas de onda fixas, em que, mediante uma busca pelas posições das formas de onda fixas, a seção de quantificação de formato regula uma amplitude de uma forma de onda fixa a buscar mais tarde, para ser igual a ou mais baixa do que uma amplitude de uma forma de onda fixa buscada anteriormente.
2. Aparelho de codificação, de acordo com a reivindicação 1, em que a seção de quantificação de formato busca pelas formas de onda fixas pela avaliação de uma distorção de codificação por um ganho ideal.
3. Aparelho de codificação, de acordo com a reivindicação 1, em que mediante uma busca por posições das formas de onda fixas em grupos, a seção de quantificação de formato regula amplitudes de um grupo de forma de onda fixa a buscar mais tarde para serem iguais a ou mais baixas do que amplitudes de um grupo de forma de onda fixa buscado anteriormente.
4. Aparelho de codificação, de acordo com a reivindicação 1, em que a seção de quantificação de formato busca pelas posições das formas de onda fixas usando uma amplitude predeterminada.
5. Método de codificação de modelagem e codificação de um espectro de frequência com uma pluralidade de formas de onda fixas, o método compreendendo: uma etapa de quantificação de formato de busca e codificação de posições e polaridades das formas de onda fixas; e uma etapa de quantificação de ganho de codificação de ganhos das formas de onda fixas, em que, mediante uma busca pelas posições das formas de onda fixas, a etapa de quantificação de formato compreende a regulagem de uma amplitude de uma forma de onda fixa para busca mais tarde, para ser igual a ou mais baixa do que uma amplitude de uma forma de onda fixa buscada anteriormente.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007053500 | 2007-03-02 | ||
| JP2007-053500 | 2007-03-02 | ||
| PCT/JP2008/000400 WO2008108078A1 (ja) | 2007-03-02 | 2008-02-29 | 符号化装置および符号化方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| BRPI0808202A2 true BRPI0808202A2 (pt) | 2014-07-01 |
| BRPI0808202A8 BRPI0808202A8 (pt) | 2016-11-22 |
Family
ID=39737976
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| BRPI0808202A BRPI0808202A8 (pt) | 2007-03-02 | 2008-02-29 | Dispositivo de codificação e método de codificação. |
Country Status (11)
| Country | Link |
|---|---|
| US (1) | US8306813B2 (pt) |
| EP (1) | EP2120234B1 (pt) |
| JP (1) | JP5241701B2 (pt) |
| KR (1) | KR101414341B1 (pt) |
| CN (2) | CN102682778B (pt) |
| AU (1) | AU2008222241B2 (pt) |
| BR (1) | BRPI0808202A8 (pt) |
| MY (1) | MY152167A (pt) |
| RU (1) | RU2462770C2 (pt) |
| SG (1) | SG179433A1 (pt) |
| WO (1) | WO2008108078A1 (pt) |
Families Citing this family (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102089810B (zh) * | 2008-07-10 | 2013-05-08 | 沃伊斯亚吉公司 | 多基准线性预测系数滤波器量化和逆量化设备及方法 |
| EP2645367B1 (en) * | 2009-02-16 | 2019-11-20 | Electronics and Telecommunications Research Institute | Encoding/decoding method for audio signals using adaptive sinusoidal coding and apparatus thereof |
| US8660851B2 (en) | 2009-05-26 | 2014-02-25 | Panasonic Corporation | Stereo signal decoding device and stereo signal decoding method |
| AR085218A1 (es) | 2011-02-14 | 2013-09-18 | Fraunhofer Ges Forschung | Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio |
| MX2013009304A (es) | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad. |
| JP5712288B2 (ja) | 2011-02-14 | 2015-05-07 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 重複変換を使用した情報信号表記 |
| ES2715191T3 (es) | 2011-02-14 | 2019-06-03 | Fraunhofer Ges Forschung | Codificación y decodificación de posiciones de impulso de pistas de una señal de audio |
| ES2529025T3 (es) | 2011-02-14 | 2015-02-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para procesar una señal de audio decodificada en un dominio espectral |
| BR112013020587B1 (pt) | 2011-02-14 | 2021-03-09 | Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. | esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral |
| EP2763137B1 (en) * | 2011-09-28 | 2016-09-14 | LG Electronics Inc. | Voice signal encoding method and voice signal decoding method |
| KR102083450B1 (ko) | 2012-12-05 | 2020-03-02 | 삼성전자주식회사 | 페이지 버퍼를 포함하는 불휘발성 메모리 장치 및 그것의 동작 방법 |
| JP5817854B2 (ja) * | 2013-02-22 | 2015-11-18 | ヤマハ株式会社 | 音声合成装置およびプログラム |
Family Cites Families (37)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| NL153045B (nl) * | 1966-03-05 | 1977-04-15 | Philips Nv | Filter voor analoge signalen. |
| JPH0738116B2 (ja) * | 1986-07-30 | 1995-04-26 | 日本電気株式会社 | マルチパルス符号化装置 |
| US4868867A (en) * | 1987-04-06 | 1989-09-19 | Voicecraft Inc. | Vector excitation speech or audio coder for transmission or storage |
| US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
| US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
| JP3041325B1 (ja) * | 1992-09-29 | 2000-05-15 | 三菱電機株式会社 | 音声符号化装置及び音声復号化装置 |
| JP3024455B2 (ja) * | 1992-09-29 | 2000-03-21 | 三菱電機株式会社 | 音声符号化装置及び音声復号化装置 |
| US5568588A (en) | 1994-04-29 | 1996-10-22 | Audiocodes Ltd. | Multi-pulse analysis speech processing System and method |
| US5642241A (en) * | 1994-10-31 | 1997-06-24 | Samsung Electronics Co., Ltd. | Digital signal recording apparatus in which interleaved-NRZI modulated is generated with a lone 2T precoder |
| JP3196595B2 (ja) * | 1995-09-27 | 2001-08-06 | 日本電気株式会社 | 音声符号化装置 |
| JP2778567B2 (ja) * | 1995-12-23 | 1998-07-23 | 日本電気株式会社 | 信号符号化装置及び方法 |
| JP3094908B2 (ja) | 1996-04-17 | 2000-10-03 | 日本電気株式会社 | 音声符号化装置 |
| JP3360545B2 (ja) | 1996-08-26 | 2002-12-24 | 日本電気株式会社 | 音声符号化装置 |
| CA2213909C (en) * | 1996-08-26 | 2002-01-22 | Nec Corporation | High quality speech coder at low bit rates |
| JP3266178B2 (ja) * | 1996-12-18 | 2002-03-18 | 日本電気株式会社 | 音声符号化装置 |
| JP3147807B2 (ja) | 1997-03-21 | 2001-03-19 | 日本電気株式会社 | 信号符号化装置 |
| JP3185748B2 (ja) | 1997-04-09 | 2001-07-11 | 日本電気株式会社 | 信号符号化装置 |
| US6208962B1 (en) * | 1997-04-09 | 2001-03-27 | Nec Corporation | Signal coding system |
| EP2224597B1 (en) * | 1997-10-22 | 2011-12-21 | Panasonic Corporation | Multistage vector quantization for speech encoding |
| JP3180762B2 (ja) * | 1998-05-11 | 2001-06-25 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
| WO2000000963A1 (en) * | 1998-06-30 | 2000-01-06 | Nec Corporation | Voice coder |
| JP3319396B2 (ja) * | 1998-07-13 | 2002-08-26 | 日本電気株式会社 | 音声符号化装置ならびに音声符号化復号化装置 |
| JP3180786B2 (ja) * | 1998-11-27 | 2001-06-25 | 日本電気株式会社 | 音声符号化方法及び音声符号化装置 |
| US6377915B1 (en) * | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
| JP2001075600A (ja) * | 1999-09-07 | 2001-03-23 | Mitsubishi Electric Corp | 音声符号化装置および音声復号化装置 |
| JP3594854B2 (ja) * | 1999-11-08 | 2004-12-02 | 三菱電機株式会社 | 音声符号化装置及び音声復号化装置 |
| CA2327041A1 (en) * | 2000-11-22 | 2002-05-22 | Voiceage Corporation | A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals |
| SE521600C2 (sv) * | 2001-12-04 | 2003-11-18 | Global Ip Sound Ab | Lågbittaktskodek |
| CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
| JP3954050B2 (ja) | 2004-07-09 | 2007-08-08 | 三菱電機株式会社 | 音声符号化装置及び音声符号化方法 |
| US20090055169A1 (en) | 2005-01-26 | 2009-02-26 | Matsushita Electric Industrial Co., Ltd. | Voice encoding device, and voice encoding method |
| CN101167124B (zh) | 2005-04-28 | 2011-09-21 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
| RU2007139784A (ru) | 2005-04-28 | 2009-05-10 | Мацусита Электрик Индастриал Ко., Лтд. (Jp) | Устройство кодирования звука и способ кодирования звука |
| JP2007053500A (ja) | 2005-08-16 | 2007-03-01 | Oki Electric Ind Co Ltd | 信号発生回路 |
| EP1953736A4 (en) | 2005-10-31 | 2009-08-05 | Panasonic Corp | STEREO CODING DEVICE AND STEREOSIGNAL PREDICTION PROCESS |
| US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
| US8370138B2 (en) | 2006-03-17 | 2013-02-05 | Panasonic Corporation | Scalable encoding device and scalable encoding method including quality improvement of a decoded signal |
-
2008
- 2008-02-29 CN CN201210096241.1A patent/CN102682778B/zh not_active Expired - Fee Related
- 2008-02-29 BR BRPI0808202A patent/BRPI0808202A8/pt not_active Application Discontinuation
- 2008-02-29 KR KR1020097016933A patent/KR101414341B1/ko active Active
- 2008-02-29 WO PCT/JP2008/000400 patent/WO2008108078A1/ja not_active Ceased
- 2008-02-29 EP EP08710503.7A patent/EP2120234B1/en not_active Not-in-force
- 2008-02-29 SG SG2012015111A patent/SG179433A1/en unknown
- 2008-02-29 MY MYPI20093512 patent/MY152167A/en unknown
- 2008-02-29 AU AU2008222241A patent/AU2008222241B2/en not_active Ceased
- 2008-02-29 US US12/528,877 patent/US8306813B2/en active Active
- 2008-02-29 CN CN2008800064059A patent/CN101622665B/zh not_active Expired - Fee Related
- 2008-02-29 JP JP2009502456A patent/JP5241701B2/ja not_active Expired - Fee Related
- 2008-02-29 RU RU2009132937/08A patent/RU2462770C2/ru active
Also Published As
| Publication number | Publication date |
|---|---|
| BRPI0808202A8 (pt) | 2016-11-22 |
| RU2009132937A (ru) | 2011-03-10 |
| AU2008222241A1 (en) | 2008-09-12 |
| MY152167A (en) | 2014-08-15 |
| KR20090117876A (ko) | 2009-11-13 |
| WO2008108078A1 (ja) | 2008-09-12 |
| SG179433A1 (en) | 2012-04-27 |
| US20100106496A1 (en) | 2010-04-29 |
| AU2008222241B2 (en) | 2012-11-29 |
| US8306813B2 (en) | 2012-11-06 |
| CN101622665B (zh) | 2012-06-13 |
| JP5241701B2 (ja) | 2013-07-17 |
| CN102682778A (zh) | 2012-09-19 |
| EP2120234A4 (en) | 2011-08-03 |
| KR101414341B1 (ko) | 2014-07-22 |
| EP2120234A1 (en) | 2009-11-18 |
| CN101622665A (zh) | 2010-01-06 |
| JPWO2008108078A1 (ja) | 2010-06-10 |
| CN102682778B (zh) | 2014-10-22 |
| EP2120234B1 (en) | 2016-01-06 |
| RU2462770C2 (ru) | 2012-09-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| BRPI0808202A2 (pt) | Dispositivo de codificação e método de codificação. | |
| KR101785885B1 (ko) | 적응적 대역폭 확장 및 그것을 위한 장치 | |
| ES2705589T3 (es) | Sistemas, procedimientos y aparatos para el suavizado del factor de ganancia | |
| BRPI0808198A2 (pt) | Dispositivo de codificação e método de codificação | |
| JP6470857B2 (ja) | 音声処理のための無声/有声判定 | |
| BRPI0715516A2 (pt) | sistemas, mÉtodos e equipamentos para limitar fator de ganho | |
| BRPI0808428A2 (pt) | Dispostivo de codificação e método de codificação | |
| BRPI0923749B1 (pt) | Aparelho que decodifica um sinal de áudio, métodos para a decodificação e para a codificação de um sinal de áudio | |
| BRPI0720266A2 (pt) | Dispositivo de decodificação de aúdio e método de ajuste de potência | |
| CN103081007A (zh) | 量化装置及量化方法 | |
| US11114106B2 (en) | Vector quantization of algebraic codebook with high-pass characteristic for polarity selection | |
| US20100049508A1 (en) | Audio encoding device and audio encoding method | |
| WO2008018464A1 (en) | Audio encoding device and audio encoding method | |
| US9230553B2 (en) | Fixed codebook searching by closed-loop search using multiplexed loop | |
| BR112020008216A2 (pt) | aparelho e seu método para gerar um sinal de áudio intensificado, sistema para processar um sinal de áudio | |
| KR20170008319A (ko) | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 | |
| KR20160007681A (ko) | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 | |
| WO2012053149A1 (ja) | 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| B25A | Requested transfer of rights approved |
Owner name: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA (US) Owner name: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AME |
|
| B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
| B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
| B11B | Dismissal acc. art. 36, par 1 of ipl - no reply within 90 days to fullfil the necessary requirements |