BRPI0607624B1 - Variação temporal de quadros dentro do vocoder por modificação do residual - Google Patents

Variação temporal de quadros dentro do vocoder por modificação do residual Download PDF

Info

Publication number
BRPI0607624B1
BRPI0607624B1 BRPI0607624-6A BRPI0607624A BRPI0607624B1 BR PI0607624 B1 BRPI0607624 B1 BR PI0607624B1 BR PI0607624 A BRPI0607624 A BR PI0607624A BR PI0607624 B1 BRPI0607624 B1 BR PI0607624B1
Authority
BR
Brazil
Prior art keywords
pitch
speech
residual
periods
segments
Prior art date
Application number
BRPI0607624-6A
Other languages
English (en)
Inventor
Rohit Kapoor
Serafin Diaz Spindola
Original Assignee
Qualcomm Incorporated
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36575961&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0607624(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Qualcomm Incorporated filed Critical Qualcomm Incorporated
Publication of BRPI0607624A2 publication Critical patent/BRPI0607624A2/pt
Publication of BRPI0607624B1 publication Critical patent/BRPI0607624B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electric Clocks (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

variação temporal de quadros dentro do vocoder por modificaçao do resíduo. em uma modalidade, a presente invenção compreende um vocoder tendo pelo menos uma entrada e pelo menos uma saida, um encodificador compreendendo um filtro tendo pelo menos uma entrada conectada operativamente à entrada do vocoder e pelo menos uma saida, um deencodificador compreendendo um sintetizador tendo pelo menos uma entrada conectada operativamente a pelo menos uma saída do encodificador, e pelo menos uma saída conectada operativamente a pelo menos uma saída do vocoder, em que o encodificador compreende uma memória e o encodificador é adaptado para executar instruções armazenadas na memória compreendendo classificar segmentos de fala e codificar segmentos de fala, e o deencodificador compreende uma memória e o deencodificador é adaptado para executar instruções armazenadas na memória compreendenda variação temporal de um segmento de fala residual para uma versão expandida ou compactada do sinal de fala residual.

Description

A presente invenção refere-se, geralmente, a um método para variação temporal íexpardir ou comprimir) quadros de vocoder no vocoder. A variação temporal tem um número de aplicações em redes comutadas por pacote onde os pacotes de vocoder podem chegar de forma assincrona. Embora a variação temporal possa ser realizada quer seja dentro do vocoder ou fora do vocoder, realizar o mesmo no vocoder oferece um número de vantagens tal como melhor qualidade dos quadros ajustados e carga computacional reduzida. Os métodos apresentados nesse documento podem ser aplicados a qualquer vocoder que utilize técnicas similares conforme referido nesse pedido de patente para codificação de voz dos dados de voz.
Fundamentos
A presente invenção compreende um equipamento e método para variação temporal de quadros de fala pela manipulação do sinal de fala. Em uma modalidade, o presente método e equipamento são usados no Vocoder de Quarta
Geração (4GV), mas não é limitado ao mesmo. As modalidades reveladas compreendem métodos e equipamentos para expandir/comprimir diferentes tipos de segmentos de fala.
As seguintes e métodos dentro de um campo de esforço similar às modalidades descritas aqui: WO 01/82289 (MANJUNATH SHARATH
ET AL) 1 de Novembro de 2001 e US
2004/156397 (HEIKKINEN
ARI ET AL) 12 de Agosto de 2004.
SUMÁRIO
De acordo com a presente invenção, um método, como definido na reivindicação 1, um vocoder, como definido
2/23
2J3 rei v ι to Íc^ções 21 a 39, e um Drodirfo ^^/'e adsr, como definido na reivindicação lü, são fornecidos. Modalidades da invenção são reivindicadas nas reivindicações dependentes.
Em virtude do acima, as características descritas da presente invenção se referem geralmcnte a um ou mais sistemas aperfeiçoados, métodos e/ou equipamentos paid comunicação de f ala.
Em uma modalidade, a presente invenção compreende 10 um método de comunicar fala compreendendo as etapas de classificar os segmentos de fala, encodificar (encode) os segmentos de fala utilizando predição linear excitada por código, e variação temporal de um sinal de fala residual para uma versão expandida ou comprimida do sinal de fala 15 residual.
Em outra modalidade, o método de comunicar fala compreende ainda enviar um sinal de fala através de um filtro de codificação preditiva linear, pelo que correlações de curto prazo no sinal de fala são filtradas, 20 e emitindo coeficientes de codificação preditiva linear e um sinal residual.
Em outra modalidade, a encodificação é uma encodificação por predição linear excitada por código e a etapa de variação temporal compreende estimar o retardo de 25 pitch, dividir um quadro de fala em periodos de pitch, em que limites dos períodos de pitch são determinados utilizando um retardo de pitch em diversos pontos no quadro de fala, sobrepondo-se os periodos de pitch se o residual de fala for comprimido, e adicionando-se os periodos de 30 pitch se o sinal de residual de fala for expandido.
Em outra modalidade, a encodificação é protótipo de encodificação de período de pitch e a etapa de variação temporal compreende estimar pelo menos um período de pitch,
3/2 3 inteΐ'ρ·υ1άΐ o pelo T.enos jm ceriodo de oitcb, AidHnnAx peíc menos um período de pincln quando expandirão o sinal de f dl d residuai, e sudtraindo o pelo menos um período de pitch ao comprimir o sinal de fala residual.
Em outra modalidade, a encodificação é encodificacão por predição l/near excitada por rmido, e a etapa de variação temporal compreende aplicar gannos possivelmente diferentes a partes diferentes de um segmento de fala antes de sintetizar o mesmo.
Em outra modalidade, a presente invenção compreende um vocoder possuindo pelo menos uma entrada e pelo menos uma saída, um encodificador incluindo um filtro possuindo pelo menos uma entrada conectada operativamente à entrada do vocoder e pelo menos uma saída, um decodificador incluindo um sintetizador possuindo pelo menos uma entrada conectada operativamente a pelo menos uma saída do encodificador e pelo menos uma saída conectada operativamente a pelo menos uma saída do vocoder.
Em outra modalidade, o encodificador compreende uma memória, em que o encodif icador é adaptado para executar instruções armazenadas na memória compreendendo classificar segmentos de fala como quadro de 1/8, período de pitch protótipo, predição linear excitada por código ou predição linear excitada por ruído.
Em outra modalidade, o decodificador compreende uma memória e o decodificador é adaptado para executar instruções armazenadas na memória compreendendo a variação temporal de um residual para uma versão expandida ou comprimida do sinal residual.
0 escopo adicional de aplicabilidade da presente invenção se tornará evidente a partir da descrição detalhada, reivindicações e desenhos a seguir. Contudo, deve ser entendido que a descrição detalhada e os exemplos
Figure BRPI0607624B1_D0001
especí f i cos esboi d maicando moda 1 i d a d p <=. preferidas d<^ civerpac, são fornecidos apenas como ilustração, uma vez que diversas alterações e modificações abrangidas pelo espirito e escopo da invenção se tornarão evidentes para aqueles versados na técnica.
BREVE DESCRIÇÃO DOS DESENHOS
A presente invenção se tornará mais CumpleLamente entendida a partir da descrição detalhada fornecida aqui, abaixo, reivindicações anexas e desenhos anexos nos quais:
A Figura 1 é um diagrama de blocos de um vocoder
de Codificação Preditiva Linear ( LPC) ;
A Figura 2A é um sinal de fala contendo fala com
voz;
A Figura 2B é um sinal de fala contendo fala sem
voz;
A Figura 2C é um sinal < de fala contendo fala
transiente;
A Figura 3 é um diagrama de blocos ilustrando
Filtragem LPC de Fala seguida por Encodificação de um
Residual;
A Figura 4A é um gráfico de fala original;
A Figura 4B é um gráfico de um Sinal de Fala Residual após Filtragem LPC;
A Figura 5 ilustra a geração de Formas de Onda utilizando Interpolação entre Períodos de Protótipo Pitch Anteriores e Atuais;
A Figura 6A descreve a determinação de Retardos
de Pitch através de Interpolação;
A Figura 6B descreve a identificação de períodos
de Pitch;
A Figura 7A representa um sinal de fala original
na forma de períodos de pitch;
5/23
A Figuita. 7B reoresarAa de fala CaCuíiuFIo ut i .1 i.zando sobreposição-aaição;
A Figura 7C representa um sinal de fala comprimido utilizando sobreposição-adição;
A Figura 7E representa como a ponderação é usada oara comprimir o sinal residual;
A Figura ^E representa smal ae raia comprimido sem utilização de sobreposição-adição;
A Figura 7F representa como a ponderação é usada 10 para expandir o sinal residual; e
A Figura 8 contém duas equações usadas no método de adição-sobreposição.
DESCRIÇÃO DETALHADA termo ilustrativo é usado aqui significando 15 servindo como um exemplo, ocorrência, ou ilustração.
Qualquer modalidade aqui descrita como ilustrativa não deve ser necessariamente considerada como preferida ou vantajosa em relação a outras modalidades.
Características do Uso de Variação Temporal em um Vocoder
As vozes humanas consistem em dois componentes.
Um componente compreende ondas fundamentais que são sensíveis ao pitch e as outras são harmônicas fixas que não são sensíveis ao pitch. O pitch percebido, de um som, é a resposta do ouvido à freqüência, isto é, para propósitos 25 mais práticos o pitch é a freqüência. Os componentes de harmônica adicionam características distintas à voz de uma pessoa. Eles mudam j unto com as cordas vocais e com a forma física do trato vocal e são denominados formantes.
A voz humana pode ser representada por um sinal 30 digital s(n) 10. Suponha que s(n) 10 é um sinal de fala digital obtido durante uma conversação típica incluindo diferentes sons vocais e períodos de silêncio. O sinal de
6/23 f a L a s (rd 10 é pLeferiveiiRente lecarfndn qtadroo 20. Eiu uma mexia l i.oade , s (n) 10 é digitalmente amo st rado em 8 kHz.
Esquemas de codificação atuais comprimem um sinal de fala digitalizado 10 em um sinal de baixa taxa de bits 5 por remoção de todas as redundâncias naturais (isto é, elementos correlacionados) inerentes na fala. A fala exibe tipicamente redundâncias de ^orto prazo resultantes aa ação mecânica dos lábios e língua e redundâncias de longo prazo resultantes da vibração das cordas vocais. Codificação 10 Preditiva Linear (LPC) filtra o sinal de fala 10 por remoção das redundâncias produzindo um sinal de fala residual 30. Ele então modela o sinal residual resultante 30 como ruido Gaussiano branco. Um valor amostrado de uma forma de onda de fala pode ser predito por ponderação de 15 uma soma de um número de amostras passadas 40, cada uma das quais é multiplicada por um coeficiente preditivo linear 50. Codificadores preditivos lineares, portanto, obtêm uma taxa de bits reduzida por transmissão de coeficientes de filtro 50 e ruído quantizado ao invés de um sinal de fala 2 0 de largura de banda completa 10. O sinal residual 30 é encodificado por extração de um período de protótipo 100 a partir de um quadro atual 20 do sinal residual 30.
Um diagrama de blocos de uma modalidade de um vocoder LPC 70 usado pelo presente método e equipamento 25 pode ser visto na Figura 1. A função do LPC é a de minimizar a soma das diferenças elevadas ao quadrado entre o sinal de fala original e o sinal de fala estimado por uma duração finita. Isso pode produzir um conjunto singular de coeficientes de predição 50 que são normalmente estimados a 30 cada quadro 20. Um quadro 20 tem tipicamente 20 ms de comprimento. A função de transferência do filtro digital de variação temporal 75 é dada por:
Figure BRPI0607624B1_D0002
o ride os coeficientes de predição 50 são representados por av e o ganho por G.
A soma é computada a partir de k=l a k=p. Se um método LPC-10 for usado, então p=10. Isso significa que apenas os primeiros 10 cceficieiiues 5 0 são transmitidos para o smtetizaior LPC 80. Os dois métodos mais comumente usados para computar os coeficientes são: método de covariância e método de autocorrelação, porém, não são limitados a eles.
É comum que diferentes pessoas falem em velocidades diferentes. A compressão de tempo é um método de reduzir o efeito da variação de fala para pessoas individualmente. As diferenças de temporização entre dois padrões de fala podem ser reduzidas pela variação do eixo temporal de um deles de modo que a coincidência máxima é obtida com o outro. Essa técnica de compressão temporal é conhecida como variação temporal. Além disso, a variação temporal comprime ou expande os sinais de voz sem mudar seu pitch.
Vocoders típicos produzem quadros 20 de 20 ms de duração, incluindo 160 amostras 90 na taxa preferida de 8 kHz. Uma versão comprimida com variação temporal desse quadro 20 tem uma duração menor do que 20 ms, enquanto que uma versão expandida ajustada temporalmente tem uma duração superior a 20 ms. A variação temporal de dados de voz tem vantagens significativas ao se enviar dados de voz através de redes de comutação de pacotes, que introduzem jitter de retardo na transmissão de pacotes de voz. Em tais redes, a variação temporal pode ser usada para aliviar os efeitos de tal jitter de retardo e produzir um fluxo de voz parecendo sincrono.
8/23
Mudai.-Lciades da invencãn referem a uin euu ípamento o mét.odo paia variação temporal de quadros 2 0 dentro do vocoder 70 por manipulação do residual de fala 30. Em uma modalidade, o presente método e equipamento são 5 usados em 4GV. As modalidades reveladas compreendem métodos e equipamentos ou sistemas para expanoir/comprimir diferentes tipos de segmentos de fa±a 4üV 1 iü, encodifiçados utilizando codificação de Periodo de Pitch Protótipo (PPP), Predição Linear Excitada por Código (CELP) 10 ou Predição Linear Excitada por Ruído (NELP).
O termo vocoder 70 refere-se tipicamente aos dispositivos que comprimem a fala com voz por extração de parâmetros com base em um modelo da geração de fala humana. Os vocoders 70 incluem um encodificador 204 e um 15 decodificador 206. 0 encodificador 204 analisa a fala que chega e extrai os parâmetros relevantes. Em uma modalidade, o encodificador compreende um filtro 75. 0 decodificador
206 sintetiza a fala utilizando os parâmetros que ele recebe a partir do encodificador 204 por intermédio de um 20 canal de transmissão 208. Em uma modalidade, o decodificador compreende um sintetizador 80. O sinal de fala 10 frequentemente é dividido em quadros 20 de dados e bloco processado pelo vocoder 70.
Aqueles versados na técnica reconhecerão que a 25 fala humana pode ser classificada em muitas formas diferentes. Três classificações convencionais de fala são fala com voz, sons sem voz, e fala transiente. A Figura 2A é um sinal de fala com voz s(n) 402. A Figura 2A mostra uma propriedade mensurável, comum de fala com voz conhecida 30 como o periodo de pitch 100.
A Figura 2B é um sinal de fala sem voz s(n) 404.
Um sinal de fala sem voz 404 lembra ruído colorido.
9/23
Ά Figurai 22 descreve um sinal ^^>ls fransiente s 1.11 j qub esto é, fala que não é com voz nem sem voz) . O exemplo de fala transiente 406 mostrado na Figura 2C podería representar s(n) mudando entre fala sem voz e fala com voz. Essas três classificações não são totalmente inclusivas. Há muitas classificações diferentes de fala que pode riam ser empregada s de acordo com os métodos aqui descritos para se obter resultados comparáveis.
O Vocoder 4GV Utiliza 4 Tipos de Quadros Diferentes
Vocoder de quarta geração (4GV) 70 usado em uma modalidade da invenção provê características atraentes para uso em redes sem fio. Algumas dessas características incluem a habilidade de equilibrar qualidade versus taxa de bits, codificação de voz mais flexível em face de taxa e erro de pacotes aumentado (PER), melhor ocultação de apagamentos, etc. O vocoder 4GV 70 pode utilizar qualquer um de quatro diferentes encodificadores 204 e decodificadores 206. Os encodificadores 204 e decodificadores 206 diferentes operam de acordo com diferentes esquemas de codificação. Alguns encodificadores 204 são mais eficazes na codificação de partes do sinal de fala s(n) 10 exibindo certas propriedades. Portanto, em uma modalidade, o modo de encodificadores 204 e decodificadores
6 pode ser selecionado com base na classificação do quadro atual 20.
O encodificador 4GV 204 encodifica cada quadro 20 de dados de voz em um de quatro diferentes tipos de quadro 20: Tnterpolação de Forma de Onda de Período de Pit ch
Protótipo (PPPWI) , Predição Linear Excitada por Código (CELP), Predição Linear Excitada por Ruído (NELP), ou quadro de silêncio de 1/8° de taxa. CELP é usado para encodificar fala com periodicidade ruim ou fala que envolve mudança de um segmento periódico 110 para outro. Assim, o . ί. cl-UOS segmentos na o
Figure BRPI0607624B1_D0003
Figure BRPI0607624B1_D0004
Figure BRPI0607624B1_D0005
vez que tais podem ser reconstruídos exaiamente a oarrir de apenas de fala completo
110. 0 modo CELP vocal com uma versão auammada de encodificadores 204 e decodi f _i ca dores
206 descritos aqui,
CELP geralmente produz a reprodução de fala mais precisa, porém requer uma taxa de bits superior.
Um modo Período de Pitch Protótipo (PPP) pode ser escolhido para codificar quadros 20 classificados como fala com voz. Fala com voz contém componentes periódicos de variação temporal lenta que são explorados pelo modo PPP. O modo PPP codifica um subconjunto dos períodos de pitch 100 dentro de cada quadro 20. Os períodos restantes 100 do sinal de fala 10 são reconstruídos por interpolação entre esses períodos protótipos 100. Por exploração da periodicidade de fala com voz, PPP é capaz de obter uma taxa de bits inferior do que CELP e ainda assim reproduzir o sinal de fala 10 de uma maneira percentualmente precisa.
PPPWI é usado para encodificar dados de fala que são de natureza periódica. Tal fala é caracterizada por diferentes períodos de pitch 100 sendo similares aos períodos de pitch protótipos (PPP) . Esse PPP é a única informação de voz que o encodificador 204 precisa encodificar. O decodificador pode usar esse PPP para reconstruir outros períodos de pitch 100 no segmento de fala 110.
Um encodificador Preditivo Linear Excitado por
Ruído (NELP) 204 é escolhido para codificar os quadros 20 classificados como fala sem voz. Codificação NELP opera ί ,:-3 /rn^r.
ue reprodid; rm «’ , .3 1 I 1 <! !
I P TP
Figure BRPI0607624B1_D0006
Mais psp<mτ f ή camcntc, cie na tu reza seme Ihante a ruído de fundo. NELP pseudoa.leatór io f ilt rado neròiuma os t. r u o ura cie pitch.
NELP é asado para er.codif iear fala que é
ruído, tal como f âid sem voz ou
u ti 1.1 za um sinal de ruído
oara - dei. 3 r U 1 α i <i sem voz . Λ
os ue tala 110 natureza semelhante a r> ι τ d''·' d^ a i m pode ser reconstruída por geração de sinais aleatórios no decodificador 206 e aplicando ganhos apropriados aos 10 mesmos. NELP utiliza o modelo mais simples para a fala codificada e, portanto, obtém uma taxa de bits inferior.
Os quadros de 1/8 de taxa são usados para encodificar silêncio, por exemplo, períodos onde o usuário não está falando.
Todos os quatro esquemas de codificação de voz descritos acima compartilham o procedimento de filtragem
LPC inicial, como mostrado na Figura 3. Após caracterizar a fala em uma das quatro categorias, o sinal de fala 10 é enviado através de um filtro de codificação preditiva 20 linear (LPC) 80 o qual filtra as correlações de curto prazo na fala utilizando predição linear. As saídas desse bloco são os coeficientes LPC 50 e o sinal residual 30, que é basicamente o sinal de fala original 10 com as correlações de curto prazo removidas do mesmo. 0 sinal residual 30 é então codificado utilizando os métodos específicos usados pelo método de codificação de voz selecionado para o quadro
20.
As Figuras 4A-4B mostram um exemplo do sinal de fala original 10, e o sinal residual 30 após o bloco LPC 30 80. Pode ser visto que o sinal residual 30 mostra períodos de pitch 100 mais distintamente do que a fala original 10. Assim, é lógico que o sinal residual 30 possa ser usado para determinar o período de pitch 100 do sinal de fala
12/23 qudL r amuem contém correlações oe curto prazo) .
Variação Temporal Residual usada
Embora isso,
Como declarado acima, variação temporal para expansão ou alguns métodos a maioria dos pode ser compressão
Dossam ser mesmos se cancelamento dos períodos de pitch do sinal de usados
100 a fala
10.
paia conseguir na adição ou partir do sinal
10. A adição ou subtração de períodos de pitch 100 pode ser residual
30, mas antes do sinal 30 ser sintetizado. Para dados de fala que são encodi ficados utilizando CELP ou PPP (não NELP), o sinal inclui um número de períodos de pitch 100. Desse modo, a menor unidade que pode ser adicionada ou deletada do sinal de fala 10 é um período de pitch 100 uma vez que qualquer unidade menor do que isso levará a uma descontinuidade de fase resultando na introdução de artefatos de fala perceptíveis. Desse modo, uma etapa nos métodos de variação temporal aplicados à fala PPP ou CELP é estimação do período de pitch 100. Esse período de pitch 100 já é conhecido do decodificador 206 para quadros de fala CELP/PPP 20. No caso de ambos, PPP e CELP, informações de pitch são calculadas pelo encodificador 204 utilizando métodos de autocorrelação e são transmitidas para o decodificador 20 6. Desse modo, o decodificador 206 tem conhecimento preciso do período de pitch 100. Isso torna mais simples empregar o método de variação temporal da presente invenção no decodificador 206.
Além disso, como declarado acima, é mais simples variar temporalmente o sinal 10 antes de sintetizar o sinal 10. Se tais métodos de variação temporal fossem empregados após a codificação do sinal 10, o período de pitch 100 do sinal 10 precisaria ser estimado. Isso requer não apenas
Figure BRPI0607624B1_D0007
GuiupuLação adicional, mas também a psHrruç-3c? do período do pitch 100 pode não ser muito precisa uma vez que o sinal residual 30 também contém informações LPC 170.
Por outro lado, se a estimação do período de pitch adicional 100 não for muito complexa, então realizar variação temporal após codificação não requer alterações no oecodificador 2E6 e d°sse mcce pe.dc ser impicmctizacia apenas uma vez para todos os vocoders 80.
Ourra razão para realizar variação temporal no 10 decodificador 206 antes de sintetizar o sinal utilizando síntese de codificação LPC é que a compressão/expansão pode ser aplicada ao sinal residual 30. Isso permite que a síntese de codificação preditiva linear (LPC) seja aplicada ao residual ajustado temporalmente 30. Os coeficientes LPC 15 50 desempenham uma função em como a fala soa e aplicam a síntese após o ajuste garante que informações LPC corretas 170 sejam mantidas no sinal 10.
Se, por outro lado, variação temporal for feita após a codificação do sinal residual 30, a síntese LPC já 20 foi realizada antes da variação temporal. Desse modo, o procedimento de variação pode mudar as informações LPC 170 do sinal 10, especialmente se após a codificação, a pr edição de período de pitch 100 não tiver sido muito precisa. Em uma modalidade, as etapas realizadas pelos 25 métodos de variação temporal revelados no presente pedido são armazenadas como instruções localizadas em software ou firmware 81 localizado na memória 82. Na Figura 1, a memória é mostrada localizada dentro do decodificador 20 6.
A memória 82 também pode estar localizada fora do 30 decodificador 206.
encodificador 204 (tal como aquele em 4GV) pode categorizar os quadros de fala 20 como PPP (periódico), CELP (1igeiramente periódico) ou NELP (ruidoso) dependendo
14/23 de se cs qimdixs 20 representam fala com vo?. voz cu ansicnrθ. utilizando informação sobre o tipo de quadro de fala 20, o decodi f icador 206 pode ajustar temporalmente diferentes tipos de quadro 20 utilizando diferentes métodos. Por exemplo, um quadro de fala NELP 20 não tem noção dos períodos de pi + ch e seu sinal residual 30 e gerado no decodificador utilizando informações aleatórias. Desse modo, a estimação do período de pitch 100 do CELP/PPP não se aplica a NELP e, em geral, quadros NELP 20 podem ser ajustados (expandidos/comprimidos) em menos do que um período de pitch 100. Tal informação não está disponível se a variação temporal for realizada após codificação do sinal residual 30 no decodificador 206. Em geral, a variação temporal de quadros semelhantes a NELP 20 após codificação conduz a artefatos de fala. Variância de quadros NELP 20 no decodif icador 206, por outro lado, produz qualidade muito melhor.
Desse modo, há duas vantagens em realizar variação temporal no decodificador 206 (isto é, antes da síntese do sinal residual 30) ao contrário do pósdecodificador (isto é, após o sinal residual 30 ser sintetizado): (i) redução de overhead computacional (por exemplo, uma busca pelo período de pitch 100 é evitada), e (ii) qualidade de variação aperfeiçoada devido a: a) conhecimento do tipo de quadro 20, b) realização de síntese LPC no sinal ajustado e c) estimação/conhecimento mais preciso do período de pitch.
Métodos de Variação Temporal Residual que se segue descreve modalidades nas quais o presente método e equipamento varia temporalmente o residual de fala 30 dentro de decodificadores PPP, CELP e NELP. As duas etapas a seguir são realizadas em cada decodificador 206: (i) variação temporal do sinal residual 1 7 2 3
7 pa r a '.0 7 vcrrà^ expciucm aa ca Guio r ; ; a λ · ~ ; i i': ά >
.aoí..l^c4_L coil· variaoio r.enpma 1 3u atiaves do filtro LPC 80. Além disso, a ciapa (1) e realizada diferentemende para segmentos de fala PPP, CrLP e NELP I 10- As moaaiidades serão descritas abaixo.
Variação temporal de S inai P e 1 _q^gnd^ Jegmento _do
Fala 1 J Ο Λ pPP:
í lomo declarado acima, quando o segmento de fala
110 é PPP, a menor unidade que pode ser adicionada ou
10 dei etada do sinal é um período de pitch 100. Antes do sinal
10 poder ser decodificado (e o sinal residual 30,
reconstruído) a partir do período de pitch protótipo 100, o decodificador 206 interpola o sinal 10 a partir do período de pitch protótipo anterior 100 (o qual é armazenado) para 15 o período de pitch protótipo 100 no quadro atual 20, adicionando os períodos de pitch ausentes 100 no processo.
Esse processo é ilustrado na Figura 5. Tal interpolação se presta mais facilmente à variação temporal por produção de menos ou mais períodos de pitch interpolados 100. Isso 20 levará aos sinais residuais comprimidos ou expandidos 30 que são então enviados através da síntese LPC.
Variação temporal de Sinal Residual quando Segmento de Fala
110 é CELP:
Como declarado anteriormente, quando o segmento de fala 110 é PPP, a menor unidade que pode ser adicionada ou deletada do sinal é um período de pitch 100. Por outro lado, no caso de CELP, a variação não é tão direta como para PPP. Para variar o sinal residual 30, o decodificador 206 utiliza informações de retardo de pitch 180 contidas no quadro encodificado 20. Esse retardo de pitch 180 é na realidade o retardo de pitch 180 no fim do quadro 20. Deve ser observado aqui que mesmo em um quadro periódico 20, o retardo de pitch 180 pode mudar ligeiramente. Os retardos
16/23 ?ι t ρ r t c n * ò i > ci!; q u a r q ó e í ο ο η t c g i r x, ρ .> e i
..si per i.nt g rpa ^uçã·^· dUc rerardc· de pft.ch 180 no fim do úl 0 .i ííiu quadro z U e aquele no fim do quadro a t ua 1 2 0 .
I sso é must rado na Figura 6. Quando os retardes de pitcri 18 0 em todos os pontos no quadro 20 são conhecidos, o quadro 20 pode ser divid^H'-' em. períodos ue uuen liju. Os limites dos período? do mtrf 10 oàu ueterminados utilizando cs retardes de pitch 180 em vários pontos no
quadro 20.
10 A Figura 6A mostra um exemplo de como dividir o
quadro 20 em seus períodos de pitch 100. Por exemplo, o
número de amostra 70 tem um retardo de pitch 180 igual a
aproximadamente 70 e o número de amostra 142 tem um retardo
de pitch 180 de aproximadamente 72. Desse modo, os períodos de pitch 100 são a partir dos números de amostra [1-70] e a partir dos números de amostra [71-142]
Vide a Figura 6B.
Quando o quadro 20 tiver sido dividido em períodos de pitch 100, esses períodos de pitch 100 podem ser sobrepostos/adicionados para aumentar/diminuir o 20 tamanho do sinal residual 30. Vide as Figuras 7B a 7F. Na síntese de sobreposição e adição, o sinal modificado é obtido por extirpação dos segmentos 110 a partir do sinal de entrada 10, reposicionando os mesmos ao longo do eixo de tempo e realizando uma adição de sobreposição ponderada para construir o sinal sintetizado 150. Em uma modalidade, o segmento 110 pode ser igual a um período de pitch 100. O método de adição sobreposta substitui dois segmentos de fala diferentes 110 com um segmento de fala 110 por união dos segmentos 110 de fala. A união de fala é feita de uma 30 maneira preservando tanto quanto possível a qualidade da fala. Preservar a qualidade da fala e minimizar a introdução de artefatos na fala são realizadas por seleção cuidadosa dos segmentos 110 a serem unidos. (Artefatos são
17/23 i tens ±naesej aaos como cl lccps, des segmentos de fala 110 se baseia na similaridade de segmento.
Quanto mais estreita for a similaridade dos segmentos de fala 110, melhor será a qualidade de fala resultante e interior será a probabilidade de se introduzir um artefato de feia quando dois segmentos 11 ü de tala são sobrepostos para reduzir/aumentar o tamanho ao residuai de fala 30. Uma regra útil para determinar se os períodos de pitch devem ser sobrepostos/adicionados é se os retardos de pitch dos dois são similares (como um exemplo, se os retardos de pitch diferem em menos do que 15 amostras, o que corresponde a aproximadamente 1,8 ms).
A Figura 7C mostra como a adição sobreposta é usada para comprimir o sinal residual 30.
do método de sobreposição/adição é a
A primeira etapa de segmentar a seqüência de amostras de entrada s [n] em seus períodos de pitch como explicado acima. Na Figura 7Ά, o sinal de fala original 10 incluindo quatro períodos de pitch 100 (PPs) é mostrado. A próxima etapa inclui remover os períodos de pitch 100 do sinal 10 mostrado na Figura 7A e substituir esses períodos de pitch 100 com um período de pitch unido 100. Por exemplo, na Figura 7C, os períodos de pitch PP2 e PP3 são removidos e então substituídos com um período de pitch 100 no qual PP2 e PP3 são sobrepostosadicionados. Mais especificamente, na Figura 7C, os períodos de pitch 100 PP2 e PP3 são sobrepostos/adicionados de tal modo que a segunda contribuição do período de pitch 100 (PP2) continua diminuindo e aquela de PP3 está aumentando. O método de adição sobreposta produz um segmento de fala 110 a partir de dois diferentes segmentos de fala 110. Em uma modalidade, a adição sobreposta é realizada utilizando amostras ponderadas. Isso é ilustrado nas equações a) e b) como mostrado na Figura 8. A
18/23 ponderação é usaaa para prover uma transição suave cuíie a pnmeira amostra PCM (modulação codificada em pulsos) do segmento 1 (110) e a última amostra PCM do segmento 2 (110) .
A Figura ΊΌ é outra ilustração gráfica de PP2 e PP3 sendo sobrepostos/adicionados. 0 desvanecimento cruzado melhora a qualidade de um sinal 10 compriiúcio remporalmente por esse método em comparação com simplesmente remover um segmento 110 e juntar os segmentos adjacentes restantes 110 (como mostrado na Figura 7E) .
Em casos quando o período de pitch 100 está mudando, o método de adição sobreposta pode unir dois períodos de pitch 110 de comprimento desigual. Nesse caso,
melhor união pode ser obtida através do alinhamento dos
picos dos dois períodos de pitch 100 antes de
sobrepor/adicionar os mesmos. 0 residual
expandido/comprimido é então enviado através da síntese
LPC.
Expansão de Fala
Uma abordagem simples para expandir a fala é a
de realizar múltiplas repetições das mesmas amostras PCM. Contudo, repetir as mesmas amostras PCM mais do que uma vez pode criar áreas com nivelamento de pitch que é um artefato (artifact) facilmente detectado pelos humanos (por exemplo, a fala pode soar um pouco robótica) . Para preservar a qualidade da fala, o método de adição sobreposta pode ser usado.
A Figura 7B mostra como esse sinal de fala 10 pode ser expandido utilizando o método de adição sobreposta da presente invenção. Na Figura 7B, um periodo de pitch adicional 100 criado a partir dos períodos de pitch 100 PP1 e PP2 é adicionado. No período de pitch adicional 100, os períodos de pitch 100 PP2 e PP1 são sobrepostos/adicionados
19/23 de Lai modo que a contribuição do ^pgimdn período de pitch ÍPP2) 100 continua diminuindo e aquela de PP1 está aumentando. A Figura 7F é outra ilustração gráfica de PP2 e PP3 sendo sobrepostos/adicionados.
Variação temporal do Residual quando o Segmento de Fala é NELP:
Para os segmentos de fala NELP, o encodif ícacior encodifica as informações LPC assim como os ganhos para diferentes partes do segmento de fala 110. Não é necessário encodificar quaisquer outras informações uma vez que a fala é de natureza muito semelhante a ruído. Em uma modalidade, os ganhos são encodifiçados em conjuntos de 16 amostras PCM. Desse modo, por exemplo, um quadro de 160 amostras pode ser representado por 10 valores de ganho encodifiçado, um para cada 16 amostras de fala. O decodificador 206 gera o sinal residual 30 por geração de valores aleatórios e aplicando então nos mesmos os ganhos respectivos. Nesse caso, pode não ser um conceito de período de pitch 100, e como tal, a expansão/compressão não tem que ser da granularidade de um período de pitch 100.
Para expandir ou comprimir um segmento NELP, o decodificador 206 gera um número maior ou menor de segmentos (110) do que 160, dependendo de se o segmento 110 está sendo expandido ou comprimido. Os 10 ganhos decodificados são então aplicados às amostras para gerar um residual expandido ou comprimido 30. Como esses 10 ganhos decodificados correspondem as 160 amostras originais, esses não são aplicados diretamente às amostras expandidas/comprimidas. Diversos métodos podem ser usados para aplicar esses ganhos. Alguns desses métodos são descritos abaixo.
Se o número de amostras a serem geradas for inferior a 160, então todos os 10 ganhos não precisam ser
20/23 aplicado^. Por exemplo, se o rirem erres troe 2 2 44, es primeiros l? ganhos podem ser aplicados. Nesse caso, o primeiro ganho é aplicado as primeiras 16 amostras, amostras 1-16, o segundo ganho é aplicado às próximas 16 amostras, amostras 1/-32, etc. Similarmente, se as amostras forem mais do que 1 61, então o décimo ganno pode ser aplicado mais do que uma vet. Por exemplo, se o numero de amostras é 192, o décimo ganho pode ser aplicado às amestras 145-160, 161-176, e 177-192.
Alternativamente, as amostras podem ser divididas em 10 conjuntos de número igual, cada conjunto possuindo um número igual de amostras, e os 10 ganhos podem ser aplicados aos 10 conjuntos. Por exemplo, se o número de amostras
140, os 10 ganhos podem ser aplicados aos con j untos de amostras cada. Nesse caso, o primeiro ganho é aplicado as primeiras 14 amostras, amostras 1-14, o segundo ganho aplicado às próximas 14 amostras, amostras
15-28, etc.
Se número de amostras não é perfeitamente divisível por
10, então o décimo ganho pode ser aplicado às amostras restantes obtidas após divisão por 10.
Por exemplo, se o número de amostras é 145, os ganhos podem ser aplicados aos conj untos de 14 amostras cada.
Adicionalmente, o décimo ganho é aplicado às amostras 141145.
Após variação temporal, residual expandido/comprimido 30 é enviado através da síntese LPC ao usar qualquer um dos métodos de acima.
Aqueles versados na técnica entenderíam que informações e sinais podem ser representados utilizando qualquer uma de uma variedade de diferentes tecnologias e técnicas. Por exemplo, dados, instruções, comandos,
21/23
i. η formaçoes, sinais, bits, símbo' os, e chips que pulem Lei.
feridos por ι ooa a descrição acima podem ser representados por tensões, correntes, ondas eletromagnéticas, campos ou qualquer combinação dos mesmos.
Acrue les na apreciariam adicionalmente que ilustrativos, e etapas de algoritmo, descritos em conexão com as modalidades aqui reveladas podem ser implementados como hardware eletrônico, software de computador, ou combinações de ambos
Para ilustrar claramente essa permutabilidade de hardware e software, componentes blocos, módulos, circuitos, termos de e etapas foram descritos acima geralmente em suas funcionalidades. Se tal funcionalidade é implementada como hardware ou software depende da aplicação específica e das limitações de projeto impostas ao sistema como um todo. Aqueles versados na técnica podem implementar a funcionalidade descrita de diversas formas para cada aplicação especifica, mas tais decisões de implementação não devem ser interpretadas como causando um afastamento do escopo da presente invenção.
Os diversos blocos lógicos ilustrativos, módulos, e circuitos descritos em conexão com as modalidades aqui reveladas podem ser implementados ou realizados com um processador de uso geral, um processador de sinal digital (DSP), um circuito integrado de aplicação específica (ASIC), um arranjo de portas programáveis em campo (FPGA) ou outro dispositivo lógico programável, lógica de transistor ou porta discreta, componentes discretos de hardware, ou qualquer combinação dos mesmos, projetada para realizar as funções aqui descritas. Um processador de uso geral pode ser um microprocessador, mas como alternativa, o
22/23 çr uceoidóor pode ser ciualcwer procos^ed^r convencional, cor.r roiudcr, Íicioconiroldaor, ou máquina de estado. Um processador também pode ser implementado como uma combinação de dispositivos de computação, por exemplo, uma combinação de DSP e um microprocessador, uma pluralidade de microprocessadores, um ou mais microprocessadores em conjunto com. um núcleo USP, cu qualquer ourra tdi configuração.
As etapas de um método ou algoritmo descritas em conexão com os exemplos aqui revelados podem ser incorporadas diretamente em hardware, em um módulo de software executado por um processador, ou em uma combinação dos dois. Um módulo de software pode residir em Memória de Acesso Aleatório (RAM) , memória flash, Memória Somente Leitura (ROM), ROM Eletricamente Programável (EPROM), ROM Programável Eletricamente Apagável (EEPROM), registradores, disco rígido, um disco removível, um CD-ROM, ou qualquer outra forma de meio de armazenamento conhecido na técnica. Um meio de armazenamento ilustrativo é acoplado ao processador de tal modo que o processador pode ler informações a partir de, e gravar informações no, meio de armazenamento. Na alternativa, o meio de armazenamento pode ser integrado ao processador. O processador e o meio de armazenamento podem residir em um ASIC. 0 ASIC pode residir em um terminal de usuário. Na alternativa, o processador e o meio de armazenamento podem residir como componentes discretos em um terminal de usuário.
A descrição anterior das modalidades reveladas é provida para permitir que aqueles versados na técnica realizem ou utilizem a presente invenção. Diversas modificações nessas modalidades seriam facilmente evidentes para aqueles versados na técnica, e os princípios genéricos aqui definidos podem ser aplicados a outras modalidades sem
Figure BRPI0607624B1_D0008
uAsimi do escopú da i nw-yq Jt. r ; u) ;.j
: - 1 \m O.! : Cü Oc .'5 u 11 tu . SciS. ut.‘S3t·: I1OÜU, Γι ã O se pretende que a
píGSêliLt invenção seja l· imi tada a s moda; i dades a q u -l.
mostradas, mas deve ser c o n c e d i d o o mais ampro escopo
compeí tive 1 com os princípios e cara >cte. risticas inovadoras
reveladas aqui.

Claims (15)

1. Método para comunicar fala, compreendendo as etapas de:
classificar segmentos de fala (110);
encodificar os segmentos de fala, em que a encodificação é uma encodificação por predição linear;
variar temporalmente um sinal de fala residual (30) em uma versão expandida ou comprimida do sinal de fala residual, em que variar temporalmente compreende:
estimar um período de pitch (100); e adicionar ou subtrair pelo menos um do período de pitch após receber o sinal residual; e sintetizar o sinal de fala residual variado temporalmente;
o método caracterizado pelo fato de que a variação temporal compreende adicionalmente:
estimar retardo de pitch (180);
dividir um quadro de fala em períodos de pitch, em que limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos no quadro de fala;
sobrepor os períodos de pitch se o sinal de fala residual for diminuído; e adicionar os períodos de pitch se o sinal de fala residual for aumentado; em que a etapa de estimar retardos de pitch
compreende interpolar entre um retardo de pitch no final de um último quadro e um retardo de pitch no final de um quadro atual do sinal de fala residual.
2/6
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que pelo menos uma entre a etapa de sobrepor os períodos de pitch e a etapa de adicionar os períodos de pitch compreende fundir segmentos de fala.
Petição 870180168644, de 28/12/2018, pág. 8/14
3/6 substituir os segmentos removidos com um segmento fundido.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que compreende adicionalmente a etapa de selecionar segmentos de fala similares, em que fundir os segmentos de fala compreende fundir os segmentos de fala similares selecionados.
4/6 sobrepor os períodos de pitch se o sinal de fala residual for diminuído; e adicionar os períodos de pitch se o sinal de fala residual for aumentado;
em que a etapa de estimar retardos de pitch compreende interpolar entre um retardo de pitch no final de um último quadro e um retardo de pitch no final de um quadro atual do sinal de fala residual.
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que compreende adicionalmente a etapa de correlacionar segmentos de fala, na qual segmentos de fala similares são selecionados.
5/6
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de adicionar os periodos de pitch se o sinal de fala residual for aumentado compreende adicionar um periodo de pitch adicional criado a partir de um primeiro periodo de pitch do quadro e de um segundo periodo de pitch do quadro.
6/6 meios para estimar retardo de pitch (180);
meios para dividir um quadro de fala em períodos de pitch, em que limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos 5 no quadro de fala;
meios para sobrepor os períodos de pitch se o sinal de fala residual for diminuído; e meios para adicionar os períodos de pitch se o sinal de fala residual for aumentado;
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que a etapa de adicionar um periodo de pitch adicional criado a partir de um primeiro periodo de pitch e de um segundo periodo de pitch compreende adicionar o primeiro e o segundo periodos de pitch tal que a contribuição do primeiro periodo de pitch para o periodo de pitch adicional aumenta e a contribuição do segundo periodo de pitch para o periodo de pitch adicional diminui.
7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de sobrepor os periodos de pitch se o sinal de fala residual for diminuído compreende:
segmentar uma sequência de amostras de entrada em blocos de amostras;
remover segmentos do sinal de fala residual em intervalos de tempo regulares;
fundir os segmentos removidos; e
Petição 870180168644, de 28/12/2018, pág. 9/14
8. caracterizado Método, de acordo com a reivindicação a etapa de fundir 7, os pelo fato de que segmentos removidos compreende aumentar uma contribuição do segmento de primeiro período de pitch e diminuir uma
contribuição do segmento segundo período de pitch.
9. Vocoder (70) possuindo pelo menos uma entrada e pelo menos uma saída, compreendendo:
um encodificador (204) que compreende um filtro (80) possuindo pelo menos uma entrada conectada operavelmente à entrada do vocoder e pelo menos uma saída, em que o encodificador fornece codificação por predição linear; e um decodificador (206) que compreende um sintetizador (80) possuindo pelo menos uma entrada conectada operavelmente à pelo menos uma saída do encodificador e pelo menos uma saída conectada operavelmente à pelo menos uma saída do vocoder; e uma memória (82), em que o decodificador é adaptado para executar instruções de software (81) armazenadas na memória compreendendo variar temporalmente um sinal de fala residual (30) para uma versão expandida ou comprimida do sinal residual, em que variar temporalmente compreende: estimar um período de pitch (100); e adicionar ou subtrair pelo menos um do período de pitch após receber o sinal residual;
o vocoder caracterizado pelo fato de que variação temporal compreende adicionalmente:
estimar retardo de pitch (180);
dividir um quadro de fala em períodos de pitch, em que limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos no quadro de fala;
Petição 870180168644, de 28/12/2018, pág. 10/14
10 em que estimar retardos de pitch compreende interpolar entre um retardo de pitch no final de um último quadro e um retardo de pitch no final de um quadro atual do sinal de fala residual.
17. Memória legível por computador caracterizada
10. Vocoder, de acordo com a reivindicação 9, caracterizado pelo fato de que pelo menos um entre sobrepor os períodos de pitch e adicionar os períodos de pitch compreende fundir segmentos de fala.
11. Vocoder, de acordo com a reivindicação 10, caracterizado pelo fato de que compreende adicionalmente selecionar segmentos de fala similares, em que fundir segmentos de fala compreende fundir os segmentos de fala similares selecionados.
12. Vocoder, de acordo com a reivindicação 9, caracterizado pelo fato de que adicionar os períodos de pitch se o sinal de fala residual for aumentado compreendem adicionar um período de pitch adicional criado a partir de um primeiro período de pitch do quadro e de um segundo período de pitch do quadro.
13. Vocoder, de acordo com a reivindicação 12, caracterizado pelo fato de que adicionar um período de pitch adicional criado a partir de um primeiro período de pitch e de um segundo período de pitch compreende adicionar o primeiro e o segundo períodos de pitch tal que a contribuição do primeiro período de pitch para o período de pitch adicional aumenta e a contribuição do segundo período de pitch para o período de pitch adicional diminui.
Petição 870180168644, de 28/12/2018, pág. 11/14
14. Vocoder, de acordo com a reivindicação 9, caracterizado pelo fato de que sobrepor os períodos de pitch se o sinal de fala residual for diminuído compreende:
segmentar uma sequência de amostras de entrada em blocos de amostras;
remover segmentos do sinal de fala residual em intervalos de tempo regulares;
fundir os segmentos removidos; e substituir os segmentos removidos com um segmento fundido.
15. Vocoder, de acordo com a reivindicação 14, caracterizado pelo fato de que fundir os segmentos removidos compreende aumentar uma contribuição do segmento de primeiro período de pitch e diminuir uma contribuição do segmento de segundo período de pitch.
16. Vocoder (70), compreendendo:
meios para classificar segmentos de fala (110);
meios para encodificar os segmentos de fala, em que a encodificação é uma encodificação por predição linear;
meios para variar temporalmente um sinal de fala residual (30) em uma versão expandida ou comprimida do sinal de fala residual, em que os meios para variar temporalmente compreendem:
meios para estimar um período de pitch (100); e meios para adicionar ou subtrair pelo menos um do período de pitch após receber o sinal residual; e meios para sintetizar o sinal de fala residual variado temporalmente;
o vocoder caracterizado pelo fato de que os meios para variar temporalmente compreendem adicionalmente:
Petição 870180168644, de 28/12/2018, pág. 12/14
15 por compreender na mesma o método de acordo com o definido em qualquer uma das reivindicações 1 a 8.
BRPI0607624-6A 2005-03-11 2006-03-13 Variação temporal de quadros dentro do vocoder por modificação do residual BRPI0607624B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US66082405P 2005-03-11 2005-03-11
US60/660,824 2005-03-11
US11/123,467 US8155965B2 (en) 2005-03-11 2005-05-05 Time warping frames inside the vocoder by modifying the residual
US11/123,467 2005-05-05
PCT/US2006/009472 WO2006099529A1 (en) 2005-03-11 2006-03-13 Time warping frames inside the vocoder by modifying the residual

Publications (2)

Publication Number Publication Date
BRPI0607624A2 BRPI0607624A2 (pt) 2009-09-22
BRPI0607624B1 true BRPI0607624B1 (pt) 2019-03-26

Family

ID=36575961

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0607624-6A BRPI0607624B1 (pt) 2005-03-11 2006-03-13 Variação temporal de quadros dentro do vocoder por modificação do residual

Country Status (14)

Country Link
US (1) US8155965B2 (pt)
EP (1) EP1856689A1 (pt)
JP (1) JP5203923B2 (pt)
KR (2) KR100956623B1 (pt)
AU (1) AU2006222963C1 (pt)
BR (1) BRPI0607624B1 (pt)
CA (1) CA2600713C (pt)
IL (1) IL185935A (pt)
MX (1) MX2007011102A (pt)
NO (1) NO20075180L (pt)
RU (1) RU2371784C2 (pt)
SG (1) SG160380A1 (pt)
TW (1) TWI389099B (pt)
WO (1) WO2006099529A1 (pt)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
CA2691959C (en) * 2004-08-30 2013-07-30 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
US7674096B2 (en) * 2004-09-22 2010-03-09 Sundheim Gregroy S Portable, rotary vane vacuum pump with removable oil reservoir cartridge
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8364494B2 (en) * 2005-04-01 2013-01-29 Qualcomm Incorporated Systems, methods, and apparatus for split-band filtering and encoding of a wideband signal
SI1875463T1 (sl) * 2005-04-22 2019-02-28 Qualcomm Incorporated Sistemi, postopki in naprava za glajenje faktorja ojačenja
US8259840B2 (en) * 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8401865B2 (en) 2007-07-18 2013-03-19 Nokia Corporation Flexible parameter update in audio/speech coded signals
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
PL2311033T3 (pl) 2008-07-11 2012-05-31 Fraunhofer Ges Forschung Dostarczanie sygnału aktywującego dopasowanie czasowe i kodowanie sygnału audio z jego użyciem
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
CA2778240C (en) 2009-10-20 2016-09-06 Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio codec and celp coding adapted therefore
US8983829B2 (en) 2010-04-12 2015-03-17 Smule, Inc. Coordinating and mixing vocals captured from geographically distributed performers
TWI409802B (zh) * 2010-04-14 2013-09-21 Univ Da Yeh 音頻特徵處理方法及其裝置
PL2676264T3 (pl) 2011-02-14 2015-06-30 Fraunhofer Ges Forschung Koder audio estymujący szum tła podczas faz aktywnych
AR085218A1 (es) 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio
JP5712288B2 (ja) * 2011-02-14 2015-05-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 重複変換を使用した情報信号表記
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
CA2827272C (en) 2011-02-14 2016-09-06 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
ES2715191T3 (es) 2011-02-14 2019-06-03 Fraunhofer Ges Forschung Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
BR112013020587B1 (pt) 2011-02-14 2021-03-09 Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
CN103092330B (zh) * 2011-10-27 2015-11-25 宏碁股份有限公司 电子装置及其语音辨识方法
TWI584269B (zh) * 2012-07-11 2017-05-21 Univ Nat Central Unsupervised language conversion detection method
FR3024582A1 (fr) 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal

Family Cites Families (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5643800A (en) 1979-09-19 1981-04-22 Fujitsu Ltd Multilayer printed board
JPS57158247A (en) 1981-03-24 1982-09-30 Tokuyama Soda Co Ltd Flame retardant polyolefin composition
JPS59153346A (ja) 1983-02-21 1984-09-01 Nec Corp 音声符号化・復号化装置
JPS61156949A (ja) 1984-12-27 1986-07-16 Matsushita Electric Ind Co Ltd 音声パケツト通信方式
BE1000415A7 (nl) 1987-03-18 1988-11-22 Bell Telephone Mfg Asynchroon op basis van tijdsverdeling werkend communicatiesysteem.
JPS6429141A (en) 1987-07-24 1989-01-31 Nec Corp Packet exchange system
JP2760810B2 (ja) 1988-09-19 1998-06-04 株式会社日立製作所 音声パケット処理方法
SE462277B (sv) 1988-10-05 1990-05-28 Vme Ind Sweden Ab Hydrauliskt styrsystem
JPH04113744A (ja) 1990-09-04 1992-04-15 Fujitsu Ltd 可変速度パケット伝送方式
JPH05502539A (ja) 1990-09-19 1993-04-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 主データファイル及び制御ファイルが記録された記録担体、その記録方法及び装置、及びその読取装置
JP2846443B2 (ja) 1990-10-09 1999-01-13 三菱電機株式会社 パケット組立分解装置
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm, Inc. Vocoder mit veraendlicher bitrate
US5283811A (en) 1991-09-03 1994-02-01 General Electric Company Decision feedback equalization for digital cellular radio
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5317604A (en) 1992-12-30 1994-05-31 Gte Government Systems Corporation Isochronous interface method
JP3186315B2 (ja) 1993-02-27 2001-07-11 ソニー株式会社 信号圧縮装置、信号伸張装置、信号送信装置、信号受信装置及び信号送受信装置
US5490479A (en) 1993-05-10 1996-02-13 Shalev; Matti Method and a product resulting from the use of the method for elevating feed storage bins
US5440562A (en) 1993-12-27 1995-08-08 Motorola, Inc. Communication through a channel having a variable propagation delay
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
JP3713715B2 (ja) 1994-08-12 2005-11-09 ソニー株式会社 ビデオ信号編集装置
NL9401696A (nl) 1994-10-14 1996-05-01 Nederland Ptt Bufferuitleesbesturing van ATM ontvanger.
US5602959A (en) 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5699478A (en) 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5929921A (en) 1995-03-16 1999-07-27 Matsushita Electric Industrial Co., Ltd. Video and audio signal multiplex sending apparatus, receiving apparatus and transmitting apparatus
JP3286110B2 (ja) 1995-03-16 2002-05-27 松下電器産業株式会社 音声パケット補間装置
KR0164827B1 (ko) 1995-03-31 1999-03-20 김광호 프로그램 가이드신호 수신기
EP0852052B1 (en) * 1995-09-14 2001-06-13 Ericsson Inc. System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions
JPH09127995A (ja) 1995-10-26 1997-05-16 Sony Corp 信号復号化方法及び信号復号化装置
US5640388A (en) 1995-12-21 1997-06-17 Scientific-Atlanta, Inc. Method and apparatus for removing jitter and correcting timestamps in a packet stream
JPH09261613A (ja) 1996-03-26 1997-10-03 Mitsubishi Electric Corp データ受信再生装置
US5940479A (en) 1996-10-01 1999-08-17 Northern Telecom Limited System and method for transmitting aural information between a computer and telephone equipment
JPH10190735A (ja) 1996-12-27 1998-07-21 Secom Co Ltd 通話システム
US6073092A (en) 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6259677B1 (en) 1998-09-30 2001-07-10 Cisco Technology, Inc. Clock synchronization and dynamic jitter management for voice over IP and real-time data
US6370125B1 (en) 1998-10-08 2002-04-09 Adtran, Inc. Dynamic delay compensation for packet-based voice network
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6922669B2 (en) 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US7117156B1 (en) 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
JP4441126B2 (ja) 1999-04-19 2010-03-31 エイ・ティ・アンド・ティ・コーポレーション フレーム消去隠蔽処理装置
GB9911737D0 (en) * 1999-05-21 1999-07-21 Philips Electronics Nv Audio signal time scale modification
US6785230B1 (en) 1999-05-25 2004-08-31 Matsushita Electric Industrial Co., Ltd. Audio transmission apparatus
JP4218186B2 (ja) 1999-05-25 2009-02-04 パナソニック株式会社 音声伝送装置
JP4895418B2 (ja) 1999-08-24 2012-03-14 ソニー株式会社 音声再生方法および音声再生装置
JP4005359B2 (ja) 1999-09-14 2007-11-07 富士通株式会社 音声符号化及び音声復号化装置
US6377931B1 (en) 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
US6859460B1 (en) 1999-10-22 2005-02-22 Cisco Technology, Inc. System and method for providing multimedia jitter buffer adjustment for packet-switched networks
US6665317B1 (en) 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6496794B1 (en) 1999-11-22 2002-12-17 Motorola, Inc. Method and apparatus for seamless multi-rate speech coding
US6693921B1 (en) 1999-11-30 2004-02-17 Mindspeed Technologies, Inc. System for use of packet statistics in de-jitter delay adaption in a packet network
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
GB2360178B (en) 2000-03-06 2004-04-14 Mitel Corp Sub-packet insertion for packet loss compensation in Voice Over IP networks
US6813274B1 (en) 2000-03-21 2004-11-02 Cisco Technology, Inc. Network switch and method for data switching using a crossbar switch fabric with output port groups operating concurrently and independently
EP1275225B1 (en) 2000-04-03 2007-12-26 Ericsson Inc. Method and apparatus for efficient handover in packet data communication system
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
CN1432176A (zh) 2000-04-24 2003-07-23 高通股份有限公司 用于预测量化有声语音的方法和设备
US7246057B1 (en) 2000-05-31 2007-07-17 Telefonaktiebolaget Lm Ericsson (Publ) System for handling variations in the reception of a speech signal consisting of packets
US7016970B2 (en) 2000-07-06 2006-03-21 Matsushita Electric Industrial Co., Ltd. System for transmitting stream data from server to client based on buffer and transmission capacities and delay time of the client
US7155518B2 (en) 2001-01-08 2006-12-26 Interactive People Unplugged Ab Extranet workgroup formation across multiple mobile virtual private networks
US20020133334A1 (en) * 2001-02-02 2002-09-19 Geert Coorman Time scale modification of digitally sampled waveforms in the time domain
US20040204935A1 (en) 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US7212517B2 (en) 2001-04-09 2007-05-01 Lucent Technologies Inc. Method and apparatus for jitter and frame erasure correction in packetized voice communication systems
WO2002087137A2 (en) 2001-04-24 2002-10-31 Nokia Corporation Methods for changing the size of a jitter buffer and for time alignment, communications system, receiving end, and transcoder
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7266127B2 (en) 2002-02-08 2007-09-04 Lucent Technologies Inc. Method and system to compensate for the effects of packet delays on speech quality in a Voice-over IP system
US7079486B2 (en) 2002-02-13 2006-07-18 Agere Systems Inc. Adaptive threshold based jitter buffer management for packetized data
US7158572B2 (en) 2002-02-14 2007-01-02 Tellabs Operations, Inc. Audio enhancement communication techniques
US7126957B1 (en) 2002-03-07 2006-10-24 Utstarcom, Inc. Media flow method for transferring real-time data between asynchronous and synchronous networks
US7263109B2 (en) 2002-03-11 2007-08-28 Conexant, Inc. Clock skew compensation for a jitter buffer
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP3761486B2 (ja) 2002-03-29 2006-03-29 Necインフロンティア株式会社 無線lanシステム、主装置およびプログラム
WO2003090209A1 (en) 2002-04-22 2003-10-30 Nokia Corporation Method and device for obtaining parameters for parametric speech coding of frames
US7496086B2 (en) 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
US7280510B2 (en) 2002-05-21 2007-10-09 Nortel Networks Limited Controlling reverse channel activity in a wireless communications system
AU2002309146A1 (en) 2002-06-14 2003-12-31 Nokia Corporation Enhanced error concealment for spatial audio
US7336678B2 (en) 2002-07-31 2008-02-26 Intel Corporation State-based jitter buffer and method of operation
US8520519B2 (en) 2002-09-20 2013-08-27 Broadcom Corporation External jitter buffer in a packet voice system
JP3796240B2 (ja) 2002-09-30 2006-07-12 三洋電機株式会社 ネットワーク電話機および音声復号化装置
JP4146708B2 (ja) 2002-10-31 2008-09-10 京セラ株式会社 通信システム、無線通信端末、データ配信装置及び通信方法
US6996626B1 (en) 2002-12-03 2006-02-07 Crystalvoice Communications Continuous bandwidth assessment and feedback for voice-over-internet-protocol (VoIP) comparing packet's voice duration and arrival rate
KR100517237B1 (ko) 2002-12-09 2005-09-27 한국전자통신연구원 직교 주파수 분할 다중화 무선 통신 시스템에서의채널품질 추정과 링크적응 방법 및 그 장치
US7525918B2 (en) 2003-01-21 2009-04-28 Broadcom Corporation Using RTCP statistics for media system control
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
JP2004266724A (ja) 2003-03-04 2004-09-24 Matsushita Electric Ind Co Ltd リアルタイム音声用バッファ制御装置
JP3825007B2 (ja) 2003-03-11 2006-09-20 沖電気工業株式会社 ジッタバッファの制御方法
US7551671B2 (en) 2003-04-16 2009-06-23 General Dynamics Decision Systems, Inc. System and method for transmission of video signals using multiple channels
JP2005057504A (ja) 2003-08-05 2005-03-03 Matsushita Electric Ind Co Ltd データ通信装置及びデータ通信方法
EP1668828B1 (en) 2003-08-15 2008-10-01 Research in Motion Limited Apparatus, and an associated method, for preserving service quality levels during hand-off in a radio communication system
US7596488B2 (en) 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US7505764B2 (en) 2003-10-28 2009-03-17 Motorola, Inc. Method for retransmitting a speech packet
US7272400B1 (en) 2003-12-19 2007-09-18 Core Mobility, Inc. Load balancing between users of a wireless base station
US7424026B2 (en) 2004-04-28 2008-09-09 Nokia Corporation Method and apparatus providing continuous adaptive control of voice packet buffer at receiver terminal
JP4076981B2 (ja) 2004-08-09 2008-04-16 Kddi株式会社 通信端末装置およびバッファ制御方法
US8085678B2 (en) 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
US8102872B2 (en) 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20060187970A1 (en) 2005-02-22 2006-08-24 Minkyu Lee Method and apparatus for handling network jitter in a Voice-over IP communications network using a virtual jitter buffer and time scale modification
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8364494B2 (en) * 2005-04-01 2013-01-29 Qualcomm Incorporated Systems, methods, and apparatus for split-band filtering and encoding of a wideband signal

Also Published As

Publication number Publication date
JP2008533529A (ja) 2008-08-21
KR100956623B1 (ko) 2010-05-11
IL185935A0 (en) 2008-01-06
JP5203923B2 (ja) 2013-06-05
AU2006222963B2 (en) 2010-04-08
SG160380A1 (en) 2010-04-29
AU2006222963A1 (en) 2006-09-21
KR100957265B1 (ko) 2010-05-12
CA2600713A1 (en) 2006-09-21
BRPI0607624A2 (pt) 2009-09-22
TWI389099B (zh) 2013-03-11
MX2007011102A (es) 2007-11-22
NO20075180L (no) 2007-10-31
RU2371784C2 (ru) 2009-10-27
EP1856689A1 (en) 2007-11-21
US8155965B2 (en) 2012-04-10
KR20070112832A (ko) 2007-11-27
US20060206334A1 (en) 2006-09-14
WO2006099529A1 (en) 2006-09-21
RU2007137643A (ru) 2009-04-20
CA2600713C (en) 2012-05-22
KR20090119936A (ko) 2009-11-20
AU2006222963C1 (en) 2010-09-16
IL185935A (en) 2013-09-30
TW200638336A (en) 2006-11-01

Similar Documents

Publication Publication Date Title
BRPI0607624B1 (pt) Variação temporal de quadros dentro do vocoder por modificação do residual
ES2625895T3 (es) Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal
JP5019479B2 (ja) ボコーダにおけるフレームの位相整合のための方法および装置
ES2257098T3 (es) Codificacion periodica de vocales.
JP4927257B2 (ja) 可変レートスピーチ符号化
CA2659197C (en) Time-warping frames of wideband vocoder
KR101406742B1 (ko) 피치 주기 보정을 이용한 디지털 오디오 신호의 손실 블록의 합성 방법
BRPI0206835B1 (pt) método e equipamento para interoperabilidade entre sistemas de transmissão de voz durante inatividade da fala
ES2238860T3 (es) Codificacion a baja velocidad de bit de segmentos de voz sordos.
BRPI0715516A2 (pt) sistemas, mÉtodos e equipamentos para limitar fator de ganho
BRPI0716308B1 (pt) “dispositivo e método para pós-processamento de valores espectrais e codificador e decodificador de sinais de áudio&#34;
ES2253226T3 (es) Codigo interpolativo multipulso de tramas de voz.
BRPI0012537B1 (pt) método de processamento de um protótipo de um frame em um codificador de fala e codificador de fala
CN101171626B (zh) 通过修改残余对声码器内的帧进行时间扭曲
Zhang et al. Embedded RPE based on multistage coding
HK1113011A (en) Time warping frames inside the vocoder by modifying the residual
HK1117630A (en) Method and apparatus for phase matching frames in vocoders
BR112020009114A2 (pt) aparelho para codificar um sinal de informações que inclui uma pluralidade de quadros, sistema que compreende um lado do codificador e um lado do decodificador, método para determinar um atraso de pitch e programa que compreende instruções

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Ipc: G10L 19/20 (2013.01), G10L 21/01 (2013.01)

B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 26/03/2019, OBSERVADAS AS CONDICOES LEGAIS. (CO) 10 (DEZ) ANOS CONTADOS A PARTIR DE 26/03/2019, OBSERVADAS AS CONDICOES LEGAIS