BRPI0607624B1

BRPI0607624B1 - Variação temporal de quadros dentro do vocoder por modificação do residual

Info

Publication number: BRPI0607624B1
Application number: BRPI0607624-6A
Authority: BR
Inventors: Rohit Kapoor; Serafin Diaz Spindola
Original assignee: Qualcomm Incorporated
Priority date: 2005-03-11
Filing date: 2006-03-13
Publication date: 2019-03-26
Also published as: JP2008533529A; KR100956623B1; IL185935A0; JP5203923B2; AU2006222963B2; SG160380A1; AU2006222963A1; KR100957265B1; CA2600713A1; BRPI0607624A2; TWI389099B; MX2007011102A; NO20075180L; RU2371784C2; EP1856689A1; US8155965B2; KR20070112832A; US20060206334A1; WO2006099529A1; RU2007137643A

Abstract

variação temporal de quadros dentro do vocoder por modificaçao do resíduo. em uma modalidade, a presente invenção compreende um vocoder tendo pelo menos uma entrada e pelo menos uma saida, um encodificador compreendendo um filtro tendo pelo menos uma entrada conectada operativamente à entrada do vocoder e pelo menos uma saida, um deencodificador compreendendo um sintetizador tendo pelo menos uma entrada conectada operativamente a pelo menos uma saída do encodificador, e pelo menos uma saída conectada operativamente a pelo menos uma saída do vocoder, em que o encodificador compreende uma memória e o encodificador é adaptado para executar instruções armazenadas na memória compreendendo classificar segmentos de fala e codificar segmentos de fala, e o deencodificador compreende uma memória e o deencodificador é adaptado para executar instruções armazenadas na memória compreendenda variação temporal de um segmento de fala residual para uma versão expandida ou compactada do sinal de fala residual.

Description

A presente invenção refere-se, geralmente, a um método para variação temporal íexpardir ou comprimir) quadros de vocoder no vocoder. A variação temporal tem um número de aplicações em redes comutadas por pacote onde os pacotes de vocoder podem chegar de forma assincrona. Embora a variação temporal possa ser realizada quer seja dentro do vocoder ou fora do vocoder, realizar o mesmo no vocoder oferece um número de vantagens tal como melhor qualidade dos quadros ajustados e carga computacional reduzida. Os métodos apresentados nesse documento podem ser aplicados a qualquer vocoder que utilize técnicas similares conforme referido nesse pedido de patente para codificação de voz dos dados de voz.

Fundamentos

A presente invenção compreende um equipamento e método para variação temporal de quadros de fala pela manipulação do sinal de fala. Em uma modalidade, o presente método e equipamento são usados no Vocoder de Quarta

Geração (4GV), mas não é limitado ao mesmo. As modalidades reveladas compreendem métodos e equipamentos para expandir/comprimir diferentes tipos de segmentos de fala.

As seguintes e métodos dentro de um campo de esforço similar às modalidades descritas aqui: WO 01/82289 (MANJUNATH SHARATH

ET AL) 1 de Novembro de 2001 e US

2004/156397 (HEIKKINEN

ARI ET AL) 12 de Agosto de 2004.

SUMÁRIO

De acordo com a presente invenção, um método, como definido na reivindicação 1, um vocoder, como definido

2/23

2J3 rei v ι to Íc^ções 21 a 39, e um Drodirfo ^^/'e adsr, como definido na reivindicação lü, são fornecidos. Modalidades da invenção são reivindicadas nas reivindicações dependentes.

Em virtude do acima, as características descritas da presente invenção se referem geralmcnte a um ou mais sistemas aperfeiçoados, métodos e/ou equipamentos pai_dcomunicação de f ala.

Em uma modalidade, a presente invenção compreende 10 um método de comunicar fala compreendendo as etapas de classificar os segmentos de fala, encodificar (encode) os segmentos de fala utilizando predição linear excitada por código, e variação temporal de um sinal de fala residual para uma versão expandida ou comprimida do sinal de fala 15 residual.

Em outra modalidade, o método de comunicar fala compreende ainda enviar um sinal de fala através de um filtro de codificação preditiva linear, pelo que correlações de curto prazo no sinal de fala são filtradas, 20 e emitindo coeficientes de codificação preditiva linear e um sinal residual.

Em outra modalidade, a encodificação é uma encodificação por predição linear excitada por código e a etapa de variação temporal compreende estimar o retardo de 25 pitch, dividir um quadro de fala em periodos de pitch, em que limites dos períodos de pitch são determinados utilizando um retardo de pitch em diversos pontos no quadro de fala, sobrepondo-se os periodos de pitch se o residual de fala for comprimido, e adicionando-se os periodos de 30 pitch se o sinal de residual de fala for expandido.

Em outra modalidade, a encodificação é protótipo de encodificação de período de pitch e a etapa de variação temporal compreende estimar pelo menos um período de pitch,

3/2 3 inteΐ'ρ·υ1άΐ o pelo T.enos jm ceriodo de oitcb, AidHnnAx peíc menos um período de pincln quando expandirão o sinal de f dl d residuai, e sudtraindo o pelo menos um período de pitch ao comprimir o sinal de fala residual.

Em outra modalidade, a encodificação é encodificacão por predição l/near excitada por rmido, e a etapa de variação temporal compreende aplicar gannos possivelmente diferentes a partes diferentes de um segmento de fala antes de sintetizar o mesmo.

Em outra modalidade, a presente invenção compreende um vocoder possuindo pelo menos uma entrada e pelo menos uma saída, um encodificador incluindo um filtro possuindo pelo menos uma entrada conectada operativamente à entrada do vocoder e pelo menos uma saída, um decodificador incluindo um sintetizador possuindo pelo menos uma entrada conectada operativamente a pelo menos uma saída do encodificador e pelo menos uma saída conectada operativamente a pelo menos uma saída do vocoder.

Em outra modalidade, o encodificador compreende uma memória, em que o encodif icador é adaptado para executar instruções armazenadas na memória compreendendo classificar segmentos de fala como quadro de 1/8, período de pitch protótipo, predição linear excitada por código ou predição linear excitada por ruído.

Em outra modalidade, o decodificador compreende uma memória e o decodificador é adaptado para executar instruções armazenadas na memória compreendendo a variação temporal de um residual para uma versão expandida ou comprimida do sinal residual.

0 escopo adicional de aplicabilidade da presente invenção se tornará evidente a partir da descrição detalhada, reivindicações e desenhos a seguir. Contudo, deve ser entendido que a descrição detalhada e os exemplos

especí f i cos esboi d maicando moda 1 i d a d p <=. preferidas d<^ civerpac, são fornecidos apenas como ilustração, uma vez que diversas alterações e modificações abrangidas pelo espirito e escopo da invenção se tornarão evidentes para aqueles versados na técnica.

BREVE DESCRIÇÃO DOS DESENHOS

A presente invenção se tornará mais CumpleLamente entendida a partir da descrição detalhada fornecida aqui, abaixo, reivindicações anexas e desenhos anexos nos quais:

A Figura 1 é um diagrama de blocos de um vocoder

de Codificação Preditiva Linear (	LPC) ;
	A	Figura	2A é	um sinal	de	fala contendo fala	com
voz;
	A	Figura	2B é	um sinal	de	fala contendo fala	sem
voz;
	A	Figura	2C é um sinal <	de fala contendo	fala
transiente;
	A	Figura	3 é	um diagrama	de blocos ilustrando
Filtragem	LPC de	Fala	seguida	por	Encodificação de	um

Residual;

A Figura 4A é um gráfico de fala original;

A Figura 4B é um gráfico de um Sinal de Fala Residual após Filtragem LPC;

A Figura 5 ilustra a geração de Formas de Onda utilizando Interpolação entre Períodos de Protótipo Pitch Anteriores e Atuais;

	A	Figura	6A descreve a	determinação	de	Retardos
de	Pitch	através de	Interpolação;
		A	Figura	6B descreve a	identificação	de	períodos
de	Pitch;
		A	Figura	7A representa	um sinal de fala	original
na	forma	de	períodos de pitch;

5/23

A Figuita. 7B reoresarAa de fala CaCuíiuFIo ut i .1 i.zando sobreposição-aaição;

A Figura 7C representa um sinal de fala comprimido utilizando sobreposição-adição;

A Figura 7E representa como a ponderação é usada oara comprimir o sinal residual;

A Figura ^E representa smal ae raia comprimido sem utilização de sobreposição-adição;

A Figura 7F representa como a ponderação é usada 10 para expandir o sinal residual; e

A Figura 8 contém duas equações usadas no método de adição-sobreposição.

DESCRIÇÃO DETALHADA termo ilustrativo é usado aqui significando 15 servindo como um exemplo, ocorrência, ou ilustração.

Qualquer modalidade aqui descrita como ilustrativa não deve ser necessariamente considerada como preferida ou vantajosa em relação a outras modalidades.

Características do Uso de Variação Temporal em um Vocoder

As vozes humanas consistem em dois componentes.

Um componente compreende ondas fundamentais que são sensíveis ao pitch e as outras são harmônicas fixas que não são sensíveis ao pitch. O pitch percebido, de um som, é a resposta do ouvido à freqüência, isto é, para propósitos 25 mais práticos o pitch é a freqüência. Os componentes de harmônica adicionam características distintas à voz de uma pessoa. Eles mudam j unto com as cordas vocais e com a forma física do trato vocal e são denominados formantes.

A voz humana pode ser representada por um sinal 30 digital s(n) 10. Suponha que s(n) 10 é um sinal de fala digital obtido durante uma conversação típica incluindo diferentes sons vocais e períodos de silêncio. O sinal de

6/23 ^f a L a s (rd 10 é pLeferiveiiRente lecarfndn qtadroo 20. Eiu uma mexia l i.oade , s (n) 10 é digitalmente amo st rado em 8 kHz.

Esquemas de codificação atuais comprimem um sinal de fala digitalizado 10 em um sinal de baixa taxa de bits 5 por remoção de todas as redundâncias naturais (isto é, elementos correlacionados) inerentes na fala. A fala exibe tipicamente redundâncias de ^orto prazo resultantes aa ação mecânica dos lábios e língua e redundâncias de longo prazo resultantes da vibração das cordas vocais. Codificação 10 Preditiva Linear (LPC) filtra o sinal de fala 10 por remoção das redundâncias produzindo um sinal de fala residual 30. Ele então modela o sinal residual resultante 30 como ruido Gaussiano branco. Um valor amostrado de uma forma de onda de fala pode ser predito por ponderação de 15 uma soma de um número de amostras passadas 40, cada uma das quais é multiplicada por um coeficiente preditivo linear 50. Codificadores preditivos lineares, portanto, obtêm uma taxa de bits reduzida por transmissão de coeficientes de filtro 50 e ruído quantizado ao invés de um sinal de fala 2 0 de largura de banda completa 10. O sinal residual 30 é encodificado por extração de um período de protótipo 100 a partir de um quadro atual 20 do sinal residual 30.

Um diagrama de blocos de uma modalidade de um vocoder LPC 70 usado pelo presente método e equipamento 25 pode ser visto na Figura 1. A função do LPC é a de minimizar a soma das diferenças elevadas ao quadrado entre o sinal de fala original e o sinal de fala estimado por uma duração finita. Isso pode produzir um conjunto singular de coeficientes de predição 50 que são normalmente estimados a 30 cada quadro 20. Um quadro 20 tem tipicamente 20 ms de comprimento. A função de transferência do filtro digital de variação temporal 75 é dada por:

o ride os coeficientes de predição 50 são representados por av e o ganho por G.

A soma é computada a partir de k=l a k=p. Se um método LPC-10 for usado, então p=10. Isso significa que apenas os primeiros 10 cceficieiiues 5 0 são transmitidos para o smtetizaior LPC 80. Os dois métodos mais comumente usados para computar os coeficientes são: método de covariância e método de autocorrelação, porém, não são limitados a eles.

É comum que diferentes pessoas falem em velocidades diferentes. A compressão de tempo é um método de reduzir o efeito da variação de fala para pessoas individualmente. As diferenças de temporização entre dois padrões de fala podem ser reduzidas pela variação do eixo temporal de um deles de modo que a coincidência máxima é obtida com o outro. Essa técnica de compressão temporal é conhecida como variação temporal. Além disso, a variação temporal comprime ou expande os sinais de voz sem mudar seu pitch.

Vocoders típicos produzem quadros 20 de 20 ms de duração, incluindo 160 amostras 90 na taxa preferida de 8 kHz. Uma versão comprimida com variação temporal desse quadro 20 tem uma duração menor do que 20 ms, enquanto que uma versão expandida ajustada temporalmente tem uma duração superior a 20 ms. A variação temporal de dados de voz tem vantagens significativas ao se enviar dados de voz através de redes de comutação de pacotes, que introduzem jitter de retardo na transmissão de pacotes de voz. Em tais redes, a variação temporal pode ser usada para aliviar os efeitos de tal jitter de retardo e produzir um fluxo de voz parecendo sincrono.

8/23

Mudai.-Lciades da invencãn referem a uin euu ípamento o mét.odo paia variação temporal de quadros 2 0 dentro do vocoder 70 por manipulação do residual de fala 30. Em uma modalidade, o presente método e equipamento são 5 usados em 4GV. As modalidades reveladas compreendem métodos e equipamentos ou sistemas para expanoir/comprimir diferentes tipos de segmentos de fa±a 4üV 1 iü, encodifiçados utilizando codificação de Periodo de Pitch Protótipo (PPP), Predição Linear Excitada por Código (CELP) 10 ou Predição Linear Excitada por Ruído (NELP).

O termo vocoder 70 refere-se tipicamente aos dispositivos que comprimem a fala com voz por extração de parâmetros com base em um modelo da geração de fala humana. Os vocoders 70 incluem um encodificador 204 e um 15 decodificador 206. 0 encodificador 204 analisa a fala que chega e extrai os parâmetros relevantes. Em uma modalidade, o encodificador compreende um filtro 75. 0 decodificador

206 sintetiza a fala utilizando os parâmetros que ele recebe a partir do encodificador 204 por intermédio de um 20 canal de transmissão 208. Em uma modalidade, o decodificador compreende um sintetizador 80. O sinal de fala 10 frequentemente é dividido em quadros 20 de dados e bloco processado pelo vocoder 70.

Aqueles versados na técnica reconhecerão que a 25 fala humana pode ser classificada em muitas formas diferentes. Três classificações convencionais de fala são fala com voz, sons sem voz, e fala transiente. A Figura 2A é um sinal de fala com voz s(n) 402. A Figura 2A mostra uma propriedade mensurável, comum de fala com voz conhecida 30 como o periodo de pitch 100.

A Figura 2B é um sinal de fala sem voz s(n) 404.

Um sinal de fala sem voz 404 lembra ruído colorido.

9/23

Ά Figurai 22 descreve um sinal ^^>ls fransiente s 1.11 j qub esto é, fala que não é com voz nem sem voz) . O exemplo de fala transiente 406 mostrado na Figura 2C podería representar s(n) mudando entre fala sem voz e fala com voz. Essas três classificações não são totalmente inclusivas. Há muitas classificações diferentes de fala que pode riam ser empregada s de acordo com os métodos aqui descritos para se obter resultados comparáveis.

O Vocoder 4GV Utiliza 4 Tipos de Quadros Diferentes

Vocoder de quarta geração (4GV) 70 usado em uma modalidade da invenção provê características atraentes para uso em redes sem fio. Algumas dessas características incluem a habilidade de equilibrar qualidade versus taxa de bits, codificação de voz mais flexível em face de taxa e erro de pacotes aumentado (PER), melhor ocultação de apagamentos, etc. O vocoder 4GV 70 pode utilizar qualquer um de quatro diferentes encodificadores 204 e decodificadores 206. Os encodificadores 204 e decodificadores 206 diferentes operam de acordo com diferentes esquemas de codificação. Alguns encodificadores 204 são mais eficazes na codificação de partes do sinal de fala s(n) 10 exibindo certas propriedades. Portanto, em uma modalidade, o modo de encodificadores 204 e decodificadores

6 pode ser selecionado com base na classificação do quadro atual 20.

O encodificador 4GV 204 encodifica cada quadro 20 de dados de voz em um de quatro diferentes tipos de quadro 20: Tnterpolação de Forma de Onda de Período de Pit ch

Protótipo (PPPWI) , Predição Linear Excitada por Código (CELP), Predição Linear Excitada por Ruído (NELP), ou quadro de silêncio de 1/8° de taxa. CELP é usado para encodificar fala com periodicidade ruim ou fala que envolve mudança de um segmento periódico 110 para outro. Assim, o . ί. cl-UOS segmentos na o

vez que tais podem ser reconstruídos exaiamente a oarrir de apenas de fala completo

110. 0 modo CELP vocal com uma versão auammada de encodificadores 204 e decodi f _i ca dores

206 descritos aqui,

CELP geralmente produz a reprodução de fala mais precisa, porém requer uma taxa de bits superior.

Um modo Período de Pitch Protótipo (PPP) pode ser escolhido para codificar quadros 20 classificados como fala com voz. Fala com voz contém componentes periódicos de variação temporal lenta que são explorados pelo modo PPP. O modo PPP codifica um subconjunto dos períodos de pitch 100 dentro de cada quadro 20. Os períodos restantes 100 do sinal de fala 10 são reconstruídos por interpolação entre esses períodos protótipos 100. Por exploração da periodicidade de fala com voz, PPP é capaz de obter uma taxa de bits inferior do que CELP e ainda assim reproduzir o sinal de fala 10 de uma maneira percentualmente precisa.

PPPWI é usado para encodificar dados de fala que são de natureza periódica. Tal fala é caracterizada por diferentes períodos de pitch 100 sendo similares aos períodos de pitch protótipos (PPP) . Esse PPP é a única informação de voz que o encodificador 204 precisa encodificar. O decodificador pode usar esse PPP para reconstruir outros períodos de pitch 100 no segmento de fala 110.

Um encodificador Preditivo Linear Excitado por

Ruído (NELP) 204 é escolhido para codificar os quadros 20 classificados como fala sem voz. Codificação NELP opera ί ,_:-3 /rn^r.

ue reprodid; rm «’ , .3 1 I 1 <! !

I P TP

Mais psp<mτ f ή camcntc, cie na tu reza seme Ihante a ruído de fundo. NELP pseudoa.leatór io f ilt rado neròiuma os t. r u o ura cie pitch.

NELP é asado para er.codif iear fala que é

ruído,	tal	como	f âid	sem	voz	ou
u ti 1.1	za	um	sinal	de	ruído
oara	- dei.	3 r U 1 α i <i	sem	voz .	Λ

os ue tala 110 natureza semelhante a r> ι τ d''·' d^ a i m pode ser reconstruída por geração de sinais aleatórios no decodificador 206 e aplicando ganhos apropriados aos 10 mesmos. NELP utiliza o modelo mais simples para a fala codificada e, portanto, obtém uma taxa de bits inferior.

Os quadros de 1/8 de taxa são usados para encodificar silêncio, por exemplo, períodos onde o usuário não está falando.

Todos os quatro esquemas de codificação de voz descritos acima compartilham o procedimento de filtragem

LPC inicial, como mostrado na Figura 3. Após caracterizar a fala em uma das quatro categorias, o sinal de fala 10 é enviado através de um filtro de codificação preditiva 20 linear (LPC) 80 o qual filtra as correlações de curto prazo na fala utilizando predição linear. As saídas desse bloco são os coeficientes LPC 50 e o sinal residual 30, que é basicamente o sinal de fala original 10 com as correlações de curto prazo removidas do mesmo. 0 sinal residual 30 é então codificado utilizando os métodos específicos usados pelo método de codificação de voz selecionado para o quadro

20.

As Figuras 4A-4B mostram um exemplo do sinal de fala original 10, e o sinal residual 30 após o bloco LPC 30 80. Pode ser visto que o sinal residual 30 mostra períodos de pitch 100 mais distintamente do que a fala original 10. Assim, é lógico que o sinal residual 30 possa ser usado para determinar o período de pitch 100 do sinal de fala

12/23 qudL r amuem contém correlações oe curto prazo) .

Variação Temporal Residual usada

Embora isso,

Como declarado acima, variação temporal para expansão ou alguns métodos a maioria dos pode ser compressão

Dossam ser mesmos se cancelamento dos períodos de pitch do sinal de usados

100 a fala

10.

paia conseguir na adição ou partir do sinal

10. A adição ou subtração de períodos de pitch 100 pode ser residual

30, mas antes do sinal 30 ser sintetizado. Para dados de fala que são encodi ficados utilizando CELP ou PPP (não NELP), o sinal inclui um número de períodos de pitch 100. Desse modo, a menor unidade que pode ser adicionada ou deletada do sinal de fala 10 é um período de pitch 100 uma vez que qualquer unidade menor do que isso levará a uma descontinuidade de fase resultando na introdução de artefatos de fala perceptíveis. Desse modo, uma etapa nos métodos de variação temporal aplicados à fala PPP ou CELP é estimação do período de pitch 100. Esse período de pitch 100 já é conhecido do decodificador 206 para quadros de fala CELP/PPP 20. No caso de ambos, PPP e CELP, informações de pitch são calculadas pelo encodificador 204 utilizando métodos de autocorrelação e são transmitidas para o decodificador 20 6. Desse modo, o decodificador 206 tem conhecimento preciso do período de pitch 100. Isso torna mais simples empregar o método de variação temporal da presente invenção no decodificador 206.

Além disso, como declarado acima, é mais simples variar temporalmente o sinal 10 antes de sintetizar o sinal 10. Se tais métodos de variação temporal fossem empregados após a codificação do sinal 10, o período de pitch 100 do sinal 10 precisaria ser estimado. Isso requer não apenas

GuiupuLação adicional, mas também a ps^Hrruç-3c? do período do pitch 100 pode não ser muito precisa uma vez que o sinal residual 30 também contém informações LPC 170.

Por outro lado, se a estimação do período de pitch adicional 100 não for muito complexa, então realizar variação temporal após codificação não requer alterações no oecodificador 2E6 e d°sse mcce pe.dc ser impicmctizacia apenas uma vez para todos os vocoders 80.

Ourra razão para realizar variação temporal no 10 decodificador 206 antes de sintetizar o sinal utilizando síntese de codificação LPC é que a compressão/expansão pode ser aplicada ao sinal residual 30. Isso permite que a síntese de codificação preditiva linear (LPC) seja aplicada ao residual ajustado temporalmente 30. Os coeficientes LPC 15 50 desempenham uma função em como a fala soa e aplicam a síntese após o ajuste garante que informações LPC corretas 170 sejam mantidas no sinal 10.

Se, por outro lado, variação temporal for feita após a codificação do sinal residual 30, a síntese LPC já 20 foi realizada antes da variação temporal. Desse modo, o procedimento de variação pode mudar as informações LPC 170 do sinal 10, especialmente se após a codificação, a pr edição de período de pitch 100 não tiver sido muito precisa. Em uma modalidade, as etapas realizadas pelos 25 métodos de variação temporal revelados no presente pedido são armazenadas como instruções localizadas em software ou firmware 81 localizado na memória 82. Na Figura 1, a memória é mostrada localizada dentro do decodificador 20 6.

A memória 82 também pode estar localizada fora do 30 decodificador 206.

encodificador 204 (tal como aquele em 4GV) pode categorizar os quadros de fala 20 como PPP (periódico), CELP (1igeiramente periódico) ou NELP (ruidoso) dependendo

14/23 de se cs qimdixs 20 representam fala com vo?. voz cu ansicnrθ. utilizando informação sobre o tipo de quadro de fala 20, o decodi f icador 206 pode ajustar temporalmente diferentes tipos de quadro 20 utilizando diferentes métodos. Por exemplo, um quadro de fala NELP 20 não tem noção dos períodos de pi + ch e seu sinal residual 30 e gerado no decodificador utilizando informações aleatórias. Desse modo, a estimação do período de pitch 100 do CELP/PPP não se aplica a NELP e, em geral, quadros NELP 20 podem ser ajustados (expandidos/comprimidos) em menos do que um período de pitch 100. Tal informação não está disponível se a variação temporal for realizada após codificação do sinal residual 30 no decodificador 206. Em geral, a variação temporal de quadros semelhantes a NELP 20 após codificação conduz a artefatos de fala. Variância de quadros NELP 20 no decodif icador 206, por outro lado, produz qualidade muito melhor.

Desse modo, há duas vantagens em realizar variação temporal no decodificador 206 (isto é, antes da síntese do sinal residual 30) ao contrário do pósdecodificador (isto é, após o sinal residual 30 ser sintetizado): (i) redução de overhead computacional (por exemplo, uma busca pelo período de pitch 100 é evitada), e (ii) qualidade de variação aperfeiçoada devido a: a) conhecimento do tipo de quadro 20, b) realização de síntese LPC no sinal ajustado e c) estimação/conhecimento mais preciso do período de pitch.

Métodos de Variação Temporal Residual que se segue descreve modalidades nas quais o presente método e equipamento varia temporalmente o residual de fala 30 dentro de decodificadores PPP, CELP e NELP. As duas etapas a seguir são realizadas em cada decodificador 206: (i) variação temporal do sinal residual ¹ 7 2 3

7 pa r a '.0 7 vcrrà^ expciucm aa ca Guio r ; ^; a λ · ~ ; i i': ά >

.aoí..l^c4_L coil· variaoio r.enpma 1 3u atiaves do filtro LPC 80. Além disso, a ciapa (1) e realizada diferentemende para segmentos de fala PPP, CrLP e NELP I 10- As moaaiidades serão descritas abaixo.

Variação temporal de S inai P e 1 _q^gnd^ Jegmento _do

Fala 1 J Ο ^{Λ p}PP:

	í	lomo	declarado acima, quando o segmento de fala
110	é PPP,	a	menor unidade	que pode ser	adicionada ou
10 dei	etada do	sinal é um período	de pitch 100.	Antes do sinal
10	poder	ser	decodificado	(e o sinal	residual 30,

reconstruído) a partir do período de pitch protótipo 100, o decodificador 206 interpola o sinal 10 a partir do período de pitch protótipo anterior 100 (o qual é armazenado) para 15 o período de pitch protótipo 100 no quadro atual 20, adicionando os períodos de pitch ausentes 100 no processo.

Esse processo é ilustrado na Figura 5. Tal interpolação se presta mais facilmente à variação temporal por produção de menos ou mais períodos de pitch interpolados 100. Isso 20 levará aos sinais residuais comprimidos ou expandidos 30 que são então enviados através da síntese LPC.

Variação temporal de Sinal Residual quando Segmento de Fala

110 é CELP:

Como declarado anteriormente, quando o segmento de fala 110 é PPP, a menor unidade que pode ser adicionada ou deletada do sinal é um período de pitch 100. Por outro lado, no caso de CELP, a variação não é tão direta como para PPP. Para variar o sinal residual 30, o decodificador 206 utiliza informações de retardo de pitch 180 contidas no quadro encodificado 20. Esse retardo de pitch 180 é na realidade o retardo de pitch 180 no fim do quadro 20. Deve ser observado aqui que mesmo em um quadro periódico 20, o retardo de pitch 180 pode mudar ligeiramente. Os retardos

16/23 ?ι t ρ r t c n * ò i > ci!; q u a r q ó e í ο ο η t c g i r x, ρ .> e i

..si per i.nt g rpa ^uçã·^· dUc rerardc· de pft.ch 180 no fim do úl 0 .i ííiu quadro z U e aquele no fim do quadro a t ua 1 2 0 .

I sso é must rado na Figura 6. Quando os retardes de pitcri 18 0 em todos os pontos no quadro 20 são conhecidos, o quadro 20 pode ser divid^H'-' em. períodos ue uuen liju. Os limites dos período? do mtrf 10 oàu ueterminados utilizando cs retardes de pitch 180 em vários pontos no

quadro	20.
10	A Figura 6A mostra um exemplo de como dividir o
quadro	20 em seus períodos de pitch 100. Por exemplo, o
número	de amostra 70 tem um retardo de pitch 180 igual a
aproximadamente 70 e o número de amostra 142 tem um retardo

de pitch 180 de aproximadamente 72. Desse modo, os períodos de pitch 100 são a partir dos números de amostra [1-70] e a partir dos números de amostra [71-142]

Vide a Figura 6B.

Quando o quadro 20 tiver sido dividido em períodos de pitch 100, esses períodos de pitch 100 podem ser sobrepostos/adicionados para aumentar/diminuir o 20 tamanho do sinal residual 30. Vide as Figuras 7B a 7F. Na síntese de sobreposição e adição, o sinal modificado é obtido por extirpação dos segmentos 110 a partir do sinal de entrada 10, reposicionando os mesmos ao longo do eixo de tempo e realizando uma adição de sobreposição ponderada para construir o sinal sintetizado 150. Em uma modalidade, o segmento 110 pode ser igual a um período de pitch 100. O método de adição sobreposta substitui dois segmentos de fala diferentes 110 com um segmento de fala 110 por união dos segmentos 110 de fala. A união de fala é feita de uma 30 maneira preservando tanto quanto possível a qualidade da fala. Preservar a qualidade da fala e minimizar a introdução de artefatos na fala são realizadas por seleção cuidadosa dos segmentos 110 a serem unidos. (Artefatos são

17/23 i tens ±naesej aaos como cl lccps, des segmentos de fala 110 se baseia na similaridade de segmento.

Quanto mais estreita for a similaridade dos segmentos de fala 110, melhor será a qualidade de fala resultante e interior será a probabilidade de se introduzir um artefato de feia quando dois segmentos 11 ü de tala são sobrepostos para reduzir/aumentar o tamanho ao residuai de fala 30. Uma regra útil para determinar se os períodos de pitch devem ser sobrepostos/adicionados é se os retardos de pitch dos dois são similares (como um exemplo, se os retardos de pitch diferem em menos do que 15 amostras, o que corresponde a aproximadamente 1,8 ms).

A Figura 7C mostra como a adição sobreposta é usada para comprimir o sinal residual 30.

do método de sobreposição/adição é a

A primeira etapa de segmentar a seqüência de amostras de entrada s [n] em seus períodos de pitch como explicado acima. Na Figura 7Ά, o sinal de fala original 10 incluindo quatro períodos de pitch 100 (PPs) é mostrado. A próxima etapa inclui remover os períodos de pitch 100 do sinal 10 mostrado na Figura 7A e substituir esses períodos de pitch 100 com um período de pitch unido 100. Por exemplo, na Figura 7C, os períodos de pitch PP2 e PP3 são removidos e então substituídos com um período de pitch 100 no qual PP2 e PP3 são sobrepostosadicionados. Mais especificamente, na Figura 7C, os períodos de pitch 100 PP2 e PP3 são sobrepostos/adicionados de tal modo que a segunda contribuição do período de pitch 100 (PP2) continua diminuindo e aquela de PP3 está aumentando. O método de adição sobreposta produz um segmento de fala 110 a partir de dois diferentes segmentos de fala 110. Em uma modalidade, a adição sobreposta é realizada utilizando amostras ponderadas. Isso é ilustrado nas equações a) e b) como mostrado na Figura 8. A

18/23 ponderação é usaaa para prover uma transição suave cuíie a pnmeira amostra PCM (modulação codificada em pulsos) do segmento 1 (110) e a última amostra PCM do segmento 2 (110) .

A Figura ΊΌ é outra ilustração gráfica de PP2 e PP3 sendo sobrepostos/adicionados. 0 desvanecimento cruzado melhora a qualidade de um sinal 10 compriiúcio remporalmente por esse método em comparação com simplesmente remover um segmento 110 e juntar os segmentos adjacentes restantes 110 (como mostrado na Figura 7E) .

Em casos quando o período de pitch 100 está mudando, o método de adição sobreposta pode unir dois períodos de pitch 110 de comprimento desigual. Nesse caso,

melhor união pode ser obtida	através	do	alinhamento	dos
picos dos dois	períodos	de pitch	100	antes	de
sobrepor/adicionar	os	mesmos.		0	residual
expandido/comprimido	é então	enviado	através	da síntese
LPC.
	Expansão	de Fala
Uma abordagem simples para	expandir	a fala	é a

de realizar múltiplas repetições das mesmas amostras PCM. Contudo, repetir as mesmas amostras PCM mais do que uma vez pode criar áreas com nivelamento de pitch que é um artefato (artifact) facilmente detectado pelos humanos (por exemplo, a fala pode soar um pouco robótica) . Para preservar a qualidade da fala, o método de adição sobreposta pode ser usado.

A Figura 7B mostra como esse sinal de fala 10 pode ser expandido utilizando o método de adição sobreposta da presente invenção. Na Figura 7B, um periodo de pitch adicional 100 criado a partir dos períodos de pitch 100 PP1 e PP2 é adicionado. No período de pitch adicional 100, os períodos de pitch 100 PP2 e PP1 são sobrepostos/adicionados

19/23 de Lai modo que a contribuição do ^pgimdn período de pitch ÍPP2) 100 continua diminuindo e aquela de PP1 está aumentando. A Figura 7F é outra ilustração gráfica de PP2 e PP3 sendo sobrepostos/adicionados.

Variação temporal do Residual quando o Segmento de Fala é NELP:

Para os segmentos de fala NELP, o encodif ícacior encodifica as informações LPC assim como os ganhos para diferentes partes do segmento de fala 110. Não é necessário encodificar quaisquer outras informações uma vez que a fala é de natureza muito semelhante a ruído. Em uma modalidade, os ganhos são encodifiçados em conjuntos de 16 amostras PCM. Desse modo, por exemplo, um quadro de 160 amostras pode ser representado por 10 valores de ganho encodifiçado, um para cada 16 amostras de fala. O decodificador 206 gera o sinal residual 30 por geração de valores aleatórios e aplicando então nos mesmos os ganhos respectivos. Nesse caso, pode não ser um conceito de período de pitch 100, e como tal, a expansão/compressão não tem que ser da granularidade de um período de pitch 100.

Para expandir ou comprimir um segmento NELP, o decodificador 206 gera um número maior ou menor de segmentos (110) do que 160, dependendo de se o segmento 110 está sendo expandido ou comprimido. Os 10 ganhos decodificados são então aplicados às amostras para gerar um residual expandido ou comprimido 30. Como esses 10 ganhos decodificados correspondem as 160 amostras originais, esses não são aplicados diretamente às amostras expandidas/comprimidas. Diversos métodos podem ser usados para aplicar esses ganhos. Alguns desses métodos são descritos abaixo.

Se o número de amostras a serem geradas for inferior a 160, então todos os 10 ganhos não precisam ser

20/23 aplicado^. Por exemplo, se o rirem erres troe 2 2 44, es primeiros ^l? ganhos podem ser aplicados. Nesse caso, o primeiro ganho é aplicado as primeiras 16 amostras, amostras 1-16, o segundo ganho é aplicado às próximas 16 amostras, amostras 1/-32, etc. Similarmente, se as amostras forem mais do que 1 61, então o décimo ganno pode ser aplicado mais do que uma vet. Por exemplo, se o numero de amostras é 192, o décimo ganho pode ser aplicado às amestras 145-160, 161-176, e 177-192.

Alternativamente, as amostras podem ser divididas em 10 conjuntos de número igual, cada conjunto possuindo um número igual de amostras, e os 10 ganhos podem ser aplicados aos 10 conjuntos. Por exemplo, se o número de amostras

140, os 10 ganhos podem ser aplicados aos con j untos de amostras cada. Nesse caso, o primeiro ganho é aplicado as primeiras 14 amostras, amostras 1-14, o segundo ganho aplicado às próximas 14 amostras, amostras

15-28, etc.

Se número de amostras não é perfeitamente divisível por

10, então o décimo ganho pode ser aplicado às amostras restantes obtidas após divisão por 10.

Por exemplo, se o número de amostras é 145, os ganhos podem ser aplicados aos conj untos de 14 amostras cada.

Adicionalmente, o décimo ganho é aplicado às amostras 141145.

Após variação temporal, residual expandido/comprimido 30 é enviado através da síntese LPC ao usar qualquer um dos métodos de acima.

Aqueles versados na técnica entenderíam que informações e sinais podem ser representados utilizando qualquer uma de uma variedade de diferentes tecnologias e técnicas. Por exemplo, dados, instruções, comandos,

21/23

i. η formaçoes, sinais, bits, símbo' os, e chips que pulem Lei.

feridos por ι ooa a descrição acima podem ser representados por tensões, correntes, ondas eletromagnéticas, campos ou qualquer combinação dos mesmos.

Acrue les na apreciariam adicionalmente que ilustrativos, e etapas de algoritmo, descritos em conexão com as modalidades aqui reveladas podem ser implementados como hardware eletrônico, software de computador, ou combinações de ambos

Para ilustrar claramente essa permutabilidade de hardware e software, componentes blocos, módulos, circuitos, termos de e etapas foram descritos acima geralmente em suas funcionalidades. Se tal funcionalidade é implementada como hardware ou software depende da aplicação específica e das limitações de projeto impostas ao sistema como um todo. Aqueles versados na técnica podem implementar a funcionalidade descrita de diversas formas para cada aplicação especifica, mas tais decisões de implementação não devem ser interpretadas como causando um afastamento do escopo da presente invenção.

Os diversos blocos lógicos ilustrativos, módulos, e circuitos descritos em conexão com as modalidades aqui reveladas podem ser implementados ou realizados com um processador de uso geral, um processador de sinal digital (DSP), um circuito integrado de aplicação específica (ASIC), um arranjo de portas programáveis em campo (FPGA) ou outro dispositivo lógico programável, lógica de transistor ou porta discreta, componentes discretos de hardware, ou qualquer combinação dos mesmos, projetada para realizar as funções aqui descritas. Um processador de uso geral pode ser um microprocessador, mas como alternativa, o

22/23 çr uceoidóor pode ser ciualcwer procos^ed^r convencional, cor.r roiudcr, Íicioconiroldaor, ou máquina de estado. Um processador também pode ser implementado como uma combinação de dispositivos de computação, por exemplo, uma combinação de DSP e um microprocessador, uma pluralidade de microprocessadores, um ou mais microprocessadores em conjunto com. um núcleo USP, cu qualquer ourra tdi configuração.

As etapas de um método ou algoritmo descritas em conexão com os exemplos aqui revelados podem ser incorporadas diretamente em hardware, em um módulo de software executado por um processador, ou em uma combinação dos dois. Um módulo de software pode residir em Memória de Acesso Aleatório (RAM) , memória flash, Memória Somente Leitura (ROM), ROM Eletricamente Programável (EPROM), ROM Programável Eletricamente Apagável (EEPROM), registradores, disco rígido, um disco removível, um CD-ROM, ou qualquer outra forma de meio de armazenamento conhecido na técnica. Um meio de armazenamento ilustrativo é acoplado ao processador de tal modo que o processador pode ler informações a partir de, e gravar informações no, meio de armazenamento. Na alternativa, o meio de armazenamento pode ser integrado ao processador. O processador e o meio de armazenamento podem residir em um ASIC. 0 ASIC pode residir em um terminal de usuário. Na alternativa, o processador e o meio de armazenamento podem residir como componentes discretos em um terminal de usuário.

A descrição anterior das modalidades reveladas é provida para permitir que aqueles versados na técnica realizem ou utilizem a presente invenção. Diversas modificações nessas modalidades seriam facilmente evidentes para aqueles versados na técnica, e os princípios genéricos aqui definidos podem ser aplicados a outras modalidades sem

uAsimi do escopú da i nw-yq J_t. r ; u) _;.j

: - 1 \m O.! : Cü	Oc .'5 u 11 tu .	SciS. ut.‘S3t·: I1OÜU,	Γι ã O	se pretende	que a
píGSêliLt	invenção	seja l· imi tada	a s	moda; i dades	a q u -l.
mostradas,	mas	deve ser c o n c e d i d o	o	mais ampro	escopo
compeí tive 1	com	os	princípios e cara	>cte.	risticas inovadoras

reveladas aqui.

Claims

1. Método para comunicar fala, compreendendo as etapas de:

classificar segmentos de fala (110);

encodificar os segmentos de fala, em que a encodificação é uma encodificação por predição linear;

variar temporalmente um sinal de fala residual (30) em uma versão expandida ou comprimida do sinal de fala residual, em que variar temporalmente compreende:

estimar um período de pitch (100); e adicionar ou subtrair pelo menos um do período de pitch após receber o sinal residual; e sintetizar o sinal de fala residual variado temporalmente;

o método caracterizado pelo fato de que a variação temporal compreende adicionalmente:

estimar retardo de pitch (180);

dividir um quadro de fala em períodos de pitch, em que limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos no quadro de fala;

sobrepor os períodos de pitch se o sinal de fala residual for diminuído; e adicionar os períodos de pitch se o sinal de fala residual for aumentado; em que a etapa de estimar retardos de pitch

compreende interpolar entre um retardo de pitch no final de um último quadro e um retardo de pitch no final de um quadro atual do sinal de fala residual.

2/6

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que pelo menos uma entre a etapa de sobrepor os períodos de pitch e a etapa de adicionar os períodos de pitch compreende fundir segmentos de fala.

Petição 870180168644, de 28/12/2018, pág. 8/14

3/6 substituir os segmentos removidos com um segmento fundido.

3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que compreende adicionalmente a etapa de selecionar segmentos de fala similares, em que fundir os segmentos de fala compreende fundir os segmentos de fala similares selecionados.

4/6 sobrepor os períodos de pitch se o sinal de fala residual for diminuído; e adicionar os períodos de pitch se o sinal de fala residual for aumentado;

em que a etapa de estimar retardos de pitch compreende interpolar entre um retardo de pitch no final de um último quadro e um retardo de pitch no final de um quadro atual do sinal de fala residual.

4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que compreende adicionalmente a etapa de correlacionar segmentos de fala, na qual segmentos de fala similares são selecionados.

5/6

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de adicionar os periodos de pitch se o sinal de fala residual for aumentado compreende adicionar um periodo de pitch adicional criado a partir de um primeiro periodo de pitch do quadro e de um segundo periodo de pitch do quadro.

6/6 meios para estimar retardo de pitch (180);

meios para dividir um quadro de fala em períodos de pitch, em que limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos 5 no quadro de fala;

meios para sobrepor os períodos de pitch se o sinal de fala residual for diminuído; e meios para adicionar os períodos de pitch se o sinal de fala residual for aumentado;

6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que a etapa de adicionar um periodo de pitch adicional criado a partir de um primeiro periodo de pitch e de um segundo periodo de pitch compreende adicionar o primeiro e o segundo periodos de pitch tal que a contribuição do primeiro periodo de pitch para o periodo de pitch adicional aumenta e a contribuição do segundo periodo de pitch para o periodo de pitch adicional diminui.

7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de sobrepor os periodos de pitch se o sinal de fala residual for diminuído compreende:

segmentar uma sequência de amostras de entrada em blocos de amostras;

remover segmentos do sinal de fala residual em intervalos de tempo regulares;

fundir os segmentos removidos; e

Petição 870180168644, de 28/12/2018, pág. 9/14

8. caracterizado Método, de acordo com a reivindicação a etapa de fundir 7, os pelo fato de que segmentos removidos compreende aumentar uma contribuição do segmento de primeiro período de pitch e diminuir uma

contribuição do segmento segundo período de pitch.

9. Vocoder (70) possuindo pelo menos uma entrada e pelo menos uma saída, compreendendo:

um encodificador (204) que compreende um filtro (80) possuindo pelo menos uma entrada conectada operavelmente à entrada do vocoder e pelo menos uma saída, em que o encodificador fornece codificação por predição linear; e um decodificador (206) que compreende um sintetizador (80) possuindo pelo menos uma entrada conectada operavelmente à pelo menos uma saída do encodificador e pelo menos uma saída conectada operavelmente à pelo menos uma saída do vocoder; e uma memória (82), em que o decodificador é adaptado para executar instruções de software (81) armazenadas na memória compreendendo variar temporalmente um sinal de fala residual (30) para uma versão expandida ou comprimida do sinal residual, em que variar temporalmente compreende: estimar um período de pitch (100); e adicionar ou subtrair pelo menos um do período de pitch após receber o sinal residual;

o vocoder caracterizado pelo fato de que variação temporal compreende adicionalmente:

estimar retardo de pitch (180);

Petição 870180168644, de 28/12/2018, pág. 10/14

10 em que estimar retardos de pitch compreende interpolar entre um retardo de pitch no final de um último quadro e um retardo de pitch no final de um quadro atual do sinal de fala residual.

17. Memória legível por computador caracterizada

10. Vocoder, de acordo com a reivindicação 9, caracterizado pelo fato de que pelo menos um entre sobrepor os períodos de pitch e adicionar os períodos de pitch compreende fundir segmentos de fala.

11. Vocoder, de acordo com a reivindicação 10, caracterizado pelo fato de que compreende adicionalmente selecionar segmentos de fala similares, em que fundir segmentos de fala compreende fundir os segmentos de fala similares selecionados.

12. Vocoder, de acordo com a reivindicação 9, caracterizado pelo fato de que adicionar os períodos de pitch se o sinal de fala residual for aumentado compreendem adicionar um período de pitch adicional criado a partir de um primeiro período de pitch do quadro e de um segundo período de pitch do quadro.

13. Vocoder, de acordo com a reivindicação 12, caracterizado pelo fato de que adicionar um período de pitch adicional criado a partir de um primeiro período de pitch e de um segundo período de pitch compreende adicionar o primeiro e o segundo períodos de pitch tal que a contribuição do primeiro período de pitch para o período de pitch adicional aumenta e a contribuição do segundo período de pitch para o período de pitch adicional diminui.

Petição 870180168644, de 28/12/2018, pág. 11/14

14. Vocoder, de acordo com a reivindicação 9, caracterizado pelo fato de que sobrepor os períodos de pitch se o sinal de fala residual for diminuído compreende:

segmentar uma sequência de amostras de entrada em blocos de amostras;

remover segmentos do sinal de fala residual em intervalos de tempo regulares;

fundir os segmentos removidos; e substituir os segmentos removidos com um segmento fundido.

15. Vocoder, de acordo com a reivindicação 14, caracterizado pelo fato de que fundir os segmentos removidos compreende aumentar uma contribuição do segmento de primeiro período de pitch e diminuir uma contribuição do segmento de segundo período de pitch.

16. Vocoder (70), compreendendo:

meios para classificar segmentos de fala (110);

meios para encodificar os segmentos de fala, em que a encodificação é uma encodificação por predição linear;

meios para variar temporalmente um sinal de fala residual (30) em uma versão expandida ou comprimida do sinal de fala residual, em que os meios para variar temporalmente compreendem:

meios para estimar um período de pitch (100); e meios para adicionar ou subtrair pelo menos um do período de pitch após receber o sinal residual; e meios para sintetizar o sinal de fala residual variado temporalmente;

o vocoder caracterizado pelo fato de que os meios para variar temporalmente compreendem adicionalmente:

Petição 870180168644, de 28/12/2018, pág. 12/14

15 por compreender na mesma o método de acordo com o definido em qualquer uma das reivindicações 1 a 8.