BRPI0406765B1

BRPI0406765B1 - Método e aparelho para a reconstrução da fala em um sistema de reconhecimento da fala distribuído

Info

Publication number: BRPI0406765B1
Application number: BRPI0406765-7A
Authority: BR
Inventors: V. Ramabadran Tenkasi
Original assignee: Google Technology Holdings LLC
Priority date: 2003-01-14
Filing date: 2004-01-13
Publication date: 2018-08-07
Also published as: US7027979B2; KR20050092112A; BRPI0406765A; KR101059640B1; WO2004066269A3; EP1588354A2; CN1739143A; EP1588354A4; RU2005125737A; CN100371988C; EP1588354B1; RU2366007C2; WO2004066269A2; US20040138888A1

Abstract

"método e aparelho para a reconstrução da fala em um sistema de reconhecimento da fala distribuído". um método e aparelho são aqui fornecidos para a reconstrução da fala em um sistema de reconhecimento da fala distribuído. mfccs faltantes são reconstruídas e utilizadas para gerar a fala. particularmente, a recuperação parcial das mfccs faltantes é conseguida pela exploração da dependência das mfccs faltantes no período de pitch transmitido p bem como nas mfccs transmitidas. magnitudes harmônicas são então obtidas a partir das mfccs transmitidas e reconstruídas, e a fala é reconstruída utilizando essas magnitudes harmônicas.

Description

(54) Título: MÉTODO E APARELHO PARA A RECONSTRUÇÃO DA FALA EM UM SISTEMA DE RECONHECIMENTO DA FALA DISTRIBUÍDO (51) Int.CI.: G10L 15/30; G10L 21/038 (30) Prioridade Unionista: 14/01/2003 US 10/341,726 (73) Titular(es): GOOGLE TECHNOLOGY HOLDINGS LLC (72) Inventor(es): TENKASI V. RAMABADRAN (85) Data do Início da Fase Nacional: 14/07/2005

1/26

MÉTODO E APARELHO PARA A RECONSTRUÇÃO DA FALA EM UM SISTEMA DE RECONHECIMENTO DA FALA DISTRIBUÍDO

Campo da invenção [001] A presente invenção relaciona-se genericamente à reconstrução da fala e, em particular, a um método e aparelho para a reconstrução da fala em um sistema de reconhecimento de fala distribuído.

Histórico da invenção [002] O reconhecimento da fala automático (ASR) é o método de reconhecer automaticamente a natureza das instruções orais com base na informação incluída nas ondas da fala. ASR introduziu uma nova geração de dispositivos de segurança com base em chaves orais, e não mais físicas, e tem tornado possível toda uma gama de recursos sem as mãos ou com as mãos livres, como a discagem por voz e a recuperação da informação pela voz.

[003]	Ao	nível mais	alto, todos	os sistemas ASR
processam	a	fala para a	extração de	recursos (também
conhecido	como extremidade	frontal do	processamento de

sinais) e casamento de recursos (também conhecido como extremidade traseira do processamento de sinais). A extração do recurso é o método pelo qual uma pequena quantidade de dados é extraída de uma entrada de fala para representar a entrada de fala. O casamento de recursos é o método pelo qual a natureza das instruções contidas na entrada de fala é identificada ao comparar os dados extraídos com um conjunto de dados conhecido. Em um sistema ASR padrão, uma única unidade de processamento realiza ambas destas funções.

[004] No entanto, o desempenho de um sistema ASR que

Petição 870170066022, de 05/09/2017, pág. 6/34

2/26 utiliza a fala transmitida, por exemplo, por um dispositivo móvel ou um canal sem fio como entrada, poderá ser significativamente degradado quando comparado com o desempenho de um sistema ASR que utiliza a fala não modificada original como a entrada. Esta degradação no desempenho do sistema poderá ser causada por distorções introduzidas na fala transmitida pelo algoritmo de codificação bem como os erros de transmissão de canal.

[005] O sistema de reconhecimento de fala distribuído (DSR) tenta corrigir a degradação do desempenho do sistema causada pela fala transmitida ao separar a extração do recurso do casamento do recurso e ter os dois métodos executados por duas unidades de processamento diferentes dispostas em duas localizações diferentes. Por exemplo, em um dispositivo móvel ou sistema de comunicação sem fio ou rede que inclui um primeiro dispositivo de comunicação (por exemplo, uma unidade móvel) e um segundo dispositivo de comunicação (por exemplo, um servidor), a unidade móvel efetua apenas a extração do recurso, isto é, a unidade móvel extrai e codifica recursos de reconhecimento da entrada de fala. A unidade móvel então transmite os recursos codificados ao servidor por um canal de dados protegido contra erros. O servidor recebe os recursos de reconhecimento codificados, e efetua apenas o casamento dos recursos, isto é, o servidor casa os recursos codificados com aqueles de um conjunto de dados conhecido.

[006] Com esta abordagem, as distorções da codificação são minimizadas, e os erros de canal de transmissão têm muito pouco efeito no desempenho do sistema de reconhecimento. Ademais, a unidade móvel tem de efetuar

Petição 870170066022, de 05/09/2017, pág. 7/34

3/26 apenas a extração de recurso relativamente barata em termos computacionais, deixando o casamento de recursos, relativamente mais caro, para o servidor. Ao reservar as atividades computacionalmente mais complexas para o processador servidor, maior flexibilidade de projeto é preservada para o processador da unidade móvel, onde a dimensão e a velocidade do processador tipicamente estão em alta, dada a recente ênfase em miniaturização da unidade.

[007] O European Telecommunications Standards Institute (ETSI) recentemente publicou uma norma para a extração de recurso DSR e algoritmos de compressão. A Norte ES 201 108 do European Telecommunications Standards Institute, intitulada Speech Processing Transmission and Quality aspects (STQ); Distributed speech recognition, Front-end feature extraction algorithm; Compression algorithms, ver. 1.1.2, abril de 2000 (doravante ETSI Front-End Standard); aqui incorporada por referência em sua inteireza. Embora existam vários métodos, como a Linear Prediction (LP), para codificar dados de uma entrada de fala, o ETSI Front-End Standard inclui um algoritmo de extração de recurso que extrai e codifica a entrada de fala como um valor logarítmico da energia e uma série de coeficientes cepstrais de Freqüência-mel (MFCC) para cada quadro. Esses parâmetros capturam essencialmente a informação do envelope espectral da entrada de fala, e são comumente utilizados na maioria dos reconhecedores de fala de grande vocabulário. O ETSI Front-End Standard ainda inclui algoritmos para a compressão (por quantização de vetor) e proteção contra erro (códigos de verificação de redundância cíclica). O ETSI Front-End Standard também

Petição 870170066022, de 05/09/2017, pág. 8/34

4/26 descreve algoritmos adequados para a decodificação do fluxo de bits e a mitigação de erro de canal. Em um intervalo de atualização de 10 ms e com a adição de informação de sincronização e de cabeçalho, a velocidade de transmissão de dados acaba sendo de 4.800 bits por segundo.

[008] Mais recentemente, o European Telecommunications Standards Institute (ETSI) publicou outra norma para a extração de recurso DSR e algoritmos de compressão. A norma ES 202 050, Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Advanced Front-end feature extraction algorithm; Compression algorithms, Ver. 1.1.1, julho de 2002, do European Telecommunications Standards Institute (ETSI) (doravante ETSI Advanced Front-End Standard), aqui incorporado por referência em sua inteireza. O ETSI Advanced Front-End Standard é bastante similar ao ETSI Front-End Standard em termos dos recursos extraídos, velocidade de bit, e assim por diante, mas é mais robusto quanto ao ruído. Isto é, o ETSI Advanced Front-End Standard fornece melhor desempenho sob condições de fundo com ruído.

[009] Em resumo, um sistema DSR, como aquele projetado de acordo com a ETSI Front-End Standard (ou o ETSI Advanced Front-End Standard), oferece muitas vantagens para a implementação em rede de comunicação móvel. Esse sistema poderá fornecer desempenho de reconhecimento equivalente a um sistema ASR, mas com uma extremidade frontal de baixa complexidade que poderá ser incorporado em uma unidade móvel e uma exigência de largura de banda baixa para a transmissão dos recursos de reconhecimento codificados.

[0010] Sistemas DSR têm a restrição de que a entrada de

Petição 870170066022, de 05/09/2017, pág. 9/34

5/26 fala original não está disponível na extremidade traseira para fins de armazenamento e/ou de verificação. Seria útil ter a entrada de fala original disponível para: (i) aplicações de extremidade traseira que exigem auxílio humano, por exemplo, para permitir a correção manual de documentos gerados utilizando sistemas de ditado remotos ao permitir a comparação do documento e da entrada de fala original ou para permitir a transição suave quando uma tarefa de reconhecimento é passada de um sistema DSR para um operador humano; (ii) armazenamento profilático de informação legalmente sensível, por exemplo, registrar as declarações exatas feitas durante transações financeiras, como fazer um pedido de títulos imobiliários; e (iii) validação de dizeres durante a coleta de base de dados, por exemplo, para treinar o reconhecedor no modo de lotes (e especialmente no modo incremental) e na sintonização do sistema.

[0011] Por outro lado, a fala original está disponível na extremidade traseira se for utilizado um sistema ASR padrão. No entanto, como foi observado acima, ASR tem dificuldades de distorção significativas quando utilizada em uma aplicação móvel ou sem fio. Para encarar esta questão, o Pedido de Patente dos Estados Unidos número 2002/0147579 (que é aqui incorporado por referência) fornece um método para a reconstrução da fala na extremidade traseira utilizando um codificador de voz sinusoidal. De acordo com o pedido '579, 13 MFCCs transmitidas (C0-C12) são transformadas em magnitudes harmônicas que são utilizadas na reconstrução da fala.

[0012] A técnica acima para transformar MFCCs em

Petição 870170066022, de 05/09/2017, pág. 10/34

6/26 magnitudes harmônicas trabalha relativamente bem. A fala reconstruída por um codificador sinusoidal utilizando essas magnitudes transformadas é altamente inteligível e de qualidade razoável. No entanto, é aparente que o desempenho de reconstrução (em termos de inteligibilidade e qualidade da fala) seria melhor se todos os 23 valores MFCC (C0-C22) estivessem disponíveis em vez de apenas 13 valores transmitidos, a saber, C0-C12. Portanto, existe uma necessidade de um método e aparelho para a reconstrução da fala dentro de um sistema de reconhecimento da fala distribuído que faz uso de valores MFCC faltantes para melhorar a reconstrução da fala.

Descrição sucinta dos desenhos [0013] A Figura 1 é um diagrama de blocos de um sistema de reconhecimento da fala distribuído de acordo com uma modalidade preferida da presente invenção.

[0014] A Figura 2 é um diagrama de blocos mais detalhado do sistema de reconhecimento da fala distribuído da Figura 1 de acordo com a modalidade preferida da presente invenção.

[0015] A Figura 3 é um fluxograma que mostra a operação de um reconstrutor MFCC de acordo com a modalidade preferida da presente invenção.

[0016] A Figura 4 é um fluxograma que mostra a operação de um DSR/Processador de fala, de acordo com a modalidade preferida da presente invenção.

Descrição detalhada dos desenhos [0017] Para encarar a necessidade mencionada acima, é aqui fornecido um método e aparelho para a reconstrução da fala dentro de um sistema de reconhecimento da fala

Petição 870170066022, de 05/09/2017, pág. 11/34

7/26 distribuído. De acordo com a versão preferida da presente invenção, as MFCCs faltantes são reconstruídas particularmente, a recuperação parcial das MFCCs faltantes é obtida ao explorar a dependência das MFCCs faltantes no período de pitch transmitido P bem como nas MFCCs transmitidas. Magnitudes harmônicas são então obtidas das MFCCs transmitidas e reconstruídas, e a fala é reconstruída utilizando essas magnitudes transformadas.

[0018] Como as magnitudes harmônicas são obtidas utilizando todos as MFCCs (transmitidas e reconstruídas), resulta um melhoramento na precisão das magnitudes harmônicas transformadas. Qualquer melhoramento na precisão das magnitudes harmônicas transformadas resulta em melhoramento correspondente na inteligibilidade/qualidade da fala reconstruída.

[0019] A presente invenção abrange um método para a reconstrução da fala. O método compreende as etapas de receber uma primeira pluralidade de coeficientes cepstrais de Freqüência-mel (MFCCs), calcular uma segunda pluralidade de MFCCs, e utilizar as MFCCs recebidas e as calculadas para reconstruir a fala.

[0020] A presente invenção adicionalmente abrange um método para a reconstrução da fala. O método compreende as etapas de receber coeficientes cepstrais de Freqüência-mel C0-C12, calcular coeficientes cepstrais de Freqüência-mel C13-C22, e utilizar os coeficientes C0-C22 para a fala reconstruída.

[0021] Finalmente, a presente invenção abrange um aparelho que compreende um receptor que recebe uma primeira pluralidade de coeficientes cepstrais de Freqüência-mel

Petição 870170066022, de 05/09/2017, pág. 12/34

8/26 (MFCCs), um reconstrutor MFCC calcular uma segunda pluralidade de MFCCs, e um processador de fala que utiliza as MFCCs recebidas e os calculados para reconstruir a fala.

[0022] Passando agora aos desenhos, em que números iguais designam componentes iguais, a Figura 1 é um diagrama de blocos do sistema de comunicação 100 de acordo com a versão preferida da presente invenção. O sistema de comunicação 100 preferivelmente compreende um sistema de comunicação celular padrão como o sistema de comunicação de acesso múltiplo de divisão por código (CDMA). Embora o sistema 100 seja preferivelmente um sistema de comunicação de freqüência de rádio móvel ou sem fio, o sistema 100 poderia ser qualquer tipo de sistema de comunicação, por exemplo, um sistema sem fio ou de fiação ou um sistema que utiliza um método de comunicação que não a comunicação por freqüência de rádio.

[0023] O sistema de comunicação 100 inclui o dispositivo de comunicação móvel 101 (como uma estação móvel) e um dispositivo de comunicação fixo 103 (como uma estação base), o dispositivo móvel 101 comunica-se com o dispositivo fixo 103 através do uso de transmissões de freqüência de rádio. A estação base 103, por sua vez, comunica-se com o servidor 107 sobre uma conexão fiada, como o faz o servidor 107 com o sítio remoto 109. Utilizando o sistema 100, o usuário pode comunicar-se com o sítio remoto, e opcionalmente com um usuário associado ao sítio remoto 109.

[0024] Embora apenas um dispositivo móvel 101, um dispositivo fixo 103, um servidor 107 e um sítio remoto 109 são mostrados na Figura 1, será reconhecido que o sistema

Petição 870170066022, de 05/09/2017, pág. 13/34

9/26

100 poderá, e tipicamente acontece, inclui uma pluralidade de dispositivos móveis 101 em comunicação com uma pluralidade de dispositivos fixos 103, os dispositivos fixos 103 por sua vez estando em comunicação com uma pluralidade de servidores 107 em comunicação com uma pluralidade de sítios remotos 109. Para facilidade de ilustração, um único dispositivo móvel 101, dispositivo fixo 103, servidor 107 e sítio remoto 109 foram mostrados, mas a invenção aqui descrita não é limitada pela dimensão do sistema 100 mostrada.

[0025] O sistema de comunicação 100 é um sistema de reconhecimento de fala distribuído conforme descrito no pedido de patente dos Estados Unidos número 2002/0147579 intitulado Method and Apparatus for Speech Reconstruction in a Distributed Speech Recognition System. Como é descrito no pedido 579, o dispositivo móvel 101 efetua a extração de recurso e o servidor 107 efetua casamento de recurso. O sistema de comunicação 100 também fornece fala reconstruída no servidor 107 para armazenamento e/ou verificação. Como foi discutido acima, o sistema de comunicação descrito no pedido '579 utiliza uma pluralidade de MFCCs transmitidas para produzir as magnitudes harmônicas utilizadas para a reconstrução da fala. Embora a técnica para transformar MFCCs em magnitudes harmônicas funcione razoavelmente bem, o desempenho de reconstrução (em termos de inteligibilidade e qualidade da fala) seria melhor se todos os 23 valores MFCC (C0-C22) estivessem disponíveis em vez de apenas os 13 valores transmitidos, a saber, C0-C12. Para encarar esta questão, na versão preferida da presente invenção, as MFCCs não transmitidas são reconstruídas e as magnitudes

Petição 870170066022, de 05/09/2017, pág. 14/34

10/26 harmônicas são produzidas pela utilização tanto das MFCCs

não transmitidas	e	reconstruídas	como	as MFCCs
transmitidas.
[0026] A Figura	2	é um diagrama	de	blocos mais
detalhado do sistema	de	reconhecimento da	fala	distribuído

da Figura 1 de acordo com a versão preferida da presente invenção. Como é evidente, o sistema de reconhecimento de fala distribuído é similar ao sistema de reconhecimento de fala distribuído do pedido '579, exceto pela adição do reconstrutor MFCC 219.

[0027] Como é mostrado, o dispositivo móvel 101 inclui o dispositivo de entrada de fala 209 (como um microfone), que é acoplado ao gerador de sinal DSR 207 e ao codificador de voz-analisador de fala 205. O gerador de sinal DSR 207 extrai os dados espectrais a respeito da entrada de fala recebida através do dispositivo de entrada de fala 209, e gera um sinal codificado que é representativo dos dados espectrais. O codificador de voz-analisador 205 extrai dados adicionais a respeito da entrada de fala que poderão ser utilizados para reconstruir a fala na extremidade traseira.

[0028] O somador 203 combina o sinal codificado do gerador de sinal DSR 207 e os dados adicionais extraídos pelo codificador de voz-analisador 205 em um sinal unificado, que é passado ao transmissor 201 acoplado ao somador 203. O transmissor 201 é um transmissor de freqüência de rádio ou transceptor, embora como o método de acordo com a presente invenção poderia ser utilizado com outros tipos de sistemas de comunicação, em cujo caso o transmissor seria selecionado para ser compatível com

Petição 870170066022, de 05/09/2017, pág. 15/34

11/26 aquele sistema que for selecionado.

[0029] O gerador de sinal DSR opera conforme segue em um sistema projetado de acordo com a Norma de Extremidade Frontal ETSI. A entrada de fala é convertida de analógico para digital, por exemplo, em uma freqüência de amostragem (Fs) de 8000 amostras/segundo e 16 bits/amostra. A fala digitalizada é passada através de um filtro de remoção de recuo-DC, e dividido em quadros sobrepostos. A dimensão do quadro é dependente da freqüência de amostragem. Para a Norma de Extremidade Frontal ETSI, que acomoda três freqüências de amostragem diferentes, de 8, 11 e de 16 kHz, as dimensões de quadro possíveis são de 200, 256 e de 400 amostras, respectivamente.

[0030] O nível de energia do quadro é calculado e seu logaritmo natural é determinado. O valor resultante também é referido como o valor logarítmico da energia. O sinal de fala digitalizado e em quadro é então passado através de um filtro de pré-ênfase para enfatizar os componentes de freqüência mais alta. Cada quadro de fala é então enquadrado (por exemplo, utilizando uma janela de Hamming) e transformado dentro do domínio de freqüência utilizando uma transformada rápida de Fourier (FFT). Similar à dimensão do quadro, a dimensão da FFT utilizada depende da freqüência de amostragem, por exemplo, uma FFT de 256 pontos é utilizada para as freqüências de amostragem de 8 e de 11 kHz, e uma FFT de 512 pontos é utilizada para a freqüência de amostragem de 16 kHz.

[0031] As magnitudes de FFT na faixa de freqüência entre 64 Hz e Fs/2 (por exemplo, 4 kHz para uma freqüência de amostragem de 8 kHz) são então transformadas dentro do

Petição 870170066022, de 05/09/2017, pág. 16/34

12/26 domínio de Freqüência-mel por um processo conhecido como filtragem-Mel. É efetuada uma transformação dentro do domínio da freqüência-Mel, pois estudos psicofísicos demonstraram que a percepção humana do conteúdo de freqüência dos sons para os sinais de fala não segue uma escala linear. Assim, para cada tom com uma freqüência efetiva, /, medida em Hz, um tom subjetivo poderá ser representado em uma segunda escala, que é referida como a escala de freqüência-Mel.

[0032] O processo de filtragem-Mel é conforme segue. Primeiro, a faixa de freqüência (por exemplo, 64 Hz a 4000 Hz) é inclinado dentro de uma escala de freqüência-Mel utilizando a expressão:

Mel (f) = 2595.0 * log₁₀ (1 + ) ¹⁰ 700.0⁷

Utilizando esta equação, as freqüências-Mel correspondentes, por exemplo, para freqüências de 64 Hz e de 4000 Hz são de 98,6 e de 2146,1, respectivamente. Esta faixa de Freqüência-mel é então dividida em 23 bandas de tamanho igual e meio-sobrepostas (também conhecidas como canais ou escaninhos), cada banda de 170,6 de largura e o centro de cada banda distanciado 85,3. O centro da primeira banda está localizado em 98,6 + 85,3 = 183,9, e o da última banda está localizado em 2146,1 - 85,3 = 2060,8. Essas bandas de tamanho igual no domínio da Freqüência-mel correspondem a bandas de tamanhos desiguais no domínio da freqüência linear com o tamanho aumentando ao longo do eixo de freqüência. As magnitudes FFT que caem dentro de cada banda são então mediadas (filtradas) utilizando uma janela de ponderação triangular (com o peso do centro igual a 1,0

Petição 870170066022, de 05/09/2017, pág. 17/34

13/26 e em cada extremidade igual a 0,0). As saídas da banda filtrada são então submetidas a uma operação de logaritmo natural.

[0033] Os 23 valores espectrais em logaritmo gerados são então transformados dentro do domínio cepstral por meio de um DCT (Transforme Coseno Discreto) de 23 pontos. Devese observar que apenas os primeiros 13 valores (C0 a C12) são calculados, com os dez valores restantes (C13 a C22) sendo descartados, isto é, não calculados. O logaritmo da energia do quadro e os 13 valores cepstrais (também referidos como os Coeficientes Cepstrais de Freqüência-Mel, ou MFCCs) são então comprimidos (quantizados) e transmitidos para o dispositivo fixo 107. Para o sistema de comunicação 100 que opera de acordo com a Norma de Extremidade Frontal ETSI, os valores do MFCC e do logaritmo da energia são atualizados a cada 10 ms.

[0034] Como foi mencionado acima, o codificador de vozanalisador 205 também recebe a entrada da fala. Em particular, o codificador de voz-analisador 205 analisa a entrada para determinar outros dados sobre a entrada da fala que poderão ser utilizados pelo servidor 107 além dos dados derivados da fala codificada DSR para reconstruir a fala. Os dados exatos extraídos pelo codificador de vozanalisador 205 são dependentes das características do codificador de voz de fala associado ao servidor 107 que estará sintetizando a fala reconstruída. Por exemplo, codificador de vozes Code Excited Linear Predictive (CELP Código Preditivo Linear Excitado) exigem índices de livro de código para cada sub-quadro de fala a ser preparado. Para os codificadores de voz paramétricos (por exemplo,

Petição 870170066022, de 05/09/2017, pág. 18/34

14/26 codificadores de voz sinusoisais) dados de excitação adicionais poderão ser necessários, como a classe (vocalizado, sem voz, etc.) e o período de tom bem como dados de energia de resolução mais alta como os níveis de energia de sub-quadro.

[0035] Será reconhecido que a qualidade da fala sintetizada pelos codificadores CELP decai rapidamente quando a velocidade de bit é reduzida abaixo de cerca de 4800 bps. Por outro lado, os codificadores de voz paramétricos fornecem uma qualidade de fala razoável a velocidades de bit mais baixas. Como um dos requisitos principais de um sistema DSR é uma velocidade de transmissão de dados baixa, o codificador de voz paramétrico, especificamente o codificador de voz sinusoidal, será tipicamente utilizado no servidor 107. Conseqüentemente, de acordo com a versão preferida da invenção, o codificador de voz-analisador de fala 205 determina a classe, o período de pitch e os dados de energia de sub-quadro para cada quadro de fala, embora opcionalmente os dados de energia de sub-quadro poderão ser omitidos, pois as energias de sub-quadro poderão ser calculadas por interpolação do valor do logaritmo da energia.

[0036] O codificador de voz-analisador preferivelmente opera em um tamanho de quadro aproximadamente

205 de são ms, isto é, os parâmetros transmitidos uma vez a cada 20 ms. Em cada quadro, 2 bits são utilizados para o parâmetro classe, isto é, para indicar se o quadro é de não fala, vocalizado, sem voz, misto vocalizado, etc. A classificação fala/não fala é

Petição 870170066022, de 05/09/2017, pág. 19/34

15/26 preferivelmente feita utilizando um Voice Activity Detector (VAD - Detector de Atividade de Voz) com base em energia, enquanto a determinação do nível de vocalização tem por base um número de recursos incluindo a correlação periódica (correlação normalizada em um hiato igual a um período de pitch), uma proporção de energia periódica (proporção de energias dos quadros descorrelacionado e original), e proporção de energia de alta freqüência. O parâmetro de período de pitch, que fornece informação sobre as freqüências harmônicas, pode tipicamente ser representado utilizando 7 bits adicionais para uma faixa de freqüência de passo de cerca de 55 Hz a 420 Hz. O período de pitch é preferivelmente estimado utilizando uma análise de correlação do domínio de tempo da fala filtrada de passagem baixa. Se o parâmetro dos dados de energia de resolução mais alta, por exemplo, a energia de sub-quadro, é para ser transmitida, isto poderá ser feito utilizando 8 bits adicionais. As energias de sub-quadro são quantificadas no

log-domínio	por	um	VQ quadri-dimensional,	com a energia
para não	fala	e	os quadros de fala	não vocalizados
calculados	por	um	sub-quadro (quatro	sub-quadros por

quadro) e a energia para quadros vocalizados calculada por um período de pitch. Como alternativa, as energias de subquadro poderão ser combinadas com o valor do logaritmo da energia para reduzir a velocidade de bit.

[0037] Supondo que os valores da classe, do período de pitch, e da energia de sub-quadro são transmitidas a cada 20 ms, isto é, uma vez para cada dois quadros DSR se um sistema Padrão ETSI é utilizado, aproximadamente 800 a 850 bps será acrescentado à velocidade de transmissão de dados.

Petição 870170066022, de 05/09/2017, pág. 20/34

16/26

Se os dados de energia adicionais não forem transmitidos, até 450 bps poderão ser acrescentados à velocidade de transmissão de dados.

[0038] A estrutura detalhada do servidor 107 é agora discutida com referência à metade direita da Figura 2. O receptor 211 (que é um receptor de freqüência de rádio (RF)) é acoplado ao extrator de parâmetro DSR convencional 213 e o reconstrutor MFCC 219. O extrator de parâmetro do DSR 213 é acoplado ao processador DSR convencional 215 e ao reconhecedor de fala convencional 217 para comparar os dados codificados com um conjunto de dados conhecido, enquanto o reconstrutor de MFCC 219 é acoplado ao processador DSR/fala 221, o qual, por sua vez, é acoplado ao codificador de voz-sintetizador de fala 223 (como foi indicado anteriormente, preferivelmente um codificador de voz-sintetizador de fala sinusoidal) e a saída da fala (por exemplo, alto falante) 225.

[0039] Durante a operação, o receptor 211 recebe o período de pitch P bem como as MFCCs transmitidas, C0-C12. Esses são passados para o reconstrutor de MFCC 219 onde as MFCCs não transmitidas são reconstruídas. A recuperação exata dos coeficientes faltantes não é possível. Entretanto, uma recuperação parcial pode ser alcançada pela exploração da dependência das MFCCs faltantes (neste caso C13-C22), no período de pitch P transmitido bem como nas MFCCs transmitidas, C0-C12. Em uma primeira versão, uma tabela de pesquisa é utilizada para gerar as MFCCs faltantes.

[0040] Para explorar a dependência entre as MFCCs faltantes e o período de pitch, uma grande base de dados de

Petição 870170066022, de 05/09/2017, pág. 21/34

17/26 sinais de fala é utilizada para extrair a informação relevante (período de pitch e as MFCCs faltantes) para cada quadro com voz dentro da base de dados. A faixa do período de pitch [PMIN, PMAX] é então dividida dentro de grupos diferentes G1, G2,

GM e os vetores da MFCC faltante correspondente a cada grupo são calculados e armazenados a seguir. Esses vetores médios D1, D2, ..., DM (de dimensão 10) representam as MFCCs faltantes parcialmente recuperada como uma função do período de pitch. Na operação efetiva, isto é, durante a reconstrução da fala na extremidade traseira, o período de pitch P é utilizado para identificar o grupo Gm apropriado e utilizar o vetor médio Dm (pré-armazenado) correspondente para os valores de MFCC faltantes C13-C22 (efetivos e gerados) são então passados para o processador DSR/de fala 221.

[0041] O processador DSR/de fala 221 inclui um programa que controla o processador DSR/de fala 221 para determinar e decodificar os dados espectrais codificados por DSR, e em particular as magnitudes harmônicas. Primeiro, os valores de MFCC correspondentes à resposta de impulso do filtro de pré-ênfase são subtraídas dos valores de MFCC recebidos para remover o efeito do filtro de pré-ênfase bem como o efeito do filtro-Mel. A seguir, os valores da MFCC são invertidos para calcular o valor log-espectral para cada freqüência harmônica desejada. Os valores log-espectrais são então exponenciados para obter a magnitude espectral para as harmônicas. Tipicamente, essas etapas são efetuadas a cada 20 ms, embora os cálculos poderão ser feitos mais freqüentemente, isto é, a cada 10 ms.

[0042] A Figura 3 é um fluxograma que mostra a operação

Petição 870170066022, de 05/09/2017, pág. 22/34

18/26 do reconstrutor de MFCC da Figura 2, de acordo com a modalidade preferida da presente invenção. O fluxo lógico começa na etapa 301, onde uma primeira pluralidade de valores de MFCC são recebidos. Como foi discutido acima, apenas os 13 primeiros valores (C0 a C12) são transmitidos para o receptor 211, com os dez valores restantes (C13 a C22) sendo descartados pela unidade móvel 101. Na etapa 303, o reconstrutor de MFCC 219 calcula os valores de MFCC faltantes. Finalmente, na etapa 305, o reconstrutor de MFCC 219 combina os valores de MFCC recebidos (C0 a C12) com os valores de MFCC calculados (C13 a C22) para gerar o vetor de MFCC de comprimento integral (C0 a C22) e alimentá-lo para o processador DSR/de fala 221.

[0043] A Figura 4 é um fluxograma que mostra a operação do processador DSR/de fala 221 de acordo com a versão preferida da presente invenção. O fluxo lógico começa na etapa 401 em que tanto os valores de MFCC transmitidos (C0C12) e os valores de MFCC reconstruídos (C13-C22) são recebidos. Na etapa 403, os valores de MFCC C0-C22, correspondentes à resposta de impulso do filtro de préênfase, são subtraídos dos valores de MFCC recebidos, principalmente para remover o efeito do filtro de préênfase. Alternativamente, o efeito do filtro de pré-ênfase poderá ser removido como a última etapa ao dividir a magnitude espectral da freqüência harmônica pela resposta de impulso do filtro de pré-ênfase naquela freqüência harmônica correspondente. No entanto, além do filtro de pré-ênfase, o filtro-Mel enfatiza freqüências mais altas dada a largura crescente das bandas de freqüência ao longo do eixo de freqüência linear. A resposta de impulso do

Petição 870170066022, de 05/09/2017, pág. 23/34

19/26 filtro-Mel em qualquer centro de banda pode ser tomada como sendo a largura da banda correspondente, e para qualquer outra freqüência, um valor interpolado pode ser utilizado. Ao calcular a resposta de impulso conjunta do filtro de pré-ênfase e do filtro-Mel, o efeito de ambos os filtros pode ser removido em uma única etapa ao dividir a magnitude espectral da freqüência harmônica pela resposta de impulso conjunta naquela freqüência harmônica correspondente. A etapa 403 atinge o mesmo resultado.

[0044] Os valores de MFCC modificados com o efeito do filtro de pré-ênfase e do filtro-Mel removidos são então utilizados para estimar as magnitudes espectrais de acordo com as etapas seguintes. As freqüências-Mel correspondentes às freqüências harmônicas (derivadas do período de pitch) são determinadas na etapa 405. Uma transformada inversa do cosseno discreto (IDCT) é então efetuada nos valores de MFCC modificadas nas freqüências-Mel harmônicas para transformar os coeficientes cepstrais em valores logespectrais nas etapas 407, 409.

[0045] Isto é, a IDCT de 23 pontos dos valores de MFCC C0 a C22 restauraria os 23 valores log-espectrais originais exceto pela distorção causada pelo erro de quantização nos valores de MFCC C0 a C12 e o erro de reconstrução nos valores de MFCC C13 a C22. No entanto, esses valores logespectrais correspondem aos centros das 23 bandas de freqüência. Os valores log-espectrais em outras freqüências são obrigados a determinar os valores de MFCC transformadas para as freqüências harmônicas.

[0046] Para aumentar a resolução da amostragem, o tamanho da IDCT pode ser aumentado por um múltiplo ímpar de

Petição 870170066022, de 05/09/2017, pág. 24/34

20/26

23, isto é (2|K+1)*23, em que K > 0. Isto introduz K pontos de Freqüência-meladicionais em qualquer dos lados das 23 freqüências-Mel originais correspondentes aos centros das bandas de freqüência. Por exemplo, se K = 85, há 85 pontos de Freqüência-mel à esquerda do primeiro centro de banda de freqüência e à direita do último centro de banda de freqüência (isto é, o 23°), e 170 pontos de Freqüência-mel adicionais entre quaisquer dois centros de banda de freqüência consecutivos. O número total de pontos de freqüência-Mel, neste caso, estão distanciados 85,3 na escala de freqüência-Mel, e a escolha de K = 85 aumenta a resolução tal que os pontos de Freqüência-mel consecutivos estão distanciados apenas 85,3/171 = 0,499. É importante observar que os pontos de Freqüência-mel mais à esquerda e mais à direita da IDCT não correspondem a 0 e Fs/2 (por exemplo, 4000 Hz) na escala de freqüência linear. Para nosso exemplo, o ponto de Freqüência-mel mais à esquerda está em 2060,8 + 85*0,499 = 2103,2. Os pontos correspondentes na escala de freqüência linear são respectivamente 93,6 Hz e 3824,6 Hz. Uma maneira de lidar com freqüências não cobertas pela faixa de freqüência IDCT é utilizar o ponto de freqüência mais próximo, isto é, freqüências abaixo de 93,6 Hz são designadas ponto de freqüência em 3824,6 Hz. Um método alternativo é utilizar algum tipo de interpolação.

[0047] A resolução IDCT mais alta essencialmente interpola entre os centros da banda de Freqüência-mel utilizando as próprias funções base de IDCT que as funções de interpolação. No entanto, não é necessário efetuar uma IDCT de 3933 pontos. Em vez disso, para facilitar os

Petição 870170066022, de 05/09/2017, pág. 25/34

21/26 cálculos da IDCT nos pontos de matriz L de 12 x 3933 de opcionalmente pré-calculadas equação:

freqüência selecionados, uma valores IDCT poderão ser na etapa 408 utilizando a

Li, j— onde i = 1, 2, correspondente armazenada pois colunas.

í 2 í (2 j +1)* i * p — cos —--23) 2*23*171 )

..., 12 e j = 0, 1,..

a C0 é implícita seu valor é constante

3932 não

1/23

A linha zero precisa ser para todas as [0048] Dada esta matriz L, para obter o valor logespectral em qualquer Freqüência-mel dada, o ponto de Freqüência-mel mais próximo para o qual a IDCT foi calculada está localizado, o vetor de coluna correspondente da matriz L é selecionado, e um produto interno entre a coluna correspondente e o vetor de MFCC modificado [C0, C1, ..., C22] é formado. Conseqüentemente, para determinar os valores log-espectrais para as freqüências harmônicas, por exemplo, os pontos de Freqüência-mel mais próximos são localizados e os vetores de coluna correspondentes da Matriz L selecionados na etapa 407. Ainda, na etapa 409, os produtos internos são formados entre o vetor de MFCC modificado e os vetores de coluna da matriz L selecionados na etapa 407. Os coeficientes transformados são então exponencializados para calcular as magnitudes espectrais em uma etapa 411.

[0049] O codificador de voz-sintetizador de fala sinusoidal 223 utiliza essas magnitudes espectrais, juntamente com os dados sobre a energia de quadro e outros dados como a classe, o período de pitch, e a energia de

Petição 870170066022, de 05/09/2017, pág. 26/34

22/26 sub-quadro também extraído pelo processador DSR/de fala 221 sob o controle do programa mencionado anteriormente, para reconstruir a fala como a soma de um número de fala de reconstruções do sintetizador utilizando um modelo sinusoidal da produção da fala.

X 7 ) = Σ ^Ak,^{7 C0S}(Fk, j) onde a amostra de falaks(j) é sintetizada como a soma de um número de sinusóides harmonicamente relacionados com a amplitude Ak,j e a fase Fk,j, j sendo o índice de amostra e k sendo o índice harmônico.

[0050] Tipicamente, o processo de síntese tem início com o cálculo das freqüências, amplitudes e fases no ponto médio de cada quadro. As freqüências utilizadas são a freqüência de pitch e suas harmônicas, que podem ser calculadas utilizando o período de pitch. As amplitudes utilizadas poderão ser as amplitudes harmônicas, que poderão ser estimadas utilizando as amplitudes espectrais determinadas com a utilização do método discutido acima e a energia de sub-quadro correspondente ao ponto médio do quadro (ou uma interpolação do mesmo utilizando o valor de log-energia). Alternativamente, para a fala não vocalizada, por exemplo, as amplitudes poderão corresponder a um conjunto de freqüências não necessariamente idênticas às freqüências harmônicas, em cujo caso essas amplitudes poderão ser estimadas utilizando a forma geral do método descrito acima e a energia de sub-quadro correspondente ao ponto médio do quadro (ou uma interpolação do mesmo utilizando o valor de log-energia). As fases calculadas dependem do parâmetro de classe. Para a fala vocalizada, fases coerentes são calculadas. Para a fala não vocalizada,

Petição 870170066022, de 05/09/2017, pág. 27/34

23/26 fases aleatórias, não coerentes são calculadas. Para a fala mista-vocalizada, o modelo vocalizado é utilizado para as freqüências mais baixas, e o modelo não vocalizado é utilizado para as freqüências mais altas. Qualquer componente de fase linear é removido das fases modeladas.

[0051] Uma vez conhecidos os valores de freqüência de ponto médio, de amplitude e de fase, as amplitudes e fases em outros pontos poderão ser calculadas. Por exemplo, uma vez conhecidas as amplitudes nos pontos médios dos quadros vocalizados atual e anterior, as amplitudes nas fronteiras de sub-quadro poderão ser calculadas utilizando a interpolação linear com um ajuste para as energia nesses pontos. Amplitudes dentro de um sub-quadro também poderão ser calculadas utilizando a interpolação linear. As fases harmônicas em índices de amostras diferentes poderão ser calculadas ao permitir que as fases evoluam linearmente de acordo com a freqüência. Permite-se que as freqüências mudem nas fronteiras de sub-quadro em etapas iguais dos valores anteriores aos valores atuais. Quaisquer descontinuidades de fase surgidas desta evolução são resolvidas utilizando fatores de correção de fase linear (isto é, deslocamentos ligeiros de freqüência). Se os quadros anterior e atual são de classes diferentes (por exemplo, um é vocalizado e o outro é sem vocalização) ou ambos são vocalizados para os períodos de pitch são bem diferentes, por exemplo, dobrados, os dois quadros são sintetizados independentemente e acrescentados por sobreposição no domínio de tempo.

[0052] Embora a invenção tenha sido particularmente mostrada e descrita com referência a uma versão particular,

Petição 870170066022, de 05/09/2017, pág. 28/34

24/26 será compreendido por aqueles habilitados na tecnologia que várias mudanças na forma e nos detalhes poderão ser neles feitas sem desviar do espírito e escopo da invenção. Por exemplo, embora as MFCCs não transmitidas foram derivadas utilizando um período de pitch e uma tabela de pesquisa, em versões alternativas da presente invenção, as MFCCs não transmitidas poderão ser derivadas de qualquer número de maneiras. Por exemplo, um único vetor pré-armazenado pode ser utilizado para as MFCCs faltantes. Em particular, a mediana dos vetores MFCC faltantes da dimensão 10 (C13 a C22) correspondentes aos quadros vocalizados de uma grande base de dados de fala pode ser calculado off-line, e utilizado para as MFCCs faltantes durante a reconstrução da fala.

[0053] Adicionalmente, as MFCCs faltantes podem ser derivadas das MFCCs transmitidas. Em particular os valores de MFCC transmitidos (C0 a C12) (que foram quantizados), e os valores MFCC faltantes (C13 a C22) (que não foram quantizados) de todos os quadros vocalizados de uma grande base de dados de fala podem ser coletados e particionados em um número adequado de grupos H1, H2, ..., Hk. Este agrupamento é similar às regiões voronoi em um quantizador vetor e utiliza a medida de distância euclideana com base nos primeiros 13 valores de MFCC (C0 a C12), Isto é, um vetor de MFCC (C0 a C12) pertence ao grupo Hk, se e apenas se o sub-vetor 13 dimensional (C0 a C12) está mais próximo (em termos da medida de distância euclineana) do centróide do grupo (formado ao tomar a mediana de todos os sub-vetores 13-dimensionais pertencentes ao grupo) do que o centróide de qualquer outro

Petição 870170066022, de 05/09/2017, pág. 29/34

25/26 grupo. Uma técnica similar a do projeto de um quantizador de vetor pode ser utilizada para formar esses grupos. Como o primeiro valor de MFCC C0 representa aproximadamente a energia do quadro e poderá não ter qualquer informação útil a respeito dos MFCCs faltantes, ele poderá ser deixado de ser considerado na formação dos grupos - isto é, poderemos utilizar os sub-vetores 12-dimensionais (Ci a C12) em vez dos sub-vetores 13-dimensionais (Co a C12) enquanto forma os grupos. Uma vez formados os grupos, a mediana dos subvetores 10 dimensionais (C13 a C22) correspondentes aos valores de MFCC faltantes em um sistema DSR de todos os vetores em cada grupo podem ser calculados e préarmazenados como E1, E2, ..., Ek. Para a reconstrução da fala na extremidade traseira de um sistema DSR, dados os valores de MFCC transmitidos (C0 a C12) para um quadro particular, primeiro encontramos o grupo particular a qual ele pertence (digamos Hk) , e então utilizamos o vetor mediano correspondente Ek para substituir pelos valores de MFCC faltantes (C13 a C22). Esta técnica. que utiliza os valores de MFCC transmitidos na seleção dos valores de MFCC que faltam pode ser combinada com a técnica de seleção com base no período de pitch mencionada anteriormente. Isto é, primeiro utilizamos a faixa de período de pitch para formar grupos adequados G1, G2, ..., Gm de vetores 23-dimensionais (Co a C22) de todos os quadros vocalizados de uma grande base de dados de fala e depois sub-dividimos mais cada um desses grupos com base nos valores de MFCC transmitidos. Por exemplo, o grupo Gm será subdividido nos grupos Gm,1, Gm,2, ..., Gm,K com base nos valores de MFCC transmitidos (Co a C12) . Os vetores medianos 10-dimensionais correspondentes

Petição 870170066022, de 05/09/2017, pág. 30/34

26/26 a C13 a C22 de todos os sub-grupos que totalizam M*K são pré-calculados e armazenados. Durante a reconstrução da fala, o valor do período de pitch P e os valores de MFCC transmitidos (C0 a C12) são ambos utilizados na seleção do vetor pré-armazenado apropriado para substituir os valores de MFCC faltantes (C13 a C22) . Pretende-se que essas mudanças caiam dentro do escopo das reivindicações seguintes.

Petição 870170066022, de 05/09/2017, pág. 31/34

1/2

Claims

REIVINDICAÇÕES

1. Método para a reconstrução da fala, o método caracterizado por compreender as etapas de:

receber (301) uma primeira pluralidade de coeficientes cepstrais de Freqüência-mel (MFCCs);

calcular (303) uma segunda pluralidade de MFCCs ao explorar a dependência da segunda pluralidade de valores de MFCCs de um período de pitch P bem como da primeira pluralidade de valores de MFCCs; e utilizar as MFCCs recebidas e calculadas para reconstruir a fala, em que a etapa de utilizar as MFCCs recebidas e calculadas para reconstruir a fala compreende as etapas de: transformar as MFCCs recebidas e calculadas em magnitudes harmônicas; e utilizar as magnitudes harmônicas para reconstruir a fala.

2/2 harmônicas; e utilizar as magnitudes harmônicas para reconstruir a fala.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato da etapa de receber a primeira pluralidade de MFCCs compreender a etapa de receber os coeficientes C0 a C12.

3. Método, de acordo com a reivindicação 2, caracterizado pelo fato da etapa de calcular a segunda pluralidade de MFCCs compreender a etapa de calcular os coeficientes C13 a C22.

4. Método, de acordo com a reivindicação 3, caracterizado pelo fato da etapa de utilizar as MFCCs recebidas e calculadas para reconstruir a fala compreender as etapas de:

transformar os coeficientes C0 a C12 em magnitudes

Petição 870180008688, de 01/02/2018, pág. 6/7

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato da etapa de receber a primeira pluralidade de MFCCs compreender a etapa de receber a primeira pluralidade de MFCCs através de um enlace de comunicação pelo ar.

6. Método, de acordo com a reivindicação 1, caracterizado por ainda compreender a etapa de:

receber um período de pitch juntamente com a primeira pluralidade de MFCCs.

7. Aparelho, caracterizado por compreender:

um receptor (211) que recebe uma primeira pluralidade de coeficientes ceptrais de Freqüência-mel (MFCCs);

um reconstrutor de MFCC (219) que calcula uma segunda pluralidade de MFCCs; e um processador de fala (221) que utiliza as MFCCs recebidas e calculadas para reconstruir a fala.

8. Aparelho, de acordo com a reivindicação 7, caracterizado pelo fato do receptor (221) ser um receptor de radiofreqüência (RF).

9. Aparelho, de acordo com a reivindicação 8, caracterizado pelo fato de: a primeira pluralidade de MFCCs compreender os coeficientes C0 a C12; e a segunda pluralidade de MFCCs compreender os coeficientes C13 a C22.

Petição 870180008688, de 01/02/2018, pág. 7/7

100