PT101037A

PT101037A - Processo de codificacao de segmentos de fala, e de controlo da altura para os sistemas de sintese da fala e dispositivo para a sua realizacao

Info

Publication number: PT101037A
Application number: PT101037A
Authority: PT
Inventors: Chong Rak Lee; Yong Kyu Park
Original assignee: Korea Telecommunication
Priority date: 1991-11-06
Filing date: 1992-11-05
Publication date: 1994-07-29
Also published as: ATA219292A; ES2037623B1; ES2037623R; GB2261350A; SE9203230D0; GB2261350B; LU88189A1; FR2683367A1; GR920100488A; JPH06110498A; FR2683367B1; KR940002854B1; BE1005622A3; CA2081693A1; DK134192A; ES2037623A2; DE4237563C2; ITMI922538A1; DK134192D0; US5617507A

Description

2 -

Âmbito da Invenção Â invenção refere-se a um sistema de sintese da fa la e a um processo de sintetização da fala e, mais partícula; mente, a um processo de codificação de segmentos de fala e a um processo de controlo da altura que aperfeiçoam significativamente a qualidade da fala sintetizada. 0 processo da presente invenção pode ser directame|i te aplicado, não apenas à síntese da fala, mas também à síntese de outros sons, tais como, os dos.instrumentos musicais ou aos do canto, apresentando cada um deles propriedades semelhantes aos sons da fala, ou à codificação da fala de velo cidade muito pequena ou conversãçHda velocidade da fala.

Existem processos de síntese da fala para implemen tar um sistema de sintetização de texto para fala, os quais pj> dem sintetizar inúmeros vocabulários mediante a conversão do texto, isto é, de sequência de caracteres para sons. Contudo Um processo que é fácil de implementar e que I o mais habituàl mente utilizado é o processo de sintetização segmentada da fa la, igualmente denominada processo de sintetização por conca tenação, no qual se fazem amostras da fala humana que são anã lisadas em unidades fonéticas, tais como semi-sílabas ou di~ fones para se obter pequenos segmentos de fala que são depoifè codificados e memorizados e que, quando se dá a entrada do texto escrito, são convertidos para transcriçães fonéticas.

Os segmentos de fala correspondentes às transcriçães fonéticas são então recuperados sequencialmênte a partir da memáriá e descodificados para sintetizar a fala correspondente ao tex to de entrada.

Neste tipo de processo de síntese da fala segmentado, um dos elementos mais importantes para controlar a quali dade da fala sintetizada e o processo de codificação dos se-

β

gmentos de fala. Ãnteriormente, o processo da síntese da fala segmentado do sistema de síntese da fala, um processo de codificação da fala com uma fraca qualidade de fala, era prii cipalmente utilizado como o processo de codificação da fala para memorizar segmentos de fala. No entanto, esta é uma das causas mais importantes que origina o empobrecimento da qualidade da fala sintetizada. Segue-se uma breve descrição àcer ca do anterior processo de codificação dos segmentos de fála. 0 processo de codificação ..da fala pode ser genérica mente classificado num processo de codificação da forma da onda com uma boa qualidade de fala e num processo de codificação da fala com uma fraca qualidade de fala. Uma vez que o processo de codificação da forma da onda tem por finalidade transferir a forma de onda tal como ela se apresenta, é muito difícil modificar a frequência e a duração da altura, pelo que I impossível ajustar a entoação e a velocidade da fala quando a síntese da fala está sendo realizada. ]S igualmente impossível associar entre eles regularmente os segmentos de fala, p<5_ lo que o processo de codificação da forma da onda não I básicamente apropriado para se realizar a codificação dos segmentos de fala.

Pelo contrário, quando se utiliza o processo de codificação da fala (igualmente denominada por processo de análise-síntese) a configuração de altura e a duração do segmento de fala po‘dem ser arbitráriamente modificados* Além disso, uma vez que os segmentos da fala podem igualmente ser regular mente associados mediante a interpolação dos parâmetros de cálculo da envolvente espectral de forma que o processo de dificação da fala seja apropriado para os meios de codificação utilizados na síntese de texto escrito para fala, na maior parte dos sistemas de síntese da fala actuais adoptaram-se os processos de codificação da fala tais como a codificação de i

prognóstico linear (LPG) ou codificação de voz formativa* Co: tudo, uma vez que anualidade da fala descodificada ê fraca quando se codifica a fala utilizando o processo de codificação da fala sintetizada obtida mediante a descodificação dos segmentos da fala memorizados e concatenando-os não pode pos suir uma qualidade de fala superior à que S oferecida pelo processo de codificação da fala.

As tentativas feitas até agora para aperfeiçoar a qualidade da fala produzida pelo processoode codificação da fala substituem o trem de impulsos utilizado com um sinal de excitação q.ue possui uma forma de onda menos artificial. Uma dessas tentativas consistiu em utilizar uma forma de onda cu jo pico era mais baixo que o de um impulso, como por exemplo uma forma de onda triangular, ou uma forma de onda semi circà lar ou uma forma de onda semelhante a um impulso da glota. Outra tentativa consistia em escolher uma amostra de impulso da altura de um ou de vários períodos de altura de sinais res duais obtidos mediante a filtração inversa.e utilizar, em vez do impulso, um impulso de amostragem para o período de tempo total ou para um período de tempo substancialmente longo. Con tudo, tais tentativas para substituir o impulso por um impul so de exoitação de outras formas de onda não aperfeiçoaram a qualidade da fala nem mesmo que fosse ligeiramente, nunca se tendo obtido uma fala sintetizada com uma qualidade próxima à da fala natural. 0 objecto da presenteiinvenção está em sintetizar a fala de elevada qualidade com uma naturalidade e uma inte-legibilidade de nível igual às da fala natural mediante a uti lização de um novo processo áe codificação de segmentos da fa la e o controlo da altura. 0 processo da presente invenção associa os méritos do processo da codificação da forma da on da, o qual proporciona uma boa qualidade da fala mas sem a ίΡ

capacidade para controlar a altura, e o processo de codifica ção da fala, o qual proporciona o controlo da altura mas pos sui utna baixa qualidade de fala» A presente invenção apresenta um processo de deoom posição periódica da forma da onda que ê um processo de oodi ficação que decompõe um sinal num sector de som da voz na fa la original em Ôndulas equivalentes a um período de tempo da^ formas da onda da fala produzido por. impulsos da glota para codificar e memorizar o sinal decomposto,, e um processo de reagrupamento da ôndula baseado na urdidura de tempo que I um mltodo de síntese da forma da onda capaz de proceder ao ajustamento arbitrário da duração e da frequência da altura do segmento da fala enquanto mantém a qualidade da fala original mediante a escolha de ôndulas mais próximas de posições em qtjie se vão colocar ondulas entre ôndulas memorizadas, descodificando-se depois as ôndulas escolhidas e sobrepondo-as» PorΙψβ rência a esta invenção, os sons musicais serão considerados como sons da voz*

Os objectos procedentes devem ser considerados como uma mera apresentação de algumas das características e aplica ções mais pertinentes da invenção. Podem-se obter muitos outpos resultados benlfioos aplicando-se o processo da invenção de uma maneira diferente ou modificando-a no âmbito das suas reivindicações» D©ste modo, podem-se considerar outros objectos e uma compreensão mais completa da invenção com referência quer ao Sumário da Invenção quer à sua Descrição Pormenoriza da que adiante se seguem, que desôrevem~a forma de realização preferida da invenção no âmbito definido pelas reivindicaçõeiS consideradas em conjunto com os desenhos em anexo.

SUMÁRIO DA iJWENgÃO

Os processos de codificação de segmentos de fala e

de controlo da altura para os sistemas de síntese da fala abo dados na presente invenção são definidos pelas reivindicações com formas de realização específicas, ilustradas nos desenhos em anexo. Com o obRectivo de resumir a invenção, ela refere--se a um processo capaz de sintetizar a fala que se aproxima da qualidade inerente à fala natural mediante o ajustamento da sua duração e da suâ frequência de altura por ôndulas que codificam a forma de onda de cada período de tempo, a sua me morização e, na altura da síntese, descodificá-las e reagrupa -las em instantes de tempo apropriados de tal modo que possuam a desejada configuração de altura, sobrepondo-as seguidamente para se obter uma fala natural, sons de canto, másica ou ou tros sons semelhantes. A presente invenção inclui um processo de codifica ção de segmentos de fala para utilização num sistema de sínt^ se da fala, caracterizado pelo facto de compreender a operação que consiste em formar ôndulas por obtenção de parâmetros que representam uma envolvente espectral em cada intervalo de tempo de análise* Isto realiza-se analisando um sinal digital, periódico ou quase-periódico, tal como a fala sonora, utili-zando-se uma técnica de computação espectral. Um sinal original ê primeiramente decomposto num impulso de resposta representado pelos parâmetros da envolvente espectral e num sinal constituído por um trem de impulsos de altura periódica ou quase-periódicos que possui uma envolvente espectral quase plana. Um sinal de excitação, obtido mediante anexação de amos tras com o valor, zero depois de um sinal de impulso da altura de um período segmentando o mencionado sinal do trem de impulsos da altura durante cada período de tal maneira que em cada período esteja contido um impulso da altura e resposta ao im pulso que corresponde a um conjunto de parâmetros da envolveji te espectral no mesmo intervalo de tempo que o citado sinal de excitação, são agrupados de modo a formar um ôndula para 7 -

esse período de tempo.

As ôndulas, em vez de serem formadas por codificação em forma de onda e serem memorizadas antecipadamente, po dem ser formadas reunindo informações obtidas mediante a codificação da forma da onda dum sinal de impulso da altura de cada intervalo de período de tempo, obtido por segmentação, com informações obtidas mediante a codificação dum conjunto de parâmetros de cálculo da envolvente espectral com o mesmo intervalo de tempo que as citadas informações, ou com um impulso de resposta correspondendo aos parâmetros e memorizando as informações da Ôndula. Existem dois processos para se produzir fala sintetizada utilizando as informações das ôndu las memorizadas. 0 primeiro processo está em constituir cada ôn dula agrupando um sinal de excitação obtido mediante a anexa ção amostras de valor zero depois de um sinal de impulso da altura de um período obtido descodificando as informações e um impulso de resposta correspondendo aos parâmetros da envo! vente espectral descodificada no mesmo intervalo de tempo qufe o sinal de excitação, atribuindo-se então as ôndulas a instai ι tes de tempo apropriados de tal modo que elas possuam uma con figuração da altura e uma configuração da duração pretendidas agrupando-as nos instantes de tempo, e então sobrepondo-as. 0 segundo processo e constituir um sinal de excita ção sintético atribuindo os sinais de impulso de altura, obt:L dos descodificando-se as informações das ôndulas, para instaii tes de tempo apropriados, de tal modo q.ue tenbam a configura ção de altura e a configuração de duração pretendidas reagru pando-os nos instantes de tempo e constituir um conjunto de parâmetros de envolventes espectrais sintéticos formado quer comprimindo ou expandindo temporalmente o conjunto de funçõe^ de tempo dos parâmetros em uma base de subsegmento por subse gmento, dependendo do faoto de a duração de um subsegmento

num segmento de velocidade a ser sintetizado ser mais ourta ou ser maior do que a do subsegmento correspondente do segmeji to de fala original, respectivamente, ou agrupando o conjunto de funçífes de tempo dos parâmetros de um período em sincro nísmo com o sinal de impulso da altura associado de um perlo do reagrupando de maneira a formar o sinal de excitação sintético, e agrupar o sinal de excitação sintético com um impujL so de resposta correspondente ao conjunto de perâmetros da envolvente espectral sintético mediante a utilização de um filtro variável com o tempo ou pela utilização de um método de reagrupamento rápido com base num FF® (transformador ]?ourp.er) Neste áltimo método, obtém-se um intervalo em branco quando um período de altura pretendido I maior que o período da al tura original e ocorrendo um intervalo de tempo em branco qu&n do o período de altura pretendido I mais curto que o período de altura original.

No intervalo sobreposto obtém-se o sinal de excita ção sintetizado adicionando os sinais de impulso da altura sobrepostos uns aos outros ou escolhendo um de entre eles, e obtem-se o parâmetro da envolvente espectral escolhendo-se ou um dos parâmetros da envolvente espectral sobrepostos ou utilizando um valor médio dos dois parâmetros sobrepostos.

No intervalo de tempo em branco obtém-se o sinal d 3 exticação sintético preenchendo-o com amostras com o valor zero e obtéoi-se o parâmetro da envolvente espectral sintetizada repetindo os valores dos parâmetros da envolvente espec trai no instante inicial e no instante final do período ante rior e do período seguinte antes e depois do centro do inter valo de tempo em branco, ou repetindo um dos dois valores ou um valor médio dos dois valores, ou preenchendo-o com valores e fazendo-os variar regularmente entre os dois valores mencis nados.

0 processo da presente invenção compreende ainda utfi processo para o controlo da altura dum sistema de síntese da fala capaz de controlar a duração e a altura de um segmento da fala por um método de reagrupamento da ôndula baseado na urdidura de tempo, o qual possibilita a síntese da fala com quase a mesma qualidade que a da fala natural, codificando itfipor tantes momentos de tempo dos fronteiras tais como o instante inicial, o instante final e os instantes do estado estacioná rio num segmento da fala e as posições dos impulsos da alturá de cada Ôndula ou cada sinal do impulso da altura, e memoriza -los em memórias simultâneamente no momento de memorização do cada segmento de fala e, no momento da síntese, obter uma fun ção da urdidura de tempo comparando os instantes de tempo dos fronteiras pretendidos e os instantes de tempo das fronteira^ originais memorizados que correspondem aos citados instantes de tempo de fronteira pretendidos, descobrir os instantes de tempo originais que correspondem a cada posição do impulso dè altura pretendido utilizando a função de urdidura do tempo, escolher ôndulas que têm as posições de impulso da altura mais próximas dos mencionados.instantes de tempo originais e agru pá-las nas posições dos impulsos da altura pretendidos e sobrepor as citadas Ôndulas* 0 processo de controlo da altura pode ainda compreender a operação que consiste na produção de fala sintetizada escolhendo sinais dos impulsos de altura de um período de tempo e parâmetros da envolvente espectral correspondendo aos referidos sinais de impulso, da altura em vez das ôndulas, e localizá-los, e reunindo os sinais de impulso da altura reagrupados e o impulso de resposta correspondentes aos parâmetros da envolvente espectral para produzir ôndulas e sobrepor as ôndulas produzidas, ou agrupando um sinal de excitação sin tético obtido mediante a sobreposição dos sinais de impulso

da altura agrupados e um impulso de resposta variável em fun ção do tempo, correspondendo a parâmetros da envolvente espeò trai sintética realizada concatenando os parâmetros da envol vente espectral reagrupados*

Um dispositivo de síntese da fala sonora de um sis tema de síntese de fala I divulgado e compreende um sub-bloco de descodificação (9) que produz informações sobre as Ôndulasp descodificando cádigds de ôndulas do bloco de memorização do segmento de fala (5)# Um sub-bloco de controlo da duração (10) produz dados sobré á urdidura do tempo a partir da entrada d dados provenientes de um subsistema (2) de produção prosddic^ e dos instantes de tempo incluídos nas informações dos títulos do referido bloco de memorização dos segmentos de fala (5)· Um sub-bloco de controlo da altura do som (11) produz ift. formações da posição do impulso da altura de tal maneira que tem uma configuração da entoação tal como é indicado por dados da configuração da entoação a partir da entrada da citad^, informação dos títulos a partir do bloco de memorização dos segmentos de fala (5), os dados da configuração da entoação a partir do subsistema de produção prosádica I as informaçõesb de urdidura do tempo provenientes do sub-bloco de controlo da duração (10)· Um sub-bloco de controlo da potência (12) produz informações sobre o ganho de tal maneira que a fala sintetizada tenha a configuração da intensidade tal como ê indioado pelos dados da configuração da intensidade provenientes da entrada dos citados dados da configuração da intensidade do referido sub-sistema de produção prosádica (2), as informações da urdidura do tempo provenientes do sub-blòcò de controlo da duração (10) e informações da posição do impulso da altura ppo venientes dõ sub-blooo de controlo da altura (ll). Um sub-bl co de conjunto das formas das ondas (13) produz úm sinal da fala sonora a partir da entrada das informações das ôndulas

provenientes do sub-bloco de descodificação (9), das informa ções da urdidura do tempo provenientes do sub-bloco de eontrj) lo da duração (10), das informações da punição do impulso da altura provenientes do sub-bloco de controlo da altura (ll) Js das informações do ganho provenientes do sub-bloco de cõntro lo da energia (12),

Desta forma, e de acordo com a presente invenção, dá-se a entrada do texto no sub-sistema de pr4—processamento fonético (1) onde 4 convertido em símbolos transcritivos fonéticos e em dados de análise sintática. Os dados de análise sintática saiem para um sub-sistema de produção prosádica (2 ) 0 sub-sistema de produção prosddica.(2) dá saída de informa ções prosédieas para o sub-sistema de coneatenação de segmentos de fala (3), Os símbolos da transcrição fonética proveni^n tes do sub-sistema de pré-processamento são igualmente intro duzidos no sub-sistema de coneatenação dos segmentos de fala (3), Os símbolos da transcrição fonética dão então entrada no bloco de selecçáo dos segmentos da fala (4) e os dados prosdf dicos correspondentes entram no bloco de“síntese da fala sonora (6) e no bloco de síntese do som insonoro (7), Nb bloco de selecção dos segmentos da fala (4) cada símbõló transcri-tivo fonético q.ue entrou é associado'a uma unidade de síntes^ do segmento da fala correspondente e descobre-se um endereço da meméria da unidade de síntese associada correspondente a cada entrada de símbolos transcritivos fonéticos de entre um quadro de segmentos de fala no bloco de memorização de segmeji tos de fala (5). 0 endereço da unidade de síntese associada dá então saída para o bloco de memorização de segmentos da f|i la (5) onde o segmento da fala correspondente apresentado em forma 'de ôndula codificada é escolhido para cada um dos ende reços das unidades de síntese associadas, 0 segmento da fala escolhido em forma de ôndula codificada sai para o bloco de

síntese do som aonoro (6) para produzir um som sonoro e para o bloco de síntese insõnõro (7) para produzir som mudo. 0 blj) oo de síntese de som sonoro (6)', que. utiliza o método de re-loealização das Ôndulas com base na urdidura do tempo para sintetizar o som sonoro, e o bloco de síntese insonoro (7) dão saída a sinais de fala sintéticos digitais para a cõnver sar de analógico para digital, para converter os sinais digi tais que entraram em sinais analógicos que são os sons da fala sintetizada. A fim de se utilizar o processo da presente invenção, regista-se primeiro a fala e/ou mdsica sobre fita magné tica* 0 som obtido I então convertido de sinais analógicos pk ra sinais digitais filtrando a passagem de frequências baixas dos sinais analógicos e alimentando depois os sinais filtradas a um conversor de analógico para digital. Os sinais da fala digitalizada resultantes são então segmentados num determinado ná&ero de segmentos de fala possuindo sons que correspondem a unidades de síntese, tais como fonemas, difones, demi--sílabas ou unidades semelhantes utilizando-se instrumentos editoriais da fala conhecidos* Cada segmento de fala obtido é então diferenciado em segmentos sonoros e segmentos de falk insonoros utilizando-se instrumentos conhecidos de detecção sonora/insonora e de edição da fala. Os segmentos da fala in sonoros são codificados por processos de codificação de fala conhecidos os quais utilizam ruído errático branco como uma fonte de fala insonora. Os métodos de codificação da fala in cluem o método LPC, o homomórfico, o método de codificação da voz formativo e métodos semelhantes.

Os segmentos de fala sonoros utilizam-se para formar ôndulas sj(n) de acordo com o processo apresentado adian te na 3?ig* 4. As "Ôndulas sj(n) são então codificadas utilizan do-se um processo de codificação em forma da onda apropriado

Os processos de codificação em forma de onda conhecidos incluem a Modulação do Código de Impulso (PGM), a Modulação do Oó digo de Impulso Diferencial Adaptativa (ADPCM), a Codificação por Prognóstico Adaptável (APC) e métodos'semelhantes. Os se· gmentos da fala sonora codlficãdos obtidos são memorizados n bloco de memorização de segmentos da fala (5) como se mostra nas Pigs. 6A e 6B. Os segmentos da fala insoríora oodifiçados são igualmente memorizados no bloco de memorização dos segme: tos da fala (5).

Delinearam-se ate aqui as característieas mais per tinentes e importantes da presente invenção a fim de que a descrição pormenorizada <iue se vai seguir da invenção seja melhor compreendida e para que se possa apreciar totalmente a sua contribuição. As característieas adicionais da invençãjD que a seguir se descrevem formam o assunto das reivindicaçõe da invenção. Os especialistas nesta matéria podem apreciar que a concepção e a forma de realização específica aqui descritas podem ser prontamente utilizadas como uma base para a modificação ou designação de outras estruturas para realizar os mesmos intuitos da presente invenção. Além disso, os ente. didos desta matéria podem realizar tais construções equivale; tes sem abandonar o espírito e êmbito da invenção como especificado nas reivindicações.

BREVE DESCRIÇÃO DOS DESENHOS |h5 fo

Para se· compreender completamente a natureza e obj tos da invenção, dever-se-â ter por referência a descrição p menorizada que se irá seguir considerada conjuntamente com o desenhos em anexo em ques a Pig. 1 ilustra o sistema de síntese de texto par fala do processo de síntese dos segmentos de fala; - 14 -

a Pig. 2 ilustra o sub-sistema de concatenação do segmento de fala; as Pigs* 3A até 31 ilustram formas de ondãapara ex-- plicar o princípio do método de decomposição da forma da onda periédica e o método de reagrupamento das ôndulas de acor do com a presente invenção; a Pig. 4 ilustra um diagrama em "bloco para explicar o método de decomposição da forma da onda periódico; as Pigs* 5A até 5E ilustram diagramas em bloco para explicar o procedimento do método de decomposição cega; as Pigs* 6A e 6B ilustram formatos de códigos para as informações.de segmentos de fala sonora memorizadas no bl) co de memorização de segmentos da fala; a Pig» 7 ilustra o bloco de síntese da fala sonora ; de acordo com o processo da presente invenção; e as Pigs» 8A e 8B ilustram gráficos para explicar os métodos de controlo da duração e da altura do som de acor do com o processo da presente invenção.

Os caracteres de referência semelhantes referem-se a partes semelhantes ao longo das várias apresentações dos desenhos.

PBSGRIglO PORMENORIZADA DA UTOIgÃO A estrutura do sistema de síntese de texto para fa la do anterior processo de síntese de segmentos da fala compreendia três sub-sástemas; A* Um subsistema de pré-processamento fonético (l); B* Um subsistema de produção prosódica (2); e _ C« Um subsistema de concatenação de segmentos de fala

(3), com© se mostra na Fig. 1. Qlando se dá a entrada do tex to'pelo teclado, por um“computador ou por qualquer outro sistema para o sistema de síntese de texto para fala, o subsistema de pré-processamento fonético (l) analisa a síntese do texto alterando depois o texto para'"uma sequência de símbolos trans-critivos fonéticos aplicando-lbe regras de re-codiíicação fo néticas. 0 subsistema de produção prosédica (2) produz dados de configuração da entoação e dados de configuração da inten sidade utilizando dados de análise sintáctica, de maneira a que se possa aplicar uma entoação e uma intensidade apropria das à sequência de símbolos transcritivos fonéticos e dá então saída aos dados para o subsistema de concatenação dos se gmentos da fala (3)· 0 subsistema de produção prosédica (2) for nece ainda os dados relativos à duração de cada fonema aò sup sistema de concatenação dos segmentos da fala (j)*

Os mencionados três tipos de dados prosédicos, isto I, os dados de configuração da entoação, os dados de configuração da intensidade e os dados relativos à duração de cada fonema são, geralmente, enviados para o subsistema de concatenação dos segmentos da fala (3) conjuntamente com a sequência de símbolos transcritivos ‘fonéticos produzidos pel sistema de pré-processamento fonético (l), embora eles possak ser transferidos para o subsistema de concatenação dos segmeji tos da fala (3) independentemente da sequência de símbolos transcritivos fonéticos. 0 subsistema de concatenação dos segmentos da fala (3) produz fala contínua buscando seq.uencialm.ente segmentos da ‘fala apropriados que são codificados e memorizados na sua memória de acordo com a sequência de símbolos transcritivos fonéticos (não ilustrada) e descodifioando-os. Neste momento o subsistema de concatenáção dos segmentos da fala (3) pode produzir fala sintética possuindo a entoação, a intensidade 16 -

e a valocidade da fala pretendida pelo subsistema de produção prosédica (2) controlando a potência (intensidade), a duração do período"dè tempo da altura de cada”segmento da'fala de ac<p do com as informações prosódicas. A presente invenção aperfeiçoa notávelmente a qualidade da fala em comparação com a fala sintetizada anterior, aperfeiçoando o método de codificação para memorizar os segmentos da fala no subsistema de concatenação d.os segmentos do fala (3)· Seguidamente apresentã-se uma descrição relativa à operação'do subsistema de concatenação dos segmentos da falá (3) referente à Fig* 2.

Quando a sequência'dos símbolos transcritivos foné ticos formada pelo subsistema de pré-processamento fonético (l) dá entrada no bloco de selecção dos segmentos da fala (4), este bloco de selecção dos segmentos da fala (4) escolbe sequencialmente as unidades de síntese, tais como difones e de-mi-sílabas, inspeccionando contínuamente a sequência dos sím bolos transcritivos fonéticos que estão a entrar, e descobre os endereços dos segmentos da fala que correspondem às unidades de síntese escolhidas a partir da sua meméria, como ée mostra no Quadro 1. 0 Quadro I mostra um exemplo do quadro de segmentos da fala mantido no bloco de selecção dos segmen tos da fala (4) que escolbe segmentos de fala com base nos difones. Isto resulta na formação de um endereço do segmento da fala escolhido que sai para o bloco de memorização dos segmentos da fala (5)·

Os segmentos da fala que correspondem aos endereços do segmento da fala são codificados de acordo com o processo da presente invenção, que mais adiante se descreverá, e são memorizados nos endereços da meméria do bloco de memorização dos segmentos da fala.

Quadro 1 Símbolo franscritivo Fonético do Segmento da Fala - Endereço da Memória (em hexadecimais) /ai/ 0000 /au/ 0021 /ab/ 00Á3 /ad/ OOFF • e • e • • d.e

Quando o endereço do segmento da fala escolhido do bloco de selecção dos segmentos da fala (4) entra no bloco de memorização dos segmentos da fala (5)s o bloco de memorização dos segmentos da fala (5) apanha os dados do segmento da fala correspondentes existente na-memória.no bloco de memorização dos segmentos da fala (5) e envia-o para um bloco de síntese de sons da voz (6) no caso de ser um som sonoro ο μ. um som fricativo sonoro, oU para um bloco de síntese de sons insonoros (7) no caso de ser um som insonoro. Isto I, o bloco de s.íntése de sons da voz (6) sintetiza um sinal da fala digital correspondendo aos segmentos da fala da voz sonora^ e o bloco de síntese de sons insonoros (7) sintetiza um sinajL fala digital correspondendo aos segmentos de fala insonoros» Oada sinal da' fala sintetizada digital do bloco de síntese d sons da voz (6.)-e do bloco de síntese de sons insonoros (7) e então convertido num sinal analógico.

Deste modo, o sinal da fala sintetizada digital re sultante q,ue saiu do bloco de síntese de sons da voz (6) ou

do bloco de síntese de sons insonoros (7) ê então enviado para um bloco de conversão D/A (8) que compreende um conversor de digital para analógico, "uaffíltro de passagem de frequências baixas e um amplificador analógico, e é convertido num sinal analógico para produzir som de fala sintetizado.

Quando o bloco de síntese de sons da voz (6) e o bloco de síntese de sons insonoros (7) estão' concatenando os segmentos da fala, eles proporcionam a. prosódia pretendida p<5 lo subsistema de produção prosódica (2) para a fala sintetiza da mediante o ajuste apropriado da duráção,da intensidade e da frequência da altura do segmento da fala com base nas in-formaçães prosódicas, isto é, os dados da configuração da entoação, os dados da configuração da intensidade e os dados da duração. A preparação do segmento de fala para memorização no bloco de memorização de segmentos da fala (5) compreende as operaçães seguintes* Primeiramente escolbe-sé uma unidade de síntese. íTais unidades de síntese compreendem fonemas, alr fones, difonès sílabas, demi-sílabas, CYG, VCV; CY, VC (aqui "G" representa uma consoante e "V" um fonema vogal, respecti-vamente) ou suas associaçSes. As unidades de síntese mais am-plamenté utilizadas no método de síntese da fala babitual sã) os difones e as demi-sílabas· 0 segmento da fala que corresponde a cada elemento de um agregado das unidades de síntese I segmentado das amos t a tras da fala que são pronunciadas por uma pessoa* Deste modo o nómero de elementos do agregado de unidades de síntese I igual ao ndmero de segmentos da fala. Por exemplo, no caso e que são utilizadas demi-sílabas com unidades de síntese em língua inglesa, o námero de demi-sílabas ê igual a cerca de 1000, sendo do mesmo modo cerca de 100Õ o nómero de segmento da fala. Em geral, tais segmentos da fala são constituídos - 19 -

pelo intervalo do som insonoro e pelo intervalo do som da vo£.

Ha presente invenção, o segmento da fala insonora o segmento da fala sonora, obtidos pela segmentação do anteribr segmento da fala no intervalo de sons insonoros e no intervaj-lo de sons da voz, são utilizados como a unidade básica da síntese. A parte da síntese da fala de sons insonoros e realizada de acordo com a situação anterior, como atrás se refej-riu. A síntese da fala de sons sonoros I realizada de acordo com o processo da presente invenção.

Deste modo, os segmentos da fala insonora são descodificados no bloco de síntese de sons insonoros (7) ilustrjà do na Pig. 2. No caso da descodificação dos sons insonoros, foi indicado pela situação anterior que o uso de um sinal do ruído errático branco artificial com um sinal de excitação para um filtro de síntese não agrava nem diminui a qualidade da fala descodificada. Por conseguinte, na codificação e des codificação dos segmentos da fala insonoros o anterior metod<() de codificação da fala pode ser aplicado tal como I, método este em que o ruído branco e utilizado, como sinal de excita· ção. Por exemplo, no processo de síntese de sons insonoros ajji terior um algoritmo gerador de námeros ímpares pode produzir um sinal de ruído branco q.ue pode ser utilizado, ou o sinal de ruído branco, produzido antecipadamente e memorizado, podè ser recuperado pela memória'quando se realiza a síntese, ou um sinal residual, obtido pela filtragem do intervalo de sons in sonoros da fala real utilizando um filtro da envolvente espeo trai invertido e memorizado, pode ser restabelecido a partir da memória no momento da síntese. Se não for necessário alte rar a duração do segmento da fala insonoro, pode-se Utilizar um método de codificação extremamente simples no q.ual a part^ do som insonoro e codificado de acordo oom um processo de co dificação da forma da onda tal como a Modulação do Código de

Impulso (PGM) ou a Modulação do Código de Impulso Diferencia!. Adaptativo (ADPCM) ,' e memorizada; S então descodificada para ser utilizada no momento da síntese. A presente invenção refere-se a um processo de codificação e de síntese dos segmentos da fala sonoro que rege a qualidade da fala sintetizada, Na Pig.2 imustra-se uma descrição que se refere aos mencionados processos com realce para o bloco de memorização dos segmentos da fala e para o bloco de síntese dos sons da voz. ão,

Os segmentos da fala sonora entre os segmentos da fala memorizados na memória do bloco de memorização de segmen tos da fala (5), são decompostos em ôndulas da componente periódica da altura anteeipadamente, de acordo com o processo de decomposição da forma da onda periódico da presente invenfc e ficam aí memorizados. 0 bloco de síntese da fala sonora (6|) sintetiza a fala possuindo a configuração da altura e a configuração da duração pretendidas escolhendo e colocando as όφ. dulas apropriadamente, de acordo com o processo de reagrupa-mento da ôndula baseado na urdidura de tempo, 0 princípio deites métodos está descrito adiante com referência aos desenhos. A fala sonora S(n) I um sinal periódico obtido quaii do uma onda da glota periódica produzida nas cordas vocais passa através do filtro acástico da região vooal V(f), que compreende a oavidade oral, a cavidade faríngea e a cavidade nasal. Aqui, parte-se do princípio que o filtro da região vo cal V(f) abrange característica de frequência devido a um efe to de "rãdiação dos lábios. Um espectro S(f) de fala sonora ca racteriza-se por 5 1. Uma estrutra fina variando rápidamente em relação à frequência Hí'H $ e 2. Uma envolvente espectral variando lentamente, pa

ra aí, sendo a primeira devido à periodicidade do sinal de fa la sonora e a última reflectindô o espectro de um impulso da glote e a característica de frequência do filtro da região vo cal. 0 espectro S(f) da fala sonora fica com a mesma for ma que aquela que I obtida quando a estrutura fina de um trem de impulso, devida a componentes harmónicos que existem em múltiplos inteiros da frequência da altura Po, e multiplicada por uma função H(f) da envolvente espectral. Por conseguiu te, a fala sonora S(n) pode ser vista como um sinal de saída quando um sinal constituído por um trem de impulsos de altura periódicos e (n) possuindo uma envolvente espectral plana e o mesmo período *que a voz sonora S-(n)., entra num filtro variá vel no tempo com a mesma característica de frequência de resposta que a função H(f) da envolvente espectral da fala sonora S(n)· Observando isto no domínio do tempo, a fala sonora s(n) e uma decomposição de um impulso de resposta b(n) do fil. tro H(f) e do sinal constituído por um trem de impu!so's de al tura'periódicos e(n). Urna vez que H(f) corresponde à função envolvente espectral da fala sonqráSCn), o filtro variável no tempo possuindo H(f) como a sua resposta de frequência ê referido corno um filtro envolvente espectral ou um filtro de síntese.

Na Pig* 3A ilustra-se um sinal para 4 períodos de uma forma da onda da glota. Normalmente, as formas da onda dos impulsos da glota que constituem a forma da onda da glota sao semelhantes unas às outras mas não. são completamente idênticas, sendo também'o período de tempo de intervalo entr os impulsos da glota adjacentes semelhantes entre si mas não completamente igual. Como atrás se descreveu, a forma da ond^. S(n) da fala sonora da Pig. 3C é produzida quando a forma da ohdã g(n) da glota, ilustrada na Pig. 3A é filtraxla pelo fil § & 22 - tro V(f) da região vocal. A forma da onda da glota g(n) I cons tituída pelos impulsos da glota gl(n)^ g2(2), g3(n) ê g4(n) que se distinguem uns dos outros em termos de tempo, e quando são.filtrados pelo filtro da região vocal V(f), produzem-se as Ôndulas sl(n), s2(n), s3(n) e s4(n) ilustradas na Fig. 30 mediante a sobréposição das'"referidas'Ôndulas.

Um conteito básico da presente invenção ê que no ca so de se poderem obter Ôndulas que compõem um sinal da fala sonora decompondo o sinal da fala sonora, pode-se sintetizar a fala oom uma configuração de sotaque e de entoação, arbitrá rias modificando a intensidade das Ôndulas e os intervalos de tempo existentes entre elas.

Uma vez que a forma da onda da fala sonora s(n) ilus trada na Fig. 30 foi produzida sobrepondo as Ôndulas que se so brepõem umas às outras no tempo, e dificil recuperar as ôndulas da forma da onda da fala s(n). A fim de que a forma da onda de cada período não s 2 sobreponha entre si no domínio do tempo, a referida forma da onda tem que ser uma forma, da onda ponteaguda em que a energia está concentrada em redor de um instante no tempo, como se vê na Fig. 3F.

Uma forma de onda ponteaguda I uma forma da onda que possui uma envolvente espectral quase plana no domínio dk frequência. Quando surge uma forma da onda da fala sonora s(|i) pode-se obter um sinal constituído por um trem de impulsos d altura periódicos tendo uma envolvente espectral plana, como se mostra na Fig. 33?, como um sinal de saída, prevendo a envolvente do espectro S(f) da forma da onda s(n) e fazendo-o entrar num filtro da envolvente espectral invertido l/H(f) possuindo uma função invertida em relação à função envòlvént H(f) como uma característica de frequência^ As Figs. 4, 5A e

5B referem^se a esta operação.

Uma vez que as formas da onda do impulso da altura de oada período que compõem o sinal constituído por um trem &e impulsos de altura periódicos e(n), como se mostra na.Fig, 3: não se sobrepõem umas em relação Ss outras no domínio do tem po, elas podem ser separadas. 0 princípio do processo de de composição das formas das ondas periódicas está em que, vistb que os "sinais de impulso da altura para cada período" separados el(n) e e2(n), possuem um espectro substancialmente plã no, se eles forem entrar de novo no filtro da envolvente espectral H(f) para que.os sinais tenham 0 espectro original, podem-se então obter as Ôndulas sl(n) e s2(n), etc., como se mostra na fig. 3B. A 3?ig* 4 representa um diagrama em bloco do proces so de decomposição das formas das ondas periódicas de acordo com a presente invenção, em que 0 segmento de fala sonora e analisado em Ôndulas. A forma da onda s(n) da fala sonora qu ê um- sinal digital, I obtida limitando com bandas 0 sinal da fala sonora analógico ou 0 sinal de som instrumental musical com um filtro de baixa passagem, convertendo os sinais resul tantes em sinais de analógicos para digitais e memorizando num disco magnético com.a forma de formato do código da Modu lação de Código de Impulso (3?CM) agrupando vários bits simul tâneamente, sendo então restabelecidos ao processo quando fo necessário. A primeira fase do processo de preparação da ôndu-la de acordo com 0 processo de acordo com 0 processo de decomposição da ôndula periódica ê. uma decomposição cega em qu a forma da onda s(n) da fala sonora (sinal periódico S(n)), ê decomposto num impulso de resposta h(n), 0 qual I uma função do domínio do tempo da função envolvente espectral H(f) do sinal s(n), e um sinal e(n) constituído por um trem d§ ím pulso de altura periódicos tendo uma envolvente espectral e o mesmo período que o sinal s(n). Yidé as Figs* 5A e 533 e o debate que lhes está relacionado.

Como se descreveu, e essencial para a decomposição cega a tlcnica de computação com a qual se previ a função en volvente espectral K(f).

As técnicas de computação anteriores podem ser cla^ sificadas em três processos ? 1. Um processode análise por bloco; 2. Um processo de análise da altura sincronizada·, e 3. Um processo de análise sequencial dependendo do comprimento de um intervalo de análise.. 0 processo de análise por bloco é um processo em q,ue o sinal da fala é dividido em blocos de duração constante compreendida entre 10 e 20 is (milisegundos), fazendo-se então a nálise em relação ao número constante de amostras da fala que existem em cada bloco, obtendo-se um conjunto (normalmente constituído por 10-16 parâmetros) de parâmetros da envolvente espectral para cada bloco, processo este em que é habitual utilizar um método de análise homomdrfica e um meto do de predição linear em bloco. 0 processo de análise da altura sincronizada obtém um conjunto de parâmetros da envolvente espectral para cada período realizando a análise em cada sinal da fala periódico que foi obtido dividindo o sinal da fala pela unidade que é o período da altura (como se mostra na Fig. 3C), processo es te em que I habitual"utilizar o método da análise por síntes e a análise de prognóstico linear da altura sincronizada. lio processo de análise sequencial, obtem-se um con junto de parâmetros da envolvente espectral para cada amostra

de fala (como se mostra na Fig. 3D), prevendo o espectro para cada amostra da fala, processo esté em que I habitual utilizar o método dos quadrados mínimos e o método dos quadrados mínimos recorrente que são uma espécie de método de filtragem adaptativa* A Fig*- 3D mostra uma variação em relação ao tempo dos 4 primeiros coêficientes de reflexão entre os 14 coefici entes de reflexão (Kl, K2, ... E14) que constituem o conjunto de parâmetros dã envolvente espe'ctral obtido pelo proeess de análise sequencial (vide Fig* 5A). Como se pode observar pelo desenho, os valores dos parâmetros da envolvente espectral variam contínuamente devido ao movimento contínuo dos órgãos articulantes, o que significa que o impulso de resposj-ta h(n) do filtro da envolvente espectral se alteia contínua mente* 'Aqui, por conveniência da explicação, e partindo-se do principio que h(n) não se altera num intervalo de um período o impulso de resposta h(n) durante o primeiro, o segundo e o terceiro período é indicado, respectivamente, por h(n)l, h(n|) e h(n)3, como se mostra na Fig. 3F.

Um conjunto de parâmetros espectrais obtidos por meio de várias técnicas de computação, tal como um cepestrum C15i) que I um conjunto de parâmetros obtidos pelo método de análise hormomárfica, e um conjunto de ooeficientes de prognSs^ tico ^aij ou um conjunto de coeficientes de reflexão |kí|> , ou um conjunto de pares espectrais lineares, etc., que é obtido aplicando o método dos quadrados mínimos recorrente ou o método de prognóstico linear, é igualmente repartido como o H(f) ou o h(n), porque pode fazer a característica de frequência H(f) ou ó impulso de resposta h(n) do filtro da envolvente es prectral. Por conseguinte, daqui ém diante o impulso de resposta é referido como conjunto de parâmetros da envolvente espectral.

As Eigs* 5A e 5B mostram processos da decomposição cega, Á 1?ig* 5A mostra um processo de decomposição cega realizado utilizando o mltodo de análise por prognóstico linear ou utilizando o método dos quadrados mínimos recorrente sendo ambos mltodos já sido utilizados anteriormenteD Mediante a forma da onda da fala sonora s(n), como se mostra na 30, obtêm-se os coeficientes de prognóstico £al, a2 a ou os coeficientes de reflexão jíCL, K2 .,., ENj , que sao os parâmetros da envolvente espectral representando a caracterís tica da frequência H(f) ou o impulso de resposta h(n) do filtro da envolvente espectral, utilizando o método dé análise de prognóstico linear ou o método dos quadrados mínimos recor rente. Normalmente, sao suficientes entre 10 e 16 coeficientes de prognóstico para a ordem do prognóstico HNM. Utilizando os coeficientes de prognóstico jal, a2 ,a n| e os coeficientes de reflexão ^Kl, K2 ... oj como o parâmetro da envolvente espectral, os especialistas neste campo podem facilmente construir um filtro da envolvente espectral invertido (ou re ferido simplesmente por filtro invertido) possuindo a carac-terística da freq.uênoia de l/H(f) que e uma inversão da cara^ terística de frequência H(f) do filtro da envolvente espectral. Se a forma da onda da falã sonora é a entrada para o filtro da envolvente espectral invertido, também referido como um filtro de erro de prognóstico invertido no método de análise de prognóstico linear ou no método dos çiuadrados mínimos recorrente, pode-se obter o sinal constituído por um trem de impulsos de altura periódicos, do tipo daquele que é ilustra· do na Pig* 3?, tendo uma envolvente espectral plana denomina da sinal de erro de prognóstico ou sinal residual, como um sinal de saída do filtro.

As Bigs» 5B e 50 mostram o processo de decomposição

cega usando o método de análise homomérfica, que ê um método de análise por bloco, enquanto a Pig* 5B mostra o processo realizado por uma divisão de frequência' (não definido ou dis cutido até agora relativamente a este método - explicar, eli minar e a Pig. 50 mostra o processo realizado por filtragem invertida, respectivamente)*

Segue-se uma descrição da Pig. -5B. Obtêm-se amostrada fala para análise de um bloco, multiplicando-se o sinal d voz sonora s(n) por uma função de janela adelgaçada tal como a janela de Hamming tendo um período de duração compreendido entre cerca de 10-20 ms. Obtem-se então uma sequência Heeps-tral’1 c(i) processando as amostras da fala utilizando uma sl rie de procedimentos para o processamento homomorfico que con preendem um transformador Pourier separado, um logaritmo complexo, e um transformador Pourier separado invertido, como s mostra na Pig. 5D» 0 ^Cepetrum'1 é uma função da quefrência qj*e I uma unidade semelhante ao tempo.

Um NCepstrum" de baixa quefrência GL(i) situado em redor dum ponto de partida representando a envolvente espectral da voz sonora s(n) e um ‘Ospatrum’1 de alta quefrência GH(i) representando um'sinal constituído por um trem de impul sòs de altura periódicos e(n), são possíveis de separar um do outro no domínio da quefrência* Isto é, multiplicando o "Oeps trum” e(i) por uma função de janela de baixa quefrência epo uma função de janela de alta quefrência, respectivamente, objbém--se também respectivamente Cl(i) e Cfí(i). Levando-os respectjL vamente através de um procedimento dè"processamento homomdr-fico invertido, como se mostra na Pig. 5E, obtem-se o impuls de resposta h(n) e o sinal e(n) constituído por um trem de impulsos de altura. Neste caso," e uma vez que levando o CH(i) através do processamento homomérfico invertido não se obtém directamente o sinal e(n) constituído por um trem de impulsota

de altura mas obtem-se o sinal constituído por um trem de imj-pulsos de altura de um bloco multiplicado por uma função de janela de tempo w(n), pode-se obter o e(n) multiplicando-se de novo o sinal cõns"tituído por um trem“de' impulsos de altura por uma função de janela de tempo invertida l/w(n) corres pondendo ao inverso de w(n). 0 processo da ]?ig. 50 é o mesmo que o da Mg. 5B, mas aí utiliza-se o CL(i) em substituição do CH(i) para obtejt? o sinal e(n) constituído por um trem de impulsos' de altura p riódicos. Isto é, neste processo, ao utilizar-se a proprieda de de se poder obter um impulso de resposta h“1(n), correspon dendo a l/H(f) que ê o inverso das oaracterísticas de frequên-cia H(f), processando o -Cl(i), que é obtido levando o negativo* de Cl(i) através do processamento homomórfico invertido pode-se obter como rendimento o sinal constituído por um trela de impulsos de altura periódicos e(n) construindo um impulso de resposta de duração finita (PIE) que possui como uja impulso de resposta e introduzindo no filtro um sinal de fala original s(n) o qual não I multiplicado por uma função de ja nela» Este processo I um método de filtragem invertida que é basicamente igual ao da Mg. 5A, exceptuando ò facto de q.ue, enquanto na análise homomórfica da Mg. 50 o filtro da envol vente espectral invertido l/H(f) .1 construído obtendo-se um impulso de resposta h~^(n) dò filtro da envolvente espectral invertido, na Mg. 5A o* filtro da envolvente espectral inver tido l/H(f) pode ser directamente construído pelos coeficien

K tes de' prognóstico Jaij ou pelos coeficientes de reflexão j obtidos pelo processo de análise de prognóstico linear.

No processo de decomposição cega baseado na análise homomórfica, o impulso de resposta h(n) ou o "cepstruta” d baixa quefrência CL(i), ilustrado nas Mgs. 5B e 50 por linhàs pontilhadas, pode sér utilizado como o conjunto de parâmetros - 29' -

da envolvente espectral» Ao utilizar o impulso de resposta [b(o), h(l), h(N-l)j, um conjunto de parâmetros da envol 3Ϊ1 9 I 9 vente espectral e nõrmalmente constituído por um "bom número de parâmetros estando N compreendido entre 90 e 120, em q.ue o número de parâmetros pode ser diminuído para 50-60 com N s do 25-30 quando se utiliza o "cepstrum” {Cl(-l0m Cl(-N-kl), 0, CIi(N)).

Oomo atrás de descreveu, a forma da onda da voz so nora s(n) e decomposta no impulso de resposta h(n) do filtro da envolvente espectralee no sinal constituído por um trem de impulsos de altura periódicos e(n), de acordo com o prooe dimento ilustrado na Mg» 5.

No caso de se ter obtido uma vez o sinal constituí do por um trem de impulsos de altura e os parâmetros da envojL vente espectral de acordo com o processo de decomposição cega, então as posições Pl, P2, etc», do impulso de altura são obtidas a partir do sinal constituído por um trem de impulso de altura periddicos e(n) ou do sinal da fala e(n) utilizand|) um algoritmo de detecçâo 'da posição do impulso da 'altura no domínio do tempo, tal como o algoritmo de detecçâo do períod)) de tempo» Seguidamente, obtêm-se os sinais de impulso da altura el(n), e e2(n) e e3(n) ilustrados nas Pigs» 3H, 3K e 3N respectivãmente, 'segmentando periddicamente o sinal cohstitu do por impulsos de altura e(n) de tal maneira que um impulso de altura fiq,ue incluído em um intervalo de período de tempo como se mostra na Pig. 3P· As posições da segmentação podem ser decididas como instantes centrais entre os impulsos de a tura ou como instantes q.ue estão um período de tempo constan tes à frente de cada impulso de alturae Oontudo, uma vez que a posição de cada impulso de altura em relação ao tempo coin cide com a parte terminal de cada impulso da glota, como se pode i|otalmente apreciar comparando as Pigs. 3A e 3Pj ú pre-

ferível escolher um instante de tempo constante atrás de cada impulso de altura como sendo a posição para efectuar a segmen tação como I indicado na lig* 3F pela linha pontilhada* Contudo 5 como o impulso de altura apresenta o. maior efeito em r lação à audibilidade, entre os casos apresentados a fala sin tetizada não apresenta quaisquer diferenças significativas.

Se os sinais de impulso da altura el(n), e 2(n), e3(n), etc*, obtidos por intermédio deste processo forem novamente agrupados respectivamente com h(n), h2(n), h3(n) da Mg. 31, q.ue são impulsos de respostas durante o intervalo dé perío_ do de tempo dos sinais de impulso de altura el(n), e2(n), e3(n), etc., obtêm-se as ôndulas pretendidas tâl como sé mos_ tra na Mg. 31, 31/, 3(o). Sal reagrupamento pode ser convenientemente realizado dando èntrada de cada sinal constituído por um trem. de impulso de altura no filtro da envolvente espectral H(f), o qual utiliza os parâmetros da envolvente espectral como os coeficientes de filtragem, como se mostra na Mg. 4. Por exemplo, nos casos em que se utilizam os coeficientes de prognóstico lineares, ou os coeficientes de reflexão ou os pares do espectro da linha como os parâmetros da envolvente espectral, como acontece no processo de análise por pr*^ gnóstico linear,, constitui-se um filtro IIR (impulso de resposta de duração infinita) possuindo como coeficientes de fil tragem ou os coeficientes 'de prognóstico lineares, ou os coeficientes de reflexão, ou os pares espectrais de linha* Nos casos em que se utiliza o impulso de resposta para os parâmetros da envolvente espectral, como no processo de análise ho-momórfica, constitui-se um filtro FIE (impulso de resposta de duração finita) possuindo o impulso de“resposta como coeficiente de derivação. Uma vez que não se pode compor directamen-te o filtro de síntese se o parâmetro da envolvente espectral for uma proporção entre as áreas logarítmicas ou o "Cepstrum 9

os parâmetros da envolvente espectral deverão ser de novo trans formados em. coeficientes de reflexão ou em res£30sta de impul so a utilizar como os coeficientes do filtro IIR ou do filtr RIR» Se o sinal de impulso de altura para um pèríodo fôr a e:i trada para o filtro da envolvente espectral constituído do mo do atrás descrito, ou seja, com os coeficientes de filtragem modificados com o tempo de acordo com os parâmetros da envol vente espectral correspondendo ao mesmo instante de tempo oo mo cada amostra do sinal de impulso da altura, então a ôndu-la para esse período de tempo sai.

Por essa razão, as "formas das ondas das funçães de tempo" dos parâmetros da envolvente espectral são cortada^ no mesmo momento em que e(n) foi cortada para se obter o sinal de impulso da altura para cada período. Por exemplo, no caso da análise sequencial, os parâmetros da envolvente espejb trai do primeiro período KL(n)l, E2(n)l, etc», como se mostra na Fig. 3G-j obtêm-se cortando 'os parâmetros da envolvente espectral corresponõ.endo ao mesmo período de tempo que o primeiro sinal de impulso da altura el(n) ilustrado na Fig. 3H, em relação às funçães de tempo 30. (n), “K2(n), etc», dos parâmetros da envolvente espectral como‘ sê mostra lia Fig. 3D, 0 segundo e terceiro parâmetros da envolvente espectral, indicadas por uma linba a cbeio na Fig. 3J e na Fig. 3M, podem-se igualmen te obter de uma maneira semelhante 'àquela que atrás se descr4 veu. Ra Fig. 4, os coeficientes de reflexão ItL, K2, ..., ER, e o impulso de resposta h(o), h(l), ..., h(r), são ilustradoi como um conjunto de parâmetros da “envolvente'espectral típica, tendo sido assinalados como Kl(n):,: K2(n), Kh(n) e h(o,n h(l,n), ·.·, h(R~l,n) para enfatizar qué eles são‘funçães de tempo.* Do mesmo modo,' nos casos em que se utiliza o "Cepstruiji" CL(i) como o conjunto de parâmetros da envolvente espectral, tal será referenciado como CL(i,n). β - 32

Uma vez q.ue, contráriamente ao processo de análise sequencial, não se obtêm as funções de tempo dos parâmetros da envolvente espectral no caso do processo de análise síncrj> ne da altura ou do processo de análise por bloco, obtendo-se os valores do parâmetro da envolvente espectral q.ue são cons tantes em relação ao intervalo de tempo de análise, I necessá rio fazer as funções de tempo dos parâmetros da envolvente es pectral a partir dos valores do parâmetro da envolvente espectral e então segmentar as funções de tempo em período por período para se obter os parâmetros da envolvente espectral tara um período. Contudo, na realidade i conveniente processar da ma neira que a seguir se indica em vez de se compor as funções de tempo. Isto é, no caso do processo de análise síncrone da al tura, uma vez que um conjunto de parâmetros da envolvente es pectral tendo valores constantes corresponde a cada interval<|) de período de tempo da altura, como se mostra na lig. 8B por uma linha a tracejado, os parâmetros da envolvente espectral não apresentam q,ualquer modificação mesmo quando as suas fun· ções de tempo estão segmentadas em período por período. Por conseguinte, os parâmetros da envolvente espectral para um pé ríodo de tempo a ser memorizados num tampão não são funções de tempo mas sim constantes independentes do tempo.

Uo caso do processo de análise por bloco, uma vez que se obtém um conjunto de parâmetros da envolvente espectr^; constantes para cada bloco, os valores de um parâmetro da en volvente espectral para um período de tempo que pretence a utji bloco, como por exemplo KL(n)l, KL(n)2, KL(n)M, não são sd apenas constantemente' independentes do tempo 'como também são idênticas. (Aqui, KL(n)j significa a função de tempo de KL para o intervalo de” período de tempo j-tb, e M representa o námero de intervalos de períodos de altura pertencendo a uiji bloco).

Ho caso do processo de análise por "bloco, dever-se·-“à notar que quando o sinal de um impulso da altura permanece aô longo das fronteiras de dois blocos adjacentes, os valores do parâmetro da envolvente espectral do bloco anterior e do bloco seguinte deverão ser utilizados, respectivamente, para as partes anterior e seguinte do sinal, divididas em relação às fronteiras do bloco.

Como se pode ver na Fig. 31, a duração da ôndula não é necessáriamente igual a um período. Consequentemente, antes da aplicação do sinal de impulso da altura e dos parâmetros da envolvente espectral de um período de comprimento obtidos pela segmentação periódica do filtro da envolvente espectral, aão necessários os processos de anexação do zero e de arrastamento de parâmetros ilustrados na Fig. 4 para qu£ a duração do sinal de impulso da altura e dos parâmetros da envolvente espectral seja pelo menos tão longa quanto a da efectiva duração da Ôndula. 0 processo de anexação do zero consiste em fazer com que a duração total do· sinal de impulso da altura seja tão longa quanto 0 comprimento pretendido mediante a anexação de amostras com 0 valor zero após 0 sina! de impulso de altura de um período. 0 processo de arrastamen to dos parâmetros consiste em fazer com que a duração total do parâmetro da envolvente espectral seja tão longa quanto 0 comprimento pretendido mediante a anexação do parâmetro da envolvente espectral para os períodos seguintes ap<5s 0 parâmetro da envolvente espectral com um comprimento de um período. Contudo, mesmo com um simples processo de anexação respef^ tiva do valor final do parâmetro da envolvente espectral de um período ou do primeiro valor do parâmetro da envolvente es pectral do período que se segue, a qualidade da fala sinteti zada não fica significativamente prejudicada. 0 facto da duração efectiva da Ôndula a ser produ-

zida pelo filtro da envolvente espectral depender dos valores dos parâmetros da envolvente espectral, torna difíoil a sua previsão antecipada. Contudo, e uma vez que não origina erro significativos na maior parte dos casos da sua utilização prá-tica, desde que se considere que a duração efectiva da ôndula ê igual a 2 períodos a partir da posição do impulso da altura no caso da fala masculina e 3 períodos a partir da posição do impulso da altura no caso da fala de feminina ou infantil, ê conveniente decidir que a duração do "sinal de impulso de al·)-tura arrastado" a ser produzido pela anexação do zero e que os"parâmetros da envolvente espectral arrastados" a serem for mados por arrastamento dos parâmetros, se torne igual ao com-primento de 3 ou 4 períodos, respectivame.nte para a fala masculina e para a fala feminina, no caso de se realizar a segmon tação periódica logo após os impulsos de altura. Na Nig. 3& mostra-se como exemplo os parâmetros da envolvente espectral arrastados para o primeiro período do intervalo, constituído por 3 períodos "ad" produzidos pela anexação dos parâmetros da envolvente espectral para o intervalo constituído por 2 pc ríodos "bd", indicados por uma linha pontilhada a seguir ao parâmetro da envolvente espectral do intervalo do primeiro período "ah" obtido pela segmentação periódica. Na Pig. 3H mostra-se como exemplo um sinal de impulso da altura arrasta do para o primeiro período do intervalo de 3 períodos "ad" obtidos pela anexação das amostras com valor zero ao intervalo de 2 períodos "M" a seguir aoL sinal de impulso de altura do primeiro intervalo de período "ab" obtido pela segmentaçãqi periódica.

No caso que atrás se descreveu, e visto que a duração após a anexação do zero e o arrastamento do parâmetro aumenta para 3 ou 4 períodos enquanto que a duração do sinal do impulso da altura e do parâmetro da envolvente espectral antos - 35 -

de se realizar a anexação do zero e o arrastamento do parâme tro é igual a um período, proporcionam-se tampões entre a segmentação periódica e arrastamento-do parâmetro, como se mos tra na Fig. 4, memorizando-se então nos tampões de impulso da altura e os parâmetros da envolvente espectral obtidos pela segmentação periódica, sendo recuperados sempre que pretendi do, de modo a realizar-se uma tamporização temporal.

Se o sinal de impulso da altura, arrastado e os para metros da envolvente espectral forem obtidos pela anexação do zero e pelo arrastamento do parâmetro como se mostra na Figo 4, o "sinal da ôndula" sl(n) para o primeiro período do comprimento constituído pelo intervalo de 3 períodos tal como o i intervalo "ad" ilustrado na Fig. 31» pode finalmente ser obt^ do dando entrada do sinal de impulso da altura arrastado do primeiro período, tal como o intervalo "ad" da Fig1· 3H, no filtro da envolvente espectral H.(f) e variando simultâneamen-te os coeficientes da mesma maneira que o parâmetro da envolvente espectral arrastado do primeiro período, tal como o intervalo "ad" da Fig. 3G.

Como atrás se descreveu, a forma da onda da voz sonora s(n) é finalmente decomposta nas ôndulas que constituem a forma da onda s(n) mediante o processo da Fig. 4. Obviamen te, ao reagrupar de novo as ôndulas da Fig, 31, 3L e Fig. 3(0) obtidas por decomposição de Volta aos instantes originais dá origem à Fig. 3B, e se as ôndulas estiverem sobrepostas, a forma dá onda da voz original s(n) é de novo obtida, como se mostra na Fig. 3C. Se as Ôndulas da Fig. 31, Fig. 31 e Fig. 3(0) estiverem reagrupadas variando os inter-espaços e forem eritão sobrepostas como se mostra na Fig* 3P, obtém^se a ôndu-la da fala tendo uma configuração da altura diferente, como se mostra na Fig. 3Q» Assim sendo, variando apropriadamente o intervalo de tempo entre as ôndulas obtidas por decomposi-

ção, possibilita a síntese da, fala tendo a configuração da altura arbitrária pretendida, isto 4, a entoação. Do mesmo modo, variando adeq.uadam.ente a energia das ôndulas possibili ta a síntese da fala com a figuração da intensidade pretendi da arbitrária.

No bloco de memorização de segmentos de fala ilus· trado na Pig. 2, cada segmento de fala sonora decomposto em tantas Ôndulas quantas o námero de impulsos de altura de aco£ do com o processo ilustrado na Pig. 4 4 memorizado no formato ilustrado na Pig. 6A, o qual 4 referido como informações sobre o segmento de fala. Num campo de cabeçalho, que 4 uma parte dianteira das informaçSes sobre o segmento da fala, me morizam-se os instantes de tempo das fronteiras Bl, B2, !gmen ter men - BL, q.ue são instantes de tempo importantes no segmento de fa la, e as posiçães Pl, P2, ..., PM do impulso da altura de ca da sinal de impulso da altura utilizado na síntese de cada ôndula, memorizando-se o námero de amostras correspondendo a cada instante de tempo sendo igual a 0 a primeira posição da amostra do primeiro sinal de impulso da altura el(n). 0 instante de tempo das fronteiras 4 a posição de tempo dos instantes de fronteira entre os subsegmentos obtidos quando o s to de fala 4 segmentado em vários subsegmentos. Por exemplo, a vogal tendo consoantes antes e depois pode ser considerada como sendo constituída por 3 subsegmentos para a fala de pequena velocidade, uma vez que a vogal pode ser dividida num intervalo de estado estacionário da parte central e em dois intervalos de transição presentes antes e ap<5s o referido in valo do estado estacionário, e 3 instantes finais dos subseg tos são memorizados como sendo os instantes de tempo da fron teira no campo do título de segmento da fala. Contudo, no ca so em que as amostras são obtidas a uma velocidade de fala mais rápida, porque o intervalo de transição se transforma '4.

em um instante a fim de que o segmento de fala da vogal possa ser considerado como sendo constituído por 2 subsegmentos memorizam-se dois instantes de tempo de fronteira nas informações dos títulos.

No campo de códigos das ôndulas, que constitui a dltima parte das informações do segmento d.a fala, memorizam--se códigos de ôndulas que são obtidos pela codificação da ôndula em forma da ond.a, ôndula essa que corresponde a cada período* As Ôndulas podem ser codificadas pelo simples proces so de. codificação da forma da onda, tal como uma correlação de curto prazo e longo prazo significativa, a quantidade de memória necessária à memorização pode diminuir significativa mente se as ôndulas'estiverem eficazmente codificadas pela forma da onda, utilizando ADPCM tendo um laço de prognóstico da altura, ou seguindo um método de codificação de prognóstico adaptável ou um método de modulação deuta adaptável digital. 0 processo em que as ôndulas obtidas por decomposição são codificadas pela forma da onda memorizando-se os códigos resultantes e, no momento da síntese, os códigos descodifica dos, reagrupados e sobrepostos para se produzir fala sinteti zada, é denominado por "método de memorização do código da forma da onda"* 0 sinal de Impulso da altura e os parâmetros da en volvente espectral correspondentes podem ser considerados id|n ticos à Ôndula, uma vez que são materiais com os quais se po de produzir a ôndula. Consequentemente, é igualmente possível utilizar o processo pelo qual os "códigos-fonte" obtidos codificando os sinais de impulso da altura e os parâmetros da envolvente espectral são memorizados, e se produzem ôndulas com os sinais de impulso da altura e com os parâmetros da en volvente espectral obtidos pela descodificação dos códigos--fonte, reagrupando e sobrepondo então as ôndulas de modo a - 38 -

produzir a fala sintetizada. Este processo e denominado "prc^ cesso de memorização de códigos-fonte.!· Este processo corresponde àquele em que o sinal de impulso da altura e os parâme tros dá envolvente espectral memorizados nos tampões, em vez das ôndulas obtidas como dados de saída na Eig. 4, são associados um com o outro no mesmo intervalo de período sendo en tão memorizados no bloco de memorização de segmentos de fala, Por conseguinte, no processo de memorização dos códigos-fonte, as operações a^realizar após a tampão ilustrado na Eig· 4, isto ó, o procedimento de arrastamento dos parâmetros, o processo de anexação do zero e o processo de filtragem real:i zado pelo filtro de síntese H(f), são realizadas no sub-bloco de associação das formas da òndã ilustrado na Eig. 7.

Ho processo de memorização de códigos-fonte, o for mato das informações sobre o segmento da fala ê igualmente ao que está ilustrado na Eig. 6B, que por sua vez e igual ao da Eig. 6A excepto no que se refere ao conteúdo do campo de oódigo da ôndula. Isto ê, os sinais de impulso da altura e os parâmetros da envolvente espectral necessários para realizar a síntese das ôndulas em vez das ôndulas, são codificados e memorizados nas posições em que deverá ser memorizada a ôndu la para cada período como I ilustrado na Eig» 6A.

Os parâmetros da envolvente espectral são codificados de acordo com o antecedente processo de qualificação dos parâmetros da envolvente espectral, sendo memorizados no campo de códigos da ôndula. Nessa altura, se os parâmetros da envolvente espectral estiverem adequadamente transformados an tes da quantificação, a codificação poderá ser eficazmente realizada. Por exemplo, I preferível transformar os coeficien tes de prognóstico em parâmetros do par de espectros lineares e os coeficientes de reflexão em coeficientes da área logarítmica, e quantificá-los. Para além disso, uma vez que o impul

so de resposta tem. uma correlação próxima entre as amostras adjacentes e entre impulsos de resposta adjacentes, se forem codificadas consoante a forma da onda, de acordo com um processo de codificação diferencial, pode-se reduzir signifioa-tivamente os dados necessários para realizar a memorização*

No caso dos parâmetros cepstrum, conhece-se um processo segui do o q.ua'1 o parâmetro cepstrum e transformado de maneira a po der-se significativamente reduzir a quantidade de dados-. .a ,an

Por um lado, o sinal de impulso de entrada I codificado de acordo com um processo de codificação pela forma d|i onda adeçtuado, e o código obtido e memorizado no campo de códigos das ôndulas. Os sinais de impulso da altura apresentam uma correlação a curto prazo mas têm uma significativa correi ção ao longo prazo uns com os outros. Consequentemente, ao utilizar-se o processo de codificação pela forma da onda tal como a codificação PCM adaptável de prognóstico da altura qu possui o laço de prognóstico da altura, pode-se obter uma fa la sintetizada de grande qualidade mesmo no caso em que a qui tidade de memória necessária à memorização I reduzida para. 3 bits por cada amostra. 0 coeficiente de prognóstico de um pr gnosticador da altura pode ser um valor obtido para cada perff do da altura de acordo com um processo de auto-correlação, o1 ser um valor constante. Na primeira fase do processo de codi ficação, pode-se aumentar o efeito de prognosticar a altura através de uma normalização que consiste em dividir o sinal de impulso da altura a ser codificado pela raiz quadrada da potência mídia por amostra ,!GH. A descodificação I realizada no bloco de síntese da fala sintetizada e o sinal de impulso de altura I restabelecido para a sua magnitude original multiplicando-se de novo por na fase final do processo de descodificação.

Na fig. 6B ilustram-se as informações sobre o seg- - 40 -

gment© da fala no caso de ser adoptado um processo de análise de prognóstico linear, o qual utiliza 14 coeficientes de reflexão como parâmetros da envolvente espectral. Se o inter valo de tempo de análise para a análise de prognóstico linear fôr o período de tempo da altura, os referidos 14 coeficientes de reflexão, correspondem a cada sinal de impulso da altu ra e são memorizados. Se o intervalo de tempo de análise fôr um bloco com um certo comprimento, os coeficientes de reflexão para vários impulsos da altura são um bloco tendo os mes mos valores, de maneira que a quantidade de memória necessária para a memorização das Ôndulas fique reduzida. Neste caso, como atrás se abordou, uma vez que os coeficientes de re flexão do bloco dianteiro ou do áltimo bloco são utilizados no momento da síntese para o sinal de impulso de altura que se encontra ao longo da fronteira entre dois blocos, dependeii do se as amostras do sinal estão antes ou depois do instante^ da fronteira, a posição do instante das fronteiras tem que ser adicionalmente memorizada no campo do cabegalbo. Se se ufci lizar o processo de análise sequencial tal como o processo dos quadrados menos recorrentes, os coeficientes de reflexão Kl, K2, ..., K14 tornam-se funções contínuas do índice de tempo "n" como se mostra na Mg. 3D, e e necessária uma grande quajk tidade de memória para memorizar a função de tempo KL(n), K2 (n), ..., K14(n). Oonsiderando-se o caso ilustrado na Fig. 3 como um exemplo,' ficam memorizadas no campo de códigos das Ô^i dulas as formas das ondas para o intervalo Mab" da Fig. 3G- e da Fig. 3& considerado como o primeiro período do campo de có digos das'Ôndulas, para o intervalo "bc" da Fig. 3J e Fig. 3K considerado comco o segundo período do campo de códigos da^ Ôndulas, e para o intervalo "cdH da Fig. 3M e da Fig. 3N con siderado como o terceiro período do campo de códigos das ôndulas . 41 -

0 processo de. memorização de códigos de formas da onda e o prooesso de memorização dos códigos-fonte são essen oialmente um mesmo processo e, de facto, o código da forma de onda obtido q.uando as ôndulas são codificadas de acordo com um processo de codificação pela forma da onda eficaz, co mo I o caso do processo APC (Codificação de Prognóstico Ada^ tável)q: no prooesso de memorização de códigos da forma da on da o código obtido ê práticamente igual ao do código-fonte obtido pelo mótodo de memorização de códigos-fonte. A Pig* 7 ilustra a configuração interior do bloco de síntese da fala sonora de acordo com a presente invenção. Os códigos de ôndulas memorizados,*no campo de códigos de Ôndu las das informações sobre o. segmento da fala recebidas do blo co de memorização dos segmentos de fala, são descodificados no processo inverso àq.uele em que eles são codificados por un sub-bloco de descodificação (9). Os sinais de ôndula obtidos quando os códigos da forma dã õnda são descodificados no pro cesso de memorização de códigos por formas da onda, ou os sinais de impulso da altura obtidos quando os códigos-fonte são descodificados no processo de memorização de códigos-fonte e os parâmetros da envolvente espectral são associados com os sinais de impulso da altura, são denominados informações sobibe ôndulas e são fornecidos ao sub-bloco do conjunto das formas de onda. Por um lado, a informação de cabeçalho memorizada no campo dos títulos das informações sobre o segmento de fala ê a entrada para um sub-bloco de controlo da duração (10) e pa ra um sub-bloco de controlo da.altura (11). 0 sub-bloco de controlo da duração representado na Pig. 7 recebe como dados de entrada os dados de duração nas informações prosódicae e os momentos de tempo das fronteiras incluídos nas informações do titulo do segmento de fala, pro^ duzindo informações sobre a urdideira de tempo utilizando os

dados de duração e os momentos de tempo das fronteiras, alimentando as informações sobre a urdidura de tempo produzidas no sub-blooo do conjunto das formas da onda (13), ao sub-blo oo de controlo de altura e ao sub-bloco de controlo da ener gia. Se a duração total do segmento da fala se tornar mais longa ou mais curta, a duração dos subsegmentos que constitufem o segmento da fala fica ou mais longa ou mais curta, pelo qup a proporção do alargamento ou da compressão depende da propriedade de cada subsegmento. Por exemplo, no caso da vogal que tem consoantes atrás de si e à sua frente, a duração do intervalo do estado estacionário que s® encontra no centro apresenta um coeficiente de duração substancialmente maior do que as durações dos intervalos de transição em ambos os lados da vogal. 0 sub-bloco de controlo da duração compara a duração BL do segmento de fala original que foi memorizado, com a duração do segmento de fala a ser sintetizado, que ê indicado pelos dados sobre a duração, e- obtlm a duração de cada subsegmento a ser sintetizado correspondendo à duração de ca da subsegmento, utilizando os seus coeficientès de variação ou a regra de duração, obtendo-se deste modo os momentos de tempo das fronteiras, da fala sintetizada. Os momentos de tem po das fronteiras originais 11, B2, etc., e os momentos de tempo das fronteiras ΒΊ, Β·2, etc. da fala sintetizada asso ciados de acordo com os momentos de tempo das fronteiras originais são denominados globalmente por informações.da urdidura de tsm-po, mediante o que, como por exemplo no caso da Pig, 8, as iíi-formações da urdidura de tempo podem ser representadas por [(Bl, 3'i), Bl, Β·2), B2, B'3), (B3, B'3), B4, B’4)J. A função do sub-bloco de controlo da altura representado da Pig. 7 ê produzir as informações sobre a posição do impulso da altura de tal maneira que a fala sintetizada tenha a configuração da entoação pretendida pelos dados de — 43 - ψ

configuração da entoação, e proporcioná-los ao sub-bloco de associação das formas da onda e ao sub-blooo de controlo da potência* 0 sub-bloco de controlo da altura recebe como dado£ de entrada os dados de configuração da entoação que são os valores-meta da frequência da altura para cada fonema, e pro duz um contorno de altura, representando a variação contínua da frequência da altura em relação ao tempo, que varia regulai: mente entre os valores da frequência de altura. 0 sub-bloco de controlo da altura pode reflectir um fenómeno de micro-entoa ção devido a um obstruente ao contorno de altura. Contudo, neste caso, o contorno da altura torna-se numa função descon tínua na qual o valor da frequência da altura variará abruptà mente em relação ao tempo no momento de tempo das fronteiras entre o fonema obstruente e o outro fonema adjacente. Obtém--se a frequência da altura fazendo amostras do contorno de aj. tura na primeira posição do impulso da altura do segmento de fala, obtendo-se o período de tempo da altura tornando um ini verso da frequência da altura, determinando-se então o momento que S precedido pelo período da altura como sendo a segun da posição do impulso da altura. Obtem-se então o período de altura seguinte que S proveniente da frequência da altura qu£ se encontra nesse instante, obtendo-se em trooa a posição do impulso de altura seguinte, podendo a repetição desde procesj-so produzir todas as posiçães do impulso de altura da fala sintetizada. A primeira posição do impulso de altura do segmento de fala pode ser considerada como sendo a primeira amofe tra, ou as suas amostras vizinhas no oaso do primeiro segmenj-to de fala de entre uma variedade dos segmentos da voz sonora da fala sintetizada, e a primeira posição do impulso de altura para o segmento de fala seguinte I considerada como sendo o instante correspondendo à posição do impulso de altu ra a seguir ao áltimo impulso de altura do segmento de fala anterior, e assim por diante. 0 sub-bloco de controlo da al· - 44 -

tura envia as posições do impulso de altura ·Ρ*1, P*2, etc·, da fala sintetizada obtida como tal e as posições do impulso de altura originais Pl, P2, etc·, incluídas nas informações de cabeçalho do segmento de fala em conjunto com a ligação ao sub-blooo de conjunto das formas da onda e para o sub-blooo de controlo da potência onde elas são denominadas informações s sobre a posição do impulso de altura* Por exemplo, no caso da Pig. 8 as informações sobre a posição do impulso de altura pç dem ser representadas por j(Pl, P2, P9), (P*l, P*2, . .·, P»8)J. 0 sub-bloco de controlo da potência da Pig. 7 produz informações sobre o ganho pelas quais a fala sintetizada apro senta a configuração da intensidade indicada pelos dados da configuração de intensidade, enviando-os so sub-bloco do con junto das formas da onda· 0 sub-bloco de controlo da potência recebe como dados de entrada os dados da configuração de inton sidade que constituem os valores de amplitude objectivos para cada fonema, e produz um contorno de potência representando ε, variação contínua da amplitude em relação ao tempo ligando-o£ regularmente. Parte-se do princípio que os segmentos de fala estão normalizados antecipadamente no momento da memorização para que possam ter uma potência relativa, de acordo com a classificação do segmento da fala, para reflectirem a diferen ça de potência relativa para cada fonema. Por exemplo, no caso das vogais, uma vogal baixa tem maior potência por unidade de tempo que uma vogal alta, e um som nasal tem cerca de meta de da potência por unidade de tempo comparado com a vogal·

Para além disso, a potência durante o intervalo de eneerramen to do som i muito fraca· Oonsequentemente, quando os segmentos de fala são memorizados, eles serão codificados após terem sido antecipadamente ajustados de maneira a terem uma ta], potência relativa. Neste caso, o contorno de potência produ- 45 - ίί .-'w ' fí ir

I Η·?ν zida no sub-bloco de controlo da potência torna-se um ganho a ser multiplicado pela forma da onda a ser sintetizada* 0 sub-bloco de controlo da potência obtem os valores do ganho 61, G2, etc* em cada uma das posições P*l, P't2, etc., do impulso da altura da fala sintetizada, utilizando o contorno da potência e as informações sobre a posição do impulso de altura proporcionando-os ao sub-bloco do conjunto das formas da onda, sendo estes denominados informações sobre o ganho.

Por exemplo, no caso da Pig. 8 as informações sobre o ganho podem ser representadas por [(ΡΊ, Gl), (P*2, G2), . (P*8; 88)). 0 sub-bloco do conjunto de formas da onda represen tado na Pig. 7 recebe como dados de entrada as informações so bre as ôndulas, as informações sobre a urdidura de tempo, as informações sobre a posição do impulso da altura e as informa ções sobre o ganho, produzindo finalmente o sinal de voz sonora. 0 sub-bloco do conjunto de formas da onda produz a fala tendo uma configuração de entoação, uma configuração de in tensidade e uma duração conforme indicado pelas informações prosddioas, utilizando as informações sobre as Ôndulas provenientes do sub-bloco de descodificação. Neste momento, algumas ôndulas são repetidas e algumas são omitidas. Os dados da duração, os dados da configuração da entoação e os dados da configuração da intensidade incluídos nas informações pros<5-dicas constituem informações indicativas independentes uma das outras, pelo que têm de ser distribuídas encadeadas entre si, uma vez que existe uma inter-erlação entre estas três informações q.uando se realiza a síntese da forma da onda com as informações sobre as Ôndulas. Um dos problemas mais importan tes do conjunto das formas da onda está em saber que ôndula se deve escolher para se colocar em cada posição de tempo de impulso de altura da fala sintetizada. Se não se escolher e * - 46 -

dispuser as Ôndulas apropriadas não se poderá obter uma fala sintetizada com boa qualidade, k frente fer-se-á uma descrição do funcionamento do sub-blooo de montagem das formas da onda utilizando-se o método de reagrupamento da ôndula basea do na urdidura de tempo da presente invenção, que é um método de reagrupamento da ôndula oapaz de obter uma elevada qua lidade na operação da síntese da fala sintetizada, mediante a utilização de informações sobre o segmento de fala recebidas do bloco de memorização do segmento de fala. 0 processo de síntese da forma da onda da voz sono ra do sub-bloco do conjunto das formas da onda I constituído por duas fases, isto é, a fase de reagrupamento da Ôndula usan do a função de urdidura de tempo, e a fase de sobreposição pa ra sobrepor as ôndulas reagrupadas.

Isto é* no caso do processo de memorização do c<5di go da forma da onda, escolbem-se as formas mais apropriadas para ocuparem as posições do impulso da altura da fala sinte_ tizada entre os sinais de ôndulas recebidos como sendo as in formações sobre as ôndulas, e são reagrupadas nas suas posições de impulso da altura ajustando-se os seus ganhos e, se-guidamente, produz-se a fala sintetizada mediante a sua sobr^ posição.

No processo de memorização de códigos-fonte, o sinal de impulso de altura e os parâmetros da envolvente espeçj trai para cada período correspondente ao sinal de impulso de altura são recebidos como sendo informações sobre as ôndulas. Neste caso, podem realizar-se dois processos para obter o 00:2 junto de fala sintetizada. 0 primeiro deles consiste em obter cada uma das Ôndulas atribuindo ao filtro de síntese os parâ metros da envolvente espectral e 0 sinal de impulso de sinal para um intervalo de tempo compreendido entre 2 e 4 períodos - 47 -

Φ.’· ãf (/ obtido realizando os procedimentos correspondentes à parte do lado da direita do tampão da Eig. 4, isto é, os métodos de arrastamento do parâmetro e de anexação do zero relativos às informações sobre as Ôndulas que atrás se descreveram, e montar então a fala sintetizada com as ôndulas de acordo com o procedimento semelhante ao do processo de memorização de código das formas de onda. Este processo é básicamente igual ao da montagem da fala sintética realizada no processo de me_ morização de códigos de formas da onda, pelo que se omitirá a sua descrição em separado. 0 segundo processo consiste em obter um sinal de trem de impulsos de altura ou sinal de excitação sintetizado, tendo uma envolvente espectral plana ma£ possuindo uma configuração de altura diferente da do sinal constituído por um trem de impulsos de altura periódicos ori ginal, seleecionando os que melhor se adequam às posições de impulso de altura da fala sintetizada de entre os sinais de impulso de altura, reagrupando e ajustando os seus ganhos apps o que se realiza a sua sobreposição, e obter parâmetros da envolvente espectral sintetizada relacionando cada parâmetro de envolvente espectral com cada sinal de impulso de altura que constitui o sinal de trem de impulsos de altura sintetizado ou sinal de excitação sintetizado, e produzir então a fala sintetizada atribuindo o sinal de excitação sintetizado e os parâmetros da envolvente espectral sintetizados ao filtro de síntese. Estes dois processos são essencialmente idên ticos entre si exceptuando o facto da sequência, entre o filtro de síntese e a sobreposição realizada aquando da montagei|a da fala sintetizada, estar invertida. 0 processo de montagem da fala sintetizada descritj^ está novamente descrito adiante em relação à Eig. .8. 0 método de reagrupamento da Ôndula pode ser básicamente igualment aplicado quer ao processo de memorização de códigos de forma - 48 -

da onda quer ao prooesso de memorização de códigos-fonte. Co;i sequentemente, os procedimentos necessários à montagem de fo:? mas da onda da fala sintetizada em ambos os dois métodos serão simultâneamente descritos em referência à Pig. 8.

Na Big« 8A ilustra-se a correlação existentes entrs o segmento de fala original e o segmento de fala a ser sinte^ tizado. Os momentos de tempo das fronteiras originais Bl, B2, etc., indicados a linhas pontilhadas, os momentos de tempo das fronteiras B*l, B*2, etc., do som sintetizado e a correlação entre eles, indicada pelas linhas a tracejado, estão in cluídos nas informações sobre a urdidura de tempo provenientes do sub-bloco de controlo da duração. Adicionalmente, as posições do impulso de altura originais 3?1, P2, etc., indica das pelas linhas a cheio, e as posições do impulso de altura P'l, P*2, etc., do som sintetizado, estão incluídas nas info:? mações sobre a posição do impulso de altura provenientes do sub—bloco de controlo da altura. Por ser conveniente para a explicação da Pig. 8, parte-se do princípio que o período de altura da fala original e que o período de altura da fala sin tetizada é, respectivamente, constante sendo o áltimo igual a 1,5 vezes o primeiro. 0 sub-bloco do conjunto das formas da onda forma primeira a função de urdidura de tempo, como se mostra na Pig, 8B, utilizando os instantes de tempo das fronteiras originais*, os instantes de tempo das fronteiras da fala sintetizada e a correlação entre les. A abcissa da função de urdidura de tempo representa o tempo wtn do segmento de fala original, e a ordenada representa o tempo "tM do segmento de fala a ser sin tetizado. Na Pig. 8A, por exemplo, visto que o primeiro sub— -segmento e o dltimo sub-segmento do segmento de fala original deveriam estar respectivamente comprimidos para 2/3 vezes e expandido para 2 vezes, a correlação entre si parece como “ 49 —

as linhas com a inclinação igual a 2/3 e 2 na função de urdi dura de tempo representada na 3?ig* 8B, respectivamente. 0 se gundo sub-segmento não varia na sua duração de modo a surgir como uma linha de inclinação igual a 1 na função de urdidura de tempo. 0 segundo sub-segmento do segmento de fala a ser sintetizado resulta da repetição do instante de tempo das fron teiras "Bl" do segmento de fala original e, contráriamente, 0 terceiro sub-segmento do segmento de fala original variou para um instante de tempo das fronteiras "B*3" no segmento dc fala a ser sintetizado. As correlações entre tais casos surge, respectivamente, como uma linha vertical e uma linha horizontal» Obtem-se assim a função de urdidura de tempo, apresenta] 1 do 0 instante de tempo das fronteiras do segmento de fala or:L ginal e 0 instante de tempo das fronteiras do segmento de fala a ser sintetizado correspondendo aos instantes de tempo das fronteiras do segmento de fala original, oomo dois instantes e unindo-os oom uma linha. Poderá ser possível, em alguns ca sos, apresentar a correlação entre os subsegmentos para que se;ja mais próxima da realidade ligando os instantes de tempo das fronteiras com uma curva regular.

Io processo de mmemorização de códigos de formas da onda, 0 sub-bloco de montagem de formas da onda descobre o momento de tempo original correspondente à posição de impul. so de altura do som sintetizado, utilizando a função de urdidura de tempo e descobre a Ôndula que possui uma posição de impulso de altura mais próxima do momento de tempo original, reagrupando depois a ôndula na posição de impulso de altura do som sintetizado.

Ia fase seguinte, 0 sub-bloco do conjunto de formas de onda multiplioa-se cada sinal de ôndula reagrupado pelo ga nho correspondendo à posição de impulso de altura do sinal dg, ôndula descoberto a partir das informações sobre 0 ganho, e obtém- - 50 -

-se finalmente o som. sintetizado pretendido mediante a sobrie posição dos sinais de ôndula ajustados relativamente ao ganho e adicionando-os, Ia 3?ig, 3Q ilustra-se o som sintetizado pro duzido por um tal método de sobreposição, para o caso em que se reagruparam as Ôndulas da Mg, 3I> Fig· 31» Fig’· 3(0) de acordo com a Pig. 3P.

Similarmente, no método de memorização de oódigos--fonte, o sub-bloco de memorização de formas da onda descobre o instante de tempo original correspondendo à posição de impulso do som sintetizado utilizando a função de urdidura de tempo, e descobre o sinal de impulso de altura que possui a posição de impulso de altura mais próximo do instante de tem po original, reagrupando então o sinal de impulso de altura na posição de impulso de altura do som sintetizado.

Ias Pigs* 8A e 8B mostram-se os números para os si nais de impulso da altura ou para as ôndulas reagrupadas de£ ta forma em cada posição de impulso da altura do segmento de fala que se pretende sintetizar. Como se pode vêr nos desenh<f> algumas das Ôndulas que constituem o segmento de fala original são omitidas devido à compressão dos sub-segmentos e algumas delas são repetivamente utilizadas devido à expansão dos sub-segmentos. Ia lig, 8, partiu-se do princípio q.ue o sinal de impulso da altura para cada período foi obtido segmentando-se logo após cada impulso de altura.

Io processo de memorização de códigos de formas da onda a sobreposição das Ôndulas i equivalente à sobreposição dos sinais de impulso da altura do processo de memorização de oódigos-fonte. Consequentemente, no oaso do referido processo de memorização de códigos-fonte, o sub-bloco de montagem de formas de onda multiplica cada sinal de impulso de altura reagrupado pelo ganho correspondente à posição de impul so de altura do sinal de impulso da altura reagrupado encontrado a partir das informaçães sobre o ganho, obtendo-se fi-nalmente o sinal de excitação sintetizado pretendido sobrepondo os sinais de impulso de altura ajustados em relação ao ganho. Gontudo, neste caso, e uma vez que a maior parte da potência se concentra no impulso da altura, pode ser possível produzir o sinal de excitação sintetizado obtendo primeiramen te um sinal de excitação sintetizado sem ajustamento do ganho, sobrepondo os sinais de impulso da altura sintetizados e multiplicando depois o sinal de excitação sintetizado sem ajustamento de ganho pelo contorno de potência produzido no sub--bloco de controlo de potência em vez de se sobrepor os sinais de impulso de altura constantes ajustados ao ganho. A Pig· 3H mostra o sinal de excitação sintetizado obtido quando os sinais de impulso de altura da Pig* 3H, Pig. 3K, Pig. 3N são agrupados de aoordo com um tal processo, de maneira a que a oonfiguração da altura seja a mesma que a indioada no caso da Pig. 3P*

No processo de memorização dos cédigos-fonte, o sub--bloco do conjunto das formas da onda precisa de fazer os pa râmetros da envolvente espectral sintetizada, havendo duas maneiras possíveis para o fazer, isto I, pelo método de compressão-expansão temporal ilustrado na Pig. 8A e pelo método de correspondência sincronizada ilustrado na Pig. 8B. Se os parâmetros da envolvente espectral forem funçães contínuas em relação ao tempo e representarem totalmente o envolvente do espectro da fala, podem-se obter os parâmetros da envolvente espectral sintetizados simplesmente comprimindo ou expandindo temporalmente os parâmetros da envolvente espectrais originais em uma base de subsegmento por suhsegmento. Na Pig. 8A, o parâmetro da envolvente espectral obtido pelo processo da análise sequencial é representado como uma curva pontilha - 52 -

Ψ /ϊ$ da, representando-se a cheio o parâmetro da envolvente espec^ trai codificado mediante aproximação da curva ligando vários pontos tais como A, B, C, etc. com os segmentos lineares. Umá vez que apenas a posição temporal de cada ponto varia para s3 obterem os pontos A*, B*, 0*, etc., como resultado da compres são e expansão temporal, tal processo de codificação de segmentação linear I particularmente apropriado para 0 caso da compressão e expansão temporal. Contudo, nocaso de se usar 0 mltodo de análise por bloco ou 0 mltodo de análise da altura sincronizada, uma vez que a conjugação espectral não I exact^ sendo descontínua a variação temporal do parâmetro da envolvente espectral, 0 mltodo de compressão-expansão temporal nã<j> pode proporcionar a qualidade de som sintetizado pretendida, I preferível usar 0 método de correspondência sincronizada ηψ qual os parâmetros da envolvente espectral sincronizados são montados correlacionando-se os parâmetros da envolvente espeçjs trai para cada intervalo da altura em cada sinal de impulso da altura correspondente, como se mostra na 3Pig. 8B. Isto I, uma vez que a ôndula, no processo de memorização de códigos das formas da onda, I equivalente ao sinal de impulso da altura e aos parâmetros da envolvente espectral correspondente^ para 0 mesmo intervalo de período de tempo da altura, os parâmetros da envolvente espectral sintetizados podem ser realizados reagrupando, em sicronísmo, os parâmetros da envolvei te espectral referentes ao intervalo de um período de tempo no mesmo intervalo de período de tempo de cada sinal de impu so de altura reagrupado. Na 3?ig, 8B, Kl, q,ue constitui um do^ parâmetros da envolvente espectral, e ΚΊ, que é 0 parâmetro da envolvente espectral sintetizada correspondendo a KL montado de acordo com cais métodos para o mltodo de análise por bloco e para 0 mltodo de análise sincronizado, são ilustrados, respectivamente, por uma linba a cbeio e uma linba pontilhada. 53 - -¾

]5 evidente, como atrás se especificou, que com. o parâmetro da envolvente espectral obtido pelo método de análise sequencial se pode montar, de acordo com o método da Fig, 8A, o parâmetro da envolvente espectral sintetizada. Por exemplo, se o sinal de impulso de altura para cada período de tempo tiver sido reagrupado como se mostra na 3?ig* 3R> os parâmetros da envolvente espectral para cada período de tempo ficam situados, como se mostra na Pig* 3S, de acordo com os sinais de impulso da altura.

No momento da montagem do sinal de excitação sinte^ tizado e dos parâmetros da envolvente espectral sintetizados no método de memorização de cédigos-fonte, se o período da altura do som sintetizado fôr maior do que o período da altu ra original, surge um intervalo de tempo em branco entre dois intervalos de períodos de tempo de altura adjacentes, como se mostra na 3?ig. 8 por linhas oblíquas. Se o período de tem po da altura do som sintetizado for mais curto que o período de tempo da altura original, surgem intervalos de tempo de sobreposição em que dois intervalos de período de tempo da al tura adjacentes se sobrepõem um ao outro. 0 intervalo de tempo sobreposto "f'bM e o intervalo de tempo em branco “gh" são ilustrados a título de exemplo, na Nig. 3H e na Mg. 3S. Oomo anteriormente se descreveu, os sinais de impulso de altura reagrupados serão sobrepostos no momento da sobreposição. Gon tudo, I razoável que os parâmetros da envolvente espectral reagrupados de acordo com os sinais de impulso de altura sejam divididos raoionalmente em vez de serem sobrepostos no mci^ mento da sobreposição. Gonsequentemente, o mltodo de montagem do sinal de excitação sintetizado e dos parâmetros da envolvente espectral sintetizada considerando os intervalos de tem po em branco e os intervalos de tempo sobrepostos, é oomo se descreve a seguir. - 54 -

As amostras com o valor zero são inseridas no inter valo de tempo em branco no momento da montagem do sinal de e:c citação sintetizado. No caso dum som fricativo sonoro, pode--se sintetizar um som mais natural se se inserir no intervalo de tempo em branco o sinal de ruído filtrado pela passage|n de altas frequências em vez de se inserir as amostras com o valor zero. S necessário que os sinais de impulso da altura reagrupados sejam adiconados ao intervalo de tempo de sobreposição. Uma vez que tão método de adição ê fastidioso, ê con veniente usar um processo de truncamento no qual apenas um sinal ê escolhido de entre dois sinais de impulso de altura sobrepostos no intervalo de tempo de sobreposição. A qualida de do som sintetizado utilizando o método de truncamento não fica significativamente degradada. Na Nig. 3R, o intervalo d£ tempo em branco '•gh" foi preenchido com amostras com o valor zero, e o sinal de impulso de altura do intervalo de tempo a|L terior foi escolhido no intervalo de tempo de sobreposição "fb". Isto ê, no caso de ocorrer uma sobreposição, o interva lo de tempo dianteiro, entre os intervalos de tempo de sobre posição de cada sinal de impulso de altura, I truncado, sendo este método físicamente mais relevante comparado com o métod<|) no qual os sinais de impulso de altura se obtêm segmentando--se mesmo em frente do impulso da altura, truncando-se no mo mento da síntese o dltimo intervalo de tempo entre os intervalos de sobreposição do sinal de impulso de altura, no caso de se sobreporem como foi descrito anteriormente. Contudo, nà realidade, qualquer um dos mltodos não provoca diferenças significativas na qualidade de som da fala sintetizada.

No momento de se realizar a montagem do parâmetro da envolvente espectral sintetizada, I ideal que o intervalo de tempo em branco esteja preenchido com os valores que variam linearmente de um valor do parâmetro da envolvente espectral - 55-

’í& I. ,s> no instante final do período de tempo de intervalo precedente, para um valor do parâmetro da envolvente espectral no ins tante inicial do período de tempo seguinte, e que no interva lo de sobreposição o parâmetro da envolvente espectral varie gradualmente de um parâmetro da envolvente espectral do períj) do de tempo precedente para o do período seguinte utilizando o mltodo de interpolação, no qual a mídia entre dois parâmetros da envolvente espectral se obtém com valores de peso qu£ variam linearmente em relação ao tempo. Oontudo, uma vez que estes mltodos são fastidiosos, poder-se-á utilizar o mltodo que a seguir se indica, que I mais adequado e que não degrada significativamente a qualidade do som. Isto I, para o parâmetro da envolvente espectral no intervalo de tempo em bra^ co, pode-se usar repetidamente o valor do parâmetro da envol vente espectral do instante final do período de tempo no intervalo precedente:,. como acontece na 3?ig. 8B, ou usar repeti&a mente o valor do parâmetro da envolvente espectral no ponto inicial do período de tempo de intervalo seguinte, ou usar o$ valores do parâmetro da envolvente espectral no instante ini ciai e no instante final dos intervalos do período de tempo anterior ou seguinte, respectivamente antes ou apls o centro do intervalo de tempo em branoo constituir fronteiras. Para o parâmetro da envolvente espectral no intervalo de sobreposição, pode-se simplesmente escolher qualquer parte correspoè. dendo ao impulso de altura escolhido. Por exemplo, na Mg* 3S, uma vez que o sinal de impulso da altura para o intervalè de período de tempo precedente foi escolhido como o sinal de excitação sintetizado no intervalo de tempo de sobreposição "fb", os valores de parâmetro para o intervalo de período de tempo precedente foram do mesmo modo escolhidos como os parâmetros da envolvente espectral sintetizada. No intervalo de tempo em branco "gh" da Mg. 8B e da Mg. 3S, os valores de * - 56 -

parâmetro do parâmetro da envolvente espectral no instante final do intervalo de período de tempo precedente foram usados repetidamente* S evidente q.ue, no caso da Fig. 3S em que o parâmetro da envolvente espectral 4 uma função contínua em relação ao tempo, o mltodo em q.Ue o último valor do intervala de período de tempo precedente ou o primeiro valor do intervalo de período de tempo seguinte se utiliza repetidamente durante o intervalo de tempo em branco e o mltodo çiue os dois valores variam linearmente durante o intervalo de tempo em branco, produzem o mesmo resultado. logo q.ue se tenbam reunido o sinal de excitação si:i tetizado e os parâmetros da envolvente espectral sintetizada para um determinado segmento de fala, o sub-bloco do conjuntj) das formas da onda iguala normalmente ambas as extremidades dos parâmetros da envovente espectral sintetizada reagrupado^ Utilizando o método de interpolação, a fim de que a variação do parâmetro da envolvente espectral varie regularmente entr segmentos de fala adjacentes. Se se introduzir o sinal de ex citação sintetizado e os parâmetros da envolvente espectral sintetizada reagrupados do modo atrás descrito, como sendo o sinal de excitação e os coeficientes de filtragem, respecti-vamente, no filtro de síntese no sub-bloco do conjunto das formas das ondas, obtem-se finalmente o som sintetizado pretendido proveniente do filtro de síntese. 0 sinal de excitação sintetizado, obtido quando os sinais de impulso da altura das Figs. 3H, 3K e 3N são reagrupados de tal maneira que a configuração da altura seja igual à da Fig. 3P, está repre sentado na Fig. 3R, m.ostrando-se na Fig. 3S os parâmetros da envolvente espectral sintetizada obtidos fazendo-se corresponder os parâmetros da envolvente espectral para um período de tempo das Figs. 3G, 3J e 3M com os sinais de impulso da altura do sinal de excitação sintetizada da Fig. 3R. Constit - 57 -

indo ura filtro de síntese variável no terapo possuindo, como coeficientes de filtragem, os coeficientes de reflexão que variam conforme se mostra na Fig. 3S, e dando entrada do sinal de excitação sintetizado, como se mostra na Fig. 3R» no filtro de síntese variável no tempo, obteve-se o som sinteti zado da Fig. 3$ que é quase igual ao som sintetizado da Figo 3F.

Ooruparando agora o processo de memorização de oódi gos das formas da onda e o processo de memorização de oódigo^ -fonte, poder-se-á considerar que os dois processos são, em princípio, idênticos. Contudo, ao oonoatenar-se os segmentos de fala com. má inteligação uns cora os outros, existe uma diferença que oonsiste em ser possível sintetizar o som que va ria regularmente igualizando os parâmetros da envolvente espectral utilizando o ml todo da interpolação no caso do procejs so de memorização de códigos-fonte, mas tal sendo impossível no caso do prooesso de memorização de códigos das formas da onda. Allm disso, o processo de memorização de códigos-fonte necessita de menos memória que o processo de memorização de códigos das formas da onda uma vez que a forma da onda com apenas um período de comprimento por ôndulas necessita de sei? memorizada no prooesso de memorização de códigos-fonte, e apresenta a vantagem de ser mais fácil integrar a função de blooo de síntese da voz sonora e a função do bloco de síntese de voz insonora que atrás se descreveu. No oaso da utilização do mltodo de análise homomórfioa, o "cepstrum" ou o impulso de resposta podem ser usados como o conjunto de parâme tros da envolvente espectral no processo de memorização de oódigos das formas da onda, pelo que I práticamente impossível usar no prooesso de memorização de oódigos-fonte o "ceps-trum" necessário à computação cooi base em blocos uma vez que a duração do blooo de sintetização possuindo oe valores dos - 58 -

parâmetros da envolvente espectral sintetizados constantes varia de 'bloco para bloco, corno se pode ver a partir do parâ metro da envolvente espectral sintetizado representado na Fi^ 8B por uma linha a cheio. Be acordo com a presente invenção, o processo de memorização de códigos-fonte utiliza, como o impulso de excitação, o impulso da altura. Oontudo, tal processo I diferente do processo de excitação de impulso de altura regular anterior, o qual pretendia substituir o impulso por um impulso de altura-amostra, uma vez que, na presente iíi venção o impulso da altura de cada período de tempo e os parâ metros da envolvente espectral de cada período de tempo corre pondendo ao impulso de altura são ligados entre si para produzir a Ôndula de cada período de tempo.

Oomo se pode observar pela descrição anterior, a presente invenção é apropriada para codificar e descodificar o segmento de fala do sistema de sintetização dum texto para fala do processo de sintetização de segmentos de fala. Allm disso, uma vez que a presente invenção divulga um processo pelo qual a duração total e paroial e a configuração da altu ra das unidades fonéticas arbitrárias, tais como o fonema, a semi-silaba^ difone, e o subsegmento, etc#, que constituem a fala podem ser livre e independentemente alteradas, tal pro-oesso pode ser usado num sistema de conversão de velocidade da fala ou num sistema de modificação da escala oom base no tempo, o qual modifica a velocidade vocal a uma velocidade constante para que ela seja ou mais rápida ou mais lenta q.ue a velocidade original sem alterar a configuração da entoação da fala, podendo ainda ser utilizado num sistema de sintetização do oanto oral ou num sistema de codificação da fala a uma vlelocidade muito lenta, tal como um oodifioador da voz fonético ou um segmento do codificador da voz, o q,ual transfere a fala mediante a modificação da duração e da altura do;s - 59 -

segmentos de fala padronizados memorizados antecipadamente iSl

E

Outra área de aplicação do processo da presente in venção é o sistema de sintetização de sons musioais, tal como os instrumentos musioais electrónicos do processo de amos tragem. Uma vez q.ue todos os sons no âmbito dos instrumentos musicais electrónicos são codificados digitalmente pelas forj-mas da onda, memorizados e reproduzidos quando necessário a partir do teolado, etc#, métodos de amostragem anteriores re lativos aos instrumentos electrdnioos apresentavam a desvanta gem de ser necessário''uma grande memória para memorizar todo o som musioal. Contudo, se se utilizar o processo de deeompo sição das formas da onda e o processo de reagrupamento das ôndulas da presente invenção, poder-se-á significs,tivamente reduzir a q.uantidade de memória necessária uma vez que se pja dem sintetizar os sons de várias alturas fazendo amostras de tons de apenas umas determinadas alturas. 0 som musical é tí picamente constituído por 3 partes, isto é, um ataq.ue, um prolongamento e um deorésoimo. Uma vez que a envolvente es-peotral varia gradualmente não apenas entre as 3 partes refe ridas mas igualmente entre o prolongamento, então o timbre também varia# Por conseguinte, se os segmentos de som musioal forem codificados de acordo como desorito processo de decompD ção de formar da onda periódica memorizados segundo os insj-tantes de tempo apropriados em q.ue o espeotro varia substancialmente coiii os instantes de tempo das fronteiras, e se se realizar a síntese do som de acordo com o método de reagrupa mento da ôndula baseado na urdidura de tempo atrás descrito q.uando vêm necessidades a partir do teclado, etc., então pode-se sintetizar o som musioal apresentando uma altura de so pretendida robitrária. Contudo, nos casos em q.ue o sinal so noro musioal é decomposto de acordo com o método de análise de prognóstico linear, uma vez que existe a tendência de não

βο - se obter a envolvente espectral exaota e do impulso de altura não ser agudo, recomenda-se reduzir o námero de parâmetros da envolvente espectral utilizados na análise e diferenciar o sinal antes da análise#

Embora se tenha descrito o processo da presente in Venção na sua forma de realização pi^eferida com uta nível de particularidade, os entendidos desta matéria poderão apreciar q.ue tal sd foi feito a título de exemplo, e que se poderão in oluir indmeras alteraçães nos pormenores da construção, associação e montagem das partes sem se abandonar o espírito e âmbito da invenção.

Claims

1 i 1 i

REIVINDICAÇÕES: la. Processo de codificação de segmentos da fala para utilização num sistema de síntese, caracterizado pelo facto de compreender a operação que consiste em formar ondulas por obtenção de parâmetros que representam um envolvente espectral em cada intervalo de tempo de análise, analisando um sinal digital periódico ou quase-periódico utilizando uma técnica de computação espectral, decompondo o sinal original num impulso de resposta representado pelos parâmetros da envolvente espectral e num sinal constituído por um trem de impulsos de altura periódicos ou quase-periódicos que tem uma envolvente espectral quase plana e por reagrupamento de um sinal de excitação obtido mediante anexação de amostras com o valor zero depois de um sinal de impulso da altura de um período segmentando o mencionado sinal do trem· de impulsos da altura durante cada período de tal maneira que em cada periódo esteja contido um impulso da altura e resposta contido um impulso que corresponde aos parâmetros da envolvente espectral no mesmo intervalo de tempo que o citado sinal de excitação; e a operação que consiste na memorização das ôndulas que codificam a forma da onda e, no momento da síntese da fala, a descodificação das ôndulas, o ajustamento da duração e da frequência da altura atribuindo as ôndulas a instantes de tempo apropriados de tal maneira que tenham a configuração de altura apropriada, situando-os nos referidos instantes de tempo è sobrepondo-os sintetizando dessa maneira a fala.

2 4

2a. Processo de codificação de segmentos de fala, de acordo com a reivindicação 1, caracterizado pelo facto de se formarem ôndulas reunindo informações obtidas por codificação da forma da onda de um sinal de impulso da altura de cada período obtido por segmentação com as informações obtidas por codificação de um conjunto de parâmetros de cálculo da envolvente espectral de um período durante o mesmo intervalo de tempo e memorizando as referidas informações nas mencionadas memórias e, no momento da síntese, as ôndulas serem obtidas agrupando um sinal de excitação obtido anexando amostras de valor zero depois de um sinal de impulso da altura de um período obtido descodificando as citadas informações e um impulso de resposta correspondendo aos parâmetros da envolvente espectral descodificada no mesmo intervalo de tempo que o referido sinal de excitação. 3a. Processo de codificação de segmentos de fala, de acordo com a reivindicação 2, caracterizado pelo facto de o som de fala sintetizado ser produzido no momento da síntese agrupando um sinal de excitação sintético formado mediante atribuição de sinais de impulso da altura obtidos por descodificação das mencionadas informações em instantes de tempo apropriados, de tal modo que tenham a configuração de altura pretendida e agrupando- os nos citados instantes de tempo, em que um intervalo de tempo em branco ocorrendo quando um período da altura pretendido é maior do que um período de altura original está preenchido com amostras com o valor zero e, num intervalo sobreposto, que ocorre quando o referido período de altura pretendido é mais curto que o mencionado período de altura original, os sinais de impulso da altura sobrepostas são 3

adicionados uns aos outros ou é escolhido um desses sinais e um impulso de resposta variável no tempo que corresponde a um conjunto de parâmetros de envolventes espectrais sintéticos que se forma ou comprimindo ou expandindo temporalmente o conjunto de funções de tempo dos referidos parâmetros em uma base de subsegmento por subsegmento dependendo do facto de a duração de um subsegmento num segmento de fala a ser sintetizado ser mais curto ou ser maior do que a de um correspondente subsegmento do segmento original de fala, respectivamente, ou sintuando o conjunto de funções de tempo dos mencionados parâmetros de um período em sincronismo com o citado sinal de impulso associado de um período agrupado de maneira a formar o referido sinal de excitação sintético, em que no último caso se obtém um parâmetro de envolvente espectral sintético no referido intervalo em branco repetindo o valor do parâmetro da envolvente espectral no momento final do período anterior ou o valor do parâmetro da envolvente espectral no primeiro instante do período seguinte ou um valor médio dos referidos dois valores ou preenchendo-o com valores que variam regularmente entre os dois mencionados valores ou repetindo os valores dos parâmetros da envolvente espectral no instante final do período anterior e no primeiro instante do período seguinte antes e depois do centro do intervalo em branco e se obter o citado parâmetro da envolvente espectral sintética no referido intervalo de sobreposição escolhendo um qualquer dos parâmetros da envolvente espectral sobreposta ou usando um valor médio dos mencionados dois parâmetros sobrepostos. 4a. Processo de controlo da altura de um sistema de síntese da fala, caracterizado pelo facto de compreender 4

as operaçãos que consistem em controlar a duração e a altura de um segmento da fala por um método de reagrupamento da ôndula baseado na urdidura de tempo codificando os momentos de tempo das fronteiras de cada intervalo incluindo o instante inicial, o instante final e o instante do estado estacionário no segmento da fala e as posições dos impulsos da altura de cada ôndula ou o sinal do impulso da altura de um período e memorizá-los em memórias simultaneamente no momento de memorização de cada segmento da fala e no momento da síntese, obter uma função da urdidura de tempo comparando os instantes de tempo das fronteiras pretendidos e os instantes de tempo das fronteiras originais memorizados que correspondem aos citados instantes de tempo de fronteira pretendidos, descobrir os instantes de tempo originais que correspondem a cada posição do impulso de altura pretendida utilizando a referida função de urdidura do tempo, escolher ôndulas que tem as posições de impulso da altura mais próximas dos mencionados instantes de tempo originais e agrupá-las nas posições dos impulsos da altura pretendidos e sobrepor as citadas ondulas. 5a. Processo de controlo da altura de um sistema de síntese da fala, de acordo com a reivindicação 4, caracterizado pelo facto de incluir ainda a operação que consiste na produção de fala sintética escolhendo os sinais dos impulsos de altura de um período e parâmetros da envolvente espectral que correspondendo aos referidos sinais de impulso e localizando-os e reunindo o mencionado sinal de impulso da altura localizado e o impulso de que correponde aos citados parâmetros do envolvente espectral para produzir ôndulas e sobrepor as referidas ôndulas produzidas. 5

6a. Processo de controlo da altura de um sistema de síntese da fala, de acordo com a reivindicação 4, caracterizado pelo facto de incluir ainda as operações que consistem em produzir fala sintética escolhendo sinais de impulso da altura de um periodo e parâmetros da envolvente espectral que correspondem aos mencionados sinais de impulso de altura e localizando-os e reunindo um sinal de excitação sintético obtido por sobreposição dos citados sinais de impulso de altura localizados de acordo com a reivindicação 3, e uma resposta do impulso que varia em função do tempo correspondendo aos parâmetros da envolvente espectral sintética obtida concatenando os referidos parâmetros da envolvente espectral localizada de acordo com o processo da reivindicação 3. 7a. Dispositivo de síntese de fala sonora para utilização num sistema de síntese de fala, caracterizado pelo facto de compreender um sub-bloco de descodificação (9) que produz informações sobre as ôndulas descodificando códigos de ôndulas do bloco de memorização do segmento de fala (5); um sub-bloco de controlo da duração (10) que produz informações sobre a urdidura do tempo a partir da entrada de dados de duração provenientes de um subsistema (2) de produção prosódio e dos instantes de tempo de fronteira incluídos nas informações dos títulos do mencionado bloco de memorização dos segmentos de fala (5); um sub-bloco de controlo da altura do som (11) que produz informações da posição impulso da altura de tal maneira que tem uma configuração da entoação tal como é indicado por dados da configuração da entoação a partir da entrada da citada informação do título a partir do referido bloco

de memorização dos segmentos de fala (5) , os mencionados dados da configuração da entoação a partir do citado subsistema de produção prosódica e as referidas informações de urdidura do tempo provenientes do mencionado sub- bloco de controlo da duração (10); um sub-bloco de controlo da energia (12) que produz informações do ganho de tal maneira que a fala sintética tenha uma configuração da intensidade tal como é indicada pelos dados da configuração da intensidade a partir da entrada dos citados dados da configuração da intensidade do referido subsistema de produção prosódica (2) , mencionadas informações da urdidura do tempo a partir do citado sub-bloco de controlo da duração (10) e informações da posição do impulso da altura provenientes do referido sub-bloco de controlo da altura (11); e um sub-bloco do conjunto das formas das ondas (13) que produz um sinal da fala sonora a partir da entrada das mencionadas informações das ondulas a partir do citado sub-bloco de descodificação (9), referidas informações da urdidura do tempo a partir do mencionado sub-bloco de controlo da duração (10), citadas informações da posição dos impulsos da altura a partir do referido sub-bloco de controlo da altura (11) e mencionadas informações do ganho a partir do citado sub-bloco de controlo da energia (12). Lisboa, 5 de Novembro de 1992 O Agente Oficial da Propriedade Industrial