EP0140249B1

EP0140249B1 - Analyse et synthèse de la parole avec normalisation de l'énergie

Info

Publication number: EP0140249B1
Application number: EP19840112266
Authority: EP
Inventors: George R. Doddington; Panos E. Papamichalis
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1983-10-13
Filing date: 1984-10-12
Publication date: 1988-08-10
Also published as: DE3473373D1; JPH0644195B2; EP0140249A1; JPS60107700A

Claims

1. Système de communication vocale, comportant un analyseur connecté pour recevoir un signal de parole numérique et pour produire à partir de ce dernier une séquence de trames de paramètres de parole, lesdits paramètres de chaque trame contenant un paramètre d'énergie, des paramètres d'excitation et des paramètres de codage linéaire par prévision, un dispositif de sortie pour charge desdits paramètres de chaque trame de parole dans un canal de données, un dispositif d'entrée pour recevoir une séquence de trames de paramètres de parole, un dispositif de configuration d'un filtre en réseau en fonction desdits paramètres de codage linéaire par prévision, un dispositif générateur d'un signal d'excitation en fonction desdits paramètres d'excitation, ladite excitation étant produite comme entrée audit filtre en réseau, et un dispositif de modulation de la sortie dudit filtre en réseau en fonction dudit paramétre d'énergie pour produire une sortie de signal de parole, caractérisé en ce que:

un dispositif est prévu pour normalizer le paramètre d'énergie de chacune desdites trames de parole, ledit paramètre d'énergie de chaque trame étant normalisé principalement par rapport à un paramètre d'énergie d'une trame ultérieure apparaissant au moins 0,1 seconde après chacune desdites trames.

2. Système selon la revendication 1, dans lequel ledit paramètre d'énergie de chacune desdites trames de parole est normalisé par rapport à un paramètre de poursuite de crête desdites trames suivantes, ledit paramètre de poursuite de crête correspondant généralement à une enveloppe supérieure de la séquence desdits paramètres d'énergie desdites trames.

3. Système selon la revendication 1, dans lequel lesdits paramètres de parole de chacune desdites trames indiquent également l'état sonore/sourd de chacune desdites trames respectives.

4. Système selon la revendication 3, dans lequel lesdits paramètres comprennent également des informations de hauteur pour chacune desdites trames de parole, et dans lequel ledit analyseur détermine conjointement la hauteur et la sonorité de chaque trame de manière que lesdites décisions de hauteur de de sonorité varient aussi régulièrement que possible entre des trames voisines.

5. Procédé de codage de parole, consistant à analyser un signal de parole pour produire une séquence de trames comme des paramètres de parole, chacune desdites trames de ladite séquence de paramètres contenant un paramètre d'énergie, et à coder lesdits paramètres de parole. dans un canal de données, caractérisé en ce que les paramètres d'énergie de chacune desdites trames de parole sont normalisés par rapport à un paramètre d'énergie d'une trame suivante apparaissant plus tard que chacune desdites trames respectives, d'au moins 0,1 seconde, la normalisation étant faite avant le codage desdits paramètres de parole dans le canal de données.

6. Procédé selon la revendication 5, dans lequel ladite valeur d'énergie de chacune desdites trames de parole est normalisée par rapport à un paramètre de poursuite de crête desdites trames suivantes, ledit paramètre de poursuite de crête correspondant généralement à une enveloppe supérieure de la séquence desdites valeurs d'énergie de ladite trame.

7. Système de codage de la parole, comportant un analyseur connecté pour recevoir des données d'entrée de parole et pour produite à partir de ces données une séquence de trames de paramètres de parole, lesdites trames étant produites à une fréquence de trames prédéterminée, lesdites trames contenant plusieurs paramètres comprenant un paramètre d'énergie, un codeur pour coder des trames de parole successives comme des valeurs numériques et un dispositif de suppression de silence connecté audit dispositif de codage, ledit dispositif de suppression de silence évitant que ledit codeur code celles desdites séquences de trames qui ne correspondnt pas à un signal de parole réelle, et un dispositif de sortie pour charger lesdites valeurs numériques codées dans un canal de données, caractérisé par: un dispositif de normalisation du paramètre d'énergie de chacune desdites trames de parole par rapport au paramètre d'énergie d'une trame ultérieure apparaissant au moins 0,1 seconde après chacune desdites trames, et dans lequel ledit dispositif de suppression de silence identifie chacune desdites trames comme silencieuses ou non silencieuses en comparant le paramètre d'énergie de chacune successive desdites trames à une fonction d'une première et d'une seconde valeurs seuil corrigées de façon adaptative, ladite première valeur seuil corrigée de façon adaptative correspondant à un multiple d'une enveloppe supérieure desdits paramères d'énergie successifs de certaines successives desdites trames et ladite seconde valeur seuil correspondant à un multiple d'une enveloppe inférieure desdites valeurs successives desdites trames.

8. Système de communication vocale, comportant un analyseur connecté pour recevoir des données d'entrée de parole et pour produire à partir de ces données une séquence de trames de paramètres de parole, lesdites trames étant produites avec un débit de trames prédéterminé, lesdites trames contenant plusieurs paramètres comprenant un paramètre d'énergie, un codeur pour coder des trames de parole successives comme des valeurs numériques et un dispositf de suppression de silence connecté audit dispositif de codage, ledit dispositif de suppression de silence évitant que ledit codeur ne code celles de ladite séquence de trames ne correspondant pas à un signal de parole réelle, un dispositif de sortir pour charger lesdites valeurs numériques codées dans un canal de données, un dispositif d'entrée pour recevoir une séquence de trames de paramètres de parole, un dispositif de configuration d'un filtre en réseau en fonction desdits paramètres de codage linéaires à prévision, un dispositif générateur d'un signal d'excitation en fonction desdits paramètres d'excitation, ladite excitation étant produite comme une entrée dudit filtre en réseau et un dispositif de modulation de la sortie dudit filtre en réseau en fonction dudit paramètre d'énergie pour produire une sortie de signal de parole, caractérisé par:

un dispositif de normalisation du paramètre d'énergie de chaçune desdites trames de parole par rapport au paramètre d'énergie d'une trame ultérieure apparaissant au moins 0,1 seconde après chacune desdits trames et dans lequel dedit dispositif de suppression de silence identifie chacune desdites trames comme silencieuse ou non silencieuse en comparant le paramètre d'énergie de chacune successive desdites trames à une fonction d'une première et une seconde valeurs seuil corrigées de façon adaptative, ladite première valeur seuil corrigée de façon adaptative correspondant à un multiple d'une enveloppe supérieure desdits paramètres successifs d'énergie de certaines successives desdites trames et la seconde valeur seuil correspondant à un multiple d'une enveloppe inférieure desdites valeurs successives desdites trames.

9. Système selon la revendication 8, dans lequel l'analyseur produite une décision de vocalisation pour chacune desdites trames de parole, et dans lequel ledit dispositif de suppression de silence corrige ledit premier seuil seulement pendant celles sonores desdites trames et corrige seulement ledit second seuil pendant celles sourdes desdites trames.

10. Système selon la revendication 8, dans lequel ledit dispositif de suppression de silence, une fois qu'une trame silencieuse a été identifiée, n'identifie pas une trame non silencieuse ensuite jusqu'à ce qu'une trame sonore d'énergie supérieure au seuil soit détectée, auquel cas ladite trame sonore d'énergie supérieure au seuil et toutes les trames de parole sourdes d'énergie supérieure au seuil qui ne sont pas séparées de ladite trame sonore d'énergie supérieure au seuil par au moins un nombre prédéterminé des trames successives ayant chacune un niveau d'énergie au-dessous dudit niveau seuil, sont identifiées comme non silencieuses.

11. Systèm selon la revendication 8, dans lequel le dispositif de suppression de silence, une fois qu'une trame non silencieuse a été identifiée, identifie une trame silencieuse seulement lorsqu'une succession continue de trames d'énergie au-dessous du seuil a été identifiée pendant un intervalle de temps prédéterminé.

12. Système selon la revendication 10 ou 11, dans lequel ledit intervalle de temps prédéterminé est compris entre 0,2 et 0,8 secondes.

13. Système selon la revendication 8, dans lequel ladite valeur d'énergie de chacune desdites trames de parole est normalisée par rapport auxdites valeurs d'énergie, principalement celles desdites trames qui sont ultérieures à ladite trame respective d'au moins 0,1 seconde.

14. Système selon l'une quelconque des revendications 8 et 13, dans lequel ladite valeur d'énergie de chacune desdites trames de parole est normalisée par rapport à un paramètre de poursuite de crête desdites trames suivantes, ledit paramètre de poursuite de crête correspondant généralement à une enveloppe supérieure de la séquence desdites valeurs d'énergie desdites trames.

15. Système selon la revendication 11, dans lequel ledit dispositif de suppression de silence, une fois qu'une trame non silencieuse a été identifiée, identifie une trame silencieuse seulement si ladite succession continue de trames d'énergie au-dessous du seuil pendant un intervalle de temps prédéterminée est trouvée après une trame sonore d'énergie au-dessous du seuil.