CA2304015A1

CA2304015A1 - Procede de debruitage d'un signal de parole numerique

Info

Publication number: CA2304015A1
Application number: CA002304015A
Authority: CA
Inventors: Stephane Lubiarz; Philip Lockwood
Original assignee: Individual
Current assignee: Nortel Networks France SAS
Priority date: 1997-09-18
Filing date: 1998-09-16
Publication date: 1999-03-25
Also published as: FR2768546A1; DE69804329T2; FR2768546B1; JP2001516902A; EP1016073B1; WO1999014739A1; AU9169098A; BR9812655A; ES2174484T3; CN1276896A; DE69804329D1; EP1016073A1

Abstract

Pour débruiter un signal de parole numérique traité par trames successives: on calcule des composantes spectrales (Sn,f, Sn,i) du signal sur chaque trame; on calcule des estimations majorées (B'n,i) de composantes spectrales du bruit compris dans le signal de parole; on effectue une analyse harmonique du signal pour estimer une fréquence tonale; on effectue une soustraction spectrale comportant au moins une étape consistant à soustraire respectivement, de chaque composante spectrale du signal de parole sur la trame (Sn,f), une quantité dépendant de paramètres incluant l'estimation majorée de la composante spectrale correspondante du bruit et la fréquence tonale estimée; et on applique au résultat de la soustraction spectrale une transformation vers le domaine temporel pour construire un signal de parole débruité (s3).

Description

' ~ WO 99/14739 PCT/FR98/01981 PROCEDE DE DEBRUITAGE D'UN SIGNAL DE PAROLE NUMERIQUE
La présente invention concerne les techniques numériques de débruitage de signaux de parole. Elle concerne plus particulièrement le débruitage par soustraction spectrale non linéaire.
Du fait de la généralisation des nouvelles formes de communication, en particulier des téléphones mobiles, les communications se font de plus en plus dans des ambiances fortement bruitées. Le bruit, additionné à la parole, a alors tendance à perturber les communications en empêchant une compression optimale du signal de paroîe et en créant un bruit de fond non naturel. D'autre part, le bruit rend difficile et fatigante la compréhension du message parlé.
De nombreux algorithmes ont été étudiés pour essayer de diminuer les effets du bruit dans une communication. S. F. Boll («Suppression of acoustic noise in speech using spectral subtraction », IEEE Trans. on Acoustics, Speech and Signal Processing », Vol. ASSP-27, n° 2, avril 1979) a proposé un algorithme basé sur la soustraction spectrale. Cette technique consiste à estimer le spectre du bruit pendant les phases de silence et à le soustraire du signal reçu. Elle permet une réduction du niveau de bruit reçu. Son principal défaut est de créer un bruit musical particulièrement gênant, car non naturel.
Ces travaux, repris et améliorés par D. B. Paul (« The spectral enveloppe estimation vocoder », IEEE
Trans. on Acoustics, Speech and Signal Processing », Vol.
ASSP-29, n° 4, août 1981) et par P. Lockwood et J. Boudy (« Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov Models and the projection, for robust speech recognition in cars », Speech Communication, Vol. 11, juin 1992, pages 215-228, et EP-A-0 534 837) ont permis de diminuer sensiblement le niveau de bruit tout en lui conservant un caractère naturel. De plus, cette contribution a eu le mérite d'incorporer pour la première fois le principe de masquage dans le calcul du filtre de débruitage. A partir de cette idée, une première tentative WO 99/14739 PCT/FR98/01981 ~ -

- 2 -a t faite par S. Nandkumar et J. H. L. Hansen ( Speech enhancement on a new set of auditory constrained parameters , Proc. ICASSP 94, pages I.1-I.4) pour utiliser dans la soustraction spectrale des courbes de masquage calcules explicitement. Malgr les rsultats dcevants de cette technique, cette contribution a eu le mrita de mettre l'accer_t sur l'importance de ne pas dnaturer le signal de parole pendant le dbruitage.

D'autres mthodes bases sur la dcomposition du signal de parole en valeurs singulires, et donc sur une projection du signal de parole dans un espace plus rduit, or_t t tudies par Bart De Moore ( The singular value decomposition and long and short spaces of noisy matrices , IEEE Trans. on Signal Processing, Vol. 41, n 9, septembre 1993, pages 2826-2838) et par S. H. Jensen et al ( Reduction of broad-band noise in speech by truncated QSVD , IEEE Trans. on Speech and Audio Processing, Vol.

3, n 6, novembre 1995) . Le principe de cette techr_ique est de considrer le signal de parole et le signal de bruit comme totalement dcorrls, et de considrer que le signal de parole a une prdictibilit suffisante pour tre prdit partir d'un jeu restreint de paramtres. Cette technique permet d'obtenir un dbruitage acceptable pour des signaux fortement voiss, mais dnature totalement le signal de parol. Face un bruit relativement cohrent, tel que celui provoqu par le contact de pneus de voitures ou le cliquetis d'un moteur, le bruit peut s'avrer plus facilement prdictible que le signal de parole non vois.

On a alors tendance projeter le signal de parole dans une partie de l'espace vectoriel du bruit. La mthode ne tient pas compte du signal de parole, en particulier des zones de parole non voise o la prdictibilit est ' rduite. De plus, prdire le signal de parole partir d'un jeu de paramtres rduit ne permet pas de prendre en compte toute la richesse intrinsque de la parole. On comprend ici les limites de techniques bases uniquement sur des considrations mathmatiques en oubliant le caractre particulier de la parole.

v_ ~ WO 99/14739 PCT/FR98/01981 D'autres techniques enfin sont basées sur des critères de cohérence. La fonction de cohérence est particulièrement bien développée par J. A. Cadzow et 0. M.
Soiomon ( Linear modeling and the coherence function , ' ~ IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-35, n l, janvier 1987, pages 19-28), et son application au dbruitage a t tudie par R. L2 Bouquin.

(:< Enhancement of noisy speech signals . application to mobile radio communications , Speech Communication, Vol.

18, pages 3-19) . Cette mthode se base sur le lait aue le signai de parole a une cohrence nettement plus importante qus e bruit condition d'utiliser plusieurs canaux inpendants. Les rsultats obtenus semblent tre assez encourageants. Mais malheureusement, cette technique impose d'avoir plusieurs sources da prise de son, ce qui n'est pas toujours ralis.

Le brevet amricain 5 228 088 dcrit un systme de dbruitage fonctionnant dans le domaine frquentiel, pourvu d'un dtecteur de frquence tonale. Le rsultat de ?G cette dtection sert d'une part rgler des coefficients de suppression du bruit, et d'autre part localiser une bande de la voix . Les coefficients de suppression de bruit sont utiliss par un module de soustraction spectrale pour pondrer l' estimation du bruit avant de la 25 soustraire du signal. Le module qui rgle les coefficients de suppression exploite seulement l'information selon laquele une frquence tonale a t dtecte ou non. Mais la valeur prise par la frquence tonale est sans influence sur les coefficients de suppression utiliss. La bande 3~ de la voix dtermine l'aide de la frquence tonale dtecte fait l'objet d'une accentuation globale du . signal. Elle peut, en variante, servir dterminer a contrario une bande du bruit , bande dans laquelle une attnuation globale est alors applique. Une telle 35 accentuation ou attnuation d'une portion du spectre et du signal est une mthode de dbruitage trs diffrente de la soustraction spectrale.

n y, ' L ~ J / ~' ~~J (J
WO 99/14739 ~ ' . PCT/FR98/01981 - d -Un but principal de la présente invent~cn est ce proposer une nouvelle technique de débruitage qui prenne en compte les caractéristiques de production de 'a paro_e., permettant ainsi un débruitage efficace sans àétériorer 1a perception de 1a parole.
L'invention propose ainsi un procédé de débruita;=_ d'un signal de parole numérique traité par trames successives, dans lequel .
- on calcule des composantes saectral_s du signal :J de parole sur chaque trame ;
- or. calcule oou_- chaque trame des estimatio,:s majorées de composantes spectrales du bruit compris dans , le signal de parole ; -- on effectue une soustraction spectrale 5 co:nporta::_ au moins une étape consistant é soustraie' r~S~.eCt~vealeIlt, d2 C¿:aq'~:<? COmpOSante Spectral e du Slgn31 de parole sur la trame, une quantité dépendant de paramètres incluant l'estimation majorée de la composante spectrale corres ondante du bruit pour ladite trame .-et~
2C ~~applique~. au - résultat de 1 a soustraction spectrale une transformation vers le domaine temporel pour construire un signal de parole débruité.
Une analyse harmonique du signal de parole est effectuée pour estimer une fréquence tonale du signal de 25 parole sur chaque trame où il présente une activité
E_x vocale. Les paramètres dont déper_dent les quantités soustraites incluent 1a fréquencé -tonale ainsi estimée.
La surestimation de l'énveloppe spectrale du bruit est généralement-souhaitable pour que l'estimation 3C majorée ainsi obtenue soit robuste aux brusoues variations du bruit. Néanmoins; cette surestimation a habituellement l'inconvénient de distordre lé' signal de parole lorsqu' elle devient trop import--ïrïté-. Ceci a pour effet d'affecter 1e caractère voisé dusignal de parole en 35 supprimant une partie de sa prédictibilité. Cet inconvénient est très génant dans les conditions de la téléphonie, car c'est pendant les zones de voisement que 1e signal de parole est alors le plus énergêtique. Le fait de prendre en compte dans le débruitage la fréquence tonale du signal de parole permet de protéger l'harmonicité de ce signal dans ces zones voisées.
En général, pour soustraire d'une composante spectrale donnée du signal de parole, on adoptera une quantité plus faible s'i ladite composante spectrale correspond à une fréquence protégée, c'est-à-dire la plus proche d'un multiple entier de la fréquence tonale estimée que si ladite composante spectrale ne correspond pas à une telle fréquence protégée. Cette quantité plus faible peut notamment être nulle. Dans ce dernier cas, la soustraction spectrale n'affecte pas le signal à la fréquence tonale estimée et/ou à ses harmoniques. On supprime alors une partie des non-linéarités apportées par la surestimation du bruit, qui sont particulièrement sensibles pour les zones voisées. Les zones non voisées, du fait du caractère plus aléatoire de leur signal d'excitation, y sont moins sensibles.
Dans un mode de réalisation avantageux, après avoir estimé la fréquence tonale du signal de parole sur une trame, on conditionne le signal de parole de la trame en le suréchantillonnant à une fréquence de suréchantillonnage multiple de la fréquence tonale estimée, et on calcule les composantes spectrales du signal de parole sur la trame sur la base du signal conditionné pour leur soustraire lesdites quantités. Cette disposition permet de privilégier les fréquences les plus proches de la fréquence tonale estimée par rapport aux autres fréquences. On évite ainsi de protéger des harmoniques relativement éloignées de celles de la fréquence tonale. On préserve donc au mieux le caractère harmonique du signal de parole. Pour calculer les composantes spectrales du signal de parole, on distribue le signal conditionné par blocs de N échantillons soumis à
une transformation dans le domaine fréquentiel, et on choisit le rapport entre la fréquence de suréchantillonnage et la fréquence tonale estimée comme un diviseur du nombre N.

.
WO 99/14739 PCT/FR98/01981 . -La technique précédente peut encore être affinée en estimant la fréquence tonale du signal de parole sur une trame de la manière suivante .
- on estime des intervalles de temps entre deux ruptures consécutives du signal attribuables à des fermetures de la glotte du locuteur intervenant pendant la durée de la trame, la fréquence tonale estimée étant inversement proportionnelle auxdits intervalles de temps ;
- on interpole le signal de parole dans lesdits intervalles de temps, afin que le signal conditionné
résultant de cette interpolation présente un intervalle de temps constant entre deux ruptures consécutives.
Cette façon de procéder construit artificiellement une trarme de signal sur laquelle le signal de parole présente des ruptures à intervalles constants. On prend ainsi en compte d'éventuelles variations de la fréauence tonale sur la durée d'une trame.
Une amélioration supplémentaire consiste en ce que, après le traitement de chaque trame on conserve, parmi les échantillons du signal de parole débruité
fournis par ce traitement, un nombre d'échantillons égal à
un multiple entier de fois le rapport entre la fréquence d'échantillonnage et la fréquence tonale estimée. Ceci évite les problèmes de distorsion provoqués par les discontinuités de phase entre trames, qui ne sont généralement pas corrigées totalement par les techniques classiques de somme à recouvrement (overlap-add).
Le fait d'avoir conditionné le signal par la technique de suréchantillonnage permet d'obtenir une bonne mesure du degré de voisement du signal de parole sur la trame, à partir d'un calcul de l'entropie de ï'autocorrelation des composantes spectrales calculées sur ' la base du signal conditionné. Plus le spectre est perturbé, c'est-à-dire plus il est voisé, plus les valeurs ' de l'entropie sont faibles. Le conditionnement du signal de parole accentue l'aspect irrégulier du spectre et donc les variations de l'entropie, de sorte que celle-ci constitue une mesure de bonne sensibilité. Les _ . WO 99/14739 PCT/FR98/01981 autocorreïations seront généralement calculées sur la base du signal débruité pour obtenir les meilleures ' performances. I1 serait toutefois envisageable de les calculer sur la base du signal conditionné avant ~ S débruitage.
Les composantes spectrales du signal débruité, obtenues en soustrayant lesdites quantités des composantes spectrales du signal de parole, peuvent être utilisées pour calculer une courbe de masquage en appliquant un modèle de perception auditive. De préférence, les paramètres dont dépend la quantité soustraite d'une composante spectrale du signal de parole sur une trame incluent Glors un écart entre l'estimation majorée de la compcsant~ spectrale correspondante du bruit et la courbe 1~ de masquage calculée. Cette quantité soustraite peut notamment être limitée à la fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage. Cette façon de procéder repose sur l'observation qu'il suffit de débruiter les 20 fréquences de bruit audibles. A contrario, il ne sert à
rien d'éliminer du bruit qui est masqué par de la parole.
Dans un mode de réalisation avantageux, chaque estimation. majorée du bruit compris dans le signal de parole est obtenue en combinant une estimation à long 25 terme de ladite composante spectrale du bruit, et une mesure de la variabilité de ladite composante spectrale du bruit autour de son estimation à long terme. On obtient ainsi un estimateur de bruit particulièrement robuste aux variations du bruit du fait qu'il combine deux estimateurs 30 distincts, l'un rendant compte des fluctuations à long terme du bruit, et l'autre de sa variabilité à court terme.
D'autres particularités et avantages de la présente invention apparaîtront dans la description ci-35 après d'exemples de réalisation non limitatifs, en référence aux dessins annexés, dans lesquels .

WO 99/14739 PCT/FR98/01981 . -- g _ - la figure 1 est un schéma synoptique d'un système de débruitage mettant en ouvre la présente invention ; ' - les figures 2 et 3 sont des organigrammes de procédures utilisées par un détecteur d'activité vocale du système de la figure 1 ;
- la figure 4 est un diagramme représentant les états d'ur_ automate de détection d'activité vocale ;
- la figure 5 est un graphique illustrant les 1~~ variations d'un degré d'activité vocale ;
- la figure 6 est un schéma synoptique d'un module de surestimation du bruit du système de la figure 1 ;
- la figure 7 est un graphique illustrant le calcul d'une courbe de masquage ;
- la figure 8 est un grapr.ique illustrant l'exploitation des courbes de masquage dans le système de la figure 1 ;
- la figure 9 est un schéma synoptique d'un autre système de débruitage mettant en ouvre la présente 20 invention ;
- la figure 10 est un graphique illustrant une méthode d'analyse harmonique utilisable dans un procédé
selon l'invention ; et - la figure 11 montre partiellement une variante 25 du schéma synoptique de la figure 9.
Le système de débruitage représenté sur la figure 1 traite un signal numérique de parole s. Un module de fenêtrage 10 met ce signal s sous forme de fenêtres ou trames successives, constituées chacune d'un nombre N
3û d'échantillons de signal numérique. De façon classique, ces trames peuvent présenter des recouvrements mutuels.
Dans la suite de la présente description, on considérera, sans que ceci soit limitatif, que les trames sont constituées de N=256 échantillons à une fréquence 35 d'échantillonnage Fe de 8 kHz, avec une pondération de Hamming dans chaque fenêtre, et des recouvrements de 50=,, entre fenêtres consécutives.

trame de signal est transformée dans le domaine fréquent'iel par un module 11 appliquant un algorithme classique de transformée de Fourier rapide (TFR) pcur calculer le module du spectre du signal. Le module 11 S délivre alors un ensemble de N=256 composantes fréquentielles du signal de parole, notées Sn~i' où n désigne le numéro de la trame courante, et f une fréquence du spect_-e discret. Du fait des propriétés des signaux numériques dans le domaine fréquentiel, seuls les N/2=128 1~ premiers échantillons sont utilisés.
Pour calculer les estimations du bruit contenu dans le - signal s, on n'utilise pas la résolution fréquenti~lle disponible en sortie de la transformée de Fourier rapide, mais une résolution pl~.s ---ib4~
l~ déterminée par un nombre I de bandes de fréquences couvrant la bande [O,Fe/2] du signal. Chaque bande i ( 1 <_ i <_ I ) s' étend entre une fréquence inférieure f ( i-1 ) et une fréquence supérieure f ( i ) , avec f ( 0) =0, et f ( I ) =Fe/2 .
Ce découpage en bandes de fréquences peut être uniforme 2C (f(i)-f(i-1)=Fe/2I). I1 peut également étre non uniforme (par exemple selon une échelle de barks). Un module 12 calcule les moyennes respectives des composantes spectrales Sn~f du signal de parole par bandes, par exemple par une pondération uniforme telle que .
1 ~ s f (1) 2 5 Sn,i - f (i) - f (.i-1) n' f e~f(i-1) ,f(i)~
Ce moyennage diminue les fluctuations entre les bandes en moyennant les contributions du bruit dans ces bandes, ce qui diminuera la variance de l'estimateur de bruit. En outre, ce moyennage permet une forte~diminution 30 de la complexité du système.
Les composantes spectrales moyennées Sn~i sont adressées à un module 15 de détection d'activité vocale et â un module 16 d'estimation du bruit. Ces deux modules 15, 16 fonctionnent conjointement, en ce sens que des degrés 35 d'activité vocale yn~i mesurés pour les différentes bandes par le :roduîe 15 sont utilisés par le module 16 pour estimer l'énergie à long terme du bruit dans les différentes bandes, tandis que ces estimations à long ' terme Bn~i sont utilisées par le module 15 pour procéder à
un débruitage a priori du signa? de parole dans les différentes bandes pour déterminer les degrés d'activité
vocale v ~n, i' Le fonctionnement des modules 15 et 16 peut correspcr_dre aux organigrammes représentés sur les figures 1~ 2 et 3.
Aax étapes 17 à 20, le module 15 procède au débruitaç~ a priori du signal da parole dans les différentes bardes i pour la trame de si~gr.aî ~. Ce débruitage a priori est effectué selon un processus 15 classique de soustraction spectrale non linéaire à partir d'estimations du bruit obtenues lors d'une ou plusieurs trames précédentes. A l'étape 17, le module 15 calcule, avec la résolution des bandes i, la réponse en fréquence Hpn~i du filtre de débruitage a priori, selon la formule .
Sn,i - an-il i- Bn-Zl,i 2 0 Hpn~i - S ~ ( 2 ) n-i2,i où il et t2 sont des retards exprimés en nombre de trames (zl >_ l, T2 ? 0 ) , et an~i est un coefficient de surestimation du bruit dont la détermination sera expliquée plus loin.
Le retard T1 peut être fixe (par exemple T1=1) ou variable.
25 I1 est d'autant plus faible qu'on est confiant dans la détection d'activité vocale.
Aux étapes 18 à 20, les composantes spectrales Epn~i sont calculées selon .
~pn~i = max~Hpn~i. Sn~i . api. Bn_,~l~i~ (3) 30 où pipi est un coefficient de plancher proche de 0, servant classiquement à éviter que le spectre du signal débruité

. CA 02304015 2000-03-15 prenne des valeurs négatives ou trop faibles qui provoqueraient un bruit musical. , Les étapes 17 à 20 consistent donc essentiellement à soustraire du spectre du signal une estimation, majorée par le coefficient an_il,i, du spectre du bruit estimé a priori.
A l'étape 21, le module 15 calcule l'énergie àu signal débruité a priori dans les différentes bandes i pour la trame n . En,i - EPn,i. I1 calcule aussi une moyenne globale En~O de l'énergie du signal débruité a priori, par une somme des énergies par bande E ., n, 1 pondérée par les largeurs de ces bandes. Dans les notations ci-dessous, l'indice i=0 sera utilisé _~our désigner la bande globale du signal.
i5 Aux étapes 22 et 23, le module 15 calcule, pour chaque bande i (0<_i<I), une grandeur ~En~i représentant la variation à court terme de l'énergie du signal débruité
dans la bande i, ainsi qu' une valeur à long terme En~i de l'énergie du signal débruité dans la bande i. La grandeur ~En ~ i peut être calculée par une formule simplifiée de dérivation _ DE -_ En-4,i + En-3,i - En-1,i - En,i n,i Quant à
10 ' l'énergie à long terme En~i, elle peut être calculée à
l'aide d'un facteur d'oubli B1 tel que 0<Bl<1, à savoir En,i - B1 . En_l~i + (1-B1) . En~i .
- 25 Après avoir calculé les énergies En~i du signal débruité, ses variations à court terme ~En~~ et ses - valeurs à long terme En~i de la manière indiquée sur la figure 2, le module 15 calcule, pour chaque bande i (0<i<I), une valeur pi représentative de l'évolution de l'énergie du signal débruité. Ce calcul est effectué aux WO 99/14739 PCT/FR98/01981 ~ -étapes 25 à 36 de la figure 3, exécutées pour chaque bande i entre _=0 et i=I. Ce calcul fait appel à un estimateur à
long terme de l'enveloppe du bruit bai, à un estimateur interne bii et à un compteur de trames bruitées bi.
A l'étape 25, la grandeur DEn~i est comparée à un seuil El. Si le seuil E1 n'est pas atteint, le compteur bi est incrémenté d'une unité à l'étape 26. A l'étape 27, l'estimateur à long terme bai est comparé à la valeur de l' énergie lissée En~i . Si bai>_ En~i , l' estimateur bai est i0 pris égal à la valeur lissée En~i à l'étape 28, et le compteur b: est remis à zéro. La grandeur p, qui est 1 _ prise égale au rapport bai/En~i (étape 36), est alors égale à 1.
Si l'étape 27 montre que bai< En~i, le compteur bi est comparé à une valeur limite bmax à l'étape 29. Si bi>bmax, le signal est considéré comme trop stationnaire pour supporter de l'activité vocale. L'étape 28 précitée, qui revient à considérer que la trame ne comporte que du bruit, est alors exécutée. Si bi<-bmax à l'étape 29, l'estimateur interne bii est calculé à l'étape 33 selon .
bü = (1-Bm) . Envi + Bm . bai ( 4 ) Dans cette formule, Bm représente un coefficient de mise à
jour compris entre 0,90 et 1. Sa valeur diffère selon l'état d'un automate de détection d'activité vocale (étapes 30 à 32). Cet état 8n-1 est celui déterminé lors du traitement de la trame précédente.. Si l'automate est -dans un état de détection de parole (8n_1=2 à l'étape 30), le coefficient Bm prend une valeur Bmp très proche de 1 pour que l' estimateur du bruit soit très faiblement mis à
jour en présence de parole. Dans le cas contraire, le coefficient Bm prend une valeur Bms plus faible, pour permettre une mise à jour plus significative de l'estimateur de bruit en phase de silence. A l'étape 34, l'écart bai-bii entre l'estimateur à long terme et l'estimateur interne du bruit est comparé à un seuil s2.
Si le seuil e2 n'est pas atteint, l'estimateur à long terme ba; est mis à jour avec la valeur de l'estimateur interne bii à l'étape 35. Sinon, l'estimateur à long terme bai reste inchangé. On évite ainsi que de brutales variatio~s dues à un signal de parole conduisent à une mise à four de l'estimateur de bruit.
l~~ Après avoir obtenu les grandeurs pi, le module 15 procède aux décisions d'activité vocale à l'étape 37. Le modul e _5 met d' abord à jour l' état de l' a~atcma~= ~._ déte~ticr_ selon la grandeur p0 calculée pour l'ensemble de la bande du signal. Le nouvel état 8n de l'automate dépend 15 de l'état précédent 8n-1 et de p0, de la manière représentée sur la figure 4.
Quatre états sont possibles . b=0 détecte le silence, ou absence de parole ; 8=2 détecte la présence d'une activité vocale ; et les états 8=1 et 8=3 sont des 20 états intermédiaires de montée et de descente. Lorsque l'automate est dans l'état de silence (8n-1=0), il y reste si p0 ne dépasse pas un premier seuil SE1, et il passe dans l'état de montée dans le cas contraire. Dans l'état de montée (8n-1=1), il revient dans l'état de silence si 25 p0 est plus petit que le seuil SEl, il passe dans l'état de parole si p0 est plus grand qu'un second seuil SE2 plus grand que le seuil SE1, et il reste dans l' état de montée si SE1<_ pO5SE2. Lorsque l'automate est dans l'état de parole (8n-1=2), il y reste si p0 dépasse un troisième 30 seuil SE3 plus petit que le seuil SE2, et il passe dans l'état de descente dans le cas contraire. Dans l'état de descen~e (8n_1=3), l'automate revient dans l'état de parole si p0 est plus grand que le seuil SE2, il revient -dans l'état de silence si p0 est en deçà d'un quatrième seuil S~J4 plus petit que le seuil SE2, et il reste dans l' état ûe descente si SE45 pOSSE2.
A l'étape 37, le module 15 calcule également les degrés d'activité vocale yn,i dans chaque bande i__>1. Ce degré ,~r,i est de préférence un paramètre non binaire, c'est-à-dire que la fonction n~i-g(pi) est une fonction Vâria'_'lt continûment entre 0 et 1 en fonction des valeurs prlseS par ~.~ ~~c.r'_û~'.:;r 'r''. Cc~i.~ ~C'::: tiG~:
i- a pa= exemple l'allure représentée sur la figure 5.
Le module 16 calcule les estimations du bruit par bande, qui seront utilisées dans le processus de 15 débruitage, en utilisant les valeurs successives des composantes Sn,i et des degrés d'activité vocale yn,i' Ceci correspond aux étapes 40 à 42 de la figure 3. A
l'étape 40, on détermine si l'automate de détection d'activité vocale vient de passer de l'état de montée à
20 l'état de parole. Dans l'affirmative, les deux dernières estimations B et B précédemment calculées n-l,i n-2,i pour chaque bande i>-1 sont corrigées conformément à la valeur de l'estimation précédente Bn_3,i. Cette correction est effectuée pour tenir compte du fait que, dans la phase de 25 montée (8=1), les estimations à long terme de l'énergie du bruit dans le processus de détection d'activité vocale _ (étapes 30 à 33) ont pu être calculées comme si le signal ne comportait que du bruit (Bm=Bms), de sorte qu'elles risquent d'être entachées d'erreur.
30 A l'étape 42, le module 16 met à jour les estimations du bruit par bande selon les formules .
Bn.i - ~'B- Bn-l,i + (1-~B) ~ Sn,i Bn~i - ;~ n~i. Bn_l~i + (1_~~ n~i) . Bn~i ( 6 ) où ~.B désigne un facteur d' oubli tel que 0<~,B<1 . La formule (5) met en évidence la prise en compte du degré
d' activi té vocale non binaire ~(n~ i .
Comme indiqué précédemment, les estimations à long terme du bruit Bn~i font l'objet d'une surestimation, par un module 45 (figure 1), avant de procéder au débruitage par soustraction spectrale non linéaire. Le module 45 calcule le coefficient de surestimation an~1 précédemment évoqué, ainsi qu'une estimation majorée ~n~; qui correspond essentiellement à an~1 . Bn~i .
L'organisation du module de surestimation 45 est représentée sur la figure 6. L'estimation majorée Bn~i est obtenue en combinant l'estimation à long terme Bn~i et une mesure ~Bn1 de la variabilité de la composante àu bruit dans la bande i autour de son estimation à long terme.
Dans l'exemple considéré, cette combinaison est, pour l'essentiel, une simple somme réalisée par un additionneur 46. Ce pourrait également être une somme pondérée.
Le coefficient de surestimation an~i est égal au rapport entre la somme Bn~i + ~Bn ï délivrée par l'additionneur 46 et l'estimation à long terme retardée Bn-T3,i (diviseur 47), plafonné à une valeur limite amax' par exemple amax-4 (bloc 48). Le retard i3 sert à corriger le cas échéant, dans les phases de montée (b=1), la valeur du coefficient de surestimation an~i, avant que les estimations à long terme aient été corrigées par les étapes 40 et 41 de la figure 3 (par exemple t3=3).

-' estimation majorée Bn,i est finalement prise égale à an,i. Bn-T3,i (multiplieur 49) .
_~ mesure OBni de la variabilité du bruit reflète la variance de l' estimateur de bruit. Elle est obtenue en fonction des valeurs de Sn, i et de Bn,i calculées pour un certain :ombre de trames précédentes sur lesquelles le signal de parole ne présente pas d'activité vocale dans la bande i . C' est une fonction des écarts , ISn-k,; - Bn-k il calculés four un nombre K de trames de silence (n-k<- n).
Dans l'exemple représenté, cette fonction est simpleme::=
le :naxi:~;~-:1 (bloc 50) . Pour chaque trame n, le degré
d'activité vocale yn,i est comparé à un seuil (bloc 51) pour décider si l' écart ISn,i - Bn,il, calculé en 52-53, doit ou non ötre chargé dans une file d'attente 54 de K
15 emplacements organisée en mode premier entré-premier sorti (FIFO). Si yn~i ne dépasse pas le seuil (qui peut être égal à 0 si la fonction g() a la forme de la figure 5), la FI FO 54 n' est pas alimentée, tandis qu' elle l' est dans le cas contraire. La valeur maximale contenue dans la FIFO 54 20 est alors fournie comme mesure de variabilité ~Bni .
La mesure de variabilité ~Bnï peut, en variante, être obtenue en fonction des valeurs Sn,f (et non Sn,i) et Bn,i. On procède alors de la méme manière, sauf que la FIFO
54 contien t non pas ISn-k,i - Bn-k,il Pour chacune des bandes 25 i, mais plutôt ~ max ~ ISn-k,f - Bn-k,il f e f(i-1) ,f(i) Gràce aux estimations indépendantes des fluctuations à long terme du bruit Bn,i et de sa ", variabilité à court terme GIBn ï , l' estimateur majoré Bn i procure une excellente robustesse aux bruits musicaux du procédé de débruitage.
Une première phase de la soustraction spectrale est réalisée par le module 55 représenté sur la figure 1.
Cette phase fournit, avec la résolution des bandes i ( 1 <- i <_ I ) , la réponse en fréquence Hn~i d' un premier f il tre de débrui rage, en fonction des composantes Sn~ i et Bn~i et des coe~ficients de surestimation an~i. Ce calcul peut être effectué pour chaque bande i selon la formule .
' 1 max Sn~; - an~i. Bn~i , ~ü. Bn,i Hn~i =
Sn-T4,i où z4 est un retard entier déterminé tel que T4>-0 (par exemple t4=0). Dans l'expression (7), le coefficient (3i représente, comme le coefficient ~3pi de la formule (3), un plancher servant classiquement à éviter les valeurs négatives ou trop faibles du signal débruité.
De façon connue (EP-A-0 534 837), le coefficient de surestimation an~i pourrait être remplacé dans la formule (7) par un autre coefficient égal à une fonction de an~i et d'une estimation du rapport signal-sur-bruit (par exemple Sn~i/Bn,i), cette fonction étant décroissante selon la valeur estimée du rapport signal-sur-bruit. Cette fonction est alors égale à an~i pour les valeurs les plus faibles du rapport signal-sur-bruit. En effet, lorsque le signal est très bruité, il n'est a priori pas utile de diminuer le facteur de surestimation. Avantageusement, cette fonction décroît vers zéro pour les valeurs les plus élevées du rapport signal/bruit. Ceci permet de protéger les zones les plus énergétiques du spectre, où le signal de parole est le plus significatif, la quantité soustraite du signal tendant alors vers zéro.
Cette stratégie peut être affinée en l'appliquant _ de manière sélective aux harmoniques de la fréquence tonale (« pitch ») du signal de parole lorsque celui-ci .
présente une activité vocale.
Ainsi, dans la réalisation représentée sur la figure l, une seconde phase de débruitage est réalisée par un module 56 de protection des harmoniques. Ce module calcule, avec la résolution de la transformée de Fourier, la réponse en fréquence Hn~f d'un second filtre de débruitage en fonction des paramètres Hn~~ , an~; . Bn,i' Sn' Sn~~ et de la fréquence tonale fp=Fe/Tp calculée en de':c=
des phases de silence par un module d'analyse harmonique 57. En phase de silence (8n=0) , le module 56 n' est pas en service, c'est-à-dire que Hn~f = Hn~i pour chaque fréquence f d'une bande i. Le module 57 peut appliquer toute méthode connue d'analyse du signal de parole de la trame pour déterminer la période Tp, exprimée comme un nombre entier ou fractionnaire d'échantillons, par exemple une méthode de prédiction linéaire.
La protection apportée par le module 56 peut consister à effectuer, pour chaque fréquence f appartenant à une bande i .
' 2 n~1 > (3i. Bn~i (8) Hn~ f = 1 si ~ / ~ pl < ~f / 2 et ~ entier f - r~. f -Hn,f - Hn,f sinon 0f=Fe/N représente la résolution spectrale de la transformée de Fourier. Lorsque Hn~f =1, la quantité
soustraite de la composante Sn~f sera nulle. Dans ce calcul, les coefficients de plancher ~3i (par exemple . PCTIFR98I01981 ~ WO 99/14739 j31 = ~il~ ) expriment le fait que certaines harmoniques de la fréquence tonale fp peuvent être masquées par du bruit, de sorte qu'il n'est pas utile de les protéger.
Cette stratégie de protection èst de préférence appliquée pour chacune des fréquences les plus proches àes harmoniques de fp, c'est-à-dire pour r~ entier quelconque.
Si on désigne par 8fp la résolution fréquentie112 avec 1 aa_uelle le module d' analyse 57 produit 1 a rréquence tonale estimée fp, c'est-à-dire que la fréquence tonale 1~ réelle est comprise entre fp-8fp/2 et fp+8fp/2, alors l'écart entre la r)-ième harmonique de la fréquence tonale réelle est son estimation r~xfp (condition (9)) peut aller jusqu' à ~r~x$fp/2. Pour les valeurs élevées de r~, cet écart peut être supérieur à la demi-résolution spectrale ~f/2 de 15 la transformée de Fourier. Pour tenir compte de cette incertitude et garantir la bonne protection. des harmonia_ues de la fréquence tonale réelle, on peut protéger chacune des fréquences de l'intervalle Lr)xfp- r~x8fp/2 , r~xfp+ r~x8fp/2~, c' est-à-dire remplacer la 2condition (9) ci-dessus par ,.
~r~ entier ~ If - r~. fpl <- ~r~. 8fp + Of)/2 ( g' ) Cette façon de procéder (condi'tion (9')) présente un intérêt particulier lorsque les valeurs de r) peuvent être grandes, notamment dans le cas où le procédé est utilisé
25 dans un système à bande élargie.
Pour chaque fréquence protégée, la réponse en fréquence corrigée Hn~ f peut être égale à 1 comme indiqué
ci-dessus, ce qui correspond à la soustraction d'une quantité nulle dans le cadre de la soustraction spectrale, 3C c'est-à-dire à une protection complète de la fréquence en question. Plus généralement, cette réponse en fréquence corrigée Hn~f pourrait être prise égale à une valeur comprise entre 1 et Hn f selon le degré de protection souhait " ce qui correspond à la soustraction d'une , quantité inférieure à celle qui serait soustraite si la fréquence en çuestion n'était pas protégée.
Les composantes spectrales Sn~j d'ur_ signal débruité sont calculées par un multiplieur 58 .

Sn~ f = Hn~ f. Sn~ f ( ) Ce signal Sn f est fourni à un module 60 qui calcule, pour chaque trame n, une courbe de masquage e:.
appliqua~t ur~ modèle psychoacoustique de perception auditive par l'oreille humaine.
Le phénomène de masquage est un principe connu du fonctionnement de l'oreille humaine. Lorsque deux fréquences sont entendues simultanément, il est possible que l'une des deux ne soit plus audible. On dit alors qu'elle est masquée.
il existe différentes méthodes pour calculer des courbes de masquage. On peut par exemple utiliser celle développée par J.D. Johnston («Transform Coding of Audio Signais Using Perceptual Noise Criteria », IEEE Journal on Selected Area in Communications, Vol. 6, No. 2, février 1988). Dans cette méthode, on travaille dans l'échelle fréquentielle des barks. La courbe de masquage est vue comme la convolution de la fonction d'étalement spectral de la membrane basilaire dans le domaine bark avec le signal excitateur, constitué dans la présente application par le signal Sn f. La fonction d'étalement spectral peut être modélisée de la manière représentée sur .
la figure 7. Pour chaque bande de bark, on calcule la contribution des bandes inférieures et supérieures convoluées par la fonction d'étalement de la membrane basilaire .

C - q 1 Sn,q' Q Sn,q' n'q q~0 (l O1o/lol(q-q' ) + , ~ 25/10 (q'-q) ( 11 ) J q -q+1 ~10 où les indices q et q' désignent les bandes de bark (O~a, q' ~Q) . et Sn~q~ représente la moyenne des composantes Sn~i du signal excitateur débruité pour les fréquences discrèt's f appartenant à la bande de bark q'.
Le seuil de masquage Mn~q est obtenu par le module 60 pour chaque bande de bark q, selon la formule .
(i2) Mn~ q Vin, q~Rq où Ra dépend du caractère plus ou moins voisé du signal.
ï0 De façon connue, une forme possible de Rq est .
l0.1og10 (Rq) - (A+q) ,x + B. (1-x) (13) avec A=14,5 et B=5,5. x désigne un degré de voisement du signal de parole, variant entre zéro (pas de voisement) et 1 (signal fortement voisé). Le paramètre x peut étre de la forme connue .
SFM
min 1 SFMmax ~ (12) où SFM représente, en décibels, le rapport entre la moyenne arithmétique et la mo~enne géométrique de l'énergie des bandes de bark, et SFT~ax=-60 dB.
Le système de débruitage comporte encore un module 62 qui corrige la réponse en fréquence du filtre de débruitage, en fonction de la courbe de masquage Mn~
q calculée par le module 60 et des estimations majorées Bn~i calculées par le module 45. Le module 62 décide du niveau de débruitage qui doit réellement être atteint.
En comparant l'enveloppe de l'estimation majorée du bruit avec l'enveloppe formée par les seuils de masquage Mn~q, on décide de ne débruiter le signal que dans la mesure où l'estimation majorée Bn~~ dépasse la courbe de masquage. Ceci évite de supprimer inutilement du bruit masqué par de la parole.
La nouvelle réponse Hn~f, pour une fréquence f apparten ant à la bande i définie par le module 12 et à la bande de bark q, dépend ainsi de l'écart relatif entre l'estimation majorée Bn; de la composante spectrale correspondante du bruit et la courbe de masquage Mn~q, de la manière suivante .
Bn.i _ Mn.q Hn~ f = 1 - Cl - Hn~ f~ . max , , 0 ( 14 ) Bn.i 1 ~~ En d' autres termes, la quantité sous tr aite d' uns composante spectrale Sn f, dans le processus de soustraction spectrale ayant la réponse fréquentielle Hn~f, est sensiblement égale au minimum entre d'une part la quantité soustraite de cette composante spectrale dans le processus de soustraction spectrale ayant la réponse fréquentielle Hn f, et d'autre part la fraction de l'estimation majorée Bn~i de la composante spectrale correspondante du bruit qui, le cas échéant, dépasse la courbe de masquage Mn~q.
La figure 8 illustre le principe de la correction appliquée par le module 62. Elle montre schématiquement un exemple de courbe de masquage Mn~q calculée sur la base des 'composantes spectrales Sn~f du signal débruité, ainsi que l'estimation majorée Bni du spectre du bruit. La quantité finalement soustraite des composantes Sn~f sera celle représentée par les zones hachurées, c'est-à-dire limitée à la fraction de l'estimation majorée B,~~i des composantes spectrales du bruit qui dépasse la courbe de masquage.

. ~ PCT/FR98/01981 Cette soustraction est effectuée en multipliant la réponse fréquentielle Hn~f du filtre de débruitage par les composantes spectrales Sn~f du signal de parole (multi_~lieur 64). Un module 65 reconstruit alors le signal débruité dans le domaine temporel, en opérant la transformée de Fourier rapide inverse (TFRI) inverse des échantillons de fréquence Sn~f délivrés par le multiplieur 64. Peur chaque trame, seuls les N/2=128 premiers échant~_'~ïons du signal produit par le module 65 sont l~ délivrés comme signa l débruité final s3, après reconst=uction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente (module 66).
La figure 9 montre une forme de réalisation préférée d'un système de débruitage mettant en ceuvre 15 l'invention. Ce système comporte un certain nombre d'éléments semblables à des éléments correspondants du système de la figure 1, pour lesquels on a utilisé les mêmes références numériques. Ainsi, les modules 10, 11, 12, 15, 16, 45 et 55 fournissent notamment les quantités 20 Sn~ i~ E..,,i' ~n,i' Bn,i et Hn~f pour effectuer le débruitage sélectif.
La résolution en fréquence de la transformée de Fourier rapide 11 est une limitation du système de la figure 1. En effet, la fréquence faisant l'objet de la 25 protection par le module 56 n'est pas nécessairement la fréquence tonale précise fp, mais la fréquence la plus proche de celle-ci dans le spectre discret. Dans certains cas, on peut alors protéger des harmoniques relativement éloignées de celle de la fréquence tonale. Le système de 30 la figure 9 pallie cet inconvénient grâce à un conditionnement approprié du signal de parole.
Dans ce conditionnement, on modifie la fréquence d' échantillonnage du signal de telle sorte que la période 1/fp couvre exactement un nombre entier de temps 35 d'échantillon du signal conditionné.

WO 99/14739 PCT/FR98/01981 ' De nombreuses méthodes d'analyse harmonique pouvant être mises en ouvre par le module 57 sont capables de fournir une valeur fractionnaire du retard Tp, exprimé
en nombre d'échantillons à la fréquence d'échantillonnage initiale Fe. On choisit alors une nouvelle fréquence d'échantillonnage fe de telle sorte qu'elle soit égale à
un multiple entier de la fréquence tonale estimée, soit fe=p.fp=p.Fe/Tp=K. Fe, avec p entier. Afin de ne pas perdre d'échantillons de signal, il convient que fe soit supérieure à Fe . On peut notamment imposer qu' elle soit comprise entre Fo et 2Fe (1<_K_<2), pour faciliter la mise en ouvre du conditionnement.
Bien entendu, si aucune activité vocale n'est détectée sur la trame courante (8n~0) , ou si le retard Tp estimé par le module 57 est entier, il n'est pas nécessaire de conditionner le signal.
Afin que chacune des harmoniques de la fréquence tonale corresponde également à un nombre entier d'échantillons du signal conditionné, l'entier p doit être un diviseur de la taille N de la fenêtre de signal produite par le module 10 . N=ap, avec a entier. Cette taille N est usuellement une puissance de 2 pour la mise en ceuvre de la TFR. Elle est de 256 dans l'exemple considéré.
La résolution spectrale Of de la transformée de Fourier discrète du signal conditionné est donnée par ~f=p.fp/N=fp/a. On a donc intérét à choisir p petit de façon à maximiser a, mais suffisamment grand pour suréchan'tillonner. Dans l'exemple considéré, où Fe=8 kHz et N=256, les valeurs choisies pour les paramètres p et a sont indiquées dans le tableau I.

~ WO 99/14739 500 Hz < fp < 1000 Hz 8 < Tp 16 p = 16 a = 16 <

250 Hz < fp < 500 Hz 16 < Tp 32 p = 32 a = 8 <

125 .z < fp < 250 Hz 32 < Tp 64 p = 64 a = 4 <

62, 5 ~z < fp < 125 Hz 64 < Tp 128 p 128 a = 2 < =

31,25 z < fp < 62,5 Hz 128 < Tp 256 p 256 a = 1 < =

Tableau I
Ce choix est effectué par un module 70 selon la valeur du retard Tp fournie par le module d'analyse harmon;que 57. Le module 70 fournit le rapport K entre les fréqueTces d'échantillonnage à trois modules de changement de fréc_uence 71, 72, 73.
Le module 71 sert à transformer les valeurs Sn~i, relatives aux bandes i définies Bn,i , ün,.i , Bn,i et Hn~f par le module 12, dans l'échelle des fréquences modifiées (fréquence d'échantillonnage fe). Cette transformation consiste simplement à dilater les bandes i dans le facteur K. Les valeurs ainsi transformées sont fournies au module 56 de protection des harmoniques.
Celui-ci opère alors de la même manière que précéde_nment pour fournir la réponse en fréquence Hn~ f du filtre de débruitage. Cette réponse Hn f est obtenue de la même manière que dans le cas de la figure 1 (conditions (8) et (9)), à cette différence près que, dans la condition (9), la fréquence tonale fp=fe/p est définie selon la valeur du retard entier p fourni par le module 70, la résolution en fréquence t1f étant également fournie par ce module 70.
Le module 72 procède au suréchantillonnage de la trame de N échantillons fournie par le module de fenêtrage CA 02304015 2000-03-15 , _ '7~ _ 10. Le suréchantillonnage dans un facteur K rationnel (K=K1/K2) consiste à effectuer d'abord un suréchantillonnage dans le facteur entier Kl, puis un sous-échantillonnage dans le facteur entier K2. Ces suréchantillonnage et sous-échantillonnage dans des facteurs entiers peuvent être effectués classiquement au moyen de bancs'~de filtres polyphase.
La trame de signal conditionné s' fournie par le module 72 comporte KN échantillons à la fréquence fe. Ces échantillons sont adressés à un module 75 qui calcule leur transformée de Fourier. La transformation peut étre effectuée à partir de deux blocs de N=256 échantillons .
l'un constitué par les N premiers échantillons de la trame de longueur KN du sig-:_? conditionné s', et l'autre par les N derniers échantiïlons de cette trame. Les deux blocs présentent donc un recouvrement de (2-K)x100~. Pour chacun des deux blocs, on obtient un jeu de composantes de Fourier Sn~f. Ces composantes Sn~f sont fournies au multiplieur 58, qui les multiplie par la réponse spectrale Hn~f pour délivrer les composantes spectrales Sn~f du premier signal débruité.
Ces composantes Sn~f sont adressées au module 60 qui calcule les courbes de masquage de la manière précédemment indiquée.
De préférence, dans ce calcul des courbes de masquage, la grandeur x désignant le degré de voisement du signal de parole (formule (13)) est prise de la forme x=1-H, où H est une entropie de l'autocorrelation des composantes spectrales Sn~f du signal conditionné
débruité. Les autocorrelations A(k) sont calculées par un module 76, par exemple selon la formule .

Sn,f ~ Sn,f+k f =0 A(k) = N/2_1 N/2-1 ( 15 ) Sn,f ~ Sn,f+f' f=0 f'=0 ~~n module 77 calcule ensuite l'entropie normalisée H, et ia fournit au module 60 pour le calcul de la courbe de masçuage (voir S.A. McClellan et al . « Spectral ._. Entropy . an Alternative Indicator for Rate Allocation ? », Proc. ICASSP'94, pages 201-204) .

A(k) . log~A(k)~
k=0 H - log (N/2) ( 16 ) Grâce au conditionnement du signal, ainsi qu'à son débruitage par le filtre Hn~f, l'entropie normalisée H
constitue une mesure de voisement très robuste au bruit et aux variations de la fréquence tonale.
Le module de correction 62 opère de la même manière que celui du système de la figure 1, en tenant ", compte du bruit surestimé Bn~i remis à l'échelle par le module de changement de fréquence 71. Il fournit la réponse en fréquence Hn f du filtre de débruitage définitif, qui est multipliée par les composantes spectrales Sn~f du signal conditionné par le multiplieur 64. Les composantes Sn~f qui en résultent sont ramenées dans le domaine temporel par le module de TFRI 65. En sortie de cette TFRI 65, un module 80 combine, pour chaque trame, les deux blocs de signal issus du traitement des deux blocs recouvrants délivrés par la TFR 75. Cette combinaison peut consister en une somme avec pondération de Hamming des échantillons, pour former une trame de signal conditionné débruité de KN échantillons.

a Le signal conditionné débruité fourni par le module 80 fait l'objet d'un changement de fréquence d'échantillonnage par le module 73. Sa fréquence ' d'échu.~.tillonnage est ramenée à Fe=fe/K par les opérations inverses de celles effectuées par le module 75. Le rnodul e 73 délivre N=256 échantillons par trame. Après la reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente, seuls les N/2=128 premiers échantillons de la trame courante sont i0 finaleme._nt conservés pour former le signal débruité final s3 (module ~6).
Dans une forme de réalisation préférée, un module 82 gére les fenétres formées par le module 10 et sauvegardées par le module 66, de façon telle qu'on sauvegarde un nombre M d'échantillons égal à un multiple entier de Tp=Fe/fp. On évite ainsi les problèmes de discontinuité de phase entre les trames. De façon correspondante, le module de gestion 82 commande le module de fenêtrage 10 pour que le recouvrement entre la trame courante et la prochaine corresponde à N-M. I1 sera tenu de ce recouvrement de N-M échantillons dans la somme à
recouvrement effectuée par le module 66 lors du traitement de la prochaine trame. A partir de la valeur de Tp fournie par le module d'analyse harmonique 57, le module 82 calcule le nombre d'échantillons à sauvegarder M=TpxE[N/(2Tp)], E[] désignant la partie entière, et commande de façon correspondante les modules 10 et 66.
Dans le mode de réalisation qu'on vient de décrire, la fréquence tonale est estimée de façon moyenne sur la trame. Or la fréquence tonale peut varier quelque peu sur cette durée. I1 est possible de tenir compte de ces variations dans le cadre de la présente invention, en conditionnant le signal de façon à obtenir artificiellement une fréquence tonale constante dans la trame.
Pour cela, on a besoin que le module 57 d'analyse harmonique fournisse les intervalles de temps entre les ruptures consécutives du signal de parole attribuables à
des fermetures de ïa glotte du locuteur intervenant pendant la durée de la trame. Des méthodes utilisables pour détecter de telles micro-ruptures sont bien connues dans le domaine de l'analyse harmonique des signaux de paroles. On pourra à cet égard consulter les articles suivants . M. BASSEVILLE et al., « Sequential detection of abrupt changes in spectral characteristics of digital signals », IEEE Trans. on Information Theory, 1983, Vol.
1~~ IT-29, n°5, pages 708-723 ; R. ANDRÉ-OBRECHT, « A new statistical approach for the automatic segmentation of cor_tinucus speech signals », IEEE Trans. on Acous., Speech and Sig. Proc., Vol. 36, N°1, janvier 1988 ; et C. riURGIA
et al., « An algorithm for the estimation of glottal closure instants using the sequential detection of abrupt changes in speech signals », Signal Processing VII, 1994, pages 1685-1688.
Le principe de ces méthodes est d'effectuer un test statistique entre deux modèles, l'un à court terme et l'autre à long terme. Les deux modèles sont des modèles adaptatifs de prédiction linéaire. La valeur de ce test statistique wm est la somme cumulée du rapport de vraisemblance a posteriori de deux distributions, corrigée par la divergence de Kullback. Pour une distribution de résidus ayant une statistique gaussienne, cette valeur wm est donnée par .

1 2. em. 6~ (em) a0 e~

wm 2 - 1 + 2 2 + 1 - 2 (17) = ol . a0 ~l où em et 6~ représentent le résidu calculé au moment de l'échantillon m de la trame et la variance du modèle à
long terme, em et 61 représentant de même le résidu et la variance du modèle à court terme. Plus les deux modèles sont proches, plus la valeur wm du test statistique est proche de 0. Par contre, lorsque les deux moàèles sont PCTIFR98101981 ~ .

'loi nés l'un de l'autre, cette valeur wm devient e g négative. ce qui dénote une rupture R du signal.
La figure 10 montre ainsi un exemple possible d'évolution de la valeur wm, montrant les ruptures R du signal de parole. Les intervalles de temps tr ~r - 1~~,.,.) entre deux ruptures consécutives R sont calculés, et exprimés en nombre d'échantillons du signal de parole. Chacun de ces intervalles tr est inversement proportionnel à la fréquence tonale fp, qui est ainsi estimée localement . fp=Fe/tr sur le r-ième intervalle.
On peut alors corriger les variations temporelles de la Lréquence tonale (c'est-à-dire le fait que les intervalles tY ne sont pas tous égaux sur une trame donnée), afin'd'avoir une fréquence tonale constante dans 15 chacune des trames d'analyse. Cette correction est effectuée par une modification de la fréquence d'échantillonnage sur chaque intervalle tr, de façon à
obtenir, après suréchantillônnage, des intervalles constants entre deux ruptures glottiques. On modifie donc 20 la durée entre deux ruptures en faisant un suréchantillonnage dans un rapport variable, de façon à se caler sur l'intervalle le plus grand. De plus, on fait en sorte de respecter la contrainte de conditionnement selon laquelle la fréquence de suréchantillonnage est multiple 25 de la fréquence tonale estimée.
La figure 11 montre les moyens utilisés pour calculer le conditionnement du signal dans ce dernier cas.
Le module 57 d'analyse harmonique est réalisé de façon à
mettre en oeuvre 1a méthode d'analyse ci-dessus, et à
30 fournir les intervalles tr relatifs à la trame de signal produite par le module 10. Pour chacun de ces intervalles, le module 70 (bloc 90 sur la figure 11) calcule le rapport de suréchantillonnage Kr=pr/tr, où l'entier pr est donné
par la troisiëme colonne du tableau I lorsque tr prend les 35 valeurs indiquées dans la deuxième colonne. Ces rapports de suréchantillonnage Kr sont fournis aux modules de changement de fréquence 72 et 73, pour que ses interpolations soient effectuées avec le rapport d'échantillonnage Kr sur l'intervalle de temps S correspondant tr.
Le plus grand Tp des intervalles de temps tr fournis par le module 57 pour une trame est sélectionné
par le module 70 (bloc 91 sur la figure 11) pour obtenir un couple p,a comme indiqué dans le tableau I. La fréquence d'échantillonnage modifiée est alors fe=p.Fe/Tp comme précédemment, la résolution spectrale 4f de la transformée de Fourier discrète du signal conditionné
étant touj ours donnée par 0f=FA/ (a. Tn j . Pour le module de changement de fréquence 71, le rapport de suréchantillonnage K est donné par K=p/Tp (bloc 92). Le module 56 de protection des harmoniques de la fréquence tonale opère de la même manière que précédemment, en utilisant pour la condition (9) la résolution spectrale Of fournie par le bloc 91 et la fréquence tonale ~0 fp=fe/p définie selon la valeur du retard entier p fournie par le bloc 91.
Cette forme de réalisation de l'invention implique également une adaptation du module 82 de gestion des fenêtres. Le nombre M d'échantillons du signal débruité à
sauvegarder sur la trame courante correspond ici à un nombre entier d'intervalles de temps tr consécutifs entre deux ruptures glottiques (voir figure 10). Cette disposition évite les problèmes de discontinuité de phase entre trames, tout en tenant compte des variations possibles des intervalles de temps tr sur une trame.

Claims

REVENDICATIONS

1. Procédé de débruitage d'un signal de parole numérique (s) traité par trames successives, dans lequel:
- on effectue une analyse harmonique du signal de parole peur estimer une fréquence tonale (f p) du signal de parole sur chaque trame où il présente une activité
vocale;

- on calcule des composantes spectrales (S n,f' S n,i) du signal de parole sur chaque trame;
- on calcule pour chaque trame des estimation de composantes spectrales du bruit compris dans le signal de parole;
- on effectue une soustraction spectrale comportant au moins une étape consistant à soustraire respectivement, de chaque composante spectrale du signal de parole sur la trame (S n,f), une quantité dépendant de paramètres incluant au moins l'estimation de la composante spectrale correspondante du bruit pour ladite trame et la valeur de la fréquence tonale estimée.

2. Procédé selon la revendication 1, dans lequel on utilise la valeur de la fréquence tonale estimée (f p) pour sélectionner des fréquences protégées parmi l'ensemble des fréquences pour lesquelles on calcule des composantes spectrales du signal de parole, et dans lequel, pour soustraire d'une composante spectrale donnée (S n,f) du signal de parole, on adopte une quantité plus faible si ladite composante spectrale correspond à une fréquence protégée que si ladite composante spectrale ne correspond pas à une fréquence protégée.

3. Procédé selon la revendication 2, dans lequel les fréquences protégées sont sélectionnées de façon que la composante spectrale du signal de parole correspondant à
chaque fréquence protégée dépasse un niveau de bruit déterminé à partir de l'estimation correspondante de la composants spectrale du bruit.

4. Procédé selon la revendication 2 ou 3, dans lequel chaque fréquence protégée est, parmi l'ensemble des fréquences pour lesquelles on calcule des composantes spectrales du signal de parole, la plus proche d'un multiple entier de la fréquence tonale estimés (f p).

5. Procédé selon la revendication 2 ou 3, dans lequel chaque fréquence protégée est, parmi l'ensemble des fréquences pour lesquelles on calcule des composantes spectrales du signal de parole, la plus proche d'une fréquence d'un intervalle de la forme [~xf p - ~x.delta.f p/2 , ~xf p + ~x.delta.f p/2], f p désignant la fréquence tonale estimée, .delta.f p désignant la résolution en fréquence de l'estimation de la fréquence tonale, et ~ désignant un entier.

6. Procédé selon l'une quelconque des revendications 2 à 5, dans lequel la quantité soustraite de la composante spectrale (S n,f) du signal de parole à une fréquence protégée est sensiblement nulle.

7. procédé selon l'une quelconque des revendications 1 à 6, dans lequel, après avoir estimé la fréquence tonale (f p) du signal de parole sur une trame, on conditionne le signal de parole de la trame en le suréchantillonnant à
une fréquence de suréchantillonnage (f e) multiple de la fréquence tonale estimée, et on calcule les composantes spectrales (S n, f) du signal de parole sur la trame sur la base du signal conditionné (s') pour leur soustraire lesdites quantités.

8. Procédé selon la revendication 7, dans lequel on calcule des composantes spectrales (S n,f) du signal de parole en distribuant le signal conditionné (s') par blocs de N échantillons soumis à une transformation dans le domaine fréquentiel, et dans lequel le rapport (p) entre la fréquence de suréchantillonnage (f e) et la fréquence tonale estimée est un diviseur du nombre N.

9. Procédé selon la revendication 7 ou 8, dans lequel on estime un degré de voisement (~) du signal de parole sur la trame à partir d'un calcul de l'entropie (H) de l'autccorrelation des composantes spectrales calculées sur la base du signal conditionné.

10. Procédé selon la revendication 9, dans lequel lesdites composantes spectrales (S2n,f) dont on calcule l'autocorrelation (H) sont celles calculées sur la base du signal conditionné (s') après soustraction desdites quantités.

11. Procédé selon la revendication 9 ou 10, dans lequel le degré de voisement (~) est mesuré à partir une entropie normalisée H de la forme :

où N est le nombre d'échantillons utilisés pour calculer les composantes spectrales (S n,f) sur la base du signal conditionné (s'), et A(k) est l'autocorrelation normalisée définie par :

S~,f désignant la composante spectrale de rang f calculée sur la base du signal conditionné.

12. Procédé selon l'une quelconque des revendications précédentes, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) égal à un multiple entier de fois le rapport (T p) entre la fréquence d'échantillonnage (F e) et la fréquence tonale estimée (f p).

13. Procédé selon l'une quelconque des revendications 1 à 11, dans lequel l'estimation de la fréquence tonale du signal de parole sur une trame comporte les étapes suivantes :
- on estime des intervalles de temps (t r) entre deux ruptures consécutives (R) du signal attribuables à
des fermetures de la glotte du locuteur intervenant pendant la durée de la trame, la fréquence tonale estimée étant inversement proportionnelle auxdits intervalles de temps ;
- on interpole le signal de parole dans lesdits intervalles de temps, afin que le signal conditionné (s') résultant de cette interpolation présente un intervalle de temps constant entre deux ruptures consécutives.

14. Procédé selon la revendication 13, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) correspondant à un nombre entier d'intervalles de temps estimés (t r).

15. Procédé selon l'une quelconque des revendications précédentes, dans lequel on estime dans le domaine spectral des valeurs d'un rapport signal-sur-bruit que présente le signal de parole sur chaque trame, et dans lequel les paramètres dont dépendent les quantités soustraites incluent les valeurs estimées du rapport signal-sur-bruit, la quantité soustraite de chaque composante spectrale du signal de parole sur la trame étant une fonction décroissante de la valeur estimée correspondante du rapport signal-sur-bruit.

16. Procédé selon la revendication 15, dans lequel ladite fonction décroît vers zéro pour les valeurs les plus élevées du rapport signal-sur-bruit.

17. Procédé selon l'une quelconque des revendications précédentes, dans lequel des composantes spectrales (S~,f) d'un signal débruité, obtenues en soustrayant lesdites quantités des composantes spectrales (S n,f) du signal de parole, sont utilisées pour calculer une courbe de masquage (M n,q) en appliquant un modèle de perception auditive.

18. Procédé selon les revendications 11 et 17, dans lequel le calcul de la courbe de masquage (M n,q) fait intervenir le degré de voisement (x) mesuré par l'entropie normalisée H.

19. Procédé selon la revendication 17 ou 18, dans lequel les paramètres dont dépend la quantité soustraite d'une composante spectrale (S n,f) du signal de parole sur une trame incluent un écart entre une estimation majorée (~~,i) de la composante spectrale correspondante du bruit et la courbe de masquage calculée (M n,q).

20. Procédé selon la revendication 19, dans lequel on compare les estimations majorées (~~,i) des composantes spectrales du bruit pour une trame à la courbe de masquage calculée (M n,q), et dans lequel la quantité soustraite d'une composante spectrale (S n,f) du signal de parole, pour l'obtention des composantes (S~,f) soumises à la transformation vers 1e domaine temporel, est limitée à 1a fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage.

21. Procédé selon l'une quelconque des revendications précédentes, dans lequel la soustraction spectrale comporte :

- une première étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale (S n,f) du signal de parole sur la trame, une première quantité dépendant de paramètres incluant une estimation majorée (IMG) de la composante spectrale correspondante du bruit pour ladite trame et la fréquence tonale estimée (f p), de manière à obtenir des composantes spectrales (IMG) d'un premier signal débruité ;
- le calcul d'une courbe de masquage (M n,q) en appliquant un modèle de perception auditive à partir des composantes spectrales (IMG) du premier signal débruité ;
- la comparaison des estimations majorées (IMG) des composantes spectrales du bruit pour la trame à la courbe de masquage calculée (M n,q) ; et - une seconde étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale (S n,f) du signal de parole sur la trame, une seconde quantité égale au minimum entre ladite première quantité correspondante et la fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage, de manière à obtenir des composantes spectrales (IMG) d'un second signal débruité.

22. Procédé selon l'une quelconque des revendications précédentes, dans lequel les estimations de composantes spectrales du bruit prises en compte dans la soustraction spectrale sont des estimations majorées, chaque estimation majorée (B~,i) d'une composante spectrale du bruit compris dans le signal de parole étant obtenue en combinant une estimation à long terme (~ n,i) de ladite composante spectrale du bruit, et une mesure (.DELTA.B~x) de la variabilité de ladite composante spectrale du bruit autour de son estimation à long terme.

23. Procédé selon la revendication 22, dans lequel l'estimation à long terme ~n,i d'une composante spectrale du bruit sur une trame n, correspondant à une fréquence incluse dans une bande i, est calculée sous la forme :
~n,i = .gamma.n,i~ ~n-1,i + (1-.gamma.n,i)~~n,i ~n,i = .lambda.B~ ~n-1,i + (1-.lambda.B)~S n,i, .gamma.n,i désigne un degré d'activité vocale non binaire du signal de parole, déterminé pour la trame n relativement à
la bande de fréquences i, S n,i désigne une moyenne de l'amplitude du spectre du signal de parole de la trame n sur la bande i, et .lambda.B désigne un facteur d'oubli.

24. Procédé selon la revendication 23, dans lequel les degrés d'activité vocale (.gamma.n,i) pour la trame n sont déterminés en procédant à un débruitage a priori du signal de parole de la trame n sur la base d'estimations du bruit (.alpha.'n-~l,i~~n-~l,i) obtenues lors d'au moins une trame précédente, et en analysant les variations d'énergie du signal débruité a priori.

25. Procédé selon la revendication 24, dans lequel le degré d'activité vocale (.gamma.n,i) relativement à une bande de fréquences i est une fonction variant continûment entre 0 et 1.

26. Procédé selon la revendication 24 ou 25, dans lequel on calcule une estimation à long terme (E n,i) de l'énergie du signal débruité a priori dans la bande de fréquence i, et on compare cette estimation à long terme à
une estimation instantanée (E n,i) de cette énergie, calculée sur la trame n, pour obtenir le degré d'activité
vocale (.gamma. n,i) du signal de parole pour la trame n dans la bande de fréquence i.

27. Procédé selon l'une quelconque des revendications 23 à 26, dans lequel la mesure de la variabilité
d'une composante spectrale du bruit autour de son estimation à long terme (B n,i) pour une trame n, ladite composante spectrale correspondant à une fréquence incluse dans une bande i, est une fonction des écarts ¦S n-k,i - B n-k,i¦ calculés pour un nombre donné de trames n-k ~ n sur lesquelles le signal de parole ne présente pas d'activité vocale dans la bande i.

28. Procédé selon l'une quelconque des revendications 23 à 26, dans lequel la mesure de la variabilité
d'une composante spectrale du bruit autour de son estimation à long terme (B n,i) pour une trame n, ladite composante spectrale correspondant à une fréquence incluse dans une bande i, est une fonction des écarts maximum f .epsilon.[f~,f(i)[¦S n-k,f - B n-k,i¦ calculés pour un nombre donné de trames n-k~n sur lesquelles le signal de parole ne présente pas d'activité vocale dans la bande i, S n-k,f désignant la composante spectrale correspondant à une fréquence f pour la trame n-k, et l'intervalle de fréquences [f(i-1), f(i)[ correspondant à la bande i.

29. Procédé selon l'une quelconque des revendications précédentes, dans lequel on applique au résultat de la soustraction spectrale une transformation vers le domaine temporel pour construire un signal de parole débruité (s3).

30. Dispositif de débruitage d'un signal de parole, comprenant des moyens de traitement agencés pair mettre en oeuvre un procédé selon l'une quelconque des revendications précédentes.