DE69804329T2

DE69804329T2 - Verfahren und vorrichtung zur rauschunterdrückung eines digitalen sprachsignals

Info

Publication number: DE69804329T2
Application number: DE69804329T
Authority: DE
Inventors: Philip Lockwood; Stephane Lubiarz
Original assignee: EADS Defence and Security Networks SAS; Matra Nortel Communications SAS
Current assignee: EADS Defence and Security Networks SAS; Nortel Networks France SAS
Priority date: 1997-09-18
Filing date: 1998-09-16
Publication date: 2002-11-14
Anticipated expiration: 2018-09-17
Also published as: EP1016073B1; FR2768546A1; AU9169098A; BR9812655A; FR2768546B1; CN1276896A; ES2174484T3; CA2304015A1; JP2001516902A; EP1016073A1; DE69804329D1; WO1999014739A1

Description

Die vorliegende Erfindung betrifft digitale Verfahren zur Rauschunterdrückung von Sprachsignalen. Sie betrifft insbesondere die Rauschunterdrückung mittels nichtlinearer Spektralsubtraktion.
Infolge der Verbreitung neuer Formen der Kommunikation, insbesondere der Mobiltelefone, findet die Kommunikation mehr und mehr in stark verlärmten Umgebungen statt. Der zu der Sprache hinzugekommene Lärm tendiert daher dazu, die Kommunikationen zu stören, indem er eine optimale Komprimierung des Sprachsignals behindert und ein unnatürliches Hintergrundgeräusch erzeugt. Andererseits macht der Lärm das Verstehen der gesprochenen Nachricht schwierig und ermüdend.
Es wurden zahlreiche Algorithmen untersucht, um zu versuchen, die Auswirkungen von Lärm bei einer Kommunikation zu verringern. S. F. Boll ("Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-27, Nr. 2, April 1979) schlug einen Algorithmus basierend auf der Spektralsubtraktion vor. Diese Methode besteht darin, das Spektrum des Lärms während der Stillephasen zu schätzen und es von dem empfangenen Signal zu subtrahieren. Sie ermöglicht eine Verringerung des Pegels des empfangenen Lärms. Ihr hauptsächlicher Nachteil besteht darin, daß sie ein musikalisches Geräusch erzeugt, das aufgrund seiner Unnatürlichkeit insbesondere störend ist.
Diese Arbeiten, die von D. B. Paul ("The spectral envelope estimation vocoder", IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-29, Nr. 4, August 1981) und von P. Lockwood et J. Boudy ("Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov Models and the projection, for robust speech recognition in cars", Speech Communication, Vol. 11, Juni 1992, S. 215-228, und EP-A-0 534 837) wieder aufgenommen und verbessert wurden, gestatteten es, den Lärmpegel merklich zu senken und dabei einen natürlichen Charakter zu bewahren. Des weiteren hatte dieser Beitrag das Verdienst, erstmalig das Prinzip der Maskierung in die Berechnung des Rauschunterdrückungsfilters mit einzubeziehen. Ausgehend von dieser Idee wurde ein erster Versuch von S. Nandkumar und J. H. L. Hansen ("Speech enhancement on a new set of auditory constrained parameters", Proc. ICASSP 94, S. I.1-I.4) unternommen, in der Spektralsubtraktion explizit berechnete Maskierungskurven anzuwenden. Trotz der enttäuschenden Resultate dieser Methode hatte dieser Beitrag das Verdienst, daß er den Akzent auf die Wichtigkeit des Umstands setzte, das Sprachsignal im Zuge der Rauschunterdrückung nicht zu denaturieren.
Weitere Verfahren, die auf der Zerlegung des Sprachsignals in Einzelwerte und somit auf einer Projektion des Sprachsignals auf einen verringerten Raum basieren, wurden von Bart De Moore ("The singular value decomposition and long and short spaces of noisy matrices", IEEE Trans. on Signal Processing, Vol. 41, Nr. 9, September 1993, S. 2826-2838) und von S. H. Jensen et al. ("Reduction of broad-band noise in speech by truncated QSVD", IEEE Trans. on Speech and Audio Processing, Vol. 3, Nr. 6, November 1995) untersucht. Das Prinzip dieser Methode ist es, das Sprachsignal und das Lärmsignal als völlig dekorreliert zu betrachten und in Betracht zu ziehen, daß das Sprachsignal eine ausreichende Vorhersagbarkeit besitzt, um ausgehend von einem beschränkten Satz von Parametern vorhergesagt zu werden. Diese Methode gestattet es, eine akzeptable Rauschunterdrückung für stark stimmhafte Signale zu erzielen, die jedoch das Sprachsignal vollständig denaturiert. Angesichts eines relativ kohärenten Geräusches wie etwa dem, das durch das Abrollgeräusch von Fahrzeugreifen oder das Klopfen eines Motors hervorgerufen wird, kann sich der Lärm als leichter vorhersagbar als das nicht-stimmhafte Sprachsignal erweisen. Es besteht daher eine Tendenz, das Sprachsignal in einen Teil des Vektorraums des Geräusches zu projizieren. Das Verfahren berücksichtigt nicht das Sprachsignal, insbesondere nicht-stimmhafte Bereiche der Sprache, in denen die Vorhersagbarkeit herabgesetzt ist. Des weiteren gestattet es die Vorhersage des Sprachsignals ausgehend von einem beschränkten Satz von Parametern nicht, die gesamte eigentliche Reichhaltigkeit der Sprache in Betracht zu ziehen. Von daher sind die Grenzen von Methoden verständlich, die einzig auf mathematischen Erwägungen basieren und dabei den besonderen Charakter der Sprache außer acht lassen.
Weitere Methoden schließlich basieren auf Kohärenzkriterien. Die Funktion der Kohärenz wurde insbesondere gut entwickelt von J. A. Cadzow und O. M. Solomon ("Linear modeling and the coherence function", IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-35, Nr. 1, Januar 1987, S. 19-28), und ihre Anwendung auf die Rauschunterdrückung wurde von R. Le Bouquin ("Enhancement of noisy speech signals: application to mobile radio communications", Speech Communication, Vol. 18, S. 3-19) untersucht. Dieses Verfahren basiert auf der Tatsache, daß das Sprachsignal eine deutlich stärkere Kohärenz als der Lärm besitzt, vorausgesetzt, daß mehrere unabhängige Kanäle verwendet werden. Die erzielten Resultate scheinen durchaus ermutigend zu sein. Leider setzt diese Methode jedoch voraus, daß mehrere Tonaufnahmequellen vorhanden sind, was nicht immer der Fall ist.
Die US-Patentschrift 5 228 088 beschreibt ein Verfahren zur Rauschunterdrückung, das im Frequenzbereich arbeitet und mit einer Tonfrequenz-Erfassungsvorrichtung versehen ist. Das Resultat dieser Erfassung dient einerseits zum Regulieren der Koeffizienten für die Rauschunterdrückung und andererseits zur Lokalisierung eines "Sprachbandes". Die Koeffizienten für die Rauschunterdrückung werden durch ein Spektralsubtraktionsmodul angewendet, um die Schätzung des Lärms vor seiner Subtraktion vom Signal zu gewichten. Das Modul, das die Unterdrückungskoeffizienten reguliert, nutzt nur die Information, gemäß der eine Tonfrequenz erfaßt wurde oder nicht. Der von der Tonfrequenz eingenommene Wert ist jedoch ohne Auswirkung auf die verwendeten Unterdrückungskoeffizienten, Das mittels der erfaßten Tonfrequenz bestimmte "Sprachband" ist Gegenstand einer globalen Akzentuierung des Signals. Es kann als Variante hingegen dazu dienen, ein "Lärmband" zu bestimmen, in dem dann eine globale Dämpfung angewendet wird. Eine solche Akzentuierung bzw. Dämpfung eines Teils des Spektrums und des Signals ist ein Rauschunterdrückungsverfahren, das von der Spektralsubtraktion sehr verschieden ist.
Eine hauptsächliche Aufgabe der vorliegenden Erfindung ist es, ein neues Verfahren zur Rauschunterdrückung vorzuschlagen, welches die Charakteristiken der Erzeugung der Sprache berücksichtigt und somit eine effektive Rauschunterdrückung ermöglicht, ohne die Wahrnehmung der Sprache zu verschlechtern.
Die Erfindung sieht ein Verfahren gemäß den Angaben in Anspruch 1 und eine Vorrrichtung gemäß den Angaben in Anspruch 30 vor.
Die Erfindung schlägt daher ein Verfahren zur Rauschunterdrückung eines in aufeinanderfolgenden Blöcken behandelten digitalen Sprachsignals vor, wobei
- Spektralkomponenten des Sprachsignals an jedem Block berechnet werden;
- für jeden Block majorierte Schätzungen von Spektralkomponenten von in dem Sprachsignal enthaltenem Rauschen berechnet werden;
- eine spektrale Subtraktion durchgeführt wird, die mindestens einen Schritt aufweist, in dem jeweils von jeder Spektralkomponente des Sprachsignals an dem Block eine Größe subtrahiert wird, die von Parametern abhängt, welche die majorierte Schätzung der dem Rauschen für den Block entsprechenden Spektralkomponente beinhalten.
Auf das Ergebnis der Spektralsubtraktion kann eine Transformierung in den Zeitbereich angewendet werden, um ein rauschunterdrücktes Sprachsignal zu erstellen.
Eine harmonische Analyse des Sprachsignals wird durchgeführt, um eine Tonfrequenz des Sprachsignals an jedem Block zu schätzen, wo es eine Stimmaktivität aufweist. Die Parameter, von denen die zu subtrahierenden Größen abhängen, beinhalten die somit geschätzte Tonfrequenz.
Die Überbewertung der Spektralumhüllenden des Rauschens ist im allgemeinen wünschenswert, damit die auf diese Weise erstellte majorierte Schätzung gegen abrupte Variationen des Rauschens robust ist. Dennoch weist diese Überbewertung üblicherweise den Nachteil auf, das Sprachsignal zu verzerren, wenn sie zu groß wird. Dies hat die Auswirkung, daß der stimmhafte Charakter des Sprachsignals beeinträchtigt wird, indem ein Teil seiner Vorhersagbarkeit unterdrückt wird. Dieser Nachteil ist sehr störend unter den Bedingungen der Telefonie, denn gerade während der Stimmhaftigkeitsbereiche ist das Sprachsignal am energiereichsten. Der Umstand, daß bei der Rauschunterdrückung die Tonfrequenz des Sprachsignals berücksichtigt wird, gestattet es, die Harmonizität dieses Signals in diesen stimmhaften Zonen zu schützen.
Im allgemeinen wird zum Subtrahieren einer gegebenen Spektralkomponente vom Sprachsignal eine geringere Größe angenommen, wenn die Spektralkomponente einer geschützten Frequenz entspricht, d. h. das nächstliegende eines ganzzahligen Vielfachen der geschätzten Tonfrequenz ist, als wenn die Spektralkomponente nicht einer solchen geschützten Frequenz entspricht. Diese geringere Größe kann insbesondere Null sein. In diesem letzteren Fall wirkt sich die spektrale Subtraktion nicht auf die geschätzte Tonfrequenz und/oder deren Harmonische aus. Es wird somit ein Teil der durch die Überbewertung des Rauschens eingeführten nichtlinearen Verzerrungen unterdrückt, die insbesondere bei den stimmhaften Zonen auffallen. Die nichtstimmhaften Zonen sind dafür aufgrund des mehr zufälligen Charakters ihres Anregungssignals weniger empfindlich.
Bei einer vorteilhaften Ausführungsform wird nach dem Schätzen der Tonfrequenz des Sprachsignals an einem Block das Sprachsignal des Blocks konditioniert, indem es bei einer Überabtastfrequenz überabgetastet wird, die ein Mehrfaches der geschätzten Tonfrequenz ist, und die Spektralkomponenten des Sprachsignals an dem Block auf der Grundlage des konditionierten Signals berechnet werden, um diese Größen von ihnen zu subtrahieren. Diese Maßnahme gestattet es die Frequenzen zu privilegisieren, die im Vergleich mit den anderen Frequenzen der geschätzten Tonfrequenz am nächsten sind. Es wird damit verhindert, daß Harmonische geschützt werden, die relativ weit von denjenigen der Tonfrequenz entfernt sind. Somit wird der harmonische Charakter des Sprachsignals am besten bewahrt.
Für die Berechnung der Spektralkomponenten des Sprachsignals wird das konditionierte Signal auf Blöcke von N Abtrastproben aufgeteilt, die einer Transformation im Frequenzbereich unterzogen werden, und das Verhältnis zwischen der Überabtastfrequenz und der geschätzten Tonfrequenz wird als ein Teiler der Zahl N gewählt.
Das vorstehende Verfahren kann des weiteren verfeinert werden durch Schätzen der Tonfrequenz des Sprachsignals an einem Block auf die folgende Weise:
- Schätzen der Zeitintervalle zwischen zwei aufeinanderfolgenden, während der Dauer des Blocks auftretenden Unterbrechungen des Signals, welche Schließungen der Glottis des Sprechers zuzuordnen sind, wobei die geschätzte Tonfrequenz zu den Zeitintervallen umgekehrt proportional ist;
- Interpolieren des Sprachsignals in den Zeitintervallen, damit das aus dieser Interpolation hervorgehende konditionierte Signal zwischen zwei aufeinanderfolgenden Unterbrechungen ein konstantes Zeitintervall aufweist.
Diese Vorgehensweise konstruiert künstlich einen Signalblock, an dem das Sprachsignal Unterbrechungen in konstanten Intervallen aufweist. Hierdurch werden gegebenenfalls auftretende Variationen der Tonfrequenz über die Dauer eines Blocks in Betracht gezogen.
Eine zusätzliche Verbesserung besteht darin, daß nach Behandlung eines jeden Blocks von den durch diese Behandlung zur Verfügung gestellten Abtastproben des rauschunterdrückten Sprachsignals eine Anzahl von Abtastproben aufbewahrt wird, welche gleich einem ganzzahligen Vielfachen des Verhältnisses zwischen der Abtastfrequenz und der geschätzten Tonfrequenz ist. Dies vermeidet das Problem von Verzerrungen, die durch die Phasendiskontinuität zwischen Blöcken hervorgerufen werden, die durch die klassichen Verfahren des Überlappungsaddierens (overlapadd) generell nicht vollständig korrigiert werden.
Der Umstand, daß das Signal mittels der Überabtastungsmethode konditioniert wurde, gestattet es, ein gutes Maß für den Stimmhaftigkeitsgrad des Sprachsignals an dem Block zu erhalten ausgehend von einer Berechnung der Entropie der Autokorrelation der auf der Grundlage des konditionierten Signals berechneten Spektralkomponenten. Je stärker das Spektrum gestört ist, d. h. je stimmhafter es ist, desto geringer sind die Werte der Entropie. Die Konditionierung des Sprachsignals akzentuiert das unregelmäßige Erscheinungsbild des Spektrums und somit die Variationen der Entropie, so daß diese ein Maß mit guter sensibilité darstellt. Die Autokorrelation werden im allgemeinen auf der Grundlage des rauschunterdrückten Signals berechnet, um die besten Leistungen zu erzielen. Es wäre jedoch ratsam, sie auf der Grundlage des konditionierten Signals vor der Rauschunterdrückung zu berechnen.
Die Spektralkomponenten des rauschunterdrückten Signals, die durch Subtrahieren der genannten Größen von den Spektralkomponenten des Sprachsignals erhalten werden, können verwendet werden, um unter Anwendung eines Modells der auditiven Wahrnehmung eine Maskierungskurve zu berechnen. Vorzugsweise beinhalten die Parameter, von denen die von einer Spektralkomponente des Sprachsignals an einem Block abzuziehende Größe abhängt, einen Abstand zwischen der majorierten Schätzung der entsprehenden Spektralkomponente des Rauschens und der berechneten Maskierungskurve. Diese abzuziehende Größe kann insbesondere auf den Bruchteil der majorierten Schätzung der entsprechenden Spektralkomponente des Rauschens beschränktsein, der die Maskierungskurve übersteigt. Diese Vorgehensweise beruht auf der Beobachtung, daß es genügt, die hörbaren Frequenzen des Rauschens zu entrauschen. Im Gegenteil ist es nicht von Nutzen, Rauschen zu eliminieren, das von der Sprache maskiert ist.
Bei einer vorteilhaften Ausführungsform wird jede im Sprachsignal enthaltene majorierte Schätzung des Rauschens erhalten durch Kombinieren einer Langzeitschätzung de Spektralkomponente des Rausschens und eines Maßes der Veränderlichkeit der Spektralkomponente des Rauschens um dessen Langzeitschätzung. Es wird somit ein Schätzer für Rauschen erhalten, der insbesondere robust gegen Variationen des Rauschens ist aufgrund des Umstandes, daß er zwei unterschiedliche Schätzer kombiniert, von denen der eine Langzeitfluktuationen des Rauschens und der andere dessen Kurzzeitveränderlichkeit in Betracht zieht.
Weitere Details und Vorteile der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von nicht-einschränkenden Ausführungsbeispielen unter Bezugnahme auf die beigefügte Zeichnung.
Es zeigt:
- Fig. 1 eine schematische Übersicht eines Rauschunterdrückungssystems, das die vorliegende Erfindung anwendet;
- Fig. 2 und 3 Organigramme von Prozeduren, die durch einen Stimmaktivitätsdetektor des Systems von Fig. 1 angewendet werden;
- Fig. 4 ein Diagramm, das die Zustände eines Automaten zur Erfassung von Stimmaktivität darstellt;
- Fig. 5 ein Diagramm zur Veranschaulichung der Variationen eines Grades der Stimmaktivität;
- Fig. 6 eine schematische Übersicht eines Moduls zur Überbewertung von Rauschen des Systems von Fig. 1;
- Fig. 7 ein Diagramm zur Veranschaulichung der Berechnung einer Maskierungskurve;
- Fig. 8 ein Diagramm zur Veranschaulichung der Nutzung der Maskierungskurven in dem System von Fig. 1;
- Fig. 9 eine schematische Übersicht eines weiteren Systems zur Rauschunterdrückung unter Anwendung der vorliegenden Erfindung;
- Fig. 10 ein Diagramm zur Veranschaulichung einer in einem erfindungsgemäßen Verfahren verwendbaren Methode für die harmonische Analyse; und
- Fig. 11 eine teilweise Darstellung einer Variante der schematischen Übersicht von Fig. 9.
Das in Fig. 1 dargestellte System zur Rauschunterdrückung behandelt ein digitales Sprachsignal s. Ein Fensterbildungsmodul 10 bringt dieses Signal s in die Form von aufeinanderfolgenden Fenstern oder Blöcken, die jeweils aus einer Anzahl N von Abtastproben eines digitalen Signals bestehen. Auf klassische Weise können diese Blöcke gegenseitige Überlappungen aufweisen. In der nachfolgenden Beschreibung wird angenommen, ohne daß dies einschränkend gedacht ist, daß die Blöcke aus N = 256 Abtastproben mit einer Abtastrate Fe von 8 kHz bestehen, mit einer Hamming-Wichtung in jedem Fenster, und Überlappungen von 50% zwischen aufeinanderfolgenden Fenstern.
Der Signalblock wird durch ein Modul 11, das einen klassischen Algorithmus der schnellen Fourier-Transformation (TFR) für die Berechnung des Moduls des Spektrums des Signals anwendet, in den Frequenzbereich transformiert. Das Modul 11 liefert somit eine mit Sn,f bezeichnete Gesamtheit von N = 256 Frequenzkomponenten des Sprachsignals, wobei n die Nummer des momentanen Blocks und f eine Frequenz des diskreten Spektrums bezeichnet. Aufgrund der Eigenschaften der digitalen Signale im Frequenzbereich werden nur die N/2 = 128 ersten Abtastproben verwendet.
Für die Berechnung der Schätzungen des in dem Signal s enthaltenen Rauschens wird nicht die am Ausgang der schnellen Fourier-Transformation verfügbare Frequenzauflösung verwendet, sondern eine schwächere Auflösung, die durch eine Anzahl I von Frequenzbändern bestimmt ist, welche das Band [0, Fe/2] des Signals abdeckt. Jedes Band i (1 ≤ i ≤ I) erstreckt sich zwischen einer unteren Frequenz f(i-1) und einer oberen Frequenz f(i), wobei f(0) = 0, und f(I) = Fe/2. Dieses Zerschneiden in Frequenzbänder kann gleichförmig (f(i)-f(i-1) = Fe/2I) sein. Es kann auch nicht gleichförmig sein (z. B. gemäß einer Barks- Skala). Ein Modul 12 berechnet die jeweiligen Mittelwerte der Spektralkomponenten Sn,f des Sprachsignals pro Bändern, beispielsweise durch eine gleichförmige Wichtung wie etwa:
Diese Mittelwertbildung vermindert die Schwankungen zwischen den Bändern durch Mitteln der Beiträge des Rauschens in diesen Bändern, wodurch die Varianz des Schätzers des Rauschens vermindert wird. Des weiteren gestattet diese Mittelwertbildung eine starke Verringerung der Komplexität des Systems.
Die gemittelten Spektralkomponenten Sn,i werden an ein Modul 15 für die Erfassung von Stimmaktivität und an ein Modul 16 zur Schätzung des Rauschens adressiert. Diese beiden Module 15, 16 arbeiten insofern gemeinsam, als von dem Modul 15 für die verschiedenen Bänder gemessene Stimmaktivitätsgrade γn,i von dem Modul 16 für die Schätzung der Langzeitenergie des Rauschens in den verschiedenen Bändern verwendet werden, während diese Langzeitschätzungen n,i von dem Modul 15 verwendet werden, um eine apriorische Rauschunterdrückung des Sprachsignals in den verschiedenen Bändern vorzunehmen, um die Stimmaktivitätsgrade γn,i zu bestimmen.
Der Betrieb der Module 15 und 16 kann den in Fig. 2 und 3 dargestellten Organigrammen entsprechen.
In den Schritten 17 bis 20 führt das Modul 15 die apriorische Rauschunterdrückung des Sprachsignals in den unterschiedlichen Bändern i für den Signalblock n durch. Diese apriorische Rauschunterdrückung wird gemäß einem klassischen Vorgang zur nichtlinearen Spektralsubtraktion ausgehend von Schätzungen des Rauschens durchgeführt, welche bei einem oder mehreren vorausgegangenen Blöcken erhalten wurden. In Schritt 17 berechnet das Modul 15 mit der Auflösung der Bänder i den Frequenzgang Hpn,i des Filters für die apriorische Rauschunterdrückung gemäß der Formel:
wobei τ1 und τ2 als Anzahl von Blöcken ausgedrückte Verzögerungen sind (τ1 ≥ 1, τ2 ≥ 0), und α'n,i ein Koeffizient der Überbewertung des Rauschens ist, dessen Bestimmung weiter unten erläutert wird. Die Verzögerung τ1 kann festgelegt (z. B. τ1 = 1) oder auch variabel sein. Sie ist umso geringer, je stärker man sich auf die Erfassung der Stimmaktivität verläßt.
In den Schritten 18 bis 20 werden die Spektralkomponenten pn,i berechnet gemäß:
pn,i = max{Hpn,i·Sn,i, βpi· n-τ1,i} (3)
wobei βpi ein Untergrenzenkoeffizient nahe 0 ist, der klassischerweise dazu dient zu vermeiden, daß das Spektrum des entrauschten Signals negative oder übermäßig schwache Werte annimmt, die ein musikalisches Geräusch hervorrufen würden.
Die Schritte 17 bis 20 bestehen somit im wesentlichen darin, von dem Spektrum des Signals eine durch den Koeffizienten α'n-τ1,i majorierte Schätzung des apriorisch geschätzten Spektrums des Rauschens zu subtrahieren.
In Schritt 21 berechnet das Modul 15 die Energie des apriorisch rauschunterdrückten Signals in den verschiedenen Bändern i für den Block n: En,i = p . Es berechnet auch einen globalen Mittelwert En,0 der Energie des apriorisch rauschunterdrückten Signals durch eine Summe der Energien pro Band En,i, die mit den Breiten dieser Bänder gewichtet sind. In den nachfolgenden Angaben wird der Index i = 0 dazu verwendet, das globale Band des Signals zu bezeichnen.
In den Schritten 22 und 23 berechnet das Modul 15 für jedes Band i (0 ≤ i ≤ I) eine Größe ΔEn,i, welche für die Kurzzeitvariation der Energie des entrauschten Signals im Band i steht, sowie einen Langzeitwert n,i der Energie des entrauschten Signals im Band i. Die Größe ΔEn,i kann berechnet werden durch eine vereinfachte Ableitungsformel:
Was die Langzeitenergie n,i betrifft, so kann diese mit Hilfe eines Vergessensfaktors B1 wie etwa 0 < B1 < 1 berechnet werden, nämlich n,i = B1· n-1,i + (1 - B1)·En,i.
Nach der Berechnung der Energien En,i des rauschunterdrückten Signals, seiner Kurzzeitvariationen ΔEn,i und seiner Langzeitwerte n,i auf die in Fig. 2 angegebene Weise berechnet das Modul 15 für jedes Band i (0 ≤ i ≤ I) einen Wert ρi, der für die Evolution der Energie des rauschunterdrückten Signals steht. Diese Berechnung wird in den Schritten 25 bis 36 von Fig. 3 vorgenommen, die für jedes Band i zwischen i = 0 und i = I durchgeführt werden. Diese Berechnung wendet einen Langzeitschätzer bai der Umhüllenden des Rauschens bai, einen internen Schätzer bii und einen Zähler bi für verrauschte Blöcke an.
In Schritt 25 wird die Größe ΔEn,i mit einem Schwellwert &epsi;1 verglichen. Wenn der Schwellwert &epsi;1 nicht erreicht wird, wird der Zähler bi in Schritt 26 um eine Einheit inkrementiert. In Schritt 27 wird der Langzeitschätzer bai mit dem Wert der geglätteten Energie n,i verglichen. Falls bai ≥ n,i, wird der Schätzer bai in Schritt 28 gleich dem geglätteten Wert n,i genommen, und der Zähler bi wird auf Null zurückgesetzt. Die Größe ρi, die gleich dem Verhältnis bai/ n,i genommen wird (Schritt 36), ist somit gleich 1.
Wenn Schritt 27 ergibt, daß bai < n,i wird der Zähler bi in Schritt 29 mit einem Grenzwert bmax verglichen. Falls bi > bmax, wird angenommen, daß das Signal zu stationär ist, um Stimmaktivität zu unterstützen. Daraufhin wird der oben genannte Schritt 28 durchgeführt, der die Annahme anwendet, daß der Block nur Rauschen beinhaltet. Falls bi ≤ bmax in Schritt 29, wird der interne Schätzer bii in Schritt 33 berechnet gemäß:
bii = (1 - Bm)· n,i + Bm·bai (4)
In dieser Formel steht Bm für einen zwischen 0,90 und 1 liegenden Aktualisierungskoeffizienten. Sein Wert ist je nach dem Zustand eines Automaten für die Erfassung von Stimmaktivität verschieden (Schritte 30 bis 32). Dieser Zusand δn-1 ist derjenige, der bei der Verarbeitung des vorherigen Blockes bestimmt wurde. Falls sich der Automat in einem Zustand der Erfassung von Sprache befindet (δn-1 = 2 in Schritt 30), nimmt der Koeffizient Bm einen Wert Bmp an, der sehr nahe bei 1 liegt, damit der Schätzer des Rauschens bei Vorhandensein von Sprache sehr geringfügig aktualisiert wird. Im entgegengesetzten Fall nimmt der Koeffizient Bm einen geringeren Wert Bms an, um in einer Stillephase eine bedeutendere Aktualisierung des Schätzers des Rauschens zu ermöglichen. In Schritt 34 wird der Abstand bai - bii zwischen dem Langzeitschätzer und dem internen Schätzer des Rauschens mit einem Schwellwert &epsi;2 verglichen. Wenn der Schwellwert &epsi;2 nicht erreicht wird, wird der Langzeitschätzer bai in Schritt 35 mit dem Wert des internen Schätzers bii aktualisiert. Andernfalls bleibt der Langzeitschätzer bai unverändert. Es wird somit vermieden, daß abrupte Variationen aufgrund eines Sprachsignals zu einer Aktualisierung des Schätzers des Rauschens führen.
Nach dem Erhalt der Größen ρi nimmt das Modul 15 die Entscheidungen der Stimmaktivität in Schritt 37 vor. Das Modul 15 aktualisiert zuerst den Zustand des Erfassungsautomaten gemäß der für die Gesamtheit des Bandes des Signals berechneten Größe ρ&sub0;. Der neue Zustand δn des Automaten hängt von dem vorhergegangenen Zustand δn-1 und von ρ&sub0; ab, wie in Fig. 4 dargestellt ist.
Vier Zustände sind möglich: δ = 0 erfaßt Stille bzw. Abwesenheit von Sprache; δ = 2 erfaßt das Vorhandensein einer Stimmaktivität; und die Zustände δ = 1 und δ = 3 sind dazwischenliegende Zustände des Anstiegs und Abfallens. Wenn sich der Automat im Zustand von Stille (δn-1 = 0) befindet, bleibt er dort, wenn ρ&sub0; nicht eine erste Schwelle SE1 übersteigt, und geht im entgegengesetzten Fall in den Anstiegszustand über. Im Anstiegszustand (δn- 1 = 1) kehrt er in den Zustand von Stille zurück, wenn ρ&sub0; kleiner als der Schwellwert SE1 ist, geht in den Zustand der Sprache über, wenn ρ&sub0; größer als eine über der Schwelle SE1 liegende Schwelle SE2 ist, und bleibt im Anstiegszustand, falls SE1 ≤ ρ&sub0; ≤ SE2. Wenn sich der Automat im Zustand der Sprache (δn-1 = 2) befindet, so bleibt er dort, falls ρ&sub0; eine unter der Schwelle SE2 liegende dritte Schwelle SE3 ist, und geht im entgegengesetzten Fall in den Abstiegszustand über. Im Abstiegszustand (δn-1 = 3) kehrt der Automat in den Zustand der Sprache zurück, falls ρ&sub0; größer als der Schwellwert SE2 ist, kehrt in den Zustand der Stille zurück, wenn diesseits eines unter dem Schwellwert SE2 liegenden vierten Schwellwerts SE4 ist, und bleibt im Abstiegszustand, falls SE4 ≤ ρ&sub0; ≤ SE2.
In Schritt 37 berechnet das Modul 15 des weiteren die Stimmaktivitätsgrade γn,i in jedem Band i ≥ 1. Dieser Grad γn,i ist vorzugsweise ein nicht-binärer Parameter, d. h. die Funktion γn,i = g(ρi) ist eine Funktion, die in Abhängigkeit von den durch die Größe ρi angenommenen Werten kontinuierlich zwischen 0 und 1 variiert. Diese Funktion besitzt beispielsweise den in Fig. 5 dargestellten Verlauf.
Das Modul 16 berechnet die Schätzungen des Rauschens pro Band, die im Rauschunterdrückungsvorgang verwendet werden, unter Anwendung der aufeinanderfolgenden Werte der Komponenten Sn,i und der Stimmaktivitätsgrade γn,i. Dies entspricht den Schritten 40 bis 42 von Fig. 3. In Schritt 40 wird bestimmt, ob der Automat für die Erfassung von Stimmaktivität aus dem Anstiegszustand in den Zustand der Sprache übergegangen ist. Falls ja, werden die vorausgehend für jedes Band i ≥ 1 berechneten beiden letzten Schätzungen n-1,i und n-2,i gemäß dem vorausgegangenen Schätzwert n-3,i korrigiert. Diese Korrektur wird durchgeführt, um den Umstand zu berücksichtigen, daß in der Anstiegsphase (δ = 1) die Langzeitschätzungen der Energie des Rauschens in dem Vorgang für die Erfassung von Stimmaktivität (Schritte 30 bis 33) so berechnet werden konnten, als ob das Signal nur Rauschen beinhaltete (Bm = Bms), so daß die Gefahr besteht, daß sie mit einem Fehler behaftet sind.
In Schritt 42 aktualisiert das Modul 16 die Schätzungen des Rauschens pro Band gemäß den Formeln:
n,i = λB· n-1,i + (1 - λB)·Sn,i (5)
n,i - γn,i· n-1,i + (1 - γn,i)· n,i
wobei λB einen Vergessensfaktor wie etwa 0 < λB < 1 bezeichnet. Formel (6) zeigt die Berücksichtigung des nicht-binären Stimmaktivitätsgrades γn,i.
Wie obenstehend angegeben wurde, sind die Langzeitschätzungen des Rauschens n,i Gegenstand einer Überbewertung durch ein Modul 45 (Fig. 1), bevor die Rauschunterdrückung mittels nichtlinearer Spektralsubtraktion vorgenommen wird. Das Modul 45 berechnet den oben genannten Koeffizienten der Überbewertung α'n,i sowie eine majorierte Schätzung 'n,i die im wesentlichen α'n,i· 'n,i entspricht.
Die Strukturierung des Überbewertungsmoduls 45 ist in Fig. 6 dargestellt. Die majorierte Schätzung 'n,i wird erhalten durch Kombinieren der Langzeitschätzung n,i und eines Maßes ΔB der Veränderlichkeit der Rauschkomponente in dem Band i um seine Langzeitschätzung. Bei dem betrachteten Beispiel ist dieses Kombinieren im wesentlichen eine einfache Summe, die von einem Addierer 46 erstellt wird. Es könnte sich hierbei auch um eine gewichtete Summe handeln.
Der Überbewertungskoeffizient α'n,i ist gleich dem Verhältnis zwischen der vom Addierer 46 gelieferten Summe n,i + ΔB und der verzögerten Langzeitschätzung n-τ3,i (Teiler 47), die nach oben hin durch einen Grenzwert αmax beschränkt ist, beispielsweise αmax = 4 (Block 48). Die Verzögerung τ3 dient gegebenenfalls dazu, in den Anstiegsphasen (δ = 1) den Wert des Überbewertungskoeffizienten α'n,i zu korrigieren, bevor die Langzeitschätzungen durch die Schritte 40 und 41 von Fig. 3 korrigiert worden sind (z. B. τ3 = 3).
Die majorierte Schätzung 'n,i wird schließlich gleich α'n,i· 'n-τ3,i genommen (Multiplizierer 49).
Das Maß ΔB der Veränderlichkeit des Rauschens reflektiert die Varianz des Schätzers des Rauschens. Es wird in Abhängigkeit von den für eine bestimmte Anzahl von vorherigen Blöcken berechneten Werten von Sn,i und von n,i erhalten, an denen das Sprachsignal keine Stimmaktivität in dem Band i aufweist. Es ist eine Funktion der für eine Anzahl K von Blöcken mit Stille (n- k ≤ n) berechneten Abstände Sn-k,i - n-k,i . In dem dargestellten Beispiel ist diese Funktion einfach das Maximum (Block 50). Für jeden Block n wird der Grad der Stimmaktivität γn,i mit einem Schwellwert (Block 51) verglichen, um zu entscheiden, ob der in 52-53 berechnete Abstand Sn,i - n,i in eine Warteschlange 54 mit K Stellen geladen werden muß, die im Ersteingang/Erstausgang-Modus (FIFO) organisiert ist. Falls γn,i den Schwellwert nicht übersteigt (der gleich 0 sein kann, falls die Fuunktion g() die Form von Fig. 5 besitzt), wird die FIFO 54 nicht versorgt, während sie es im entgegengesetzten Fall wird. Der in der FIFO 54 enthaltene Maximalwert wird dann als Maß ΔB der Veränderlichkeit geliefert.
Das Maß ΔB der Veränderlichkeit kann als Variante in Abhängigkeit von den Werten Sn,f (anstatt Sn,i) und n,i erhalten werden. Anschließend wird auf die gleiche Weise, mit der Ausnahme, daß die FIFO 54 Sn-k,i - n-k,i nicht enthält, vorgegangen, jedoch eher f Sn-k,f - n-k,i .
Aufgrund der unabhängigen Schätzungen der Langzeitschwankungen des Rauschens n,i und seiner Kurzzeitveränderlichkeit ΔB stellt der majorierte Schätzer 'n,i eine ausgezeichnete Robustheit des Rauschunterdrückungsverfahrens gegen musikalische Geräusche zur Verfügung.
Eine erste Phase der spektralen Subtraktion wird durch das in Fig. 1 dargestellte Modul 55 verwirklicht. Diese Phase liefert vor der Auflösung der Bänder i (1 ≤ i ≤ I) den Frequenzgang H eines ersten Rauschunterdrückungsfilters in Abhängigkeit von den Komponenten Sn,i und n,i und den Überbewertungskoeffizienten α'n,i. Diese Berechnung kann für jedes Band i durchgeführt werden gemäß der Formel:
wobei τ4 eine etwa als τ4 ≥ 0 (z. B. τ4 = 0) bestimmte ganzzahlige Verzögerung ist. In dem Ausdruck (7) stellt der Koeffizient β wie der Koeffizient βpi der Formel (3) eine Untergrenze dar, die klassischerweise zur Vermeidung von negativen oder zu kleinen Werten des rauschunterdrückten Signals dient.
Auf bekannte Weise (EP 0 534 837) könnte der Überbewertungskoeffizient α'n,i in der Formel (7) durch einen anderen Koeffizienten ersetzt werden, der gleich einer Funktion von α'n,i und einer Schätzung des Rauschabstandes (z. B. Sn,i/ n,i) ist, wobei diese Funktion gemäß dem Schätzwert des Rauschabstandes abnehmend ist. Diese Funktion ist somit gleich α'n,i für die kleinsten Werte des Rauschabstandes. Wenn das Signal stark verrauscht ist, ist es nämlich a priori nicht sinnvoll, den Überbewertungsfaktor zu vermindern. Vorteilhaft nimmt diese Funktion für die höchsten Werte des Rauschabstandes gegen Null hin ab. Dies ermöglicht einen Schutz der energiereichsten Zonen des Spektrums, in denen das Sprachsignal am bedeutendsten ist, wobei die von dem Signal zu subtrahierende Größe somit gegen Null tendiert.
Diese Strategie kann verfeinert werden, indem sie selektiv auf die Harmonischen der Tonfrequenz ("pitch") des Sprachsignals angewendet wird, wenn dieses eine Stimmaktivität aufweist.
Somit wird bei der in Fig. 1 dargestellten Ausführungsform eine zweite Phase der Rauschunterdrückung durch ein Modul 56 zum Schutz der Harmonischen durchgeführt. Dieses Modul berechnet mit der Auflösung der Fourier- Transformierung den Frequenzgang H , eines zweiten Rauschunterdrückungsfilters in Abhängigkeit von den Parametern H , α'n,i, n,i, δn, Sn,i und der außerhalb der Stillephasen durch ein Modul für die harmonische Analyse 57 berechneten Tonfrequenz fp = Fe/Tp. In einer Stillephase (δn = 0) ist das Modul 56 nicht in Betrieb, d. h. H = H für jede Frequenz f eines Bandes i. Das Modul 57 kann jegliches bekannte Verfahren für die Analyse des Sprachsignals des Blocks anwenden, um die Periode Tp zu bestimmen, die als ganze Zahl oder Bruchteil von Abtastproben angegeben wird, z. B. ein lineares Prädiktionsverfahren.
Der durch das Modul 56 zur Verfügung gestellte Schutz kann darin bestehen, daß für jede zu einem Band i gehörige Frequenz f durchgeführt wird:
Δf = Fe/N stellt die spektrale Auflösung der Fourier- Transformation dar. Wenn H = 1, ist die von der Komponente Sn,f zu substrahierende Größe Null. In dieser Berechnung drücken die Untergrenzenkoeffizienten B (z. B. β = β ) den Umstand aus, daß bestimmte Harmonische der Tonfrequenz fp von Rauschen maskiert sein können, so daß es nicht sinnvoll ist, sie zu schützen.
Diese Schutzstrategie wird vorzugsweise auf jede der Frequenzen angewendet, die am nächsten zu den Harmonischen von fp sind, d. h. auf jedes ganzzahlige η.
Wenn man mit δfp die Frequenzauflösung bezeichnet, bei der das Analysemodul 57 die geschätzte Tonfrequenz fp erzeugt, d. h. daß die reelle Tonfrequenz zwischen fp - δ fp/2 und fp + δfp/2 liegt, dann kann der Abstand zwischen der η-ten Harmonischen der reellen Tonfrequenz und ihrer Schätzung η · fp (Bedingung (9)) bis ±η · δfp/2 gehen. Bei hohen Werten von η kann dieser Abstand größer als die halbe spektrale Auflösung Δf/2 der Fourier-Transformierten sein. Um diese Unsicherheit zu berücksichtigen und einen guten Schutz der Harmonischen der reellen Tonfrequenz zu gewährleisten, kann, jede der Frequenzen des Intervalls [η · fp - η · δfp/2, η · fp + η · δfp/2] geschützt werden, d. h. die obenstehende Bedingung (9) kann ersetzt werden durch:
ganzzahliges η/ f - η·fp ≤ (η·δfp + Δf)/2 (9')
Diese Schutzart (Bedingung 9') ist von besonderem Interesse, wenn die Werte von η groß sein können, insbesondere falls das Verfahren in einem Breitbandsystem verwendet wird.
Für jede geschützte Frequenz kann der korrigierte Frequenzgang H gemäß der obenstehenden Angabe gleich 1 sein, was der Substraktion einer Größe Null im Rahmen der spektralen Subtraktion entspricht, d. h. einem kompletten Schutz der betreffenden Frequenz. Allgemeiner gesagt, dieser korrigierte Frequenzgang H könnte je nach dem gewünschten Schutzgrad gleich einem zwischen 1 und H liegenden Wert genommen werden, was der Subtraktion einer Größe entspricht, die kleiner als diejenige ist, die zu subtrahieren wäre, wenn die betreffende Frequenz nicht geschützt wäre.
Die Spektralkomponenten S eines rauschunterdrückten Signals werden durch einen Multiplizierer 58 berechnet:
S = H ·Sn,f (10)
Dieses Signal S wird an ein Modul 60 geliefert, das für jeden Block n eine Maskierungskurve berechnet durch Anwenden eines psychoakustischen Modells der Gehörwahrnehmung durch das menschliche Ohr.
Das Phänomen der Maskierung ist ein von der Funktion des menschlichen Ohrs her bekanntes Prinzip. Wenn zwei Frequenzen gleichzeitig gehört werden, ist es möglich, daß eine von den beiden nicht mehr hörbar ist. Man sagt dann, daß diese maskiert ist.
Es gibt verschiedene Verfahrensweisen für die Berechnung der Maskierungskurven. Beispielsweise kann die von J. D. Johnston ("Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Journal on Selected Area in Communications, Vol. 6, Nr. 2, Februar 1988) entwickelte angewendet werden. Bei dieser Verfahrensweise wird in der Frequenzskala der Barks gearbeitet. Die Maskierungskurve wird als die Faltung der Funktion der spektralen Dehnung der Basilarmembran im Bark-Bereich mit dem anregenden Signal betrachtet, bestehend in der vorliegenden Anwendung aus dem Signal S . Die spektrale Dehnungsfunktion kann auf die in Fig. 7 dargestellte Weise modelliert werden. Für jedes Bark-Band wird der Beitrag der in Betracht gezogenen niederen und hohen gefalteten Bänder durch die Funktion der Dehnung der Basilarmembran berechnet:
wobei die Indices q und q' die Bark-Bänder (0 ≤ q, q' ≤ Q) bezeichnen, und S , für den Mittelwert der Komponenten S des rauschunterdrückten Anregungssignals für die diskreten Frequenzen f steht, die zum Bark-Band q' gehören.
Der Maskierungsschwellwert Mn,q wird erhalten durch das Modul 60 für jedes Bark-Band q gemäß der Formel:
Mn,q = Cn,q/Rq (12)
in der Rq von dem mehr oder minder stimmhaften Charakter des Signals abhängt. Auf bekannte Weise ist eine mögliche Form von Rq:
10·log&sub1;&sub0;(Rq) = (A + q)·χ + B·(1 - χ) (13),
wobei A = 14,5 und B = 5,5·χ bezeichnet einen Stimmhaftigkeitsgrad des Sprachsignals, der zwischen Null (keine Stimmhaftigkeit) und 1 (stark stimmhaftes Signal) variiert. Der Parameter χ kann die bekannte Form aufweisen:
wobei SFM in Dezibel das Verhältnis zwischen dem arithmetischen Mittel und dem geometrischen Mittel der Energie der Bark-Bänder angibt, und SFMmax = -60 dB.
Das Rauschunterdrückungssystem weist darüber hinaus ein Modul 62 auf, das den Frequenzgang des Rauschunterdrückungsfilters in Abhängigkeit von der durch das Modul 60 berechneten Maskierungskurve Mn,q und den durch das Modul 45 berechneten majorierten Schätzungen 'n,i korrigiert. Das Modul 62 entscheidet über das Rauschunterdrückungsniveau, das tatsächlich erzielt werden soll.
Durch einen Vergleich der Umhüllenden der majorierten Schätzung des Rauschens mit der durch die Maskierungsschwellwerte Mn,q gebildeten Umhüllenden wird entschieden, das Signal nur in dem Maße zu entrauschen, in dem die majorierte Schätzung 'n,i die Maskierungskurve übersteigt. Dies vermeidet eine nutzlose Unterdrückung von durch Sprache maskiertem Rauschen.
Die neue Antwort H für eine Frequenz f, die zu dem durch das Modul 12 definierten Band i und zum Bark-Band q gehört, hängt somit von dem relativen Abstand zwischen der majorierten Schätzung 'n,i der entsprechenden Spektralkomponente des Rauschens und der Maskierungskurve Mn,q folgendermaßen ab:
Anders ausgedrückt, die bei dem Vorgang der Spektralsubtraktion mit dem Frequenzgang H von einer Spektralkomponente Sn,f' zu subtrahierende Größe ist im wesentlichen gleich dem Minimum zwischen der bei dem Vorgang der Spektralsubtraktion mit dem Frequenzgang H von dieser Spektralkomponente zu subtrahierenden Größe einerseits und dem Bruchteil der majorierten Schätzung 'n,i der entsprechenden Spektralkomponente des Rauschens andererseits, die gegebenenfalls die Maskierungskurve Mn,q übersteigt.
Fig. 8 veranschaulicht das Prinzip der durch das Modul 62 angewendeten Korrektur. Sie zeigt schematisch ein Beispiel für eine auf der Grundlage der Spektralkomponenten S des rauschunterdrückten Signals sowie der majorierten Schätzung 'n,i des Spektrums des Rauschens berechnete Maskierungskurve Mn,q. Die schließlich von den Komponenten Sn,f zu subtrahierende Größe ist die durch die schraffierten Bereiche dargestellte, d. h. diejenige, die auf den Bruchteil der majorierten Schätzung 'n,i der Spektralkomponenten des Rauschens, das die Maskierungskurve übersteigt, begrenzt ist.
Diese Subtraktion wird durch Multiplizieren des Frequenzgangs H des Rauschunterdrückungsfilters mit den Spektralkomponenten Sn,f des Sprachsignals (Multiplizierer 64) durchgeführt. Ein Modul 65 rekonstruiert sodann das rauschunterdrückte Signal im Zeitbereich mittels Durchführung der schnellen inversen Fourier- Transformierung (TFRI) der vom Multiplizierer 64 gelieferten Abtastproben der Frequenz S . Bei jedem Block werden einzig die N/2 = 128 ersten Abtastproben des durch das Modul 65 erzeugten Signals als endgültiges rauschunterdrücktes Signal s³ geliefert, nach Rekonstruktion mittels Überlappungsaddition- mit den N/2 = 128 letzten Abtastproben des vorangegangenen Blocks (Modul 66).
Fig. 9 zeigt eine bevorzugte Ausführungsform eines die Erfindung anwendenden Rauschunterdrückungssystems. Dieses System weist eine bestimmte Anzahl von Elementen auf, die entsprechenden Elementen des Systems von Fig. 1 ähnlich sind und bei denen die gleichen Bezugszeichen verwendet wurden. So liefern die Module 10, 11, 12, 15, 16, 45 und 55 insbesondere die Größen Sn,i, n,i, α'n,i, 'n,i und H für die Durchführung der selektiven Rauschunterdrückung.
Die Frequenzauflösung der schnellen Fouriertransformation 11 ist eine Einschränkung des Systems von Fig. 1. Die Frequenz, die Gegenstand des Schutzes durch das Modul 56 ist, ist nämlich nicht unbedingt die genaue Tonfrequenz fp, sondern diejenige Frequenz, die dieser in dem diskreten Spektrum am nächsten ist. In bestimmten Fällen ist es somit möglich, Harmonische zu schützen, die relativ weit von derjenigen der Tonfrequenz entfernt sind. Das System von Fig. 9 behebt diesen Nachteil mittels einer geeigneten Konditionierung des Sprachsignals.
Bei dieser Konditionierung wird die Abtastrate des Signals derart modifiziert, daß die Periode 1/fp genau eine ganze Zahl von Abtastprobenzeiten des konditionierten Signals abdeckt.
Zahlreiche Verfahren für die harmonische Analyse, die von dem Modul 57 angewendet werden können, sind in der Lage, einen Bruchteilwert der Verzögerung Tp zur Verfügung zu stellen, der als Anzahl von Abtastproben bei der anfänglichen Abtastfrequenz Fe ausgedrückt ist. Es wird somit eine neue Abtastfrequenz fe gewählt, so daß diese gleich einem ganzzahligen Mehrfachen der geschätzten Tonfrequenz ist, bzw. fe = p·fp = p·Fe/Tp = K·Fe, wobei p eine ganze Zahl ist. Um keine Abtastproben des Signals zu verlieren, ist es ratsam, daß fe größer als Fe ist. Es kann insbesondere die Bedingung gestellt werden, daß es zwischen Fe und 2Fe liegt (1 ≤ K ≤ 2), um die Durchführung der Konditionierung zu erleichtern.
Wohlgemerkt, falls an dem momentanen Block (δn ≠ 0) überhaupt keine Stimmaktivität erfaßt wird, oder wenn die durch das Modul 5 geschätzte Verzögerung Tp ganzzahlig ist, ist es nicht erforderlich, das Signal zu konditionieren.
Damit jede der Harmonischen der Tonfrequenz auch einem ganzzahligen Mehrfachen von Abtastproben des Signals entspricht, muß die ganze Zahl p ein Teiler der Größe N des durch das Modul 10 erzeugten Signalfensters sein: N = αp, wobei α eine ganze Zahl ist. Diese Größe N ist üblicherweise eine Potenz von 2 für die Anwendung der TFR. Sie beträgt in dem betrachteten Beispiel 256.
Die spektrale Auflösung Δf der diskreten Fourier- Transformation des konditionierten Signals ist gegeben durch Δf = p·fp/N = fp/α. Man ist daher bestrebt, p klein zu wählen, um α zu maximieren, jedoch ausreichend groß für Überabtastung. In dem betrachteten Beispiel, in dem Fe = 8 kHz und N = 256 sind, sind die für die Parameter p und α gewählten Werte in Tabelle 1 angegeben. Tabelle I
Diese Auswahl wird durch ein Modul 70 gemäß dem Wert der Verzögerung Tp durchgeführt, der von dem Modul 57 für die harmonische Analyse geliefert wird. Das Modul 70 liefert das Verhältnis K zwischen den Abtastraten an drei Frequenzänderungsmodule 71, 72, 73.
Das Modul 71 dient zum Transformieren der Werte Sn,i, n,i, α'n,i, 'n,i und H bezüglich der von dem Modul 12 definierten Bänder i im Maßstab der modifizierten Frequenzen (Abtastfrequenz fe). Diese Transformierung besteht einfach darin, die Bänder i um den Faktor K zu dehnen. Die auf diese Weise transformierten Werte werden an das Modul 56 zum Schützen der Harmonischen geliefert.
Dieses arbeitet auf die gleiche Weise wie oben erwähnt, um den Frequenzgang H des Rauschunterdrückungsfilters zur Verfügung zu stellen. Dieser Frequenzgang H wird auf die gleiche Weise wie im Fall der Fig. 1 erhalten (Bedingungen (8) und (9)), mit dem einzigen Unterschied, daß bei der Bedingung (9) die Tonfrequenz fp = fe/p gemäß dem Wert der ganzzahligen Verzögerung p definiert wird, der von dem Modul 70 geliefert wird, wobei auch die Frequenzauflösung Δf von diesem Modul 70 geliefert wird.
Das Modul 72 führt die Überabtastung des Blockes von N Abtastproben durch, der von dem Fensterbildungsmodul 10 geliefert wird. Die Überabtastung um einen rationalen Faktor K (K = K1/K2) besteht darin, zuerst eine Überabtastung um den ganzzahligen Faktor K1 durchzuführen, daraufhin eine Unterabtastung um den ganzzahligen Faktor K2. Diese Überabtastung und Unterabtastung um ganzzahlige Faktoren können auf klassische Weise mit Hilfe von vielphasigen Filterbänken durchgeführt werden.
Der von dem Modul 72 gelieferte konditionierte Signalblock s' weist KN Abtastproben mit der Frequenz fe auf. Diese Abtastproben werden an ein Modul 75 adressiert, das ihre Fourier-Transformierte berechnet. Die Transformierung kann ausgehend von zwei Blöcken von N = 256 Abtastproben durchgeführt werden: einem, der aus den N ersten Abtastproben des Blockes mit der Länge KN des konditionierten Signals s' besteht, und δem anderen, der aus den N letzten Abtastproben dieses Blockes besteht. Die beiden Blöcke weisen daher eine Überlappung von (2-K) · 100% auf. Für jeden der beiden Blöcke wird ein Satz Fourier-Komponenten Sn,f erhalten. Diese Komponenten Sn,f werden an den Multiplizierer 58 geliefert, der sie mit der Spektralantwort H multipliziert, um die Spektralkomponenten S des ersten rauschunterdrückten Signals zur Verfügung zu stellen.
Diese Komponenten S werden an das Modul 60 adressiert, welches die Maskierungskurven auf die obenstehend angegebene Weise berechnet.
Vorzugsweise wird bei der Berechnung der Maskierungskurven die Größe χ, welche den Stimmhaftigkeitsgrad des Sprachsignals bezeichnet (Formel (13)) in der Form χ = 1- H genommen, wobei H eine Entropie der Autokorrelation der Spektralkomponenten S des rauschunterdrückten konditionierten Signals ist. Die Autokorrelationen A(k) werden durch ein Modul 76 berechnet, beispielsweise gemäß der Formel:
Ein Modul 77 berechnet daraufhin die normalisierte Entropie H und liefert sie an das Modul 60 für die Berechnung der Maskierungskurve (s. S. A. McClellan et al.: "Spectral Entropy: an Alternative Indicator for Rate Allocation?", Proc. ICASSP'94, S. 201-204):
Infolge der Konditionierung des Signals sowie seiner Rauschunterdrückung durch das Filter H stellt die normalisierte Entropie H ein gegen das Rauschen und Variationen der Tonfrequenz sehr robustes Maß der Stimmhaftigkeit zur Verfügung.
Das Korrekturmodul 62 arbeitet auf die gleiche Weise wie dasjenige des Systems von Fig. 1, unter Berücksichtigung des überbewerteten Rauschens 'n,i, das durch das Frequenzänderungsmodul 71 wieder auf Maßstab gebracht wurde. Es liefert den Frequenzgang H des definitiven Rauschunterdrückungsfilters, der durch den Multiplizierer 64 mit den Spektralkomponenten Sn,f des konditionierten Signals multipliziert wird. Die daraus resultierenden Komponenten Sn,f werden durch das TFRI-Modul 65 in den Zeitbereich zurückgeführt. Am Ausgang dieses TFRI 65 kombiniert ein Modul 80 bei jedem Block die beiden Signalblöcke, die aus der Verarbeitung der beiden überlappenden, von der TFR 75 gelieferten Signalblöcke stammen.
Dieses Kombinieren kann aus einer Summe mit Hamming- Wichtung der Abtastproben bestehen, um einen rauschunterdrückten konditionierten Signalblock von KN Abtastproben zu bilden.
Das von dem Modul 80 gelieferte rauschunterdrückte konditionierte Signal ist Gegenstand einer Änderung der Abtastfrequenz durch das Modul 73. Seine Abtastfrequenz wird durch die zu denjenigen des Moduls 75 entgegengesetzten Operationen auf Fe = fe/K zurückgeführt. Das Modul 73 liefert N = 256 Abtastproben pro Block. Nach der Rekonstruktion mittels Überlappungsaddition mit den N/2-128 letzten Abtastproben des vorhergegangenen Blocks werden letztlich nur die N/2 = 128 ersten Abtastproben des momentanen Blocks bewahrt, um das endgültige rauschunterdrückte Signal s³ zu bilden (Modul 66).
Bei einer bevorzugten Ausführungsform erstellt ein Modul 82 die durch das Modul 10 gebildeten und durch das Modul 66 gesicherten Fenster, so daß eine Anzahl M von Abtastproben gleich einem ganzzahligen Vielfachen von Tp = Fe/fp gesichert wird. Somit werden Probleme mit Phasendiskontinuität zwischen den Blöcken vermieden. Auf entsprechende Weise steuert das Verwaltungsmodul 82 das Fensterbildungsmodul 10, damit die Überlappung zwischen dem momentanen Block und dem nächsten N - M entspricht. Diese Überlappung von N-M Abtastproben wird in der Überlappungssumme beibehalten, die von dem Modul 66 bei der Verarbeitung des nächsten Blocks durchgeführt wird. Ausgehend von dem durch das Modul 57 für die harmonische Analyse gelieferten Wert Tp berechnet das Modul 82 die zu sichernde Anzahl von Abtastproben M = Tp · E[N/(2Tp)], wobei E[] den ganzzahligen Teil bezeichnet, und steuert auf entsprechende Weise die Module 10 und 66.
Bei der vorliegend beschriebenen Ausführungsform wird die Tonfrequenz gemittelt an dem Block geschätzt. Die Tonfrequenz kann aber während dieser Dauer in einem bestimmten Maße variieren. Im Rahmen der vorliegenden Erfindung ist es möglich, diese Variationen zu berücksichtigen, indem das Signal so konditioniert wird, daß künstlich eine konstante Tonfrequenz in dem Block erhalten wird.
Hierfür ist es nötig, daß das Modul 57 für die harmonische Analyse die Zeitintervalle zwischen den aufeinanderfolgenden, während der Dauer des Blocks auftretenden Unterbrechungen des Sprachsignals liefert, welche Schließungen der Glottis des Sprechers zuzuordnen sind. Verfahren, die für die Erfassung solcher Mikrounterbrechungen verwendbar sind, sind auf dem Gebiet der harmonischen Analyse des Sprachsignals allgemein bekannt. In dieser Hinsicht kann Bezug genommen werden auf die folgenden Artikel: M. BASSEVILLE et al., "Sequential detection of abrupt changes in spectral characteristics of digital signals", IEEE Trans. on Information Theory, 1983, Vol. IT-29, Nr. 5, S. 708-723; R. ANDRE-BRECHT, "A new statistical approach for the automatic segmentation of continuous speech signals", IEEE Trans. on Acous., Speech ad Sig. Proc., Vol. 36, Nr. 1, Januar 1988; und C. MURGIA et al., "An algorithm for the estimation of glottal closure instants using the sequential detection of abrupt changes in speech signals", Signal Processing VII, 1994, S. 1685-1688.
Das Prinzip dieser Verfahren ist es, eine statistische Überprüfung zwischen zwei Modellen durchzuführen, dem einen kurzfristig und dem anderen langfristig. Die beiden Modelle sind adaptive Modelle der linearen Prädiktion. Der Wert dieser statistischen Überprüfung wm ist die kumulierte Summe des Wahrscheinlichkeitsverhältnisses a posteriori von zwei Verteilungen, korrigiert um die Kullback-Divergenz. Bei einer Verteilung von Resten mit einer Gauß'schen Statistik ist dieser Wert gegeben durch:
wobei e und σ für den berechneten Rest zum Zeitpunkt der Abtastprobe m des Blocks bzw. die Langzeitvarianz des Modells stehen, e und σ ebenso für den Rest bzw. die Kurzzeitvarianz des Modells stehen. Je näher sich die beiden Modelle sind, desto näher ist der Wert wm der statistischen Überprüfung an 0. Wenn die beiden Modelle voneinander entfernt sind, wird dieser Wert wm negativ, was eine Unterbrechung R des Signals anzeigt.
Fig. 10 zeigt ein mögliches Beispiel für die Evolution des Wertes wm, das die Unterbrechungen R des Sprachsignals zeigt. Die Zeitintervalle tr (r = 1, 2, ...) zwischen zwei aufeinanderfolgenden Unterbrechungen R werden berechnet und als Anzahl von Abtastproben des Sprachsignals ausgedrückt. Jedes dieser Intervalle t ist umgekehrt proportional zur Tonfrequenz fp, die somit lokal geschätzt wird: fp = Fe/tr am r-ten Intervall.
Es ist somit möglich, die zeitlichen Variationen der Tonfrequenz zu korrigieren (d. h., den Umstand, daß die Intervalle an einem gegebenen Block nicht alle gleich sind), damit in jedem der Analyseblöcke eine konstante Tonfrequenz vorliegt. Diese Korrektur wird durchgeführt mittels einer Modifizierung der Abtastfrequenz an jedem Intervall tr, so daß nach Überabtastung konstante Intervalle zwischen zwei Glottis-Unterbrechungen erhalten werden. Es wird somit die Zeitdauer zwischen zwei Unterbrechungen modifiziert, indem eine Überabtastung in einem variablen Verhältnis erfolgt, so daß sie sich nach dem größten Intervall richtet. Des weiteren wird derart verfahren, daß die Konditionierungseinschränkung beachtet wird, gemäß der die Überabtastfrequenz ein Mehrfaches der geschätzten Tonfrequenz ist.
Fig. 11 zeigt die Mittel, die zum Berechnen der Konditionierung des Signals in diesem letzteren Fall verwendet werden. Das Modul 57 für die harmonische Analyse ist so ausgeführt, daß es das oben genannte Analyseverfahren anwendet und die Intervalle tr bezüglich des durch das Modul 10 erzeugten Signalblocks liefert. Für jedes dieser Intervalle berechnet das Modul 70 (Block 90 in Fig. 11) das Überabtastverhältnis Kr = pr/tr, wobei die ganze Zahl pr durch die dritte Spalte der Tabelle I angegeben ist, wenn tr die in der zweiten Spalte angegebenen Werte annimmt. Diese Überabtastverhältnisse Kr werden an die Frequenzänderungsmodule 72 und 73 geliefert, damit die Interpolationen mit dem Überabtastverhältnis Kr an dem entsprechenden Zeitintervall tr durchgeführt werden.
Das größte Tp der durch das Modul 57 für einen Block gelieferten Zeitintervalle tr wird durch das Modul 70 (Block 91 in Fig. 11) gewählt, um ein Paar p,α wie in der Tabelle I angegeben zu erhalten. Die modifizierte Abtastfrequenz ist somit fe = p·Fe/Tp wie obenstehend, wobei die spektrale Auflösung Δf der diskreten Fourier-Transformation des konditionierten Signals immer noch durch Δf = Fe/(α·Tp) gegeben ist. Für das Frequenzänderungsmodul 71 ist das Überabtastverhältnis K angegeben durch K = P/Tp (Block 92). Das Modul 56 zum Schützen der Harmonischen der Tonfrequenz arbeitet auf die gleiche Weise wie obenstehend, unter Verwendung für die Bedingung (9) der vom Block 91 gelieferten spektralen Auflösung Δf sowie der gemäß dem durch den Block 91 gelieferten Wert der ganzzahligen Verzögerung p definierten Tonfrequenz fp = fe/P.
Diese Ausführungsform der Erfindung impliziert ebenfalls eine Anpassung des Fensterverwaltungsmoduls 82. Die Anzahl M von Abtastproben des entrauschten Signals, die an dem momentanen Block zu sichern sind, enspricht hier einer ganzen Zahl von aufeinanderfolgenden Zeitintervallen tr zwischen zwei Glottis-Unterbrechungen (s. Fig. 10). Diese Anordnung vermeidet die Probleme von Phasendiskontinuität zwischen Blöcken und berücksichtigt dabei mögliche Variationen der Zeitintervalle tr an einem Block.

Claims

1. Verfahren zur Rauschunterdrückung eines in aufeinanderfolgenden Blöcken behandelten digitalen Sprachsignals (s), wobei:

- eine harmonische Analyse des Sprachsignals durchgeführt wird, um eine Tonfrequenz (fp) des Sprachsignals an jedem Block zu schätzen, wo es eine Stimmaktivität aufweist;

- Spektralkomponenten (Sn,f, Sn,i) des Sprachsignals an jedem Block berechnet werden;

- für jeden Block Schätzungen von Spektralkomponenten von in dem Sprachsignal enthaltenem Rauschen berechnet werden;

- eine spektrale Subtraktion durchgeführt wird, die mindestens einen ersten Schritt aufweist, der darin besteht, daß jeweils von jeder Spektralkomponente (Sn,f) des Sprachsignals an dem Block eine Größe subtrahiert wird, die von Parametern abhängt, welche mindestens die Schätzung der entsprechenden Spektralkomponente des Rauschens für den Block und den Wert der geschätzten Tonfrequenz beinhalten.

2. Verfahren nach Anspruch 1, bei dem der Wert der geschätzten Tonfrequenz (fp) verwendet wird, um geschützte Frequenzen unter der Gesamtheit der Frequenzen auszuwählen, für die Spektralkomponenten des Sprachsignals berechnet werden, und bei dem zum Substrahieren von einer gegebenen Spektralkomponente (Sn,f) des Sprachsignals eine geringere Größe angenommen wird, wenn die Spektralkomponente einer geschützten Frequenz entspricht, als wenn die Spektralkomponente nicht einer geschützten Frequenz entspricht.

3. Verfahren nach Anspruch 2, bei dem die geschützten Frequenzen derart ausgewählt werden, daß die/ einer jeden geschützten Frequenz entsprechende Spektralkomponente des Sprachsignals einen ausgehend von der entsprechenden Schätzung der Spektralkomponente des Rauschens bestimmten Rauschpegel übersteigt.

4. Verfahren nach Anspruch 2 oder 3, bei dem jede geschützte Frequenz unter der Gesamtheit der Frequenzen, für welche Spektralkomponenten des Sprachsignals berechnet werden, diejenige ist, die einem ganzzahligen Vielfachen der geschätzten Tonfrequenz (fp) am nächsten ist.

5, Verfahren nach Anspruch 2 oder 3, bei dem jede geschützte Frequenz unter der Gesamtheit der Frequenzen, für welche Spektralkomponenten des Sprachsignals berechnet werden, diejenige ist, die einer Frequenz mit einem Intervall der Form [η · fp - η · δ fp/2, η · fp - η · δ fp/2] am nächsten ist, wobei fp die geschätzte Tonfrequenz bezeichnet, δfp die Frequenzauflösung der Schätzung der Tonfrequenz bezeichnet, und η eine ganze Zahl bezeichnet.

6. Verfahren nach einem der Ansprüche 2 bis 5, bei dem die von der Spektralkomponente (Sn,f) des Sprachsignals zu subtrahierende Größe bei einer geschützten Frequenz im wesentlichen Null ist.

7. Verfahren nach einem der Ansprüche 1 bis 6, bei dem nach der Schätzung der Tonfrequenz (fp) des Sprachsignals an einem Block das Sprachsignal des Blocks konditioniert wird, indem es bei einer Überabtastfrequenz (fe) überabgetastet wird, die ein Mehrfaches der geschätzten Tonfrequenz ist, und die Spektralkomponenten (Sn,f) des Sprachsignals an dem Block auf der Grundlage des konditionierten Signals (s') berechnet werden, um diese Größen von ihnen zu subtrahieren.

8. Verfahren nach Anspruch 7, bei dem Spektralkomponenten (Sn,f) des Sprachsignals berechnet werden, indem das konditionierte Signal (s') auf Blöcke von N Abtastproben verteilt wird, welche einer Transformation im Frequenzbereich unterzogen werden, und bei dem das Verhältnis (p) zwischen der Überabtastfrequenz (fe) und der geschätzten Tonfrequenz ein Teiler mit der Zahl N ist.

9. Verfahren nach Anspruch 7 oder 8, bei dem ein Grad der Stimmhaftigkeit (χ) des Sprachsignals an dem Block ausgehend von einer Berechnung der Entropie (H) der Autokorrelation der auf der Grundlage des konditionierten Signals berechneten Spektralkomponenten (S²n,f) geschätzt wird.

10. Verfahren nach Anspruch 9, bei dem die Spektralkomponenten (S²n,f), deren Autokorrelation berechnet wird, die auf der Grundlage des konditionierten Signals (s') nach Subtraktion der Größen berechneten sind.

11. Verfahren nach Anspruch 9 oder 10, bei dem der Grad der Stimmhaftigkeit (χ) ausgehend von einer normalisierten Entropie H mit der Form

gemessen wird, wobei N die Anzahl von Abtastproben ist, die zur Berechnung der Spektralkomponenten (S²n,f) auf der Grundlage des konditionierten Signals (s') verwendet werden, und A(k) die normalisierte Autokorrelation ist, die definiert ist durch:

wobei S²n,f die auf der Grundlage des konditionierten Signals berechnete Spektralkomponente mit Rang f ist.

12. Verfahren nach einem der vorhergehenden Ansprüche, bei dem nach der Behandlung eines jeden Blockes von den durch diese Behandlung zur Verfügung gestellten Abtastproben des rauschunterdrückten Sprachsignals eine Anzahl von Abtastproben (M) aufbewahrt wird, die gleich einem ganzzahligen Vielfachen von Malen des Verhältnisses (Tp) aus der Abtastfrequenz (Fe) und der geschätzten Tonfrequenz (fp) ist.

13. Verfahren nach einem der Ansprüche 1 bis 11, bei dem die Schätzung der Tonfrequenz des Sprachsignals an einem Block die folgenden Schritte aufweist:

- Schätzen der Zeitintervalle (tr) zwischen zwei aufeinanderfolgenden, während der Dauer des Blocks auftretenden Unterbrechungen (R) des Signals, welche Schließungen der Glottis des Sprechers zuzuordnen sind, wobei die geschätzte Tonfrequenz zu den Zeitintervallen umgekehrt proportional ist;

- Interpolieren des Sprachsignals in den Zeitintervallen, damit das aus dieser Interpolation hervorgehende konditionierte Signal (s') zwischen zwei aufeinanderfolgenden Unterbrechungen ein konstantes Zeitintervall aufweist.

14. Verfahren nach Anspruch 13, bei dem nach Behandlung eines jeden Blockes von den durch diese Behandlung zur Verfügung gestellten Abtastproben des rauschunterdrückten Sprachsignals eine Anzahl von Abtastproben (M) aufbewahrt wird, welche einer ganzzahligen Anzahl von geschätzten Zeitintervallen (tr) entspricht.

15. Verfahren nach einem der vorhergehenden Ansprüche, bei dem im Spektralbereich Werte eines Rauschabstandes geschätzt werden, den das Sprachsignal an jedem Block aufweist, und bei dem die Parameter, von denen die zu subtrahierenden Größen abhängen, die geschätzten Werte des Rauschabstandes beinhalten, wobei die von jeder Spektralkomponenten des Sprachsignals an dem Block zu subtrahierende Größe eine abnehmende Funktion des entsprechenden geschätzten Werts des Rauschabstandes ist.

16. Verfahren nach Anspruch 15, bei dem die Funktion für die höchsten Werte des Rauschabstandes nach Null hin abnimmt.

17. Verfahren nach einem der vorhergehenden Ansprüche, bei dem Spektralkomponenten (S²n,f) eines rauschunterdrückten Signals, die durch Subtrahieren der Größen von den Spektralkomponenten (Sn,f) des Sprachsignals erhalten werden, zur Berechnung einer Maskierungskurve (Mn,q) unter Anwendung eines Modells der auditiven Wahrnehmung verwendet Werden.

18. Verfahren nach den Ansprüchen 11 und 17, bei dem die Berechnung der Maskierungskurve (Mn,q) den mittels der normalisierten Entropie H gemessenen Grad der Stimmhaftigkeit (χ) einsetzt.

19. Verfahren nach Anspruch 17 oder 18, bei dem die Parameter, von denen die von einer Spektralkomponente (Sn,f) des Sprachsignals zu subtrahierende Größe an einem Block einen Abstand zwischen einer majorierten Schätzung ( 'n,i) der entsprechenden Spektralkomponente des Rauschens und der berechneten Maskierungskurve (Mn,q) beinhalten.

20. Verfahren nach Anspruch 19, bei dem die majorierten Schätzungen ( 'n,i) der Spektralkomponenten des Rauschens für einen Block mit der berechneten Maskierungskurve (Mn,q) verglichen werden, und bei dem die von einer Spektralkomponente (Sn,f) des Sprachsignals zu subtrahierende Größe zum Erhalten der Komponenten (S³n,f), die der Transformation in den Zeitbereich unterzogen werden, auf den Bruchteil der majorierten Schätzung der entsprechenden Spektralkomponente des Rauschens beschränkt ist, welcher die Maskierungskurve übersteigt.

21. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die spektrale Subtraktion aufweist:

- einen ersten Subtraktionsschritt, in dem jeweils von jeder Spektralkomponente (Sn,f) des Sprachsignals an dem Block eine erste Größe subtrahiert wird, die von Parametern abhängt, welche eine majorierte Schätzung ( 'n,i) der entsprechenden Spektralkomponente des Rauschens für den Block und die geschätzte Tonfrequenz (fp) beinhalten, so daß Spektralkomponenten (S²n,f) eines ersten rauschunterdrückten Signals erhalten werden;

- Berechnung einer Maskierungskurve (Mn,q) unter Anwendung eines Modells der auditiven Wahrnehmung ausgehend von den Spektralkomponenten (S²n,f) des ersten rauschunterdrückten Signals;

- Vergleich der majorierten Schätzungen ( 'n,i) der Spektralkomponenten des Rauschens für den Block mit der berechneten Maskierungskurve (Mn,q); und

- einen zweiten Subtrahierschritt, in dem jeweils von jeder Spektralkomponente (Sn,f) des Sprachsignals an dem Block eine zweite Größe subtrahiert wird, die gleich dem Minimum zwischen der entsprechenden ersten Größe und dem Bruchteil der majorierten Schätzung der entsprechenden Spektralkomponente des Rauschens ist, welcher die Maskierungskurve übersteigt, so daß Spektralkomponenten (S³n,f) eines zweiten rauschunterdrückten Signals erhalten werden.

22. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die bei der spektralen Subtraktion in Betracht gezogenen Schätzungen der Spektralkomponenten des Rauschens majorierte Schätzungen sind, wobei jede majorierte Schätzung ( 'n,i) einer Spektralkomponente des im Sprachsignal enthaltenen Rauschens durch Kombinieren einer Langzeitschätzung ( n,i) der Spektralkomponente des Rauschens und eines Maßes (ΔB ) für die Variabilität der Spektralkomponente des Rauschens um die Langzeitschätzung herum erhalten wird.

23. Verfahren nach Anspruch 22, bei dem die Langzeitschätzung n,i einer Spektralkomponente des Rauschens an einem Block n, entsprechend einer in einem Band i enthaltenen Frequenz, in der Form

berechnet wird, wobei γn,i einen nicht-binären Grad der Stimmaktivität des Sprachsignals bezeichnet, der für den Block n bezüglich des Frequenzbandes i bestimmt wird, Sn,i einen Mittelwert der Amplitude des Spektrums des Sprachsignals des Blocks n im Band i bezeichnet, und λB einen Vergessensfaktor bezeichnet.

24. Verfahren nach Anspruch 23, bei dem die Grade der Stimmaktivität (γn,i) für den Block n bestimmt werden, indem eine apriorische Rauschunterdrückung des Sprachsignals des Blocks n auf der Grundlage von Schätzungen des Rauschens (α'n-τ1,i· n-τ1,i) durchgeführt wird, die bei mindestens einem vorhergehenden Block erhalten wurden, und indem die Variationen der Energie des apriorisch rauschunterdrückten Signals analysiert werden.

25. Verfahren nach Anspruch 24, bei dem der Grad der Stimmaktivität (γn,i) bezüglich eines Frequenzbandes i eine ständig zwischen 0 und 1 variierende Funktion ist.

26. Verfahren nach Anspruch 24 oder 25, bei dem eine Langzeitschätzung ( n,i) der Energie des apriorisch rauschunterdrückten Signals im Frequenzband i berechnet wird und diese Langzeitschätzung mit einer an dem betreffenden Block n berechneten, momentanen Schätzung (En,i) dieser Energie verglichen wird, um den Grad der Stimmaktivität (γn,i) des Sprachsignals für den Block n im Frequenzband i zu erhalten.

27. Verfahren nach einem der Ansprüche 23 bis 26, bei dem das Maß (ΔB ) der Variabilität einer Spektralkomponente des Rauschens um seine Langzeitschätzung ( n,i) herum für einen Block n, wobei die Spektralkomponente einer in einem Band i enthaltenen Frequenz entspricht, eine Funktion der für eine gegebene Anzahl von Blöcken n-k ≤ n berechneten Abstände Sn-k,i - n-k,i ist, an denen das Sprachsignal keine Stimmaktivität in dem Band i aufweist.

28. Verfahren nach einem der Ansprüche 23 bis 26, bei dem das Maß (ΔB ) der Variabilität einer Spektralkomponente des Rauschens um seine Langzeitschätzung ( n,i) herum für einen Block n, wobei die Spektralkomponente einer in einem Band i enthaltenen Frequenz entspricht, eine Funktion der für eine gegebene Anzahl von Blöcken n-k ≤ n berechneten Abstände f Sn-k,f - n-k,i ist, an denen das Sprachsignal keine Stimmaktivität in dem Band i aufweist, wobei Sn-k,f die Spektralkomponente bezeichnet, die einer Frequenz f für den Block n-k entspricht, und das Frequenzintervall [f(i - 1), f(i)] dem Band i entspricht.

29. Verfahren nach einem der vorhergehenden Ansprüche, bei dem auf das Ergebnis der spektralen Subtraktion eine Transformation in den Zeitbereich angewendet wird, um ein rauschunterdrücktes Sprachsignal (s³) zu erstellen.

30. Vorrichtung zur Rauschunterdrückung eines Sprachsignals, mit Behandlungseinrichtungen, die dazu konzipiert sind, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.