EP2158588A1

EP2158588A1 - Spektralglättungsverfahren von verrauschten signalen

Info

Publication number: EP2158588A1
Application number: EP08784249A
Authority: EP
Inventors: Rainer Martin; Timo Gerkmann; Colin Breithaupt
Original assignee: Siemens Audiologische Technik GmbH; Ruhr Universitaet Bochum
Current assignee: Sivantos GmbH; Ruhr Universitaet Bochum
Priority date: 2007-06-27
Filing date: 2008-06-25
Publication date: 2010-03-03
Anticipated expiration: 2028-06-25
Also published as: DE502008001543D1; EP2158588B1; WO2009000255A9; DK2158588T3; US20100182510A1; DE102007030209A1; US8892431B2; ATE484822T1; WO2009000255A1

Description

SPEKTRALGLÄTTUNGSVERFAHREN VON VERRAUSCHTEN SIGNALEN

Die Erfindung betrifft ein Glättungsverfahren zur Unterdrückung von fluktuierenden Artefakten bei der Störgeräuschreduktion.

In der digitalen Sprachsignalübertragung ist die Störgeräuschunterdrückung ein wichtiger Aspekt. Die mit einem Mikrofon erfassten und anschließend digitalisierten Audiosignale enthalten neben dem Nutzsignal (Figur 1) noch Umgebungsgeräusche, die dem Nutzsignal überlagert sind (Figur 2). So werden z.B. bei Freisprechanlagen in Fahrzeugen neben den Sprachsignalen noch Motoren- und Windgeräusche erfasst, bei Hörhilfen sind es ständig wechselnde Umgebungsgeräusche wie Verkehrsgeräusche oder im Hintergrund sprechende Personen wie etwa in einem Restaurant. Dadurch ist ein Verstehen des Sprachsignals nur mit erhöhter Anstrengung möglich. Die Störgeräuschreduktion zielt dementsprechend auf eine Erleichterung des Sprachverstehens ab. Daher darf eine Verringerung des Störgeräuschs auch das Sprachsignal nicht hörbar verzerren.

Für die Störgeräuschreduktion ist die Spektraldarstellung eine günstige Repräsentation des Signals. Hierbei wird das Signal in Frequenzen aufgeschlüsselt dargestellt. Eine praktische Realisierung der Spektraldarstellung sind Kurzzeitspektren, die durch eine Zerteilung des Signals in kurze Rahmen entstehen (Figur 3), die getrennt voneinander einer Spektraltransformation unterzogen werden (Figur 4). Ein Signalrahmen kann dabei bei einer Abtastrate von f_s = 8000 Hz beispielsweise M = 256 aufeinanderfolgende digitale

Signalabtastwerte umfassen, was dann einer Dauer von 32 ms entspricht. Ein transformierter Rahmen besteht dann aus M sogenannten Frequenzbins. Der quadrierte Amplitudenwert eines Frequenzbins korrespondiert zur Energie, die das Signal in dem schmalen Frequenzausschnitt von ca. 31 Hz Bandbreite enthält, der vom jeweiligen Frequenzbin repräsentiert wird. Aufgrund der Symmetrieeigenschaften der Spektraltransformation sind von den M Frequenzbins nur M/2+1 , also im vorangegangenen Beispiel 129 Bins relevant für die Signaldarstellung. Mit 129 relevanten Bins und 31 Hz Bandbreite pro Bin wird insgesamt ein spektrales Band von 0 Hz bis ca. 4000 Hz abgedeckt. Dies reicht aus, um viele Sprachlaute mit hinreichender spektraler Auflösung zu beschreiben. Eine andere gängige Bandbreite ist 8000 Hz, die durch eine höhere Abtastrate und somit mehr Frequenzbins bei gleicher Rahmendauer erreicht werden kann. In einem Kurzzeitspektrum sind die Frequenzbins mit μ indiziert. Der Index für Rahmen ist λ. Die Amplituden des Kurzzeitspektrums eines Rahmens λ werden hier allgemein als spektrale Größe G_μ(λ) notiert. Ein vollständiges Kurzzeitspektrum bestehend aus den M Frequenzbins eines Rahmens ergibt sich aus den Amplituden G_μ (λ) der Indizes μ = 0 bis μ = M - 1 , also μ = 0 ... M - 1. Für reelle Zeitsignale erfüllen Kurzzeitspektren die Symmetriebedingung G_μ (λ) = G_M-μ (λ). Eine gängige Form der Präsentation der Kurzzeitspektren sind sogenannte Spektrogramme, die durch Aneinanderreihung zeitlich aufeinanderfolgender Kurzzeitspektren gebildet werden (vgl. beispielhaft Figuren 6 bis 9). Vorteil der Spektraldarstellung ist, dass die wesentliche Sprachenergie in einer relativ geringen Anzahl von Frequenzbins konzentriert vorliegt (Figuren 4 und 6), während im Zeitsignal alle digitalen Abtastwerte gleich relevant sind (Figur 3). Die Signalenergie der Störung ist in den meisten Fällen auf eine größere Anzahl von Frequenzbins verteilt. Da die Frequenzbins unterschiedlich viel Sprachenergie enthalten, ist es möglich, das Rauschen in jenen Bins zu unterdrücken, die nur wenig Sprachenergie enthalten. Je schmalbandiger die Frequenzbins sind, desto besser gelingt diese Trennung.

Für die Störgeräuschreduktion wird eine spektrale Gewichtungsfunktion geschätzt, die nach unterschiedlichen Optimierungskriterien berechnet werden kann. Sie ergibt niedrige Werte oder Null in Frequenzbins, in denen hauptsächlich Störung vorliegt, und Werte nahe oder gleich Eins für Bins, in denen Sprachenergie dominiert (Figur 5). Die Gewichtungsfunktion wird im Allgemeinen für jeden Signalrahmen in jedem Frequenzbin neu geschätzt. Die Gesamtheit der Gewichtungswerte aller Frequenzbins eines Rahmens wird hier auch als „Kurzzeitspektrum der Gewichtungsfunktion" oder einfach als „Gewichtungsfunktion" bezeichnet.

Eine Multiplikation der Gewichtungsfunktion mit dem Kurzzeitspektrum des verrauschten Signals ergibt das gefilterte Spektrum, in dem die Amplituden der Frequenzbins, in denen Störung dominiert, stark verringert sind, während Sprachkomponenten nahezu unbeeinflusst bleiben (Figuren 8 und 9).

Schätzfehler bei der Berechnung der spektralen Gewichtungsfunktion, sogenannte Fluktuationen, ergeben gelegentlich zu hohe Gewichtungswerte für Frequenzbins, die hauptsächlich Störung enthalten (Figur 8). Dies geschieht unabhängig von spektral benachbarten oder zeitlich vorangegangenen Werten. Fluktuationen kommen auch schon in spektralen Zwischengrößen wie z.B. der Schätzung des Signal-zu-Rausch-Verhältnisses (signal-to-noise ratio, SNR) vor. Nach Multiplikation der schätzfehlerbehafteten Gewichtungsfunktion mit dem verrauschten Kurzzeitspektrum enthält das gefilterte Spektrum einzelne Frequenzbins, die hauptsächlich Störung enthalten und dennoch relativ hohe Amplituden aufweisen. Diese Bins heißen Ausreißer. Bei der Synthese eines Zeitsignals aus den gefilterten Kurzzeitspektren sind die vereinzelten Ausreißer als tonale Artefakte (musical noise) zu hören, die wegen ihrer Tonalität als besonders störend empfunden werden (Figuren 10 und 11). Ein einzelnes tonales Artefakt hat die Dauer eines Signalrahmens und seine Frequenz wird durch den Frequenzbin bestimmt, in dem der Ausreißer vorkam.

Zur Unterdrückung von Fluktuationen in der Gewichtungsfunktion oder in spektralen Zwischengrößen bzw. zur Unterdrückung von Ausreißern im gefilterten Spektrum können diese spektralen Größen durch ein Mittelungsverfahren geglättet und somit von überhöhten Werten befreit werden. Spektrale Größen mehrerer spektral benachbarter oder zeitlich aufeinanderfolgender Frequenzbins werden dabei zu einem Mittelwert verrechnet, so dass die Amplitude einzelner Ausreißer relativiert wird. Eine Glättung ist über der Frequenz [1: Tim Fingscheidt, Christophe Beaugeant and Suhadi Suhadi. Overcoming the Statistical independence assumption w.r.t. frequency in speech enhancement. Proceedings, IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP), 1 :1081-1084, 2005], entlang der Zeit [2: Harald Gustafsson, Sven Erik Nordholm and Ingvar Claesson. Spectral subtraction using reduced delay convolution and adaptive averaging. IEEE Transactions on Speech and Audio Processing, 9(8):799-807, November 2001] oder als Kombination aus zeitlicher und spektraler Mittelung [3: Zenton Goh, Kah-Chye Tan and B.T.G. Tan. Postprocessing method for suppressing musical noise generated by spectral subtraction. IEEE Transactions on Speech and Audio Processing, 6(3):287-292, May 1998] bekannt. Nachteil einer Glättung über der Frequenz ist, dass bei einer Verrechnung mehrerer Frequenzbins die spektrale Auflösung verringert wird, also die Unterscheidung zwischen Sprachbins und Rauschbins schwieriger wird. Eine zeitliche Glättung durch Zusammenfassung aufeinanderfolgender Werte eines Bins verringert die zeitliche Dynamik der spektralen Werte, also ihr Vermögen, schnellen zeitlichen Änderungen der Sprache zu folgen. Eine Verzerrung des Sprachsignals ist die Folge (clipping). Außerdem kann ein mit dem Sprachsignal korreliertes, irritierendes Restrauschen hörbar werden (noise shaping). Diese Glättungsverfahren im Spektralbereich müssen deshalb im Allgemeinen aufwändig an das Sprachsignal adaptiert werden.

Eine weitere bekannte Form der Glättung einzelner Kurzzeitspektren über der Frequenz ist ein als „Liftering" bekanntes Verfahren [4: Andrzej Czyzewski. Multitask noisy speech enhancement System, http://sound.eti.pg.gda.pl/ denoise/main.html, 2004], [5: Francois Thibault. High-Ievel control of einging voice timbre transformations. http://www.music.mcgill.ca/thibault/Thesis/ node43.html, 2004]. Hierbei wird das Kurzzeitspektrum eines Rahmens λ zunächst in den sogenannten Cepstralbereich transformiert. Die cepstrale Repräsentation der spektralen Amplituden G_μ(λ) berechnet sich zu

G7^st (A) = IDFT {log (G_μ(λ))} , μ'= 0... (M - \), μ = 0... (M - I) (1)

mit IDFT{-} der inversen diskreten Fourier-Transformation (DFT) einer Folge von Werten der Länge M. Diese Transformation resultiert in M Transformationskoeffizienten G_μ°T^ι (λ) , den sogenannten cepstralen Bins mit Index μ'. Das

Cepstrum besteht nach Gleichung (1 ) prinzipiell aus einer nicht-linearen Abbildung, nämlich der Logarithmierung, einer betragsmäßig vorliegenden spektralen Größe und einer anschließenden Transformation dieses logarithmierten Betragsspektrums mit einer Transformation. Der Vorteil einer cepstralen Repräsentation der Amplituden (Figur 14) ist, dass Sprache nicht mehr kammartig über die Frequenz verteilt ist (Figuren 4 und 6), sondern die wesentliche Information über das Sprachsignal in den cepstralen Bins mit kleinem Index repräsentiert ist. Außerdem wird wesentliche Sprachinformation noch in dem verhältnismäßig leicht zu detektierenden cepstralen Bin mit höherem Index repräsentiert, der die sogenannte Pitch-Frequenz (Sprachgrundfrequenz) des Sprechers repräsentiert.

Ein geglättetes Kurzzeitspektrum kann berechnet werden, indem cepstrale Bins mit relativ kleinen Beträgen zu Null gesetzt werden und anschließend das veränderte Cepstrum wieder in ein Kurzzeitspektrum rücktransformiert wird. Da allerdings starke Fluktuationen bzw. Ausreißer zu entsprechend hohen Amplituden im Cepstrum führen, können diese Artefakte durch diese Verfahren nicht detektiert und unterdrückt werden.

Alternativ zum Liftering gibt es noch das Verfahen nach [6: Petre Stoica and Niclas Sandgren. Smoothed nonparametric spectral estimation via cepstrum thresholding. IEEE Signal Processing Magazine, pages 34-45, November 2006]. Hier werden nach einem Kriterium ausgesuchte cepstrale Bins nicht zu Null gesetzt, sondern zu einem Wert, der für die Schätzung von Langzeitspektren stationärer Signale aus Kurzzeitspektren optimal ist. Diese Form der Schätzung von Signalspektren bringt für stark nicht-stationäre Signale wie Sprache generell keine Vorteile.

Hiervon ausgehend liegt der Erfindung die Aufgabe zugrunde, für die Rauschreduktion ein Glättungsverfahren zur Unterdrückung von Fluktuationen in der Gewichtungsfunktion oder in spektralen Zwischengrößen bzw. von Ausreißern in gefilterten Kurzzeitspektren aufzuzeigen, das weder die Frequenzauflösung der Kurzzeitspektren verringert noch die zeitliche Dynamik des Sprachsignals beeinträchtigt.

Die Lösung dieser Aufgabe besteht in einem Glättungsverfahren mit den Maßnahmen von Patentanspruch 1. Vorteilhafte Weiterbildungen sind Gegenstand der Unteransprüche.

Das erfindungsgemäße Glättungsverfahren umfasst folgende Schritte:

• Bereitstellen von Kurzzeitspektren einer Folge von Signalrahmen,

• Transformieren jedes Kurzzeitspektrums durch eine Hintransformation, die das Kurzzeitspektrum durch Transformationskoeffizienten beschreibt, welche das Kurzzeitspektrum in seine groben und seine feinen Strukturen unterteilt repräsentieren,

• Glätten der Transformationskoeffizienten jeweils gleicher Koeffizientenindizes durch Kombination von wenigstens zwei aufeinanderfolgenden transformierten Kurzzeitspektren und

• Transformieren der geglätteten Transformationskoeffizienten in geglättete Kurzzeitspektren durch eine Rücktransformation. Das erfindungsgemäße Glättungsverfahren bedient sich einer Transformation wie des Cepstrums, um ein breitbandiges Sprachsignal mit möglichst wenig Transformationskoeffizienten in seiner wesentlichen Struktur zu beschreiben. Anders als in bekannten Verfahren werden die Transformationskoeffizienten aber nicht unabhängig voneinander zu Null gesetzt, wenn sie einen Schwellwert unterschreiten. Es werden stattdessen die Werte von Transformationskoeffizienten aus mindestens zwei aufeinanderfolgenden Rahmen durch eine Glättung über die Zeit miteinander verrechnet. Hierbei wird der Grad der Glättung davon abhängig gemacht, inwieweit die durch den Koeffizienten repräsentierte spektrale Struktur entscheidend für die Beschreibung des Nutzsignals ist. Der Grad der zeitlichen Glättung eines Koeffizienten hängt daher beispielsweise davon ab, ob ein Transformationskoeffizient viel Sprachenergie enthält oder wenig. Dies ist im Cepstrum oder ähnlichen Transformationen leichter zu bestimmen als im Kurzzeitspektrum. So kann beispielsweise angenommen werden, dass die ersten vier cepstralen Koeffizienten mit Indizes μ¹ = 0 ... 3 und zusätzlich der Koeffizient mit maximalem Betrag und Index μ¹ größer 16 und kleiner 160 bei f_s = 8000 Hz

(Pitch) Sprache repräsentieren. Koeffizienten mit viel Sprachinformation werden nur soweit geglättet, dass ihre zeitliche Dynamik nicht geringer wird als bei einem unverrauschten Sprachsignal. Gegebenenfalls werden diese Koeffizienten gar nicht geglättet. Sprachverzerrungen werden so verhindert. Da spektrale Fluktuationen und Ausreißer eine kurzzeitige Änderung in der Feinstruktur eines Kurzzeitspektrums darstellen, bilden sie sich im transformierten Kurzzeitspektrum als kurzzeitige Änderung derjenigen Transformationskoeffizienten ab, die die Feinstruktur des Kurzzeitspektrums repräsentieren. Da diese Transformationskoeffizienten bei unverrauschter Sprache eine relativ geringe zeitliche Änderungsrate haben, können eben diese Koeffizienten stärker geglättet werden. Eine verstärkte zeitliche Glättung wirkt somit der Ausbildung von Ausreißern entgegen, ohne die Struktur der Sprache zu beeinflussen. Das Glättungsverfahren resultiert somit nicht in einer verringerten spektralen Auflösung für Sprachlaute. Die Änderung der Feinstruktur des Kurzzeitspektrums bei aufeinanderfolgenden Rahmen ist derart verzögert, dass nur schmalbandige spektrale Änderungen mit Zeitkonstanten kleiner als derjenigen von un verrauschter Sprache unterbunden werden.

Aus der geglätteten Größe, notiert als G^_woth (λ), kann durch eine Rücktransformation wieder eine spektrale Darstellung des geglätteten Kurzzeitspektrums gewonnen werden. Für eine cepstrale Repräsentation, wie unter (1) beschrieben, ist eine mögliche Rücktransformation:

G_μ,smooth (A) = exp (DFT fe₀₀, (λ)} ) , μ = 0... (M - 1)₅ μ^<= 0... (M - 1) (2)

mit DFT{} der diskreten Fourier-Transformation und exp() der Exponentialfunktion, die in (2) elementweise angewendet wird.

Die Vorteile, die sich aus der erfindungsgemäßen Glättung von Kurzzeitspektren ergeben, sind:

• eine effektive Unterdrückung von Fluktuationen bzw. Ausreißern,

• Beibehaltung der spektralen Auflösung für Sprachsignale und

• keine hörbare Beeinflussung von Sprache.

Es ist wichtig anzumerken, dass die für das Cepstrum verwendete inverse DFT in (1) und die DFT für die Rücktransformation in (2) durch andere Transformationen ersetzt werden können, ohne dass dabei die prinzipiellen Eigenschaften der Transformationskoeffizienten bzgl. der kompakten Repräsentation von Sprache verloren gehen. Genauso verhält es sich mit der Logarithmierung in (1) und der entsprechenden Umkehrfunktion in (2), der Exponentialfunktion. Auch hier sind andere nicht-lineare Abbildungen und auch lineare Abbildungen denkbar.

Transformationen unterscheiden sich in ihren verwendeten Basisfunktionen. Der Vorgang der Transformation bedeutet, dass das Signal mit den verschiedenen Basisfunktionen korreliert wird. Der resultierende Grad der Korrelation zwischen dem Signal und einer Basisfunktion ist dann der zugehörige Transformationskoeffizient. Bei einer Transformation entstehen so viele Transformationskoeffizienten wie es Basisfunktionen gibt. Ihre Anzahl ist hier mit M bezeichnet. Für die Erfindung wichtige Transformationen sind solche, durch deren Basisfunktionen das zu transformierende Kurzzeitspektrum in seiner Grobstruktur und seiner Feinstruktur aufgeschlüsselt wird.

Ein Unterscheidungsmerkmal von Transformationen ist die Orthogonalität. Orthogonale Transformationsbasen enthalten nur Basisfunktionen, die unkorreliert sind. Für den Fall, dass das Signal mit einer der Basisfunktionen identisch ist, entstehen bei orthogonalen Transformationen Transformationskoeffizienten mit dem Wert Null, bis auf den einen Koeffizienten, der identisch zum Signal ist. Die Trennschärfe einer orthogonalen Transformation ist demnach hoch. Nicht-orthogonale Transformationen verwenden Funktionsbasen, die miteinander korreliert sind.

Ein weiteres Merkmal ist, dass die Basisfunktionen für den betrachteten Anwendungsfall diskret und endlich sind, da es sich bei den verarbeiteten Signalrahmen um diskrete Signale von der Länge eines Rahmens handelt.

Wichtiges Merkmal einer Transformation ist die Invertierbarkeit. Existiert zu einer Transformation (Hintransformation) eine inverse Transformation, so entsteht durch Transformation eines Signals in Transformationskoeffizienten und anschließender inverser Transformation (Rücktransformation) dieser Koeffizienten wieder das Ausgangssignal, falls die Transformationkoeffizienten nicht verändert wurden.

In der Signalverarbeitung, wie sie hier beschrieben wird, ist die diskrete Fourier- Transformation (DFT) eine bevorzugte Transformation. Ein dazugehöriger wichtiger Algorithmus in der diskreten Signalverarbeitung ist die „Fast-Fourier- Transformation" (FFT). Außerdem sind die diskrete Cosinus-Transformation (DCT) und die diskrete Sinus-Transformation (DST) häufig verwendete Transformationen. Diese Transformationen werden hier unter dem Begriff „Standardtransformationen" zusammengefasst. Eine für die Erfindung entscheidende bereits erwähnte Eigenschaft der Standardtransformationen ist, dass die Amplituden der verschiedenen Transformationskoeffizienten unter- schiedliche Grade an Feinstruktur des transformierten Signals repräsentieren. So beschreiben Koeffizienten mit kleinen Indizes die groben Strukturen des transformierten Signals, weil die zugehörigen Basisfunktionen niederfrequente harmonische Funktionen sind. Je höher der Index eines Transformationskoeffizienten bis hin zu μ¹ = M/2, desto feiner sind die Strukturen des transformierten Signals, die durch diesen Koeffizienten beschrieben werden. Für darüber hinausgehende Koeffizienten dreht sich diese Eigenschaft wegen der Symmetrie der Koeffizienten um. In der Regel werden bei der Signalverarbeitung nur die Koeffizienten mit Indizes μ' = 0 bis μ" = M/2 verarbeitet und die restlichen Werte durch spiegeln der Resultate ermittelt.

Die Invertierbarkeit der Transformationen macht es außerdem möglich, die Transformation und ihre Inverse bei der Hin- und Rücktransformation zu vertauschen. In (1) ist also auch beispielsweise die Verwendung der DFT aus (2) möglich, wenn in (2) die IDFT aus (1) verwendet wird.

Vorteilhaft werden die spektralen Koeffizienten der Kurzzeitspektren vor der Hintransformation nicht-linear abgebildet. Prinzipielle, für die Erfindung vorteilhafte Eigenschaft der nicht-linearen Abbildung ist eine Dynamik-Kompression relativ großer Amplituden und eine Dynamik-Expansion relativ kleiner Amplituden.

Entsprechend können die spektralen Koeffizienten der geglätteten Kurzzeitspektren nach der Rücktransformation nicht-linear abgebildet werden, wobei die nicht-lineare Abbildung nach der Rücktransformation die Umkehrung der nicht-linearen Abbildung vor der Hintransformation ist.

Zweckmäßigerweise werden die spektralen Koeffizienten vor der Hintransformation durch Logarithmierung nicht-linear abgebildet.

Eine Form der zeitlichen Glättung kann durch ein rekursives System vorzugsweise erster Ordnung erreicht werden:

GSLW . (3) Mögliche Werte für die Glättungskonstanten für Koeffizienten der Standard- transformationen im Falle von Sprachsignalen sind ß_μ> = 0 für μ' = 0 ... 3, ß_μ- = 0,8 für μ' = 4 ... M/2 mit Ausnahme der Transformationskoeffizienten durch die die Pitch-Frequenz eines Sprechers repräsentiert wird, und ß_μ> = 0,4 für Transformationskoeffizienten, die die Pitch-Frequenz repräsentieren. Verfahren zur Bestimmung des Pitch-Koeffizienten sind zahlreich in der Literatur verfügbar. Beispielsweise kann zur Bestimmung des Koeffizienten der Pitch derjenige Koeffizient gewählt werden, dessen Index zwischen μ' = 16 und μ' = 160 liegt und der die maximale Amplitude aller Koeffizienten in diesem Indexbereich aufweist. Für die verbleibenden Transformationskoeffizienten mit Indizes μ' = M/2 + 1 ... M - 1 gilt die Symmetriebedingung ßM-_μ' = ß_μ'. Die Werte sind für die Standardtransformationen sowie Kurzzeitspektren, die aus Signalen mit /. = 8000 Hz entstanden sind, geeignet. Sie sind durch verhältnismäßige

Umrechnung an andere Systeme anpassbar. Die Wahl ß_μ> = 0 bedeutet, dass die betreffenden Koeffizienten nicht geglättet werden. Es ist eine entscheidende Eigenschaft der Erfindung, dass Koeffizienten, die den groben Verlauf des Kurzzeitspektrums beschreiben, möglichst wenig geglättet werden, wenn es sich um die Entrauschung von Sprachsignalen handelt. So werden die groben Strukturen des breitbandigen Sprachspektrums vor Glättungseffekten geschützt. Die feinen Strukturen von Fluktuationen bzw. spektralen Ausreißern bilden sich bei den Standardtransformationen in den Transformationskoeffizienten zwischen μ' = 4 und μ' = M/2 ab, weshalb diese bis auf den Pitch der Sprache stark geglättet werden.

Vorteilhafterweise wird das Glättungsverfahren auf den Betrag oder eine Potenz des Betrags der Kurzzeitspektren angewendet.

Besonders vorteilhaft ist es, wenn zum Glätten der jeweiligen Transformationskoeffizienten unterschiedliche Zeitkonstanten verwendet werden. Die Zeitkonstanten können so gewählt werden, dass die Trans- formationskoeffizenten, die vornehmlich Sprache repräsentieren, wenig geglättet werden. Zweckmäßigerweise können die Transformations- koeffizenten, die hauptsächlich fluktuierende Hintergrundgeräusche und Artefakte der Geräuschreduktionsalgorithmen beschreiben, stark geglättet werden.

Als Kurzzeitspektrum kann die spektrale Gewichtungsfunktion eines Geräuschreduktionsalgorithmus bereitgestellt werden. Vorteilhaft kann als Kurzzeitspektrum auch die spektrale Gewichtungsfunktion eines Postfilters für mehrkanalige Verfahren zur Geräuschreduktion verwendet werden. Zweckmäßigerweise ergibt sich die spektrale Gewichtungsfunktion hierbei aus der Minimierung eines Fehlerkriteriums.

Als Kurzzeitspektrum kann auch ein gefiltertes Kurzzeitspektrum bereitgestellt werden.

Nach einer anderen Weiterbildung des Verfahrens, wird als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Geräuschreduktion bereitgestellt.

Als Kurzzeitspektrum kann auch eine geschätzte Kohärenz oder eine geschätzte „Magnitude Squared Coherence" zwischen wenigstens zwei Mikrofonkanälen bereitgestellt werden.

Vorteilhaft wird als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Sprecher- oder Quellentrennung bereitgestellt.

Weiterhin ist vorgesehen, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Sprechertrennung auf Basis von Phasenunterschieden von Signalen in den verschiedenen Kanälen (Phase Transform - PHAT) bereitgestellt wird.

Ferner ist es möglich, als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens auf Basis einer „Generalized Cross- Correlation" (GCC) zu verwenden.

Als Kurzzeitspektrum können auch spektrale Größen, die sowohl Sprach- als auch Störanteile enthalten, bereitgestellt werden. So kann als Kurzzeitspektrum auch eine Schätzung des Signal-zu-Rausch- Verhältnisses in den einzelnen Frequenzbins bereitgestellt werden. Femer kann als Kurzzeitspektrum eine Schätzung der Rauschleistung verwendet werden.

Das Problem von Fluktuationen in Kurzzeitspektren ist nicht nur in der Audiosignalverarbeitung bekannt. Weitere vorteilhafte Anwendungsgebiete sind die Bild- und die medizinische Signalverarbeitung.

In der Bildverarbeitung kann z.B. die Zeile eines Bildes als Signalrahmen interpretiert werden, der in den Spektralbereich transformiert werden kann. Die entstehenden Frequenzbins werden hier Ortsfrequenzbins genannt. Bei der Verarbeitung von Bildern im Ortsfrequenzbereich werden Algorithmen verwendet, die denen in der Audiosignalverarbeitung äquivalent sind. Mögliche Fluktuationen, die diese Algorithmen im Ortsfrequenzbereich erzeugen, resultieren im verarbeiteten Bild in optischen Artefakten. Diese sind äquivalent zum tonalen Rauschen in der Audioverarbeitung.

In der medizinischen Signalverarbeitung werden vom menschlichen Körper Signale abgeleitet, die wie akustische Signale verrauscht sein können. Das verrauschte Signal kann entsprechend rahmenweise in den Spektralbereich transformiert werden. Die entstehenden Spektrogramme lassen sich wie Audiospektren verarbeiten.

Das Glättungsverfahren kann in einem Telekommunikationsnetzwerk und/oder bei einer Rundfunkübertragung zur Verbesserung der Sprach- und/oder Bildqualität sowie zur Unterdrückung von Artefakten eingesetzt werden. In der mobilen Sprachkommunikation treten Verzerrungen des Sprachsignals auf, die zum einen durch die eingesetzten Sprachcodierverfahren (redundanzver- mindemde Sprachkompression) und das damit verbundene Quantisierungsrauschen und zum anderen durch die vom Übertragungskanal hervorgerufenen Störungen bedingt sind. Letztere sind wiederum stark zeitlich und spektral fluktuierend und führen zu einer deutlich wahrnehmbaren Verschlechterung der Sprachqualität. Auch hier muss die empfängerseitig oder im Netzwerk einge- setzte Signalverarbeitung sicherstellen, dass die quasi zufälligen Artefakte reduziert werden. Zur Qualitätsverbesserung werden bisher sogenannte Postfilter und Fehlerverdeckungsverfahren eingesetzt. Während das Postfilter überwiegend die Reduktion von Quantisierungsrauschen zur Aufgabe hat, werden Fehlerverdeckungsverfahren zur Unterdrückung von übertragungsbedingten Kanalstörungen eingesetzt. In beiden Anwendungen können Verbesserungen erzielt werden, wenn in das Postfilter oder das Verdeckungsverfahren das erfindungsgemäße Glättungsverfahren integriert wird. Das Glättungsverfahren kann somit als Postfilter, in einem Postfilter, in Kombination mit einem Postfilter, im Rahmen eines Fehlerverdeckungsverfahrens oder in Zusammenhang mit einem Verfahren zur Sprach- und/oder Bildcodierung (Dekompressions- verfahren bzw. Dekodierungsverfahren) insbesondere empfängerseitig eingesetzt werden. Mit der Verwendung des Verfahrens als Postfilter ist dabei gemeint, dass das Verfahren zum Postfiltem eingesetzt wird, dass also mit einem das Verfahren umsetzenden Algorithmus die in den Anwendungen entstehenden Daten prozessiert werden. Weiterhin ist es möglich, die Qualität des Sprachsignals im Telekommunikationsnetzwerk zu verbessern, indem das Sprachsignalspektrum oder eine davon abgeleitete Größe mit dem erfindungsgemäßen Glättungsverfahren geglättet wird.

Die Erfindung wird nachfolgend anhand von in den Figuren dargestellten Abbildungen näher erläutert. Es zeigen:

Figur 1 ein unverrauschtes Zeitsignal;

Figur 2 ein verrauschtes Zeitsignal;

Figur 3 einen einzelnen Signalrahmen im Zeitbereich;

Figur 4 einen einzelnen Signalrahmen im Spektralbereich;

Figur 5 eine Gewichtungsfunktion für einen einzelnen Rahmen;

Figur 6 das Spektrogramm eines unverrauschten Signals;

Figur 7 das Spektrogramm eines verrauschten Signals; Figur 8 das Spektrogramm eines mit der ungeglätteten Gewichtungsfunktion gefilterten Signals;

Figur 9 das Spektrogramm eines mit einer erfindungsgemäß geglätteten Gewichtungsfunktion gefilterten Signals;

Figur 10 ein gefiltertes Zeitsignal mit tonalen Artefakten;

Figur 11 ein gemäß der Erfindung gefiltertes Zeitsignal;

Figur 12 das Spektrogramm einer ungeglätteten Gewichtungsfunktion;

Figur 13 das Spektrogramm einer erfindungsgemäß geglätteten Gewichtungsfunktion;

Figur 14 den Betrag des Cepstrums eines unverrauschten Sprachsignals und

Figur 15 den Signalflussgraphen gemäß einer bevorzugten Ausführungsform der Erfindung.

In Figur 1 ist ein unverrauschtes Signal in Form der Amplitude über die Zeit dargestellt. Die Dauer des Signals ist 4 Sekunden, die Amplituden reichen von ca. -0,18 bis ca. 0,18. In Figur 2 ist das Signal in verrauschter Form dargestellt. Man erkennt ein zufälliges Grundrauschen über dem gesamten Zeitverlauf.

In Figur 3 ist das Signal eines einzelnen Signalrahmens λ dargestellt. Der Signalrahmen hat eine Segmentdauer von 32 Millisekunden. Die Amplitude beider Graphen bewegt sich zwischen -0,1 und 0,1. Die einzelnen Abtastwerte der digitalen Signale sind zu Graphen verbunden. Der verrauschte Graph repräsentiert das Eingangssignal, in dem das unverrauschte Signal enthalten ist. Eine Trennung von Signal und Rauschen im verrauschten Signal ist in dieser Repräsentation des Signals kaum möglich.

Figur 4 ist eine Darstellung desselben Signalrahmens nach der Transformation in den Frequenzbereich. Die einzelnen Frequenzbins μ sind zu Graphen verbunden. Auch in dieser Figur sind die Frequenzbins verrauscht und unverrauscht dargestellt, wobei wieder das unverrauschte Signal das im verrauschten Signal enthaltene Sprachsignal ist. Über der Abszisse sind die Frequenzbins μ von 0 bis 128 eingezeichnet. Sie haben Amplituden von ca. -40 Dezibel (dB) bis ca. 10 dB. Aus dem Vergleich der Graphen ist ersichtlich, dass die Energie des Sprachsignals in einigen Frequenzbins in einer kammartigen Struktur konzentriert ist, während das Rauschen auch in den dazwischenliegenden Bins vorhanden ist.

In Figur 5 ist eine Gewichtungsfunktion für den verrauschten Rahmen aus Figur 4 dargestellt. Für jeden Frequenzbin μ ergibt sich in Abhängigkeit vom Verhältnis aus Sprach- und Rauschenergie ein Faktor zwischen 0 und 1. Die einzelnen Gewichtungsfaktoren sind zu einem Graphen verbunden. Man erkennt die kammartige Struktur des Sprachspektrums wieder.

In den Figuren 6 und 7 sind Spektrogramme aus einer Folge von unverrauschten bzw. verrauschten Kurzzeitspektren (Figur 4) dargestellt. Auf der Abszisse ist der Rahmenindex λ aufgetragen, über der Ordinate der Frequenzbinindex μ. Die Amplituden der einzelnen Frequenzbins sind als Grauwerte dargestellt. Im Vergleich von Figur 6 und 7 wird deutlich, wie Sprache in wenigen Frequenzbins konzentriert ist. Sie bildet zudem regelmäßige Strukturen aus. Das Rauschen ist dagegen über alle Frequenzbins verteilt.

In Figur 8 ist das Spektrogramm eines gefilterten Signals dargestellt. Die Achsen entsprechen denen aus den Figuren 6 und 7. Aus einem Vergleich mit Figur 6 ist erkennbar, dass durch Schätzfehler in der Gewichtungsfunktion hohe Amplituden in Frequenzbins verbleiben, die keine Sprache enthalten. Diese Ausreißer zu unterdrücken ist Ziel des erfindungsgemäßen Verfahrens.

In Figur 9 ist das Spektrogramm eines Signals dargestellt, das gemäß einer bevorzugten Weiterbildung des erfindungsgemäßen Verfahrens mit einer geglätteten Gewichtungsfunktion gefiltert wurde. Die Achsen entsprechen denen der vorangegangenen Spektrogramme. Im Vergleich mit Figur 8 sind die Ausreißer stark vermindert. Die Sprachanteile im Spektrogramm sind dagegen in ihrer wesentlichen Form erhalten. In den Figuren 10 und 11 sind die Zeitsignale dargestellt, die sich jeweils aus den gefilterten Spektren der Figuren 8 und 9 ergeben. Aufgetragen ist die Amplitude über der Zeit. Die Signale sind 4 Sekunden lang und haben Amplituden zwischen ca. -0,18 und 0,18. Die Ausreißer im Spektrogramm aus Figur 8 ergeben im zugehörigen Zeitsignal in Figur 10 deutlich sichtbare tonale Artefakte, die im unverrauschten Signal aus Figur 1 nicht vorhanden sind. Das Zeitsignal in Figur 11 weist einen deutlich ruhigeren Verlauf des Restrauschens auf. Dieses Zeitsignal ergibt sich aus dem Spektrogramm von Figur 9, das durch Filterung mit der geglätteten Gewichtungsfunktion erzeugt wurde.

In Figur 12 ist die ungeglättete Gewichtungsfunktion für alle Rahmen dargestellt. Zu jedem Rahmen λ sind entlang der Ordinate Frequenzbins μ aufgetragen. Die Werte der Gewichtungsfunktion sind als Grauton dargestellt. Die Fluktuationen, die aus Schätzfehlern resultieren, sind als unregelmäßige Flecken erkennbar.

In Figur 13 ist die geglättete Gewichtungsfunktion für alle Rahmen dargestellt. Die Achsen entsprechen denen aus Figur 12. Durch die Glättung werden die Fluktuationen verschmiert und im Wert stark vermindert. Die Struktur der Sprachfrequenzbins bleibt dagegen deutlich erkennbar.

In Figur 14 ist der Betrag des Cepstrums eines unverrauschten Signals über alle Rahmen dargestellt. Zu jedem Rahmen λ sind entlang der Ordinate die cepstralen Bins μ' aufgetragen. Die Werte der Beträge der cepstralen

Koeffizienten Gy^pst {λ) sind als Grautöne dargestellt. Ein Vergleich mit Figur 6 zeigt, dass Sprache im Cepstrum auf eine noch geringere Anzahl von Koeffizienten konzentriert ist. Außerdem sind diese Koeffizienten in ihrer Position weniger variabel. Deutlich erkennbar ist auch der Verlauf des cepstralen Koeffizienten, der die Pitch-Frequenz repräsentiert.

In Figur 15 ist ein Signalflussgraph gemäß einer bevorzugten Ausführungsform der Erfindung dargestellt. Ein verrauschtes Eingangssignal wird in eine Folge von Kurzzeitspektren transformiert und daraus über spektrale Zwischengrößen anschließend eine Gewichtungsfunktion zur Filterung geschätzt. Es wird jeweils ein Rahmen zur Zeit bearbeitet. Zunächst werden die Kurzzeitspektren der Gewichtungsfunktion einer nicht-linearen, logarithmischen Abbildung unterworfen. Es folgt eine Hintransformation in den cepstralen Bereich. Die so transformierten Kurzzeitspektren werden damit durch Transformationskoeffizienten der Basisfunktionen repräsentiert. Die auf diesem Wege berechneten Transformationskoeffizienten werden getrennt voneinander unter Verwendung von unterschiedlichen Zeitkonstanten geglättet. Der rekursive Charakter der Glättung ist durch die Rückführung der Ausgabe der Glättung zu ihrem Eingang angedeutet. Von den Signalpfaden der insgesamt M Transformationskoeffizienten sind nur 3 dargestellt, die restlichen sind durch drei Punkte „..." ersetzt. Nach der Glättung erfolgen eine Rücktransformation und danach die nicht-lineare Umkehrabbildung. Auf diese Weise erhält man als Ergebnis eine Folge von geglätteten Kurzzeitspektren der Gewichtungsfunktion. Diese geglätteten Kurzzeitspektren der Gewichtungsfunktion können mit den verrauschten Kurzzeitspektren multipliziert werden, wodurch gefilterte Kurzzeitspektren mit wenigen Ausreißern entstehen. Diese können dann in ein Zeitsignal mit verringertem Rauschpegel umgerechnet werden. Der Teil des Signalflussgraphen, der die erfindungsgemäße Glättung beschreibt, ist gestrichelt umrandet.

Claims

Patentansprüche

1. Glättungsverfahren zur Unterdrückung von fluktuierenden Artefakten bei der Störgeräuschreduktion mit folgenden Schritten:

• Bereitstellen von Kurzzeitspektren einer Folge von Signalrahmen,

• Transformieren der geglätteten Transformationskoeffizienten in geglättete Kurzzeitspektren durch eine Rücktransformation.

2. Glättungsverfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass für die Rücktransformation die Inverse zur Hintransformation verwendet wird.

3. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass eine Transformation mit orthogonaler Basis verwendet wird.

4. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass eine Transformation mit nicht-orthogonaler Basis verwendet wird.

5. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass für die Transformationen die diskrete Fourier- Transformation und ihre Inverse verwendet werden.

6. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass für die Transformationen die Fast-Fourier-Trans- formation und ihre Inverse verwendet werden.

7. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass für die Transformationen die diskrete Cosinus- Transformation und ihre Inverse verwendet werden.

8. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass für die Transformationen die diskrete Sinus- Transformation und ihre Inverse verwendet werden.

9. Glättungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kurzzeitspektren vor der Hintransformation nicht-linear abgebildet werden.

10. Glättungsverfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die geglätteten Kurzzeitspektren nach der Rücktransformation nicht-linear abgebildet werden, wobei die nichtlineare Abbildung der Rücktransformation die Umkehrung der nichtlinearen Abbildung der Hintransformation ist.

11. Glättungsverfahren nach einem der beiden vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kurzzeitspektren vor der Hintransformation durch Logarithmierung nicht-linear abgebildet werden.

12. Glättungsverfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass zum Glätten der Transformationskoeffizienten eine rekursive Glättung verwendet wird.

13. Glättungsverfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass zum Glätten der Transformationskoeffizienten eine nicht-rekursive Glättung verwendet wird.

14. Glättungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Glättung auf den Betrag oder eine Potenz des Betrags der Kurzzeitspektren angewendet wird.

15. Glättungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zum Glätten der jeweiligen Transformationskoeffizienten unterschiedliche Zeitkonstanten verwendet werden.

16. Glättungsverfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass Zeitkonstanten so gewählt werden, dass die Transformationskoeffizienten, die typischerweise spektrale Strukturen von Sprache beschreiben, wenig geglättet werden.

17. Glättungsverfahren nach einem der beiden vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Zeitkonstanten so gewählt werden, dass die Transformationskoeffizienten, die spektrale Strukturen von fluktuierenden spektralen Größen und von Artefakten von Geräuschreduktionsalgorithmen beschreiben, stark geglättet werden.

18. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines Geräuschreduktionsalgorithmus bereitgestellt wird.

19. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines Postfilters für mehrkanalige Verfahren zur Geräuschreduktion verwendet wird.

20. Glättungsverfahren nach einem der beiden vorhergehenden Ansprüche, dadurch gekennzeichnet, dass sich die spektrale Gewichtungsfunktion aus der Minimierung eines Fehlerkriteriums ergibt.

21. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum ein gefiltertes Kurzzeitspektrum bereitgestellt wird.

22. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Geräuschreduktion bereitgestellt wird.

23. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine geschätzte Kohärenz oder eine geschätzte „Magnitude Squared Coherence" zwischen wenigstens zwei Mikrofonkanälen bereitgestellt wird.

24. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Sprecheroder Quellentrennung bereitgestellt wird.

25. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Sprechertrennung auf Basis von Phasenunterschieden von Signalen in den verschiedenen Kanälen (Phase Transform - PHAT) bereitgestellt wird.

26. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Geräuschreduktion auf Basis einer „Generalized Cross-Correlation" (GCC) bereitgestellt wird.

27. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum spektrale Größen, die sowohl Sprach- als auch Störanteile enthalten, bereitgestellt werden.

28. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine Schätzung des Signal-zu-Rausch-Verhältnisses bereitgestellt wird.

29. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine Schätzung der Rauschleistung bereitgestellt wird.

30. Glättungsverfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, dass als Kurzzeitspektrum transformierte Signalrahmen eines Bildsignals bereitgestellt werden und die Zeilen- oder spaltenweise oder 2-dimensional berechneten Koeffizienten des transformierten Bildsignals einer räumlichen Glättung mit unterschiedlichen Glättungsparametem unterworfen werden.

31. Glättungsverfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass das Bildsignal ein Videosignal ist.

32. Glättungsverfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, dass als Kurzzeitspektrum ein transformiertes, vom menschlichen Körper abgeleitetes, medizinisches Signal verwendet wird.

33. Glättungsverfahren nach einem der Ansprüche 1 bis 32, d ad u rch gekennzeichnet dass das Glättungsverfahren in einem Postfilter, in Kombination mit einem Postfilter, im Rahmen eines Fehler- verdeckungsverfahrens oder in Zusammenhang mit einem Verfahren zur Sprach- und/oder Bildcodierung insbesondere empfängerseitig eingesetzt wird.

34. Glättungsverfahren nach einem der Ansprüche 1 bis 33, dadurch gekennzeichnet, dass das Glättungsverfahren in einem Telekommunikationsnetzwerk und/oder bei einer Rundfunkübertragung zur Verbesserung der Sprach- und/oder Bildqualität sowie zur Unterdrückung von Artefakten eingesetzt wird.