EP0612059B1

EP0612059B1 - Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen

Info

Publication number: EP0612059B1
Application number: EP93120010A
Authority: EP
Inventors: Klaus Dr.- Linhard
Original assignee: Daimler Benz AG
Current assignee: Mercedes Benz Group AG
Priority date: 1992-12-23
Filing date: 1993-12-11
Publication date: 1999-03-17
Anticipated expiration: 2013-12-11
Also published as: EP0612059A2; DE4243831A1; DE59309463D1; US5479517A; EP0612059A3

Description

Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1.

Ein derartiges Verfahren findet Verwendung bei automatischen Spracherkennungssystemen oder für Freisprechanlagen z.B. in Büroräumen, Kraftfahrzeugen etc..

Gestörte Sprache ist besser erfaßbar, wenn sie mit zwei oder mehreren Kanälen aufgezeichnet wird. Der Mensch benutzt zwei Kanäle, seine beiden Ohren. Durch eine psychoakustische Nachverarbeitung wird bei ihm die Richtung des Sprechers ermittelt und die Hintergrundstörung ausgeblendet. Bei technischen Geräten können zwei oder mehrere Kanäle zur Aufzeichnung verwendet werden. Diese Signale können dann mit einer digitalen Signalverarbeitung aufbereitet werden.

Ein wesentlicher Aspekt der mehrkanaligen Verarbeitung ist die Schätzung des Laufzeitunterschiedes der einzelnen Kanäle. Ist der Laufzeitunterschied bekannnt, kann die Richtung des Schallereignisses (Sprecher) ermittelt werden. Die Signale der einzelnen Kanäle können entsprechend laufzeitkorrigiert und weiterverarbeitet werden. Werden z.B. nicht korrigierte Signale zu einem Summensignal zusammengefaßt, können sich einzelne spektrale Anteile des Signals durch Interferenz verstärken, dämpfen oder auslöschen.

Ein Verfahren zur automatischen Ermittlung der Laufzeitunterschiede zweier Mikrofone ist aus einer Veröffentlichung von M. Schlang, ITG-Fachtagung 1988, Bad Nauheim S. 69-73 bekannt. Es arbeitet im Zeitbereich. Jedoch ist dieses Verfahren bei starken Störungen nicht anwendbar.

Der Erfindung liegt deshalb die Aufgabe zugrunde ein Verfahren zur Laufzeitschätzung für ein Spracherkennungssystem anzugeben, das auch bei starken Hintergrundgeräuschen anwendbar ist, für ein Mehrkanalübertragungssystem geeignet ist und zeit- und kostensparend arbeitet.

Die Aufgabe wird gelöst durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen Merkmale. Vorteilhafte Ausgestaltungen und/oder Weiterbildungen sind den Unteransprüchen zu entnehmen.

Die Erfindung wird anhand eines Ausführungsbeispiels beschrieben unter Bezugnahme auf schematische Zeichnungen.

In FIG. 1 wird anhand eines Blockschaltbilds die Phasenschätzung erläutert.

FIG. 2 gibt für ein Fahrgeräusch von 140km/h eine Darstellung der Größen S_B, S_I, S_N und g in Abhängigkeit von der Zeit an.

In der vorliegenden Erfindung wird ein 2-kanaliger Laufzeitausgleich vorgestellt. Die Erweiterung auf mehrere Kanäle ist mit dem entsprechenden Mehraufwand leicht möglich. Der Laufzeitausgleich ist ein Teil der Signalvorverarbeitung einer mehrkanaligen Geräuschreduktion, die z.B. für einen Spracherkenner im Fahrzeug verwendet werden kann.

Die Laufzeit wird im Frequenzbereich ermittelt. Dies ermöglicht eine einfache Laufzeitkorrektur durch die Multiplikation des Spektrums mit der neuen Phase und führt zu einem geringen Rechenaufwand.

Die Sprach- und Geräuschaufnahmen zur Entwicklung und Bewertung des vorliegenden Verfahrens wurden in einem Fahrzeug mit zwei Mikrofonen durchgeführt. Die Störung ist das Fahrgeräusch bei verschiedenen Fahrsituationen.

Mit dem erfindungsgemäßen Verfahren werden im Frequenzbereich die Phasen an einer Anzahl von Maxima der Kreuzkorrelation bestimmt. Die Hintergrundstörung und das Einschwingverhalten des Raumes werden ständig mitgeschätzt. Die einzelnen Phasenwerte werden nur zu Beginn eines Einschwingvorgangs verarbeitet und wenn das Hintergrundgeräusch um einen gewissen Faktor überschritten wird. Bei der Weiterverarbeitung der Phasenwerte wird eine lineare Phasenbeziehung vorausgesetzt und die Varianz der Schätzung wird bei der Glättung der Werte mitberücksichtigt. Die Berücksichtigung des Einschwingvorgangs des Raumes fuhrt dazu, daß nur bei starken Energieanstiegen der Sprache eine Phasenschätzung stattfindet. Sofort zu Beginn des Wortes steht ein neuer Phasenschätzwert zur Verfügung. Der Einfluß von Reflexionen wird vermindert. Durch die Berücksichtigung des Hintergrundgeräuschs ist das Verfahren für den praktischen Einsatz z.B. im Fahrzeug gut geeignet. Anhand eines Blockschaltbildes in FIG. 1 wird der Verfahrensablauf der Phasenschätzung näher erläutert.

Die Mikrofonsignale x und y werden in den Frequenzbereich transformiert (FFT, Fast Fourier Transformation). Die Transformationslänge wird zu N = 256 gewählt. Es ergaben sich die transformierten Segment X_l (i) und Y_l (i). l bezeichnet den Blockindex der Segmente, i die diskrete Frequenz (i = 0,1,2,...,N-1). Die Segmente sind halb überlappt und werden mit einem Hamming Fenster gewichtet. (Die Abtastrate der Signale x und y beträgt 12 kHz.)

Im Frequenzbereich wird der Langzeitmittelwert des Betragsspektrums subtrahiert (SPS, spektrale Subtraktion). Die Phase der Signale wird nicht verändert. Das Störgeräusch wird reduziert. Es ergeben sich die Schätzwerte X and und Y and. Die SPS ist ein Standardverfahren und kann hier in einer einfachen Version eingesetzt werden. Sind nur geringe Störungen vorhanden, kann auf die SPS ganz verzichtet werden.

Mit der Glättungskonstante β wird das Störspektrum S_nn(i) geschätzt. Das Störspektrum wird normiert und subtrahiert. l bezeichnet den Blockindex, i die diskrete Frequenz. Als Glättungskonstante wird z.B. β_l = 0.03 verwendet. S nn,l(i) = (l-βl)S nn,l-1(i) + βl|Xl(i)|2 |X l(i)| = |Xl(i)| - S nn,l(i)|Xl(i)| X l(i) = [ 1 - S nn,l(i)|Xl(i)|2 ] Xl(i) Für den zweiten Kanal Y gelten die entsprechenden Gleichungen.

Aus den geschätzten Werten X and und Y and wird der Betrag der Kreuzleistungsdichte B_XY,l berechnet. Der Bereich (N_u, N_o) liegt z.B. zwischen 300 und 1500Hz (N_u = 6, N_o = 31, bei N = 256). Dabei gilt Sxy,l(i)=(l-α)Sxy,l-1(i)+ αX l(i)Y l*(i);Nu≤i≤ No Bxy,l(i) = |Sxy,l(i)| Als Glättungskonstante α wird z.B. α = l gewählt. Werte α << l sind nicht sinnvoll.

Mit einer Präemphase können höhere Frequenzen angehoben werden. Dies ist dann vorteilhaft, wenn das Sprachsignal und das Störsignal bei höheren Frequenzen eine geringere Leistung aufweisen. Die Werte der Kreuzleistung B_xy (i) können z.B. im Bereich 300 bis 1500 Hz um 10dB linear an-steigend angehoben werden. Die Präemphase kann aber auch schon durch die Mikrofoncharakteristik vorgegeben sein.

Aus den Werten B_xy (i) werden M Maxima bestimmt und summiert. Es können z.B. M = 8 verwendet werden. Es wird ein aktueller Schätzwert

bestimmt.

Über einen Impulsmonitor wird eine "simulierte Impulsantwort" S_I berechnet. Das Einschwingverhalten des umgebenden Raumes auf plötzliche energiestarke Schallereignisse (Sprache) wird hiermit grob simuliert (z.B. wird γ = 0.1 gewählt). Die Glättung des Phasenwerts "vom Wortanfang in das Wort hinein" ist mit γ einstellbar. SI,l = ( 1 - γ)SI,l-1 + γSB,l Außerdem wird über einen Geräuschmonitor eine adaptive Glättungskonstante h berechnet. Mit dieser Glättungskonstanten ergibt sich ein Schätzwert S_N für die Störung. Wurde zuvor eine spektrale Subtraktion (SPS) durchgeführt, ist S_N ein Schätzwert für die Reststörung. Für die Glättungskonstante h_o gilt z.B. h_o = 0.03 hl = ho 2SN,l-1 SN,l-1 + SB,l SN,l = (1 - hl)SN,l-1 + hlSB,l Die Phase der gestörten Signale wird aus den Real- und Imaginärteilen von S_xy berechnet. Die Phase wird nur an den M zuvor bestimmten Maxima berechnet. ϕl(i)= arctan Im[Sxy,l(i)]Re[Sxy,l(i)] ; für Re > 0 und ϕl(i)= π - arctan -Im[Sxy,l(i)]Re[Sxy,l(i)] ; sonst Daraus ergibt sich der Phasenanstieg: ϕ'l(i) = ϕl(i)i Mit der Länge der Fouriertransformation N und der max. zulässigen Verschiebung um n Taps ergibt sich (N = 256): |ϕ'|max = |n|2πN Übersteigt der Phasenanstieg |ϕ'| an einem der Maxima |ϕ'|_max, so wird dieser Wert ϕ' nicht weiterverwendet. Es wird eine adaptive Glättungskonstante g berechnet: gl = go(sB,l -SI,l)SI,l gl ≤ gmax gO = 0,25 Der aktuelle Wert S_B muß um den Faktor c größer sein als die simulierte Impulsantwort S_I SB,l ≥ cSI,l ; c = 2 sonst gilt: gl = 0 Der aktuelle Wert S_B muß um den Faktor d größer sein als das Restrauschen S_N SB,l ≥ dSN,l; d = 3 sonst gilt ebenfalls gl = 0 Ist Gl. (17) oder Gl. (19) nicht erfüllt, d.h. gilt g = O, so kann die Phasenschätzung abgebrochen werden. Es gilt der alte Phasenschätzwert.

Für alle |ϕ'l(i) | ≤ | ϕ' |max gilt:

Von den ursprünglichen M Maxima werden wegen Gl. (21) nur M' für die Gl. (22, 23) verwendet. Ist die Anzahl M' der für die Summen gültigen Werte  kleiner als M_min, gilt der geschätzte Phasenanstieg als zu unsicher oder außerhalb des Nutzbereichs (z.B. M_min = 6, bei M = 8). Die Phasenschätzung wird dann nicht aktualisiert und das Verfahren hier abgebrochen. Es gilt der alte Phasenschätzwert.

Es wird die Varianz der Schätzung berechnet: σ2 ϕ',l = s2 ϕ',l - m2 ϕ',l Als maximale Varianz wird σ2 max = | ϕ' |2 max verwendet.

Entsprechend der Varianz wird die Glättungskonstante g gewichtet. Bei einer großen Streuung gilt: gl: = 0.09*gl; für 0,2σ2 max < σ2 ϕ',l < σ2 max Bei einer mittleren Streuung gilt: gl: = 0.3*gl; für 0.02σ2 max ≤ σ2 ϕ',l ≤ 0,2σ2 max Bei sehr geringer Streuung gilt: gl := gl; für σ2 ϕ',l < 0.02σ2 max Entsprechend den Gl. 17 - 20 wird g in der Regel nur am Wortanfang größer Null sein. Dabei muß die Energie des Wortes größer sein als die Energie des Restgeräusches und der simulierten Impulsantwort. Mit der Variablen j wird die aufeinanderfolgende Anzahl für g > 0 gezählt. Entsprechend gilt für die Glättung: j=1: ϕ'l = mϕ',l j=2: mϕ',l = (mϕ',l + mϕ',l-1)2

Wird z.B. infolge einer Störung die Bedingung g > 0 nur einmal in Folge erfüllt, wird die Phasenschätzung nicht aktualisiert. Eine Aktualisierung der Phasenschätzung erfolgt nur dann, wenn g > 0 mindestens 2-mal in Folge erfüllt wird.

Ein Beispiel für die Zwischengrößen S_B, S_I, S_N' und g und die daraus abgeleitete Phasenschätzung zeigt, FIG. 2. Dabei wird das Wort "Senderwahl" gesprochen und das Fahrgeräusch bei 140km/h addiert. Das Verfahren wird, wie oben angegeben, verwendet. Der Phasenschätzwert ist in Abtastwerten n angegeben. Mit der Größe S_I wird der "Sprachimpuls" teilweise verdeckt und so nur bei starken Energieanstiegen eine Schätzung erlaubt (S_B muß S_I um den Faktor 2 übersteigen). Die Schätzung der Reststörung S_N ermöglicht eine größere Robustheit gegenüber Geräuschen (S_B muß S_N um den Faktor 3 übersteigen).

Claims

Verfahren zur Laufzeitschätzung bei dem Laufzeitunterschiede von geräuschgestörten Signalen von zumindest zwei Sprachkanälen mittels einer Kreuzkorrelation bestimmt werden, dadurch gekennzeichnet,

daß im Frequenzbereich die Phasenwerte von zumindest zwei Signalen über eine bestimmte Anzahl von Maxima der Kreuzleistungsdichte ermittelt werden und deren Phasenverschiebung bestimmt wird, und

daß der erforderliche Phasenausgleich ebenfalls im Frequenzbereich durchgeführt wird.
Verfahren nach Anspruch l, dadurch gekennzeichnet, daß Hintergrundstörungen und das Einschwingverhalten des Raumes bei der Bestimmung der Phasenwerte ständig mitgeschätzt werden.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Hintergrundgeräusch über einen Geräuschmonitor geschätzt wird, und daß ein neuer Phasenwert lediglich dann ermittelt wird, wenn der Schätzwert des Hintergrundgeräusches um einen bestimmten Faktor überschritten wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Einschwingverhalten des umgebenden Raumes über einen Impulsmonitor derart geschätzt wird, daß lediglich bei starkem Energieanstieg in den Signalen ein neuer Phasenschätzwert ermittelt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß eine lineare Laufzeitverschiebung der Signale angenommen wird.
Verfahren nach einem der vorhergehenden Ansprüche, da-durch gekennzeichnet, daß eine Glättung des Phasenwertes vom Wortanfang in das gesprochene Wort hinein durchgeführt wird, und daß die Varianz der Schätzung bei der Glättung der Phasenwerte mitberücksichtigt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

daß zumindest zwei Mikrofonsignale x, y mittels einer FFT (Fast Fourier Tansformation) in den Frequenzbereich transformiert werden,

daß durch spektrale Subtraktion aus den transformierten Signalen die Schätzwerte X and, Y and bestimmt werden,

daß aus den geschätzten Werten X and, Y and der Betrag der Kreuzleistungsdichte B_xy bestimmt wird,

daß die Maxima der Kreuzleistungsdichte bestimmt werden, und daß aus einer bestimmten Anzahl Maxima der Kreuzleistungsdichte B_xy ein aktueller Wert S_B für die gestörten Signale ermittelt wird, daß abhängig vom aktuellen Wert S_B die Phasen ϕ der gestörten Signale ermittelt werden und damit der Phasenanstieg ϕ' bestimmt wird,

daß der Phasenanstieg ϕ' geglättet wird, indem über einen Impulsmonitor ein simulierter Sprachimpuls S_I mit dem aktuellen Wert S_B der gestörten Signale gekoppelt wird, derart, daß eine erneute Phasenschätzung lediglich dann durchgeführt wird, wenn ein starker Energieanstieg des Mikrofonsignals registriert wird, und

daß mit einem Geräuschmonitor ein Schätzwert S_N für die Hintergrundgeräuschstörung ermittelt wird und mit dem aktuellen Wert S_B der gestörten Signale gekoppelt wird, derart, daß eine erneute Phasenschätzung lediglich dann durch geführt wird, wenn vom Signal die Hintergrundstörung deutlich überschritten wird.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß ein maximaler Phasenanstieg |ϕ'|_max für die Phase an den einzelnen Maxima vorgebbar ist und eine erneute Phasenschätzung lediglich dann durchgeführt wird, wenn der Phasenanstieg um mindestens M' der M Maxima den maximalen Anstieg |ϕ'|_max nicht überschreitet.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Varianz der Phasenanstiege an den einzelnen Maxima bei der zeitlichen Glättung des Phasenanstiegs berücksichtigt wird.
Verfahren nach den Ansprüchen 7 bis 9, dadurch gekennzeichnet, daß eine erneute Phasenschätzung lediglich dann durchgeführt wird, wenn die Bedingungen für einen gültigen Phasenanstieg zeitlich mehrfach in Folge auftreten.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die gestörte Sprache auf mehr als zwei Sprachkanälen aufgenommen wird und daß die Laufzeitunterschiede der einzelnen Kanäle geschätzt werden.