EP0612059B1 - Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen - Google Patents

Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen Download PDF

Info

Publication number
EP0612059B1
EP0612059B1 EP93120010A EP93120010A EP0612059B1 EP 0612059 B1 EP0612059 B1 EP 0612059B1 EP 93120010 A EP93120010 A EP 93120010A EP 93120010 A EP93120010 A EP 93120010A EP 0612059 B1 EP0612059 B1 EP 0612059B1
Authority
EP
European Patent Office
Prior art keywords
phase
signals
estimated
increase
maxima
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP93120010A
Other languages
English (en)
French (fr)
Other versions
EP0612059A2 (de
EP0612059A3 (en
Inventor
Klaus Dr.- Linhard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
Daimler Benz AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimler Benz AG filed Critical Daimler Benz AG
Publication of EP0612059A2 publication Critical patent/EP0612059A2/de
Publication of EP0612059A3 publication Critical patent/EP0612059A3/de
Application granted granted Critical
Publication of EP0612059B1 publication Critical patent/EP0612059B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Definitions

  • the invention relates to a method according to the preamble of claim 1.
  • Such a method is used in automatic Speech recognition systems or for hands-free systems e.g. in offices, motor vehicles etc.
  • Disrupted speech is easier to grasp if it is with two or multiple channels is recorded.
  • Man uses two channels, his two ears. Through a psychoacoustic Post processing becomes his direction of the speaker and the Background noise is hidden.
  • For technical devices can use two or more channels for recording become. These signals can then be processed using digital signal processing be processed.
  • An essential aspect of multi-channel processing is the estimation of the runtime difference of the individual Channels. If the runtime difference is known, the Direction of the sound event (speaker) can be determined. The signals of the individual channels can be adjusted accordingly runtime corrected and processed. Become e.g. signals which have not been corrected are combined to form a sum signal, individual spectral components of the Amplify, attenuate or cancel signals by interference.
  • the invention is therefore based on the object of a method to estimate the runtime for a speech recognition system specify that even with strong background noise is applicable, suitable for a multi-channel transmission system is and saves time and money.
  • FIG. 1 becomes the phase estimate using a block diagram explained.
  • FIG. 2 shows a representation of the quantities S B , S I , S N and g as a function of time for a driving noise of 140 km / h.
  • 2-channel runtime compensation presented.
  • the expansion to several Channels are easily possible with the corresponding additional effort.
  • the runtime compensation is part of the signal preprocessing a multi-channel noise reduction, e.g. can be used for a speech recognizer in the vehicle can.
  • the runtime is determined in the frequency domain. This makes possible a simple runtime correction by multiplication of the spectrum with the new phase and leads to a low computing effort.
  • the voice and sound recordings for development and evaluation The present procedure was in a vehicle performed with two microphones. The trouble is that Driving noise in different driving situations.
  • the microphone signals x and y are transformed into the frequency range (FFT, Fast Fourier Transformation).
  • the transformed segments X l (i) and Y l (i) resulted.
  • the segments are half overlapped and weighted with a Hamming window. (The sampling rate of the signals x and y is 12 kHz.)
  • the long-term mean of the magnitude spectrum becomes subtracted (SPS, spectral subtraction).
  • SPS spectral subtraction
  • the phase of the signals is not changed.
  • the noise is reduced.
  • the PLC is a standard procedure and can be used here can be used in a simple version. Are only minor Malfunctions can be dispensed with entirely on the PLC become.
  • the interference spectrum S nn (i) is estimated with the smoothing constant ⁇ .
  • the interference spectrum is normalized and subtracted.
  • the magnitude of the cross power density B XY, l is calculated from the estimated values X and and Y and.
  • For example, ⁇ 1 is selected as the smoothing constant ⁇ . Values ⁇ ⁇ l do not make sense.
  • the values of the cross power B xy (i) can, for example, be increased linearly by 10dB in the range 300 to 1500 Hz.
  • the pre-emphasis can also be predetermined by the microphone characteristics.
  • a "simulated impulse response" S I is calculated via an impulse monitor.
  • the smoothing of the phase value "from the beginning of the word into the word" can be adjusted with ⁇ .
  • S I, l (1 - ⁇ ) S I, l-1 + ⁇ S B, l
  • an adaptive smoothing constant h is calculated using a noise monitor. This smoothing constant results in an estimate S N for the disturbance. If spectral subtraction (SPS) was carried out beforehand, S N is an estimate of the residual interference.
  • SPS spectral subtraction
  • the phase of the disturbed signals is calculated from the real and imaginary parts of S xy . The phase is only calculated on the M predetermined maxima.
  • the smoothing constant g is weighted according to the variance.
  • G l : 0.09 * g l ; for 0.2 ⁇ 2nd Max ⁇ 2nd ⁇ ', l ⁇ 2nd Max
  • the following applies to medium scatter: G l : 0.3 * g l ; for 0.02 ⁇ 2nd Max ⁇ ⁇ 2nd ⁇ ', l ⁇ 0.2 ⁇ 2nd Max
  • G l : g l ; for ⁇ 2nd ⁇ ', l ⁇ 0.02 ⁇ 2nd Max According to Eq. 17-20, g will usually only be greater than zero at the beginning of the word.
  • the energy of the word must be greater than the energy of the residual noise and the simulated impulse response.
  • the condition g> 0 is fulfilled only once in succession as a result of a fault, the phase estimate is not updated.
  • the phase estimate is only updated if g> 0 is met at least twice in succession.
  • FIG. 2 An example of the intermediate quantities S B , S I , S N 'and g and the phase estimate derived therefrom is shown in FIG. 2.
  • the word "station selection” is spoken and the driving noise at 140 km / h is added. The method is used as indicated above.
  • the phase estimate is given in samples n. With the size S I , the "speech impulse" is partially masked and thus an estimate is only allowed in the case of strong energy increases (S B must exceed S I by a factor of 2).
  • the estimation of the residual disturbance S N enables greater robustness against noise (S B must exceed S N by a factor of 3).

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1.
Ein derartiges Verfahren findet Verwendung bei automatischen Spracherkennungssystemen oder für Freisprechanlagen z.B. in Büroräumen, Kraftfahrzeugen etc..
Gestörte Sprache ist besser erfaßbar, wenn sie mit zwei oder mehreren Kanälen aufgezeichnet wird. Der Mensch benutzt zwei Kanäle, seine beiden Ohren. Durch eine psychoakustische Nachverarbeitung wird bei ihm die Richtung des Sprechers ermittelt und die Hintergrundstörung ausgeblendet. Bei technischen Geräten können zwei oder mehrere Kanäle zur Aufzeichnung verwendet werden. Diese Signale können dann mit einer digitalen Signalverarbeitung aufbereitet werden.
Ein wesentlicher Aspekt der mehrkanaligen Verarbeitung ist die Schätzung des Laufzeitunterschiedes der einzelnen Kanäle. Ist der Laufzeitunterschied bekannnt, kann die Richtung des Schallereignisses (Sprecher) ermittelt werden. Die Signale der einzelnen Kanäle können entsprechend laufzeitkorrigiert und weiterverarbeitet werden. Werden z.B. nicht korrigierte Signale zu einem Summensignal zusammengefaßt, können sich einzelne spektrale Anteile des Signals durch Interferenz verstärken, dämpfen oder auslöschen.
Ein Verfahren zur automatischen Ermittlung der Laufzeitunterschiede zweier Mikrofone ist aus einer Veröffentlichung von M. Schlang, ITG-Fachtagung 1988, Bad Nauheim S. 69-73 bekannt. Es arbeitet im Zeitbereich. Jedoch ist dieses Verfahren bei starken Störungen nicht anwendbar.
Der Erfindung liegt deshalb die Aufgabe zugrunde ein Verfahren zur Laufzeitschätzung für ein Spracherkennungssystem anzugeben, das auch bei starken Hintergrundgeräuschen anwendbar ist, für ein Mehrkanalübertragungssystem geeignet ist und zeit- und kostensparend arbeitet.
Die Aufgabe wird gelöst durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen Merkmale. Vorteilhafte Ausgestaltungen und/oder Weiterbildungen sind den Unteransprüchen zu entnehmen.
Die Erfindung wird anhand eines Ausführungsbeispiels beschrieben unter Bezugnahme auf schematische Zeichnungen.
In FIG. 1 wird anhand eines Blockschaltbilds die Phasenschätzung erläutert.
FIG. 2 gibt für ein Fahrgeräusch von 140km/h eine Darstellung der Größen SB, SI, SN und g in Abhängigkeit von der Zeit an.
In der vorliegenden Erfindung wird ein 2-kanaliger Laufzeitausgleich vorgestellt. Die Erweiterung auf mehrere Kanäle ist mit dem entsprechenden Mehraufwand leicht möglich. Der Laufzeitausgleich ist ein Teil der Signalvorverarbeitung einer mehrkanaligen Geräuschreduktion, die z.B. für einen Spracherkenner im Fahrzeug verwendet werden kann.
Die Laufzeit wird im Frequenzbereich ermittelt. Dies ermöglicht eine einfache Laufzeitkorrektur durch die Multiplikation des Spektrums mit der neuen Phase und führt zu einem geringen Rechenaufwand.
Die Sprach- und Geräuschaufnahmen zur Entwicklung und Bewertung des vorliegenden Verfahrens wurden in einem Fahrzeug mit zwei Mikrofonen durchgeführt. Die Störung ist das Fahrgeräusch bei verschiedenen Fahrsituationen.
Mit dem erfindungsgemäßen Verfahren werden im Frequenzbereich die Phasen an einer Anzahl von Maxima der Kreuzkorrelation bestimmt. Die Hintergrundstörung und das Einschwingverhalten des Raumes werden ständig mitgeschätzt. Die einzelnen Phasenwerte werden nur zu Beginn eines Einschwingvorgangs verarbeitet und wenn das Hintergrundgeräusch um einen gewissen Faktor überschritten wird. Bei der Weiterverarbeitung der Phasenwerte wird eine lineare Phasenbeziehung vorausgesetzt und die Varianz der Schätzung wird bei der Glättung der Werte mitberücksichtigt. Die Berücksichtigung des Einschwingvorgangs des Raumes fuhrt dazu, daß nur bei starken Energieanstiegen der Sprache eine Phasenschätzung stattfindet. Sofort zu Beginn des Wortes steht ein neuer Phasenschätzwert zur Verfügung. Der Einfluß von Reflexionen wird vermindert. Durch die Berücksichtigung des Hintergrundgeräuschs ist das Verfahren für den praktischen Einsatz z.B. im Fahrzeug gut geeignet. Anhand eines Blockschaltbildes in FIG. 1 wird der Verfahrensablauf der Phasenschätzung näher erläutert.
Die Mikrofonsignale x und y werden in den Frequenzbereich transformiert (FFT, Fast Fourier Transformation). Die Transformationslänge wird zu N = 256 gewählt. Es ergaben sich die transformierten Segment Xl (i) und Yl (i). l bezeichnet den Blockindex der Segmente, i die diskrete Frequenz (i = 0,1,2,...,N-1). Die Segmente sind halb überlappt und werden mit einem Hamming Fenster gewichtet. (Die Abtastrate der Signale x und y beträgt 12 kHz.)
Im Frequenzbereich wird der Langzeitmittelwert des Betragsspektrums subtrahiert (SPS, spektrale Subtraktion). Die Phase der Signale wird nicht verändert. Das Störgeräusch wird reduziert. Es ergeben sich die Schätzwerte X and und Y and. Die SPS ist ein Standardverfahren und kann hier in einer einfachen Version eingesetzt werden. Sind nur geringe Störungen vorhanden, kann auf die SPS ganz verzichtet werden.
Mit der Glättungskonstante β wird das Störspektrum Snn(i) geschätzt. Das Störspektrum wird normiert und subtrahiert. l bezeichnet den Blockindex, i die diskrete Frequenz. Als Glättungskonstante wird z.B. βl = 0.03 verwendet. S nn,l(i) = (l-βl)S nn,l-1(i) + βl|Xl(i)|2 |X l(i)| = |Xl(i)| - S nn,l(i)|Xl(i)| X l(i) = [ 1 - S nn,l(i)|Xl(i)|2 ] Xl(i) Für den zweiten Kanal Y gelten die entsprechenden Gleichungen.
Aus den geschätzten Werten X and und Y and wird der Betrag der Kreuzleistungsdichte BXY,l berechnet. Der Bereich (Nu, No) liegt z.B. zwischen 300 und 1500Hz (Nu = 6, No = 31, bei N = 256). Dabei gilt Sxy,l(i)=(l-α)Sxy,l-1(i)+ αX l(i)Y l*(i);Nu≤i≤ No Bxy,l(i) = |Sxy,l(i)| Als Glättungskonstante α wird z.B. α = l gewählt. Werte α << l sind nicht sinnvoll.
Mit einer Präemphase können höhere Frequenzen angehoben werden. Dies ist dann vorteilhaft, wenn das Sprachsignal und das Störsignal bei höheren Frequenzen eine geringere Leistung aufweisen. Die Werte der Kreuzleistung Bxy (i) können z.B. im Bereich 300 bis 1500 Hz um 10dB linear an-steigend angehoben werden. Die Präemphase kann aber auch schon durch die Mikrofoncharakteristik vorgegeben sein.
Aus den Werten Bxy (i) werden M Maxima bestimmt und summiert. Es können z.B. M = 8 verwendet werden. Es wird ein aktueller Schätzwert
Figure 00060001
bestimmt.
Über einen Impulsmonitor wird eine "simulierte Impulsantwort" SI berechnet. Das Einschwingverhalten des umgebenden Raumes auf plötzliche energiestarke Schallereignisse (Sprache) wird hiermit grob simuliert (z.B. wird γ = 0.1 gewählt). Die Glättung des Phasenwerts "vom Wortanfang in das Wort hinein" ist mit γ einstellbar. SI,l = ( 1 - γ)SI,l-1 + γSB,l Außerdem wird über einen Geräuschmonitor eine adaptive Glättungskonstante h berechnet. Mit dieser Glättungskonstanten ergibt sich ein Schätzwert SN für die Störung. Wurde zuvor eine spektrale Subtraktion (SPS) durchgeführt, ist SN ein Schätzwert für die Reststörung. Für die Glättungskonstante ho gilt z.B. ho = 0.03 hl = ho 2SN,l-1 SN,l-1 + SB,l SN,l = (1 - hl)SN,l-1 + hlSB,l Die Phase der gestörten Signale wird aus den Real- und Imaginärteilen von Sxy berechnet. Die Phase wird nur an den M zuvor bestimmten Maxima berechnet. ϕl(i)= arctan Im[Sxy,l(i)]Re[Sxy,l(i)] ;   für Re > 0 und ϕl(i)= π - arctan -Im[Sxy,l(i)]Re[Sxy,l(i)] ;   sonst Daraus ergibt sich der Phasenanstieg: ϕ'l(i) = ϕl(i)i Mit der Länge der Fouriertransformation N und der max. zulässigen Verschiebung um n Taps ergibt sich (N = 256): |ϕ'|max = |n|N Übersteigt der Phasenanstieg |ϕ'| an einem der Maxima |ϕ'|max, so wird dieser Wert ϕ' nicht weiterverwendet. Es wird eine adaptive Glättungskonstante g berechnet: gl = go(sB,l -SI,l)SI,l gl ≤ gmax gO = 0,25 Der aktuelle Wert SB muß um den Faktor c größer sein als die simulierte Impulsantwort SI SB,l ≥ cSI,l ; c = 2 sonst gilt: gl = 0 Der aktuelle Wert SB muß um den Faktor d größer sein als das Restrauschen SN SB,l ≥ dSN,l; d = 3 sonst gilt ebenfalls gl = 0 Ist Gl. (17) oder Gl. (19) nicht erfüllt, d.h. gilt g = O, so kann die Phasenschätzung abgebrochen werden. Es gilt der alte Phasenschätzwert.
Für alle |ϕ'l(i) | ≤ | ϕ' |max gilt:
Figure 00090001
Figure 00090002
Von den ursprünglichen M Maxima werden wegen Gl. (21) nur M' für die Gl. (22, 23) verwendet. Ist die Anzahl M' der für die Summen gültigen Werte  kleiner als Mmin, gilt der geschätzte Phasenanstieg als zu unsicher oder außerhalb des Nutzbereichs (z.B. Mmin = 6, bei M = 8). Die Phasenschätzung wird dann nicht aktualisiert und das Verfahren hier abgebrochen. Es gilt der alte Phasenschätzwert.
Es wird die Varianz der Schätzung berechnet: σ2ϕ',l = s2ϕ',l - m2ϕ',l Als maximale Varianz wird σ2max = | ϕ' |2max verwendet.
Entsprechend der Varianz wird die Glättungskonstante g gewichtet. Bei einer großen Streuung gilt: gl: = 0.09*gl;   für 0,2σ2max < σ2ϕ',l < σ2max Bei einer mittleren Streuung gilt: gl: = 0.3*gl;   für 0.02σ2max ≤ σ2ϕ',l ≤ 0,2σ2max Bei sehr geringer Streuung gilt: gl := gl; für σ2ϕ',l < 0.02σ2max Entsprechend den Gl. 17 - 20 wird g in der Regel nur am Wortanfang größer Null sein. Dabei muß die Energie des Wortes größer sein als die Energie des Restgeräusches und der simulierten Impulsantwort. Mit der Variablen j wird die aufeinanderfolgende Anzahl für g > 0 gezählt. Entsprechend gilt für die Glättung: j=1:   ϕ'l = mϕ',l j=2:   mϕ',l = (mϕ',l + mϕ',l-1)2
Figure 00110001
Figure 00110002
Wird z.B. infolge einer Störung die Bedingung g > 0 nur einmal in Folge erfüllt, wird die Phasenschätzung nicht aktualisiert. Eine Aktualisierung der Phasenschätzung erfolgt nur dann, wenn g > 0 mindestens 2-mal in Folge erfüllt wird.
Ein Beispiel für die Zwischengrößen SB, SI, SN' und g und die daraus abgeleitete Phasenschätzung zeigt, FIG. 2. Dabei wird das Wort "Senderwahl" gesprochen und das Fahrgeräusch bei 140km/h addiert. Das Verfahren wird, wie oben angegeben, verwendet. Der Phasenschätzwert ist in Abtastwerten n angegeben. Mit der Größe SI wird der "Sprachimpuls" teilweise verdeckt und so nur bei starken Energieanstiegen eine Schätzung erlaubt (SB muß SI um den Faktor 2 übersteigen). Die Schätzung der Reststörung SN ermöglicht eine größere Robustheit gegenüber Geräuschen (SB muß SN um den Faktor 3 übersteigen).

Claims (11)

  1. Verfahren zur Laufzeitschätzung bei dem Laufzeitunterschiede von geräuschgestörten Signalen von zumindest zwei Sprachkanälen mittels einer Kreuzkorrelation bestimmt werden, dadurch gekennzeichnet,
    daß im Frequenzbereich die Phasenwerte von zumindest zwei Signalen über eine bestimmte Anzahl von Maxima der Kreuzleistungsdichte ermittelt werden und deren Phasenverschiebung bestimmt wird, und
    daß der erforderliche Phasenausgleich ebenfalls im Frequenzbereich durchgeführt wird.
  2. Verfahren nach Anspruch l, dadurch gekennzeichnet, daß Hintergrundstörungen und das Einschwingverhalten des Raumes bei der Bestimmung der Phasenwerte ständig mitgeschätzt werden.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Hintergrundgeräusch über einen Geräuschmonitor geschätzt wird, und daß ein neuer Phasenwert lediglich dann ermittelt wird, wenn der Schätzwert des Hintergrundgeräusches um einen bestimmten Faktor überschritten wird.
  4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Einschwingverhalten des umgebenden Raumes über einen Impulsmonitor derart geschätzt wird, daß lediglich bei starkem Energieanstieg in den Signalen ein neuer Phasenschätzwert ermittelt wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß eine lineare Laufzeitverschiebung der Signale angenommen wird.
  6. Verfahren nach einem der vorhergehenden Ansprüche, da-durch gekennzeichnet, daß eine Glättung des Phasenwertes vom Wortanfang in das gesprochene Wort hinein durchgeführt wird, und daß die Varianz der Schätzung bei der Glättung der Phasenwerte mitberücksichtigt wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,
    daß zumindest zwei Mikrofonsignale x, y mittels einer FFT (Fast Fourier Tansformation) in den Frequenzbereich transformiert werden,
    daß durch spektrale Subtraktion aus den transformierten Signalen die Schätzwerte X and, Y and bestimmt werden,
    daß aus den geschätzten Werten X and, Y and der Betrag der Kreuzleistungsdichte Bxy bestimmt wird,
    daß die Maxima der Kreuzleistungsdichte bestimmt werden, und daß aus einer bestimmten Anzahl Maxima der Kreuzleistungsdichte Bxy ein aktueller Wert SB für die gestörten Signale ermittelt wird, daß abhängig vom aktuellen Wert SB die Phasen ϕ der gestörten Signale ermittelt werden und damit der Phasenanstieg ϕ' bestimmt wird,
    daß der Phasenanstieg ϕ' geglättet wird, indem über einen Impulsmonitor ein simulierter Sprachimpuls SI mit dem aktuellen Wert SB der gestörten Signale gekoppelt wird, derart, daß eine erneute Phasenschätzung lediglich dann durchgeführt wird, wenn ein starker Energieanstieg des Mikrofonsignals registriert wird, und
    daß mit einem Geräuschmonitor ein Schätzwert SN für die Hintergrundgeräuschstörung ermittelt wird und mit dem aktuellen Wert SB der gestörten Signale gekoppelt wird, derart, daß eine erneute Phasenschätzung lediglich dann durch geführt wird, wenn vom Signal die Hintergrundstörung deutlich überschritten wird.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß ein maximaler Phasenanstieg |ϕ'|max für die Phase an den einzelnen Maxima vorgebbar ist und eine erneute Phasenschätzung lediglich dann durchgeführt wird, wenn der Phasenanstieg um mindestens M' der M Maxima den maximalen Anstieg |ϕ'|max nicht überschreitet.
  9. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Varianz der Phasenanstiege an den einzelnen Maxima bei der zeitlichen Glättung des Phasenanstiegs berücksichtigt wird.
  10. Verfahren nach den Ansprüchen 7 bis 9, dadurch gekennzeichnet, daß eine erneute Phasenschätzung lediglich dann durchgeführt wird, wenn die Bedingungen für einen gültigen Phasenanstieg zeitlich mehrfach in Folge auftreten.
  11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die gestörte Sprache auf mehr als zwei Sprachkanälen aufgenommen wird und daß die Laufzeitunterschiede der einzelnen Kanäle geschätzt werden.
EP93120010A 1992-12-23 1993-12-11 Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen Expired - Lifetime EP0612059B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE4243831 1992-12-23
DE4243831A DE4243831A1 (de) 1992-12-23 1992-12-23 Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen

Publications (3)

Publication Number Publication Date
EP0612059A2 EP0612059A2 (de) 1994-08-24
EP0612059A3 EP0612059A3 (en) 1995-08-16
EP0612059B1 true EP0612059B1 (de) 1999-03-17

Family

ID=6476383

Family Applications (1)

Application Number Title Priority Date Filing Date
EP93120010A Expired - Lifetime EP0612059B1 (de) 1992-12-23 1993-12-11 Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen

Country Status (3)

Country Link
US (1) US5479517A (de)
EP (1) EP0612059B1 (de)
DE (2) DE4243831A1 (de)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212196A (ja) * 1996-01-31 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置
DE19813285B4 (de) * 1998-03-26 2005-12-01 Bayerische Motoren Werke Ag Verfahren zur automatischen Messung der Sprachverständlichkeit in Kraftfahrzeugen
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
DE19942868A1 (de) * 1999-09-08 2001-03-15 Volkswagen Ag Verfahren zum Betrieb einer Mehrfachmikrofonanordnung in einem Kraftfahrzeug sowie Mehrfachmikrofonanordnung selbst
DE19955156A1 (de) * 1999-11-17 2001-06-21 Univ Karlsruhe Verfahren und Vorrichtung zur Unterdrückung eines Störsignalanteils im Ausgangssignal eines Schallwandlermittels
DE10118653C2 (de) * 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
GB2391322B (en) * 2002-07-31 2005-12-14 British Broadcasting Corp Signal comparison method and apparatus
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7949518B2 (en) * 2004-04-28 2011-05-24 Panasonic Corporation Hierarchy encoding apparatus and hierarchy encoding method
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US7610196B2 (en) 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
EP2249333B1 (de) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Verfahren und Vorrichtung zur Schätzung einer Grundfrequenz eines Sprachsignals
CN114859308A (zh) * 2022-07-11 2022-08-05 陕西昱琛航空设备股份有限公司 一种雷达目标模拟器及其校准方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4017859A (en) * 1975-12-22 1977-04-12 The United States Of America As Represented By The Secretary Of The Navy Multi-path signal enhancing apparatus
US4112430A (en) * 1977-06-01 1978-09-05 The United States Of America As Represented By The Secretary Of The Navy Beamformer for wideband signals
US4333170A (en) * 1977-11-21 1982-06-01 Northrop Corporation Acoustical detection and tracking system
US4254417A (en) * 1979-08-20 1981-03-03 The United States Of America As Represented By The Secretary Of The Navy Beamformer for arrays with rotational symmetry
DE3531230A1 (de) * 1985-08-31 1987-03-05 Krupp Gmbh Verfahren zur detektion von fahrzeugen
US4912767A (en) * 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
JP2791036B2 (ja) * 1988-04-23 1998-08-27 キヤノン株式会社 音声処理装置
JPH0272398A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声信号用前処理装置
US4982375A (en) * 1989-11-13 1991-01-01 The United States Of America As Represented By The Secretary Of The Navy Acoustic intensity probe

Also Published As

Publication number Publication date
EP0612059A2 (de) 1994-08-24
DE4243831A1 (de) 1994-06-30
DE59309463D1 (de) 1999-04-22
US5479517A (en) 1995-12-26
EP0612059A3 (en) 1995-08-16

Similar Documents

Publication Publication Date Title
EP0612059B1 (de) Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
EP0747880B1 (de) Spracherkennungssystem
DE69131883T2 (de) Vorrichtung zur Rauschreduzierung
DE60034212T2 (de) Verfahren und vorrichtung zur adaptiven rauschunterdrückung
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE69932626T2 (de) Signalverarbeitungsvorrichtung und verfahren
EP0742664B1 (de) Freisprechverfahren für ein mehrkanaliges Übertragungssystem
DE69705891T2 (de) Verfahren und Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen Signalmodells
DE69905035T2 (de) Rauschunterdrückung mittels spektraler subtraktion unter verwendung von linearem faltungsprodukt und kausaler filterung
DE102008027848B4 (de) Echounterdrücker, Echounterdrückungsverfahren und computerlesbares Speichermedium
DE69612701T2 (de) Echokompensation mit adaptivem filter im frequenzbereich
DE19831320A1 (de) Digitales adaptives Filter und akustischer Echokompensator
EP1143416A2 (de) Geräuschunterdrückung im Zeitbereich
DE112007003625T5 (de) Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE69801493T2 (de) Sprachanalysessystem
EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
DE102013011761A1 (de) Kraftfahrzeug mit einer Freisprecheinrichtung und Verfahren zur Erzeugung eines Frequenzganges für Freisprecheinrichtungen
DE60304147T2 (de) Virtuelle Mikrophonanordnung
EP0615226B1 (de) Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
DE69802431T2 (de) Verfahren und vorrichtung zur verbesserung eines digitalen sprachsignals
DE3230391C2 (de)
DE102019102415A1 (de) Reduktion von verzerrungen in sprachsignalen
DE102019105458B4 (de) System und Verfahren zur Zeitverzögerungsschätzung
DE19818608A1 (de) Verfahren und Vorrichtung zur Sprachdetektion und Geräuschparameterschätzung

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): DE FR GB

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): DE FR GB

17P Request for examination filed

Effective date: 19950920

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

17Q First examination report despatched

Effective date: 19980603

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: DAIMLERCHRYSLER AG

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 19990329

REF Corresponds to:

Ref document number: 59309463

Country of ref document: DE

Date of ref document: 19990422

ET Fr: translation filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 59309463

Country of ref document: DE

Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 59309463

Country of ref document: DE

Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE

Effective date: 20120411

Ref country code: DE

Ref legal event code: R081

Ref document number: 59309463

Country of ref document: DE

Owner name: NUANCE COMMUNICATIONS, INC. (N.D.GES.D. STAATE, US

Free format text: FORMER OWNER: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH, 76307 KARLSBAD, DE

Effective date: 20120411

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

Owner name: NUANCE COMMUNICATIONS, INC., US

Effective date: 20120924

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20121205

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20121205

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20130107

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R071

Ref document number: 59309463

Country of ref document: DE

REG Reference to a national code

Ref country code: GB

Ref legal event code: PE20

Expiry date: 20131210

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20131210

Ref country code: DE

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20131212