EP0669606B1 - Verfahren zur Geräuschreduktion eines gestörten Sprachsignals - Google Patents

Verfahren zur Geräuschreduktion eines gestörten Sprachsignals Download PDF

Info

Publication number
EP0669606B1
EP0669606B1 EP95101977A EP95101977A EP0669606B1 EP 0669606 B1 EP0669606 B1 EP 0669606B1 EP 95101977 A EP95101977 A EP 95101977A EP 95101977 A EP95101977 A EP 95101977A EP 0669606 B1 EP0669606 B1 EP 0669606B1
Authority
EP
European Patent Office
Prior art keywords
speech
median
median filtering
signal
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP95101977A
Other languages
English (en)
French (fr)
Other versions
EP0669606A3 (de
EP0669606A2 (de
Inventor
Klaus Dr.-Ing. Linhard
Heinz Klemm
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman Becker Automotive Systems GmbH
Original Assignee
DaimlerChrysler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DaimlerChrysler AG filed Critical DaimlerChrysler AG
Publication of EP0669606A2 publication Critical patent/EP0669606A2/de
Publication of EP0669606A3 publication Critical patent/EP0669606A3/de
Application granted granted Critical
Publication of EP0669606B1 publication Critical patent/EP0669606B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Definitions

  • the invention relates to a method for noise reduction a disturbed speech signal using the spectral Subtraction.
  • Noise reduction using the spectral subtraction method is used in automatic speech recognition or with hands-free systems to improve the Speech quality, e.g. when calling from the motor vehicle.
  • the noise reduction by spectral subtraction draws is characterized by the fact that relatively stationary Interference can typically be reduced by approx. 10dB, without additional information about the fault is needed. Only the disturbed voice channel is required.
  • the speech signal is divided into short overlapping time segments divided and processed segment by segment.
  • Estimate of the fault is subtracted in the spectral range.
  • the spectral subtraction can be implemented in different ways, but is usually used as a multiplicative filter implemented in the frequency domain. This spectral subtraction shows the unwanted side effect of a musical Residual noise, the "musical tones" and a speech distortion.
  • the object of the present invention is a method to indicate the noise reduction of a disturbed speech signal, which with high speech quality of the output signal a strong reduction in noise, in particular the "musical tones" also makes it possible.
  • Median filtering has proven to be an advantageous method for further substantially improving the spectral subtraction method for reducing the noise of a disturbed speech signal.
  • the median filtering can be applied both to the magnitude spectrum of the disturbed input signal or the noise-reduced output signal after spectral subtraction and to the transfer function determined from the application of a transfer characteristic and can be carried out in the time direction or in the frequency direction.
  • the magnitude spectrum of the speech signal is composed of a sequence of segment spectra in accordance with the segmentation of the speech time signal.
  • the transfer function is represented by the time and frequency discrete values K i, l (for example, equation (3)). A combination of different of these procedures can also be advantageous.
  • a preferred method provides, in speech pauses by using median filtering, preferably in the temporal direction, to preserve the natural impression of a weak background noise on the transmission function, and during speech activity by applying median filtering to the range of magnitudes of the speech signal to strongly suppress the "musical tones" to reach.
  • the separate detection of speech pauses and speech activity is provided and known in any case for determining an average noise signal during speech pauses, so that no special effort is required for this.
  • the methods according to the invention are easy to implement.
  • Median filtering is also used to process speech signals already known. For example, in DE 32 43 231 Al and DE 32 43 232 A1 a median filter on successive Short-term averages, which are a measure of the represent average power of speech signal sections, applied as a smoothing filter. By comparing the smoothed Values following a threshold become speech pauses recognized. This eliminates interference from the speech signal not instead.
  • FIG. 1 shows an example of an input signal E and a output signal filtered with a median filter of length 3 A.
  • the median filter first sorts the values within of the data window F and then gives the average value med out.
  • the median filter hides short signal peaks, but receives the remaining signal edges.
  • the filtering on the amount is the filtering on the amount square basically equivalent.
  • the following noise example was used: vehicle interior noise at 140km / h, 12kHz sampling frequency, segment length 512 Values, the last 256 values of each segment become zero are set, the first 256 values of each segment are marked with Hanning window multiplied, segments are half overlapped, i.e. a new segment every 10.67ms.
  • FIG. 2 first shows the frequency (linear 0 to 6kHz) the spectrum for 4 successive segments (Time interval 10.67ms, index 1) and then above the Time (0 to 2.5sec) the waveform for 4 consecutive discrete frequencies (index i), representative for all 256 frequencies. It shows up as a typical property the "musical tones" that the course over frequency has relatively extensive disturbances (broad impulses), whereas the course over time is strongly impulsive Character (narrow impulses). Exactly the impulsive Median filtering makes character in the temporal direction particularly effective here. An impulsive The fault is deleted. For impulsive disturbances with wider pulses is a larger window length of the median filter required.
  • the median filter can also be used instead of the output signal Input signal, performed before spectral subtraction become. Ideally, this will not result in any "musical tones ", which are otherwise generated by post-filtering be solved with the median filter.
  • the median filtering on the input signal can be advantageous if "musical tones" the various processing steps implemented in the spectral subtraction filter (except the characteristic function). It should go on not on possible advantages or disadvantages of median filtering be received at the input or output signal. in the In principle, both possibilities are given and of special ones Cases of implementation apart from being equivalent.
  • the median filter can be used instead of the magnitude spectrum Speech signal also performed on the transfer function K. become.
  • FIG. 4 shows the transfer function K over time and over frequency. The same section is shown as in FIG. 2.
  • the transfer function shows a similar one Behavior like the output signal in FIG. 2nd
  • FIG. 5 shows that in the time direction with the 3-fold median filtered transfer function. The is shown same section as in FIG. 3. Here too is the median filtering in time from the same Reasons like the output signal extremely effective.
  • An input signal with a pulse-like disturbance caused the corresponding pulse-like change in the transfer function.
  • the spectrum of the Input signal is with the transfer function multiplied.
  • the pulse-like disturbance becomes additional is now increasingly audible as a "musical tone".
  • the pulse-suppressing property of median filtering affects the increased impulse disturbance particularly clearly and thus the "musical tones".
  • the median filtering has a repairing effect on the impulsive disturbance.
  • the median filtering on the magnitude spectrum of the input or Output signal indicates compared to the median filtering the transfer values the higher gain in suppression of impulsive disturbances, but can also particularly noticeable in speech pauses as unnatural perceived changes while median filtering the transmission values in speech pauses essentially leads to a pure attenuation of the signal sounds quieter but natural. Ideally, none arise "musical tones".
  • a preferred embodiment of the invention takes advantage of this by using median filtering in the case of language activity on the range of amounts and during language breaks is carried out on the transfer values. The required Speech-pause decision stands with the spectral Subtraction is available anyway since the formation of the noise estimate only carried out during language breaks becomes.
  • the window length as given in the example equal to the minimum median window length 3. Larger window lengths lead in this case to further suppress the "musical tones", possibly but also to a leveling felt as unnatural of the speech signal.
  • the preferred window length is therefore 3 as indicated by way of example. For shorter ones Segments can have a larger window length when median filtering be appropriate.
  • the one from the window of temporal Median filtering covered time interval should however be 50ms do not exceed.
  • the Window length of the median filter at the data segment length For filtering in the frequency direction, the Window length of the median filter at the data segment length.
  • the data segment length should be numerically described Example is less than 64, the median filter is not greater than 5.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Geräuschreduktion eines gestörten Sprachsignals mit Hilfe der spektralen Subtraktion.
Die Geräuschreduktion mit der Methode der spektralen Subtraktion findet Anwendung bei der automatischen Spracherkennung oder bei Freisprechanlagen zur Verbesserung der Sprachqualität, z.B. beim Telefonieren aus dem Kraftfahrzeug.
Die Geräuschreduktion durch spektrale Subtraktion zeichnet sich dadurch aus, daß relativ stationäre Störungen typischerweise um ca. 10dB reduziert werden können, ohne daß zusätzliche Information über die Störung benötigt wird. Es wird nur der gestörte Sprachkanal benötigt. Das Sprachsignal wird in kurze überlappende Zeitsegmente unterteilt und segmentweise bearbeitet. Bei der spektralen Subtraktion wird in den Sprachpausen ein Schätzwert der Störung ermittelt, und dieser Schätzwert wird im Spektralbereich betragsmäßig subtrahiert. Die spektrale Subtraktion ist auf verschiedene Arten realisierbar, wird aber in der Regel als multiplikatives Filter im Frequenzbereich implementiert. Diese spektrale Subtraktion zeigt den unerwünschten Nebeneffekt eines musikalischen Restgeräuschs, der "musical tones" und einer Sprachverzerrung.
Üblicherweise werden "musical tones" durch eine überhöhte Dämpfung unterdrückt. Die überhöhte Dämpfung kann durch ein Überschätzen der Störung mit einem Überschätzfaktor erfolgen oder durch die Wahl einer speziellen übertragungskennlinie. Aus der Übertragungskennlinie werden für jede Frequenz die Werte der aktuellen Übertragungsfunktion bestimmt. Es ist üblich im spektralen Subtraktionsfilter eine Betragskennlinie zu implementieren, die eine höhere Dämpfung aufweist als z.B. ein Kennlinie nach dem quadratischen Fehlerkriterium. Speziell entworfene Kennlinien sind ebenfalls möglich. Abhängig von der verwendeten Kennlinie ist eine Überschätzung der Störung um den Faktor 1 bis 3 üblich. Die überhöhte Dämpfung durch die Kennlinie und den Überschätzfaktor ergibt zwar den gewünschten Effekt der Unterdrückung von "musical tones", hat aber auch den Nebeneffekt einer z.T. erheblichen Verzerrung der Sprache.
Eine weitere übliche Methode "musical tones" zu unterdrücken, ist die Maskierung durch Zulassen eines bestimmten Anteils (z.B. 20%) des ursprünglichen Geräuschs als Hintergrundgeräusch ("spectral floor"). "musical tones" werden dadurch weniger hörbar, das Geräusch wird aber auch nicht mehr vollständig unterdrückt.
Es gilt bei der spektralen Subtraktion S i, l = K i, l · Y i, l mit Y i,l = Si, l + N i ,l und für das Beispiel einer sogenannten Betragskennlinie als Übertragungskennlinie K i, l = 1 - α Y i,l 2 N i,l 2 sowie beispielsweise die Auswahl eines minimalen Übertragungswertes für den spectral floor Min(K i,l ) = b .
Mit den Größen:
S and:
geschätztes Ausgangssignal
K:
Übertragungsfunktion
Y:
gestörtes Sprachsignal
S:
Sprachsignal
N:
Störgeräusch
b:
Hintergrundrestgeräusch (spectral floor)
a:
Überschätzfaktor (overestimate)
N and2:
in Sprachpausen geschätzte Störung
i:
Frequenzindex
l:
Zeitindex des Segments
Methoden zur Unterdrückung der "musical tones", durch Kennlinie, "overestimation" und "spectral floor", sind in vielfältiger Variation durch zahlreiche Veröffentlichungen bekannt, z.B.:
  • Boll, S.: Suppression of Noise in Speech Using the SABER Method, Proc. IEEE Int. Conf. on ASSP, 1978, pp. 600-609.
  • Boll, S.: Suppression of Acoustic Noise in Speech Using Spectral Substraction, IEEE Trans. on ASSP, Vol. ASSP-27, No. 2, April 79, pp. 113-120.
  • Berouti, M.; Schwartz, R.; Makhoul, J.: Enhancement of Speech Corrupted by Acoustic Noise, Proc. Int. Conf. on ASSP, 1979, pp. 208-211.
  • Vary, P.: Noise Suppression by Spectral Magnitude Estimation - Mechanism and Theoretical Limits-, Signal Processing, Vol. 8, No. 4, 1986, pp. 387-400.
  • Xie, F.; Compernolle.: Speech Enhancement by Nonlinear Spectral Estimation - A Unifying Approach, Int. Conf. Eurospeech, 1993, pp. 617-620.
  • Über die oben angesprochenen Methoden hinaus, sind weitere spezielle Methoden bekannt, die ebenfalls zur Reduzierung der "musical tones" verwendet werden:
    Die Amplitudenwerte zeitlich aufeinanderfolgender gestörter Sprachspektren werden gemittelt (z.B. bei Boll "magnitude averaging"). Dadurch werden zwar Rauschanteile gedämpft aber da Sprache stark instationär ist, tritt schon bei kurzen Mittelungslängen eine zeitliche Verschmierung des Sprachsignals auf (echoartiger Effekt). Bei Boll wird weiterhin ein "magnitude plus bandwith measurement test " beschrieben, nachdem spektrale Bereiche mit einer Bandbreite unter 300Hz und einer Amplitude, kleiner als eine vorgegebene Schwelle, als "residual noise" erkannt werden. Diese Bereiche werden dann zusätzlich gedämpft. Es wird von Boll vorgeschlagen, den "residual noise" dadurch zu reduzieren, daß aus drei zeitlich aufeinanderfolgenden Spektren des gefilterten Signals jeweils der minimale Wert als Ausgangssignal verwendet wird. Die Ausgabe der minimalen Spektrallinie von drei zeitlich benachbarten Linien führt zwar zu einer deutlichen Reduzierung des Restgeräuschs und damit der "musical tones", gelegentlich treten jedoch in unregelmäßigen Abständen plötzliche kurze "Geräuschbündel" auf.
    Ein weiteres Verfahren verwendet eine sogenannte nichtlineare spektrale Subtraktion. Der überschätzfaktor wird hier abhängig vom Pausengeräusch und dem aktuell anliegenden Signal errechnet. Die optimale Einstellung dieser Regelung ist jedoch schwierig. (Lockwood, P.; Boudy, J.: Experiments with a Nonlinear Spectral Subtraction (NSS), Hidden Markov Models and the projection, for robust speech recognition in cars, Speech Communication, No. 11, 1992, p. 215-228).
    Aufgabe der vorliegenden Erfindung ist es, ein Verfahren zur Geräuschreduktion eines gestörten Sprachsignals anzugeben, welches bei hoher Sprachqualität des Ausgangssignals eine starke Reduktion der Geräusche, insbesondere auch der "musical tones" ermöglicht.
    Erfindungsgemäße Lösungen dieser Aufgabe sowie vorteilhafte Ausführungen und Weiterbildungen sind in den Patentansprüchen beschrieben. Insbesondere werden Verfahren zur Gerauschreduktion eines gestörten Sprachsignals vorgesehen, wie in den Ansprüchen 1 und 4 dargelegt.
    Die Medianfilterung erweist sich als vorteilhaftes Verfahren zur weiteren wesentlichen Verbesserung des Verfahrens der spektralen Subtraktion für die Geräuschreduktion eines gestörten Sprachsignals. Die Medianfilterung kann dabei sowohl auf das Betragsspektrum des gestörten Eingangssignals oder des nach der spektralen Subtraktion geräuschreduzierten Ausgangssignals als auch auf die aus der Anwendung einer übertragungskennlinie bestimmten Übertragungsfunktion angewandt und in Zeitrichtung oder in Frequenzrichtung durchgeführt werden. Das Betragsspektrum des Sprachsignals setzt sich entsprechend der Segmentierung des Sprachzeitsignals aus einer Folge von Segmentspektren zusammen. Die Übertragungsfunktion ist repräsentiert durch die zeit- und frequenzdiskreten Werte Ki,l (z.B. Gleichung (3)). Auch eine Kombination verschiedener dieser Vorgehensweisen kann vorteilhaft sein. So sieht ein bevorzugtes Verfahren vor, in Sprachpausen durch Anwendung der Medianfilterung bevorzugt in zeitlicher Richtung, auf die Übertragungsfunktion den natürlichen Eindruck eines schwachen Hintergrundgeräusches zu bewahren und während Sprachaktivität durch Anwendung der Medianfilterung auf das Betragsspektrum des Sprachsignals eine starke Unterdrückung der "musical tones" zu erreichen. Die getrennte Erkennung von Sprachpausen und Sprachaktivität ist zur Ermittlung eines mittleren Geräuschsignals während Sprachpausen ohnehin vorgesehen und bekannt, so daß hierfür kein gesonderter Aufwand erforderlich ist. Die erfindungsgemäßen Verfahren sind einfach implementierbar.
    Das Prinzip der Medianfilterung an sich ist allgemein bekannt (z.B. Mitra, S.K.: Handbook for Digital Signal Processing, John Wiley & Sons, 1993).
    Die Medianfilterung ist auch zur Verarbeitung von Sprachsignalen bereits bekannt. So wird beispielsweise in DE 32 43 231 Al und DE 32 43 232 A1 ein Medianfilter auf aufeinanderfolgende Kurzzeitmittelwerte, die ein Maß für die mittlere Leistung von Sprachsignalabschnitten darstellen, als Glättungsfilter angewandt. Durch Vergleich der geglätteten Werte folge mit einem Schwellwert werden Sprachpausen erkannt. Eine Störbefreiung des Sprachsignals findet dadurch nicht statt.
    In IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-23, No. 6, Dec. 1975, S. 552-557 ist die Anwendung eines Medianfilters im Kombination mit einem linearen Glättungsfilter auf Abtastwerte der Intensität eines Sprachsignals beschrieben. Eine Signalverarbeitung im Spektralbereich ist nicht vorgesehen und es kann nur eine geringe Störüberlagerung bewältigt werden.
    FIG. 1 zeigt ein Beispiel für ein Eingangssignal E und ein mit einem Medianfilter der Länge 3 gefiltertes Ausgangssignal A. Das Medianfilter sortiert zuerst die Werte innerhalb des Datenfensters F und gibt dann den mittleren Wert med aus. Das Medianfilter blendet kurze Signalspitzen aus, erhält aber die übrigen Signalflanken.
    Für das Beispiel der Anwendung eines Medianfilters der Länge 3 auf ein geräuschreduziertes Betragsspektrum eines Sprachsignals gilt bei zeitlicher Filterung S m i,l = med( S i, l -1 , S i, l , S i, l +1 ) oder bei Filterung in Frequenzrichtung S m i,l = med( S i-1, l , S i, l , S i+1, l )
    Der Filterung am Betrag ist die Filterung am Betragsquadrat im Prinzip gleichwertig.
    Die Wirkung der Medianfilterung auf die Verringerung der "musical tones" ist veranschaulicht anhand von Darstellungen eines typischen zeitlichen und spektralen Verlaufs solcher "musical tones". Dargestellt ist das Betragsspektrum eines in einer Sprachpause gewonnenen und mit Hilfe der spektralen Subtraktion geschätzten Ausgangssignals. Da in der Sprachpause keine Sprachanteile vorliegen treten vor allem die "musical tones" deutlich in Erscheinung.
    Als Beispiel der spektralen Subtraktion wurde verwendet: Standardverfahren mit Betragskennlinie, 20% Hintergrundgeräusch (b = 0,2), ohne Überschätzfaktor (a = 1,0).
    Als Geräusch-Beispiel wurde verwendet: Fahrzeuginnengeräusch bei 140km/h, 12kHz Abtastfrequenz, Segmentlänge 512 Werte, die letzten 256 Werte jedes Segments werden zu Null gesetzt, die ersten 256 Werte jedes Segments werden mit Hanning-Fenster multipliziert, Segmente sind halb überlappt, d.h. alle 10,67ms ein neues Segment.
    FIG. 2 zeigt zunächst über der Frequenz (linear 0 bis 6kHz) das Spektrum für 4 zeitlich aufeinanderfolgende Segmente (Zeitabstand 10,67ms, Index 1) und dann über der Zeit (0 bis 2,5sec) den Signalverlauf für 4 aufeinanderfolgende diskrete Frequenzen (Index i), stellvertretend für alle 256 Frequenzen. Es zeigt sich als typische Eigenschaft der "musical tones", daß der Verlauf über der Frequenz relativ ausgedehnte Störungen (breite Impulse) aufweist, wogegen der Verlauf über der Zeit einen starken impulsartigen Charakter (schmale Impulse) hat. Genau der impulsartige Charakter in zeitlicher Richtung macht die Medianfilterung hier besonders effektiv. Eine impulsartige Störung wird gelöscht. Für impulsartige Störungen mit breiteren Impulsen ist eine größere Fensterlänge des Medianfilters erforderlich. Im Gegensatz zu linearen Filterungsverfahren (Glättungsfilter, "linear smoother") findet keine Verschmierung des Signalverlaufs statt. Die Darstellung der in zeitlicher Richtung mit dem 3-er Median gefilterten Signale in FIG. 3 verdeutlicht diese Eigenschaft. Das gefilterte Signal zeigt im Zeitverlauf deutlich einen glatteren Verlauf. Im Frequenzverlauf sind einige der (breiteren) Impulse durch die Filterung in Zeitrichtung ebenfalls gelöscht.
    Bei Sprachaktivität führt die Anwendung des Medianfilters in zeitlicher Richtung der einzelnen Spektrallinien zu einer Verbesserung der Sprachqualität, da impulsartige Störungen des Sprachspektrums "repariert" werden. Das SprachSignal selbst wird nur sehr gering verändert. Eine Erhöhung der Fensterlänge von 3 auf 5 (in Zeitrichtung) ergibt zwar eine noch bessere Auslöschung der "musical tones", es wird aber bereits ein schwacher echoartiger Charakter der Sprache hörbar.
    Das Medianfilter kann anstatt am Ausgangssignal auch am Eingangssignal, vor der spektralen Subtraktion, durchgeführt werden. Im Idealfall können dadurch keine "musical tones" entstehen, die sonst alternativ durch die Nachfilterung mit dem Medianfilter gelöst werden. Die Medianfilterung am Eingangssignal kann dann vorteilhaft sein, wenn "musical tones" die verschiedenen implementierten Verarbeitungsschritte im spektralen Substraktionsfilter (außer der Kennlinienfunktion) beeinflussen. Es soll im weiteren nicht auf mögliche Vor- oder Nachteile einer Medianfilterung am Ein- oder Ausgangssignal eingegangen werden. Im Prinzip sind beide Möglichkeiten gegeben und von speziellen Fällen der Implementierung abgesehen gleichwertig.
    Das Medianfilter kann anstatt am Betragsspektrum eines Sprachsignals auch an der Übertragungsfunktion K ausgeführt werden.
    Es gilt für den 3-er Median: K m i,l = med( K i, l -1 , K i, l , K i, l +1 ) oder K m i,l = med( K i-1, l , K i, l , K i+1, l )
    FIG. 4 zeigt die Übertragungsfunktion K über der Zeit und über der Frequenz. Dargestellt ist der gleiche Ausschnitt wie in FIG. 2. Die Übertragungsfunktion zeigt ein ähnliches Verhalten wie das Ausgangssignal in FIG. 2.
    FIG. 5 zeigt die in zeitlicher Richtung mit dem 3-er Median gefilterte Übertragungsfunktion. Dargestellt ist der gleiche Ausschnitt wie in FIG. 3. Auch hier ist die Medianfilterung in zeitlicher Richtung aus den gleichen Gründen wie beim Ausgangssignal äußerst effektiv.
    Die effektive Unterdrückung der "musical tones" durch die Medianfilterung kann wie folgt erklärt werden:
    Ein Eingangssignal mit einer impulsartigen Störung verursacht die entsprechende impulsartige Änderung der Übertragungsfunktion. Im ursprünglichen Geräusch gehört dieser lokale Impuls zum natürlichen Geräusch und wird deshalb nicht als besonders störend empfunden. Das Spektrum des Eingangssignals wird mit der Übertragungsfunktion multipliziert. Die impulsartige Störung wird dadurch zusätzlich verstärkt ist jetzt als "musical tone" hörbar.
    Die impulsunterdrückende Eigenschaft der Medianfilterung wirkt sich besonders deutlich auf die verstärkte Impulsstörung und somit auf die "musical tones" aus. Die Medianfilterung wirkt reparierend auf die impulsartige Störung.
    Die Medianfilterung am Betragsspektrum des Eingangs- oder Ausgangssignals ergibt gegenüber der Medianfilterung an den übertragungswerten den höheren Gewinn an der Unterdrückung von impulsartigen Störungen, kann aber auch zu besonders in Sprachpausen auffallenden als unnatürlich empfundenen Veränderungen führen, während die Medianfilterung der Übertragungswerte in Sprachpausen im wesentlichen zu einer reinen Dämpfung des Signals führt, das dadurch leiser aber natürlich klingt. Im Idealfall entstehen keine "musical tones". Eine bevorzugte Ausführungsform der Erfindung macht sich dies zunutze, indem die Medianfilterung bei Sprachaktivität am Betragsspektrum und in Sprachpausen an den übertragungswerten durchgeführt wird. Die erforderliche Sprach-Pausen-Entscheidung steht bei der spektralen Subtraktion ohnehin zur Verfügung, da die Bildung des Geräuschschätzwertes nur in den Sprachpausen durchgeführt wird.
    Anstelle der Medianfilterung in Zeitrichtung wie beschrieben kann auch eine Medianfilterung in Frequenzrichtung gemäß Gleichung (6) durchgeführt werden. Die gegebenen ausführlichen Darlegungen gelten für die Filterung in Frequenzrichtung analog. Es zeigt sich, daß mit abnehmender Zahl der Abtastwerte innerhalb eines Zeitsegments die Medianfilterung in Frequenzrichtung an Vorteilen gewinnt gegenüber der Filterung in Zeitrichtung und umgekehrt.
    Bei den gebräuchlichen Werten für die Segmentlänge nach Zeit- und Abtastwerten ist die Anwendung der Medianfilterung in Zeitrichtung besonders vorteilhaft.
    Bei der beschriebenen Anwendung einer Medianfilterung in zeitlicher Richtung mit den beispielhaft angegebenen Werten für Abtastrate und Fensterlänge ist die Fensterlänge wie im Beispiel angegeben gleich der minimalen Medianfensterlänge 3. Größere Fensterlängen führen in diesem Falle zwar zu einer weiteren Unterdrückung der "musical tones", u.U. aber auch zu einer als unnatürlich empfundenen Einebnung des Sprachsignals. Die bevorzugte Fensterlänge ist daher 3 wie beispielhaft angegeben. Für zeitlich kürzere Segmente kann eine größere Fensterlänge bei der Medianfilterung angemessen sein. Der von dem Fenster der zeitlichen Medianfilterung abgedeckte Zeitintervall sollte aber 50ms nicht überschreiten.
    Für die Filterung in Frequenz richtung orientiert sich die Fensterlänge des Medianfilters an der Datensegmentlänge. Die Datensegmentlänge sollte im zahlenmäßig beschriebenen Beispiel kleiner als 64 sein, das Medianfilter nicht größer als 5.

    Claims (11)

    1. Verfahren zur Geräuschreduktion eines gestörten Sprachsignals mit Hilfe der spektralen Subtraktion, dadurch gekennzeichnet. daß das Betragsspektrum des Sprachsignals einer Medianfilterung unterzogen wird.
    2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Medianfilterung auf das Betragsspektrum des gestörten Eingangssignals angewandt wird.
    3. Verfahren nach einem der Ansprüche 1 und 2, dadurch gekennzeichnet, daß die Medianfilterung auf das Betragsspektrum des Ausgangssignals der spektralen Subtraktion angewandt wird.
    4. Verfahren zur Geräuschreduktion eines gestörten Sprachsignals mit Hilfe der spektralen Subtraktion, wobei aus einer vorgebbaren Übertragungskennlinie eine Übertragungsfunktion für die spektrale Subtraktion bestimmt wird, dadurch gekennzeichnet, daß die Übertragungsfunktion einer Medianfilterung unterzogen werden.
    5. Verfahren zur Geräuschreduktion eines gestörten Sprachsignals mit einer Kombination der Merkmale aus Anspruch 4 und aus einem der Ansprüche 1 bis 3.
    6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Medianfilterung in Sprachpausen auf die Übertragungswerte und bei Sprachaktivität auf das Betragsspektrum des Sprachsignals angewandt wird.
    7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Medianfilterung in zeitlicher Richtung angewandt wird.
    8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Fensterlänge des Medianfilters drei aufeinanderfolgende Zeitsegmente umfaßt.
    9. Verfahren nach Anspruch 7 oder Anspruch 8, dadurch gekennzeichnet, daß die Fensterlänge des Medianfilters kleiner als 50ms ist.
    10. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Medianfilterung in Frequenzrichtung angewandt wird.
    11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die Fensterlänge des Medianfilters nicht mehr als 5 Frequenzwerte umfaßt.
    EP95101977A 1994-02-23 1995-02-14 Verfahren zur Geräuschreduktion eines gestörten Sprachsignals Expired - Lifetime EP0669606B1 (de)

    Applications Claiming Priority (2)

    Application Number Priority Date Filing Date Title
    DE4405723A DE4405723A1 (de) 1994-02-23 1994-02-23 Verfahren zur Geräuschreduktion eines gestörten Sprachsignals
    DE4405723 1994-02-23

    Publications (3)

    Publication Number Publication Date
    EP0669606A2 EP0669606A2 (de) 1995-08-30
    EP0669606A3 EP0669606A3 (de) 1995-10-25
    EP0669606B1 true EP0669606B1 (de) 1999-09-22

    Family

    ID=6510930

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP95101977A Expired - Lifetime EP0669606B1 (de) 1994-02-23 1995-02-14 Verfahren zur Geräuschreduktion eines gestörten Sprachsignals

    Country Status (4)

    Country Link
    EP (1) EP0669606B1 (de)
    AT (1) ATE185014T1 (de)
    DE (2) DE4405723A1 (de)
    ES (1) ES2138669T3 (de)

    Cited By (3)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    WO2012098261A2 (de) 2011-01-21 2012-07-26 Behr Gmbh & Co. Kg Kältemittelkondensatorbaugruppe
    US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
    US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals

    Families Citing this family (6)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
    DE19629132A1 (de) * 1996-07-19 1998-01-22 Daimler Benz Ag Verfahren zur Verringerung von Störungen eines Sprachsignals
    EP1366617B1 (de) 2001-03-07 2005-08-03 T-Mobile Deutschland GmbH Verfahren und vorrichtung zur verbesserung der sprachqualität auf transparenten telekommunikations-übertragungswegen
    DE10136491B4 (de) * 2001-03-07 2004-11-25 T-Mobile Deutschland Gmbh Verfahren und Vorrichtung zur Verbesserung der Sprachqualität auf transparenten Telekommunikations-Übertragungswegen
    DE10311587A1 (de) * 2003-03-14 2004-09-23 Volkswagen Ag Verfahren und Vorrichtung zum Freisprechen in einem Kraftfahrzeug
    WO2012109384A1 (en) * 2011-02-10 2012-08-16 Dolby Laboratories Licensing Corporation Combined suppression of noise and out - of - location signals

    Family Cites Families (5)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    JPS58196595A (ja) * 1982-05-12 1983-11-16 日本電気株式会社 パタ−ン特徴抽出装置
    DE3243231A1 (de) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur erkennung von sprachpausen
    DE3243232A1 (de) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur erkennung von sprachpausen
    US4682230A (en) * 1986-03-21 1987-07-21 Rca Corporation Adaptive median filter system
    DE4229577A1 (de) * 1992-09-04 1994-03-10 Daimler Benz Ag Verfahren zur Spracherkennung mit dem eine Anpassung von Mikrofon- und Sprachcharakteristiken erreicht wird

    Cited By (3)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    WO2012098261A2 (de) 2011-01-21 2012-07-26 Behr Gmbh & Co. Kg Kältemittelkondensatorbaugruppe
    US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
    US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals

    Also Published As

    Publication number Publication date
    ES2138669T3 (es) 2000-01-16
    EP0669606A3 (de) 1995-10-25
    DE59506864D1 (de) 1999-10-28
    EP0669606A2 (de) 1995-08-30
    ATE185014T1 (de) 1999-10-15
    DE4405723A1 (de) 1995-08-24

    Similar Documents

    Publication Publication Date Title
    EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
    DE19747885B4 (de) Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
    DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
    DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
    DE3752288T2 (de) Sprachprozessor
    DE69420027T2 (de) Rauschverminderung
    DE69531710T2 (de) Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen
    DE112011104737B4 (de) Geräuschunterdrückungsvorrichtung
    DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
    EP0668007B1 (de) Mobilfunkgerät mit freisprecheinrichtung
    DE69616724T2 (de) Verfahren und System für die Spracherkennung
    EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
    DE4243831A1 (de) Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
    DE112011106045B4 (de) Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren
    EP0669606B1 (de) Verfahren zur Geräuschreduktion eines gestörten Sprachsignals
    DE69130687T2 (de) Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal
    EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
    EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
    EP0623995A1 (de) Anordnung zur geräuschabhängigen Regelung der Lautstärke eines Autoradios
    DE3733983A1 (de) Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen
    DE102013011761A1 (de) Kraftfahrzeug mit einer Freisprecheinrichtung und Verfahren zur Erzeugung eines Frequenzganges für Freisprecheinrichtungen
    DE10137348A1 (de) Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
    DE10157535A1 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
    DE3230391C2 (de)
    DE69423703T2 (de) Rauschunterdrückungseinrichtung zur Vorverarbeitung und/oder Nachbearbeitung von Sprachsignalen

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    AK Designated contracting states

    Kind code of ref document: A2

    Designated state(s): AT CH DE ES FR GB IT LI NL

    PUAL Search report despatched

    Free format text: ORIGINAL CODE: 0009013

    AK Designated contracting states

    Kind code of ref document: A3

    Designated state(s): AT CH DE ES FR GB IT LI NL

    17P Request for examination filed

    Effective date: 19951117

    GRAG Despatch of communication of intention to grant

    Free format text: ORIGINAL CODE: EPIDOS AGRA

    17Q First examination report despatched

    Effective date: 19981112

    GRAG Despatch of communication of intention to grant

    Free format text: ORIGINAL CODE: EPIDOS AGRA

    GRAG Despatch of communication of intention to grant

    Free format text: ORIGINAL CODE: EPIDOS AGRA

    GRAH Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOS IGRA

    RAP1 Party data changed (applicant data changed or rights of an application transferred)

    Owner name: DAIMLERCHRYSLER AG

    GRAH Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOS IGRA

    GRAA (expected) grant

    Free format text: ORIGINAL CODE: 0009210

    AK Designated contracting states

    Kind code of ref document: B1

    Designated state(s): AT CH DE ES FR GB IT LI NL

    REF Corresponds to:

    Ref document number: 185014

    Country of ref document: AT

    Date of ref document: 19991015

    Kind code of ref document: T

    ITF It: translation for a ep patent filed
    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: NV

    Representative=s name: KIRKER & CIE SA

    Ref country code: CH

    Ref legal event code: EP

    REF Corresponds to:

    Ref document number: 59506864

    Country of ref document: DE

    Date of ref document: 19991028

    ET Fr: translation filed
    REG Reference to a national code

    Ref country code: ES

    Ref legal event code: FG2A

    Ref document number: 2138669

    Country of ref document: ES

    Kind code of ref document: T3

    PLBE No opposition filed within time limit

    Free format text: ORIGINAL CODE: 0009261

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

    26N No opposition filed
    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: IF02

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: PUE

    Owner name: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH

    Free format text: DAIMLERCHRYSLER AG#EPPLESTRASSE 225#70567 STUTTGART (DE) -TRANSFER TO- HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH#BECKER-GOERING-STRASSE 16#76307 KARLSBAD (DE)

    NLS Nl: assignments of ep-patents

    Owner name: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH

    Effective date: 20050630

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: TP

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: NL

    Payment date: 20110228

    Year of fee payment: 17

    Ref country code: CH

    Payment date: 20110223

    Year of fee payment: 17

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R082

    Ref document number: 59506864

    Country of ref document: DE

    Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R082

    Ref document number: 59506864

    Country of ref document: DE

    Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE

    Effective date: 20120411

    Ref country code: DE

    Ref legal event code: R081

    Ref document number: 59506864

    Country of ref document: DE

    Owner name: NUANCE COMMUNICATIONS, INC. (N.D.GES.D. STAATE, US

    Free format text: FORMER OWNER: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH, 76307 KARLSBAD, DE

    Effective date: 20120411

    REG Reference to a national code

    Ref country code: NL

    Ref legal event code: V1

    Effective date: 20120901

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: PL

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: TP

    Owner name: NUANCE COMMUNICATIONS, INC., US

    Effective date: 20120924

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: LI

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20120229

    Ref country code: CH

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20120229

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: NL

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20120901

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: ES

    Payment date: 20140113

    Year of fee payment: 20

    Ref country code: IT

    Payment date: 20140213

    Year of fee payment: 20

    Ref country code: FR

    Payment date: 20140211

    Year of fee payment: 20

    Ref country code: AT

    Payment date: 20140128

    Year of fee payment: 20

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: GB

    Payment date: 20140212

    Year of fee payment: 20

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: DE

    Payment date: 20140417

    Year of fee payment: 20

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R071

    Ref document number: 59506864

    Country of ref document: DE

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: PE20

    Expiry date: 20150213

    REG Reference to a national code

    Ref country code: AT

    Ref legal event code: MK07

    Ref document number: 185014

    Country of ref document: AT

    Kind code of ref document: T

    Effective date: 20150214

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GB

    Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

    Effective date: 20150213

    REG Reference to a national code

    Ref country code: ES

    Ref legal event code: FD2A

    Effective date: 20150826

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: ES

    Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

    Effective date: 20150215