DE69802431T2

DE69802431T2 - Verfahren und vorrichtung zur verbesserung eines digitalen sprachsignals

Info

Publication number: DE69802431T2
Application number: DE69802431T
Authority: DE
Inventors: Philip Lockwood; Stephane Lubiarz
Original assignee: Matra Nortel Communications SAS
Current assignee: Nortel Networks France SAS
Priority date: 1997-09-18
Filing date: 1998-09-16
Publication date: 2002-07-18
Anticipated expiration: 2018-09-17
Also published as: EP1021805A1; CA2304013A1; EP1021805B1; US6775650B1; AU9168798A; FR2768545A1; WO1999014744A1; FR2768545B1; DE69802431D1

Description

Die Erfindung betrifft die digitalen Techniken zur Verarbeitung von Sprachsignalen.
Zahlreiche Darstellungen von Sprachsignalen berücksichtigen die Harmonizität dieser Signale, die sich aus der Weise ergeben, in der sie erzeugt werden. In den meisten Fällen geschieht dies durch Bestimmung einer Tonfrequenz des Sprachsignals.
Die digitalen Verarbeitungen von Sprachsignalen haben in der jüngsten Zeit eine starke Entwicklung in verschiedenen Bereichen erfahren: Codierung der Sprache für die Übertragung oder Speicherung, Spracherkennung, Verringerung des Rauschens, Aufhebung des Echos ... Sehr häufig werden bei diesen Behandlungen eine Schätzung der Tonfrequenz und besondere Operationen in Verbindung mit der geschätzten Frequenz vorgenommen.
Es wurden zahlreiche Methoden zum Schätzen der Tonfrequenz geschaffen. Eine gängige Methode beruht auf einer linearen Prädiktion, mit der man eine zur Tonfrequenz umgekehrt proportionale Prädiktionsverzögerung bestimmt. Diese Verzögerung kann als eine ganze Zähl oder eine Bruchzahl der Abtastzeit des digitalen Signals ausgedrückt werden. Andere Methoden erfassen direkt Unterbrechungen des Signals, die den Schließungen der Glottis des Sprechers zuzuschreiben sind, wobei die Zeitintervalle zwischen diesen Unterbrechungen zur Tonfrequenz umgekehrt proportional sind.
Eine andere Methode, die eine Kombination der Prädiktion, der Interpolation und der Nachtastung im Spektralbereich vorschlägt, wird in US-A-5 226 08 beschrieben.
Wenn eine Transformation im Frequenzbereich wie eine diskrete Fouriertransformation an dem digitalen Sprachsignal vorgenommen wird, muss man ein diskretes Spektrum des Sprachsignals betrachten. Die betrachteten diskreten Frequenzen sind die der Form (a/N)xFe, worin Fe die Abtastfrequenz, N die Anzahl von Abtastwerten der in der diskreten Fouriertransformation verwendeten Blöcke und a eine ganze Zahl ist, die von 0 bis N/2-1 geht. Diese Frequenzen umfassen nicht notwendigerweise die geschätzte Tonfrequenz und/oder ihre Harmonischen. Daraus ergibt sich eine Ungenauigkeit in den in Verbindung mit der geschätzten Tonfrequenz vorgenommenen Operationen, die Verzerrungen des behandelten Signals verursachen kann, indem sein harmonischer Charakter beeinträchtigt wird.
Ein Hauptziel der Erfindung ist es, eine Art der Aufbereitung des Sprachsignals vorzuschlagen, die es weniger empfindlich für die oben genannten Nachteile macht.
Die Erfindung schlägt ein Verfahren gemäß Anspruch 1 und eine Vorrichtung gemäß Anspruch 9 vor.
So schlägt die Erfindung ein Verfahren zur Aufbereitung eines in auf einanderfolgenden Gruppen behandelten digitalen Sprachsignals vor, bei dem man eine harmonische Analyse des Sprachsignals vornimmt, um eine Tonfrequenz des Sprachsignals auf jeder Gruppe zu schätzen, in der es eine Vokalaktivität besitzt. Nach Schätzung der Tonfrequenz des Sprachsignals auf einer Gruppe bereitet man das Sprachsignal der Gruppe auf, indem man es mit einer Überabtastfrequenz überabtastet, die ein Vielfaches der geschätzten Tonfrequenz ist.
Diese Anordnung gestattet es, bei der an dem Sprachsignal durchgeführten Verarbeitung die Frequenzen, die der geschätzten Tonfrequenz am nächsten sind, gegenüber den anderen Frequenzen zu privilegieren. Man bewahrt also den harmonischen Charakter des Sprachsignals aufs Beste. Zum Berechnen von spektralen Komponenten des Sprachsignals ordnet man das aufbereitete Signal in Blöcken von N Abtastwerten an, die einer Transformation im Frequenzbereich unterzogen werden, und wählt das Verhältnis zwischen der Überabtastfrequenz und der geschätzten Tonfrequenz als einen Teiler der Zahl N.
Die genannte Technik kann noch verfeinert werden, indem man die Tonfrequenz des Sprachsignals auf einer Gruppe folgendermaßen schätzt:
- man schätzt Zeitintervalle zwischen zwei aufeinander folgenden Unterbrechungen des Signals, die Schließungen der Glottis des Sprechers zuzuschreiben sind und die während der Dauer der Gruppe auftreten, wobei die geschätzte Tonfrequenz zu diesen Zeitintervallen umgekehrt proportional ist;
- man interpoliert da Sprachsignal in diesen Zeitintervallen, damit das sich aus dieser Interpolation ergebende aufbereitete Signal ein konstantes Zeitintervall zwischen zwei aufeinander folgenden Unterbrechungen aufweist.
Bei dieser Vorgehensweise wird künstlich eine Signalgruppe aufgebaut, auf der das Sprachsignal Unterbrechungen in konstanten Intervallen besitzt. Man berücksichtigt auf diese Weise eventuelle Änderungen der Tonfrequenz auf der Dauer einer Gruppe.
Eine zusätzliche Verbesserung besteht darin, dass man nach der Behandlung jeder Gruppe von den von dieser Behandlung gelieferten Abtastwerten des entrauschten Sprachsignals eine Anzahl von Abtastwerten beibehält, die gleich einem ganzzahligen Vielfachen des Verhältnisses zwischen der Abtastfrequenz und der geschätzten Tonfrequenz ist. Dadurch vermeidet man die Verzerrungsprobleme, die durch die Phasendiskontinuitäten zwischen Gruppen verursacht werden, die im Allgemeinen durch die klassischen Techniken der Überlappungssumme (overlap-add) nicht vollständig korrigiert werden.
Die Tatsache, dass das Signal durch die Technik der Überabtastung aufbereitet wurde, gestattet es, eine gute Messung des Grads der Stimmhaftigkeit des Sprachsignals auf der Gruppe ausgehend von einer Berechnung der Entropie der Autokorrelation der Spektralkomponenten zu erhalten, die auf der Basis des aufbereiteten Signals errechnet wurden. Je gestörter das Spektrum ist, das heißt, je stimmhafter es ist, um so geringer sind die Werte der Entropie. Die Aufbereitung des Sprachsignals verstärkt den unregelmäßigen Aspekt des Spektrums und damit die Änderungen der Entropie, so dass diese eine Messung guter Empfindlichkeit bilden.
In der folgenden Beschreibung wird das erfindungsgemäße Aufbereitungsverfahren in einem System zur Entrauschung eines Sprachsignals veranschaulicht. Dieses Verfahren kann natürlich in zahlreichen anderen Arten der digitalen Verarbeitung der Sprache angewandt werden: Codierung, Erkennung, Echobeseitigung ...
Weitere Besonderheiten und Vorteile der Erfindung ergeben sich aus der nachstehenden Beschreibung von nicht begrenzenden Ausführungsbeispielen, wobei auf die beiliegende Zeichnung Bezug genommen wird. In dieser zeigen:
Fig. 1 ein Blockschaltbild eines Entrauschungssystems,
Fig. 2 und 3 Organigramme von Vorgehensweisen, die von einem Vokalaktivitätsdetektor des Systems von Fig. 1 verwendet werden,
Fig. 4 ein Diagramm, das die Zustände eine Vokalaktivitätserfassungs-Automaten darstellt,
Fig. 5 eine Graphik, die die Änderungen eines Vokalaktivitätsgrades darstellt,
Fig. 6 ein Blockschaltbild eines Moduls zur Überschätzung des Rauschens des Systems von Fig. 1,
Fig. 7 eine Graphik, die die Berechnung einer Verdek-kungskurve veranschaulicht,
Fig. 8 eine Graphik, die die Auswertung der Verdeckungskurven in dem System von Fig. 1 veranschaulicht,
Fig. 9 ein Blockschaltbild eines anderen Systems zur Entrauschung unter Anwendung der Erfindung,
Fig. 10 eine Graphik, die eine in einem erfindungsgemäßen Verfahren verwendbare Methode zur harmonischen Analyse veranschaulicht, und
Fig. 11 einen Teil einer Abwandlung des Blockschaltbilds von Fig. 9.
Das in Fig. 1 dargestellte Entrauschungssystem behandelt ein digitales Sprachsignal s. Ein Fensterungsmodul 10 bringt dieses Signal s in die Form von aufeinander folgenden Fenstern oder Gruppen bzw. Abschnitten, die jeweils aus einer Anzahl N von Abtastwerten des digitalen Signals bestehen. Auf klassische Weise können diese Abschnitte gegenseitige Überlappungen aufweisen. In der folgenden Beschreibung wird, ohne dass dies begrenzend ist, der Fall betrachtet, dass die Abschnitte aus N = 256 Abtastwerten bei einer Abtastfrequenz Fe von 8 kHz mit einer Hamming-Gewichtung in jedem Fenster und Überlappungen von 50% zwischen aufeinander folgenden Fenstern bestehen.
Der Signalabschnitt wird im Frequenzgebiet durch ein Modul 11 transformiert, das einen gebräuchlichen Algorithmus zur Fast-Fourier-Transformation (FFT) anwendet, um den Modul des Spektrum des Signals zu berechnen. Das Modul 11 liefert dabei eine Gruppe von N = 256 Frequenzkomponenten des Sprachsignals, die mit Sn,f' bezeichnet werden, worin n die Nummer des laufenden Abschnitts und f eine Frequenz des diskreten Spektrums bezeichnet. Aufgrund der Eigenschaften der digitalen Signale im Frequenzgebiet werden nur die N/2 = 128 ersten Abtastwerte verwendet.
Zur Berechnung der Schätzungen des im Signal s enthaltenen Rauschens verwendet man nicht die am Ausgang der Fast-Fourier-Transformation verfügbare Frequenzauflösung, sondern eine kleinere Auflösung, die durch eine Anzahl I von Frequenzbändern bestimmt wird, die das Band [0,Fe/2] des Signals bedecken. Jedes Band i(1 ≤ i ≤ I) erstreckt sich zwischen einer unteren Frequenz f(i-1) und einer oberen Frequenz f(i) mit f(0) = 0 und f(I) = Fe/2. Diese Zerschneidung in Frequenzbänder kann gleichmäßig sein (f(i)-f(i- 1) = Fe/2I). Sie kann auch nicht gleichmäßig sein (beispielsweise nach einer Bark-Skala). Ein Modul 12 errechnet die jeweiligen Mittelwerte der spektralen Komponenten Sn,f des Sprachsignals in Bändern, und zwar beispielsweise durch eine gleichmäßige Gewichtung der Form:
Diese Mittelung vermindert die Schwankungen zwischen den Bändern, indem die Beiträge des Rauschens in diesen Bändern gemittelt wird, was die Varianz des Rauschschätzers vermindert. Außerdem gestattet diese Mittelung eine starke Verringerung der Komplexität des Systems.
Die gemittelten Spektralkomponenten Sn,i werden an ein Modul 15 zur Vokalaktivitätserfassung und ein Modul 16 zur Schätzung des Rauschens adressiert. Diese beiden Module 15, 16 arbeiten gemeinsam, und zwar in dem Sinn, dass Vokalaktivitätsgrade γn,i, die von dem Modul 15 für die einzelnen Bänder gemessen werden, von dem Modul 16 verwendet werden, um die Langzeitenergie des Rauschens in den einzelnen Bändern zu schätzen, während diese Langzeitschätzungen n,i von dem Modul 15 verwendet werden, um eine a- priori-Entrauschung des Sprachsignals in den einzelnen Bändern vorzunehmen, um die Vokalaktivitätsgrade γn,i zu bestimmen.
Die Arbeitsweise der Module 15 und 16 kann den in den Fig. 2 und 3 dargestellten Organigrammen entsprechen.
In den Schritten 17 bis 20 nimmt das Modul 15 die a- priori-Entrauschung des Sprachsignals in den einzelnen Bändern i für den Signalabschnitt n vor. Diese a-priori- Entrauschung wird gemäß einem gebräuchlichen Verfahren der nichtlinearen Spektralsubtraktion aus Schätzungen des Rauschens vorgenommen, die bei einem oder mehreren vorhergehenden Abschnitten erhalten wurden. Im Schritt 17 berechnet das Modul 15 mit der Auflösung der Bänder i die Frequenzreaktion Hpn,i des a-priori-Entrauschungsfilters gemäß der Formel.
in der τ1 und τ2 in Anzahl von Abschnitten ausgedrückte Verzögerungen sind (τ1 ≥ 1, τ2 ≥ 0), und α'n,i ein Überschätzungskoeffizient des Rauschens ist, dessen Bestimmung im Nachstehenden erläutert wird. Die Verzögerung τ1 kann feststehend (beispielsweise τ1 = 1) oder variabel sein. Sie ist um so kleiner, je vertrauender man in der Vokalaktivitätserfassung ist.
In den Schritten 18 bis 20 werden die spektralen Komponenten pn,i folgendermaßen berechnet:
pn,i = max{Hpn,i·Sn,i, βpi· n-τ1,i} (3)
worin βpi ein Bodenkoeffizient nahe 0 ist, der in herkömmlicher Weise dazu dient, zu vermeiden, dass das Spektrum des entrauschten Signals negative oder zu kleine Werte annimmt, die ein musikalisches Rauschen verursachen würden.
Die Schritte 17 bis 20 bestehen also im Wesentlichen darin, dass von dem Spektrum des Signals eine um den Koeffizient α n-τ1,i erhöhte Schätzung des Spektrums des a- priori-geschätzten Rauschens abgezogen wird.
Im Schritt 21 rechnet das Modul 15 die Energie des a- priori-entrauschten Signals in den einzelnen Bändern i für den Abschnitt n: En,i = p²n,i. Es berechnet auch einen globalen Mittelwert En,0, der Energie des a-priori- entrauschten Signals mit einer Summe der Energien pro Band En,1, die durch die Breiten dieser Bänder gewichtet ist. In den nachstehenden Ausdrücken wird der Index i = 0 verwendet, um das Gesamtband des Signals zu bezeichnen.
In den Schritten 22 und 23 berechnet das Modul 15 für jedes Band i(0 ≤ i ≤ I) eine Größe ΔEn,i, die die kurzfristige Änderung der Energie des entrauschten Signals im Band i darstellt, sowie einen Langzeitwert n,i der Energie des entrauschten Signals im Band i. Die Größe ΔEn,1 kann durch eine vereinfachte Ableitungsformel berechnet werden:
Was die Langzeitenergie n,i anlangt, so kann diese mit Hilfe eines solchen Vergessensfaktors B1, das 0 < B1 < 1, berechnet werden, und zwar n,i = B1· n-1,i + (1 - B1)·En,i.
Nach Berechnung der Energien En,i des entrauschten Signals seiner Kurzzeitänderungen ΔEn,i und seiner Langzeitwerte n,i auf die in Fig. 2 angegebene Weise berechnet das Modul 15 für jedes Band i (0 ≤ i ≤ I) einen Wert ρi, der die Änderung der Energie des entrauschten Signals darstellt. Diese Berechnung wird in den Schritten 25 bis 36 der Fig. 3 durchgeführt, die für jedes Band i zwischen i = 0 und i = I ausgeführt werden. Diese Berechnung benutzt einen Langzeitschätzer der Umhüllenden des Rauschens bai, einen internen Schätzer bii und einen Zähler der verrauschten Abschnitte bi.
Im Schritt 25 wird die Größe ΔEn,i mit einer Schwelle &epsi;1 verglichen. Wenn die Schwelle &epsi;1 nicht erreicht ist, wird der Zähler bi im Schritt 26 um eine Einheit inkrementiert. Im Schritt 27 wird der langfristige Schätzer bai mit dem Wert der geglätteten Energie n,i verglichen. Wenn bai ≥ n,i ist, wird der Schätzer bai im Schritt 28 gleich dem geglätteten Wert n,i genommen, und der Zähler bi wird auf Null zurückgesetzt. Die Größe ρi, die gleich dem Verhältnis bai/ n,i genommen wird (Schritt 36) ist nun gleich 1.
Wenn der Schritt 27 zeigt, dass bai < n,i, wird der Zähler bi im Schritt 29 mit einem Grenzwert bmax verglichen. Wenn bi > bmax, wird das Signal als zu stationär betrachtet, um Vokalaktivität zu tragen. Der vorhergehende Schritt 28, der darauf hinausläuft, zu betrachten, ob der Abschnitt nur Rauschen enthält, wird nun ausgeführt. Wenn im Schritt 29 bi ≤ bmax, wird der interne Schätzer bii im Schritt 33 folgendermaßen berechnet:
bii = (1 - Bm)· n,i + Bm·bai (4)
In dieser Formel stellt Bm einen Aktualisierungskoeffizienten zwischen 0,90 und 1 dar. Sein Wert unterscheidet sich nach dem Zustand eines Vokalaktivitätserfassungsautomaten (Schritte 30 bis 32). Dieser Zustand δn-1 ist derjenige, der bei der Behandlung des vorhergehenden Abschnitts bestimmt wurde. Wenn der Automat in einem Spracherfassungszustand ist (δn-1 = 2 im Schritt 30), nimmt der Koeffizient Bm einen Wert Bmp von sehr nahe 1 an, damit der Schätzer des Rauschens in Gegenwart von Sprache sehr schwach fortgeschrieben wird. Im entgegengesetzten Fall nimmt der Koeffizient Bm einen niedrigeren Wert Bms an, um eine signifikantere Fortschreibung des Rauschschätzers in Schweigephase zu gestatten. Im Schritt 34 wird der Abstand bai-bii zwischen dem Langzeitschätzer und dem internen Schätzer des Rauschens mit einer Schwelle &epsi;2 verglichen. Wenn die Schwelle &epsi;2 nicht erreicht ist, wird der Lanagzeitschätzer bai mit dem Wert des internen Schätzers bii im Schritt 35 fortgeschrieben. Andernfalls bleibt der Langzeitschätzer bai unverändert. Man vermeidet auf diese Weise, dass plötzliche Änderungen infolge eines Sprachsignals zu einer Fortschreibung des Rauschschätzers führen.
Nach Erhalt der Größen ρi nimmt das Modul 15 die Vokalaktivitätsentscheidungen im Schritt 37 vor. Das Modul 15 schreibt nun zunächst den Zustand des Erfassungsautomaten entsprechend der für das gesamte Band des Signals errechneten Größe ρ&sub0; fort. Der neue Zustand δn des Automaten hängt vom vorhergehenden Zustand δn-1 und von ρ&sub0; ab, und zwar auf die in Fig. 4 dargestellte Weise.
Es sind vier Zustände möglich: δ = 0 erfasst das Schweigen oder Fehlen von Sprache; δ = 2 erfasst das Vorhandensein einer Vokalaktivität; und die Zustände δ = 1 und δ = 3 sind Zwischenzustände des Ansteigens oder Abfallens. Wenn der Automat im Schweigezustand ist (δn-1 = 0), bleibt er darin, wenn ρ&sub0; nicht eine erste Schwelle SE1 überschreitet, und geht im entgegengesetzten Fall in den Anstiegszustand über. Im Anstiegszustand (δn-1 = 1) kehrt er in den Schweigezustand zurück, wenn ρ&sub0; kleiner als die Schwelle SE1 ist, geht in den Sprachzustand über, wenn ρ&sub0; größer als eine zweite Schwelle SE2 ist, die größer als die Schwelle SE1 ist, und bleibt im Anstiegszustand, wenn SE1 ≤ ρ&sub0; ≤ SE2. Wenn der Automat im Sprachzustand ist (δn-1 = 2), bleibt er darin, wenn ρ&sub0; eine dritte Schwelle SE3 überschreitet, die niedriger als die Schwelle SE2 ist, und geht im entgegengesetzten Fall in den Abstiegszustand über. In dem Abstiegszustand (δn-1 = 3) kehrt der Automat in den Sprachzustand zurück, wenn ρ&sub0; höher als die Schwelle SE2 ist, kehrt in den Schweigezustand zurück, wenn ρ&sub0; jenseits einer vierten Schwelle SE4 liegt, die niedriger als die Schwelle SE2 ist und bleibt im Abstiegszustand, wenn SE4 ≤ ρ&sub0; ≤ SE2.
Im Schritt 37 berechnet das Modul 15 ferner die Vokalaktivitätsgrade γn,i in jedem Band i ≥ 1. Dieser Grad γn,i ist vorzugsweise ein nicht binärer Parameter, das heißt die Funktion γn,i = g(ρi) ist eine Funktion, die sich kontinuierlich zwischen 0 und 1 in Abhängigkeit von den von der Größe ρi angenommenen Werten ändert. Diese Funktion hat beispielsweise den in Fig. 5 dargestellten Verlauf.
Das Modul 16 berechnet die Schätzungen des Rauschens pro Band, die in dem Entrauschungsprozess verwendet werden, indem die aufeinander folgenden Werte der Komponenten Sn,i und die Vokalaktivitätsgrade γn,i verwendet werden. Dies entspricht den Schritten 40 bis 42 von Fig. 3. Im Schritt 40 bestimmt man, ob der Vokalaktivitätserfassungsautomat vom Anstiegszustand in den Sprachzustand übergegangen ist. Wenn ja, werden die beiden zuvor für jedes Band i ≥ 1 berechneten Schätzungen n-1,i und n-2,i entsprechend dem Wert der vorhergehenden Schätzung n-3,i korrigiert. Diese Korrektur wird durchgeführt, um die Tatsache zu berücksichtigen, dass die Langzeitschätzungen der Energie des Rauschens in den Vokalaktivitätserfassungsprozess (Schritte 30 bis 33) in der Anstiegsphase (δ = 1) berechnet worden sein konnten, als enthielte das Signal nur Rauschen (Bm=Bms), so dass sie Gefahr laufen, fehlerbehaftet zu sein.
Im Schritt 42 schreibt das Modul 16 die Schätzungen des Rauschens pro Band gemäß den folgenden Formeln fort:
n,i = λB· n-1,i + (1 - λB)·Sn,i (5)
in der λB einen solchen Vergessensfaktor bezeichnet, dass 0 < λB < 1. Die Formel (6) bringt die Berücksichtigung des nicht binären Vokalaktivitätsgrads γn,i zum Ausdruck.
Wie oben erwähnt wurde, sind die Langzeitschätzungen des Rauschens n,i Gegenstand einer Überschätzung durch ein Modul 45 (Fig. 1), bevor die Entrauschung durch nichtlineare Spektralsubtraktion vorgenommen wird. Das Modul 45 berechnet den zuvor erwähnten Überschätzungskoeffizient α'n,i sowie eine vermehrte Schätzung n,i, die im Wesentlichen α'n,i· n,i entspricht.
Der Aufbau des Überschätzungsmoduls 45 ist in Fig. 6 dargestellt. Die vermehrte Schätzung 'n,i wird erhalten, indem man die Langzeitschätzung n,i und eine Messung ΔB der Variabilität der Komponente des Rauschens im Band 1 um ihre Langzeitschäatzung herum kombiniert. Im betrachteten Beispiel ist diese Kombination im Wesentlichen eine einfache Summe, die durch einen Addierer 46 durchgeführt wird. Dies könnte auch eine gewichtete Summe sein.
Der Überschätzungskoeffizient α'n,i ist gleich dem Verhältnis zwischen der Summe n,i + ΔB , die von dem Addierer 46 geliefert wird, und der verzögerten Langzeitschaätzung n-τ3,i (Teiler 47) plafonniert auf einen Grenzwert αmax, beispielsweise αmax = 4 (Block 48). Die Verzögerung τ3 dient dazu, gegebenenfalls in den Anstiegsphasen (δ = 1) den Wert des Überschätzungskoeffizienten α'n,i zu korrigieren, bevor die Langzeitschätzungen durch die Schritte 40 und 41 von Fig. 3 korrigiert wurden (beispielsweise τ3 = 3).
Die vermehrte Schätzung 'n,i wird schließlich gleich α'n,i· n-τ3,i genommen (Multiplizierer 49).
Die Messung ΔB der Variabilität des Rauschens gibt die Varianz des Rauschschätzers wieder. Sie wird in Abhängigkeit von den Werten von Sn,i und von n,i erhalten, die bei einer gewissen Anzahl von vorhergehenden Abschnitten errechnet wurden, auf denen das Sprachsignal keine Vokalaktivität im Band i besitzt. Dies ist eine Funktion der Differenzen Sn-k,i - n-k,i , die bei einer Anzahl K von Schweigeabschnitten (n - k ≤ n) errechnet wurden. Bei dem dargestellten Beispiel ist diese Funktion einfach das Maximum (Block 50). Bei jedem Abschnitt n wird der Vokalaktivitätsgrad γn,i mit einer Schwelle verglichen (Block 51), um zu entscheiden, ob die Differenz Sn,i - n-i , die in 52-53 errechnet wird, in eine Warteschlange 54 mit K Stellen geladen werden muss oder nicht, die nach dem Prinzip first-in first-out arbeitet (FIFO). Wenn γn,i die Schwelle (die gleich 0 sein kann, wenn die Funktion g() die Form von Fig. 5 hat) nicht überschreitet, wird die FIFO-Warteschlange 54 nicht gespeist, während sie im entgegengesetzten Fall gespeist wird. Der in der FIFO- Warteschlange 54 enthaltene Höchstwert wird dabei als Variabilitätsmessung ΔB geliefert.
Die Variabilitätsmessung ΔB kann gemäß einer Abwandlung als Funktion der Werte Sn,f (und nicht Sn,i) und n,i erhalten werden. Man geht dabei auf dieselbe Weise vor, wobei jedoch die FIFO-Warteschlange 54 nicht Sn-k,i - n-k,i bei jedem der Bänder i enthält, sondern vielmehr
f [f ,f(i)[ Sn-k,f - n-k,i .
Dank der unabhängigen Schätzungen der Langzeitfluktuationen des Rauschens n,i und seiner Kurzzeitvaritvariabilität ΔB , liefert der vermehrte Schätzer 'n,i eine hervorragende Robustheit gegenüber musikalischem Rauschen des Entrauschungsverfahrens.
Eine erste Phase der spektralen Subtraktion wird mit dem in Fig. 1 dargestellten Modul 55 ausgeführt. Diese Phase liefert mit der Auflösung der Bänder i (1 ≤ i ≤ I) die Frequenzantwort H eines ersten Entrauschungsfilters in Abhängigkeit von den Komponenten Sn,i und n,i und den Überschätzungskoeffizienten α'n,i. Diese Rechnung kann bei jedem Band i gemäß der folgenden Formel durchgeführt werden:
in der τ4 eine ganzzahlige Verzögerung ist, die so bestimmt ist, dass τ4 ≥ 0 (beispielsweise τ4 = 0). Im Ausdruck (7) stellt der Koeffizient β wie der Koeffizient βpi der Formel (3) einen Boden dar, der in herkömmlicher Weise dazu dient, die negativen oder zu kleinen Werte des entrauschten Signals zu vermeiden.
Auf bekannte Weise (EP-A-0 534 837) könnte der Überschätzungskoeffizient α'n,i in der Formel (7) durch einen anderen Koeffizienten ersetzt werden, der gleich einer Funktion von α'n,i und einer Schätzung des Verhältnisses Signal zu Rauschen (beispielsweise Sn,i/ n,i) ist, wobei diese Funktion entsprechend dem geschätzten Wert des Verhältnisses Signal zu Rauschen abnehmend ist. Diese Funktion ist dabei gleich α'n,i bei den kleinsten Werten des Verhältnisses Signal zu Rauschen. Wenn nämlich das Signal sehr rauschgestört ist, so ist es nicht von vornherein zweckmäßig, den Überschätzungsfaktor zu verringern. Vorteilhafterweise nimmt diese Funktion bei den höchsten Werten des Verhältnisses Signal/Rauschen auf Null zu ab. Dies gestattet es, die energetischsten Zonen des Spektrums zu schützen, in denen das Sprachsignal am signifikantesten ist, wobei die vom Signal abgezogene Menge dabei nach Null strebt.
Diese Strategie kann verfeinert werden, indem man sie selektiv auf die Harmonischen der Tonfrequenz ("pitch") des Sprachsignals anwendet, wenn dieses eine Vokalaktivität besitzt.
So wird bei der in Fig. 1 dargestellten Ausführungsform eine zweite Entrauschungsphase durch ein Modul 56 zum Schutz der Harmonischen durchgeführt. Dieses Modul berechnet mit der Auflösung der Fouriertransformation die Frequenzantwort H eines zweiten Entrauschungsfilters in Abhängigkeit von den Parametern H , α'n,i, n,i, δn, Sn,i und der Tonfrequenz fp = Fe/Tp, die außerhalb der Schweigephasen durch ein Modul zur harmonischen Analyse 57 berechnet wurde. In Schweigephase (δn = 0) ist das Modul 56 nicht in Betrieb, das heißt es gilt H = H für jede Frequenz f eines Bandes i. Das Modul 57 kann jede bekannte Methode der Analyse des Sprachsignals des Abschnitts anwenden, um die Periode Tp, ausgedrückt als eine ganze Zahl oder eine Bruchzahl von Abtastwerten, zu bestimmen, beispielsweise eine Methode der linearen Prädiktion.
Der durch das Modul 56 vorgenommene Schutz kann darin bestehen, dass für jede Frequenz f, die zu einem Band i gehört, folgendes ausgeführt wird:
Δf = Fe/N stellt die spektrale Auflösung der Fouriertransformation dar. Wenn H = 1, ist die von der Komponente Sn,f abgezogene Menge gleich Null. Bei dieser Rechnung drücken die Bodenkoeffizienten β (beispielsweise β = β ) die Tatsache aus, dass gewisse Harmonische der Tonfrequenz fp durch das Rauschen verdeckt sein können, so dass es nicht zweckmäßig ist, sie zu schützen.
Diese Schutzstrategie wird vorzugsweise bei jeder der Frequenzen angewendet, die den Harmonischen von fp am nächsten sind, das heißt für ein beliebiges ganzzahliges η.
Wenn man mit δfp die Frequenzauflösung bezeichnet, mit der das Analysemodul 57 die geschätzte Tonfrequenz fp erzeugt, das heißt, dass die tatsächliche Tonfrequenz zwischen fp - δfp/2 und fp + δfp/2 liegt, so kann der Abstand zwischen der η-ten Harmonischen der tatsächlichen Tonfrequenz und ihrer Schätzung ηxfp (Bedingung (9)) bis zu ±ηxδfp/2 gehen. Bei den hohen Werten von η kann dieser Abstand größer als die halbe spektrale Auflösung Δf/2 der Fouriertransformation sein. Um diese Ungewissheit zu berücksichtigen und einen guten Schutz der Harmonischen der tatsächlichen Tonfrequenz zu garantieren, kann man jede der Frequenzen des Intervalls [ηxfp - ηxδfp/2, ηxfp + ηxδfp/2] schützen, das heißt die oben erwähnte Bedingung (9) durch die folgende Bedingung ersetzen:
h ganzzahlig/ f - h·fp £ (h·dfp + Df)/2 (9')
Diese Vorgehensweise (Bedingung (9')) ist von einem besonderen Interesse, wenn die Werte von η groß sein können, und zwar insbesondere in dem Fall, in dem das Verfahren in einem System mit verbreitertem Band verwendet wird.
Bei jeder geschützten Frequenz kann die korrigierte Frequenzantwort H , wie oben erwähnt wurde, gleich 1 sein, was der Subtraktion einer Menge Null im Rahmen der spektralen Subtraktion entspricht, das heißt einem vollständigen Schutz der betreffenden Frequenz. Allgemeiner kann diese korrigiere Frequenzantwort H gleich einem Wert genommen werden, der je nach dem gewünschten Schutzgrad zwischen 1 und H liegt, was der Subtraktion einer Menge entspricht, die kleiner als die ist, die subtrahiert würde, wenn die betreffende Frequenz nicht geschützt wäre.
Die spektralen Komponenten S eines entrauschten Signals werden durch einen Multiplizierer 58 errechnet:
S = H ·Sn,f (10)
Dieses Signal S wird einem Modul 60 geliefert, das für jeden Abschnitt n eine Verdeckungskurve errechnet, indem ein psychoakustisches Modell der auditiven Wahrnehmung durch das menschliche Ohr angewendet wird.
Die Verdeckungserscheinung ist ein bekanntes Prinzip der Arbeitsweise des menschlichen Ohrs. Wenn zwei Frequenzen gleichzeitig gehört werden, ist es möglich, dass die eine der beiden nicht mehr hörbar ist. Man sagt nun, dass sie verdeckt ist.
Es gibt verschiedene Methoden zum Berechnen der Maskierungskurven. Beispielsweise kann man die von J.D. Johnston entwik-kelte Methode verwenden ("Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Journal of Selected Area in Communications, Band 6, Nr. 2, Februar 1988). Bei dieser Methode arbeitet man in der Frequenzskala der Barks. Die Verdeckungskurve wird als die Faltung der Spektralausbreitungsfunktion der Basilarmembran im Barkbereich mit dem Erregersignal gesehen, das bei der vorliegenden Anwendung aus dem Signal S besteht. Die Spektralausbreitungsfunktion kann auf die in Fig. 7 dargestellte Weise modellisiert werden. Für jedes Barkband berechnet man die Beteiligung der durch die Ausbreitungsfunktion der Basilarmembran gefalteten unteren und oberen Bänder:
in der die Indizes q und q' die Barkbänder (0 ≤ q,q' ≤ Q) bezeichnen und S den Mittelwert der Komponenten S des entrauschten Erregersignals bei den zum Barkband q' gehörenden diskreten Frequenzen f darstellt.
Die Verdeckungsschwelle Mn,q wird durch das Modul 60 für jedes Barkband q nach der Formel:
Mn,q = Cn,q/Rq (12)
erhalten, in der Rq von dem mehr oder weniger stimmhaften Charakter des Signals abhängt. Auf bekannte Weise ist eine mögliche Form von Rq:
10·log&sub1;&sub0;(Rq) = (A + q)·χ + B·(1 - χ) (13)
worin A gleich 14,5 und B = 5,5 ist. χ bezeichnet einen Stimmhaftigkeitsgrad des Sprachsignals, das zwischen 0 (keine Stimmhaftigkeit) und 1 (stark stimmhaftes Signal) variiert. Der Parameter χ kann von der bekannten Form sein:
χ = min{SFM/SFMmax, 1} (12)
worin SFM, in Dezibel, das Verhältnis zwischen dem arithmetischen Mittel und dem geometrischen Mittel der Energie der Barkbänder darstellt und SFMmax = -60 dB ist.
Das Entrauschungssystem umfasst noch ein Modul 62, das die Frequenzantwort des Entrauschungsfilters in Abhängigkeit von der von dem Modul 60 errechneten Verdeckungskurve Mn,q und den von dem Modul 45 berechneten vermehrten Schätzungen 'n,i korrigiert. Das Modul 62 entscheidet über den Entrauschungspegel, der tatsächlich erreicht werden muss.
Indem man die Umhüllende der vermehrten Schätzung des Rauschens mit der von den Verdeckungsschwellen Mn,q gebildeten Umhüllenden vergleicht, beschließt man, das Signal nur in dem Maße zu entrauschen, indem die vermehrte Schätzung 'n,i die Verdeckungskurve überschreitet. Dadurch vermeidet man, dass durch die Sprache verdecktes Rauschen unnötig unterdrückt wird.
Die neue Antwort H bei einer Frequenz f, die zu dem durch das Modul 12 definierten Band i und zu dem Barkband q gehört, hängt auf diese Weise vom relativen Abstand zwischen der vermehrten Schätzung 'n,i der entsprechenden spektralen Komponente des Rauschens und der Verdeckungskurve Mn,q auf die folgende Weise ab:
Mit anderen Worten, die subtrahierte Menge einer Spektralkomponente Sn,f in dem Prozess der Spektralsubtraktion mit der Frequenzantwort H ist im Wesentlichen gleich dem Minimum zwischen einerseits der subtrahierten Menge dieser Spektralkomponente in dem Prozess der Spektralsubtraktion mit der Frequenzantwort H und andererseits dem Anteil der vermehrten Schätzung 'n,i der entsprechenden Spektralkomponente des Rauschens, der gegebenenfalls die Verdeckungskurve Mn,q überschreitet.
Fig. 8 veranschaulicht das Prinzip der von dem Modul 62 angelegten Korrektur. Sie zeigt schematisch ein Beispiel einer Verdeckungskurve Mn,q, die auf der Basis der Spektralkomponente S des entrauschten Signals errechnet wurde, sowie die vermehrte Schätzung 'n,i eines Spektrums des Rauschens. Die schließlich von den Komponenten Sn,f abgezogene Menge ist die mit den schraffierten Zonen dargestellte Menge, das heißt ist auf den Anteil der vermehrten Schätzung 'n,i der Spektralkomponenten de Rauschens beschränkt, der die Verdeckungskurve überschreitet. Diese Subtraktion wird durchgeführt, indem man die Frequenzantwort H des Entrauschungsfilters mit den Spektralkomponenten Sn,f des Sprachsignals multipliziert (Multiplizierer 64). Ein Modul 65 rekonstruiert nun das entrauschte Signal auf dem zeitlichen Gebiet, indem es die inverse Fast-Fourier-Transformation (IFFT) der von dem Multiplizierer 64 gelieferten Frequenzabtastwerte S vornimmt. Für jeden Abschnitt werden nur die N/2 = 128 ersten Abtastwerte des vom Modul 65 erzeugten Signals als entrauschtes Endsignal s³ nach Rekonstruktion durch Additions-Überlappung mit den N/2 = 128 letzten Abtastwerten des vorhergehenden Abschnitts (Modul 66) abgegeben.
Fig. 9 zeigt eine bevorzugte Ausführungsform eine Entrauschungssystems unter Verwendung der Erfindung. Dieses System besitzt eine gewisse Anzahl von Elementen, die den entsprechenden Elementen des Systems von Fig. 1 ähnlich sind und für die dieselben Bezugszahlen verwendet wurden. 5o liefern die Module 10, 11, 12, 15, 16, 45 und 55 insbesondere die Mengen Sn,i, n,i, α'n,i, 'n,i und H zur Durchführung des selektiven Entrauschens.
Die Frequenzauflösung der Fast-Fourier-Transformation 11 ist eine Beschränkung des Systems von Fig. 1. Die Frequenz, die Gegenstand des Schutzes durch das Modul 56 ist, ist nämlich nicht notwendigerweise die genaue Tonfrequenz fp, sondern die Frequenz, die dieser im diskreten Spektrum am nächsten ist. In manchen Fällen kann man nun Harmonische schützen, die relativ entfernt von der der Tonfrequenz sind. Das System von Fig. 9 beseitigt diesen Nachteil dank einer geeigneten Aufbereitung des Sprachsignals.
Bei dieser Aufbereitung ändert man die Abtastfrequenz des Signals so, dass die Periode 1/fp genau eine ganze Zahl von Abtastwertzeiten des aufbereiteten Signals bedeckt.
Zahlreiche Methoden der harmonischen Analyse, die von dem Modul 57 eingesetzt werden können, sind in der Lage, einen Bruchwert der Verzögerung Tp, ausgedrückt in Anzahl von Abtastwerten mit der Anfangsabtastfrequenz Fe zu liefern. Man wählt nun eine neue Abtastfrequenz fe so, dass sie gleich einem ganzzahligen Vielfachen der geschätzten Tonfrequenz ist, und zwar fe = p·fp = p·Fe/Tp = K·Fe, wobei p eine ganze Zahl ist. Um keine Abtastwerte des Signals zu verlieren, muss fe größer als Fe sein. Man kann insbesondere festlegen, dass sie zwischen Fe und 2Fe liegt (1 ≤ K ≤ 2), um die Durchführung der Aufbereitung zu erleichtern.
Wenn auf dem laufenden Abschnitt keine Vokalaktivität erfasst wird (δn, = 0) oder wenn die durch das Modul 57 geschätzte Verzögerung Tp ganzzahlig ist, ist es nicht erforderlich, das Signal aufzubereiten.
Damit auch jede der Harmonischen der Tonfrequenz einer ganzen Zahl von Abtastwerten des aufbereiteten Signals entspricht, muss die ganze Zahl p ein Teiler der Größe N des vom Modul 10 erzeugten Signalfensters sein: N = αp, wobei α eine ganze Zahl ist. Diese Größe N ist gewöhnlich für die Durchführung der FFT eine Potenz von 2. Im vorliegenden Beispiel ist sie 256.
Die Spektralauflösung Δf der diskreten Fourier- Transformation des aufbereiteten Signals ist gegeben durch Δf = p·fp/N = fp/α Es ist also zweckmäßig, p klein zu wählen, um α zu maximieren, jedoch groß genug, um überabzutasten. Im vorliegenden Beispiel, indem Fe = 8 kHz und N = 256, sind die für die Parameter p und α gewählten Werte in der Tabelle I angegeben. Tabelle I
Diese Wahl wird von einem Modul 70 gemäß dem von dem Modul 57 zur harmonischen Analyse gelieferten Wert der Verzögerung Tp durchgeführt. Das Modul 70 liefert das Verhältnis K zwischen den Abtastfrequenzen drei Frequenzwechselmodulen 71, 72, 73.
Das Modul 71 dient zur Umwandlung der Werte Sn,i, n,i, α'n,i, 'n,i und H , die sich auf die von dem Modul 12 definierten Bänder beziehen, im Maßstab der geänderten Frequenzen (Abtastfrequenz fe). Diese Umwandlung besteht einfach darin, dass die Bänder i im Faktor K ausgedehnt werden. Die auf diese Weise umgewandelten Werte werden dem Modul 56 zum Schutz der Harmonischen geliefert.
Dieses arbeitet nun auf dieselbe Weise wie oben, um die Frequenzantwort H des Entrauschungsfilters zu liefern.
Diese Antwort H wird auf dieselbe Weise wie in Fig. 1 erhalten (Bedingungen (8) und (9)), nur mit dem Unterschied, dass in der Bedingung (9) die Tonfrequenz fp = fe/p gemäß dem Wert der vom Modul 70 gelieferten ganzzahligen Verzögerung p definiert ist, wobei die Frequenzauflösung Δf ebenfalls von diesem Modul 70 geliefert wird.
Das Modul 72 nimmt die Überabtastung des vom Fensterungsmodul 10 gelieferten Abschnitts von N Abtastwerten vor. Die Überabtastung in einem rationalen Faktor K (K = K1/K2) besteht darin, dass zunächst eine Überabtastung im ganzzahligen Faktor K1 und dann eine Unterabtastung im ganzzahligen Faktor K2 vorgenommen wird. Diese Überabtastung und Unterabtastung in ganzzahligen Faktoren können klassischerweise mit Hilfe von mehrphasigen Filterbänken durchgeführt werden.
Der von dem Modul 72 gelieferte aufbereitete Signalabschnitt s' umfasst KN Abtastwerte mit der Frequenz fe. Diese Abtastwerte werden an ein Modul 75 adressiert, das ihre Fourier-Transformation errechnet. Die Transformation kann aus zwei Blöcken von N = 256 Abtastwerten vorgenommen werden, von denen der eine aus den N ersten Abtastwerten des Abschnitts von der Länge KN des aufbereiteten Signals s' und der andere aus den N letzten Abtastwerten dieses Abschnitts besteht. Die beiden Blöcke besitzen also eine Überlappung von (2-K) · 100%. Bei jedem der beiden Blöcke erhält man einen Satz von Fourierkomponenten Sn,f. Diese Komponenten Sn,f werden dem Multiplizierer 58 geliefert, der sie mit der Spektralantwort H multipliziert, um die Spektralkomponenten S des ersten entrauschten Signals zu liefern.
Diese Komponenten S werden an das Modul 60 adressiert, das die Verdeckungskurven auf die oben angegebene Weise errechnet.
Bei dieser Berechnung der Verdeckungskurven wird die Größe χ, die den Stimmhaftigkeitsgrad des Sprachsignals bezeichnet (Formel (13)), vorzugsweise von der Form χ = 1-H genommen, worin H eine Entropie der Autokorrelation der Spektralkomponenten S des entrauschten aufbereiteten Signals ist. Die Autokorrelationen A(k) werden durch ein Modul 76 beispielsweise gemäß der folgenden Formel berechnet:
Ein Modul 77 errechnet dann die standardisierte Entropie H und liefert diese dem Modul 60 für die Berechnung der Verdek-kungskurve (vgl. S.A. McClellan und Mitarbeiter: "Spectral Entropy: an Alternative Indicator for Rate Allocation", Proc. ICASSP'94, Seiten 202 = 204):
Dank der Aufbereitung des Signals sowie seiner Entrauschung durch den Filter H bildet die standardisiert Entropie H eine Stimmhaftigkeitsmessung, die gegenüber Rauschen und gegenüber den Änderungen der Tonfrequenz sehr robust ist.
Das Korrekturmodul 62 arbeitet auf dieselbe Weise wie das des Systems von Fig. 1, indem das überschätzte Rauschen n,i, das durch das Frequenzwechselmodul 71 in den Maßstab zurückgebracht wurde, berücksichtigt wird. Es liefert die Frequenzantwort H des Filters zur endgültigen Entrauschung, die durch den Multiplizierer 64 mit den Spektralkomponenten Sn,f des aufbereiteten Signals multipliziert wird. Die Komponenten S , die sich daraus ergeben, werden durch das IFFT-Modul 65 in den zeitlichen Bereich zurückgebracht. Am Ausgang dieses IFFT-Moduls 65 kombiniert ein Modul 80 bei jedem Abschnitt die beiden Signalblöcke, die aus der Behandlung der beiden von dem FFT-Modul 75 gelieferten sich überlappenden Blöcken hervorgehen. Diese Kombination kann aus einer Summe der Abtastwerte mit Hamming-Gewichtung bestehen, um einen aufbereiteten entrauschten Signalabschnitt von KN Abtastwerten zu bilden.
Das vom Modul 80 gelieferte entrauschte aufbereitete Signal ist Gegenstand einer Änderung der Abtastfrequenz durch das Modul 73. Seine Abtastfrequenz wird durch die Operationen, die zu den vom Modul 75 ausgeführten Operationen umgekehrt sind, auf Fe = fe/K zurückgebracht. Das Modul 73 liefert N = 256 Abtastwerte pro Abschnitt. Nach der Rekonstruktion durch Addition-Überlappung mit den N/2 = 128 letzten Abtastwerten des vorhergehenden Abschnitts werden schließlich nur die N/2 = 128 ersten Abtastwerte des laufenden Abschnitts behalten, um das endgültige entrauschte Signal s³ zu liefern (Modul 66).
Bei einer bevorzugten Ausführungsform verwaltet ein Modul 82 die vom Modul 10 gebildeten und vom Modul 66 gesicherten Fenster so, dass man eine Anzahl M von Abtastwerten gleich einem ganzzahligen Vielfachen von Tp = Fe/fp sichert. Man vermeidet auf diese Weise die Probleme der Phasendiskontinuität zwischen den Abschnitten. Auf entsprechende Weise steuert das Verwaltungsmodul 82 das Fensterungsmodul 10 so, dass die Überlappung zwischen dem Laufenden Abschnitt und dem nächsten Abschnitt N-M entspricht. Dieser Überlappung von N-M Abtastwerten wird in der von dem Modul 66 bei der Behandlung des nächsten Abschnitts durchgeführten Überlappungssumme Rechnung getragen. Aus den von dem Modul 57 zur harmonischen Analyse gelieferten Wert von Tp errechnet das Modul 82 die Anzahl von zu sichernden Abtastwerten M = Tp · E[N/(2Tp)], worin E[] den ganzzahligen Teil bezeichnet, und steuert entsprechend die Module 10 und 66.
Bei der oben beschriebenen Ausführungsform wird die Tonfrequenz auf dem Abschnitt gemittelt geschätzt. Nun kann sich die Tonfrequenz auf dieser Dauer ein wenig ändern. Diesen Änderungen kann im Rahmen der Erfindung Rechnung getragen werden, indem das Signal so aufbereitet wird, dass man künstlich eine in dem Abschnitt konstante Tonfrequenz enthält.
Zu diesem Zweck ist es erforderlich, dass das Modul 57 zur harmonischen Analyse die Zeitintervalle zwischen den aufeinander folgenden Unterbrechungen des Sprachsignals liefert, die den Verschlüssen der Glottis des Sprechers zuzuschreiben sind, die während der Dauer des Abschnitts auftreten. Methoden, die zum Erfassen solcher Mikrounterbrechungen verwendbar sind, sind im Bereich der harmonischen Analyse von Sprachsignalen bekannt. Man kann zu diesem Zweck die folgenden Artikel heranziehen: M. BASSEVILLE und Mitarbeiter, "Sequential detection of abrupt changes in spectral characteristics of digital signals", IEEE Trans. on Information Theory, 1983, Band IT-29, Nr. 5, Seiten 708-723; R. ANDRE-OBRECHT, "A new statistical approach fort he automatic segmentation of continuous speech signals", IEEE Trans. on Acous., Speech and Sig. Proc., Band 36, Nr. 1, Januar 1988; und C. MURGIA und Mitarbeiter, "An algorithm fort he estimation of glottal closure instants using the sequential detection of abrupt changes in speech signals", Signal Processing VII, 1994, Seiten 1685-1688.
Das Prinzip dieser Methoden besteht darin, dass ein statistischer Test zwischen zwei Modellen, und zwar einem Kurzzeitmodell und einem Langzeitmodell, vorgenommen wird. Die beiden Modelle sind adaptive Modelle der linearen Prädiktion. Der Wert dieses statistischen Tests wm ist die kumulierte Summe des a-posteriori- Wahrscheinlichkeits-Verhältnisses von zwei Verteilungen, korrigiert durch die Kullback-Divergenz. Bei einer Verteilung von Resten mit einer Gaußschen Statistik wird dieser Wert wm gegeben durch:
worin e und σ den errechneten Rest zum Zeitpunkt des Abtastwerts m des Abschnitts und die Varianz des Langzeitmodells darstellen, wobei e und σ ebenso den Rest und die Varianz des Kurzzeitmodells darstellen. Je näher die beiden Modelle sich sind, um so näher ist der Wert wm des statistischen Tests bei 0. Wenn dagegen die beiden Modelle voneinander entfernt sind, wird dieser Wert wm negativ, was von einer Unterbrechung R des Signals zeugt.
Fig. 10 zeigt so ein mögliches Beispiel der Änderung des Werts wm, das die Unterbrechungen R des Sprachsignals zeigt. Die Zeitintervalle tr (r = 1, 2, ...) zwischen zwei aufeinander folgenden Unterbrechungen R werden errechnet und ausgedrückt in Anzahl von Abtastwerten des Sprachsignals. Jedes dieser Intervalle tr ist umgekehrt proportional zur Tonfrequenz fp, die auf diese Weise örtlich geschätzt wird: fp = Fe/tr auf dem r-ten Intervall.
Man kann nun die zeitlichen Änderungen der Tonfrequenz (die Tatsache, dass die Intervalle tr auf einem gegebenen Abschnitt nicht alle gleich sind), korrigieren, um eine konstante Tonfrequenz in jedem der Analyseabschnitte zu erhalten. Diese Korrektur wird durch eine Änderung der Abtastfrequenz auf jedem Intervall tr vorgenommen, so dass man nach Überabtastung konstante Intervalle zwischen zwei Glottis Unterbrechungen erhält. Man ändert also die Dauer zwischen zwei Unterbrechungen, indem man eine Überabtastung in einem veränderlichen Verhältnis vornimmt, so dass man sich auf dem größten Intervall festsetzt. Außerdem geht man so vor, dass man die Bedingung der Aufbereitung einhält, gemäß welcher die Überabtastfrequenz ein Vielfaches der geschätzten Tonfrequenz ist.
Fig. 11 zeigt die Mittel, die zum Berechnen der Aufbereitung des Signals in diesem letztgenannten Fall verwendet werden. Das Modul 57 zur harmonischen Analyse ist so ausgeführt, dass die oben genannte Analysemethode durchgeführt wird und die Intervalle tr geliefert werden, die sich auf den vom Modul 10 erzeugten Signalabschnitt beziehen. Bei jedem dieser Intervalle errechnet das Modul 70 (Block 90 in Fig. 11) das Überabtastverhältnis Kr = pr/tr, worin die ganze Zahl pr durch die dritte Spalte der Tabelle I gegeben ist, wenn tr die in der zweiten Spalte angegebenen Werte annimmt. Diese Überabtastverhältnisse Kr werden den Frequenzwechselmodulen 72 und 73 geliefert, damit die Interpolationen mit dem Abtastverhältnis Kr auf dem entsprechenden Zeitintervall tr durchgeführt werden.
Das größte Tp der von dem Modul 57 bei einem Abschnitt gelieferten Zeitintervalle tr wird von dem Modul 70 (Block 91 in Fig. 11) ausgewählt, um ein Paar p,α zu erhalten, wie es in der Tabelle I angegeben ist. Die geänderte Abtastfrequenz ist nun wie im Vorhergehenden fe = p·Fe/Tp, wobei die Spektralauflösung Δf der diskreten Fourier-Transformation des aufbereiteten Signals weiterhin durch Δf = Fe/(α·Tp) gegeben ist. Bei dem Frequenzwechselmodul 71 ist das Überabtastverhältnis K durch K = p/Tp gegeben (Block 92). Das Modul 56 zum Schutz der Harmonischen der Tonfrequenz arbeitet auf dieselbe Weise wie oben, indem es für die Bedingung (9) die vom Block 91 gelieferte Spektralauflösung Δf und die Tonfrequenz fp = fe/p verwendet, die gemäß dem vom Block 91 gelieferten Wert der ganzzahligen Verzögerung p definiert wird.
Diese Ausführungsform der Erfindung impliziert auch eine Adaption des Moduls 82 zur Verwaltung der Fenster. Die auf dem laufenden Abschnitt zu sichernde Anzahl M von Abtastwerten des entrauschten Signals entspricht hier einer ganzen Zahl von aufeinander folgenden Zeitintervallen tr zwischen zwei Glottis Unterbrechungen (vgl. Fig. 10). Diese Anordnung vermeidet die Probleme der Phasendiskontinuität zwischen Abschnitten und berücksichtigt gleichzeitig die möglichen Änderungen der Zeitintervalle tr auf einem Abschnitt.

Claims

1. Verfahren zur Aufbereitung eines in aufeinanderfolgenden Gruppen ("trames") behandelten digitalen Sprachsignals (s),

dadurch gekennzeichnet, dass man eine Oberschwingungsanalyse des Sprachsignals vornimmt, um eine Tonfrequenz (fp) des Sprachsignals auf jeder Gruppe zu schätzen, auf der es eine Stimmaktivität aufweist, und dass man nach Schätzung der Tonfrequenz des Sprachsignals auf einer Gruppe das Sprachsignal der Gruppe aufbereitet, indem man es mit einer Überabtastfrequenz ("fréquence de suréchantillonnage") (fp) überabtastet ("suréchantillonne"), die ein ganzzahliges Vielfaches der geschätzten Tonfrequenz ist.

2. Verfahren nach Anspruch 1, beidem man Spektralkomponenten (Sn,f) des Sprachsignals errechnet, indem man das aufbereitete Signal (s') in Blöcken von N Abtastungen abgibt, die einer Transformation im Frequenzbereich unterzogen wurden, wobei N eine vorbestimmte ganze Zahl ist, und bei dem das Verhältnis (p) zwischen der Überabtastfrequenz (fe) und der geschätzten Tonfrequenz ein Teiler der Zahl N ist.

3. Verfahren nach Anspruch 2, bei dem die Zahl N eine Potenz von 2 ist.

4. Verfahren nach Anspruch 2 oder 3, bei dem man einen Voisementgrad ("degré de voisement") (χ) des Sprachsignals auf der Gruppe ausgehend von einer Berechnung der Entropie (H)

der Autokorrelation von Spektralkomponenten (S ), die auf der Basis des aufbereiteten Signals (s') errechnet wurden, schätzt.

5. Verfahren nach Anspruch 4, bei dem der Voisementgrad (χ) ausgehend von einer standardisierten entropie H der Formel

gemessen wird,

worin A(k) die standardisierte Autokorrelation ist, die definiert ist durch:

worin S diese auf der Basis des überabgetasteten Signals berechnete spektrale Komponente der Ordnung f bezeichnet.

6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem man nach Behandlung jeder Gruppe aufbereiteten Signals von den durch diese Behandlung gelieferten Signalabtastungen eine Anzahl von Abtastungen (M) gleich einem ganzzahligen Vielfachen des Verhältnisses (Tp) zwischen der Abtastfrequenz (Fe) und der geschätzten Tonfrequenz (fp) beibehält.

7. Verfahren nach einem der Ansprüche 1 bis 5, bei dem die Schätzung der Tonfrequenz des Sprachsignals auf einer Gruppe die folgenden Schritte umfasst:

- man schätzt Zeitintervalle (tr) zwischen zwei aufeinanderfolgenden Unterbrechungen (R) des Signals, die während der Dauer der Gruppe auftretenden Schließungen der Stimmritze des Sprechers zuschreibbar sind, wobei die geschätzte Tonfrequenz umgekehrt proportional zu diesen Zeitintervallen ist;

- man interpoliert das Sprachsignal in diesen Zeitintervallen, damit das aus dieser Interpolation resultierende aufbereitete Signal (s') ein konstantes Zeitintervall zwischen zwei aufeinanderfolgenden Unterbrechungen aufweist.

8. Verfahren nach Anspruch 7, bei dem man nach der Behandlung jeder Gruppe von den von dieser Behandlung gelieferten Abtastungen des Sprachsignals eine Anzahl von Abtastungen (M) beibehält, die einer ganzen Zahl von geschätzten Zeitintervallen (tr) entspricht.

9. Vorrichtung zur Aufbereitung eines digitalen Sprachsignals (s), umfassend Behandlungsmittel, die für die Durchführung eines Aufbereitungsverfahrens nach einem der vorhergehenden Ansprüche ausgelegt ist.