EP0361432B1

EP0361432B1 - Verfahren und Einrichtung zur Codierung und Decodierung von Sprachsignalen unter Anwendung von Multipuls-Anregung

Info

Publication number: EP0361432B1
Application number: EP89117837A
Authority: EP
Inventors: Maurizio Omologo; Daniele Sereno
Original assignee: SIP SAS; Italtel SpA; Italtel Societa Italiana Telecomunicazioni SpA; SIP Societa Italiana per lEsercizio delle Telecomunicazioni SpA
Current assignee: SIP SAS; Italtel SpA; TIM SpA
Priority date: 1988-09-28
Filing date: 1989-09-27
Publication date: 1994-08-17
Anticipated expiration: 2009-09-27
Also published as: ATE110180T1; GR900300170T1; DE361432T1; ES2017906T3; EP0361432A2; DE68917552T2; EP0361432A3; ES2017906A4; IT8867868A0; IT1224453B; DE68917552D1

Claims

Verfahren zur Sprachsignalkodierung und -dekodierung unter Anwendung einer Mehrfachimpulserregungs-Technik mit Analyse durch Synthese, wobei dieses Verfahren eine Kodierungsphase mit den folgenden Verfahrens schritten umfaßt:
- Umwandlung des Sprachsignals in Rahmen digitaler Abtastwerte [s(n)];

- kurzfristige Analyse des Sprachsignals zur Bestimmung einer Gruppe von Linearvorhersage-Koeffizienten [a(k)] (k=1,...,p), die sich auf einen laufenden Rahmen beziehen, und deren Wiedergabe als Linienspektrumspaare;

- Kodierung dieser Wiedergabe der Linearvorhersage-Koeffizienten und Erhalten quantisierter Linearvorhersage-Koeffizienten [â(k)] aus dieser Wiedergabe;

- spektrale Formung des Sprachsignals durch Gewichten der digitalen Abtastwerte [s(n)] in einem Rahmen durch eine erste Gewichtungsfunktion A(z), und eine zweite Gewichtungsfunktion 1/A(z/γ), wobei
und wobei die Gewichtung durch die erste Gewichtungsfunktion ein Restsignal [r(n)] erzeugt, das dann von der zweiten Funktion gewichtet wird, um ein spektral geformtes Sprachsignal [s_w(n)] zu erzeugen;

- langfristige Analyse des Sprachsignals durch Verwendung des Restsignals [r(n)] und des spektral geformten Signals [s_w(n)] zur Bestimmung des Nachlaufs (M), der einen laufenden Abtastwert von einem vorhergehenden Abtastwert [r(n-M)] trennt, der dazu verwendet wird, den gegenwärtigen Abtastwert zu verarbeiten, sowie der Verstärkung (B), mit der dieser frühere Abtastwert für die Verarbeitung gewichtet wird;

- Bestimmung der Positionen und Amplituden der Erregungsimpulse durch Auswerten der Ergebnisse der kurzfristigen Analyse und der langfristigen Analyse;

- Kodierung der Werte des Nachlaufs und des verstärkungsfaktors der langfristigen Analyse sowie der Amplituden und Positionen der Erregungsimpulse, wobei die kodierten Werte gemeinsam mit der kodierten Wiedergabe der Linearvorhersage-Koeffizienten und mit den kodierten Effektivwerten der Erregungsimpulse das kodierte Sprachsignal ergehen;
und eine Dekodierungsphase umfaßt, in der:

- die Erregung ausgehend von den kodierten Werten der Amplituden, der Positionen und der Effektivwerte der Impulse rekonstruiert wird und ein synthetisiertes Sprachsignal [ŝ(n)] durch Hindurchleiten der rekonstruierten Erregung (ê) durch ein langfristiges Synthesefilter 1/(1-B·z^-M), dem ein kurzfristiges Synthesefilter 1/A(z) folgt, erzeugt wird, wobei diese Filter die langfristigen Analyseparameter bzw. die quantisierten Linearvorhersage-Koeffizienten auswerten;

- wobei die langfristige Analyse und die Erregungsimpulserzeugung in aufeinanderfolgenden Schritten durchgeführt werden, in deren erstem Schritt der Nachlauf (M) und der Verstärkungsfaktor (B) der langfristigen Analyse durch Minimierung eines mittleren quadratischen Fehlers zwischen dem spektral geformten Sprachsignal [s_w(n)] und einem Weiteren Signal [s_w0(n)], das man durch Gewichten des aus einer langfristigen Synthesefilterung, die der während des Dekodierens durchgeführten Filterung gleicht und bei der das für die Synthese verwendete Signal ein Null-Signal ist, resultierenden Signals durch die zweite Gewichtungsfunktion 1/A(z/γ) erhält, bestimmt werden, während im zweiten Schritt die Amplituden und Positionen der Erregungsimpulse [e(i)] aktuell durch Minimierung des mittleren quadratischen Fehlers zwischen einem Signal [s_we(n)], das den Unterschied zwischen dem spektral geformten Sprachsignal [s_w(n)] und jenem weiteren Signal [s_w0(n)] wiedergibt, und einem dritten gewichteten Signal [ŝ_we(n)], das durch langfristige Synthesefilterung der Erregungsimpulse und deren Gewichtung durch die zweite Gewichtungsfunktion erhalten wird, bestimmt werden;

- und wobei die Kodierung der Wiedergabe der LinearvorhersageKoeffizienten aus einer Vektorquantisierung der Linienspektrumspaare oder der Differenzen benachbarter Linienpaare entsprechend einer Quantisierungstechnik mit geteiltem Kodebuch besteht.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß man den Nachlauf (M) und die Verstärkung (B) in zwei aufeinanderfolgenden Schritten bestimmt, nämlich indem man zuerst einen Optimumwert des Nachlaufs durch Minimierung jenes Fehlers für einen vorgegebenen Verstärkungswert bestimmt und dann als zweites unter Verwendung dieses Optimumwerts des Nachlaufs den Optimumwert der Verstärkung bestimmt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß man den Nachlauf (M) und die Verstärkung (B) in zwei aufeinanderfolgenden Schritten bestimmt, nämlich indem man zuerst den mittleren quadratischen Fehler zwischen dem Restsignal [r(n)] und einem Signal [
₀(n)] minimiert, welches das Signal [r₀(n)], das aus der langfristigen Synthesefilterung mit Null-Eingang resultiert, im Fall ist, daß die für einen Abtastwert des laufenden Rahmens relevante Synthese auf der Basis eines Abtastwerts eines vorhergehenden Rahmens durchgeführt wird, und welches das Restsignal [r(n)] im Fall ist, daß die für einen Abtastwert des laufenden Rahmens relevante Synthese auf der Basis eines vorhergehenden Abtastwerts des selben Rahmens durchgeführt wird, und indem man dann als zweites den Verstärkungsgrad (B) mit der folgenden Operationsfolge berechnet: Ein Wert [s'_w0(n)] des Weiteren Signals wird für einen Einheits-Verstärkungswert bestimmt; dann wird ein erster Fehlerwert E(M,1) bestimmt, und die Operationen zum Bestimmen des Werts des mit der zweiten Gewichtungsfunktion gewichteten Signals und des Fehlers werden für jeden möglichen Wert der Verstärkung wiederholt, wobei der angenommene Wert dann derjenige ist, der den Fehler minimiert.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß man den Nachlauf (M) jeden Rahmen und die Verstärkung (B) jeden halben Rahmen berechnet.
Vorrichtung für die Sprachsignalkodierung und -dekodierung unter Anwendung einer Mehrfachimpulserregungs-Technik mit Analyse durch Synthese zur Durchführung des Verfahrens nach einem der Ansprüche 1, 3 oder 4, wobei die Vorrichtung für die Sprachsignalkodierung folgende Einzelschaltungen umfaßt:
- eine Einrichtung zum Umwandeln des Sprachsignals in Rahmen digitaler Abtastwerte [s(n)];

- eine Einrichtung (STA) für die kurzfristige Analyse des Sprachsignals, wobei diese Einrichtung eine Gruppe von Abtastwerten von der Umwandlungseinrichtung empfängt, eine Gruppe von Linearvorhersage-Koeffizienten [a(k)] (k=1,...,p) berechnet, die sich auf einen laufenden Rahmen beziehen, und eine Wiedergabe der Linearvorhersage-Koeffizienten [a(k)] als Linienspektrumspaare abgibt;

- eine Einrichtung (VQ) zum Kodieren der Wiedergabe der Linearvorhersage-Koeffizienten;

- eine Einrichtung (DCO) zum Erhalten quantisierter Linearvorhersage-Koeffizienten [â(k)] aus der kodierten Wiedergabe;

- eine, Schaltung (SW) für das spektrale Formen des Sprachsignals, die mit der Umwandlungseinrichtung und mit der die quantisierten Linearvorhersage-Koeffizienten ergebenden Einrichtung (DCO) verbunden ist und zwei in Kaskade geschaltete digitale Gewichtungsfilter (F1, F2) umfaßt, die die digitalen Abtastwerte [s(n)] gemäß einer ersten Gewichtungsfunktion [A(z)] bzw. einer zweiten Gewichtungsfunktion [1/A(z/γ)] gewichtet, wobei
und wobei das erste Filter (F1) ein Restsignal r(n) liefert;

- eine Einrichtung (LTA) für die langfristige Analyse des Sprachsignals, die mit den Ausgängen des ersten Filters (F1) und der Spektralformungsschaltung (SW) verbunden ist, um den Nachlauf (M) zu bestimmen, der einen laufenden Abtastwert von einem vorhergehenden Abtastwert [r(n-M)] trennt, der dazu verwendet wird, den vorliegenden Abtastwert zu verarbeiten, und den Verstärkungsfaktor (B) zu bestimmen, durch die der vorhergehende Abtastwert für die Verarbeitung gewichtet wird;

- einen Erregungsgenerator (EG) zum Bestimmen der Positionen und der Amplituden der Erregungsimpulse, der mit den Analyseeinrichtungen (STA, LTA) für die kurzfristige und die langfristige Analyse und außerdem mit der Spektralformungsschaltung (SW) verbunden ist;

- eine Einrichtung (LTC, PAC) zum Kodieren des Nachlaufs und des Verstärkungsfaktors der langfristigen Analyse sowie der Erregungsimpulspositionen und -amplituden, wobei die kodierten Werte gemeinsam mit der kodierten Wiedergabe der LinearvorhersageKoeffizienten und mit Effektivwerten der Erregungsimpulse das kodierte Sprachsignal ergeben;
und wobei die Vorrichtung außerdem für die Sprachsignaldekodierung (Synthese) folgende Einzelschaltungen umfaßt:

- eine Einrichtung (ED, LTD, STD) zum Rekonstruieren der Erregung, des Nachlaufs (M) und des Verstärkungsfaktors (B) der langfristigen Analyse sowie der Linearvorhersage-Koeffizienten [a(k)], ausgehend vom kodierten Signal; und

- einen Synthetisierer, umfassend die Kaskade eines ersten langfristigen Synthesefilters (LTP1), der die rekonstruierten Werte der Erregungsimpulse, des Verstärkungsfaktors und des Nachlaufs empfängt und die Impulse entsprechend einer ersten Transferfunktion 1/(1-B·z^-M) filtert, und eines kurzfristigen Synthesefilters (STP) mit einer zweiten Transferfunktion 1/A(z), die die Umkehrung der ersten spektralen Gewichtungsfunktion A(z) ist,
wobei die langfristige Analyseeinrichtung (LTA) den Nachlauf (M) und den Verstärkungsfaktor (B) in zwei aufeinanderfolgenden Schritten bestimmt, die einem Schritt vorausgehen, bei dem die Amplituden und Positionen der Erregungsimpulse durch den Erregungsgenerator (EG) bestimmt werden, und folgende Einzelschaltungen umfaßt:

- ein zweites langfristiges Synthesefilter (LTP2), das mit einem Nullsignal gespeist ist und in dem für die Berechnung des Nachlaufs (M) eine vorgegebene Gruppe von Werten der Anzahl von Abtastwerten, die einen vorliegenden, in der Synthetisierung befindlichen Abtastwert von einem für die Synthese verwendeten vorhergehenden Abtastwert trennen, und außerdem für die Berechnung des Verstärkungsfaktors (B) eine vorgegebene Gruppe möglicher Werte des Verstärkungsfaktors selbst verwendet werden;

- einen Multiplexer (MX1), der an einem ersten Eingang einen Abtastwert des Restsignals [r(n)] und an einem zweiten Eingang einen Abtastwert des Ausgangssignals des zweiten langfristigen Synthesefilters (LTP2) empfängt und die an jeweils einem seiner Eingänge anliegenden Abtastwerte in Abhängigkeit davon abgibt, ob die Zahl der Abtastwerte niedriger als eine Rahmenlänge ist oder nicht;

- ein drittes Gewichtungsfilter (F3), das die gleiche Transferfunktion wie das zweite digitale Filter (F2) der Spektralformungsschaltung (SW) hat, mit dem Ausgang des zweiten langfristigen Synthesefilters (LTP2) verbunden ist und nur während der Bestimmung des Verstärkungsfaktors (B) der langfristigen Analyse in Betrieb gesetzt ist;

- einen ersten Addierer (SM1), der an einem ersten Eingang das spektral geformte Signal (s_w) und an einem zweiten Eingang das Ausgangssignal des dritten Gewichtungsfilters (F3) empfängt und die Differenz zwischen den an seinem ersten und seinem zweiten Eingang anliegenden Signalen abgibt;

- eine erste Verarbeitungseinheit (CMB), die in einem ersten der beiden aufeinanderfolgenden Schritte das Ausgangssignal des Multiplexers (MX1) empfängt und den Optimumwert der Anzahl der Abtastwerte bestimmt und im zweiten der beiden aufeinanderfolgenden Schritte das Ausgangssignal des ersten Addierers (SM1) empfängt und durch Verwendung des im ersten Schritt berechneten Nachlaufs den Wert des Verstärkungsfaktors bestimmt, der den mittleren quadratischen Fehler zwischen den Eingangssignalen des ersten Addierers (SM1) innerhalb einer Gültigkeitsperiode der Erregungsimpulse minimiert;
und wobei der Erregungsgenerator (EG) zum Erzeugen der Erregungsimpulse [e(i)] folgende Einzelschaltungen umfaßt:

- ein drittes langfristiges Synthesefilter (LTP3), das die gleiche Transferfunktion wie das erste langfristige Synthesefilter (LTP1) hat und mit den erzeugten Erregungsimpulsen gespeist ist;

- ein viertes Gewichtungsfilter (F4), das an den Ausgang des dritten Synthesefilters (LTP3) angeschlossen ist und die gleiche Transferfunktion wie das zweite und das dritte Gewichtungsfilter (F2, F3) hat;

- einen zweiten Addierer (SM2), der an einem ersten Eingang das Ausgangssignal des ersten Addierers (SM1) und an einem zweiten Eingang das Ausgangssignal des vierten Gewichtungsfilters (F4) empfängt und die Differenz zwischen den an seinem ersten und zweiten Eingang anliegenden Signalen abgibt;

- eine zweite Verarbeitungseinheit (CE), die mit dem Ausgang des zweiten Addierers (SM2) verbunden ist und die Amplituden und Positionen der Impulse durch Minimieren des mittleren quadratischen Fehlers zwischen den Eingangssignalen des zweiten Addierers (SM2) innerhalb einer Gültigkeitsperiode der Impulse bestimmt.
Vorrichtung nach Anspruch 5, dadurch gekennzeichnet, daß die die Wiedergabe des Linearvorhersage-Koeffizienten kodierende Einrichtung (VQ) aus einem Vektorquantisierer (VQ) für die Vektorquantisierung mit geteiltem Kodebuch der Linienspektrumspaare oder der Differenzen zwischen benachbarten Linienspektrumspaaren besteht.