DE10043946A1 - Komprimieren von HMM-Prototypen - Google Patents

Komprimieren von HMM-Prototypen

Info

Publication number
DE10043946A1
DE10043946A1 DE10043946A DE10043946A DE10043946A1 DE 10043946 A1 DE10043946 A1 DE 10043946A1 DE 10043946 A DE10043946 A DE 10043946A DE 10043946 A DE10043946 A DE 10043946A DE 10043946 A1 DE10043946 A1 DE 10043946A1
Authority
DE
Germany
Prior art keywords
neural network
prototypes
hmm
hmm prototypes
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE10043946A
Other languages
English (en)
Other versions
DE10043946C2 (de
Inventor
Harald Hoege
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corp
Original Assignee
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corp filed Critical Siemens Corp
Priority to DE10043946A priority Critical patent/DE10043946C2/de
Priority to DE50111184T priority patent/DE50111184D1/de
Priority to ES01119279T priority patent/ES2270930T3/es
Priority to EP01119279A priority patent/EP1187098B1/de
Priority to US09/946,783 priority patent/US6907398B2/en
Publication of DE10043946A1 publication Critical patent/DE10043946A1/de
Application granted granted Critical
Publication of DE10043946C2 publication Critical patent/DE10043946C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

Es wird ein Verfahren zum Komprimieren des von HMM-Prototypen in einem elektronischen Speicher benötigten Speicherplatzes beschrieben. Dazu werden vorgegebene HMM-Proteine (10) mittels eines Neuronalen Netzes (Codierer) (14) auf komprimierte HMM-Prototypen (16) abgebildet. Diese können mit geringerem Speicherplatz als die unkomprimierten HMM-Prototypen gespeichert werden. Zum Rekonstruieren der HMM-Prototypen dient ein zweites Neuronales Netz (Decodierer) (18).

Description

Die Erfindung betrifft ein Verfahren, ein Computerprogramm­ produkt und einen Datenträger zum Komprimieren des von HMM- Prototypen in einem elektronischen Speicher benötigten Spei­ cherplatzes sowie eine Anordnung zur automatischen Spracher­ kennung.
Sprachverarbeitungsverfahren sind beispielsweise aus US 6 029 135, US 5 732 388, DE 196 36 739 C1 und DE 197 19 381 C1 bekannt. Dabei wird natürliche gesprochene Sprache für die automatische Spracherkennung in letzter Zeit in der Regel durch sogenannte Hidden-Markov-Modelle (HMM) beschrieben. In Hidden-Markov-Modellen bezeichnet man mit Emissionswahr­ scheinlichkeit die Wahrscheinlichkeit dafür, dass das zu ei­ ner Klasse k gehörende Modell einen tatsächlich gesprochenen Laut bzw. eine tatsächlich gesprochene Lautfolge emittiert bzw. erzeugt. Die Klasse k kann dabei etwa ein Laut, eine Lautfolge bzw. ein Wort oder eine Wortfolge sein. Ein HMM- Prototyp ist der Mittelwert der zugehörigen Emissionswahr­ scheinlichkeitsverteilung. Sie werden aus Sprachaufnahmen ge­ wonnen.
Die Prototypen ergeben sich aus den aufgenommenen Schall­ spektren nach Zerlegung in einzelne spektrale Merkmale und weiteren mathematischen Transformationen. Sie bestehen aus einer Anzahl von reellen Zahlen, den Komponenten, und können somit als Vektoren betrachtet werden. Die einzelnen Komponen­ ten haben unterschiedliche Bedeutungen hinsichtlich der Iden­ tifizierung oder Zuordnung zu gewissen Lauten.
Hochperformante Erkenner sind auf Hidden-Markov-Modelle mit vielen Prototypen angewiesen. Der zur Abspeicherung der Pro­ totypen benötigte Speicherplatz wächst in der Regel proporti­ onal zur Anzahl der Prototypen. Bei den derzeit besten Erken­ nern besteht ein Prototyp aus 10 bis 40 Komponenten. Jede Komponente wird mit 1 bis 4 Byte dargestellt.
Ganzwort-Erkenner zerlegen die Wörter in beliebige phoneti­ sche Einheiten, zu denen Prototypen erstellt werden. Sie kom­ men mit relativ wenigen Prototypen aus, etwa 1.000 bis 2.000 bei einem Wortschatz von 10 bis 50 Wörtern. Aufgrund des ge­ ringen Wortschatzes werden sie für Spezialanwendungen wie Zahlenerkennen oder Navigation in einem Menü eingesetzt.
Type-in-Erkenner ordnen Prototypen exakt einzelnen Lauten zu. Sie benötigen 4.000 bis 10.000 Prototypen, wobei jedem Laut 100 und mehr Prototypen zugeordnet werden können. Bei vielen Anwendungen ist die Verwendung eines type-in-Erkenners vor­ teilhaft, da dort der zu erkennende Wortschatz variabel gehalten werden kann.
Für einen type-in-Erkenner ergibt sich somit ein Speicherbe­ darf in der Größenordnung von 40 bis 1.600 Kilobyte. Insbe­ sondere bei mobilen Consumer Endgeräten (z. B. Handys, Palm Pilots etc.) ist der verfügbare Speicherplatz sehr begrenzt, er liegt derzeit deutlich unter 100 Kilobyte, da die Kosten des Speichers und die vom Speicher verursachte Verlustleis­ tung beschränkende Faktoren darstellen. Um hochperformante type-in-Erkenner auch für Consumer Endgeräte realisieren zu können, werden Verfahren benötigt, die eine drastische Komp­ rimierung des Speicherbedarfs ermöglichen.
Aufgabe der Erfindung ist es, die Verringerung des von HMM- Prototypen in einem elektronischen Speicher benötigten Spei­ cherplatzes durch Komprimieren zu ermöglichen.
Die Aufgabe wird durch ein Verfahren, ein Computerprogramm­ produkt und einen Datenträger zum Komprimieren des von HMM- Prototypen in einem elektronischen Speicher benötigten Spei­ cherplatzes gelöst.
Unter einem Computerprogrammprodukt wird das Computerprogramm als handelbares Produkt verstanden, in welcher Form auch im­ mer, z. B. auf Papier, auf einem computerlesbaren Datenträger, über ein Netz verteilt etc.
Zunächst werden HMM-Prototypen Xj, (j = 1, . . ., J), mit den Komponenten X j|k, (k = 1, . . ., N), vorgegeben, wobei J und N natürliche Zahlen sind. Typische Werte für J liegen, wie ein­ gangs erwähnt, bei 1.000 oder 10.000, bei extremen Hoch­ leistungserkennern auch bei 100.000. N liegt, wie oben er­ wähnt, in der Regel zwischen 10 und 40. Die HMM-Prototypen Xj werden auf komprimierte HMM-Prototypen Yj abgebildet (co­ diert), (j = 1, . . ., J), wobei Yj die Komponenten Y j|m hat, (m = 1, . . ., M), wobei M eine natürliche Zahl ist. Die Yj sind auf geringen Speicherplatz hin optimierte Codierungen der Xj.
Nötig ist dann noch ein Decodierer, der die Xj aus den Yj we­ nigstens näherungsweise rekonstruiert. Dazu wird ein Neurona­ les Netz (Decodierer) vorgesehen. Das Neuronale Netz bildet die Yj auf rekonstruierte HMM-Prototypen X'j ab (decodiert), (j = 1, . . ., J), mit den Komponenten X' j|k, (k = 1, . . ., N). Die X'j sind die Rekonstruktionen der Xj.
Die komprimierten HMM-Prototypen Yj bilden somit zusammen mit dem Decodierer einen assoziativen Speicher für die HMM- Prototypen Xj.
Um eine optimale Komprimierung der HMM-Prototypen zu errei­ chen werden die Yj und der Decodierer derart gewählt,
  • - dass einerseits der Abstand zwischen Xj und X'j mini­ miert wird, und
  • - dass andererseits der für die Yj und den Decodierer benötigte Speicherplatz in einem elektronischen Speicher mi­ nimiert wird.
Ein Erkenner, z. B. in einem Handy, braucht nach der erfin­ dungsgemäßen Komprimierung nur noch die komprimierten HMM- Prototypen Yj und die Struktur und die Gewichte des Decodie­ rers in Form eines Neuronalen Netzes abzuspeichern.
Um eine flexible Optimierung auch der Codierung zu ermögli­ chen, kann für die Abbildung (Codierung) der HMM-Prototypen Xj auf die komprimierten HMM-Prototypen Yj ein Codierer vor­ gesehen werden. In einer vorteilhaften Weiterbildung der Er­ findung kann als Codierer ein Neuronales Netz gewählt werden.
Zum Abspeichern der komprimierten HMM-Prototypen Yj sind le­ diglich Binärzahlen geeignet. Daher werden die erzeugten Y j|m in Binärzahlen YQ j|m, (j = 1, . . ., J), (m = 1, . . ., M), umge­ wandelt. Wird der Codierer in Form eines Neuronalen Netzes ausgebildet, so sind die Y j|m reelle Zahlen. Es bietet sich dann die Zwischenschaltung eines Bit-Codierers an. Wird die Codierung nicht mit Hilfe eines Neuronalen Netzes durchge­ führt, so kann eine unmittelbare Abbildungen der X j|k in Bi­ närzahlen Y j|m erfolgen. Struktur und Parameter des als Deco­ dierer arbeitenden Neuronalen Netzes werden derart gewählt, dass der Decodierer die Binärzahlen YQ j|m auf die X' j|k abbil­ den kann. Insgesamt werden Struktur und Parameter des Codie­ rers, des Bit-Codierers und des Decodierers derart gewählt, dass die Binärzahlen YQ j|m aus möglichst wenigen Bits beste­ hen, um das Ziel einer optimalen Komprimierung und damit ge­ ringen Speicherbedarfs zu erreichen. Im Idealfall bestehen die YQ j|m jeweils nur aus 1 Bit.
Im Extremfall haben die Yj nur eine einzige Komponente, d. h. M = 1. Zusätzlich kann YQ j|1 grundsätzlich auf 1 gesetzt wer­ den. Dann brauchen die Yj selbst nicht mehr abgespeichert zu werden. Sie entsprechen dann schlicht jeweils einem Eingangs­ knoten des Neuronalen Netzes des Decodierers. Zum Rekon­ struieren der HMM-Prototypen wird dem Neuronalen Netz des De­ codierers lediglich die Nummer j des benötigten HMM- Prototypen vorgegeben.
Das Training des als Decodierer arbeitenden Neuronalen Netzes erfolgt mittels der Yj an den Eingängen und der Xj an den Ausgängen. Die vom Neuronalen Netz erzeugten X'j werden auf ihren Abstand zu den Xj hin untersucht. Der Abstand kann da­ bei beispielsweise ein Euklidisches Maß im Vektorraum der Xj sein. Eine bessere Dekomprimierungsgenauigkeit wird erreicht, wenn zum Bestimmen des Abstands zwischen den Xj und den X'j die Komponenten mit höherer Diskriminierungsfähigkeit stärker gewichtet werden. Die Diskriminierungsfähigkeit einer Kompo­ nente ist die Bedeutung dieser Komponente für die Entschei­ dung über die Zuordnung (Klassifizierung) eines aufgenommenen Lauts zu dem HMM-Prototypen, zu dem die Komponente gehört.
Die Aufgabe wird ferner durch eine Anordnung zur automati­ schen Spracherkennung gelöst, die ein Neuronales Netz zum Be­ rechnen von Sprachmustern, z. B. HMM-Prototypen, aufweist.
Ferner hat die Anordnung eine Eingabe für ein Sprachsignal. In der Regel ist dies eine transformierte Aufnahme des Schalls. Ein Erkenner verwendet zum Erkennen des eingegebenen Sprachsignals als Sprachmuster die Ausgabewerte des Neurona­ len Netzes. Die Ergebnisse des Erkenners werden über eine Ausgabe in Form eines Signals, das dem erkannten Sprachsignal entspricht, ausgegeben. Die Anordnung kann Teil eines Handys, Handhelds, Kleinstcomputers, Notebooks, Computers oder ähnli­ chem sein.
Sind die eingangs erwähnten komprimierten HMM-Prototypen Yj nicht unmittelbar je einem Eingangsknoten des als Decodierer arbeitenden Neuronalen Netzes zugeordnet, so weist die Anord­ nung ferner einen Speicher zum Speichern von komprimierten Sprachmustern Yj auf, z. B. zum Speichern von komprimierten HMM-Prototypen. Die Yj dienen als Eingaben für die Eingänge des Neuronalen Netzes.
Weitere vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet.
Im folgenden wird die Erfindung anhand von Ausführungsbei­ spielen näher erläutert, die in den Figuren schematisch dar­ gestellt sind. Gleiche Bezugsziffern in den einzelnen Figuren bezeichnen dabei gleiche Elemente. Im einzelnen zeigt:
Fig. 1 eine schematische Darstellung des Zusammenwirkens von Codierer und Decodierer zum Komprimieren von HMM-Prototypen;
Fig. 2 die Darstellung gemäß Fig. 2 einschließlich von Bit-Codierern; und
Fig. 3 eine Anordnung zur automatischen Spracherkennung, die komprimierte HMM-Prototypen verwendet.
Fig. 1 zeigt einen HMM-Prototypen, der mit Xj bezeichnet ist, j = 1, . . ., J, wobei J eine natürliche Zahl ist. Die Kompo­ nenten X j|1, X j|2 bis X j|N von Xj sind mit den Bezugsziffern 10 gekennzeichnet. Auch N ist eine natürliche Zahl. Die Kompo­ nenten werden an Eingänge 12 eines mit NN bezeichneten Neuro­ nalen Netzes 14- angelegt. Das Neuronale Netz 14 arbeitet als Codierer. Es erzeugt komprimierte HMM-Prototypen Yj, j = 1, . . ., J, wobei J die oben erwähnte natürliche Zahl ist. Yj hat die Komponenten Y j|1, Y j|2 bis Y j|M, wobei M eine natürliche Zahl ist. Die Komponenten Y j|m sind mit der Bezugsziffern 16 gekennzeichnet. Die durch das Neuronale Netz 14 erzeugten Komponenten Y j|m 16 sind reelle Zahlen. Ferner zeigt Fig. 1 ein zweites Neuronales Netz NN 18, das als Decodierer arbei­ tet. Es rekonstruiert HMM-Prototypen X'j mit den Komponenten X' j|1, X' j|2 bis X' j|N, die mit der Bezugsziffer 20 bezeichnet sind an den Ausgangsknoten 21 des Neuronalen Netzes.
Das erfindungsgemäße Komprimierverfahren beruht auf einer Co­ dierung und Decodierung auf der Basis von Neuronalen Net­ zen 14, 18. Jeder HMM-Prototypen Xj wird zunächst einer Co­ dierung mittels des Neuronalen Netzes 14 unterworfen. Dadurch wird der HMM-Prototyp Xj auf einen komprimierten HMM- Prototypen Yj abgebildet. Xj hat N Komponenten; Yj hat M Kom­ ponenten, wobei idR M wesentlich kleiner als N ist, um das Ziel der Komprimierung zu erreichen.
Die komprimierten HMM-Prototypen in Form der Yj können platz­ sparend in einem elektronischen Speicher abgelegt werden. Zum Durchführen von Spracherkennung bedarf es der Rekonstruktion der ursprünglichen HMM-Prototypen Xj. Dies geschieht mit Hil­ fe des Neuronalen Netzes 18. Mit Hilfe des Neuronalen Netzes 18 werden die komprimierten HMM-Prototypen Yj auf rekon­ struierte HMM-Prototypen X'j abgebildet.
Fig. 1 zeigt somit ein autoassoziatives Netzwerk bzw. einen assoziativen Speicher.
Gängige Neuronale Netze, wie das Neuronale Netz 14, liefern als Ausgabe reelle Zahlen für die Komponenten der komprimier­ ten HMM-Prototypen Y j|m. Reelle Zahlen sind zum Abspeicherung in einem elektronischen Speicher nicht geeignet. Daher ist dem Codierer 14 noch einen Bit-Codierer 22 nachgeschaltet (siehe Fig. 2), der die reellen Werte Y j|m in Werte YQ j|m um­ wandelt. Der Bit-Codierer führt keine einfache Analog- Digital-Wandlung durch. Vielmehr kann mit seiner Hilfe geeig­ net gewählt werden, welchem reellen Wert welche Bit- Kombination zugeordnet werden soll und wie viele Bits verwen­ det werden sollen.
Das für die Decodierung vorzugsweise verwendete Neuronale Netz 18 ist ein Multilayer-Perzeptron (MLP), ein schichtori­ entiertes, vorwärtsgerichtetes (feed forward) Netz mit einer geeigneten Vermaschung zwischen den einzelnen Schichten. Als Aktivierungsfunktion wird die Sigmoidfunktion Sc(x) oder der tanh(x) verwendet. Für eine hohe Decodierungsgenauigkeit muss die Anzahl der variablen Parameter ausreichend groß gewählt werden. Dies kann stets durch geeignete Wahl der Anzahl der Schichten bzw. durch eine geeignete Anzahl von Neuronen in den/der versteckten Schicht(en) erreicht werden. Andererseits erhöht eine große Anzahl von Neuronen bzw. versteckten Schichten den benötigten Speicherplatz und die zum Decodieren benötigte Rechenleistung. Im bevorzugten Ausführungsbeispiel wird daher für das Neuronale Netz nur eine einzige versteckte Schicht verwendet.
Das Neuronale Netz 14 für die Codierung kann beliebig komplex gewählt werden, da es nicht in dem zu minimierenden Speicher­ platz abgespeichert werden muss.
Neben der Minimierung des Speicherbedarfs sollte die Abwei­ chungen zwischen den Xj und den X'j so gering wie möglich sein. Daher wird beim Training des Neuronalen Netzes 18 als Optimierungskriterium ein geeigneter Abstand zwischen Xj und X'j gewählt. Der Abstand kann dabei beispielsweise ein Eukli­ disches Maß im Vektorraum der Xj sein, d. h.
Eine bessere Dekomprimierungsgenauigkeit wird erreicht, wenn zum Bestimmen des Abstands zwischen den Xj und den X'j die Komponenten mit höherer Diskriminierungsfähigkeit stärker ge­ wichtet werden. Die Diskriminierungsfähigkeit einer Komponen­ te ist die Bedeutung dieser Komponente für die Entscheidung über die Zuordnung (Klassifizierung) eines aufgenommenen Lauts zu dem HMM-Prototypen, zu dem die Komponente gehört. Das eigentliche Ziel des Decodierens besteht schließlich nicht darin, das X' die Werte von X gut approximiert, sondern dass die Fehlerrate des Erkenners bei der automatischen Spracherkennung unter Verwendung der rekonstruierten HMM- Prototypen X'j im Vergleich zu den uncodierten HMM-Prototypen Xj möglichst wenig steigt.
Bei Verwendung der sogenannten "linear discriminant analysis" (LDA) zum Erzeugen der HMM-Prototypen ausgehend von den auf­ genommenen Sprachdaten sind die Komponenten X j|1, . . ., X j|N nach ihrer Diskriminierungsfähigkeit geordnet. Daher ist eine gute Approximation der Komponenten für die Werte X j|k mit kleinem Index k wichtiger als für große Indizes k. Als Abstand wird daher im bevorzugten Ausführungsbeispiel die Funktionen verwendet:
wobei ak mit steigendem k fallende Werte annimmt.
Das Training des als Decodierer arbeitenden Neuronalen Net­ zes 18 erfolgt mittels der Yj an den Eingängen und der Xj an den Ausgängen. Die vom Neuronalen Netz erzeugten X'j werden auf ihren Abstand zu den Xj hin untersucht und die Gewichte geeignet verändert, um die Abstände im Mittel zu reduzieren.
Nach der Optimierung können die komprimierten HMM-Prototypen Yj zusammen mit der Struktur und den während des Trainings bestimmten Gewichten des Neuronalen Netzes sowie deren Indi­ zes abgespeichert werden.
Wird ein relativ einfaches Neuronales Netz 18 zum Decodieren verwendet, so muss die Information über die HMM-Prototypen Xj im wesentlichen in den komprimierten HMM-Prototypen Xj ge­ speichert werden. Bei 4.000 bis 10.000 HMM-Prototypen Xj ei­ nes type-in-Erkenners erhält man die gleiche Anzahl kompri­ mierter HMM-Prototypen Yj. Diese haben nun aber weniger Kom­ ponenten, z. B. nur 5 bis 20 Komponenten pro Prototyp, da M kleiner als N erreicht werden kann. Ferner hat jede dieser Komponenten weniger Bits, z. B. nur 2 bis 16 Bits. Daraus er­ geben sich 5 bis 400 Kilobyte Speicherbedarf für die kompri­ mierten HMM-Prototypen.
Der Speicherbedarf für das Neuronale Netz fällt für ein Netz mit nur einer versteckten Schicht dagegen kaum ins Gewicht.
Insgesamt kann mit dem beschriebenen Verfahren eine Kompres­ sion des Speicherbedarfs um einen Faktor 2 bis 4 erreicht werden.
Fig. 3 zeigt eine Anordnung zur automatischen Spracherkennung z. B. in einem Handy. Sie enthält einen Speicher 24 zum Spei­ chern von komprimierten HMM-Prototypen Y1 bis YJ. Ferner weist die Anordnung ein Neuronales Netz 18 zum Decodieren der komprimierten HMM-Prototypen, d. h. zum Rekonstruieren von HMM-Prototypen auf. Außerdem zeigt Fig. 3 eine Eingabe 26 für ein Sprachsignal, in der Regel eine transformierte Aufnahme des Schalls. Ein Erkenner 28 verwendet zum Erkennen des ein­ gegebenen Sprachsignals als Prototypen die Ausgabewerte des Neuronalen Netzes 18. Die Ergebnisse des Erkenners 28 werden über eine Ausgabe 30 in Form eines Signals, das dem erkannten Sprachsignal entspricht, ausgegeben.

Claims (10)

1. Verfahren zum Komprimieren des von HMM-Prototypen in einem elektronischen Speicher benötigten Speicherplatzes,
wobei HMM-Prototypen (Xj) vorgegeben werden;
wobei die HMM-Prototypen (Xj) auf komprimierte HMM- Prototypen (Yj) abgebildet werden;
wobei ein Neuronales Netz (18) zum Abbilden der komprimier­ ten HMM-Prototypen (Yj) auf rekonstruierte HMM- Prototypen (X'j) vorgesehen wird; und
wobei die komprimierten HMM-Prototypen (Yj) und das Neuro­ nale Netz (18) derart gewählt werden, dass sowohl der Abstand zwischen (Xj) und (X'j) als auch der für die rekonstruierten HMM-Prototypen (Yj) des Neuronalen Netzes (18) benötigte Speicherplatz in einem elektronischen Speicher minimiert wer­ den.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zum Abbilden der HMM-Prototypen (Xj) auf die komprimier­ ten HMM-Prototypen (Yj) ein Codierer (14) vorgesehen wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass als Codierer (14) ein zweites Neuronales Netz gewählt wird.
4. Verfahren nach mindestens einem der vorhergehenden Ansprü­ che, dadurch gekennzeichnet,
dass die komprimierten HMM-Prototypen (Yj) Komponen­ ten (Y j|m, 16), (m = 1, . . ., M), haben;
dass die Komponenten (Y j|m) in Binärzahlen (Yq j|m, 23), (j = 1, . . ., J), (m = 1, . . ., M), umgewandelt werden;
dass Struktur und Parameter des Neuronalen Netzes (18) der­ art gewählt werden, dass das Neuronale Netz die Binärzahlen (Yq j|m, 23) auf die rekonstruierten HMM-Prototypen (X' j|k) ab­ bilden kann; und
dass Struktur und Parameter des Codierers (14) und des Neu­ ronalen Netzes (18) derart gewählt werden, dass die Binärzah­ len (Yq j|m, 23) aus möglichst wenigen Bits bestehen.
5. Verfahren nach mindestens einem der vorhergehenden Ansprü­ che, dadurch gekennzeichnet, dass zum Bestimmen des Abstands zwischen den (Xj) und den (X'j) die Komponenten mit höherer Diskriminierungsfähig­ keit stärker gewichtet werden.
6. Computerprogrammprodukt, das durch einen Computer ausführ­ bar ist und dabei die Schritte nach einem der Ansprüche 1 bis 5 ausführt.
7. Computerprogrammprodukt, das auf einem computergeeigneten Medium gespeichert ist und computerlesbare Programmmittel um­ fasst, die es einem Computer ermöglichen, das Verfahren nach einem der Ansprüche 1 bis 5 auszuführen.
8. Datenträger, auf dem ein Computerprogramm gespeichert ist, das es einem Computer ermöglicht, durch einen Ladeprozess das Verfahren nach einem der Ansprüche 1 bis 5 auszuführen.
9. Anordnung zur automatischen Spracherkennung mit
einem Neuronalen Netz (18) zum Berechnen von Sprachmustern;
einer Eingabe (26) für ein Sprachsignal;
einem Erkenner (28) zum Erkennen des eingegebenen Sprach­ signals, wobei der Erkenner als Sprachmuster die Ausgabewerte des Neuronalen Netzes (18) verwendet; und mit
einer Ausgabe (30) für ein Signal, das dem erkannten Sprachsignal entspricht.
10. Anordnung nach Anspruch 9, gekennzeichnet durch einen Speicher (24) zum Speichern von komprimierten Sprach­ mustern, die als Eingaben für die Eingänge des Neuronalen Netzes (18) dienen.
DE10043946A 2000-09-06 2000-09-06 Komprimieren von HMM-Prototypen Expired - Fee Related DE10043946C2 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE10043946A DE10043946C2 (de) 2000-09-06 2000-09-06 Komprimieren von HMM-Prototypen
DE50111184T DE50111184D1 (de) 2000-09-06 2001-08-09 Komprimieren von HMM-Prototypen
ES01119279T ES2270930T3 (es) 2000-09-06 2001-08-09 Compresion de prototipos hmm (modelos de markov escondidos).
EP01119279A EP1187098B1 (de) 2000-09-06 2001-08-09 Komprimieren von HMM-Prototypen
US09/946,783 US6907398B2 (en) 2000-09-06 2001-09-06 Compressing HMM prototypes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10043946A DE10043946C2 (de) 2000-09-06 2000-09-06 Komprimieren von HMM-Prototypen

Publications (2)

Publication Number Publication Date
DE10043946A1 true DE10043946A1 (de) 2002-08-29
DE10043946C2 DE10043946C2 (de) 2002-12-12

Family

ID=7655200

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10043946A Expired - Fee Related DE10043946C2 (de) 2000-09-06 2000-09-06 Komprimieren von HMM-Prototypen
DE50111184T Expired - Lifetime DE50111184D1 (de) 2000-09-06 2001-08-09 Komprimieren von HMM-Prototypen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50111184T Expired - Lifetime DE50111184D1 (de) 2000-09-06 2001-08-09 Komprimieren von HMM-Prototypen

Country Status (4)

Country Link
US (1) US6907398B2 (de)
EP (1) EP1187098B1 (de)
DE (2) DE10043946C2 (de)
ES (1) ES2270930T3 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6681207B2 (en) * 2001-01-12 2004-01-20 Qualcomm Incorporated System and method for lossy compression of voice recognition models
US7379868B2 (en) 2002-07-18 2008-05-27 Massachusetts Institute Of Technology Method and apparatus for differential compression of speaker models
US20040132610A1 (en) * 2003-01-03 2004-07-08 Tagge Christopher D. Transition metal complexes in the controlled synthesis of polyolefins substituted with functional groups
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US8239195B2 (en) * 2008-09-23 2012-08-07 Microsoft Corporation Adapting a compressed model for use in speech recognition
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US8484022B1 (en) * 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
US8849667B2 (en) * 2012-07-31 2014-09-30 Novospeech Ltd. Method and apparatus for speech recognition
US9767410B1 (en) 2014-10-03 2017-09-19 Google Inc. Rank-constrained neural networks

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
US5696877A (en) * 1990-05-10 1997-12-09 Nec Corporation Pattern recognition using a predictive neural network
DE19719381C1 (de) * 1997-05-07 1998-01-22 Siemens Ag Verfahren zur Spracherkennung durch einen Rechner
US5732388A (en) * 1995-01-10 1998-03-24 Siemens Aktiengesellschaft Feature extraction method for a speech signal
US6029135A (en) * 1994-11-14 2000-02-22 Siemens Aktiengesellschaft Hypertext navigation system controlled by spoken words
DE69421354T2 (de) * 1993-09-03 2000-07-13 Microsoft Corp., Redmond Datenkompression für die Spracherkennung

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758021A (en) * 1992-06-12 1998-05-26 Alcatel N.V. Speech recognition combining dynamic programming and neural network techniques
US5535305A (en) * 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
EP0654755B1 (de) * 1993-11-23 2000-08-02 International Business Machines Corporation Anlage und Verfahren zur automatischen Handschrifterkennung mittels eines benutzerunabhängigen chirographischen Labelalphabets
US6052481A (en) * 1994-09-02 2000-04-18 Apple Computers, Inc. Automatic method for scoring and clustering prototypes of handwritten stroke-based data
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US6151592A (en) * 1995-06-07 2000-11-21 Seiko Epson Corporation Recognition apparatus using neural network, and learning method therefor
JP3006507B2 (ja) * 1996-10-03 2000-02-07 日本電気株式会社 パターン間距離計算装置
US6178398B1 (en) * 1997-11-18 2001-01-23 Motorola, Inc. Method, device and system for noise-tolerant language understanding
US6151414A (en) * 1998-01-30 2000-11-21 Lucent Technologies Inc. Method for signal encoding and feature extraction
US6076053A (en) * 1998-05-21 2000-06-13 Lucent Technologies Inc. Methods and apparatus for discriminative training and adaptation of pronunciation networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696877A (en) * 1990-05-10 1997-12-09 Nec Corporation Pattern recognition using a predictive neural network
DE69421354T2 (de) * 1993-09-03 2000-07-13 Microsoft Corp., Redmond Datenkompression für die Spracherkennung
US6029135A (en) * 1994-11-14 2000-02-22 Siemens Aktiengesellschaft Hypertext navigation system controlled by spoken words
US5732388A (en) * 1995-01-10 1998-03-24 Siemens Aktiengesellschaft Feature extraction method for a speech signal
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE19719381C1 (de) * 1997-05-07 1998-01-22 Siemens Ag Verfahren zur Spracherkennung durch einen Rechner

Also Published As

Publication number Publication date
DE50111184D1 (de) 2006-11-23
DE10043946C2 (de) 2002-12-12
US20020046031A1 (en) 2002-04-18
ES2270930T3 (es) 2007-04-16
EP1187098A2 (de) 2002-03-13
EP1187098B1 (de) 2006-10-11
EP1187098A3 (de) 2003-01-22
US6907398B2 (en) 2005-06-14

Similar Documents

Publication Publication Date Title
DE10043946C2 (de) Komprimieren von HMM-Prototypen
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69421354T2 (de) Datenkompression für die Spracherkennung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE69521164T2 (de) System zum Kodieren und Dekodieren von Signalen
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE602004003512T2 (de) Kompression gausscher Modelle
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
DE10018134A1 (de) Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE602004004572T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung
DE69327997T2 (de) Gerät zur spracherkennung mit neuronalem netzwerk und lernverfahren dafür
DE69230139T2 (de) Anordnung zur signalverarbeitung
EP0595889B1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
EP1159733A1 (de) Verfahren und anordnung zur bestimmung eines repräsentativen lautes
DE4325404C2 (de) Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20150401