DE10043946A1 - Komprimieren von HMM-Prototypen - Google Patents
Komprimieren von HMM-PrototypenInfo
- Publication number
- DE10043946A1 DE10043946A1 DE10043946A DE10043946A DE10043946A1 DE 10043946 A1 DE10043946 A1 DE 10043946A1 DE 10043946 A DE10043946 A DE 10043946A DE 10043946 A DE10043946 A DE 10043946A DE 10043946 A1 DE10043946 A1 DE 10043946A1
- Authority
- DE
- Germany
- Prior art keywords
- neural network
- prototypes
- hmm
- hmm prototypes
- compressed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 102000004169 proteins and genes Human genes 0.000 abstract 1
- 108090000623 proteins and genes Proteins 0.000 abstract 1
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000006837 decompression Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 102000005717 Myeloma Proteins Human genes 0.000 description 1
- 108010045503 Myeloma Proteins Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
Abstract
Es wird ein Verfahren zum Komprimieren des von HMM-Prototypen in einem elektronischen Speicher benötigten Speicherplatzes beschrieben. Dazu werden vorgegebene HMM-Proteine (10) mittels eines Neuronalen Netzes (Codierer) (14) auf komprimierte HMM-Prototypen (16) abgebildet. Diese können mit geringerem Speicherplatz als die unkomprimierten HMM-Prototypen gespeichert werden. Zum Rekonstruieren der HMM-Prototypen dient ein zweites Neuronales Netz (Decodierer) (18).
Description
Die Erfindung betrifft ein Verfahren, ein Computerprogramm
produkt und einen Datenträger zum Komprimieren des von HMM-
Prototypen in einem elektronischen Speicher benötigten Spei
cherplatzes sowie eine Anordnung zur automatischen Spracher
kennung.
Sprachverarbeitungsverfahren sind beispielsweise aus US 6 029 135,
US 5 732 388, DE 196 36 739 C1 und DE 197 19 381 C1
bekannt. Dabei wird natürliche gesprochene Sprache für die
automatische Spracherkennung in letzter Zeit in der Regel
durch sogenannte Hidden-Markov-Modelle (HMM) beschrieben. In
Hidden-Markov-Modellen bezeichnet man mit Emissionswahr
scheinlichkeit die Wahrscheinlichkeit dafür, dass das zu ei
ner Klasse k gehörende Modell einen tatsächlich gesprochenen
Laut bzw. eine tatsächlich gesprochene Lautfolge emittiert
bzw. erzeugt. Die Klasse k kann dabei etwa ein Laut, eine
Lautfolge bzw. ein Wort oder eine Wortfolge sein. Ein HMM-
Prototyp ist der Mittelwert der zugehörigen Emissionswahr
scheinlichkeitsverteilung. Sie werden aus Sprachaufnahmen ge
wonnen.
Die Prototypen ergeben sich aus den aufgenommenen Schall
spektren nach Zerlegung in einzelne spektrale Merkmale und
weiteren mathematischen Transformationen. Sie bestehen aus
einer Anzahl von reellen Zahlen, den Komponenten, und können
somit als Vektoren betrachtet werden. Die einzelnen Komponen
ten haben unterschiedliche Bedeutungen hinsichtlich der Iden
tifizierung oder Zuordnung zu gewissen Lauten.
Hochperformante Erkenner sind auf Hidden-Markov-Modelle mit
vielen Prototypen angewiesen. Der zur Abspeicherung der Pro
totypen benötigte Speicherplatz wächst in der Regel proporti
onal zur Anzahl der Prototypen. Bei den derzeit besten Erken
nern besteht ein Prototyp aus 10 bis 40 Komponenten. Jede
Komponente wird mit 1 bis 4 Byte dargestellt.
Ganzwort-Erkenner zerlegen die Wörter in beliebige phoneti
sche Einheiten, zu denen Prototypen erstellt werden. Sie kom
men mit relativ wenigen Prototypen aus, etwa 1.000 bis 2.000
bei einem Wortschatz von 10 bis 50 Wörtern. Aufgrund des ge
ringen Wortschatzes werden sie für Spezialanwendungen wie
Zahlenerkennen oder Navigation in einem Menü eingesetzt.
Type-in-Erkenner ordnen Prototypen exakt einzelnen Lauten zu.
Sie benötigen 4.000 bis 10.000 Prototypen, wobei jedem Laut
100 und mehr Prototypen zugeordnet werden können. Bei vielen
Anwendungen ist die Verwendung eines type-in-Erkenners vor
teilhaft, da dort der zu erkennende Wortschatz variabel
gehalten werden kann.
Für einen type-in-Erkenner ergibt sich somit ein Speicherbe
darf in der Größenordnung von 40 bis 1.600 Kilobyte. Insbe
sondere bei mobilen Consumer Endgeräten (z. B. Handys, Palm
Pilots etc.) ist der verfügbare Speicherplatz sehr begrenzt,
er liegt derzeit deutlich unter 100 Kilobyte, da die Kosten
des Speichers und die vom Speicher verursachte Verlustleis
tung beschränkende Faktoren darstellen. Um hochperformante
type-in-Erkenner auch für Consumer Endgeräte realisieren zu
können, werden Verfahren benötigt, die eine drastische Komp
rimierung des Speicherbedarfs ermöglichen.
Aufgabe der Erfindung ist es, die Verringerung des von HMM-
Prototypen in einem elektronischen Speicher benötigten Spei
cherplatzes durch Komprimieren zu ermöglichen.
Die Aufgabe wird durch ein Verfahren, ein Computerprogramm
produkt und einen Datenträger zum Komprimieren des von HMM-
Prototypen in einem elektronischen Speicher benötigten Spei
cherplatzes gelöst.
Unter einem Computerprogrammprodukt wird das Computerprogramm
als handelbares Produkt verstanden, in welcher Form auch im
mer, z. B. auf Papier, auf einem computerlesbaren Datenträger,
über ein Netz verteilt etc.
Zunächst werden HMM-Prototypen Xj, (j = 1, . . ., J), mit den
Komponenten X j|k, (k = 1, . . ., N), vorgegeben, wobei J und N
natürliche Zahlen sind. Typische Werte für J liegen, wie ein
gangs erwähnt, bei 1.000 oder 10.000, bei extremen Hoch
leistungserkennern auch bei 100.000. N liegt, wie oben er
wähnt, in der Regel zwischen 10 und 40. Die HMM-Prototypen Xj
werden auf komprimierte HMM-Prototypen Yj abgebildet (co
diert), (j = 1, . . ., J), wobei Yj die Komponenten Y j|m hat, (m
= 1, . . ., M), wobei M eine natürliche Zahl ist. Die Yj sind
auf geringen Speicherplatz hin optimierte Codierungen der Xj.
Nötig ist dann noch ein Decodierer, der die Xj aus den Yj we
nigstens näherungsweise rekonstruiert. Dazu wird ein Neurona
les Netz (Decodierer) vorgesehen. Das Neuronale Netz bildet
die Yj auf rekonstruierte HMM-Prototypen X'j ab (decodiert),
(j = 1, . . ., J), mit den Komponenten X' j|k, (k = 1, . . ., N).
Die X'j sind die Rekonstruktionen der Xj.
Die komprimierten HMM-Prototypen Yj bilden somit zusammen mit
dem Decodierer einen assoziativen Speicher für die HMM-
Prototypen Xj.
Um eine optimale Komprimierung der HMM-Prototypen zu errei
chen werden die Yj und der Decodierer derart gewählt,
- - dass einerseits der Abstand zwischen Xj und X'j mini miert wird, und
- - dass andererseits der für die Yj und den Decodierer benötigte Speicherplatz in einem elektronischen Speicher mi nimiert wird.
Ein Erkenner, z. B. in einem Handy, braucht nach der erfin
dungsgemäßen Komprimierung nur noch die komprimierten HMM-
Prototypen Yj und die Struktur und die Gewichte des Decodie
rers in Form eines Neuronalen Netzes abzuspeichern.
Um eine flexible Optimierung auch der Codierung zu ermögli
chen, kann für die Abbildung (Codierung) der HMM-Prototypen
Xj auf die komprimierten HMM-Prototypen Yj ein Codierer vor
gesehen werden. In einer vorteilhaften Weiterbildung der Er
findung kann als Codierer ein Neuronales Netz gewählt werden.
Zum Abspeichern der komprimierten HMM-Prototypen Yj sind le
diglich Binärzahlen geeignet. Daher werden die erzeugten Y j|m
in Binärzahlen YQ j|m, (j = 1, . . ., J), (m = 1, . . ., M), umge
wandelt. Wird der Codierer in Form eines Neuronalen Netzes
ausgebildet, so sind die Y j|m reelle Zahlen. Es bietet sich
dann die Zwischenschaltung eines Bit-Codierers an. Wird die
Codierung nicht mit Hilfe eines Neuronalen Netzes durchge
führt, so kann eine unmittelbare Abbildungen der X j|k in Bi
närzahlen Y j|m erfolgen. Struktur und Parameter des als Deco
dierer arbeitenden Neuronalen Netzes werden derart gewählt,
dass der Decodierer die Binärzahlen YQ j|m auf die X' j|k abbil
den kann. Insgesamt werden Struktur und Parameter des Codie
rers, des Bit-Codierers und des Decodierers derart gewählt,
dass die Binärzahlen YQ j|m aus möglichst wenigen Bits beste
hen, um das Ziel einer optimalen Komprimierung und damit ge
ringen Speicherbedarfs zu erreichen. Im Idealfall bestehen
die YQ j|m jeweils nur aus 1 Bit.
Im Extremfall haben die Yj nur eine einzige Komponente, d. h.
M = 1. Zusätzlich kann YQ j|1 grundsätzlich auf 1 gesetzt wer
den. Dann brauchen die Yj selbst nicht mehr abgespeichert zu
werden. Sie entsprechen dann schlicht jeweils einem Eingangs
knoten des Neuronalen Netzes des Decodierers. Zum Rekon
struieren der HMM-Prototypen wird dem Neuronalen Netz des De
codierers lediglich die Nummer j des benötigten HMM-
Prototypen vorgegeben.
Das Training des als Decodierer arbeitenden Neuronalen Netzes
erfolgt mittels der Yj an den Eingängen und der Xj an den
Ausgängen. Die vom Neuronalen Netz erzeugten X'j werden auf
ihren Abstand zu den Xj hin untersucht. Der Abstand kann da
bei beispielsweise ein Euklidisches Maß im Vektorraum der Xj
sein. Eine bessere Dekomprimierungsgenauigkeit wird erreicht,
wenn zum Bestimmen des Abstands zwischen den Xj und den X'j
die Komponenten mit höherer Diskriminierungsfähigkeit stärker
gewichtet werden. Die Diskriminierungsfähigkeit einer Kompo
nente ist die Bedeutung dieser Komponente für die Entschei
dung über die Zuordnung (Klassifizierung) eines aufgenommenen
Lauts zu dem HMM-Prototypen, zu dem die Komponente gehört.
Die Aufgabe wird ferner durch eine Anordnung zur automati
schen Spracherkennung gelöst, die ein Neuronales Netz zum Be
rechnen von Sprachmustern, z. B. HMM-Prototypen, aufweist.
Ferner hat die Anordnung eine Eingabe für ein Sprachsignal.
In der Regel ist dies eine transformierte Aufnahme des
Schalls. Ein Erkenner verwendet zum Erkennen des eingegebenen
Sprachsignals als Sprachmuster die Ausgabewerte des Neurona
len Netzes. Die Ergebnisse des Erkenners werden über eine
Ausgabe in Form eines Signals, das dem erkannten Sprachsignal
entspricht, ausgegeben. Die Anordnung kann Teil eines Handys,
Handhelds, Kleinstcomputers, Notebooks, Computers oder ähnli
chem sein.
Sind die eingangs erwähnten komprimierten HMM-Prototypen Yj
nicht unmittelbar je einem Eingangsknoten des als Decodierer
arbeitenden Neuronalen Netzes zugeordnet, so weist die Anord
nung ferner einen Speicher zum Speichern von komprimierten
Sprachmustern Yj auf, z. B. zum Speichern von komprimierten
HMM-Prototypen. Die Yj dienen als Eingaben für die Eingänge
des Neuronalen Netzes.
Weitere vorteilhafte Weiterbildungen der Erfindung sind in
den Unteransprüchen gekennzeichnet.
Im folgenden wird die Erfindung anhand von Ausführungsbei
spielen näher erläutert, die in den Figuren schematisch dar
gestellt sind. Gleiche Bezugsziffern in den einzelnen Figuren
bezeichnen dabei gleiche Elemente. Im einzelnen zeigt:
Fig. 1 eine schematische Darstellung des Zusammenwirkens
von Codierer und Decodierer zum Komprimieren von
HMM-Prototypen;
Fig. 2 die Darstellung gemäß Fig. 2 einschließlich von
Bit-Codierern; und
Fig. 3 eine Anordnung zur automatischen Spracherkennung,
die komprimierte HMM-Prototypen verwendet.
Fig. 1 zeigt einen HMM-Prototypen, der mit Xj bezeichnet ist,
j = 1, . . ., J, wobei J eine natürliche Zahl ist. Die Kompo
nenten X j|1, X j|2 bis X j|N von Xj sind mit den Bezugsziffern 10
gekennzeichnet. Auch N ist eine natürliche Zahl. Die Kompo
nenten werden an Eingänge 12 eines mit NN bezeichneten Neuro
nalen Netzes 14- angelegt. Das Neuronale Netz 14 arbeitet als
Codierer. Es erzeugt komprimierte HMM-Prototypen Yj, j = 1,
. . ., J, wobei J die oben erwähnte natürliche Zahl ist. Yj hat
die Komponenten Y j|1, Y j|2 bis Y j|M, wobei M eine natürliche
Zahl ist. Die Komponenten Y j|m sind mit der Bezugsziffern 16
gekennzeichnet. Die durch das Neuronale Netz 14 erzeugten
Komponenten Y j|m 16 sind reelle Zahlen. Ferner zeigt Fig. 1
ein zweites Neuronales Netz NN 18, das als Decodierer arbei
tet. Es rekonstruiert HMM-Prototypen X'j mit den Komponenten
X' j|1, X' j|2 bis X' j|N, die mit der Bezugsziffer 20 bezeichnet
sind an den Ausgangsknoten 21 des Neuronalen Netzes.
Das erfindungsgemäße Komprimierverfahren beruht auf einer Co
dierung und Decodierung auf der Basis von Neuronalen Net
zen 14, 18. Jeder HMM-Prototypen Xj wird zunächst einer Co
dierung mittels des Neuronalen Netzes 14 unterworfen. Dadurch
wird der HMM-Prototyp Xj auf einen komprimierten HMM-
Prototypen Yj abgebildet. Xj hat N Komponenten; Yj hat M Kom
ponenten, wobei idR M wesentlich kleiner als N ist, um das
Ziel der Komprimierung zu erreichen.
Die komprimierten HMM-Prototypen in Form der Yj können platz
sparend in einem elektronischen Speicher abgelegt werden. Zum
Durchführen von Spracherkennung bedarf es der Rekonstruktion
der ursprünglichen HMM-Prototypen Xj. Dies geschieht mit Hil
fe des Neuronalen Netzes 18. Mit Hilfe des Neuronalen Netzes
18 werden die komprimierten HMM-Prototypen Yj auf rekon
struierte HMM-Prototypen X'j abgebildet.
Fig. 1 zeigt somit ein autoassoziatives Netzwerk bzw. einen
assoziativen Speicher.
Gängige Neuronale Netze, wie das Neuronale Netz 14, liefern
als Ausgabe reelle Zahlen für die Komponenten der komprimier
ten HMM-Prototypen Y j|m. Reelle Zahlen sind zum Abspeicherung
in einem elektronischen Speicher nicht geeignet. Daher ist
dem Codierer 14 noch einen Bit-Codierer 22 nachgeschaltet
(siehe Fig. 2), der die reellen Werte Y j|m in Werte YQ j|m um
wandelt. Der Bit-Codierer führt keine einfache Analog-
Digital-Wandlung durch. Vielmehr kann mit seiner Hilfe geeig
net gewählt werden, welchem reellen Wert welche Bit-
Kombination zugeordnet werden soll und wie viele Bits verwen
det werden sollen.
Das für die Decodierung vorzugsweise verwendete Neuronale
Netz 18 ist ein Multilayer-Perzeptron (MLP), ein schichtori
entiertes, vorwärtsgerichtetes (feed forward) Netz mit einer
geeigneten Vermaschung zwischen den einzelnen Schichten. Als
Aktivierungsfunktion wird die Sigmoidfunktion Sc(x) oder der
tanh(x) verwendet. Für eine hohe Decodierungsgenauigkeit muss
die Anzahl der variablen Parameter ausreichend groß gewählt
werden. Dies kann stets durch geeignete Wahl der Anzahl der
Schichten bzw. durch eine geeignete Anzahl von Neuronen in
den/der versteckten Schicht(en) erreicht werden. Andererseits
erhöht eine große Anzahl von Neuronen bzw. versteckten
Schichten den benötigten Speicherplatz und die zum Decodieren
benötigte Rechenleistung. Im bevorzugten Ausführungsbeispiel
wird daher für das Neuronale Netz nur eine einzige versteckte
Schicht verwendet.
Das Neuronale Netz 14 für die Codierung kann beliebig komplex
gewählt werden, da es nicht in dem zu minimierenden Speicher
platz abgespeichert werden muss.
Neben der Minimierung des Speicherbedarfs sollte die Abwei
chungen zwischen den Xj und den X'j so gering wie möglich
sein. Daher wird beim Training des Neuronalen Netzes 18 als
Optimierungskriterium ein geeigneter Abstand zwischen Xj und
X'j gewählt. Der Abstand kann dabei beispielsweise ein Eukli
disches Maß im Vektorraum der Xj sein, d. h.
Eine bessere Dekomprimierungsgenauigkeit wird erreicht, wenn
zum Bestimmen des Abstands zwischen den Xj und den X'j die
Komponenten mit höherer Diskriminierungsfähigkeit stärker ge
wichtet werden. Die Diskriminierungsfähigkeit einer Komponen
te ist die Bedeutung dieser Komponente für die Entscheidung
über die Zuordnung (Klassifizierung) eines aufgenommenen
Lauts zu dem HMM-Prototypen, zu dem die Komponente gehört.
Das eigentliche Ziel des Decodierens besteht schließlich
nicht darin, das X' die Werte von X gut approximiert, sondern
dass die Fehlerrate des Erkenners bei der automatischen
Spracherkennung unter Verwendung der rekonstruierten HMM-
Prototypen X'j im Vergleich zu den uncodierten HMM-Prototypen
Xj möglichst wenig steigt.
Bei Verwendung der sogenannten "linear discriminant analysis"
(LDA) zum Erzeugen der HMM-Prototypen ausgehend von den auf
genommenen Sprachdaten sind die Komponenten X j|1, . . ., X j|N nach
ihrer Diskriminierungsfähigkeit geordnet. Daher ist eine gute
Approximation der Komponenten für die Werte X j|k mit kleinem
Index k wichtiger als für große Indizes k. Als Abstand wird
daher im bevorzugten Ausführungsbeispiel die Funktionen
verwendet:
wobei ak mit steigendem k fallende Werte annimmt.
Das Training des als Decodierer arbeitenden Neuronalen Net
zes 18 erfolgt mittels der Yj an den Eingängen und der Xj an
den Ausgängen. Die vom Neuronalen Netz erzeugten X'j werden
auf ihren Abstand zu den Xj hin untersucht und die Gewichte
geeignet verändert, um die Abstände im Mittel zu reduzieren.
Nach der Optimierung können die komprimierten HMM-Prototypen
Yj zusammen mit der Struktur und den während des Trainings
bestimmten Gewichten des Neuronalen Netzes sowie deren Indi
zes abgespeichert werden.
Wird ein relativ einfaches Neuronales Netz 18 zum Decodieren
verwendet, so muss die Information über die HMM-Prototypen Xj
im wesentlichen in den komprimierten HMM-Prototypen Xj ge
speichert werden. Bei 4.000 bis 10.000 HMM-Prototypen Xj ei
nes type-in-Erkenners erhält man die gleiche Anzahl kompri
mierter HMM-Prototypen Yj. Diese haben nun aber weniger Kom
ponenten, z. B. nur 5 bis 20 Komponenten pro Prototyp, da M
kleiner als N erreicht werden kann. Ferner hat jede dieser
Komponenten weniger Bits, z. B. nur 2 bis 16 Bits. Daraus er
geben sich 5 bis 400 Kilobyte Speicherbedarf für die kompri
mierten HMM-Prototypen.
Der Speicherbedarf für das Neuronale Netz fällt für ein Netz
mit nur einer versteckten Schicht dagegen kaum ins Gewicht.
Insgesamt kann mit dem beschriebenen Verfahren eine Kompres
sion des Speicherbedarfs um einen Faktor 2 bis 4 erreicht
werden.
Fig. 3 zeigt eine Anordnung zur automatischen Spracherkennung
z. B. in einem Handy. Sie enthält einen Speicher 24 zum Spei
chern von komprimierten HMM-Prototypen Y1 bis YJ. Ferner
weist die Anordnung ein Neuronales Netz 18 zum Decodieren der
komprimierten HMM-Prototypen, d. h. zum Rekonstruieren von
HMM-Prototypen auf. Außerdem zeigt Fig. 3 eine Eingabe 26 für
ein Sprachsignal, in der Regel eine transformierte Aufnahme
des Schalls. Ein Erkenner 28 verwendet zum Erkennen des ein
gegebenen Sprachsignals als Prototypen die Ausgabewerte des
Neuronalen Netzes 18. Die Ergebnisse des Erkenners 28 werden
über eine Ausgabe 30 in Form eines Signals, das dem erkannten
Sprachsignal entspricht, ausgegeben.
Claims (10)
1. Verfahren zum Komprimieren des von HMM-Prototypen in einem
elektronischen Speicher benötigten Speicherplatzes,
wobei HMM-Prototypen (Xj) vorgegeben werden;
wobei die HMM-Prototypen (Xj) auf komprimierte HMM- Prototypen (Yj) abgebildet werden;
wobei ein Neuronales Netz (18) zum Abbilden der komprimier ten HMM-Prototypen (Yj) auf rekonstruierte HMM- Prototypen (X'j) vorgesehen wird; und
wobei die komprimierten HMM-Prototypen (Yj) und das Neuro nale Netz (18) derart gewählt werden, dass sowohl der Abstand zwischen (Xj) und (X'j) als auch der für die rekonstruierten HMM-Prototypen (Yj) des Neuronalen Netzes (18) benötigte Speicherplatz in einem elektronischen Speicher minimiert wer den.
wobei HMM-Prototypen (Xj) vorgegeben werden;
wobei die HMM-Prototypen (Xj) auf komprimierte HMM- Prototypen (Yj) abgebildet werden;
wobei ein Neuronales Netz (18) zum Abbilden der komprimier ten HMM-Prototypen (Yj) auf rekonstruierte HMM- Prototypen (X'j) vorgesehen wird; und
wobei die komprimierten HMM-Prototypen (Yj) und das Neuro nale Netz (18) derart gewählt werden, dass sowohl der Abstand zwischen (Xj) und (X'j) als auch der für die rekonstruierten HMM-Prototypen (Yj) des Neuronalen Netzes (18) benötigte Speicherplatz in einem elektronischen Speicher minimiert wer den.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass zum Abbilden der HMM-Prototypen (Xj) auf die komprimier
ten HMM-Prototypen (Yj) ein Codierer (14) vorgesehen wird.
3. Verfahren nach Anspruch 2,
dadurch gekennzeichnet,
dass als Codierer (14) ein zweites Neuronales Netz gewählt
wird.
4. Verfahren nach mindestens einem der vorhergehenden Ansprü
che,
dadurch gekennzeichnet,
dass die komprimierten HMM-Prototypen (Yj) Komponen ten (Y j|m, 16), (m = 1, . . ., M), haben;
dass die Komponenten (Y j|m) in Binärzahlen (Yq j|m, 23), (j = 1, . . ., J), (m = 1, . . ., M), umgewandelt werden;
dass Struktur und Parameter des Neuronalen Netzes (18) der art gewählt werden, dass das Neuronale Netz die Binärzahlen (Yq j|m, 23) auf die rekonstruierten HMM-Prototypen (X' j|k) ab bilden kann; und
dass Struktur und Parameter des Codierers (14) und des Neu ronalen Netzes (18) derart gewählt werden, dass die Binärzah len (Yq j|m, 23) aus möglichst wenigen Bits bestehen.
dass die komprimierten HMM-Prototypen (Yj) Komponen ten (Y j|m, 16), (m = 1, . . ., M), haben;
dass die Komponenten (Y j|m) in Binärzahlen (Yq j|m, 23), (j = 1, . . ., J), (m = 1, . . ., M), umgewandelt werden;
dass Struktur und Parameter des Neuronalen Netzes (18) der art gewählt werden, dass das Neuronale Netz die Binärzahlen (Yq j|m, 23) auf die rekonstruierten HMM-Prototypen (X' j|k) ab bilden kann; und
dass Struktur und Parameter des Codierers (14) und des Neu ronalen Netzes (18) derart gewählt werden, dass die Binärzah len (Yq j|m, 23) aus möglichst wenigen Bits bestehen.
5. Verfahren nach mindestens einem der vorhergehenden Ansprü
che,
dadurch gekennzeichnet,
dass zum Bestimmen des Abstands zwischen den (Xj) und
den (X'j) die Komponenten mit höherer Diskriminierungsfähig
keit stärker gewichtet werden.
6. Computerprogrammprodukt, das durch einen Computer ausführ
bar ist und dabei die Schritte nach einem der Ansprüche 1 bis
5 ausführt.
7. Computerprogrammprodukt, das auf einem computergeeigneten
Medium gespeichert ist und computerlesbare Programmmittel um
fasst, die es einem Computer ermöglichen, das Verfahren nach
einem der Ansprüche 1 bis 5 auszuführen.
8. Datenträger, auf dem ein Computerprogramm gespeichert ist,
das es einem Computer ermöglicht, durch einen Ladeprozess das
Verfahren nach einem der Ansprüche 1 bis 5 auszuführen.
9. Anordnung zur automatischen Spracherkennung mit
einem Neuronalen Netz (18) zum Berechnen von Sprachmustern;
einer Eingabe (26) für ein Sprachsignal;
einem Erkenner (28) zum Erkennen des eingegebenen Sprach signals, wobei der Erkenner als Sprachmuster die Ausgabewerte des Neuronalen Netzes (18) verwendet; und mit
einer Ausgabe (30) für ein Signal, das dem erkannten Sprachsignal entspricht.
einem Neuronalen Netz (18) zum Berechnen von Sprachmustern;
einer Eingabe (26) für ein Sprachsignal;
einem Erkenner (28) zum Erkennen des eingegebenen Sprach signals, wobei der Erkenner als Sprachmuster die Ausgabewerte des Neuronalen Netzes (18) verwendet; und mit
einer Ausgabe (30) für ein Signal, das dem erkannten Sprachsignal entspricht.
10. Anordnung nach Anspruch 9,
gekennzeichnet durch
einen Speicher (24) zum Speichern von komprimierten Sprach
mustern, die als Eingaben für die Eingänge des Neuronalen
Netzes (18) dienen.
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE10043946A DE10043946C2 (de) | 2000-09-06 | 2000-09-06 | Komprimieren von HMM-Prototypen |
| DE50111184T DE50111184D1 (de) | 2000-09-06 | 2001-08-09 | Komprimieren von HMM-Prototypen |
| ES01119279T ES2270930T3 (es) | 2000-09-06 | 2001-08-09 | Compresion de prototipos hmm (modelos de markov escondidos). |
| EP01119279A EP1187098B1 (de) | 2000-09-06 | 2001-08-09 | Komprimieren von HMM-Prototypen |
| US09/946,783 US6907398B2 (en) | 2000-09-06 | 2001-09-06 | Compressing HMM prototypes |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE10043946A DE10043946C2 (de) | 2000-09-06 | 2000-09-06 | Komprimieren von HMM-Prototypen |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE10043946A1 true DE10043946A1 (de) | 2002-08-29 |
| DE10043946C2 DE10043946C2 (de) | 2002-12-12 |
Family
ID=7655200
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE10043946A Expired - Fee Related DE10043946C2 (de) | 2000-09-06 | 2000-09-06 | Komprimieren von HMM-Prototypen |
| DE50111184T Expired - Lifetime DE50111184D1 (de) | 2000-09-06 | 2001-08-09 | Komprimieren von HMM-Prototypen |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE50111184T Expired - Lifetime DE50111184D1 (de) | 2000-09-06 | 2001-08-09 | Komprimieren von HMM-Prototypen |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US6907398B2 (de) |
| EP (1) | EP1187098B1 (de) |
| DE (2) | DE10043946C2 (de) |
| ES (1) | ES2270930T3 (de) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6681207B2 (en) * | 2001-01-12 | 2004-01-20 | Qualcomm Incorporated | System and method for lossy compression of voice recognition models |
| US7379868B2 (en) | 2002-07-18 | 2008-05-27 | Massachusetts Institute Of Technology | Method and apparatus for differential compression of speaker models |
| US20040132610A1 (en) * | 2003-01-03 | 2004-07-08 | Tagge Christopher D. | Transition metal complexes in the controlled synthesis of polyolefins substituted with functional groups |
| US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
| US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
| US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
| JP4316583B2 (ja) * | 2006-04-07 | 2009-08-19 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
| US8239195B2 (en) * | 2008-09-23 | 2012-08-07 | Microsoft Corporation | Adapting a compressed model for use in speech recognition |
| US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
| US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
| US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
| US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
| US8484022B1 (en) * | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
| US8849667B2 (en) * | 2012-07-31 | 2014-09-30 | Novospeech Ltd. | Method and apparatus for speech recognition |
| US9767410B1 (en) | 2014-10-03 | 2017-09-19 | Google Inc. | Rank-constrained neural networks |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19636739C1 (de) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
| US5696877A (en) * | 1990-05-10 | 1997-12-09 | Nec Corporation | Pattern recognition using a predictive neural network |
| DE19719381C1 (de) * | 1997-05-07 | 1998-01-22 | Siemens Ag | Verfahren zur Spracherkennung durch einen Rechner |
| US5732388A (en) * | 1995-01-10 | 1998-03-24 | Siemens Aktiengesellschaft | Feature extraction method for a speech signal |
| US6029135A (en) * | 1994-11-14 | 2000-02-22 | Siemens Aktiengesellschaft | Hypertext navigation system controlled by spoken words |
| DE69421354T2 (de) * | 1993-09-03 | 2000-07-13 | Microsoft Corp., Redmond | Datenkompression für die Spracherkennung |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5758021A (en) * | 1992-06-12 | 1998-05-26 | Alcatel N.V. | Speech recognition combining dynamic programming and neural network techniques |
| US5535305A (en) * | 1992-12-31 | 1996-07-09 | Apple Computer, Inc. | Sub-partitioned vector quantization of probability density functions |
| EP0654755B1 (de) * | 1993-11-23 | 2000-08-02 | International Business Machines Corporation | Anlage und Verfahren zur automatischen Handschrifterkennung mittels eines benutzerunabhängigen chirographischen Labelalphabets |
| US6052481A (en) * | 1994-09-02 | 2000-04-18 | Apple Computers, Inc. | Automatic method for scoring and clustering prototypes of handwritten stroke-based data |
| US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
| US6151592A (en) * | 1995-06-07 | 2000-11-21 | Seiko Epson Corporation | Recognition apparatus using neural network, and learning method therefor |
| JP3006507B2 (ja) * | 1996-10-03 | 2000-02-07 | 日本電気株式会社 | パターン間距離計算装置 |
| US6178398B1 (en) * | 1997-11-18 | 2001-01-23 | Motorola, Inc. | Method, device and system for noise-tolerant language understanding |
| US6151414A (en) * | 1998-01-30 | 2000-11-21 | Lucent Technologies Inc. | Method for signal encoding and feature extraction |
| US6076053A (en) * | 1998-05-21 | 2000-06-13 | Lucent Technologies Inc. | Methods and apparatus for discriminative training and adaptation of pronunciation networks |
-
2000
- 2000-09-06 DE DE10043946A patent/DE10043946C2/de not_active Expired - Fee Related
-
2001
- 2001-08-09 EP EP01119279A patent/EP1187098B1/de not_active Expired - Lifetime
- 2001-08-09 ES ES01119279T patent/ES2270930T3/es not_active Expired - Lifetime
- 2001-08-09 DE DE50111184T patent/DE50111184D1/de not_active Expired - Lifetime
- 2001-09-06 US US09/946,783 patent/US6907398B2/en not_active Expired - Fee Related
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5696877A (en) * | 1990-05-10 | 1997-12-09 | Nec Corporation | Pattern recognition using a predictive neural network |
| DE69421354T2 (de) * | 1993-09-03 | 2000-07-13 | Microsoft Corp., Redmond | Datenkompression für die Spracherkennung |
| US6029135A (en) * | 1994-11-14 | 2000-02-22 | Siemens Aktiengesellschaft | Hypertext navigation system controlled by spoken words |
| US5732388A (en) * | 1995-01-10 | 1998-03-24 | Siemens Aktiengesellschaft | Feature extraction method for a speech signal |
| DE19636739C1 (de) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
| DE19719381C1 (de) * | 1997-05-07 | 1998-01-22 | Siemens Ag | Verfahren zur Spracherkennung durch einen Rechner |
Also Published As
| Publication number | Publication date |
|---|---|
| DE50111184D1 (de) | 2006-11-23 |
| DE10043946C2 (de) | 2002-12-12 |
| US20020046031A1 (en) | 2002-04-18 |
| ES2270930T3 (es) | 2007-04-16 |
| EP1187098A2 (de) | 2002-03-13 |
| EP1187098B1 (de) | 2006-10-11 |
| EP1187098A3 (de) | 2003-01-22 |
| US6907398B2 (en) | 2005-06-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE10043946C2 (de) | Komprimieren von HMM-Prototypen | |
| DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
| DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
| DE69031165T2 (de) | System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen | |
| DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
| DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
| DE69421354T2 (de) | Datenkompression für die Spracherkennung | |
| DE69827586T2 (de) | Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung | |
| DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
| DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
| DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
| DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
| DE69613338T2 (de) | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten | |
| DE69521164T2 (de) | System zum Kodieren und Dekodieren von Signalen | |
| DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln | |
| DE602004003512T2 (de) | Kompression gausscher Modelle | |
| DE602004002312T2 (de) | Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells | |
| DE10018134A1 (de) | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen | |
| DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
| DE602004004572T2 (de) | Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung | |
| DE69327997T2 (de) | Gerät zur spracherkennung mit neuronalem netzwerk und lernverfahren dafür | |
| DE69230139T2 (de) | Anordnung zur signalverarbeitung | |
| EP0595889B1 (de) | Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache | |
| EP1159733A1 (de) | Verfahren und anordnung zur bestimmung eines repräsentativen lautes | |
| DE4325404C2 (de) | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OP8 | Request for examination as to paragraph 44 patent law | ||
| D2 | Grant after examination | ||
| 8364 | No opposition during term of opposition | ||
| R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee | ||
| R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20150401 |