DE60124559T2

DE60124559T2 - Einrichtung und verfahren zur spracherkennung

Info

Publication number: DE60124559T2
Application number: DE60124559T
Authority: DE
Inventors: Toshiyuki Fujisawa-shi MIYAZAKI; Yoji Machida-shi ISHIKAWA
Original assignee: Asahi Kasei Corp; Asahi Chemical Industry Co Ltd
Current assignee: Asahi Kasei Corp; Asahi Chemical Industry Co Ltd
Priority date: 2000-07-13
Filing date: 2001-07-13
Publication date: 2007-09-06
Anticipated expiration: 2021-07-14
Also published as: AU2001269521A1; EP1308929B1; US7272561B2; JP3888543B2; EP1308929A4; CN1441948A; US20050119883A1; EP1308929A1; KR100547533B1; DE60124559D1; WO2002007146A1; CN1185621C; KR20030014331A

Description

Die vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren unter Verwendung von Hidden-Markov-Modellen (HMM). Insbesondere ermöglicht es die vorliegende Erfindung, den Klang von in einer Vokabelliste enthaltenen Wörtern mit hoher Genauigkeit zu erkennen und die Speicheranforderungen zu reduzieren, selbst wenn die Sprachmerkmale mit dem Alter oder dem Geschlecht des Sprechers variieren, oder wenn mehr als eine Art existiert, um ein einzelnes Vokabularelement auszusprechen, beispielsweise wenn es umgangssprachlich ausgedrückt wird.
Stand der Technik
Die Technologie zur Erkennung festgelegter Wörter, die nicht spezifizierten Benutzern gemeinsam sind, ist allgemein als sprecherunabhängige Spracherkennung bekannt. Bei der sprecherunabhängigen Spracherkennung werden Informationen über Merkmalsparameter festgelegter Wörter, die nicht spezifizierten Benutzern gemeinsam sind, in einer Speichereinheit, wie beispielsweise einem ROM, gesammelt.
Bekannte Verfahren zum Umwandeln von Sprachproben in eine Abfolge von Merkmalsparametern umfassen die Cepstrumanalyse und die lineare prädiktive Analyse. Daneben werden Hidden-Markov-Modelle verwendende Verfahren im allgemeinen verwendet, um Informationen (Daten) über Merkmalsparameter festgelegter Wörter, die nicht spezifizierten Sprechern bekannt sind, aufzubereiten und die Informationen mit der aus eingehender Sprache umgewandelten Abfolge von Merkmalsparametern zu vergleichen.
Die sprecherunabhängige Spracherkennung mittels Hidden-Markov-Modellen ist im Detail in "Digital Signal Processing for Speech and Sound Information" (von Kiyohiro Shikano, Tetsu Nakamura und Shiro Ise (Shokodo, Ltd.)) beschrieben.
Beispielsweise wird im Falle der japanischen Sprache eine in Kapitel 2 von "Digital Signal Processing for Speech and Sound Information" beschriebene Phonemgruppe als Spracheinheit verwendet und jedes Phonem wird unter Verwendung eines Hidden-Markov-Modells nachgebildet. 6 zeigt eine Liste von Phonemgruppen-Labels. Das Wort "Hokkaido" kann beispielsweise mittels eines Netzwerks (Folge von für festgelegte Wörter verwendete Label) von Phonem-Labels nachgebildet werden, die Sprechern gemeinsam sind.
Wenn die in 7(A) dargestellte Abfolge von Labels für festgelegte Wörter und die in 7(B) dargestellte Phonemmodelldaten basierend auf entsprechenden Hidden-Markov-Modellen gegeben sind, kann der Fachmann auf diesem Gebiet leicht eine sprecherunabhängige Spracherkennungsvorrichtung unter Verwendung des in Kapitel 4 von "Digital Signal Processing for Speech and Sound Information" beschriebenen Viterbi-Algorithmus konstruieren.
In 7(B) gibt a(I, J) die Wahrscheinlichkeit des Übergangs von dem Zustand I in den Zustand J an. Beispielsweise gibt a(I, 1) in der Figur die Wahrscheinlichkeit des Übergangs von dem Zustand 1 in den Zustand 1 an. Ferner gibt b(I, x) die Ausgabewahrscheinlichkeit im Zustand I an, wenn der akustische Parameter (Merkmalsparameter) x erhalten wird. Somit gibt b(I, x) in der Figur den Ausgabeparameter im Zustand 1 an, wenn der akustische Parameter x erhalten wird.
Daneben gibt pI in der 7(B) die Wahrscheinlichkeit des Zustands I an und wird entsprechend der nachfolgenden Gleichung (I) aktualisiert. pI = max (p(I-1) x a(I-1, I), pI x a(I, I)) x b(I, X) (1)max( ) auf der rechten Seite der Gleichung (1) bedeutet, daß das größte Produkt unter den Produkten in max( ) gewählt wird. Das gleiche gilt im folgenden.
Als nächstes wird ein Gesamt-Flussdiagramm der Spracherkennung unter Verwendung der zuvor beschriebenen Hidden-Markov-Modelle, die Männern und Frauen gemeinsam sind, unter Bezugnahme auf 8 beschrieben.
Zunächst werden Merkmalsparameter in einem Sprachsignal erkannt (aus diesem extrahiert). Anschließend werden Eintrittswahrscheinlichkeiten der Merkmalsparametersequenz unter Verwendung der Gleichung (1) unter Bezugnahme auf die erkannten Merkmalsparameter und vorab bestimmten Männern und Frauen gemeinsamen Hidden-Markov-Modellen M1, M2, ... Mn berechnet. Anschließend wird die höchste Wahrscheinlichkeit unter den berechneten Wahrscheinlichkeiten gewählt, und die Phonemlabelsequenz, welche die höchste Wahrscheinlichkeit aufweist, wird als Erkennungsergebnis für den Spracheingang erhalten.
Die akustischen Bedingungen unterscheiden sich im allgemeinen zwischen erwachsenen Männern und Frauen aufgrund der Unterschiede in der Stimmtraktlänge. Bei einem Verfahren (Multi-Template), das manchmal zur Verbesserung von Spracherkennungsraten verwendet wird, werden unter Verwendung männlicher Stimmendaten und weiblicher Stimmendaten ein akustisches Modell für Männer und ein akustisches Modell für Frauen separat erstellt, wie in 9(A) gezeigt, und anschließend werden, wie in 9(B) gezeigt, für Männer und Frauen Hidden-Markov-Modell-Zustandssequenzen erstellt, welche ein Vokabular bilden, das, wenn es gesprochen wird, erkannt werden soll. Ein Beispiel für dieses Verfahren ist in US 5 865 626 beschrieben, das am 02.02.1999 veröffentlicht wurde.
In 9(B) gibt a(I, J) die Wahrscheinlichkeit des Übergangs eines Modells für Frauen von dem Zustand I in den Zustand J an, während A(I, J) die Wahrscheinlichkeit des Übergangs eines Modells für Männer von dem Zustand I in den Zustand J angibt. Ferner gibt b(I, x) eine Ausgabewahrscheinlichkeit im Zustand I an, wenn der akustische Parameter x des Modells für Frauen erhalten wird, während B(I, x) die Ausgabewahrscheinlichkeit im Zustand I angibt, wenn der akustische Parameter x des Modells für Männer erhalten wird.
Ferner gibt pI in 9(B) die Wahrscheinlichkeit des Zustands I des Modells für Frauen an und wird entsprechend der nachfolgenden Gleichung (2) aktualisiert. pI = max (p(I-1) x a(I-1, I), pI x a(I, I)) x b(I, X) (2)
Ferner gibt PI in 9(B) die Wahrscheinlichkeit des Zustands I des Modells für Männer an und wird entsprechend der nachfolgenden Gleichung (3) aktualisiert. PI = max (P(I-1) x A(I-1, I), PI x A(I, I)) x B(I, X) (3)
Im folgenden wird anhand der 10 ein Gesamtflussdiagramm der Spracherkennung unter Verwendung der vorgenannten beiden Arten von Hidden-Markov-Modellen für Männer und Frauen beschrieben.
Zunächst werden Merkmalsparameter in einem Sprachsignal erkannt (aus diesem extrahiert). Anschließend werden anhand der erkannten Merkmalsparameter, vorab bestimmter Hidden-Markov-Modelle (Wörter) Ma1, Ma2, ..., Man für Männer, und vorab bestimmter Hidden-Markov-Modelle (Wörter) Mb1, Mb2, ..., Mbn für Frauen, Eintrittswahrscheinlichkeiten unter Verwendung der Gleichungen (2) und (3) berechnet. Anschließend wird die größte Wahrscheinlichkeit aus den berechneten Wahrscheinlichkeiten gewählt, und die Phonemlabelsequenz, welche die größte Wahrscheinlichkeit ergibt, wird als Erkennungsergebnis für die Eingangssprache erhalten.
In diesem Fall ist die Spracherkennungsrate im Vergleich zu dem Fall erhöht, in dem ein akustisches Modell (Hidden-Markov-Modell) aus männlichen Stimmendaten und weiblichen Stimmendaten gebildet ist, jedoch verdoppelt sich der zum Bilden eines Vokabulars benutzte Speicher im Vergleich zur Verwendung eines gemeinsamen Modells für Männer und Frauen. Ferner vergrößert sich aus der Speicher zum Speichern von Informationen über Wahrscheinlichkeiten verschiedner Zustände.
Wie zuvor beschrieben, verbessert die Verwendung von geschlechtsspezifischen akustischen Multi-Template-Modellen für die sprecherunabhängige Spracherkennung die Spracherkennungsrate im Vergleich zu der Verwendung eines aus männlichen Stimmendaten und weiblichen Stimmendaten erstellten akustischen Modells, jedoch verdoppelt die Einführung des Multi-Templates praktisch das Vokabular, was zu einem erhöhten Speicherbedarf führt.
In jüngerer Zeit nahm die Nachfrage nach Spracherkennung bei Anwendungsprogrammen seitens eines zunehmend breiter werdenden Spektrums von Altersgruppen zu, und eine hohe Spracherkennungsrate wird ungeachtet der Altersgruppe gewünscht. Somit ist vorstellbar, dass in Zukunft akustische Modelle für erwachsene Männer, erwachsene Frauen, Kinder im Grundschulalter und jünger, und alte Menschen verwendet werden. In diesem Fall vervierfacht sich das Vokabular praktisch, wodurch die Speicheranforderungen weiter steigen.
Je größer das Vokabular ist, desto stärker ist der Zuwachs an Speichererfordernis. Dies ist ein großer (Produktions-) Kostennachteil, beispielsweise bei dem Integrieren von Spracherkennung in ein Mobiltelefon. Es ist daher erwünscht, die Zunahme der Speichererfordernis zu begrenzen und die Produktionskosten zu verringern, während gleichzeitig die Spracherkennungsraten unter Verwendung mehrerer akustischer Modelle verbessert werden soll.
Selbst wenn ein gemeinsames akustisches Modell für Männer und Frauen verwendet wird, wird ein einzelnes Vokabularelement (Wort) als zwei Vokabularelemente behandelt, wenn es unterschiedliche umgangssprachliche Sprechweisen aufweist. Beispielsweise kann das Wort "Hokkaido" auf zwei Arten ausgesprochen werden: "hotskaidou" und "hotskaidoo". Dies kann durch Verwenden des in 11 dargestellten Viterbi-Algorithmus gelöst werden.
In 11(B) gibt au(I, J) die Wahrscheinlichkeit des Übergangs des Phonems u von dem Zustand I in den Zustand J an, während ao(I, J) die Wahrscheinlichkeit des Phonems o von dem Zustand I in den Zustand J angibt. Ferner gibt bu(I, X) die Ausgabewahrscheinlichkeit im Zustand I an, wenn der akustische Parameter x des Phonems u erhalten wird, während bo(I, x) die Ausgabewahrscheinlichkeit im Zustand I angibt, wenn der akustische Parameter x des Phonems o erhalten wird.
Ferner gibt uI in der 11(B) die Wahrscheinlichkeit des Zustands I des Phonems u an und wird entsprechend der nachfolgenden Gleichung (4) aktualisiert. uI = max (u(I-1) x au(I-1, I), uI x au(I, I)) x bu(I, X) (4)
Ferner gibt oI in 9(B) die Wahrscheinlichkeit des Zustands I des Phonems o an und wird entsprechend der nachfolgenden Gleichung (5) aktualisiert. oI = max (o(I-1) x ao(I-1, I), oI x ao(I, I)) x bo(I, X) (5)
Wiederum steigen die Speichererfordernisse wie bei der Verwendung von geschlechtsspezifischen akustischen Multi-Template-Modellen.
Es ist daher die Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren zu schaffen, welche die Genauigkeit der Spracherkennungsraten verbessern können, ohne die Speicherkapazität des Arbeitsspeichers oder dergleichen für die Spracherkennung zu vergrößern.
Offenbarung der Erfindung
Die vorliegende Erfindung schafft eine Spracherkennungsvorrichtung nach Anspruch 1 zum Erkennen der Sprache von nicht spezifizierten Sprechern unter Verwendung von Hidden-Markov-Modellen, wobei die Vorrichtung aufweist: eine Erkennungseinrichtung zum Erkennen von Merkmalsparametern von Eingangssprache; eine Erkennungsdatenspeichereinrichtung zum Vorabspeichern von Ausgangswahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten, die als Argumente die Merkmalsparameter verwenden, welche in mehreren vorbestimmten Hidden-Markov-Modellen voreingestellt sind, welche jedes von mehreren vorbestimmten Wörtern repräsentieren; eine Erkennungseinrichtung zum Bestimmen der Wahrscheinlichkeit des Eintretens, dass eine Abfolge der Merkmalsparameter auftritt, in bezug auf die von der Erkennungseinrichtung erkannten Merkmalsparameter und auf die Hidden-Markov-Modelle, dadurch gekennzeichnet, dass die Erkennungseinrichtung jedem der Wörter in dem Vorgang des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines der Hidden-Markov-Modelle zuweist, das den mehreren Arten von Hidden-Markov-Modellen gemeinsam ist, und die Erkennungseinrichtung jedes aus einem Ausgangswahrscheinlichkeitsfunktionswert und einer Übergangswahrscheinlichkeit gebildete Paar unter den in der Erkennungsdatenspeichereinrichtung gespeicherten Ausgangswahrscheinlichkeitsfunktionswerten und Übergangswahrscheinlichkeiten miteinander multipliziert, das größte Produkt als die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells wählt, die Eintrittswahrscheinlichkeit basierend auf dem gewählten größten Produkt bestimmt, und anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit erkennt.
Ausführungsformen der erfindungsgemäßen Spracherkennungsvorrichtung umfassen eine Spracherkennungsvorrichtung, die dadurch gekennzeichnet ist, dass die zuvor beschriebene Erkennungseinrichtung die Übergangswahrscheinlichkeit jedes Zustands des Hidden-Markov-Modells mit den mehreren Arten von Hidden-Markov-Modellen teilt, um die zuvor beschriebene Eintrittswahrscheinlichkeit zu bestimmen.
Ausführungsformen der erfindungsgemäßen Spracherkennungsvorrichtung umfassen eine Spracherkennungsvorrichtung, die dadurch gekennzeichnet ist, dass die zuvor beschriebenen mehreren vorbestimmten Arten von Hidden-Markov-Modellen mindestens zwei Arten umfassen, die unter geschlechtsspezifischen Hidden-Markov-Modellen, mehreren altersspezifischen Hidden-Markov-Modellen und mehreren Hidden-Markov-Modellen, die auf unterschiedliche Arten von Geräuschen enthaltenden Stimmendaten basieren, und anderen Hidden-Markov-Modellen gewählt sind.
Ferner schafft die vorliegende Erfindung ein Spracherkennungsverfahren nach Anspruch 4. Das Verfahren umfasst die folgenden Schritte: Vorabspeichern von Ausgangswahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten in einen Speicher, die als Argumente die Merkmalsparameter verwenden, welche in mehreren vorbestimmten Hidden-Markov-Modellen voreingestellt sind, welche jedes von mehreren vorbestimmten Wörtern repräsentieren; und Erkennen von Merkmalsparametern von Eingangssprache während der Spracherkennung, Bestimmen der Wahrscheinlichkeit des Eintretens, dass eine Sequenz der Merkmalsparameter auftritt, in bezug auf die erkannten Merkmalsparameter und die Hidden-Markov-Modelle, und Erkennen der Eingangssprache basierend auf der derart bestimmten Eintrittswahrscheinlichkeit, dadurch gekennzeichnet, dass das zuvor beschriebene Verfahren jedem der Wörter in dem Vorgang des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines der Hidden-Markov-Modelle zuweist, das den mehreren Arten von Hidden-Markov-Modellen gemeinsam ist, jedes aus einem Ausgangswahrscheinlichkeitsfunktionswert und einer Übergangswahrscheinlichkeit gebildete Paar unter den in dem Speicher gespeicherten Ausgangswahrscheinlichkeitsfunktionswerten und Übergangswahrscheinlichkeiten miteinander multipliziert, das größte Produkt als die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells wählt, und die Eintrittswahrscheinlichkeit basierend auf dem gewählten größten Produkt bestimmt, und anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit erkennt.
Ausführungsformen des erfindungsgemäßen Spracherkennungsverfahrens umfassen ein Spracherkennungsverfahren, das dadurch gekennzeichnet ist, dass die Übergangswahrscheinlichkeit jedes Zustands des zuvor beschriebenen Hidden-Markov-Modells mit den zuvor beschriebenen mehreren Arten von Hidden-Markov-Modellen geteilt wird, um die zuvor beschriebene Eintrittswahrscheinlichkeit zu bestimmen.
Ausführungsformen des erfindungsgemäßen Spracherkennungsverfahrens umfassen ein Spracherkennungsverfahren, das dadurch gekennzeichnet ist, dass die zuvor beschriebenen mehreren vorbestimmten Arten von Hidden-Markov-Modellen mindestens zwei Arten umfassen, die unter geschlechtsspezifischen Hidden-Markov-Modellen, mehreren altersspezifischen Hidden-Markov-Modellen und mehreren Hidden-Markov-Modellen, die auf unterschiedliche Arten von Geräuschen enthaltenden Stimmendaten basieren, und anderen Hidden-Markov-Modellen gewählt sind.
Auf diese Weise verwendet die vorliegende Erfindung mehrere Arten von Hidden- Markov-Modellen (akustische Modelle), erkennt jedoch Vokabularelemente (Wörter) ohne die Verwendung von Multi-Templates während der Spracherkennung. Sie kann somit die Genauigkeit von Spracherkennungsraten verbessern, ohne die Speicherkapazität des Arbeitsspeichers oder dergleichen für die Spracherkennung zu vergrößern.
Selbst wenn mehr als eine Art existiert, ein einzelnes Vokabularelement auszusprechen, beispielsweise, wenn es umgangssprachlich ausgesprochen wird, kann die vorliegende Erfindung die Genauigkeit der Spracherkennungsraten unter Verwendung einer Art von Hidden-Markov-Modell verbessern, ohne die Speicherkapazität des Arbeitsspeichers oder dergleichen für die Spracherkennung zu vergrößern.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm zur Darstellung eines Konfigurationsbeispiels eines Ausführungsbeispiels einer erfindungsgemäßen Spracherkennungsvorrichtung;
2 ist ein erklärendes Diagramm zur Darstellung eines Viterbi-Algorithmus nach einem Ausführungsbeispiel der vorliegenden Erfindung;
3 ist ein erklärendes Diagramm zur Darstellung eines Gesamtablaufs der Erkennungsoperationen nach einem Ausführungsbeispiel der vorliegenden Erfindung;
4 ist ein erklärendes Diagramm zur Darstellung eines Viterbi-Algorithmus nach einem anderen Ausführungsbeispiel der vorliegenden Erfindung;
5 ist ein Diagramm zum Vergleich eines erfindungsgemäßen Beispiels mit herkömmlichen Beispielen auf exemplarische Weise;
6 ist ein Diagramm, das eine Liste von Phonemgruppenlabeln zeigt;
7 ist ein Diagramm, das einen Viterbi-Algorithmus zeigt, der ein herkömmliches gemeinsames Hidden-Markov-Modell für Männer und Frauen verwendet;
8 ist ein Diagramm zur Darstellung des Gesamtablaufs der Erkennungsoperationen unter Verwendung des herkömmlichen gemeinsamen Hidden-Markov-Modells für Männer und Frauen;
9 ist ein Diagramm zur Darstellung eines Viterbi-Algorithmus, der herkömmliche geschlechtsspezifische Multi-Template-Hidden-Markov-Modelle verwendet;
10 ist ein Diagramm zur Darstellung des Gesamtablaufs der Erkennungsoperationen unter Verwendung der herkömmlichen geschlechtsspezifischen Multi-Template-Hidden-Markov-Modelle; und
11 ist ein Diagramm zur Darstellung eines herkömmlichen Beispiels für einen Viterbi-Algorithmus, der ein gemeinsames Hidden-Markov-Modell für Männer und Frauen verwendet, wenn ein Vokabularelement auf zwei Arten ausgesprochen werden kann.
Beste Art der Durchführung der Erfindung
Im folgenden werden Ausführungsbeispiele der vorliegenden Erfindung unter Bezugnahme auf die zugehörigen Zeichnungen beschrieben.
Ein Ausführungsbeispiel einer erfindungsgemäßen Spracherkennungsvorrichtung wird anhand der 1 bis 3 beschrieben.
Die Spracherkennungsvorrichtung gemäß diesem Ausführungsbeispiel umfasst zumindest ein Mikrophon 1, einen A/D-Wandler 2, einen Merkmalswertdetektor 3, eine Spracherkennungseinrichtung 4, eine Ausgabeeinheit 5, einen ROM 6, und einen RAM 7, wie in 1 dargestellt.
Das Mikrophon 1 wandelt Sprache in ein entsprechendes analoges elektrisches Signal um. Der A/D-Wandler 2 wandelt das analoge Signal in ein digitales Signal um. Der Merkmalswertdetektor 3 bestimmt Merkmalsparameter basierend auf dem digitalen Signal und wandelt die bestimmten Merkmalsparameter in eine Zeitfolge um.
Die Spracherkennungseinrichtung 4 erkennt die Sprache nicht spezifizierter Sprecher unter Verwendung von Hidden-Markov-Modellen nach im folgenden noch beschriebenen Abläufen. Details der Erkennungsabläufe werden später be schrieben. Die Ausgabeeinheit 5, bei der es sich beispielsweise um eine Anzeigeeinheit handeln kann, gibt Erkennungsergebnisse aus, die von der Spracherkennungseinrichtung 4 erzeugt wurden.
Der ROM ist ein Nur-Lese-Speicher, in dem die noch zu beschreibenden Spracherkennungsabläufe, noch zu beschreibende Wahrscheinlichkeitsdaten über Hidden-Markov-Modelle für Frauen, noch zu beschreibende Wahrscheinlichkeitsdaten über Hidden-Markov-Modelle für Männer, etc. gespeichert sind.
Der RAM ist ein frei lesbarer/beschreibbarer Direktzugriffsspeicher, der, wie noch zu beschreiben, während der Spracherkennung als Arbeitsspeicher verwendet wird. Er speichert beispielsweise erforderliche Daten und Ergebnisdaten zeitweilig während des Spracherkennungsvorgangs.
Im folgenden werden die Spracherkennungsoperationen der Spracherkennungsvorrichtung gemäß diesem Ausführungsbeispiel mit der beschriebenen Konfiguration unter Bezugnahme auf die Zeichnungen beschrieben.
Nach diesem Ausführungsbeispiel werden zwei Arten von Hidden-Markov-Modellen, Hidden-Markov-Modelle für Männer und für Frauen vorab für Vokabularelemente (Wörter) vorbereitet, wie "Hokkaido", "Aomori" und "Akita", die bei der Erkennung der Sprache nicht spezifizierter Sprecher erkannt werden sollen. Ferner werden Konstante, die zur Bildung mehrerer Paare einer Übergangswahrscheinlichkeit und einer Ausgabewahrscheinlichkeitsfunktion für individuelle Zustände jedes Hidden-Markov-Modells verwendet werden, voreingestellt und diese Wahrscheinlichkeitsdaten werden in dem ROM 6 vorab gespeichert.
Es sei angenommen, dass beispielsweise ein gesprochenes Wort "hotskaidou" von einem erwachsenen Sprecher (ungeachtet des Geschlechts) durch das Mikrophon 1 eingegeben wird. Die Sprache wird von dem Mikrophon 1 in ein analoges elektrisches Signal und anschließend von dem A/D-Wandler 2 in ein digitales Signal umgewandelt. Der Merkmalswertdetektor 3 bestimmt Merkmalsparameter basierend auf dem digitalen Signal und wandelt diese in Zeitfolgen-Merkmalsparameter um.
Unter Bezugnahme auf die Übergangswahrscheinlichkeiten und die Ausgabewahrscheinlichkeitsfunktionen der separaten Hidden-Markov-Modelle für Männer und Frauen, die in dem ROM 6 gespeichert sind, sowie auf die umgewandelten Zeitfolgen-Merkmalsparameter (akustische Parameter) bestimmt die Spracherkennungseinrichtung 4 die Eintrittswahrscheinlichkeit einer Abfolge der Merkmalsparameter unter Verwendung des in 2 dargestellten Viterbi-Algorithmus und erkennt die Eingangssprache basierend auf der bestimmten Eintrittswahrscheinlichkeit.
2(A) zeigt eine Männern und Frauen gemeinsame Phonemsequenz, während 2(B) eine Hidden-Markov-Modell-Zustandssequenz jedes Phonems darstellt.
In 2(B) gibt a(I, J) die Wahrscheinlichkeit des Übergangs eines Modells für Frauen vom Zustand I in den Zustand J an, während A(I, J) die Wahrscheinlichkeit des Übergangs eines Modells für Männer von dem Zustand I in den Zustand J angibt. Ferner gibt b(I, x) die Ausgabewahrscheinlichkeit im Zustand I an, wenn der akustische Parameter x des Modells für Frauen erhalten wird, während B(I, x) eine Ausgabewahrscheinlichkeit im Zustand I angibt, wenn der akustische Parameter x des Modells für Männer erhalten wird.
Des weiteren gibt pI in der 2(B) die Wahrscheinlichkeit des Zustands I in der gemeinsamen Zustandssequenz für Männer und Frauen an, und wird entsprechend der nachfolgenden Gleichung (6) aktualisiert: PI = max(p(I-1) x PenterI, pI x PselfI) (6),wobei die Wahrscheinlichkeit PselfI und die Wahrscheinlichkeit PenterI durch die Gleichung (7) und die Gleichung (8) angegeben werden. PselfI = max(a(I, I) x b(I, X), A(I, I) x B(I, X)) (7) PenterI = max(a(I-1) x b(I, X), A(I-1) x B(I, X)) (8)
Somit liefert die Spracherkennungseinrichtung 4 eine Zustandssequenz eines gemeinsamen Hidden-Markov-Modells für ein Vokabularelement (Wort), wie bei spielsweise "Hokkaido" oder "Aomori", das separaten Hidden-Markov-Modellen für Männer und Frauen gemeinsam ist.
Anschließend wird die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells für jedes Wort bestimmt. Zu diesem Zweck werden die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Männer voreingestellt sind, unter Verwendung eines bestimmten Merkmalsparameters als Argument (Eingabe) miteinander multipliziert, und die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Frauen voreingestellt sind, werden unter Verwendung eines bestimmten Merkmalsparameters als Argument (Eingabe) miteinander multipliziert. Danach wird der größere der beiden bestimmten Wahrscheinlichkeitswerte (Produkte) gewählt (siehe Gleichungen (7) und (8)).
Die genannten Operationen werden für jeden Zustandsübergang der Hidden-Markov-Modelle durchgeführt, um schließlich die Wahrscheinlichkeiten der Zustände zu bestimmen. Dementsprechend wird eine Zustandssequenz eines Hidden-Markov-Modells für jedes Wort, wie beispielsweise "Hokkaido" oder "Aomori", erzeugt. Jede derart erzeugte Zustandssequenz enthält eine Mischung aus Produkten von Wahrscheinlichkeitsdaten, die auf das Hidden-Markov-Modell für Männer bezogen sind, und Produkten von Wahrscheinlichkeitsdaten, die auf das Hidden-Markov-Modell für Frauen bezogen sind.
Der Gesamtdatenfluss in der Spracherkennungseinrichtung 4 der Spracherkennungsvorrichtung nach diesem Ausführungsbeispiel lässt sich wie in 3 gezeigt zusammenfassen.
Wie in 3 dargestellt, werden zunächst Merkmalsparameter in einem Sprachsignal erkannt (aus diesem extrahiert). Anschließend werden mit Bezug auf die erkannten Merkmalsparameter, vorab bestimmte Hidden-Markov-Modelle (Wörter) Ma1, Ma2, ..., Man für Männer, vorab bestimmte Hidden-Markov-Modelle (Wörter) Mb1, Mb2, ..., Mbn für Frauen, Eintrittswahrscheinlichkeiten der Merkmalsparametersequenz unter Verwendung der Gleichungen (7) und (8) berechnet.
Zur Bestimmung der Wahrscheinlichkeit jedes Zustands des Hidden-Markov-Modells (gemeinsames Hidden-Markov-Modell für Männer und Frauen) für jedes Wort, werden die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Männer voreingestellt sind, unter Verwendung eines bestimmten Merkmalsparameters als Argument miteinander multipliziert, und die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Frauen voreingestellt sind, werden unter Verwendung eines bestimmten Merkmalsparameters als Argument miteinander multipliziert. Danach wird der größere der beiden bestimmten Wahrscheinlichkeitswerte gewählt.
Danach werden die derart gewählten Produkte zum Bestimmen der Eintrittswahrscheinlichkeit jeder Merkmalsparametersequenz summiert. Anschließend wird aus den bestimmten Eintrittswahrscheinlichkeiten die größte Wahrscheinlichkeit gewählt, und die Phonemlabelsequenz, welche die höchste Wahrscheinlichkeit ergibt, wird als das Erkennungsergebnis der Eingangssprache erhalten.
Wie zuvor beschrieben, weist nach diesem Ausführungsbeispiel ein separaten Hidden-Markov-Modellen für Männer und Frauen gemeinsames Wort eine Zustandssequenz eines gemeinsamen Hidden-Markov-Modells auf, und die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells wird bestimmt. Zu diesem Zweck werden die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Männer voreingestellt sind, unter Verwendung eines bestimmten Merkmalsparameters als Argument miteinander multipliziert, und die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Frauen voreingestellt sind, werden unter Verwendung eines bestimmten Merkmalsparameters als Argument miteinander multipliziert. Danach wird der größere der beiden bestimmten Wahrscheinlichkeitswerte gewählt.
Dieses Ausführungsbeispiel kann somit die Erkennungsrate ungeachtet von Unterschieden in Alter und Geschlecht unter Verwendung mehrerer Hidden-Markov-Modelle verbessern.
Nach diesem Ausführungsbeispiel ist ferner ein Hidden-Markov-Modell für die Spracherkennung vorgesehen, das separaten Hidden-Markov-Modellen für Männer und Frauen gemeinsam ist. Infolgedessen kann dieses Ausführungsbeispiel die Speicherkapazität in Abhängigkeit von der Anzahl der zu berechnenden Zustände auf die Hälfte des Speichers verringern, der von dem in den 9 und 10 dargestellten Algorithmus benötigt wird.
Ferner wird bei dem genannten Ausführungsbeispiel die Wahrscheinlichkeit jedes Zustands in der gemeinsamen Zustandssequenz für Männer und Frauen basierend auf den Gleichungen (6) bis (8) bestimmt, anstatt eine Zustandsübergangswahrscheinlichkeit zu verwenden, die einem Modell für Männer und einem Modell für Frauen gemeinsam ist.
Erfindungsgemäß kann jedoch auch eine Zustandsübergangswahrscheinlichkeit verwendet werden, die einem Modell für Männer und einem Modell für Frauen gemeinsam ist. In diesem Fall wird zur Bestimmung einer Wahrscheinlichkeit in einer gemeinsamen Zustandssequenz für Männer und Frauen zuerst die größte Ausgabewahrscheinlichkeit gewählt und anschließend wird die gewählte Ausgabewahrscheinlichkeit mit der gemeinsamen Übergangswahrscheinlichkeit multipliziert.
Im folgenden wird eine Spracherkennungsvorrichtung nach einem anderen Ausführungsbeispiel der vorliegenden Erfindung beschrieben.
Die Spracherkennungsvorrichtung nach diesem Ausführungsbeispiel weist ein Hidden-Markov-Modell auf, um dem Fall Rechnung zu tragen, dass mehr als eine Art existiert, ein einzelnes Vokabularelement auszusprechen, beispielsweise umgangssprachlich.
Die Spracherkennungsvorrichtung nach diesem Ausführungsbeispiel ist ähnlich der Spracherkennungsvorrichtung von 1 konfiguriert, unterscheidet sich jedoch von dieser dadurch, dass noch zu beschreibende Wahrscheinlichkeitsdaten und noch zu beschreibende Erkennungsabläufe in dem ROM 6 vorab gespeichert sind, und dass die in dem ROM 6 gespeicherten Erkennungsabläufe für die Spracherkennungseinrichtung 4 wie noch zu beschreiben ausgeführt sind. Somit werden nur die sich unterscheidenden Teile beschrieben.
Gemäß diesem Ausführungsbeispiel wird jedes zu erkennende Wort durch ein Hidden-Markov-Modell wiedergegeben. Hinsichtlich Wörtern, die mehrere Aussprachemöglichkeiten zulassen, werden Unterschiede in den Aussprachen jedes Worts teilweise durch mehrere Hidden-Markov-Modelle ausgedrückt, während jedes Wort als Ganzes durch ein Hidden-Markov-Modell wiedergegeben ist. Ausgabewahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten, die als Argumente Merkmalsparameter verwenden, welche in diesen Hidden-Markov-Modellen voreingestellt sind, sind in dem ROM 6 vorab gespeichert.
Bei der Spracherkennung bestimmt die Spracherkennungseinrichtung 4 unter Bezugnahme auf die von dem Merkmalswertdetektor 3 gelieferten Merkmalsparameter und auf die Hidden-Markov-Modelle, wie im folgenden beschrieben, Die Eintrittswahrscheinlichkeit einer Folge von Merkmalsparametern und erkennt anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit.
Ferner teilt die Spracherkennungseinrichtung 4 im Verlauf des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines Hidden-Markov-Modells mit den mehreren Hidden-Markov-Modellen für Teilausdrücke.
Ferner multipliziert die Spracherkennungseinrichtung 4 jedes voreingestellte Paar aus einem Ausgabewahrscheinlichkeitsfunktionswert und einer Übergangswahrscheinlichkeit unter den Ausgabewahrscheinlichkeitsfunktionswerten und den Übergangswahrscheinlichkeiten, die in den mehreren Hidden-Markov-Modellen für Teilausdrücke voreingestellt sind, und wählt das größte Produkt als die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells.
Ferner bestimmt die Spracherkennungseinrichtung 4 die Eintrittswahrscheinlichkeit basierend auf dem gewählten größten Produkt und erkennt anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit.
4 zeigt einen Viterbi-Algorithmus, der für die Spracherkennungsvorrichtung nach diesem Ausführungsbeispiel verwendet wird. 4(A) zeigt eine Phonemsequenz für den Fall, dass beispielsweise das Wort "Hokkaido" sowohl als "hotskaidou", als auch als "hotskaidoo" ausgesprochen werden kann, während die 4(B) Hidden-Markov-Modell-Zustände zeigt, welche das letzte Phonem angeben, das sich bei den beiden Aussprachemöglichkeiten unterscheidet.
In 4(B) gibt au(I, J) die Wahrscheinlichkeit des Übergangs des Phonems u von dem Zustand I in den Zustand J an, während ao(I, )) die Wahrscheinlichkeit des Übergangs des Phonems o von dem Zustand I in den Zustand J angibt. Ferner gibt bu(I, x) eine Ausgabewahrscheinlichkeit in dem Zustand I an, wenn der Akustikparameter x des Phonems u erhalten wird, während bo(I, x) eine Ausgabewahrscheinlichkeit in dem Zustand I angibt, wenn der Akustikparameter x des Phonems o erhalten wird.
Ferner gibt pI in 4(B) die Wahrscheinlichkeit des Zustands I in der Zustandssequenz des Phonems u/o und wird entsprechend der folgenden Gleichung (9) aktualisiert. pI = max(p(I-1) x PenterI, pI x Pselfl) (6),wobei die Wahrscheinlichkeit Pselfl und die Wahrscheinlichkeit PenterI durch die Gleichung (10) und die Gleichung (11) angegeben werden. Pselfl = max(au(I, I) x bu(I, X), ao(I, I) x bo(I, X)) (10) PenterI = max(au(I-1) x bu(I, X), ao(I-1) x bo(I, X)) (11)
Der Viterbi-Algorithmus nach diesem Ausführungsbeispiel bewirkt, dass die Spracherkennungseinrichtung 4 eine Zustandssequenz eines Hidden-Markov-Modells aufweist, das dem Phonem u und dem Phonem o gemeinsam ist. Anschließend wird die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells bestimmt. Um die Wahrscheinlichkeit jedes Zustands des Phonems u und des Phonems o zu bestimmen, werden die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit des Phonems u in dem Hidden-Markov-Modell unter Verwendung eines bestimmten Merkmalsparameters miteinander multipliziert, und die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit des Phonems o in dem Hidden-Markov-Modell unter Verwendung eines bestimmten Merkmalsparameters miteinander multipliziert. Danach wird der größere der beiden bestimmten Wahrscheinlichkeitswerte (Produkte) gewählt.
Da, wie zuvor erwähnt, dieses Ausführungsbeispiel eine Zustandssequenz eines Hidden-Markov-Modells zwischen dem Phonem u und dem Phonem o teilt, kann es im Vergleich zu dem Algorithmus der 11 die Speicherkapazität verringern, welche für die Erkennungsberechnung erforderlich ist.
Bei einer verbundenen Erkennung von japanischen Zeichen ohne Begrenzung der Anzahl der Zeichen wurden Erkennungsraten und Speicheranforderungen unter Verwendung von Auswertedaten, welche die Stimmen von 10 Männern und 10 Frauen bei einer Gesamtzahl von 20 Personen umfassten, wobei bei einer Ausstellung aufgenommene Geräusche (Signal-Rauschverhältnis = 10 dB) hinzugefügt wurde, unter drei Bedingungen gemessen: einer Bedingung, bei der gemeinsame akustische Modelle für Männer und Frauen verwendet wurden, eine Bedingung, bei der separate akustische Multi-Template-Modelle für Männer und Frauen verwendet wurden, und eine Bedingung, bei der ein Ausführungsbeispiel (in den 1 bis 3) dargestellt) der vorliegenden Erfindung verwendet wurde. Ferner wurde bei der Viterbi-Verarbeitung gekürzt, so dass etwa 80% sämtlicher Zustände der gemeinsamen Modelle für Männer und Frauen Zustände von Hidden-Markov-Modellen beibehalten konnten. Eine Vergleichstabelle, welche die Erkennungsraten und die Speicheranforderungen der verschiedenen Erkennungsverfahren vergleicht, ist in 5 dargestellt.
Wie aus der 5 ersichtlich, ist gemäß dem Ausführungsbeispiel der vorliegenden Erfindung die durchschnittliche Erkennungsrate im Vergleich mit der "Bedingung, bei der gemeinsame akustische Modelle für Männer und Frauen verwendet wurden", wie auch mit "der Bedingung, bei der separate akustische Multi-Template-Modelle für Männer und Frauen verwendet wurden" verbessert. Auch ist die Anzahl der Personen, für welche die Erkennungsrate niedriger als 60% ist, verringert, wie dies auch bei "der Bedingung, bei der separate akustische Multi-Template-Modelle für Männer und Frauen verwendet wurden" der Fall ist. Dies kann darin begründet sein, dass die Verwendung der separaten Modelle für Männer und Frauen die Tendenz zu geringeren Erkennungsraten für eher maskuline Stimmen oder eher weibliche Stimmen hinsichtlich der akustischen Charakteristiken verringerte, was unter der "Bedingung, bei der gemeinsame akustische Modelle für Männer und Frauen verwendet wurden" festgestellt wurde.
Hinsichtlich des Arbeitsspeichers zum Speichern der Informationen über Hidden-Markov-Modell-Zustände und des Speichers zum Speichern eines Vokabulars, lieferte das Ausführungsbeispiel der vorliegenden Erfindung die gleichen Resultate wie unter der "Bedingung, bei der gemeinsame akustische Modelle für Männer und Frauen verwendet wurden".
Gemäß dem vorgenannten (in den 1 bis 3 gezeigten) Ausführungsbeispiel wird jedes bei der Spracherkennung zu erkennende Wort durch zwei Arten von Hidden-Markov-Modellen, Hidden-Markov-Modelle für Männer und für Frauen, und Ausgabewahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten, die in diesen Hidden-Markov-Modellen voreingestellt sind, in dem ROM 6 vorab gespeichert.
Während der Spracherkennung bestimmt die Spracherkennungseinrichtung 4, in bezug auf die von dem Merkmalswertdetektor 3 gelieferten Merkmalsparameter und die Hidden-Markov-Modelle, die Wahrscheinlichkeit des Eintretens einer Sequenz der Merkmalsparameter, und anschließend erkennt sie die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit.
Ferner weist die Spracherkennungseinrichtung 4 während des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines Hidden-Markov-Modells auf, die den beiden Arten von Hidden-Markov-Modellen für jedes Wort gemeinsam ist. Ferner wird die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells bestimmt. Zu diesem Zweck werden die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Männer voreingestellt sind, unter Verwendung eines bestimmten Merkmalsparameters miteinander multipliziert, und die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Frauen voreingestellt sind, werden unter Verwendung eines bestimmten Merkmalsparameters miteinander multipliziert. Danach wird der größere der beiden bestimmten Wahrscheinlichkeitswerte gewählt.
Zusätzlich zu dem Fall, dass jedes bei der Spracherkennung zu erkennende Wort, wie beschrieben, durch zwei Arten von Hidden-Markov-Modellen, Hidden-Markov-Modelle für Männer und für Frauen, wiedergegeben wird, ist die vorliegende Erfindung jedoch auch nach Bedarf auf die folgenden drei Fälle anwendbar.
Der erste Fall umfasst die Verwendung zweier Arten von Hidden-Markov-Modellen, Hidden-Markov-Modelle für Erwachsene und für Kinder, um jedes bei der Spracherkennung zu erkennende Wort wiederzugeben.
Der zweite Fall umfasst die Verwendung von fünf Arten von Hidden-Markov-Modellen, jeweils für erwachsene Männer, erwachsene Frauen, ältere Männer, ältere Frauen, und Kinder, oder die Verwendung mehrerer separater Hidden-Markov-Modelle für unterschiedliche Altersgruppen.
Der dritte Fall umfasst die Verwendung eines Hidden-Markov-Modells, das auf Stimmendaten basiert, die nicht viel Rauschen enthalten, und eines Hidden-Markov-Modells, das auf Stimmendaten basiert, die viel Rauschen enthalten, um jedes bei der Spracherkennung zu erkennende Wort wiederzugeben.
Wenn beispielsweise eine Spracherkennungsvorrichtung in einem Automobil verwendet wird, ist der Geräuschpegel bei nicht fahrendem Fahrzeug sehr gering, jedoch nehmen die Geräusche mit dem Beschleunigen des Fahrzeugs oder dem Lauterstellen des Radios zu. Das Signal-Rauschverhältnis (S/N-Verhältnis) kann dann –10 dB erreichen.
Bei der Verwendung von Hidden-Markov-Modellen, die auf Stimmendaten mit geringem Geräuschpegel bei einem Signal-Rauschverhältnis von ungefähr 20 dB basieren, verringert sich die Erkennungsleistung mit der Zunahme des Geräuschpegels und wird bei 0 dB oder weniger unpraktisch.
Hingegen wird bei der Verwendung von Hidden-Markov-Modellen, die auf Stimmendaten basieren, denen viele Geräusche mit einem Signal-Rauschverhältnis um –10 dB überlagert sind, eine gute Leistung bei einem Signal-Rauschverhältnis von –10 dB bis 0 dB erhalten, jedoch sinkt die Erkennungsleistung in einer ruhigen Umgebung mit 0 dB oder mehr auf ein unpraktisches Maß.
Somit wird in dem dritten Fall ein Hidden-Markov-Modell, das auf Stimmendaten mit einem Signal-Rauschverhältnis von 20 dB basiert, und ein Hidden-Markov-Modell, das auf Stimmendaten mit einem Signal-Rauschverhältnis von –10 dB basiert, verwendet. Eine hohe Spracherkennungsleistung wird über einen weitern Bereich von Umgebungen von einer geräuschvollen Umgebung mit einem Signal-Rauschverhältnis von –10 dB bis zu einer leisen Umgebung mit einem Signal-Rauschverhältnis von mehr als 20 dB erreicht.
Es existieren verschiedene Arten von Geräuschen, wie beispielsweise die zuvor erwähnten Geräusche in einem fahrenden Automobil, das Treiben in einem Geschäftsgegend, BGM, und Geräusche in Büros, Fabriken und anderen Orten. Das Signal-Rauschverhältnis variiert erheblich. Ein Hidden-Markov-Modell, das auf einer Überlagerung durch relativ ruhige Bürogeräusche basiert, und ein Hidden-Markov-Modell, das auf der Überlagerung durch starke Geräusche, die in einem fahrenden Fahrzeug erzeugt werden, basiert, können somit in Kombination verwendet werden.
Die in dem ersten bis dritten Fall verwendeten Verfahren sind die gleichen wie bei den vorgenannten Ausführungsbeispielen, mit der Ausnahme, dass die beiden zuvor beschriebenen Arten von Hidden-Markov-Modellen verwendet werden, und daher wird auf eine Beschreibung derselben verzichtet.
Bei den vorangehenden Ausführungsbeispiel wurde der Fall beschrieben, dass jedes bei der Spracherkennung zu erkennende Wort durch zwei Arten von Hidden-Markov-Modellen für Männer und für Frauen wiedergegeben wird, und der Fall, dass jedes bei der Spracherkennung zu erkennende Wort in der für den ersten bis dritten Fall beschriebenen Weise ausgedrückt wird.
Jedoch kann erfindungsgemäß jedes bei der Spracherkennung zu erkennende Wort beispielsweise durch vier Arten von Hidden-Markov-Modellen wiedergegeben werden: geschlechtsspezifische Hidden-Markov-Modelle, und zwei Hidden- Markov-Modelle, die auf Stimmendaten basieren, welche verschiedene Arten von Geräuschen enthalten.
Es ist ferner möglich, Hidden-Markov-Modelle basierend auf Stimmendaten zu erstellen, die in mehrere Gruppen mit unterschiedlichen Merkmalen aufgeteilt sind, einschließlich akustischer Merkmale, die mit der Stimmtraktform des Sprechers, beispielsweise der Länge oder Dicke, der Art des Öffnens des Mundes, der Tonhöhe, dem Tonfall, dem Akzent der Stimme, der Sprechgeschwindigkeit oder der Betriebsumgebung variieren.
Industrielle Anwendbarkeit
Die vorliegende Erfindung verwendet mehrere Arten von Hidden-Markov-Modellen (akustische Modelle), erkennt jedoch Vokabularelemente (Wörter) ohne Verwendung von Multi-Templates während der Spracherkennung. Somit kann sie die Genauigkeit der Spracherkennungsrates erhöhen, ohne die Speicherkapazität des Arbeitsspeichers oder dergleichen für die Spracherkennung zu vergrößern.
Selbst wenn mehr als eine Art der Aussprache eines einzelnen Vokabularelements existiert, beispielsweise eine umgangssprachliche Aussprache, kann die vorliegende Erfindung die Genauigkeit der Spracherkennungsraten verbessern, indem eine Art von Hidden-Markov-Modell verwendet wird, ohne die Speicherkapazität des Arbeitsspeichers oder dergleichen für die Spracherkennung zu vergrößern.

Claims

Spracherkennungsvorrichtung zum Erkennen der Sprache von nicht spezifizierten Sprechern unter Verwendung von Hidden-Markov-Modellen, wobei die Vorrichtung aufweist: eine Erkennungseinrichtung zum Erkennen von Merkmalsparametern von Eingangssprache; eine Erkennungsdatenspeichereinrichtung zum Vorabspeichern von Ausgangswahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten, die als Argumente die Merkmalsparameter verwenden, welche in mehreren vorbestimmten Hidden-Markov-Modellen voreingestellt sind, welche jedes von mehreren vorbestimmten Wörtern repräsentieren; eine Erkennungseinrichtung zum Bestimmen der Wahrscheinlichkeit des Eintretens, dass eine Abfolge der Merkmalsparameter auftritt, in bezug auf die von der Erkennungseinrichtung erkannten Merkmalsparameter und auf die Hidden-Markov-Modelle, dadurch gekennzeichnet, dass die Erkennungseinrichtung jedem der Wörter in dem Vorgang des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines der Hidden-Markov-Modelle zuweist, das den mehreren Arten von Hidden-Markov-Modellen gemeinsam ist, und die Erkennungseinrichtung jedes aus einem Ausgangswahrscheinlichkeitsfunktionswert und einer Übergangswahrscheinlichkeit gebildete Paar unter den in der Erkennungsdatenspeichereinrichtung gespeicherten Ausgangswahrscheinlichkeitsfunktionswerten und Übergangswahrscheinlichkeiten miteinander multipliziert, das größte Produkt als die Wahrscheinlichkeit je des Zustands des gemeinsamen Hidden-Markov-Modells wählt, die Eintrittswahrscheinlichkeit basierend auf dem gewählten größten Produkt bestimmt, und anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit erkennt.
Spracherkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Erkennungseinrichtung die Übergangswahrscheinlichkeit jedes Zustands des Hidden-Markov-Modells mit den mehreren Arten von Hidden-Markov-Modellen teilt, um die Eintrittswahrscheinlichkeit zu bestimmen.
Spracherkennungsvorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die mehreren vorbestimmten Arten von Hidden-Markov-Modellen mindestens zwei Arten umfassen, die unter geschlechtsspezifischen Hidden-Markov-Modellen, mehreren altersspezifischen Hidden-Markov-Modellen und mehreren Hidden-Markov-Modellen, die auf unterschiedliche Arten von Geräuschen enthaltenden Stimmendaten basieren, gewählt sind.
Spracherkennungsverfahren mit den folgenden Schritten: Vorabspeichern von Ausgangswahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten in einen Speicher, die als Argumente die Merkmalsparameter verwenden, welche in mehreren vorbestimmten Hidden-Markov-Modellen voreingestellt sind, welche jedes von mehreren vorbestimmten Wörtern repräsentieren; und Erkennen von Merkmalsparametern von Eingangssprache während der Spracherkennung, Bestimmen der Wahrscheinlichkeit des Eintretens, dass eine Sequenz der Merkmalsparameter auftritt, in bezug auf die erkannten Merkmalsparameter und die Hidden-Markov-Modelle, und Erkennen der Eingangssprache basierend auf der derart bestimmten Eintrittswahrscheinlichkeit, dadurch gekennzeichnet, dass das Verfahren jedem der Wörter in dem Vorgang des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines der Hidden-Markov-Modelle zuweist, das den mehreren Arten von Hidden-Markov-Modellen gemeinsam ist, jedes aus einem Ausgangswahrscheinlichkeitsfunktionswert und einer Übergangswahrscheinlichkeit gebildete Paar unter den in dem Speicher gespeicherten Ausgangswahrscheinlichkeitsfunktionswerten und Übergangswahrscheinlichkeiten miteinander multipliziert, das größte Produkt als die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells wählt, und die Eintrittswahrscheinlichkeit basierend auf dem gewählten größten Produkt bestimmt, und anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit erkennt.
Spracherkennungsverfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Übergangswahrscheinlichkeit jedes Zustands des Hidden-Markov-Modells mit den mehreren Arten von Hidden-Markov-Modellen geteilt wird, um die Eintrittswahrscheinlichkeit zu bestimmen.
Spracherkennungsverfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass die mehreren vorbestimmten Arten von Hidden-Markov-Modellen mindestens zwei Arten umfassen, die unter geschlechtsspezifischen Hidden-Markov-Modellen, mehreren altersspezifischen Hidden-Markov-Modellen und mehreren Hidden-Markov-Modellen, die auf unterschiedliche Arten von Geräuschen enthaltenden Stimmendaten basieren, gewählt sind.