DE60124559T2 - Einrichtung und verfahren zur spracherkennung - Google Patents

Einrichtung und verfahren zur spracherkennung Download PDF

Info

Publication number
DE60124559T2
DE60124559T2 DE60124559T DE60124559T DE60124559T2 DE 60124559 T2 DE60124559 T2 DE 60124559T2 DE 60124559 T DE60124559 T DE 60124559T DE 60124559 T DE60124559 T DE 60124559T DE 60124559 T2 DE60124559 T2 DE 60124559T2
Authority
DE
Germany
Prior art keywords
hidden markov
probability
markov models
speech recognition
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60124559T
Other languages
English (en)
Other versions
DE60124559D1 (de
Inventor
Toshiyuki Fujisawa-shi MIYAZAKI
Yoji Machida-shi ISHIKAWA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Asahi Chemical Industry Co Ltd
Original Assignee
Asahi Kasei Corp
Asahi Chemical Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp, Asahi Chemical Industry Co Ltd filed Critical Asahi Kasei Corp
Application granted granted Critical
Publication of DE60124559D1 publication Critical patent/DE60124559D1/de
Publication of DE60124559T2 publication Critical patent/DE60124559T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Description

  • Die vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren unter Verwendung von Hidden-Markov-Modellen (HMM). Insbesondere ermöglicht es die vorliegende Erfindung, den Klang von in einer Vokabelliste enthaltenen Wörtern mit hoher Genauigkeit zu erkennen und die Speicheranforderungen zu reduzieren, selbst wenn die Sprachmerkmale mit dem Alter oder dem Geschlecht des Sprechers variieren, oder wenn mehr als eine Art existiert, um ein einzelnes Vokabularelement auszusprechen, beispielsweise wenn es umgangssprachlich ausgedrückt wird.
  • Stand der Technik
  • Die Technologie zur Erkennung festgelegter Wörter, die nicht spezifizierten Benutzern gemeinsam sind, ist allgemein als sprecherunabhängige Spracherkennung bekannt. Bei der sprecherunabhängigen Spracherkennung werden Informationen über Merkmalsparameter festgelegter Wörter, die nicht spezifizierten Benutzern gemeinsam sind, in einer Speichereinheit, wie beispielsweise einem ROM, gesammelt.
  • Bekannte Verfahren zum Umwandeln von Sprachproben in eine Abfolge von Merkmalsparametern umfassen die Cepstrumanalyse und die lineare prädiktive Analyse. Daneben werden Hidden-Markov-Modelle verwendende Verfahren im allgemeinen verwendet, um Informationen (Daten) über Merkmalsparameter festgelegter Wörter, die nicht spezifizierten Sprechern bekannt sind, aufzubereiten und die Informationen mit der aus eingehender Sprache umgewandelten Abfolge von Merkmalsparametern zu vergleichen.
  • Die sprecherunabhängige Spracherkennung mittels Hidden-Markov-Modellen ist im Detail in "Digital Signal Processing for Speech and Sound Information" (von Kiyohiro Shikano, Tetsu Nakamura und Shiro Ise (Shokodo, Ltd.)) beschrieben.
  • Beispielsweise wird im Falle der japanischen Sprache eine in Kapitel 2 von "Digital Signal Processing for Speech and Sound Information" beschriebene Phonemgruppe als Spracheinheit verwendet und jedes Phonem wird unter Verwendung eines Hidden-Markov-Modells nachgebildet. 6 zeigt eine Liste von Phonemgruppen-Labels. Das Wort "Hokkaido" kann beispielsweise mittels eines Netzwerks (Folge von für festgelegte Wörter verwendete Label) von Phonem-Labels nachgebildet werden, die Sprechern gemeinsam sind.
  • Wenn die in 7(A) dargestellte Abfolge von Labels für festgelegte Wörter und die in 7(B) dargestellte Phonemmodelldaten basierend auf entsprechenden Hidden-Markov-Modellen gegeben sind, kann der Fachmann auf diesem Gebiet leicht eine sprecherunabhängige Spracherkennungsvorrichtung unter Verwendung des in Kapitel 4 von "Digital Signal Processing for Speech and Sound Information" beschriebenen Viterbi-Algorithmus konstruieren.
  • In 7(B) gibt a(I, J) die Wahrscheinlichkeit des Übergangs von dem Zustand I in den Zustand J an. Beispielsweise gibt a(I, 1) in der Figur die Wahrscheinlichkeit des Übergangs von dem Zustand 1 in den Zustand 1 an. Ferner gibt b(I, x) die Ausgabewahrscheinlichkeit im Zustand I an, wenn der akustische Parameter (Merkmalsparameter) x erhalten wird. Somit gibt b(I, x) in der Figur den Ausgabeparameter im Zustand 1 an, wenn der akustische Parameter x erhalten wird.
  • Daneben gibt pI in der 7(B) die Wahrscheinlichkeit des Zustands I an und wird entsprechend der nachfolgenden Gleichung (I) aktualisiert. pI = max (p(I-1) x a(I-1, I), pI x a(I, I)) x b(I, X) (1)max( ) auf der rechten Seite der Gleichung (1) bedeutet, daß das größte Produkt unter den Produkten in max( ) gewählt wird. Das gleiche gilt im folgenden.
  • Als nächstes wird ein Gesamt-Flussdiagramm der Spracherkennung unter Verwendung der zuvor beschriebenen Hidden-Markov-Modelle, die Männern und Frauen gemeinsam sind, unter Bezugnahme auf 8 beschrieben.
  • Zunächst werden Merkmalsparameter in einem Sprachsignal erkannt (aus diesem extrahiert). Anschließend werden Eintrittswahrscheinlichkeiten der Merkmalsparametersequenz unter Verwendung der Gleichung (1) unter Bezugnahme auf die erkannten Merkmalsparameter und vorab bestimmten Männern und Frauen gemeinsamen Hidden-Markov-Modellen M1, M2, ... Mn berechnet. Anschließend wird die höchste Wahrscheinlichkeit unter den berechneten Wahrscheinlichkeiten gewählt, und die Phonemlabelsequenz, welche die höchste Wahrscheinlichkeit aufweist, wird als Erkennungsergebnis für den Spracheingang erhalten.
  • Die akustischen Bedingungen unterscheiden sich im allgemeinen zwischen erwachsenen Männern und Frauen aufgrund der Unterschiede in der Stimmtraktlänge. Bei einem Verfahren (Multi-Template), das manchmal zur Verbesserung von Spracherkennungsraten verwendet wird, werden unter Verwendung männlicher Stimmendaten und weiblicher Stimmendaten ein akustisches Modell für Männer und ein akustisches Modell für Frauen separat erstellt, wie in 9(A) gezeigt, und anschließend werden, wie in 9(B) gezeigt, für Männer und Frauen Hidden-Markov-Modell-Zustandssequenzen erstellt, welche ein Vokabular bilden, das, wenn es gesprochen wird, erkannt werden soll. Ein Beispiel für dieses Verfahren ist in US 5 865 626 beschrieben, das am 02.02.1999 veröffentlicht wurde.
  • In 9(B) gibt a(I, J) die Wahrscheinlichkeit des Übergangs eines Modells für Frauen von dem Zustand I in den Zustand J an, während A(I, J) die Wahrscheinlichkeit des Übergangs eines Modells für Männer von dem Zustand I in den Zustand J angibt. Ferner gibt b(I, x) eine Ausgabewahrscheinlichkeit im Zustand I an, wenn der akustische Parameter x des Modells für Frauen erhalten wird, während B(I, x) die Ausgabewahrscheinlichkeit im Zustand I angibt, wenn der akustische Parameter x des Modells für Männer erhalten wird.
  • Ferner gibt pI in 9(B) die Wahrscheinlichkeit des Zustands I des Modells für Frauen an und wird entsprechend der nachfolgenden Gleichung (2) aktualisiert. pI = max (p(I-1) x a(I-1, I), pI x a(I, I)) x b(I, X) (2)
  • Ferner gibt PI in 9(B) die Wahrscheinlichkeit des Zustands I des Modells für Männer an und wird entsprechend der nachfolgenden Gleichung (3) aktualisiert. PI = max (P(I-1) x A(I-1, I), PI x A(I, I)) x B(I, X) (3)
  • Im folgenden wird anhand der 10 ein Gesamtflussdiagramm der Spracherkennung unter Verwendung der vorgenannten beiden Arten von Hidden-Markov-Modellen für Männer und Frauen beschrieben.
  • Zunächst werden Merkmalsparameter in einem Sprachsignal erkannt (aus diesem extrahiert). Anschließend werden anhand der erkannten Merkmalsparameter, vorab bestimmter Hidden-Markov-Modelle (Wörter) Ma1, Ma2, ..., Man für Männer, und vorab bestimmter Hidden-Markov-Modelle (Wörter) Mb1, Mb2, ..., Mbn für Frauen, Eintrittswahrscheinlichkeiten unter Verwendung der Gleichungen (2) und (3) berechnet. Anschließend wird die größte Wahrscheinlichkeit aus den berechneten Wahrscheinlichkeiten gewählt, und die Phonemlabelsequenz, welche die größte Wahrscheinlichkeit ergibt, wird als Erkennungsergebnis für die Eingangssprache erhalten.
  • In diesem Fall ist die Spracherkennungsrate im Vergleich zu dem Fall erhöht, in dem ein akustisches Modell (Hidden-Markov-Modell) aus männlichen Stimmendaten und weiblichen Stimmendaten gebildet ist, jedoch verdoppelt sich der zum Bilden eines Vokabulars benutzte Speicher im Vergleich zur Verwendung eines gemeinsamen Modells für Männer und Frauen. Ferner vergrößert sich aus der Speicher zum Speichern von Informationen über Wahrscheinlichkeiten verschiedner Zustände.
  • Wie zuvor beschrieben, verbessert die Verwendung von geschlechtsspezifischen akustischen Multi-Template-Modellen für die sprecherunabhängige Spracherkennung die Spracherkennungsrate im Vergleich zu der Verwendung eines aus männlichen Stimmendaten und weiblichen Stimmendaten erstellten akustischen Modells, jedoch verdoppelt die Einführung des Multi-Templates praktisch das Vokabular, was zu einem erhöhten Speicherbedarf führt.
  • In jüngerer Zeit nahm die Nachfrage nach Spracherkennung bei Anwendungsprogrammen seitens eines zunehmend breiter werdenden Spektrums von Altersgruppen zu, und eine hohe Spracherkennungsrate wird ungeachtet der Altersgruppe gewünscht. Somit ist vorstellbar, dass in Zukunft akustische Modelle für erwachsene Männer, erwachsene Frauen, Kinder im Grundschulalter und jünger, und alte Menschen verwendet werden. In diesem Fall vervierfacht sich das Vokabular praktisch, wodurch die Speicheranforderungen weiter steigen.
  • Je größer das Vokabular ist, desto stärker ist der Zuwachs an Speichererfordernis. Dies ist ein großer (Produktions-) Kostennachteil, beispielsweise bei dem Integrieren von Spracherkennung in ein Mobiltelefon. Es ist daher erwünscht, die Zunahme der Speichererfordernis zu begrenzen und die Produktionskosten zu verringern, während gleichzeitig die Spracherkennungsraten unter Verwendung mehrerer akustischer Modelle verbessert werden soll.
  • Selbst wenn ein gemeinsames akustisches Modell für Männer und Frauen verwendet wird, wird ein einzelnes Vokabularelement (Wort) als zwei Vokabularelemente behandelt, wenn es unterschiedliche umgangssprachliche Sprechweisen aufweist. Beispielsweise kann das Wort "Hokkaido" auf zwei Arten ausgesprochen werden: "hotskaidou" und "hotskaidoo". Dies kann durch Verwenden des in 11 dargestellten Viterbi-Algorithmus gelöst werden.
  • In 11(B) gibt au(I, J) die Wahrscheinlichkeit des Übergangs des Phonems u von dem Zustand I in den Zustand J an, während ao(I, J) die Wahrscheinlichkeit des Phonems o von dem Zustand I in den Zustand J angibt. Ferner gibt bu(I, X) die Ausgabewahrscheinlichkeit im Zustand I an, wenn der akustische Parameter x des Phonems u erhalten wird, während bo(I, x) die Ausgabewahrscheinlichkeit im Zustand I angibt, wenn der akustische Parameter x des Phonems o erhalten wird.
  • Ferner gibt uI in der 11(B) die Wahrscheinlichkeit des Zustands I des Phonems u an und wird entsprechend der nachfolgenden Gleichung (4) aktualisiert. uI = max (u(I-1) x au(I-1, I), uI x au(I, I)) x bu(I, X) (4)
  • Ferner gibt oI in 9(B) die Wahrscheinlichkeit des Zustands I des Phonems o an und wird entsprechend der nachfolgenden Gleichung (5) aktualisiert. oI = max (o(I-1) x ao(I-1, I), oI x ao(I, I)) x bo(I, X) (5)
  • Wiederum steigen die Speichererfordernisse wie bei der Verwendung von geschlechtsspezifischen akustischen Multi-Template-Modellen.
  • Es ist daher die Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren zu schaffen, welche die Genauigkeit der Spracherkennungsraten verbessern können, ohne die Speicherkapazität des Arbeitsspeichers oder dergleichen für die Spracherkennung zu vergrößern.
  • Offenbarung der Erfindung
  • Die vorliegende Erfindung schafft eine Spracherkennungsvorrichtung nach Anspruch 1 zum Erkennen der Sprache von nicht spezifizierten Sprechern unter Verwendung von Hidden-Markov-Modellen, wobei die Vorrichtung aufweist: eine Erkennungseinrichtung zum Erkennen von Merkmalsparametern von Eingangssprache; eine Erkennungsdatenspeichereinrichtung zum Vorabspeichern von Ausgangswahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten, die als Argumente die Merkmalsparameter verwenden, welche in mehreren vorbestimmten Hidden-Markov-Modellen voreingestellt sind, welche jedes von mehreren vorbestimmten Wörtern repräsentieren; eine Erkennungseinrichtung zum Bestimmen der Wahrscheinlichkeit des Eintretens, dass eine Abfolge der Merkmalsparameter auftritt, in bezug auf die von der Erkennungseinrichtung erkannten Merkmalsparameter und auf die Hidden-Markov-Modelle, dadurch gekennzeichnet, dass die Erkennungseinrichtung jedem der Wörter in dem Vorgang des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines der Hidden-Markov-Modelle zuweist, das den mehreren Arten von Hidden-Markov-Modellen gemeinsam ist, und die Erkennungseinrichtung jedes aus einem Ausgangswahrscheinlichkeitsfunktionswert und einer Übergangswahrscheinlichkeit gebildete Paar unter den in der Erkennungsdatenspeichereinrichtung gespeicherten Ausgangswahrscheinlichkeitsfunktionswerten und Übergangswahrscheinlichkeiten miteinander multipliziert, das größte Produkt als die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells wählt, die Eintrittswahrscheinlichkeit basierend auf dem gewählten größten Produkt bestimmt, und anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit erkennt.
  • Ausführungsformen der erfindungsgemäßen Spracherkennungsvorrichtung umfassen eine Spracherkennungsvorrichtung, die dadurch gekennzeichnet ist, dass die zuvor beschriebene Erkennungseinrichtung die Übergangswahrscheinlichkeit jedes Zustands des Hidden-Markov-Modells mit den mehreren Arten von Hidden-Markov-Modellen teilt, um die zuvor beschriebene Eintrittswahrscheinlichkeit zu bestimmen.
  • Ausführungsformen der erfindungsgemäßen Spracherkennungsvorrichtung umfassen eine Spracherkennungsvorrichtung, die dadurch gekennzeichnet ist, dass die zuvor beschriebenen mehreren vorbestimmten Arten von Hidden-Markov-Modellen mindestens zwei Arten umfassen, die unter geschlechtsspezifischen Hidden-Markov-Modellen, mehreren altersspezifischen Hidden-Markov-Modellen und mehreren Hidden-Markov-Modellen, die auf unterschiedliche Arten von Geräuschen enthaltenden Stimmendaten basieren, und anderen Hidden-Markov-Modellen gewählt sind.
  • Ferner schafft die vorliegende Erfindung ein Spracherkennungsverfahren nach Anspruch 4. Das Verfahren umfasst die folgenden Schritte: Vorabspeichern von Ausgangswahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten in einen Speicher, die als Argumente die Merkmalsparameter verwenden, welche in mehreren vorbestimmten Hidden-Markov-Modellen voreingestellt sind, welche jedes von mehreren vorbestimmten Wörtern repräsentieren; und Erkennen von Merkmalsparametern von Eingangssprache während der Spracherkennung, Bestimmen der Wahrscheinlichkeit des Eintretens, dass eine Sequenz der Merkmalsparameter auftritt, in bezug auf die erkannten Merkmalsparameter und die Hidden-Markov-Modelle, und Erkennen der Eingangssprache basierend auf der derart bestimmten Eintrittswahrscheinlichkeit, dadurch gekennzeichnet, dass das zuvor beschriebene Verfahren jedem der Wörter in dem Vorgang des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines der Hidden-Markov-Modelle zuweist, das den mehreren Arten von Hidden-Markov-Modellen gemeinsam ist, jedes aus einem Ausgangswahrscheinlichkeitsfunktionswert und einer Übergangswahrscheinlichkeit gebildete Paar unter den in dem Speicher gespeicherten Ausgangswahrscheinlichkeitsfunktionswerten und Übergangswahrscheinlichkeiten miteinander multipliziert, das größte Produkt als die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells wählt, und die Eintrittswahrscheinlichkeit basierend auf dem gewählten größten Produkt bestimmt, und anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit erkennt.
  • Ausführungsformen des erfindungsgemäßen Spracherkennungsverfahrens umfassen ein Spracherkennungsverfahren, das dadurch gekennzeichnet ist, dass die Übergangswahrscheinlichkeit jedes Zustands des zuvor beschriebenen Hidden-Markov-Modells mit den zuvor beschriebenen mehreren Arten von Hidden-Markov-Modellen geteilt wird, um die zuvor beschriebene Eintrittswahrscheinlichkeit zu bestimmen.
  • Ausführungsformen des erfindungsgemäßen Spracherkennungsverfahrens umfassen ein Spracherkennungsverfahren, das dadurch gekennzeichnet ist, dass die zuvor beschriebenen mehreren vorbestimmten Arten von Hidden-Markov-Modellen mindestens zwei Arten umfassen, die unter geschlechtsspezifischen Hidden-Markov-Modellen, mehreren altersspezifischen Hidden-Markov-Modellen und mehreren Hidden-Markov-Modellen, die auf unterschiedliche Arten von Geräuschen enthaltenden Stimmendaten basieren, und anderen Hidden-Markov-Modellen gewählt sind.
  • Auf diese Weise verwendet die vorliegende Erfindung mehrere Arten von Hidden- Markov-Modellen (akustische Modelle), erkennt jedoch Vokabularelemente (Wörter) ohne die Verwendung von Multi-Templates während der Spracherkennung. Sie kann somit die Genauigkeit von Spracherkennungsraten verbessern, ohne die Speicherkapazität des Arbeitsspeichers oder dergleichen für die Spracherkennung zu vergrößern.
  • Selbst wenn mehr als eine Art existiert, ein einzelnes Vokabularelement auszusprechen, beispielsweise, wenn es umgangssprachlich ausgesprochen wird, kann die vorliegende Erfindung die Genauigkeit der Spracherkennungsraten unter Verwendung einer Art von Hidden-Markov-Modell verbessern, ohne die Speicherkapazität des Arbeitsspeichers oder dergleichen für die Spracherkennung zu vergrößern.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm zur Darstellung eines Konfigurationsbeispiels eines Ausführungsbeispiels einer erfindungsgemäßen Spracherkennungsvorrichtung;
  • 2 ist ein erklärendes Diagramm zur Darstellung eines Viterbi-Algorithmus nach einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 3 ist ein erklärendes Diagramm zur Darstellung eines Gesamtablaufs der Erkennungsoperationen nach einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 4 ist ein erklärendes Diagramm zur Darstellung eines Viterbi-Algorithmus nach einem anderen Ausführungsbeispiel der vorliegenden Erfindung;
  • 5 ist ein Diagramm zum Vergleich eines erfindungsgemäßen Beispiels mit herkömmlichen Beispielen auf exemplarische Weise;
  • 6 ist ein Diagramm, das eine Liste von Phonemgruppenlabeln zeigt;
  • 7 ist ein Diagramm, das einen Viterbi-Algorithmus zeigt, der ein herkömmliches gemeinsames Hidden-Markov-Modell für Männer und Frauen verwendet;
  • 8 ist ein Diagramm zur Darstellung des Gesamtablaufs der Erkennungsoperationen unter Verwendung des herkömmlichen gemeinsamen Hidden-Markov-Modells für Männer und Frauen;
  • 9 ist ein Diagramm zur Darstellung eines Viterbi-Algorithmus, der herkömmliche geschlechtsspezifische Multi-Template-Hidden-Markov-Modelle verwendet;
  • 10 ist ein Diagramm zur Darstellung des Gesamtablaufs der Erkennungsoperationen unter Verwendung der herkömmlichen geschlechtsspezifischen Multi-Template-Hidden-Markov-Modelle; und
  • 11 ist ein Diagramm zur Darstellung eines herkömmlichen Beispiels für einen Viterbi-Algorithmus, der ein gemeinsames Hidden-Markov-Modell für Männer und Frauen verwendet, wenn ein Vokabularelement auf zwei Arten ausgesprochen werden kann.
  • Beste Art der Durchführung der Erfindung
  • Im folgenden werden Ausführungsbeispiele der vorliegenden Erfindung unter Bezugnahme auf die zugehörigen Zeichnungen beschrieben.
  • Ein Ausführungsbeispiel einer erfindungsgemäßen Spracherkennungsvorrichtung wird anhand der 1 bis 3 beschrieben.
  • Die Spracherkennungsvorrichtung gemäß diesem Ausführungsbeispiel umfasst zumindest ein Mikrophon 1, einen A/D-Wandler 2, einen Merkmalswertdetektor 3, eine Spracherkennungseinrichtung 4, eine Ausgabeeinheit 5, einen ROM 6, und einen RAM 7, wie in 1 dargestellt.
  • Das Mikrophon 1 wandelt Sprache in ein entsprechendes analoges elektrisches Signal um. Der A/D-Wandler 2 wandelt das analoge Signal in ein digitales Signal um. Der Merkmalswertdetektor 3 bestimmt Merkmalsparameter basierend auf dem digitalen Signal und wandelt die bestimmten Merkmalsparameter in eine Zeitfolge um.
  • Die Spracherkennungseinrichtung 4 erkennt die Sprache nicht spezifizierter Sprecher unter Verwendung von Hidden-Markov-Modellen nach im folgenden noch beschriebenen Abläufen. Details der Erkennungsabläufe werden später be schrieben. Die Ausgabeeinheit 5, bei der es sich beispielsweise um eine Anzeigeeinheit handeln kann, gibt Erkennungsergebnisse aus, die von der Spracherkennungseinrichtung 4 erzeugt wurden.
  • Der ROM ist ein Nur-Lese-Speicher, in dem die noch zu beschreibenden Spracherkennungsabläufe, noch zu beschreibende Wahrscheinlichkeitsdaten über Hidden-Markov-Modelle für Frauen, noch zu beschreibende Wahrscheinlichkeitsdaten über Hidden-Markov-Modelle für Männer, etc. gespeichert sind.
  • Der RAM ist ein frei lesbarer/beschreibbarer Direktzugriffsspeicher, der, wie noch zu beschreiben, während der Spracherkennung als Arbeitsspeicher verwendet wird. Er speichert beispielsweise erforderliche Daten und Ergebnisdaten zeitweilig während des Spracherkennungsvorgangs.
  • Im folgenden werden die Spracherkennungsoperationen der Spracherkennungsvorrichtung gemäß diesem Ausführungsbeispiel mit der beschriebenen Konfiguration unter Bezugnahme auf die Zeichnungen beschrieben.
  • Nach diesem Ausführungsbeispiel werden zwei Arten von Hidden-Markov-Modellen, Hidden-Markov-Modelle für Männer und für Frauen vorab für Vokabularelemente (Wörter) vorbereitet, wie "Hokkaido", "Aomori" und "Akita", die bei der Erkennung der Sprache nicht spezifizierter Sprecher erkannt werden sollen. Ferner werden Konstante, die zur Bildung mehrerer Paare einer Übergangswahrscheinlichkeit und einer Ausgabewahrscheinlichkeitsfunktion für individuelle Zustände jedes Hidden-Markov-Modells verwendet werden, voreingestellt und diese Wahrscheinlichkeitsdaten werden in dem ROM 6 vorab gespeichert.
  • Es sei angenommen, dass beispielsweise ein gesprochenes Wort "hotskaidou" von einem erwachsenen Sprecher (ungeachtet des Geschlechts) durch das Mikrophon 1 eingegeben wird. Die Sprache wird von dem Mikrophon 1 in ein analoges elektrisches Signal und anschließend von dem A/D-Wandler 2 in ein digitales Signal umgewandelt. Der Merkmalswertdetektor 3 bestimmt Merkmalsparameter basierend auf dem digitalen Signal und wandelt diese in Zeitfolgen-Merkmalsparameter um.
  • Unter Bezugnahme auf die Übergangswahrscheinlichkeiten und die Ausgabewahrscheinlichkeitsfunktionen der separaten Hidden-Markov-Modelle für Männer und Frauen, die in dem ROM 6 gespeichert sind, sowie auf die umgewandelten Zeitfolgen-Merkmalsparameter (akustische Parameter) bestimmt die Spracherkennungseinrichtung 4 die Eintrittswahrscheinlichkeit einer Abfolge der Merkmalsparameter unter Verwendung des in 2 dargestellten Viterbi-Algorithmus und erkennt die Eingangssprache basierend auf der bestimmten Eintrittswahrscheinlichkeit.
  • 2(A) zeigt eine Männern und Frauen gemeinsame Phonemsequenz, während 2(B) eine Hidden-Markov-Modell-Zustandssequenz jedes Phonems darstellt.
  • In 2(B) gibt a(I, J) die Wahrscheinlichkeit des Übergangs eines Modells für Frauen vom Zustand I in den Zustand J an, während A(I, J) die Wahrscheinlichkeit des Übergangs eines Modells für Männer von dem Zustand I in den Zustand J angibt. Ferner gibt b(I, x) die Ausgabewahrscheinlichkeit im Zustand I an, wenn der akustische Parameter x des Modells für Frauen erhalten wird, während B(I, x) eine Ausgabewahrscheinlichkeit im Zustand I angibt, wenn der akustische Parameter x des Modells für Männer erhalten wird.
  • Des weiteren gibt pI in der 2(B) die Wahrscheinlichkeit des Zustands I in der gemeinsamen Zustandssequenz für Männer und Frauen an, und wird entsprechend der nachfolgenden Gleichung (6) aktualisiert: PI = max(p(I-1) x PenterI, pI x PselfI) (6),wobei die Wahrscheinlichkeit PselfI und die Wahrscheinlichkeit PenterI durch die Gleichung (7) und die Gleichung (8) angegeben werden. PselfI = max(a(I, I) x b(I, X), A(I, I) x B(I, X)) (7) PenterI = max(a(I-1) x b(I, X), A(I-1) x B(I, X)) (8)
  • Somit liefert die Spracherkennungseinrichtung 4 eine Zustandssequenz eines gemeinsamen Hidden-Markov-Modells für ein Vokabularelement (Wort), wie bei spielsweise "Hokkaido" oder "Aomori", das separaten Hidden-Markov-Modellen für Männer und Frauen gemeinsam ist.
  • Anschließend wird die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells für jedes Wort bestimmt. Zu diesem Zweck werden die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Männer voreingestellt sind, unter Verwendung eines bestimmten Merkmalsparameters als Argument (Eingabe) miteinander multipliziert, und die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Frauen voreingestellt sind, werden unter Verwendung eines bestimmten Merkmalsparameters als Argument (Eingabe) miteinander multipliziert. Danach wird der größere der beiden bestimmten Wahrscheinlichkeitswerte (Produkte) gewählt (siehe Gleichungen (7) und (8)).
  • Die genannten Operationen werden für jeden Zustandsübergang der Hidden-Markov-Modelle durchgeführt, um schließlich die Wahrscheinlichkeiten der Zustände zu bestimmen. Dementsprechend wird eine Zustandssequenz eines Hidden-Markov-Modells für jedes Wort, wie beispielsweise "Hokkaido" oder "Aomori", erzeugt. Jede derart erzeugte Zustandssequenz enthält eine Mischung aus Produkten von Wahrscheinlichkeitsdaten, die auf das Hidden-Markov-Modell für Männer bezogen sind, und Produkten von Wahrscheinlichkeitsdaten, die auf das Hidden-Markov-Modell für Frauen bezogen sind.
  • Der Gesamtdatenfluss in der Spracherkennungseinrichtung 4 der Spracherkennungsvorrichtung nach diesem Ausführungsbeispiel lässt sich wie in 3 gezeigt zusammenfassen.
  • Wie in 3 dargestellt, werden zunächst Merkmalsparameter in einem Sprachsignal erkannt (aus diesem extrahiert). Anschließend werden mit Bezug auf die erkannten Merkmalsparameter, vorab bestimmte Hidden-Markov-Modelle (Wörter) Ma1, Ma2, ..., Man für Männer, vorab bestimmte Hidden-Markov-Modelle (Wörter) Mb1, Mb2, ..., Mbn für Frauen, Eintrittswahrscheinlichkeiten der Merkmalsparametersequenz unter Verwendung der Gleichungen (7) und (8) berechnet.
  • Zur Bestimmung der Wahrscheinlichkeit jedes Zustands des Hidden-Markov-Modells (gemeinsames Hidden-Markov-Modell für Männer und Frauen) für jedes Wort, werden die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Männer voreingestellt sind, unter Verwendung eines bestimmten Merkmalsparameters als Argument miteinander multipliziert, und die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Frauen voreingestellt sind, werden unter Verwendung eines bestimmten Merkmalsparameters als Argument miteinander multipliziert. Danach wird der größere der beiden bestimmten Wahrscheinlichkeitswerte gewählt.
  • Danach werden die derart gewählten Produkte zum Bestimmen der Eintrittswahrscheinlichkeit jeder Merkmalsparametersequenz summiert. Anschließend wird aus den bestimmten Eintrittswahrscheinlichkeiten die größte Wahrscheinlichkeit gewählt, und die Phonemlabelsequenz, welche die höchste Wahrscheinlichkeit ergibt, wird als das Erkennungsergebnis der Eingangssprache erhalten.
  • Wie zuvor beschrieben, weist nach diesem Ausführungsbeispiel ein separaten Hidden-Markov-Modellen für Männer und Frauen gemeinsames Wort eine Zustandssequenz eines gemeinsamen Hidden-Markov-Modells auf, und die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells wird bestimmt. Zu diesem Zweck werden die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Männer voreingestellt sind, unter Verwendung eines bestimmten Merkmalsparameters als Argument miteinander multipliziert, und die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Frauen voreingestellt sind, werden unter Verwendung eines bestimmten Merkmalsparameters als Argument miteinander multipliziert. Danach wird der größere der beiden bestimmten Wahrscheinlichkeitswerte gewählt.
  • Dieses Ausführungsbeispiel kann somit die Erkennungsrate ungeachtet von Unterschieden in Alter und Geschlecht unter Verwendung mehrerer Hidden-Markov-Modelle verbessern.
  • Nach diesem Ausführungsbeispiel ist ferner ein Hidden-Markov-Modell für die Spracherkennung vorgesehen, das separaten Hidden-Markov-Modellen für Männer und Frauen gemeinsam ist. Infolgedessen kann dieses Ausführungsbeispiel die Speicherkapazität in Abhängigkeit von der Anzahl der zu berechnenden Zustände auf die Hälfte des Speichers verringern, der von dem in den 9 und 10 dargestellten Algorithmus benötigt wird.
  • Ferner wird bei dem genannten Ausführungsbeispiel die Wahrscheinlichkeit jedes Zustands in der gemeinsamen Zustandssequenz für Männer und Frauen basierend auf den Gleichungen (6) bis (8) bestimmt, anstatt eine Zustandsübergangswahrscheinlichkeit zu verwenden, die einem Modell für Männer und einem Modell für Frauen gemeinsam ist.
  • Erfindungsgemäß kann jedoch auch eine Zustandsübergangswahrscheinlichkeit verwendet werden, die einem Modell für Männer und einem Modell für Frauen gemeinsam ist. In diesem Fall wird zur Bestimmung einer Wahrscheinlichkeit in einer gemeinsamen Zustandssequenz für Männer und Frauen zuerst die größte Ausgabewahrscheinlichkeit gewählt und anschließend wird die gewählte Ausgabewahrscheinlichkeit mit der gemeinsamen Übergangswahrscheinlichkeit multipliziert.
  • Im folgenden wird eine Spracherkennungsvorrichtung nach einem anderen Ausführungsbeispiel der vorliegenden Erfindung beschrieben.
  • Die Spracherkennungsvorrichtung nach diesem Ausführungsbeispiel weist ein Hidden-Markov-Modell auf, um dem Fall Rechnung zu tragen, dass mehr als eine Art existiert, ein einzelnes Vokabularelement auszusprechen, beispielsweise umgangssprachlich.
  • Die Spracherkennungsvorrichtung nach diesem Ausführungsbeispiel ist ähnlich der Spracherkennungsvorrichtung von 1 konfiguriert, unterscheidet sich jedoch von dieser dadurch, dass noch zu beschreibende Wahrscheinlichkeitsdaten und noch zu beschreibende Erkennungsabläufe in dem ROM 6 vorab gespeichert sind, und dass die in dem ROM 6 gespeicherten Erkennungsabläufe für die Spracherkennungseinrichtung 4 wie noch zu beschreiben ausgeführt sind. Somit werden nur die sich unterscheidenden Teile beschrieben.
  • Gemäß diesem Ausführungsbeispiel wird jedes zu erkennende Wort durch ein Hidden-Markov-Modell wiedergegeben. Hinsichtlich Wörtern, die mehrere Aussprachemöglichkeiten zulassen, werden Unterschiede in den Aussprachen jedes Worts teilweise durch mehrere Hidden-Markov-Modelle ausgedrückt, während jedes Wort als Ganzes durch ein Hidden-Markov-Modell wiedergegeben ist. Ausgabewahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten, die als Argumente Merkmalsparameter verwenden, welche in diesen Hidden-Markov-Modellen voreingestellt sind, sind in dem ROM 6 vorab gespeichert.
  • Bei der Spracherkennung bestimmt die Spracherkennungseinrichtung 4 unter Bezugnahme auf die von dem Merkmalswertdetektor 3 gelieferten Merkmalsparameter und auf die Hidden-Markov-Modelle, wie im folgenden beschrieben, Die Eintrittswahrscheinlichkeit einer Folge von Merkmalsparametern und erkennt anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit.
  • Ferner teilt die Spracherkennungseinrichtung 4 im Verlauf des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines Hidden-Markov-Modells mit den mehreren Hidden-Markov-Modellen für Teilausdrücke.
  • Ferner multipliziert die Spracherkennungseinrichtung 4 jedes voreingestellte Paar aus einem Ausgabewahrscheinlichkeitsfunktionswert und einer Übergangswahrscheinlichkeit unter den Ausgabewahrscheinlichkeitsfunktionswerten und den Übergangswahrscheinlichkeiten, die in den mehreren Hidden-Markov-Modellen für Teilausdrücke voreingestellt sind, und wählt das größte Produkt als die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells.
  • Ferner bestimmt die Spracherkennungseinrichtung 4 die Eintrittswahrscheinlichkeit basierend auf dem gewählten größten Produkt und erkennt anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit.
  • 4 zeigt einen Viterbi-Algorithmus, der für die Spracherkennungsvorrichtung nach diesem Ausführungsbeispiel verwendet wird. 4(A) zeigt eine Phonemsequenz für den Fall, dass beispielsweise das Wort "Hokkaido" sowohl als "hotskaidou", als auch als "hotskaidoo" ausgesprochen werden kann, während die 4(B) Hidden-Markov-Modell-Zustände zeigt, welche das letzte Phonem angeben, das sich bei den beiden Aussprachemöglichkeiten unterscheidet.
  • In 4(B) gibt au(I, J) die Wahrscheinlichkeit des Übergangs des Phonems u von dem Zustand I in den Zustand J an, während ao(I, )) die Wahrscheinlichkeit des Übergangs des Phonems o von dem Zustand I in den Zustand J angibt. Ferner gibt bu(I, x) eine Ausgabewahrscheinlichkeit in dem Zustand I an, wenn der Akustikparameter x des Phonems u erhalten wird, während bo(I, x) eine Ausgabewahrscheinlichkeit in dem Zustand I angibt, wenn der Akustikparameter x des Phonems o erhalten wird.
  • Ferner gibt pI in 4(B) die Wahrscheinlichkeit des Zustands I in der Zustandssequenz des Phonems u/o und wird entsprechend der folgenden Gleichung (9) aktualisiert. pI = max(p(I-1) x PenterI, pI x Pselfl) (6),wobei die Wahrscheinlichkeit Pselfl und die Wahrscheinlichkeit PenterI durch die Gleichung (10) und die Gleichung (11) angegeben werden. Pselfl = max(au(I, I) x bu(I, X), ao(I, I) x bo(I, X)) (10) PenterI = max(au(I-1) x bu(I, X), ao(I-1) x bo(I, X)) (11)
  • Der Viterbi-Algorithmus nach diesem Ausführungsbeispiel bewirkt, dass die Spracherkennungseinrichtung 4 eine Zustandssequenz eines Hidden-Markov-Modells aufweist, das dem Phonem u und dem Phonem o gemeinsam ist. Anschließend wird die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells bestimmt. Um die Wahrscheinlichkeit jedes Zustands des Phonems u und des Phonems o zu bestimmen, werden die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit des Phonems u in dem Hidden-Markov-Modell unter Verwendung eines bestimmten Merkmalsparameters miteinander multipliziert, und die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit des Phonems o in dem Hidden-Markov-Modell unter Verwendung eines bestimmten Merkmalsparameters miteinander multipliziert. Danach wird der größere der beiden bestimmten Wahrscheinlichkeitswerte (Produkte) gewählt.
  • Da, wie zuvor erwähnt, dieses Ausführungsbeispiel eine Zustandssequenz eines Hidden-Markov-Modells zwischen dem Phonem u und dem Phonem o teilt, kann es im Vergleich zu dem Algorithmus der 11 die Speicherkapazität verringern, welche für die Erkennungsberechnung erforderlich ist.
  • Bei einer verbundenen Erkennung von japanischen Zeichen ohne Begrenzung der Anzahl der Zeichen wurden Erkennungsraten und Speicheranforderungen unter Verwendung von Auswertedaten, welche die Stimmen von 10 Männern und 10 Frauen bei einer Gesamtzahl von 20 Personen umfassten, wobei bei einer Ausstellung aufgenommene Geräusche (Signal-Rauschverhältnis = 10 dB) hinzugefügt wurde, unter drei Bedingungen gemessen: einer Bedingung, bei der gemeinsame akustische Modelle für Männer und Frauen verwendet wurden, eine Bedingung, bei der separate akustische Multi-Template-Modelle für Männer und Frauen verwendet wurden, und eine Bedingung, bei der ein Ausführungsbeispiel (in den 1 bis 3) dargestellt) der vorliegenden Erfindung verwendet wurde. Ferner wurde bei der Viterbi-Verarbeitung gekürzt, so dass etwa 80% sämtlicher Zustände der gemeinsamen Modelle für Männer und Frauen Zustände von Hidden-Markov-Modellen beibehalten konnten. Eine Vergleichstabelle, welche die Erkennungsraten und die Speicheranforderungen der verschiedenen Erkennungsverfahren vergleicht, ist in 5 dargestellt.
  • Wie aus der 5 ersichtlich, ist gemäß dem Ausführungsbeispiel der vorliegenden Erfindung die durchschnittliche Erkennungsrate im Vergleich mit der "Bedingung, bei der gemeinsame akustische Modelle für Männer und Frauen verwendet wurden", wie auch mit "der Bedingung, bei der separate akustische Multi-Template-Modelle für Männer und Frauen verwendet wurden" verbessert. Auch ist die Anzahl der Personen, für welche die Erkennungsrate niedriger als 60% ist, verringert, wie dies auch bei "der Bedingung, bei der separate akustische Multi-Template-Modelle für Männer und Frauen verwendet wurden" der Fall ist. Dies kann darin begründet sein, dass die Verwendung der separaten Modelle für Männer und Frauen die Tendenz zu geringeren Erkennungsraten für eher maskuline Stimmen oder eher weibliche Stimmen hinsichtlich der akustischen Charakteristiken verringerte, was unter der "Bedingung, bei der gemeinsame akustische Modelle für Männer und Frauen verwendet wurden" festgestellt wurde.
  • Hinsichtlich des Arbeitsspeichers zum Speichern der Informationen über Hidden-Markov-Modell-Zustände und des Speichers zum Speichern eines Vokabulars, lieferte das Ausführungsbeispiel der vorliegenden Erfindung die gleichen Resultate wie unter der "Bedingung, bei der gemeinsame akustische Modelle für Männer und Frauen verwendet wurden".
  • Gemäß dem vorgenannten (in den 1 bis 3 gezeigten) Ausführungsbeispiel wird jedes bei der Spracherkennung zu erkennende Wort durch zwei Arten von Hidden-Markov-Modellen, Hidden-Markov-Modelle für Männer und für Frauen, und Ausgabewahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten, die in diesen Hidden-Markov-Modellen voreingestellt sind, in dem ROM 6 vorab gespeichert.
  • Während der Spracherkennung bestimmt die Spracherkennungseinrichtung 4, in bezug auf die von dem Merkmalswertdetektor 3 gelieferten Merkmalsparameter und die Hidden-Markov-Modelle, die Wahrscheinlichkeit des Eintretens einer Sequenz der Merkmalsparameter, und anschließend erkennt sie die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit.
  • Ferner weist die Spracherkennungseinrichtung 4 während des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines Hidden-Markov-Modells auf, die den beiden Arten von Hidden-Markov-Modellen für jedes Wort gemeinsam ist. Ferner wird die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells bestimmt. Zu diesem Zweck werden die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Männer voreingestellt sind, unter Verwendung eines bestimmten Merkmalsparameters miteinander multipliziert, und die Ausgabewahrscheinlichkeitsfunktion und die Übergangswahrscheinlichkeit, die in dem Hidden-Markov-Modell für Frauen voreingestellt sind, werden unter Verwendung eines bestimmten Merkmalsparameters miteinander multipliziert. Danach wird der größere der beiden bestimmten Wahrscheinlichkeitswerte gewählt.
  • Zusätzlich zu dem Fall, dass jedes bei der Spracherkennung zu erkennende Wort, wie beschrieben, durch zwei Arten von Hidden-Markov-Modellen, Hidden-Markov-Modelle für Männer und für Frauen, wiedergegeben wird, ist die vorliegende Erfindung jedoch auch nach Bedarf auf die folgenden drei Fälle anwendbar.
  • Der erste Fall umfasst die Verwendung zweier Arten von Hidden-Markov-Modellen, Hidden-Markov-Modelle für Erwachsene und für Kinder, um jedes bei der Spracherkennung zu erkennende Wort wiederzugeben.
  • Der zweite Fall umfasst die Verwendung von fünf Arten von Hidden-Markov-Modellen, jeweils für erwachsene Männer, erwachsene Frauen, ältere Männer, ältere Frauen, und Kinder, oder die Verwendung mehrerer separater Hidden-Markov-Modelle für unterschiedliche Altersgruppen.
  • Der dritte Fall umfasst die Verwendung eines Hidden-Markov-Modells, das auf Stimmendaten basiert, die nicht viel Rauschen enthalten, und eines Hidden-Markov-Modells, das auf Stimmendaten basiert, die viel Rauschen enthalten, um jedes bei der Spracherkennung zu erkennende Wort wiederzugeben.
  • Wenn beispielsweise eine Spracherkennungsvorrichtung in einem Automobil verwendet wird, ist der Geräuschpegel bei nicht fahrendem Fahrzeug sehr gering, jedoch nehmen die Geräusche mit dem Beschleunigen des Fahrzeugs oder dem Lauterstellen des Radios zu. Das Signal-Rauschverhältnis (S/N-Verhältnis) kann dann –10 dB erreichen.
  • Bei der Verwendung von Hidden-Markov-Modellen, die auf Stimmendaten mit geringem Geräuschpegel bei einem Signal-Rauschverhältnis von ungefähr 20 dB basieren, verringert sich die Erkennungsleistung mit der Zunahme des Geräuschpegels und wird bei 0 dB oder weniger unpraktisch.
  • Hingegen wird bei der Verwendung von Hidden-Markov-Modellen, die auf Stimmendaten basieren, denen viele Geräusche mit einem Signal-Rauschverhältnis um –10 dB überlagert sind, eine gute Leistung bei einem Signal-Rauschverhältnis von –10 dB bis 0 dB erhalten, jedoch sinkt die Erkennungsleistung in einer ruhigen Umgebung mit 0 dB oder mehr auf ein unpraktisches Maß.
  • Somit wird in dem dritten Fall ein Hidden-Markov-Modell, das auf Stimmendaten mit einem Signal-Rauschverhältnis von 20 dB basiert, und ein Hidden-Markov-Modell, das auf Stimmendaten mit einem Signal-Rauschverhältnis von –10 dB basiert, verwendet. Eine hohe Spracherkennungsleistung wird über einen weitern Bereich von Umgebungen von einer geräuschvollen Umgebung mit einem Signal-Rauschverhältnis von –10 dB bis zu einer leisen Umgebung mit einem Signal-Rauschverhältnis von mehr als 20 dB erreicht.
  • Es existieren verschiedene Arten von Geräuschen, wie beispielsweise die zuvor erwähnten Geräusche in einem fahrenden Automobil, das Treiben in einem Geschäftsgegend, BGM, und Geräusche in Büros, Fabriken und anderen Orten. Das Signal-Rauschverhältnis variiert erheblich. Ein Hidden-Markov-Modell, das auf einer Überlagerung durch relativ ruhige Bürogeräusche basiert, und ein Hidden-Markov-Modell, das auf der Überlagerung durch starke Geräusche, die in einem fahrenden Fahrzeug erzeugt werden, basiert, können somit in Kombination verwendet werden.
  • Die in dem ersten bis dritten Fall verwendeten Verfahren sind die gleichen wie bei den vorgenannten Ausführungsbeispielen, mit der Ausnahme, dass die beiden zuvor beschriebenen Arten von Hidden-Markov-Modellen verwendet werden, und daher wird auf eine Beschreibung derselben verzichtet.
  • Bei den vorangehenden Ausführungsbeispiel wurde der Fall beschrieben, dass jedes bei der Spracherkennung zu erkennende Wort durch zwei Arten von Hidden-Markov-Modellen für Männer und für Frauen wiedergegeben wird, und der Fall, dass jedes bei der Spracherkennung zu erkennende Wort in der für den ersten bis dritten Fall beschriebenen Weise ausgedrückt wird.
  • Jedoch kann erfindungsgemäß jedes bei der Spracherkennung zu erkennende Wort beispielsweise durch vier Arten von Hidden-Markov-Modellen wiedergegeben werden: geschlechtsspezifische Hidden-Markov-Modelle, und zwei Hidden- Markov-Modelle, die auf Stimmendaten basieren, welche verschiedene Arten von Geräuschen enthalten.
  • Es ist ferner möglich, Hidden-Markov-Modelle basierend auf Stimmendaten zu erstellen, die in mehrere Gruppen mit unterschiedlichen Merkmalen aufgeteilt sind, einschließlich akustischer Merkmale, die mit der Stimmtraktform des Sprechers, beispielsweise der Länge oder Dicke, der Art des Öffnens des Mundes, der Tonhöhe, dem Tonfall, dem Akzent der Stimme, der Sprechgeschwindigkeit oder der Betriebsumgebung variieren.
  • Industrielle Anwendbarkeit
  • Die vorliegende Erfindung verwendet mehrere Arten von Hidden-Markov-Modellen (akustische Modelle), erkennt jedoch Vokabularelemente (Wörter) ohne Verwendung von Multi-Templates während der Spracherkennung. Somit kann sie die Genauigkeit der Spracherkennungsrates erhöhen, ohne die Speicherkapazität des Arbeitsspeichers oder dergleichen für die Spracherkennung zu vergrößern.
  • Selbst wenn mehr als eine Art der Aussprache eines einzelnen Vokabularelements existiert, beispielsweise eine umgangssprachliche Aussprache, kann die vorliegende Erfindung die Genauigkeit der Spracherkennungsraten verbessern, indem eine Art von Hidden-Markov-Modell verwendet wird, ohne die Speicherkapazität des Arbeitsspeichers oder dergleichen für die Spracherkennung zu vergrößern.

Claims (6)

  1. Spracherkennungsvorrichtung zum Erkennen der Sprache von nicht spezifizierten Sprechern unter Verwendung von Hidden-Markov-Modellen, wobei die Vorrichtung aufweist: eine Erkennungseinrichtung zum Erkennen von Merkmalsparametern von Eingangssprache; eine Erkennungsdatenspeichereinrichtung zum Vorabspeichern von Ausgangswahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten, die als Argumente die Merkmalsparameter verwenden, welche in mehreren vorbestimmten Hidden-Markov-Modellen voreingestellt sind, welche jedes von mehreren vorbestimmten Wörtern repräsentieren; eine Erkennungseinrichtung zum Bestimmen der Wahrscheinlichkeit des Eintretens, dass eine Abfolge der Merkmalsparameter auftritt, in bezug auf die von der Erkennungseinrichtung erkannten Merkmalsparameter und auf die Hidden-Markov-Modelle, dadurch gekennzeichnet, dass die Erkennungseinrichtung jedem der Wörter in dem Vorgang des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines der Hidden-Markov-Modelle zuweist, das den mehreren Arten von Hidden-Markov-Modellen gemeinsam ist, und die Erkennungseinrichtung jedes aus einem Ausgangswahrscheinlichkeitsfunktionswert und einer Übergangswahrscheinlichkeit gebildete Paar unter den in der Erkennungsdatenspeichereinrichtung gespeicherten Ausgangswahrscheinlichkeitsfunktionswerten und Übergangswahrscheinlichkeiten miteinander multipliziert, das größte Produkt als die Wahrscheinlichkeit je des Zustands des gemeinsamen Hidden-Markov-Modells wählt, die Eintrittswahrscheinlichkeit basierend auf dem gewählten größten Produkt bestimmt, und anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit erkennt.
  2. Spracherkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Erkennungseinrichtung die Übergangswahrscheinlichkeit jedes Zustands des Hidden-Markov-Modells mit den mehreren Arten von Hidden-Markov-Modellen teilt, um die Eintrittswahrscheinlichkeit zu bestimmen.
  3. Spracherkennungsvorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die mehreren vorbestimmten Arten von Hidden-Markov-Modellen mindestens zwei Arten umfassen, die unter geschlechtsspezifischen Hidden-Markov-Modellen, mehreren altersspezifischen Hidden-Markov-Modellen und mehreren Hidden-Markov-Modellen, die auf unterschiedliche Arten von Geräuschen enthaltenden Stimmendaten basieren, gewählt sind.
  4. Spracherkennungsverfahren mit den folgenden Schritten: Vorabspeichern von Ausgangswahrscheinlichkeitsfunktionen und Übergangswahrscheinlichkeiten in einen Speicher, die als Argumente die Merkmalsparameter verwenden, welche in mehreren vorbestimmten Hidden-Markov-Modellen voreingestellt sind, welche jedes von mehreren vorbestimmten Wörtern repräsentieren; und Erkennen von Merkmalsparametern von Eingangssprache während der Spracherkennung, Bestimmen der Wahrscheinlichkeit des Eintretens, dass eine Sequenz der Merkmalsparameter auftritt, in bezug auf die erkannten Merkmalsparameter und die Hidden-Markov-Modelle, und Erkennen der Eingangssprache basierend auf der derart bestimmten Eintrittswahrscheinlichkeit, dadurch gekennzeichnet, dass das Verfahren jedem der Wörter in dem Vorgang des Bestimmens der Eintrittswahrscheinlichkeit eine Zustandssequenz eines der Hidden-Markov-Modelle zuweist, das den mehreren Arten von Hidden-Markov-Modellen gemeinsam ist, jedes aus einem Ausgangswahrscheinlichkeitsfunktionswert und einer Übergangswahrscheinlichkeit gebildete Paar unter den in dem Speicher gespeicherten Ausgangswahrscheinlichkeitsfunktionswerten und Übergangswahrscheinlichkeiten miteinander multipliziert, das größte Produkt als die Wahrscheinlichkeit jedes Zustands des gemeinsamen Hidden-Markov-Modells wählt, und die Eintrittswahrscheinlichkeit basierend auf dem gewählten größten Produkt bestimmt, und anschließend die Eingangssprache basierend auf der solchermaßen bestimmten Eintrittswahrscheinlichkeit erkennt.
  5. Spracherkennungsverfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Übergangswahrscheinlichkeit jedes Zustands des Hidden-Markov-Modells mit den mehreren Arten von Hidden-Markov-Modellen geteilt wird, um die Eintrittswahrscheinlichkeit zu bestimmen.
  6. Spracherkennungsverfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass die mehreren vorbestimmten Arten von Hidden-Markov-Modellen mindestens zwei Arten umfassen, die unter geschlechtsspezifischen Hidden-Markov-Modellen, mehreren altersspezifischen Hidden-Markov-Modellen und mehreren Hidden-Markov-Modellen, die auf unterschiedliche Arten von Geräuschen enthaltenden Stimmendaten basieren, gewählt sind.
DE60124559T 2000-07-13 2001-07-13 Einrichtung und verfahren zur spracherkennung Expired - Lifetime DE60124559T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000212115 2000-07-13
JP2000212115 2000-07-13
PCT/JP2001/006092 WO2002007146A1 (en) 2000-07-13 2001-07-13 Speech recognition device and speech recognition method

Publications (2)

Publication Number Publication Date
DE60124559D1 DE60124559D1 (de) 2006-12-28
DE60124559T2 true DE60124559T2 (de) 2007-09-06

Family

ID=18708076

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60124559T Expired - Lifetime DE60124559T2 (de) 2000-07-13 2001-07-13 Einrichtung und verfahren zur spracherkennung

Country Status (8)

Country Link
US (1) US7272561B2 (de)
EP (1) EP1308929B1 (de)
JP (1) JP3888543B2 (de)
KR (1) KR100547533B1 (de)
CN (1) CN1185621C (de)
AU (1) AU2001269521A1 (de)
DE (1) DE60124559T2 (de)
WO (1) WO2002007146A1 (de)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10127559A1 (de) * 2001-06-06 2002-12-12 Philips Corp Intellectual Pty Benutzergruppenspezifisches Musterverarbeitungssystem
GB2391679B (en) * 2002-02-04 2004-03-24 Zentian Ltd Speech recognition circuit using parallel processors
US7366295B2 (en) * 2003-08-14 2008-04-29 John David Patton Telephone signal generator and methods and devices using the same
US7643989B2 (en) * 2003-08-29 2010-01-05 Microsoft Corporation Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint
US7580570B2 (en) * 2003-12-09 2009-08-25 Microsoft Corporation Accuracy model for recognition signal processing engines
JP2006171185A (ja) * 2004-12-14 2006-06-29 Asahi Kasei Corp 音声認識装置および音声認識方法
US7599719B2 (en) 2005-02-14 2009-10-06 John D. Patton Telephone and telephone accessory signal generator and methods and devices using the same
DE602006010505D1 (de) 2005-12-12 2009-12-31 Gregory John Gadbois Mehrstimmige Spracherkennung
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US7966183B1 (en) * 2006-05-04 2011-06-21 Texas Instruments Incorporated Multiplying confidence scores for utterance verification in a mobile telephone
CN101174302B (zh) * 2006-11-01 2010-05-12 财团法人工业技术研究院 图像平面中检测物体的方法与系统
US20090071315A1 (en) * 2007-05-04 2009-03-19 Fortuna Joseph A Music analysis and generation method
JP5200712B2 (ja) 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
US8645135B2 (en) * 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model
CN101741512B (zh) * 2008-11-05 2013-04-17 华为技术有限公司 编码方法和装置
US8392189B2 (en) * 2009-09-28 2013-03-05 Broadcom Corporation Speech recognition using speech characteristic probabilities
CN101807397B (zh) * 2010-03-03 2011-11-16 北京航空航天大学 一种基于隐半马尔可夫模型的噪声鲁棒的语音检测方法
US9105053B2 (en) * 2010-03-23 2015-08-11 Nokia Technologies Oy Method and apparatus for determining a user age range
US9734839B1 (en) * 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
KR20140079092A (ko) * 2012-12-18 2014-06-26 한국전자통신연구원 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치
US9275638B2 (en) * 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US20140365225A1 (en) * 2013-06-05 2014-12-11 DSP Group Ultra-low-power adaptive, user independent, voice triggering schemes
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
KR101975057B1 (ko) 2015-03-20 2019-05-03 한국전자통신연구원 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법
CN104810017B (zh) * 2015-04-08 2018-07-17 广东外语外贸大学 基于语义分析的口语评测方法和系统
US11107461B2 (en) 2016-06-01 2021-08-31 Massachusetts Institute Of Technology Low-power automatic speech recognition device
JP6897677B2 (ja) * 2016-06-15 2021-07-07 ソニーグループ株式会社 情報処理装置及び情報処理方法
DE102017219596A1 (de) * 2016-12-22 2018-06-28 Volkswagen Aktiengesellschaft Sprachausgabestimme eines Sprachbediensystems
US10650802B2 (en) * 2017-07-05 2020-05-12 Panasonic Intellectual Property Management Co., Ltd. Voice recognition method, recording medium, voice recognition device, and robot
CN113112030B (zh) * 2019-04-28 2023-12-26 第四范式(北京)技术有限公司 训练模型的方法及系统和预测序列数据的方法及系统
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质
CN114974227B (zh) * 2021-02-24 2026-01-06 华为技术有限公司 语音识别及其模型训练方法
WO2025112044A1 (zh) * 2023-12-01 2025-06-05 瑞声声学科技(深圳)有限公司 一种语音唤醒方法、电子设备和计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
JP2983364B2 (ja) 1992-01-23 1999-11-29 沖電気工業株式会社 隠れマルコフモデルと音声信号との類似度計算方法
US5621859A (en) 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5598507A (en) 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
US5865626A (en) 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
US6064963A (en) * 1997-12-17 2000-05-16 Opus Telecom, L.L.C. Automatic key word or phrase speech recognition for the corrections industry

Also Published As

Publication number Publication date
AU2001269521A1 (en) 2002-01-30
EP1308929B1 (de) 2006-11-15
US7272561B2 (en) 2007-09-18
JP3888543B2 (ja) 2007-03-07
EP1308929A4 (de) 2005-10-12
CN1441948A (zh) 2003-09-10
US20050119883A1 (en) 2005-06-02
EP1308929A1 (de) 2003-05-07
KR100547533B1 (ko) 2006-01-31
DE60124559D1 (de) 2006-12-28
WO2002007146A1 (en) 2002-01-24
CN1185621C (zh) 2005-01-19
KR20030014331A (ko) 2003-02-15

Similar Documents

Publication Publication Date Title
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69514382T2 (de) Spracherkennung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69701774T2 (de) Spracherkennung in geräuschvoller umgebung und vorrichtung zur durchführung des verfahrens
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
EP1611568B1 (de) Dreistufige einzelworterkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
DE102008017993A1 (de) Sprachsuchvorrichtung
DE69819438T2 (de) Verfahren zur Spracherkennung
EP0797185A2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
EP1456837B1 (de) Verfahren und vorrichtung zur spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition