DE60313706T2 - Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium - Google Patents

Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium Download PDF

Info

Publication number
DE60313706T2
DE60313706T2 DE60313706T DE60313706T DE60313706T2 DE 60313706 T2 DE60313706 T2 DE 60313706T2 DE 60313706 T DE60313706 T DE 60313706T DE 60313706 T DE60313706 T DE 60313706T DE 60313706 T2 DE60313706 T2 DE 60313706T2
Authority
DE
Germany
Prior art keywords
utterance
utterance feature
feature
user
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60313706T
Other languages
English (en)
Other versions
DE60313706D1 (de
Inventor
Hajime Kobayashi
Naohiko Ichihara
Satoshi Odagawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Publication of DE60313706D1 publication Critical patent/DE60313706D1/de
Application granted granted Critical
Publication of DE60313706T2 publication Critical patent/DE60313706T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Spracherkennungs-/Sprachantwort-System zur Lieferung einer Sprach-Antwort auf eine Äußerung eines Benutzers.
  • Beschreibung des verwandten Standes der Technik
  • Es sind Spracherkennungs-/Sprachantwort-Systeme und interaktive Sprach-Systeme bekannt, die eine Sprachantwort auf eine Äußerung eines Benutzers liefern. Hinsichtlich derartiger Systeme wurden einige Systeme vorgeschlagen, die eine spezifische Sprachantwort, wie zum Beispiel einen Dialekt, verwirklichen. Fast alle diese Systeme verwenden aktiv Information, die aus einem Dialog-System gewonnen werden kann, statt aus einer Äußerungs-Information von dem Benutzer. Wenn die Fahrzeug-Navigation als ein Beispiel genommen wird, entspricht das vorstehend erwähnte System einem System, das aktiv Information, auf deren Basis eine Fahrzeug-Navigations-Vorrichtung in geeigneter Weise arbeitet, beispielsweise regionale Information, die während des Fahrens eines Fahrzeuges gewonnen wird, auch in der Sprach-Antwort verwendet (siehe japanische Offenlegungsschrift Nr. 2001-227962 und die japanische Offenlegungsschrift Nr. H8-124092 ). Das System, dass diese Funktionen hat, bringt Vorteile für einen Benutzer, weil es ihm ermöglicht, hörbare regionale Information über ein Gebiet zu erhalten, in dem er/sie fährt, wodurch der Fahrer und/oder ein Mitfahrer unterhalten werden.
  • Es kann sich jedoch als Beispiel von Problemen, die bei den vorstehend beschriebenen Spracherkennungs-/-Antwort-System ergeben, ein Problem ergeben, dass es schwierig ist, eine Sprach-Antwort zu verwirklichen, mit der der Benutzer vertraut ist. Insbesondere können sich Äußerungs-Umstände und Äußerungs-Inhalte eines Benutzers erheblich aufgrund einer Vielzahl von Umständen und/oder mentalen Zuständen des Benutzers ändern, mit dem Ergebnis, dass weder eines der für elektronische Ausrüstungen, wie zum Beispiel eine Fahrzeug-Navigations-Vorrichtung, angewandten Systeme noch eines der Verfahren, die vorgeschlagen wurden, unter Einschluss des in den oben erwähnten Veröffentlichungen erwähnten Systems, vollständig eine flexible Antwort auf nicht festgelegte Benutzer ergeben kann.
  • Die US 6243675 B1 beschreibt ein Informations-Verarbeitungs-System, das ein Spracherkennungs-Merkmal einschließt. Das System schließt eine Speicher-Einrichtung zum Speichern von Sprachkategorien-Spezifikations-Worten ein, wobei eine Spracheingabe mit gespeicherter Information verglichen wird, um festzustellen, zu welcher Sprachkategorie die Spracheingabe gehört.
  • Die vorliegende Erfindung ist auf die Schaffung eines alternativen und besseren Systems verglichen mit dem der US 6243675 B1 gerichtet.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Ein Ziel der vorliegenden Erfindung, die im Hinblick auf die vorstehend genannten Probleme gemacht wurde, besteht daher in der Schaffung eines Spracherkennungs-/Sprachantwort-Systems, das eine Sprach-Antwort erzeugen kann, mit der sich ein Benutzer vertraut fühlt.
  • Um das vorstehend genannte Ziel zu erreichen, wird ein Spracherkennungs-/Sprachantwort-System geschaffen, wie es im Anspruch 1 angegeben ist.
  • Um das oben erwähnte Ziel zu erreichen, weist ein Speichermedium eines zweiten Grundgedankens der vorliegenden Erfindung, auf dem ein durch einen Computer ausführbares Spracherkennungs-/Sprachantwort-Programm gespeichert ist, die Merkmale auf, wie sie im Anspruch 3 angegeben sind.
  • Um das vorstehend genannte Ziel zu erreichen, weist ein Spracherkennungs-/Sprachantwort-Programm des dritten Gesichtspunktes der vorliegenden Erfindung, das auf einem Computer ausführbar ist, die Merkmale auf, wie sie im Anspruch 4 angegeben sind.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockschaltbild, das eine schematische Struktur eines Spacherkennungs-/Sprachantwort-Systems gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
  • 2 ist Blockschaltbild eines Spracherkennungs-/Sprachantwort-Systems gemäß einem Beispiel der vorliegenden Erfindung;
  • 3 ist ein Albaufdiagramm der Verarbeitung einer Äußerungs-Merkmal-Kategorie-Auswahl;
  • 4 ist ein Ablaufdiagramm einer Verarbeitung zur Erzeugung einer Sprach-Antwort;
  • 5 ist ein weiteres Ablaufdiagramm der Verarbeitung zur Erzeugung einer Sprach-Antwort;
  • 6A ist eine Ansicht, die ein Beispiel Nr. 1 von Inhalten zeigt, die in einer Lese-Datenbank der Antwort-Datenbank gespeichert sind, und
  • 6B ist eine Ansicht, die das Beispiel Nr. 2 hiervon zeigt;
  • 7 ist ein Ablaufdiagramm der Spracherkennungs-/Sprachantwort-Verarbeitung gemäß der ersten Modifikation der vorliegenden Erfindung;
  • 8 ist eine Ansicht, die den Verarbeitungs-Ablauf gemäß der zweiten Modifikation der vorliegenden Erfindung zeigt; und
  • 9 ist ein Ablaufdiagramm der Spracherkennungs-/Sprachantwort-Verarbeitung gemäß der zweiten Modifikation der vorliegenden Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Bevorzugte Ausführungsformen der vorliegenden Erfindung werden nunmehr ausführlich unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
  • 1 zeigt einen schematischen Aufbau eines Spracherkennungs-/Sprachantwort-Systems gemäß der Ausführungsform der vorliegenden Erfindung. Das Spracherkennungs-/Sprachantwort-System 1 gemäß der Ausführungsform der vorliegenden Erfindung, das eine Sprach-Antwort auf eine Sprach-Eingabe abgibt, die durch eine Äußerung eines Benutzers zur Verwirklichung eines Sprach-Dialogs mit dem Benutzer hervorgerufen wird, kann auf eine Vorrichtung oder eine Ausrüstung angewandt werden, die verschiedene Funktionen einer Sprach-Antwort hat, wie zum Beispiel ein Fahrzeug-Navigationssystem, elektrische Haushaltsgeräte und Audio-Video-Ausrüstungen. Die Erzeugung eines Spracherkennungs-/Sprachantwort-Programms zur Verwirklichung des Spracherkennungs-/Antwort-Systems der Ausführungsform der vorliegenden Erfindung und die Installation des vorstehend erwähnten Programms in einem Endgerät über ein Aufzeichungs-Medium oder über eine Kommunikations-Einrichtung, um es auszuführen, ermöglicht es dem Endgerät als das Spracherkennungs-/Sprachantwort-System zu wirken. In diesem Fall kann das vorstehend genannte Endgerät verschiedene Informations-Endgeräte einschließen, wie zum Beispiel ein Fahrzeug-Navigationssystem, elektrische Haushaltsgeräte und Audio-Video-Ausrüstungen.
  • Das Spracherkennungs-/Sprachantwort-System wird allgemein in strukturelle Komponenten einer Äußerungs-Erkennungs-Einheit 10, einer Äußerungs-Merkmal-Analyse-Einheit 20, einer Sprach-Antwort-Erzeugungs-Einheit 30 und einer Dialog-Steuerungs-Verarbeitungs-Einheit 40 unterteilt. Die Äußerungs-Erkennungs-Einheit 10 empfängt eine Sprach-Eingabe, die von einer Äußerung des Benutzers hervorgerufen wird, führt die Spracherkennungs-Verarbeitung und andere Verarbeitungen zur Erkennung der Inhalte der Äußerung aus, und gibt ein Erkennungs-Schlüsselwort S1 als Erkennungs-Ergebnis aus. Das Erkennungs-Schlüsselwort S1 wird als das Erkennungs-Ergebnis gewonnen, wenn jedes Wort der Äußerung des Benutzers erkannt wird. Das Erkennungs-Schlüsselwort S1, das von der Äußerungs-Erkennungs-Einheit 10 abgegeben wird, wird an die Äußerungs-Merkmals-Analyse-Einheit 20 und die Dialog-Steuerungs-Verarbeitungs-Einheit 40 gesandt.
  • Die Äußerungs-Merkmal-Analyse-Einheit 20 analysiert das Äußerungs-Merkmal eines Benutzers auf der Grundlage des Erkennungs-Schlüsselwortes. Das Äußerungs-Merkmal schließt verschiedene Merkmale ein, wie zum Beispiel die regionale Herkunft des Benutzers, die derzeitige Umgebung des Benutzers und dergleichen, was Einfluss auf die Äußerung des Benutzers haben kann. Die Äußerungs-Merkmal-Analyse-Einheit 20 analysiert das Äußerungs-Merkmal auf der Grundlage des Erkennungs-Schlüsselwortes S1, erzeugt eine Äußerungs-Merkmal-Information S2 und sendet sie an die Sprach-Antwort-Erzeugungs-Einheit 30.
  • Die Dialog-Steuerungs-Verarbeitungs-Einheit 40 steuert den Verlauf des Dialoges mit dem Benutzer auf der Grundlage des Erkennungs-Schlüsselwortes S1. Der Verlauf des Dialoges wird unter Berücksichtigung von beispielsweise System-Information der Ausrüstung bestimmt, auf die das Spracherkennungs-/Sprachantwort-System der vorliegenden Erfindung angewandt wird, so dass es entsprechend einem Dialog-Szenarium gesteuert wird, das vorher vorbereitet wurde. Die Dialog-Steuerungs-Verarbeitungs-Einheit 40 bestimmt das Dialog-Szenarium, das ablaufen soll, auf der Grundlage der System-Information und anderer Informationen der derzeitigen Umgebung, und sie ermöglicht es dem Dialog-Szenarium, auf der Grundlage des Erkennungs-Schlüsselwortes S1 abzulaufen, das den Inhalten der Äußerung des Benutzers entspricht, um den Dialog auszuführen. Dann erzeugt die Dialog-Steuerungs-Verarbeitungs-Einheit 40 gemäß dem Verlauf des Dialoges eine Sprachantwort-Information S3, durch die eine nachfolgend auszugebende Sprach-Einheit bestimmt wird, und sie sendet die auf diese Weise erzeugt Antwort-Sprach-Information S3 an die Sprachantwort-Erzeugungs-Einheit 30.
  • Die Sprachantwort-Erzeugungs-Einheit 30 erzeugt eine Sprach-Antwort mit einem Muster, das der Sprachantwort-Information S3, die von der Dialog-Steuerungs-Verarbeitungs-Einheit 40 geliefert wird, und dem Äußerungs-Merkmal entspricht, das von der Äußerungs-Merkmal-Information S2 dargestellt ist, und gibt eine Sprachantwort über eine Sprach-Ausgabe-Einrichtung, wie zum Beispiel einen Lautsprecher aus.
  • Das Spracherkennungs-/Sprachantwort-System 1 der Ausführungsform der vorliegenden Erfindung gibt auf diese Weise die Sprachantwort auf der Grundlage des Äußerungs-Merkmals gemäß dem Äußerungs-Zustand des Benutzers aus.
  • BEISPIELE
  • Nunmehr werden nachfolgend bevorzugte Beispiele beschrieben.
  • [System-Strukur]
  • 2 ist ein Blockschaltbild des Spracherkennungs-/Sprachantwort-Systems 100 gemäß dem Beispiel der vorliegenden Erfindung, das die geeignete Sprach-Antwort auf die Äußerung des Benutzers erzeugt. Wie dies in 2 gezeigt ist, umfasst das Spracherkennungs-/Sprachantwort-System 100 allgemein Bauteile der Äußerungs-Erkennungs-Einheit 10, der Äußerungs-Merkmal-Analyse-Einheit 20, der Sprachantwort-Erzeugungs-Einheit 30 und der Dialog-Steuerungs-Verarbeitungs-Einheit 40.
  • Die Äußerungs-Erkennungs-Einheit 10 schließt einen Parameter-Umwandlungs-Abschnittt 12 und einen Spracherkennungs-Verarbeitungs-Abschnitt 14 ein. Der Parameter-Umwandlungs-Abschnitt 12 wandelt die Sprache, die von dem Benutzer durch seine/ihre Äußerung eingegeben wurde, in weitere Parameter um, die Merkmale der Sprache anzeigen. Der Spracherkennungs-Verarbeitungs-Abschnitt 14 führt eine Übereinstimmungs-Verarbeitung zwischen dem Merkmal-Parameter, die von dem Parameter-Umwandlungs-Abschnitt 12 gewonnen wurden, und Schlüsselwort-Modellen aus, die vorher in eine Spracherkennungs-Maschine eingefügt wurden, um ein Erkennungs-Schlüsselwort abzuleiten. In dem Beispiel der vorliegenden Erfindung ist der Spracherkennungs-Verarbeitungs-Abschnitt 14 so konfiguriert, dass er die Übereinstimmungs-Verarbeitung mit dem Schlüsselwort in jedem der Worte ausführt, um die Erkennungs-Verarbeitung auszuführen. Das Erkennungs-Schlüsselwort ist ein Wort, das in der Äußerung des Benutzers enthalten ist, und ein Schlüsselwort, das durch die Spracherkennungs-Verarbeitung erkannt wurde.
  • Die Äußerungs-Merkmal-Analyse-Einheit 20 schließt einen Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 und eine Äußerungs-Merkmal-Datenbank (DB) 24 ein. Der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 verwendet den Äußerungs-Merkmal-Parameter, der dem Erkennungs-Schlüsselwort entspricht, das von dem Spracherkennungs-Verarbeitungs-Abschnitt 14 abgeleitet wurde, um die Äußerungs-Merkmal-Kategorie auszuwählen.
  • Der Äußerungs-Merkmal-Parameter schließt einen Wert ein, der die Häufigkeit des Auftretens bezüglich der Merkmale anzeigt, die in verschiedene Elemente klassifiziert sind. In dem Fall, in dem geurteilt wird, dass der Benutzer, der die Äußerung abgibt, eine Person ist, die in dem Kanto-Gebiet in Japan geboren ist (nachfolgend als die „Kanto-Person" bezeichnet) oder eine Person ist, die in dem Kansai-Gebiet in Japan geboren (nachfolgend als die „Kansai-Person" bezeichnet), um Beispiele zu nennen, so wird der Äußerungs-Merkmal-Parameter in der Äußerungs-Merkmal-Datenbank 24 in Form des folgenden mehrdimensionalen Wertes gespeichert:
    p = (Wert der Äußerungs-Häufigkeit bei der Kanto-Person, Wert der Äußerungs-Häufigkeit bei der Kansai-Person).
  • Der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 verwendet den vorstehend beschriebenen Äußerungs-Merkmal-Parameter zur Auswahl der Äußerungs-Merkmal-Kategorie des Benutzers.
  • Die Dialog-Steuerungs-Verarbeitungs-Einheit 40 steuert den Dialog mit dem Benutzer. Die Dialog-Steuerungs-Verarbeitungs-Einheit 40 bestimmt die Inhalte, die als die Sprach-Antwort ausgegeben werden sollen, unter Verwendung der Information des Systems und des Erkennungs-Schlüsselwortes, und liefert eine Bezugs-ID, die als Erkennungs-Information für die als die Sprach-Antwort auszugebenden Inhalte dient, an die Sprachantwort-Erzeugungs-Einheit 30. Nebenbei bemerkt wird die Dialog-Steuerungs-Verarbeitung beispielsweise dadurch ausgeführt, dass bewirkt wird, das ein vorher vorbereitetes Dialog-Szenarium unter Berücksichtigung der Inhalte der Äußerung des Benutzers abläuft. Die Dialog-Steuerungs-Verarbeitung als solche hat nur geringe Bedeutung für die Merkmale der vorliegenden Erfindung, so dass eine weitere ausführliche Beschreibung fortgelassen wird.
  • Die Sprachantwort-Erzeugungs-Einheit 30 erzeugt Sprach-Signale für die Sprach-Antwort auf der Grundlage der Äußerungs-Merkmals-Kategorie, die von dem Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 gewonnen wurde, und der Bezugs-ID für die Sprach-Antwort, die von der Dialog-Steuerungs-Verarbeitungs-Einheit 40 gewonnen wurde. Die von der Sprachantwort-Erzeugungs-Einheit 30 erzeugte Sprache wird dann über den Lautsprecher an den Benutzer in Form einer Sprach-Antwort ausgegeben.
  • [Äußerungs-Merkmal-Parameter]
  • Nunmehr wird der Äußerungs-Merkmal-Parameter im einzelnen nachfolgend beschrieben. Der Äußerungs-Merkmal-Parameter ist ein Parameter, der vorher vorbereitet wurde, um eine bestimmte Äußerungs-Merkmal-Kategorie, unter die die Äußerung des Benutzers fällt, aus der Vielzahl von Äußerungs-Merkmal-Kategorien auszuwählen, die vorher durch Klassifizieren der Merkmale der Äußerung des Benutzers in verschiedene Arten von Mustern gewonnen wurden. Der Äußerungs-Merkmal-Parameter wird in Form eines mehrdimensionalen Wertes ausgedrückt, der die entsprechende Anzahl von Elementen für die Äußerungs-Merkmal-Kategorien einschließt. Jedes der oben erwähnten Elemente schließt einen Wert ein, der die Häufigkeit anzeigt, mit der eine unter die Äußerungs-Kategorie, die durch das betreffende Element ausgedrückt ist, fallende Person das Schlüsselwort verwendet.
  • Nunmehr wird nachfolgend ein Beispiel der Prozedur zur Gewinnung des Äußerungs-Merkmal-Parametersbeschrieben.
  • [Schritt 1]
  • Es wird eine Untersuchung in Form einer Befragung darüber ausgeführt, ob jeweilige Benutzer üblicherweise das in einem Lexikon enthaltene Schlüsselwort als das Erkennungs-Schlüsselwort verwenden, auf einer Skala von „0" (null) bis „n" durchgeführt (die Benutzer werden aufgefordert, irgendeine der Auswahlen von „0" bis „n" auszuwählen, unter der Annahme, dass eine größer Anzahl hiervon eine höhere Häufigkeit der Benutzung bedeutet), um Proben zu gewinnen.
  • Es sind die folgenden Gleichungen gegeben: M = (m(1), m(2), ,m(N))(worin I = 1, 2, ,N) ist. M_all = Σm(i) worin "N" die Anzahl der Erkennungs-Kategorien und „m(i)" die Anzahl von Personen ist, die der Befragungs-Untersuchung bezüglich der Kategorie „i" unterworfen wurden.
  • [Schritt 2]
  • Die Ergebnisse der Befragungs-Untersuchung werden zusammengestellt.
  • Es wird angenommen, dass der Wert der Ergebnisse, die sie bezüglich des Schlüsselwortes Nummer „k" zusammengestellt wurden, durch die folgende Gleichung ausgedrückt ist: Rk = (rk(1), rk(2), ,rk(N))worin rk(i) das zusammengestellte Ergebnis bezüglich der Kategorie „i" ist.
  • Der Element-Wert „rk(i)" von „Rk" wird auf der Grundlage der folgenden Gleichung berechnet: rk(i) = Σdk(i,j)(worin, j = 1, 2, ,N; dk(i,j) = 0,. 1,,p 1) ist.
  • Der oben erwähnte Wert „dk(i, j)" zeigt die Ergebnisse von der antwortenden Person Nummer „j" ein, das heißt die Häufigkeit, mit der eine Person, die unter die Sprecher-Kategorie „i" fällt, das Schlüsselwort Nummer „k" verwendet.
  • [Schritt 3]
  • Ein normierter Parameter L =(1(1), ,1(N)) wird für die Normierung einer Gruppe bestimmt. Der normierte Parameter in der Kategorie „i" wird so bestimmt, dass er dien folgende Gleichung erfüllt: M_all/p = I(i)·m(i)(worin I = 1, 2, ,N) ist.
  • Die vorstehende Gleichung kann in die folgende Gleichung umgewandelt werden: I(i) = M_all/(p·m(i))
  • [Schritt 4]
  • Der Wert des zusammengestellten Ergebnisses „Rn" wird unter Verwendung des normierten Parameters normiert, der im Schritt 3 bestimmt wurde, wie folgt: rk'(i) = I(i)·rk(i)/ΣI(j)·rk(j)
  • [Schritt 5]
  • Die auf diese Weise normierten Werte der zusammengestellten Ergebnisse können in der Äußerungs-Merkmal-Datenbank gespeichert werden, sodass der Wert „rk'(i)" als der Äußerungs-Merkmal-Parameter für das Schlüsselwort „k" verwendet wird.
  • < Berechnungs Beispiel>
    • – Vorgesehenes System: Es wird ein Sprach-Dialog-System geschaffen, bei dem die Regionalität aus der Äußerung des Benutzers und einer Sprach-Antwort in einem Dialekt abgeleitet wird, die für die Äußerung des Benutzers geeignet ist.
    • – Vorbedingungen: A: Die Dialekte in Japan werden in lediglich zwei Muster in dem Kanto-Gebiet und dem Kansai-Gebiet klassifiziert. B: Die Elemente in dem Äußerungs-Merkmal-Parameter werden in der Reihenfolge des Kanto-Gebietes und des Kansai-Gebietes in eindimensionaler Form aufgeführt. C: Der Äußerungs-Merkmal-Parameter bezüglich des Schlüsselwortes „makudo" wird ausgewählt (Bemerkung: Dieses Wort in japanischer Sprache, das mit dem Kansai-Akzent gesprochen wird, bedeutet „Mackers").
  • [Schritt 1]
  • Für Personen, die entweder eine Kanto-Person oder eine Kansai-Person sind, wird ein Untersuchung in Form einer Befragung durchgeführt, ob sie üblicherweise das Schlüsselwort „makudo" verwenden.
  • Die Antwort auf eine der Befragungen kann positiv oder negativ sein. Die Anzahl „M" von Personen, die Antworten auf die Befragungen gaben, ist durch die folgende Gleichung ausgedrückt: M = (731, 635)
  • Entsprechend wird die folgende Gleichung gewonnen: M_all = 731 + 635 = 1366
  • [Schritt 2]
  • Es wird das zusammengestellte Ergebnis „R" für die Ergebnisse der Befragungs-Untersuchung gewonnen, die im Schritt 1 ausgeführt wurde.
  • Die Antwort erfolgt auf einer Skala von 1 bis 2 der Bestätigung oder Verneinung, wodurch sich der Ausdruck „p = 2" ergibt.
  • Unter der Annahme, dass die Anzahl der Personen, die eine bestätigende Antwort gaben, ein Wert von „R" ist, so ergibt sich die folgende Gleichung: Rmakudo = (9,613)
  • [Schritt 3]
  • Der normierte Parameter „L" wird gewonnen.
  • Die Anzahl "M" von Personen, die Antworten auf die Befragungs-Untersuchung gaben, wird durch die folgende Gleichung im Schritt 1 ausgedrückt: M = (731, 635)
  • Entsprechend ergeben sich die folgenden Gleichungen: I(1) = M_all/(p·m(1)) = 1366/(2·731) = 0,93 I(2) = M_all/(p·m(2)) = 1366/(2·635) = 1,08 :L = (0,93, 1,08)
  • Der Wert des zusammengestellten Ergebnisses „Rmakudo" wird unter Verwendung des normierten Parameters „L" normiert, der im Schritt 3 gewonnen wurde, wie folgt: R_allmakudo = Σrmakudo(i)·I(i) = 9·0,93 + 613·1,08 = 670,41 r'makudo(1) = rmakudo(1)·1(1)/R'_all = 9·0,93/670,41 = 0,012 r'makudo(2) = rmakudo(2)·1(2)/R'_all = 613·1,08/670,41 = 0,988 ∴ R'makudo = (0,012, 0,988)
  • Der auf diese Weise normierte Wert des zusammengestellten Ergebnisses „R'makudo", wie er im Schritt 4 gewonnen wurde, wird als der Äußerungs-Merkmal-Parameter von „makudo" in der Äußerungs-Merkmal-Datenbank gespeichert.
  • [Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt]
  • 3 zeigt das Ablaufdiagramm der Äußerungs-Merkmal-Kategorie-Auswahl-Verarbeitung. Die Äußerungs-Merkmal-Kategorie-Auswahl-Verarbeitung wird von dem Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 gemäß 2 ausgeführt.
  • Der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 empfängt das Erkennungs-Schlüsselwort von dem Spracherkennungs-Verarbeitungs-Abschnitt 14 (Schritt S10). Dann gewinnt der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 den Äußerungs-Merkmal-Parameter, der dem Erkennungs-Schlüsselwort entspricht, wie es angegeben wird, von der Äußerungs-Merkmal-Datenbank 24 (Schritt S11). Im Fall des Vorliegens einer Vielzahl von Erkennungs-Schlüsselworten werden die jeweiligen Erkennungs-Schlüsselworte aus der Datenbank gewonnen.
  • Dann gewinnt der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 den einzigen repräsentativen Äußerungs-Merkmal-Parameter aus den Äußerungs-Merkmal-Parametern, die im Schritt S11 gewonnen wurden (Schritt S12). Im einzelnen führt die Existenz eines einzelnen Erkennungs-Schlüsselwortes zu der Existenz eines einzelnen Äußerungs-Merkmal-Parameters. In dem Fall, in dem das einzelne Erkennungs-Schlüsselwort ausschließlich existiert, wird der einzige Äußerungs-Merkmal-Parameter als der repräsentative Äußerungs-Merkmal-Parameter behandelt. In dem Fall, in dem eine Anzahl von Erkennungs-Schlüsselworten existiert, wird ein einzelner repräsentativer Äußerungs-Merkmal-Parameter unter Verwendung der Äußerungs-Merkmal-Kategorie-Parameter erzeugt, die der Anzahl von Erkennungs-Schlüsselworten entsprechen.
  • Dann wählt der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 die Merkmal-Kategorie aus, wobei der repräsentative Äußerungs-Merkmal-Parameter verwendet wird, der im Schritt S12 gewonnen wurde (Schritt S13). Die im Schritt S13 ausgewählte Merkmal-Kategorie wird als die Äußerungs-Merkmal-Kategorie für den Benutzer ausgegeben.
  • Der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 gibt die Äußerungs-Merkmal-Kategorie, die im Schritt S13 ausgewählt wurde, an die Sprach-Antwort- Erzeugungs-Einheit 30 aus (Schritt S14). Somit ist die Äußerungs-Merkmal-Kategorie-Auswahl-Verarbeitung abgeschlossen.
  • Nunmehr werden Beispiele der Äußerungs-Merkmal-Kategorie-Auswahl-Verarbeitung nachfolgend beschrieben.
  • < Beispiel Nummer 1>: Der Fall, in dem „makudo" (Bemerkung: Dieses Wort in japanischer Sprache, das mit dem Kansai-Akzent gesprochen wird, bedeutet „Mackers") und „ich möchte gehen" als die Erkennungs-Schlüsselworte abgeleitet werden.
  • Vorbedingungen:
    • – Äußerungs-Merkmal-Parameter des Wortes „makudo":(0,012,.0,988)
    • – Äußerungs-Merkmal-Parameter des Wortes „ich möchte gehen": (0,500, 0,500)
  • In dem Beispiel Nummer 1 stellen die Elemente in dem Äußerungs-Merkmal-Parameter folgendes dar: (Wert der Äußerungs-Häufigkeit bei der Kanto-Person, Wert der Äußerungs-Häufigkeit bei der Kansai-Person).
  • Als erstes werden im Schritt S11 der Äußerungs-Merkmal-Parameter „u" für das Wort „makudo" und der Äußerungs-Merkmal-Parameter „v" für die Worte „ich möchte gehen" aus der Äußerungs-Merkmal-Datenbank gewonnen. Hier sind die Äußerungs-Merkmal-Parameter „u" und „v" wie folgt ausgedrückt: u = (0,012, 0,988), v = (0,500, 0,500)
  • Dann wird im Schritt S12 der repräsentative Äußerungs-Merkmal-Parameter gewonnen. Es gibt viele Möglichkeiten zur Gewinnung des repräsentativen Äußerungs-Merkmal-Parameters. In diesem Fall wird eine Möglichkeit gewählt, bei der von den Elementen des Äußerungs-Merkmal-Parameters, die im Schritt S11 gewonnen wurden, das Element mit dem größten Wert als das Element des repräsentativen Äußerungs-Merkmal-Parameters bestimmt wird.
  • Das erste Element des Äußerungs-Merkmal-Parameters „u" ist „0,012" und das erste Element des Äußerungs-Merkmal-Parameters „v" ist „0,500". Von diesen Werten ist der größte Wert „0,500". In der gleichen Weise ist das zweite Element des Äußerungs-Merkmal-Parameters „u" gleich „0,988", und das zweite Element des Äußerungs-Merkmal-Parameters „v" ist „0,500". Von diesen Werten ist der größte Wert „0,988".
  • Gemäß diesem Verfahren wird der repräsentative Äußerungs-Merkmal-Parameter „w" wie folgt ausgedrückt: w = (0,500, 0,988)
  • Dann wird im Schritt S13 die Äußerungs-Merkmal-Kategorie ausgewählt. Von den Elementen der repräsentativen Äußerungs-Merkmal-Parameters „w" wird das Element mit dem größten Wert als die Äußerungs-Merkmal-Kategorie bestimmt.
  • In diesem Beispiel ist das Element, das den größten Wert in den repräsentativen Äußerungs-Merkmal-Parameter „w" hat, „0,988" in dem ersten Element, mit dem Ergebnis, dass die „Kansai-Person" als die Äußerungs-Merkmal-Kategorie ausgewählt wird.
  • < Beispiel Nummer 2>: Der Fall in dem „delightful" als das Erkennungs-Schlüsselwort abgeleitet wird.
  • Vorbedingungen:
    • – Äußerungs-Merkmal-Parameter des Wortes „delightful": (0,998, 0,002)
  • In dem Beispiel Nummer 2 stellen die Elemente des Äußerungs-Merkmal-Parameters jeweils die folgenden Merkmale dar:
    (delightfulness, irritancy)
  • Als erstes wird im Schritt S11 der Äußerungs-Merkmal-Parameter „u" für das Wort „delightful" aus der Äußerungs-Merkmal-Datenbank gewonnen. Hier wird der Äußerungs-Merkmal-Parameter „u" wie folgt ausgedrückt: u = (0,988, 0,002)
  • Dann wird im Schritt S12 der repräsentative Äußerungs-Merkmal-Parameter gewonnen. Es gibt viele Möglichkeiten, den repräsentativen Äußerungs-Merkmal-Parameter zu gewinnen. In diesem Fall wird die Möglichkeit gewählt, bei der von den Elementen des Äußerungs-Merkmal-Parameters, der im Schritt S11 gewonnen wurde, das Element mit dem größten Wert als das Element des repräsentativen Äußerungs-Merkmal-Parameters bestimmt wird.
  • Im Beispiel Nummer 2 existiert der einzige Äußerungs-Merkmal-Parameter, der zu verarbeiten ist, mit dem Ergebnis, dass der Äußerungs-Merkmal-Parameter „u" selbst der repräsentative Äußerungs-Merkmal-Parameter „w" wird, der wie folgt ausgedrückt wird: w = (0,998, 0,002)
  • Dann wird im Schritt S13 die Äußerungs-Merkmal-Kategorie ausgewählt. Von den Elementen des repräsentativen Äußerungs-Merkmal-Parameters „w" wird das Element mit dem größten Wert als die Äußerungs-Merkmal-Kategorie bestimmt.
  • In diesem Beispiel ist das Element mit dem größten Wert in dem repräsentativen Äußerungs-Merkmal-Parameter „w" gleich „0,998" in dem ersten Element, mit dem Ergebnis, dass „delightful" als die Äußerungs-Merkmal-Kategorie ausgewählt wird. Die Äußerungs-Merkmal-Kategorie wird auf diese Weise ausgewählt.
  • [Sprach-Antwort-Erzeugungs-Einheit]
  • Nunmehr wird die Sprachantwort-Erzeugungs-Einheit nachfolgend im einzelnen beschrieben. 4 ist eine Ansicht, auf deren Grundlage die Sprachantwort-Erzeugungs-Verarbeitung unter Verwendung der Äußerungs-Merkmal-Kategorie beschrieben wird, wobei das Ablaufdiagramm, das von der Sprachantwort-Erzeugungs-Einheit in Verbindung mit der Datenbank, auf die ein Zugriff während der Ausführung des Ablaufdiagramms erfolgt, erläutert wird.
  • Wie dies in 4 gezeigt ist, schließt die Sprachantwort-Erzeugungs-Einheit 30 eine Antwort-Datenbank-Konstellation 32 und eine Phonem-Datenbank 38 ein. Die Antwort-Datenbank-Konstellation 32 schließt eine Anzahl von Antwort-Datenbanken 33, 34 ein, die für die jeweiligen Äußerungs-Merkmal-Kategorien konstruiert sind. Die jeweiligen Antwort-Datenbanken 33, 34 schließen Lese-Informations-Datenbanken 33a, 34a und Prosodie-Informations-Datenbanken 33b, 34b ein.
  • In dem Ablaufdiagramm, wie es in 4 gezeigt ist, gewinnt die Sprachantwort-Erzeugungs-Einheit 30 die Äußerungs-Merkmal-Kategorie aus dem Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 (Schritt S30) und wählt einen Satz von Antwort-Datenbanken entsprechend der vorstehend erwähnten Äußerungs-Merkmal-Kategorie aus (Schritt S31). Die Antwort-Datenbank speichert die Lese-Informations-Datenbank, und die Prosodie-Informations-Datenbank zur Erzeugung der Prosodie, wie zum Beispiel Worte, eine Trennung eines Satzes und eine Position eines Akzenten, in Paaren. In dem Fall, in dem die Äußerungs-Merkmal-Kategorie, wie sie eingegeben wird, beispielsweise die „Kansai-Person" ist, so wird die Antwort-Datenbank für die Kansai-Person ausgewählt. Alternativ wird in dem Fall, in dem die Äußerungs-Merkmal-Kategorie, wie sie eingegeben ist, beispielsweise die „Kanto-Person" ist, die Antwort-Datenbank für die Kanto-Person ausgewählt.
  • Dann verwendet die Sprachantwort-Erzeugungs-Einheit 30 die Bezugs-ID, wie sie von der Dialog-Steuerungs-Verarbeitungs-Einheit 40 eingegeben wird, zur Gewinnung der Lese-Information für die Sprach-Antwort und die entsprechende Prosodie-Information von der Antwort-Datenbank, wie sie im Schritt S31 ausgewählt wird (Schritt S32).
  • Die Sprachantwort-Erzeugungs-Einheit 30 erzeugt ein synthetisierte Sprache für die Sprach-Antwort, wobei die Lese-Information und die Prosodie-Information, wie sie im Schritt S32 gewonnen wurde, sowie die Phonem-Datenbank verwendet wird, die Phonem-Daten zur Bildung der synthetisierten Sprache speichert (Schritt S33) und gibt die auf diese Weise erzeugte synthetisierte Sprache in Form der Sprach-Antwort aus (Schritt S34). Die Sprach-Antwort wird auf diese Weise erzeugt und ausgegeben.
  • Die in 4 gezeigte Verarbeitung, hat einen Ablauf, bei dem die Sprach-Antwort unter Verwendung des Sprach-Synthese-Verfahren gemäß der Sprach-Synthese nach Regeln erzeugt wird. Es kann ein anderes Sprach-Synthese-Verfahren angewandt werden. In dem Fall, in dem beispielsweise Sprache erzeugt wird, die vorher für die Sprach-Antwort aufgezeichnet wurde, wird die Lese-Informations-Datenbank gemäß 4 durch eine Sprach-Antwort-Datenbank 50 ersetzt, die durch die oben erwähnte aufgezeichnete Sprache gebildet ist, wie dies in 5 gezeigt ist. Im einzelnen empfängt die Sprachantwort-Erzeugungs-Einheit die Äußerungs-Merkmal-Kategorie von dem Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 (Schritt S40), wählt die Sprachantwort-Datenbank 50 aus (Schritt S41) und gewinnt die Sprach-Antwort (Schritt 42). Die Dialog-Steuer-Verarbeitungs-Einheit 40 und die anderen Einrichtungen verwirklichen den Dialog-Zustand (S44) und die Sprachantwort-Erzeugungs-Einheit gibt direkt die Sprach-Antwort aus, die auf der Grundlage des Dialog-Zustandes und des Erkennungs-Schlüsselwortes ausgewählt wurde (Schritt S44).
  • Nunmehr wird nachfolgend ein Beispiel der Sprachantwort-Erzeugungs-Verarbeitung beschrieben. Dieses Beispiel beruht auf der Verarbeitung, wie sie in 4 gezeigt ist.
  • < Beispiel Nummer 1>: Der Fall, in dem die Äußerungs-Merkmal-Kategorie als „Kansai" beurteilt wird, und der Wert von „2" als die Bezugs-ID der Sprach-Antwort-Datenbank eingegeben wird.
  • Als erstes führt die Sprachantwort-Erzeugungs-Einheit 30 eine Auswahl der Antwort-Datenbank im Schritt S31 aus. „Kansai" wird als die Äußerungs-Merkmal-Kategorie eingegeben. Entsprechend wird die Antwort-Datenbank in diesem Block für die Verwendung von „Kansai" eingestellt.
  • Dann empfängt die Sprachantwort-Erzeugungs-Einheit 30 die Bezugs-ID der Sprachantwort-Datenbank im Schritt S32 und gewinnt die Prosodie-Information, die der oben erwähnten ID entspricht, und die Lese-Information von der Antwort-Datenbank, wie dies im Schritt 31 ausgewählt wurde. Die Antwort-Datenbank speichert die Lese-Information, wie sie beispielsweise in 6A gezeigt ist. In diesem Beispiel ist die Bezugs-ID gleich „2", und die Antwort-Datenbank für „Kansai" wird im Schritt S31 ausgewählt, mit dem Ergebnis, dass der Satz „hona, „makudo ni ikimashou!" (Bemerkung: Diese Satz in japanischer Sprache, der mit dem Kansai-Akzent zu sprechen ist, bedeutet „ In Ordnung, gehen wir zu Mackers!") ausgewählt wird. Zur gleichen Zeit wird die Prosodie-Information, wie zum Beispiel ein Wort, eine Trennung für einen Satz, eine Position der Interpunktion und eine Position eines Akzentes gewonnen, der der Lese-Information entspricht.
  • Dann verwendet die Sprach-Antwort-Erzeugungs-Einheit 30 die Lese-Daten von „hona, „makudo ni ikimashou!" wie sie im Schritt S32 ausgegeben wurden, die Prosodie-Information, die den vorstehend genannten Lese-Daten entspricht, und die Phonem-Datenbank, um Sprache für die Antwort im Schritt 33 zu erzeugen. Die im Schritt S33 erzeugte Sprache wird in Form der Sprach-Antwort ausgegeben.
  • In diesem Beispiel speichert die Antwort-Datenbank die Daten für jeden einzelnen Satz, was zu einer einzigen Bezugs-ID führt, die im Schritt S32 gewonnen wird. Die vorliegende Erfindung kann jedoch auch auf einen Fall angewandt werden, bei dem die Antwort-Datenbank die Daten für jedes einzelne Wort speichert, um das System der vorliegenden Erfindung zu verwirklichen. In einem derartigen Fall wird eine Folge von Bezugs-IDs von der Dialog-Steuerungs-Verarbeitungs-Einheit 40 ausgegeben. Die der jeweiligen Bezugs-ID entsprechende Lese-Information und die Prosodie-Information werden in der Reihenfolge der Folge von Bezugs-IDs gewonnen, Worte werden miteinander durch die Sprach-Synthese-Verarbeitung im Schritt S33 kombiniert, und dann wird die Sprach-Antwort ausgegeben, wenn die kombinierten Worte einen einzigen Satz darstellen. Es kann beispielsweise als die Antwort-Datenbank eine Zwischen-Sprache- (wobei die Prosodie-Information, wie zum Beispiel ein Akzent in der Form von Symbolen zu der Lese-Information hinzugefügt wird) Datenbank angewandt werden, bei der die Prosodie-Informations-Datenbank und die Lese-Informations-Datenbank miteinander kombiniert werden.
  • <Beispiel Nummer 2>: Der Fall, in dem die Äußerungs-Merkmal-Kategorie als „delightfulness" beurteilt wird und der Wert „3" als die Bezugs-ID der Sprach-Antwort-Datenbank eingegeben wird.
  • Als erstes führt die Sprachantwort-Erzeugungs-Einheit 30 eine Auswahl der Antwort-Datenbank im Schritt S31 aus. „delightfulness" wird als die Äußerungs-Merkmal- Kategorie eingegeben. Entsprechend wird die Antwort-Datenbank in diesem Block für „delightfulness" eingestellt.
  • Dann empfängt die Sprachantwort-Erzeugungs-Einheit 30 die Bezugs-ID der Sprach-Antwort-Datenbank im Schritt S32 und gewinnt die Prosodie-Information, die der vorstehend genannten ID entspricht, und die Lese-Information von der Antwort-Datenbank, wie sie im Schritt S31 ausgewählt wurde. Die Antwort-Datenbank speichert die Lese-Information, wie dies als Beispiel in 6 gezeigt ist. In diesem Beispiel ist die Bezugs-ID gleich „3", und die Antwort-Datenbank für „delightfulness" wird im Schritt S31 ausgewählt, mit dem Ergebnis, dass der Satz „Good thing. You look delighted" ausgewählt wird, gleichzeitig wird die Prosodie-Information, wie zum Beispiel ein Wort, eine Trennung für einen Satz, eine Position einer Interpunktion und eine Position eines Akzenten gewonnen, die der Lese-Information entspricht.
  • Dann verwendet die Sprachantwort-Erzeugungs-Einheit 30 die Lese-Daten von „Good thing. You look delighted", wie sie im Schritt S32 ausgegeben werden, die Prosodie-Information, die den vorstehend genannten Lese-Daten entspricht, und die Phonem-Datenbank, um Sprache für die Antwort im Schritt S33 zu erzeugen. Die im Schritt S33 erzeugte Sprache wird in Form der Sprach-Antwort ausgegeben.
  • In diesem Beispiel speichert die Antwort-Datenbank die Daten für jeden einzelnen Satz, was dazu führt, dass die einzige Bezugs-ID im Schritt S32 gewonnen wird. Die vorliegende Erfindung kann jedoch auch auf einen Fall angewandt werden, in dem die Antwort-Datenbank die Daten für jedes einzelne Wort speichert, um das System der vorliegenden Erfindung zu verwirklichen. In diesem Fall wird ein Folge von Bezugs-IDs von der Dialog-Steuer-Verarbeitungs-Einheit 40 ausgegeben. Die Lese-Information, die der jeweiligen Bezugs-ID entspricht, und die Prosodie-Information werden in der Reihenfolge der Folge von Bezugs-IDs gewonnen, Worte werden miteinander durch die Sprach-Synthese-Verarbeitung im Schritt S33 kombiniert, und dann wird die Sprach-Antwort ausgegeben, wenn die kombinierten Worte einen einzigen Satz bilden. Es kann als die Antwort-Datenbank eine Zwischen-Sprache-(bei der die Prosodie-Information, wie zum Beispiel ein Akzent, in Form von Symbolen zu der Lese-Information hinzugefügt wird) Datenbank angewandt werden, in der die Prosodie-Informations-Datenbank und die Lese-Informations-Datenbank miteinander kombiniert werden.
  • <Modifikation Nummer 1>
  • Nunmehr wird nachfolgend eine Modifikation des vorstehend beschriebenen Beispiels beschrieben. Bei dieser Modifikation wird ein anderes Sprachintervall (das heißt ein entbehrliches Wort) als das Schlüsselwort-Intervall ebenfalls der Beurteilungs-Verarbeitung der Äußerungs-Merkmal-Kategorie unterworfen. Im einzelnen kann eine Verarbeitung zur Ableitung eines Schlüsselwortes durchgeführt werden, aus dem das Äußerungs-Merkmal in dem Ausdruck (der nachfolgend als das „Merkmals-Schlüsselwort" bezeichnet wird) von den Äußerungs-Daten entbehrlicher Worte parallel zu der Schlüsselwort-Ableitungs-Verarbeitung abgeleitet wird (was nachfolgend als die „Haupt-Schlüsselwort-Ableitung" bezeichnet wird), wie dies in dem Ablaufdiagramm nach 7 gezeigt ist, was es möglich macht, die Merkmale der Äußerung des Benutzers in deutlicher Weise hervorzuheben.
  • Im einzelnen wird die folgende Verarbeitung ausgeführt:
    Als erstes wandelt der Umwandlungs-Abschnitt 12 die Äußerungs-Daten, die eingegeben wurden, in den Merkmals-Parameter um (Schritt S20). Dann führt der Spracherkennungs-Verarbeitungs-Abschnitt 14 eine Übereinstimmungs-Verarbeitung des Merkmal-Parameters, der im Schritt S20 erzeugt wurde, mit dem Haupt-Schlüsselwort-Modell aus, um das Schlüsselwort abzuleiten (Schritt S21). Der Spracherkennungs-Verarbeitungs-Abschnitt 14 führt weiterhin die Übereinstimmungs-Verarbeitung des im Schritt S20 erzeugten Merkmals-Parameter mit dem Merkmal-Schlüsselwort-Modell durch, um das Schlüsselwort für das Merkmal abzuleiten (Schritt S22).
  • Dann verwendet der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 die Äußerungs-Merkmal-Parameter, die dem Haupt-Schlüsselwort, das im Schritt S21 gewonnen wurde, und dem Merkmals-Schlüsselwort entsprechen, das im Schritt S22 gewonnen wurde, um die am besten geeignete Äußerungs-Merkmal-Kategorie zu gewinnen (Schritt S23). An dieser Stufe werden alle die Äußerungs-Merkmal-Parameter, die an der Seite der Haupt-Schlüsselworte gespeichert sind, und die Äußerungs-Merkmal-Parameter, die neben den Merkmals-Schlüsselworten gespeichert sind verwendet, um den repräsentativen Äußerungs-Merkmal-Parameter zu gewinnen.
  • Die Sprachantwort-Erzeugungs-Einheit 30 erzeugt Sprache für die Sprachanwort, wobei die im Schritt S23 gewonnene Äußerungs-Merkmal-Kategorie und die in den Schritten S21 und S22 gewonnenen Erkennungs-Schlüsselworte verwendet werden (Schritt S24). Die auf diese Weise erzeugte Sprache wird an den Benutzer in Form der Sprachantwort abgegeben.
  • Nunmehr wird ein konkretes Verarbeitungs-Beispiel in der Modifikation 1 nachfolgend beschrieben.
  • <Beispiel>: In dem Fall, in dem die Äußerung „juutai-jouhou wo tanomu-wa" ist (Bemerkung: Dies ist mit dem Kansai-Akzent zu sprechen und bedeutet „Bitte gebe mir Verkehrsstau-Information").
  • Vorbedingungen:
    • – Das Haupt-Schlüsselwort ist „juutai-jouhou" (das heißt Verkehrsstau-Information).
    • – Das Wort „tanomu-wa" (das heißt „Bitte gebe mir") wurde als das Äußerungs-Merkmal-Schlüsselwort aufgezeichnet.
    • – Äußerungs-Merkmal-Parameter des Wortes „juutai-jouhou" (das heißt Verkehrsstau-Information): (0,50, 0,50)
    • – Äußerungs-Merkmal-Parameter des Wortes „tanomu-wa" (das heißt „Bitte gebe mir"): (0,80, 0,20)
    • * Die Elemente des Äußerungs-Merkmal-Parameters in diesem Beispiel stellen jeweils die folgenden Merkmale dar: (Wert der Äußerungs-Häufigkeit bei der Kansai-Person, Wert der Äußerungs-Häufigkeit in der Kanto-Version).
  • Der Parameter-Umwandlungs-Abschnitt 12 gewinnt das Merkmal-Parameter der Äußerungs-Daten selbst im Schritt S20.
  • Dann führt der Spracherkennungs-Verarbeitungs-Abschnitt 14 eine Übereinstimmungs-Verarbeitung des Haupt-Schlüsselwort-Modells mit dem im Schritt S20 gewonnen Merkmals-Parameter aus, um das Haupt-Schlüsselwort von „juutai-jouhou" (das heißt Verkehrsstau-Information) im Schritt S21 abzuleiten. Der Spracherkennungs-Verarbeitungs-Abschnitt 14 führt weiterhin die Übereinstimmungs-Verarbeitung des Merkmals-Schlüsselwortes mit dem Merkmals-Schlüsselwort-Modell und dem im Schritt S20 gewonnenen Merkmals-Parameter aus, um das Merkmals-Schlüsselwort von „tanomu" (das heißt „Bitte gebe mir") im Schritt 22 auszuführen.
  • Dann leitet der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 die Äußerungs-Merkmal-Kategorie im Schritt S23 ab. Im einzelnen wird der Äußerungs-Merkmals-Parameter „u", der dem Haupt-Schlüsselwort von „juutai-jouhou" (das heißt Verkehrsstau-Information) aus der Äußerungs-Merkmal-Datenbank gewonnen. Der Äußerungs-Merkmal-Parameter „v", der dem Merkmals-Schlüsselwort von „tanomu" (das heißt „Bitte gebe mir") wird ebenfalls aus der Äußerungs-Merkmal-Datenbank gewonnen. In diesem Beispiel werden die Äußerungs-Merkmal-Parameter „u" und „v" wie folgt ausgedrückt: u = (0,50, 0,50), v 0 (0,80, 0,20)
  • Dann gewinnt der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 die repräsentativen Äußerungs-Merkmal-Parameter für die gesamten Sprach-Daten, wie sie geäußert werden. Von den Elementen des Äußerungs-Merkmal-Parameters, die durch den Schritt S22 gewonnen wurden, wird das Element, das den größten Wert hat, als das Element des repräsentativen Äußerungs-Merkmal-Parameters bestimmt. Das erste Element des Äußerungs-Merkmal-Parameters „u" ist „0,50" und das erste Element Äußerungs-Merkmal-Parameters „v" ist „0,80". Von diesen Werten ist der größte Wert „0,80". In der gleichen Weise ist das zweite Element des Äußerungs-Merkmal-Parameters „u" gleich „0,50", und das zweite Element des Äußerungs-Merkmal-Parameters „v" ist „0,20". Von diesen Werten ist der größte Wert „0,50".
  • Gemäß dieser Prozedur wird der repräsentative Äußerungs-Merkmal-Parameter „w" wie folgt ausgedrückt: w = (0,80, 0,50)
  • Dann wird aus den Elementen des repräsentativen Äußerungs-Merkmal-Parameters „w" das Element mit dem größten Wert als die Äußerungs-Merkmal-Kategorie bestimmt. Das Element mit dem größten Wert in dem repräsentativen Äußerungs-Merkmal-Parameter „w" ist „0,80" in dem ersten Element. Entsprechend urteilt der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22, dass eine Person, die die Äußerung abgab, die „Kansai-Person" ist, und er sendet das Beurteilungs-Ergebnis an die Sprachanwort-Erzeugungs-Einheit 30.
  • Dann gibt die Sprachantwort-Erzeugungs-Einheit 30 die Äußerungs-Merkmal-Kategorie wieder und führt eine Sprachsynthese-Verarbeitung aus, um die synthetisierte Sprache in Form der Sprachantwort auszugeben.
  • <Modifikation Nummer 2>
  • Nunmehr wird nachfolgend eine weitere Modifikation des vorstehend beschriebenen Beispiels beschrieben. Bei dieser Modifikation Nummer 2 wird eine Anzahl von Äußerungs-Merkmal-Datenbanken vorbereitet, und der Äußerungs-Merkmal-Parameter wird für jede der Äußerungs-Merkmal-Datenbanken gewonnen, sodass es möglich ist, ausführlichere Merkmale der Äußerung des Benutzers in der Sprachantwort wiederzugeben.
  • Im einzelnen wurde vorher eine Datenbank des Äußerungs-Merkmals „A" (beispielsweise die Äußerungs-Merkmal-Datenbank für den emotionalen Ausdruck, wie dies in 8 gezeigt ist) und eine Datenbank des Äußerungs-Merkmals „B" (beispielsweise die Äußerungs-Merkmal-Datenbank für die Regionalität, wie sie in 8 gezeigt ist) vorbereitet, so dass zwei Äußerungs-Merkmal-Parameter, das heißt irgendeiner der Äußerungs-Merkmal-"A"-Parameter und irgendeiner der Äußerungs-Merkmal-"B"-Parameter für ein einzelnes Schlüsselwort gewonnen werden (siehe 8).
  • Die vorhergehende Gewinnung der repräsentativen Äußerungs-Merkmal-Parameter aus den Äußerungs-Merkmal-"A"-Parametern und Äußerungs-Merkmal-"B"-Parametern in allen den Schlüsselworten macht es möglich, Merkmale zu gewinnen, die von zwei Gesichtspunkten in der Äußerung aus beurteilt wurden. Es ist daher möglich, eine Sprachanwort zu tiefem, bei der ausführlichere Äußerungs-Bedingungen wiedergegeben werden, verglichen mit dem Fall, in dem ein einziger Äußerungs-Merkmal-Kategorie-Parameter verwendet wird, wie dies vorstehend beschrieben wurde.
  • Es bedarf keiner Erwähnung, das die ähnliche Verarbeitung auf einen Fall angewandt werden kann, bei dem drei oder mehr Äußerungs-Merkmal-Datenbanken verwendet werden. In diesem Fall umfasst das Spracherkennungs-/Sprachantwort-System die Äußerungs-Bedingungen mit mehr Einzelheiten, so dass es ermöglicht wird, die am besten für die Bedingungen geeignete Sprachantwort zu liefern.
  • Nunmehr wird die jeweilige Verarbeitung nachfolgend entsprechend dem Blockdiagramm, wie es in 1 gezeigt ist, und dem Ablaufdiagramm beschrieben, wie es in 9 gezeigt ist.
  • <Verarbeitungs-Beispiel>
  • Als erstes wandelt der Parameter-Umwandlungs-Abschnitt 12 die Äußerungs-Daten, die eingegeben wurden, in den Merkmal-Parameter um (Schritt S20). Dann führt der Spracherkennungs-Verarbeitungs-Abschnitt 14 eine Übereinstimmungs-Verarbeitung des im Schritt S20 erzeugten Merkmal-Parameter mit dem Haupt-Schlüsselwort-Modell aus, um das Schlüsselwort abzuleiten 8Schritt S21). Der Spracherkennungs-Verarbeitungs-Abschnitt 14 führt weiterhin die Übereinstimmungs-Verarbeitung des Merkmal-Parameters, der im Schritt S20 erzeugt wurde, mit dem Merkmal-Schlüsselwort-Modell aus, um das Schlüsselwort für das Merkmal abzuleiten (Schritt S22), und zwar in der gleichen Weise wie der Schritt S21. Selbstverständlich wird die Äußerungs-Merkmal-Kategorie lediglich für das Haupt-Schlüsselwort verwendet, wie dies vorstehend beschrieben wurde. In diesem Fall ist die System-Struktur identisch zu der des Ablaufdiagramms, das in 9 gezeigt ist, wobei Schritt S21 fortgelassen ist.
  • Dann verwendet der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 die Äußerungs-Merkmal-"A"-Parameter, die dem in Schritt S21 gewonnenen Haupt-Schlüsselwort entsprechen, und das im Schritt S22 gewonnene Merkmal- Schlüsselwort zur Gewinnung der am besten geeigneten Äußerungs-Merkmal-"A"-Kategorie (Schritt S231). An dieser Stufe wurden alle die Äußerungs-Merkmal-"A"-Parameter, die neben dem Haupt-Schlüsselworten gespeichert wurden, und die Äußerungs-Merkmal-"A"-Parameter, die neben dem Merkmal-Schlüsselworten gespeichert wurden, dazu verwendet, den repräsentativen Äußerungs-Merkmal-"A"-Parameter zu gewinnen. Der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 verwendet außerdem die Äußerungs-Merkmal-"B"-Parameter, die dem im Schritt S21 gewonnenen Haupt-Schlüsselwort entsprechen, und das im Schritt S22 gewonnene Schlüsselwort zum Gewinnen der am besten geeigneten Äußerungs-Merkmal-"B"-Kategorie (Schritt S232) in der gleichen Weise wie der Schritt S231.
  • Die Sprachantwort-Erzeugungs-Einheit 30 erzeugt Sprache für die Sprachantwort, wobei die Äußerungs-Merkmal-"A"-Katgorie, die im Schritt S231 gewonnen wurde, die Äußerungs-Merkmal-"B"-Kategorie, die im Schritt S232 gewonnen wurde, und die Erkennungs-Schlüsselwort, die in den Schritten S21 und S22 verwendet wurden (Schritt S24). Die auf diese Weise erzeugte Sprache wird an den Benutzer in Form einer Sprachantwort ausgegeben.
  • Nunmehr wird ein konkretes Verarbeitungs-Beispiel in der Modifikation Nummer 2 nachfolgend beschrieben.
  • <Beispiel>: Der Fall, in dem die Äußerung „akan, juutai-jouhou wo tanomu-wa" ist (Bemerkung: Dies mit dem Kansai-Akzent gesprochen und bedeutet „Oh mein Gott! Bitte gebe mir Verkehrsstau-Information").
  • Vorbedingungen:
    • – Das Haupt-Schlüsselwort ist „juutai-jouhou" (das heißt Verkehrsstau-Information).
    • – Das Wort „tanomu-wa" (das heißt „Bitte gebe mir") wurde als das Äußerungs-Merkmal-Schlüsselwort aufgezeichnet.
    • – Äußerungs-Merkmal-"A"-Parameter des Wortes „juutai-jouhou (das heißt Verkehrsstau-Information):(0,50, 0,50)
    • – Äußerungs-Merkmal-"B"-Parameter des Wortes „juutai-jouhou (das heißt Verkehrsstau-Information):(0,50, 0,50)
    • – Äußerungs-Merkmal-"A"-Parameter des Wortes „tanomu-wa" (das heißt „Bitte gebe mir"):(0,80, 0,20)
    • – Äußerungs-Merkmal-"B"-Parameter des Wortes „tanomu-wa" (das heißt „Bitte gebe mir"):(0,50, 0,50)
    • – Äußerungs-Merkmal-"A"-Parameter des Wortes „akan" (das heißt „Oh mein Gott !"):(0,80, 0,20)
    • – Äußerungs-Merkmal-"B"-Parameter des Wortes „akan" (das heißt „Oh mein Gott !"):(0,10, 0,90)
    • * Die Elemente des Äußerungs-Merkmal-"A"-Parameters stellen in diesem Beispiel die folgenden jeweiligen Merkmale dar: (Wert der Äußerungs-Häufigkeit bei der Kansai-Person, Wert der Äußerungs-Häufigkeit bei der Kanto-Person) und die Elemente des Äußerungs-Merkmal-"B"-Parameters in diesem Beispiel stellen jeweils die folgenden Merkmale dar: (Wert der Häufigkeit, die eine Erfreutheit anzeigt, Wert der Häufigkeit, die eine Irritation anzeigt).
  • Der Parameter-Umwandlungs-Abschnitt 12 gewinnt den Merkmal-Parameter der Äußerungs-Daten selbst im Schritt S20. Dann führt der Spracherkennungs-Verarbeitungs-Abschnitt 14 eine Übereinstimmungs-Verarbeitung des Haupt-Schlüsselwort-Modells mit dem Merkmal-Parameter, der im Schritt S20 gewonnen wurde, aus, um im Schritt S21 das Haupt-Schlüsselwort von „juutai-jouhou" (das heißt Verkehrsstau-Information) abzuleiten.
  • Der Spracherkennungs-Verarbeitungs-Abschnitt 14 führt weiterhin die Übereinstimmungs-Verarbeitung des Merkmal-Schlüsselwortes mit dem Merkmal-Schlüsselwort-Modell und dem Merkmal-Parameter aus, der im Schritt S20 gewonnen wurde, um die Merkmal-Schlüsselworte von „akan" (das heißt „Oh mein Gott !") und „tanomu" (das heißt „Bitte gebe mir") im Schritt S22 abzuleiten.
  • Dann leitet der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 die Äußerungs-Merkmal-"A"-Kategorie im Schritt S231 ab. Im einzelnen wird der Äußerungs-Merkmal-"A"-Parameter „ua", der dem Haupt-Schlüsselwort von „juutai jouhou (das heißt Verkehrsstau-Information) entspricht, aus der Äußerungs-Merkmal-Datenbank gewonnen. Der Äußerungs-Merkmal-"A"-Parameter „va(1)", der dem Merkmal-Schlüsselwort von „tanomu" (das heißt „Bitte gebe mir") entspricht, und der Äußerungs-Merkmal-"A"-Parameter „va(2)" der dem Merkmal-Schlüsselwort von „akan" (das heißt „Oh mein Gott !") entspricht, werden ebenfalls aus der Äußerungs-Merkmal-Datenbank gewonnen.
  • In diesem Beispiel werden die Äußerungs-Merkmal-Parameter „ua", „va (1)" und „va (2)" wie folgt ausgedrückt: ua = (0,50, 0,50) va(1) = (0,80, 0,20) va(2) = (0,90, 0,20)
  • In der gleichen Weise, wie dies vorstehend beschrieben wurde, leitet der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 die Äußerungs-Merkmal-„B"-Kategorie im Schritt S232 ab. Im einzelnen wird der Äußerungs-Merkmal-"B"-Parameter „ub", der dem Haupt-Schlüsselwort von „juutai-jouhou" (das heißt Verkehrsstau-Information) entspricht, aus der Äußerungs-Merkmal-Datenbank gewonnen. Der Äußerungs-Merkmal-"B"-Parameter „vb (1)", der dem Merkmal-Schlüsselwort von „tanomu" (das heißt „Bitte gebe mir") entspricht, und der Äußerungs-Merkmal-"B"-Parameter „vb (2)" der dem Merkmal-Schlüsselwort von „akan" (das heißt „Oh mein Gott !") entspricht, werden ebenfalls aus der Äußerungs-Merkmal-Datenbank gewonnen.
  • In diesem Beispiel werden die Äußerungs-Merkmal-"B"-Parameter „ub", „vb(1)" und „vb(2)" wie folgt ausgedrückt: ub = (0,50, 0,50) vb(1) = (0,50, 0,50) vb(2) = (0,10, 0,90)
  • Dann gewinnt der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 den repräsentativen Äußerungs-Merkmal-Parameter für die gesamten Sprachdaten, wie sie geäußert werden. Von den Elementen des Äußerungs-Merkmal-"A"-Parameter und den Elementen des Äußerungs-Merkmal-"B"-Parameters, wie in den Schritten S231 bzw. S232 gewonnen wurden, werden die Elemente mit den größten Werten als die Elemente des repräsentativen Äußerungs-Merkmal-"A"-Parameters bzw. des repräsentativen Äußerungs-Merkmal-"B"-Parameters bestimmt.
  • Damit wird der repräsentative Äußerungs-Merkmal-"A"-Parameter für den Äußerungs-Merkmal-"A"-Parameter gewonnen. Das erste Element des Äußerungs-Merkmal-"A"-Parameters „ua" ist „0,50", das erste Element des Äußerungs-Merkmal-"A"-Parameters „va(1)" ist „0,80" und das erste Elemente des Äußerungs-Merkmal-"A"-Parameters „va(2)" ist „0,90". Von diesen drei Werten ist der größte Wert gleich „0,90". In der gleichen Weise ist das zweite Element des Äußerungs-Merkmai-"A"-Parameters „ua" gleich „0,50", das zweite Element des Äußerungs-Merkmal-"A"-Parameters „va(1)" ist „0,20." und das zweite Element des Äußerungs-Merkmal-"A"-Parameters „va(2)" ist „0,20". Von diesen drei Werten ist der größe Wert gleich „0,50".
  • Gemäß dieser Prozedur wird der repräsentative Äußerungs-Merkmal-"A"-Parameter „wa" wie folgt ausgedrückt: wa = (0,90, 0,50)
  • Der repräsentative Äußerungs-Merkmal-"B"-Parameter „wb" für den Äußerungs-Merkmal-"B"-Parameter der in dem ähnlichen Verfahren gewonnen wird, wird wie folgt ausgedrückt: wb = (0,50, 0,90)
  • Dann werden von den Elementen des repräsentativen Äußerungs-Merkmal-"A"-Parameters „wa" und des repräsentativen Äußerungs-Merkmal-"B"-Parameters „wb" die jeweiligen Elemente, die den größten Wert haben, als die Äußerungs-Merkmal-Kategorien bestimmt. Das Element mit dem größten Wert in dem repräsentativen Äußerungs-Merkmal-"A"-Parameter „wa" ist „0,90" in dem ersten Element. Entsprechend beurteilt der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22 eine Person, die die Äußerung abgegeben hat, als eine „Kanasi-Person" und sendet die Beurteilungs-Ergebnisse an die Sprach-Antwort-Erzeugungs-Einheit.
  • In der gleichen Weise ist das Element, das den größten Wert in der repräsentativen Äußerungs-Merkmal-"B"-Parameter „wb" hat, gleich „0,90" in dem ersten Elemente. Entsprechend urteilt der Äußerungs-Merkmal-Kategorie-Auswahl-Abschnitt 22, das eine Person, die die Äußerung abgegeben hat, „sich irritiert fühlt", und sendet die Beurteilungs-Ergebnisse an die Sprachantwort-Erzeugungs-Einheit 30.
  • Dann gibt die Sprachantwort-Erzeugungs-Einheit 30 die zwei Äußerungs-Merkmal-Kategorien wieder und führt eine Sprach-Synthese-Verarbeitung aus, um die synthetisierte Sprache in Form einer Sprach-Antwort auszugeben.
  • Gemäß der vorliegenden Erfindung, wie sie ausführlich beschrieben wurde, ist das Sprach-Erkennungs-/Sprachantwort-System der vorliegenden Erfindung so konfiguriert, dass die Sprach-Erkennung der Äußerung des Benutzers durchgeführt wird, dass die Äußerungs-Merkmal-Kategorie der Äußerung des Benutzers auf der Grundlage der Erkennungs-Ergebnisse ausgewählt wird und das die Sprach-Antwort entsprechend der Äußerungs-Merkmal-Kategorie erzeugt wird. Als Ergebnis wird eine Schalt-Operation der Sprach-Antwort durchgeführt, um einen Ausgang entsprechend der Äußerung des Benutzers zu liefern. Es ist daher möglich, einen Dialog zu führen, mit dem sich der Benutzer vertraut fühlt, während eine Verwirrung des Benutzers vermieden wird, die durch eine ausschließliche Änderung des Äußerungs-Stils, wie lediglich des Dialekts, durch die Information, die von dem Sprach-Erkennungs-/Sprachantwort-System erzeugt wird, hervorgerufen werden könnte.

Claims (4)

  1. Spracherkennungs-/Antwort-System mit: einer Äußerungs-Erkennungseinheit (10) zur Erkennung des Äußerungs-Inhaltes eines Benutzers über einen Spracheingang von diesem und zur Ausgabe von Erkennungsergebnissen; einer Dialog-Steuer-Verarbeitungseinheit (40) zur Steuerung des Fortschrittes des Dialoges mit dem Benutzer auf der Grundlage der Erkennungsergebnisse, um den Antwort-Inhalt an den Benutzer zu bestimmen; einer Äußerungs-Merkmals-Analyse-Einheit (20) zum Analysieren von Äußerungs-Merkmalen des Benutzers zur Erzeugung von Äußerungs-Merkmals-Information; und einer Antwort-Spracherzeugungs-Einheit (30) zur Erzeugung einer Antwortsprache an den Benutzer auf der Grundlage des Antwort-Inhaltes und der Äußerungs-Merkmals-Information und einer ausgewählten Äußerungs-Merkmals-Kategorie, worin die Äußerungs-Merkmals-Information eine Vielzahl von Äußerungs-Merkmals-Kategorien einschließt, die durch Klassifizieren der Äußerungs-Merkmale des Benutzers in eine Vielzahl von Gruppen gewonnen werden; und die Äußerungs-Merkmals-Analyse-Einheit (20) Folgendes umfasst: eine Datenbank (24) zum Speichern von Äußerungs-Merkmals-Parametern, die zur Auswahl der Äußerungs-Merkmals-Kategorie verwendet werden, die der Äußerung des Benutzers zugeordnet ist; und eine Einrichtung (22) zur Auswahl der Äußerungs-Merkmals-Kategorie unter Verwendung der Äußerungs-Merkmals-Parameter entsprechend einem Erkennungs-Schlüsselwort, das von der Äußerungs-Erkennungs-Einheit (10) abgeleitet ist, und Ausgabe der ausgewählten Äußerungs-Merkmals-Kategorie; wobei die Äußerungs-Merkmals-Parameter einen Wert einschließen, der eine Äußerungs-Häufigkeit, mit der ein Schlüsselwort innerhalb einer Äußerungs-Kategorie verwendet wird, bezüglich von Merkmalen anzeigt, die in verschiedene Elemente klassifiziert sind und wobei das Element, das den größten Wert hat, als das Element des repräsentativen Äußerungs-Merkmals-Parameters bestimmt wird.
  2. System nach Anspruch 1, bei dem: die Vielzahl von Äußerungs-Merkmals-Kategorien Parameter einschließt, die die regionale Herkunft des Benutzers betreffen.
  3. Speichermedium, auf dem ein von einem Computer auszuführendes Spracherkennungs-/Antwort-Programm gespeichert ist, wobei das Programm bewirkt, dass der Computer als Folgendes funktioniert: eine Äußerungs-Erkennungseinheit (10) zur Erkennung des Äußerungs-Inhaltes eines Benutzers über einen Spracheingang von diesem und zur Ausgabe von Erkennungs-Ergebnissen; eine Dialog-Steuer-Verarbeitungseinheit (40) zur Steuerung des Fortschrittes des Dialoges mit dem Benutzer auf der Grundlage der Erkennungs-Ergebnisse, um auf diese Weise einen Antwort-Inhalt an den Benutzer zu bestimmen; eine Äußerungs-Merkmals-Analyse-Einheit (20) zum Analysieren von Äußerungs-Merkmalen des Benutzers zur Erzeugung einer Äußerungs-Merkmals-Information; und eine Antwort-Spracherzeugungs-Einheit (30) zur Erzeugung einer Antwort-Sprache an den Benutzer auf der Grundlage des Antwort-Inhaltes und der Äußerungs-Merkmals-Information und einer ausgewählten Äußerungs-Merkmals-Kategorie, worin die Äußerungs-Merkmals-Information eine Vielzahl von Äußerungs-Merkmals-Kategorien einschließt, die durch Klassifizieren der Äußerungs-Merkmale des Benutzers in eine Vielzahl von Gruppen gewonnen werden; und die Äußerungs-Merkmals-Analyse-Einheit (20) Folgendes umfasst: eine Datenbank (24) zum Speichern von Äußerungs-Merkmals-Parametern, die zur Auswahl der Äußerungs-Merkmals-Kategorie verwendet werden, die der Äußerung des Benutzers zugeordnet ist; und eine Einrichtung (22) zur Auswahl der Äußerungs-Merkmals-Kategorie unter Verwendung der Äußerungs-Merkmals-Parameter, die einem Erkennungs-Schlüsselwort entsprechen, das von der Äußerungs-Erkennungseinheit (10) abgeleitet wird, und zur Ausgabe der ausgewählten Äußerungs-Merkmals-Kategorie; wobei die Äußerungs-Merkmals-Parameter einen Wert einschließen, der die Häufigkeit, mit der ein Schlüsselwort innerhalb einer Äußerungs-Kategorie verwendet wird, bezüglich von Merkmalen anzeigt, die in verschiedene Elemente klassifiziert sind, und wobei das Element mit dem größten Wert als das Element des repräsentativen Äußerungs-Merkmals-Parameters bestimmt wird.
  4. Spracherkennungs-/Antwort-Programmprodukt, das von einem Computer auszuführen ist, wobei das Programmprodukt bewirkt, dass der Computer als Folgendes wirkt: eine Äußerungs-Erkennungseinheit (10) zur Erkennung des Äußerungs-Inhaltes eines Benutzers über einen Spracheingang von diesem und zur Ausgabe von Erkennungsergebnissen; eine Dialog-Steuer-Verarbeitungs-Einheit (40) zur Steuerung des Fortschrittes des Dialoges mit dem Benutzer auf der Grundlage der Erkennungsergebnisse, um den Antwort-Inhalt an den Benutzer zu bestimmen; eine Äußerungs-Merkmals-Analyse-Einheit (20) zum Analysieren von Äußerungs-Merkmalen des Benutzers zur Erzeugung von Äußerungs-Merkmals-Information; und eine Antwort-Spracherzeugungs-Einheit (30) zur Erzeugung von Antwort-Sprache an den Benutzer auf der Grundlage des Antwort-Inhaltes und der Äußerungs-Merkmals-Information und einer ausgewählten Äußerungs-Merkmals-Kategorie; worin die Äußerungs-Merkmals-Information eine Vielzahl von Äußerungs-Merkmals-Kategorien einschließt, die durch Klassifizieren der Äußerungs-Merkmale des Benutzers in eine Vielzahl von Gruppen gewonnen werden; und die Äußerungs-Merkmals-Analyse-Einheit (20) Folgendes umfasst: eine Datenbank (24) zum Speichern von Äußerungs-Merkmals-Parametern, die zur Auswahl der Äußerungs-Merkmals-Kategorie verwendet werden, die der Äußerung des Benutzers zugeordnet ist; und eine Einrichtung (22) zur Auswahl der Äußerungs-Merkmals-Kategorie unter Verwendung der Äußerungs-Merkmals-Parameter, die einem Erkennungs-Schlüsselwort entsprechen, das von der Äußerungs-Erkennungs-Einheit (10) abgeleitet wird, und zur Ausgabe der ausgewählten Äußerungs-Merkmals-Kategorie; wobei die Äußerungs-Merkmals-Parameter einen Wert einschließen, der die Häufigkeit des Auftretens, mit der ein Schlüsselwort in einer Äußerungs-Kategorie verwendet wird, bezüglich von Merkmalen anzeigt, die in verschiedene Elemente klassifiziert sind, und wobei das Element mit dem größten Wert als das Element des repräsentativen Äußerungs-Merkmals-Parameters bestimmt wird.
DE60313706T 2002-07-02 2003-07-02 Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium Expired - Fee Related DE60313706T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002193380 2002-07-02
JP2002193380A JP2004037721A (ja) 2002-07-02 2002-07-02 音声応答システム、音声応答プログラム及びそのための記憶媒体

Publications (2)

Publication Number Publication Date
DE60313706D1 DE60313706D1 (de) 2007-06-21
DE60313706T2 true DE60313706T2 (de) 2008-01-17

Family

ID=30112280

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60313706T Expired - Fee Related DE60313706T2 (de) 2002-07-02 2003-07-02 Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium

Country Status (5)

Country Link
US (1) US20040220808A1 (de)
EP (1) EP1387349B1 (de)
JP (1) JP2004037721A (de)
CN (1) CN1474379A (de)
DE (1) DE60313706T2 (de)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011316A (ja) * 2004-06-29 2006-01-12 Kokichi Tanihira 仮想会話システム
CN1924996B (zh) * 2005-08-31 2011-06-29 台达电子工业股份有限公司 利用语音辨识以选取声音内容的系统及其方法
JP4755478B2 (ja) * 2005-10-07 2011-08-24 日本電信電話株式会社 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
US8442125B2 (en) * 2005-11-29 2013-05-14 Google Inc. Determining popularity ratings using social and interactive applications for mass media
JP4812029B2 (ja) * 2007-03-16 2011-11-09 富士通株式会社 音声認識システム、および、音声認識プログラム
US20120136660A1 (en) * 2010-11-30 2012-05-31 Alcatel-Lucent Usa Inc. Voice-estimation based on real-time probing of the vocal tract
US8559813B2 (en) 2011-03-31 2013-10-15 Alcatel Lucent Passband reflectometer
CN102520788B (zh) * 2011-11-16 2015-01-21 歌尔声学股份有限公司 一种语音识别控制方法
JP2013242763A (ja) * 2012-05-22 2013-12-05 Clarion Co Ltd 対話装置、対話システム、および対話制御方法
US8606577B1 (en) * 2012-06-25 2013-12-10 Google Inc. Visual confirmation of voice recognized text input
CN102842308A (zh) * 2012-08-30 2012-12-26 四川长虹电器股份有限公司 家电设备语音控制方法
CN102890931A (zh) * 2012-09-25 2013-01-23 四川长虹电器股份有限公司 提高语音识别率的方法
CN106981290B (zh) * 2012-11-27 2020-06-30 威盛电子股份有限公司 语音控制装置和语音控制方法
JP2015158573A (ja) * 2014-02-24 2015-09-03 株式会社デンソーアイティーラボラトリ 車両用音声応答システム、及び音声応答プログラム
CN103914306A (zh) * 2014-04-15 2014-07-09 安一恒通(北京)科技有限公司 软件程序的执行结果的提供方法和装置
EP3210096B1 (de) * 2014-10-21 2019-05-15 Robert Bosch GmbH Verfahren und system zur automatisierung der antwortauswahl und -zusammensetzung in dialogsystemen
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN105825853A (zh) * 2015-01-07 2016-08-03 中兴通讯股份有限公司 语音识别设备语音切换方法及装置
US9697824B1 (en) * 2015-12-30 2017-07-04 Thunder Power New Energy Vehicle Development Company Limited Voice control system with dialect recognition
US10580405B1 (en) * 2016-12-27 2020-03-03 Amazon Technologies, Inc. Voice control of remote device
CN107393530B (zh) * 2017-07-18 2020-08-25 国网山东省电力公司青岛市黄岛区供电公司 服务引导方法及装置
CN107919138B (zh) * 2017-11-30 2021-01-08 维沃移动通信有限公司 一种语音中的情绪处理方法及移动终端
CN111429882B (zh) * 2019-01-09 2023-08-08 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN109767754A (zh) * 2019-01-15 2019-05-17 谷晓佳 一种模拟发声方法、装置、电子设备及存储介质
CN112735398B (zh) * 2019-10-28 2022-09-06 思必驰科技股份有限公司 人机对话模式切换方法及系统
CN111324710B (zh) * 2020-02-10 2024-01-12 深圳市医贝科技有限公司 一种基于虚拟人的在线调研方法、装置和终端设备
CN113094483B (zh) * 2021-03-30 2023-04-25 东风柳州汽车有限公司 车辆反馈信息的处理方法、装置、终端设备及存储介质
WO2023058944A1 (ko) * 2021-10-08 2023-04-13 삼성전자주식회사 전자 장치 및 응답 제공 방법
JP2023145871A (ja) * 2022-03-29 2023-10-12 シャープ株式会社 発話制御装置及び発話システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231225A (ja) * 1996-02-26 1997-09-05 Fuji Xerox Co Ltd 言語情報処理装置
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
JP4292646B2 (ja) * 1999-09-16 2009-07-08 株式会社デンソー ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
GB0004097D0 (en) * 2000-02-22 2000-04-12 Ibm Management of speech technology modules in an interactive voice response system

Also Published As

Publication number Publication date
DE60313706D1 (de) 2007-06-21
EP1387349A2 (de) 2004-02-04
EP1387349B1 (de) 2007-05-09
US20040220808A1 (en) 2004-11-04
JP2004037721A (ja) 2004-02-05
CN1474379A (zh) 2004-02-11
EP1387349A3 (de) 2005-03-16

Similar Documents

Publication Publication Date Title
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69814589T2 (de) Spracherkennung unter verwendung mehrerer spracherkenner
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE60030920T2 (de) Verfahren zur Ermittlung von Persönlichkeitsmerkmalen unter Verwendung eines sprachbasierten Dialogs
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE102020205786A1 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE602004006641T2 (de) Audio-dialogsystem und sprachgesteuertes browsing-verfahren
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE202017106303U1 (de) Bestimmen phonetischer Beziehungen
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE10147341A1 (de) Dynamischer Aufbau einer Dialogsteuerung aus Dialogobjekten
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
EP1191517A2 (de) Dialogsystem
EP1884924A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
DE102020215954A1 (de) Dialogsystem und verfahren zum steuern desselben
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE3853702T2 (de) Spracherkennung.

Legal Events

Date Code Title Description
8320 Willingness to grant licences declared (paragraph 23)
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee