-
Verfahren
zum Trainieren einer kundenorientierten Anwendungsvorrichtung durch
Spracheingaben, mit Ausgabe des Fortschritts durch einen animierten
Charakter mit verschiedenen Reifezuständen, die jeweils einem Fortschritt
zugeordnet sind, und Vorrichtung zur Durchführung des Verfahrens
-
HINTERGRUND DER ERFINDUNG
-
Die
Erfindung bezieht sich auf ein Verfahren, wie es im Oberbegriff
des Anspruchs 1 dargelegt wird. Derartige sprachgesteuerte Anwendungsvorrichtungen
werden immer häufiger,
beispielsweise in Form von Audiogeräten, Fernsehgeräten und Set-Top-Boxen und ähnlichem.
Die vorliegende Erfindung betrifft das Merkmal einer benutzerabhängigen Spracherkennung
in derartigen Vorrichtungen, die ein gewisses Maß an Training für einen
speziellen Benutzer erfordert. Im Gegensatz dazu wird die benutzerunabhängige Erkennung
im Allgemeinen vollständig
trainiert eingesetzt. Die Kombination einer benutzerunabhängig trainierten
Vorrichtung mit den Lehren der nachfolgend darzulegenden vorliegenden Erfindung
verbessert jedoch auch die Funktionsweise eines derartigen Systems.
Der typische Stand der Technik ist durch das Dokument
EP-A1-1 028 410 dargestellt,
das der
US-amerikanischen Patentanmeldung
mit der Seriennummer 248 243 , eingereicht am 10. Februar
1999 und der IBM Corporation zugewiesen, entspricht. Die Quelle
verwendet Farben, um während
des Trainings gewisse angezeigte Textteile hervorzuheben. Der Erfinder
der vorliegenden Erfindung hat jedoch erkannt, dass ein derartiger
Trainingsvorgang davon profitieren würde, wenn dem Benutzer ein
umfassendes Feedback geboten würde,
das einen allgemeinen oder Gesamtzustand des erreichten Trainingsniveaus
anzeigt. Im Besonderen hat der Erfinder erkannt, dass ein Reifezustand
der animierten Figur sofort als weitgehend das erreichte Trainingsniveau
darstellend erkannt werden könnte.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Infolgedessen
liegt der Erfindung unter anderem die Aufgabe zugrunde, einem Benutzer
ein Feedback in Form einer umfassenden animierten Figur zu liefern,
das eine Vielzahl von Reifezuständen zeigt.
Die Erfindung ist daher gemäß einem
ihrer Aspekte durch den kennzeichnenden Teil des Anspruchs 1 gekennzeichnet.
-
Die
Erfindung bezieht sich ferner auf eine verbraucherorientierte Anwendungsvorrichtung,
die so ausgelegt ist, dass sie ein Verfahren gemäß Anspruch 1 ausführt, wie
es in Anspruch 8 dargelegt ist. Weitere vorteilhafte Aspekte der
Erfindung sind in den abhängigen
Ansprüchen
dargelegt.
-
KURZE BESCHREIBUNG DER ZEICHNUNG
-
Diese
und weitere Aspekte und Vorteile der Erfindung werden nachfolgend
ausführlicher
mit Bezug auf die Darlegung der bevorzugten Ausführungsbeispiele und unter besonderer
Bezugnahme auf die anhängenden
Figuren erläutert.
Es zeigen:
-
1 eine
allgemeine sprachverbesserte Anwendungsvorrichtung;
-
2 einen
Ablaufplan, der dem Training gemäß der vorliegenden
Erfindung zugeordnet ist;
-
3 einen
Ablaufplan, der der Vorrichtungssteuerung für die vorliegende Erfindung
zugeordnet ist;
-
die 4a-4d Ausführungsbeispiele der
visuellen Darstellung der Figur in Form eines Hundes;
-
die 5a-5f visuelle
Darstellungen von Gesichtsausdrücken
eines Hundes;
-
die 6a-6d mehrere
weitere Ausführungsbeispiele
der Darstellung für
die vorliegende Erfindung.
-
ALLGEMEINE ASPEKTE DER ERFINDUNG
-
Die
Darlegung beschreibt die intuitive Ausgabe des Trainingsstatus eines
sprachgesteuerten Systems für
einen Benutzer. Bei einem sprecherabhängigen System muss typischerweise
eine Vielzahl von Wörtern
und kurzen Sätzen
von seinem Benutzer trainiert werden, bevor eine vollständige Funktionalität erreicht
ist, beispielsweise die Möglichkeit,
durch eine Vielzahl von Kanälen
zu zappen, diese Kanäle richtig
zu programmieren und einzustellen und ähnliches. Im Gegensatz dazu
ist das Training in einem sprecherunabhängigen System im Grunde bereits
erfolgt. Eine Verbesserung dieses Trainings durch die vorliegende
Erfindung schränkt
jedoch Fehler ein und/oder erweitert sogar den Erkennungssatz von Befehlen
und/oder kurzen Sätzen.
Der Erfinder hat erkannt, dass bereits eine partielle Funktionalität, beispielsweise
für weniger
anspruchsvolle Benutzer, beim Einsatz im Anfangsstadium und für verschiedene
andere Fälle
ausreicht.
-
Eine
andere Situation stellt sich dar, wenn ein partielles Training eine
Anzahl von Personen betrifft, beispielsweise die Mitglieder eines
Haushalts, die trainiert wurden. Das Trainingsniveau entspricht der
Nummer oder dem Anteil eines derartigen Niveaus. Im Besonderen sollte
der Benutzer immer noch darauf aufmerksam gemacht werden, dass das Training
noch nicht abgeschlossen ist. Bei dem nachfolgenden Ausführungsbeispiel
wird vorausgesetzt, dass die Funktion der Sprachsteuerung als animierte Figur,
beispielsweise ein Hund, ausgegeben wird, die gegebene Befehle aus
der Sicht des Benutzers interpretiert und in Systembefehle umwandelt.
Das Ausführungsbeispiel
nutzt die Metapher eines Reifezustands einer heranwachsenden Figur,
um den Trainingsstatus des Systems mitzuteilen. Im Besonderen stellt
ein junger Welpe ein System dar, das noch kein Training erhalten
hat. Für
den betreffenden Benutzer hat es sich als annehmbarer erwiesen,
dass das System in einer derartigen Situation keinen Sprachbefehlen
gehorcht, die noch nicht ausreichend trainiert wurden. Es kann eine
Vielzahl von Trainingsniveaus festgelegt werden, von denen jedes
eine zugeordnete Anzahl von trainierten Wörtern betrifft. Die Niveaus sind
mit dem „Reifezustand" der Figur verknüpft. Wenn
der Benutzer neue Wörter
trainiert, wachst die Figur heran. Jedes Niveau kann eine Vielzahl
von animierten Sequenzen enthalten, die dazu verwendet werden, ein
spezifisches Feedback bezüglich
der Wirksamkeit von bestimmten Sprachbefehlen, beispielsweise ein
Wort, das erkannt wurde, auszugeben.
-
AUSFÜHRLICHE
BESCHREIBUNG VON BEVORZUGTEN
-
AUSFÜHRUNGSBEISPIELEN
-
1 zeigt
eine allgemeine sprachverbesserte Anwendungsvorrichtung, die sich
auf einen Fernsehbildschirm 20 und die dazu gehörige Verarbeitungseinheit 22 konzentriert.
Die Erfindung ist jedoch auch auf eine Anzeige anwendbar, die nicht
ein ganzes Fernsehbild einnimmt. Im Besonderen kann die Anzeige
darauf beschränkt
sein, Symbole möglicherweise
zusammen mit alphanumerischen Zeichen zu zeigen. Der Kürze halber
wurde die Verarbeitung der Benutzersignale, beispielsweise durch
Aufzeichnen, Abstimmen und ähnliches,
weggelassen. Die verschiedenen benutzergesteuerten Auswahlmöglichkeiten
zwischen Benutzermodi und anderen Funktionen wurden ebenfalls weggelassen.
Das Element 24 stellt einen Sprachkanal dar, der bidirektional
sein kann, auch wenn er lediglich auf den Empfang und die Erkennung
von Sprachelementen beschränkt
sein kann. Eine Sprachausgabe ist nützlich, aber keine Voraussetzung.
Das Element 26 stellt die Speicherung von Benutzersprachelementen
dar, die anhand eines geeigneten Erkennungsprozesse jeweils dem
richtigen Systembefehl zugeordnet werden sollten. Der Einfachheit
halber sind lediglich acht derartige Elemente zu sehen. Im Allgemeinen
ist die Anzahl größer und
kann gewisse Wörter
(beispielsweise Fernseher, Ein, Lauter), kurze Sätze (beispielsweise Gehe zurück, Bild-im-Bild)
und Parameter, beispielsweise die Nummer eines bestimmten Kanals,
enthalten.
-
Während des
Trainings geht das Gerät
eine Folge von Befehlen durch, die jeweils von dem Benutzer gesprochen
und einige Male, beispielsweise dreimal, gespeichert werden sollen.
In Anbetracht der Tatsache, dass die Gesamtanzahl von Aufzeichnungen
ziemlich groß sein
kann, zieht es der Benutzer eventuell vor, das Training auf eine
Vielzahl von Sitzungen aufzuteilen. Durch eine vernünftige Zuordnung
einer geeigneten Position in der Folge zu den verschiedenen Befehlen,
befriedigt die richtige Aufzeichnung eines gewissen Teilsatzes davon
oft bereits die häufigsten
Benutzeranforderungen oder Teilfunktionen des Gerätes. In
dem Beispiel wurden zwei Befehle trainiert, wie es durch die Schraffierung
angedeutet wird, das volle Training erfordert acht Befehle, wie
es durch den Pfeil 32 angegeben wird, und vier Befehle
würden
bereits eine betriebsfähige
Zwischensituation wie durch den Pfeil 30 angegeben darstellen.
-
Das
Element 28 stellt eine manuelle Steuerfunktion dar. In
gewissen Fällen
ist das Sprachsteuerungsmerkmal so weit entwickelt, dass jegliche
manuelle Steuerung lediglich rudimentär erforderlich ist. Das System
kann durch mehrere Benutzerfunktionseinrichtungen erweitert werden,
beispielsweise Audiogeräte,
Set-Top-Boxen, Eingabe-,
Aufzeichnungs- Speicher- und Kommunikationsgeräte, die jedoch keine Voraussetzung
für die
Darlegung der Prinzipien und Funktionsweisen der Erfindung sind.
-
2 zeigt
einen Ablaufplan, der dem Training gemäß der vorliegenden Erfindung
zugeordnet ist. In Block 34 wird das System beispielsweise
durch Einschalten des Gerätes
aktiviert, und es werden die notwendigen Hardware- und Softwarekomponenten zugewiesen.
In Block 36 wird das aktuelle Trainingsniveau angezeigt,
was nachfolgend mit Bezug auf die 4 bis 5f ausführlicher
erläutert
wird. Anfangs wurde natürlich
kein Training durchgeführt. Das
Training kann von einer bestimmten Person durchgeführt werden,
die im Unterschied zur Spracherkennung durch Eingeben eines Codes
oder durch Stimmerkennung signalisiert wird. In Block 38 erkennt
das System, ob das Training bereits abgeschlossen wurde. Wenn dies
der Fall ist, geht das System über
den Block 50 weiter zu 3.
-
Ist
das Training noch nicht abgeschlossen, erkennt das System in Block 40,
ob der Benutzer das Training fortsetzen möchte. Wenn für den fraglichen Benutzer
noch gar kein Training durchgeführt
wurde, ist dieser Block natürlich
belanglos. Wird kein Training gewünscht, beendet das System bei
Block 50. In Block 42 sollte der Benutzer das
System für
den nächsten
Befehl in der Folge trainieren. In der Situation aus 1 wäre dies
beispielsweise das dritte Sprachelement, da die ersten beiden richtig
trainiert wurden. Daher gibt der Benutzer nun den fraglichen Befehl
beispielsweise durch lautes Lesen eines angezeigten Textes, Wiederholen
eines Sprachelements vom System oder durch eine andere Prozedur ein.
Für jeden
Befehl kann dies mehrmals, beispielsweise dreimal, wiederholt werden,
was so zu verstehen ist, dass es in einem einzigen Durchlauf von Block 42 enthalten
ist. In Block 44 überprüft das System
auf Fehler, beispielsweise für
den Fall eines nicht übereinstimmenden
Befehls, einer zu langen Verzögerung
und ähnlichem.
Bei einem Fehler beginnt das System erneut mit dem gleichen Befehl.
Derartige Trainingsprozeduren sind an sich inzwischen üblich, daher
wird auf den allgemeinen Stand der Technik verwiesen.
-
Wurde
der Befehl ausreichend trainiert, wie es in Block 44 festgestellt
wird, überprüft das System in
Block 46, ob das nächste
Trainingsniveau erreicht wurde. Ist dies nicht der Fall, wird in
Block 42 das Training für
den nächsten
Befehl aufgenommen. Ist dies der Fall, geht das System zu Block 36,
um den Gesamtanzeigezustand des Trainingsniveaus zu aktualisieren.
-
3 zeigt
einen Ablaufplan, der der Vorrichtungssteuerung für die vorliegende
Erfindung zugeordnet ist. In Block 52 ist der Eintritt
vom Block 50 in 2 dargestellt. In Block 54 erkennt
das System den Empfang eines Benutzersprachbefehls. Falls nicht,
stellt der Block 54 tatsächlich eine Warteschleife dar.
Falls ja, wird in Block 56 eine passende Erkennung überprüft. Falls
ja, wird in Block 58 der Befehl ausgeführt und gegebenenfalls dem
Benutzer ein Feedback gegeben, indem beispielsweise eine entsprechende
Reaktion durch die animierte Figur aus Block 36 angezeigt
wird. Ferner geht das System zurück
zu Block 54. Falls in Block 56 ein negatives Ergebnis
ermittelt wird, kann das System als erstes den Benutzer zu einer
Wiederholung auffordern. Wenn dies jedoch ergebnislos bleibt, können verschiedene Situationen
vorliegen. Eine erste besteht darin, dass das Training für den fraglichen
Benutzer unzureichend ist, beispielsweise insofern als sich die
Stimme des Benutzers verändert
haben kann. Ein weiterer Fall bestünde darin, dass das Trainingsniveau
für den
speziellen Benutzer mit dem tatsächlich
gegebenen Befehl nicht kompatibel war. In diesem Fall beendet das
System bei Block 60 und tritt in den Ablaufplan aus 2 über den
Block 48 ein.
-
Die 4a-4d zeigen
Ausführungsbeispiele
für die
visuelle Darstellung der Figur in Form eines Hundes. In 4a ist
der Hund noch ein Welpe, was bedeutet, dass das Training lediglich
ein grundlegendes Niveau des Gesamtsatzes mit Befehlen erreicht
hat. In 4b ist der Hund schon etwas älter, beispielsweise
ein paar Monate alt, was bedeutet, dass das Training ein höheres Niveau
erreicht hat, das für
gewisse grundlegende Funktionen betriebsfähig sein kann, jedoch immer
noch nicht für eine
komplexe Steuerung des Gerätes
ausreicht. In 4c ist der Hund wiederum älter, beispielsweise fast
ein Jahr alt, was bedeutet, dass das Training ein noch höheres Niveau
erreicht hat, so dass die meisten üblichen Funktionen erkannt
werden können.
In 4d ist der Hund noch älter, was bedeutet, dass alle
oder fast alle Funktionen erkannt werden können.
-
Die 5a-5f zeigen
verschiedene visuelle Darstellungen von Gesichtsausdrücken eines Hundes.
In 5a gibt der Gesichtsausdruck allgemeine Aufmerksamkeit
wieder. In 5b entspricht der Gesichtsausdruck
Erstaunen: Die Augen sind weiter geöffnet, der Mund ist geöffnet. In 5c gibt der
Gesichtsausdruck Missfallen wieder: Ein Ohr hängt schlapp herunter, ein Auge
ist nach unten gezogen. In 5d entspricht
der Gesichtsausdruck starker Unzufriedenheit: beide Ohren hängen schlapp
herunter. In 5e gibt der Gesichtsausdruck
Desinteresse wieder: Die Augen sind geschlossen, die Ohren hängen schlapp
herunter. Die in den 5a-5d gezeigten
verschiedenen Stimmungen und Reaktionen wurden nun auf den Kopf
eines erwachsenen Hundes abgebildet. In gleicher Weise können diese
Stimmungen und Reaktionen auf den Kopf eines jüngeren Hundes abgebildet werden,
wie er in den 4a-4c dargestellt
ist. Andererseits können
diese und andere Stimmungen und Reaktionen auf die in den 4a-4d gezeigten
Ganzkörperdarstellungen
eines Hundes in verschiedenen Reifezuständen abgebildet werden. Zusätzlich zu
auf Gesichtsausdrücke
oder Bewegungen des Kopfes abgebildete Stimmungen oder Reaktion
könnten
verschiedene andere Teile des Hundekörpers eine derartige Stimmung
oder Reaktion ausdrücken.
Verschiedene Beispiele hierfür
wären Schwanzwedeln
(positiv), Heben des Hinterbeins (unzufrieden), Heben der Vorderpfote
(besorgt), Aufstellen der Haare (negativ) oder sogar Jaulen (eines Welpen)
oder Bellen (eines erwachsenen Hundes – zustimmend).
-
Als
nächstes
zeigt 5f ein Ausführungsbeispiel eines Bildschirmformats,
das in diesem Fall einen Hundekopf mit einer Zeitleiste verknüpft, die den
kurzen Satz, der trainiert werden muss, oder die aktuelle Erkennung
davon zeigen kann.
-
6 zeigt
ein weiteres Ausführungsbeispiel der
Darstellung der animierten Figur für die vorliegende Erfindung. 6 zeigt
die Figur in Form eines Marienkäfers.
Dem Marienkäfer
sollen mehr und mehr schwarze Punkte auf seinen scharlachroten Flügeln entstehen,
wenn er sich voll entwickelt hat. In der Figur hat das Insekt noch
lediglich zwei schwarze Punkte von möglichen sechs. Dies soll ein
ziemlich schwach entwickeltes Trainingsniveau darstellen. Das Insekt
kann auf die richtige Erkennung von Sprachbefehlen reagieren, indem
es Phänomene
wie Herumtanzen, hellrotes Erglühen,
Aufleuchten seiner Punkte oder Bewegen seiner Fühler auf eine besondere Weise
zeigt.
-
Dem
Fachkundigen würden
beim Lesen der obigen Darlegung verschiedene Arten von animierten
Figuren einfallen. Fig.
1
| Display | Bildschirm |
| Speech channel | Sprachkanal |
| Processing | Verarbeitung |
| Storage | Speicherung |
| Manual | Manuell |
Fig.
2
| Start | Start |
| In | Eintritt |
| Display training level | Anzeige des Trainingsniveaus |
| Fully trained? | Training abgeschlossen? |
| Want to train? | Training fortsetzen? |
| Y | Ja |
| N | Nein |
| Out | Austritt |
| Request command | Aufforderung eines Befehls |
| Store voice input | Spracheingabe speichern |
| Next level attained? | Nächstes Niveau erreicht? |
Fig.
3
| Receive command? | Befehl empfangen? |
| Recognize command? | Befehl erkannt? |
| Execute & feedback | Ausführung & Feedback |