DE60220794T2

DE60220794T2 - Verfahren zum trainieren einer kunden-orientierten anwendungsvorrichtung durch spracheingaben, mit ausgabe des fortschritts durch einen animierten charakter mit verschiedenen reifezuständen, die jeweils einem fortschritt zugeordnet sind, und vorrichtung zur durchführung des verfahrens

Info

Publication number: DE60220794T2
Application number: DE60220794T
Authority: DE
Inventors: Lucas J.F Internationaal Octr GEURTS
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-06-21
Filing date: 2002-06-18
Publication date: 2008-03-06
Anticipated expiration: 2022-06-19
Also published as: DE60220794D1; ATE365363T1; WO2003001506A1; EP1402519A1; JP2004521393A; US7707033B2; US20040167782A1; EP1402519B1

Description

Verfahren zum Trainieren einer kundenorientierten Anwendungsvorrichtung durch Spracheingaben, mit Ausgabe des Fortschritts durch einen animierten Charakter mit verschiedenen Reifezuständen, die jeweils einem Fortschritt zugeordnet sind, und Vorrichtung zur Durchführung des Verfahrens
HINTERGRUND DER ERFINDUNG
Die Erfindung bezieht sich auf ein Verfahren, wie es im Oberbegriff des Anspruchs 1 dargelegt wird. Derartige sprachgesteuerte Anwendungsvorrichtungen werden immer häufiger, beispielsweise in Form von Audiogeräten, Fernsehgeräten und Set-Top-Boxen und ähnlichem. Die vorliegende Erfindung betrifft das Merkmal einer benutzerabhängigen Spracherkennung in derartigen Vorrichtungen, die ein gewisses Maß an Training für einen speziellen Benutzer erfordert. Im Gegensatz dazu wird die benutzerunabhängige Erkennung im Allgemeinen vollständig trainiert eingesetzt. Die Kombination einer benutzerunabhängig trainierten Vorrichtung mit den Lehren der nachfolgend darzulegenden vorliegenden Erfindung verbessert jedoch auch die Funktionsweise eines derartigen Systems. Der typische Stand der Technik ist durch das Dokument EP-A1-1 028 410 dargestellt, das der US-amerikanischen Patentanmeldung mit der Seriennummer 248 243 , eingereicht am 10. Februar 1999 und der IBM Corporation zugewiesen, entspricht. Die Quelle verwendet Farben, um während des Trainings gewisse angezeigte Textteile hervorzuheben. Der Erfinder der vorliegenden Erfindung hat jedoch erkannt, dass ein derartiger Trainingsvorgang davon profitieren würde, wenn dem Benutzer ein umfassendes Feedback geboten würde, das einen allgemeinen oder Gesamtzustand des erreichten Trainingsniveaus anzeigt. Im Besonderen hat der Erfinder erkannt, dass ein Reifezustand der animierten Figur sofort als weitgehend das erreichte Trainingsniveau darstellend erkannt werden könnte.
ZUSAMMENFASSUNG DER ERFINDUNG
Infolgedessen liegt der Erfindung unter anderem die Aufgabe zugrunde, einem Benutzer ein Feedback in Form einer umfassenden animierten Figur zu liefern, das eine Vielzahl von Reifezuständen zeigt. Die Erfindung ist daher gemäß einem ihrer Aspekte durch den kennzeichnenden Teil des Anspruchs 1 gekennzeichnet.
Die Erfindung bezieht sich ferner auf eine verbraucherorientierte Anwendungsvorrichtung, die so ausgelegt ist, dass sie ein Verfahren gemäß Anspruch 1 ausführt, wie es in Anspruch 8 dargelegt ist. Weitere vorteilhafte Aspekte der Erfindung sind in den abhängigen Ansprüchen dargelegt.
KURZE BESCHREIBUNG DER ZEICHNUNG
Diese und weitere Aspekte und Vorteile der Erfindung werden nachfolgend ausführlicher mit Bezug auf die Darlegung der bevorzugten Ausführungsbeispiele und unter besonderer Bezugnahme auf die anhängenden Figuren erläutert. Es zeigen:
1 eine allgemeine sprachverbesserte Anwendungsvorrichtung;
2 einen Ablaufplan, der dem Training gemäß der vorliegenden Erfindung zugeordnet ist;
3 einen Ablaufplan, der der Vorrichtungssteuerung für die vorliegende Erfindung zugeordnet ist;
die 4a-4d Ausführungsbeispiele der visuellen Darstellung der Figur in Form eines Hundes;
die 5a-5f visuelle Darstellungen von Gesichtsausdrücken eines Hundes;
die 6a-6d mehrere weitere Ausführungsbeispiele der Darstellung für die vorliegende Erfindung.
ALLGEMEINE ASPEKTE DER ERFINDUNG
Die Darlegung beschreibt die intuitive Ausgabe des Trainingsstatus eines sprachgesteuerten Systems für einen Benutzer. Bei einem sprecherabhängigen System muss typischerweise eine Vielzahl von Wörtern und kurzen Sätzen von seinem Benutzer trainiert werden, bevor eine vollständige Funktionalität erreicht ist, beispielsweise die Möglichkeit, durch eine Vielzahl von Kanälen zu zappen, diese Kanäle richtig zu programmieren und einzustellen und ähnliches. Im Gegensatz dazu ist das Training in einem sprecherunabhängigen System im Grunde bereits erfolgt. Eine Verbesserung dieses Trainings durch die vorliegende Erfindung schränkt jedoch Fehler ein und/oder erweitert sogar den Erkennungssatz von Befehlen und/oder kurzen Sätzen. Der Erfinder hat erkannt, dass bereits eine partielle Funktionalität, beispielsweise für weniger anspruchsvolle Benutzer, beim Einsatz im Anfangsstadium und für verschiedene andere Fälle ausreicht.
Eine andere Situation stellt sich dar, wenn ein partielles Training eine Anzahl von Personen betrifft, beispielsweise die Mitglieder eines Haushalts, die trainiert wurden. Das Trainingsniveau entspricht der Nummer oder dem Anteil eines derartigen Niveaus. Im Besonderen sollte der Benutzer immer noch darauf aufmerksam gemacht werden, dass das Training noch nicht abgeschlossen ist. Bei dem nachfolgenden Ausführungsbeispiel wird vorausgesetzt, dass die Funktion der Sprachsteuerung als animierte Figur, beispielsweise ein Hund, ausgegeben wird, die gegebene Befehle aus der Sicht des Benutzers interpretiert und in Systembefehle umwandelt. Das Ausführungsbeispiel nutzt die Metapher eines Reifezustands einer heranwachsenden Figur, um den Trainingsstatus des Systems mitzuteilen. Im Besonderen stellt ein junger Welpe ein System dar, das noch kein Training erhalten hat. Für den betreffenden Benutzer hat es sich als annehmbarer erwiesen, dass das System in einer derartigen Situation keinen Sprachbefehlen gehorcht, die noch nicht ausreichend trainiert wurden. Es kann eine Vielzahl von Trainingsniveaus festgelegt werden, von denen jedes eine zugeordnete Anzahl von trainierten Wörtern betrifft. Die Niveaus sind mit dem „Reifezustand" der Figur verknüpft. Wenn der Benutzer neue Wörter trainiert, wachst die Figur heran. Jedes Niveau kann eine Vielzahl von animierten Sequenzen enthalten, die dazu verwendet werden, ein spezifisches Feedback bezüglich der Wirksamkeit von bestimmten Sprachbefehlen, beispielsweise ein Wort, das erkannt wurde, auszugeben.
AUSFÜHRLICHE BESCHREIBUNG VON BEVORZUGTEN
AUSFÜHRUNGSBEISPIELEN
1 zeigt eine allgemeine sprachverbesserte Anwendungsvorrichtung, die sich auf einen Fernsehbildschirm 20 und die dazu gehörige Verarbeitungseinheit 22 konzentriert. Die Erfindung ist jedoch auch auf eine Anzeige anwendbar, die nicht ein ganzes Fernsehbild einnimmt. Im Besonderen kann die Anzeige darauf beschränkt sein, Symbole möglicherweise zusammen mit alphanumerischen Zeichen zu zeigen. Der Kürze halber wurde die Verarbeitung der Benutzersignale, beispielsweise durch Aufzeichnen, Abstimmen und ähnliches, weggelassen. Die verschiedenen benutzergesteuerten Auswahlmöglichkeiten zwischen Benutzermodi und anderen Funktionen wurden ebenfalls weggelassen. Das Element 24 stellt einen Sprachkanal dar, der bidirektional sein kann, auch wenn er lediglich auf den Empfang und die Erkennung von Sprachelementen beschränkt sein kann. Eine Sprachausgabe ist nützlich, aber keine Voraussetzung. Das Element 26 stellt die Speicherung von Benutzersprachelementen dar, die anhand eines geeigneten Erkennungsprozesse jeweils dem richtigen Systembefehl zugeordnet werden sollten. Der Einfachheit halber sind lediglich acht derartige Elemente zu sehen. Im Allgemeinen ist die Anzahl größer und kann gewisse Wörter (beispielsweise Fernseher, Ein, Lauter), kurze Sätze (beispielsweise Gehe zurück, Bild-im-Bild) und Parameter, beispielsweise die Nummer eines bestimmten Kanals, enthalten.
Während des Trainings geht das Gerät eine Folge von Befehlen durch, die jeweils von dem Benutzer gesprochen und einige Male, beispielsweise dreimal, gespeichert werden sollen. In Anbetracht der Tatsache, dass die Gesamtanzahl von Aufzeichnungen ziemlich groß sein kann, zieht es der Benutzer eventuell vor, das Training auf eine Vielzahl von Sitzungen aufzuteilen. Durch eine vernünftige Zuordnung einer geeigneten Position in der Folge zu den verschiedenen Befehlen, befriedigt die richtige Aufzeichnung eines gewissen Teilsatzes davon oft bereits die häufigsten Benutzeranforderungen oder Teilfunktionen des Gerätes. In dem Beispiel wurden zwei Befehle trainiert, wie es durch die Schraffierung angedeutet wird, das volle Training erfordert acht Befehle, wie es durch den Pfeil 32 angegeben wird, und vier Befehle würden bereits eine betriebsfähige Zwischensituation wie durch den Pfeil 30 angegeben darstellen.
Das Element 28 stellt eine manuelle Steuerfunktion dar. In gewissen Fällen ist das Sprachsteuerungsmerkmal so weit entwickelt, dass jegliche manuelle Steuerung lediglich rudimentär erforderlich ist. Das System kann durch mehrere Benutzerfunktionseinrichtungen erweitert werden, beispielsweise Audiogeräte, Set-Top-Boxen, Eingabe-, Aufzeichnungs- Speicher- und Kommunikationsgeräte, die jedoch keine Voraussetzung für die Darlegung der Prinzipien und Funktionsweisen der Erfindung sind.
2 zeigt einen Ablaufplan, der dem Training gemäß der vorliegenden Erfindung zugeordnet ist. In Block 34 wird das System beispielsweise durch Einschalten des Gerätes aktiviert, und es werden die notwendigen Hardware- und Softwarekomponenten zugewiesen. In Block 36 wird das aktuelle Trainingsniveau angezeigt, was nachfolgend mit Bezug auf die 4 bis 5f ausführlicher erläutert wird. Anfangs wurde natürlich kein Training durchgeführt. Das Training kann von einer bestimmten Person durchgeführt werden, die im Unterschied zur Spracherkennung durch Eingeben eines Codes oder durch Stimmerkennung signalisiert wird. In Block 38 erkennt das System, ob das Training bereits abgeschlossen wurde. Wenn dies der Fall ist, geht das System über den Block 50 weiter zu 3.
Ist das Training noch nicht abgeschlossen, erkennt das System in Block 40, ob der Benutzer das Training fortsetzen möchte. Wenn für den fraglichen Benutzer noch gar kein Training durchgeführt wurde, ist dieser Block natürlich belanglos. Wird kein Training gewünscht, beendet das System bei Block 50. In Block 42 sollte der Benutzer das System für den nächsten Befehl in der Folge trainieren. In der Situation aus 1 wäre dies beispielsweise das dritte Sprachelement, da die ersten beiden richtig trainiert wurden. Daher gibt der Benutzer nun den fraglichen Befehl beispielsweise durch lautes Lesen eines angezeigten Textes, Wiederholen eines Sprachelements vom System oder durch eine andere Prozedur ein. Für jeden Befehl kann dies mehrmals, beispielsweise dreimal, wiederholt werden, was so zu verstehen ist, dass es in einem einzigen Durchlauf von Block 42 enthalten ist. In Block 44 überprüft das System auf Fehler, beispielsweise für den Fall eines nicht übereinstimmenden Befehls, einer zu langen Verzögerung und ähnlichem. Bei einem Fehler beginnt das System erneut mit dem gleichen Befehl. Derartige Trainingsprozeduren sind an sich inzwischen üblich, daher wird auf den allgemeinen Stand der Technik verwiesen.
Wurde der Befehl ausreichend trainiert, wie es in Block 44 festgestellt wird, überprüft das System in Block 46, ob das nächste Trainingsniveau erreicht wurde. Ist dies nicht der Fall, wird in Block 42 das Training für den nächsten Befehl aufgenommen. Ist dies der Fall, geht das System zu Block 36, um den Gesamtanzeigezustand des Trainingsniveaus zu aktualisieren.
3 zeigt einen Ablaufplan, der der Vorrichtungssteuerung für die vorliegende Erfindung zugeordnet ist. In Block 52 ist der Eintritt vom Block 50 in 2 dargestellt. In Block 54 erkennt das System den Empfang eines Benutzersprachbefehls. Falls nicht, stellt der Block 54 tatsächlich eine Warteschleife dar. Falls ja, wird in Block 56 eine passende Erkennung überprüft. Falls ja, wird in Block 58 der Befehl ausgeführt und gegebenenfalls dem Benutzer ein Feedback gegeben, indem beispielsweise eine entsprechende Reaktion durch die animierte Figur aus Block 36 angezeigt wird. Ferner geht das System zurück zu Block 54. Falls in Block 56 ein negatives Ergebnis ermittelt wird, kann das System als erstes den Benutzer zu einer Wiederholung auffordern. Wenn dies jedoch ergebnislos bleibt, können verschiedene Situationen vorliegen. Eine erste besteht darin, dass das Training für den fraglichen Benutzer unzureichend ist, beispielsweise insofern als sich die Stimme des Benutzers verändert haben kann. Ein weiterer Fall bestünde darin, dass das Trainingsniveau für den speziellen Benutzer mit dem tatsächlich gegebenen Befehl nicht kompatibel war. In diesem Fall beendet das System bei Block 60 und tritt in den Ablaufplan aus 2 über den Block 48 ein.
Die 4a-4d zeigen Ausführungsbeispiele für die visuelle Darstellung der Figur in Form eines Hundes. In 4a ist der Hund noch ein Welpe, was bedeutet, dass das Training lediglich ein grundlegendes Niveau des Gesamtsatzes mit Befehlen erreicht hat. In 4b ist der Hund schon etwas älter, beispielsweise ein paar Monate alt, was bedeutet, dass das Training ein höheres Niveau erreicht hat, das für gewisse grundlegende Funktionen betriebsfähig sein kann, jedoch immer noch nicht für eine komplexe Steuerung des Gerätes ausreicht. In 4c ist der Hund wiederum älter, beispielsweise fast ein Jahr alt, was bedeutet, dass das Training ein noch höheres Niveau erreicht hat, so dass die meisten üblichen Funktionen erkannt werden können. In 4d ist der Hund noch älter, was bedeutet, dass alle oder fast alle Funktionen erkannt werden können.
Die 5a-5f zeigen verschiedene visuelle Darstellungen von Gesichtsausdrücken eines Hundes. In 5a gibt der Gesichtsausdruck allgemeine Aufmerksamkeit wieder. In 5b entspricht der Gesichtsausdruck Erstaunen: Die Augen sind weiter geöffnet, der Mund ist geöffnet. In 5c gibt der Gesichtsausdruck Missfallen wieder: Ein Ohr hängt schlapp herunter, ein Auge ist nach unten gezogen. In 5d entspricht der Gesichtsausdruck starker Unzufriedenheit: beide Ohren hängen schlapp herunter. In 5e gibt der Gesichtsausdruck Desinteresse wieder: Die Augen sind geschlossen, die Ohren hängen schlapp herunter. Die in den 5a-5d gezeigten verschiedenen Stimmungen und Reaktionen wurden nun auf den Kopf eines erwachsenen Hundes abgebildet. In gleicher Weise können diese Stimmungen und Reaktionen auf den Kopf eines jüngeren Hundes abgebildet werden, wie er in den 4a-4c dargestellt ist. Andererseits können diese und andere Stimmungen und Reaktionen auf die in den 4a-4d gezeigten Ganzkörperdarstellungen eines Hundes in verschiedenen Reifezuständen abgebildet werden. Zusätzlich zu auf Gesichtsausdrücke oder Bewegungen des Kopfes abgebildete Stimmungen oder Reaktion könnten verschiedene andere Teile des Hundekörpers eine derartige Stimmung oder Reaktion ausdrücken. Verschiedene Beispiele hierfür wären Schwanzwedeln (positiv), Heben des Hinterbeins (unzufrieden), Heben der Vorderpfote (besorgt), Aufstellen der Haare (negativ) oder sogar Jaulen (eines Welpen) oder Bellen (eines erwachsenen Hundes – zustimmend).
Als nächstes zeigt 5f ein Ausführungsbeispiel eines Bildschirmformats, das in diesem Fall einen Hundekopf mit einer Zeitleiste verknüpft, die den kurzen Satz, der trainiert werden muss, oder die aktuelle Erkennung davon zeigen kann.
6 zeigt ein weiteres Ausführungsbeispiel der Darstellung der animierten Figur für die vorliegende Erfindung. 6 zeigt die Figur in Form eines Marienkäfers. Dem Marienkäfer sollen mehr und mehr schwarze Punkte auf seinen scharlachroten Flügeln entstehen, wenn er sich voll entwickelt hat. In der Figur hat das Insekt noch lediglich zwei schwarze Punkte von möglichen sechs. Dies soll ein ziemlich schwach entwickeltes Trainingsniveau darstellen. Das Insekt kann auf die richtige Erkennung von Sprachbefehlen reagieren, indem es Phänomene wie Herumtanzen, hellrotes Erglühen, Aufleuchten seiner Punkte oder Bewegen seiner Fühler auf eine besondere Weise zeigt.

Dem Fachkundigen würden beim Lesen der obigen Darlegung verschiedene Arten von animierten Figuren einfallen. Fig. 1

Display	Bildschirm
Speech channel	Sprachkanal
Processing	Verarbeitung
Storage	Speicherung
Manual	Manuell

Fig. 2

Start	Start
In	Eintritt
Display training level	Anzeige des Trainingsniveaus
Fully trained?	Training abgeschlossen?
Want to train?	Training fortsetzen?
Y	Ja
N	Nein
Out	Austritt
Request command	Aufforderung eines Befehls
Store voice input	Spracheingabe speichern
Next level attained?	Nächstes Niveau erreicht?

Fig. 3

Receive command?	Befehl empfangen?
Recognize command?	Befehl erkannt?
Execute & feedback	Ausführung & Feedback

Claims

Verfahren zum Trainieren einer verbraucherorientierten Anwendungsvorrichtung auf der Grundlage einer Vielzahl von Spracheingaben vom Benutzer, wobei die Vorrichtung ein Maß des Fortschritts hinsichtlich des von einem bestimmten Benutzer erreichten Trainingsniveaus ausgibt, wobei das genannte Verfahren dadurch gekennzeichnet ist, dass das genannte Trainingsniveau visuell durch eine animierte Figur mit einer Vielzahl von Reifezuständen dargestellt wird, die jeweils einem entsprechenden Mindesttrainingsniveau zugeordnet sind, wobei jedes Niveau eine Vielzahl von animierten Sequenzen enthält, die dazu verwendet werden, ein spezifisches Feedback bezüglich der Wirksamkeit bestimmter Sprachbefehle auszugeben.
Verfahren nach Anspruch 1, wobei die genannte Figur ein lebendes Wesen darstellt.
Verfahren nach Anspruch 1, wobei die genannte Figur ein Haustier darstellt.
Verfahren nach Anspruch 3, wobei das genannte Tier ein Hund ist.
Verfahren nach Anspruch 1, wobei die genannte Figur mindestens drei Zustände aufweist.
Verfahren nach Anspruch 1, wobei die genannten Zustande sowohl Aspekte der Größe als auch der Haltung der genannten Figur umfassen.
Verfahren nach Anspruch 1, wobei die genannten Zustände dynamische Aspekte der genannten Figur umfassen.
Verbraucherorientierte Anwendungsvorrichtung, die so ausgelegt ist, dass sie ein Verfahren nach Anspruch 1 implementiert, wobei die genannte Vorrichtung Empfangsmittel zum selektiven Empfangen von einer aus einer Vielzahl von Spracheingaben vom Benutzer und Ausgabemittel zum Ausgeben eines Maß des Fortschritts hinsichtlich des von einem bestimmten Benutzer erreichten Trainingsniveaus umfasst, wobei die genannte Vorrichtung dadurch gekennzeichnet ist, dass sie über visuelle Anzeigemittel zum visuellen Darstellen des genannten Trainingsniveaus durch eine animierte Figur mit einer Vielzahl von Reifezuständen verfügt, die jeweils einem entsprechenden Mindesttrainingsniveau zugeordnet sind, wobei jedes Niveau eine Vielzahl von animierten Sequenzen enthält, die dazu verwendet werden, ein spezifisches Feedback bezüglich der Wirksamkeit bestimmter Sprachbefehle auszugeben.
Vorrichtung nach Anspruch 8, wobei eine Vielzahl von Trainingsniveaus jeweils einem entsprechenden Satz von Betriebsbefehlen zugeordnet ist, die in die Vorrichtung zur Ausführung von ihr eingegeben werden können.