-
Die
vorliegende Erfindung bezieht sich auf ein elektronisches Gerät, wie etwa
ein Fernsehgerät, und
genauer auf ein elektronisches Gerät, das zum Steuern des Betriebs
davon durch Spracherkennung fähig
ist.
-
Während sich
Spracherkennungstechnologie entwickelt hat, wurde ein elektronisches
Gerät entwickelt,
das zum Steuern des Betriebs davon durch Erkennen von Sprache eines
Benutzers und Eingeben eines entsprechenden Befehls fähig ist. Wenn
ein Benutzer den Ton "Abspielen" oder "Aufzeichnen" ausspricht, erkennt
das Gerät
das Tonmuster der Sprache, erzeugt einen entsprechenden Befehlscode
und steuert den Betrieb gemäß dem Befehlscode.
-
1 zeigt
ein kurz dargestelltes Bild eines Fernsehgerätes als ein Beispiel des elektronischen Gerätes an,
das zum Steuern des Betriebs davon durch Spracherkennung fähig ist.
Ein konventionelles Fernsehgerät
hat einen Tuner 1 zum Empfangen von Rundfunksignalen, eine
externe Signaleingabeeinheit zum Empfangen der Signale, die von
einem Bildwiedergabegerät
wiedergegeben werden, wie etwa einem VTR (Videoband-Aufzeichnungsgerät), einen Mikroprozessor 3 zum
selektiven Ausgeben der Signale, die von dem Tuner 1 und
der externen Signaleingabeeinheit 2 eingegeben werden,
einen Videoverstärker 4 zum
Verstärken
der Videosignale unter den Signalen, die von dem Mikroprozessor 3 ausgegeben
werden, einen Bildschirm 7 zum Anzeigen des verstärkten Videosignals
und einen Audioverstärker 5 zum
Verstärken
der Audiosignale unter den Signalen, die von dem Mikroprozessor 3 ausgegeben
werden, und einen Laut sprecher 6 zum Verstärken und Ausgeben
der verstärkten
Audiosignale so, damit sie hörbar
sind. Auch hat das konventionelle Fernsehgerät eine Tasteneingabeeinheit 8,
um einem Benutzer zu erlauben, die Steuersignale einzugeben.
-
Auch
hat das Fernsehgerät
eine Spracherkennungsvorrichtung 9 zum Erkennen von Sprache eines
Benutzers und Senden eines Befehls entsprechend dem Mikroprozessor 3,
und ein drahtloses Mikrofon 10 zum Empfangen des Tons,
der durch den Benutzer ausgesprochen wird, und Übertragen dessen zu der Spracherkennungsvorrichtung 9 auf
eine drahtlose Weise. In dieser Situation hat die Spracherkennungsvorrichtung 9 die
Frequenzbandinformation der Sprache des Benutzers. Die Spracherkennungsvorrichtung 9 hat
ein Filter (nicht gezeigt), das die Tonsignale weitergibt, die zu
dem Frequenzband der Sprache des Benutzers gehören, und die Töne blockiert,
die zu dem Frequenzband außer
dem Band der Sprache des Benutzers gehören. Unterdessen hat das drahtlose
Mikrofon 10 eine Fernsteuerungsfunktion, da es eine Tasteneingabekonsole
(nicht gezeigt) hat, die Fernsehgerätbetrieb drahtlos steuern kann.
Das drahtlose Mikrofon 10 enthält eine Moduswandlungstaste,
die Wandlung zwischen einem allgemeinen Modus einem Spracherkennungsmodus eines
Fernsehgerätes
ermöglicht.
-
In
der konventionellen Fernsehgerätsteuerung,
die Spracherkennung verwendet, wandelt der Benutzer den Modus eines
Fernsehgerätes
in den Spracherkennungsmodus durch Auswählen der Moduswandlungstaste,
die an dem drahtlosen Mikrofon 10 vorgesehen ist, während ferngesehen
wird. Wenn das Fernsehgerät
in den Spracherkennungsmodus gewandelt wird, spricht der Benutzer
einen Ton entsprechend einem gewünschten
Befehl in das drahtlose Mikrofon 10 aus. In diesem Moment
empfängt
das drahtlose Mikrofon 10 nicht nur menschliche Sprache,
sondern auch den Ton, der von einem Lautsprecher 6 ausgegeben
wird, und diese zwei Typen von Signalen, die empfangen werden, wer den
der Spracherkennungsvorrichtung 9 vorgelegt. Die Spracherkennungsvorrichtung 9 gibt
das Signal weiter, das zu dem Frequenzband des Tons des Benutzers
gehört, und
blockiert den Rest der Signale, die die Audiosignale enthalten,
die von dem Lautsprecher 6 ausgegeben werden. Dann erkennt
die Spracherkennungsvorrichtung 9 das Sprachmuster der
empfangenen Sprache des Benutzers, erfasst den Befehl entsprechend
dem erkannten Sprachmuster und überträgt es zu
dem Mikroprozessor 3.
-
In
einem derartigen konventionellen Fernsehgerät ist es für die Spracherkennungsvorrichtung 9 schwierig,
alle Audiosignale zu erfassen und aus den empfangenen Tönen zu entfernen,
wenn das Tonfrequenzband der Audiosignale, die von dem Lautsprecher 6 ausgegeben
werden, das der Sprache des Benutzers überlappt. Falls der Ton der
Audiosignale, die von dem Lautsprecher 6 ausgegeben werden,
zu dem Durchlassband der Spracherkennungsvorrichtung 9 gehört, und
dem Ton entspricht, der das Fernsehgerät steuern kann, fasst die Spracherkennungsvorrichtung 9 den
Ton, der von dem Lautsprecher 6 ausgegeben wird, als ein
Steuersignal falsch auf, was zu einem Problem führt, die Fehlfunktion des Fernsehgerätes zu verursachen.
-
Um
das obige Problem zu vermeiden, kann der Benutzer einen Ton entsprechend
dem Betriebsbefehl in das drahtlose Mikrofon 10 aussprechen, nachdem
der Lautsprecher 6 stumm geschaltet ist, während ferngesehen
wird. Dann empfängt
die Spracherkennungsvorrichtung 9 nur die Sprache des Benutzers,
was ermöglicht,
den entsprechenden Befehl zu dem Mikroprozessor 3 zu übertragen.
Es ist jedoch für
den Benutzer unmöglich,
den Ton von dem Lautsprecher 6 zu hören, während der Befehl zu der Spracherkennungsvorrichtung 9 gegeben
wird, wobei es dadurch zum Komfortverlust beim Fernsehen kommt.
-
Diese
Art von Problemen tritt gleichermaßen zwischen beliebigen elektronischen
Geräten,
die Ton erzeugen können,
und denen auf, die in Übereinstimmung
mit einem empfangenen Sprachbefehl betrieben werden können. Die
Beispiele der elektronischen Geräte,
die Töne
generieren können,
sind ein Fernsehgerät
und ein Radio, und die Beispiele, die gemäß empfangenen Tönen betrieben
werden können,
sind alle elektronischen Einrichtungen, wie etwa ein Fernsehgerät, ein Radio,
ein VTR, ein elektrischer Reiskocher, ein Staubsauger, eine Klimaanlage
und ein elektrischer Lüfter.
-
Um
die konventionellen Operationen, die durch Spracherkennung aktiviert
werden, mit den Beispielen eines Radios, das Töne ausgeben kann, und eines
elektrischen Lüfters,
der eine entsprechende Aktion durch Empfangen von Sprache durchführen kann,
zu erläutern,
wenn ein Ton, der zu dem Frequenzband gehört, das ein elektrischer Lüfter erkennen
kann und den elektrischen Lüfter
betreiben kann, durch das Radio erzeugt wird, fasst der Lüfter den Ton
als eine Sprache von Benutzersteuerung falsch auf, und als ein Ergebnis
kann ein Befehl entsprechend dem Ton, der durch das Radio gegeben
wird, ausgeführt
werden. Entsprechend führt
der elektronische Lüfter
eine Operation durch, die nicht durch den Benutzer beabsichtigt
ist. Falls der Ton, der von dem Radio ausgegeben wird, und Sprache
des Benutzers gleichlaufend eingegeben werden, kann außerdem der
Sprachbefehl nicht richtig durchgeführt werden, da es eine Schwierigkeit
beim Trennen und Entfernen des Audiosignals von dem Lautsprecher
gibt.
-
Tsuyoshi
Usagawa, Yuji Morita, Masanao Ebata: Remote Control System of Known
Noise, Proceedings of the International Conference on Spoken Language
Processing (ICSLP), Kobe, 18.-22. Nov. 1990, Tokyo, ASJ, JP, 1990-11-18,
XP 000503367 offenbart die Verwendung eines adaptiven Filters, um Umgebungsrauschen
aus einem Audiosignal zu entfernen.
-
Ein
Ziel der vorliegenden Erfindung besteht darin, ein elektronisches
Gerät vorzusehen,
das durch Spracherkennung betrieben wird, was eine Fehlfunktion
verhindern kann, die durch Empfangen von Hintergrundrauschen verursacht
wird, wie etwa ein Ton, der von einem Lautsprecher ausgegeben wird.
Ein anderes Ziel besteht darin, ein elektronisches Gerät vorzusehen,
das Töne
von einem Lautsprecher darin generieren kann, während unbeabsichtigtes Hintergrundrauschen
minimiert wird, das eine Spracherkennungsfunktion dieses oder anderer Geräte beeinträchtigt.
-
Die
Erfindung wird wie sie ist in unabhängigen Ansprüchen 1 und
5 dargelegt.
-
Gemäß einem
ersten Aspekt der vorliegenden Erfindung wird ein elektronisches
Gerät vorgesehen,
umfassend: einen Lautsprecher zum Ausgeben eines Audiosignals; einen
Tonempfänger
zum Empfangen eines externen Tons; eine Bestimmungseinrichtung zum
Bestimmen, ob ein Signal des externen Tons, der in dem Tonempfänger empfangen
wird, das Audiosignal ist, das von dem Lautsprecher ausgegeben wird;
eine Spracherkennungseinrichtung zum Erkennen des externen Tons
und Ausgeben eines Befehls entsprechend dem externen Ton, wenn die
Bestimmungseinrichtung bestimmt, dass sich das Signal des externen
Tons von dem Audiosignal unterscheidet; und eine Steuereinheit zum
Empfangen des Befehls und Durchführen
einer Operation entsprechend dem Befehl, ferner umfassend eine Identifikationsinformations-Bereitstellungseinrichtung zum
Hinzufügen
vorbestimmter Identifikationsinformation zu dem Audiosignal, wobei
die Bestimmungseinrichtung bestimmt, ob das Signal des externen Tons
das Audiosignal ist, basierend auf Vorhandensein der Identifikationsinformation
in den Signalen des externen Tons, die durch die Spracherkennungseinrichtung
empfangen werden.
-
Vorzugsweise
umfasst das elektronische Gerät
gemäß der vorliegenden
Erfindung ferner einen Wasserzeichengenerator zum Hinzufügen einer vorbestimmten
Identifikationsinformation, die eine Identifikationsinformation
des Audiosignals ist. In einer derartigen Situation bestimmt die
Bestimmungseinrichtung, ob das Signal des externen Tons das Audiosignal
ist, basierend auf Vorhandensein der Identifikationsinformation
in den Signalen des externen Tons, die durch die Spracherkennungsvorrichtung empfangen
werden.
-
Unterdessen
umfasst die Bestimmungseinrichtung vorzugsweise: einen Detektor
zum Suchen nach der Wasserzeicheninformation, die in dem Signal
des externen Tons eingefügt
ist, das in dem Tonempfänger
empfangen wird; eine Tonentfernungseinrichtung zum Entfernen des
Audiosignals, das die Wasserzeicheninformation enthält, unter
Verwendung der Spektrumsinformation, die in dem Detektor erfasst
wird, in dem Fall, dass die Wasserzeicheninformation erfasst wird;
und eine Sprachsignal-Erkennungseinrichtung zum Identifizieren des
Vorhandenseins eines Sprachsignals basierend auf einem Energiepegel
des Signals des externen Tons, woraus das Audiosignal entfernt ist.
-
In
dem elektronischen Gerät
gemäß der vorliegenden
Erfindung ist es möglich,
den Betriebsmodus davon einzustellen, wodurch durch den Benutzer ausgewählt werden
kann, ob die Identifikationsinformations-Bereitstellungseinrichtung
arbeitet oder nicht.
-
Die
Identifikationsinformation ist Wasserzeicheninformation, die Spektrumsinformation
des Signals des externen Tons enthält. Die Bestimmungseinrichtung
bestimmt Vorhandensein der Identifikationsinformation basierend
auf Vorhandensein der Wasserzeicheninformation in dem Signal des
externen Tons, das in der Spracherkennungseinrichtung empfangen
wird.
-
Die
Bestimmungseinrichtung umfasst vorzugsweise: einen Detektor zum
Suchen nach der Wasserzeicheninformation, die in dem Signal externen
Tons eingefügt
ist, das in dem Tonempfänger empfangen
wird; eine Tonentfernungseinrichtung zum Entfernen des Audiosignals,
das die Wasserzeicheninformation enthält, unter Verwendung der Spektrumsinformation,
die in dem Detektor erfasst wird, in dem Fall, dass die Wasserzeicheninformation erfasst
ist; und eine Sprachsignal-Erkennungseinrichtung zum Identifizieren
des Vorhandenseins eines Sprachsignals basierend auf einem Energiepegel
des Signals des externen Tons, woraus das Audiosignal entfernt ist.
-
Gemäß einem
anderen Aspekt der vorliegenden Erfindung wird ein Verfahren zum
Empfangen von Ton vorgesehen, umfassend die Schritte zum: a) Ausgeben
eines Audiosignals durch einen Lautsprecher; b) Entfernen des Audiosignals
aus einem Signal eines externen Tons in einem Fall, in dem das Audiosignal
in dem Signal des externen Tons enthalten ist; Ausgeben eines Befehls
entsprechend dem externen Ton durch Erkennen des externen Tons;
und Empfangen des Befehls und Steuern einer Operation entsprechend
dem Befehl, ferner umfassend einen Schritt zum Hinzufügen vorbestimmter Identifikationsinformation
zu dem Audiosignal vor dem Schritt a), wobei in dem Schritt b) Vorhandensein
des Audiosignals basierend auf Vorhandensein der Identifikationsinformation
in dem Signal des externen Tons bestimmt wird.
-
Vorteilhafter
Weise kann die Fehlfunktion des elektronischen Gerätes verhindert
werden, da die Wasserzeicheninformation dem Audiosignal hinzugefügt wird,
das von dem Lautsprecher in dem Spracherkennungsmodus eines Fernsehgerätes ausgegeben
wird, und das Vorhandensein von Wasserzeicheninformation in dem
empfangenen externen Tonsignal durch den Detektor erfasst wird.
-
Für ein besseres
Verständnis
der Erfindung, und um zu zeigen, wie Ausführungsformen der gleichen zur
Wirkung gebracht werden können,
wird nun auf dem Weg eines Beispiels auf die begleitenden schematische
Zeichnungen verwiesen, in denen:
-
1 eine
schematische Ansicht ist, die ein Fernsehgerät zeigt, das seinen Betrieb
durch Spracherkennung steuern kann;
-
2 ein
elektronisches Gerät
zeigt, das Fehlfunktion in Spracherkennung verhindern und eine Spracherkennungsrate
verbessern kann in Übereinstimmung
mit einer bevorzugten Ausführungsform
der vorliegenden Erfindung;
-
3 ein
detailliertes Blockdiagramm einer Bestimmungseinrichtung in 2 ist;
und
-
4 ein
Flussdiagramm ist, das das Verfahren zum Verhindern von Fehlfunktion
in Spracherkennung und Verbessern einer Spracherkennungsrate in Übereinstimmung
mit der bevorzugten Ausführungsform
der vorliegenden Erfindung zeigt.
-
2 zeigt
ein elektronisches Gerät,
das Fehlfunktion in Spracherkennung verhindern und eine Spracherkennungsrate
verbessern kann in Übereinstimmung
mit einer bevorzugten Ausführungsform
der vorliegenden Erfindung. Die vorliegende Erfindung wird mit einem
Fernsehgerät
als ein Beispiel des elektronischen Gerätes veranschaulicht. Bezug
nehmend auf 2 umfasst das elektronische
Gerät einen
Tuner 21 zum Empfangen der Rundfunksignale, eine Eingabeeinheit
eines externen Signals 22 zum Empfangen der Wiedergabesignale
von einer Bildwiedergabeeinrichtung, wie etwa einem VTR oder einem
DVDP, einen Mikroprozessor 24 zum selektiven Ausgeben der
Signale, die von dem Tuner 21 und der Eingabeeinheit eines
externen Signals 22 eingegeben werden, eine Leistungsversorgung 23 zum
Zuführen
elektrischer Leistung zu dem Mikroprozessor 24, eine Tasteneingabeeinheit 25 zum
Eingeben der Steuerbefehle in Bezug auf die gewünschte Operation zu dem Mikroprozessor 24 und
eine Tonempfangssteuereinheit 50 zum Steuern des Mikroprozessors 24 in
Bezug auf die entsprechende Operation durch die Spracherkennung.
-
Das
Fernsehgerät
in der Zeichnung besteht aus einem Videoverstärker 26 zum Verstärken der
Videosignale unter den Signalen, die von dem Mikroprozessor 24 ausgegeben
werden, einer Visualisierungseinheit 27 zum Wandeln der
verstärkten
Videosignale in ein Format, das für eine Anzeige möglich ist,
und einem Bildschirm 28 zum Anzeigen der neu formatierten
Videosignale. Außerdem
umfasst das Fernsehgerät
einen Audioverstärker 30 zum
Verstärken
der Audiosignale unter den Signalen, die von dem Mikroprozessor 24 ausgegeben
werden, einen Wasserzeichengenerator 50 zum Extrahieren
von Spektrumsinformation der verstärkten Audiosignale und Hinzufügen der
extrahierten Spektrumsinformation zu den verstärkten Audiosignalen, und einen Lautsprecher 31 zum
Verstärken
und Ausgeben von Audiosignalen, denen die Spektrumsinformation hinzugefügt ist,
als die hörbaren
Töne.
-
Unterdessen
besteht die Tonempfangssteuereinheit 50 aus einem Tonempfänger 52 zum
Empfangen eines eingegebenen Audiosignals, wie etwa von einem drahtlosen
Mikrofon 60, einer Bestimmungseinrichtung 54 zum
Bestimmen, ob die Audiosignale, die in dem Tonempfänger 52 empfangen werden,
die Töne
sind, die von dem Lautsprecher 31 ausgegeben werden, oder
Sprachsignale eines Benutzers, und einer Spracherkennungseinrichtung 56 zum
Erfassen des Befehls entsprechend dem Ergebnis der Sprachmustererkennung
des empfangenen Tons und Übertragen
des Befehls zu dem Mikroprozessor 24, nachdem das Tonsignal
als das Sprachsignal des Benutzers in der Bestimmungseinrichtung 54 erkannt
ist.
-
3 ist
ein detailliertes Blockdiagramm der in 2 gezeigten
Bestimmungseinrichtung 54. Wie in 3 gezeigt,
umfasst die Bestimmungseinrichtung 54 einen Detektor 54a zum
Suchen nach der eingefügten
Wasserzeicheninformation von dem Audiosignal, das in dem Tonempfänger 52 empfangen wird,
eine Tonentfernungseinrichtung 54b zum Entfernen der Audiosignale,
die die Wasserzeicheninformation enthalten, durch Verwenden eines
Audiospektrums, das in dem Detektor 54a erkannt wird, wenn
die Wasserzeicheninformation erfasst wird, und eine Sprachsignal-Erkennungseinrichtung 54c zum
Erkennen des Vorhandenseins eines Sprachsignals durch den Energiepegel
eines Audiosignals unter den Tonsignalen, aus denen die Audiosignale
entfernt sind.
-
In
der bevorzugten Ausführungsform
hat das drahtlose Mikrofon 60 auch eine drahtlose Fernsteuerungsfunktion,
da es mit einer Tasteneingabekonsole (nicht gezeigt) versehen ist,
die die Operation des Fernsehgerätes
drahtlos steuern kann. Das Mikrofon 60 ist mit einer Moduswandlungstaste
zum Umschalten zwischen einem allgemeinen Modus für das Fernsehen
und einem Spracherkennungsmodus versehen. Der allgemeine Modus ist
ein Modus, in dem das Fernsehen durch Steuern der Operation des
Mikroprozessors 24 gemäß der Tastenauswahl
des drahtlosen Mikrofons 60 und der Tasteneingabeeinheit 25 betrachtet
werden kann. Der Spracherkennungsmodus ist ein Modus, in dem der
Mikroprozessor durch Empfangen von Sprache durch die Tonempfangssteuereinheit 50 gesteuert
werden kann.
-
Unterdessen
ist die Operation des Wasserzeichengenerators 40 eingestellt,
selektiv nur zu arbeiten, wenn der Spracherkennungsmodus durch das
drahtlose Mikrofon 60 ausgewählt ist. Falls ein Benutzer
den Modus zu dem Spracherkennungsmodus durch Auswählen der
Moduswandlungstaste an dem drahtlosen Mikrofon 60 wandelt, überträgt die Tonempfangssteuereinheit 50 vorzugsweise
das Signal, das auf die Wandlung in den Spracherkennungsmodus hinweist,
zu dem Mikroprozessor 24. Entsprechend gibt der Mikroprozessor 24 in
dem allgemeinen Modus die Audiosignale, die ohne die Operation des
Wasserzeichengenerators 40 verstärkt werden, durch den Lautsprecher 31 aus.
Wenn ein Signal, das die Moduswandlung zu dem Spracherkennungsmodus
meldet, von der Tonempfangssteuereinheit 50 empfangen wird,
steuert der Mikroprozessor 24 den Wasserzeichengenerator 40 so,
um die Spektrumsinformation des Audiosignals zu dem verstärkten Audiosignal
hinzuzufügen
und es durch den Lautsprecher 31 auszugeben. Die Spektrumsinformation
des Audiosignals wird Wasserzeicheninformation genannt. Die Wasserzeicheninformation
ist verborgene Information, die die Information über das ursprüngliche
Information enthält,
ohne irgendeinen Einfluss auf die Qualität des ursprünglichen Signals zu ergeben.
Entsprechend hört
der Benutzer nur den Ton entsprechend dem Audiosignal, obwohl das
Audiosignal, das die Wasserzeicheninformation enthält, durch
den Lautsprecher 31 ausgegeben wird.
-
Unterdessen
verwendet Wasserzeicheninformationserkennung durch Erfassen der
Spektrumsinformation des Audiosignals in dem Wasserzeichengenerator 40 allgemein
die lineare vorhersagende Kodierung (LPC, Linear Predicting Coding),
die das Audiosignal abtastet und die Koeffizienten durch Spektrumstransformation
kalkuliert. Entsprechend sucht der Detektor 54a nach der
Spektrumsinformation, die als die Wasserzeicheninformation eingefügt ist,
von dem Audiosignal, das in dem Tonempfänger 52 empfangen
wird, und die Tonentfernungseinrichtung 54b entfernt das
Audiosignal, das die Wasserzeicheninformation enthält, unter
Verwendung der Spektrumsinformation des Tons, der in dem Detektor 54a erfasst
wird. In diesem Punkt lässt
die Sprachsignal-Erkennungseinrichtung 54c die verbleibenden Tonsignale
außer
Acht. D.h. die Sprachsignal-Erkennungseinrichtung 54c entfernt
jene Signale des externen Tons, von denen erachtet wird, keinerlei Sprachsignale zu
enthalten, da sie einen Energiepegel kleiner als ein Schwellwert
haben und überträgt jene
Signale, von denen erachtet wird, Sprachsignale zu enthalten, da
sie einen Energiepegel höher
als der Schwellwert haben. Die Spracherkennungseinrichtung 56 erkennt
die eingegebenen Sprachsignale durch Sprachmustererkennung und erfasst
den entsprechenden Befehl. Der erfasste Befehl wird zu dem Mikroprozessor 24 so übertragen,
dass der Mikroprozessor 24 die Operation entsprechend dem
Befehl durchführt.
-
Entsprechend
kann in dem Spracherkennungsmodus das Audiosignal durch die Wasserzeicheninformation
während
Spracherkennung in der Bestimmungseinrichtung 54 durch
Erfassen der Wasserzeicheninformation des Audiosignals, die in dem
Wasserzeichengenerator 40 generiert und dem Audiosignal
hinzugefügt
wird, bevor das Audiosignal durch den Lautsprecher 31 generiert
wird, erfasst werden.
-
Folglich
kann die Spracherkennungseinrichtung 56 die entsprechenden
Befehle durch Sprachmustererkennung nur des Sprachsignals unter
den Signalen des externen Tons erfassen, und der Mikroprozessor 24 kann
die unbeabsichtigte Operation des elektronischen Gerätes verhindern,
die durch Fehler in Spracherkennung verursacht wird.
-
Unterdessen
sind einige Beispiele der Befehle, die durch die Sprache eines Benutzers
gesteuert werden können,
Leistung-Ein/Aus,
Kanalauswahl, Lautstärkesteuerung
und Stummschaltung-Ein/Aus. Leistung-Ein/Aus steuert die Zufuhr
von Leistung von der Leistungsversorgung 23 zu den jeweiligen
Teilen des Fernsehgerätes,
und die Kanalauswahl steuert den Mikroprozessor 24, um
einen Kanal auszuwählen,
wenn die Zahl des entsprechenden Kanals ausgesprochen wird. Lautstärkesteuerung
steuert den Audioverstärker 30 zum
Abstimmen der Lautstärke
in Übereinstimmung
mit den Worten "Lautstärke hoch" oder "Lautstärke herunter", die durch den Benutzer ausgesprochen
werden. Stummschaltung-Ein/Aus steuert die Ausgabe des Audiosignals
durch Steuern des Audioverstärkers 31 in Übereinstimmung
mit dem Wort "Stummschaltung
ein", das durch
den Benutzer ausgesprochen wird.
-
4 ist
ein Flussdiagramm einer bevorzugten Ausführungsform des Verfahrens zum
Verhindern von Fehlern in Spracherkennung eines elektronischen Gerätes gemäß der vorliegenden
Erfindung. Bezug nehmend auf die Zeichnung bestimmt der Mikroprozessor 24 zuerst,
ob der vorliegende Steuersignal-Eingabemodus der Sprachsteuerungsmodus
ist gemäß der Auswahl
der Modustaste an dem drahtlosen Mikrofon 60, während das
Wiedergabesignal empfangen wird, das von dem Rundfunksignal oder der
Wiedergabeeinrichtung eingegeben wird, wenn die Leistung ein ist
(Schritt 42). Falls in dem Schritt (S42) erkannt wird,
in dem Nicht-Sprachsteuermodus zu sein, ermöglicht der Mikroprozessor 24,
dass das empfangene Rundfunksignal und das Wiedergabesignal durch
den Bildschirm 28 und den Lautsprecher 31 in dem
allgemeinen Modus ausgegeben werden (S44). Falls in dem Schritt
(S42) erkannt wird, in dem Sprachsteuerungsmodus zu sein, steuert
der Mikroprozessor 24 den Wasserzeichengenerator 40 und ermöglicht,
Wasserzeicheninformation zu den verstärkten Audiosignalen hinzuzufügen (S46).
Das Audiosignal mit der hinzugefügten
Wasserzeicheninformation wird verstärkt und durch den Lautsprecher 31 ausgegeben
(S48).
-
Unterdessen
erfasst der Detektor 54a das Vorhandensein der Wasserzeicheninformation
von den Signalen des externen Tons (S52). Falls ein Signal, das
die Wasserzeicheninformation enthält, von dem Signal des externen
Tons in Schritt (S52) erfasst wird, kann identifiziert werden, dass
unter den Signalen des externen Tons ein Audiosignal von dem Lautsprecher 31 enthalten
ist. Entsprechend entfernt die Tonentfernungseinrichtung 54b die
erfassten Signale, die die Wasserzeichen information enthalten, die die
Audiosignale sind, die von dem Lautsprecher 31 ausgegeben
werden, aus den Signalen des externen Tons (S54).
-
Außerdem identifiziert
die Sprachsignal-Erkennungseinrichtung 54c das Vorhandensein
des Sprachsignals durch Vergleichen des Energiepegels der Tonsignale,
die nach Entfernen des Audiosignals aus den Signalen des externen
Tons verbleiben, mit dem Schwellwert (S56). Falls die Tonsignale,
die nach Entfernen des Audiosignals aus den Signalen des externen
Tons verbleiben, ihren Energiepegel kleiner als den Schwellwert
haben, werden sie identifiziert, keinerlei Sprachsignale zu enthalten
und verworfen, und falls höher,
werden sie identifiziert, die Sprachsignale zu enthalten und zu
der Spracherkennungseinrichtung 56 übertragen (S58).
-
Falls
die Wasserzeicheninformation unter den Signalen des externen Tons
in dem Schritt (S52) nicht erfasst wird, werden die Signale unterdessen
zu der Sprachsignal-Erkennungseinrichtung 54c übertragen,
und die Sprachsignal-Erkennungseinrichtung 54c identifiziert
das Vorhandensein des Sprachsignals durch Vergleichen des Energiepegels
der Signale mit dem Schwellwert (S56). Falls die Energiepegel der
Tonsignale kleiner als der Schwellwert sind, werden sie identifiziert,
keinerlei Sprachsignale zu enthalten und die Signale werden verworfen,
und falls höher,
werden sie identifiziert, das Sprachsignal zu enthalten, und werden
zu der Spracherkennungseinrichtung 56 übertragen (S58).
-
Hinsichtlich
der empfangenen Sprachsignale, die als Sprachsignale in dem Schritt
S58 erkannt werden, gibt die Spracherkennungseinrichtung 56 einen
Befehl, der für
das Sprachsignal relevant ist, durch den Mikroprozessor 24 durch
Sprachmustererkennung der empfangenen Sprachsignale aus (S60). Entspre chend
steuert der Mikroprozessor 24 das Fernsehgerät in Bezug
auf die empfangenen Befehle (S62).
-
Folglich
können
Fehler beim Betrieb des Fernsehgerätes wegen fehlerhafter Spracherkennung
verhindert, oder mindestens beträchtlich
reduziert werden, durch Hinzufügen
der Wasserzeicheninformation zu dem Audiosignal, das von dem Lautsprecher 31 ausgegeben
wird, und Identifizieren des Vorhandenseins der Wasserzeicheninformation
des Signals des externen Tons, die durch das drahtlose Mikrofon 60 übertragen
werden, und Erfassen des Sprachsignals des Benutzers.
-
Unterdessen
zeigt die Ausführungsform
der vorliegenden Erfindung ein einzelnes elektronisches Gerät, das mit
sowohl dem Wasserzeichengenerator 40 als auch der Tonempfangssteuereinheit 50 ausgerüstet ist.
Die vorliegende Erfindung kann jedoch in dem Fall angewendet werden,
dass der Wasserzeichengenerator 40 und die Tonempfangssteuereinheit 50 getrennt
in zwei unterschiedlichen elektronischen Geräten existieren. D.h. die vorliegende
Ausführungsform
kann gleichermaßen
angewendet werden, falls der Wasserzeichengenerator 40 vor
dem Lautsprecher eines elektronischen Gerätes eingesetzt wird, das zum
Ausgeben von Rudiosignalen durch den Lautsprecher fähig ist,
und falls die Tonempfangssteuereinheit 50 zu einem elektronischen
Gerät eingesetzt
wird, das zum Betreiben durch Spracherkennung fähig ist.
-
In
der vorliegenden Erfindung kann ein Audiosignal auf der Basis der
Wasserzeicheninformation erfasst werden, wenn die Bestimmungseinrichtung 54 das
Sprachsignal bestimmt, da die Wasserzeicheninformation des Audiosignals
den Audiosignalen hinzugefügt
und dann durch den Lautsprecher 31 ausgegeben wird. Entsprechend
erfasst die Spracherkennungseinrichtung 56 die entsprechenden
Befehle durch Erkennen des Musters nur der Sprachsignale unter den
Signalen des externen Tons und der Mikroprozessor 24 kann
folglich eine falsche Operation des elektronischen Gerätes verhindern,
die durch Fehler bei Spracherkennung verursacht werden.
-
Obwohl
die bevorzugte Ausführungsform
der vorliegenden Erfindung beschrieben wurde, wird durch einen Fachmann
verstanden, dass die vorliegende Erfindung nicht auf die beschriebene
bevorzugte Ausführungsform
begrenzt werden sollte. Innerhalb des Bereiches der vorliegenden
Erfindung, wie durch die angefügten
Ansprüche
definiert, können
verschiedene Änderungen
und Modifikationen durchgeführt
werden.