DE60217444T2

DE60217444T2 - Sprachgesteuertes elektronisches Gerät

Info

Publication number: DE60217444T2
Application number: DE60217444T
Authority: DE
Inventors: c/o Audio Lab Yoon-hark Paldal-gu Suwon-city Oh; Soon-back Sangju-city Cha
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-07-19
Filing date: 2002-04-24
Publication date: 2007-05-24
Anticipated expiration: 2022-04-25
Also published as: KR100552468B1; JP2003044069A; CN1188829C; EP1278183B1; US20030018479A1; KR20030008726A; DE60217444D1; CN1399247A; EP1278183A1

Description

Die vorliegende Erfindung bezieht sich auf ein elektronisches Gerät, wie etwa ein Fernsehgerät, und genauer auf ein elektronisches Gerät, das zum Steuern des Betriebs davon durch Spracherkennung fähig ist.
Während sich Spracherkennungstechnologie entwickelt hat, wurde ein elektronisches Gerät entwickelt, das zum Steuern des Betriebs davon durch Erkennen von Sprache eines Benutzers und Eingeben eines entsprechenden Befehls fähig ist. Wenn ein Benutzer den Ton "Abspielen" oder "Aufzeichnen" ausspricht, erkennt das Gerät das Tonmuster der Sprache, erzeugt einen entsprechenden Befehlscode und steuert den Betrieb gemäß dem Befehlscode.
1 zeigt ein kurz dargestelltes Bild eines Fernsehgerätes als ein Beispiel des elektronischen Gerätes an, das zum Steuern des Betriebs davon durch Spracherkennung fähig ist. Ein konventionelles Fernsehgerät hat einen Tuner 1 zum Empfangen von Rundfunksignalen, eine externe Signaleingabeeinheit zum Empfangen der Signale, die von einem Bildwiedergabegerät wiedergegeben werden, wie etwa einem VTR (Videoband-Aufzeichnungsgerät), einen Mikroprozessor 3 zum selektiven Ausgeben der Signale, die von dem Tuner 1 und der externen Signaleingabeeinheit 2 eingegeben werden, einen Videoverstärker 4 zum Verstärken der Videosignale unter den Signalen, die von dem Mikroprozessor 3 ausgegeben werden, einen Bildschirm 7 zum Anzeigen des verstärkten Videosignals und einen Audioverstärker 5 zum Verstärken der Audiosignale unter den Signalen, die von dem Mikroprozessor 3 ausgegeben werden, und einen Laut sprecher 6 zum Verstärken und Ausgeben der verstärkten Audiosignale so, damit sie hörbar sind. Auch hat das konventionelle Fernsehgerät eine Tasteneingabeeinheit 8, um einem Benutzer zu erlauben, die Steuersignale einzugeben.
Auch hat das Fernsehgerät eine Spracherkennungsvorrichtung 9 zum Erkennen von Sprache eines Benutzers und Senden eines Befehls entsprechend dem Mikroprozessor 3, und ein drahtloses Mikrofon 10 zum Empfangen des Tons, der durch den Benutzer ausgesprochen wird, und Übertragen dessen zu der Spracherkennungsvorrichtung 9 auf eine drahtlose Weise. In dieser Situation hat die Spracherkennungsvorrichtung 9 die Frequenzbandinformation der Sprache des Benutzers. Die Spracherkennungsvorrichtung 9 hat ein Filter (nicht gezeigt), das die Tonsignale weitergibt, die zu dem Frequenzband der Sprache des Benutzers gehören, und die Töne blockiert, die zu dem Frequenzband außer dem Band der Sprache des Benutzers gehören. Unterdessen hat das drahtlose Mikrofon 10 eine Fernsteuerungsfunktion, da es eine Tasteneingabekonsole (nicht gezeigt) hat, die Fernsehgerätbetrieb drahtlos steuern kann. Das drahtlose Mikrofon 10 enthält eine Moduswandlungstaste, die Wandlung zwischen einem allgemeinen Modus einem Spracherkennungsmodus eines Fernsehgerätes ermöglicht.
In der konventionellen Fernsehgerätsteuerung, die Spracherkennung verwendet, wandelt der Benutzer den Modus eines Fernsehgerätes in den Spracherkennungsmodus durch Auswählen der Moduswandlungstaste, die an dem drahtlosen Mikrofon 10 vorgesehen ist, während ferngesehen wird. Wenn das Fernsehgerät in den Spracherkennungsmodus gewandelt wird, spricht der Benutzer einen Ton entsprechend einem gewünschten Befehl in das drahtlose Mikrofon 10 aus. In diesem Moment empfängt das drahtlose Mikrofon 10 nicht nur menschliche Sprache, sondern auch den Ton, der von einem Lautsprecher 6 ausgegeben wird, und diese zwei Typen von Signalen, die empfangen werden, wer den der Spracherkennungsvorrichtung 9 vorgelegt. Die Spracherkennungsvorrichtung 9 gibt das Signal weiter, das zu dem Frequenzband des Tons des Benutzers gehört, und blockiert den Rest der Signale, die die Audiosignale enthalten, die von dem Lautsprecher 6 ausgegeben werden. Dann erkennt die Spracherkennungsvorrichtung 9 das Sprachmuster der empfangenen Sprache des Benutzers, erfasst den Befehl entsprechend dem erkannten Sprachmuster und überträgt es zu dem Mikroprozessor 3.
In einem derartigen konventionellen Fernsehgerät ist es für die Spracherkennungsvorrichtung 9 schwierig, alle Audiosignale zu erfassen und aus den empfangenen Tönen zu entfernen, wenn das Tonfrequenzband der Audiosignale, die von dem Lautsprecher 6 ausgegeben werden, das der Sprache des Benutzers überlappt. Falls der Ton der Audiosignale, die von dem Lautsprecher 6 ausgegeben werden, zu dem Durchlassband der Spracherkennungsvorrichtung 9 gehört, und dem Ton entspricht, der das Fernsehgerät steuern kann, fasst die Spracherkennungsvorrichtung 9 den Ton, der von dem Lautsprecher 6 ausgegeben wird, als ein Steuersignal falsch auf, was zu einem Problem führt, die Fehlfunktion des Fernsehgerätes zu verursachen.
Um das obige Problem zu vermeiden, kann der Benutzer einen Ton entsprechend dem Betriebsbefehl in das drahtlose Mikrofon 10 aussprechen, nachdem der Lautsprecher 6 stumm geschaltet ist, während ferngesehen wird. Dann empfängt die Spracherkennungsvorrichtung 9 nur die Sprache des Benutzers, was ermöglicht, den entsprechenden Befehl zu dem Mikroprozessor 3 zu übertragen. Es ist jedoch für den Benutzer unmöglich, den Ton von dem Lautsprecher 6 zu hören, während der Befehl zu der Spracherkennungsvorrichtung 9 gegeben wird, wobei es dadurch zum Komfortverlust beim Fernsehen kommt.
Diese Art von Problemen tritt gleichermaßen zwischen beliebigen elektronischen Geräten, die Ton erzeugen können, und denen auf, die in Übereinstimmung mit einem empfangenen Sprachbefehl betrieben werden können. Die Beispiele der elektronischen Geräte, die Töne generieren können, sind ein Fernsehgerät und ein Radio, und die Beispiele, die gemäß empfangenen Tönen betrieben werden können, sind alle elektronischen Einrichtungen, wie etwa ein Fernsehgerät, ein Radio, ein VTR, ein elektrischer Reiskocher, ein Staubsauger, eine Klimaanlage und ein elektrischer Lüfter.
Um die konventionellen Operationen, die durch Spracherkennung aktiviert werden, mit den Beispielen eines Radios, das Töne ausgeben kann, und eines elektrischen Lüfters, der eine entsprechende Aktion durch Empfangen von Sprache durchführen kann, zu erläutern, wenn ein Ton, der zu dem Frequenzband gehört, das ein elektrischer Lüfter erkennen kann und den elektrischen Lüfter betreiben kann, durch das Radio erzeugt wird, fasst der Lüfter den Ton als eine Sprache von Benutzersteuerung falsch auf, und als ein Ergebnis kann ein Befehl entsprechend dem Ton, der durch das Radio gegeben wird, ausgeführt werden. Entsprechend führt der elektronische Lüfter eine Operation durch, die nicht durch den Benutzer beabsichtigt ist. Falls der Ton, der von dem Radio ausgegeben wird, und Sprache des Benutzers gleichlaufend eingegeben werden, kann außerdem der Sprachbefehl nicht richtig durchgeführt werden, da es eine Schwierigkeit beim Trennen und Entfernen des Audiosignals von dem Lautsprecher gibt.
Tsuyoshi Usagawa, Yuji Morita, Masanao Ebata: Remote Control System of Known Noise, Proceedings of the International Conference on Spoken Language Processing (ICSLP), Kobe, 18.-22. Nov. 1990, Tokyo, ASJ, JP, 1990-11-18, XP 000503367 offenbart die Verwendung eines adaptiven Filters, um Umgebungsrauschen aus einem Audiosignal zu entfernen.
Ein Ziel der vorliegenden Erfindung besteht darin, ein elektronisches Gerät vorzusehen, das durch Spracherkennung betrieben wird, was eine Fehlfunktion verhindern kann, die durch Empfangen von Hintergrundrauschen verursacht wird, wie etwa ein Ton, der von einem Lautsprecher ausgegeben wird. Ein anderes Ziel besteht darin, ein elektronisches Gerät vorzusehen, das Töne von einem Lautsprecher darin generieren kann, während unbeabsichtigtes Hintergrundrauschen minimiert wird, das eine Spracherkennungsfunktion dieses oder anderer Geräte beeinträchtigt.
Die Erfindung wird wie sie ist in unabhängigen Ansprüchen 1 und 5 dargelegt.
Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein elektronisches Gerät vorgesehen, umfassend: einen Lautsprecher zum Ausgeben eines Audiosignals; einen Tonempfänger zum Empfangen eines externen Tons; eine Bestimmungseinrichtung zum Bestimmen, ob ein Signal des externen Tons, der in dem Tonempfänger empfangen wird, das Audiosignal ist, das von dem Lautsprecher ausgegeben wird; eine Spracherkennungseinrichtung zum Erkennen des externen Tons und Ausgeben eines Befehls entsprechend dem externen Ton, wenn die Bestimmungseinrichtung bestimmt, dass sich das Signal des externen Tons von dem Audiosignal unterscheidet; und eine Steuereinheit zum Empfangen des Befehls und Durchführen einer Operation entsprechend dem Befehl, ferner umfassend eine Identifikationsinformations-Bereitstellungseinrichtung zum Hinzufügen vorbestimmter Identifikationsinformation zu dem Audiosignal, wobei die Bestimmungseinrichtung bestimmt, ob das Signal des externen Tons das Audiosignal ist, basierend auf Vorhandensein der Identifikationsinformation in den Signalen des externen Tons, die durch die Spracherkennungseinrichtung empfangen werden.
Vorzugsweise umfasst das elektronische Gerät gemäß der vorliegenden Erfindung ferner einen Wasserzeichengenerator zum Hinzufügen einer vorbestimmten Identifikationsinformation, die eine Identifikationsinformation des Audiosignals ist. In einer derartigen Situation bestimmt die Bestimmungseinrichtung, ob das Signal des externen Tons das Audiosignal ist, basierend auf Vorhandensein der Identifikationsinformation in den Signalen des externen Tons, die durch die Spracherkennungsvorrichtung empfangen werden.
Unterdessen umfasst die Bestimmungseinrichtung vorzugsweise: einen Detektor zum Suchen nach der Wasserzeicheninformation, die in dem Signal des externen Tons eingefügt ist, das in dem Tonempfänger empfangen wird; eine Tonentfernungseinrichtung zum Entfernen des Audiosignals, das die Wasserzeicheninformation enthält, unter Verwendung der Spektrumsinformation, die in dem Detektor erfasst wird, in dem Fall, dass die Wasserzeicheninformation erfasst wird; und eine Sprachsignal-Erkennungseinrichtung zum Identifizieren des Vorhandenseins eines Sprachsignals basierend auf einem Energiepegel des Signals des externen Tons, woraus das Audiosignal entfernt ist.
In dem elektronischen Gerät gemäß der vorliegenden Erfindung ist es möglich, den Betriebsmodus davon einzustellen, wodurch durch den Benutzer ausgewählt werden kann, ob die Identifikationsinformations-Bereitstellungseinrichtung arbeitet oder nicht.
Die Identifikationsinformation ist Wasserzeicheninformation, die Spektrumsinformation des Signals des externen Tons enthält. Die Bestimmungseinrichtung bestimmt Vorhandensein der Identifikationsinformation basierend auf Vorhandensein der Wasserzeicheninformation in dem Signal des externen Tons, das in der Spracherkennungseinrichtung empfangen wird.
Die Bestimmungseinrichtung umfasst vorzugsweise: einen Detektor zum Suchen nach der Wasserzeicheninformation, die in dem Signal externen Tons eingefügt ist, das in dem Tonempfänger empfangen wird; eine Tonentfernungseinrichtung zum Entfernen des Audiosignals, das die Wasserzeicheninformation enthält, unter Verwendung der Spektrumsinformation, die in dem Detektor erfasst wird, in dem Fall, dass die Wasserzeicheninformation erfasst ist; und eine Sprachsignal-Erkennungseinrichtung zum Identifizieren des Vorhandenseins eines Sprachsignals basierend auf einem Energiepegel des Signals des externen Tons, woraus das Audiosignal entfernt ist.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird ein Verfahren zum Empfangen von Ton vorgesehen, umfassend die Schritte zum: a) Ausgeben eines Audiosignals durch einen Lautsprecher; b) Entfernen des Audiosignals aus einem Signal eines externen Tons in einem Fall, in dem das Audiosignal in dem Signal des externen Tons enthalten ist; Ausgeben eines Befehls entsprechend dem externen Ton durch Erkennen des externen Tons; und Empfangen des Befehls und Steuern einer Operation entsprechend dem Befehl, ferner umfassend einen Schritt zum Hinzufügen vorbestimmter Identifikationsinformation zu dem Audiosignal vor dem Schritt a), wobei in dem Schritt b) Vorhandensein des Audiosignals basierend auf Vorhandensein der Identifikationsinformation in dem Signal des externen Tons bestimmt wird.
Vorteilhafter Weise kann die Fehlfunktion des elektronischen Gerätes verhindert werden, da die Wasserzeicheninformation dem Audiosignal hinzugefügt wird, das von dem Lautsprecher in dem Spracherkennungsmodus eines Fernsehgerätes ausgegeben wird, und das Vorhandensein von Wasserzeicheninformation in dem empfangenen externen Tonsignal durch den Detektor erfasst wird.
Für ein besseres Verständnis der Erfindung, und um zu zeigen, wie Ausführungsformen der gleichen zur Wirkung gebracht werden können, wird nun auf dem Weg eines Beispiels auf die begleitenden schematische Zeichnungen verwiesen, in denen:
1 eine schematische Ansicht ist, die ein Fernsehgerät zeigt, das seinen Betrieb durch Spracherkennung steuern kann;
2 ein elektronisches Gerät zeigt, das Fehlfunktion in Spracherkennung verhindern und eine Spracherkennungsrate verbessern kann in Übereinstimmung mit einer bevorzugten Ausführungsform der vorliegenden Erfindung;
3 ein detailliertes Blockdiagramm einer Bestimmungseinrichtung in 2 ist; und
4 ein Flussdiagramm ist, das das Verfahren zum Verhindern von Fehlfunktion in Spracherkennung und Verbessern einer Spracherkennungsrate in Übereinstimmung mit der bevorzugten Ausführungsform der vorliegenden Erfindung zeigt.
2 zeigt ein elektronisches Gerät, das Fehlfunktion in Spracherkennung verhindern und eine Spracherkennungsrate verbessern kann in Übereinstimmung mit einer bevorzugten Ausführungsform der vorliegenden Erfindung. Die vorliegende Erfindung wird mit einem Fernsehgerät als ein Beispiel des elektronischen Gerätes veranschaulicht. Bezug nehmend auf 2 umfasst das elektronische Gerät einen Tuner 21 zum Empfangen der Rundfunksignale, eine Eingabeeinheit eines externen Signals 22 zum Empfangen der Wiedergabesignale von einer Bildwiedergabeeinrichtung, wie etwa einem VTR oder einem DVDP, einen Mikroprozessor 24 zum selektiven Ausgeben der Signale, die von dem Tuner 21 und der Eingabeeinheit eines externen Signals 22 eingegeben werden, eine Leistungsversorgung 23 zum Zuführen elektrischer Leistung zu dem Mikroprozessor 24, eine Tasteneingabeeinheit 25 zum Eingeben der Steuerbefehle in Bezug auf die gewünschte Operation zu dem Mikroprozessor 24 und eine Tonempfangssteuereinheit 50 zum Steuern des Mikroprozessors 24 in Bezug auf die entsprechende Operation durch die Spracherkennung.
Das Fernsehgerät in der Zeichnung besteht aus einem Videoverstärker 26 zum Verstärken der Videosignale unter den Signalen, die von dem Mikroprozessor 24 ausgegeben werden, einer Visualisierungseinheit 27 zum Wandeln der verstärkten Videosignale in ein Format, das für eine Anzeige möglich ist, und einem Bildschirm 28 zum Anzeigen der neu formatierten Videosignale. Außerdem umfasst das Fernsehgerät einen Audioverstärker 30 zum Verstärken der Audiosignale unter den Signalen, die von dem Mikroprozessor 24 ausgegeben werden, einen Wasserzeichengenerator 50 zum Extrahieren von Spektrumsinformation der verstärkten Audiosignale und Hinzufügen der extrahierten Spektrumsinformation zu den verstärkten Audiosignalen, und einen Lautsprecher 31 zum Verstärken und Ausgeben von Audiosignalen, denen die Spektrumsinformation hinzugefügt ist, als die hörbaren Töne.
Unterdessen besteht die Tonempfangssteuereinheit 50 aus einem Tonempfänger 52 zum Empfangen eines eingegebenen Audiosignals, wie etwa von einem drahtlosen Mikrofon 60, einer Bestimmungseinrichtung 54 zum Bestimmen, ob die Audiosignale, die in dem Tonempfänger 52 empfangen werden, die Töne sind, die von dem Lautsprecher 31 ausgegeben werden, oder Sprachsignale eines Benutzers, und einer Spracherkennungseinrichtung 56 zum Erfassen des Befehls entsprechend dem Ergebnis der Sprachmustererkennung des empfangenen Tons und Übertragen des Befehls zu dem Mikroprozessor 24, nachdem das Tonsignal als das Sprachsignal des Benutzers in der Bestimmungseinrichtung 54 erkannt ist.
3 ist ein detailliertes Blockdiagramm der in 2 gezeigten Bestimmungseinrichtung 54. Wie in 3 gezeigt, umfasst die Bestimmungseinrichtung 54 einen Detektor 54a zum Suchen nach der eingefügten Wasserzeicheninformation von dem Audiosignal, das in dem Tonempfänger 52 empfangen wird, eine Tonentfernungseinrichtung 54b zum Entfernen der Audiosignale, die die Wasserzeicheninformation enthalten, durch Verwenden eines Audiospektrums, das in dem Detektor 54a erkannt wird, wenn die Wasserzeicheninformation erfasst wird, und eine Sprachsignal-Erkennungseinrichtung 54c zum Erkennen des Vorhandenseins eines Sprachsignals durch den Energiepegel eines Audiosignals unter den Tonsignalen, aus denen die Audiosignale entfernt sind.
In der bevorzugten Ausführungsform hat das drahtlose Mikrofon 60 auch eine drahtlose Fernsteuerungsfunktion, da es mit einer Tasteneingabekonsole (nicht gezeigt) versehen ist, die die Operation des Fernsehgerätes drahtlos steuern kann. Das Mikrofon 60 ist mit einer Moduswandlungstaste zum Umschalten zwischen einem allgemeinen Modus für das Fernsehen und einem Spracherkennungsmodus versehen. Der allgemeine Modus ist ein Modus, in dem das Fernsehen durch Steuern der Operation des Mikroprozessors 24 gemäß der Tastenauswahl des drahtlosen Mikrofons 60 und der Tasteneingabeeinheit 25 betrachtet werden kann. Der Spracherkennungsmodus ist ein Modus, in dem der Mikroprozessor durch Empfangen von Sprache durch die Tonempfangssteuereinheit 50 gesteuert werden kann.
Unterdessen ist die Operation des Wasserzeichengenerators 40 eingestellt, selektiv nur zu arbeiten, wenn der Spracherkennungsmodus durch das drahtlose Mikrofon 60 ausgewählt ist. Falls ein Benutzer den Modus zu dem Spracherkennungsmodus durch Auswählen der Moduswandlungstaste an dem drahtlosen Mikrofon 60 wandelt, überträgt die Tonempfangssteuereinheit 50 vorzugsweise das Signal, das auf die Wandlung in den Spracherkennungsmodus hinweist, zu dem Mikroprozessor 24. Entsprechend gibt der Mikroprozessor 24 in dem allgemeinen Modus die Audiosignale, die ohne die Operation des Wasserzeichengenerators 40 verstärkt werden, durch den Lautsprecher 31 aus. Wenn ein Signal, das die Moduswandlung zu dem Spracherkennungsmodus meldet, von der Tonempfangssteuereinheit 50 empfangen wird, steuert der Mikroprozessor 24 den Wasserzeichengenerator 40 so, um die Spektrumsinformation des Audiosignals zu dem verstärkten Audiosignal hinzuzufügen und es durch den Lautsprecher 31 auszugeben. Die Spektrumsinformation des Audiosignals wird Wasserzeicheninformation genannt. Die Wasserzeicheninformation ist verborgene Information, die die Information über das ursprüngliche Information enthält, ohne irgendeinen Einfluss auf die Qualität des ursprünglichen Signals zu ergeben. Entsprechend hört der Benutzer nur den Ton entsprechend dem Audiosignal, obwohl das Audiosignal, das die Wasserzeicheninformation enthält, durch den Lautsprecher 31 ausgegeben wird.
Unterdessen verwendet Wasserzeicheninformationserkennung durch Erfassen der Spektrumsinformation des Audiosignals in dem Wasserzeichengenerator 40 allgemein die lineare vorhersagende Kodierung (LPC, Linear Predicting Coding), die das Audiosignal abtastet und die Koeffizienten durch Spektrumstransformation kalkuliert. Entsprechend sucht der Detektor 54a nach der Spektrumsinformation, die als die Wasserzeicheninformation eingefügt ist, von dem Audiosignal, das in dem Tonempfänger 52 empfangen wird, und die Tonentfernungseinrichtung 54b entfernt das Audiosignal, das die Wasserzeicheninformation enthält, unter Verwendung der Spektrumsinformation des Tons, der in dem Detektor 54a erfasst wird. In diesem Punkt lässt die Sprachsignal-Erkennungseinrichtung 54c die verbleibenden Tonsignale außer Acht. D.h. die Sprachsignal-Erkennungseinrichtung 54c entfernt jene Signale des externen Tons, von denen erachtet wird, keinerlei Sprachsignale zu enthalten, da sie einen Energiepegel kleiner als ein Schwellwert haben und überträgt jene Signale, von denen erachtet wird, Sprachsignale zu enthalten, da sie einen Energiepegel höher als der Schwellwert haben. Die Spracherkennungseinrichtung 56 erkennt die eingegebenen Sprachsignale durch Sprachmustererkennung und erfasst den entsprechenden Befehl. Der erfasste Befehl wird zu dem Mikroprozessor 24 so übertragen, dass der Mikroprozessor 24 die Operation entsprechend dem Befehl durchführt.
Entsprechend kann in dem Spracherkennungsmodus das Audiosignal durch die Wasserzeicheninformation während Spracherkennung in der Bestimmungseinrichtung 54 durch Erfassen der Wasserzeicheninformation des Audiosignals, die in dem Wasserzeichengenerator 40 generiert und dem Audiosignal hinzugefügt wird, bevor das Audiosignal durch den Lautsprecher 31 generiert wird, erfasst werden.
Folglich kann die Spracherkennungseinrichtung 56 die entsprechenden Befehle durch Sprachmustererkennung nur des Sprachsignals unter den Signalen des externen Tons erfassen, und der Mikroprozessor 24 kann die unbeabsichtigte Operation des elektronischen Gerätes verhindern, die durch Fehler in Spracherkennung verursacht wird.
Unterdessen sind einige Beispiele der Befehle, die durch die Sprache eines Benutzers gesteuert werden können, Leistung-Ein/Aus, Kanalauswahl, Lautstärkesteuerung und Stummschaltung-Ein/Aus. Leistung-Ein/Aus steuert die Zufuhr von Leistung von der Leistungsversorgung 23 zu den jeweiligen Teilen des Fernsehgerätes, und die Kanalauswahl steuert den Mikroprozessor 24, um einen Kanal auszuwählen, wenn die Zahl des entsprechenden Kanals ausgesprochen wird. Lautstärkesteuerung steuert den Audioverstärker 30 zum Abstimmen der Lautstärke in Übereinstimmung mit den Worten "Lautstärke hoch" oder "Lautstärke herunter", die durch den Benutzer ausgesprochen werden. Stummschaltung-Ein/Aus steuert die Ausgabe des Audiosignals durch Steuern des Audioverstärkers 31 in Übereinstimmung mit dem Wort "Stummschaltung ein", das durch den Benutzer ausgesprochen wird.
4 ist ein Flussdiagramm einer bevorzugten Ausführungsform des Verfahrens zum Verhindern von Fehlern in Spracherkennung eines elektronischen Gerätes gemäß der vorliegenden Erfindung. Bezug nehmend auf die Zeichnung bestimmt der Mikroprozessor 24 zuerst, ob der vorliegende Steuersignal-Eingabemodus der Sprachsteuerungsmodus ist gemäß der Auswahl der Modustaste an dem drahtlosen Mikrofon 60, während das Wiedergabesignal empfangen wird, das von dem Rundfunksignal oder der Wiedergabeeinrichtung eingegeben wird, wenn die Leistung ein ist (Schritt 42). Falls in dem Schritt (S42) erkannt wird, in dem Nicht-Sprachsteuermodus zu sein, ermöglicht der Mikroprozessor 24, dass das empfangene Rundfunksignal und das Wiedergabesignal durch den Bildschirm 28 und den Lautsprecher 31 in dem allgemeinen Modus ausgegeben werden (S44). Falls in dem Schritt (S42) erkannt wird, in dem Sprachsteuerungsmodus zu sein, steuert der Mikroprozessor 24 den Wasserzeichengenerator 40 und ermöglicht, Wasserzeicheninformation zu den verstärkten Audiosignalen hinzuzufügen (S46). Das Audiosignal mit der hinzugefügten Wasserzeicheninformation wird verstärkt und durch den Lautsprecher 31 ausgegeben (S48).
Unterdessen erfasst der Detektor 54a das Vorhandensein der Wasserzeicheninformation von den Signalen des externen Tons (S52). Falls ein Signal, das die Wasserzeicheninformation enthält, von dem Signal des externen Tons in Schritt (S52) erfasst wird, kann identifiziert werden, dass unter den Signalen des externen Tons ein Audiosignal von dem Lautsprecher 31 enthalten ist. Entsprechend entfernt die Tonentfernungseinrichtung 54b die erfassten Signale, die die Wasserzeichen information enthalten, die die Audiosignale sind, die von dem Lautsprecher 31 ausgegeben werden, aus den Signalen des externen Tons (S54).
Außerdem identifiziert die Sprachsignal-Erkennungseinrichtung 54c das Vorhandensein des Sprachsignals durch Vergleichen des Energiepegels der Tonsignale, die nach Entfernen des Audiosignals aus den Signalen des externen Tons verbleiben, mit dem Schwellwert (S56). Falls die Tonsignale, die nach Entfernen des Audiosignals aus den Signalen des externen Tons verbleiben, ihren Energiepegel kleiner als den Schwellwert haben, werden sie identifiziert, keinerlei Sprachsignale zu enthalten und verworfen, und falls höher, werden sie identifiziert, die Sprachsignale zu enthalten und zu der Spracherkennungseinrichtung 56 übertragen (S58).
Falls die Wasserzeicheninformation unter den Signalen des externen Tons in dem Schritt (S52) nicht erfasst wird, werden die Signale unterdessen zu der Sprachsignal-Erkennungseinrichtung 54c übertragen, und die Sprachsignal-Erkennungseinrichtung 54c identifiziert das Vorhandensein des Sprachsignals durch Vergleichen des Energiepegels der Signale mit dem Schwellwert (S56). Falls die Energiepegel der Tonsignale kleiner als der Schwellwert sind, werden sie identifiziert, keinerlei Sprachsignale zu enthalten und die Signale werden verworfen, und falls höher, werden sie identifiziert, das Sprachsignal zu enthalten, und werden zu der Spracherkennungseinrichtung 56 übertragen (S58).
Hinsichtlich der empfangenen Sprachsignale, die als Sprachsignale in dem Schritt S58 erkannt werden, gibt die Spracherkennungseinrichtung 56 einen Befehl, der für das Sprachsignal relevant ist, durch den Mikroprozessor 24 durch Sprachmustererkennung der empfangenen Sprachsignale aus (S60). Entspre chend steuert der Mikroprozessor 24 das Fernsehgerät in Bezug auf die empfangenen Befehle (S62).
Folglich können Fehler beim Betrieb des Fernsehgerätes wegen fehlerhafter Spracherkennung verhindert, oder mindestens beträchtlich reduziert werden, durch Hinzufügen der Wasserzeicheninformation zu dem Audiosignal, das von dem Lautsprecher 31 ausgegeben wird, und Identifizieren des Vorhandenseins der Wasserzeicheninformation des Signals des externen Tons, die durch das drahtlose Mikrofon 60 übertragen werden, und Erfassen des Sprachsignals des Benutzers.
Unterdessen zeigt die Ausführungsform der vorliegenden Erfindung ein einzelnes elektronisches Gerät, das mit sowohl dem Wasserzeichengenerator 40 als auch der Tonempfangssteuereinheit 50 ausgerüstet ist. Die vorliegende Erfindung kann jedoch in dem Fall angewendet werden, dass der Wasserzeichengenerator 40 und die Tonempfangssteuereinheit 50 getrennt in zwei unterschiedlichen elektronischen Geräten existieren. D.h. die vorliegende Ausführungsform kann gleichermaßen angewendet werden, falls der Wasserzeichengenerator 40 vor dem Lautsprecher eines elektronischen Gerätes eingesetzt wird, das zum Ausgeben von Rudiosignalen durch den Lautsprecher fähig ist, und falls die Tonempfangssteuereinheit 50 zu einem elektronischen Gerät eingesetzt wird, das zum Betreiben durch Spracherkennung fähig ist.
In der vorliegenden Erfindung kann ein Audiosignal auf der Basis der Wasserzeicheninformation erfasst werden, wenn die Bestimmungseinrichtung 54 das Sprachsignal bestimmt, da die Wasserzeicheninformation des Audiosignals den Audiosignalen hinzugefügt und dann durch den Lautsprecher 31 ausgegeben wird. Entsprechend erfasst die Spracherkennungseinrichtung 56 die entsprechenden Befehle durch Erkennen des Musters nur der Sprachsignale unter den Signalen des externen Tons und der Mikroprozessor 24 kann folglich eine falsche Operation des elektronischen Gerätes verhindern, die durch Fehler bei Spracherkennung verursacht werden.
Obwohl die bevorzugte Ausführungsform der vorliegenden Erfindung beschrieben wurde, wird durch einen Fachmann verstanden, dass die vorliegende Erfindung nicht auf die beschriebene bevorzugte Ausführungsform begrenzt werden sollte. Innerhalb des Bereiches der vorliegenden Erfindung, wie durch die angefügten Ansprüche definiert, können verschiedene Änderungen und Modifikationen durchgeführt werden.

Claims

Ein elektronisches Gerät, umfassend: einen Lautsprecher (31) zum Ausgeben eines Audiosignals; einen Tonempfänger (52) zum Empfangen eines externen Tons; eine Bestimmungseinrichtung (54) zum Bestimmen, ob ein Signal des externen Tons, der in dem Tonempfänger empfangen wird, das Audiosignal ist, das von dem Lautsprecher ausgegeben wird; eine Spracherkennungseinrichtung (56) zum Erkennen des externen Tons und Ausgeben eines Befehls entsprechend dem externen Ton, wenn die Bestimmungseinrichtung bestimmt, dass sich das Signal des externen Tons von dem Audiosignal unterscheidet; und eine Steuereinheit (24) zum Empfangen des Befehls und Steuern einer Operation entsprechend dem Befehl, gekennzeichnet ferner zu umfassen eine Identifikationsinformations-Bereitstellungseinrichtung (40) zum Hinzufügen vorbestimmter Identifikationsinformation zu dem Audiosignal, wobei die Bestimmungseinrichtung (54) bestimmt, ob das Signal des externen Tons das Audiosignal ist, basierend auf Vorhandensein der Identifikationsinformation in den Signalen des externen Tons, der durch die Spracherkennungseinrichtung empfangen wird.
Das elektronische Gerät nach Anspruch 1, wobei die Identifikationsinformation Wasserzeicheninformation ist, die Spektrumsinformation über das Audiosignal enthält, die Identifikationsinformations-Bereitstellungseinrichtung ein Wasserzeichengenerator (40) zum Hinzufügen der Wasserzeicheninformation zu dem Audiosignal ist und die Bestimmungseinrichtung (54) das Vorhandensein des Audiosignals basierend auf dem Vorhandensein der Wasserzeicheninformation in dem Signal des externen Tons bestimmt, der in der Spracherkennungseinrichtung empfangen wird.
Das elektronische Gerät nach Anspruch 2, wobei die Bestimmungseinrichtung umfasst: einen Detektor (54a) zum Suchen nach der Wasserzeicheninformation, die in das Signal des externen Tons eingefügt ist, der in dem Tonempfänger empfangen wird; eine Tonentfernungseinrichtung (54b) zum Entfernen des Audiosignals, das die Wasserzeicheninformation enthält, unter Verwendung der Spektrumsinformation, die in dem Detektor erfasst wird, in einem Fall, in dem die Wasserzeicheninformation erfasst wird; und eine Sprachsignal-Erkennungseinrichtung (54c) zum Identifizieren des Vorhandenseins von einem Sprachsignal basierend auf einem Energiepegel des Signals des externen Tons, aus dem das Audiosignal entfernt ist.
Das elektronische Gerät nach einem beliebigen vorangehenden Anspruch, wobei ein Operationsmodus der Identifikationsinformations-Bereitstellungseinrichtung (40) gemäß einer Auswahl eines Benutzers gesetzt wird.
Ein Verfahren zum Empfangen von Ton, die Schritte umfassend: a) Ausgeben eines Audiosignals durch einen Lautsprecher (31); b) Entfernen des Audiosignals aus einem Signal eines externen Tons in einem Fall, in dem das Audiosignal in dem Signal des externen Tons enthalten ist; Ausgeben eines Befehls entsprechend dem externen Ton durch Erkennen des externen Tons; und Empfangen des Befehls und Steuern einer Operation entsprechend dem Befehl, gekennzeichnet ferner zu umfassen einen Schritt zum Hinzufügen vorbestimmter Identifikationsinformation zu dem Audiosignal vor dem Schritt a), wobei in dem Schritt b) Vorhandensein des Audiosignals basierend auf Vorhandensein der Identifikationsinformation in dem Signal des externen Tons bestimmt wird.
Das Verfahren zum Empfangen von Ton nach Anspruch 5, wobei die Identifikationsinformation Wasserzeicheninformation ist, die Spektrumsinformation über das Audiosignal enthält, die Wasserzeicheninformation dem Audiosignal in dem Hinzufügungsschritt hinzugefügt wird und das Vorhandensein des Audiosignals basierend auf Vorhandensein der Wasserzeicheninformation in dem Signal des externen Tons in dem Schritt b) bestimmt wird.