DE69526871T2

DE69526871T2 - Gebärdensprachentelefonsystem für die kommunikation zwischen hörgeschädigten und nicht-hörgeschädigten

Info

Publication number: DE69526871T2
Application number: DE69526871T
Authority: DE
Inventors: Hiromichi Fujisawa; Nobuo Hataoka; Hisashi Ikeda; Youichi Kaneko; Masaru Ohki; Hirohiko Sagawa; Tomoko Sakiyama
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-08-30
Filing date: 1995-08-30
Publication date: 2002-12-12
Anticipated expiration: 2015-08-31
Also published as: WO1997008895A1; DE69526871D1; EP0848552A4; EP0848552A1; EP0848552B1; US6181778B1

Description

Technisches Gebiet

Die vorliegende Erfindung bezieht sich auf ein Gebärdensprachetelephongerät, das in dem Fall zu verwenden ist, in dem eine hörgeschädigte Person mit einer normalen Person an einem fernen Ort, die die Gebärdensprache nicht kennt, spricht.

Stand der Technik

Die Gebärdensprache ist entwickelt worden, um die Kommunikation zwischen hörgeschädigten Personen zu ermöglichen. Unter Verwendung der Gebärdensprache kann eine hörgeschädigte Person mit Handgesten, Körpergesten, Gesichtsausdrücken usw. direkt mit einer anderen hörgeschädigten Person in ihrer Nähe sprechen. Im Fall der Kommunikation zwischen hörgeschädigten Personen, die voneinander getrennt sind, war die Übertragung des Willens in Echtzeit durch Ausführen von Gebärdensprachegesten unter Verwendung von Videophongeräten möglich.
Andererseits wurden unlängst aktiv Forschungen über ein Gebärdenspracheübersetzungssystem ausgeführt, so daß eine hörgeschädigte Person, die die Gebärdensprache nutzt, mit einer normalen Person, die die Gebärdensprache nicht kennt, sprechen kann (Literaturhinweis: Masaru Oki, Hirohiko Sagawa, Tomoko Sakiyama, Eiji Ohira, Hiromichi Fujisawa: Information Processing Media Research Society, 15-6, Information Processing Society of Japan, 1994). Das Gebärdenspracheübersetzungssystem enthält ein Gebärdensprache-nach- Japanisch-Übersetzungsteilsystem und ein Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem.
(1) Das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem enthält eine Gebärdenspracheerkennungseinheit, die die Gebärdensprache erkennt und sie in eine Gebärdensprachezeichenfolge übersetzt, und eine Gebärdensprache-nach-Japanisch-Übersetzungseinheit, die die erkannten Gebärdensprachezeichen ins Japanische übersetzt. In der Gebärdenspracheerkennungseinheit werden die Gesten der Hände unter Verwendung einer handschuhbasierten Eingabe eingegeben, wobei die Eingabehandgeste mit einer Standardhandgeste verglichen wird und ein Gebärdensprachezeichen ausgewählt wird, das die nächstliegende Standardhandgeste besitzt. Die Gebärdensprache-nach-Japanisch-Übersetzungseinheit übersetzt eine Gebärdensprachezeichenfolge unter Verwendung einer Korrespondenztabelle zwischen Gebärdensprachezeichen und japanischen Wörtern und einer Umsetzvorschrift aus einem Gebärdensprachesatz in einen japanischen Satz ins Japanische.
(2) Das Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem enthält eine Japanisch-nach-Gebärdensprache-Übersetzungseinheit, die Japanisch in die Gebärdensprache übersetzt, und eine Gebärdenspracheerzeugungseinheit, die die Gebärdensprache unter Verwendung dreidimensionaler Computergraphiken als Animation anzeigt. Die Japanisch-nach-Gebärdensprache-Übersetzungseinheit analysiert das Japanisch und übersetzt das Japanisch unter Verwendung einer Korrespondenztabelle zwischen japanischen Wörtern und den Gebärdensprachezeichen und einer Umsetzvorschrift aus japanischen Sätzen in Gebärdensprachesätze in eine Gebärdensprachezeichenfolge. Die Gebärdenspracheerzeugungseinheit erzeugt die Gebärdenspracheanimationen unter Verwendung eines (Gebärdensprachezeichen)-(Animationsdaten)-Wörterbuchs, das Mengen von Indizes von Gebärdensprachezeichen und die entsprechenden Daten der Handgesten oder Mimen, die zuvor aufgenommen wurden, speichert. Bei der Erzeugung einer Gebärdenspracheanimation werden die den Gebärdensprachezeichen in einer Gebärdensprachezeichenfolge entsprechenden Gebärdenspracheanimationsdaten ausgelesen, wobei sich ein Modell des menschlichen Körpers anhand der ausgelesenen Daten bewegt. Die Bewegung des Modells wird so eingerichtet, daß sie durch Interpolieren der Zwischenräume zwischen den Gebärdensprachezeichen ununterbrochen zu sehen ist.
Allerdings wurde das Gebärdenspracheübersetzungssystem für die direkte Kommunikation zwischen einer hörgeschädigten Person und einer normalen Person, die nahe beieinander sind, entwickelt, so daß nicht gezeigt wird, wie die Konfiguration einfach für ein Ferngespräch (ein Gespräch) angewendet wird.
Wenn das herkömmliche Gebärdenspracheübersetzungssystem vergrößert wird, um es auf ein Ferngespräch anzuwenden, werden mehrere umstrittene Punkte erzeugt.
Zunächst gibt es ein Problem, das die Konfiguration eines Gerätes groß und kompliziert macht. Zunächst wird angenommen, daß das obenerwähnte Gebärdenspracheübersetzungssystem ein Einzelsystem ist, wobei, wenn es vergrößert wird, um es auf ein Ferngespräch anzuwenden, als normale Form die folgende Form betrachtet werden kann: Das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem und das Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem sind getrennt gebildet, wobei diese Systeme über ein Netzwerk miteinander verbunden sind.
Allerdings werden im Fall des Gebärdensprache-nach-Japanisch- Übersetzungsteilsystems und des Japanisch-nach-Gebärdensprache- Übersetzungsteilsystems in einem herkömmlichen Gebärdenspracheübersetzungssystem die Wörterbuchdatenbank oder die Korrespondenztabelle zwischen den Gebärdensprachezeichen und den japanischen Wörtern üblicherweise in der Gebärdensprache-nach- Japanisch-Übersetzungseinheit (Japanisch-nach-Gebärdensprache- Übersetzungseinheit) verwendet, um Speicherkapazität zu sparen.
Wenn das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem und das Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem beispielsweise wegen Ferngesprächen getrennt und unabhängig voneinander hergestellt sind, wobei das Gebärdensprache-nach- Japanisch-Übersetzungsteilsystem auf der Seite einer hörgeschädigten Person vorgesehen ist, während das Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem auf der Seite einer normalen Person vorgesehen ist, müssen die völlig gleichen Daten für die Übersetzung doppelt vorgesehen sein, was die Gerätekonfiguration natürlich groß und kompliziert macht.
Zweitens gibt es ein weiteres Problem, daß es schwierig ist, ein existierendes Netzwerk für Ferngespräche (Gespräche) zu verwenden. Falls das Gebärdensprache-nach-Japanisch-Übersetzungssystem auf der Seite der hörgeschädigten Person vorgesehen ist, während das Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem auf der Seite der normalen Person vorgesehen ist, müssen übersetzte japanische Sätze oder Gebärdenspracheanimationen gemeinsam an das andere Teilsystem übertragen werden. Insbesondere wird die Übertragung der Gebärdenspracheanimationen von der Übertragung einer großen Menge von Bildern begleitet, so daß für die Ausführung von Fernrufen genügend Vorbereitungen der Infrastruktur des Netzwerks erforderlich sind, wobei das Netzwerk eine schnelle Übertragung eines großen Umfangs von Daten bewältigen können muß. Die Bildübertragung ist mit den derzeitigen Videophoneinrichtungen möglich; allerdings können im Fall der Gebärdensprache, wenn nicht die raffinierte Form und Bewegung der Hände usw. genau übertragen und dargestellt werden, Mißverständnisse oder eine fehlerhafte Erkennung verursacht werden, was Anlaß zu einer Störung in der Kommunikation zu geben.
Das Dokument von Masaru Ohki, u. a.: "Sign language translation system using pattern recognition and synthesis", Hitachi Review, Bd. 44, Nr. 4, 1. August 1995, S. 251-254, bezieht sich auf ein Gebärdenspracheübersetzungssystem unter Verwendung der Mustererkennung und -synthese, das die japanische Gebärdensprache ins gesprochene oder geschriebene Japanisch und umgekehrt übersetzen kann. In diesem System werden Handgesten unter Verwendung eines handschuhgestützten Abtastgeräts in einen Computer eingegeben. Daraufhin werden die Gesten erkannt und in die japanische Sprache übersetzt.
Somit gibt es für eine hörgeschädigte Person, die die Gebärdensprache verwendet, bisher kein Mittel zum leichten Gespräch mit einer normalen Person an einem fernen Ort, die die Gebärdensprache nicht kennt. Dementsprechend kommunizierten sie miteinander durch das Übertragen von Zeichen oder Bildern unter Verwendung des Fax. Somit gibt es für eine hörgeschädigte Person, die mit der Gebärdensprache sprechen muß, bei der Kommunikation mit einer normalen Person an einem fernen Ort, die die Gebärdensprache nicht kennt, einige Probleme.
Die Aufgabe der vorliegenden Erfindung ist es, eine einfache Vorrichtung zu schaffen, mit der eine hörgeschädigte Person, die die Gebärdensprache verwendet, mit einer normalen Person an einem fernen Ort, die die Gebärdensprache nicht kennt, kommunizieren kann.
Eine weitere Aufgabe der vorliegenden Erfindung ist es, eine Vorrichtung zu schaffen, mit der eine hörgeschädigte Person, die die Gebärdensprache nutzt, mit einer normalen Person an einem fernen Ort, die die Gebärdensprache nicht kennt, über ein existierendes Netzwerk kommunizieren kann.

Offenbarung der Erfindung

Die vorliegende Erfindung schlägt ein wie in Anspruch 1 definiertes neues Konzept, das Gebärdensprachetelephongerät genannt wird, vor. Kurz, die vorliegende Erfindung ermöglicht einer hörgeschädigten Person, die die Gebärdensprache verwendet, unter Verwendung der Infrastruktur der existierenden Videophoneinrichtungen die Kommunikation mit einer normalen Person an einem fernen Ort, die die Gebärdensprache nicht kennt. Im Fall der vorliegenden Erfindung ist das Videophon auf der Seite einer hörgeschädigten Person, die die Gebärdensprache verwendet, sowohl mit einer Gebärdensprachenach-Japanisch-Übersetzungsfunktion als auch mit einer Japanischnach-Gebärdensprache-Übersetzungsfunktion versehen, wobei es über ein Netzwerk mit dem Videophon auf der Seite einer normalen Person verbunden ist.
In der vorliegenden Erfindung wird ein Videophongerät mit einer Gebärdenspracheübersetzungsfunktion zur Verwendung durch eine hörgeschädigte Person (Gebärdensprache-nach-Japanisch-Übersetzungsfunktion und Japanisch-nach-Gebärdensprache-Übersetzungsfunktion) ein Gebärdensprachetelephongerät genannt, während ein von einer normalen Person verwendetes normales Videophongerät ein Videophongerät auf der Seite der normalen Person genannt wird. Die vorliegende Erfindung ermöglicht ein Gespräch zwischen einem Gebärdensprachetelephongerät und einem Videophongerät auf der Seite einer normalen Person, bei dem eine Gebärdenspracheübersetzung ausgeführt wird.
Die Grundstruktur des Gesamtsystems gemäß der vorliegenden Erfindung enthält grundlegend 3 Elemente, ein Gebärdensprachetelephongerät, ein Netzwerk und ein Videophongerät; wobei eines der Merkmale der vorliegenden Erfindung aber darin besteht, daß verschiedene Funktionen in dem Gebärdensprachetelephongerät konzentriert sind.
Das Gebärdensprachetelephongerät umfaßt neben einem Fernsehgerät, einer Kamera, einem Mikrophon und einem Videophoristeuergerät, die in einem normalen Videophongerät zu finden sind, mehrere kennzeichnende Mittel wie etwa ein Gebärdenspracheeingabemittel, ein Videophonverbindungsmittel, das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem und das Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem.
Der Grundbetrieb der vorliegenden Erfindung wird unter der Annahme eines Falls erläutert, daß eine hörgeschädigte Person aktuell eine normale Person an einem fernen Ort an einem Gebärdensprachetelephongerät anruft.
Eine hörgeschädigte Person wählt die Telephonnummer einer normalen Person am anderen Ende der Leitung, wobei die hörgeschädigte Person mit ihr zu kommunizieren beginnt, wenn die normale Person ans Telephon kommt. In diesem Fall gibt die hörgeschädigte Person die Gebärdensprache über das Gebärdenspracheeingabemittel in dem Gebärdensprachetelephongerät ein, wobei die Gebärdensprache durch das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem erkannt und in eine Gebärdensprachezeichenfolge übersetzt und weiter ins Japanische übersetzt wird. Das übersetzte Japanisch wird als synthetisierte Stimme über ein Videophonverbindungsmittel und ein Netzwerk (öffentliches Netzwerk) an das Videophon auf der Seite einer normalen Person ausgegeben. Auf dem Videophongerät auf der Seite einer normalen Person wird ein durch eine Kamera in dem Gebärdensprachetelephongerät auf der Seite einer hörgeschädigten Person eingegebenes aktuelles Bild dargestellt. Falls eine Stimme synthetisiert wird, die der hörgeschädigten Person entspricht, kann die Stimme angepaßt werden: es können eine Männerstimme oder eine Frauenstimme, die Qualität der Stimme, die Geschwindigkeit des Sprechens, die Lautstärke der Stimme, eine hohe oder eine tiefe Stimme usw. ausgewählt werden. Im Fall einer weiblichen hörgeschädigten Person ist als synthetisierte Stimme eine natürliche weibliche Stimme erwünscht. Im Fall einer jungen Person könnte eine hohe Stimme erwünscht sein. Die Töne der japanischen Stimme, die das Ergebnis der Übersetzung der Gebärdensprache einer hörgeschädigten Person sind, können verwendet werden, um eine hörgeschädigte Person zu spezifizieren.
Auf der Seite einer normalen Person wird die Antwort an ein Videophongerät mit der Stimme gegeben und die Stimme über ein Netzwerk (ein öffentliches Netzwerk) übertragen, wobei ein Videophonverbindungsgerät in einem Gebärdensprachetelephongerät in dem Japanisch-Gebärdensprache-Übersetzungsteilsystem erkannt wird, das erkannte Japanisch in die Gebärdensprache übersetzt wird und die übersetzte Gebärdensprache als Gebärdenspracheanimation ausgedrückt und auf dem Fernsehgerät dargestellt wird.
Die obenerwähnten Prozeduren werden wiederholt, wobei die hörgeschädigte Person in der Gebärdensprache antwortet, während die normale Person im Grunde mit der Stimme antwortet. Falls eine normale Person eine hörgeschädigte Person an einem Videophon anruft, sind die Prozeduren mit Ausnahme der Art des ersten Wählens fast die gleichen wie im obenerwähnten Fall.
In dem wie obenbeschriebenen Fall der Kommunikation unter Verwendung der Gebärdensprache sind einige weitere Kunstgriffe erforderlich.
Zunächst wird in dem Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem das Auswählen eines Übersetzungsmodus oder eines Nichtübersetzungsmodus ermöglicht.
Für eine hörgeschädigte Person ist die Gebärdensprache das Mittel zur Kommunikation, so daß zu befürchten ist, daß sämtliche Gesten als Gesten zur Kommunikation erkannt werden. Während der Verwendung eines Gebärdensprachetelephongeräts kann die nicht in der Gebärdensprache enthaltene Bewegung der Hände, beispielsweise die Bewegung einer Hand zum Kaffeetrinken, als Geste in der Gebärdensprache erkannt werden. Demgegenüber wird die Bewegung der Hände in der vorliegenden Erfindung im Übersetzungsmodus in die Gebärdensprache übersetzt, während die Bewegung der Hände im Nichtübersetzungsmodus nicht übersetzt wird. Die Verfahren zum Übergang zwischen dem Übersetzungsmodus und dem Nichtübersetzungsmodus sind unten gezeigt.
Es können betrachtet werden:
(1) ein mit einem Knopf ausgeführtes Verfahren,
(2) ein Verfahren, bei dem der Nichtübersetzungsmodus ausgewählt wird, wenn das Gesicht nicht nach vorn zeigt,
(3) ein Verfahren, bei dem der Übersetzungsmodus und der Nichtübersetzungsmodus durch Ausführen einer vorgegebenen speziellen Handgeste gewechselt werden,
(4) ein Verfahren, bei dem der Nichtübersetzungsmodus ausgewählt wird, wenn wenigstens eine Hand in der Home-Position angeordnet ist.
Zweitens kann in dem Videophon auf der Seite einer normalen Person nicht nur das aktuelle Bild, sondern auch die Animation dargestellt werden. Wenn eine hörgeschädigte Person mit einer normalen Person spricht, die die hörgeschädigte Person nicht gut kennt, zögert die hörgeschädigte Person in den meisten Fällen, ihr aktuelles Bild zu zeigen. Insbesondere fühlt sie im Fall einer weiblichen Person in vielen Fällen einen Widerstand, ihr aktuelles Bild zu zeigen, wenn der Anruf von einem Fremden ist. Somit umfaßt das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem ein Übersetzungsmittel zum Umsetzen der eingegebenen Handgestendaten in eine Gebärdenspracheanimation unter Verwendung der von dem Gebärdenspracheeingabemittel eingegebenen Handgesten und der Gesichtsausdrücke, die von einer Kamera aufgenommen und erkannt werden. Im Bildmodus werden die aktuellen Bilddaten von der Kamera dargestellt, während im Animationsmodus zum Schutz der Privatsphäre die Gebärdenspracheanimation dargestellt wird.
Drittens werden die Darstellung auf dem Gebärdensprachetelephongerät auf der Seite einer hörgeschädigten Person und die Darstellung auf dem Videophon auf der Seite einer normalen Person synchronisiert. Das Übersetzen der Gebärdensprache einer hörgeschädigten Person ins Japanische dauert Zeit. Dadurch ist es möglich, daß das aktuelle Bild einer hörgeschädigten Person und die Stimme und der Schriftzug des aus der Gebärdensprache einer hörgeschädigten Person übersetzten Japanisch auf der Zeitachse auf dem Bildschirm eines Videophongeräts auf der Seite einer normalen Person unterbrochen und asynchron dargestellt werden. Die vorliegende Erfindung umfaßt ein Darstellungsmittel, bei dem sie synchron gemacht werden.
Außerdem dauert es Zeit, das gesprochene Japanisch einer normalen Person zu erkennen, in einen Schriftzug umzusetzen und in eine Gebärdenspracheanimation umzusetzen. Dadurch ist es möglich, daß das an den Bildschirm des Gebärdensprachetelephongeräts auf der Seite der hörgeschädigten Person gesendete aktuelle Bild der normalen Person und die beim Übersetzen des gesprochenen Japanisch der normalen Person erhaltene dargestellte Gebärdenspracheanimation auf der Zeitachse unterbrochen und asynchron dargestellt werden. Die vorliegende Erfindung umfaßt ein Darstellungsmittel, bei dem sie synchron gemacht werden.
Konkret erhält das aktuelle Bild einen Zeitstempel, wobei der Zeitstempel an einen Zeitstempel angepaßt wird, den das übersetzte und dargestellte Bild zur Synchronisation erhält.
Beispielsweise sind im Fall eines direkten Gesprächs ohne Verwendung des Gebärdensprachetelephongeräts die benötigten Zeitdauern wie folgt:
0,0 s bis 2,0 s [Gebärdensprache] Guten Morgen!,
2,0 s bis 5,0 s [Gebärdensprache] Wie geht es?,
5,5 s bis 8,0 s [Stimme] Es geht mir gut.
Wenn das Gespräch einer hörgeschädigten Person über die Gebärdensprache anhält, wird das Gespräch mit der Stimme einer normalen Person begonnen. Unter der Annahme, daß die Übersetzung in dem Gebärdensprachetelephongerät nach Abschluß des Gesprächs begonnen wird, wird das Ergebnis der Übersetzung des Gebärdensprachegesprächs von 0,0 s bis 2,0 s beispielsweise während 2,0 s bis 4,0 s als synthetisierte Stimme an das Videophon geliefert.
0,0 s bis 2,0 s [Gebärdensprache] Guten Morgen!
2,0 s bis 4,0 s [synthetisierte Stimme] Guten Morgen!
2,0 s bis 5,0 s [Gebärdensprache] Wie geht es?
4,0 s bis 7,0 s [synthetisierte Stimme] Wie geht es?
7,0 s bis 10, s [Sprache] Es geht mir gut.
10,0 s bis 13,0 s [Gebärdenspracheanimation] Es geht mir gut.
Falls das aktuelle Bild ohne Synchronisation an das Videophon auf der Seite einer normalen Person übertragen wird, wird zuerst die Geste "Guten Morgen!" gesendet, wobei zu dem Zeitpunkt, zu dem die Geste "Wie geht es" ausgeführt wird, die Gebärdensprache "Guten Morgen" als synthetisierte Stimme, die übersetzt wird, dargestellt wird, wobei das aktuelle Bild und die synthetisierte Stimme, ein Ergebnis der Übersetzung, in bezug auf den Zeitpunkt voneinander abweichen. Es vermittelt einem Empfänger ein Gefühl des Nichtzueinander-Passens, so daß es wünschenswert ist, daß das aktuelle Bild und die synthetisierte Stimme, ein Ergebnis der Übersetzung, synchronisiert werden. In der vorliegenden Erfindung werden das aktuelle Bild und die Umsetzung in die Gebärdensprache zusammen mit der Zeit aufgezeichnet, wobei das Ergebnis der Übersetzung der Gebärdensprache den Zeitpunkt erhält, zu dem die Gebärdensprache aktuell ausgeführt wird. Um zu erreichen, daß die Zeit mit der Zeit in Echtzeit zusammenfällt, werden das aktuelle Bild und die synthetisierte Stimme synchronisiert und daraufhin an das Videophongerät auf der Seite der normalen Person übertragen. Die Zeit des aktuellen Bildes und der Sprache, die von der Seite einer normalen Person gesendet werden, wird auf ähnliche Weise aufgezeichnet. Wenn die Sprache erkannt und in die Gebärdensprache übersetzt wird und als Animation dargestellt wird, werden das aktuelle Bild und die Gebärdenspracheanimation unter Verwendung der Zeit synchronisiert und daraufhin dargestellt. Wenn sie synchronisiert werden, tritt in einigen Fällen der Mangel an aktuellen Bildern oder Darstellungszeit auf. In der vorliegenden Erfindung wird, wenn es nicht genügend anzuzeigende aktuelle Bilder gibt, zu dem Zeitpunkt, zu dem der Mangel klar gemacht wird, ein Standbild dargestellt. Wenn es nicht genug Darstellungszeit gibt, wird ein Schnelldurchlauf des aktuellen Bildes ausgeführt oder wird die Darstellung nicht dargestellt.
Viertens umfaßt die vorliegende Erfindung als Mittel für eine Antwortnachricht auf einen Telephonanruf, wenn niemand zu Hause ist, ein Mittel zum Vorbereiten einer Nachricht durch Kombination einiger ausgewählter Stimmen, Bilder, Zeichen oder Gebärdenspracheanimationen. Wie im zweiten Merkmal erwähnt wurde, ist es auch in diesem Fall unter dem Gesichtspunkt des Schutzes der Privatsphäre ein wirksamer Weg, unter Verwendung einer Animation ohne Verwendung eines aktuellen Bildes eine Antwort vorzubereiten, wenn niemand zu Hause ist.
Fünftens umfaßt die vorliegende Erfindung ein Mittel zur Darstellung von Zeichen, die das Ergebnis der Erkennung der Sprache einer normalen Person sind, zusammen mit einem Schriftzug, der durch Übersetzen des Ergebnisses der Erkennung der Gebärdensprache ins Japanische erhalten wurde, auf dem Videophon auf der Seite einer normalen Person. Dadurch wird es auf der Seite einer normalen Person ermöglicht, zu bestätigen, ob der Inhalt des von ihr gesprochenen Gesprächs richtig an ein Gebärdensprachetelephongerät übertragen wird oder nicht.
Die weiteren Aufgaben oder die Konfiguration werden mit der Erläuterung der im folgenden gezeigten Ausführungsformen verdeutlicht.

Kurzbeschreibung der Zeichnung

Fig. 1 zeigt einen Blockschaltplan der Hardware eines Gebärdensprachetelephongeräts, das eine Ausführungsform gemäß der vorliegenden Erfindung zeigt;
Fig. 2 zeigt einen Systemblockschaltplan des Gebärdensprachetelephongeräts;
Fig. 3 zeigt einen Software-Blockschaltplan des Gebärdensprachenach-Japanisch-Übersetzungsteilsystems;
Fig. 4 zeigt den Software-Blockschaltplan des Japanisch-nach-Gebärdensprache-Übersetzungsteilsystems;
Fig. 5 zeigt den Prozeßablaufplan der Gebärdensprache-nach-Japanisch-Übersetzungssteuereinheit;
Fig. 6 zeigt den Prozeßablaufplan der Geste-nach-Gebärdensprache- Animationsumsetzungseinheit;
Fig. 7 zeigt den Prozeßablaufplan der Bilderzeugungseinheit;
Fig. 8 zeigt ein Bildschirmbeispiel des Gebärdensprachestandardmodus eines Gebärdensprachetelephongeräts;
Fig. 9 zeigt einen Bildschirm eines Übersetzungsbeispiels eines Videophongeräts;
Fig. 10 zeigt eine erläuternde Zeichnung eines Synchronisationsverfahrens zwischen der Gebärdensprache und den Übersetzungsergebnissen oder zwischen der Stimme und den Erkennungsergebnissen;
Fig. 11 zeigt den Prozeßablaufplan der Bild-, Stimm- und Schriftsynchronisierungseinheit des Japanisch-nach-Gebärdensprache-Übersetzungsteilsystems;
Fig. 12 zeigt den Prozeßablaufplan der Bild-, Stimm- und Schriftsynchronisierungseinheit in dem Gebärdensprache-nach-Japanisch- Übersetzungsteilsystem;
Fig. 13 zeigt den Prozeßablaufplan der Darstellung der Spracherkennungseinheit;
Fig. 14 zeigt den Prozeßablaufplan einer Anrufbeantwortersteuereinheit;
Fig. 15 zeigt den Antwortprozeßablaufplan einer Antwortnachricht eines Anrufbeantworters;
Fig. 16 zeigt ein Bildschirmbeispiel in dem Gebärdensprachevergrößerungsmodus eines Gebärdensprachetelephongeräts;
Fig. 17 zeigt ein Bildschirmbeispiel in dem Gebärdenspracheanimationsmodus des Gebärdensprachetelephongeräts;
Fig. 18 zeigt den Bildschirmdarstellungs-Ablaufplan eines Gebärdensprachetelephongeräts;
Fig. 19 zeigt den Einstellprozeßablaufplan einer synthetisierten Stimme;
Fig. 20 zeigt den Blockschaltplan eines mit einem Interpretations- Server versehenen Gebärdensprachetelephongeräts;
Fig. 21 zeigt einen Darstellungsbildschirm einer Antwortnachricht in einem Normalmodus eines Videophongeräts, und
Fig. 22 zeigt einen Darstellungsbildschirm einer Antwortnachricht in einem Gebärdensprachemodus eines Videophongeräts.

Die beste Ausführungsart der Erfindung

Im folgenden wird die vorliegende Erfindung mit Bezug auf die Zeichnung erläutert. Fig. 1 zeigt den Hardware-Blockschaltplan eines Gebärdensprachetelephongeräts, während Fig. 2 seinen Systemblockschaltplan zeigt. Die Fig. 3 und 4 zeigen Software-Modul-Blockschaltpläne eines Gebärdensprachetelephongeräts.
In Fig. 1 sind an das Gebärdensprachetelephongerät 110 ein Fernsehgerät 104, eine Kamera 102, ein Mikrophon 122, ein Lautsprecher 126 und ein Modusschalter 130 angeschlossen. Die durch eine hörgeschädigte Person ausgeführten Handgesten werden unter Verwendung eines Spezialhandschuhs (beispielsweise Data Glove (das Warenzeichen von VPL Research Inc.): ein Gerät zum Eingeben der Form oder Position der Hände) 114 in das Gebärdensprachetelephonsteuergerät eingegeben. Das Gebärdensprachetelephonsteuergerät 110 erzeugt Stimmen und Bilder zur Kommunikation mit einem Videophon auf der Seite einer normalen Person und sendet sie an das Videophonsteuergerät 118. Das Videophonsteuergerät 118 betrachtet von dem Gebärdensprachetelephonsteuergerät 110 gesendete Bilder und Stimmen als von einer Kamera oder von einem Mikrophon gesendete Bilder und Stimmen und sendet sie über eine Telephonleitung 120, die ein Netzwerk (ein öffentliches Netzwerk) bildet, an ein Videophongerät auf der Seite einer normalen Person. Die von dem Videophon auf der Seite einer normalen Person gesendeten Bilder und Stimmen werden über die Telephonleitung 120 von dem Videophonsteuergerät 118 empfangen und an das Gebärdensprachetelephonsteuergerät 110 gesendet. Der Modusschalter 130 stellt den Übersetzungsmodus der Gebärdensprache und den auf dem Videophongerät anzuzeigenden Bildmodus auf der Seite einer normalen Person ein. Das Videophon auf der Seite einer normalen Person ist ein normales Videophon ohne Gebärdenspracheübersetzungsfunktion, das mit einer Steuertafel (oder einer Tastatur) versehen ist, die mit einem Fernsehgerät, einer Kamera, einem Mikrophon, einem Lautsprecher und einer Gruppe von Schaltern ausgestattet ist, und ein Videophonsteuergerät umfaßt.
Das Gebärdensprachetelephonsteuergerät 110 umfaßt neben den Grundgebärdensprachefunktionen die im folgenden gezeigten Funktionen des Übersetzens der Gebärdensprache ins Japanische (das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem).
(1) Eine Funktion zum Erkennen der durch eine hörgeschädigte Person ausgeführten Gebärdensprache, um sie ins Japanische zu übersetzen und sie in einen Schriftzug umzusetzen.
(2) Eine Funktion zum Umsetzen des übersetzten japanischen Schriftzugs in synthetisierte Stimmen.
(3) Eine Funktion zum Darstellen des übersetzten japanischen Schriftzugs auf dem Fernsehgerät 104 zum Bestätigen, ob die durch eine hörgeschädigte Funktion ausgeführte Gebärdensprache richtig übersetzt ist oder nicht, oder zum Übersetzen des übersetzten japanischen Schriftzugs in die Gebärdensprache und zu deren Darstellung als Gebärdenspracheanimation auf dem Fernsehgerät 104.
Das Gebärdensprachetelephonsteuergerät 110 umfaßt neben den Grundgebärdensprachentelephonfunktionen die wie im folgenden gezeigten Funktionen als Funktionen zum Übersetzen des Japanisch in die Gebärdensprache (das Japanisch-nach-Gebärdensprache- Übersetzungsteilsystem).
(1) Eine Funktion zum Erkennen der von einer normalen Person gesprochenen Sprache und zu deren Umsetzen in einen japanischen Schriftzug.
(2) Eine Funktion zum Übersetzen des umgesetzten Schriftzugs in die Gebärdensprache und zu deren Darstellung auf dem Fernsehgerät 104 als Gebärdenspracheanimation.
(3) Eine Funktion zum Zusammensetzen des erkannten japanischen Schriftzugs mit dem von der Kamera 102 eingegebenen Bild und zu dessen Übertragung an das Videophon auf der Seite einer normalen Person zur Bestätigung, ob die von ihr gesprochene Stimme richtig erkannt worden ist oder nicht.
Neben den obenbeschriebenen Funktionen umfaßt das Gebärdensprachetelephonsteuergerät 110 die im folgenden gezeigten Funktionen.
(1) Eine Funktion, um einen Modus einstellen zu können, in dem die Handgesten nicht als Gebärdensprache erkannt werden. Wenn eine Person Kaffee trinken möchte, während sie an dem Telephon spricht, verhindert die Funktion, daß die Handgesten als Gebärdensprache erkannt werden. Außerdem kann die Funktion verwendet werden, wenn sich hörgeschädigte Personen über eine Frage beraten, von der sie nicht möchten, daß eine Person am Ende der Leitung davon weiß.
(2) Eine Funktion, die ermöglicht, die Daten der Handgesten so, wie sie sind, anzuzeigen und sie anstelle des aktuellen Bildes auf der Seite der hörgeschädigten Person als Animation anzuzeigen. Die Funktion kann verwendet werden, wenn eine Person, mit der gesprochen werden soll, eine hörgeschädigte Funktion ist, und wenn erwünscht ist, ihr das aktuelle Bild nicht zu zeigen.
(3) Eine Funktion, die die folgende Operation ermöglicht: Das Ergebnis der Übersetzung aus der Gebärdensprache ins Japanische oder aus dem Japanischen in die Gebärdensprache, das mit dem aktuellen Bild synchronisiert wird, wird an das Videophongerät auf der Seite einer normalen Person oder an das Fernsehgerät auf der Seite einer hörgeschädigten Person ausgegeben. Das Übersetzen aus der Gebärdensprache ins Japanische oder aus dem Japanischen in die Gebärdensprache dauert Zeit, wobei das aktuelle Bild und das Übersetzungsergebnis, wenn das aktuelle Bild ohne Zeitverzögerung übertragen wird, in bezug auf den Zeitpunkt voneinander abweichen, was es erschwert, den Inhalt dessen, wovon eine Person am anderen Ende einer Leitung spricht, zu verstehen. Die Funktion kann die Schwierigkeit beim Verständnis verhindern.
(4) Eine Funktion, die ermöglicht, neben der Darstellung der Stimmen oder Zeichen anstelle eines aktuellen Bildes die Gebärdensprache als Animation anzuzeigen, wenn eine Antwortnachricht eines Anrufbeantworters erzeugt wird.
(5) Eine Funktion, die ermöglicht, zusammen mit einem Schriftzug, der beim Übersetzen des Ergebnisses der Erkennung der Gebärdensprache ins Japanische in einem Videophongerät auf der Seite einer normalen Person erhalten wird, Zeichen darstellen, die ein Ergebnis der Erkennung der Stimme einer normalen Person sind.
Fig. 2 zeigt einen Blockschaltplan des Hardware-Systems des Gebärdensprachetelephonsteuergeräts 110. Die Steuerung des Gebärdensprachetelephongeräts wird von einer CPU 210 ausgeführt. Das Programm oder die Daten werden in einer Magnetplatte gespeichert, die einen Programmspeicherbereich oder einen Modusdatenspeicherbereich enthält, und, wenn die Steuerung ausgeführt wird, in einen Speicher 222 geladen. Der Betrieb des Gebärdensprache-nach- Japanisch-Übersetzungsteilsystems, das die Gebärdensprache ins Japanische übersetzt, und des Japanisch-nach-Gebärdensprache- Übersetzungsteilsystems, das das Japanisch in die - Gebärdensprache übersetzt, wird gemäß der Steuerung der CPU 210 ausgeführt, wobei der Programmspeicherbereich in der Magnetplatte 202 in den Speicher 222 geladen wird. (Die Software-Konfiguration des Gebärdensprache-nach-Japanisch-Übersetzungsteilsystems und des Japanisch-nach-Gebärdensprache-Übersetzungsteilsystems wird mit Bezug auf Fig. 3 und Fig. 4 erläutert.)
Der Austausch der Bilddaten oder der Stimmdaten wird über die Videophonverbindungseinheit 216 zwischen dem Gebärdensprachetelephonsteuergerät 110 und dem Videophonsteuergerät 118 ausgeführt. Handgesten werden über eine Handgesteneingabeeinheit 218 von dem handschuhgestützten Eingang 114 eingegeben. Aktuelle Bilder von der Kamera werden von der Videoeingabeeinheit 212 eingegeben. Von der Bildausgabeeinheit 204 werden Bilddaten an das Fernsehgerät 104 ausgegeben. Von dem Mikrophon 122 werden unter Verwendung der Stimmeingabeeinheit 206 Stimmen aufgenommen. Die Stimmen werden von der Stimmausgabeeinheit 214 über den Lautsprecher 126 ausgegeben. Die Handgesten oder die aktuellen Bilder werden für die Erkennungsprozesse usw. während einer vorgegebenen Zeitdauer in einem Speicher 222 gehalten. Bilder usw., die auf dem Fernsehgerät ausgegeben werden sollen, werden unter Verwendung der sogleich in einem Speicher gespeicherten Daten dargestellt. Die Einstellung der Modi wie etwa eines Übersetzungsmodus oder eines Nichtübersetzungsmodus wird teilweise durch eine Modusdateneinstelleinheit 220 ausgeführt. Das Einstellen eines Modus unter Verwendung der Moduseinstelleinheit wird unter Verwendung des an dem Gebärdensprachetelephongerät angebrachten Modusschalters 130 ausgeführt.
Nachfolgend wird die Software-Konfiguration des Gebärdensprachenach-Japanisch-Übersetzungsteilsystems, das die durch eine hörgeschädigte Person ausgedrückte Gebärdensprache ins Japanische übersetzt, erläutert.
Die Gebärdensprachehandgesten werden über die Handgesteneingabeeinheit 218 von der handschuhgestützten Eingabe 114 (z. B. Data Glove, das Warenzeichen der VPL Research, Inc.: ein Gerät zum Eingeben der Form oder Position der Hände) eingegeben. Die Gesichtsausdrücke oder dergleichen werden über die in Fig. 2 gezeigte Videoeingabeeinheit 212 von der Kamera 102 eingegeben. Die von der Handgesteneingabeeinheit 218 eingegebenen Handgesten in der Gebärdensprache werden in einer Handgestenerkennungseinheit 310 (Fig. 3) erkannt. Die Position des Gesichts oder der Gesichtsausdruck werden in einer Bilderkennungseinheit 312 erkannt. Das in der Handgestenerkennungseinheit 310 ausgeführte Erkennungsergebnis und das in der Bilderkennungseinheit 312 ausgeführte Erkennungsergebnis werden in der integrierten Gebärdenspracheerkennungseinheit 320 integriert und als die Gebärdensprache erkannt. Eine Beschreibung der Erkennungsverfahren wird in der offengelegten japanischen Patentanmeldung Nr. Hei 6-253457 (Sign Language Recognition Device) oder in der Abhandlung (Hirohiko Sagawa, Hiroshi Sako, Masahiro Abe: Sign Language Interpretation System Using Continuous DP Matching, Human Interface Research Society, Information Processing Society of Japan, 44-12, 1992) gegeben.
Die erkannte Gebärdensprache wird danach gesteuert, ob sie in der Gebärdensprache-nach-Japanisch-Übersetzungssteuereinheit 324 ins Japanische zu übersetzen ist oder nicht. Ob sie zu übersetzen ist oder nicht wird entsprechend dem Modus, d. h. dem Übersetzungsmodus oder dem Nichtübersetzungsmodus, entschieden. Der Übersetzungsmodus ist ein Modus, in dem die Gebärdensprache ins Japanische zu übersetzen ist, während der Nichtübersetzungsmodus ein Modus ist, in dem die Gebärdensprache nicht ins Japanische zu übersetzen ist. Der Wechsel der Modi zwischen dem Übersetzungsmodus und dem Nichtübersetzungsmodus kann mit einer Handoperation zum Moduswechsel, einem automatischen Wechsel in den Nichtübersetzungsmodus, wenn eine Hand in der Home-Position (auf dem Knie) positioniert ist, oder durch die Moduseinstellung mit einem Schalter, mit dem die in Fig. 2 gezeigte Modusdateneinstelleinheit 220 ausgestattet ist, usw. erfolgen. Die in der Gebärdensprache-nach-Japanisch-Übersetzungssteuereinheit 324 verwendeten Übersetzungsmodusdaten werden in einer Übersetzungsmodusdatenspeichereinheit 380 gespeichert. In dem Übersetzungsmodus wird die in der integrierten Gebärdenspracheerkennungseinheit 320 erkannte Gebärdensprache an eine Gebärdensprache-nach-Japanisch-Übersetzungseinheit 334 übertragen. Das Gebärdensprachenach-Japanisch-Übersetzungsverfahren ist durch die Abhandlung (Masahiro Abe, Hiroshi Sako, Hirohiko Sagawa: Sign Language to Sentence Conversion Method Based on Sentence Structure Meaning Analysis, the Institute of Electronics and Information Communication Engineers of Japan, Bd. J76-D-11, Nr. 9, S. 2023-2030, 1993) veröffentlicht. Wenn in der Gebärdensprache-nach-Japanisch-Übersetzungseinheit 334 festgestellt wird, daß die Übersetzung unmöglich ist, zeigt eine Übersetzung unmöglich-Anzeige-Erzeugungseinheit 338 auf dem Fernsehgerät 104, einer Anzeige des Gebärdensprachetelephongeräts, an, daß die Übersetzung unmöglich war. Zur Bestätigung, ob die Gebärdensprache richtig übersetzt wurde, erzeugt eine Gebärdenspracheanimationserzeugungseinheit 334 eine Animation zur Darstellung der erkannten Gebärdensprache auf dem Gebärdensprachetelephongerät. Ein Gebärdenspracheanimationsverfahren ist durch die Abhandlung (Tomoko Sakiyama, Eiji Ohira, Hirohiko Sagawa, Masahiro Abe, Kiyoshi Arai: Study on Sign Language Generation Method by Animation, No. 46 All Japan Meeting of the Information Processing Society of Japan, 8P-4, 1993) veröffentlicht. Das in der Gebärdensprache-nach-Japanisch-Übersetzungseinheit 334 übersetzte Japanisch wird in einer Spracherzeugungseinheit 350 in die Stimme in Japanisch umgesetzt. Die Stimme in Japanisch oder das Japanisch, das ein Ergebnis der Übersetzung in der Gebärdensprache-nach-Japanisch-Übersetzungseinheit ist, wird an eine Bild-, Stimm- und Schriftsynchronisierungseinheit 356 gesendet, um Bilder zu erzeugen und diese an das Videophongerät auf der Seite einer normalen Person zu übertragen.
Wegen des an das Videophongerät auf der Seite einer normalen Person zu sendenden Bildes gibt es 2 Fälle: Einer ist der Fall, in dem ein aktuelles Bild (ein von einer Kamera erhaltenes Bild, das das Gesicht usw. einer hörgeschädigten Person enthält) verwendet wird, während der andere der Fall ist, in dem eine Animation und nicht ein aktuelles Bild verwendet wird. Falls das aktuelle Bild verwendet wird, wird ein über die Videoeingabeeinheit 212 von einer Kamera erhaltenes Bild verwendet. Falls andererseits eine Animation verwendet wird, wird die Animation unter Verwendung der über die Handgesteneingabeeinheit 218 und die Gebärdensprachegestenerkennungseinheit 310 von der handschuhgestützten Eingabe 114 erhaltenen unberührten Handgestendaten in der Geste-nach-Gebärdensprache- Animationsumsetzungseinheit 328 erzeugt. Die Bilderzeugungseinheit 332 steuert, ob ein aktuelles Bild an das Videophongerät auf der Seite einer normalen Person zu senden ist oder ob eine Animation dorthin zu senden ist. Die Bild-, Stimm- und Schriftsynchronisierungseinheit 356 synchronisiert ein in der Bilderzeugungseinheit 332 erzeugtes Bild, einen in der Gebärdensprache-nach-Japanisch- Übersetzungseinheit 334 erzeugten Schriftzug und eine in der Spracherzeugungseinheit 350 erzeugte synthetisierte Stimme und erzeugt ein an ein Videophongerät auf der Seite einer normalen Person zu sendendes Bild.
Das Bild, der Schriftzug und die synthetisierte Stimme, die in der Bild-, Stimm- und Schriftsynchronisierungseinheit 356 erzeugt werden, werden an die Anrufbeantwortersteuereinheit 366 übertragen. Falls sie nicht in dem Antwortnachrichtregistrierungsmodus eines Anrufbeantworters sind, werden das Bild, der Schriftzug und die synthetisierte Stimme, die in der Bild-, Stimm- und Schriftsynchronisierungseinheit 356 erzeugt wurden, an die Videophonbilderzeugungseinheit 360 übertragen. In der Videophonbilderzeugungseinheit 360 werden ein Schriftzug, der aus der Übersetzung der übertragenen Bilder, der übertragenen Gebärdensprache usw. ins Japanische erhalten wird, eine Ausgabe 430, die das Ergebnis der Erkennung der Stimme von dem Videophongerät auf der Seite einer normalen Person ist, (430: die Ausgabe einer Darstellungsdaten-für- Spracherkennung-Bestätigungerzeugungseinheit 428 in dem (später erläuterten) Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem auf der Seite einer normalen Person), und eine Fehlermeldung 424, die auszugeben ist, wenn die Übersetzung in die Gebärdensprache unmöglich ist (424: die Ausgabe der Übersetzung unmöglich- Anzeige-Erzeugungseinheit 420 in dem (später erläuterten) Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem auf der Seite einer normalen Person) integriert, wobei das an ein Videophongerät auf der Seite einer normalen Person zu übertragende Bild erzeugt wird. Das erzeugte Bild und die erzeugte Stimme werden zusammengefaßt, wobei das Bild und die Sprache, die zusammengefaßt wurden, über die Videophonverbindungseinheit 216, das Videophonsteuergerät 118 und das Telephonleitungsnetzwerk 120 von einer Fernsehbild- und Sprachübertragungseinheit 382 an ein Videophongerät auf der Seite einer normalen Person übertragen werden.
Die obige Beschreibung ist die Erläuterung des Gebärdensprachenach-Japanisch-Übersetzungsteilsystems; im folgenden wird nun die Funktion eines Anrufbeantworters in dem Gebärdensprachetelephongerät erläutert. Im Fall eines Anrufbeantworters in einem Gebärdensprachetelephongerät sind einige Funktionen erforderlich, die von denen eines normalen Telephons verschieden sind. Im Fall eines Gebärdensprachetelephongeräts besteht eine Möglichkeit, daß neben einer normalen Person eine hörgeschädigte Person das Telephon verwendet. Wenn eine hörgeschädigte Person, die auf dem Telephon angerufen wird, zu Hause ist, gibt es ein normales Telephongespräch zwischen hörgeschädigten Personen, so daß die Kommunikation zwischen ihnen natürlich möglich ist, wenn das Gerät als normales Videophongerät betrieben wird. Falls es einen Telephonanruf nicht von einer normalen Person, sondern von einer hörgeschädigten Person gibt, während die angerufene hörgeschädigte Person nicht zu Hause ist, funktioniert eine Antwort mit einer Stimme (die Antwort, während niemand zu Hause ist) nicht. Somit werden als Funktion eines Anrufbeantworters eine Antwortnachricht in der Gebärdensprache oder mit Zeichen, die von einer Stimme verschieden sind, erforderlich. Allerdings möchten viele Menschen kein aktuelles Bild senden, wenn eine Antwort in der Gebärdensprache ausgeführt wird. Das liegt daran, daß es, wenn es einen Telephonanruf von einem Fremden gibt, während die Person nicht zu Hause ist, vom Gesichtspunkt des Schutzes der Privatsphäre aus unerwünscht ist, ein aktuelles Bild der Gebärdensprache als Antwortnachricht zu verwenden. In diesem Fall wird eine Antwortnachricht mit einer in der Geste-nach-Gebärdensprache-Animationsumsetzungseinheit 328 erzeugten Animation erzeugt. Hierzu ist vor Erzeugen der Antwortnachricht der Gebärdenspracheanimationsmodus als Bildschirmmodus auszuwählen.
Falls nicht der Modus zum Erzeugen einer Antwortnachricht für einen Anrufbeantworter vorliegt, überträgt die Anrufbeantwortersteuereinheit 366 in der Bild-, Stimm- und Schriftsynchronisierungseinheit 356 erzeugte Bilder oder Stimmen an die Videophonbilderzeugungseinheit 360. Falls der Modus zum Erzeugen einer Antwortnachricht für einen Anrufbeantworter vorliegt, werden die in der Bild-, Stimm- und Schriftsynchronisierungseinheit 356 erzeugten Bilder oder Stimmen in der Anrufbeantworterdatenspeichereinheit 378 gespeichert. Wenn es während des Anrufbeantwortermodus einen Telephonanruf gibt, erfolgt die Antwort darauf unter Entnahme einer Antwortnachricht aus der Anrufbeantworterdatenspeichereinheit 378. Ferner besitzt das System eine Konfiguration, die ermöglicht, daß eine normale Person beim Eingeben einer Ausgabe 454 von einer Bild-, Stimm- und Schriftsynchronisierungseinheit 442 in dem (später zu beschreibenden) Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem an die Anrufbeantwortersteuereinheit 366 eine Antwortnachricht für einen Anrufbeantworter erzeugt. Die von einer normalen Person eingegebene Nachricht wird ebenfalls in die Anrufbeantworterdatenspeichereinheit 378 eingegeben, was ermöglicht, sie später beim Übersetzen in die Gebärdensprache unter Verwendung des Japanisch-nach-Gebärdensprache-Übersetzungsteilsystems zu lesen.
Nachfolgend wird mit Bezug auf Fig. 4 die Software-Konfiguration des Japanisch-nach-Gebärdensprache-Übersetzungsteilsystems, das von einer normalen Person gesprochenes Japanisch in die Gebärdensprache übersetzt, erläutert.
Die von einer normalen Person gesprochene Stimme und das Bild werden über die Telephonleitung 120 an das Gebärdensprachetelephongerät auf der Seite einer hörgeschädigten Person übertragen. Die Stimme wird von einer Videophonstimmdatenempfangseinheit 406 empfangen, wobei die Stimme über das Videophonsteuergerät 118 von der in Fig. 2 gezeigten Videophonverbindungseinheit 216 gesendet wird. Das Bild wird von einer Videophonbilddatenempfangseinheit 402 empfangen, wobei das Bild über das Videophonsteuergerät 118 von der in Fig. 2 gezeigten Videophonverbindungseinheit 216 gesendet wird. Die von der Videophonstimmdatenempfangseinheit 406 empfangene Stimme wird von einer Eingabewechseleinheit 458 untersucht, falls sie in einem Modus zum Erzeugen einer Antwortnachricht für einen Anrufbeantworter ist, wobei sie, wenn sie keine Antwortnachricht für einen Anrufbeantworter erzeugen soll, in der Spracherkennungseinheit 412 in einen japanischen Schriftzug umgesetzt wird. Das erkannte Japanisch wird in der Japanisch-nach- Gebärdensprache-Übersetzungseinheit 416 in die Gebärdensprache übersetzt. Das Japanisch-nach-Gebärdensprache-Übersetzungsverfahren ist in der Abhandlung: (Eiji Ohira, Tomoko Sakiyama, Masahiro Abe, Hirohiko Sagawa: Basic Study of Sign Language Generation System, No. 46 All Japan Meeting of the Information Processing Society of Japan, 8p-3, 1993) veröffentlicht. Falls die Übersetzung in diesem Fall unmöglich ist, wird in der Übersetzung unmöglich-Anzeige-Erzeugungseinheit 420 eine Nachricht erzeugt, die mitteilt, daß die Übersetzung unmöglich war. Um zu bestätigen, ob die Spracherkennung richtig ausgeführt wird, wird das erkannte Japanisch in der Darstellungsdaten für-Spracherkennung-Bestätigungerzeugungseinheit 428 als Schriftzug dargestellt. Falls ein Modus vorliegt, in dem eine normale Person eine Antwortnachricht erzeugt, wird die Stimme nicht von der Videophonstimmdatenempfangseinheit 406 eingegeben, sondern über die Mikrophoneinheit 122 von der in Fig. 2 gezeigten Stimmeingabeeinheit 206 eingegeben. Der Eingabewechsel in der Eingabewechseleinheit 458 wird durch die Ausgabe 386 von der Anrufbeantwortersteuereinheit 366 in dem obenerwähnten Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem ausgeführt.
Die übersetzte Gebärdensprache wird in der Gebärdensprache-nach- Animation-Erzeugungseinheit 438 in eine Animation umgesetzt. Die in der Gebärdenspracheerzeugungseinheit 438 erzeugte Gebärdenspracheanimation, das von einer normalen Person übertragene Bild von der Videophonbilddatenempfangseinheit 402, die von der Japanisch-nach-Gebärdensprache-Übersetzungseinheit 416 übertragenen Zeichen und die von einer normalen Person gesendete Stimme von der Videophonstimmdatenempfangseinheit 406 werden in der Bild-, Stimm- und Schriftsynchronisierungseinheit 442 synchronisiert. Das Bild, das Zeichen und die Stimme, die in der Bild-, Stimm- und Schriftsynchronisierungseinheit 442 synchronisiert wurden, werden an die Videophonbilderzeugungseinheit 446 gesendet. Das Bild, das Zeichen und die Stimme, die von der Bild-, Stimm- und Schriftsynchronisierungseinheit 442 gesendet werden, der von der Gebärdensprache-nach-Japanisch-Übersetzungseinheit 334 in dem obenerwähnten Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem ins Japanische übersetzte Schriftzug 336, eine Ausgabe 346 von der Gebärdenspracheanimationserzeugungseinheit 344 und die Fehlermeldung 340 von der Übersetzung unmöglich-Anzeige-Erzeugungseinheit 338 werden zusammengefaßt, um in der Videophonbilderzeugungseinheit 446 ein Videophonbild zu erzeugen, und von der Fernsehbild- und Stimmübertragungseinheit 450 über die in Fig. 2 gezeigte Bildausgabeeinheit 204 an das Fernsehgerät 104 gesendet und auf einem Bildschirm des Fernsehgeräts 104 dargestellt oder werden über die in Fig. 2 gezeigte Stimmausgabeeinheit 214 an den Lautsprecher 126 gesendet und als Stimme ausgegeben.
Mit Bezug auf Fig. 5 wird der Prozeß der Gebärdensprache-nach- Japanisch-Übersetzungssteuereinheit 324 in dem in Fig. 3: erläuterten Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem erläutert. Die Gebärdensprache-nach-Japanisch-Übersetzungssteuereinheit 324 steuert die Auswahl des Modus, entweder des Übersetzungsmodus oder des Nichtübersetzungsmodus. Im Fall der Stimme wird, wenn nicht gesprochen wird, dies nicht an eine Person am anderen Ende der Leitung befördert, während im Fall der Gebärdensprache, wenn eine Hand bewegt wird, dies als Ausdruck der Gebärdensprache betrachtet werden kann. Somit verhindert die Gebärdensprache-nach-Japanisch-Übersetzungssteuereinheit 324 durch den Wechsel eines Modus, daß die Bewegung einer Hand wie etwa das Kratzen am Kopf oder das Ausstrecken einer Hand zum Kaffeetrinken als Ausdruck der Gebärdensprache erkannt wird.
Es gibt mehrere Wege zum Wechsel eines Modus in der Gebärdensprache-nach-Japanisch-Übersetzungssteuereinheit 324. Eine Handbewegung für den Übersetzungsmodus und eine weitere Handbewegung für den Nichtübersetzungsmodus werden für die integrierte Gebärdenspracheerkennungseinheit 320 zuvor als die spezielle Gebärdensprache registriert. Es wird erfaßt, ob das Telephon getrennt ist oder nicht (502), wobei der Prozeß abgeschlossen wird, wenn das Telephon getrennt ist. Wenn das Telephon nicht getrennt ist und wenn die Geste des Übersetzungsmodus erkannt wird (506), wird der Übersetzungsmodus eingestellt (508). Falls die Geste des Nichtübersetzungsmodus erkannt wird (510), wird der Nichtübersetzungsmodus eingestellt (512). Wenn erkannt wird, daß die Position einer Hand die Home-Position ist (514), wird die Gebärdensprache oder eine von der anderen Hand ausgeführten Handbewegung nicht ins Japanische übersetzt. Wenn das Gesicht nicht nach vorn zeigt (516) oder wenn der Körper nicht nach vorn zeigt (520), werden die Erkennungsergebnisse zu diesem Zeitpunkt nicht ins Japanische übersetzt. Im Fall der anderen Gebärdensprache werden Übersetzungsmodusdaten angenommen (522), wobei untersucht wird, ob der Übersetzungsmodus vorliegt (524), wobei das Erkennungsergebnis, wenn das der Fall ist, an die Gebärdensprache-nach-Japanisch- Übersetzungseinheit 334 übertragen und ins Japanische übersetzt wird (526). Falls das nicht der Fall ist, werden die Daten verworfen.
Mit Bezug auf Fig. 6 wird der Prozeß der Geste-nach-Gebärdensprache-Animationsumsetzungseinheit 328 in dem in Fig. 3 erläuterten Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem erläutert. Falls der Animationsmodus nicht vorliegt (602), wird nichts getan.
Ein an die Seite einer normalen Person zu sendendes Bild ist ein aktuelles Bild. Falls der Animationsmodus vorliegt (602), werden die von der Handgesteneingabegeräteinheit eingegebenen Handpositionsdaten zu den Daten für animierte Handgesten gemacht (604). Wenn eine handschuhgestützte Eingabe verwendet wird, werden die Daten, die die Position oder die Richtung der Hände oder die Neigung der Finger betreffen, alle 1/30 s eingegeben. Unter Verwendung dieser Daten wird alle 1/30 s durch Darstellung eines Bildes für die Animation eine Animation erzeugt. Dieses Verfahren ist das gleiche wie das beim Erzeugen einer Animation in der Gebärdenspracheanimationserzeugungseinheit 344 verwendete Verfahren. Der Unterschied zwischen ihnen besteht darin, daß in der Gebärdenspracheanimationserzeugungseinheit 344 die dem Gebärdensprachezeichencode entsprechenden Daten, die die Position der Hände und die Neigung der Finger betreffen, verwendet werden, während in der Geste-nach-Gebärdensprache-Animationsumsetzungseinheit 328 die direkten Daten der Handgesten verwendet werden. Falls durch die Bilderkennung die Erkennung der Gesichtsausdrücke ermöglicht wird, wird auch ermöglicht, in der Animation unter Verwendung des Erkennungsergebnisses Gesichtsausdrücke zu verleihen.
Nachfolgend wird mit Bezug auf Fig. 7 der Prozeß in der Bilderzeugungseinheit 332 in dem in Fig. 3 erläuterten Gebärdensprachenach-Japanisch-Übersetzungsteilsystem erläutert. Zuvor wird mit Bezug auf Fig. 8 der Bildschirm des Gebärdensprachetelephongeräts erläutert, während mit Bezug auf Fig. 9 der Bildschirm des Videöphongeräts auf der Seite einer normalen Person, während sie zu dem Gebärdensprachetelephongerät spricht, erläutert wird. Auf dem Bildschirm 1600 des in Fig. 8 gezeigten Gebärdensprachetelephongeräts wird das folgende dargestellt.
(1) Darstellungseinheit ( 1602) für das aktuelle Bild: Es wird ein von einer Kamera des Videophons auf der Seite einer normalen Person aufgenommenes aktuelles Bild dargestellt.
(2) Gebärdenspracheanimationsdarstellungseinheit ( 1606): Die Stimme einer normalen -Person wird in eine Gebärdensprache übersetzt und äls Animation dargestellt.
(3) Zeichendarstellungseinheit (1604): Die Stimme einer normalen Person wird erkannt und als Zeichen dargestellt.
(4) Gebärdenspracheanimation-zur-Bestätigung-Darstellungseinheit (1608): Die durch eine hörgeschädigte Person ausgedrückte Gebärdensprache wird zur Bestätigung in einer Animation dargestellt.
(5) Zeichen-zur-Bestätigung-Darstellungseinheit (1610): Das Ergebnis der Übersetzung der durch eine hörgeschädigte Person ausgedruckten Gebärdensprache ins Japanische wird durch Zeichen zur. Bestätigung dargestellt.
Andererseits wird auf dem in Fig. 9 gezeigten Bildschirm 1700 des Videophons auf der Seite einer normalen Person folgendes dargestellt.
(1) Darstellungseinheit (1702) des aktuellen Bildes: Es wird ein von einer Kamera eines Gebärdensprachetelephongeräts aufgenommenes aktuelles Bild dargestellt.
(2) Zeichendarstellungseinheit ( 1704): Das Ergebnis der Übersetzung einer Gebärdensprache ins Japanische wird in Zeichen dargestellt.
(3) Zeichen-zur-Bestätigung-Darstellungseinheit (1706): Das Ergebnis der Erkennung der Sprache einer normalen Person wird in Zeichen dargestellt.
Die Zeichendarstellungseinheit oder die Zeichen-zur-Bestätigung- Darstellungseinheit werden auf der Seite eines Gebärdensprachetelephongeräts erzeugt. Ferner ist es möglich, das Ergebnis der Übersetzung einer Gebärdensprache durch eine hörgeschädigte Person ins Japanische mit einer Stimme zu befördern.
Nunmehr zurücklehrend zu Fig. 7 wird der Prozeß in der in Fig. 3 gezeigten Bilderzeugungseinheit 332 erläutert. In bezug auf die Darstellungsbildschirmmodi des Videophons auf der Seite einer normalen Person gibt es 3 Arten von Modi.
(1) Normaler Modus: Ein aktuelles Bild wird dargestellt.
(2) Animationsmodus: Es wird eine in der Geste-nach-Gebärdensprache-Animationsumsetzungseinheit umgesetzte Animation verwendet.
(3) Unterdrückungsmodus: Es wird ein Bild dargestellt, das zuvor registriert worden ist.
Ein weiteres Verfahren in dem Unterdrückungsmodus besteht im Darstellen eines zuvor in einem Gebärdensprachetelephongerät registrierten Standbilds.
TEXT FEHLT
modus vorliegt (702). Falls das der Fall ist, wird als auf der Darstellungseinheit 1702 anzuzeigende Daten des aktuellen Bildes eines Videophongeräts auf der Seite einer normalen Person eine unter Verwendung der in der Geste-nach-Gebärdensprache-Animationsumsetzungseinheit 328 erzeugten Daten erzeugte Animation verwendet (704). Falls kein Animationsmodus vorliegt, wird untersucht, ob ein Unterdrückungsmodus vorliegt (706). Falls ein Unterdrückungsmodus vorliegt, werden als in der Darstellungseinheit 1702 des aktuellen Bildes in einem Videophongerät auf der Seite einer normalen Person anzuzeigende Daten die zuvor aufgezeichneten Bilddaten verwendet (708). Falls kein Unterdrückungsmodus vorliegt, wird er als Normalmodus betrachtet, so daß die Bilddaten als auf der Darstellungseinheit 1702 des aktuellen Bildes des Videophongeräts auf der Seite einer normalen Person anzuzeigende Daten verwendet werden (710).
Nachfolgend werden mit Bezug auf Fig. 10 der Prozeß in der Bild-, Stimm- und Schriftsynchronisierungseinheit 356 in dem Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem und der Prozeß in der Bild-, Stimm- und Schriftsynchronisierungseinheit 442 in dem Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem erläutert. Zwischen diesen Prozessen gibt es lediglich einen Unterschied in bezug auf die Übersetzungsergebnisse.
Da, bevor ein Zeichen der Gebärdensprache fertiggestellt ist, seine Übersetzung ins Japanische unmöglich ist, usw. dauert die Übersetzung des Ergebnisses der Gebärdenspracheerkennung ins Japanische und die Darstellung als Stimme Zeit. Um das aktuelle Bild einer hörgeschädigten Person, die die Gebärdensprache ausführt, und die durch Übersetzen der Gebärdensprache ins Japanische erhaltene Spinne zu synchronisieren und sie an ein Videophon auf der Seite einer normalen Person zu übertragen, ist es somit erforderlich, die Übersetzung des aktuellen Bildes während der Zeitdauer, die der Prozeß dauert, in dem das Ergebnis der Gebärdenspracheerkennung ins Japanische übersetzt und in Stimme umgesetzt wird, zu verzögern. Um das aktuelle Bild und das Ergebnis der Erkennung zu synchronisieren, wird der Zeitpunkt, zu der das aktuelle Bild, die Gebärdensprache oder die Stimme eingegeben werden, zuvor aufgezeichnet. Die Grundvorstellung der Synchronisation besteht darin, daß das aktuelle Bild vorübergehend gespeichert wird und, wenn die ins Japanische übersetzte Gebärdensprache oder die in die Gebärdenspracheanimation übersetzte Stimme ausgegeben werden, das aktuelle Bild dargestellt wird, so daß es mit der durch die ursprüngliche Gebärdensprache oder Stimme gegebenen Zeit übereinstimmt.
Mit bezug auf Fig. 10 wird ein Verfahren zum Synchronisieren eines Übersetzungsergebnisses und eines aktuellen Bildes erläutert. In der Figur ist von 1802 bis 1812 die Zeitdauer, in der durch eine hörgeschädigte Person die Gebärdensprache ausgeführt wird, ist von 1814 bis 1828 die Zeitdauer, in der auf dem Videophongerät auf der Seite einer normalen Person das aktuelle Bild und die synthetisierte Stimme des übersetzten Japanisch, die synchronisiert werden, dargestellt werden, ist von 1842 bis 1850 die Zeitdauer, in der die normale Person japanisch spricht, ist von 1830 bis 1840 die Zeitdauer, in der in dem Gebärdensprachetelephongerät die Spracherkennung ausgeführt wird und in der die beim Übersetzen der erkannten Zeichen in die Gebärdensprache erhaltene Gebärdenspracheanimation und der Bildschirm des Videophons auf der Seite der normalen Person, die synchronisiert werden, dargestellt werden. Es wird ein Fall betrachtet, in dem ein Telephonanruf von einem Gebärdensprachetelephongerät an ein normales Videophon ausgeführt wird. Die Zeitdauer 1802 ist die Zeitdauer, in der das Gebärdensprachetelephongerät mit dem Videophon auf der Seite der normalen Person verbunden wird und das Gesicht einer Person am anderen Ende der Leitung bestätigt wird. Daraufhin spricht die hörgeschädigte Person mit der normalen Person in der Gebärdensprache "Guten Morgen!" "Wie geht es?". Die Zeitdauern 1804 und 1806 sind die Gesprächszeit. In dem Gebärdensprachetelephongerät wird während der Zeitdauer 1804, wenn die hörgeschädigte Person in der Gebärdensprache "Guten Morgen!" ausdrückt, eine Übersetzung davon ausgeführt. Nachdem in der Gebärdensprache "Guten Morgen!" gesagt wurde, wird die Gebärdensprache in die japanische Stimme übersetzt und während der Zeitdauer 1818 "Guten Morgen!" als Stimme ausgedrückt und zusammen mit dem aktuellen Bild während der Zeitdauer 1804 im Videophon auf der Seite einer normalen Person durch Zeichen dargestellt. Wenn während der Zeitdauer 1806 "Wie geht es?" in der Gebärdensprache ausgedrückt wird, wird während der Zeitdauer 1822 "Wie geht es?' mit der Stimme ausgedrückt und zusammen mit dem aktuellen Bild während der Zeitdauer 1806 mit Zeichen dargestellt. Die normale Person, die zu den Zeitdauern 1818 und 1822 auf die Gebärdensprache sieht, antwortet während der Zeitdauer 1844 auf dem Videophon auf der Seite der normalen Person "Es geht mir gut, danke". In dem Bild und der Stimme, die während der Zeitdauer 1844 an das Gebärdensprachetelephongerät übertragen werden, wird die Stimme in die Gebärdenspracheanimation übersetzt. Auf dem Gebärdensprachetelephongerät werden sowohl die Gebärdenspracheanimation, die ausdrückt "Es geht mir gut, danke.", als auch das aktuelle Bild während der Zeitdauer 1844 dargestellt.
Falls aber während der Zeitdauer 1818 die während der Zeitdauer 1804 ausgeführte Gebärdensprache dargestellt wird, während das aktuelle Bild während der Zeitdauer 1802 an die Person am anderen Ende der Leitung etwas verzögert während der Zeitdauer 1814 übertragen wird, ist es während der Zeitdauer 1816 unmöglich, das Gebärdensprachezeichen zu erkennen, bis das Gebärdensprachezeichen abgeschlossen ist, so daß es während der Zeitdauer 1816 kein anzuzeigendes Bild gibt. Die Länge der Darstellung einer Sequenz von Zeichen unterscheidet sich von der eines Zeichens, so daß es während der Zeitdauer 1820 kein anzuzeigendes aktuelles Bild gibt. Die Zeitdauer des Abschlusses der Übersetzung der Stimmeingabe "Und Dir?" während der Zeitdauer 1846 in die Gebärdensprache wird zu der Zeitdauer 1836, so daß es wie im Fall der Gebärdenspracheanimation einen Fall gibt, in dem die Zeitdauer im Vergleich zur Zeitdauer 1844 länger wird. In diesem Fall ist es erforderlich, das aktuelle Bild von der Zeitdauer 1848 bis zu der Zeitdauer 1838 zu komprimieren. Wie oben erwähnt wurde, kann es, wenn ein aktuelles Bild und das Übersetzungsergebnis synchronisiert werden, den Fall geben, daß es kein anzuzeigendes aktuelles Bild gibt oder daß es nicht genug Zeit zur Darstellung aller gibt.
Wenn es im Fall eines Gebärdensprachetelephongeräts kein aktuelles anzuzeigendes Bild gibt, wird das letzte Standbild als Ergänzung verwendet. Als das aktuelle Bild während der Zeitdauer 1816 wird das letzte Standbild während der Zeitdauer 1814 dargestellt. Das gleiche kann auf die Zeitdauer 1820 angewendet werden.
Falls in einem Gebärdensprachetelephongerät nicht alle Bilder dargestellt werden können, werden Überschußbilder einfach verworfen oder in einem Schnellbetrieb dargestellt. Die Zeitdauer 1838 ist kurz im Vergleich zur Zeitdauer 1848, so daß, um die Zeitdauer 1848 zu verkürzen, das Endteil abgeschnitten wird und die nächste Gebärdenspracheanimation dargestellt wird. Die Tatsache, daß die Zeitdauer 1838 kürzer als die Zeitdauer 1848 ist, wird durch die Tatsache verursacht, daß die Zeitdauer 1836 lang im Vergleich zur Zeitdauer 1846 ist. Während der Zeitdauer 1838 kann zu dem Zeitpunkt, zu dem die Darstellung eines aktuellen Bildes begonnen wird, festgestellt werden, um wieviel die Zeitdauer 1836 länger als die Zeitdauer 1846 ist, so daß abgeschätzt werden kann, um wieviel die Zeitdauer 1836 im Vergleich zur Zeitdauer 1846 verkürzt werden muß. Gemäß der Abschätzung wird das aktuelle Bild im Schnellbetriebsmodus dargestellt, um zu erreichen, daß das aktuelle Bild während der Zeitdauer 1848 in der Zeitdauer 1838 abgeschlossen wird.
In Fig. 11 ist eine der Ausführungsformen gezeigt, in denen die Gebärdenspracheanimation als Ergebnis der Übersetzung sowie das aktuelle Bild und die Stimme durch die Bild-, Stimm- und Schriftsynchronisierungseinheit synchronisiert dargestellt werden. Dies ist eine Ausführungsform des Prozesses in der Bild-, Stimm- und Schriftsynchronisierungseinheit in dem Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem. Zunächst wird untersucht, ob es eine auszugebende Gebärdenspracheanimation gibt (802). Falls das der Fall ist, werden die Gebärdenspracheanimation und das Bild eines Vollbilds dargestellt (810), wobei nachfolgend untersucht wird, ob es eine auszugebende Gebärdenspracheanimation gibt. Jedesmal, wenn ein Vollbild dargestellt wird, wird die Anzahl der anzuzeigenden Vollbilder der Gebärdenspracheanimation verringert. Wenn sämtliche Gebärdenspracheanimationen dargestellt sind, wird es unmöglich, die Gebärdenspracheanimation anzuzeigen. Falls es keine anzuzeigende Gebärdenspracheanimation gibt, wird untersucht, ob es ein anzuzeigendes aktuelles Bild gibt (804). Falls ein Bild anzuzeigen ist, wird ein Vollbild des aktuellen Bildes dargestellt (808). Falls das nicht der Fall ist, wird das letzte Bild dargestellt (806). Wenn ein Vollbild dargestellt ist, wird zurückkehrend zum ersten erneut untersucht, ob eine Gebärdenspracheanimation anzuzeigen ist. Die Stimme, die von einem aktuellen Bild begleitet wird, das einem Vollbild des aktuellen Bildes entspricht, wird jedesmal ausgegeben, wenn das aktuelle Bild 1 Vollbild für 1 Vollbild dargestellt wird.
Mit Bezug auf Fig. 12 wird die Ausführungsform des Prozesses in der Bild-, Stimm- und Schriftsynchronisierungseinheit 356 in dem Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem erläutert. Die aus der Gebärdensprache übersetzte und in der Spracherzeugungseinheit synthetisierte Stimme wird durch das Vollbild, d. h. die Darstellungseinheit des aktuellen Bildes, organisiert. Es wird untersucht, ob es eine auszugebende synthetisierte Stimme gibt (2002). Falls das nicht der Fall ist, wird untersucht, ob es ein anzuzeigendes aktuelles Bild gibt (2004). Falls es ein anzuzeigendes aktuelles Bild gibt, wird ein Vollbild des aktuellen Bildes dargestellt (2008). Falls das nicht der Fall ist, wird das letzte Bild dargestellt (2006). Falls es eine auszugebende synthetisierte Stimme gibt, werden die synthetisierte Stimme und das aktuelle Bild für ein Vollbild ausgegeben (2010), wobei der Prozeß an den Anfang zurückgesetzt wird. Es wird erneut untersucht, ob es eine auszugebende synthetisierte Stimme gibt. Jedesmal, wenn das aktuelle Bild Vollbild für Vollbild dargestellt wird, wird durch ein Vollbild des aktuellen Bildes die zu dem aktuellen Bild begleitende Stimme ausgegeben.
Neben der Gebärdenspracheanimation wird das Ergebnis in der Spracherkennungseinheit 412, wie in Fig. 13 gezeigt ist, auch als japanische Zeichen dargestellt (902). Wie in Fig. 8 gezeigt ist, werden diese auf der Zeichendarstellungseinheit 1604 auf der Seite des Gebärdensprachetelephongeräts dargestellt.
Nachfolgend wird der Prozeß der Funktion eines Anrufbeantworters in dem Gebärdensprachetelephongerät erläutert. Es gibt eine Möglichkeit, daß das Gebärdensprachetelephongerät durch eine normale Person und außerdem durch eine hörgeschädigte Person angerufen werden kann, so daß es, um beiden Fällen zu entsprechen, erforderlich ist, daß die Antwortnachricht eines Anrufbeantworters in der Gebärdensprache oder mit anderen Zeichen als der Stimme antworten kann. Es gibt eine Wahrscheinlichkeit, daß sich neben einer hörgeschädigten Person eine normale Person für die Antwortnachricht eines Gebärdensprachetelephongeräts registrieren kann.
Es gibt eine Wahrscheinlichkeit, daß von verschiedenartigen Menschen angerufen wird, so daß einige möglicherweise kein aktuelles Bild darstellen möchten. Wie im Fall eines Gesprächs gibt es 3 Modi in der Antwortnachricht.
(1) Normalmodus: Ein aktuelles Bild wird dargestellt.
(2) Animationsmodus: Es wird eine in der Geste-nach-Gebärdensprache-Animationsumsetzungseinheit umgesetzte Animation verwendet.
(3) Unterdrückungsmodus: Auf dem Hauptbildschirm wird kein Bild dargestellt oder wird ein zuvor registriertes Bild dargestellt.
Wenn eine normale Person eine Antwortnachricht für das Gebärdensprachetelephongerät registriert, ist zu den oben von (1) bis (3) beschriebenen Modi für eine hörgeschädigte Person ferner ein Gebärdensprachemodus hinzuzufügen.
(4) Gebärdensprachemodus: Die übersetzte Gebärdensprache wird als Animation auf dem Hauptbildschirm dargestellt.
Bevor die Registrierung begonnen wird, wird durch den Modusschalter 130 aus den obigen 4 Modi ein Anrufbeantworterregistrierungsmodus ausgewählt.
Mit Bezug auf Fig. 14 wird eine Erläuterung der Einzelheiten betreffs des Prozesses in einer Anrufbeantwortersteuereinheit 366 in dem Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem gegeben. In Fig. 21 ist der Bildschirm einer Antwortnachricht im Normalmodus gezeigt. Dieses Bild wird in dem Videophon auf der anrufenden Seite dargestellt. In 2102 wird ein aktuelles Bild dargestellt, in 2108 ist eine Gebärdenspracheanimation in einer Antwortnachricht gezeigt und in 2104 ist ein Text gezeigt. Gleichzeitig wird eine Stimme ausgegeben. In Fig. 22 ist der Bildschirm einer Antwortnachricht in dem Gebärdensprachemodus gezeigt. Es ist der Bildschirm in dem Videophon auf der anrufenden Seite dargestellt. Im Gebärdensprachemodus wird kein aktuelles Bild dargestellt, sondern wird in 2202 eine Animation dargestellt. Zunächst wird untersucht, ob ein Modus vorliegt, in dem eine Antwortnachricht eines Anrufbeantworters registriert wird (1104). Falls kein Registrierungsmodus vorliegt, werden die in der Bild-, Stimm- und Schriftsynchronisierungseinheit 356 in dem Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem erzeugten Bild- oder Stimmdaten an die Videophonbilderzeugungseinheit 360 übertragen (1106). Falls ein Registrierungsmodus vorliegt, wird untersucht, ob die Antwortnachricht in der Gebärdensprache zu registrieren ist (1108). Falls die Registrierung in der Gebärdensprache vorliegt, werden in der Bild-, Stimm- und Schriftsynchronisierungseinheit in dem Gebärdensprache-nach-Japanisch- Übersetzungssystem erzeugte Bild- oder Stimmdaten in der Anrufbeantworterdatenspeichereinheit 378 gespeichert (1110). Falls eine Registrierungsnachricht erzeugt ist, wird durch Auswahl eines anzuzeigenden Bildschirmmodus auf einem Videophon auf einer Seite einer normalen Person die Darstellung in dem von (1) bis (3) beschriebenen Modus ermöglicht. Falls die Registrierung als Stimme vorliegt, wird die Eingabe von der Eingabewechseleinheit 458 von den von der Videophonstimmdatenempfangseinheit 406 erhaltenen Sprachdaten zu den über ein Mikrophon von der Stimmeingabeeinheit 206 erhaltenen Stimmdaten gewechselt (1112). Die in der Bild-, Stimm- und Schriftsynchronisierungseinheit 454 in dem Japanisch- nach-Gebärdensprache-Übersetzungsteilsystem erzeugten Bild- oder Stimmdaten werden in der Anrufbeantworterdatenspeichereinheit 378 gespeichert (1114). Im Fall des Gebärdensprachemodus wird auf der Darstellungseinheit 1702 des aktuellen Bildes anstelle des aktuellen Bildes die in der Gebärdenspracheanimationserzeugungseinheit 438 in die Gebärdensprache übersetzte Gebärdensprache als Animation dargestellt.
Mit Bezug auf Fig. 15 wird der Prozeß einer Anrufbeantwortersteuerschaltung erläutert, wenn es im Anrufbeantwortermodus einen Telephonanruf an das Telephongerät gibt. Falls es im Anrufbearitwortermodus einen Telephonanruf gibt, wird aus der Anrufbeantworterdatenspeichereinheit 378 eine Antwortnachricht entnommen (1202) und die Nachricht an die Videophonbilderzeugungseinheit 360 übertragen (1204). Falls es eine Nachricht von der anrufenden Seite gibt, wird die Nachricht im Anrufbeantworter gespeichert (1208). Falls im Fall der Regeneration eine hörgeschädigte Person auf der empfangenden Seite und eine normale Person auf der sendenden Seite sind, ist es möglich, die Nachricht dadurch zu lesen, daß sie in dem Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem in die Gebärdensprache übersetzt wird. Falls eine normale Person auf der empfangenden Seite und eine hörgeschädigte Person auf der sendenden Seite sind, ist es möglich, die Nachricht dadurch zu lesen, daß sie in dem Gebärdensprache-nach-Japanisch- Übersetzungsteilsystem ins Japanische übersetzt wird.
Nachfolgend wird die Erläuterung des Modus zur Darstellung des empfangenen Bildes auf dem Bildschirm in dem Gebärdensprachetelephongerät gegeben. Das Einstellen des Modus zur Darstellung des empfangenen Bildes wird mit dem Modusschalter 130 ausgeführt. Unter den Modi zur Darstellung des empfangenen Bildes gibt es den Gebärdensprachestandardmodus, den Gebärdensprachevergrößerungsmodus, den Gebärdenspracheanimationsmodus und den Nicht-Gebärdensprachemodus.
Der Gebärdensprachestandardmodus wird wie in Fig. 8 gezeigt zur Darstellung der Darstellungseinheit 1602 des aktuellen Bildes oder der Gebärdenspracheanimations-Darstellungseinheit 1606 in der in dem Gebärdensprachetelephongerät entschiedenen Zuteilung verwendet.
Wie in Fig. 16 gezeigt ist, wird in dem Gebärdensprachevergrößerungsmodus die Gebärdenspracheanimations-Darstellungseinheit 1606 in dem in Fig. 8 gezeigten Gebärdensprachestandardmodus in einem größeren Muster als in der Darstellungseinheit 1602 für das aktuelle Bild dargestellt, wobei sie jeweils als Gebärdenspracheanimations-Darstellungseinheit 1006 und als Darstellungseinheit 1002 für das aktuelle Bild dargestellt werden.
Wie in Fig. 17 gezeigt ist, sind im Gebärdenspracheanimationsmodus die aktuelle Darstellungseinheit 1602 und die Gebärdenspracheanimations-Darstellungseinheit 1606 in dem in Fig. 8 gezeigten Gebärdensprachestandardmodus vertauscht, wobei sie jeweils als Darstellungseinheit 1906 für das aktuelle Bild und als Gebärdenspracheanimations-Darstellungseinheit 1902 dargestellt werden. Außerdem wird mit der Gebärdenspracheanimations-Darstellungseinheit 1902 die Zeichendarstellungseinheit 1904 als vergrößertes Begleitmerkmal dargestellt.
Sowohl der Gebärdensprachevergrößerungsmodus als auch der Gebärdenspracheanimationsmodus erreichen, daß die Gebärdenspracheanimation bei der Darstellung in einem größeren Muster leicht beobachtet wird. Der Nicht-Gebärdensprachemodus ist der Modus, in dem die Gebärdensprache nicht verwendet wird, wobei das Gerät das gleiche wie ein normales Videophon ist.
Mit Bezug auf Fig. 18 wird das Darstellungsverfahren eines empfangenen Bildes in dem Gebärdensprachetelephongerät erläutert. Es wird untersucht, ob der Modus der Gebärdensprachevergrößerungsmodus ist (1402). Falls das der Fall ist, wird die Gebärdenspracheanimations-Darstellungseinheit wie in Fig. 16 gezeigt vergrößert dargestellt (1404). Falls das nicht der Fall ist, wird untersucht, ob der Modus der Gebärdenspracheanimationsmodus ist (1406). Falls das der Fall ist, werden die Darstellungseinheit für das aktuelle Bild und die Gebärdenspracheanimations-Darstellungseinheit in dem Gebärdensprachestandardmodus miteinander vertauscht und wie in Fig. 17 gezeigt dargestellt (1408). Wie in Fig. 8 gezeigt ist, wird im Gebärdensprachestandardmodus die Gebärdenspracheanimation in Form der Standardkonfiguration dargestellt (1412). Im Fall des Nicht- Gebärdensprachemodus wird die Übersetzung nicht ausgeführt, wobei die Bilder als normales Videophon dargestellt werden (1414).
Nachfolgend wird mit Bezug auf Fig. 19 der Einstellungsprozeß der Stimme in der Stimmsynthese erläutert. Zunächst wird ein gewünschter Typ der synthetisierten Stimme ausgewählt (1502). Er wird so eingestellt, daß eine synthetisierte Stimme gemäß der obigen Auswahl ausgegeben wird (1504). Dies erfolgt deshalb, da das unbehagliche Gefühl der Zuhörer der synthetisierten Stimme abnimmt, wenn erreicht wird, daß die Qualität einer synthetisierten Stimme ausgewählt werden kann, die synthetisierte Stimme beispielsweise je nach Geschlecht der Person, die die Gebärdensprache nutzt, zu einer männlichen Stimme oder zu einer weiblichen Stimme gemacht werden kann, oder die synthetisierte Stimme für eine junge Person zu einer hohen Stimme und für eine betagte Person zu einer tiefen Stimme gemacht werden kann.
Als Abwandlung der ersten Ausführungsform kann folgendes betrachtet werden: Durch Vorsehen einer Fremdspracheübersetzungseinheit in dem Gebärdensprachetelephonsteuergerät 110 des Gebärdensprachetelephongeräts wird ermöglicht, durch Übersetzen der in einer Fremdsprache übertragenen Stimme oder des in einer Fremdsprache übertragenen Schriftzugs des Videophons mit einem Ausländer zu kommunizieren. In diesem Fall ist in der in Fig. 2 gezeigten Magnetplatte 202 ein Fremdsprachen-Übersetzungsprogramm vorgesehen, das in den Speicher 222 geladen wird, wobei der Betrieb gemäß der Steuerung der CPU 210 ausgeführt wird. Ferner wird die Ausführung des folgenden für die Personen, die auf diesem Geschäftsgebiet arbeiten, leicht: Die Übersetzung der japanischen Gebärdensprache in eine Fremdsprache und deren Übertragung an ein Videophon auf der Seite eines normalen Ausländers oder eine Zweiwegekommunikation zwischen einer fremden Gebärdensprache und dem Japanischen. Die Fremdspracheübersetzungseinheit kann in einem anderen Videophonsteuergerät als dem Gebärdensprachetelephonsteuergerät (entweder in dem Gebärdensprachetelephongerät oder in dem Videophongerät) vorgesehen sein. Im Fall der Übersetzung der japanischen Gebärdensprache ins Englische wird die Japanisch-nach-Englisch-Übersetzungseinheit in die in Fig. 3 gezeigte Gebärdensprache-nach-Japanisch-Übersetzungseinheit 334 integriert und zu der Spracherzeugungseinheit 350 eine Englisch- Stimmsynthesefunktion hinzugefügt. Im Fall der Übersetzung aus dem Englischen in die japanische Gebärdensprache wird zu der in Fig. 4 gezeigten Spracherkennungseinheit 412 eine Englisch-Spracherkennungsfunktion hinzugefügt, während in die Japanisch-nach- Gebärdensprache-Übersetzungseinheit 416 eine Englisch-nach- Japanisch-Übersetzungseinheit integriert wird, die einen englischen Text in einen japanischen Text, die Ausgabe der Spracherkennungseinheit 412, übersetzt.
Eine weitere Abwandlung der ersten Ausführungsform ermöglicht einen einfachen Modus, in dem auf der Seite einer normalen Person ein normales Telephongerät (mit PHS) lediglich für eine Stimme, kein Videophon, angeschlossen werden kann. Mit anderen Worten, wenn ein System so aufgebaut wird, daß aus der von dem Telephon gesendeten Stimme eine Gebärdenspracheanimation erzeugt und in dem Gebärdensprachetelephonsteuergerät auf der Seite des Gebärdensprachetelephongeräts dargestellt wird, wobei die Antwort lediglich mit der Stimme ausgeführt wird, kann, selbst wenn als Zweiwege- Echtzeit-Kommunikation einiges noch zu untersuchen ist, in einem einfachen Modus eine Fernkommunikation (ein Gespräch) zwischen einer hörgeschädigten Person und einer normalen Person realisiert werden.
Nachfolgend wird eine zweite Ausführungsform erläutert. In der obenerläuterten Ausführungsform waren verschiedenartige Funktionen auf der Seite des Gebärdensprachetelephongeräts konzentriert. In der zweiten Ausführungsform werden die in der ersten Ausführungsform erläuterten Funktionen in dem Gebärdensprachetelephongerät dadurch, daß, wie in Fig. 20 gezeigt ist, ein Gebärdensprache-Interpretationsserver 1300 in einem Weitverkehrskommunikationsnetzwerk wie etwa dem BISDN oder dem ATM vorgesehen ist, zentralisierten Steuerungen unterworfen. Dadurch werden die Gebärdenspracheerkennung, die Erzeugung der Gebärdenspracheanimation, die Spracherkennung, die Sprachsynthese usw., die in dem Gebärdensprachetelephonsteuergerät 110 ausgeführt werden, in dem Gebärdensprache-Interpretationsserver 1300 ausgeführt. Wegen dieser wie obenerwähnten Konfiguration wird ermöglicht, ein System anzubieten, in dem die Gebärdensprachetelephongeräte für die jeweiligen Personen auf der Seite der hörgeschädigten Personen nicht erforderlich sind, wobei es lediglich erforderlich ist, an eine externe Eingangsschnittstelle eines normalen Videophongeräts ein Spezialeingabegerät oder dergleichen zur Eingabe der Handgesten anzuschließen, während die Erkennung der Gebärdensprache usw. in dem Gebärdensprache-Interpretationsserver ausgeführt werden kann; dadurch kann ermöglicht werden, daß das System umfassend im Markt verwendet wird.
In der zweiten Ausführungsform umfaßt das Gebärdensprachetelephongerät ein Fernsehgerät 1304, eine Kamera 1314, ein Mikrophon 1322, einen Lautsprecher 1318 und einen Modusschalter 1346, während es außerdem mit einem Spezialhandschuh 1308 wie etwa einem Cyber Glove (das Warenzeichen von Virtual Technologies) (wobei natürlich die Verwendung eines Data Glove möglich ist) versehen ist. Die Haupteingaben des Gebärdensprachetelephonsteuergeräts 1306 sind die Eingabe von einem Handschuh und die Eingabe der Modusdateneinstellung von dem Modusschalter 1346. Die Eingangsdaten werden über das Videophonsteuergerät 1324 an den Gebärdensprache-Interpretationsserver 1300 übertragen. Die von der Kamera 1314 eingegebenen Bilddaten werden über das Videophonsteuergerät 1324 an den Gebärdensprache-Interpretationsserver 1300 übertragen. Die Kamera 1314, der Lautsprecher 1318 und das Mikrophon 1322 sind an das Videophonsteuergerät 1324, d. h. an den von der ersten Ausführungsform verschiedenen Punkt, angeschlossen. Das liegt an der Tatsache, daß die Daten des Bildes oder der Stimmen über das Netzwerk direkt mit dem Gebärdensprache- Interpretationsserver ausgetauscht werden. (In der ersten Ausführungsform ist diese Ausrüstung an das Gebärdensprachetelephonsteuergerät 110 angeschlossen.)
Das Gebärdensprachetelephongerät ist an ein Weitverkehrsnetzwerk 1307 angeschlossen, wobei das System so aufgebaut ist, daß auf den Gebärdensprache-Interpretationsserver 1300 über das Gebärdensprachetelephongerät zugegriffen werden kann. Auf die gleiche Weise wie im Fall der ersten Ausführungsform umfaßt das Videophongerät ein Fernsehgerät 1328, eine Kamera 1338, ein Mikrophon 1334, einen Lautsprecher 1342 und ein Videophonsteuergerät 1330. Außerdem ist dieses Videophongerät an das Weitverkehrsnetzwerk 1307 angeschlossen.
Es wird der Betrieb der zweiten Ausführungsform erläutert. Die von dem Gebärdensprachetelephonsteuergerät 1324 gesendeten Handgestendaten oder Bilddaten werden zur Übersetzung aus der Gebärdensprache ins Japanische verwendet, wobei die Gebärdensprache in dem Gebärdensprache-Interpretationsserver 1300 unter Verwendung der Daten ins Japanische übersetzt wird, ein in Fig. 9 gezeigtes Bild als Darstellungsbild erzeugt und zusammen mit der erzeugten synthetisierten Stimme an das Videophonsteuergerät 1330 übertragen wird.
Die von dem Videophon 1330 gesendete Stimme wird in dem Gebärdensprache-Interpretationsserver 1300 erkannt und zu japanischen Zeichen gemacht und in die Gebärdensprache übersetzt. Es wird ein wie in Fig. 8 gezeigtes Bild als Darstellungsbild erzeugt und an das Videophonsteuergerät 1324 auf der Seite einer hörgeschädigten Person übertragen.
Wie oben beschrieben wurde, wird das System gemäß der zweiten Ausführungsform gemäß der Zentralsteuerung des Gebärdensprache-Interpretationsservers 1300 organisiert; dadurch wird bei Verwendung der mit Videophongeräten vorbereiteten Netzwerkumgebung die Kommunikation zwischen mehreren Gebärdensprachetelephongeräten und Videophongeräten oder zwischen Gebärdensprachetelephongeräten ermöglicht.
Die Technologie der Kommunikation zwischen verschiedenen Fremdsprachen und der Gebärdensprache durch Vorsehen einer Fremdspracheübersetzungseinheit oder zwischen der Stimme von einem normalen Telephon und der Gebärdensprache ist ebenfalls auf die zweite Ausführungsform anwendbar.
Als Mittel zur Eingabe der Gebärdensprache wird in der ersten und in der zweiten Ausführungsform ein Spezialhandschuh wie etwa der Data Glove verwendet; allerdings ist die vorliegende Erfindung auf den Fall anwendbar, in dem die Gebärdensprache ohne Verwendung eines Data Glove als Bilder eingegeben und in der Bilderkennungseinheit erkannt wird. Neben den obenerwähnten Beispielen sind erforderlichenfalls verschiedenartige Kombinationen der in den Ausführungen beschriebenen Fälle oder ihrer Abwandlungen möglich.
Gemäß der vorliegenden Erfindung wird ermöglicht, ein einfaches Gerät anzubieten, mit dem eine hörgeschädigte Person, die die Gebärdensprache nutzt, mit einer normalen Person an einem fernen Ort, die die Gebärdensprache nicht kennt, sprechen kann. Es wird die Fernkommunikation (das Gespräch) in der Gebärdensprache über ein existierendes Netzwerk ermöglicht.
Ferner kann entweder der Übersetzungsmodus oder der Nichtübersetzungsmodus ausgewählt werden, wobei in dem Nichtübersetzungsmodus eine von der Gebärdensprache verschiedene Handbewegung während der Verwendung eines Gebärdensprachetelephongeräts nicht übersetzt wird; dadurch wird der Freiheitsgrad bei Verwendung des Gebärdensprachetelephongeräts erhöht. Das aktuelle Bild einer hörgeschädigten Person wird nicht an ein Videophongerät auf der Seite einer normalen Person ausgegeben, wobei die Darstellung auf dem Videophon mit einer Gebärdenspracheanimation erfolgen kann, was wesentlich beim Schutz der Privatsphäre hilft. Da das Gebärdensprachetelephongerät auf der Seite einer hörgeschädigten Person und die Darstellung auf dem Videophongerät auf der Seite einer normalen Person miteinander synchronisiert sind, kann eine gute Kommunikation genutzt werden.
Durch Kombination der Stimme, des Bildes, des Zeichens oder der Gebärdenspracheanimation kann eine Antwortnachricht für einen Telephonanruf, der erfolgt, wenn niemand zu Hause ist, erzeugt werden, was die Privatsphäre wirksam schützt. Die Zeichen, die ein Ergebnis der Spracherkennung einer normalen Person sind, werden zusammen mit einem beim Übersetzen des Erkennungsergebnisses der Gebärdensprache erhaltenen Schriftzug auf einem Videophongerät auf der Seite einer normalen Person dargestellt, so daß eine Person auf der Seite einer normalen Person bestätigen kann, ob der Inhalt ihres Gesprächs richtig an das Gebärdensprachetelephongerät übertragen wird.

Industrielle Anwendbarkeit

Wie oben beschrieben wurde, ist die vorliegende Erfindung als Gebärdensprachetelephongerät, das über eine Telephonleitung wie ein Netzwerk (öffentliches Netzwerk) an ein Videophon- oder an ein Sprachtelephongerät angeschlossen werden kann, zur Verwendung für das Gespräch zwischen einer hörgeschädigten Person, die die Gebärdensprache nutzt, und einer normalen Person an einem fernen Ort, die die Gebärdensprache nicht kennt, geeignet.

Claims

1. Ein Gebärdensprachetelefonsystem das ein Gebärdensprachetelefonsteuergerät (110), eine Kamera (102, 212) und ein Gebärdenspracheeingabemittel (213), das Positionsdaten von Handgesten als Eingabemittel zur Eingabe der Gebärdensprache ausgibt, und ein Videophongerät enthält, mit

einem Gebärdensprache-nach-Japanisch- Übersetzungsteilsystem, das

eine Gebärdenspracheerkennungseinheit (320), welche die eingegebene Gebärdensprache erkennt und in eine Gebärdensprachezeichenfolge übersetzt;

eine Gebärdensprache-nach-Japanisch-Übersetzungseinheit (324, 334), welche die Gebärdensprachezeichenfolgen aus der Gebärdenspracheerkennungseinheit ins Japanische übersetzt;

eine Spracherzeugungseinheit (350), welche das übersetzte Japanisch als Stimme umsetzt; und

ein Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem (416, 438) enthält, das Stimmen vom Videophongerät in Gebärdensprachezeichenfolgen übersetzt und anschließend eine Gebärdenspracheanimation erzeugt, wobei das Japanisch-nach- Gebärdensprache-Übersetzungsteilsystem (416, 438) eine Gebärdenspracheanimations-Erzeugungseinheit (438) enthält, dadurch gekennzeichnet ist, dass es ferner

eine Gesten-in-Gebärdensprache-Animationsumsetzungseinheit (328) enthält, die Bewegungen unter Benutzung der Positionsdaten von Handgesten der eingegebenen Gebärdensprache verwendet, wobei das Gebärdensprachetelefonsteuergerät (110) derart betrieben werden kann, dass es entweder Bilder der Kamera oder Bewegungen die durch die Gesten-in- Gebärdensprache-Animationsumsetzungseinheit (328) erzeugt wurden selektiv zu dem Videophongerät sendet, und operativ über ein Netzwerk mit dem Videophongerät verbunden ist, wobei die erzeugte synthetischen Stimmen zu dem Videophongerät über das Netzwerk gesendet werden.

2. Ein Gebärdensprachetelefonsystem nach Anspruch 1, worin das Gebärdensprachetelefongerät enthält: einen Fernseher (104), die Kamera (102), Mikrofon (122), Lautsprecher (126) und das Gebärdenspracheeingabemittel, wobei das Gebärdensprachetelefonsteuermittel aus dem Japanisch-nach-Gebärdensprache- Übersetzungsteilsystem (416) wiederum eine Spracherkennungseinheit enthält, die die Stimmen aus dem Videophongerät in eine Folge japanischer Zeichen umsetzt.

3. Ein Gebärdensprachetelefonsystem nach Anspruch 2, worin das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem eine Gebärdensprache-nach-Japanisch-Übersetzungskontrolleinheit enthält, die den Betrieb des Gebärdensprache-nach-Japanisch- Übersetzungsteilsystems steuert, welches einen Übersetzungs- und einem Nichtübersetzungsmodus enthält, und

im Übersetzungsmodus das Erkennungsergebnis der Gebärdenspracheerkennungseinheit (310, 320) so gesteuert wird, um an die Gebärdensprache-nach-Japanisch-Übersetzungseinheit (324) übermittelt zu werden, und

im Nichtübersetzungsmodus das Erkennungsergebnis der Gebärdenspracheerkennungseinheit so gesteuert wird, um nicht an die Gebärdensprache-nach-Japanisch-Übersetzungseinheit (324) übermittelt zu werden.

4. Ein Gebärdensprachetelefonsystem nach Anspruch 3, worin das Gebärdensprachetelefongerät mindestens ein Mittel unter den folgenden Mittel enthält:

ein Mittel zur Wahl des Modus, dem Übersetzungs- oder dem Nichtübersetzungsmodus, mit Hilfe eines Knopfes,

ein Mittel um das folgende zu entscheiden: es wird entschieden den Übersetzungsmodus anzuwenden wenn das Gesicht oder der Körper nach vorne zeigt und es wird entschieden den Nichtübersetzungsmodus anzuwenden wenn das Gesicht oder der Körper nicht nach vorne zeigt,

ein Mittel um zu entscheiden, dass der Nichtübersetzungsmodus angewendet wird wenn eine Hand in der Home-Position ist,

ein Mittel um zu entscheiden, dass der Nichtübersetzungsmodus angewendet wird wenn die Handbewegungen anhalten, und

ein Mittel in dem Handgesten die den Übersetzungsmodus und den Nichtübersetzungsmodus anzuzeigen, vorher gesetzt werden, und in dem die Anwendung des Übersetzungsmodus oder des Nichtübersetzungsmodus aufgrund dieser Handgesten entschieden wird.

5. Ein Gebärdensprachetelefonsystem nach Anspruch 2, worin die Gesten-in-Gebärdensprache-Animationsumsetzungseinheit (438) Animationen durch die Benutzung der positionsabhängigen Daten der Handgesten in der Gebärdensprache erzeugt, die von dem Gebärdenspracheeingabemittel als die Daten, zum Bewegen der Animationen und zum Erzeugen der Animationen, eingegeben wurden.

6. Ein Gebärdensprachetelefonsystem nach Anspruch 5, worin das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem einen aktuellen Bildmodus, einen Animationsmodus und einen Unterdrückungsmodus enthält, und auch eine Bilderzeugungseinheit (332) enthält, um den Betrieb der Gebärdensprachenach-Japanisch-Übersetzungsteilsystems zu steuern, das eine in der Geste-nach-Gebärdensprache- Animationsumsetzungseinheit (438) erzeugte Gebärdenspracheanimation und ein aktuelles Bild der Kamera (102) eingibt, und es so durch die Bilderzeugungseinheit (332) gesteuert wird, dass im Fall des aktuellen Bildmodus aktuelle Bilddaten dargestellt werden, im Fall des Bewegungsmodus eine Gebärdenspracheanimation dargestellt wird und im Falle des Unterdrückungsmodus Bilder nicht dargestellt werden oder ein zuvor aufgenommenes Standbild dargestellt wird.

7. Ein Gebärdensprachetelefonsystem gemäß Anspruch 6, worin das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem eine Anrufbeantwortersteuereinheit (366) enthält, die für einen im Anrufbeantwortermodus eingegangenen Telefonanruf, eine Antwortnachricht generiert, unter Benutzung aktueller von der Kamera (102) eingegeben Bilder, in der Gesten-zu- Gebärdensprache-Animationsumsetzungseinheit (438), generierten Gebärdensprachebewegungen, einem aus zuvor registrierten Standbildern ausgewählten Bild, durch Übersetzung der Gebärdensprache ins Japanische in der Gebärdensprache-nach- Japanisch-Übersetzungseinheit (324) erhaltenen japanischen Zeichen, und in der Spracherzeugungseinheit erzeugten Stimmen.

8. Ein Gebärdensprachetelefonsystem nach Anspruch 5, wobei das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem eine erste Bild-, Stimm-, und Schrift-Synchronisierungseinheit (356) enthält, die Bilder und Sprache, die zu dem Videophongerät in erstellten Bildern, einem Schriftzug und Sprache übertragen werden sollen, erzeugt, während es in der Bilderzeugungseinheit (232) erzeugte Bilder, eine Folge japanischer Zeichen, die in der Gebärdenspracheübersetzungseinheit erzeugt wurde und die in der Sprachgenerationseinheit (350) erzeugten Stimmen wurde, synchronisiert.

9. Ein Gebärdensprachetelefonsystem nach Anspruch 8, worin das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem eine Videophon-Bilderzeugungseinheit enthält, welche Bilder, die zu dem Videophongerät geschickt werden sollen, dadurch erzeugt, dass es japanische Schriftzeichen, die das Ergebnis der Erkennung in der Spracherkennungseinheit in dem Japanisch-nach- Gebärdensprache-Übersetzungsteilsystem sind, zu einem Bild hinzufügt, das in der Bild-, Stimm- und Schrift- Synchronisationseinheit (356) erzeugt wurde.

10. Ein Gebärdensprachetelefonsystem nach Anspruch 2, worin das Gebärdensprachetelefongerät ein Mittel zur Darstellung von japanischen Schriftzügen enthält, die das Ergebnis der Übersetzung der von dem Gebärdenspracheeingabemittel eingegebenen Gebärdensprache ist, in einem Teil des Bildes, das zu dem Videophongerät übertragen werden soll, einfügt.

11. Ein Gebärdensprachetelefonsystem nach Anspruch 2, worin das Gebärdensprachetelefongerät ein Mittel enthält, um einen japanischen Schriftzug, der das Ergebnis der Übersetzung der durch das Gebärdenspracheeingabemittel eingegebenen Gebärdensprache ist, und mindestens mehr als eine, in der Animationserzeugungseinheit aus dem Gebärdesprachenerkennungsergebnis generierter Animation, Animationen in einem Teil des Bildschirms des Fernsehers (104) anzuzeigen.

12. Ein Gebärdensprachetelefonsystem gemäß Anspruch 2, wobei das Japanisch-zu-Gebärdensprache-Übersetzungsteilsystem eine Japanisch-nach-Gebärdensprache-Übersetzungseinheit (416), die Japanisch, das in der Spracherkennungseinheit (412) erkannt wurde, in Gebärdensprache übersetzt und die Gebärdenspracheanimationserzeugungseinheit, die übersetzte Gebärdensprache als eine Gebärdenspracheanimation darstellt, enthält.

13. Ein Gebärdensprachetelefonsystem gemäß Anspruch 12, wobei das Japanisch-nach-Gebärdensprache-Übersetzungsteilsystem eine zweite Bild-, Sprach- und Schriftsynchronisationseinheit (442) enthält, die einen Schriftzug, Gebärdenspracheanimationen und Bilder, in Synchronisation mit einem Schriftzug, einem Erkennungsergebnis in der Spracherkennungseinheit (412), in der Gebärdenspracheanimationserzeugungseinheit (438) erzeugten Gebärdenspracheanimationen und von dem Videophongerät übermittelten aktuellen Bilden, erstellt.

14. Ein Gebärdensprachetelefonsystem gemäß Anspruch 12, worin das Gebärdensprachetelefongerät ein Mittel enthält, um das in der Spracherkennungseinheit (412) erkannte Ergebnis, in die Gebärdensprache zu übersetzten und die übersetzte Gebärdensprache in einen Teil des Bildschirms des Fernsehgeräts (104) als in der Gebärdenspracheanimationserzeugungseinheit erzeugte Gebärdenspracheanimation (438), darzustellen.

15. Ein Gebärdensprachetelefonsystem gemäß Anspruch 14, wobei das Gebärdensprachetelefongerät mindestens eines der folgenden zwei Mittel enthält:

ein Mittel ist ein Darstellungsmittel, um zwei Anzeigebereiche wie unten beschrieben abwechselnd auf dem Fernsehbildschirm darzustellen:

einer ist eine Bilddarstellungsfläche, um das aktuelle, vom Videophon übertragene, Bild darzustellen,

und der andere ist eine Bilddarstellungsfläche, um die in der Gebärdenspracheanimationserzeugungseinheit durch Erkennen der, über das Videophon übertragenen und in Animationen übersetzten, Sprachen Gebärdenspracheanimationen, darzustellen;

ein anderes Mittel ist ein Vergrößerungsmittel, um den Anzeigebereich für die Gebärdenspracheanimationen, die in der Gebärdenspracheanimationserzeugungseinheit durch Erkennen der vom Videophon übertragenen und in die Gebärdensprache übersetzte Sprache erzeugt wurde, darzustellen.

16. Ein Gebärdensprachetelefonsystem gemäß Anspruch 2, worin das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem ein Mittel beinhaltet, das es ermöglicht, die Sprachqualität oder die Anpassung der Sprachsynthese zu wählen.

17. Ein Gebärdensprachetelefonsystem gemäß Anspruch 1, worin das Gebärdensprachetelefongerät ein Sprachübersetzungsmittel enthält, das es erlaubt, Kommunikation zwischen Gebärdensprache in einer ersten Sprache und Stimmen in einer zweiten Sprache auszuführen.

18. Gebärdensprachetelefonsystem gemäß Anspruch 5, worin das Gebärdensprache-nach-Japanisch-Übersetzungsteilsystem auch noch Gesichtsausdrücke, die über die Kamera (102) aufgenommen wurden, erkennt; worin die Gesten-nach-Gebärdensprache- Animationsumsetzungseinheit (328) weiterhin, durch Erkennen des Gesichtsausdruckes, Animationen erzeugt.