JPH02502149A

JPH02502149A - 音声命令によって通話を終了させる方法

Info

Publication number: JPH02502149A
Application number: JP63507506A
Authority: JP
Inventors: ガーソン，イラ　アラン; リンズレイ，ブレッド　ルイス
Original assignee: モトローラ・インコーポレーテッド
Priority date: 1987-10-02
Filing date: 1988-08-24
Publication date: 1990-07-12
Anticipated expiration: 2012-11-05
Also published as: IL87377A0; AU609527B2; IL87377A; EP0393059B1; BR8807726A; JP2673716B2; KR890702345A; KR960004692B1; DE3853294T2; WO1989003139A1; ATE119724T1; AU2382688A; EP0393059A1; DE3853294D1; EP0393059A4; AR244482A1; CA1290871C

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】音声命令によって通話を終了させる方法技術分野本発明は、一般的に、音声認識制御システムに関する。

ざらに詳しくは、本発明は、特に移動無線電話機を利用する場合に生じるような雑音の多い環境で使用するのに適したハンドフリー音声命令制御システムに関する。

背景技術一般的に、無線電話システムおよび地上線電話システムのいずれの場合にも、ユーザはハンドセットによって通信を行ない、このハンドセットはユーザの耳の近くに位置する一端にスピーカを有し、他端にはユーザの口の近くに位置するマイクを有する。動作中、ユーザの一方の手はハンドセットを適切な方向に保持するためにふさがれるので、自動車を運転する等の動作は、ユーザの空いた方の手のみによって行わなければはならない。ユーザにより大きな自由度を与えるため、地上線電話システムにおいては、通常スピーカ電話機が利用される。近年、自動車に使用する移動スピーカ電話機が開発された。例えば、いずれも本発明と同一の出願人に付与されたイーストモンドによる米国特許第４，３７８，６０３号および、ビルムアによる米国特許第４，４００，５８４号にハンドフリー操作の移動電話機が述べられている。

ハンドフリー制御システムとは、人間の声に応答し、自動車用の用途に特に望ましいものである。はとんどの移動無線電話機の送受信機としての機能（例えば、オン／オフ、送信／受信、音量、スケルチ等）、または移動無線電話機としての機能（例えば、押し釦ダイヤル、音声認識装置の学習、通話返答）は、如何なる手動操作を必要とすることなく、音声命令によって容易に実現可能である。したがって、移動スピーカ電話機に音声認識を使用すると、自動車の運転者がハンドルから手を離したり、道路から目をはなしたりする必要がなく、手を全く使用する必要のない通話を行える潜在的可能性がある。この特徴によって、手を使用しないで行える能力を拡大するばかりでなく、自動車で移動無線電話機を使用する場合の安全性と便利性も与えられる。

残念ながら、移動無線電話機に完全なハンドフリー制御を適用すると、幾つかの重要な障害が生じる。移動環境に音声認識を使用する場合、自動車に固有の高いレベルの周辺の雑音が音声制御の信頼性に無視できない問題を生じる。

さらに一般に移動スピーカ電話機のマイクロフォンは、一般的に頭上にある自動車のサン・バイザに取付けられる等ユーザの口から離れている。したがって、これに必要な高いマイク感度によって、音声認！ｉ！装置に入力される周囲のバックグランドノイズ量が大幅に増大し、これはこのＶ、Ｈの認識に対する信頼度を低下させる。

しかし、ざらに重要なことは、音声認識の誤動作の問題である。もし、音声命令制御装置が「通話に対する返答」命令を誤って識別した場合、通話装置が必要でないときに「オフ・フック（受話器を外した）」状態となり、これは一般に一寸した不便に過ぎない。しかし、もし制御装置が「通話終了」命令を誤って検出した場合、この制御装置は装置を「オン・フック（受話器を置いた）」状態にし、この通話は予期せず終了してしまい、このことは少なくとも、ユーザにかなりの欲求不満を与える。したがって、通話終了命令に対する音声認識の誤動作は、他の命令語よりもざらに重大な結果を生じる。

このような理由によって、ハンドフリー電話機で通話を終了させる従来技術は、厳しい制限を受けていた。大半のシステムは、通話はなお手動で返答し終了しなければならないため、完全にハンドフリーではない。例えば、セルラー移動無線電話機は音声命令ダイヤルの特徴を提供できても、この電話機の場合、ユーザは、音声命令システムを動作させるため、しばしば受話器を取上げる必要がある。

他の移動電話システムの場合、ユーザはハンドルに取付けた「通話終了」釦を動作させる必要がある。ざらに、他の音声制御電話機システムは、単一の独立した８葉の識別テンプレート（ｒｅｃｏｇｎｉｔｉｏｎ　ｔｅｍｐｌａｔｅ）に対応する音声命令を認識することによって、通話を終了させる。雑音レベルが高い環境では、実際上音声量ｉ装置が誤動作し、通話を不用意に終了させる可能性がある。ざらに、ユーザが通話中不用意に音声命令語を発した場合、通話が終了する可能性がある。この誤動作の可能性は、音声認識装置がユーザの音声の多様な特性に強力に対応できる望ましい特徴を持つことによって、ざらに増大する。

したがって、ハンドフリー通話装置において、音声命令によって通話を終了させるだめの信頼できる方法を提供する必要がめる。

発明の概要したがって、本発明の一般的な目的は、音声命令によって電話の通話を終了させる改良した方法と装置を提供することである。

ざらに本発明の特定の目的は、誤って通話を中断することが殆ど無く、完全にハンドフリー操作の可能な改良したユーザと相互に作用可能な音声命令制御システムを提供することである。

本発明によって、音声通話装置が提供され、この装置は、ユーザの話した命令語に応答して音声命令制御システムによって与えられた命令信号によって制御される。この音声命令制御システムは音声認識ユニットを有し、これはユーザが発した第１の発声を予め設定した第１命令語に対応するものとして認識し、この認識に応答して第１検出信号を導出し、ユーザが発した第２の発声を予め設定した第２命令語に応答するものとして認識し、これに応答して第２検出信号を導出する。この制御システムはさらに、デバイス゛制御装置を有し、この装置は所定の識別時間間隔内に第１検出信号に続いて第２検出信号の発生する場合にのみ、これに応答して命令信号を発生し、この結果、もし予め設定した最大中断時間間隔を超過した場合、第２命令語を認識しても、命令信号は発生されない。

好適な実施例の場合、ハンドフリーなユーザと相互に作用可能な音声命令制御システムは、移動スピーカ電話機を用いた自動車無線電話機に使用される。この制御システムは、オフ・フック・モードから無線電話機を切替える機構を有し、この場合、オン・フック・モードで通話経路が形成され、オン・フック信号に応答して通話経路が遮断される。この制御システムは、またユーザが発した第１の発声を第１の予め設定した終了命令語に応答するものとして認識し、この認識に応答して第１検出信号を導出する機構。

ユーザが発した第１の発声の終了とユーザが発した第２の発声の開始との間の時間間隔を測定し、この時間間隔が所定の中断時間間隔内の場合のみ、時間信号を発生するタイマ、ユーザが発した第２の発声を第２の予め設定した終了命令語に応答するものとして認識し、この認識に応答して第２検出信号を導出する機構、タイマ信号と連続して発生する第１および第２検出信号にのみ応答して遮断信号を発生する判定機構、遮断信号に応答、しユーザに指示を行う音声合成器、続いてユーザが発した発声を予め設定したエラー命令語に対応するものとして認識し、この認識に応答してエラー信号を導出する機構、およびもし遮断信号の発生の後、エラー信号が所定の再接続期間内に発生しない場合にのみ、遮断信号に応答してオン・フック信号を発生する訂正機構を有し、その結果、所定の再接続時間間隔内にエラー命令語を認識することによって、終了命令語の認識が通話経路を終了させるのを防止する。

図面の簡単な説明第１図は、本発明によるハンドフリー・スピーカ電話機を用いる通話装置用の音声命令制御システムのブロック図である。

第２Ａ図および第２Ｂ図は、本発明の好適な実施例である制御システムにより実行される動作の特定の詳細なシーケンスを示すフローチャートである。

発明を実施するための最良の形態新規であると信じられる本発明の特徴は、特に添付の請求の範囲に詳しく述べられる。しかし、本発明自体は、この他の目的および利点と共に、添付図面と組合わせて以下の詳細な説明を参照することにより、最もよく理解される。

音声認識は、雑音の多い環境において誤動作しやすい。

したがって、本発明はたとえ適切な命令シーケンスが認識された場合でも、通話を継続する能力を提供するため、ユーザとの情報の相互作用と共に、時間の定まった語間の中断間隔を有する所定の２語の命令シーケンスを使用して通話終了手順を開始する。連続する２つの発声の認識を必要とする音声認識文法構造を使用することにより、連続して音声認識装置を使用した場合でも、通話中に発生する誤認識の可能性を受容可能なレベルまで大巾に減少することができる。もし選択した特定の命令語が複数の音節を有する場合、このシステムの信頼性はざらに強化される。さらに、本発明は、もし音声合成装置が誤動作した場合、またはユーザが正しい命令を話そうとしなかった場合でも、ユーザに通話を継続する手段を提供する。その結果、本発明は、周囲の雑音が高い条件においても、ユーザが高い信頼性で音声命令によって電話の通話を遮断することを可能にする。

一般的に、この制御システムは、特定の音声命令に対応するユーザの発声の認識を行うために待機している。好適な実施例の場合、通話の終了命令を表すために２つの単語ＴＥＲＭＩＮＡＴＥ　　（終了）　トＣ０ＮＶＥＲ３ＡＴＩＯＮ　（会話）を選択シタ。

ＴＥＲＭＩＮＡＴＥとＣ０ＮＶＥＲ３ＡＴＩＯＮトイう語は、い−ｆれもｍ−コノ語順にｍ−、両車語間にできるだで短いポーズをおいて認識さレネＬｆならない。コレら（７）ＴＥＲＭＩＮＡＴＥ　トＣ０ＮＶＥＲ３ＡＴＩＯＮという単語が認識されると、この制御システムは、ＴＥＲ）ＩＩ−ＮＡＴＥという単語を合成し、通話が終了しつつあることを指示する。この時点において、制御装置は受信した音声を出力せず、所定の再接続時間間隔、例えば５秒間、待機した後通話を終了させる。もし、ユーザが５秒間の待機時間中にＣ＾ＬＬ（通話）という言葉を発声した場合、制御装置は「ブザー音」を合成して通話が終了しないことを示し、受信した音声を出力する。そこで制ｍ装置は通話を終了させない。通話終了手順の間にユーザとの間の相互作用のフィードバックを行うこの方法によれば、もし音声認識装置が誤動作した場合、またはユーザがうつかり適切な命令語のシーケンスを発声した場合でも、ユーザは通話を再接続することが可能になる。

ここで添付図面を参照して、第１図は本発明のユーザとの間の相互作用制御システム１００の一般的なブロック図を示す。このシステムは、基本的に音声通信装置１４０に接続されたデバイス制ｉ［ｌ装置１２０によって構成される。

このシステムは、特に電話機ハンドセットよりむしろスピーカ電話機と共に使用され、それにより、ユーザの手は自由となり他の操作を行うことができる。スピーカ電話機１５０は、このハンドフリーの特徴を与えるため、音声経路の方向を制御する。音声認識装置１１０は、ユーザからの口頭による命令を命令信号に変換するため、スピーカ電話機とデバイス制ＷＪ装置に結合される。このデバイス制御装置は、音声認識装置とタイマ１２４から来る情報を監視する。制御装置は、タイマをリセットする能力、通信装置をオン・フック状態にする能力、テンプレートを選択し音声認識装置１１０を動作させる能力、およびユーザにフィードバックするために音声合成装置１３０に情報を提供する能力を有する。

音声通信装置１４０は、例えば、双方向無線システム、電話システム、インクコム・システム等のようないずれかの無線または地上線音声通信システムの部分を有してもよい。本実施例では、音声通信装置１４０は、セルラー移動無線電話機のような無線電話送受信機である。このような無線電話機の詳細な説明は、ｒＤＹＮＡ　　Ｔ、Ａ、Ｃ，■セルラー移動電話機」とう名称のモトローラ社取扱い説明書６８Ｐ８１０６６Ｅ４０号に記載されている。しかし、ハンドフリーなユーザとの間に相互作用動作を保証する音声通信装置ならいずれを使用してもよい。例えば、ハンドフリー制御を必要とするいずれの地上線電話機または単方向無線送受信機もまた、本発明を利用することが可能である。

音声通信装置１４０は、送信経路１４４と受信経路１４２を利用して送信／受信音声を通信チャンネルにインターフェースする。自動車無線電話機の好適な実施例では、これらの経路は、全二重無線電話動作（ｄｕｐｌｅｘ　ｒａｄｉｏｔｅｌｅ−ｐｈｏｎ　ｏｐｅｒａｔｉｏｎ　）のため１対の無線周波数（ＲＦ）チャンネルに対してインターフェースを行うことが可能であり、または単方向動作のために単一のＲＦチャンネルに対してインターフェースを行うことも可能である。

音声認識装置１１０は、入力音声信号１５８に基づいて音声認識を実行する。識別中、音声比！ｉ！装置１１０は以前に記憶していた言語テンプレートを入力音声情報と比較する。本実施例の識別アルゴリズムは、はぼテンプレートとの整合を決定するため、はぼ連続的な音声認識、動的時間ワービング（ｗｏｒｐｉｎｇ）　、エネルギの正規化、およびチェビシェフ間隔測定を含む。ＩＥＥＥ音Ｖ＃言語および信号処理区ｔｕｂ　ｍ員ｅｌｌ（ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎＡｃｏｕｓｔｉｃ　５ｐｅｅｃｈ　ａｎｄ　５ｉａｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ）　（１９８２年３月３日−５日）第２巻、８９９−９０２頁に記載されたＪ。

Ｓ、プライドル、Ｍ、Ｄ、ブラウンおよびＲ，Ｍ、チャンバーレインによる「結合語の認識アルゴリズム」　（＾ｎＡ１ｇｏｒｉｔｈｍ　ｆｏｒ　Ｃｏｎｎｅｃｔｅｄ　Ｗｏｒｄ　Ｒｅｃｏｇｎｉｔｉｏｎ）のような従来技術の認識アルゴリズムもまた使用可能である。

本実施例では、８ビツトのマイクロコンピュータが音声認識装置１１０の機能を実行する。ざらに、第１図の他の幾つかの制御システム・ブロックは、Ｃ０ＤＥＣ／ＦＩＬＴＥＲとＤＳＰ（デジタル信号処理装置）の支援によって同じマイクロコンピュータによって部分的に実行される。

ブロック１１０の機能を実行するために使用可能な音声比Ｉ装置は、Ｊ、ペックハム、Ｊ、グリーン、Ｊ、キャニング、およびＰ、ステイーブンスによる「実時間ハードウェア連続音声認識システムＪ　（Ａ　Ｒｅａｌ−Ｔｉｍｅ　Ｈａｒｄｗａｒｅ　Ｃｏｎ−Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ、　５ｐｅｅｃｈ、　ａｎｄＳｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ）　（１９８２年３月３日−５日）、第２巻、８６３−８６６頁およびここに含まれる参考文献に述べられている。しかし、本発明は、いかなる特定のハードウェアまたはいかなるタイプの音声認識にも限定されるものではない。特に、本発明は、特定話者または非特定話者の音声認識、分離または連続的音声認識、およびソフトウェアを基本とした、またはハードウェアを基本とした実行を使用を意図するものである。

デバイス制御装置１２０は一般にマイクロプロセッサであって、これは音声通信装置１４０、音声量ＩＥ装置１１０、および音声合成装置１３０の間のインターフェースを行う。

デバイス制御装置１２０は、音声認識装置１１０によって与えられたデバイス制御データ１１２を制御信号に変換し、これらの信号は特定の音声通信装置によって認識することができる。これらの制御信号は、ユーザによって命令された特定の動作機能を実行するために装置に命令を与える。

例えば、もしユーザが発した発声が予め設定した通話返答命令または通話終了命令に対応する場合、デバイス制ｍ＋装置１２０は、制御バス１４８を介し適切なフックスイッチ（ｈｏｏｋｓｗｉｔｃｈ）制御信号を発生する。制御装置１２０は、また制御ヘッドのロック解除、電話番号または他の動作機能の番号のダイアル等のような音声通信装置１４０の伯の機能である音声命令制御を実行する。

装置制御装置１２０は、また音声通信装置１４０の動作状態を表す装置状態データ１２２を発生する。このデータは、音声合成装置１３０に供給され、スピーカ１７６から出力されると、ユーザが認識できる音声に変換される。例えば、ユーザの発した発声が予め設定された音声命令に対応する場合、音声合成装置１３０はその認識に応答してユーザに対する指示を合成する。状態情報はまた、音声によるダイアル・システム中に格納した名前および電話番号（［事務所、５５５− １２３４Ｊ等）、音声認識状態情報（「用意」、「終了しますか？」等）、または無線電話状態情報（「通話が終了しました」、「システムが混んでいます」等）を有してもよい。

本実施例では、言語合成装置１３０として１９チヤンネルのボコーダ（Ｖｏｃｏｄｅｒ）が使用される。このようなボコーダの例は、Ｊ、Ｎ、ホルムスによるｒＪＳＲＬＪチャンネル・ボコーダＪ　（Ｔｈｅ　ＪＳＲＵ　Ｃｈａｎｎｅｌ　Ｖｏｃｏｄｅｒ）と題する１９８０年２月付けＩＥＥ発行第１２７巻、パートド１第１号、５３ないし６０頁に見ることが可能である。しかし、当業者に明らかなように、他のいかなる音声合成装置でも利用可能である。ざらに、本発明は、ユーザに指示を与えるいがなる手段も音声合成ブロック１３０の基本的な返答機能を実行することを意図している。例えば、禍覚的指示（例えば、ＬＥＤ、ＬＣＤ、ＣＲＴ等）または聴覚的表示（例えば、トーン発生器または他の聴覚信号）で代替することが可能である。

タイマ・ブロック１２４は、ユーザが発した第１の発声の終了とユーザが発した第２の発声の開始との間の時間間隔の測定と、予め設定したＴＥＲ）ＩＩＮＡＴＥ命令が認識されてからの再接続時間間隔の測定を行う。これらの時間間隔は、データ・バス１２６を介して制御装置１２０によって初期化、読取り、およびリセットされることが可能である。これらタイマの動作は、第２図の詳細な説明を参照すること。

スピーカ電話機１５０は、ハンドフリー制御システムの送信／受信音声切替え機能と受信音声／返答音声の多重化機能を行う。ユーザが発した入力音声はマイク１５２へ入力され、このマイクは、一般にユーザの口から離れた場所（例えば、自動車のサン・バイザ上）に取付けられる。マイク１５２は、電気的な入力音声信号を発生し、この信号はプリアンプ１５３によって増幅され、入力音声信号１５４はスピーカ電話機１５０に供給される。スピーカ電話機１５０は、入力信号線１５８を介して１５４における入力音声信号を音声認識装置１１０に加える。

単方向システムでは、移動無線のユーザが話している場合、信号検出器１６０は検出出力１６２を介して正の制御信号を与え、送信音声スイッチ１５６を閉じ、検出出力１６４を介して負の制御信号を与え、受信音声スイッチ１６６を開く。

反対に、地上線の加入者が話している場合、信号検出器１６０は複数の反転した信号を発生して受信音声スイッチ１６６を閉じ、一方送信音声スイッチ１５６を開く。受信音声スイッチ１６６が閉じられている場合、音声通信装置１４０からの受信機音声１４６は、受信音声スイッチ１６６を経由し、切替えられた受信音声出力１６８を介してマルチプレクサ１７０に送られる。マルチプレクサ１７０は、デバイス制御装置１２０からの多重制御信号１２８に応答して、音声合成装置１３０からの音声返答オーディオ１３２と切替えられた受信オーディオ１６８との間のオーディオ経路を制御する。デバイス制御装置が音声合成装置に情報を送る場合はいつも、多重信号１２８はマルチプレクサ１７０に音声返答オーディオをスピーカに加えるように指示する。車両用スピーカ電話機のオーディオ１７２は、通常スピーカ１７６に供給される前にオーディオ増幅器１７４によって増幅される。

ここで説明する車両用スピーカ電話機の実施例は、多数ある可能な構成の１つにすぎない。例えば、音声認識装置１１０は、地上線加入者が話していると否とに拘らず、移動ユーザの命令に常に応答できることが望ましい。このような場合、入力音声信号１５４は、音声認識装置１１０に直接接続される。ざらに、幾つかの通信システムの場合、オーディオ・スイッチ１５６および１６６を、信号検出器からの制御信号に応答して等価だが反対の減衰を行う可変ゲイン装置に置き換えると有利である場合がある。信号検出器１６０は、また地上線加入者または移動ユーザが話しているか否かを表す信号をデバイス制御装置１２０に供給して、音声比ｉ１装置１１０が地上線加入者からの音声を誤って認識するのを防止するのに使用することができる。

さて理解できるように、デバイス制御！ｌ装置１２０はユーザとの間の相互通信ハンドフリー音声命令制御システム１００の心臓部である。技術上周知のもので本発明に使用するのに適したデバイス制御１装置の例は、マイクロプロセッサである。デバイス制ｍ装置１２０の詳細な動作が、制御システム１００用のソフトウェア・フローチャートによって説明される。

第２Ａ図と第２Ｂ図は、通話終了命令シーケンスの期間中に制御システム１００によって実行されるステップのシーケンスを説明する。ステップ２０２から始まり、制ｍ装置は、先ずステップ２０４で通信装置１４０の状態をチェックする。

もし通話が進行中でなければ、制御はステップ２０４に戻り、その結果、通話終了命令シーケンスは実行されない。もし通話が進行中であれば、制御はシーケンス２００に進み、このシーケンスは、２つの単語ＴＥＲ）ｆＩＮＡＴＥＣＯＮＶＥＲ３ＡＴＩＯＮの音声認識プロセスを示す。

適当な単Ｈ識テンプレートが先ずステップ２０６で選択される。次に、ステップ２０８で、音声認識装置１１０は、ユーザの発した発声を認識するためにイネーブルにされる。ステップ２１０で、制ｔＩ装置は、ステップ２５２で通話の遮断がユーザに対して直ちに指示されるように、電話の通話がまだ進行中であるかどうかをチェックする。この指示は「通話が切れています」のような単品の合成でもよいし、または他の可聴的または視覚的指示でよい。

もしまだ通話が行われている場合、ステップ２１２で制御装置は音声合成装置が何らかの単語を認識したかどうかをテストする。もしまだ何らの単語も認識されていないなら、制御はステップ２１０に戻り、再び通話がまだ行われているかどうかチェックする。しかし、もし単語がＫＸ識されていると、ステップ２１４で認識された単語の異なったパラメータに対して変数Ｗｌ、Ｄ１．およびＴ１を割り当てる。ざらに詳しくは、変数Ｗ１は認識された単語に割り当てられる。間隔距離、すなわち認識された単語と特定の単語のテンプレートとの整合性の量的な測定変数は、変数Ｄ１として示される。変数Ｔ１は、単語１に対応する第１の発声の終了と一致する時点に割り当てられ、これは終了時間として定義される。

ステップ２１６では、単語１に対する間隔距離Ｄ１は音声認識しきい値と比較され、これが所定の近似する程度に一致するか否かを決定する。すべての音声認識アルゴリズムは、ある量的な認識しきい値を本来的に有し、これは発声がテンプレートと一致することが決定される前に合致しなければならない。希望すれば、この音声認識しきい値は、誤動作を最小にする重要性のため、通話終了命令に対しより高度な近似に対応するよう調整することが可能である。

もしＤｌが間隔距離しきい値以上であれば、制御はステップ２１０へ戻る。もしＤｌが間隔距離しきい値未満であれば、ステップ２１８で、認識した単語が予め設定した通話終了命令に対応する正しい単Ｈａ識テンプレートに対応するか否かをチェックする。好適な実施例では、ステップ２１８は単にＷｌがＴＥＲ）ＩＩＮＡＴＥという単語であるか否かをチェックする。もし丁ＥＲＨＩＮＡＴＥという単轟吾が認識されなかったなら、制御はシーケンス２００の開始点に戻る。

もし認識された最初の単語がＴＥＲ）ＩＩＮＡＴＥであったなら、ステップ２２０でこの通話がまだ進行中であるか否か再びチェックされる。再び、通話が進行中でない場合、ブロック２５２で「通話は切れています」という指示が出力され、制御は開始ステップに戻る。もし通話がまだ進行中であれば、ステップ２２２でＴＥＲＭＩＮＡＴＥという単語の終了からどれ位の時間が経過したかをチェックする。もしこの時間が最大待機時間を超えたなら、制御はシーケンス２００に戻る。ステップ２２２は、制ｍ装置が次の発声が認識されるまで無制限に待機しないことを保証する。もしこの待機時間を超えていなければ、ステップ２２４で、第２の単語が認識されたか否かをチェックする。もし認識されないならば、ステップ２２０に戻る。もし第２の単語が認識されたならば、ステップ２２６で変数Ｗ２．Ｄ２．およびＴ２が以下のように割当てられる。Ｗ２は認識された単語に割当てられ、Ｄ２は認識された第２の単語の間隔距離に割当てられ、Ｔ２はユーザが発した第２の発声の開始時点に割当てられる。ステップ２２８で再び、正しいテンプレートの一致が実現したか否かを知るため、音声認識しきい値に対する間隔距離Ｄ２のチェックを行う。もし一致しない場合、制御はステップ２２０に戻る。もしＤ２が必要な一致しきい値未満であれば、通話終了命令の正しい第２の単語が認識されたか否か知るため、ステップ２３０で第２の単語の変数Ｗ２がテストされる。好適な実施例では、第２の単語トＬ／　Ｔ　Ｃ０ＮＶＥＲ３ＡＴＩＯＮヲ使用する。もしＷ２がＣ０ＮＶＥＲ３ＡＴＩＯＮでなければ、制御は再びシーケンス２００に向けられる。

次に、ステップ２３２で、ユーザの発した第１の発声の終了からユーザの発した第２の発声の開始迄の時間間隔、すなわち、Ｔｌ−７２が予め設定した最大中断時間間隔と比較される。これによって、２つの単語ＴＥＲＭＩＮＡＴＥとＣ０Ｎ −ＶＥＲ３ＡＴＩＯＮが、これらの単語の間の特定の中断間隔未満の間隔で発生したことが保証される。所定の中断時間間隔の選択は、適正なものであればいずれの値でもいが、１秒未満が好ましい。好適な実施例の場合、使用する最大中断時間間隔は３００ミリ秒である。もしＴｌ−Ｔ２が中断時間間隔以上であれば、制御は再びシーケンス２００に戻る。

シカし、もしＴＥＲＭＩＮＡＴＥ　Ｃ０ＮＶＥＲ８ＡＴＩＯＮが、コレラ単ｎ　Ｅ　（７）所定の中断時間間隔未満で正しい順序で認識されたなら、制御はステップ２３４に進み、ここで制ｗＪ装置はユーザにＴＥＲＭＩＮＡＴＥ　Ｃ０ＮＶＥＲ３ＡＴＩＯＮが認識サレタコトヲ指示する。再び、この指示は音声合成、視覚手段、または聴覚手段によって実行されることができる。

ステップ２３６で、再接続タイマがスタートする。再接続タイマハ、ＴＥＲＭＩＮＡＴＥ　Ｃ０ＮＶＥＲ３ＡＴＩＯＮヲＨ識シテカらの時間間隔を測定する。この時、エラー命令の認識による妨害を防止するため、受信したオーディオ音を消すことが望ましい。ステップ２３８で、再接続タイマが所定の最大再接続時間を超えたかどうか、または通話が切れたかどうかを知るため、このタイマをチェックする。好適な実施例では、このような最大再接続時間は２秒ないし１０秒の範囲であり、５秒が好ましい。もし再接続タイマがまだ終了せず、通話も依然継続している場合、制御はステップ２４０に進み、ここで音声認識装置は、予め設定したエラー命令に対応してユーザの発した発声を認識するため、プログラムされる。本実施例では、エラー命令としてＣＡＬＬという単語が使用される。もし再接続タイマが終了する前にエラー命令が認識されると、ステップ２４４で制御ｌ装置は通話が再接続されることを指示する。例えば、制ｍ装置は通話が再び継続されることを指示するため、ブザー音を合成することができ、通話を継続させるため、受信したオーディオ音を消去しない。次に、制御は、ＴＥＲＭＩＮＡＴＥ　Ｃ０ＮＶＥＲ３ＡＴＩＯＮト（、Ｎう単語を探すためシーケンス２００に戻る。もしエラー命令が再接続タイマが終了する前に認識されないと、デバイス制御装置はユーザが制御装置に電話の通話を切ることを希望していると判断する。したがって、ステップ２４６で、この制御装置は通話装置をオン・フック状態に切替える。

ステップ２４８で、音声認識装置はディセーブルされ、通話終了プロセスはステップ２５０で終了する。

要約すれば、制御装置の実行する特定のステップのシーケンスによって、本発明は、通話を終了させる信頼性のある方法を提供することが理解される。本発明では、通話終了命令認識シーケンスを認識した場合、幾つかの制約を加える必要がある。上述したように、通話終了手順に加える１１Ｊ　約ＬＩＥ、次（７）通す ’１５６　（例トＬテＴＥＲＨＩＮＡＴＥ　トＣ０ＮＶＥＲ−３ＡＴＩＯＮという単語を使用する場合）。（１）予め設定した通話終了命令は独立した２つの言語の発声でなければならない（例えば、ＴＥＲＨＩＮＡＴＥ　トＣ０ＮＶＥＲ３ＡＴＩＯＮ）　：　（２）　発声は正しい順序でなければならない（例えば、ＴＥＲＭＩＮＡＴＥが最初で、次ニＣ０ＮＶＥＲ３ＡＴＩＯＮがくる）：　（３）最初ノ発声の終了と次の発声の開始との間に最大中断時間があること（例えば、３００ミリ秒）：および（４）これが予め設定した音声認識一致基準を満足することである。さらに、確認時間間隔が設けられ、その結果、ユーザは、エラー命令を使用して通話を再接続することも可能である。

したがって、本発明によれば、高いバックグラウンド雑音レベルの環境で使用する場合でも、ハンドフリー制御システムに対して高い信頼性が提供される。例えば本発明は、ユーザが音声命令によって通話に返答し、通話を終了させようと希望するいかなる条件で使用することが可能である。

一般的に、本発明は、地上線電話機または移動電話機いずれの場合にも、ハンドフリーの機能を提供するスピーカ電話機と組合わせて使用される。しかし、本発明はまた、ハンドセット電話機またはヘッドセット型の電話機にも十分適合する。

ここで本発明の特定の実例を図示し説明したが、当業者は、ざらに変形と改良を行うことができる。特に、ＴＥＲＨＩ−ＮＡＴＥ、　Ｃ０ＮＶＥＲ３ＡＴＩＯＮ、　ａＪｌ：ヒＣＡＬＬ（７）命令語は、上述の基準に合致する英語の単語を表すものとして好適な実施例で選択されたものであるに過ぎないことを理解しなければはならない。しかし、特に異なった言語で使用する場合、もし希望すれば、他の命令語を選択することも可能である。ここに開示し、特許を請求している基本的な根底にある原理を保持するこのような変形は、全て本発明の範囲内のものである。

ト手続補正書平成２年４月６日特許庁長官　　吉　１）文　毅　殿１、事件の表示ＰＣＴ／ＵＳ８８１０２８８５２、発明の名称音声通信装置および音声命令によって通話を終了させる方法３、補正をする者事件との関係　　特許出願人名　称　　モトローラ・インコーホレーテッド６、補正の対象　　　　　請求の範囲および明細書の発明の名称の欄７、補正の内容（１）請求の範囲は別紙のとおり。

（２）発明の名称を「音声通信装置および音声命令によって通話を終了させる方法」に訂正する。

請求の範囲一ザの発する命令語に応答して前記制御システムによって与えられる命令信号によって制御される音声通信装置において、前記制御システムは：前記音声通信経路が確立されている期間少なくとも続いて起こる第１および第２のユーザの　する発声を認識する音声認識手段から構成され、前記音声認識手段は：前記音声通信経路が確立されている期間、ユーザの発した煎Ｅ第１の発声を、所定の第１命令語に対応するものとして認識し、この認識に応答して第１検出信号を導出する第１手段：ユーザの発した酸第２の発声を、所定の第２の命令語に対応するものとして認識し、７の第２命令語が認識される場合第２検出信号を導出し、前記所　の　２命令語が認識されない場合前記所定の第１命令語の前記認識を取り消す第２手段：および前記第１検出信号の後で、所定の認識時間間隔内に発生する前記第２検出信号にのみ応答して前記命令信号を発生する決定手段：によって構成されることを特徴とする音声通信装置。

２、ユーザの発した第３の発声を、所定の第３命令語に対応するものとして認識し、この認識に応答して第３検出信号を導出する第３手段：および前記第３検出信号が、前記第２検出信号の後で、所定の照合時間間隔内に発生した場合、肛星迭亙手段が前記命令語を与えるのを阻止する訂正手段；によって構成されることを特徴とする請求項１記載の音声通信装置。

３、前記所定の認識時間間隔が５秒未満であることを特徴とする請求項１記載の音声通信装置。

４、前記所定の照合時間間隔が１０秒未満であることを特徴とする請求項２記載の音声通信装置。

５、ハンドフリーでユーザと相互に作用可能な音声命令制御システムを有する音声通信装置であって、前記通信装置を通信経路の形成されるオフ・フック状態から、通信経路を遮断するオン・フック信号に応答して、前記オン・フック状態に切替える手段を含む通信装置において、前記制御システムは：前記オフ・フック状態において、ユーザの発した第１の発声を、所定の第１終了命令語に対応するものとして認識し、この認識に応答して第１検出信号を導出する第１手段；前記ユーザの発した第１の発声の終了とユーザの発する続いて起こる第２の発声の開始との間の中断時間間隔を測定し、測定した前記中断時間が所定の最大中断時間間隔未満である場合にのみ、タイマ信号を与えるタイマ手段：前記ユーザの発した第２の発声を、所定の第２終了命令語に対応するものとして認識し、前記所の第２終了命令語が認識される場合第２検出信号を導出し、前記所定の第２終了命令語が認識されない場合前記第１検出信号を取り消す第２手段：および前記タイマ信号および順次発生する前記第１および第２検出信号にのみ応答して切断信号を導出する決定手段：によって構成され、その結果測定した前記中断時間間隔が所定の前記最大中断時間を超える場合のみ、前記第２終了命令語の認識によって、前記通信経路を終了させないことを特徴とする音声通信装置。

６、前記切断信号に応答してユーザに指示を与える手段：ユーザの発した発声を、所定のエラー命令語に対応するものとして認識し、この認識に応答してエラー信号を導出する第３手段：および前記エラー信号が、前記切断信号の発生後で、所定の再接続時間間隔内に発生しない場合にのみ、前記切断信号に応答して前記オン・フック信号を導出する訂正手段；によって構成され、その結果前記エラー命令語を前記所定の再接続時間内で認識することによって、前記終了命令語の認識が前記通信経路の終了を防止させることを特徴とする請求項５記載の音声通信装置。

７、前記音声通信装置が移動無線電話機であることを特徴とする請求項５記載の音声通信装置。

８、前記音声通信装置がスピーカ電話機を含むことを特徴とする請求項５記載の音声通信装置。

９、前記第１．第２．および第３認識手段が、結合された単語による音声認識を実行することを特徴とする請求項５記載の音声通信装置。

１０、前記所定の第１および第２終了命令語が、各々少なくとも２音節を有することを特徴とする請求項５記載の音声通信装置。

１１、前記所定の最大中断時間間隔が１秒未満であることを特徴とする請求項５記載の音声通信装置。

１２、前記指示出力手段が、音声合成装置であることを特徴とする請求項６記載の音声通信装置。

１３、前記所定の再接続時間が１０秒未満であることを特徴とする請求項６記載の音声通信装置。

１４、音声認識および前記音声通信装置と他の置との間に確立された音声通信経路を制御する装置の動作を制御する能力を有する音声通信装置を制御する方法において、前記方法は：前記音声通信経路を確立する段階；ユーザが発した第１の発声を、所定の第１命令語に対応するものとして認識し、この認識に応答して第１検出信号を導出する段階：前記ユーザの発した第１の発声の終了とユーザの発する続いて起こる第２の発声の開始との間の中断時間間隔を測定し、測定した前記中断時間間隔が所定の最大中断時間間隔未満である場合のみ、タイマ信号を導出する段階；ユーザの発する続いて起こる前記第２の発声を、所定の第２命令語に対応するものとして認識し、前記所定の第２命令語が認識される場合第２検出信号を導出し、前記所定の第２命令語が検出されない場合ユーザの　する第１の発声を認識する前に艮■Δヌタ段階：および前記タイマ信号および順次に発生する前記第１および第２検出信号にのみ応答して第１装置制御信丹を導出する段階；によって構成されることを特徴とする通信装置制御方法。

１５、前記第１装置制御信号に応答してユーザに指示を与える段階；ユーザの発した第３発声を、所定の第３の命令語に対応するものとして認識し、この認識に対応してエラー信号を導出する段階：および前記第１装置制御信号の発生後で所定の再接続時間内に前記エラー信号が発生しない場合にのみ、前記第１装置制御信号に応答して第２装置制御信号を導出する段階；をざらに含んで構成されることを特徴とする請求項１４記載の方法。

１６、前記音声通信装置が移動無線電話機であることを特徴とする請求項１４記載の方法。

１７、前記音声通信装置がスピーカ電話機を含むことを特徴とする請求項１４記載の方法。

１８、全ての認識段階が、結合された単語による音声認識を使用して実行されることを特徴とする請求項１４記載の方法。

１９、前記所定の第１および第２命令語が、各々少なくとも２音節を有することを特徴とする請求項１４記載の方法。

２０、前記所定の最大中断時間間隔が１秒未満であることを特徴とする請求項１４記載の方法。

２１、前期指示を与える段階が音声合成を使用して実行されることを特徴とする請求項１５記載の方法。

２２、前記所定の再接続時間が１０秒未満でおることを特徴とする請求項１５記載の方法。

国際調査報告

Claims

【特許請求の範囲】

１．音声命令制御システムを有し、ユーザの発する命令語に応答して前記制御システムによって与えられる命令信号によって制御される音声通信装置にむいて、前記制御システムは：ユーザの発した第１の発声を、所定の第１命令語に対応するものとして認識し、この認識に応答して第１検出信号を導出する第１手段；ユーザの発した第２の発声を、所定の第２命令語に対応するものとして認識し、この認識に応答して第２検出信号を導出する第２手段；および前記第１検出信号の後で、所定の認識時間間隔内に発生する前記第２検出信号にのみ応答して前記命令信号を発生する決定手段；によって構成されることを特徴とする音声通信装置。
２．ユーザの発した第３の発声を、所定の第３命令語に対応するものとして認識し、この認識に応答して第３検出信号を導出する第３手段；および前記第３検出信号が、前記第２検出信号の後で、所定の照合時間間隔内に発生した場合、前記命令語を阻止する訂正手段；によって構成されることを特徴とする請求項１記載の音声通信装置。
３．前記所定の認識時間間隔が５秒未満であることを特徴とする請求項１記載の音声通信装置。
４．前記所定の照合時間間隔が１０秒未満であることを特徴とする請求項２記載の音声通信装置。
５．ハンドフリーでユーザと相互に作用可能な音声命令制御システムを有する音声通信装置であって、前期通信装置を通信経路の形成されるオフ・フック状態から、通信経路を遮断する、フック信号に応答して、前記オン・フック状態に切替える手段を含む通信装置において、前記制御システムは：ユーザの発した第１の発声を、所定の第１終了命令語に対応するものとして認識し、この認識に応答して第１検出信号を導出する第１手段；前記ユーザの発した第１の発声の終了とユーザの発する第２の発声の開始との間の中断時間間隔を測定し、測定した前記中断時間が所定の最大中断時間間隔未満である場合にのみ、タイマ信号を与えるタイマ手段；前記ユーザの発した第２の発声を、所定の第２終了命令語に対応するものとして認識し、この認識に応答して第２検出信号を導出する第２手段；および前記タイマ信号および順次発生する前記第１および第２検出信号にのみ応答して切断信号を導出する決定手段；によって構成され、その結果測定した前記中断時間間隔が所定の前記最大中断時間を超える場合のみ、前記第２終了命令語の認識によって、前記通信経路を終了させないことを特徴とする音声通信装置。
６．前記切断信号に応答してユーザに指示を与える手段；ユーザの発した発声を、所定のエラー命令語に対応するものとして認識し、この認識に応答してエラー信号を導出する第３手段；および前記エラー信号が、前記切断信号の発生後で、所定の再接続時間間隔内に発生しない場合にのみ、前記切断信号に応答して前記オン・フック信号を導出する訂正手段；によって構成され、その結果前記エラー命令語を前記所定の再接続時間内で認識することによって、前記終了命令語の認識が前記通信経路の終了を防止させることを特徴とする請求項５記載の音声通信装置。
７．前記音声通信装置が移動無線電話機であることを特徴とする請求項５記載の音声通信装置。
８．前記音声通信装置がスピーカ電話機を含むことを特徴とする請求項５記載の音声通信装置。
９．前記第１，第２，および第３認識手段が、連続する単語による音声認識を実行することを特徴とする請求項５記載の音声通信装置。
１０．前記所定の第１および第２終了命令語が、各々少なくとも２音節を有することを特徴とする請求項５記載の音声通信装置。
１１．前記所定の最大中断時間間隔が１秒未満であることを特徴とする請求項５記載の音声通信装置。
１２．前記指示出力手段が、音声合成装置であることを特徴とする請求項６記載の音声通信装置。
１３．前記所定の再接続時間が１０秒未満であることを特徴とする請求項６記載の音声通信装置。
１４．音声認識および装置の動作を制御する能力を有する音声通信装置を制御する方法において、前記方法は；ユーザが発した第１の発声を、所定の第１命令語に対応するものとして認識し、この認識に応答して第１検出信号を導出する段階；前記ユーザの発した第１の発声の終了とユーザの発する第２の発声の開始との間の中断時間間隔を測定し、測定した前記中断時間間隔が所定の最大中断時間間隔未満である場合のみ、タイマ信号を導出する段階；前記ユーザの発した第２の発声を、所定の第２命令語に対応するものとして認識し、この認識に応答して第２検出信号を導出する段階；および前記タイマ信号および順次に発生する前記第１および第２検出信号にのみ応答して第１装置制御信号を導出する段階；によって構成されることを特徴とする通信装置制御方法。
１５．前記第１装置制御信号に応答してユーザに指示を与える段階；ユーザの発した第３発声を、所定の第３の命令語に対応するものとして認識し、この認識に対応してエラー信号を導出する段階；および前記第１装置制御信号の発生後で所定の再接続時間内に前記エラー信号が発生しない場合にのみ、前記第１装置制御信号に応答して第２装置制御信号を導出する段階；をさらに含んで構成されることを特徴とする請求項１４記載の方法。
１６．前記音声通信装置が移動無線電話機であることを特徴とする請求項１４記載の方法。
１７．前記音声通信装置がスピーカ電話機を含むことを特徴とする請求項１４記載の方法。
１８．全ての認識段階が、連続する単語による音声認識を使用して実行されることを特徴とする請求項１４記載の方法。
１９．前記所定の第１および第２命令語が、各々少なくとも２音節を有することを特徴とする請求項１４記載の方法。
２０．前記所定の最大中断時間間隔が１秒未満であることを特徴とする請求項１４記載の方法。
２１．前期指示を与える段階が音声合成を使用して実行されることを特徴とする請求項１５記載の方法。
２２．前記所定の再接続時間が１０秒未満であることを特徴とする請求項１５記載の方法。