JPH04200049A

JPH04200049A - 音声ダイヤル装置

Info

Publication number: JPH04200049A
Application number: JP2333178A
Authority: JP
Inventors: Nobuo Hagimoto; 萩本　信男
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 1990-11-29
Filing date: 1990-11-29
Publication date: 1992-07-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、音声認識を利用して電話装置などのダイヤリ
ング操作を簡単化した音声ダイヤル装置に関する。

［従来の技術］音声認識装置と電話装置とで構成される音声ダイヤル装
置では複数の人が使えるようにしたいという要求がある
６従来、実用化され゛ている音声ｔ！ｇ−装置は、話゛者
を特定し、認Ｒ語数を制限するなど゛して、その性能を
確保してい乞のが実情である。

このように、−度に扱える認識対象単語数が制限される
場合があるので、複数の人が使えるようにするためには
、使用者毎のメモリ領域（バンク）を用意して、これを
使用者が変わるたびに切り換えて使うことになる。

［発明が解決しようとする課題］このような構成の場合、音声ダイヤルを使用する際に、
使用者がシステムに対してどのバンクメモリを使うかを
伝えなければならない。スイ・ソチなどで指定を行なう
ことでこれを可能にできるが、本来、ハンズフリーであ
り、アイズフリーであるべき音声ダイヤルでスイッチを
使うと、その利便性が失われてしまう。

また、特定のパスワードを音声認識することにより、バ
ンクメモリの切り換えをシステムが自動的に行なうよう
に音声認識させることができるが、このための余計な操
作（バンクメモリ切り換えのための発声）が加わるとい
う不具合がある。

一方、電話機を使用する通常のモードから音声認識によ
る音声ダイヤルモードへ移行するために何らかの方法で
使用者はシステムへその意志を伝える必要がある。

従来は、電話機のブツシュキーをある一定時間以上押し
続ける方法や、特定のキーワードを音声認識する方法な
どにより音声ダイヤルモードへ移行するようになってい
る。

前者による方法であると、キーを押す操作のためにハン
ズフリーでなくなってしまう。後者による方法では、誤
認識により音声起動がかかつてしまうことである。

また、話者を特定とした音声認識の場合でも、声質の似
ている人が発声すると認識をすることがあるので、その
結果、音声を登録した人とは異なる人の発声でも音声起
動がかかってしまう。また、周囲騒音により誤認識する
時も同様なことがある。

したがって、いたずらなどの発声やその他の音を誤認識
した結果、必要のないときに起動がかかることもあると
いう不具合がある。

発明の目的本発明の目的は、使用者が変わるたびに、特別な操作を
することなく、使用者が登録したメモリエリアにあるキ
ーワードを認識対象にすることができる音声ダイヤル装
置を提供することにある。

［課題を解決するための手段］このような目的を達成するために、本発明は、複数人の
音声データを蓄えるバンクメモリを備え、各バンクメモ
リには音声認識用の特徴データと話者照合用の特徴デー
タを格納するエリアが設けられ、音声分析手段を用いて
、指定された音声に対して音声認識用の特徴データを抽
出するとともに、話者照合用の特徴データを抽出し、バ
ンクメモリに格納することを特徴とする。

［作用］本発明は、音声認識用および話者照合用の特徴データを
バンクメモリに格納し、特定のパスワードの認識により
音声起動を行なう際に、キーワードの認識と同時に話者
照合を行ない、使用者が登録したバンクメモリに切り換
えて音声ダイヤルモードへ移行するようにできるので、
特別の操作をすることなく、使用者が登録したメモリエ
リアにあるキーワードを認識対象にすることができる。

［実施例］以下、本発明の実施例を図面により詳細に説明する。

第１図は本発明による音声ダイヤルｉｔの一実施例のシ
ステム構成図で、■はマイクロホン、２は増幅器、３は
音声分析部、４は音声認識用特徴抽出部、５は話者照合
用特徴抽出部、６は第１の制御部、７は第１のバタンメ
モリ、８は外部■／○、９は音声合成部、１０は第２の
メモリ、１１は第２の制御部、１２はダイヤル制御部、
１３は電話機、１４は外部電話回線を示す。

このような構成において、マイクロホン１より音声が入
力されると、その音声を電気信号に変換し、増幅器２に
より所望の振幅レベルに増幅し、音声分析部３に入力す
る。

音声分析部３は音声の信号を分析するためのフィルタ群
であり、音声帯域を複数チャンネルのバンドパスフィル
タで帯域分割し、各チャンネル出力を絶対値化し、さら
に、ローパスフィルタにより平滑した信号を出力する。

すなわち、音声分析部３は、音声信号の各帯域に占める
パワーのエンベロープを出力する。

音声分析部３により音声信号スペクトラムのエンベロー
プを取り出し、音声認識用特徴抽出部４および話者照合
用特徴抽出部５へそれぞれ入力する。

これら抽出部４および５は、制御部６によりコントロー
ルされ、この制御部６では、音Ｉ認識と話者照合および
外部装置とのやりとりを行なう。

特徴抽出部４は、音声分析部３から入力される信号によ
り、音声認識に使用するための特徴量を抽出し、それを
バタンメモリ７の所定のエリアに格納する。

また、外部ｌ１０８を介して外部装置から指定のあった
ときは、話者照合用特徴抽出部５は、話者照合用のパラ
メータ（特徴量）を音声分析部３から入力された信号よ
り抽出し、バタンメモリ７の所定のエリアに格納する。

音声合成部９は、システムが使用者にガイダンスメツセ
ージを出力したり、登録時の音声を録音しておき、音声
ダイヤル使用時にエコーバックして使用者がキーワード
を確認できるようにするためのものである。これらの固
定メツセージデータや音声データを格納するのがメモリ
１０である。

本システムが扱う音声認識用の音声データとして大別し
てコントロールワード、キーワードの２種類がある。

この内、コントロールワードは、システムのコントロー
ルシーケンスで処理の流れを制御するもので、例えば、
音声起動により通常モードから音声制御モードへ移行す
るときなどに使用する単語音声である。このコントロー
ルワードの登録時には、音声認識用のデータを抽出する
のと同時に、話者照合用のデータを抽出し、バタンメモ
リ７の所定エリアに格納する。コンロールワードを認識
するときは、同時に話者照合を行ない、照合した結果に
より該当するバンクメモリへ切り換える。

一方、キーワードは、制御対象機器の各動作を制御する
音声認識用の単語音声である。登録時には、音声認識用
の音声データのみが登録され、データが指定されたユー
ザに対応するバングニリアに格納される。

第２図は第１図のシステムのメイン動作を示すフローチ
ャート、第３図および第４図はそれぞれコントロールワ
ードおよびキーワード登録動作を示すフローチャート、
第５図は、話者切り換えモードの動作を示すフローチャ
ートである。

第６図および第７図はそれぞれコントロールワードおよ
びキーワードが登録されたメモリ７の内容の例を示す図
である。

以下、本発明による電話機の音声認識による自動ダイヤ
リングの例を、第２図〜第７図を参照して詳細に説明す
る。

音声ダイヤルの動作をスタートさせるために音声認識シ
ステムの起動をかけるが、このためのコントロールワー
ドが必要となる。

ここで、電話機１３に付属のブツシュキーから、予め定
めた特定のファンクションコード（例えば、登録モード
Ｆｕｎｃ”１が割り当てられているとする）が入力され
ると、第１ＴＸｉのダイヤル制御部１２はこれを検出し
て（第２図ステップ２１）、制御部１１にこのファンク
ションコードを検出したことを伝え、制御部１１ては、
コントロールワード登録モートへ移行する（第２図ステ
ップ２２）。

二のコントロールワード登録モートの動作を、第３図を
参照して説明する。

コントロール登録モード（こなると、制御部１１の制御
のもとで、音声合成部９はそのモードになったことをユ
ーザに知らせるため、音声メツセージ、例えば、　「コ
ントロールワード登録モードてす。」をスピーカ１５に
出力する（ステップ４０）。

このとき、このガイダンスを電話機１３に付属の表示部
などに行なってもよく、また、その場合、音声メツセー
ジと併用しても良い。

次に、音声メツセージ「発声して下さいコなどのような
ものを、スピーカ１５から出力したり、表示部に登録番
号を表示したりして、ユーザに対して、コントロールワ
ードとして登録すべき音声の発声要求指示を行なう（ス
テップ４１）。

メツセージに従って、ユーザが、コントロールワード、
例えば、「テレフォン」を発声すると（ステップ４２．
４３）、ｆｍ述のように、音声認識用のパラメータおよ
び話者照合用のデータを抽出する（ステップ４４．４５
）６第６図に、このようなコントロールワードが登録された
ときのバタンメモリ７の一部の例を示す。

ユーザ（図では話者）毎にコントロールワード「テレフ
ォン」の音声認識用データと話者照合用のデータが対に
なって格納されている。この場合、コントロールワード
は１種類であるが、複数のコントロールワードを登録す
ることもある（ステップ４６．４７）。必要な数のコン
トロールが登録されると、現在のモードを終了し、通常
モードに戻る。

次に、ユーザが電話機１３のブツシュキーにより、特定
のファンクションワード（例又は、Ｆ　ｕｎｃ＊＃２．
話者切り換えモードが割り当てられている）を押せば、
話者切り換えモードへ移行する（ステップ２３．２４）
。

話者切り換えモートの動作を第５図を参照して説明する
。

話者切り換えモードに入ると、現在選択されているバン
ク番号をユーザに報知する（ステップ７１）。その方法
としては、前述した音烹合成による音声メツセージによ
り、「現在のバンク番号は〜てす」のように出力しても
良いし、電話機１３に表示器があれば表示をしても良い
。

話者切り換えモードのときに、例えば、数字キーが押さ
れるとくステップ７２）、バンク番号をインクリメント
して（ステップ７３）、バンク番号が最大値を越えない
ときは（ステップ７４）、現在のバンク番号で、最大値
を越えたときは、バンクを１として（ステップ７５）、
ハング番号にしたがって、バンクメモリの切り換えを行
なう（ステップ７６）。

バンク切り換えが終了すると、再び、音声メツセージで
バンク番号を報知する（ステップ７１）。

数字キーが再度押されるなら（ステップ７２）、上記と
同様の処理を行ない、エンド（Ｅ　Ｎ　Ｄ　）キーが押
されるなら（ステップ７７）、現在のモードを終了する
。

次に、キーワード登録モードを割り当てたファンクショ
ンコード（例えば、Ｆ　ｕｎｃ”　３　：　）を入力す
ると、キーワード登録モードに移行する（ステップ２５
．２６）。

このモードの動作を、第４図を参照して説明する。

キーワード登録モードとなると、エントリ番号の入力要
求をデイスプレィや音声メツセージにより行なう（ステ
ップ５２）。エントリ番号が入力され、それが妥当であ
れば、次の処理へ移り、確定しなければ、引き続いて番
号の入力処理を行なう（ステップ５３．５４）。

次に、制御部１１の制御により、音声メツセージ「キー
ワードをどうぞ」などの音声発声要求を行なう（ステッ
プ５５）。ユーザは、メツセージに続いて、キーワード
（例えば、「とりひきさき」など）を発声すると（ステ
ップ５６）、音声認識用のデータが抽出され（ステップ
５７）、第７図に示すように、話者（１）のバンクエリ
ア１に格納される１つの音声データの登録が終了すると
、電話番号の登録の要求メツセージを電話機に付属の表
示器に表示するか、または、音声メツセージ「ｌｉ電話
番号入力して下さい」などにより行なう（ステップ５８
）。

電話番号の入力が確定していない間は、電話番号の入力
処理を行ない（ステップ５９．６０）、番号が確定する
と、入力データを所定のメモリエリアに格納する（ステ
ップ６１）、このときの電話番号を、先に登録した音声データと対応
付けて記憶する。電話番号を格納するメモリを、電話機
が短縮ダイヤルをサポートしているときは、共用するよ
うにしても良い。また、メモリ７または１０の一部を使
用するようにしても良い９電話番号の：ｇｌ録の方法として、音声の発声の直後に
逐−行なわずに、全ての音声を′杯録した後に、−括し
て・登録してしまうことも考えられる。−度に登録する
データの数が多いときは、この方法が便利な場合もある
―キーワードの登録モードは、ニンド（ＥＮＤ）キーを
押すことで通常モードへ戻ることができる（ステップ５
１）。

第２図のフローチャートを基に、自動ダイヤル動作を説
明する。

音声の自動ダイヤル動作を行なわない、通常のモードで
は、ダイヤル制御部１２において、電話機１３が星独で
動作するように、制御信号を設定しておく。したがって
、自動ダイヤル動作を行なわない間は、制御部１１は、
電話機１３を羊独動作させるための信号の設定だけであ
り、その他のダイヤル制御は行なわない。

したがって、通常のモードで、システムは、コントロー
ルワードを認識対象単語として、音声認識を開始し、音
声起動用の単語音声「テレフォン」をモニタするだけで
ある（ステップ２０）。

このとき、認識対象となるのは、登録しである全ての話
者のコントロールワード「テレフォン」の音声認識用デ
ータである。

「テレフォン」の音声認識が失敗したときは、認識のや
り直しをして、次の発声をモニタする（ステップ２７）
。「テレフォン」をｍｌ＆しない間は、ファンクション
コードの入力の有無をチエツクする（ステップ２７．２
０）。ファンクションコードの入力があったときは、再
び音声認識のやり直しをして、　「テレフォン」のモニ
タをする（ステップ２０〜２７）。

話者（１）が、音声起動用のコントロールワード「テレ
フォン」を発声して、音声認識が成功すると（ステップ
２７のＹｅｓ）、システムは話者照合用のデータを用い
て話者照合処理を行なう（ステップ２８）５照合結果に
より、話者（りが選択されると、話者（１）が予め登録
したキーワードデータの登録バンクへ認識対象メモリを
切り換える（ステップ２９）。

前述した処理により、音声起動がかかると、音声ダイヤ
ルシーケンスを実行し、通話状態とする（ステップ３０
）。その後、終話を確認するまで、システムは待機状態
となり、終話確認後、再び、通常の動作モードに戻る（
ステップ３１）。

なお、本発明は、上述した実施例に限らず、種々の変形
例が考えられることは言うまでもない３［発明の効果コ以上述べたように、本発明の音声ダイヤル装置によれば
、音声起動時にユーザが使用するハングメモリを判定し
て、切り換えるので、複数の二−ザが各バンクにキーワ
ードを登録している際に、ユーザが変わるたびに、バン
クメモリを切り換えることなく、音声認識を行なうこと
ができる。

また、バンクメモリの切り換えにおいて、スイッチの手
操作の代わりに音声で行なうことができるので、完全な
ハンズフリーを実現できる。

さらに、周囲騒音や第３者の話し声などで誤認識しても
、話者照合により、登録外のユーザであるとして、リジ
エクトできるので、従来に比べて、誤認識により音声起
動がかかる機会を減らすことができる。

【図面の簡単な説明】

第１図は本発明による音声ダイヤル装置の一実施例のシ
ステム構成図、第２図はメインフローチャート、第３図
および第４図はそれぞれコントロールワードおよびキー
ワードの登録動作のフローチャート、第５図は話者切り
換えモードのフローチャート、第６図および第７図はそ
れぞれコントロールワードおよびキーワードの登録状態
を説明する図である。３　°・・・音声分析部、４−・　音声認識用特徴抽出
部、５　　　話者照合用特徴抽出部、１３・電話機。特許出願人　　　　グラリオン株式会社代理人　弁理士
　　永　１）武　三　部第１図第２図第３図第５図第６図第７図

Claims

【特許請求の範囲】

（１）登録番号に対応した認識対象の音声キーワードを
、入力された話者の音声データを比較照合して音声認識
し、該音声認識結果に基づいて前記登録番号のダイヤル
操作を行なう音声ダイヤル装置において、前記音声デー
タの音声認識用の特徴データと話者照合用の特徴データ
とのそれぞれの特徴量を抽出し、分析結果として出力す
る音声データ分析手段と、前記音声認識用および話者照
合用の特徴データを登録するエリアが設けられ、該特徴
データを記憶する音声データ記憶手段と、前記音声デー
タ分析手段により得られた分析結果を前記音声データ記
憶手段に記憶するように制御する音声データ制御手段と
を備え、前記音声データ分析手段の分析結果に基づいて
ダイヤル操作を行なうことを特徴とする音声ダイヤル装
置。
（２）所定のパスワード認識により前記登録番号のダイ
ヤル操作を行なう時には、前記音声キーワード認識と共
に話者照合を行ない、該照合結果に基づいて前記音声デ
ータ記憶手段に設けられているエリアを話者に対応して
選択する選択制御手段を有することを特徴とする請求項
１記載の音声ダイヤル装置。