JPH0438358B2

JPH0438358B2 -

Info

Publication number: JPH0438358B2
Application number: JP59251902A
Authority: JP
Priority date: 1984-11-30
Filing date: 1984-11-30
Publication date: 1992-06-24
Also published as: JPS61130999A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、人間の音声を認識する装置に係り、
特に、入力された音声情報を、予め登録された音
声パターンと照合して認識する複数の音声認識手
段を備えた音声認識装置の改良に関する。

〔発明の背景〕

例えば、特開昭51−28701号公報に開示されて
いるように、現在の音声認識精度は、不特定話者
では著しく低下するので、話者毎の特徴を抽出し
た音声パターンを予め登録しておき、これと音声
入力を照合して、それらの特徴の一致により認識
する手法が主流である。

ところで、音声認識装置を、複数の話者で使用
したい要求が強く、この場合には、１台の音声認
識装置に、複数の話者（例えば20名など）の各単
語毎の音声パターンを予め記憶させておく。そし
て、使用者（話者）の発生した単語と、記憶され
た音声パターンとを照合し、最も近い、あるい
は、予定の誤差の範囲にある音声パターンに対応
する言葉であるものと認識する。

しかし、多数の話者の多数の単語を記憶するた
めには大きな記憶容量を必要とし、また、その中
から一致する音声パターンを認識するためには、
認識時間が長くなるという欠点がある。

このため、各話者の音声パターンを記憶させた
カセツト・メモリを各話者が所有し、音声認識装
置を使用するときに、上記カセツトをセツトする
手法も提案されている。

この手法によれば、メモリの総容量としては同
じであるが、特定話者の音声パターンのみとの照
合により、認識精度及び認識速度が向上する利点
がある。

しかしながら、カセツト・メモリなどの紛失や
置場の問題が生じ、利用者にとつて不便である。

〔発明の目的〕

本発明の目的は、複数の音声認識装置を複数の
話者が使用する場合において、認識精度や認識速
度を損うことがなく、また、着脱メモリなどを必
要としない音声認識装置を提供することである。

〔発明の概要〕

本発明の特徴とするところは、複数の音声認識
手段のうちの任意のものを使用する話者を識別す
る手段と、複数話者毎の音声パターンを記憶する
共通の補助記憶手段と、識別された話者に対応す
る音声パターンを上記補助記憶手段いから該当す
る音声認識手段の持つ音声パターン記憶手段へ読
出し格納する制御手段を設け、共通の補助記憶手
段には、(1)、話者識別用の音声パターン（話者交
代用語）と、(2)、作業用の音声パターン（命令語
や作業用語など）とを予め記憶させておき、各音
声認識手段の使用直前には、話者識別用の音声パ
ターンを各音声認識手段内の音声パターン記憶手
段に読出し格納しておく。

この状態で、任意の音声認識手段を例えば、Ａ
太郎が使用を開始するとき、その氏名などの話者
識別用音声パターンと符号する定められた話者交
代用語を発声する。

これにより、話者が識別されると、制御手段
は、識別された話者に対応する作業用の音声パタ
ーンを共通の補助記憶手段から読出し、対応する
音声認識手段内の音声パターン記憶手段へ格納す
る。

以後は、話者と１対１に対応した作業用の音声
パターンのみと、その話者の音声入力情報との照
合の下に音声認識が行われ、必要な作業が遂行さ
れる。

この結果、着脱メモリなどを必要とせず、複数
の音声認識手段を夫々異る話者が同時に使用する
速度を損うこともない。

〔発明の実施例〕

以下、音声入力記憶装置に本発明を適用した一
実施例につき詳細に説明する。この実施例におい
ては、音声によるガイダンス、アンサーバツクを
行いつつ、作業者の作業とその結果を入力して記
憶する装置である。また、最初に行うべき、ある
いは新たな話者に対して行うべき音声パターンの
登録をも自由に行いうるものである。

第１図は本発明に係る音声情報入力記憶装置の
一実施例の構成を示す。同図において、２台の音
声認識装置１Ａおよび１Ｂは音声入力用マイク６
Ａおよび６Ｂの音声信号を増幅する増幅器１１Ａ
および１１Ｂ、音声信号をデイジタル信号に変換
するＡ／Ｄ変換器１２Ａおよび１２Ｂ、あらかじ
め音声パターンを記憶しておく音声パターンメモ
リ１４Ａおよび１４Ｂ及び入力音声と音声パター
ンとを比較して音声認識をする音声認識制御回路
１３Ａおよび１３Ｂによつて構成されている。

一方、音声出力装置２Ａおよび２Ｂは音声出力
をするための音声を記憶しておく合成音声メモリ
２２Ａおよび２２Ｂ、音声認識結果に応じて合成
音声メモリ２２Ａおよび２２Ｂの記憶内容を選別
して出力する音声出力制御回路２１Ａおよび２１
Ｂ、音声出力制御回路２１Ａおよび２１Ｂの出力
信号をアナログ信号に変換するＤ／Ａ変換器２３
Ａおよび２３Ｂ、アナログ信号を増幅してスピー
カ（またはイヤホン）７Ａおよび７Ｂからアンサ
ーバツクの音声を発声させる増幅器２４Ａおよび
２４Ｂによつて構成されている。

補助記憶装置８は、複数の音声認識装置１Ａお
よび１Ｂに共通して使用されるもので、夫々の音
声パターンメモリ１４Ａおよび１４Ｂへ格納すべ
き音声パターンを記憶するものである。

また制御回路３は音声認識装置１Ａおよび１Ｂ
の音声認識制御回路１３Ａおよび１３Ｂを制御し
て音声認識結果を取り込んだり、音声出力装置２
Ａおよび２Ｂの音声出力制御回路２１Ａおよび２
１Ｂの制御をしてガイダンスやアンサーバツク音
をスピーカ７Ａおよび７Ｂから出力させたり、音
声認識装置１Ａおよび１Ｂの音声パターンメモリ
１４Ａおよび１４Ｂの音声バターンを補助記憶装
置８に記憶させたり、逆に補助記憶装置８の音声
パターンを音声認識装置１Ａおよび１Ｂあるいは
１Ａまたは１Ｂの音声パターンメモリ１４Ａおよ
び１４Ｂに移し換えたり、表示器（またはプリン
タ）５に制御状態や音声認識結果などを表示（ま
たはプリントアウト）したりする制御用コンピユ
ータである。この制御回路３は音声の他にキーボ
ード４によつても制御される。

次に本発明の一実施例に使用する音声単語の一
例を第２図に示す。

音声単語は、話者交代をするための話者交代用
語（話者識別用の音声パターン）と、作業をする
ための作業用語ならびに作業に使用する命令語
（作業用の音声パターン）から成る。

まず、音声パターンの登録は、話者がマイク６
Ａまたは６Ｂを使つて音声単語を順次音声で読み
上げることによつて行なわれ、その音声は増幅器
１１Ａまたは１１Ｂ、Ａ／Ｄ変換器１２Ａまたは
１２Ｂ、音声認識制御回路１３Ａまたは１３Ｂを
介して音声パターンメモリ１４Ａまたは１４Ｂに
記憶される。この音声パターンメモリ１４Ａまた
は１４Ｂに記憶された音声パターンは補助記憶装
置８に話者毎に番地付けされて格納される。

音声パターンメモリ１４Ａおよび１４Ｂへの音
声単語の記憶の番地付けは、命令語と作業用語に
ついては話者共通の同一番地とし、話者交代用語
は話者毎に相異した番地とする。そして話者交代
モード（使用開始時や交代命令があつたとき）に
おいては話者全員の話者交代用語の音声パターン
のみを、音声パターンメモリ１４Ａあるいは１４
Ｂに収納しておき、話者交代完了後の作業モード
では、上記交代モードで識別された１人の話者の
命令語と作業用語の音声パターンを音声パターン
メモリ１４Ａまたは１４Ｂに移して音声でデータ
の入力を行う。

次に本発明による音声情報入力の一実施例を第
３図を用いて説明する。

スピーカ７Ａからの音声ガイダンス「氏名
は？」に対し、Ａ太郎が、マイク６Ａから音声で
「Ａ太郎」と発声すると、音声認識装置１Ａの音
声認識制御回路１３Ａによつて音声パターンメモ
リ１４Ａに記憶されている話者交代用の音声単語
の中から、入力音声と一致する単語「Ａ太郎」を
探し出して、その記憶番地あるいは対応するコー
ドを制御回路３に出力する。

制御回路３は音声単語コードの入力によりデー
タとして取り込んだり表示器５に表示したりする
他に音声出力制御回路２１Ａにアンサーバツクさ
せるための指令を発する。音声出力制御回路２１
Ａは制御回路３のアンサーバツク指令により合成
音声メモリ２２Ａ内の音声データを出力してＤ／
Ａ変換器２３Ａ、増幅器２４Ａを介してスピーカ
７Ａから「Ａ太郎」と発声させる。ここで、Ａ太
郎がマイク６Ａから「OK」と発声して入力する
と、音声認識装置１Ａの音声認識制御回路１３Ａ
によつて音声パターンメモリ１４Ａの話者交代用
単語の中から、入力音声と一致する単語「OK」
を探し出してその番地あるいはコードを制御回路
３に出力する。制御回路３はこれにより、話者が
Ａ太郎であることを識別し、補助記憶装置８に記
憶していたＡ太郎の作業用の音声パターンを音声
パターンメモリ１４Ａに読出して格納し、Ａ太郎
の作業モードにするとともに、音声出力装置２Ａ
を制御してスピーカ７Ａから「作業は？」と音声
ガイダンスを発する。

Ａ太郎が「入庫」と音声入力すると、音声認識
の結果「品番は？」とスピーカ７Ａからガイダン
スが返つてくるので、例えば「１、２、３」と音
声入力すると正しく認識されれば「１、２、３」
とアンサーバツクが返つてくる。次に「置場
は？」のガイダンスに対し「Ａ」と音声入力する
と音声認識の結果「Ａ」とアンサーバツクが返つ
てくる。

以上により、Ａ太郎は、Ａ太郎の音声で自分の
作業用の音声パターンを補助記憶装置８から音声
認識装置１Ａに移した上で、自分の作業用音声パ
ターンのみとの照合による精度の高い、かつ高速
の認識を用いて、「品番123と置場Ａに入庫」とい
うデータを入力したことになる。

Ａ太郎が作業を終了するときは、「交代」とマ
イク６Ａから入力すると作業モードから話者交代
モードに切り換る。すなわち、制御回路３は、補
助記憶装置８内の話者交代用音声パターンを読出
して、音声パターンメモリ１４Ａへ格納する。

以上はＡ太郎がマイク６Ａから音声入力した場
合について説明したが、Ａ太郎がマイク６Ｂから
音声入力した場合も全く同様である。スピーカ７
Ｂからの音声ガイダンス「氏名は？」に対して、
Ａ太郎が、マイク６Ｂから音声で「Ａ太郎」と発
声すると、音声認識装置１Ｂの音声認識制御回路
１３Ｂによつて音声パターンメモリ１４Ｂに記憶
されている音声単語の中から入力音声と一致する
単語「Ａ太郎」を探し出してその記憶番地あるい
は対応するコードを制御回路３に出力する。制御
回路３の制御によつて音声出力装置２Ｂの増幅器
２４Ｂを介してスピーカ７Ｂから「Ａ太郎」と発
声させる。ここで、Ａ太郎がマイク６Ｂから
「OK」と発声して入力すると、音声認識装置１
Ｂの音声認識制御回路１３Ｂによつて登録音声メ
モリ１４Ｂの単語の中から入力音声と一致する音
声単語である「OK」を探し出してその番地ある
いはコードを制御回路３に出力す。これにより、
制御回路３は補助記憶装置８に記憶していたＡ太
郎の作業用の音声パターンを音声パターンメモリ
１４Ｂに移し換えて、Ａ太郎の作業モードにする
とともに、音声出力装置２Ｂを制御してスピーカ
７Ｂから「作業は？」と音声ガイダンスを発す
る。以下マイク６Ａからの音声入力時と全く同様
に作用する。

今度はＢ太郎がマイク６Ａ（または６Ｂ）から
「Ｂ太郎」と音声入力すると音声認識の結果、今
度は音声パターンメモリ１４Ａ（または１４Ｂ）
には補助記憶装置８からＢ太郎の作業用音声パタ
ーンが入り、Ｂ太郎が音声データ入力をすること
ができるようになる。

以下同様にして、１組の補助記憶装置８に記憶
しておいた話者交代用並びに複数話者毎の作業用
の音声パターンを複数の音声認識装置１Ａおよび
１Ｂに導き出して自由に音声で話者交代およびデ
ータ入力をすることができる。音声パターンの登
録は１組の音声認識装置から行ない補助記憶装置
を介して他の音声認識装置に移し換えても良く、
また各音声認識装置からそれぞれ登録しても良
い。

ここで補助記憶装置８は集積回路のRAMや
ROMとしても良く、また、バブルカセツト、カ
セツトテープ、フロツピーデイスクなどとしても
良い。但し、新たな話者の音声パターンを自由に
登録するためには、ROM以外の記憶手段を用い
る。

補助記憶装置８と登録音声メモリ１４Ａまたは
１４Ｂの音声パターンの読出し格納は、音声入力
による他にキーボード４から行なうようにしても
良い。さらに、音声認識結果を表示器５に表示し
て、音声出力装置２Ａおよび２Ｂを省略しても複
数の話者が複数の音声認識装置から交代して音声
情報を入力することができる。

第４図は本発明に係る音声情報入力装置の他の
一実施例の構成を示したもので、第１図と同一符
号のものは同一機能を有する。同図において、無
線機移動局３０Ａおよび３０Ｂはマイク６Ａおよ
び６Ｂの入力音声をアンテナ３３Ａおよび３３Ｂ
から電波を発射する送信機３１Ａおよび３１Ｂ、
アンテナ３３Ａおよび３３Ｂから電波を受信して
スピーカ７Ａおよび７Ｂから音声ガイダンスやア
ンサーバツクを発生させる受信機３２Ａおよび３
２Ｂによつて構成されている。無線機固定局２０
Ａおよび２０Ｂは無線機移動局３０Ａおよび３０
Ｂの電波をアンテナ２３Ａおよび２３Ｂを介して
受信して音声入出力装置１０Ａおよび１０Ｂの音
声認識装置１Ａおよび１Ｂに入力する受信機２１
Ａおよび２１Ｂ、音声入出力装置１０Ａおよび１
０Ｂの音声出力装置２Ａおよび２Ｂの出力音声を
アンテナ２３Ａおよび２３Ｂを介して無線機移動
局３０Ａおよび３０Ｂの受信機３２Ａおよび３２
Ｂへ電波を発射する送信機２２Ａおよび２２Ｂか
ら構成されている。音声パターンの登録はマイク
６Ａまたは６Ｂから話者が音声単語を順次音声で
読み上げることによつて行なわれる。マイク６Ａ
または６Ｂから入力された音声は無線機移動局３
０Ａおよび３０Ｂの送信機３１Ａまたは３１Ｂか
らアンテナ３３Ａまたは３３Ｂを介して電波が発
射される。この電波はアンテナ２３Ａまたは２３
Ｂを介して無線機固定局２０Ａまたは２０Ｂの受
信機２１Ａおよび２１Ｂで受信して音声認識装置
１Ａまたは１Ｂの登録音声メモリに登録される。
この登録音声メモリに登録された音声パターンは
補助記憶装置８に話者毎に番地付けされて格納さ
れる。また、補助記憶装置８に格納された音声パ
ターンはキーボード４の操作あるいは音声認識装
置１Ａまたは１Ｂへの音声入力によつて音声認識
装置１Ａまたは１Ｂそれぞれの音声パターンメモ
リに移される。マイク６Ａまたは６Ｂから話者の
音声データが入力されると無線機移動局３０Ａま
たは３０Ｂの送信機３１Ａまたは３１Ｂから電波
をとおして無線機固定局２０Ａまたは２０Ｂの受
信機２１Ａまたは２１Ｂで受信し音声認識装置１
Ａまたは１Ｂに入力される。音声認識結果のアン
サーバツクは音声出力装置２Ａまたは２Ｂから発
せられ送信機２２Ａまたは２２Ｂによつて電波と
なつて発射される。この電波は受信機３２Ａまた
は３２Ｂによつて受信されスピーカ７Ａまたは７
Ｂから発声される。話者はマイク６Ａまたは６Ｂ
から音声でデータを入力するとスピーカ７Ａまた
は７Ｂからアンサーバツクあるいはガイダンスが
発せられるのでこれを開きながら音声でデータを
入力する。

以上の実施例では、１組の音声認識装置で音声
パターンと登録をすれば他の音声認識装置への音
声パターンの登録は発声することなく補助記憶装
置を利用して行うことができる。

以上の実施例では、話者交代用の音声パターン
をも、共通の補助記憶装置８に登録しておき、話
者交代モードでのみ、各音声認識装置１Ａ，１Ｂ
内の音声パターンメモリ１４Ａ，１４Ｂへ格納す
るようにしている。しかし、話者交代用の音声パ
ターンは、常時、各音声パターンメモリ１４Ａ，
１４Ｂが記憶しておくようにすることができる。
この場合、各音声パターンメモリの他の番地に、
作業用の音声パターンのうち、識別された話者に
対応するパターンが選択的に格納されることとな
る。

また、話者の識別にも音声認識手段を利用する
ものにつき説明したが、これは話者別のコード
を、キーボードその他のいかなる入力手段によつ
て入力するようにしてもよく、この場合には、制
御回路が簡単に話者を識別できる。

〔発明の効果〕

本発明によれば、複数の音声認識装置を複数の
話者が自由に使用でき、話者の識別によつて該当
話者の音声パターンを対応する音声認識装置の音
声パターン記憶手段へ格納することにより、認識
精度に優れた音声認識装置を提供することができ
る。

【図面の簡単な説明】

第１図は本発明の一実施例を示す音声情報入力
装置の構成を示すシステム構成図、第２図は第１
図に示した音声情報入力装置に使用する音声単語
の１例と、その記憶内容を示す図、第３図は話者
交代と作業の１例を示す音声情報入力の手順図、
第４図は本発明の他の一実施例を示す他の音声情
報入力装置の構成を示すシステム構成図である。１Ａ，１Ｂ……音声認識手段、２Ａ，２Ｂ……
音声出力装置、３……制御手段、４……キーボー
ド、５……表示器またはプリンタ、６Ａ，６Ｂ…
…マイク、７Ａ，７Ｂ……スピーカ、８……補助
記憶手段、１０Ａ，１０Ｂ……音声入出力装置、
２０Ａ，２０Ｂ……無線機固定局、３０Ａ，３０
Ｂ……無線機移動局、１４Ａ，１４Ｂ……音声パ
ターンメモリ。

Claims

【特許請求の範囲】１マイクと、音声パターンを記憶する音声パタ
ーン記憶手段と、この音声パターン記憶手段に記
憶された音声パターンと前記マイクからの音声入
力とを照合して音声を認識する音声認識手段とを
有する音声認識部と、話者毎の前記音声パターン
を記憶する補助記憶手段とを備えた音声認識装置
において、前記音声認識部を複数設け、前記補助
記憶手段をこの複数の音声認識部に対し共通と
し、この補助記憶手段に記憶される音声パターン
を話者識別用音声パターン及び作業用音声パター
ンとすると共に、この補助記憶手段に記憶された
前記話者識別用音声パターンを前記音声パターン
記憶手段に格納する手段と、この格納された話者
識別用音声パターンと前記マイクからの音声入力
とを照合し話者を識別する話者識別手段と、この
識別によつて特定された話者の作業用音声パター
ンを前記補助記憶手段から前記音声パターン記憶
手段に書き込む手段とを備えた音声認識装置。２特許請求の範囲第１項において、前記補助記
憶手段はフロツピデイスクである音声認識装置。