JPH0340000A

JPH0340000A - 音声認識システム

Info

Publication number: JPH0340000A
Application number: JP1175919A
Authority: JP
Inventors: Yasutomo Onishi; 大西　康友
Original assignee: Matsushita Refrigeration Co
Current assignee: Panasonic Holdings Corp
Priority date: 1989-07-07
Filing date: 1989-07-07
Publication date: 1991-02-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、特定話者及び不特定話者が入力した離散単語
音声を認識し、その認識結果にょシ数々の処理を行うた
めの音声認識システムに関し、特に、不特定話者に対応
した自動販売機用音声認識システムに関するものである
。

従来の技術従来、カップ飲料等の自動販売機（以後単にカップ自販
機と称する）を始めとする自販機用の音声認識システム
は、第６図に示すように、１ず、利用者がマイクロホン
１にょシ入カした音声を音声分析手段２により分析して
音声パターンを抽出する。分析には帯域通過フィルタ群
を使ったＢＰＦ（Ｂａｎｄ　Ｐａｔｈ　Ｆｉｌｔｅｒ）
分析結果を時間軸と周波数軸で標本化し強度をディジタ
ル処理する手法を用いる。標準パターン記憶手段３には
、同様の手法により抽出した多数の不特定話者が発声し
た複数の離散単語の音声パターンを標準パターンとして
あらかじめ記憶しである。ただし、ここで標準パターン
として記憶されている単語はカップ自販機で販売するフ
レーバー（コーヒ、ジュース等飲料の品名）の呼称とい
くつかの返答単語（“はい″。

°いいえ”ホット　、“アイス″等）である。

そしてパターン照合手段４で、標準パターンの中から入
力音声パターンに最も近い標準パターンをＤ　Ｐ　（Ｄ
ｙｎａｍｉｃ　Ｐｒｏｇｒａｍｒｎｉｎｇ）　　マノチ
ング法により選出し音声を認識するものである。ＤＰマ
ツチング法とは動的計画法と訳され、１９６７年に米国
のＢｅｌｌｍａｎが提案した数理計画法の一手法で、多
段決定過程の最適化に適用される。その手法は、各段で
、ある決定（制御）を行って状態を変換させながら、目
的の状態に達する！での過程での制御の良さ／悪さを評
価する関数を最大／最小とするというものである。又、
音声認識システムが特定話者に対応する場合は、標準パ
ターン記憶手段３に特定話者が発声した認識単語の音声
パターンを登録し、一方、不特定話者に対応する場合は
、不特定多数の話者が発声した認識単語の音声パターン
の代表パターンのいくつかを登録する。

尚、不特定話者向は音声認識システムは、５ｐｅａｋｅ
ｒＩｎｄｅｐｅｎｄｅｎｔ　ｌ５ｏｌａｔｅｄ　Ｗｏｒ
ｄ　Ｒｅｃｏｇｎｉｔｉｏｎｆｏｒ　　ａ　ｍｏｄｅｒ
ａｔｅ　５ｉｚｅ（５４Ｗｏｒｄ）Ｖｏｃａｂｕｌａｒ
ｙ（ＩＥＥＥ　　ＴＲＡＮＳＡＣＴＩＯＮＳ　　ＯＮ　
ＡＣＯＶＳＴＩＣ３゜５ＰＥＥＣＨ，ＡＮＤ　　５ＩＧ
ＮＡＬ　　ＰＲＯＣＥＳＳＩＮＧ。

ＶＯＬ、ＡＳＳＰ−２７，Ａｓ、ＤＥＣＥＭＢＥＲ１９
７９）を始め、数多く公開されている。

音声合成手段６は、後述する制御手段７の処理に応じて
、利用者の発声を促すための音声を合皮し、スピーカ６
により発声する。例えば、フレーバーの選択時は、「い
らっしゃい１せ。何になさい１すか。」と発声して、利
用者にフレーバー塩の発声を促す。ただし、フレーバ御
名Ｕカップ自販機前面のパネル板等に明記してあり、利
用者はその中から好みのフレーバー塩を１つ選んで発声
するものである。便宜上、本従来例にむいては選択テキ
ルフレーバーヲ１コーヒー　　”レモンティー　、“コ
コア１．“ジュース“の４種類とする。又、ホットかア
イスかを選択する必要がある場合ハ（“コーヒー　、“
レモンティー　、”ココア“の３種類）、「ホットにし
１すかアイスにし１すか。」と発声して、利用者に返答
（「ホット」か「アイス」）の発声を促す。そして、コ
ーヒーを選択した場合のみ、「砂糖とクリームを入れ１
すか。」と発声して、利用者に返答（「はい」か「いい
え」）の発声を促すものである。制御手段７は、処理に
応じて、音声合成手段５に誘導音声の合皮を指示し、パ
ターン照合手段４により選出した標準パターンから利用
者が発声した単語を認識するとともに、認識結果により
以後のカップ自販機の動作を制御するものである。又、
８はコインの受は取りと釣り銭の払い戻しを行うコイン
受は取シ手段、９は選択されたフレーバーをカップに注
ぎ搬出する飲料搬出手段である。以上の説明で明らかな
ように、本従来例では、認識できる単語は、４種類のフ
レーバー塩（コーヒー、レモンティー、ココア、ジュー
ス）と４種類の返答（はい、いいえ、ホット、アイス）
であるが、これは単なる一例にしかすぎないことを明記
して釦く。

発明が解決しようとする課題しかしながら、上記のような方法では、利用者が発声す
べき単語を明確に告知されていないため、例えば、利用
者は、フレーバー選択時に、「（）Ｌ／−バー名）　Ｋ
　Ｌ４　ｆ。」とか、「（フレーバー塩）です。」と発
声したり、ホットかアイスの選択時には、「（ホット／
アイス）にし１す。」と発声したり、又、砂糖とクリー
ムを入れるかどうかの選択時にも、「入れプす。」と発
声したりして、認識可能な単語以外の単語を発声したり
、余分な語頭や語尾を付加して発声したりする可能性が
あるため、正当に認識できずに認識率が低下してし１う
という不具合いが生じる。

又、利用者が風邪を引いていて発声できなかったり、ろ
うあ者である場合は、好みの飲料を選択することができ
ないという不具合いが生じる。ただし、これに対しては
音声認識システムとは別に従来の自販機のようにフレー
バー塩等の選択枝を表記したスイッチ入力手段を設ける
ことが考えられるが、この場合、多数のスイッチにより
カップ自販機が大きくなるという不具合いが生じること
になる。

本発明は上記課題を鑑み、利用者が、認識可能な単語以
外の単語を発声したり、余分な語頭や語尾を付加して発
声したりしないように、発声すべき単語を利用者に告知
するとともに、何らかの理由で利用者が発声できない、
すたは、発声したくない場合でも、カップ自販機等、本
発明の音声認識システムを適用する機器、装置類をスイ
ッチ入力手段等を設けて大きくすることなく、音声以外
の方法（タッチスクリーン）で飲料を選択できる音声認
識システムを提供することを目的とする。

課題を解決するための手段上記課題を解決するために本発明の音声認識システムは
、複数の離散単語音声の標準パターンを記録した標準パ
ターン記憶手段と、発声者の音声を分析し音声パターン
を抽出する音声分析手段と、前記標準パターン群から前
記音声分析手段により抽出した音声パターンに最も近い
標準パターンを選出するパターン照合手段と、標準パタ
ーンとして記憶した単語を画面に表示して発声者に発声
すべき単語を告知する表示手段と、前記表示手段に表示
された単語の画面上の表示位置を入力するタッチスクリ
ーンと、前記パターン照合手段により選出された標準パ
ターンに相当する単語または前記タッチスクリーンによ
り入力された位置に相当する単語を択一的に選択する制
御手段とを備えたものである。

作　　　用本発明は上記した構成により、発声者（利用者）が発声
する前に、表示手段により、音声認識可能な複数の単語
を画面に表示して発声者に告知するとともに、タッチス
クリーンにより、画面上に表示された単語の表示位置を
入力して単語を選択することを可能にするものである。

実施例以下本発明の一実施例の音声認識システム、について図
面を参照しながら説明する。本実施例は不特定話者に対
する音声認識システムをカップ自販機に適用したもので
ある。ただし、構成要件中、従来例と同構成のものは同
番号を付し、説明を割愛する。

第１図は、本発明の実施例における音声認識システムの
機能ブロック図を示すものである。１゜は認識単語選択
手段で、制御手段７の処理に応じて、認識すべき単語を
選択し、選択した単語を後述する表示手段１１と制御手
段７に出力すムラ１はＣＲＴ等により構成される表示手
段で、単語選択手段１０により選択した単語と適描なコ
メントを表示する。

１２は表示手段１１の画面上に設置され、画面に表示さ
れた認識すべき単語の表示位置を指等により直接画面に
触れることにより入力するタッチスクリーンで、入力さ
れた位置を制御手段７に出力し、制御手段７で入力され
た位置に相当する単語を選出する。タッチスクリーンは
表示画面上に透明な導電性フィルムを貼りつけてかき、
指が触れた位置を電気的に検出するものや、画面のｘ、
Ｙ軸上を赤外線ビームで走査して指の位置を検出する光
センサ方式等がある。

本実施例では、音声合成手段５と表示手段１１とは連動
しておりその関係を第２〜４図の連動関係図に示す。第
２図は、フレーバー選択時の連動を示したもので、音声
合成手段６により「いらっしゃい捷せ、何になさい曾す
か。」と発声して、利用者にフレーバー塩の発声を促す
。そして、認識単語選択手段１０によりフレ−バー塩を
表わす単語を選択して「次の中から１つだけ選んで音声
かタッチスクリーンでお答え下さい。」という操作方法
を誘導するコメントとともに表示手段１１の画面に表示
して、利用者に発声すべき単語を告知する。以後、この
連動をパターン１の連動と称する。次Ｋ、第３ｋ、コー
ヒー、レモンティー！たはココアを選択した場合のホッ
トかアイスかの選択時の連動を示したもので、音声合成
手段６により「ホットにし１すか、アイスにし１すか。

」と発声し、認識単語選択手段１０によりホットとアイ
スを選択して「次のいずれかを音声かタッチスクリーン
で訃答え下さい。」という操作方法を誘導するコメント
とともに表示手段１１の画面に表示して、利用者に発声
すべき単語を告知する。

以後、この連動をパターン２の連動と称する。そして、
第４図は、コーヒーを選択した場合の砂糖とクリームを
入れるかどうかの選択時の連動を示したもので、音声合
成手段５により「砂糖とクリームを入れ１すか。」と発
声し、認識単語選択手段１０によりはいといいえを選択
して「次のいずれかを音声かタッチスクリーンでか答え
下さい。−という操作方法を誘導するコメントとともに
表示手段１１の画面に表示して、利用者に発声すべき単
語を告知する。以後、この連動をパターン３の連動と称
する。

以上のように構成されたカップ自販機用音声認識システ
ムについて、第６図のフローチャートを用いてその販売
動作を説明する。壕ず、ステップ１０１で、コイン受は
取り手段７にコインが投入されたかどうかを判定し、コ
インが投入されればステップ１０２へ進む。ステップ１
０２では、フレーバーを選択するため、パターン１の連
動により利用者に発声すべき単語（フレーバー塩）を告
知して音声またはタッチスクリーン１２による入力を促
す。そして、ステップ１０３で、利用者が音声を発声し
た場合は音声により単語を認識し、タッチスクリーン１
２により位置を入力した場合は入力された位置に相当す
る単語を選出して認識する。両方とも入力された場合は
、制御手段７により後述するりジヱクト以外の単語を最
初に認識した方を優先する。ステップ１０４では、認識
された結果が適当かどうかを判定し、リジェクト（音声
認識の場合は発声された単語がどの単語にも該当しない
、一方、タッチスクリーン１２による位置入力の場合は
入力された位置が単語表示位置ではないという結果）の
場合はステップ１０２へ戻る。一方、リジェクトでない
場合はステップ１０５へ進む。ステップ１０５では、認
識された単語（フレーバー塩）を判定し、コーヒーの場
合はステップ１０６へ進む。ステップ１０６では、ホッ
トにするかアイスにするかを選択するため、パターン２
の連動により利用者に発声すべき単語（ホットかアイス
）を告知して音声寸たはタッチスクリーン１２による入
力を促す。そして、ステップ１０７で、ステップ１０３
と同様にして音声またはタッチスクリーン１２により利
用者が入力した単語を認識し、ステップ１０８で、認識
結果が適当かどうかを判定し、リジェクトの場合はステ
ップ１０７へ戻る。一方、リジェクトでない場合はステ
ップ１０９へ進む。ステップ１０９では、認識された単
語（ホットかアイス）を判定し、ホットの場合はステッ
プ１１０へ進む。ステップ１１０では、砂糖とクリーム
を入れるかどうかを選択するため、パターン３の連動に
より利用者に発声すべき単語（はいかいいえ）を告知し
て音声またはタッチスクリーン１２による入力を促す。

そして、ステップ１１１で、ステップ１０３と同様にし
て音声またはタッチスクリーン１２により利用者が入力
した単語を認識し、ステップ１１２で、認識結果が適当
かどうかを判定し、リジェクトの場合はステップ１１０
へ戻る。一方、リジェクトでない場合はステップ１１３
へ進む。ステップ１１３では、認識された単語を判定し
、はいの場合はステップ１１４へ進む。ステップ１１４
では、以上の処理で選択された飲料（コーヒー、ホット
、砂糖・クリーム入り）を飲料畷出手段８によりカツブ
に注ぎ、搬出する。そして、ステップ１１５で、釣シ銭
がある場合は、コイン受は取シ手段７により釣シ銭を払
い戻し、最後に、ステップ１１６で、音声合成手段５に
より「あシがとうござい！した。」と発声して一連の販
売動作を終了する。

尚、ステップ１０６．ステップ１０９．ステップ１１３
で、それぞれ、コーヒー以外のフレーバー塩、アイス、
いいえを認識した場合については、上述の処理と同様の
処理となるため説明を省略する。

以上のように本実施例によれば、認識単語選択手段１ｏ
により認識すべき単語を選択し、ＣＲＴ等により構成さ
れた表示手段１１により前記選択単語と操作方法を誘導
するコメントを表示するとともに表示手段１１の画面上
に設置されたタッチスクリーン１２により選択単語の表
示位置を入力して単語を認識することを可能にし、音声
合成手段５と表示手段１１により利用者に音声またはタ
ッチスクリーン１２による入力を促すものであるから、
利用者は発声前に発声すべき単語を容易に知ることがで
きるので、認識可能な単語以外の単語を発声したう１余
分な語頭や語尾を付加して発声することがなくなること
が期待できる。又、利用者が音声以外の方法での入力を
希望する場合も、表示手段１１に操作方法を誘導するコ
メントを表示し、タッチスクリーン１２により単語を選
択することができるので、カップ自販機を別に設けた多
数のスイッチ入力手段により大きくすることなく、又、
利用者が戸惑うことなく簡単に好みの飲料を選択するこ
とができる。

発明の効果以上のように本発明の音声認識システムは、複数の離散
単語音声の標準パターンを記録した標準パターン記憶手
段と、発声者の音声を分析し音声パターンを抽出する音
声分析手段と、前記標準パターン群から前記音声分析手
段により抽出した音声パターンに最も近い標準パターン
を選出するパターン照合手段と、標準パターンとして記
憶した単語を画面に表示して発声者に発声すべき単語を
告知する表示手段と、前記表示手段に表示された単語の
画面上の表示位置を入力するタッチスクリンと、前記パ
ターン照合手段により選出された標準パターンに相当す
る単語または前記タッチスクリーンにより入力された位
置に相当する単語を択一的に選択する制御手段とを設け
ることにより、利用者が、認識可能単語以外の単語を発
声したり、余分な語頭や語尾を付加して発声することが
なくなり、又、何らかの理由で利用者が発声できない、
または、発声したくない場合でも、本発明の音声認識シ
ステムを適用する機器装置類を多数のスイッチ入力手段
により大きくすることなく音声以外の方法（タッチスク
リーン）で飲料を選択できるという効果が得られる。

【図面の簡単な説明】

第１図は本発明の実施例にかける音声認識システムの機
能ブロック図、第２図、第３図そして第４図は表示手段
と音声合成手段との連動を示す連動関係図、第５図は販
売動作を示すフローチャト、第６図は従来の機能ブロッ
ク図である。３・・・・・・標準パターン記憶手段、２・・・・・・
音声パターン分析手段、４・・・・・・パターン照合手
段、１１・・・・・・表示手段、１２・・・・・・タッ
チスクリーン、７・・・・・・制御手段。

Claims

【特許請求の範囲】

複数の離散単語音声の標準パターンを記録した標準パタ
ーン記憶手段と、発声者の音声を分析し音声パターンを
抽出する音声分析手段と、前記標準パターン群から前記
音声分析手段により抽出した音声パターンに最も近い標
準パターンを選出するパターン照合手段と、標準パター
ンとして記憶した単語を画面に表示して発声者に発声す
べき単語を告知する表示手段と、前記表示手段に表示さ
れた単語の画面上の表示位置を入力するタッチスクリー
ンと、前記パターン照合手段により選出された標準パタ
ーンに相当する単語または前記タッチスクリーンにより
入力された位置に相当する単語を択一的に選択する制御
手段とよりなる音声認識システム。