JP2010079103A - 音声対話装置及びそのプログラム並びに音声対話処理方法 - Google Patents
音声対話装置及びそのプログラム並びに音声対話処理方法 Download PDFInfo
- Publication number
- JP2010079103A JP2010079103A JP2008249280A JP2008249280A JP2010079103A JP 2010079103 A JP2010079103 A JP 2010079103A JP 2008249280 A JP2008249280 A JP 2008249280A JP 2008249280 A JP2008249280 A JP 2008249280A JP 2010079103 A JP2010079103 A JP 2010079103A
- Authority
- JP
- Japan
- Prior art keywords
- input
- voice
- display
- unit
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 40
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000000034 method Methods 0.000 claims description 94
- 230000008569 process Effects 0.000 claims description 81
- 230000004044 response Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 description 48
- 230000010365 information processing Effects 0.000 description 31
- 230000008859 change Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012790 confirmation Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000005192 partition Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【課題】利用者が音声による情報入力に慣れていない場合であっても、どのように音声入力をすればよいかを把握することが容易な音声対話装置を提供すること。
【解決手段】音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段と、音声ガイダンスと、当該音声ガイダンスに応じて次に前記音声入力部へ入力させるべき入力項目と、を対応づけた対話シナリオを記憶するシナリオ記憶手段と、前記対話シナリオに従った音声ガイダンスを音声出力部から出力する音声ガイダンス出力手段と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部に所定表示形式で表示する表示処理手段とを備える構成とした。
【選択図】図5
【解決手段】音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段と、音声ガイダンスと、当該音声ガイダンスに応じて次に前記音声入力部へ入力させるべき入力項目と、を対応づけた対話シナリオを記憶するシナリオ記憶手段と、前記対話シナリオに従った音声ガイダンスを音声出力部から出力する音声ガイダンス出力手段と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部に所定表示形式で表示する表示処理手段とを備える構成とした。
【選択図】図5
Description
本発明は、音声対話装置及びそのプログラム並びに音声対話処理方法に関し、より詳しくは、音声により利用者と対話を行い、利用者が要求する情報やサービスを提供する音声対話装置及びそのプログラム並びに音声対話処理方法に関するものである。
近年、音声により利用者と対話を行うことにより、利用者が要求する情報やサービスを提供する音声対話装置が多数提案されている。この種の音声対話装置では、音声ガイダンスを出力することによって利用者に入力すべき項目(入力項目)を提示し、当該音声ガイダンスに応じて利用者が発する音声を認識することで利用者との対話を行っている(例えば、特許文献1を参照。)。
特開平11−212594号公報
しかしながら、従来の音声対話装置では、その利用者が音声による情報入力に慣れていない場合、音声ガイダンスに対してどのように音声入力をすればよいか分からなくなることがあった。
そこで、本発明は、利用者が音声による情報入力に慣れていない場合であっても、どのように音声入力をすればよいかを把握することのできる音声対話装置及びそのプログラム並びに音声対話処理方法を提供することを目的とする。
かかる目的を達成するために、請求項1に記載の発明は、音声ガイダンスと、当該音声ガイダンスに応じて音声入力部へ入力させるべき入力項目と、を対応づけた対話シナリオを記憶するシナリオ記憶手段と、前記対話シナリオに従った音声ガイダンスを音声出力部から出力する音声ガイダンス出力手段と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部に所定表示形式で表示する表示処理手段と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段と、を備えた音声対話装置とした。
また、請求項2に記載の発明は、請求項1に記載の音声対話装置において、前記音声認識手段により認識された複数の入力内容の候補を前記表示部へ表示する候補表示手段と、前記候補表示手段により表示された複数の入力内容の候補から、いずれか一つの候補を選択する選択手段と、前記選択手段により選択された候補を入力内容として決定する入力処理手段とを備えたことを特徴とする。
また、請求項3に記載の発明は、請求項1又は2に記載の音声対話装置において、前記表示処理手段は、前記表示部に表示した入力項目が指定されてから所定期間経過したとき、当該入力項目に対する入力例を表示することを特徴とする。
また、請求項4に記載の発明は、請求項1〜3のいずれか1項に記載の音声対話装置において、前記表示処理手段は、前記表示部に表示した入力項目が指定されているときに、前記音声入力部への音声の入力が行われると、当該入力項目の表示形式を変更することを特徴とする。
また、請求項5に記載の発明は、請求項1〜3のいずれか1項に記載の音声対話装置において、前記表示処理手段は、前記表示部に表示した入力項目が指定されているときに、音声認識処理が開始されると、当該入力項目の表示形式を変更することを特徴とする。
また、請求項6に記載の発明は、請求項1〜5のいずれか1項に記載の音声対話装置において、前記表示処理手段は、前記音声ガイダンス出力手段により音声ガイダンスを出力後、所定期間経過したときに、前記入力項目を前記表示部に表示することを特徴とする。
また、請求項7に記載の発明は、請求項1〜6のいずれか1項に記載の音声対話装置において、前記表示処理手段は、前記音声ガイダンスに応じて前記音声入力部に入力されるべき必須の入力項目に加え、任意の入力項目を前記表示部に表示するときには、前記必須の入力項目と前記任意の入力項目とで表示形式を変更することを特徴とする。
また、請求項8に記載の発明は、請求項1〜7のいずれか1項に記載の音声対話装置において、前記表示処理手段は、前記入力項目に対する入力内容が所定の入力内容であるときに、すでに表示している入力項目に従属する入力項目を前記表示部に表示することを特徴とする。
また、請求項9に記載の発明は、請求項1〜8のいずれか1項に記載の音声対話装置において、前記音声認識手段は、複数の音声認識用辞書を有しており、前記表示部に表示される入力項目に応じた音声認識用辞書を選択して前記音声入力部に入力された音声の認識を行うことを特徴とする。
また、請求項10に記載の発明は、請求項1〜9のいずれか1項に記載の音声対話装置において、前記表示処理手段は、前記音声ガイダンスに応じて前記音声入力部に入力されるべき入力項目が複数あるとき、これら複数の入力項目をそれぞれ所定表示形式で前記表示部に表示し、前記音声認識手段は、複数の音声認識用辞書を有しており、前記複数の入力項目のうちすでに認識した入力項目の入力内容に応じた音声認識用辞書を選択し、前記複数の入力項目のうちまだ認識していない入力項目に対して前記音声入力部に入力される音声の認識を、前記選択した音声認識用辞書を用いて行うことを特徴とする。
請求項11に記載の発明は、コンピュータを、請求項1〜10のいずれか1項に記載の音声対話装置の各手段として機能させるプログラムとした。
請求項12に記載の発明は、記憶部に記憶した対話シナリオに従った音声ガイダンスを音声出力部から出力するステップと、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を、前記認識された入力内容と前記対話シナリオとに従って表示部に所定表示形式で表示するステップと、前記音声入力部に入力される音声に基づいて入力内容の認識を行うステップと、を有する音声対話処理方法とした。
本発明によれば、音声ガイダンスが音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を表示部に所定表示形式で表示するので、利用者が音声による情報入力に慣れていない場合であっても、どのような内容をどのように音声入力すればよいかを把握することが容易となる。
[1.音声対話処理装置の概要]
本発明の実施の形態に係る音声対話装置の概要について、図面に基づいて説明する。図1は音声対話装置の概要構成を示す説明図、図2は本実施形態における音声対話装置の外観図、図3は音声対話処理方法の説明図である。
本発明の実施の形態に係る音声対話装置の概要について、図面に基づいて説明する。図1は音声対話装置の概要構成を示す説明図、図2は本実施形態における音声対話装置の外観図、図3は音声対話処理方法の説明図である。
音声対話装置は、音声により利用者と対話を行うことによって利用者が要求する情報やサービスを提供可能としたものであり、図1に示すように、音声ガイダンスと、当該音声ガイダンスに応じて音声入力部へ入力させるべき入力項目と、を対応づけた対話シナリオを記憶するシナリオ記憶手段と、前記対話シナリオに従った音声ガイダンスを音声出力部から出力する音声ガイダンス出力手段と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部に所定表示形式で表示する表示処理手段と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段とを備えている。
ここで、本実施形態における対話シナリオとは、設定された複数の質問項目と、各質問項目に対して予測される複数の利用者の回答項目、各回答項目に対する新たな質問項目や確認項目などが、様々なシチュエーションに応じて筋道立てられて構築されている。
そして、この対話シナリオに従って、音声ガイダンスが音声出力部より出力されるとともに、音声ガイダンスに応じて音声入力部に入力されるべき入力項目が、利用者に分かりやすい表示形式で表示部に表示される。
したがって、利用者は、音声ガイダンスが要求する入力内容が、表示部に入力項目として表示されるため、どのような内容をどのように音声入力すれば良いかを容易に把握することができる。
かかる音声対話装置は、例えば、会社などの受付に設置することができ、会社を訪問した来客との音声による対話によって、客が望む部署や社員へ取り次ぐことができる自動受付装置として用いることが可能である。このとき、対話シナリオとしては、来客を所定の部署や特定社員に取り次ぐまでの音声ガイダンスと予想回答とが筋道立てられて構築されている来客受付シナリオが用いられる。
自動受付装置に適用された本実施形態に係る音声対話装置は、図2に示すように、受付カウンタ10に設置されており、筐体1の前面には、表示部であるタッチパネルディスプレイ2と、音声入力部であるマイク3と、音声出力部であるスピーカ4と、利用者の存在を検出する赤外線センサ5が設けられている。
筐体1には、制御部や記憶部(図1)や入出力部を備えたコンピュータなどの情報処理装置、及びその他の機器類が必要に応じて搭載されている。前記音声ガイダンス出力手段、表示処理手段、及び音声認識手段としての機能は、制御部を主として情報処理装置が担っており、シナリオ記憶手段は、情報処理装置のハードディスクなどからなる記憶部がその機能を担っている。また、この記憶部には、対話シナリオに関連付けた各種の辞書が記憶されている。
また、この記憶部には、情報処理装置を前述の各手段として機能させるための音声対話プログラムが格納されており(図13参照)、この音声対話処理プログラムに従い、制御部は、音声対話装置による音声対話処理を実行する。なお、前記音声対話プログラムは、例えば、CD、DVD、フレキシブルディスク、あるいはフラッシュメモリなどの各種記憶媒体に記録されており、これらから読み取って前記記憶部に記憶させている。
こうして、音声対話プログラムに従って、音声認識手段として機能する情報処理装置は、スピーカ4から音声ガイダンスを出力するとともに、マイク3から利用者により入力された音声信号を各種辞書と照合して、利用者の発話内容に対応する文字列データを生成し、このデータと対話シナリオに基づいて、さらに音声ガイダンスを出力するなどして、利用者との音声対話を進行させる。
すなわち、かかるプログラムを用いた本実施形態に係る音声対話装置による音声対話処理方法は、図3に示すように、記憶部に記憶した対話シナリオに従った音声ガイダンスを音声出力部から出力する手順S1と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を、前記認識された入力内容と前記対話シナリオとに従って表示部に所定表示形式で表示する手順S2と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う手順S3とを有する。
例えば、来客を検知すると、「いらっしゃいませ。画面の案内を確認しながらご用件をお話しください。先ずお名前と所属を教えてください。」などの音声ガイダンスをスピーカ4から出力する。そして、音声ガイダンスに応じて客が音声入力すべき入力項目をタッチパネルディスプレイ2に表示する。入力項目の表示態様としては、客自身の会社名入力区画や名前入力区画などが所定表示形式で表示される。他方、訪問客は、表示された会社名入力区画や名前入力区画を見ながら、自身が音声入力すべき内容を確認しながら発話する。音声対話装置は、マイク3を通して入力された発話(音声)を認識する。そして、音声ガイダンスの出力及び入力項目の表示、訪問客による音声入力、音声対話装置による音声認識が、対話シナリオ(来客受付シナリオ)に従って進行していくのである。
以上説明してきたように、本実施形態に係る音声対話装置は、対話進行を、装置側の音声ガイダンスと利用者の発話との音声のみで行うのではなく、音声ガイダンスに応じたディスプレイ表示を行うことで、音声による情報入力に慣れていない利用者であっても、どのように音声入力をすれば良いかが容易に把握することができるようになっている。すなわち、音声ガイダンスが前記スピーカ4から出力されるときに、当該音声ガイダンスに応じてマイク3に入力されるべき入力項目をタッチパネルディスプレイ2所定の表示形式で表示し、利用者は、この表示を見ながら音声入力することができるのである。
音声ガイダンスに対して、利用者は音声入力を行うのであるが、利用者は、自身が音声による情報入力をしているときに、その情報入力が音声対話装置に本当に入力されるのかを把握することができず、不安になることも考えられる。
そこで、表示処理手段は、表示部に表示した入力項目が指定されているときに、前記音声入力部への音声の入力が行われると、当該入力項目の表示形式を変更するようにしている。ここで、「表示部に表示した入力項目が指定されている」というのは、例えば、タッチパネルディスプレイ2に表示されている入力項目を利用者がタッチして(触れて)、制御部がそのタッチ信号を検出している状態である。
すなわち、表示されている入力項目を、利用者が指でタッチしながら音声入力すると、音声対話装置がこの音声入力を受け付けた場合は、表示形式を変化させ、利用者に音声入力が受け付けられたことを報知するのである。なお、入力項目を指定するのは、指でワンタッチするだけであってもよいが、音声入力の開始、終了タイミングを制御部が簡単に認識することができるように、音声入力する場合、利用者は表示されている入力項目のタッチ状態を継続しておくことを条件とすることが好ましい。また、利用者の音声入力への意識付けを明確にできるという観点からも、音声入力中はタッチ状態を継続しておくことが望ましいため、以下では、表示されている入力項目のタッチは、音声入力中はタッチ状態を継続しておくものとして説明する。
したがって、利用者は、音声ガイダンスに応じて、入力項目内容を音声入力する際に、タッチパネルディスプレイ2に表示されている入力項目を指でタッチすれば、どのような情報を音声入力すればいいかを視覚的に確認できるとともに、音声で入力した情報が装置に受け付けられていることも確認できるため、安心して音声対話装置を使用することができる。なお、表示形式の変化態様としては、形状、色、大きさなどの変化が考えられ、特に限定するものではないが、利用者の音声のボリュームに応じて変化するものとすれば、利用者は自分の声の大きさのレベルも認識できるため、より好ましい。
さらに、表示処理手段は、前記表示部に表示した入力項目が指定されているときに、音声認識処理が開始されると、当該入力項目の表示形式を変更することもできる。
つまり、表示されている入力項目が指でタッチされて音声入力されたとき、音声対話装置がこの音声入力を受け付け、なおかつ音声認識処理が開始されて情報として取得中である場合、入力項目の表示形式をさらに変化させ、利用者に、当該利用者の音声入力が受け付けられたことを報知するのである。なお、このときの表示形式の変化は、音声入力を受け付けたときの変化とは異なる態様とすることが好ましい。
ところで、表示処理手段により実行される処理において、(1)利用者が指でタッチして音声入力すると、音声対話装置がこの音声入力を受け付けた場合は、表示形式を変化させ、利用者に音声入力が受け付けられたことを報知する処理と、(2)前記表示部に表示した入力項目が指定されているときに、音声認識処理が開始されると、当該入力項目の表示形式を変更する処理とがあるが、そのいずれか一方を実施してもよいし、両方共に実施してもよい。
また、表示処理手段は、前記音声ガイダンス出力手段により音声ガイダンスを出力後、所定期間経過したときに、前記入力項目を前記表示部に表示することが好ましい。すなわち、来訪者が最初はタッチパネルディスプレイ2に気を取られることなく、先ず、音声ガイダンスを集中して聞き、その後タッチパネルディスプレイ2に目を移せるようにするためである。
[2.音声対話処理装置の動作概要]
[2.音声対話処理装置の動作概要]
上述してきた音声対話装置の動作概要について、会社を訪れた客が当該音声対話装置を利用する場合として説明する。図4は本実施形態に係る音声対話装置の動作の流れ示す説明図、図5は音声入力処理の概要を示す説明図、図6〜図9、図11及び図12はタッチパネルディスプレイ2に表示される来客受付画面の説明図、図10は音声入力の入力レベルに応じた表示形式変更処理の手順を示す説明図である。
図4に示すように、訪問客が自動受付装置として機能する音声対話装置の前に立つと、音声対話装置は赤外線センサ5(図2)で客の来訪を検知する(ステップS101)。
来客があったことを検知した音声対話装置は、後に詳述する来客受付シナリオを参照して、所定の発話音声(セリフ)と入力項目のリストを取得する(ステップS102)。
来客があったことを検知した音声対話装置は、後に詳述する来客受付シナリオを参照して、所定の発話音声(セリフ)と入力項目のリストを取得する(ステップS102)。
次いで、タッチパネルディスプレイ2上に、入力項目に対応する区画領域を表示し(ステップS103)、音声ガイダンスを発話する(ステップS104)。
例えば、図6に示すように、タッチパネルディスプレイ2上には、受付嬢をイメージしたキャラクタ画像と、訪問客が音声入力すべき客自身の「会社名入力区画」領域や「名前入力区画」領域が、円形で表示された領域内にそれぞれ「会社」、「名前(苗字)」と文字書された態様で表示される。また、スピーカ4からは、あたかも受付嬢が発話しているように、「いらっしゃいませ。先ずお名前と所属を教えてください。」などと音声ガイダンスを出力する。
そして、訪問客による区画領域の指定と音声入力に基づいて音声入力処理を実行し(ステップS105)、その後、来客受付シナリオに従った音声内容を全て認識し終えたかを判断して(ステップS106)、終えた場合はそのまま来客受付処理を終了し、終えていない場合はステップS102〜S105の処理を繰り返す。
ここで、ステップS105の音声入力処理は、図5に示すような手順で行われる。「先ずお名前と所属を教えてください。」という音声ガイダンスを聞いて、会社名を入力しようとするのであれば、客は、先ず、タッチパネルディスプレイ2上の「会社名入力区画」領域を指でタッチする。
音声対話装置は、訪問客のタッチ動作を検知し(ステップS201)、入力項目に対応する音声認識用の辞書をロードする(S202)。この辞書は、来客受付シナリオに関連付けられて記憶部に複数種類格納されている。
すなわち、声認識手段として機能する前記情報処理装置は、複数の音声認識用辞書を有しており、前記タッチパネルディスプレイ2に表示される入力項目に応じた音声認識用辞書を選択してマイク3に入力された音声の認識を行っている。
例えば、訪問者が、最初に名前を、次に会社名を入力する場合であれば、名前を入力するために「名前入力区画」領域をタッチすると、制御部は、全国を対象とした名前辞書を選択してこれをロードし、次いで「会社名入力区画」領域がタッチされると全国を対象とした会社辞書を選択してこれがロードされて各音声認識が行われる。
他方、上記の「会社名入力区画」領域や「名前入力区画」領域のように、音声ガイダンスに応じて前記音声入力部に入力されるべき入力項目が複数あるとき、表示処理手段として機能する情報処理装置の制御部は、これら複数の入力項目をそれぞれ所定表示形式で前記表示部に表示するのであるが、前記制御部は、前記複数の入力項目のうちすでに認識した入力項目の入力内容に応じた音声認識用辞書を選択し、前記複数の入力項目のうちまだ認識していない入力項目に対して前記音声入力部に入力される音声の認識を、前記選択した音声認識用辞書を用いて行うこともできる。
すなわち、最初に会社名を入力して、次に名前を入力する場合であれば、制御部は、全国を対象とした名前辞書ではなく、すでに認識した入力項目(会社名)の入力内容に応じた音声認識用辞書として、その会社の社員名辞書を選択してロードするのである。よって、辞書検索の範囲が小さくなり、訪問者の名前の認識精度とスピードを向上させることができる。
次いで、音声対話装置は、入力項目に対応する表示領域を入力待ち状態を示す表示に変更するとともに(ステップS203)、システム状態を入力待ち状態に遷移する(ステップS204)。
「会社名入力区画」領域が指定されている場合であれば、図7に示すように、円形で表示されている「会社名入力区画」領域の円を多重に表示して、一重の円のままの表示がなされている「名前入力区画」領域と区別できるようにするのである。
他方、訪問客は、指でタッチしている「会社名入力区画」領域が、図7に示すように変化したことで、入力待ち状態となっていることを確認するとともに、「今は会社名を音声入力するのだ」と意識しつつ、タッチしたまま、例えば「○△工業です。」と自信をもって音声入力することができる。
音声対話装置は、音声入力を受付け、入力内容の認識処理を開始すると表示形式変更処理を実行する(ステップS206)。
例えば、図8に示すように、音声入力の入力レベルに応じて、色の種類とその濃度を3段階(第1の色〜第3の色)に変更する。かかる表示処理により、訪問客は自分の音声が受け付けられていることを確認することができる。
この図8で示した表示処理の変更、すなわち、音声入力の入力レベルに応じて表示形式を変更する処理は、図10に示す手順で行われる。
図10に示すように、先ず、音声対話装置の制御部は、音声入力レベルを取得する(ステップS300)。次いで、予め記憶部に記憶した音声入力レベルの許容範囲データを読み出す(ステップS301)。そして、入力レベルが許容範囲を上回るか否かを判断する(ステップS302)。上回ると判断した場合は、処理をステップS303に移し、表示領域(例えば、「会社名入力区画」領域)を第1の色(例えば、薄い水色など)に設定する(図8(a))。
ステップS302で、入力レベルが許容範囲を上回らないと判断した場合は、入力レベルが許容範囲を下回るか否かを判断する(ステップS304)。そして、下回ると判断した場合は、処理をステップS305に移し、表示領域(例えば、「会社名入力区画」領域)を第2の色(例えば、通常の濃度の緑色など)に設定する(図8(b))。
ステップS304で、入力レベルが許容範囲を下回らないと判断した場合は、処理をステップS306に移し、表示領域(例えば、「会社名入力区画」領域)を第3の色(例えば、高濃度の赤色など)に設定する(図8(c))。
ステップS303,S305,S306の処理を終えると、訪問客による音声入力が終了したかを判断し(ステップS307)、終了したと判断すればこの表示形式変更処理を終了し、音声入力が未だ終了していないと判断した場合は、処理をステップS300に戻す。
また、ステップS206の表示形式変更処理では、客の発声した「○△工業です。」について音声認識処理を開始すると、図9に示すように、「会社名入力区画」領域中で放射状に光が点滅するなどして表示態様(表示形式)を変更する。かかる表示処理により、訪問客は自分の名前を認識中であることを確認できる。
図5に戻り、音声対話装置の制御部が表示形式変更処理(ステップS206)を終了すると、訪問客は、自分の発話に対し、音声対話装置側で音声入力内容の認識処理を開始したことを図9に示した表示形式の変化で確認できるため、タッチしている「会社名入力区画」領域から指を離して発話を終了する。
音声対話装置の制御部は、ステップS202でロードした辞書を用いて、入力された音声の認識処理を行い(ステップS208)、認識結果を尤度順に「会社名入力区画」領域の周囲に表示する(ステップS209)。例えば、図11に示すように、円で表示された会社名入力区画」領域を囲むように、尤度順に大きさの異なる複数の認識結果候補を所定形状の区画領域で表示する。ここでは、会社名入力区画」領域と同じように円形の区画領域としているが、矩形などであってもよい。
一方、訪問客は「会社名入力区画」領域の周囲に表示された認識結果の候補を確認し、その中に自分の音声入力を反映した正しい認識結果があれば、タッチパネルディスプレイ2上で正しい認識結果が表示されている部分をタッチする。他方、タッチパネルディスプレイ2上にはNGボタンが表示されており(図示せず)、認識結果が自分の音声入力を反映したものでないと判断すれば、NGボタンをタッチして音声入力をやり直す。
ところで、ステップS208で入力された音声の認識処理を行ったときに、候補が複数ではなく単独の場合もある。その場合は、複数の認識結果候補を示す所定形状の区画領域は1つだけ表示されることになり、これが確認ボタンとして機能する。なお、前記NGボタンとともにOKボタン(図示せず)を表示して、これらを確認ボタンとして使用できるようにしてもよい。
このように、音声対話装置の制御部は、音声認識手段として機能するとともに、さらに、この音声認識手段により認識された複数の入力内容の候補をタッチパネルディスプレイ2へ表示する候補表示手段と、この候補表示手段により表示された複数の入力内容の候補から、いずれか一つの候補を選択する選択手段と、この選択手段により選択された候補を入力内容として決定する入力処理手段としても機能している。
音声対話装置の制御部は、ステップS209の処理の後、訪問客からの正しい認識結果を示すタッチパネルディスプレイ2のタッチ信号を検出すると、図12に示すように、会社名入力区画」領域内に認識結果を表示するとともに、会社名入力区画」領域の円を太線で表示して、音声入力が確定したことを訪問客に報知する。
こうして、本実施形態に係る音声対話装置は、インターフェイスとして、音声入力部や音声出力部に加え、音声ガイダンスの内容を利用者が視覚的にも把握できるように、タッチパネルディスプレイ2を備えた構成としたことにより、より円滑な対話進行を実現することができる。
以下、本実施形態に係る音声対話装置について、図面を参照しながら、より具体的に説明する。なお、以下においても、音声対話装置によって会社へ来訪した来客の受け付けを行うとともに、この来客が希望する社員への面会取り次ぎを行うまでを例にとって説明する。
[3.音声対話処理装置の具体的構成]
図13は、本実施形態に係る音声対話装置の電気的構成を示すブロック図、図14は記憶部に記憶されている対話シナリオファイルの一例である第1の来客受付シナリオを表化して示した来客受付シナリオテーブル、図15はこの来客受付シナリオに関連付けられて記憶部に記憶されている来訪予約データを表化して示した来訪予約テーブル、図16は来客受付シナリオに従って進行する音声対話の流れを示す説明図、図17は第2の来客受付シナリオテーブルの説明図、図18はタッチパネルディスプレイ2に表示される来客受付画面の説明図である。
図13は、本実施形態に係る音声対話装置の電気的構成を示すブロック図、図14は記憶部に記憶されている対話シナリオファイルの一例である第1の来客受付シナリオを表化して示した来客受付シナリオテーブル、図15はこの来客受付シナリオに関連付けられて記憶部に記憶されている来訪予約データを表化して示した来訪予約テーブル、図16は来客受付シナリオに従って進行する音声対話の流れを示す説明図、図17は第2の来客受付シナリオテーブルの説明図、図18はタッチパネルディスプレイ2に表示される来客受付画面の説明図である。
図13に示すように、音声対話装置は、先に図1を参照して説明したように、タッチパネルディスプレイ2(表示部)と、マイク3(音声入力部)と、スピーカ4(音声出力部)と、赤外線センサ5とを備えるとともに、これらと入出力部を介して接続された、CPU61、ROM62、RAM63などからなる制御部と、記憶部としてのハードディスク装置7(以下「HDD7」とする)とを備える情報処理装置6を具備している。なお、図では省略したが、情報処理装置6には、タッチパネルディスプレイ2を制御する表示処理手段としての表示制御回路やスピーカ4からの音声出力を制御する音声出力回路などが備えられている。
HDD7には、本音声対話装置全体を制御ためのシステムプログラム、音声対話処理を行うための音声対話プログラム、対話シナリオファイル、音声認識辞書、発話用音声データなどが格納されており、音声対話プログラムは、対話制御プログラム、音声入力プログラム、入力レベル判定プログラム、音声認識プログラムなどから構成されている。なお、前記発話用音声データに代えて、音声合成プログラムを用いることもできる。
なお、記憶部を構成するHDD7を始め、主制御を行う情報処理装置は必ずしも筐体1内に格納されていなくてもよく、例えば、別置きされたワークステーションやサーバなどに備えられていてもよい。その場合、図2で示した筐体1を備えた装置を端末装置として用い、これをワークステーションやサーバと無線あるいは有線にて接続したシステム構成であってもよい。
対話シナリオファイルは、種々のシチュエーションに応じた複数の対話シナリオがテーブル化されて記憶されており、本実施形態の音声対話装置では、図14に示す第1の来客受付シナリオテーブル又は図17に示す第2の来客受付シナリオテーブルが最初に参照される。
図14に示すように、第1の来客受付シナリオテーブルには、来客の用件に対応するために必要な特定事項を決定するのに必要な情報を取得するための複数のID欄が時系列に設けられている。そして、各ID欄には、タイトル、音声ガイダンスとして発話するセリフ、音声ガイダンスに応じて利用者である客が音声入力すべき入力項目が対応付けられている。さらに、この入力項目は、項目名、入力項目を認識するための認識辞書(音声認識用辞書)、入力項目から派生する従属項目であるか否かを判定するための従属チェック、入力項目が必須であるか任意のものであるのかを識別する必須チェックが対応付けられている。
具体的には、この第1の客受付シナリオテーブルにはID1〜ID4が設定されており、ID1の欄のタイトルは「来客特定1」であり、来客を特定するために音声ガイダンスとして音声出力されるセリフは「こんにちは。会社名とお名前を教えてください。」である。利用者である客が音声で入力する入力項目の項目名は、「会社名」、「名前(姓)」が設定されている。なお、このID1では、「会社名」、「名前(姓)」のいずれにも従属チェックでは従属されていないことを示すフラグが立てられており、必須チェックでは、いずれも必須であることを示すフラグが立てられている。
また、認識辞書として、「会社名」には「会社名辞書」が、「名前(姓)」には「苗字辞書」が設定されている。すなわち、音声認識手段として機能する情報処理装置は、複数の音声認識用辞書を有しており、タッチパネルディスプレイ2に表示される入力項目に応じた音声認識用辞書を適宜選択してマイク3を介して入力された音声の認識を行っている。
また、ID2の欄のタイトルは「部署特定」であり、部署を特定するための音声ガイダンスのセリフは「所属の部署名も教えてください。」である。入力項目の項目名は、「部署名」が設定されている。そして、認識辞書としては、「部署名辞書」が設定されている。このID2の入力項目はID1の入力項目である「会社名」から派生した従属項目であるため、従属チェックには、従属を示すフラグが立てられており、また、このID2の入力項目も部署を特定するためには必須であるため、必須チェックでは必須であることを示すフラグが立てられている。
ID3の欄のタイトルは「来客特定2」であり、「来客特定1」で来客を特定できない場合の従属項目であるため、従属チェックには、従属を示すフラグが立てられている。音声ガイダンスとして音声出力されるセリフは「申し訳ありませんが下のお名前も頂戴できますか。」であり、訪問客が音声で入力する入力項目の項目名は、「名前(名)」が設定されている。そして、認識辞書としては、「名前辞書」が設定されている。
ID4の欄のタイトルは「案内特定」であり、対話シナリオの結びになり、来訪者からの音声入力は想定されていない。よって、このID4ではセリフのみが設定されている。設定されているセリフとしては、「ただいま担当者におつなぎします。」と、「アポイントが登録されていません。」の2通りである。
また、図15に示す来訪予約テーブルは、来客受付シナリオテーブルに関連付けられて記憶されており、図示するように、「来客会社名」、「来客部署」、「来客名」、「訪問予定日時」、「担当者名」、及び「担当者電話番号」の項目ごとに、来訪予約のあった訪問客に関するデータが纏められている。
[4.音声対話処理装置による音声対話の進行]
上記第1の来客受付シナリオに従った音声対話がどのように進行していくかを、図16を参照して説明する。訪問客を赤外線センサ5により検出すると、音声対話装置は、第1の来客受付シナリオを参照して、図示するように、先ず、発話処理と入力項目に対応する表示領域(「会社名入力区画」領域、「名前入力区画」領域)の表示処理を実行する(ステップS400)。
上記第1の来客受付シナリオに従った音声対話がどのように進行していくかを、図16を参照して説明する。訪問客を赤外線センサ5により検出すると、音声対話装置は、第1の来客受付シナリオを参照して、図示するように、先ず、発話処理と入力項目に対応する表示領域(「会社名入力区画」領域、「名前入力区画」領域)の表示処理を実行する(ステップS400)。
訪問客が上述してきた手順(図5参照)で音声入力を行った結果、訪問客の会社がグループ企業であるか否かを判断する(ステップS401)。この判断は、訪問客の音声入力を認識するときに用いた会社名辞書に基づく。すなわち、会社名辞書にある企業名データなどには、グループ企業であるか否かを示す識別子が付設されているのである。
そして、グループ企業であると判断すると、来客受付シナリオテーブル(図14)のID2に基づいて、音声対話装置はステップS402により「所属の部署も教えてください。」と音声ガイダンスを出力する。このとき、タッチパネルディスプレイ2上には、図18に示すように、会社名に従属する入力項目である部署名(所属)が「会社名入力区画」領域と関連するように線で結ばれた状態で表示される。
すなわち、音声対話装置の情報処理装置は、入力項目に対する入力内容が所定の入力内容であるときに、すでに表示している入力項目に従属する入力項目をタッチパネルディスプレイ2に表示することができるのである。
この「所属の部署も教えてください。」という音声ガイダンスに従って、訪問客がこれも図5に示した手順に従って、タッチパネルディスプレイ2の部署名(所属)の部分をタッチしながら所属する部署を音声入力すると、情報処理装置は、音声認識して来客データを生成するとともに、来客予約データを参照しにいく(ステップS403)。そして、生成した来客データが来客予約データのデータに該当するか否かを判定する(ステップS404)。この来客予約データは、図15で示した来訪予約テーブルのデータである。
そして、来客予約テーブルのデータの中に、音声認識で特定した来客のデータがなければ、予約無の来客と判断し、ステップS405に処理を移す。この処理においては、情報処理装置は「アポイントが登録されておりません。」などと音声出力し、次いで、ステップS406で音声対話の進行を別の対話シナリオ、例えば用件確認シナリオに引き継いで処理を終了する。
その後は、用件確認シナリオが読み出されて用件確認処理が進行していくが、この用件確認シナリオでは、例えば、「アポイントが登録されておりませんが、どのようなご用件でしたでしょうか?」と音声ガイダンスを出力するともに、この音声ガイダンスに応じて入力されるべき入力項目(例えば、打ち合わせ、配達、営業、その他)をタッチパネルディスプレイ2に表示することになる。
一方、ステップS404で来客データが来客予約データのいずれにも該当しない場合、来客予約データ中に来客データと同一姓(同一苗字)のデータが存在するか否かを判定する(ステップS407)。
そして、同一姓のデータがない場合は、処理をステップS410に移す一方、同一姓のデータがある場合は、ステップS408において、「申し訳ありませんが、下のお名前も頂戴できますか。」と音声ガイダンスを出力する。このとき、タッチパネルディスプレイ2上には、名前(姓)に従属する入力項目である名前(名)が、図18で示した部署名(所属)が「会社名入力区画」領域と関連するように線で結ばれていのと同じような形態で表示される。
訪問客が、ここでも図5に示した手順に従って、タッチパネルディスプレイ2の名前(名)の部分をタッチしながら下の名前を音声入力すると、情報処理装置は、これを音声認識して来客データを再生成して来客予約データを参照しにいく。そして、再生成した来客データが前述の来客予約データのデータに該当するか否かを判定する(ステップS409)。
同一の名前データがない場合は、処理をステップS405に移す一方、同一の名前データがある場合は、ステップS410において、「ただいま担当者におつなぎします。」と音声出力して、来客受付シナリオに沿った来客受付用の音声対話処理を終える。
なお、本実施形態に係る音声対話装置は、自動受付装置として用いているため、社員と通信可能な所定の通信手段を備えた構成としている。例えば通信手段が電話であれば、ステップS410の処理の後、音声対話装置は来訪予約テーブルの担当者電話番号を参照して担当者に繋ぎ、来客の旨を音声により告げるか、あるいは音声対話装置のマイク3とスピーカ4とを介して、来訪者が担当者(社員)と直接通話できるように通信制御処理を行うことができる。すなわち、音声対話処理を用いた自動受付装置の来客受付処理としては、担当者への連絡処理が含まれる。
ところで、上述してきた第1の来客受付シナリオテーブルを参照しての音声対話処理において、訪問客を最終的に担当者に取り次ぐ場合、来訪予約テーブル(図15)を参照して来訪予定者と関連付けられた担当者に取り次ぐようにしていた。
この場合、来訪予約テーブルには担当者を示すデータが必要となるが、来訪予約テーブルに担当者のデータがなくても音声対話による来客受付けを可能とするためには対話シナリオファイルの一例である第2の来客受付シナリオテーブルを用いるとよい。
この第2の来客受付シナリオテーブルでは、訪問客に担当者の名前を音声入力させるようにしている点が第1の来客受付シナリオテーブルと異なっている。
すなわち、第2の来客受付シナリオテーブルは、図17に示すように、ID1〜ID3が設定されており、ID1の欄のタイトルは「来客特定」であって、これは、図14で示した第1の来客受付シナリオテーブルのID1の「来客特定1」と同じセリフと入力項目(項目名、認識辞書、従属チェック、必須チェック)が設定されている。
また、ID2の欄は、第1の来客受付シナリオテーブルのID2の欄と同じタイトル「部署特定」が設定され、セリフも入力項目(項目名、認識辞書、従属チェック、必須チェック)も同一である。
ID3の欄のタイトルは「担当者特定」であり、来客を特定するために音声ガイダンスとして音声出力されるセリフは「担当者の名前を教えてください。」である。利用者である客が音声で入力する入力項目の項目名は、「担当者名」、「部署名」が設定されている。なお、このID3の従属チェックは、「担当者名」、「部署名」のいずれも従属されていないことを示すフラグが立てられている。他方、必須チェックでは、「担当者名」については必須であることを示すフラグが立てられているが、「部署名」については任意であることを示すフラグが立てられている。
また、認識辞書として、「担当者名」には「担当者名辞書」が、「部署名」には「部署名辞書」が設定されている。
[5.音声対話処理装置による具体的な音声対話処理]
以下、図19〜図25を参照して、上記第2の来客受付シナリオテーブルに従った音声対話処理による来客受付処理について説明する。図19は来客受付シナリオに従って進行する音声対話処理の一例を示すフローチャート、図20及び図21は同音声対話処理のサブルーチンを示すフローチャート、図22〜図25はタッチパネルディスプレイに表示される画面の説明図である。なお、以下の処理は、図13で示した電気的構成を有する音声対話装置が適用された自動受付装置が実行するものであり、既に電源投入がなされ、システムプログラムが起動し、音声対話プログラムが読み出されて初期設定などが全て完了し、訪問客が装置前に位置した時点からの処理フローとしている。
以下、図19〜図25を参照して、上記第2の来客受付シナリオテーブルに従った音声対話処理による来客受付処理について説明する。図19は来客受付シナリオに従って進行する音声対話処理の一例を示すフローチャート、図20及び図21は同音声対話処理のサブルーチンを示すフローチャート、図22〜図25はタッチパネルディスプレイに表示される画面の説明図である。なお、以下の処理は、図13で示した電気的構成を有する音声対話装置が適用された自動受付装置が実行するものであり、既に電源投入がなされ、システムプログラムが起動し、音声対話プログラムが読み出されて初期設定などが全て完了し、訪問客が装置前に位置した時点からの処理フローとしている。
図19に示すように、赤外線センサ5で来客を検知すると(ステップS500)、装置内のCPU61は、対話シナリオファイルから第2の来客受付シナリオテーブル(図17)を読み出し、来客特定(ID1)のデータをロードする(ステップS501)。
この来客特定(ID1)に従って訪問客との対話を実行する(ステップS502)。このステップS502により、訪問者の会社名、氏名が特定されることになる。なお、このステップS502で実行される対話実行処理については、図20及び図21に示すサブルーチンを参照して、後に詳述する。
来客の特定により、会社名を認識すると、CPU61は、この会社名が自社のグループ企業であるか否かを判断する(ステップS503)。すなわち、第2の来客受付シナリオテーブルに規定されている会社名辞書を参照してCPU61が判断する(図16のステップS401の説明参照)。
会社名がグループ企業である場合、CPU61は、第2の来客受付シナリオテーブルから部署特定(ID2)のデータをロードし(ステップS504)、部署特定(ID2)に従って訪問客との対話を実行する(ステップS505)。このステップS505の処理はステップS502と同様な処理であり、これも後に詳述する。
次いで、CPU61は来訪予約テーブルの来訪予約データ(図15)を参照する(ステップS506)。そして、来訪者の音声入力を認識して生成した来客データが来訪予約データにあるか否かを判断する(ステップS507)。
来訪予約データに来客データがあると判断した場合、CPU61は、ステップS510に処理を移す一方、来客データがないと判断した場合、ステップS508により、第2の来客受付シナリオテーブルから担当者特定(ID3)のデータをロードし、次いで、この担当者特定(ID3)に従って訪問客との対話を実行し(ステップS509)、その後処理をステップS510に移す。なお、ステップS509の処理についてもステップS502と同様な処理であり、やはり後に詳述する。
そして、CPU61は、ステップS510において、来訪予約テーブルの担当者電話番号を取得する(ステップS510)。そして、担当者に電話を介して連絡し(ステップS511)、来客の旨を音声により告げて来客受付処理を終了する。あるいは、ステップS511では、前述したように、音声対話装置(自動受付装置)のマイク3とスピーカ4とを介して、来訪者が担当者(社員)とが直接通話できるように通信制御処理を行い、通信が終了した時点で客受付処理の終了としてもよい。
ここで、上記ステップS502、ステップS505、ステップS509における訪問客との対話の実行処理について、図20及び図21を参照して詳述する。ステップS502、ステップS504及びステップS509の処理は、いずれも基本的には同じ処理フローとなるため、以下では、ステップS502の処理を基本として説明し、その中で、ステップS505、ステップS509の処理についても適宜説明することとする。
図20に示すように、CPU61は、第2の来客受付シナリオテーブルの来客特定(ID1)に従って、先ず、入力画面の表示処理及びセリフの再生処理を実行する(ステップS600)。
このステップS600の処理は、図21に示すサブルーチンによって実行される。すなわち、先ず、対話シナリオテーブルの該当データから入力項目のリストを取得する(ステップS700)。図19のステップS501の処理であれば、第2の来客受付シナリオテーブルの来客特定(ID1)を、ステップS504の処理であれば第2の来客受付シナリオテーブルの部署特定(ID2)を、ステップS509の処理であれば第2の来客受付シナリオテーブルの部署特定(ID3)を取得することになる。
次いで、CPU61は、取得したID1(あるいはID2又はID3)の入力項目中に他の入力項目に従属する項目があるか否かを判断する(ステップS701)。従属する項目がある場合はステップS704に処理を移す一方、従属する項目がない場合は、ステップS702において、図面の初期化処理を行ってすでに表示されている入力領域を削除するとともに、前述した(図5を用いた音声入力処理の概要説明)確認ボタンを表示し(ステップS703)、処理をステップS704に移す。
CPU61は、ステップS704〜ステップS711で示される処理を、取得したID1(あるいはID2又はID3)の全ての入力項目(ID1であれば会社名と名前(姓)、ID2であれば部署名のみ、ID3であれば担当者名と部署名)への入力処理を開始する。
すなわち、先ず、入力項目の必須チェックを行い(ステップS705)、必須であれば入力項目用の入力領域を必須用の大きさで表示する一方、必須でなく任意の場合は、入力項目用の入力領域を任意用の大きさで描画する(ステップS707)。
ID1における入力項目である会社名、名前(姓)及びID2における部署名は、図17に示すように、いずれも必須であるので、この来客受付処理におけるID1に従った対話実行処理ではステップS706の処理がなされることになる。
他方、ID3における担当者名と部署名のうち、部署名については任意となっている。そこで、CPU61は、図22に示すように、必須である「担当者名入力区画」領域に対して小さな領域からなる「部署名入力区画」を表示する。
このように、除法処理装置のCPU61は、音声ガイダンスに応じて前記音声入力部に入力されるべき必須の入力項目に加え、任意の入力項目をタッチパネルディスプレイ2に表示するときには、必須の入力項目と任意の入力項目とで表示形式を変更する制御を行う。かかる表示制御を行うことにより、訪問者は、複数の入力項目がタッチパネルディスプレイ2に表示されていても、必ず音声入力すべき項目が何れであるかを視覚的に判断することが可能となり、音声対話装置としての使い勝手が向上する。
次いで、CPU61は、ID1(あるいはID2又はID3)の入力項目が他の入力項目に従属しているか否かを判断し(ステップS708)、従属する入力項目を特定する(ステップS709)。
ID2における部署名のように、ID1の会社名に従属しているものであれば、例えば図18に示したように、従属する入力項目の入力領域との間(「会社名入力区画」領域と「部署名入力区画」領域との間)に関連を表す線を描画する(ステップS710)。他方、従属でない場合は、この入力処理を終了してステップS712に処理を移す(ステップS711)。
なお、ID1及びID3における入力項目である会社名と名前(姓)、及び担当者名と部署名は、図17に示すように、いずれも従属ではないので、この来客受付処理におけるID1に従った対話実行処理ではステップS709及びステップS710の処理はなされない。
ステップS712において、CPU61は、第2の来客受付シナリオテーブルの来客特定(ID1)に設定されたセリフを取得する。すなわち、「こんにちは。会社名とお名前を教えてください。」のセリフを取得する。
そして、取得したセリフを音声ガイダンスとしてスピーカ4から出力し(ステップS713)、CPU61は処理を図20のステップS601に移す。
ステップS601では、来客(訪問客)による音声入力がなされる。これは、音声入力処理の概要で説明した処理の流れに準ずるものである(図5参照)。
すなわち、訪問客により、タッチパネルディスプレイ2上の所定の入力項目の領域がタッチされると、入力項目に対応する音声認識用の辞書をロードして、入力項目に対応する表示領域を、入力待ち状態を示す表示に変更し(図7参照)、システム状態を入力待ち状態に遷移する。そして、CPU61は、その状態で音声入力を受付け(図8参照)、さらに、入力内容の認識処理を開始すると表示形式変更処理を実行する(図9参照)。そして、先にロードした辞書を用いて、入力された音声の認識処理を行い、認識結果が複数個あれば、その尤度順に表示する(図11参照)。
訪問客が、タッチパネルディスプレイ2に表示された認識結果を確認して例えばOKボタンを押すと(ステップS602)、CPU61は、ID1(あるいはID2又はID3における必須の入力項目が全て入力されたか否かを判断し(ステップS603)、入力されていない入力項目があると判定した場合は、例えば、「○○の項目が入力されていません。」などの必須項目の入力を促す発話を出力し(ステップS604)、ステップS601に処理を移す。他方、ステップS603で必須の入力項目が全て入力されたと判断した場合は、CPU61は、ステップS502、ステップS505、ステップS509の処理を終了し、ステップS503又はステップS506又はステップS510の処理に移す。
なお、ステップS604における発話に係るセリフのデータは、各対話シナリオの各IDに関連付けられてHDD7内に発話用音声データとして記憶されているものである。
以上説明してきたように、音声対話装置を用いて来客受付を行えば、利用者が音声による情報入力に慣れていない場合であっても、どのような内容をどのように音声入力すればよいかを把握することが容易となるので、誰でも安心して利用することができる。
ところで、上述してきた実施形態において、図20に示すステップS600とステップS601との処理の間、具体的には、図21のステップS713で音声ガイダンスを出力した後、訪問者が入力する項目に対応する表示領域をタッチパネルディスプレイ2上でタッチした状態で、発話を開始するまでの間(図5参照)に、所定の時間が経過したときは、表示処理手段として機能する情報処理装置がタッチパネルディスプレイ2に、入力すべき項目の入力例を表示することもできる。
すなわち、タッチパネルディスプレイ2に表示した入力項目が指定されてから所定期間経過したとき、当該入力項目に対する入力例を表示することのできる音声対話装置とすることができる。
入力例の表示形態としては、例えば会社名を入力する場合であれば、図23に示すように、「会社名入力区画」領域の横に、○△工業や××販売や△×商事というように入力例が列記される。したがって、利用者(訪問者)が、会社名を音声入力するときに、株式会社や有限会社まで発話しなければならないのかなどと悩んで時間が経過した場合など、自分がタッチしている領域に近接して入力例が表示されるため、音声入力するのにいたずらに時間がかかることを防止できる。
また、図16のステップS402の処理のように、入力項目に従属する項目がある場合は、図18で示したように、各入力区画領域同士が互いに関連するように線で結ばれた状態で表示されるとしたが、例えばタッチパネルディスプレイ2上に3つ以上の入力区画領域がある場合など、図24に示すように、従属項目を示す入力区画領域(図24における「部署入力区画」領域)が、いずれの入力区画領域から派生したかを、あたかもアニメーションのように表示することができる。
また、音声対話を進行させていく中で、利用者(訪問者)の音声入力すべき項目が、図25に示すように、「はい」や「いいえ」などのような場合も考えられる。
そのような場合は、利用者(訪問者)は音声入力を行わず、入力項目を示す入力区画領域をタッチするだけでも音声対話装置が入力を受け付けるようにしてもよい。つまり、簡単な内容、あるいは重要な内容の入力は、発声させることなく、タッチパネルディスプレイ2によるタッチ入力だけで完結させるのである。
利用者とすれば、他人に聞こえさせたくないような内容を入力しなければならない場合でも安心して音声対話装置を利用することが可能となる。
また、来訪者がアポイントメントをとることなく、いきなり訪問してきた場合が想定される。そのようなときに、上述した第1の来客受付シナリオや第2の来客受付シナリオに従うと、第1の来客受付シナリオでは図16を用いて説明したように、結局は「アポイントが登録されておりません。」との音声出力がなされ(ステップS405参照)、用件確認シナリオなどに引き継がれることになるし、第2の来客受付シナリオに従うとしても(図19〜図21参照)、来訪者は自分の名前や所属などを先に音声入力しなければならないため時間がかかるおそれがある。
そこで、例えば、予めアポなし受付シナリオを用意しておくとともに、タッチパネルディスプレイ2上に「アポなし」ボタン領域を表示しておくとよい。そして、「アポなし」ボタン領域がタッチされると、アポなし受付シナリオが読みだされて、音声ガイダンスとして、「連絡をとりたい社員を教えてください。」などのセリフがスピーカ4から出力されるのである。そのときに、タッチパネルディスプレイ2に表示される画面としては、図25に示す形態が考えられる。
図26は、この場合においてタッチパネルディスプレイ2に表示される画面の説明図であり、図示するように、部署名や社員の名前は必須項目として所定の大きさの入力区画領域で表示されるが、グループ名などの任意の入力項目は、それらよりも小さな入力区画領域となっている。すなわち、この場合も、音声ガイダンスに応じて音声入力部に入力されるべき必須の入力項目に加え、任意の入力項目をタッチパネルディスプレイ2に表示するときには、必須の入力項目と任意の入力項目とで表示形式を変更する制御に従っている。
なお、アポなし受付シナリオでは、図示しないが、そのテーブルでは入力項目の項目名として部署名、名前(姓)及びグループが設定され、部署名、名前については必須チェックでは必須を示すフラグが、グループについては任意を示すフラグが立っていることは言うまでもない。
ところで、上述してきた実施形態では、音声対話装置は赤外線センサ5により利用者(訪問者)を検知するようにしたが、利用者を検出することができるものであればその装置や手段としては何を用いても構わない。来訪者自ら操作することで来訪信号を制御部に出力するようなスイッチなどであってもよい。
上述してきた実施形態より、以下の音声対話装置を実現することができる。
(1)音声ガイダンスと、当該音声ガイダンスに応じて音声入力部(例えばマイク3)へ入力させるべき入力項目(例えば、図14や図17に示す項目名)と、を対応づけた対話シナリオを記憶するシナリオ記憶手段(例えばHDD7)と、前記対話シナリオに従った音声ガイダンスを音声出力部(例えばスピーカ4)から出力する音声ガイダンス出力手段(例えば、情報処理装置6のCPU61や音声出力回路)と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部(例えばタッチパネルディスプレイ2)に所定表示形式(例えば、図6〜9、図11、12、図18、図22〜26)で表示する表示処理手段(例えば、情報処理装置6のCPU61や表示制御回路)と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段(例えば、情報処理装置6のCPU61や音声対話プログラム、対話シナリオファイル、音声認識辞書及び発話用音声データなど)と、を備えた音声対話装置。
(1)音声ガイダンスと、当該音声ガイダンスに応じて音声入力部(例えばマイク3)へ入力させるべき入力項目(例えば、図14や図17に示す項目名)と、を対応づけた対話シナリオを記憶するシナリオ記憶手段(例えばHDD7)と、前記対話シナリオに従った音声ガイダンスを音声出力部(例えばスピーカ4)から出力する音声ガイダンス出力手段(例えば、情報処理装置6のCPU61や音声出力回路)と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部(例えばタッチパネルディスプレイ2)に所定表示形式(例えば、図6〜9、図11、12、図18、図22〜26)で表示する表示処理手段(例えば、情報処理装置6のCPU61や表示制御回路)と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段(例えば、情報処理装置6のCPU61や音声対話プログラム、対話シナリオファイル、音声認識辞書及び発話用音声データなど)と、を備えた音声対話装置。
(2)上記(1)において、前記表示処理手段(例えば、情報処理装置6のCPU61や表示制御回路)は、前記表示部(例えばタッチパネルディスプレイ2)に表示した入力項目(例えば、図14や図17に示す項目名)が指定されているときに、前記音声入力部(例えばマイク3)への音声の入力が行われると、当該入力項目の表示形式を変更する(例えば、図10の処理(図7及び図8を参照))音声対話装置。
(3)上記(1)において、前記表示処理手段(例えば、情報処理装置6のCPU61や表示制御回路)は、前記表示部(例えばタッチパネルディスプレイ2)に表示した入力項目(例えば、図14や図17に示す項目名)が指定されているときに、音声認識処理が開始されると、当該入力項目の表示形式を変更する(例えば、図9を参照)音声対話装置。
(4)上記(1)〜(3)のいずれかにおいて、前記表示処理手段(例えば、情報処理装置6のCPU61や表示制御回路)は、前記音声ガイダンス出力手段(例えば、情報処理装置6のCPU61や音声出力回路)により音声ガイダンスを出力後、所定期間経過したときに、前記入力項目を前記表示部(例えばタッチパネルディスプレイ2)に表示する音声対話装置。
(5)上記(1)〜(4)のいずれかにおいて、前記音声認識手段(例えば、情報処理装置6のCPU61や音声対話プログラム、対話シナリオファイル、音声認識辞書及び発話用音声データなど)により認識された複数の入力内容の候補を前記表示部へ表示する候補表示手段(例えば、情報処理装置6のCPU61や表示制御回路)と、前記候補表示手段により表示された複数の入力内容の候補から、いずれか一つの候補を選択する選択手段(例えばOKボタンなどの確認ボタン)と、前記選択手段により選択された候補を入力内容として決定する入力処理手段(例えば、情報処理装置6のCPU61)とを備えた音声対話装置。
(6)上記(1)〜(5)のいずれかにおいて、前記表示処理手段(例えば、情報処理装置6のCPU61や表示制御回路)は、前記音声ガイダンスに応じて前記音声入力部(例えばマイク3)に入力されるべき必須の入力項目(例えば、図22に示す担当者名)に加え、任意の入力項目(例えば、図22に示す部署名)を前記表示部に表示するときには、前記必須の入力項目と前記任意の入力項目とで表示形式を変更する音声対話装置。
(7)上記(1)〜(6)のいずれかにおいて、前記表示処理手段(例えば、情報処理装置6のCPU61や表示制御回路)は、前記表示部(例えばタッチパネルディスプレイ2)に表示した入力項目(例えば、図14や図17に示す項目名)が指定されてから所定期間経過したとき、当該入力項目に対する入力例(例えば、図23に示す○△工業や××販売や△×商事)を表示する音声対話装置。
(8)上記(1)〜(7)のいずれかにおいて、前記表示処理手段(例えば、情報処理装置6のCPU61や表示制御回路)は、前記入力項目(例えば、図14や図17に示す項目名)に対する入力内容が所定の入力内容であるときに、すでに表示している入力項目に従属する入力項目(例えば、図18における部署)を前記表示部(例えばタッチパネルディスプレイ2)に表示する音声対話装置。
(9)上記(1)〜(8)のいずれかにおいて、前記音声認識手段(例えば、情報処理装置6のCPU61や音声対話プログラム、対話シナリオファイル、音声認識辞書及び発話用音声データなど)は、複数の音声認識用辞書(例えば、名前辞書、会社辞書、社員名辞書など)を有しており、前記表示部(例えばタッチパネルディスプレイ2)に表示される入力項目(例えば、図14や図17に示す項目名)に応じた音声認識用辞書を選択して前記音声入力部(例えばマイク3)に入力された音声の認識を行う音声対話装置。
(10)上記(1)〜(9)のいずれかにおいて、前記表示処理手段(例えば、情報処理装置6のCPU61や表示制御回路)は、前記音声ガイダンスに応じて前記音声入力部(例えばマイク3)に入力されるべき入力項目(例えば、図14や図17に示す項目名)が複数あるとき、これら複数の入力項目をそれぞれ所定表示形式で前記表示部(例えばタッチパネルディスプレイ2)に表示し、前記音声認識手段(例えば、情報処理装置6のCPU61や音声対話プログラム、対話シナリオファイル、音声認識辞書及び発話用音声データなど)は、複数の音声認識用辞書(例えば、名前辞書、会社辞書、社員名辞書など)を有しており、前記複数の入力項目のうちすでに認識した入力項目の入力内容に応じた音声認識用辞書を選択し、前記複数の入力項目のうちまだ認識していない入力項目に対して前記音声入力部に入力される音声の認識を、前記選択した音声認識用辞書を用いて行う音声対話装置。
また、上述してきた実施形態より、コンピュータを、上記(1)〜(10)のいずれかに記載の音声対話装置の各手段として機能させるプログラムが実現できる。
さらに、上述してきた実施形態より、記憶部(例えばHDD7)に記憶した対話シナリオに従った音声ガイダンスを音声出力部(例えばスピーカ4)から出力する手順S1と、前記音声ガイダンスが前記音声出力部(例えばスピーカ4)から出力されるときに、当該音声ガイダンスに応じて音声入力部(例えばマイク3)に入力されるべき入力項目(例えば、図14や図17に示す項目名)を、前記認識された入力内容と前記対話シナリオとに従って表示部(例えばタッチパネルディスプレイ2)に所定表示形式で表示する手順S2と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う手順S3とを有する音声対話処理方法が実現できる。
以上、本発明を、主として会社などに設置される自動受付装置に適用した実施形態を通して説明したが、本発明は上述した実施形態に限定されるものではなく、音声により利用者と対話を行うことにより、利用者が要求する情報やサービスを提供する音声対話装置として広く用いることができる。
1 筐体
2 タッチパネルディスプレイ
3 マイク
4 スピーカ
5 赤外線センサ
6 情報処理装置
7 ハードディスク装置
10 受付カウンタ
2 タッチパネルディスプレイ
3 マイク
4 スピーカ
5 赤外線センサ
6 情報処理装置
7 ハードディスク装置
10 受付カウンタ
Claims (12)
- 音声ガイダンスと、当該音声ガイダンスに応じて音声入力部へ入力させるべき入力項目と、を対応づけた対話シナリオを記憶するシナリオ記憶手段と、
前記対話シナリオに従った音声ガイダンスを音声出力部から出力する音声ガイダンス出力手段と、
前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部に所定表示形式で表示する表示処理手段と、
前記音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段と、
を備えたことを特徴とする音声対話装置。 - 前記音声認識手段により認識された複数の入力内容の候補を前記表示部へ表示する候補表示手段と、
前記候補表示手段により表示された複数の入力内容の候補から、いずれか一つの候補を選択する選択手段と、
前記選択手段により選択された候補を入力内容として決定する入力処理手段と、を備えたことを特徴とする請求項1に記載の音声対話装置。 - 前記表示処理手段は、前記表示部に表示した入力項目が指定されてから所定期間経過したとき、当該入力項目に対する入力例を表示することを特徴とする請求項1又は2に記載の音声対話装置。
- 前記表示処理手段は、
前記表示部に表示した入力項目が指定されているときに、前記音声入力部への音声の入力が行われると、当該入力項目の表示形式を変更することを特徴とする請求項1〜3のいずれか1項に記載の音声対話装置。 - 前記表示処理手段は、
前記表示部に表示した入力項目が指定されているときに、音声認識処理が開始されると、当該入力項目の表示形式を変更することを特徴とする請求項1〜3のいずれか1項に記載の音声対話装置。 - 前記表示処理手段は、前記音声ガイダンス出力手段により音声ガイダンスを出力後、所定期間経過したときに、前記入力項目を前記表示部に表示することを特徴とする請求項1または請求項1〜5のいずれか1項に記載の音声対話装置。
- 前記表示処理手段は、前記音声ガイダンスに応じて前記音声入力部に入力されるべき必須の入力項目に加え、任意の入力項目を前記表示部に表示するときには、前記必須の入力項目と前記任意の入力項目とで表示形式を変更することを特徴とする請求項1〜6のいずれか1項に記載の音声対話装置。
- 前記表示処理手段は、前記入力項目に対する入力内容が所定の入力内容であるときに、すでに表示している入力項目に従属する入力項目を前記表示部に表示することを特徴とする請求項1〜7のいずれか1項に記載の音声対話装置。
- 前記音声認識手段は、複数の音声認識用辞書を有しており、前記表示部に表示される入力項目に応じた音声認識用辞書を選択して前記音声入力部に入力された音声の認識を行うことを特徴とする請求項1〜8のいずれか1項に記載の音声対話装置。
- 前記表示処理手段は、前記音声ガイダンスに応じて前記音声入力部に入力されるべき入力項目が複数あるとき、これら複数の入力項目をそれぞれ所定表示形式で前記表示部に表示し、
前記音声認識手段は、複数の音声認識用辞書を有しており、前記複数の入力項目のうちすでに認識した入力項目の入力内容に応じた音声認識用辞書を選択し、前記複数の入力項目のうちまだ認識していない入力項目に対して前記音声入力部に入力される音声の認識を、前記選択した音声認識用辞書を用いて行うことを特徴とする請求項1〜9のいずれか1項に記載の音声対話装置。 - コンピュータを、請求項1〜10のいずれか1項に記載の音声対話装置の各手段として機能させることを特徴とするプログラム。
- 記憶部に記憶した対話シナリオに従った音声ガイダンスを音声出力部から出力するステップと、
前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を、前記対話シナリオに従って表示部に所定表示形式で表示するステップと、
前記音声入力部に入力される音声に基づいて入力内容の認識を行うステップと、
を有する音声対話処理方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008249280A JP2010079103A (ja) | 2008-09-26 | 2008-09-26 | 音声対話装置及びそのプログラム並びに音声対話処理方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008249280A JP2010079103A (ja) | 2008-09-26 | 2008-09-26 | 音声対話装置及びそのプログラム並びに音声対話処理方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2010079103A true JP2010079103A (ja) | 2010-04-08 |
Family
ID=42209593
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008249280A Pending JP2010079103A (ja) | 2008-09-26 | 2008-09-26 | 音声対話装置及びそのプログラム並びに音声対話処理方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2010079103A (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103903614A (zh) * | 2014-03-10 | 2014-07-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
| WO2016009512A1 (ja) * | 2014-07-16 | 2016-01-21 | 三菱電機株式会社 | エンジニアリングツール |
| JP2016048338A (ja) * | 2014-08-28 | 2016-04-07 | アルパイン株式会社 | 音声認識装置及びコンピュータプログラム |
| JP2017058406A (ja) * | 2015-09-14 | 2017-03-23 | Shannon Lab株式会社 | コンピュータシステムおよびプログラム |
| JP2017207693A (ja) * | 2016-05-20 | 2017-11-24 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
| JP2020194557A (ja) * | 2011-09-30 | 2020-12-03 | アップル インコーポレイテッドApple Inc. | バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用 |
| JPWO2019186975A1 (ja) * | 2018-03-29 | 2021-03-18 | 日本電気株式会社 | 会計装置、会計システム、商品識別方法、およびプログラム |
| US11831799B2 (en) | 2019-08-09 | 2023-11-28 | Apple Inc. | Propagating context information in a privacy preserving manner |
-
2008
- 2008-09-26 JP JP2008249280A patent/JP2010079103A/ja active Pending
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020194557A (ja) * | 2011-09-30 | 2020-12-03 | アップル インコーポレイテッドApple Inc. | バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用 |
| JP7082645B2 (ja) | 2011-09-30 | 2022-06-08 | アップル インコーポレイテッド | バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用 |
| CN103903614A (zh) * | 2014-03-10 | 2014-07-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
| CN103903614B (zh) * | 2014-03-10 | 2017-11-07 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
| WO2016009512A1 (ja) * | 2014-07-16 | 2016-01-21 | 三菱電機株式会社 | エンジニアリングツール |
| JP5968541B2 (ja) * | 2014-07-16 | 2016-08-10 | 三菱電機株式会社 | エンジニアリングツール |
| JP2016048338A (ja) * | 2014-08-28 | 2016-04-07 | アルパイン株式会社 | 音声認識装置及びコンピュータプログラム |
| JP2017058406A (ja) * | 2015-09-14 | 2017-03-23 | Shannon Lab株式会社 | コンピュータシステムおよびプログラム |
| JP2017207693A (ja) * | 2016-05-20 | 2017-11-24 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
| JPWO2019186975A1 (ja) * | 2018-03-29 | 2021-03-18 | 日本電気株式会社 | 会計装置、会計システム、商品識別方法、およびプログラム |
| JP7020538B2 (ja) | 2018-03-29 | 2022-02-16 | 日本電気株式会社 | 会計装置、会計システム、商品識別方法、およびプログラム |
| US11831799B2 (en) | 2019-08-09 | 2023-11-28 | Apple Inc. | Propagating context information in a privacy preserving manner |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2010079103A (ja) | 音声対話装置及びそのプログラム並びに音声対話処理方法 | |
| KR102253279B1 (ko) | 인공지능을 사용하는 키오스크 기반 무인결제시스템 및 그 방법 | |
| JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| JP6966979B2 (ja) | 対話システムの制御方法、対話システム及びプログラム | |
| US10930277B2 (en) | Configuration of voice controlled assistant | |
| JP6025037B2 (ja) | 音声エージェント装置、及びその制御方法 | |
| JP6540414B2 (ja) | 音声処理装置および音声処理方法 | |
| JP5569534B2 (ja) | エレベータの呼び登録装置 | |
| JP2015069600A (ja) | 音声翻訳システム、方法およびプログラム | |
| JP2003076389A (ja) | タッチスクリーン又は音声認識を通じて動作制御される情報端末及びその命令実行方法 | |
| KR102594838B1 (ko) | 사용자 발화에 응답하여 통화를 포함하는 태스크를 수행하는 전자 장치 및 그 동작 방법 | |
| KR20150016776A (ko) | 음성 대화 서비스를 지원하는 인터페이스 장치 및 방법 | |
| CN106067996A (zh) | 语音再现方法、语音对话装置 | |
| JP4539600B2 (ja) | 案内ロボット | |
| JP6101841B1 (ja) | 順番待ちを管理するシステム、サーバ、方法、及びプログラム | |
| JP5220953B1 (ja) | 商品情報提供システム、商品情報提供装置、及び商品情報出力装置 | |
| CN115943358A (zh) | 显示控制装置和显示控制方法 | |
| WO2019103007A1 (ja) | 情報処理装置及び情報処理方法 | |
| JP5446540B2 (ja) | 情報検索装置、制御方法及びプログラム | |
| JP2010095339A (ja) | エレベータ用情報提示システム、制御装置、および制御プログラム | |
| JP6851491B2 (ja) | 音声対話制御装置および音声対話制御方法 | |
| JP7672090B1 (ja) | 対話分析装置、対話分析方法及びプログラム | |
| JP2020086129A (ja) | 情報処理装置、情報処理方法、情報処理システム、およびプログラム | |
| JP2021086404A (ja) | 音声入力で翻訳言語を設定する自動音声翻訳システム、自動音声翻訳方法及びそのプログラム | |
| JP6315744B2 (ja) | 会話補助端末 |