JP2010079103A

JP2010079103A - 音声対話装置及びそのプログラム並びに音声対話処理方法

Info

Publication number: JP2010079103A
Application number: JP2008249280A
Authority: JP
Inventors: Masashi Takechi; 雅司武市; Hiroaki Matsuba; 弘明松場
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2010-04-08

Abstract

【課題】利用者が音声による情報入力に慣れていない場合であっても、どのように音声入力をすればよいかを把握することが容易な音声対話装置を提供すること。
【解決手段】音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段と、音声ガイダンスと、当該音声ガイダンスに応じて次に前記音声入力部へ入力させるべき入力項目と、を対応づけた対話シナリオを記憶するシナリオ記憶手段と、前記対話シナリオに従った音声ガイダンスを音声出力部から出力する音声ガイダンス出力手段と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部に所定表示形式で表示する表示処理手段とを備える構成とした。
【選択図】図５

Description

本発明は、音声対話装置及びそのプログラム並びに音声対話処理方法に関し、より詳しくは、音声により利用者と対話を行い、利用者が要求する情報やサービスを提供する音声対話装置及びそのプログラム並びに音声対話処理方法に関するものである。

近年、音声により利用者と対話を行うことにより、利用者が要求する情報やサービスを提供する音声対話装置が多数提案されている。この種の音声対話装置では、音声ガイダンスを出力することによって利用者に入力すべき項目（入力項目）を提示し、当該音声ガイダンスに応じて利用者が発する音声を認識することで利用者との対話を行っている（例えば、特許文献１を参照。）。
特開平１１−２１２５９４号公報

しかしながら、従来の音声対話装置では、その利用者が音声による情報入力に慣れていない場合、音声ガイダンスに対してどのように音声入力をすればよいか分からなくなることがあった。

そこで、本発明は、利用者が音声による情報入力に慣れていない場合であっても、どのように音声入力をすればよいかを把握することのできる音声対話装置及びそのプログラム並びに音声対話処理方法を提供することを目的とする。

かかる目的を達成するために、請求項１に記載の発明は、音声ガイダンスと、当該音声ガイダンスに応じて音声入力部へ入力させるべき入力項目と、を対応づけた対話シナリオを記憶するシナリオ記憶手段と、前記対話シナリオに従った音声ガイダンスを音声出力部から出力する音声ガイダンス出力手段と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部に所定表示形式で表示する表示処理手段と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段と、を備えた音声対話装置とした。

また、請求項２に記載の発明は、請求項１に記載の音声対話装置において、前記音声認識手段により認識された複数の入力内容の候補を前記表示部へ表示する候補表示手段と、前記候補表示手段により表示された複数の入力内容の候補から、いずれか一つの候補を選択する選択手段と、前記選択手段により選択された候補を入力内容として決定する入力処理手段とを備えたことを特徴とする。

また、請求項３に記載の発明は、請求項１又は２に記載の音声対話装置において、前記表示処理手段は、前記表示部に表示した入力項目が指定されてから所定期間経過したとき、当該入力項目に対する入力例を表示することを特徴とする。

また、請求項４に記載の発明は、請求項１〜３のいずれか１項に記載の音声対話装置において、前記表示処理手段は、前記表示部に表示した入力項目が指定されているときに、前記音声入力部への音声の入力が行われると、当該入力項目の表示形式を変更することを特徴とする。

また、請求項５に記載の発明は、請求項１〜３のいずれか１項に記載の音声対話装置において、前記表示処理手段は、前記表示部に表示した入力項目が指定されているときに、音声認識処理が開始されると、当該入力項目の表示形式を変更することを特徴とする。

また、請求項６に記載の発明は、請求項１〜５のいずれか１項に記載の音声対話装置において、前記表示処理手段は、前記音声ガイダンス出力手段により音声ガイダンスを出力後、所定期間経過したときに、前記入力項目を前記表示部に表示することを特徴とする。

また、請求項７に記載の発明は、請求項１〜６のいずれか１項に記載の音声対話装置において、前記表示処理手段は、前記音声ガイダンスに応じて前記音声入力部に入力されるべき必須の入力項目に加え、任意の入力項目を前記表示部に表示するときには、前記必須の入力項目と前記任意の入力項目とで表示形式を変更することを特徴とする。

また、請求項８に記載の発明は、請求項１〜７のいずれか１項に記載の音声対話装置において、前記表示処理手段は、前記入力項目に対する入力内容が所定の入力内容であるときに、すでに表示している入力項目に従属する入力項目を前記表示部に表示することを特徴とする。

また、請求項９に記載の発明は、請求項１〜８のいずれか１項に記載の音声対話装置において、前記音声認識手段は、複数の音声認識用辞書を有しており、前記表示部に表示される入力項目に応じた音声認識用辞書を選択して前記音声入力部に入力された音声の認識を行うことを特徴とする。

また、請求項１０に記載の発明は、請求項１〜９のいずれか１項に記載の音声対話装置において、前記表示処理手段は、前記音声ガイダンスに応じて前記音声入力部に入力されるべき入力項目が複数あるとき、これら複数の入力項目をそれぞれ所定表示形式で前記表示部に表示し、前記音声認識手段は、複数の音声認識用辞書を有しており、前記複数の入力項目のうちすでに認識した入力項目の入力内容に応じた音声認識用辞書を選択し、前記複数の入力項目のうちまだ認識していない入力項目に対して前記音声入力部に入力される音声の認識を、前記選択した音声認識用辞書を用いて行うことを特徴とする。

請求項１１に記載の発明は、コンピュータを、請求項１〜１０のいずれか１項に記載の音声対話装置の各手段として機能させるプログラムとした。

請求項１２に記載の発明は、記憶部に記憶した対話シナリオに従った音声ガイダンスを音声出力部から出力するステップと、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を、前記認識された入力内容と前記対話シナリオとに従って表示部に所定表示形式で表示するステップと、前記音声入力部に入力される音声に基づいて入力内容の認識を行うステップと、を有する音声対話処理方法とした。

本発明によれば、音声ガイダンスが音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を表示部に所定表示形式で表示するので、利用者が音声による情報入力に慣れていない場合であっても、どのような内容をどのように音声入力すればよいかを把握することが容易となる。

［１．音声対話処理装置の概要］
本発明の実施の形態に係る音声対話装置の概要について、図面に基づいて説明する。図１は音声対話装置の概要構成を示す説明図、図２は本実施形態における音声対話装置の外観図、図３は音声対話処理方法の説明図である。

音声対話装置は、音声により利用者と対話を行うことによって利用者が要求する情報やサービスを提供可能としたものであり、図１に示すように、音声ガイダンスと、当該音声ガイダンスに応じて音声入力部へ入力させるべき入力項目と、を対応づけた対話シナリオを記憶するシナリオ記憶手段と、前記対話シナリオに従った音声ガイダンスを音声出力部から出力する音声ガイダンス出力手段と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部に所定表示形式で表示する表示処理手段と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段とを備えている。

ここで、本実施形態における対話シナリオとは、設定された複数の質問項目と、各質問項目に対して予測される複数の利用者の回答項目、各回答項目に対する新たな質問項目や確認項目などが、様々なシチュエーションに応じて筋道立てられて構築されている。

そして、この対話シナリオに従って、音声ガイダンスが音声出力部より出力されるとともに、音声ガイダンスに応じて音声入力部に入力されるべき入力項目が、利用者に分かりやすい表示形式で表示部に表示される。

したがって、利用者は、音声ガイダンスが要求する入力内容が、表示部に入力項目として表示されるため、どのような内容をどのように音声入力すれば良いかを容易に把握することができる。

かかる音声対話装置は、例えば、会社などの受付に設置することができ、会社を訪問した来客との音声による対話によって、客が望む部署や社員へ取り次ぐことができる自動受付装置として用いることが可能である。このとき、対話シナリオとしては、来客を所定の部署や特定社員に取り次ぐまでの音声ガイダンスと予想回答とが筋道立てられて構築されている来客受付シナリオが用いられる。

自動受付装置に適用された本実施形態に係る音声対話装置は、図２に示すように、受付カウンタ１０に設置されており、筐体１の前面には、表示部であるタッチパネルディスプレイ２と、音声入力部であるマイク３と、音声出力部であるスピーカ４と、利用者の存在を検出する赤外線センサ５が設けられている。

筐体１には、制御部や記憶部（図１）や入出力部を備えたコンピュータなどの情報処理装置、及びその他の機器類が必要に応じて搭載されている。前記音声ガイダンス出力手段、表示処理手段、及び音声認識手段としての機能は、制御部を主として情報処理装置が担っており、シナリオ記憶手段は、情報処理装置のハードディスクなどからなる記憶部がその機能を担っている。また、この記憶部には、対話シナリオに関連付けた各種の辞書が記憶されている。

また、この記憶部には、情報処理装置を前述の各手段として機能させるための音声対話プログラムが格納されており（図１３参照）、この音声対話処理プログラムに従い、制御部は、音声対話装置による音声対話処理を実行する。なお、前記音声対話プログラムは、例えば、ＣＤ、ＤＶＤ、フレキシブルディスク、あるいはフラッシュメモリなどの各種記憶媒体に記録されており、これらから読み取って前記記憶部に記憶させている。

こうして、音声対話プログラムに従って、音声認識手段として機能する情報処理装置は、スピーカ４から音声ガイダンスを出力するとともに、マイク３から利用者により入力された音声信号を各種辞書と照合して、利用者の発話内容に対応する文字列データを生成し、このデータと対話シナリオに基づいて、さらに音声ガイダンスを出力するなどして、利用者との音声対話を進行させる。

すなわち、かかるプログラムを用いた本実施形態に係る音声対話装置による音声対話処理方法は、図３に示すように、記憶部に記憶した対話シナリオに従った音声ガイダンスを音声出力部から出力する手順Ｓ１と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を、前記認識された入力内容と前記対話シナリオとに従って表示部に所定表示形式で表示する手順Ｓ２と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う手順Ｓ３とを有する。

例えば、来客を検知すると、「いらっしゃいませ。画面の案内を確認しながらご用件をお話しください。先ずお名前と所属を教えてください。」などの音声ガイダンスをスピーカ４から出力する。そして、音声ガイダンスに応じて客が音声入力すべき入力項目をタッチパネルディスプレイ２に表示する。入力項目の表示態様としては、客自身の会社名入力区画や名前入力区画などが所定表示形式で表示される。他方、訪問客は、表示された会社名入力区画や名前入力区画を見ながら、自身が音声入力すべき内容を確認しながら発話する。音声対話装置は、マイク３を通して入力された発話（音声）を認識する。そして、音声ガイダンスの出力及び入力項目の表示、訪問客による音声入力、音声対話装置による音声認識が、対話シナリオ（来客受付シナリオ）に従って進行していくのである。

以上説明してきたように、本実施形態に係る音声対話装置は、対話進行を、装置側の音声ガイダンスと利用者の発話との音声のみで行うのではなく、音声ガイダンスに応じたディスプレイ表示を行うことで、音声による情報入力に慣れていない利用者であっても、どのように音声入力をすれば良いかが容易に把握することができるようになっている。すなわち、音声ガイダンスが前記スピーカ４から出力されるときに、当該音声ガイダンスに応じてマイク３に入力されるべき入力項目をタッチパネルディスプレイ２所定の表示形式で表示し、利用者は、この表示を見ながら音声入力することができるのである。

音声ガイダンスに対して、利用者は音声入力を行うのであるが、利用者は、自身が音声による情報入力をしているときに、その情報入力が音声対話装置に本当に入力されるのかを把握することができず、不安になることも考えられる。

そこで、表示処理手段は、表示部に表示した入力項目が指定されているときに、前記音声入力部への音声の入力が行われると、当該入力項目の表示形式を変更するようにしている。ここで、「表示部に表示した入力項目が指定されている」というのは、例えば、タッチパネルディスプレイ２に表示されている入力項目を利用者がタッチして（触れて）、制御部がそのタッチ信号を検出している状態である。

すなわち、表示されている入力項目を、利用者が指でタッチしながら音声入力すると、音声対話装置がこの音声入力を受け付けた場合は、表示形式を変化させ、利用者に音声入力が受け付けられたことを報知するのである。なお、入力項目を指定するのは、指でワンタッチするだけであってもよいが、音声入力の開始、終了タイミングを制御部が簡単に認識することができるように、音声入力する場合、利用者は表示されている入力項目のタッチ状態を継続しておくことを条件とすることが好ましい。また、利用者の音声入力への意識付けを明確にできるという観点からも、音声入力中はタッチ状態を継続しておくことが望ましいため、以下では、表示されている入力項目のタッチは、音声入力中はタッチ状態を継続しておくものとして説明する。

したがって、利用者は、音声ガイダンスに応じて、入力項目内容を音声入力する際に、タッチパネルディスプレイ２に表示されている入力項目を指でタッチすれば、どのような情報を音声入力すればいいかを視覚的に確認できるとともに、音声で入力した情報が装置に受け付けられていることも確認できるため、安心して音声対話装置を使用することができる。なお、表示形式の変化態様としては、形状、色、大きさなどの変化が考えられ、特に限定するものではないが、利用者の音声のボリュームに応じて変化するものとすれば、利用者は自分の声の大きさのレベルも認識できるため、より好ましい。

さらに、表示処理手段は、前記表示部に表示した入力項目が指定されているときに、音声認識処理が開始されると、当該入力項目の表示形式を変更することもできる。

つまり、表示されている入力項目が指でタッチされて音声入力されたとき、音声対話装置がこの音声入力を受け付け、なおかつ音声認識処理が開始されて情報として取得中である場合、入力項目の表示形式をさらに変化させ、利用者に、当該利用者の音声入力が受け付けられたことを報知するのである。なお、このときの表示形式の変化は、音声入力を受け付けたときの変化とは異なる態様とすることが好ましい。

ところで、表示処理手段により実行される処理において、（１）利用者が指でタッチして音声入力すると、音声対話装置がこの音声入力を受け付けた場合は、表示形式を変化させ、利用者に音声入力が受け付けられたことを報知する処理と、（２）前記表示部に表示した入力項目が指定されているときに、音声認識処理が開始されると、当該入力項目の表示形式を変更する処理とがあるが、そのいずれか一方を実施してもよいし、両方共に実施してもよい。

また、表示処理手段は、前記音声ガイダンス出力手段により音声ガイダンスを出力後、所定期間経過したときに、前記入力項目を前記表示部に表示することが好ましい。すなわち、来訪者が最初はタッチパネルディスプレイ２に気を取られることなく、先ず、音声ガイダンスを集中して聞き、その後タッチパネルディスプレイ２に目を移せるようにするためである。
［２．音声対話処理装置の動作概要］

上述してきた音声対話装置の動作概要について、会社を訪れた客が当該音声対話装置を利用する場合として説明する。図４は本実施形態に係る音声対話装置の動作の流れ示す説明図、図５は音声入力処理の概要を示す説明図、図６〜図９、図１１及び図１２はタッチパネルディスプレイ２に表示される来客受付画面の説明図、図１０は音声入力の入力レベルに応じた表示形式変更処理の手順を示す説明図である。

図４に示すように、訪問客が自動受付装置として機能する音声対話装置の前に立つと、音声対話装置は赤外線センサ５（図２）で客の来訪を検知する（ステップＳ１０１）。
来客があったことを検知した音声対話装置は、後に詳述する来客受付シナリオを参照して、所定の発話音声（セリフ）と入力項目のリストを取得する（ステップＳ１０２）。

次いで、タッチパネルディスプレイ２上に、入力項目に対応する区画領域を表示し（ステップＳ１０３）、音声ガイダンスを発話する（ステップＳ１０４）。

例えば、図６に示すように、タッチパネルディスプレイ２上には、受付嬢をイメージしたキャラクタ画像と、訪問客が音声入力すべき客自身の「会社名入力区画」領域や「名前入力区画」領域が、円形で表示された領域内にそれぞれ「会社」、「名前（苗字）」と文字書された態様で表示される。また、スピーカ４からは、あたかも受付嬢が発話しているように、「いらっしゃいませ。先ずお名前と所属を教えてください。」などと音声ガイダンスを出力する。

そして、訪問客による区画領域の指定と音声入力に基づいて音声入力処理を実行し（ステップＳ１０５）、その後、来客受付シナリオに従った音声内容を全て認識し終えたかを判断して（ステップＳ１０６）、終えた場合はそのまま来客受付処理を終了し、終えていない場合はステップＳ１０２〜Ｓ１０５の処理を繰り返す。

ここで、ステップＳ１０５の音声入力処理は、図５に示すような手順で行われる。「先ずお名前と所属を教えてください。」という音声ガイダンスを聞いて、会社名を入力しようとするのであれば、客は、先ず、タッチパネルディスプレイ２上の「会社名入力区画」領域を指でタッチする。

音声対話装置は、訪問客のタッチ動作を検知し（ステップＳ２０１）、入力項目に対応する音声認識用の辞書をロードする（Ｓ２０２）。この辞書は、来客受付シナリオに関連付けられて記憶部に複数種類格納されている。

すなわち、声認識手段として機能する前記情報処理装置は、複数の音声認識用辞書を有しており、前記タッチパネルディスプレイ２に表示される入力項目に応じた音声認識用辞書を選択してマイク３に入力された音声の認識を行っている。

例えば、訪問者が、最初に名前を、次に会社名を入力する場合であれば、名前を入力するために「名前入力区画」領域をタッチすると、制御部は、全国を対象とした名前辞書を選択してこれをロードし、次いで「会社名入力区画」領域がタッチされると全国を対象とした会社辞書を選択してこれがロードされて各音声認識が行われる。

他方、上記の「会社名入力区画」領域や「名前入力区画」領域のように、音声ガイダンスに応じて前記音声入力部に入力されるべき入力項目が複数あるとき、表示処理手段として機能する情報処理装置の制御部は、これら複数の入力項目をそれぞれ所定表示形式で前記表示部に表示するのであるが、前記制御部は、前記複数の入力項目のうちすでに認識した入力項目の入力内容に応じた音声認識用辞書を選択し、前記複数の入力項目のうちまだ認識していない入力項目に対して前記音声入力部に入力される音声の認識を、前記選択した音声認識用辞書を用いて行うこともできる。

すなわち、最初に会社名を入力して、次に名前を入力する場合であれば、制御部は、全国を対象とした名前辞書ではなく、すでに認識した入力項目（会社名）の入力内容に応じた音声認識用辞書として、その会社の社員名辞書を選択してロードするのである。よって、辞書検索の範囲が小さくなり、訪問者の名前の認識精度とスピードを向上させることができる。

次いで、音声対話装置は、入力項目に対応する表示領域を入力待ち状態を示す表示に変更するとともに（ステップＳ２０３）、システム状態を入力待ち状態に遷移する（ステップＳ２０４）。

「会社名入力区画」領域が指定されている場合であれば、図７に示すように、円形で表示されている「会社名入力区画」領域の円を多重に表示して、一重の円のままの表示がなされている「名前入力区画」領域と区別できるようにするのである。

他方、訪問客は、指でタッチしている「会社名入力区画」領域が、図７に示すように変化したことで、入力待ち状態となっていることを確認するとともに、「今は会社名を音声入力するのだ」と意識しつつ、タッチしたまま、例えば「○△工業です。」と自信をもって音声入力することができる。

音声対話装置は、音声入力を受付け、入力内容の認識処理を開始すると表示形式変更処理を実行する（ステップＳ２０６）。

例えば、図８に示すように、音声入力の入力レベルに応じて、色の種類とその濃度を３段階（第１の色〜第３の色）に変更する。かかる表示処理により、訪問客は自分の音声が受け付けられていることを確認することができる。

この図８で示した表示処理の変更、すなわち、音声入力の入力レベルに応じて表示形式を変更する処理は、図１０に示す手順で行われる。

図１０に示すように、先ず、音声対話装置の制御部は、音声入力レベルを取得する（ステップＳ３００）。次いで、予め記憶部に記憶した音声入力レベルの許容範囲データを読み出す（ステップＳ３０１）。そして、入力レベルが許容範囲を上回るか否かを判断する（ステップＳ３０２）。上回ると判断した場合は、処理をステップＳ３０３に移し、表示領域（例えば、「会社名入力区画」領域）を第１の色（例えば、薄い水色など）に設定する（図８(a)）。

ステップＳ３０２で、入力レベルが許容範囲を上回らないと判断した場合は、入力レベルが許容範囲を下回るか否かを判断する（ステップＳ３０４）。そして、下回ると判断した場合は、処理をステップＳ３０５に移し、表示領域（例えば、「会社名入力区画」領域）を第２の色（例えば、通常の濃度の緑色など）に設定する（図８(b)）。

ステップＳ３０４で、入力レベルが許容範囲を下回らないと判断した場合は、処理をステップＳ３０６に移し、表示領域（例えば、「会社名入力区画」領域）を第３の色（例えば、高濃度の赤色など）に設定する(図８(c))。

ステップＳ３０３，Ｓ３０５，Ｓ３０６の処理を終えると、訪問客による音声入力が終了したかを判断し（ステップＳ３０７）、終了したと判断すればこの表示形式変更処理を終了し、音声入力が未だ終了していないと判断した場合は、処理をステップＳ３００に戻す。

また、ステップＳ２０６の表示形式変更処理では、客の発声した「○△工業です。」について音声認識処理を開始すると、図９に示すように、「会社名入力区画」領域中で放射状に光が点滅するなどして表示態様（表示形式）を変更する。かかる表示処理により、訪問客は自分の名前を認識中であることを確認できる。

図５に戻り、音声対話装置の制御部が表示形式変更処理（ステップＳ２０６）を終了すると、訪問客は、自分の発話に対し、音声対話装置側で音声入力内容の認識処理を開始したことを図９に示した表示形式の変化で確認できるため、タッチしている「会社名入力区画」領域から指を離して発話を終了する。

音声対話装置の制御部は、ステップＳ２０２でロードした辞書を用いて、入力された音声の認識処理を行い（ステップＳ２０８）、認識結果を尤度順に「会社名入力区画」領域の周囲に表示する（ステップＳ２０９）。例えば、図１１に示すように、円で表示された会社名入力区画」領域を囲むように、尤度順に大きさの異なる複数の認識結果候補を所定形状の区画領域で表示する。ここでは、会社名入力区画」領域と同じように円形の区画領域としているが、矩形などであってもよい。

一方、訪問客は「会社名入力区画」領域の周囲に表示された認識結果の候補を確認し、その中に自分の音声入力を反映した正しい認識結果があれば、タッチパネルディスプレイ２上で正しい認識結果が表示されている部分をタッチする。他方、タッチパネルディスプレイ２上にはＮＧボタンが表示されており（図示せず）、認識結果が自分の音声入力を反映したものでないと判断すれば、ＮＧボタンをタッチして音声入力をやり直す。

ところで、ステップＳ２０８で入力された音声の認識処理を行ったときに、候補が複数ではなく単独の場合もある。その場合は、複数の認識結果候補を示す所定形状の区画領域は１つだけ表示されることになり、これが確認ボタンとして機能する。なお、前記ＮＧボタンとともにＯＫボタン（図示せず）を表示して、これらを確認ボタンとして使用できるようにしてもよい。

このように、音声対話装置の制御部は、音声認識手段として機能するとともに、さらに、この音声認識手段により認識された複数の入力内容の候補をタッチパネルディスプレイ２へ表示する候補表示手段と、この候補表示手段により表示された複数の入力内容の候補から、いずれか一つの候補を選択する選択手段と、この選択手段により選択された候補を入力内容として決定する入力処理手段としても機能している。

音声対話装置の制御部は、ステップＳ２０９の処理の後、訪問客からの正しい認識結果を示すタッチパネルディスプレイ２のタッチ信号を検出すると、図１２に示すように、会社名入力区画」領域内に認識結果を表示するとともに、会社名入力区画」領域の円を太線で表示して、音声入力が確定したことを訪問客に報知する。

こうして、本実施形態に係る音声対話装置は、インターフェイスとして、音声入力部や音声出力部に加え、音声ガイダンスの内容を利用者が視覚的にも把握できるように、タッチパネルディスプレイ２を備えた構成としたことにより、より円滑な対話進行を実現することができる。

以下、本実施形態に係る音声対話装置について、図面を参照しながら、より具体的に説明する。なお、以下においても、音声対話装置によって会社へ来訪した来客の受け付けを行うとともに、この来客が希望する社員への面会取り次ぎを行うまでを例にとって説明する。

［３．音声対話処理装置の具体的構成］
図１３は、本実施形態に係る音声対話装置の電気的構成を示すブロック図、図１４は記憶部に記憶されている対話シナリオファイルの一例である第１の来客受付シナリオを表化して示した来客受付シナリオテーブル、図１５はこの来客受付シナリオに関連付けられて記憶部に記憶されている来訪予約データを表化して示した来訪予約テーブル、図１６は来客受付シナリオに従って進行する音声対話の流れを示す説明図、図１７は第２の来客受付シナリオテーブルの説明図、図１８はタッチパネルディスプレイ２に表示される来客受付画面の説明図である。

図１３に示すように、音声対話装置は、先に図１を参照して説明したように、タッチパネルディスプレイ２（表示部）と、マイク３（音声入力部）と、スピーカ４（音声出力部）と、赤外線センサ５とを備えるとともに、これらと入出力部を介して接続された、ＣＰＵ６１、ＲＯＭ６２、ＲＡＭ６３などからなる制御部と、記憶部としてのハードディスク装置７（以下「ＨＤＤ７」とする）とを備える情報処理装置６を具備している。なお、図では省略したが、情報処理装置６には、タッチパネルディスプレイ２を制御する表示処理手段としての表示制御回路やスピーカ４からの音声出力を制御する音声出力回路などが備えられている。

ＨＤＤ７には、本音声対話装置全体を制御ためのシステムプログラム、音声対話処理を行うための音声対話プログラム、対話シナリオファイル、音声認識辞書、発話用音声データなどが格納されており、音声対話プログラムは、対話制御プログラム、音声入力プログラム、入力レベル判定プログラム、音声認識プログラムなどから構成されている。なお、前記発話用音声データに代えて、音声合成プログラムを用いることもできる。

なお、記憶部を構成するＨＤＤ７を始め、主制御を行う情報処理装置は必ずしも筐体１内に格納されていなくてもよく、例えば、別置きされたワークステーションやサーバなどに備えられていてもよい。その場合、図２で示した筐体１を備えた装置を端末装置として用い、これをワークステーションやサーバと無線あるいは有線にて接続したシステム構成であってもよい。

対話シナリオファイルは、種々のシチュエーションに応じた複数の対話シナリオがテーブル化されて記憶されており、本実施形態の音声対話装置では、図１４に示す第１の来客受付シナリオテーブル又は図１７に示す第２の来客受付シナリオテーブルが最初に参照される。

図１４に示すように、第１の来客受付シナリオテーブルには、来客の用件に対応するために必要な特定事項を決定するのに必要な情報を取得するための複数のＩＤ欄が時系列に設けられている。そして、各ＩＤ欄には、タイトル、音声ガイダンスとして発話するセリフ、音声ガイダンスに応じて利用者である客が音声入力すべき入力項目が対応付けられている。さらに、この入力項目は、項目名、入力項目を認識するための認識辞書（音声認識用辞書）、入力項目から派生する従属項目であるか否かを判定するための従属チェック、入力項目が必須であるか任意のものであるのかを識別する必須チェックが対応付けられている。

具体的には、この第１の客受付シナリオテーブルにはＩＤ１〜ＩＤ４が設定されており、ＩＤ１の欄のタイトルは「来客特定１」であり、来客を特定するために音声ガイダンスとして音声出力されるセリフは「こんにちは。会社名とお名前を教えてください。」である。利用者である客が音声で入力する入力項目の項目名は、「会社名」、「名前（姓）」が設定されている。なお、このＩＤ１では、「会社名」、「名前（姓）」のいずれにも従属チェックでは従属されていないことを示すフラグが立てられており、必須チェックでは、いずれも必須であることを示すフラグが立てられている。

また、認識辞書として、「会社名」には「会社名辞書」が、「名前（姓）」には「苗字辞書」が設定されている。すなわち、音声認識手段として機能する情報処理装置は、複数の音声認識用辞書を有しており、タッチパネルディスプレイ２に表示される入力項目に応じた音声認識用辞書を適宜選択してマイク３を介して入力された音声の認識を行っている。

また、ＩＤ２の欄のタイトルは「部署特定」であり、部署を特定するための音声ガイダンスのセリフは「所属の部署名も教えてください。」である。入力項目の項目名は、「部署名」が設定されている。そして、認識辞書としては、「部署名辞書」が設定されている。このＩＤ２の入力項目はＩＤ１の入力項目である「会社名」から派生した従属項目であるため、従属チェックには、従属を示すフラグが立てられており、また、このＩＤ２の入力項目も部署を特定するためには必須であるため、必須チェックでは必須であることを示すフラグが立てられている。

ＩＤ３の欄のタイトルは「来客特定２」であり、「来客特定１」で来客を特定できない場合の従属項目であるため、従属チェックには、従属を示すフラグが立てられている。音声ガイダンスとして音声出力されるセリフは「申し訳ありませんが下のお名前も頂戴できますか。」であり、訪問客が音声で入力する入力項目の項目名は、「名前（名）」が設定されている。そして、認識辞書としては、「名前辞書」が設定されている。

ＩＤ４の欄のタイトルは「案内特定」であり、対話シナリオの結びになり、来訪者からの音声入力は想定されていない。よって、このＩＤ４ではセリフのみが設定されている。設定されているセリフとしては、「ただいま担当者におつなぎします。」と、「アポイントが登録されていません。」の２通りである。

また、図１５に示す来訪予約テーブルは、来客受付シナリオテーブルに関連付けられて記憶されており、図示するように、「来客会社名」、「来客部署」、「来客名」、「訪問予定日時」、「担当者名」、及び「担当者電話番号」の項目ごとに、来訪予約のあった訪問客に関するデータが纏められている。

［４．音声対話処理装置による音声対話の進行］
上記第１の来客受付シナリオに従った音声対話がどのように進行していくかを、図１６を参照して説明する。訪問客を赤外線センサ５により検出すると、音声対話装置は、第１の来客受付シナリオを参照して、図示するように、先ず、発話処理と入力項目に対応する表示領域（「会社名入力区画」領域、「名前入力区画」領域）の表示処理を実行する（ステップＳ４００）。

訪問客が上述してきた手順（図５参照）で音声入力を行った結果、訪問客の会社がグループ企業であるか否かを判断する（ステップＳ４０１）。この判断は、訪問客の音声入力を認識するときに用いた会社名辞書に基づく。すなわち、会社名辞書にある企業名データなどには、グループ企業であるか否かを示す識別子が付設されているのである。

そして、グループ企業であると判断すると、来客受付シナリオテーブル（図１４）のＩＤ２に基づいて、音声対話装置はステップＳ４０２により「所属の部署も教えてください。」と音声ガイダンスを出力する。このとき、タッチパネルディスプレイ２上には、図１８に示すように、会社名に従属する入力項目である部署名（所属）が「会社名入力区画」領域と関連するように線で結ばれた状態で表示される。

すなわち、音声対話装置の情報処理装置は、入力項目に対する入力内容が所定の入力内容であるときに、すでに表示している入力項目に従属する入力項目をタッチパネルディスプレイ２に表示することができるのである。

この「所属の部署も教えてください。」という音声ガイダンスに従って、訪問客がこれも図５に示した手順に従って、タッチパネルディスプレイ２の部署名（所属）の部分をタッチしながら所属する部署を音声入力すると、情報処理装置は、音声認識して来客データを生成するとともに、来客予約データを参照しにいく（ステップＳ４０３）。そして、生成した来客データが来客予約データのデータに該当するか否かを判定する（ステップＳ４０４）。この来客予約データは、図１５で示した来訪予約テーブルのデータである。

そして、来客予約テーブルのデータの中に、音声認識で特定した来客のデータがなければ、予約無の来客と判断し、ステップＳ４０５に処理を移す。この処理においては、情報処理装置は「アポイントが登録されておりません。」などと音声出力し、次いで、ステップＳ４０６で音声対話の進行を別の対話シナリオ、例えば用件確認シナリオに引き継いで処理を終了する。

その後は、用件確認シナリオが読み出されて用件確認処理が進行していくが、この用件確認シナリオでは、例えば、「アポイントが登録されておりませんが、どのようなご用件でしたでしょうか？」と音声ガイダンスを出力するともに、この音声ガイダンスに応じて入力されるべき入力項目（例えば、打ち合わせ、配達、営業、その他）をタッチパネルディスプレイ２に表示することになる。

一方、ステップＳ４０４で来客データが来客予約データのいずれにも該当しない場合、来客予約データ中に来客データと同一姓（同一苗字）のデータが存在するか否かを判定する（ステップＳ４０７）。

そして、同一姓のデータがない場合は、処理をステップＳ４１０に移す一方、同一姓のデータがある場合は、ステップＳ４０８において、「申し訳ありませんが、下のお名前も頂戴できますか。」と音声ガイダンスを出力する。このとき、タッチパネルディスプレイ２上には、名前（姓）に従属する入力項目である名前（名）が、図１８で示した部署名（所属）が「会社名入力区画」領域と関連するように線で結ばれていのと同じような形態で表示される。

訪問客が、ここでも図５に示した手順に従って、タッチパネルディスプレイ２の名前（名）の部分をタッチしながら下の名前を音声入力すると、情報処理装置は、これを音声認識して来客データを再生成して来客予約データを参照しにいく。そして、再生成した来客データが前述の来客予約データのデータに該当するか否かを判定する（ステップＳ４０９）。

同一の名前データがない場合は、処理をステップＳ４０５に移す一方、同一の名前データがある場合は、ステップＳ４１０において、「ただいま担当者におつなぎします。」と音声出力して、来客受付シナリオに沿った来客受付用の音声対話処理を終える。

なお、本実施形態に係る音声対話装置は、自動受付装置として用いているため、社員と通信可能な所定の通信手段を備えた構成としている。例えば通信手段が電話であれば、ステップＳ４１０の処理の後、音声対話装置は来訪予約テーブルの担当者電話番号を参照して担当者に繋ぎ、来客の旨を音声により告げるか、あるいは音声対話装置のマイク３とスピーカ４とを介して、来訪者が担当者（社員）と直接通話できるように通信制御処理を行うことができる。すなわち、音声対話処理を用いた自動受付装置の来客受付処理としては、担当者への連絡処理が含まれる。

ところで、上述してきた第１の来客受付シナリオテーブルを参照しての音声対話処理において、訪問客を最終的に担当者に取り次ぐ場合、来訪予約テーブル（図１５）を参照して来訪予定者と関連付けられた担当者に取り次ぐようにしていた。

この場合、来訪予約テーブルには担当者を示すデータが必要となるが、来訪予約テーブルに担当者のデータがなくても音声対話による来客受付けを可能とするためには対話シナリオファイルの一例である第２の来客受付シナリオテーブルを用いるとよい。

この第２の来客受付シナリオテーブルでは、訪問客に担当者の名前を音声入力させるようにしている点が第１の来客受付シナリオテーブルと異なっている。

すなわち、第２の来客受付シナリオテーブルは、図１７に示すように、ＩＤ１〜ＩＤ３が設定されており、ＩＤ１の欄のタイトルは「来客特定」であって、これは、図１４で示した第１の来客受付シナリオテーブルのＩＤ１の「来客特定１」と同じセリフと入力項目（項目名、認識辞書、従属チェック、必須チェック）が設定されている。

また、ＩＤ２の欄は、第１の来客受付シナリオテーブルのＩＤ２の欄と同じタイトル「部署特定」が設定され、セリフも入力項目（項目名、認識辞書、従属チェック、必須チェック）も同一である。

ＩＤ３の欄のタイトルは「担当者特定」であり、来客を特定するために音声ガイダンスとして音声出力されるセリフは「担当者の名前を教えてください。」である。利用者である客が音声で入力する入力項目の項目名は、「担当者名」、「部署名」が設定されている。なお、このＩＤ３の従属チェックは、「担当者名」、「部署名」のいずれも従属されていないことを示すフラグが立てられている。他方、必須チェックでは、「担当者名」については必須であることを示すフラグが立てられているが、「部署名」については任意であることを示すフラグが立てられている。

また、認識辞書として、「担当者名」には「担当者名辞書」が、「部署名」には「部署名辞書」が設定されている。

［５．音声対話処理装置による具体的な音声対話処理］
以下、図１９〜図２５を参照して、上記第２の来客受付シナリオテーブルに従った音声対話処理による来客受付処理について説明する。図１９は来客受付シナリオに従って進行する音声対話処理の一例を示すフローチャート、図２０及び図２１は同音声対話処理のサブルーチンを示すフローチャート、図２２〜図２５はタッチパネルディスプレイに表示される画面の説明図である。なお、以下の処理は、図１３で示した電気的構成を有する音声対話装置が適用された自動受付装置が実行するものであり、既に電源投入がなされ、システムプログラムが起動し、音声対話プログラムが読み出されて初期設定などが全て完了し、訪問客が装置前に位置した時点からの処理フローとしている。

図１９に示すように、赤外線センサ５で来客を検知すると（ステップＳ５００）、装置内のＣＰＵ６１は、対話シナリオファイルから第２の来客受付シナリオテーブル（図１７）を読み出し、来客特定（ＩＤ１）のデータをロードする（ステップＳ５０１）。

この来客特定（ＩＤ１）に従って訪問客との対話を実行する（ステップＳ５０２）。このステップＳ５０２により、訪問者の会社名、氏名が特定されることになる。なお、このステップＳ５０２で実行される対話実行処理については、図２０及び図２１に示すサブルーチンを参照して、後に詳述する。

来客の特定により、会社名を認識すると、ＣＰＵ６１は、この会社名が自社のグループ企業であるか否かを判断する（ステップＳ５０３）。すなわち、第２の来客受付シナリオテーブルに規定されている会社名辞書を参照してＣＰＵ６１が判断する（図１６のステップＳ４０１の説明参照）。

会社名がグループ企業である場合、ＣＰＵ６１は、第２の来客受付シナリオテーブルから部署特定（ＩＤ２）のデータをロードし（ステップＳ５０４）、部署特定（ＩＤ２）に従って訪問客との対話を実行する（ステップＳ５０５）。このステップＳ５０５の処理はステップＳ５０２と同様な処理であり、これも後に詳述する。

次いで、ＣＰＵ６１は来訪予約テーブルの来訪予約データ（図１５）を参照する（ステップＳ５０６）。そして、来訪者の音声入力を認識して生成した来客データが来訪予約データにあるか否かを判断する（ステップＳ５０７）。

来訪予約データに来客データがあると判断した場合、ＣＰＵ６１は、ステップＳ５１０に処理を移す一方、来客データがないと判断した場合、ステップＳ５０８により、第２の来客受付シナリオテーブルから担当者特定（ＩＤ３）のデータをロードし、次いで、この担当者特定（ＩＤ３）に従って訪問客との対話を実行し（ステップＳ５０９）、その後処理をステップＳ５１０に移す。なお、ステップＳ５０９の処理についてもステップＳ５０２と同様な処理であり、やはり後に詳述する。

そして、ＣＰＵ６１は、ステップＳ５１０において、来訪予約テーブルの担当者電話番号を取得する（ステップＳ５１０）。そして、担当者に電話を介して連絡し（ステップＳ５１１）、来客の旨を音声により告げて来客受付処理を終了する。あるいは、ステップＳ５１１では、前述したように、音声対話装置（自動受付装置）のマイク３とスピーカ４とを介して、来訪者が担当者（社員）とが直接通話できるように通信制御処理を行い、通信が終了した時点で客受付処理の終了としてもよい。

ここで、上記ステップＳ５０２、ステップＳ５０５、ステップＳ５０９における訪問客との対話の実行処理について、図２０及び図２１を参照して詳述する。ステップＳ５０２、ステップＳ５０４及びステップＳ５０９の処理は、いずれも基本的には同じ処理フローとなるため、以下では、ステップＳ５０２の処理を基本として説明し、その中で、ステップＳ５０５、ステップＳ５０９の処理についても適宜説明することとする。

図２０に示すように、ＣＰＵ６１は、第２の来客受付シナリオテーブルの来客特定（ＩＤ１）に従って、先ず、入力画面の表示処理及びセリフの再生処理を実行する（ステップＳ６００）。

このステップＳ６００の処理は、図２１に示すサブルーチンによって実行される。すなわち、先ず、対話シナリオテーブルの該当データから入力項目のリストを取得する（ステップＳ７００）。図１９のステップＳ５０１の処理であれば、第２の来客受付シナリオテーブルの来客特定（ＩＤ１）を、ステップＳ５０４の処理であれば第２の来客受付シナリオテーブルの部署特定（ＩＤ２）を、ステップＳ５０９の処理であれば第２の来客受付シナリオテーブルの部署特定（ＩＤ３）を取得することになる。

次いで、ＣＰＵ６１は、取得したＩＤ１（あるいはＩＤ２又はＩＤ３）の入力項目中に他の入力項目に従属する項目があるか否かを判断する（ステップＳ７０１）。従属する項目がある場合はステップＳ７０４に処理を移す一方、従属する項目がない場合は、ステップＳ７０２において、図面の初期化処理を行ってすでに表示されている入力領域を削除するとともに、前述した（図５を用いた音声入力処理の概要説明）確認ボタンを表示し（ステップＳ７０３）、処理をステップＳ７０４に移す。

ＣＰＵ６１は、ステップＳ７０４〜ステップＳ７１１で示される処理を、取得したＩＤ１（あるいはＩＤ２又はＩＤ３）の全ての入力項目（ＩＤ１であれば会社名と名前（姓）、ＩＤ２であれば部署名のみ、ＩＤ３であれば担当者名と部署名）への入力処理を開始する。

すなわち、先ず、入力項目の必須チェックを行い（ステップＳ７０５）、必須であれば入力項目用の入力領域を必須用の大きさで表示する一方、必須でなく任意の場合は、入力項目用の入力領域を任意用の大きさで描画する（ステップＳ７０７）。

ＩＤ１における入力項目である会社名、名前（姓）及びＩＤ２における部署名は、図１７に示すように、いずれも必須であるので、この来客受付処理におけるＩＤ１に従った対話実行処理ではステップＳ７０６の処理がなされることになる。

他方、ＩＤ３における担当者名と部署名のうち、部署名については任意となっている。そこで、ＣＰＵ６１は、図２２に示すように、必須である「担当者名入力区画」領域に対して小さな領域からなる「部署名入力区画」を表示する。

このように、除法処理装置のＣＰＵ６１は、音声ガイダンスに応じて前記音声入力部に入力されるべき必須の入力項目に加え、任意の入力項目をタッチパネルディスプレイ２に表示するときには、必須の入力項目と任意の入力項目とで表示形式を変更する制御を行う。かかる表示制御を行うことにより、訪問者は、複数の入力項目がタッチパネルディスプレイ２に表示されていても、必ず音声入力すべき項目が何れであるかを視覚的に判断することが可能となり、音声対話装置としての使い勝手が向上する。

次いで、ＣＰＵ６１は、ＩＤ１（あるいはＩＤ２又はＩＤ３）の入力項目が他の入力項目に従属しているか否かを判断し（ステップＳ７０８）、従属する入力項目を特定する（ステップＳ７０９）。

ＩＤ２における部署名のように、ＩＤ１の会社名に従属しているものであれば、例えば図１８に示したように、従属する入力項目の入力領域との間（「会社名入力区画」領域と「部署名入力区画」領域との間）に関連を表す線を描画する（ステップＳ７１０）。他方、従属でない場合は、この入力処理を終了してステップＳ７１２に処理を移す（ステップＳ７１１）。

なお、ＩＤ１及びＩＤ３における入力項目である会社名と名前（姓）、及び担当者名と部署名は、図１７に示すように、いずれも従属ではないので、この来客受付処理におけるＩＤ１に従った対話実行処理ではステップＳ７０９及びステップＳ７１０の処理はなされない。

ステップＳ７１２において、ＣＰＵ６１は、第２の来客受付シナリオテーブルの来客特定（ＩＤ１）に設定されたセリフを取得する。すなわち、「こんにちは。会社名とお名前を教えてください。」のセリフを取得する。

そして、取得したセリフを音声ガイダンスとしてスピーカ４から出力し（ステップＳ７１３）、ＣＰＵ６１は処理を図２０のステップＳ６０１に移す。

ステップＳ６０１では、来客（訪問客）による音声入力がなされる。これは、音声入力処理の概要で説明した処理の流れに準ずるものである（図５参照）。

すなわち、訪問客により、タッチパネルディスプレイ２上の所定の入力項目の領域がタッチされると、入力項目に対応する音声認識用の辞書をロードして、入力項目に対応する表示領域を、入力待ち状態を示す表示に変更し（図７参照）、システム状態を入力待ち状態に遷移する。そして、ＣＰＵ６１は、その状態で音声入力を受付け（図８参照）、さらに、入力内容の認識処理を開始すると表示形式変更処理を実行する（図９参照）。そして、先にロードした辞書を用いて、入力された音声の認識処理を行い、認識結果が複数個あれば、その尤度順に表示する（図１１参照）。

訪問客が、タッチパネルディスプレイ２に表示された認識結果を確認して例えばＯＫボタンを押すと（ステップＳ６０２）、ＣＰＵ６１は、ＩＤ１（あるいはＩＤ２又はＩＤ３における必須の入力項目が全て入力されたか否かを判断し（ステップＳ６０３）、入力されていない入力項目があると判定した場合は、例えば、「○○の項目が入力されていません。」などの必須項目の入力を促す発話を出力し（ステップＳ６０４）、ステップＳ６０１に処理を移す。他方、ステップＳ６０３で必須の入力項目が全て入力されたと判断した場合は、ＣＰＵ６１は、ステップＳ５０２、ステップＳ５０５、ステップＳ５０９の処理を終了し、ステップＳ５０３又はステップＳ５０６又はステップＳ５１０の処理に移す。

なお、ステップＳ６０４における発話に係るセリフのデータは、各対話シナリオの各ＩＤに関連付けられてＨＤＤ７内に発話用音声データとして記憶されているものである。

以上説明してきたように、音声対話装置を用いて来客受付を行えば、利用者が音声による情報入力に慣れていない場合であっても、どのような内容をどのように音声入力すればよいかを把握することが容易となるので、誰でも安心して利用することができる。

ところで、上述してきた実施形態において、図２０に示すステップＳ６００とステップＳ６０１との処理の間、具体的には、図２１のステップＳ７１３で音声ガイダンスを出力した後、訪問者が入力する項目に対応する表示領域をタッチパネルディスプレイ２上でタッチした状態で、発話を開始するまでの間（図５参照）に、所定の時間が経過したときは、表示処理手段として機能する情報処理装置がタッチパネルディスプレイ２に、入力すべき項目の入力例を表示することもできる。

すなわち、タッチパネルディスプレイ２に表示した入力項目が指定されてから所定期間経過したとき、当該入力項目に対する入力例を表示することのできる音声対話装置とすることができる。

入力例の表示形態としては、例えば会社名を入力する場合であれば、図２３に示すように、「会社名入力区画」領域の横に、○△工業や××販売や△×商事というように入力例が列記される。したがって、利用者（訪問者）が、会社名を音声入力するときに、株式会社や有限会社まで発話しなければならないのかなどと悩んで時間が経過した場合など、自分がタッチしている領域に近接して入力例が表示されるため、音声入力するのにいたずらに時間がかかることを防止できる。

また、図１６のステップＳ４０２の処理のように、入力項目に従属する項目がある場合は、図１８で示したように、各入力区画領域同士が互いに関連するように線で結ばれた状態で表示されるとしたが、例えばタッチパネルディスプレイ２上に３つ以上の入力区画領域がある場合など、図２４に示すように、従属項目を示す入力区画領域（図２４における「部署入力区画」領域）が、いずれの入力区画領域から派生したかを、あたかもアニメーションのように表示することができる。

また、音声対話を進行させていく中で、利用者（訪問者）の音声入力すべき項目が、図２５に示すように、「はい」や「いいえ」などのような場合も考えられる。

そのような場合は、利用者（訪問者）は音声入力を行わず、入力項目を示す入力区画領域をタッチするだけでも音声対話装置が入力を受け付けるようにしてもよい。つまり、簡単な内容、あるいは重要な内容の入力は、発声させることなく、タッチパネルディスプレイ２によるタッチ入力だけで完結させるのである。

利用者とすれば、他人に聞こえさせたくないような内容を入力しなければならない場合でも安心して音声対話装置を利用することが可能となる。

また、来訪者がアポイントメントをとることなく、いきなり訪問してきた場合が想定される。そのようなときに、上述した第１の来客受付シナリオや第２の来客受付シナリオに従うと、第１の来客受付シナリオでは図１６を用いて説明したように、結局は「アポイントが登録されておりません。」との音声出力がなされ（ステップＳ４０５参照）、用件確認シナリオなどに引き継がれることになるし、第２の来客受付シナリオに従うとしても（図１９〜図２１参照）、来訪者は自分の名前や所属などを先に音声入力しなければならないため時間がかかるおそれがある。

そこで、例えば、予めアポなし受付シナリオを用意しておくとともに、タッチパネルディスプレイ２上に「アポなし」ボタン領域を表示しておくとよい。そして、「アポなし」ボタン領域がタッチされると、アポなし受付シナリオが読みだされて、音声ガイダンスとして、「連絡をとりたい社員を教えてください。」などのセリフがスピーカ４から出力されるのである。そのときに、タッチパネルディスプレイ２に表示される画面としては、図２５に示す形態が考えられる。

図２６は、この場合においてタッチパネルディスプレイ２に表示される画面の説明図であり、図示するように、部署名や社員の名前は必須項目として所定の大きさの入力区画領域で表示されるが、グループ名などの任意の入力項目は、それらよりも小さな入力区画領域となっている。すなわち、この場合も、音声ガイダンスに応じて音声入力部に入力されるべき必須の入力項目に加え、任意の入力項目をタッチパネルディスプレイ２に表示するときには、必須の入力項目と任意の入力項目とで表示形式を変更する制御に従っている。

なお、アポなし受付シナリオでは、図示しないが、そのテーブルでは入力項目の項目名として部署名、名前（姓）及びグループが設定され、部署名、名前については必須チェックでは必須を示すフラグが、グループについては任意を示すフラグが立っていることは言うまでもない。

ところで、上述してきた実施形態では、音声対話装置は赤外線センサ５により利用者（訪問者）を検知するようにしたが、利用者を検出することができるものであればその装置や手段としては何を用いても構わない。来訪者自ら操作することで来訪信号を制御部に出力するようなスイッチなどであってもよい。

上述してきた実施形態より、以下の音声対話装置を実現することができる。
（１）音声ガイダンスと、当該音声ガイダンスに応じて音声入力部（例えばマイク３）へ入力させるべき入力項目（例えば、図１４や図１７に示す項目名）と、を対応づけた対話シナリオを記憶するシナリオ記憶手段（例えばＨＤＤ７）と、前記対話シナリオに従った音声ガイダンスを音声出力部（例えばスピーカ４）から出力する音声ガイダンス出力手段（例えば、情報処理装置６のＣＰＵ６１や音声出力回路）と、前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部（例えばタッチパネルディスプレイ２）に所定表示形式（例えば、図６〜９、図１１、１２、図１８、図２２〜２６）で表示する表示処理手段（例えば、情報処理装置６のＣＰＵ６１や表示制御回路）と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段（例えば、情報処理装置６のＣＰＵ６１や音声対話プログラム、対話シナリオファイル、音声認識辞書及び発話用音声データなど）と、を備えた音声対話装置。

（２）上記（１）において、前記表示処理手段（例えば、情報処理装置６のＣＰＵ６１や表示制御回路）は、前記表示部（例えばタッチパネルディスプレイ２）に表示した入力項目（例えば、図１４や図１７に示す項目名）が指定されているときに、前記音声入力部（例えばマイク３）への音声の入力が行われると、当該入力項目の表示形式を変更する（例えば、図１０の処理（図７及び図８を参照））音声対話装置。

（３）上記（１）において、前記表示処理手段（例えば、情報処理装置６のＣＰＵ６１や表示制御回路）は、前記表示部（例えばタッチパネルディスプレイ２）に表示した入力項目（例えば、図１４や図１７に示す項目名）が指定されているときに、音声認識処理が開始されると、当該入力項目の表示形式を変更する（例えば、図９を参照）音声対話装置。

（４）上記（１）〜（３）のいずれかにおいて、前記表示処理手段（例えば、情報処理装置６のＣＰＵ６１や表示制御回路）は、前記音声ガイダンス出力手段（例えば、情報処理装置６のＣＰＵ６１や音声出力回路）により音声ガイダンスを出力後、所定期間経過したときに、前記入力項目を前記表示部（例えばタッチパネルディスプレイ２）に表示する音声対話装置。

（５）上記（１）〜（４）のいずれかにおいて、前記音声認識手段（例えば、情報処理装置６のＣＰＵ６１や音声対話プログラム、対話シナリオファイル、音声認識辞書及び発話用音声データなど）により認識された複数の入力内容の候補を前記表示部へ表示する候補表示手段（例えば、情報処理装置６のＣＰＵ６１や表示制御回路）と、前記候補表示手段により表示された複数の入力内容の候補から、いずれか一つの候補を選択する選択手段（例えばＯＫボタンなどの確認ボタン）と、前記選択手段により選択された候補を入力内容として決定する入力処理手段（例えば、情報処理装置６のＣＰＵ６１）とを備えた音声対話装置。

（６）上記（１）〜（５）のいずれかにおいて、前記表示処理手段（例えば、情報処理装置６のＣＰＵ６１や表示制御回路）は、前記音声ガイダンスに応じて前記音声入力部（例えばマイク３）に入力されるべき必須の入力項目（例えば、図２２に示す担当者名）に加え、任意の入力項目（例えば、図２２に示す部署名）を前記表示部に表示するときには、前記必須の入力項目と前記任意の入力項目とで表示形式を変更する音声対話装置。

（７）上記（１）〜（６）のいずれかにおいて、前記表示処理手段（例えば、情報処理装置６のＣＰＵ６１や表示制御回路）は、前記表示部（例えばタッチパネルディスプレイ２）に表示した入力項目（例えば、図１４や図１７に示す項目名）が指定されてから所定期間経過したとき、当該入力項目に対する入力例（例えば、図２３に示す○△工業や××販売や△×商事）を表示する音声対話装置。

（８）上記（１）〜（７）のいずれかにおいて、前記表示処理手段（例えば、情報処理装置６のＣＰＵ６１や表示制御回路）は、前記入力項目（例えば、図１４や図１７に示す項目名）に対する入力内容が所定の入力内容であるときに、すでに表示している入力項目に従属する入力項目（例えば、図１８における部署）を前記表示部（例えばタッチパネルディスプレイ２）に表示する音声対話装置。

（９）上記（１）〜（８）のいずれかにおいて、前記音声認識手段（例えば、情報処理装置６のＣＰＵ６１や音声対話プログラム、対話シナリオファイル、音声認識辞書及び発話用音声データなど）は、複数の音声認識用辞書（例えば、名前辞書、会社辞書、社員名辞書など）を有しており、前記表示部（例えばタッチパネルディスプレイ２）に表示される入力項目（例えば、図１４や図１７に示す項目名）に応じた音声認識用辞書を選択して前記音声入力部（例えばマイク３）に入力された音声の認識を行う音声対話装置。

（１０）上記（１）〜（９）のいずれかにおいて、前記表示処理手段（例えば、情報処理装置６のＣＰＵ６１や表示制御回路）は、前記音声ガイダンスに応じて前記音声入力部（例えばマイク３）に入力されるべき入力項目（例えば、図１４や図１７に示す項目名）が複数あるとき、これら複数の入力項目をそれぞれ所定表示形式で前記表示部（例えばタッチパネルディスプレイ２）に表示し、前記音声認識手段（例えば、情報処理装置６のＣＰＵ６１や音声対話プログラム、対話シナリオファイル、音声認識辞書及び発話用音声データなど）は、複数の音声認識用辞書（例えば、名前辞書、会社辞書、社員名辞書など）を有しており、前記複数の入力項目のうちすでに認識した入力項目の入力内容に応じた音声認識用辞書を選択し、前記複数の入力項目のうちまだ認識していない入力項目に対して前記音声入力部に入力される音声の認識を、前記選択した音声認識用辞書を用いて行う音声対話装置。

また、上述してきた実施形態より、コンピュータを、上記（１）〜（１０）のいずれかに記載の音声対話装置の各手段として機能させるプログラムが実現できる。

さらに、上述してきた実施形態より、記憶部（例えばＨＤＤ７）に記憶した対話シナリオに従った音声ガイダンスを音声出力部（例えばスピーカ４）から出力する手順Ｓ１と、前記音声ガイダンスが前記音声出力部（例えばスピーカ４）から出力されるときに、当該音声ガイダンスに応じて音声入力部（例えばマイク３）に入力されるべき入力項目（例えば、図１４や図１７に示す項目名）を、前記認識された入力内容と前記対話シナリオとに従って表示部（例えばタッチパネルディスプレイ２）に所定表示形式で表示する手順Ｓ２と、前記音声入力部に入力される音声に基づいて入力内容の認識を行う手順Ｓ３とを有する音声対話処理方法が実現できる。

以上、本発明を、主として会社などに設置される自動受付装置に適用した実施形態を通して説明したが、本発明は上述した実施形態に限定されるものではなく、音声により利用者と対話を行うことにより、利用者が要求する情報やサービスを提供する音声対話装置として広く用いることができる。

本実施形態にかかる音声対話処理方法の概略図である。本実施形態における来訪者受付装置の構成図である。本実施形態における来訪者受付装置に記憶される来訪取扱データベースの一例を示す図である。本実施形態に係る音声対話装置の動作の流れ示す説明図である。音声入力処理の概要を示す説明図である。タッチパネルディスプレイに表示される画面の説明図である。タッチパネルディスプレイに表示される画面の説明図である。タッチパネルディスプレイに表示される画面の説明図である。タッチパネルディスプレイに表示される画面の説明図である。音声入力の入力レベルに応じた表示形式変更処理の手順を示す説明図である。タッチパネルディスプレイに表示される画面の説明図である。タッチパネルディスプレイに表示される画面の説明図である。本実施形態に係る音声対話装置の電気的構成を示すブロック図である。記憶部に記憶されている対話シナリオファイルの一例である第１の来客受付シナリオを表化して示した来客受付シナリオテーブルである。来客受付シナリオに関連付けられて記憶部に記憶されている来訪予約データを表化して示した来訪予約テーブルである。来客受付シナリオに従って進行する音声対話の流れを示す説明図である。第２の来客受付シナリオテーブルの説明図である。タッチパネルディスプレイに表示される画面の説明図である。来客受付シナリオに従って進行する音声対話処理の一例を示すフローチャートである。同音声対話処理のサブルーチンを示すフローチャートである。同音声対話処理のサブルーチンを示すフローチャートである。タッチパネルディスプレイに表示される画面の説明図である。タッチパネルディスプレイに表示される画面の説明図である。タッチパネルディスプレイに表示される画面の説明図である。タッチパネルディスプレイに表示される画面の説明図である。他の実施形態においてタッチパネルディスプレイに表示される画面の説明図である。

符号の説明

１筐体
２タッチパネルディスプレイ
３マイク
４スピーカ
５赤外線センサ
６情報処理装置
７ハードディスク装置
１０受付カウンタ

Claims

音声ガイダンスと、当該音声ガイダンスに応じて音声入力部へ入力させるべき入力項目と、を対応づけた対話シナリオを記憶するシナリオ記憶手段と、
前記対話シナリオに従った音声ガイダンスを音声出力部から出力する音声ガイダンス出力手段と、
前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を前記対話シナリオに従って表示部に所定表示形式で表示する表示処理手段と、
前記音声入力部に入力される音声に基づいて入力内容の認識を行う音声認識手段と、
を備えたことを特徴とする音声対話装置。
前記音声認識手段により認識された複数の入力内容の候補を前記表示部へ表示する候補表示手段と、
前記候補表示手段により表示された複数の入力内容の候補から、いずれか一つの候補を選択する選択手段と、
前記選択手段により選択された候補を入力内容として決定する入力処理手段と、を備えたことを特徴とする請求項１に記載の音声対話装置。
前記表示処理手段は、前記表示部に表示した入力項目が指定されてから所定期間経過したとき、当該入力項目に対する入力例を表示することを特徴とする請求項１又は２に記載の音声対話装置。
前記表示処理手段は、
前記表示部に表示した入力項目が指定されているときに、前記音声入力部への音声の入力が行われると、当該入力項目の表示形式を変更することを特徴とする請求項１〜３のいずれか１項に記載の音声対話装置。
前記表示処理手段は、
前記表示部に表示した入力項目が指定されているときに、音声認識処理が開始されると、当該入力項目の表示形式を変更することを特徴とする請求項１〜３のいずれか１項に記載の音声対話装置。
前記表示処理手段は、前記音声ガイダンス出力手段により音声ガイダンスを出力後、所定期間経過したときに、前記入力項目を前記表示部に表示することを特徴とする請求項１または請求項１〜５のいずれか１項に記載の音声対話装置。
前記表示処理手段は、前記音声ガイダンスに応じて前記音声入力部に入力されるべき必須の入力項目に加え、任意の入力項目を前記表示部に表示するときには、前記必須の入力項目と前記任意の入力項目とで表示形式を変更することを特徴とする請求項１〜６のいずれか１項に記載の音声対話装置。
前記表示処理手段は、前記入力項目に対する入力内容が所定の入力内容であるときに、すでに表示している入力項目に従属する入力項目を前記表示部に表示することを特徴とする請求項１〜７のいずれか１項に記載の音声対話装置。
前記音声認識手段は、複数の音声認識用辞書を有しており、前記表示部に表示される入力項目に応じた音声認識用辞書を選択して前記音声入力部に入力された音声の認識を行うことを特徴とする請求項１〜８のいずれか１項に記載の音声対話装置。
前記表示処理手段は、前記音声ガイダンスに応じて前記音声入力部に入力されるべき入力項目が複数あるとき、これら複数の入力項目をそれぞれ所定表示形式で前記表示部に表示し、
前記音声認識手段は、複数の音声認識用辞書を有しており、前記複数の入力項目のうちすでに認識した入力項目の入力内容に応じた音声認識用辞書を選択し、前記複数の入力項目のうちまだ認識していない入力項目に対して前記音声入力部に入力される音声の認識を、前記選択した音声認識用辞書を用いて行うことを特徴とする請求項１〜９のいずれか１項に記載の音声対話装置。
コンピュータを、請求項１〜１０のいずれか１項に記載の音声対話装置の各手段として機能させることを特徴とするプログラム。
記憶部に記憶した対話シナリオに従った音声ガイダンスを音声出力部から出力するステップと、
前記音声ガイダンスが前記音声出力部から出力されるときに、当該音声ガイダンスに応じて音声入力部に入力されるべき入力項目を、前記対話シナリオに従って表示部に所定表示形式で表示するステップと、
前記音声入力部に入力される音声に基づいて入力内容の認識を行うステップと、
を有する音声対話処理方法。