JPWO2019123775A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents
情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDFInfo
- Publication number
- JPWO2019123775A1 JPWO2019123775A1 JP2019527566A JP2019527566A JPWO2019123775A1 JP WO2019123775 A1 JPWO2019123775 A1 JP WO2019123775A1 JP 2019527566 A JP2019527566 A JP 2019527566A JP 2019527566 A JP2019527566 A JP 2019527566A JP WO2019123775 A1 JPWO2019123775 A1 JP WO2019123775A1
- Authority
- JP
- Japan
- Prior art keywords
- user
- unit
- acknowledgment
- confirmation response
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
この対話システムにおいては、例えばシステムが、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づく応答を生成してスピーカーから出力する処理を行う。あるいは、ユーザが、「テレビを消して」と発話した場合、テレビをオフにする動作を行う。
このような場合、システムは、ユーザに対してユーザ意図を確認するための確認応答を生成して出力することがある。
また、例えばシステムの記憶部に保存してあるデータの登録や削除など、失敗した場合のリスクが高い処理を行う場合には、システムはユーザに対して処理を行ってよいかどうかを再確認するための確認応答を出力することがある。
聞き間違いをしやすいユーザ発話、例えば、
(例1)「get a cup」と、「put a cut」、
(例2)「銀閣寺について教えて」と、「金閣寺について教えて」、
このようなユーザ発話を入力した場合に、ユーザの意図を確認するための応答を出力する構成を開示している。
(例3)「コップを取って」
上記(例3)のユーザ発話は認識できるが、コップが複数ある場合には、どのコップなのかがわからない。このような場合にもユーザの意図を確認するための応答を出力する。
特許文献1には、このような対話型の確認構成が開示されている。
ユーザ:「銀閣寺(発音不明瞭)について教えて」
システム:「銀閣寺でよろしいですか?」
ここで、システムの応答が音声でユーザに伝えられる場合を考えると、システムの応答が何らかの理由で聞き取りにくい場合には、システムが「銀閣寺」と発話したにも関わらず、ユーザは「金閣寺」と聞き間違いをすることがある。また、仮に音声だけではなく何らかの画面表示等も交えた応答出力を行う際でも、ユーザ自身が金閣寺と銀閣寺を勘違い等により逆に理解している場合には、本来は銀閣寺についての情報が欲しい場合でも、金閣寺の情報が欲しいと意志表明をすることになるため、最終的にユーザの意図とは異なる情報しか得られないことになる。
ユーザ発話を入力する音声入力部と、
前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成部と、
前記確認応答生成部の生成した確認応答を出力する音声出力部を有し、
前記確認応答生成部は、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する情報処理装置にある。
ユーザ端末と、データ処理サーバを有する情報処理システムであり、
前記ユーザ端末は、
ユーザ発話を入力する音声入力部と、
前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成部と、
前記確認応答生成部の生成した確認応答を出力する音声出力部を有し、
前記データ処理サーバは、
前記音声入力部の入力音声の認識処理を実行する音声認識部と、
前記音声認識部の認識結果に基づく意図理解処理を実行する意図理解部と、
前記意図理解部の生成した意図理解結果に基づく対話制御処理を実行するとともに、意図理解結果に基づいて前記ユーザ発話に対する確認応答が必要か否か判定し、確認応答が必要と判定した場合、前記ユーザ端末の確認応答生成部に対して確認応答生成命令を出力する対話制御部を有し、
前記ユーザ端末の前記確認応答生成部は、
前記データ処理サーバからの確認応答生成命令入力に応じて、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する情報処理システムにある。
情報処理装置において実行する情報処理方法であり、
音声入力部が、ユーザ発話を入力する音声入力ステップと、
確認応答生成部が、前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成ステップと、
音声出力部が、前記確認応答生成ステップで生成した確認応答を出力する音声出力ステップを実行し、
前記確認応答生成ステップにおいて、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する情報処理方法にある。
ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
前記ユーザ端末が、
ユーザ発話を入力する音声入力処理を実行し、
前記データ処理サーバが、
前記音声入力処理において入力された入力音声の音声認識処理と、
前記音声認識処理の生成した音声認識結果に基づく意図理解処理と、
前記意図理解処理の意図理解結果に基づいて、前記ユーザ発話に対する確認応答が必要か否か判定し、確認応答が必要と判定した場合、前記ユーザ端末に対して確認応答生成命令を出力し、
前記ユーザ端末が、
前記データ処理サーバからの確認応答生成命令入力に応じて、前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成処理を実行し、
前記確認応答生成処理において、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成処理を実行する情報処理方法にある。
情報処理装置において情報処理を実行させるプログラムであり、
音声入力部に、ユーザ発話を入力させる音声入力ステップと、
確認応答生成部に、前記ユーザ発話に対する発話ユーザの確認を求めるための確認応答を生成させる確認応答生成ステップと、
音声出力部に、前記確認応答を出力させる音声出力ステップを実行させ、
前記確認応答生成ステップにおいては、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行させるプログラムにある。
具体的には、例えば、ユーザ発話を入力する音声入力部と、ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成部と、確認応答生成部の生成した確認応答を出力する音声出力部を有し、確認応答生成部は、辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する。例えば、一般知識ベース辞書データや、アプリケーションの実行結果、あるいは、撮影画像やセンサー等から得られる情報を用いた確認応答を生成する。
本構成により、ユーザ発話に対する確認応答を生成する際に、辞書データやアプリケーション実行結果から取得される付加情報を追加することで誤解が生じる可能性を低減した確認応答を生成する構成が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
1.ユーザ発話を認識して応答や処理を行う情報処理装置の一般的な構成例について
2.(実施例1)応答生成部が一般知識ベース辞書データを利用して確認応答を生成する実施例について
3.(実施例2)応答生成部がアプリ(アプリケーション)実行部を利用して確認応答を生成する実施例について
4.(実施例3)応答生成部が情報入力部の情報を利用して確認応答を生成する実施例について
5.(実施例4)音声出力に併せて、画像や制御信号の出力を実行する実施例について
6.(実施例5)対話履歴に基づいて、確認応答を生成する実施例について
7.情報処理装置、および情報処理システムの構成例について
8.情報処理装置のハードウェア構成例について
9.本開示の構成のまとめ
まず、図1を参照して、ユーザ発話を認識して応答や処理を行う情報処理装置の一般的な構成例について説明する。
図1に示すように、情報処理装置100は、音声入力部(マイク)101、音声認識部102、意図理解部103、対話制御部104、アプリ実行部105、応答生成部106、音声出力部(スピーカー)107を有する。
音声認識部102は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
意図理解部103は、テキストに含まれるユーザの意図候補を選択して出力する。
意図理解部103は、例えば、NLU(Natural Language Understanding)等の自然言語認識機能を有し、テキストデータから、ユーザ発話の意図(Intent)の候補を選択する。
意図理解部103の生成した意図理解結果は、対話制御部104に入力される。
ユーザ発話が、「東京の天気を問い合わせる発話である」との意図理解結果が得られた場合、天気情報を取得可能なアプリケーションを起動させて、東京(引数)をアプリケーションに渡して、応答に必要な情報(東京の天気)を取得させるといった処理である。
応答生成部106は、TTS(Text to Speech)機能に基づいて、応答データを構成するテキストデータを音声データに変換する。
応答生成部106の生成した音声データは、音声出力部(スピーカー)107を介してユーザに向けて出力される。
このような場合には、対話制御部104は、応答生成部106に対して、ユーザ発話に対する発話ユーザの確認を求める確認応答の生成命令、すなわち「確認応答生成命令」を出力して、応答生成部106が、ユーザに再度、確認のための発話を要求する。
なお、音声認識部102におけるテキスト変換データや、意図理解部103における意図理解結果データには、信頼度を示す属性情報が付加され、対話制御部104に入力され、対話制御部104は、この属性情報に基づいて信頼度を判定することができる。
例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「8日(よーか)に買い物の予定を入れてくれる?」
このようなユーザ発話があると、
情報処理装置100は、「よーか」が、本当に「8日(よーか)」を意図しているのか、あるいはユーザが「4日(よっか)」を意図して発話してしまったかを判別できない。
このため、情報処理装置100は、ユーザに対して確認を求める以下の確認応答を出力する。
装置の確認応答:「8日(よーか)ですね?」
上記の確認応答では、ユーザの発話情報(「8日(よーか)」)をそのまま応答に用いている。このような応答を行う場合、以下に挙げるような問題が発生する可能性がある。
(a)装置が応答を、スピーカーを介して音声出力した場合、ユーザが「8日」を「4日」と聞き間違える可能性がある。
(b)ユーザの真の意図は8日ではないが、何らかの勘違い(例えば予定を入れたいのは水曜日だが、本来水曜日は7日なのに8日であると思い違いしている等)により8日と発話してしまった場合、その勘違いに気付くことができない
この手法は、ユーザがさらに聞き間違いをする可能性や、ユーザ自身が勘違いをしている場合にそれをただすことができず、本来ユーザが欲しい情報とは異なる情報を提供してしまう、といった問題が発生する。
すなわち、ユーザ発話の認識結果があいまいな場合、あるいは複数の候補がある場合において、システムがユーザに対して曖昧性解消のための確認応答を提示する際に、情報を付加することにより確認精度を上げることを可能としたものである。
具体的には、例えば、辞書データまたはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する。
以下、本開示の情報処理装置の構成と処理の具体例について説明する。
まず、実施例1として、応答生成部が一般知識ベース辞書データを利用して確認応答を生成する実施例について説明する。
図2に示すように、情報処理装置220は、音声入力部(マイク)101、音声認識部102、意図理解部103、対話制御部104、アプリ実行部105、応答生成部106、音声出力部(スピーカー)107を有し、さらに、応答生成部106が応答生成に利用する一般知識ベース辞書データ221を有する。
音声認識部102は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
意図理解部103は、テキストに含まれるユーザの意図候補を選択して出力する。
意図理解部103は、例えば、NLU(Natural Language Understanding)等の自然言語認識機能を有し、テキストデータから、ユーザ発話の意図(Intent)の候補を選択する。
意図理解部103の生成した意図理解結果は、対話制御部104に入力される。
応答生成部106は、TTS(Text to Speech)機能に基づいて、応答データを構成するテキストデータを音声データに変換する。
応答生成部106の生成した音声データは、音声出力部(スピーカー)107を介してユーザに向けて出力される。
すなわち、ユーザ発話に基づく音声認識部102におけるテキスト変換、および意図理解部103における意図理解が問題なく行われた場合の処理であり、ユーザの意図に応じた正しい応答が出力された例である。
本実施例1では、この応答生成部106の実行する確認応答生成処理が、先に図1を参照して説明した処理とは異なる。
ユーザ発話:「8日(よーか)に買い物の予定を入れてくれる?」
このようなユーザ発話に対して、ユーザの意図が、「8日(よーか)」であるか、「4日(よっか)」であるかを確認するため、装置の確認応答として、
「8日(よーか)ですね?」
このようなおうむ返しの確認応答を行っていた。
(a)装置が応答を、スピーカーを介して音声出力した場合、ユーザが「8日」を「4日」と聞き間違える可能性がある。
(b)ユーザの真の意図は8日ではないが、何らかの勘違い(例えば予定を入れたいのは水曜日だが、本来水曜日は7日なのに8日であると思い違いしている等)により8日と発話してしまった場合、その勘違いに気付くことができない
このような問題が発生する。
なお、一般知識ベース辞書データ221は、様々な事実や、常識、習慣、経験等の一般的な知識をコンピュータ可読形式のデータとしてデータベース化したデータである。ナレッジベース辞書データとも呼ばれる。
すなわち、応答生成部106が、確認応答を実行すべきか否かを自ら判断して、確認応答を実行すべきと判断した場合には、確認応答を生成して音声出力部(スピーカ)107を介して出力する。
まず、図3に示す3つの確認応答生成例101〜103について説明する。
図3(101)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「8日(よーか)に買い物の予定を入れてくれる?」
このようなユーザ発話があると、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力される。入力データには、音声認識部102におけるテキスト変換データや、意図理解部103における意図理解結果データには、信頼度を示す属性情報が付加されている。
あるいは、ユーザの発話がスケジュール設定等の重要処理である場合にも、応答生成部106に対して確認応答の生成、出力を要求する。
情報処理装置220の意図理解部103が、上記のユーザ発話に対する意図理解処理において、「よーか」が、本当に「8日(よーか)」を意図しているのか、あるいはユーザが「4日(よっか)」を意図して発話してしまったかを判別できず、ユーザの意図が曖昧である(信頼度が低い)という意図理解結果を対話制御部104に出力する。
装置の確認応答:「8日(はちにち)に買い物の予定を登録しますね?」
この知識は、応答生成部106が、一般知識ベース辞書データ221のデータを利用して取得する。
応答生成部106は、一般知識ベース辞書データ221のデータを利用して得られる知識により、以下の確認応答、すなわち、
「8日(はちにち)に買い物の予定を登録しますね?」
このような確認応答を生成して出力する。
ユーザは、「8日」の2つの読み方(よーか、はちにち)の確認を求める確認応答を聞き、情報処理装置220が伝えたいのは4日ではなく8日であると確信することができ、聞き間違いを防ぐことができる。
図2に示す情報処理装置220の応答生成部106が生成する確認応答の第2の具体例について説明する。
図3(102)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「8日に買い物の予定を入れてくれる?」
このようなユーザ発話があると、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力される。
さらに、対話制御部104は、ユーザ発話がスケジュール設定を要求する重要な処理であるとの判断から、日にちの再確認が必要であるとの判断を行い、この判断に基づいて、応答生成部106に確認応答生成命令を出力する。
装置の確認応答:「来週水曜日の8日ですね?」
情報処理装置220の応答生成部106は、一般知識ベース辞書データ221のデータを利用して、8日は来週水曜日であるという知識を取得して、取得した知識に基づく情報(8日は来週水曜日である)を付加した確認応答を生成する。
これにより、ユーザは、情報処理装置220が、4日ではなく8日と認識していることを確信することができる。
また、例えば、ユーザ自身の真の意図が9日の木曜日に買い物の予定を登録したいと思っていた場合に、ユーザ自身の勘違いにより8日と発話してしまった場合であっても、上記の確認応答を装置から聞くことで、ユーザは8日を木曜日だと勘違いしていたことを気づくことになる。
すなわち、8日が正しくは水曜日であることに気付かせることができる。その結果として、ユーザが、本来、予定を登録したかった木曜日は9日であると認識でき、「9日に予定を入れておいて」のように、真の意図に基づく発話をさせることが可能となる。
図2に示す情報処理装置220の応答生成部106の生成する確認応答の第3の具体例について説明する。
図3(103)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「3日後に買い物の予定を入れていて。」
このようなユーザ発話があると、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力される。
装置の確認応答:「11日木曜日ですね?」
情報処理装置220の応答生成部106は、一般知識ベース辞書データ221のデータを利用して、「3日後」は「11日」であり、さらに「木曜日」であるという知識を取得する。
「11日木曜日ですね?」
この確認応答を生成して、音声出力部(スピーカー)107を介してユーザに対して出力する。
これにより、ユーザは、自分自身が発話した「3日後」に加え、「11日」「木曜日」という情報を取得する。
この付加的な情報によって、予定を登録する日時に対する確信度を上げることができる。
「11日木曜日ですね?」
この確認応答によって、「木曜日」という情報がユーザに提供される。
この結果、ユーザは、「3日後は金曜日だと思っていたけど木曜日だったのか。じゃあ、4日後の12日にしよう」と考えなおして、新たな発話、
「4日後に予定を入れておいて」
という訂正発話を行うことが可能となる。
以下、日付の確認と異なる確認応答の生成例について説明する。
図4に示す2つの確認応答生成例104〜105について説明する。
図2に示す情報処理装置220の応答生成部106の生成する確認応答の第4の具体例について説明する。
図4(104)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「金閣寺への行き方を教えて」
このようなユーザ発話があると、
まず、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力される。
情報処理装置220の応答生成部106は、対話制御部104からの確認応答生成命令の入力に応じて確認応答を生成する。
装置の確認応答:「足利義満が作った金閣寺ですか?」
例えば情報処理装置が表示部を有する場合には、表示部に音声出力した文字を表示することにより、ユーザの聞き違いを防ぐこともできるが、ユーザが表示部を見るとは限らない。
従って、音声だけでも誤解が生じにくい応答にすることが望ましい。
装置の確認応答:「足利義満が作った金閣寺ですか?」
この確認応答のように、「足利義満が作った」という情報を追加することにより、ユーザにとっての確信度を上げることが可能となる。
例えば、以下のような様々な確認応答を生成することが可能である。
「黄金色の金閣寺ですか?」
「三島由紀夫の小説になった金閣寺ですか?」
「正式名称は鹿苑寺と呼ばれる金閣寺ですか?」
例えば、これらの金閣寺に関する付加的な情報を、一般知識ベース辞書データ221から取得して、付加的情報を追加した確認応答を生成して出力することが可能である。
図2に示す情報処理装置220の応答生成部106の生成する確認応答の第5の具体例について説明する。
図4(105)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「1チャンネル(いっちゃんねる)を5時から録画して」
このようなユーザ発話があると、
まず、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力される。
情報処理装置220の応答生成部106は、対話制御部104からの確認応答生成命令の入力に応じて確認応答を生成する。
装置の確認応答:「XYZテレビでよろしいですか?」
応答生成部106は、一般知識ベース辞書データ221のデータを利用して、1チャンネルが「XYZテレビ」のチャンネルであるという知識を取得し、聞き間違いを起こしやすい数字+チャネルを提示するのではなく、放送局名を含む確認応答を生成する。
この処理により、ユーザは確認応答の意図を正しく理解することができるようになる。
次に、実施例2として、応答生成部がアプリ(アプリケーション)実行部を利用して確認応答を生成する実施例について説明する。
図5に示すように、情報処理装置240は、音声入力部(マイク)101、音声認識部102、意図理解部103、対話制御部104、アプリ実行部105、応答生成部106、音声出力部(スピーカー)107を有し、さらに、応答生成部106が応答生成に利用するアプリ実行部241を有する。
なお、アプリ実行部241は、例えば、情報処理装置240内のアプリケーションに限らず、ネットワークによって接続された様々な装置において実行されるアプリケーションを利用することを可能な構成である。
例えば、音楽再生アプリ、天気情報取得アプリ、レストラン予約アプリ等、様々なアプリを利用することができる。
まず、図6に示す2つの確認応答生成例201〜202について説明する。
図6(201)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「10日に買い物の予定を入れてくれる?」
このようなユーザ発話があると、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力される。
あるいは、ユーザの発話がスケジュール設定等の重要処理である場合にも、応答生成部106に対して確認応答の生成、出力を要求する。
装置の確認応答:「10日ですね。ライブに行く日ですね。」
上記の例は、ユーザ発話に含まれる買い物の日付について、再確認を行う確認応答である。
応答生成部106は、アプリ実行部241を利用して、ユーザのスケジュールが登録されているスケジューラアプリを起動して、ユーザ発話に含まれていた日付(10日)の予定を検索する。
その結果、ユーザの10日の予定として、「ライブに行く予定」が設定されていたことを確認する。
装置の確認応答:「10日ですね。ライブに行く日ですね。」
ライブに行くのは9日だと思っていたけど、10日だったのか。じゃあ買い物は11日にしようと考え、
その結果、新たなユーザ発話、
「いや、11日にして」
を行い、予定をスムーズに修正することが可能となる。
図5に示す情報処理装置240の応答生成部106の生成する確認応答の第2の具体例について説明する。
図6(202)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「銀閣寺への行き方を教えて」
このようなユーザ発話があると、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力される。
あるいは、ユーザの発話がスケジュール設定等の重要処理である場合にも、応答生成部106に対して確認応答の生成、出力を要求する。
装置の確認応答:「昨年8月に行った金閣寺ですね?」
装置の確認応答:「昨年8月に行った金閣寺ですね?」
「いや、金閣寺ではなくて銀閣寺」
を行い、正確なコミュニケーションを行うことが可能となる。
図5に示す情報処理装置240の応答生成部106の生成する確認応答の第3の具体例について説明する。
図7(203)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「佐藤さん家族とバーベキューって入れて」
このようなユーザ発話があると、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力される。
あるいは、ユーザの発話がスケジュール設定等の重要処理である場合にも、応答生成部106に対して確認応答の生成、出力を要求する。
装置の確認応答:「お向かいの佐藤さんでよろしいですか?」
装置の確認応答:「お向かいの佐藤さんでよろしいですか?」
「そうだよ」
のように回答することができる。
以下、このような確認応答生成例について説明する。
図5に示す情報処理装置240の応答生成部106の生成する確認応答の第4の具体例について説明する。
図7(204)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「佐藤さん家族とバーベキューって入れて」
このようなユーザ発話があると、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力される。
あるいは、ユーザの発話がスケジュール設定等の重要処理である場合にも、応答生成部106に対して確認応答の生成、出力を要求する。
なお、対話制御部104から応答生成部106に対して、確認応答生成命令ではない、通常の応答生成命令が入力された場合であっても、応答生成部106が、確認応答を実行すべきか否かを自ら判断して、確認応答を実行すべきと判断した場合には、確認応答を生成して音声出力部(スピーカ)107を介して出力する。
装置の確認応答:「ご近所の佐藤さんでよろしいですか?」
装置の確認応答:「ご近所の佐藤さんでよろしいですか?」
「いや、同僚の佐藤さん」
上記のように回答することができる。
「佐藤太郎さんでよろしいですか?」
このような応答を生成してもよいい。
次に、実施例3として、応答生成部が、例えば画像入力部等、音声以外の情報入力部の情報を利用して確認応答を生成する実施例について説明する。
図5に示すように、情報処理装置260は、音声入力部(マイク)101、音声認識部102、意図理解部103、対話制御部104、アプリ実行部105、応答生成部106、音声出力部(スピーカー)107を有し、さらに、画像入力部(カメラ)261、画像認識部262、オブジェクト(画像)データベース263、オブジェクト関連知識ベース辞書データ264を有する。
画像入力部(カメラ)261の撮影画像は、画像認識部262に入力され、画像認識部262は、予め様々なオブジェクト画像が登録されたデータベースであるオブジェクト(画像)データベース263の登録情報と対比して、撮影画像に含まれる様々なオブジェクト(人や物品)を識別する。
図9に示す確認応答生成例301について説明する。
図9(301)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「スピーカーから音楽を再生して」
このようなユーザ発話があると、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力される。
あるいは、ユーザの発話がスケジュール設定等の重要処理である場合にも、応答生成部106に対して確認応答の生成、出力を要求する。
このような場合、応答生成部106自身で確認応答を実行すべきと判断し、確認応答を生成して音声出力部(スピーカ)107を介して出力する。
具体的には、ユーザに対して確認を求める以下の確認応答を生成して出力する。
装置の確認応答:「あなたの近くにあるスピーカーでよろしいですか?」
ユーザからは「スピーカー」とのみ指定されているため、どのスピーカーなのかについて確認をしている。
装置の確認応答:「あなたの近くにあるスピーカーでよろしいですか?」
「うん、そうだよ」
のように回答することができる。
図10に示す情報処理装置280は、
図8を参照して説明した構成と類似する構成であるが、以下の点が異なる。
図8の画像認識部262を、図10のユーザ識別部282に変更、
図8のオブジェクト(画像)データベース263を、図10のユーザ画像データベース283に変更、
図8のオブジェクト関連知識ベース辞書データ264を、図10のユーザ情報関連知識ベース辞書データ284に変更、
これらの点が異なる。
図11に示す確認応答生成例302について説明する。
ここでは、ユーザ発話の前段階で、ユーザと情報処理装置280による対話が行われ、今晩の食事場所を決定する処理が行われたとする。その後、図11(302)に示すように、以下の「ユーザの発話」がなされたとする。
ユーザ発話:「じゃあユウキにメールしておいて」
このようなユーザ発話があると、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力され、対話制御部104は、応答生成部106に対して応答生成、出力を要求する。
装置の確認応答:「ユウキくんに送りますね?ユウキさんは今ここにはいないですよね?」
「お願いね」
のように回答することができる。
具体例を図12に示す。
確認応答例303は、応答生成部106が、ユーザ識別部282のユーザ識別情報や、ユーザ情報関連知識ベース辞書データ284の情報を利用して、発話ユーザの年齢が低いと判断した場合の例である。
図12(303)に示すように、以下の「ユーザの発話」がなされたとする。
ユーザ発話:「金閣寺への行き方を教えて」
この場合、応答生成部106は、以下の確認応答を生成して出力する。
装置の確認応答:「黄金色でピカピカしている金閣寺ですか?」
ユーザの年齢が低い場合、金閣寺や銀閣寺についての詳細な知識を持っていない可能性が高い。よって、例えば「足利義満が作った」というような知識を応答文に付加しても、ユーザがそれに対する知識を持ち合わせていなければ、かえって混乱の元になってしまう。そこで、そのようなユーザに向けては誰にでもわかりやすいような知識を付加することにより、曖昧性をより確実に解消することができる。
確認応答例304は、応答生成部106が、ユーザ識別部282のユーザ識別情報や、ユーザ情報関連知識ベース辞書データ284の情報を利用して、発話ユーザの年齢が高いと判断した場合の例である。
図12(304)に示すように、以下の「ユーザの発話」がなされたとする。
ユーザ発話:「10日に外出の予定を登録」
この場合、応答生成部106は、以下の確認応答を生成して出力する。
装置の確認応答:「10日の旗日でよろしいですか?」
確認応答例305は、応答生成部106が、ユーザ識別部282のユーザ識別情報や、ユーザ情報関連知識ベース辞書データ284の情報を利用して、発話ユーザがある中学校の学生であると判断した場合の例である。
図12(305)に示すように、以下の「ユーザの発話」がなされたとする。
ユーザ発話:「学校に電話かけて」
応答生成部106は、ユーザ識別部282のユーザ識別情報や、ユーザ情報関連知識ベース辞書データ284の情報を利用して、発話したユーザを特定し、かつ、そのユーザが、品川中学の学生である知識を取得する。この取得知識に基づいて、応答生成部106は、以下の確認応答を生成して出力する。
装置の確認応答:「品川中学校でよろしいですね」
具体例を図13に示す。
図13に示す確認応答例306は、発話ユーザ(家族中の属性:父親)が一人で対話している場合の応答例であり、
確認応答例307は、発話ユーザ(家族中の属性:父親)が家族とともに対話している場合の応答例である。
ユーザ発話:「おばあさんの家までの道路状況を教えて」
この場合、応答生成部106は、以下の確認応答を生成して出力する。
装置の確認応答:「△△さん(ユーザの祖母)の家ですね?」
この場合、応答生成部106は、以下の確認応答を生成して出力する。
装置の確認応答:「○○さん(ユーザの母親、ユーザの子供たちから見た祖母)の家ですね?」
図14に示す情報処理装置290は、
図8を参照して説明した構成と類似する構成であるが、以下の点が異なる。
図8の画像入力部(カメラ)261を、図14のセンサー291に変更、
図8の画像認識部262を、図14のセンサー検出信号解析部292に変更、
図8のオブジェクト(画像)データベース263を、図14では省略、
図8のオブジェクト関連知識ベース辞書データ264を、図14のセンサー検出情報関連知識ベース辞書データ293に変更、
これらの点が異なる。
センサー291は、例えば、発話ユーザの部屋の温度や湿度、照度等を検出するセンサー、あるいは発話ユーザの周辺にある様々な機器の動作状況を検出するセンサー、例えばテレビやエアコンの動作状況、さらに、ユーザの体温、心拍数、脈拍等の検出センサーである。
応答生成部106は、センサー検出信号解析部292が解析したセンサー検出情報を入力するとともに、センサー検出情報関連知識ベース辞書データ293を利用して確認応答を生成する。
図15に示す確認応答生成例308について説明する。
以下に説明する例は、センサー291として、発話ユーザの部屋の温度を計測する温度センサーを利用した場合の例である。
センサー検出信号解析部292は、発話ーザの部屋の温度が10℃(寒い)であることを検出して、応答生成部106にこの温度情報(10℃)を入力する。
その後、図15(308)に示すように、以下の「ユーザの発話」がなされたとする。
ユーザ発話:「飲み物をください」
このようなユーザ発話があると、音声認識部102におけるテキスト変換、および意図理解部103における意図理解が行われ、意図理解結果が対話制御部104に入力され、対話制御部104は、応答生成部106に対して応答生成、出力を要求する。
装置の確認応答:「ホットコーヒーでよろしいですか?それともお茶がよろしいでしょうか?」
次に、実施例4として、音声出力に併せて、画像や制御信号の出力を実行する実施例について説明する。
ユーザが応答の内容を容易に理解できるように、音声以外の情報を用いた構成である。
図16に示す情報処理装置310は、先に実施例1として説明した図2に示す情報処理装置220の構成に、画像出力部(モニタ)311を追加した構成である。
この情報処理装置310は、応答生成部106は、音声出力部(スピーカー)107を介して、確認応答の音声を出力するとともに、画像出力部(モニタ)311を介して、確認応答の音声に応じて説明画像を出力する。
図17に示す確認応答生成例401について説明する。
図17に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「あしたという曲をかけて」
すなわち、情報処理装置310は、ユーザがどの歌手の「あした」をかけてほしいかを確認する必要がある。
応答生成部106は、一般知識ベース辞書データ221のデータに基づいて、
「あした」という曲が、複数の歌手によって歌われていることを確認し、その歌手名や、CDジャケット画像等を取得する。
装置の確認応答:「どちらの『あした』を再生しましょうか?」
ここで、応答を伝えるモーダルとして画像が使える場合には、曲のタイトルやアーティスト名、ジャケット写真等を同時に表示することにより、ユーザは容易にその内容を理解することが可能となる。ただし、この場合はユーザがその画面を見ていることが前提となるため、別途センサーを用いた認識などにより、ユーザが画面を見ているか、あるいは画面を見ることができる位置にいるかどうかを判定した上で、画面を用いるか音声のみを用いるかを決定する構成とすることが好ましい。
図18を参照して本実施例の情報処理装置320の構成例について説明する。
図18に示す情報処理装置320は、先に実施例3として説明した図8に示す情報処理装置260の構成をベースとしており、応答生成部106が音声出力部(スピーカー)107を介した音声出力を実行するのみならず、外部機器321に対する制御信号を出力する構成としたものである。
図19に示す確認応答生成例402について説明する。
図19(402)に示すように、例えば以下のような、「ユーザの発話」がなされたとする。
ユーザ発話:「スピーカーから音楽を再生して」
すなわち、情報処理装置320は、ユーザ周囲のどのスピーカーを利用して音楽再生を行うかを確認する必要がある。
応答生成部106は、画像認識部262から入力する複数のスピーカーの位置情報と、オブジェクト関連知識ベース辞書データから、各スピーカーに対する制御信号の出力態様情報を取得する。
装置の確認応答:「こちらのスピーカーでよろしいですか?」
「うん、そうだよ」
のように回答することができる。
また、応答生成部106は、さらに例えばセンサーによる認識・識別結果を入力して、応答や制御信号の出力態様をセンサーによる認識・識別結果に応じて変更する構成としてもよい。
次に、対話履歴に基づいて、確認応答を生成する実施例について説明する。
次に説明する実施例は、上述した実施例1〜4のいずれにおいても利用可能な実施例であり、対話履歴に基づいて、確認応答を生成する実施例である。
図20には、最終的な装置の確認応答の前に、ユーザと装置間で以下の対話が行われた例を示している。
ユーザ発話:「横浜で遊べるところを教えて」
装置応答:「横浜みなとみらいに横浜コスモワールドという遊園地がありますよ」
ユーザ発話:「横浜みなとみらいのレストランを探して」
装置応答:「例えば、ランドマークタワーの中にいくつかレストランがありますよ。詳細をお知らせしましょうか?」
ユーザ発話:「港南区の地図を見せて」
しかし、応答生成部106は、この発話以前に、横浜に関する対話を続けていたことにより、その履歴から横浜市港南区である可能性が高いと判断する。
そこで、応答生成部106は、『横浜の』を付与した確認応答、すなわち、以下の確認応答を生成して出力する。
装置確認応答:「横浜の港南区でよろしいですか?」
複数の実施例について説明したが、これらの実施例において説明した例えば、図2他に示す情報処理装置の各処理機能は、すべて一つの装置、例えばユーザの所有するスマホやPC等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。
図21(1)情報処理システム構成例1は、図2他に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやPC、あるいは音声の入出力と画像の入出力機能を持つエージェント機器等のユーザ端末である情報処理装置410内に構成した例である。
ユーザ端末に相当する情報処理装置410は、例えば応答文生成時に外部アプリを利用する場合にのみ、アプリ実行サーバ420と通信を実行する。
例えば、図2に示す装置中の音声入力部101、音声出力部102のみ、あるいはこれらに画像入出力部や応答生成部106を含む機能のみをユーザ端末側の情報処理装置410側に設け、その他の機能をすべてサーバ側で実行するといった構成等が可能である。
次に、図22を参照して、情報処理装置のハードウェア構成例について説明する。
図22を参照して説明するハードウェアは、先に図2他を参照して説明した情報処理装置のハードウェア構成例であり、また、図21を参照して説明したデータ処理サーバ460を構成する情報処理装置のハードウェア構成の一例である。
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
(1) ユーザ発話を入力する音声入力部と、
前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成部と、
前記確認応答生成部の生成した確認応答を出力する音声出力部を有し、
前記確認応答生成部は、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する情報処理装置。
一般知識ベース辞書データから取得した一般知識によって構成される付加情報を用いた確認応答の生成を実行する(1)に記載の情報処理装置。
アプリケーション実行部において実行されるアプリケーションから得られる情報を用いた確認応答の生成を実行する(1)〜(4)いずれかに記載の情報処理装置。
前記確認応答生成部は、
前記スケジュール登録アプリケーションから得られる発話ユーザのスケジュール情報を用いた確認応答の生成を実行する(5)に記載の情報処理装置。
前記確認応答生成部は、
前記知人登録アプリケーションから得られる発話ユーザの知人情報を用いた確認応答の生成を実行する(5)に記載の情報処理装置。
前記発話ユーザの周辺画像を撮影する画像入力部、または前記発話ユーザの周辺情報を入力するセンサーを有し、
前記確認応答生成部は、
前記画像入力部からの入力画像、またはセンサー検出情報を解析し、解析結果から得られる情報を用いた確認応答を生成する(1)〜(7)いずれかに記載の情報処理装置。
前記画像入力部からの入力画像に含まれる人または物を識別して、識別結果を用いた確認応答を生成する(8)に記載の情報処理装置。
前記画像入力部からの入力画像に含まれる人の属性を識別して、識別属性に応じた確認応答の生成を実行する(8)または(9)に記載の情報処理装置。
前記画像入力部からの入力画像に含まれる人の年齢を識別して、識別年令に応じた確認応答の生成を実行する(8)〜(10)いずれかに記載の情報処理装置。
前記画像入力部からの入力画像に含まれる人の構成を識別して、識別した人の構成に応じた確認応答の生成を実行する(8)〜(11)いずれかに記載の情報処理装置。
確認応答の音声出力に併せて、確認応答のための画像を生成して画像出力部に出力する(1)〜(12)いずれかに記載の情報処理装置。
確認応答の音声出力に併せて、確認応答のための機器制御信号を生成して、制御対象となる外部機器に出力する(1)〜(13)いずれかに記載の情報処理装置。
対話履歴情報に基づく確認応答生成処理を実行する(1)〜(14)いずれかに記載の情報処理装置。
前記音声入力部の入力音声の認識処理を実行する音声認識部と、
前記音声認識部の認識結果に基づく意図理解処理を実行する意図理解部と、
前記意図理解部の生成した意図理解結果に基づく対話制御処理を実行する対話制御部を有し、
前記対話制御部は、
前記意図理解部の生成した意図理解結果に基づいて、前記ユーザ発話に対する発話ユーザの確認を求める確認応答を行うか否かを判定し、
前記確認応答生成部は、
前記対話制御部において確認応答を行うとの判定がなされた場合に、確認応答の生成処理を実行する(1)〜(15)いずれかに記載の情報処理装置。
前記ユーザ端末は、
ユーザ発話を入力する音声入力部と、
前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成部と、
前記確認応答生成部の生成した確認応答を出力する音声出力部を有し、
前記データ処理サーバは、
前記音声入力部の入力音声の認識処理を実行する音声認識部と、
前記音声認識部の認識結果に基づく意図理解処理を実行する意図理解部と、
前記意図理解部の生成した意図理解結果に基づく対話制御処理を実行するとともに、意図理解結果に基づいて前記ユーザ発話に対する確認応答が必要か否か判定し、確認応答が必要と判定した場合、前記ユーザ端末の確認応答生成部に対して確認応答生成命令を出力する対話制御部を有し、
前記ユーザ端末の前記確認応答生成部は、
前記データ処理サーバからの確認応答生成命令入力に応じて、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する情報処理システム。
音声入力部が、ユーザ発話を入力する音声入力ステップと、
確認応答生成部が、前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成ステップと、
音声出力部が、前記確認応答生成ステップで生成した確認応答を出力する音声出力ステップを実行し、
前記確認応答生成ステップにおいて、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する情報処理方法。
前記ユーザ端末が、
ユーザ発話を入力する音声入力処理を実行し、
前記データ処理サーバが、
前記音声入力処理において入力された入力音声の音声認識処理と、
前記音声認識処理の生成した音声認識結果に基づく意図理解処理と、
前記意図理解処理の意図理解結果に基づいて、前記ユーザ発話に対する確認応答が必要か否か判定し、確認応答が必要と判定した場合、前記ユーザ端末に対して確認応答生成命令を出力し、
前記ユーザ端末が、
前記データ処理サーバからの確認応答生成命令入力に応じて、前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成処理を実行し、
前記確認応答生成処理において、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成処理を実行する情報処理方法。
音声入力部に、ユーザ発話を入力させる音声入力ステップと、
確認応答生成部に、前記ユーザ発話に対する発話ユーザの確認を求めるための確認応答を生成させる確認応答生成ステップと、
音声出力部に、前記確認応答を出力させる音声出力ステップを実行させ、
前記確認応答生成ステップにおいては、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行させるプログラム。
具体的には、例えば、ユーザ発話を入力する音声入力部と、ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成部と、確認応答生成部の生成した確認応答を出力する音声出力部を有し、確認応答生成部は、辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する。例えば、一般知識ベース辞書データや、アプリケーションの実行結果、あるいは、撮影画像やセンサー等から得られる情報を用いた確認応答を生成する。
本構成により、ユーザ発話に対する確認応答を生成する際に、辞書データやアプリケーション実行結果から取得される付加情報を追加することで誤解が生じる可能性を低減した確認応答を生成する構成が実現される。
101 音声入力部(マイク)
102 音声認識部
103 意図理解部
104 対話制御部
105 アプリ実行部
106 応答生成部
107 音声出力部(スピーカ)
220,240,260,280,290,310,320 情報処理装置
221 一般知識ベース辞書データ
241 アプリ実行部
261 画像入力部(カメラ)
262 画像認識部
263 オブジェクト(画像)データベース
264 オブジェクト関連知識ベース辞書データ
281 画像入力部(カメラ)
282 ユーザ識別部
283 ユーザ画像データベース
284 ユーザ情報関連知識ベース辞書データ
291 センサー
292 センサー検出信号解析部
293 センサー検出情報関連知識ベース辞書データ
311 画像出力部(モニタ)
321 外部機器
410 情報処理装置
420 アプリ実行サーサーバ
460 データ処理サーバ
501 CPU
502 ROM
503 RAM
504 バス
505 入出力インタフェース
506 入力部
507 出力部
508 記憶部
509 通信部
510 ドライブ
511 リムーバブルメディア
Claims (20)
- ユーザ発話を入力する音声入力部と、
前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成部と、
前記確認応答生成部の生成した確認応答を出力する音声出力部を有し、
前記確認応答生成部は、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する情報処理装置。 - 前記確認応答生成部は、
一般知識ベース辞書データから取得した一般知識によって構成される付加情報を用いた確認応答の生成を実行する請求項1に記載の情報処理装置。 - 前記一般知識は日付の読み方情報、またはカレンダー情報の少なくともいずれかである請求項2に記載の情報処理装置。
- 前記一般知識は歴史情報、または組織情報の少なくともいずれかである請求項2に記載の情報処理装置。
- 前記確認応答生成部は、
アプリケーション実行部において実行されるアプリケーションから得られる情報を用いた確認応答の生成を実行する請求項1に記載の情報処理装置。 - 前記アプリケーション実行部において実行されるアプリケーションはスケジュール登録アプリケーションであり、
前記確認応答生成部は、
前記スケジュール登録アプリケーションから得られる発話ユーザのスケジュール情報を用いた確認応答の生成を実行する請求項5に記載の情報処理装置。 - 前記アプリケーション実行部において実行されるアプリケーションは知人登録アプリケーションであり、
前記確認応答生成部は、
前記知人登録アプリケーションから得られる発話ユーザの知人情報を用いた確認応答の生成を実行する請求項5に記載の情報処理装置。 - 前記情報処理装置は、さらに、
前記発話ユーザの周辺画像を撮影する画像入力部、または前記発話ユーザの周辺情報を入力するセンサーを有し、
前記確認応答生成部は、
前記画像入力部からの入力画像、またはセンサー検出情報を解析し、解析結果から得られる情報を用いた確認応答を生成する請求項1に記載の情報処理装置。 - 前記確認応答生成部は、
前記画像入力部からの入力画像に含まれる人または物を識別して、識別結果を用いた確認応答を生成する請求項8に記載の情報処理装置。 - 前記確認応答生成部は、
前記画像入力部からの入力画像に含まれる人の属性を識別して、識別属性に応じた確認応答の生成を実行する請求項8に記載の情報処理装置。 - 前記確認応答生成部は、
前記画像入力部からの入力画像に含まれる人の年齢を識別して、識別年令に応じた確認応答の生成を実行する請求項8に記載の情報処理装置。 - 前記確認応答生成部は、
前記画像入力部からの入力画像に含まれる人の構成を識別して、識別した人の構成に応じた確認応答の生成を実行する請求項8に記載の情報処理装置。 - 前記確認応答生成部は、
確認応答の音声出力に併せて、確認応答のための画像を生成して画像出力部に出力する請求項1に記載の情報処理装置。 - 前記確認応答生成部は、
確認応答の音声出力に併せて、確認応答のための機器制御信号を生成して、制御対象となる外部機器に出力する請求項1に記載の情報処理装置。 - 前記確認応答生成部は、
対話履歴情報に基づく確認応答生成処理を実行する請求項1に記載の情報処理装置。 - 前記情報処理装置は、
前記音声入力部の入力音声の認識処理を実行する音声認識部と、
前記音声認識部の認識結果に基づく意図理解処理を実行する意図理解部と、
前記意図理解部の生成した意図理解結果に基づく対話制御処理を実行する対話制御部を有し、
前記対話制御部は、
前記意図理解部の生成した意図理解結果に基づいて、前記ユーザ発話に対する発話ユーザの確認を求める確認応答を行うか否かを判定し、
前記確認応答生成部は、
前記対話制御部において確認応答を行うとの判定がなされた場合に、確認応答の生成処理を実行する請求項1に記載の情報処理装置。 - ユーザ端末と、データ処理サーバを有する情報処理システムであり、
前記ユーザ端末は、
ユーザ発話を入力する音声入力部と、
前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成部と、
前記確認応答生成部の生成した確認応答を出力する音声出力部を有し、
前記データ処理サーバは、
前記音声入力部の入力音声の認識処理を実行する音声認識部と、
前記音声認識部の認識結果に基づく意図理解処理を実行する意図理解部と、
前記意図理解部の生成した意図理解結果に基づく対話制御処理を実行するとともに、意図理解結果に基づいて前記ユーザ発話に対する確認応答が必要か否か判定し、確認応答が必要と判定した場合、前記ユーザ端末の確認応答生成部に対して確認応答生成命令を出力する対話制御部を有し、
前記ユーザ端末の前記確認応答生成部は、
前記データ処理サーバからの確認応答生成命令入力に応じて、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する情報処理システム。 - 情報処理装置において実行する情報処理方法であり、
音声入力部が、ユーザ発話を入力する音声入力ステップと、
確認応答生成部が、前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成ステップと、
音声出力部が、前記確認応答生成ステップで生成した確認応答を出力する音声出力ステップを実行し、
前記確認応答生成ステップにおいて、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行する情報処理方法。 - ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
前記ユーザ端末が、
ユーザ発話を入力する音声入力処理を実行し、
前記データ処理サーバが、
前記音声入力処理において入力された入力音声の音声認識処理と、
前記音声認識処理の生成した音声認識結果に基づく意図理解処理と、
前記意図理解処理の意図理解結果に基づいて、前記ユーザ発話に対する確認応答が必要か否か判定し、確認応答が必要と判定した場合、前記ユーザ端末に対して確認応答生成命令を出力し、
前記ユーザ端末が、
前記データ処理サーバからの確認応答生成命令入力に応じて、前記ユーザ発話に対する発話ユーザの確認を求める確認応答を生成する確認応答生成処理を実行し、
前記確認応答生成処理において、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成処理を実行する情報処理方法。 - 情報処理装置において情報処理を実行させるプログラムであり、
音声入力部に、ユーザ発話を入力させる音声入力ステップと、
確認応答生成部に、前記ユーザ発話に対する発話ユーザの確認を求めるための確認応答を生成させる確認応答生成ステップと、
音声出力部に、前記確認応答を出力させる音声出力ステップを実行させ、
前記確認応答生成ステップにおいては、
辞書データ、またはアプリケーション実行結果の少なくともいずれかから得られる付加情報を用いた確認応答の生成を実行させるプログラム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017245693 | 2017-12-22 | ||
| JP2017245693 | 2017-12-22 | ||
| PCT/JP2018/037347 WO2019123775A1 (ja) | 2017-12-22 | 2018-10-05 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2019123775A1 true JPWO2019123775A1 (ja) | 2020-10-22 |
| JP7276129B2 JP7276129B2 (ja) | 2023-05-18 |
Family
ID=66992550
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019527566A Active JP7276129B2 (ja) | 2017-12-22 | 2018-10-05 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US11328716B2 (ja) |
| EP (1) | EP3588492A4 (ja) |
| JP (1) | JP7276129B2 (ja) |
| WO (1) | WO2019123775A1 (ja) |
Families Citing this family (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10271093B1 (en) * | 2016-06-27 | 2019-04-23 | Amazon Technologies, Inc. | Systems and methods for routing content to an associated output device |
| CN108600911B (zh) * | 2018-03-30 | 2021-05-18 | 联想(北京)有限公司 | 一种输出方法及电子设备 |
| US20220148574A1 (en) * | 2019-02-25 | 2022-05-12 | Faurecia Clarion Electronics Co., Ltd. | Hybrid voice interaction system and hybrid voice interaction method |
| JP7441142B2 (ja) * | 2020-08-28 | 2024-02-29 | 株式会社Nttドコモ | 管理装置、及び見守りシステム |
| US11587568B2 (en) * | 2020-12-08 | 2023-02-21 | Google Llc | Streaming action fulfillment based on partial hypotheses |
| US11861521B2 (en) | 2021-12-21 | 2024-01-02 | PolyAI Limited | System and method for identification and verification |
| US20240073518A1 (en) * | 2022-08-25 | 2024-02-29 | Rovi Guides, Inc. | Systems and methods to supplement digital assistant queries and filter results |
| CN119908010A (zh) | 2022-09-23 | 2025-04-29 | 三星电子株式会社 | 电子设备及其控制方法 |
| JP7847676B2 (ja) * | 2023-11-09 | 2026-04-17 | 三菱電機株式会社 | 制御システムおよび制御方法 |
Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11205430A (ja) * | 1998-01-20 | 1999-07-30 | Kobe Steel Ltd | 音声ダイアル機能付き電話機 |
| JPH11249689A (ja) * | 1998-03-04 | 1999-09-17 | Mitsubishi Electric Corp | 音声認識装置および地図表示装置 |
| JP2004310034A (ja) * | 2003-03-24 | 2004-11-04 | Matsushita Electric Works Ltd | 対話エージェントシステム |
| JP2006018028A (ja) * | 2004-07-01 | 2006-01-19 | Nippon Telegr & Teleph Corp <Ntt> | 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体 |
| JP2010197709A (ja) * | 2009-02-25 | 2010-09-09 | Nec Corp | 音声認識応答方法、音声認識応答システム、及びそのプログラム |
| JP2011054088A (ja) * | 2009-09-04 | 2011-03-17 | National Institute Of Information & Communication Technology | 情報処理装置、情報処理方法、プログラム及び対話システム |
| WO2014024751A1 (ja) * | 2012-08-10 | 2014-02-13 | エイディシーテクノロジー株式会社 | 音声応答装置 |
| JP2014145842A (ja) * | 2013-01-28 | 2014-08-14 | Fujitsu Ltd | 発話解析装置、音声対話制御装置、方法、及びプログラム |
| WO2017199486A1 (ja) * | 2016-05-16 | 2017-11-23 | ソニー株式会社 | 情報処理装置 |
Family Cites Families (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5918222A (en) * | 1995-03-17 | 1999-06-29 | Kabushiki Kaisha Toshiba | Information disclosing apparatus and multi-modal information input/output system |
| JP3994368B2 (ja) * | 2000-01-25 | 2007-10-17 | ソニー株式会社 | 情報処理装置および情報処理方法、並びに記録媒体 |
| US7167832B2 (en) * | 2001-10-15 | 2007-01-23 | At&T Corp. | Method for dialog management |
| CA2499305A1 (en) * | 2005-03-04 | 2006-09-04 | 668158 B.C. Ltd. | Method and apparatus for providing geographically targeted information and advertising |
| JP2011209787A (ja) * | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
| US9026441B2 (en) * | 2012-02-29 | 2015-05-05 | Nant Holdings Ip, Llc | Spoken control for user construction of complex behaviors |
| US9575963B2 (en) * | 2012-04-20 | 2017-02-21 | Maluuba Inc. | Conversational agent |
| KR101759009B1 (ko) * | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
| US9189742B2 (en) * | 2013-11-20 | 2015-11-17 | Justin London | Adaptive virtual intelligent agent |
| JP6540414B2 (ja) * | 2015-09-17 | 2019-07-10 | 本田技研工業株式会社 | 音声処理装置および音声処理方法 |
| WO2017112813A1 (en) * | 2015-12-22 | 2017-06-29 | Sri International | Multi-lingual virtual personal assistant |
| US10332513B1 (en) * | 2016-06-27 | 2019-06-25 | Amazon Technologies, Inc. | Voice enablement and disablement of speech processing functionality |
| US11436541B2 (en) * | 2017-02-02 | 2022-09-06 | Microsoft Technology Licensing, Llc | Macrotask execution for digital assistant devices |
| US10089981B1 (en) * | 2017-03-09 | 2018-10-02 | Amazon Technologies, Inc. | Messaging account disambiguation |
| KR102363794B1 (ko) * | 2017-03-31 | 2022-02-16 | 삼성전자주식회사 | 정보 제공 방법 및 이를 지원하는 전자 장치 |
-
2018
- 2018-10-05 WO PCT/JP2018/037347 patent/WO2019123775A1/ja not_active Ceased
- 2018-10-05 US US16/477,289 patent/US11328716B2/en active Active
- 2018-10-05 JP JP2019527566A patent/JP7276129B2/ja active Active
- 2018-10-05 EP EP18890607.7A patent/EP3588492A4/en not_active Ceased
Patent Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11205430A (ja) * | 1998-01-20 | 1999-07-30 | Kobe Steel Ltd | 音声ダイアル機能付き電話機 |
| JPH11249689A (ja) * | 1998-03-04 | 1999-09-17 | Mitsubishi Electric Corp | 音声認識装置および地図表示装置 |
| JP2004310034A (ja) * | 2003-03-24 | 2004-11-04 | Matsushita Electric Works Ltd | 対話エージェントシステム |
| JP2006018028A (ja) * | 2004-07-01 | 2006-01-19 | Nippon Telegr & Teleph Corp <Ntt> | 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体 |
| JP2010197709A (ja) * | 2009-02-25 | 2010-09-09 | Nec Corp | 音声認識応答方法、音声認識応答システム、及びそのプログラム |
| JP2011054088A (ja) * | 2009-09-04 | 2011-03-17 | National Institute Of Information & Communication Technology | 情報処理装置、情報処理方法、プログラム及び対話システム |
| WO2014024751A1 (ja) * | 2012-08-10 | 2014-02-13 | エイディシーテクノロジー株式会社 | 音声応答装置 |
| JP2014145842A (ja) * | 2013-01-28 | 2014-08-14 | Fujitsu Ltd | 発話解析装置、音声対話制御装置、方法、及びプログラム |
| WO2017199486A1 (ja) * | 2016-05-16 | 2017-11-23 | ソニー株式会社 | 情報処理装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| US11328716B2 (en) | 2022-05-10 |
| JP7276129B2 (ja) | 2023-05-18 |
| EP3588492A4 (en) | 2020-04-29 |
| WO2019123775A1 (ja) | 2019-06-27 |
| EP3588492A1 (en) | 2020-01-01 |
| US20190378508A1 (en) | 2019-12-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7276129B2 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
| US11887590B2 (en) | Voice enablement and disablement of speech processing functionality | |
| US11915684B2 (en) | Method and electronic device for translating speech signal | |
| US20210392395A1 (en) | Systems and methods for routing content to an associated output device | |
| US11004444B2 (en) | Systems and methods for enhancing user experience by communicating transient errors | |
| US11100922B1 (en) | System and methods for triggering sequences of operations based on voice commands | |
| US9824687B2 (en) | System and terminal for presenting recommended utterance candidates | |
| US8484033B2 (en) | Speech recognizer control system, speech recognizer control method, and speech recognizer control program | |
| US11687526B1 (en) | Identifying user content | |
| US10672379B1 (en) | Systems and methods for selecting a recipient device for communications | |
| CN109643548B (zh) | 用于将内容路由到相关联输出设备的系统和方法 | |
| CN110088833A (zh) | 语音识别方法和装置 | |
| US12033627B2 (en) | Response generation device and response generation method | |
| WO2019098038A1 (ja) | 情報処理装置、及び情報処理方法 | |
| CN105190607A (zh) | 通过智能数字助理的用户培训 | |
| CN110100277A (zh) | 语音识别方法和装置 | |
| US20220108693A1 (en) | Response processing device and response processing method | |
| US10841411B1 (en) | Systems and methods for establishing a communications session | |
| US6879953B1 (en) | Speech recognition with request level determination | |
| US20200388268A1 (en) | Information processing apparatus, information processing system, and information processing method, and program | |
| US20210065708A1 (en) | Information processing apparatus, information processing system, information processing method, and program | |
| WO2019163242A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
| CN119181361A (zh) | 语音交互方法、装置、设备、介质及产品 | |
| JP4079275B2 (ja) | 会話支援装置 | |
| WO2020017165A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210818 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220916 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221115 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230106 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230307 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230417 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 7276129 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |