WO2017130486A1

WO2017130486A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2017130486A1
Application number: PCT/JP2016/081470
Authority: WO
Inventors: 祐平滝; 真一河野; 邦仁澤井; 佑輔中川; 亜由美加藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-01-28
Filing date: 2016-10-24
Publication date: 2017-08-03
Anticipated expiration: 2018-07-28
Also published as: JPWO2017130486A1; EP3410433A4; US20190019512A1; CN108475507A; EP3410433A1

Abstract

【課題】音声認識処理結果を聴くユーザに対して音声認識処理の精度を把握させることが可能な技術が提供されることが望まれる。【解決手段】集音に基づく音情報に対する音声認識処理の精度に関する情報を取得する情報取得部と、前記音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御する出力制御部と、を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　近年、マイクによって集音された音情報に対して音声認識処理を行うことによって音情報から音声認識処理結果を得る技術が存在する（例えば、特許文献１参照）。例えば、音声認識処理によって得られた音声認識処理結果は、所定の音声出力態様によって音声出力装置によって出力される。

特開２０００－２８５０６３号公報

　しかし、ユーザは音声認識処理結果を聴くだけでは、音声認識処理がどのような精度で行われたかを把握するのが困難である。そこで、音声認識処理結果を聴くユーザに対して音声認識処理の精度を把握させることが可能な技術が提供されることが望まれる。

　本開示によれば、集音に基づく音情報に対する音声認識処理の精度に関する情報を取得する情報取得部と、前記音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御する出力制御部と、を備える、情報処理装置が提供される。

　本開示によれば、集音に基づく音情報に対する音声認識処理の精度に関する情報を取得することと、プロセッサにより、前記音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御することと、を含む、情報処理方法が提供される。

　本開示によれば、コンピュータを、集音に基づく音情報に対する音声認識処理の精度に関する情報を取得する情報取得部と、前記音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御する出力制御部と、を備える情報処理装置として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、音声認識処理結果を聴くユーザに対して音声認識処理の精度を把握させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理システムの機能構成例を示すブロック図である。同実施形態に係る通信システムの構成例を示す図である。情報処理システムの概要を説明するための図である。ノイズ音量と発話音量とに応じた音声出力速度の例を示す図である。発話長さと発話音量とに応じた音声出力速度の例を示す図である。信頼度と発話音量とに応じた音声出力速度の例を示す図である。ノイズ音量と発話音量とに応じたＰｒｅｆｉｘの有無の例を示す図である。発話長さと発話音量とに応じたＰｒｅｆｉｘの有無の例を示す図である。信頼度と発話音量とに応じた音声出力速度の例を示す図である。テキストの量と音声出力速度との関係の例を示す図である。テキストのフォントサイズと視距離とに応じた音声出力の有無の例を示す図である。視線滞留の有無に応じた音声出力の有無の例を示す図である。入力開始トリガが検出された場合に入力モードが開始される例の概要について説明するための図である。音声認識処理結果が得られた後に入力モードの開始が行われる例の第一の概要について説明するための図である。音声認識処理結果が得られた後に入力モードの切り替えが行われる例の第二の概要について説明するための図である。テキスト入力モードの後に記号入力モードが起動される例について説明するための図である。テキスト入力モードの後に記号入力モードおよびコマンド入力モードが起動される例について説明するための図である。最初にテキスト入力モードまたは記号入力モードが起動される例について説明するための図である。最初にテキスト入力モードまたは記号入力モードが起動される例について説明するための図である。過去に送受信したメッセージの内容に基づいて、記号入力モードを自動的に起動する例について説明するための図である。過去に送受信したメッセージの内容に基づいて、記号入力モードを自動的に起動しない例について説明するための図である。コントローラの操作頻度に基づいて、コマンド入力モードを自動的に起動するか否かを制御する例について説明するための図である。ユーザの感情情報に基づいて、記号入力モードを自動的に起動するか否かを制御する例について説明するための図である。発話画面の変形例を示す図である。ユーザの発話に基づいてテキスト入力がなされている場合における発話画面の例を示す図である。ユーザの発話に基づいて記号入力がなされている場合における発話画面の例を示す図である。情報処理システムのハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の実施形態
　　１．１．システム構成例
　　１．２．機能構成例
　　１．３．情報処理システムの機能詳細
　　１．４．ハードウェア構成例
　２．むすび

　＜１．本開示の実施形態＞
　［１．１．システム構成例］
　まず、図面を参照しながら本開示の一実施形態に係る通信システムの構成例について説明する。図２は、本開示の一実施形態に係る通信システムの構成例を示す図である。図２に示したように、本実施形態に係る通信システムは、情報処理システム１０－１および情報処理システム１０－２を備える。情報処理システム１０－１および情報処理システム１０－２それぞれは、画像入力部１１０、操作入力部１１５、生体情報入力部１１８、集音部１２０、表示部１３０、音出力部１５０および情報処理装置（以下、「制御部」とも言う。）１４０を有している。

　情報処理システム１０－１における情報処理装置１４０と情報処理システム１０－２における情報処理装置１４０とは、通信ネットワーク９３１を介して通信を行うことが可能である。また、情報処理システム１０において、画像入力部１１０、集音部１２０および音出力部１５０は、表示部１３０の枠に設けられているが、画像入力部１１０、集音部１２０および音出力部１５０が設けられる位置は限定されない。画像入力部１１０、集音部１２０および音出力部１５０は、表示部１３０における枠以外の位置に設けられていてもよいし、表示部１３０とは異なる位置（例えば、操作入力部１１５など）に設けられ、集音部１２０によって集音された音情報が情報処理装置１４０に送信されてもよい。例えば、集音部１２０および音出力部１５０は、表示部１３０などからは独立した機器（例えば、ヘッドセットなど）に設けられていてもよい。

　なお、図２に示した例では、情報処理装置１４０は、ゲーム機であるが、情報処理装置１４０の形態はゲーム機に限定されない。例えば、情報処理装置１４０は、スマートフォンであってもよいし、携帯電話であってもよいし、タブレット端末であってもよいし、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）であってもよい。また、図２に示した例では、表示部１３０の形態はテレビジョン装置であるが、表示部１３０の形態はテレビジョン装置に限定されない。なお、以下の説明において、音声（ｖｏｉｃｅまたはｓｐｅｅｃｈ）と音（ｓｏｕｎｄ）とは区別して用いられる。

　以上、本実施形態に係る通信システムの構成例について説明した。

　［１．２．機能構成例］
　続いて、本実施形態に係る情報処理システム１０の機能構成例について説明する。図１は、本実施形態に係る情報処理システム１０の機能構成例を示すブロック図である。図１に示したように、情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、生体情報入力部１１８と、集音部１２０と、通信部１２５と、表示部１３０と、音出力部１５０と、制御部１４０とを備える。

　画像入力部１１０は、画像を入力する機能を有する。例えば、画像入力部１１０はカメラを含んでおり、カメラによって撮像された画像を入力する。画像入力部１１０に含まれるカメラの数は１以上であれば特に限定されない。そして、画像入力部１１０に含まれる１以上のカメラそれぞれが設けられる位置も特に限定されない。また、１以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

　操作入力部１１５は、ユーザの操作を入力する機能を有する。例えば、操作入力部１１５は、ゲーム機のコントローラを含んでよい。また、操作入力部１１５はユーザの操作を入力する機能を有していればよいため、タッチパネルを含んでもよい。タッチパネルが採用する方式は特に限定されず、静電容量方式であってもよいし、抵抗膜方式であってもよいし、赤外線方式であってもよいし、超音波方式であってもよい。また、操作入力部１１５は、カメラを含んでもよい。

　生体情報入力部１１８は、ユーザの生体情報を入力する機能を有する。例えば、生体情報入力部１１８は、圧力センサを含んでいれば、圧力センサによってユーザによるコントローラの把持圧力を生体情報として入力することが可能である。また、生体情報入力部１１８は、心拍センサを含んでいれば、心拍センサによってユーザの心拍を生体情報として入力することが可能である。また、生体情報入力部１１８は、発汗センサを含んでいれば、発汗センサによってユーザの発汗を生体情報として入力することが可能である。なお、本実施形態では、生体情報入力部１１８がゲーム機のコントローラに設けられている場合を主に説明するが、生体情報入力部１１８は、ウェアラブルデバイスに設けられていてもよい。

　集音部１２０は、集音によって音情報を得る機能を有する。集音部１２０は、図２を参照しながら説明したように、表示部１３０の枠に設けられていてよいが、表示部１３０における枠以外の位置に設けられていてもよいし、表示部１３０とは異なる位置（例えば、操作入力部１１５など）に設けられていてもよい。集音部１２０に含まれるマイクロフォンの数は１以上であれば特に限定されない。また、集音部１２０に含まれる１以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。

　ただし、集音部１２０が、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによる集音によって得られた音情報に基づいて音の到来方向が推定され得る。あるいは、集音部１２０が指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによる集音によって得られた音情報に基づいて音の到来方向が推定され得る。

　制御部１４０は、情報処理システム１０の各部の制御を実行する。図１に示したように、制御部１４０は、情報取得部１４１と、音声認識部１４２と、出力制御部１４３と、出力部１４４とを備える。これらの各機能ブロックについての詳細は、後に説明する。なお、制御部１４０は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ；中央演算処理装置）などで構成されていてよい。情報処理装置１４０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。

　通信部１２５は、他の情報処理システム１０との間で通信を行う機能を有する。例えば、通信部１２５は、通信インターフェースにより構成される。例えば、通信部１２５は、通信ネットワーク９３１（図２）を介して、他の情報処理システム１０との間で通信を行うことが可能である。

　表示部１３０は、画面を表示する機能を有する。例えば、表示部１３０は、液晶ディスプレイであってもよいし、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイであってもよいし、ＨＭＤ（Ｈｅａｄ　Ｍｏｕｎｔ　Ｄｉｓｐｌａｙ）であってもよい。しかし、表示部１３０は、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

　音出力部１５０は、音情報を出力する機能を有する。例えば、音出力部１５０は、スピーカであってもよいし、ヘッドホンであってもよいし、イヤホンであってもよい。しかし、音出力部１５０は、音情報を出力する機能を有すれば、他の形態の音出力装置であってもよい。

　以上、本実施形態に係る情報処理システム１０の機能構成例について説明した。

　［１．３．情報処理システムの機能詳細］
　続いて、情報処理システム１０の機能詳細について説明する。図３は、情報処理システム１０の概要を説明するための図である。図３を参照すると、制御部１４０によって再生された映像が表示される映像表示画面１３１が表示部１３０に存在する。ここでは、制御部１４０がゲーム機である場合を想定しているため、映像表示画面１３１に表示される映像は、ゲームアプリケーションに含まれる映像である。

　また、図３に示すように、情報処理システム１０－１のユーザＵ１が情報処理システム１０－２のユーザとの間でチャットを行うためのチャットアプリケーションが制御部１４０によって実行され、表示部１３０によってその実行画面がチャット画面１３４として表示される。具体的には、ユーザＵ１の発話を含む音情報に対する音声認識処理結果と情報処理システム１０－２のユーザの発話を含む音情報に対する音声認識処理結果とが、チャット画面１３４に表示される。

　ここで、音声認識処理結果は、音情報に対して音声認識処理が施されることによって得られる１文字データまたは複数の文字が並べられた文字列データであってよい。あるいは、音声認識処理結果は、このようにして得られる１文字データまたは文字列データのシステムによる読み上げ結果であってもよい。以下では、音声認識処理結果の例として「テキスト」および「テキストの読み上げ結果」を利用して説明する。

　一方、情報処理システム１０－１の集音部１２０によって集音された音情報に対する音声認識処理結果の例として、テキストが表示される認識結果画面１３３も表示部１３０に存在する。認識結果画面１３３は発話画面１３５に含まれており、発話画面１３５には、音声認識処理を開始するための音声認識処理開始ボタン１３２が存在する。本実施形態では、音声認識処理開始ボタン１３２がＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）ボタンである例を主に説明するが、音声認識処理開始ボタン１３２は、ハードウェアボタン（例えば、操作入力部１１５に含まれるハードウェアボタン）であってもよい。ユーザＵ１が音声認識処理開始ボタン１３２を選択するための操作（以下、「認識開始操作」とも言う。）を行うと、認識開始操作が操作入力部１１５によって入力され、情報取得部１４１は、集音部１２０によって集音された音情報を取得し、音声認識部１４２は、音情報に対する音声認識処理を開始する。このとき、ユーザＵ１は発話を開始する。

　なお、本実施形態においては、集音部１２０によって集音された信号を音情報と言うが、音情報は、集音部１２０によって集音された信号に対して何らかの信号処理が施されて得られた信号であってもよい。そして、音声認識部１４２によって音声認識処理が実行されることによってテキストＴｘ－１０が得られると、出力部１４４は、テキストＴｘ－１０を表示部１３０に出力する。表示部１３０は、出力部１４４によって出力されたテキストＴｘ－１０を認識結果画面１３３に表示する。

　図３に示した例では、ユーザＵ１が「Ｌｅｔ'ｓ　ｐｌａｙ　ｇａｍｅ．」と発話したのに対し、認識結果画面１３３には、情報処理システム１０－１の集音部１２０によって集音された音情報に対する音声認識処理結果の例として、テキストＴｘ－１０「Ｅｔ'ｓ　ｐｌａｙ　ｇａｍｅ．」が表示されている。また、出力制御部１４３によって、テキストＴｘ－１０「Ｅｔ'ｓ　ｐｌａｙ　ｇａｍｅ．」の読み上げがなされ、テキストＴｘ－１０の読み上げ結果が音出力部１５０によって出力されている。

　また、認識結果画面１３３には、音声認識処理を終了するための音声認識処理終了ボタン１３６が表示されている。ユーザＵ１が音声認識処理終了ボタン１３６を選択するための操作（以下、「認識終了操作」とも言う。）を行うと、認識終了操作が操作入力部１１５によって入力され、音声認識部１４２は、音声認識処理を終了し、出力制御部１４３は、テキストＴｘ－１０をチャット画面１３４に追加させる。また、テキストＴｘ－１０は、情報処理システム１０－２における制御部１４０に送信され、情報処理システム１０－２におけるチャット画面に表示される。

　［１．３．１．音声認識処理の精度の把握］
　ここで、ユーザＵ１はテキストＴｘ－１０「Ｅｔ'ｓ　ｐｌａｙ　ｇａｍｅ．」の読み上げ結果を聴くだけでは、音声認識処理がどのような精度で行われたかを把握するのが困難である。具体的には、テキストＴｘ－１０「Ｅｔ'ｓ　ｐｌａｙ　ｇａｍｅ．」はユーザＵ１の発話内容である「Ｌｅｔ'ｓ　ｐｌａｙ　ｇａｍｅ．」と異なってしまっているが、ユーザＵ１は音声認識処理の精度の低さを把握するのが困難である。特に、ユーザＵ１が映像表示画面１３１に集中しているときには、音声認識処理が正常に行われたか否かを確認する作業は煩わしい。そこで、音声認識処理結果を聴くユーザＵ１に対して音声認識処理の精度を把握させることが可能な技術が提供されることが望まれる。

　具体的には、本開示の実施形態においては、情報取得部１４１は、音情報に対する音声認識処理の精度に関する情報を取得する。また、出力制御部１４３は、テキストＴｘ－１０の読み上げを行い、音声認識処理の精度に関する情報に基づいて、テキストＴｘ－１０の読み上げ結果の音声出力態様を制御する。そして、出力部１４４は、制御された音声出力態様による読み上げ結果を音出力部１５０に出力する。音出力部１５０は、出力部１４４から出力された読み上げ結果を出力する。

　このようにして、本開示の実施形態においては、音声認識処理の精度に関する情報に基づいて、テキストＴｘ－１０の読み上げ結果の音声出力態様が制御される。かかる構成によれば、テキストＴｘ－１０の読み上げ結果の音声出力態様によって、音声認識処理の精度をユーザＵ１に把握させることが可能となる。

　なお、以下では、音声出力態様の制御が文ごとにされる場合を例として説明するが、音声出力態様の制御の単位は、特に限定されない。例えば、音声出力態様の制御は、単語ごとにされてもよいし、句ごとにされてもよい。

　ここで、音声認識処理の精度に関する情報は特に限定されない。例えば、音声認識処理の精度に関する情報は、集音部１２０によって集音された音情報に含まれるユーザＵ１の発話に関する情報を含んでもよい。ユーザＵ１の発話に関する情報は、集音部１２０によって集音された音情報に含まれるユーザＵ１の発話音量、ユーザＵ１の発話の明瞭さ、および、ユーザＵ１の発話長さのうち少なくともいずれか一つを含んでもよい。

　あるいは、音声認識処理の精度に関する情報は、集音部１２０によって集音された音情報に含まれるユーザＵ１の発話に対応するノイズに関する情報を含んでもよい。ノイズに関する情報は、集音部１２０によって集音された音情報に含まれるノイズの音量を含んでもよい。

　また、テキストＴｘ－１０の読み上げ結果の音声出力態様も特に限定されない。例えば、テキストＴｘ－１０の読み上げ結果の音声出力態様は、テキストＴｘ－１０の読み上げ結果の音出力部１５０による音声出力速度を含んでよい。以下、具体的な例を挙げて説明する。

　図４は、ノイズ音量と発話音量とに応じた音声出力速度の例を示す図である。ここで、ノイズ音量がノイズ音量判定用の閾値より小さい場合と比較して、ノイズ音量がノイズ音量判定用の閾値より小さい場合には、音声認識処理の精度がより低いと考えられる。そこで、かかる場合には、出力制御部１４３は、音声出力速度をより小さくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、ノイズ音量がノイズ音量判定用の閾値より大きい場合には、出力制御部１４３は、音声出力速度をより大きくすることによって、テキストＴｘ－１０の読み上げをより早く終わらせるのがよい。

　また、発話音量が発話音量判定用の閾値より大きい場合と比較して、発話音量が発話音量判定用の閾値より小さい場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、音声出力速度をより小さくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、発話音量が発話音量判定用の閾値より大きい場合には、出力制御部１４３は、音声出力速度をより大きくすることによって、テキストＴｘ－１０の読み上げをより早く終わらせるのがよい。

　図４に示すように、発話音量が所定の区間において（図４に示した例では、発話音量が発話音量判定用の閾値よりも大きい区間において）、ノイズ音量がノイズ音量判定用の閾値より小さい場合と比較して、ノイズ音量がノイズ音量判定用の閾値より大きい場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、音声出力速度をより小さくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。

　図５は、発話長さと発話音量とに応じた音声出力速度の例を示す図である。ここで、発話長さが発話長さ判定用の閾値より長い場合と比較して、発話長さが発話長さ判定用の閾値より短い場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、音声出力速度をより小さくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、発話音量が発話音量判定用の閾値より大きい場合には、出力制御部１４３は、音声出力速度をより大きくすることによって、テキストＴｘ－１０の読み上げをより早く終わらせるのがよい。

　図５に示すように、発話音量が所定の区間において（図５に示した例では、発話音量が発話音量判定用の閾値よりも大きい区間において）、発話長さが発話長さ判定用の閾値より長い場合と比較して、発話長さが発話長さ判定用の閾値より短い場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、音声出力速度をより小さくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。

　なお、図示されていないが、発話の明瞭さについても発話音量および発話長さと同様に扱われてよい。すなわち、発話の明瞭さが発話明瞭さ判定用の閾値より大きい場合と比較して、発話の明瞭さが発話明瞭さ判定用の閾値より小さい場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、音声出力速度をより小さくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、発話の明瞭さが発話明瞭さ判定用の閾値より大きい場合には、出力制御部１４３は、音声出力速度をより大きくすることによって、テキストＴｘ－１０の読み上げをより早く終わらせるのがよい。

　また、音声認識処理の精度に関する情報は、音声認識処理結果の信頼度を含んでもよい。例えば、この信頼度は、音声認識部１４２から取得される。図６は、信頼度と発話音量とに応じた音声出力速度の例を示す図である。図６に示すように、信頼度が信頼度判定用の閾値より高い場合と比較して、信頼度が信頼度判定用の閾値より低い場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、音声出力速度をより小さくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、信頼度が信頼度判定用の閾値より大きい場合には、出力制御部１４３は、音声出力速度をより大きくすることによって、テキストＴｘ－１０の読み上げをより早く終わらせるのがよい。

　また、図４～図６に示した例では、出力制御部１４３による通常のテキストＴｘ－１０の読み上げ速度を基準として、その読み上げ速度の何倍であるかによって、音声出力速度が示されている。しかし、基準となる読み上げ速度はこれに限定されない。例えば、基準となる読み上げ速度は、ユーザＵ１の発話速度が考慮された読み上げ速度であってもよい。あるいは、基準となる読み上げ速度は、ユーザＵ１がチャットによって他のユーザとやり取りをした頻度が考慮された読み上げ速度であってもよい。また、音声出力速度を基準となる読み上げ速度の何倍にするかも限定されない。

　以上の説明においては、音声出力態様の例として、音声出力速度を利用したが、音声出力態様は、かかる例に限定されない。例えば、音声出力態様は、テキストＴｘ－１０の読み上げ結果の音声出力前に出力される出力音声（以下、「Ｐｒｅｆｉｘ」とも言う。）の種類を含んでもよい。すなわち、出力制御部１４３は、音声処理結果の精度に関する情報に基づいて、Ｐｒｅｆｉｘの種類を制御してもよい。Ｐｒｅｆｉｘの種類は、特に限定されず、ユーザＵ１の注意を惹くために発せられる単語（例えば、チェック、要確認、警告など）または音（例えば、効果音の種類、効果音が発せられる回数など）であってもよい。

　なお、以下の説明においては、Ｐｒｅｆｉｘの種類の例として、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘが付される場合（中身のあるＰｒｅｆｉｘが付される場合）とテキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘが付されない場合（中身のないＰｒｅｆｉｘが付される場合）との二つの場合を想定する。

　図７は、ノイズ音量と発話音量とに応じたＰｒｅｆｉｘの有無の例を示す図である。ここで、上記したように、ノイズ音量がノイズ音量判定用の閾値より小さい場合と比較して、ノイズ音量がノイズ音量判定用の閾値より大きい場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付することによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、ノイズ音量がノイズ音量判定用の閾値より小さい場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付さないことによって、テキストＴｘ－１０の読み上げをより早く終わらせるのがよい。

　一方、発話音量が発話音量判定用の閾値より大きい場合と比較して、発話音量が発話音量判定用の閾値より小さい場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付することによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、発話音量が発話音量判定用の閾値より大きい場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付さないことによって、テキストＴｘ－１０の読み上げをより早く終わらせるのがよい。

　図７に示すように、発話音量が所定の区間において（図７に示した例では、発話音量が発話音量判定用の閾値よりも大きい区間において）、ノイズ音量がノイズ音量判定用の閾値より小さい場合と比較して、ノイズ音量がノイズ音量判定用の閾値より大きい場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、音声出力速度をより小さくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。

　図８は、発話長さと発話音量とに応じたＰｒｅｆｉｘの有無の例を示す図である。ここで、上記したように、発話長さが発話長さ判定用の閾値より長い場合と比較して、発話長さが発話長さ判定用の閾値より短い場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付することによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、発話長さが発話長さ判定用の閾値より長い場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付さないことによって、テキストＴｘ－１０の読み上げをより早く終わらせるのがよい。

　図８に示すように、発話音量が所定の区間において（図８に示した例では、発話音量が発話音量判定用の閾値よりも大きい区間において）、発話長さが発話長さ判定用の閾値より長い場合と比較して、発話長さが発話長さ判定用の閾値より短い場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付することによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。

　なお、図示されていないが、発話の明瞭さについても発話音量および発話長さと同様に扱われてよい。すなわち、上記したように、発話の明瞭さが発話明瞭さ判定用の閾値より大きい場合と比較して、発話の明瞭さが発話明瞭さ判定用の閾値より小さい場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付することによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、発話の明瞭さが発話明瞭さ判定用の閾値より大きい場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付さないことによって、テキストＴｘ－１０の読み上げをより早く終わらせるのがよい。

　また、音声認識処理の精度に関する情報は、音声認識処理結果の信頼度を含んでもよい。図９は、信頼度と発話音量とに応じた音声出力速度の例を示す図である。図９に示すように、信頼度が信頼度判定用の閾値より高い場合と比較して、信頼度が信頼度判定用の閾値より低い場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付することによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、信頼度が信頼度判定用の閾値より大きい場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果に対してＰｒｅｆｉｘを付さないことによって、テキストＴｘ－１０の読み上げをより早く終わらせるのがよい。

　また、音声認識処理の精度に関する情報は、テキストＴｘ－１０の量を含んでもよい。図１０は、テキストＴｘ－１０の量と音声出力速度との関係の例を示す図である。例えば、テキストＴｘ－１０の量が所定のテキスト量閾値よりも小さい場合と比較して、テキストＴｘ－１０の量が所定のテキスト量閾値よりも大きい場合、読み上げに多くの時間を要するために、テキストＴｘ－１０が正常であるか否かをユーザＵ１が判断するのが困難になってしまうことが想定される。そこで、かかる場合には、図１０に示すように、出力制御部１４３は、テキストＴｘ－１０の量が増加するほど、音声出力速度を大きくすることによって、読み上げに要する時間を短縮するとよい。

　図１０に示した例では、出力制御部１４３による通常のテキストＴｘ－１０の読み上げ速度を基準として、その読み上げ速度の何倍であるかによって、音声出力速度が示されている。しかし、基準となる読み上げ速度はこれに限定されない。例えば、基準となる読み上げ速度は、ユーザＵ１の発話速度が考慮された読み上げ速度であってもよい。あるいは、基準となる読み上げ速度は、ユーザＵ１がチャットによってやり取りをした頻度が考慮された読み上げ速度であってもよい。また、音声出力速度を基準となる読み上げ速度の何倍にするかも限定されない。

　また、ユーザＵ１がチャットによって他のユーザとやり取りをした頻度によって、ユーザＵ１による発話の熟練度が変化し、発話の熟練度の変化に従って、音声認識処理の精度も変化することが想定される。そこで、出力制御部１４３は、ユーザＵ１がチャットによって他のユーザとやり取りをした頻度（音声認識処理の実行頻度）に基づいて、音声出力態様を制御してもよい。

　例えば、出力制御部１４３は、ユーザＵ１がチャットによって他のユーザとやり取りをした頻度（音声認識処理の実行頻度）に基づいて、テキストＴｘ－１０の読み上げ結果の音声出力速度を制御してもよい。例えば、出力制御部１４３は、ユーザＵ１がチャットによって他のユーザとやり取りをした頻度（音声認識処理の実行頻度）が大きいほど、テキストＴｘ－１０の読み上げ結果の音声出力速度を小さくしてもよい。

　あるいは、出力制御部１４３は、ユーザＵ１がチャットによって他のユーザとやり取りをした頻度（音声認識処理の実行頻度）に応じて、Ｐｒｅｆｉｘの種類を制御してもよい。例えば、出力制御部１４３は、ユーザＵ１がチャットによって他のユーザとやり取りをした頻度（音声認識処理の実行頻度）が実行頻度判定用の閾値よりも小さい場合には、テキストＴｘ－１０の読み上げ結果にＰｒｅｆｉｘを付してもよい。一方、出力制御部１４３は、ユーザＵ１がチャットによって他のユーザとやり取りをした頻度（音声認識処理の実行頻度）が実行頻度判定用の閾値よりも大きい場合には、テキストＴｘ－１０の読み上げ結果にＰｒｅｆｉｘを付さなくてもよい。

　上記では、音声認識処理の精度に関する情報に基づいて、テキストＴｘ－１０の読み上げ結果の音声出力態様を制御する例を説明した。しかし、出力制御部１４３は、テキストＴｘ－１０を利用するコンテンツの種類に基づいて、音声出力態様を制御してもよい。例えば、テキストＴｘ－１０を利用するコンテンツがＷｅｂコンテンツである場合には、テキストＴｘ－１０を利用するコンテンツがチャットアプリケーションである場合と比較して、テキストＴｘ－１０の読み上げ結果がより強く必要とされる可能性があるため（例えば、ＷｅｂコンテンツにおいてテキストＴｘ－１０に応じた検索がされる場合には、音声認識処理の精度の高さが要求されるため）、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果の音声出力速度をより小さくしてもよい。

　また、出力制御部１４３は、ユーザＵ１に関する情報に基づいて、音声出力態様を制御してもよい。ここで、ユーザＵ１に関する情報は特に限定されないが、ユーザＵ１の行動情報、ユーザＵ１の姿勢情報、ユーザＵ１による設定情報、ユーザＵ１の周囲の環境情報、ユーザＵ１の生体情報およびユーザＵ１の感情情報のうち少なくともいずれか一つを含んでもよい。なお、以下では、ユーザＵ１の生体情報およびユーザＵ１の感情情報が直接用いられるが、ユーザＵ１の生体情報およびユーザＵ１の感情情報は、ユーザＵ１の集中度に一度変換され、ユーザＵ１の集中度として用いられてもよい。

　ここで、ユーザＵ１の行動情報は特に限定されない。例えば、ユーザＵ１の位置情報が取得可能な場合には、ユーザＵ１の行動情報は、ユーザＵ１の位置情報の解析により得られるユーザＵ１の行動認識結果（例えば、静止している状態、歩いている状態、走っている状態、階段昇降状態および自動車運転状態など）であってもよいし、ユーザＵ１の位置情報の解析により得られるユーザＵ１の移動速度であってもよい。

　一例としては、出力制御部１４３は、ユーザＵ１が静止している状態および歩いている状態においては、発話が正常に行われ、音声認識処理の精度が高くなることが想定されるため、テキストＴｘ－１０の読み上げ結果を出力させなくてもよい。一方、出力制御部１４３は、ユーザＵ１が走っている状態においては、発話が正常に行われず、音声認識処理の精度が低くなることが予想されるため、テキストＴｘ－１０の読み上げ結果を出力させてもよい。

　ユーザＵ１の姿勢情報は、ユーザＵ１の身体に加速度センサが取り付けられていれば、加速度センサによって検出された加速度に基づいて取得される。一例として、出力制御部１４３は、ユーザＵ１の姿勢が傾いているほど、発話が正常に行われず、音声認識処理の精度が低くなることが予想される。そこで、出力制御部１４３は、ユーザＵ１の姿勢が姿勢判定用の傾きよりも傾いている場合には、テキストＴｘ－１０の読み上げ結果を出力させてもよい。一方、出力制御部１４３は、ユーザＵ１の姿勢が姿勢判定用の傾きよりも傾いていない場合には、テキストＴｘ－１０の読み上げ結果を出力させなくてもよい。

　ユーザＵ１の設定情報は、ユーザＵ１によって所定の音声出力態様変更操作が選択され、操作入力部１１５によって音声出力態様変更操作が入力されると、この音声出力態様変更操作に基づいて設定される。音声出力態様変更操作は特に限定されないが、例えば、図示しない音声出力態様変更ボタンを選択する操作であってよい。

　ユーザＵ１の周囲の環境情報は、画像入力部１１０によって入力された画像の解析によって得られてもよいし、集音部１２０によって集音された音情報の解析によって得られてもよい。例えば、ユーザＵ１の周囲の環境情報は、ユーザＵ１の周囲に人が存在するか否かを示す情報であってもよい。そのとき、出力制御部１４３は、ユーザＵ１の周囲に人が存在する場合には、ユーザＵ１の周囲に人が存在しない場合と比較して、テキストＴｘ－１０の読み上げを早く終わらせたいとユーザＵ１が考える可能性があるため、音声出力速度をより大きくするとよい。

　また、例えば、ユーザＵ１の周囲の環境情報は、ユーザＵ１の周囲の照度であってもよい。そのとき、出力制御部１４３は、ユーザＵ１の周囲の照度が照度判定用の閾値よりも低い場合には、テキストＴｘ－１０の視認が困難である可能性があるため、テキストＴｘ－１０の読み上げ結果を出力させるとよい。一方、出力制御部１４３は、ユーザＵ１の周囲の照度が照度判定用の閾値よりも高い場合には、テキストＴｘ－１０の視認が可能である可能性があるため、テキストＴｘ－１０の読み上げ結果を出力させなくてもよい。

　ユーザＵ１の生体情報はどのようにして得られてもよい。一例として、ユーザＵ１の生体情報は、生体情報入力部１１８によって入力されてよい。生体情報入力部１１８によって入力されるユーザＵ１の生体情報は特に限定されず、ユーザＵ１によるコントローラの把持圧力、ユーザＵ１の発汗およびユーザＵ１の心拍のうち少なくともいずれか一つを含んでよい。その他、ユーザＵ１の生体情報は、ユーザＵ１の体温、呼吸回数、瞬目回数、眼球運動、凝視時間、瞳孔径の大きさ、血圧、脳波、体動、体位、皮膚温度、皮膚電気抵抗、ＭＶ（マイクロバイブレーション）、筋電位およびＳＰＯ_２（血中酸素飽和度）のうち少なくともいずれか一つを含んでもよい。

　一例としては、出力制御部１４３は、把持圧力が把持圧力判定用の閾値より小さい場合には、発話が正常に行われ、音声認識処理の精度が高くなることが想定されるため、テキストＴｘ－１０の読み上げ結果を出力させなくてもよい。一方、出力制御部１４３は、把持圧力が把持圧力判定用の閾値より大きい場合には、発話が正常に行われず、音声認識処理の精度が低くなることが想定されるため、テキストＴｘ－１０の読み上げ結果を出力させるとよい。

　他の一例としては、出力制御部１４３は、発汗が発汗判定用の閾値より小さい場合には、発話が正常に行われ、音声認識処理の精度が高くなることが想定されるため、テキストＴｘ－１０の読み上げ結果を出力させなくてもよい。一方、出力制御部１４３は、発汗が発汗判定用の閾値より大きい場合には、発話が正常に行われず、音声認識処理の精度が低くなることが想定されるため、テキストＴｘ－１０の読み上げ結果を出力させるとよい。

　他の一例としては、出力制御部１４３は、心拍が心拍判定用の閾値より小さい場合には、発話が正常に行われ、音声認識処理の精度が高くなることが想定されるため、テキストＴｘ－１０の読み上げ結果を出力させなくてもよい。一方、出力制御部１４３は、心拍が心拍判定用の閾値より大きい場合には、発話が正常に行われず、音声認識処理の精度が低くなることが想定されるため、テキストＴｘ－１０の読み上げ結果を出力させるとよい。

　ユーザＵ１の感情情報はどのようにして得られてもよい。一例として、ユーザＵ１の感情情報は、出力制御部１４３によって音情報または入力画像が解析されることによって得られてよい。また、ユーザＵ１の感情情報は特に限定されず、ユーザＵ１の喜び、驚き、怒りのうち少なくともいずれか一つを含んでよい。あるいは、ユーザＵ１の感情情報は、他の感情を含んでもよい。

　例えば、出力制御部１４３は、ユーザＵ１の感情情報が喜怒哀楽のいずれかを示す場合には、発話が正常に行われず、音声認識処理の精度が低くなることが想定されるため、テキストＴｘ－１０の読み上げ結果を出力させるとよい。一方、出力制御部１４３は、ユーザＵ１の感情情報が喜怒哀楽のいずれも示さない場合には、発話が正常に行われ、音声認識処理の精度が高くなることが想定されるため、テキストＴｘ－１０の読み上げ結果を出力させなくてもよい。

　ところで、出力制御部１４３は、常にテキストＴｘ－１０の読み上げ結果を出力部１４４に出力させる必要はなく、所定の条件が満たされた場合には、テキストＴｘ－１０の読み上げ結果が出力部１４４によって音声出力されないように出力部１４４を制御してもよい。一方、出力制御部１４３は、所定の条件が満たされない場合には、テキストＴｘ－１０の読み上げ結果が出力部１４４によって音声出力されるように出力部１４４を制御してもよい。

　ここで、所定の条件は特に限定されない。例えば、所定の条件は、ユーザＵ１の視線に関する条件、ユーザＵ１の位置に関する条件、テキストＴｘ－１０のフォントサイズ（表示サイズ）、および、テキストＴｘ－１０の信頼度に関する条件のうち少なくともいずれか一つを含んでもよい。ユーザＵ１の位置は、ユーザＵ１の目の位置であってもよく、認識結果画面１３３における所定位置までのユーザＵ１の目の位置からの距離（以下、「視距離」とも言う。）は、画像入力部１１０によって入力された画像の解析によって得られる。ユーザＵ１の視線も、画像入力部１１０によって入力された画像の解析によって得られる。

　図１１は、テキストＴｘ－１０のフォントサイズと視距離とに応じた音声出力の有無の例を示す図である。例えば、テキストＴｘ－１０のフォントサイズがフォントサイズ判定用の閾値よりも大きい場合と比較して、テキストＴｘ－１０のフォントサイズがフォントサイズ判定用の閾値よりも小さい場合には、音声認識処理の精度がより低いと考えられる。そこで、かかる場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果を出力させるとよい。一方、テキストＴｘ－１０のフォントサイズがフォントサイズ判定用の閾値よりも大きい場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果を出力させなくてよい。

　また、例えば、認識結果画面１３３における所定位置までの視距離が所定の距離よりも小さい場合と比較して、認識結果画面１３３における所定位置までの視距離が所定の距離よりも大きい場合には、ユーザＵ１がテキストＴｘ－１０の読み上げ結果を聴く必要性は低いことが想定される。一方、認識結果画面１３３における所定位置までの視距離が所定の距離よりも大きい場合には、ユーザＵ１がテキストＴｘ－１０の読み上げ結果を聴く必要性は高いことが想定される。

　そこで、出力制御部１４３は、認識結果画面１３３における所定位置までの視距離が所定の距離よりも大きい場合、テキストＴｘ－１０の読み上げ結果を出力させなくてよい。一方、出力制御部１４３は、認識結果画面１３３における所定位置までの視距離が所定の距離より小さい場合、テキストＴｘ－１０の読み上げ結果を出力させるとよい。なお、認識結果画面１３３における所定位置は限定されないが、認識結果画面１３３の中央位置であってもよい。

　図１１に示すように、フォントサイズが所定の区間において（図１１に示した例では、フォントサイズがフォントサイズ判定用の閾値よりも大きい区間において）、視距離が視距離判定用の閾値より小さい場合と比較して、視距離が視距離判定用の閾値より大きい場合には、音声認識処理の精度が低下すると考えられる。そこで、かかる場合には、出力制御部１４３は、テキストＴｘ－１０の読み上げ結果を出力させることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させるとよい。一方、出力制御部１４３は、視距離が視距離判定用の閾値より小さい場合には、テキストＴｘ－１０の読み上げ結果を出力させなくてよい。

　図１２は、視線滞留の有無に応じた音声出力の有無の例を示す図である。例えば、認識結果画面１３３の内部にユーザＵ１の視線が所定時間を超えて存在している場合、ユーザＵ１がテキストＴｘ－１０の読み上げ結果を聴く必要性は低いことが想定される。一方、認識結果画面１３３の内部にユーザＵ１の視線が所定時間を超えて存在しない場合、ユーザＵ１がテキストＴｘ－１０の読み上げ結果を聴く必要性は高いことが想定される。

　そこで、図１２に示すように、出力制御部１４３は、認識結果画面１３３の内部にユーザＵ１の視線が存在している場合、テキストＴｘ－１０の読み上げ結果の出力をしないのがよい。一方、出力制御部１４３は、認識結果画面１３３の内部にユーザＵ１の視線が存在していない場合、テキストＴｘ－１０の読み上げ結果を出力させるのがよい。なお、ここでは、認識結果画面１３３の内部に視線が存在するか否かが判断されたが、認識結果画面１３３を基準とした所定領域の内部に視線が存在するか否かが判断されてもよい。

　また、所定の条件は、ユーザＵ１によって音声認識処理の再起動を指示するための操作が入力されたという条件、および、テキストＴｘ－１０の送信を指示するための操作が入力されたという条件のうち少なくともいずれか一つを含んでもよい。音声認識処理の再起動を指示するための操作は特に限定されないが、音声認識処理開始ボタン１３２の長押し操作であってよい。また、テキストＴｘ－１０の送信を指示するための操作は、上記した認識終了操作であってよい。

　以上においては、音声出力態様が、テキストＴｘ－１０の読み上げ結果の音声出力速度を含む場合と、テキストＴｘ－１０の読み上げ結果の音声出力前に出力される出力音声の種類を含む場合とについて説明した。しかし、音声出力態様はこれらに限定されない。例えば、音声出力態様は、テキストＴｘ－１０の読み上げ結果の音声出力の大きさを含んでもよい。

　例えば、出力制御部１４３は、ノイズ音量がノイズ音量判定用の閾値より小さい場合と比較して、ノイズ音量がノイズ音量判定用の閾値より大きい場合には、テキストＴｘ－１０の読み上げ結果の音声出力をより大きくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、出力制御部１４３は、ノイズ音量がノイズ音量判定用の閾値より大きい場合と比較して、ノイズ音量がノイズ音量判定用の閾値より小さい場合には、テキストＴｘ－１０の読み上げ結果の音声出力をより小さくしてもよい。

　また、出力制御部１４３は、発話音量が発話音量判定用の閾値より大きい場合と比較して、発話音量が発話音量判定用の閾値より小さい場合には、テキストＴｘ－１０の読み上げ結果の音声出力を大きくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、出力制御部１４３は、発話音量が発話音量判定用の閾値より小さい場合と比較して、発話音量が発話音量判定用の閾値より大きい場合には、テキストＴｘ－１０の読み上げ結果の音声出力をより小さくしてもよい。

　また、出力制御部１４３は、発話長さが発話長さ判定用の閾値より長い場合と比較して、発話長さが発話長さ判定用の閾値より短い場合には、テキストＴｘ－１０の読み上げ結果の音声出力を大きくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、出力制御部１４３は、発話長さが発話長さ判定用の閾値より短い場合と比較して、発話長さが発話長さ判定用の閾値より長い場合には、テキストＴｘ－１０の読み上げ結果の音声出力をより小さくしてもよい。

　また、出力制御部１４３は、発話の明瞭さが発話明瞭さ判定用の閾値より大きい場合と比較して、発話の明瞭さが発話明瞭さ判定用の閾値より小さい場合には、テキストＴｘ－１０の読み上げ結果の音声出力を大きくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、出力制御部１４３は、発話の明瞭さが発話明瞭さ判定用の閾値より小さい場合と比較して、発話の明瞭さが発話明瞭さ判定用の閾値より大きい場合には、テキストＴｘ－１０の読み上げ結果の音声出力をより小さくしてもよい。

　また、出力制御部１４３は、信頼度が信頼度判定用の閾値より高い場合と比較して、信頼度が信頼度判定用の閾値より低い場合には、テキストＴｘ－１０の読み上げ結果の音声出力を大きくすることによって、ユーザＵ１にテキストＴｘ－１０の読み上げ結果を把握させやすくするとよい。一方、出力制御部１４３は、信頼度が信頼度判定用の閾値より低い場合と比較して、信頼度が信頼度判定用の閾値より高い場合には、テキストＴｘ－１０の読み上げ結果の音声出力をより小さくしてもよい。

　また、音声出力態様は、テキストＴｘ－１０の読み上げ結果の声質を含んでもよい。ここで、テキストＴｘ－１０の読み上げ結果の声質はどのように制御されてもよい。一例として、出力制御部１４３は、制御部１４０によって実行されているアプリケーション（例えば、ゲームアプリケーション）から出力される音に応じて、テキストＴｘ－１０の読み上げ結果の声質を制御してもよい。

　以上、テキストＴｘ－１０の読み上げ結果を聴くユーザＵ１に対して音声認識処理の精度を把握させる機能について説明した。

　［１．３．２．各種の入力モード］
　ところで、上記においては、音声認識処理結果として得られるテキストをそのままの形式で入力する場合について説明した。しかし、ユーザは、音声認識処理の結果として得られるテキストを他の形式に変換してから入力したいと考える場合もあり得る。例えば、ユーザは、音声認識処理の結果として得られるテキストから変換された記号を入力したいと考える場合もあり得る。また、ユーザは、音声認識処理の結果として得られるテキストから変換されたコマンドを入力したいと考える場合もあり得る。

　以下では、音声認識処理結果として得られるテキストをそのままの形式で入力するモードを「テキスト入力モード」と称する。また、音声認識処理の結果として得られるテキストから変換された記号を入力するモードを「記号入力モード」と称する。また、音声認識処理の結果として得られるテキストから変換されたコマンドを入力するモードを「コマンド入力モード」と称する。なお、テキスト入力モードにおいては、既に述べたような音声認識処理の精度に関する情報に基づく音声認識処理結果の音声出力態様の制御がなされてもよい。また、記号入力モードおよびコマンド入力モードでは、音声認識処理結果の音声出力は行われてもよいし、行われなくてよい。

　このとき、各入力モード（テキスト入力モード、記号入力モードおよびコマンド入力モード）の開始を表示部１３０によって表示されたオブジェクトの選択などによって行うようにした場合、表示されたオブジェクトにユーザの視点を移動させる必要があるため、ユーザに煩わしさを与える可能性がある。以下では、各入力モードの開始を容易に行うことが可能な技術を提案する。

　例えば、入力モードの開始は、所定の入力開始トリガが検出された場合に実行される。入力開始トリガは、音情報に対する音声認識処理の終了であってもよいし、操作入力部１１５に背面ボタンが設けられている場合には、その背面ボタンを押下する動作であってもよい。あるいは、入力モードの開始は、操作入力部１１５にタッチパッドが設けられている場合には、そのタッチパッドにおける所定位置をタッチする動作であってもよいし、所定角度を超えて操作入力部１１５を傾ける動作であってもよいし、操作入力部１１５のボタンを長押しする動作であってもよい。

　また、入力モードの開始は、入力開始トリガが検出された場合に行われてもよいし、音声認識処理結果が得られた後に行われてもよい。図１３は、入力開始トリガが検出された場合に入力モードが開始される例の概要について説明するための図である。まず、テキスト入力モードを開始するためのテキスト入力開始トリガが検出され、ユーザが所望の発話を行った場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られたテキストをそのままの形式によって認識結果画面１３３に表示させる（テキスト入力モードＭ１）。

　続いて、記号入力モードを開始するための記号入力開始トリガが検出され、「顔文字とはてな」と発話した場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られたテキスト「顔文字とはてな」を記号「：）？」に変換し、記号「：）？」を認識結果画面１３３に表示させる（記号入力モードＭ２）。

　一方、コマンド入力モードを開始するためのコマンド入力開始トリガが検出され、「斜字」と発話した場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られた所望のテキストを「斜字」に変換するコマンドを入力し、「斜字」に変換された後の所望のテキストを認識結果画面１３３に表示させる（コマンド入力モードＭ３）。

　なお、図１３には、テキスト入力モードから記号入力モードへの切り替え、および、テキスト入力モードからコマンド入力モードへの切り替えが行われる例が示されている。しかし、実行可能な入力モードの切り替えは、図１３に示した例に限定されない。例えば、入力モードの切り替えは、テキスト入力モード、記号入力モードおよびコマンド入力モードのうち、あらゆる２つの入力モードの間において双方向に行われ得る。

　図１４は、音声認識処理結果が得られた後に入力モードの開始が行われる例の第一の概要について説明するための図である。まず、テキスト入力開始トリガが検出され、テキスト入力モードにおいてユーザが所望の発話を行った場合を想定する。かかる場合、音声認識部１４２は、所望の発話に対する音声認識処理を行い、出力制御部１４３は、音声認識処理の結果として得られたテキストをそのままの形式によって認識結果画面１３３に表示させる（音声認識処理結果Ｍ０）。

　このとき、ユーザが、音声認識処理の結果として得られたテキストを、記号およびコマンドに変換する必要がないと考えた場合を想定する。かかる場合、出力制御部１４３は、テキスト入力開始トリガを検出すると、音声認識処理の結果として得られたテキストをそのまま確定させる（入力完了Ｍ４）。

　図１５は、音声認識処理結果が得られた後に入力モードの切り替えが行われる例の第二の概要について説明するための図である。図１４に示した例と同様に、テキスト入力開始トリガが検出され、テキスト入力モードにおいてユーザが所望の発話を行った場合を想定する。かかる場合、音声認識部１４２は、所望の発話に対する音声認識処理を行い、出力制御部１４３は、音声認識処理の結果として得られたテキストをそのままの形式によって認識結果画面１３３に表示させる（音声認識処理結果Ｍ０）。

　このとき、ユーザが、音声認識処理の結果として得られたテキストを、記号に変換したいと考えた場合を想定する。かかる場合、出力制御部１４３は、記号入力開始トリガを検出すると、音声認識処理の結果として得られたテキストをそのテキストに対応する記号に変換する（記号入力モードＭ２）。そして、出力制御部１４３は、テキストから変換された記号を確定させる（入力完了Ｍ４）。なお、入力モードは、記号入力モードの代わりにコマンド入力モードにも切り替えられ得る。

　図１６は、テキスト入力モードの後に記号入力モードが起動される例について説明するための図である。まず、テキスト入力開始トリガが検出され、テキスト入力モードにおいてユーザが所望の発話を行った場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られたテキストをそのままの形式によって認識結果画面１３３に表示させる（テキスト入力モードＭ１）。

　続いて、出力制御部１４３は、音声認識処理が終了した場合、自動的に記号入力モードを起動する。あるいは、出力制御部１４３は、所定の記号入力開始トリガが検出された場合、記号入力モードを起動する。ここでは、記号入力開始トリガがテキスト入力開始トリガと同一である場合を想定するが、記号入力開始トリガは、テキスト入力開始トリガと異なっていてもよい。

　続いて、ユーザが「顔文字とはてな」と発話した場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られたテキスト「顔文字とはてな」を記号「：）？」に変換し、記号「：）？」を認識結果画面１３３に表示させる（記号入力モードＭ２）。：）は笑顔を表す顔文字」である。その後、出力制御部１４３は、所定の音声認識終了トリガを検出すると、音声認識処理の結果として得られたテキストおよび記号「：）？」を確定させる（入力完了Ｍ４）。ここでは、音声認識終了トリガがテキスト入力開始トリガと同一である場合を想定するが、音声認識終了トリガは、テキスト入力開始トリガと異なっていてもよい。

　図１７は、テキスト入力モードの後に記号入力モードおよびコマンド入力モードが起動される例について説明するための図である。図１６に示した例と同様に、音声認識処理の結果として得られたテキストがそのままの形式によって認識結果画面１３３に表示され（テキスト入力モードＭ１）、音声認識処理の結果として得られたテキスト「顔文字とはてな」が変換された記号「：）？」が認識結果画面１３３に表示される（記号入力モードＭ２）。

　続いて、出力制御部１４３は、音声認識処理が終了した場合、自動的にコマンド入力モードを起動する。あるいは、出力制御部１４３は、所定のコマンド入力開始トリガが検出された場合、コマンド入力モードを起動する。ここでは、コマンド入力開始トリガがテキスト入力開始トリガと同一である場合を想定するが、コマンド入力開始トリガは、テキスト入力開始トリガと異なっていてもよい。

　続いて、ユーザが「斜字」と発話した場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られた所望のテキストおよび記号「：）？」を「斜字」に変換するコマンドを入力し、「斜字」に変換された後のテキストを認識結果画面１３３に表示させる（コマンド入力モードＭ３）。その後、出力制御部１４３は、所定の音声認識終了トリガを検出すると、音声認識処理の結果として得られた所望のテキストおよび記号「：）？」の「斜字」を確定させる（入力完了Ｍ４）。

　図１８および図１９は、最初にテキスト入力モードまたは記号入力モードが起動される例について説明するための図である。図１８に示すように、テキスト入力開始トリガが検出され、テキスト入力モードにおいてユーザが所望の発話を行った場合を想定する。かかる場合、音声認識部１４２は、所望の発話に対する音声認識処理を行い、出力制御部１４３は、音声認識処理の結果として得られたテキストをそのままの形式によって認識結果画面１３３に表示させる（テキスト入力モードＭ１）。

　このとき、ユーザが、音声認識処理の結果として得られたテキストを、記号に変換したいと考えた場合を想定する。かかる場合、出力制御部１４３は、記号入力開始トリガを検出すると、音声認識処理の結果として得られたテキストをそのテキストに対応する記号に変換する（記号入力モードＭ２）。一方、ユーザが、音声認識処理の結果として得られたテキストを、コマンドに変換したいと考えた場合を想定する。かかる場合、出力制御部１４３は、コマンド入力開始トリガを検出すると、音声認識処理の結果として得られたテキストをそのテキストに対応するコマンドを入力する（コマンド入力モードＭ３）。

　また、図１９に示すように、記号入力開始トリガが検出され、記号入力モードにおいてユーザが所望の発話を行った場合を想定する。かかる場合、音声認識部１４２は、所望の発話に対する音声認識処理を行い、出力制御部１４３は、音声認識処理の結果として得られたテキストを記号に変換し、記号を認識結果画面１３３に表示させる（記号入力モードＭ２）。

　このとき、ユーザが、テキストを入力したいと考えた場合を想定する。かかる場合、テキスト入力開始トリガが検出され、テキスト入力モードにおいてユーザが所望の発話を行うと、音声認識部１４２は、所望の発話に対する音声認識処理を行い、出力制御部１４３は、音声認識処理の結果として得られたテキストを認識結果画面１３３に表示させる（テキスト入力モードＭ１）。一方、ユーザが、コマンドを入力したいと考え、ユーザが「斜字」と発話した場合を想定する。かかる場合、出力制御部１４３は、コマンド入力開始トリガを検出すると、「斜字」に変換された後の記号を認識結果画面１３３に表示させる（コマンド入力モードＭ３）。

　また、出力制御部１４３は、過去に送受信したメッセージ（音声認識処理結果）の内容に基づいて、記号入力モードを自動的に起動するか否かを制御してもよい。図２０は、過去に送受信したメッセージの内容に基づいて、記号入力モードを自動的に起動する例について説明するための図である。図２０に示すように、過去に送受信したメッセージには、記号が４つ含まれており（顔文字２つとエクスクラメーションマーク２つとが含まれており）、次に記号入力が行われる可能性が高いと推定される場合を想定する。

　ここで、テキスト入力開始トリガが検出され、テキスト入力モードにおいてユーザが所望の発話を行った場合を想定する。かかる場合、音声認識部１４２は、所望の発話に対する音声認識処理を行い、出力制御部１４３は、音声認識処理の結果として得られたテキストをそのままの形式によって認識結果画面１３３に表示させる（テキスト入力モードＭ１）。続いて、出力制御部１４３は、過去に送受信したメッセージに基づいて次に記号入力が行われる可能性が高いと推定し、記号入力モードを自動的に起動する。

　続いて、ユーザが「顔文字とはてな」と発話した場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られたテキスト「顔文字とはてな」を記号「：）？」に変換し、記号「：）？」を認識結果画面１３３に表示させる（記号入力モードＭ２）。その後、出力制御部１４３は、所定の音声認識終了トリガを検出すると、音声認識処理の結果として得られたテキストおよび記号「：）？」を確定させる（入力完了Ｍ４）。ここでは、音声認識終了トリガがテキスト入力開始トリガと同一である場合を想定するが、音声認識終了トリガは、テキスト入力開始トリガと異なっていてもよい。

　図２１は、過去に送受信したメッセージの内容に基づいて、記号入力モードを自動的に起動しない例について説明するための図である。図２１に示すように、過去に送受信したメッセージには、記号が１つしか含まれておらず（記号としてエクスクラメーションマーク１つだけが含まれており）、次に記号入力が行われる可能性が低いと推定される場合を想定する。

　ここで、テキスト入力開始トリガが検出され、テキスト入力モードにおいてユーザが所望の発話を行った場合を想定する。かかる場合、音声認識部１４２は、所望の発話に対する音声認識処理を行い、出力制御部１４３は、音声認識処理の結果として得られたテキストをそのままの形式によって認識結果画面１３３に表示させる（テキスト入力モードＭ１）。続いて、出力制御部１４３は、過去に送受信したメッセージに基づいて次に記号入力が行われる可能性が低いと推定し、記号入力モードを自動的には起動しない。

　続いて、出力制御部１４３は、所定の音声認識終了トリガを検出すると、音声認識処理の結果として得られたテキストを確定させる（入力完了Ｍ５）。ここでは、音声認識終了トリガがテキスト入力開始トリガと同一である場合を想定するが、音声認識終了トリガは、テキスト入力開始トリガと異なっていてもよい。

　一方、記号入力開始トリガが検出され、ユーザが「顔文字とはてな」と発話した場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られたテキスト「顔文字とはてな」を記号「：）？」に変換し、記号「：）？」を認識結果画面１３３に表示させる（記号入力モードＭ２）。その後、出力制御部１４３は、所定の音声認識終了トリガを検出すると、音声認識処理の結果として得られたテキストおよび記号「：）？」を確定させる（入力完了Ｍ４）。ここでは、音声認識終了トリガがテキスト入力開始トリガと同一である場合を想定するが、音声認識終了トリガは、テキスト入力開始トリガと異なっていてもよい。

　なお、過去に送受信したメッセージの内容に基づいて、記号入力モードを自動的に起動するか否かを判断する手法は特に限定されない。例えば、出力制御部１４３は、所定期間において送受信したメッセージに含まれる記号の量が閾値を超えるか否かによって、起動入力モードを自動的に起動するか否かを判断してもよい。あるいは、出力制御部１４３は、所定期間において送受信したメッセージに対して、機械学習などによる統計的処理を適用することによって、記号入力モードを自動的に起動するか否かを判断してもよい。

　また、ここでは、出力制御部１４３が、送受信したメッセージの内容に基づいて、記号入力モードを自動的に起動するか否かを判断することとした。しかし、出力制御部１４３は、送信したメッセージと受信したメッセージとの双方の内容に基づいて、記号入力モードを自動的に起動するか否かを判断しなくてもよい。具体的には、出力制御部１４３は、送信したメッセージの内容のみに基づいて、記号入力モードを自動的に起動するか否かを判断してもよいし、受信したメッセージの内容のみに基づいて、記号入力モードを自動的に起動するか否かを判断してもよい。

　また、出力制御部１４３は、操作入力部１１５の例としてのゲーム機のコントローラの操作頻度に基づいて、コマンド入力モードを自動的に起動するか否かを制御してもよい。図２２は、コントローラの操作頻度に基づいて、コマンド入力モードを自動的に起動するか否かを制御する例について説明するための図である。図２２に示すように、直近Ｔ秒間のコントローラ操作頻度が閾値を超える場合と直近Ｔ秒間のコントローラ操作頻度が閾値を超えない場合とを想定する。

　ここで、テキスト入力開始トリガが検出され、テキスト入力モードにおいてユーザが所望の発話を行った場合を想定する。かかる場合、音声認識部１４２は、所望の発話に対する音声認識処理を行い、出力制御部１４３は、音声認識処理の結果として得られたテキストをそのままの形式によって認識結果画面１３３に表示させる（テキスト入力モードＭ１）。続いて、出力制御部１４３は、記号入力開始トリガが検出された場合、または、自動的に記号入力モードを起動する。

　続いて、ユーザが「顔文字とはてな」と発話した場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られたテキスト「顔文字とはてな」を記号「：）？」に変換し、記号「：）？」を認識結果画面１３３に表示させる（記号入力モードＭ２）。

　その後、出力制御部１４３は、直近Ｔ秒間のコントローラ操作頻度が閾値を超える場合には、ユーザがコントローラを操作するのは難しいと判断し、自動的にコマンド入力モードを起動する。ここで、ユーザが「斜字」と発話した場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られた所望のテキストと記号「：）？」とを「斜字」に変換するコマンドを入力し、斜字に変換された後の所望のテキストと記号「：）？」とを認識結果画面１３３に表示させる（コマンド入力モードＭ３）。

　一方、出力制御部１４３は、直近Ｔ秒間のコントローラ操作頻度が閾値を超えない場合には、ユーザがコントローラを操作するのは容易であると判断し、自動的にはコマンド入力モードを起動しない。ここで、所定の音声認識終了トリガを検出すると、音声認識処理の結果として得られたテキストおよび記号「：）？」を確定させる（入力完了Ｍ４）。なお、自動的にコマンド入力モードが起動されない場合であっても、コマンド入力開始トリガが検出された場合、出力制御部１４３は、コマンド入力モードを起動してよい。

　なお、コマンド入力モードを自動的に起動するか否かを制御する手法は特に限定されない。例えば、出力制御部１４３は、ゲームのシーン情報に基づいて、コマンド入力モードを自動的に起動するか否かを判断してもよい。例えば、出力制御部１４３は、ゲームのシーン情報がロード中を示す場合には、ユーザがゲームにさほど集中しなくて済むため、自動的にコマンド入力モードを起動しなくてよい。一方、出力制御部１４３は、ゲームのシーン情報が戦闘中を示す場合には、ユーザがゲームに集中していると推測されるため、自動的にコマンド入力モードを起動するとよい。

　あるいは、出力制御部１４３は、ユーザの集中度に基づいて、コマンド入力モードを自動的に起動するか否かを判断してもよい。例えば、出力制御部１４３は、集中度が閾値を超える場合には、コマンド入力モードを自動的に起動するとよい。一方、出力制御部１４３は、集中度が閾値を超えない場合には、コマンド入力モードを自動的に起動しなくてよい。集中度は、ユーザの視線に基づいて推定されてもよいし、ユーザの生体情報（例えば、発汗、心拍など）に基づいて推定されてもよい。

　また、出力制御部１４３は、ユーザの感情情報に基づいて、記号入力モードを自動的に起動するか否かを制御してもよい。図２３は、ユーザの感情情報に基づいて、記号入力モードを自動的に起動するか否かを制御する例について説明するための図である。図２３に示すように、ユーザの感情が強い場合とユーザの感情が弱い場合とを想定する。

　ここで、テキスト入力開始トリガが検出され、テキスト入力モードにおいてユーザが所望の発話を行った場合を想定する。かかる場合、音声認識部１４２は、所望の発話に対する音声認識処理を行い、出力制御部１４３は、音声認識処理の結果として得られたテキストをそのままの形式によって認識結果画面１３３に表示させる（テキスト入力モードＭ１）。

　このとき、出力制御部１４３は、ユーザの感情が閾値よりも強いと判断した場合には、次に記号入力が行われる可能性が高いと推定し、記号入力モードを自動的に起動する。続いて、ユーザが「顔文字とはてな」と発話した場合を想定する。かかる場合、出力制御部１４３は、音声認識処理の結果として得られたテキスト「顔文字とはてな」を記号「：）？」に変換し、記号「：）？」を認識結果画面１３３に表示させる（記号入力モードＭ２）。

　その後、出力制御部１４３は、所定の音声認識終了トリガを検出すると、音声認識処理の結果として得られたテキストおよび記号「：）？」を確定させる（入力完了Ｍ４）。ここでは、音声認識終了トリガがテキスト入力開始トリガと同一である場合を想定するが、音声認識終了トリガは、テキスト入力開始トリガと異なっていてもよい。

　一方、出力制御部１４３は、ユーザの感情が閾値よりも弱いと判断した場合には、次に記号入力が行われる可能性が低いと推定し、記号入力モードを自動的には起動しない。続いて、出力制御部１４３は、所定の音声認識終了トリガを検出すると、音声認識処理の結果として得られたテキストを確定させる（入力完了Ｍ５）。ここでは、音声認識終了トリガがテキスト入力開始トリガと同一である場合を想定するが、音声認識終了トリガは、テキスト入力開始トリガと異なっていてもよい。

　なお、ユーザの感情情報を判定する手法は特に限定されない。例えば、出力制御部１４３は、集音部１２０によって集音された音情報の解析結果に基づいて、ユーザの感情情報を判定してもよい。例えば、出力制御部１４３は、集音部１２０によって集音された音情報の抑揚変換が閾値よりも大きい場合には、ユーザの感情が閾値よりも強いと判定してよい。一方、出力制御部１４３は、集音部１２０によって集音された音情報の抑揚変換が閾値よりも小さい場合には、ユーザの感情が閾値よりも弱いと判定してよい。

　あるいは、出力制御部１４３は、集音部１２０によって集音された音情報の音量変化が閾値よりも大きい場合には、ユーザの感情が閾値よりも強いと判定してよい。一方、出力制御部１４３は、集音部１２０によって集音された音情報の音量変化が閾値よりも小さい場合には、ユーザの感情が閾値よりも弱いと判定してよい。

　また、出力制御部１４３は、画像入力部１１０によって入力された画像の解析結果に基づいて、ユーザの感情情報を判定してもよい。例えば、出力制御部１４３は、画像入力部１１０によって入力された画像から解析された表情が強い感情を示している場合には、ユーザの感情が閾値よりも強いと判定してよい。一方、出力制御部１４３は、画像入力部１１０によって入力された画像から解析された表情が弱い感情を示している場合には、ユーザの感情が閾値よりも弱いと判定してよい。

　以下、発話画面１３５の変形例を説明する。図２４は、発話画面１３５の変形例を示す図である。図２４に示すように、変形例に係る発話画面１３５Ｘは、記号が入力されている状態を示す「Ｉｃｏｎ」とテキストが入力されている状態を示す「Ｔｅｘｔ」とを含んでいる。

　図２５は、ユーザの発話に基づいてテキスト入力がなされている場合における発話画面１３５Ｘの例を示す図である。図２５に示すように、テキストが入力されている状態においては、出力制御部１４３は、音声認識処理結果として得られたテキスト「おはようございます」を認識結果画面１３３に表示する。また、テキストが入力されている状態においては、出力制御部１４３は、「Ｔｅｘｔ」という文字列が付されたインジケータ１３７を発話ボリュームに応じて伸び縮みさせてもよい。

　図２５は、ユーザの発話に基づいてテキスト入力がなされている場合における発話画面１３５Ｘの例を示す図である。図２５に示すように、テキストが入力されている状態においては、出力制御部１４３は、音声認識処理結果として得られたテキストを認識結果画面１３３に表示する。また、テキストが入力されている状態においては、出力制御部１４３は、「Ｔｅｘｔ」という文字列位置に対応する位置にあるインジケータ１３７を発話ボリュームに応じて伸び縮みさせてもよい。

　図２６は、ユーザの発話に基づいて記号入力がなされている場合における発話画面１３５Ｙの例を示す図である。図２６に示すように、既にテキスト「おはようございます」の入力が完了し、記号入力開始トリガが検出された場合、または、自動的に記号入力モードが起動され、記号が入力されている状態においては、出力制御部１４３は、音声認識処理結果として新たに得られたテキスト「顔文字とはてな」を記号に変換して認識結果画面１３３に表示する。また、記号が入力されている状態においては、出力制御部１４３は、「Ｉｃｏｎ」という文字列位置に対応する位置にあるインジケータ１３８を発話ボリュームに応じて伸び縮みさせてもよい。

　このようにテキスト入力がなされている状態におけるインジケータ１３７と記号入力がなされている状態におけるインジケータ１３８との間において、伸びる方向を異ならせることによって直感的に現在の入力モードをユーザに把握させることが可能である。さらに、インジケータ１３７の色とインジケータ１３８の色とを異ならせることによって直感的に現在の入力モードをユーザに把握させることが可能である。

　［１．４．ハードウェア構成例］
　次に、図２７を参照して、本開示の実施形態に係る情報処理システム１０のハードウェア構成について説明する。図２７は、本開示の実施形態に係る情報処理システム１０のハードウェア構成例を示すブロック図である。

　図２７に示すように、情報処理システム１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０３、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０５を含む。また、情報処理システム１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理システム１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理システム１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理システム１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

　入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理システム１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

　出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、ＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７は、情報処理システム１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

　ストレージ装置９１９は、情報処理システム１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理システム１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

　接続ポート９２３は、機器を情報処理システム１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理システム１０と外部接続機器９２９との間で各種のデータが交換され得る。

　通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

　撮像装置９３３は、例えば、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）またはＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理システム１０の筐体の姿勢など、情報処理システム１０自体の状態に関する情報や、情報処理システム１０の周辺の明るさや騒音など、情報処理システム１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

　＜２．むすび＞
　以上説明したように、本開示の実施形態によれば、集音に基づく音情報に対する音声認識処理の精度に関する情報を取得する情報取得部１４１と、音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御する出力制御部１４３と、を備える、情報処理装置（制御部）１４０が提供される。かかる構成によれば、テキストの読み上げ結果の音声出力態様によって、音声認識処理の精度をユーザに把握させることが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上記では、一文の中において（あるいは、一句の中において）、音声出力態様の制御を異ならせてもよい。例えば、出力制御部１４３は、音声認識処理を誤りやすい文頭部分の音声出力速度を他の部分の音声出力速度よりも大きくしてもよい。

　また、音声認識処理結果があまりに長くなってしまった場合には、音声認識処理結果の読み上げ結果をユーザが聴くのは困難な可能性がある。そのため、出力制御部１４３は、音声認識処理結果がある程度を超えて長くなってしまった場合には、その音声認識処理結果の全体または一部の読み上げを省略してもよい。

　また、例えば、上記では、テキストＴｘ－１０の読み上げ結果が出力されるとともに、テキストＴｘ－１０が表示される例を説明した。しかし、テキストＴｘ－１０は表示されなくてもよい。すなわち、情報処理システム１０は、表示部１３０が存在しないシステム（例えば、首かけ型のデバイスなど）であってもよい。

　また、上記では、情報処理システム１０がゲーム機およびテレビジョン受像機を有しており、ユーザＵ１がゲームプレイ中にチャットアプリケーションを利用してオンラインチャットを行う例を示した。しかし、情報処理システム１０のハードウェア構成は、かかる例に限定されない。例えば、情報処理システム１０は、ウェアラブルデバイス（例えば、腕時計、ＨＭＤ、首かけ型のデバイスなど）であってもよいし、家庭内で使用される据え置き型のデバイスであってもよいし、車載デバイスであってもよい。

　また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した制御部１４０が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

　なお、上述した情報処理システム１０の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部１１０、操作入力部１１５、生体情報入力部１１８、集音部１２０、通信部１２５、表示部１３０および音出力部１５０と制御部１４０とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、制御部１４０が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部１１０、操作入力部１１５、生体情報入力部１１８、集音部１２０、通信部１２５、表示部１３０および音出力部１５０が当該サーバにネットワークを介して接続されたクライアントに相当し得る。

　また、制御部１４０が有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、情報取得部１４１と、音声認識部１４２と、出力制御部１４３および出力部１４４のうち、一部は制御部１４０とは異なる装置に存在していてもよい。例えば、音声認識部１４２および出力制御部１４３は、情報取得部１４１と出力部１４４とを備える制御部１４０とは異なるサーバに存在していてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　集音に基づく音情報に対する音声認識処理の精度に関する情報を取得する情報取得部と、
　前記音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御する出力制御部と、
　を備える、情報処理装置。
（２）
　前記音声認識処理の精度に関する情報は、前記音情報に含まれるユーザの発話に関する情報を含む、
　前記（１）に記載の情報処理装置。
（３）
　前記ユーザの発話に関する情報は、前記音情報に含まれる前記ユーザの発話音量、前記ユーザの発話の明瞭さ、および、前記ユーザの発話長さのうち少なくともいずれか一つを含む、
　前記（２）に記載の情報処理装置。
（４）
　前記音声認識処理の精度に関する情報は、前記音情報に含まれるユーザの発話に対応するノイズに関する情報を含む、
　前記（１）～（３）のいずれか一項に記載の情報処理装置。
（５）
　前記ノイズに関する情報は、前記音情報に含まれるノイズの音量を含む、
　前記（４）に記載の情報処理装置。
（６）
　前記音声認識処理の精度に関する情報は、前記音声認識処理結果の信頼度を含む、
　前記（１）～（５）のいずれか一項に記載の情報処理装置。
（７）
　前記出力制御部は、ユーザに関する情報に基づいて、前記音声出力態様を制御する、
　前記（６）に記載の情報処理装置。
（８）
　前記ユーザに関する情報は、前記ユーザの行動情報、前記ユーザの姿勢情報、前記ユーザによる設定情報、前記ユーザの周囲の環境情報、前記ユーザの生体情報および前記ユーザの感情情報のうち少なくともいずれか一つを含む、
　前記（７）に記載の情報処理装置。
（９）
　前記音声認識処理の精度に関する情報は、前記音声認識処理結果の量を含む、
　前記（１）～（８）のいずれか一項に記載の情報処理装置。
（１０）
　前記出力制御部は、前記音声認識処理結果が利用されるコンテンツの種類に基づいて、前記音声出力態様を制御する、
　前記（１）～（９）のいずれか一項に記載の情報処理装置。
（１１）
　前記出力制御部は、前記音声認識処理の実行頻度に基づいて、前記音声出力態様を制御する、
　前記（１）～（１０）のいずれか一項に記載の情報処理装置。
（１２）
　前記音声出力態様は、前記音声認識処理結果の音声出力速度を含む、
　前記（１）～（１１）のいずれか一項に記載の情報処理装置。
（１３）
　前記音声出力態様は、前記音声認識処理結果の音声出力の大きさを含む、
　前記（１）～（１２）のいずれか一項に記載の情報処理装置。
（１４）
　前記音声出力態様は、前記音声認識処理結果の音声出力前に出力される出力音声の種類を含む、
　前記（１）～（１３）のいずれか一項に記載の情報処理装置。
（１５）
　前記音声出力態様は、前記音声認識処理結果の声質を含む、
　前記（１）～（１４）のいずれか一項に記載の情報処理装置。
（１６）
　前記出力制御部は、所定の条件が満たされた場合に、前記音声認識処理結果が出力部によって音声出力されないように前記出力部を制御する、
　前記（１）～（１５）のいずれか一項に記載の情報処理装置。
（１７）
　前記所定の条件は、ユーザの視線に関する条件、ユーザの位置に関する条件、前記音声認識処理結果の表示サイズ、および、前記音声認識処理結果の信頼度に関する条件のうち少なくともいずれか一つを含む、
　前記（１６）に記載の情報処理装置。
（１８）
　前記所定の条件は、ユーザによって前記音声認識処理の再起動を指示するための操作が入力されたという条件、および、前記音声認識処理結果の送信を指示するための操作が入力されたという条件のうち少なくともいずれか一つを含む、
　前記（１６）または（１７）に記載の情報処理装置。
（１９）
　集音に基づく音情報に対する音声認識処理の精度に関する情報を取得することと、
　プロセッサにより、前記音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御することと、
　を含む、情報処理方法。
（２０）
　コンピュータを、
　集音に基づく音情報に対する音声認識処理の精度に関する情報を取得する情報取得部と、
　前記音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御する出力制御部と、
　を備える情報処理装置として機能させるためのプログラム。

　１０　　情報処理システム
　１１０　画像入力部
　１１５　操作入力部
　１１８　生体情報入力部
　１２０　集音部
　１２５　通信部
　１３０　表示部
　１３１　映像表示画面
　１３２　音声認識処理開始ボタン
　１３３　認識結果画面
　１３４　チャット画面
　１３５　発話画面
　１３６　音声認識処理終了ボタン
　１４０　情報処理装置（制御部）
　１４１　情報取得部
　１４２　音声認識部
　１４３　出力制御部
　１４４　出力部
　１５０　音出力部
　Ｕ１　　ユーザ

Claims

　集音に基づく音情報に対する音声認識処理の精度に関する情報を取得する情報取得部と、
　前記音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御する出力制御部と、
　を備える、情報処理装置。
　前記音声認識処理の精度に関する情報は、前記音情報に含まれるユーザの発話に関する情報を含む、
　請求項１に記載の情報処理装置。
　前記ユーザの発話に関する情報は、前記音情報に含まれる前記ユーザの発話音量、前記ユーザの発話の明瞭さ、および、前記ユーザの発話長さのうち少なくともいずれか一つを含む、
　請求項２に記載の情報処理装置。
　前記音声認識処理の精度に関する情報は、前記音情報に含まれるユーザの発話に対応するノイズに関する情報を含む、
　請求項１に記載の情報処理装置。
　前記ノイズに関する情報は、前記音情報に含まれるノイズの音量を含む、
　請求項４に記載の情報処理装置。
　前記音声認識処理の精度に関する情報は、前記音声認識処理結果の信頼度を含む、
　請求項１に記載の情報処理装置。
　前記出力制御部は、ユーザに関する情報に基づいて、前記音声出力態様を制御する、
　請求項６に記載の情報処理装置。
　前記ユーザに関する情報は、前記ユーザの行動情報、前記ユーザの姿勢情報、前記ユーザによる設定情報、前記ユーザの周囲の環境情報、前記ユーザの生体情報および前記ユーザの感情情報のうち少なくともいずれか一つを含む、
　請求項７に記載の情報処理装置。
　前記音声認識処理の精度に関する情報は、前記音声認識処理結果の量を含む、
　請求項１に記載の情報処理装置。
　前記出力制御部は、前記音声認識処理結果が利用されるコンテンツの種類に基づいて、前記音声出力態様を制御する、
　請求項１に記載の情報処理装置。
　前記出力制御部は、前記音声認識処理の実行頻度に基づいて、前記音声出力態様を制御する、
　請求項１に記載の情報処理装置。
　前記音声出力態様は、前記音声認識処理結果の音声出力速度を含む、
　請求項１に記載の情報処理装置。
　前記音声出力態様は、前記音声認識処理結果の音声出力の大きさを含む、
　請求項１に記載の情報処理装置。
　前記音声出力態様は、前記音声認識処理結果の音声出力前に出力される出力音声の種類を含む、
　請求項１に記載の情報処理装置。
　前記音声出力態様は、前記音声認識処理結果の声質を含む、
　請求項１に記載の情報処理装置。
　前記出力制御部は、所定の条件が満たされた場合に、前記音声認識処理結果が出力部によって音声出力されないように前記出力部を制御する、
　請求項１に記載の情報処理装置。
　前記所定の条件は、ユーザの視線に関する条件、ユーザの位置に関する条件、前記音声認識処理結果の表示サイズ、および、前記音声認識処理結果の信頼度に関する条件のうち少なくともいずれか一つを含む、
　請求項１６に記載の情報処理装置。
　前記所定の条件は、ユーザによって前記音声認識処理の再起動を指示するための操作が入力されたという条件、および、前記音声認識処理結果の送信を指示するための操作が入力されたという条件のうち少なくともいずれか一つを含む、
　請求項１６に記載の情報処理装置。
　集音に基づく音情報に対する音声認識処理の精度に関する情報を取得することと、
　プロセッサにより、前記音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御することと、
　を含む、情報処理方法。
　コンピュータを、
　集音に基づく音情報に対する音声認識処理の精度に関する情報を取得する情報取得部と、
　前記音声認識処理の精度に関する情報に基づいて、音声認識処理結果の音声出力態様を制御する出力制御部と、
　を備える情報処理装置として機能させるためのプログラム。