WO2018079294A1

WO2018079294A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2018079294A1
Application number: PCT/JP2017/037117
Authority: WO
Inventors: 真一河野; 祐平滝; 佑輔中川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-10-27
Filing date: 2017-10-13
Publication date: 2018-05-03
Anticipated expiration: 2019-04-27
Also published as: US20190267028A1; JPWO2018079294A1; EP3534363A1; EP3534363A4

Abstract

本技術は、情報入力の利便性を向上させることができるようにする情報処理装置及び情報処理方法に関する。情報処理装置は、所定の入力条件を満たす第１の音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記第１の音声に基づいて前記入力情報を加工した加工情報のうち少なくとも１つを含むフィードバック情報を生成するフィードバック情報生成部を備える。本技術は、例えば、音声認識を行ったり、音声認識の結果に基づいて処理を行うサーバ、クライアント、アプリケーションプログラムに適用できる。

Description

情報処理装置及び情報処理方法

　本技術は、情報処理装置及び情報処理方法に関し、特に、情報入力の利便性を向上させるようにした情報処理装置及び情報処理方法に関する。

　従来、自然言語処理に関する技術が各種提案されている。例えば、下記特許文献１には、複数の語句のうちユーザに選択された語句に基づいて文を作成する技術が開示されている。

　また、音声認識に関する技術も各種提案されている。音声認識では、ユーザにより入力された音声を文字列に変換することができる。

特開２０１２－５３６３４号公報

　しかしながら、従来の音声認識の技術では、音声の抑揚、スピード、音の長さ等の表現の違いを、変換後の文字列に適切に反映することは困難である。例えば、"What a cooooooooool game"のように、ユーザの感情を表すために通常の単語より母音の数を増やした表現の文章を音声認識により得ることは難しい。従って、例えば、ユーザは、音声認識により"What a cool game"という文字列を得た後に、手動で"o"を入力したり、或いは、"What a cooooooooool game"という文字列を全て手動で入力する必要がある。

　そこで、本技術は、情報入力の利便性を向上させるようにするものである。

　本技術の第１の側面の情報処理装置は、所定の入力条件を満たす第１の音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記第１の音声に基づいて前記入力情報を加工した加工情報のうち少なくとも１つを含むフィードバック情報を生成するフィードバック情報生成部を備える。

　第２の音声を文字列に変換することにより前記入力情報を取得する音声認識部をさらに設けることができる。

　前記入力条件には、前記第２の音声の入力後に前記第１の音声が所定のタイミングで入力されることを含ませることができる。

　前記入力条件には、前記第１の音声と前記第２の音声の音量差が所定の条件を満たすことを含ませることができる。

　前記入力条件には、前記第１の音声の特徴量が所定の条件を満たすことを含ませることができる。

　前記入力条件には、前記第１の音声において所定の音素が所定の長さ以上連続することを含ませることができる。

　前記フィードバック情報生成部には、前記第１の音声の特徴量に基づいて、前記入力レベルを設定させることができる。

　前記フィードバック情報生成部には、前記第１の音声の継続時間に基づいて、前記入力レベルを設定させることができる。

　前記フィードバック情報生成部には、前記第１の音声の音量に基づいて、前記入力レベルを設定させることができる。

　前記フィードバック情報生成部には、前記入力情報に文字列を付加することにより前記加工情報を生成させることができる。

　前記フィードバック情報生成部には、前記入力情報の所定の文字又は記号を繰り返すことにより前記加工情報を生成させることができる。

　前記フィードバック情報生成部には、前記入力情報の所定の品詞の単語の所定の文字又は記号を繰り返すことにより前記加工情報を生成させることができる。

　前記フィードバック情報生成部には、前記第１の音声の特徴量に基づいて、前記入力情報に付加する文字列の量を調整させることができる。

　前記フィードバック情報には、前記入力情報及び前記入力レベルを含ませることができる。

　本技術の第１の側面の情報処理方法は、所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記音声に基づいて前記入力情報を加工した加工情報のうち少なくとも１つを含むフィードバック情報を生成するフィードバック情報生成ステップを含む。

　本技術の第２の側面の情報処理装置は、所定の入力条件を満たす第１の音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行部を備える。

　前記実行部には、前記入力レベルに応じたレベルで前記入力情報の加工を行わせることができる。

　前記入力情報を、第２の音声により入力されるコマンドとし、前記実行部には、前記コマンドに対応する処理を前記入力レベルに応じたレベルで実行させることができる。

　前記実行部には、前記入力情報に対して、前記入力レベルに応じたレベルで反応させることができる。

　本技術の第２の側面の情報処理方法は、所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行ステップを含む。

　本技術の第１の側面においては、所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記音声に基づいて前記入力情報を加工した加工情報のうち少なくとも１つを含むフィードバック情報が生成される。

　本技術の第２の側面においては、所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理が実行される。

　本技術の第１の側面又は第２の側面によれば、情報入力の利便性が向上する。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した情報処理システムの一実施の形態を示すブロック図である。情報処理システムの処理の概要を説明するための図である。クライアントの処理を説明するためのフローチャートである。クライアントの処理中に表示される画像の例を示す図である。クライアントの処理中に表示される画像の例を示す図である。クライアントの処理中に表示される画像の例を示す図である。入力情報の加工方法の例を示す図である。サーバの処理を説明するためのフローチャートである。サーバの処理を説明するためのフローチャートである。入力レベルの設定方法の例を示す図である。入力情報の加工方法の例を示す図である。本技術を対話型エージェントに適用した場合の例を説明するための図である。本技術を対話型エージェントに適用した場合の例を説明するための図である。本技術を音声コマンドによる操作に適用した場合の例を説明するための図である。本技術を音声コマンドによる操作に適用した場合の例を説明するための図である。コンピュータの構成例を示すブロック図である。

　以下、発明を実施するための形態（以下、「実施形態」と記述する）について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例
　３．応用例

　＜＜１．実施の形態＞＞
　＜１－１．情報処理システムの構成例＞
　まず、図１を参照して、本技術を適用した情報処理システム１０の構成例について説明する。

　情報処理システム１０は、ユーザが入力した音声の認識を行い、認識結果に対応した処理を行うシステムである。情報処理システム１０は、クライアント１１、サーバ１２、及び、ネットワーク１３により構成される。クライアント１１とサーバ１２は、ネットワーク１３を介して相互に接続されている。

　なお、クライアント１１が１つのみ図示されているが、実際には複数のクライアント１１がネットワーク１３に接続され、複数のユーザがクライアント１１を介して情報処理システム１０を利用することが可能である。

　クライアント１１は、ユーザが入力した音声を示す音声データをサーバ１２に送信し、送信した音声データに対するフィードバック情報をサーバ１２から受信し、フィードバック情報に対応する処理を行う。

　例えば、クライアント１１は、スマートフォン、タブレット、携帯電話機、ノート型のパーソナルコンピュータ等の携帯情報端末、ウエアラブルデバイス、デスクトップ型のパーソナルコンピュータ、ゲーム機、動画再生装置、音楽再生装置等により構成される。また、ウエアラブルデバイスには、例えば、眼鏡型、腕時計型、ブレスレット型、ネックレス型、ネックバンド型、イヤフォン型、ヘッドセット型、ヘッドマウント型等の各種の方式を採用することができる。

　クライアント１１は、音声入力部２１、操作部２２、表示部２３、提示部２４、通信部２６、制御部２７、及び、記憶部２８を備える。制御部２７は、入出力制御部４１、提示制御部４２、及び、実行部４３を備える。音声入力部２１、操作部２２、表示部２３、提示部２４、通信部２６、制御部２７、及び、記憶部２８は、バス２９を介して相互に接続されている。

　音声入力部２１は、例えばマイクロフォンにより構成される。マイクロフォンの数は、任意に設定することができる。音声入力部２１は、周囲の音声を収集し、収集した音声を示す音声データを制御部２７に供給したり、記憶部２８に記憶させたりする。

　操作部２２は、各種の操作部材により構成され、クライアント１１の操作に用いられる。例えば、操作部２２は、コントローラ、リモートコントローラ、タッチパネル、ハードウエアボタン等により構成される。操作部２２は、操作部２２に対する操作の内容等を示す操作データを制御部２７に供給する。

　表示部２３は、例えばディスプレイにより構成される。表示部２３は、提示制御部４２の制御の下に、各種の画像、ＧＵＩ（Graphical User Interface）、各種のアプリケーションプログラムやサービスの画面等を表示する。

　提示部２４は、例えば、スピーカ、振動デバイス、他の連携デバイス等により構成される。提示部２４は、提示制御部４２の制御の下に、フィードバック情報に対応する処理を実行する際の各種の情報の提示等を行う。

　センサ部２５は、カメラ、距離センサ、ＧＰＳ（Global Positioning System）受信機、加速度センサ、ジャイロセンサ等の各種のセンサを備える。センサ部２５は、各センサの検出結果を示すセンサデータを制御部２７に供給したり、記憶部２８に記憶させたりする。

　通信部２６は、各種の通信デバイスにより構成される。通信部２６の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部２６が、複数の通信方式に対応していてもよい。通信部２６は、ネットワーク１３を介してサーバ１２と通信を行い、各種のデータの送受信を行う。通信部２６は、サーバ１２から受信したデータを制御部２７に供給したり、記憶部２８に記憶させたりする。

　制御部２７は、例えば、各種のプロセッサ等により構成される。

　入出力制御部４１は、各種のデータの入出力を制御する。例えば、入出力制御部４１は、音声入力部２１からの音声データ、操作部２２からの操作データ、及び、センサ部２５からのセンサデータの中からサーバ１２の処理に必要なデータを抽出し、抽出したデータを、通信部２６及びネットワーク１３を介して、サーバ１２に送信する。また、例えば、入出力制御部４１は、通信部２６及びネットワーク１３を介して、フィードバック情報等をサーバ１２から受信する。

　提示制御部４２は、表示部２３及び提示部２４による各種の情報等の提示を制御する。

　実行部４３は、各種のアプリケーションプログラム（以下、ＡＰＰと称する）を実行することにより、各種の処理を実行する。

　記憶部２８は、クライアント１１の処理に必要なプログラム、データ等を記憶する。

　サーバ１２は、クライアント１１から受信した音声データに対して音声認識を行い、認識結果に基づいてフィードバック情報を生成し、フィードバック情報を、ネットワーク１３を介してクライアント１１に送信する。サーバ１２は、通信部６１、制御部６２、及び、記憶部６３を備える。制御部６２は、音処理部７１、画像処理部７２、自然言語処理部７３、音声認識部７４、ジェスチャ認識部７５、操作認識部７６、及び、フィードバック情報生成部７７を備える。通信部６１、制御部６２、及び、記憶部６３は、バス６４を介して相互に接続されている。

　通信部６１は、各種の通信デバイスにより構成される。通信部６１の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部６１が、複数の通信方式に対応していてもよい。通信部６１は、ネットワーク１３を介してクライアント１１と通信を行い、各種のデータの送受信を行う。通信部６１は、クライアント１１から受信したデータを制御部６２に供給したり、記憶部６３に記憶させたりする。

　制御部６２は、例えば、各種のプロセッサ等により構成される。

　音処理部７１は、音声データから各種の特徴量を抽出する。音処理部７１が抽出する特徴量は特に限定されるものではないが、例えば、音素、音量、抑揚、長さ、スピード等が含まれる。

　画像処理部７２は、画像データから各種の特徴量を抽出する。画像処理部７２が抽出する特徴量は特に限定されるものではないが、例えば、人のジェスチャの認識に適した特徴量が含まれる。

　自然言語処理部７３は、形態素解析、構文解析、モダリティ解析等の自然言語処理を行う。

　音声認識部７４は、音声認識処理を行い、入力された音声を文字列に変換する。

　ジェスチャ認識部７５は、画像処理部７２により抽出された特徴量等に基づいて、画像データに写っている人のジェスチャを認識する。

　操作認識部７６は、クライアント１１から取得した操作データに基づいて、クライアント１１で行われた操作を認識する。

　フィードバック情報生成部７７は、音処理部７１、画像処理部７２、自然言語処理部７３、音声認識部７４、ジェスチャ認識部７５、及び、操作認識部７６の処理の結果等に基づいて、フィードバック情報を生成する。フィードバック情報は、クライアント１１からの音声データに対して音声認識を行うことにより得られる入力情報、入力情報のレベルを示す入力レベル、及び、入力レベルに基づいて入力情報を加工した加工情報のうち少なくとも１つ以上を含む。また、例えば、フィードバック情報は、入力情報に対して自然言語処理を行った結果等を含む。

　記憶部６３は、サーバ１２の処理に必要なプログラム、データ等を記憶する。

　なお、以下、クライアント１１（通信部２６）とサーバ１２（通信部６１）がネットワーク１３を介して通信を行う場合の”ネットワーク１３を介して”の記載は省略する。以下、クライアント１１の各部がバス２９を介してデータの授受を行う場合の”バス２９を介して”の記載は省略する。以下、サーバ１２の各部がバス６４を介してデータの授受を行う場合の”バス６４を介して”の記載は省略する。

　＜１－２．情報処理システム１０の処理の概要＞
　次に、図２を参照して、情報処理システム１０の処理の概要について説明する。

　まず、ユーザは、入力情報を入力するための情報入力用音声、及び、入力レベルを設定するための入力レベル設定用音声をクライアント１１に入力する。このとき、入力レベル設定用音声は、所定の入力条件を満たすように入力される。クライアント１１（又は、クライアント１１で実行されるＡＰＰ）は、情報入力用音声及び入力レベル設定用音声を示す音声データをサーバ１２に送信する。

　サーバ１２は、情報入力用音声に対して音声認識を行い、情報入力用音声を文字列に変換することにより、入力情報を取得する。また、サーバ１２は、入力レベル設定用音声に基づいて、入力レベルを設定する。入力レベルは、入力情報の各種のレベルを示す。入力レベルは、例えば、入力情報を用いて処理を行う際のフィードバックレベル等に用いられる。例えば、入力レベルは、入力情報が表現する感情のレベル、入力情報に基づいて行われる処理のレベル、入力情報の質や量（例えば、大きさ、長さ、厚さ、重さ、品質等）のレベルを示す。そして、サーバ１２は、入力情報及び入力レベルを含むフィードバック情報を生成し、クライアント１１に送信する。

　クライアント１１（又は、クライアント１１で実行されるＡＰＰ）は、フィードバック情報に対応した処理を実行する。例えば、クライアント１１は、音声認識により得られた入力情報（テキスト情報）を入力レベルに応じたレベルで加工する処理を実行する。例えば、クライアント１１は、音声コマンドを音声認識により認識したコマンドに対応する処理を入力レベルに応じたレベルで実行する。例えば、クライアント１１は、音声認識により得られた入力情報に対して、入力レベルに応じたレベルで反応する処理を実行する。

　なお、例えば、入力情報を、クライアント１１からではなく、直接サーバ１２に供給したり、他のサーバからサーバ１２に供給したりすることも可能である。

　＜１－３．情報処理システム１０の処理の具体例＞
　次に、図３乃至図１１を参照して、情報処理システム１０の処理の具体例について説明する。

　（クライアント１１の処理）
　まず、図３のフローチャートを参照して、クライアント１１の処理について説明する。この処理は、例えば、ユーザが操作部２２を介して音声認識の実行の指示を入力したとき開始される。

　なお、以下、ユーザが"What a cool game"という文章を入力情報として音声で入力した後、入力レベル設定用音声を入力した場合に、情報処理システム１０が、入力された文章を加工する処理を具体例に挙げて説明する。

　ステップＳ１において、クライアント１１は、音声認識の実行を依頼する。具体的には、実行部４３は、音声認識の開始を指示するコマンドである音声認識開始命令を生成する。入出力制御部４１は、通信部２６を介して、音声認識開始命令をサーバ１２に送信する。このとき、入出力制御部４１は、クライアント１１の種類、又は、クライアント１１において音声認識の結果を使用するＡＰＰの種類を示す情報等を、必要に応じて音声認識開始命令に添付する。

　ステップＳ２において、クライアント１１は、音声入力を受け付ける。具体的には、例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、ユーザに音声の入力を促す。例えば、表示部２３に表示されている画像が、図４の画像１０１から画像１０２に変化し、音声入力を受け付けていることがユーザに示される。

　これに対して、ユーザは、認識させたい文章を音声により入力する。入出力制御部４１は、ユーザにより入力された音声（情報入力用音声）を示す音声データを音声入力部２１から取得し、通信部２６を介してサーバ１２に送信する処理を開始する。また、入出力制御部４１は、必要に応じて、操作部２２から供給される操作データ、及び、センサ部２５から供給されるセンサデータを、通信部２６を介してサーバ１２に送信する処理を開始する。

　サーバ１２は、後述する図８のステップＳ５２において、クライアント１１からの音声データに対する音声認識を開始し、ステップＳ６４又はステップＳ６５において、フィードバック情報を送信する。フィードバック情報には、例えば、音声認識の認識結果として得られるテキスト情報である入力情報、及び、入力情報に対して自然言語処理を行った結果が含まれる。なお、例えば、音声認識の途中にフィードバック情報を送信する場合には、音声認識の途中経過を示すテキスト情報（すなわち、入力情報の一部）がフィードバック情報に含まれる。

　ステップＳ３において、入出力制御部４１は、フィードバック情報を受信したか否かを判定する。入出力制御部４１は、通信部２６を介して、フィードバック情報をサーバ１２から受信した場合、フィードバック情報を受信したと判定し、処理はステップＳ４に進む。

　ステップＳ４において、クライアント１１は、フィードバック情報に対応した処理を行う。

　例えば、提示制御部４２は、フィードバック情報に音声認識の途中経過を示すテキスト情報が含まれる場合、図４の左から３番目の例に示されるように、音声入力中を示す画像１０３、及び、音声認識の途中経過を示す画像１０４を表示部２３に表示させる。

　また、例えば、提示制御部４２は、サーバ１２からのフィードバック情報（音声認識の結果）を待っている間、図４の右端の例に示されるように、解析中であることを示す画像１０５を表示部２３に表示させる。

　さらに、例えば、提示制御部４２は、フィードバック情報に音声認識の最終結果を示す入力情報が含まれる場合、図５の左端の例に示されるように、音声認識の最終結果を示す画像１０６を表示部２３に表示させる。

　その後、処理はステップＳ５に進む。

　一方、ステップＳ３において、フィードバック情報を受信していないと判定された場合、ステップＳ４の処理はスキップされ、処理はステップＳ５に進む。

　ステップＳ５において、入出力制御部４１は、入力レベルの入力の受付が指示されたか否かを判定する。入力レベルの入力の受付が指示されていないと判定された場合、処理はステップＳ３に戻る。

　その後、ステップＳ５において、入力レベルの入力の受付が指示されたと判定されるまで、ステップＳ３乃至ステップＳ５の処理が繰り返し実行される。

　一方、ステップＳ５において、入出力制御部４１は、通信部２６を介して、後述する入力レベル入力開始命令をサーバ１２から受信した場合、入力レベルの入力の受付が指示されたと判定し、処理はステップＳ６に進む。

　ステップＳ６において、クライアント１１は、入力レベルの入力の受付を開始する。例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、ユーザに入力レベルの入力を促す。例えば、図５の中央の例に示されるように、文章の加工を３秒間受け付けるメッセージを含む画像１０７が表示部２３に表示される。次に、図５の右端の例に示されるように、文章の加工を行うための入力レベルの入力を受け付けている旨を示すメッセージを含む画像１０８が表示部２３に表示される。

　これに対して、ユーザは、入力レベルを設定するための入力レベル設定用音声を入力する。このとき、例えば、提示制御部４２は、図６の左端の例に示されるように、入力レベル設定用音声を入力中であることを示す画像１０９を表示部２３に表示させる。

　また、例えば、特徴量が所定の条件を満たす音声が、入力レベル設定用音声として入力される。具体的には、例えば、音素として母音が所定長さ以上連続する音声が、入力レベル設定用音声として入力される。この場合、入力レベル設定用音声により入力される文章は、情報入力用音声と同じであってもよいし、異なっていてもよい。例えば、前者の場合、"What a cooooooooool game"のように、文章内の母音の少なくとも一部が伸ばされる。一方、後者の場合、"おーーおーーおーー"のように、文章内の母音の少なくとも一部を伸ばした音声が入力される。また、後者の場合、必ずしも意味のある文章を入力する必要はなく、例えば、単なる音の並びであってもよい。

　また、例えば、所定の音素が所定の長さ以上連続する音声が、入力レベル設定用音声として入力される。例えば、"んー"や"ohhhhhhhhhhhhhhhhh"のように、所定の音素が連続する音声が入力される。

　さらに、例えば、直前に入力された情報入力用音声と比較して、相対的に音量が大きい音声又は小さい音声が入力レベル設定用音声として入力される。すなわち、情報入力用音声との音量差が所定の条件を満たす音声が、入力レベル設定用音声として入力される。この場合、入力レベル設定用音声により入力される文章は、情報入力用音声と同じでもよいし、異なっていてもよい。後者の場合、例えば、"really"のような意味のある文章を入力してもよいし、特に意味のない文章を入力してもよい。また、例えば、情報入力用音声との間の音量差に閾値を設け、情報入力用音声との音量差が閾値以上の音声が、入力レベル設定用音声として認識されるようにしてもよい。さらに、例えば、音声の継続時間に閾値を設け、継続時間が閾値以上の音声が、入力レベル設定用音声として認識されるようにしてもよい。

　入出力制御部４１は、ユーザにより入力された入力レベル設定用音声を示す音声データを音声入力部２１から取得し、通信部２６を介してサーバ１２に送信する処理を開始する。

　サーバ１２は、後述する図８のステップＳ６３、図９のステップＳ７２、又は、図９のステップＳ７５において、入力レベルを設定する。また、サーバ１２は、後述する図８のステップＳ６３、図９のステップＳ７２、又は、図９のステップＳ７５において、設定した入力レベルを含むフィードバック情報をクライアント１１に送信する。

　ステップＳ７において、ステップＳ３の処理と同様に、フィードバック情報を受信したか否かが判定される。フィードバック情報を受信したと判定された場合、処理はステップＳ８に進む。

　ステップＳ８において、クライアント１１は、フィードバック情報に対応した処理を行う。例えば、実行部４３は、入力レベルに基づいて、音声認識により得られた入力情報（テキスト情報）を、文字列を付加することにより加工する。ここで、文字列とは１以上の文字、記号等を並べたものであり、１文字の場合もある。

　例えば、実行部４３は、入力レベルに基づいて、入力情報内の全部又は一部の母音を繰り返すように加工する。このとき、例えば、入力レベルが高くなるほど、母音を繰り返す数が多くなり、入力レベルが低くなるほど、母音を繰り返す数が少なくなる。

　図７の上の例は、入力情報（"What a cool game"）の全ての母音を繰り返すようにした例を示している。

　一方、図７の下の例は、入力情報（"What a cool game"）の形容詞（cool）の母音のみを繰り返すようにした例を示している。なお、母音を繰り返す品詞は形容詞に限定されるものではなく、他の品詞を選択したり、２種類以上の品詞を選択したりするようにしてもよい。また、選択した品詞内の一部の母音のみを繰り返すようにしてもよい。この場合、繰り返す母音は、例えばランダムに選択される。なお、該当する品詞の単語が入力情報内に存在しない場合、入力情報を加工しないようにしてもよい。

　また、例えば、母音ではなく子音を繰り返すようにしてもよい。さらに、例えば、入力情報の単語の中から母音又は子音を繰り返す単語をユーザが選択するようにしてもよい。

　或いは、実行部４３は、入力情報の品詞の並びに応じて、文字列を付加する。例えば、実行部４３は、入力情報内の名詞と助詞が並んでいる部分の直後に、当該助詞を繰り返すように入力情報を加工する。

　或いは、実行部４３は、入力情報のモダリティ情報に基づいて、付加すべき記号等を選択し、選択した記号等を付加する。このとき、入力レベルに応じて、付加される記号等の量が調整される。例えば、入力レベルが高いほど、記号等を繰り返す数が多くなり、入力レベルが低いほど、記号等を繰り返す数が少なくなる。

　或いは、実行部４３は、入力情報内の文字等を１つ以上ランダムに選択し、選択した文字等を繰り返すように加工する。このとき、入力レベルに応じて、付加される記号等の量が調整される。例えば、入力レベルが高いほど、選択した文字等を繰り返す数が多くなり、入力レベルが低いほど、選択した文字等を繰り返す数が少なくなる。

　また、このとき、例えば、提示制御部４２は、入力情報の加工中に、図６の中央の例に示されるように、入力情報を加工中（解析中）であることを示す画像１１０を表示部２３に表示させる。

　その後、処理はステップＳ９に進む。

　一方、ステップＳ７において、フィードバック情報を受信していないと判定された場合、ステップＳ８の処理はスキップされ、処理はステップＳ９に進む。

　ステップＳ９において、入出力制御部４１は、入力レベルの入力の受付の終了が指示されたか否かを判定する。入力レベルの入力の受付の終了が指示されていないと判定された場合、処理はステップＳ７に戻る。

　その後、ステップＳ９において、入力レベルの入力の受付の終了が指示されたと判定されるまで、ステップＳ７乃至ステップＳ９の処理が繰り返し実行される。これにより、入力レベルの入力中も、入力中の入力レベルに応じて、フィードバック情報に対応した処理が並行して行われる。例えば、入力中の入力レベルに応じて、リアルタイムに入力情報を加工し提示する処理が実行される。

　なお、入力レベルの入力中には、フィードバック情報に対応した処理が行われず、入力レベルの入力が完了した後に、フィードバック情報に対応した処理が行われる場合、ステップＳ８の処理はスキップされる。

　一方、ステップＳ９において、入出力制御部４１は、通信部２６を介して、後述する入力レベル入力終了命令をサーバ１２から受信した場合、入力レベルの入力の受付の終了が指示されたと判定し、処理はステップＳ１０に進む。

　ステップＳ１０において、クライアント１１は、入力レベルの入力の受付を終了する。例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、ユーザに入力レベルの入力の終了を知らせる。例えば、図６の右端の例に示されるように、音声の入力を受け付けていないことを示す画像１１１が表示部２３に表示される。また、入出力制御部４１は、音声データ、操作データ、及び、センサデータのサーバ１２への送信を停止する。

　ステップＳ１１において、ステップＳ３の処理と同様に、フィードバック情報を受信したか否かが判定される。フィードバック情報を受信したと判定された場合、処理はステップＳ１２に進む。

　ステップＳ１２において、ステップＳ８の処理と同様に、フィードバック情報に対応した処理が行われる。なお、このとき、例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、入力情報を加工した後の加工情報（例えば、図７の加工後の文章）を提示する。また、例えば、入出力制御部４１は、加工情報を、後段の装置や、ネットワーク１３を介して、他のサーバ等に送信する。

　その後、クライアント１１の処理は終了する。

　一方、ステップＳ１１において、フィードバック情報を受信していないと判定された場合、ステップＳ１２の処理はスキップされ、クライアント１１の処理は終了する。

　次に、図８及び図９のフローチャートを参照して、図３のクライアント１１の処理に対応して、サーバ１２により実行される処理について説明する。

　ステップＳ５１において、音声認識部７４は、音声認識の実行が依頼されたか否かを判定する。音声認識部７４は、音声認識の実行が依頼されたと判定されるまで、ステップＳ５１の処理を所定のタイミングで繰り返し実行する。そして、音声認識部７４は、図３のステップＳ１においてクライアント１１から送信された音声認識開始命令を、通信部６１を介して受信した場合、音声認識の実行が依頼されたと判定し、処理はステップＳ５２に進む。

　ステップＳ５２において、音声認識部７４は、音声認識を開始する。具体的には、音声認識部７４は、図３のステップＳ２においてクライアント１１から送信が開始された音声データを、通信部６１を介して受信し、受信した音声データに対する音声認識処理を開始する。また、自然言語処理部７３は、音声認識により得られた入力情報（テキスト情報）に対する自然言語処理を開始する。

　ステップＳ５３において、フィードバック情報生成部７７は、フィードバック情報を逐次送信するか否かを判定する。例えば、フィードバック情報生成部７７は、クライアント１１の種類、又は、クライアント１１において音声認識の結果を使用するＡＰＰの種類に基づいて、クライアント１１においてフィードバック情報が逐次必要な処理が行われているか否かを判定する。例えば、音声認識の結果を逐次ユーザに提示する必要がある場合、クライアント１１においてフィードバック情報が逐次必要な処理が行われていると判定される。そして、フィードバック情報生成部７７は、クライアント１１においてフィードバック情報が逐次必要な処理が行われていない場合、フィードバック情報を逐次送信しないと判定し、処理はステップＳ５４に進む。

　ステップＳ５４において、サーバ１２は、音声入力が停止したか否かを判定する。例えば、音声認識部７４は、クライアント１１からの音声データに対するＶＡＤ（Voice Activity Detection）の結果に基づいて、音声入力が停止したか否かを判定する。或いは、操作認識部７６は、クライアント１１からの操作データに基づいて、音声入力を停止する操作が行われたか否かを検出することにより、音声入力が停止したか否かを判定する。

　サーバ１２は、音声入力が停止したと判定するまで、ステップＳ５４の処理を所定のタイミングで繰り返し実行する。そして、音声入力が停止したと判定された場合、処理はステップＳ５５に進む。

　ステップＳ５５において、フィードバック情報生成部７７は、入力レベルの入力の受付を指示する。具体的には、フィードバック情報生成部７７は、入力レベルの入力の受付を指示するコマンドである入力レベル入力開始命令を生成する。フィードバック情報生成部７７は、通信部６１を介して、入力レベル入力開始命令をクライアント１１に送信する。

　ステップＳ５６において、フィードバック情報生成部７７は、入力レベルの入力を受け付けてから規定時間（例えば、３秒間）が経過したか否かを判定する。まだ入力レベルの入力を受け付けてから規定時間が経過していないと判定された場合、処理はステップＳ５７に進む。

　ステップＳ５７において、音処理部７１は、クライアント１１からの音声データに基づいて、音声が入力されたか否かを判定する。音声が入力されていないと判定された場合、処理はステップＳ５６に戻る。

　その後、ステップＳ５６において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップＳ５７において、音声が入力されたと判定されるまで、ステップＳ５６及びステップＳ５７の処理が繰り返し実行される。

　一方、ステップＳ５７において、音声が入力されたと判定された場合、処理はステップＳ５８に進む。

　ステップＳ５８において、音処理部７１は、音声データから特徴量を抽出する。例えば、音処理部７１は、音声データの音素、音量、長さ等の特徴量を抽出する。

　ステップＳ５９において、音処理部７１は、入力レベル設定用の音声（入力レベル設定用音声）であるか否かを判定する。例えば、音処理部７１は、音声データの音素、音量、長さ等の特徴量が所定の入力条件を満たしていない場合、例えば、音声データにより示される音声が、ステップＳ６の処理の説明で上述した入力レベル設定用音声の特徴を有していない場合、入力レベル設定用の音声でないと判定し、処理はステップＳ５６に戻る。

　その後、ステップＳ５６において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップＳ５９において、入力レベル設定用の音声であると判定されるまで、ステップＳ５６乃至ステップＳ５９の処理が繰り返し実行される。

　一方、ステップＳ５９において、音処理部７１は、音声データの特徴量が所定の入力条件を満たしている場合、入力レベル設定用の音声であると判定し、処理はステップＳ６０に進む。

　ステップＳ６０において、ステップＳ５６の処理と同様に、入力レベルの入力を受け付けてから規定時間が経過したか否かが判定される。まだ入力レベルの入力を受け付けてから規定時間が経過していないと判定された場合、処理はステップＳ６１に進む。

　ステップＳ６１において、ステップＳ５４の処理と同様に、音声入力が停止したか否かが判定される。音声入力が停止していないと判定された場合、処理はステップＳ６０に戻る。

　その後、ステップＳ６０において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップＳ６１において、音声入力が停止したと判定されるまで、ステップＳ６０及びステップＳ６１の処理が繰り返し実行される。

　一方、ステップＳ６０において、入力レベルの入力を受け付けてから規定時間が経過したと判定された場合、又は、ステップＳ６１において、音声入力が停止したと判定された場合、処理はステップＳ６２に進む。

　また、ステップＳ５６において、入力レベルの入力を受け付けてから規定時間が経過したと判定された場合、処理はステップＳ６２に進む。これは、入力レベル設定用音声が入力されないまま規定時間が経過した場合である。

　ステップＳ６２において、フィードバック情報生成部７７は、入力レベルの入力の受付の終了を指示する。具体的には、フィードバック情報生成部７７は、入力レベルの入力の受付の終了を指示するコマンドである入力レベル入力終了命令を生成する。フィードバック情報生成部７７は、通信部６１を介して、入力レベル入力終了命令をクライアント１１に送信する。

　ステップＳ６３において、フィードバック情報生成部７７は、入力レベルを設定する。例えば、フィードバック情報生成部７７は、入力レベル設定用音声を示す音声データの特徴量に基づいて、入力レベルを設定する。

　例えば、フィードバック情報生成部７７は、入力レベル設定用音声の継続時間が長いほど、入力レベルを高く設定し、入力レベル設定用音声の継続時間が短いほど、入力レベルを低く設定する。例えば、図１０に示されるように、入力レベル設定用音声の継続時間ｔが０．１秒未満の場合、入力レベルは１に設定される。継続時間ｔが０．１秒以上、かつ、０．３秒未満の場合、入力レベルは２に設定される。継続時間ｔが０．３秒以上、かつ、０．７秒未満の場合、入力レベルは３に設定される。継続時間が０．７秒以上の場合、入力レベルは４に設定される。

　或いは、フィードバック情報生成部７７は、入力レベル設定用音声の所定の音素の繰り返し数が多いほど、入力レベルを高く設定し、入力レベル設定用音声の所定の音素の繰り返し数が少ないほど、入力レベルを低く設定する。

　或いは、フィードバック情報生成部７７は、入力レベル設定用音声の音量が大きいほど、入力レベルを高く設定し、入力レベル設定用音声の音量が小さいほど、入力レベルを低く設定する。

　なお、フィードバック情報生成部７７は、入力レベル設定用音声が入力されなかった場合、入力レベルを０に設定する。

　ステップＳ６４において、フィードバック情報生成部７７は、フィードバック情報を生成し、送信する。例えば、フィードバック情報生成部７７は、音声認識の認識結果として得られた入力情報、入力情報の自然言語処理の結果、及び、設定した入力レベルを含むフィードバック情報を生成する。なお、入力情報及び自然言語処理の結果をすでに送信済みの場合、このとき必ずしもそれらをフィードバック情報に含める必要はない。フィードバック情報生成部７７は、通信部６１を介して、フィードバック情報をクライアント１１に送信する。

　その後、処理はステップＳ５１に戻り、ステップＳ５１以降の処理が実行される。

　一方、ステップＳ５３において、フィードバック情報を逐次送信するとと判定された場合、処理はステップＳ６５に進む。

　ステップＳ６５において、フィードバック情報生成部７７は、フィードバック情報の生成及び送信を開始する。例えば、フィードバック情報生成部７７は、音声認識の認識結果として得られる入力情報、及び、入力情報の自然言語処理の結果を含むフィードバック情報を生成し、通信部６１を介してクライアント１１に送信する処理を開始する。

　ステップＳ６６において、ステップＳ５４の処理と同様に、音声入力が停止したか否かが判定される。ステップＳ６６の判定処理は、所定のタイミングで繰り返し実行され、音声入力が停止されたと判定された場合、処理はステップＳ６７に進む。

　ステップＳ６７において、ステップＳ５５の処理と同様に、入力レベルの入力の受付が指示される。

　ステップＳ６８において、ステップＳ５６の処理と同様に、入力レベルの入力を受け付けてから規定時間が経過したか否かが判定される。まだ入力レベルの入力を受け付けてから規定時間が経過していないと判定された場合、処理はステップＳ６９に進む。

　ステップＳ６９において、ステップＳ５７の処理と同様に、音声が入力されたか否かが判定される。音声が入力されていないと判定された場合、処理はステップＳ６８に戻る。

　その後、ステップＳ６８において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップＳ６９において、音声が入力されたと判定されるまで、ステップＳ６８及びステップＳ６９の処理が繰り返し実行される。

　一方、ステップＳ６９において、音声が入力されたと判定された場合、処理はステップＳ７０に進む。

　ステップＳ７０において、ステップＳ５８の処理と同様に、音声データから特徴量が抽出される。

　ステップＳ７１において、ステップＳ５９の処理と同様に、入力レベル設定用の音声であるか否かが判定される。入力レベル設定用の音声でないと判定された場合、処理はステップＳ６８に戻る。

　その後、ステップＳ６８において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップＳ７１において、入力レベル設定用の音声であると判定されるまで、ステップＳ６８乃至ステップＳ７１の処理が繰り返し実行される。

　一方、ステップＳ７１において、入力レベル設定用の音声であると判定された場合、処理はステップＳ７２に進む。

　ステップＳ７２において、フィードバック情報生成部７７は、入力レベルの設定及び送信を開始する。例えば、フィードバック情報生成部７７は、ステップＳ６３の処理と同様の方法により、入力レベルの設定を開始する。また、フィードバック情報生成部７７は、音声認識の認識結果として得られた入力情報、入力情報の自然言語処理の結果、及び、設定した入力レベルを含むフィードバック情報を生成し、通信部６１を介してクライアント１１に送信する処理を開始する。なお、入力情報及び自然言語処理の結果をすでに送信済みの場合、このとき必ずしもそれらをフィードバック情報に含める必要はない。

　この場合、サーバ１２からクライアント１１に入力レベルが逐次送信される。従って、例えば、図１０を参照して上述したように、入力レベル設定用音声の継続時間により入力レベルが設定される場合、クライアント１１に送信される入力レベルの値が、入力レベル設定用音声の継続時間により変化する。これにより、例えば、図１１に示されるように、入力情報（音声認識結果）を入力レベルに合わせて徐々に加工し、提示することができる。

　具体的には、入力情報が"What a cool game"である場合、入力レベル設定用音声が０．０９秒入力された段階では、提示される加工情報は、"o"が１つだけ増えて、"What a coool game"となる。さらに、入力レベル設定用音声が０．６秒継続した場合、提示される加工情報は、"o"がさらに３つ増えて、"What a cooooool game"となる。

　ステップＳ７３において、ステップＳ５６の処理と同様に、入力レベルの入力を受け付けてから規定時間が経過したか否かが判定される。まだ入力レベルの入力を受け付けてから規定時間が経過していないと判定された場合、処理はステップＳ７４に進む。

　ステップＳ７４において、ステップＳ５４の処理と同様に、音声入力が停止したか否かが判定される。音声入力が停止していないと判定された場合、処理はステップＳ７３に戻る。

　その後、ステップＳ７３において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップＳ７４において、音声入力が停止したと判定されるまで、ステップＳ７３及びステップＳ７４の処理が繰り返し実行される。

　一方、ステップＳ７３において、入力レベルの入力を受け付けてから規定時間が経過したと判定された場合、又は、ステップＳ７４において、音声入力が停止したと判定された場合、処理はステップＳ７６に進む。

　また、ステップＳ６８において、入力レベルの入力を受け付けてから規定時間が経過したと判定された場合、処理はステップＳ７５に進む。これは、入力レベル設定用音声が入力されないまま規定時間が経過した場合である。

　ステップＳ７５において、フィードバック情報生成部７７は、入力レベルを０に設定し、送信する。具体的には、フィードバック情報生成部７７は、入力レベルを０に設定する。そして、ステップＳ７２と同様の処理により、入力レベルを含むフィードバック情報が生成され、通信部６１を介してクライアント１１に送信される。

　その後、処理はステップＳ７６に進む。

　ステップＳ７６において、ステップＳ６２の処理と同様に、入力レベルの入力の受付の終了が指示される。

　ステップＳ７７において、フィードバック情報生成部７７は、フィードバック情報の生成及び送信を終了する。

　以上のようにして、例えば、ＳＮＳ（Social Networking Service）、チャット、ゲーム等でよく使用される、辞書に載っていないような砕けた表現の文章を容易かつ適切に入力することができ、情報入力の利便性が向上する。

　例えば、"What a coooooooooool game"の"coooooooooool"のように、通常より音が長く伸ばされた単語の先頭及び末尾の文字（例えば、c及びl）は、音声の特性上、音声認識処理により正確に認識することが困難であり、誤認識が発生する可能性が高い。

　一方、情報処理システム１０においては、まず標準的な文章である"What a cool game"を音声認識により取得した後、入力レベル設定用音声を入力することにより、文字や記号を繰り返すように加工するため、上記のような誤認識は発生しない。

　また、ユーザは、"What a cool game"を加工するために手動の操作を行うことなく、入力レベル設定用音声を入力するだけで、簡単に入力した文章を加工することができる。

　従って、例えば、ユーザは、"ちょーすげーーーーーーーー"、"ごるあぁぁぁぁ"、"coooooooooool"、"yeeeeeeeeeees"、"smaaaaashhhhhhhhhhhh"のように同じ文字を繰り返す文章や、"yes!!!!!!!!!!!!!!!!!!!!!!!!"のように同じ記号を繰り返す文章を容易かつ適切に入力することができる。

　＜１－４．その他の応用例＞
　以上の説明では、音声により入力した文章を加工する場合に本技術を適用する例を示したが、本技術は、他の用途にも適用することが可能である。

　例えば、本技術は、対話型のエージェントとの会話処理に適用することができる。

　例えば、図１２に示されるように、"What a cool game"という情報入力用音声のみがクライアント１１（において実行されるエージェント）に入力された場合、サーバ１２は、"What a cool game"という入力情報を認識する。また、サーバ１２は、クライアント１１において入力レベル設定用音声が入力されていないため、入力レベルを０に設定する。そして、サーバ１２は、認識した"What a cool game"を示す入力情報、及び、０に設定した入力レベルを含むフィードバック情報をクライアント１１に送信する。クライアント１１は、入力情報に示される"What a cool game"という文章に対して、"I think so, too"という応答を音声により出力する。

　一方、図１３に示されるように、クライアント１１に"What a cool game"という情報入力用音声が入力された後、"cooooooooool"という入力レベル設定用音声が入力された場合、サーバ１２は、"What a cool game"という入力情報を認識するとともに、入力レベル設定用音声に基づいて、入力レベルを３に設定する。そして、サーバ１２は、認識した"What a cool game"を示す入力情報、及び、３に設定した入力レベルを含むフィードバック情報をクライアント１１に送信する。クライアント１１は、入力情報に示される"What a cool game"という文章に対して、"Really! It's fun!"という、入力レベルが０の場合と比較して、より反応が大きい応答を音声により出力する。

　例えば、ユーザが、"What a coooooooool game"という音声を入力した場合、エージェントは、上述した理由により音声認識に失敗し、適切な応答を返すことができないことが想定される。一方、本技術を用いることにより、ユーザは、感情のこもった発話を容易にエージェントに認識させることができ、エージェントと感情のこもった会話を容易かつ適切に行うことができる。

　また、例えば、本技術は、音声コマンドにより各種の機器やＡＰＰの制御を行う場合にも適用することができる。例えば、図１４及び図１５を参照して、クライアント１１において、ビデオレコーダを実現するＡＰＰを実行する場合を例に挙げて説明する。

　例えば、図１４に示されるように、クライアント１１に"Playback"という音声コマンドのみが入力された場合、サーバ１２は、"Playback"というコマンドを認識する。また、サーバ１２は、クライアント１１において入力レベル設定用音声が入力されていないため、入力レベルを０に設定する。そして、サーバ１２は、認識したコマンド"Playback"を示す入力情報、及び、０に設定した入力レベルを含むフィードバック情報をクライアント１１に送信する。クライアント１１は、入力情報に示されるコマンド"Playback"に従って、ビデオレコーダの通常再生を行う。

　一方、図１５に示されるように、クライアント１１に"Playback"という音声コマンドが入力された後、"Ohhhhhhhhhhhh"という入力レベル設定用音声が入力された場合、サーバ１２は、"Playback"というコマンドを認識するともに、入力レベル設定用音声に基づいて、入力レベルを３に設定する。そして、サーバ１２は、認識したコマンド"Playback"を示す入力情報、及び、３に設定した入力レベルを含むフィードバック情報をクライアント１１に送信する。クライアント１１は、入力情報に示されるコマンド"Playback"、及び、入力レベルの値３に基づいて、ビデオレコーダの倍速再生を行う。

　このように、ユーザは、同じ音声コマンドに対して、入力レベル設定用音声により入力レベルを指定することにより、クライアント１１（ＡＰＰ）に異なる動作をさせることができる。例えば、ユーザは、同じ音声コマンドを用いて、同様の処理を異なるレベル（例えば、異なる速度、異なる量等）で実行させることができる。

　＜＜２．変形例＞＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　＜２－１．入力レベルの設定方法に関する変形例＞
　例えば、”レベル１”、”レベル２”、”繰り返し記号”、”繰り返し母音”等の音声コマンドにより、入力レベルを設定するようにしてもよい。

　また、例えば、音声と他のモーダルのインタフェースとを組み合わせて、入力レベル設定用音声を入力するようにしてもよい。例えば、情報入力用音声を入力する場合、他の操作を行わずに音声を入力するようにし、入力レベル設定用音声を入力する場合、他の操作を行いながら音声を入力するようにしてもよい。この場合、例えば、クライアント１１は、他の操作を行わずに入力された音声を情報入力用音声であると認識し、他の操作を行いながら入力された音声を入力レベル設定用音声であると認識する。

　例えば、入力レベル設定用音声入力用の操作として、操作部２２に対する所定の操作を採用することができる。例えば、クライアント１１は、ユーザが操作部２２の所定のボタンを押下したり、タッチパッドをタッチしたりしながら入力した音声を入力レベル設定用音声と認識する。

　また、例えば、入力レベル設定用音声入力用の操作として、ユーザのジェスチャを採用することができる。例えば、クライアント１１は、ユーザが首を細かく振りながら入力したり、右から左に首を振りながら入力したりした音声を入力レベル設定用音声と認識する。

　また、入力レベルを負の値に設定できるようにしてもよい。例えば、入力レベル設定用音声の音量が情報入力用音声より小さいとき、その音量差に応じた負の値に入力レベルを設定するようにしてもよい。そして、クライアント１１は、例えば、入力レベルが負の値の場合、表現力や情報量を下げるように入力情報を加工するようにしてもよい。例えば、クライアント１１は、入力情報が”まじかっ”の場合、末尾の”っ”を削除して、”まじか”に加工する。

　また、例えば、音声認識により入力される情報を利用するサービス等の環境に応じて、入力レベルを設定するようにしてもよい。例えば、ユーザが利用するＳＮＳのチャットやコミュニティ等のサービスにおいて盛り上がりが検出された場合、その盛り上がりの程度に応じて入力レベルを設定するようにしてもよい。これにより、例えば、ユーザは、通常の文章を音声により入力するだけで、サービスの盛り上がりに応じた表現に自動的に加工された文章をサービスに投稿することができる。

　さらに、入力レベル設定用音声の入力条件の１つである入力するタイミングを変更することも可能である。例えば、上述した例では、情報入力用音声の入力後、所定の時間内に入力レベル設定用音声を入力する条件を例に挙げたが、例えば、情報入力用音声の音声認識の結果を取得した後、所定の時間内に入力レベル設定用音声を入力するようにしてもよい。

　＜２－２．入力情報の加工に関する変形例＞
　以上の説明では、文字列を付加することにより入力情報を加工する例を示したが、他の方法により入力情報を加工するようにしてもよい。

　例えば、入力情報が英語の文章の場合、砕けた表現となるように、例えば、"easy"から"ez"のように、入力情報内の単語を略語に変換するようにしてもよい。

　また、例えば、入力情報が日本語の文章の場合、入力情報内の漢字の一部又は全部をひらがな又はカタカナに変換するようにしてもよい。

　さらに、入力情報の視覚的な特徴を変更するようにしてもよい。例えば、入力情報を表示する際のフォント、文字サイズ、色等を変更するようにしてもよい。

　また、例えば、ユーザが加工情報を手動で修正できるようにし、クライアント１１が、入力情報及び入力レベルと、最終的な加工情報との組み合わせのログを記録する。そして、クライアント１１は、そのログに基づいて、同じ入力情報及び入力レベルの組み合わせに対して、同じ加工情報を生成するようにしてもよい。或いは、クライアント１１は、ログに基づいて、複数の加工情報の候補を提示するようにしてもよい。

　さらに、例えば、加工情報がユーザの期待するものと異なる場合等に、簡単に元の入力情報に戻せるようにしてもよい。例えば、ユーザが、操作部２２に対して所定の操作を行ったり、「戻れ」等の音声コマンドを入力したりすることにより、加工情報を元の入力情報に戻せるようにしてもよい。また、例えば、ユーザが、加工情報を提示したときに、「変な風になっちゃった」、「期待した結果と違う」等の音声を発した場合、その音声の意味を解析した結果に基づいて、加工情報を元の入力情報に戻すようにしてもよい。

　＜２－３．システムの構成に関する変形例＞
　図１の情報処理システム１０の構成例は、その一例であり、必要に応じて変更することが可能である。

　例えば、クライアント１１の機能の一部をサーバ１２に設けたり、サーバ１２の機能の一部をクライアント１１に設けたりすることが可能である。

　例えば、サーバ１２が、入力レベル設定用音声に基づいて入力情報を加工し、その結果得られた加工情報を含むフィードバック情報をクライアント１１に送信するようにしてもよい。

　また、例えば、クライアント１１が、情報入力用音声の音声認識を行うことにより入力情報を取得し、サーバ１２は、入力レベルの設定のみを行い、入力レベルを含み、入力情報を含まないフィードバック情報をクライアント１１に送信するようにしてもよい。

　さらに、例えば、サーバ１２は、クライアント１１とは異なる装置にフィードバック情報を送信するようにしてもよい。例えば、サーバ１２が、音声認識により得られたコマンド及び入力レベルを含むフィードバック情報を、そのコマンドにより操作する装置（例えば、ビデオレコーダ）に送信するようにしてもよい。なお、クライアント１１とは異なる装置にフィードバック情報を送信する場合、音声認識により得られた入力情報ではなく、音声認識前の音声データをフィードバック情報に含めることも可能である。

　また、例えば、サーバ１２が、入力情報及び入力レベルに基づいて処理を行うようにしてもよい。

　さらに、例えば、クライアント１１とサーバ１２を一体化し、１台の装置で上記の処理を行うことも可能である。

　また、音声以外の方法により入力情報を与える場合にも、本技術を適用することができる。例えば、テキスト情報により与えられた入力情報を加工する場合にも、本技術を適用することができる。

　＜＜３．応用例＞＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、ＣＰＵ（Central Processing Unit）３０１，ＲＯＭ（Read Only Memory）３０２，ＲＡＭ（Random Access Memory）３０３は、バス３０４により相互に接続されている。

　バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、及びドライブ３１０が接続されている。

　入力部３０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部３０７は、ディスプレイ、スピーカなどよりなる。記憶部３０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア３１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ３０１が、例えば、記憶部３０８に記憶されているプログラムを、入出力インタフェース３０５及びバス３０４を介して、ＲＡＭ３０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ＲＯＭ３０２や記憶部３０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　また、例えば、本技術は以下のような構成も取ることができる。

（１）
　所定の入力条件を満たす第１の音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記第１の音声に基づいて前記入力情報を加工した加工情報のうち少なくとも１つを含むフィードバック情報を生成するフィードバック情報生成部を
　備える情報処理装置。
（２）
　第２の音声を文字列に変換することにより前記入力情報を取得する音声認識部を
　さらに備える前記（１）に記載の情報処理装置。
（３）
　前記入力条件は、前記第２の音声の入力後に前記第１の音声が所定のタイミングで入力されることを含む
　前記（２）に記載の情報処理装置。
（４）
　前記入力条件は、前記第１の音声と前記第２の音声の音量差が所定の条件を満たすことを含む
　前記（２）又は（３）に記載の情報処理装置。
（５）
　前記入力条件は、前記第１の音声の特徴量が所定の条件を満たすことを含む
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記入力条件は、前記第１の音声において所定の音素が所定の長さ以上連続することを含む
　前記（５）に記載の情報処理装置。
（７）
　前記フィードバック情報生成部は、前記第１の音声の特徴量に基づいて、前記入力レベルを設定する
　前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
　前記フィードバック情報生成部は、前記第１の音声の継続時間に基づいて、前記入力レベルを設定する
　前記（７）に記載の情報処理装置。
（９）
　前記フィードバック情報生成部は、前記第１の音声の音量に基づいて、前記入力レベルを設定する
　前記（７）又は（８）に記載の情報処理装置。
（１０）
　前記フィードバック情報生成部は、前記入力情報に文字列を付加することにより前記加工情報を生成する
　前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
　前記フィードバック情報生成部は、前記入力情報の所定の文字又は記号を繰り返すことにより前記加工情報を生成する
　前記（１０）に記載の情報処理装置。
（１２）
　前記フィードバック情報生成部は、前記入力情報の所定の品詞の単語の所定の文字又は記号を繰り返すことにより前記加工情報を生成する
　前記（１１）に記載の情報処理装置。
（１３）
　前記フィードバック情報生成部は、前記第１の音声の特徴量に基づいて、前記入力情報に付加する文字列の量を調整する
　前記（１０）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
　前記フィードバック情報は、前記入力情報及び前記入力レベルを含む
　前記（１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
　所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記音声に基づいて前記入力情報を加工した加工情報のうち少なくとも１つを含むフィードバック情報を生成するフィードバック情報生成ステップを
　含む情報処理方法。
（１６）
　所定の入力条件を満たす第１の音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行部を
　備える情報処理装置。
（１７）
　前記実行部は、前記入力レベルに応じたレベルで前記入力情報の加工を行う
　前記（１６）に記載の情報処理装置。
（１８）
　前記入力情報は、第２の音声により入力されるコマンドであり、
　前記実行部は、前記コマンドに対応する処理を前記入力レベルに応じたレベルで実行する
　前記（１６）に記載の情報処理装置。
（１９）
　前記実行部は、前記入力情報に対して、前記入力レベルに応じたレベルで反応する
　前記（１６）に記載の情報処理装置。
（２０）
　所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行ステップを
　含む情報処理方法。

　１０　情報処理システム，　１１　クライアント，　１２　サーバ，　２１　音声入力部，　２２　操作部，　２３　表示部，　２５　センサ部，　２７　制御部，　４１　入出力制御部，　４２　提示制御部，　４３　実行部，　６２　制御部，　７１　音処理部，　７２　画像処理部，　７３　自然言語処理部，　７４　音声認識部，　７５　ジェスチャ認識部，　７６　操作認識部，　７７　フィードバック情報生成部

Claims

　所定の入力条件を満たす第１の音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記第１の音声に基づいて前記入力情報を加工した加工情報のうち少なくとも１つを含むフィードバック情報を生成するフィードバック情報生成部を
　備える情報処理装置。
　第２の音声を文字列に変換することにより前記入力情報を取得する音声認識部を
　さらに備える請求項１に記載の情報処理装置。
　前記入力条件は、前記第２の音声の入力後に前記第１の音声が所定のタイミングで入力されることを含む
　請求項２に記載の情報処理装置。
　前記入力条件は、前記第１の音声と前記第２の音声の音量差が所定の条件を満たすことを含む
　請求項２に記載の情報処理装置。
　前記入力条件は、前記第１の音声の特徴量が所定の条件を満たすことを含む
　請求項１に記載の情報処理装置。
　前記入力条件は、前記第１の音声において所定の音素が所定の長さ以上連続することを含む
　請求項５に記載の情報処理装置。
　前記フィードバック情報生成部は、前記第１の音声の特徴量に基づいて、前記入力レベルを設定する
　請求項１に記載の情報処理装置。
　前記フィードバック情報生成部は、前記第１の音声の継続時間に基づいて、前記入力レベルを設定する
　請求項７に記載の情報処理装置。
　前記フィードバック情報生成部は、前記第１の音声の音量に基づいて、前記入力レベルを設定する
　請求項７に記載の情報処理装置。
　前記フィードバック情報生成部は、前記入力情報に文字列を付加することにより前記加工情報を生成する
　請求項１に記載の情報処理装置。
　前記フィードバック情報生成部は、前記入力情報の所定の文字又は記号を繰り返すことにより前記加工情報を生成する
　請求項１０に記載の情報処理装置。
　前記フィードバック情報生成部は、前記入力情報の所定の品詞の単語の所定の文字又は記号を繰り返すことにより前記加工情報を生成する
　請求項１１に記載の情報処理装置。
　前記フィードバック情報生成部は、前記第１の音声の特徴量に基づいて、前記入力情報に付加する文字列の量を調整する
　請求項１０に記載の情報処理装置。
　前記フィードバック情報は、前記入力情報及び前記入力レベルを含む
　請求項１に記載の情報処理装置。
　所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記音声に基づいて前記入力情報を加工した加工情報のうち少なくとも１つを含むフィードバック情報を生成するフィードバック情報生成ステップを
　含む情報処理方法。
　所定の入力条件を満たす第１の音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行部を
　備える情報処理装置。
　前記実行部は、前記入力レベルに応じたレベルで前記入力情報の加工を行う
　請求項１６に記載の情報処理装置。
　前記入力情報は、第２の音声により入力されるコマンドであり、
　前記実行部は、前記コマンドに対応する処理を前記入力レベルに応じたレベルで実行する
　請求項１６に記載の情報処理装置。
　前記実行部は、前記入力情報に対して、前記入力レベルに応じたレベルで反応する
　請求項１６に記載の情報処理装置。
　所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行ステップを
　含む情報処理方法。