WO2018079332A1

WO2018079332A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2018079332A1
Application number: PCT/JP2017/037477
Authority: WO
Inventors: 佑輔中川; 真一河野; 祐平滝
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-10-31
Filing date: 2017-10-17
Publication date: 2018-05-03
Anticipated expiration: 2019-04-30
Also published as: EP3534274A4; EP3534274A1; US20190251990A1

Abstract

本技術は、感情を適切に表現した文章を容易に得ることができるようにする情報処理装置及び情報処理方法に関する。情報処理装置は、ユーザ操作により入力された感情を認識する感情認識部と、認識された感情に基づいて文章を加工する加工部とを備える。本技術は、例えば、音声認識を行う装置、サーバ、クライアント、アプリケーションプログラムや、音声認識の結果に基づいて各種の処理を行う装置、サーバ、クライアント、アプリケーションプログラム等に適用できる。

Description

情報処理装置及び情報処理方法

　本技術は、情報処理装置及び情報処理方法に関し、特に、感情を適切に表現した文章を得ることができるようにした情報処理装置及び情報処理方法に関する。

　従来、顔文字、記号、特殊文字等を文章に付加して、感情を表現することが行われている。このような感情表現は、音声認識を用いて入力することが困難であり、例えば、ユーザは、音声認識により得られた文章を手動で加工し、感情表現を付与する必要がある。

　これに対して、従来、入力音声の韻律情報に基づいてユーザの感情を推定し、入力音声を音声認識することにより得られた文章に、推定した感情を表す強調表現、顔文字等の追加情報を付加して出力することが提案されている（例えば、特許文献１参照）。

特開２００６－２５９６４１号公報

　しかしながら、例えば、過去の出来事に関する文章を入力する場合など、入力時のユーザの感情と文章に付与したい感情とが必ずしも一致するとは限らない。また、例えば、周囲に人がいる場合など、感情を込めて音声を入力することが困難な場合がある。そのため、特許文献１に記載の発明では、感情表現を適切に付与できない場合がある。

　そこで、本技術は、感情を適切に表現した文章を容易に得ることができるようにするものである。

　本技術の一側面の情報処理装置は、ユーザ操作により入力された感情を認識する感情認識部と、認識された感情に基づいて第１の文章を加工する加工部とを備える。

　入力音声を前記第１の文章に変換する音声認識部をさらに設け、前記加工部には、前記音声認識部により変換された前記第１の文章を加工させることができる。

　前記加工部には、前記入力音声の入力中にユーザ操作が行われた場合、ユーザ操作中に入力された音声に対応する前記第１の文章の部分の加工を行わせることができる。

　前記感情認識部には、さらに前記入力音声に基づいて、感情を認識させることができる。

　前記感情認識部には、感情の種類及びレベルのうち少なくとも１つを認識させることができる。

　前記感情認識部には、ユーザ操作の操作量に基づいて、感情のレベルを認識させることができる。

　前記感情認識部には、ユーザが操作する操作部に対するスワイプ量と押下量又は押下時間との組み合わせより、感情のレベルを認識させることができる。

　前記感情認識部には、ユーザ操作の方向に基づいて、感情の種類を認識させることができる。

　前記加工部には、前記第１の文章の先頭、中間、及び、末尾のうち少なくとも１カ所に文字列を付加させることができる。

　前記加工部には、認識された感情のレベルに基づいて、付加する文字列の量を調整させることができる。

　前記加工部には、認識された感情の種類に基づいて、付加する文字列を変更させることができる。

　前記加工部には、前記第１の文章の意味を維持しながら表現を変更させることができる。

　前記加工部には、認識された感情のレベルに基づいて、表現を変更する度合いを調整させることができる。

　前記加工部には、認識された感情の種類に基づいて、表現の変更方法を選択させることができる。

　前記感情認識部には、さらに前記第１の文章に基づいて、感情を認識させることができる。

　前記感情認識部には、さらに前記第１の文章より前の第２の文章に基づいて、感情を認識させることができる。

　前記感情認識部には、前記第１の文章が第３の文章に対する返信である場合、さらに前記第３の文章に基づいて、感情を認識させることができる。

　前記加工部には、認識された感情に対応する表現を前記第１の文章に付与させることができる。

　本技術の一側面の情報処理方法は、ユーザ操作により入力された感情を認識する感情認識ステップと、認識された感情に基づいて文章を加工する加工ステップとを含む。

　本技術の一側面においては、ユーザ操作により入力された感情が認識され、認識された感情に基づいて文章が加工される。

　本技術の一側面によれば、感情を適切に表現した文章を容易に得ることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した情報処理システムの一実施の形態を示すブロック図である。コントローラの構成例を示す外観図である。クライアントの処理の第１の実施の形態を説明するためのフローチャートである。サーバの処理の第１の実施の形態を説明するためのフローチャートである。文章の加工方法の第１の例を説明するための図である。文章の加工方法の第２の例を説明するための図である。文章の加工方法の第３の例を説明するための図である。文章の加工方法の第４の例を説明するための図である。感情の入力方法の第１の例を説明するための図である。感情の入力方法の第２の例を説明するための図である。感情の入力方法の第２の例を説明するための図である。感情の入力方法の第３の例を説明するための図である。感情の入力方法の第３の例を説明するための図である。感情の入力方法の第３の例を説明するための図である。感情の入力方法の第３の例を説明するための図である。感情の入力方法の第３の例を説明するための図である。感情の入力方法の第３の例を説明するための図である。感情の入力方法の第４の例を説明するための図である。感情の入力方法の第４の例を説明するための図である。感情の入力方法の第５の例を説明するための図である。クライアントの処理の第２の実施の形態を説明するためのフローチャートである。サーバの処理の第２の実施の形態を説明するためのフローチャートである。感情の入力方法の第５の例を説明するための図である。感情認識処理を説明するためのフローチャートである。コンピュータの構成例を示すブロック図である。

　以下、発明を実施するための形態（以下、「実施形態」と記述する）について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例
　３．応用例

　＜＜１．実施の形態＞＞
　＜１－１．情報処理システムの構成例＞
　まず、図１を参照して、本技術を適用した情報処理システム１０の構成例について説明する。

　情報処理システム１０は、ユーザが音声により入力した文章（以下、入力文章と称する）に付与したい感情の認識を行い、認識した感情に基づいて入力文章を加工した文章（以下、加工文章と称する）を生成する処理を行う。情報処理システム１０は、クライアント１１、サーバ１２、及び、ネットワーク１３により構成される。クライアント１１とサーバ１２は、ネットワーク１３を介して相互に接続されている。

　なお、クライアント１１が１つのみ図示されているが、実際には複数のクライアント１１がネットワーク１３に接続され、複数のユーザがクライアント１１を介して情報処理システム１０を利用することが可能である。

　クライアント１１は、ユーザが音声により入力した入力文章を示す音声データ等をサーバ１２に送信し、音声認識の結果として得られた入力文章を含む音声認識情報、及び、入力文章を加工した加工文章を含む加工文章情報をサーバ１２から受信し、入力文章及び加工文章を提示する処理を行う。

　例えば、クライアント１１は、スマートフォン、タブレット、携帯電話機、ノート型のパーソナルコンピュータ等の携帯情報端末、ウエアラブルデバイス、デスクトップ型のパーソナルコンピュータ、ゲーム機、動画再生装置、音楽再生装置等により構成される。また、ウエアラブルデバイスには、例えば、眼鏡型、腕時計型、ブレスレット型、ネックレス型、ネックバンド型、イヤフォン型、ヘッドセット型、ヘッドマウント型等の各種の方式を採用することができる。

　クライアント１１は、音声入力部２１、操作部２２、表示部２３、提示部２４、通信部２６、制御部２７、及び、記憶部２８を備える。制御部２７は、入出力制御部４１、提示制御部４２、及び、実行部４３を備える。音声入力部２１、操作部２２、表示部２３、提示部２４、通信部２６、制御部２７、及び、記憶部２８は、バス２９を介して相互に接続されている。

　音声入力部２１は、例えばマイクロフォンにより構成される。マイクロフォンの数は、任意に設定することができる。音声入力部２１は、周囲の音声を収集し、収集した音声を示す音声データを制御部２７に供給したり、記憶部２８に記憶させたりする。

　操作部２２は、各種の操作部材により構成され、クライアント１１の操作に用いられる。例えば、操作部２２は、コントローラ、リモートコントローラ、タッチパネル、ハードウエアボタン等により構成される。操作部２２は、操作部２２に対する操作の内容等を示す操作データを制御部２７に供給する。

　表示部２３は、例えばディスプレイにより構成される。表示部２３は、提示制御部４２の制御の下に、各種の画像、ＧＵＩ（Graphical User Interface）、各種のアプリケーションプログラムやサービスの画面等を表示する。

　提示部２４は、例えば、スピーカ、振動デバイス、他の連携デバイス等により構成される。提示部２４は、提示制御部４２の制御の下に、各種の情報の提示を行う。

　センサ部２５は、カメラ、距離センサ、ＧＰＳ（Global Positioning System）受信機、加速度センサ、ジャイロセンサ等の各種のセンサを備える。センサ部２５は、各センサの検出結果を示すセンサデータを制御部２７に供給したり、記憶部２８に記憶させたりする。

　通信部２６は、各種の通信デバイスにより構成される。通信部２６の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部２６が、複数の通信方式に対応していてもよい。通信部２６は、ネットワーク１３を介してサーバ１２と通信を行い、各種のデータの送受信を行う。通信部２６は、サーバ１２から受信したデータを制御部２７に供給したり、記憶部２８に記憶させたりする。

　制御部２７は、例えば、各種のプロセッサ等により構成される。

　入出力制御部４１は、各種のデータの入出力を制御する。例えば、入出力制御部４１は、音声入力部２１からの音声データ、操作部２２からの操作データ、及び、センサ部２５からのセンサデータの中からサーバ１２の処理に必要なデータを抽出し、抽出したデータを、通信部２６及びネットワーク１３を介して、サーバ１２に送信する。また、入出力制御部４１は、通信部２６及びネットワーク１３を介して、音声認識情報及び加工文章情報等をサーバ１２から受信する。

　提示制御部４２は、表示部２３及び提示部２４による各種の情報等の提示を制御する。

　実行部４３は、各種のアプリケーションプログラム（以下、ＡＰＰと称する）を実行することにより、各種の処理を実行する。

　記憶部２８は、クライアント１１の処理に必要なプログラム、データ等を記憶する。

　サーバ１２は、クライアント１１から受信した音声データ、操作データ、及び、センサデータに基づいて、音声認識を行うとともに、音声認識の結果得られた入力文章を加工した加工文章を生成する。そして、サーバ１２は、入力文章を含む音声認識情報、及び、加工文章を含む加工文章情報を、ネットワーク１３を介してクライアント１１に送信する。サーバ１２は、通信部６１、制御部６２、及び、記憶部６３を備える。制御部６２は、音処理部７１、画像処理部７２、自然言語処理部７３、音声認識部７４、ジェスチャ認識部７５、操作認識部７６、感情認識部７７、及び、加工部７８を備える。通信部６１、制御部６２、及び、記憶部６３は、バス６４を介して相互に接続されている。

　通信部６１は、各種の通信デバイスにより構成される。通信部６１の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部６１が、複数の通信方式に対応していてもよい。通信部６１は、ネットワーク１３を介してクライアント１１と通信を行い、各種のデータの送受信を行う。通信部６１は、クライアント１１から受信したデータを制御部６２に供給したり、記憶部６３に記憶させたりする。

　制御部６２は、例えば、各種のプロセッサ等により構成される。

　音処理部７１は、音声データから各種の特徴量を抽出する。音処理部７１が抽出する特徴量は、特に限定されるものではないが、例えば、音素、音量、抑揚、長さ、スピード等が含まれる。

　画像処理部７２は、画像データから各種の特徴量を抽出する。画像処理部７２が抽出する特徴量は、特に限定されるものではないが、例えば、人のジェスチャの認識に適した特徴量が含まれる。

　自然言語処理部７３は、形態素解析、構文解析、モダリティ解析等の自然言語処理を行う。

　音声認識部７４は、音声認識により音声を文字列に変換する。音声認識部７４は、音声認識の結果得られた入力文章を含む音声認識情報を、通信部６１及びネットワーク１３を介して、クライアント１１に送信する。

　ジェスチャ認識部７５は、画像処理部７２により抽出された特徴量等に基づいて、画像データに写っている人のジェスチャを認識する。

　操作認識部７６は、クライアント１１から取得した操作データに基づいて、クライアント１１で行われた操作を認識する。

　感情認識部７７は、音処理部７１、画像処理部７２、自然言語処理部７３、音声認識部７４、ジェスチャ認識部７５、及び、操作認識部７６の処理の結果等に基づいて、感情の認識処理を行う。例えば、感情認識部７７は、感情の種類（以下、感情タイプと称する）、及び、感情のレベル（以下、感情レベルと称する）を認識する。

　加工部７８は、感情認識部７７により認識された感情に基づいて、音声認識部７４により認識された入力文章を加工することにより加工文章を生成する。加工部７８は、生成した加工文章を含む加工文章情報を、通信部６１及びネットワーク１３を介して、クライアント１１に送信する。

　記憶部６３は、サーバ１２の処理に必要なプログラム、データ等を記憶する。

　なお、以下、クライアント１１（通信部２６）とサーバ１２（通信部６１）がネットワーク１３を介して通信を行う場合の”ネットワーク１３を介して”の記載は省略する。以下、クライアント１１の各部がバス２９を介してデータの授受を行う場合の”バス２９を介して”の記載は省略する。以下、サーバ１２の各部がバス６４を介してデータの授受を行う場合の”バス６４を介して”の記載は省略する。

　＜１－２．操作部２２の具体例＞
　図２は、操作部２２の一例であるコントローラ１００の構成例を示している。

　コントローラ１００は、タッチパッド１０１、スティック１０２、スティック１０３、方向キー１０４Ｕ乃至方向キー１０４Ｒ、及び、ボタン１０５Ａ乃至ボタン１０５Ｄを備える。

　タッチパッド１０１は、指で表面をなぞることにより（スワイプすることにより）、指の移動方向及び移動距離を検出することができる。また、タッチパッド１０１は、指で軽くたたくことにより、タッピングを検出することができる。

　スティック１０２は、上下左右（或いは、前後左右）に倒すことにより、操作対象を指示した方向に移動させることができる。また、スティック１０２は、押下することにより、ボタンとしても機能する。

　スティック１０３は、スティック１０２と同様に、上下左右（或いは、前後左右）に倒すことにより、操作対象を指示した方向に移動させることができる。また、スティック１０３は、押下することにより、ボタンとしても機能する。

　方向キー１０４Ｕ乃至方向キー１０４Ｒは、それぞれ上下左右（或いは、前後左右）の方向を指示するためのキーである。

　ボタン１０５Ａ乃至ボタン１０５Ｄは、例えば、所定の番号や記号等を選択するためのボタンである。

　＜１－３．情報処理システム１０の処理の第１の実施の形態＞
　次に、図３及び図４を参照して、情報処理システム１０の処理の第１の実施の形態について説明する。

　まず、図３のフローチャートを参照して、クライアント１１の処理について説明する。この処理は、例えば、ユーザが操作部２２を介して音声認識の実行の指示を入力したとき開始される。

　ステップＳ１において、入出力制御部４１は、音声認識の実行を依頼する。具体的には、入出力制御部４１は、音声認識の開始を指示するコマンドである音声認識開始命令を生成する。入出力制御部４１は、通信部２６を介して、音声認識開始命令をサーバ１２に送信する。

　ステップＳ２において、クライアント１１は、音声入力を受け付ける。具体的には、例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、認識させたい文章（入力文章）を音声で入力するようにユーザを促す。これに対して、ユーザは、入力文章を音声により入力する。入出力制御部４１は、入力文章の音声を示す音声データを音声入力部２１から取得し、通信部２６を介してサーバ１２に送信する。

　サーバ１２は、後述する図４のステップＳ５２において、クライアント１１からの音声データに対する音声認識を行い、ステップＳ５３において、音声認識により認識された入力文章を含む音声認識情報を送信する。

　ステップＳ３において、クライアント１１は、音声認識の結果を提示する。具体的には、入出力制御部４１は、通信部２６を介して、サーバ１２から音声認識情報を受信する。提示制御部４２は、音声認識情報に含まれる入力文章を表示部２３に表示させる。

　ステップＳ４において、クライアント１１は、文章に付与する感情の入力を受け付ける。例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、文章に付与する感情の入力を促す。また、例えば、提示制御部４２は、感情を入力するための入力画面を表示部２３に表示させる。

　これに対して、ユーザは、操作部２２を用いて感情を入力するための操作を行う。入出力制御部４１は、このユーザ操作に対応する操作データを操作部２２から取得し、通信部２６を介してサーバ１２に送信する。

　サーバ１２は、後述する図４のステップＳ５４において、操作データに基づいて、文章に付与する感情の認識を行う。また、サーバ１２は、ステップＳ５６において、認識した感情に基づいて入力文章を加工することにより生成した加工文章を含む加工文章情報をクライアント１１に送信する。

　ステップＳ５において、クライアント１１は、加工された文章を提示する。具体的には、入出力制御部４１は、通信部２６を介して、サーバ１２から加工文章情報を受信する。提示制御部４２は、加工文章情報に含まれる加工文章を表示部２３に表示させる。

　その後、クライアント１１の処理は終了する。

　次に、図４のフローチャートを参照して、図３のクライアント１１の処理に対応してサーバ１２により実行される処理について説明する。

　ステップＳ５１において、音声認識部７４は、音声認識の実行が依頼されたか否かを判定する。音声認識部７４は、音声認識の実行が依頼されたと判定されるまで、ステップＳ５１の処理を所定のタイミングで繰り返し実行する。そして、音声認識部７４は、図３のステップＳ１においてクライアント１１から送信された音声認識開始命令を、通信部６１を介して受信した場合、音声認識の実行が依頼されたと判定し、処理はステップＳ５２に進む。

　ステップＳ５２において、音声認識部７４は、音声認識を行う。具体的には、音声認識部７４は、図３のステップＳ２においてクライアント１１から送信された音声データを、通信部６１を介して受信する。音声認識部７４は、受信した音声データに対して音声認識処理を行う。すなわち、音声認識部７４は、音声データにより示される音声を文字列に変換することにより、入力文章を取得する。

　ステップＳ５３において、音声認識部７４は、音声認識の結果を送信する。具体的には、音声認識部７４は、音声認識の結果得られた入力文章を含む音声認識情報を生成する。音声認識部７４は、生成した音声認識情報を、通信部６１を介してクライアント１１に送信する。

　ステップＳ５４において、サーバ１２は、文章に付与する感情の認識を行う。具体的には、操作認識部７６は、図３のステップＳ４においてクライアント１１から送信された操作データを、通信部６１を介して受信する。操作認識部７６は、操作データに基づいて、クライアント１１で行われた操作を認識する。感情認識部７７は、操作認識部７６の認識結果（ユーザ操作の内容）に基づいて、文章に付与する感情の種類（感情タイプ）及びレベル（感情レベル）のうち少なくとも１つを認識する。

　ステップＳ５５において、加工部７８は、認識した感情に基づいて文章を加工する。例えば、加工部７８は、認識した感情を表す感情表現を入力文章に付与することにより、加工文章を生成する。

　ここで、図５乃至図８を参照して、文章の加工方法の例について説明する。

　図５は、感情レベルに基づいて文章を加工する例を示している。この例では、文章の末尾に文字列を付加することにより、文章が加工される。ここで、文字列とは１以上の文字、記号等を並べたものであり、１文字の場合もある。なお、感情レベル０の文章が、加工前の基本文章となる。

　この例では、基本的に感情レベルが高くなるほど、付加される文字列の量が多くなる。例えば、”あれはやばいよ”という基本文章に対して、感情レベル２の加工文章は、”あれはやばいよぉぉ”となる。感情レベル５の加工文章は、”あれはやばいよぉぉぉぉぉーー”となる。感情レベル１０の加工文章は、”あれはやばいよぉぉぉぉぉぉぉぉぉぉーーーーー！！！！！”となる。

　また、図５には図示していないが、例えば、”あれはやばいよ”に対応する英文の"That's so crazy"という入力文章に対して、感情レベル２の加工文章は、"That's so crazy!!"となる。感情レベル５の加工文章は、"That's so crazzzzy!!!"となる。感情レベル１０の加工文章は、"THAT'S SO CRAZZZZYYYY!!!"となる。この感情レベル１０の加工文章では、文字が全て大文字になっており、より感情が強く表現されている。

　図６は、図５と同様に、感情レベルに基づいて文章を加工する例を示している。この例では、文章の末尾だけでなく、文章の中間にも文字列を付加することにより、文章が加工される。なお、感情レベル０の文章が、加工前の基本文章となる。

　この例では、図５の例と同様に、基本的に感情レベルが高くなるほど、付加される文字列の量が多くなる。ただし、例外も存在する。例えば、”あれはやばいよ”という基本文章に対して、感情レベル２の加工文章は、”あれはーーやばいよぉぉ”となる。感情レベル５の加工文章は、”あれはーーやばいよぉぉ”となる。すなわち、感情レベル２と感情レベル５で、文章の加工の程度（加工レベル）が同じになっており、異なる感情レベル間で同じ加工文章が用いられる。感情レベル１０の加工文章は、”あれはーやばいよぉ”となる。すなわち、感情レベル１０の加工文章は、感情レベル２及び感情レベル５の加工文章と比較して、付加される文字列の量が少なくなっている。また、例えば、”すごすぎ”という基本文章に対して、全ての感情レベルで文章が加工されていない。このようにして、感情レベルに対する加工レベルにある程度のランダム性がもたらされる。

　また、図６には図示していないが、例えば、”あれはやばいよ”に対応する英文の"That's so crazy"という入力文章に対する感情レベル２の加工文章は、"That's sooo crazy"となる。感情レベル５の加工文章は、"That's soooooo crazzzzy!!!"となる。感情レベル１０の加工文章は、"THAT'S SOOOOOO CRAZZZZYYYY!!!"となる。この感情レベル１０の加工文章では、文字が全て大文字になっており、より感情が強く表現されている。

　図７は、感情タイプに基づいて文章を加工する例を示している。この例では、驚き（surprise）、喜び（happy）、悲しみ（sad）、怒り（angry）、及び、疑問（question）の５種類の感情を用いて文章が加工される。

　例えば、”すばらしい”という入力文章に対して、驚きの感情を表す加工文章は、文字が半角カタカナに変換され、文章の末尾に記号及び顔文字が付加されることにより、図７に示されるようになる。喜びの感情を表す加工文章は、文章の末尾に記号及び顔文字が付加されることにより、図７に示されるようになる。悲しみの感情を表す加工文章は、文章の末尾に記号が付加されることにより、図７に示されるようになる。怒りの感情を表す加工文章は、図７に示されるように変化しない。これは、”すばらしい”という文章と怒りという感情を組み合わせることが困難だからである。疑問の感情を表す加工文章は、文章が疑問形に変えられるとともに、文章の末尾に顔文字が付加されることにより、図７に示されるようになる。

　また、例えば、”すばらしい”に対応する英文の"That's cool"という入力文章に対して、驚きの感情を表す加工文章は、文字が全て大文字に変換され、文章の末尾に記号が付加されることにより、図７に示されるようになる。喜びの感情を表す加工文章は、文章の末尾の単語"cool"の母音oの数が増やされるとともに、文章の末尾に記号及び顔文字が付加されることにより、図７に示されるようになる。悲しみの感情を表す加工文章は、文章の末尾に記号及び顔文字が付加されることにより、図７に示されるようになる。怒りの感情を表す加工文章は、図７に示されるように変化しない。これは、"That's cool"という文章と怒りという感情を組み合わせることが困難だからである。疑問の感情を表す加工文章は、文章の末尾に記号が付加されることにより、図７に示されるようになる。

　図８は、Plutchikの感情の輪に示される感情タイプに基づいて文章を加工する例を示している。この例では、喜び、憧れ、驚き、悲しみ、恐怖、怒り、嫌悪、警戒の８種類の感情を用いて文章が加工される。なお、図８には、各感情を付与するように文章を加工する場合に、入力文章の末尾に付加する文字列の例が示されている。

　例えば、入力文章が日本語の場合、喜びの感情を表すために、文末に"www"が付加されたり、文末の文字が繰り返されたりする。憧れの感情を表すために、文末に図８に示される顔文字が付加される。驚きの感情を表すために、文末に”！！！！！”が付加されたり、文末の文字が繰り返されたりする。悲しみの感情を表すために、文末に”ぁぁ・・・”が付加されたり、”ー・・・”が付加されたりする。恐怖の感情を表すために、文末に図８に示される顔文字が付加される。怒りの感情を表すために、文末に図８に示される顔文字が付加される。嫌悪の感情を表すために、文末に図８に示される顔文字が付加される。警戒の感情を表すために、文末に”！？！？”が付加される。

　また、例えば、入力文章が英語の場合、喜びの感情を表すために、文末に"rofl"、"lmao"、"lml"、"lol"、又は、"haha"が付加されたり、文末の文字が繰り返されたりする。なお、"rofl"、"lmao"、"lml"、"lol"、"haha"の順に、感情レベルが低くなる。憧れの感情を表すために、文末に図８に示される顔文字が付加される。驚きの感情を表すために、文末に"!!!!!"が付加されたり、文末の文字が繰り返されたりする。悲しみの感情を表すために、文末に"・・・"が付加される。恐怖の感情を表すために、文末に図８に示される顔文字が付加される。怒りの感情を表すために、文末に図８に示される顔文字が付加される。嫌悪の感情を表すために、文末に図８に示される顔文字が付加される。警戒の感情を表すために、文末に"!?!?"が付加される。

　なお、感情タイプの数や種類は、任意に設定することが可能である。

　また、感情レベルと感情タイプの両方に基づいて、文章を加工するようにしてもよい。例えば、同じ感情を表す場合に、感情レベルが高いほど、付加する文字列の量を増やす等により加工レベルを高くし、感情レベルが低いほど、付加する文字列の量を減らす等により加工レベルを低くするようにしてもよい。

　さらに、ユーザの入力の自由度を上げるために、同じ感情レベルが設定されても、入力文章に付加する文字列を、ある程度ランダムに変更するようにしてもよい。例えば、ユーザがコントローラ１００のタッチパッド１０１上を左右にスワイプする操作を繰り返し、感情レベルの増減を繰り返したとき、同じ感情レベルに対して、異なる加工文章を提示するようにしてもよい。

　図４に戻り、ステップＳ５６において、加工部７８は、加工した文章を送信する。具体的には、加工部７８は、加工文章を含む加工文章情報を生成し、通信部６１を介してクライアント１１に送信する。

　その後、処理はステップＳ５１に戻り、ステップＳ５１以降の処理が実行される。

　＜１－４．感情の入力方法の具体例＞
　次に、図９乃至図１９を参照して、感情の入力方法の具体例について説明する。

　図９は、感情レベルの入力方法の例を示している。

　図９のＡ乃至図９のＣは、クライアント１１の表示部２３に表示される画面の例を示している。各画面には、アイコン２０１、ウインドウ２０２、及び、スライダ２０３が表示されている。スライダ２０３は、ウインドウ２０２内の右端に配置されている。

　アイコン２０１は、音声入力を受け付けているか否かを示す。アイコン２０１は、音声入力を受け付けているとき、濃い色で表示され、音声入力を受け付けていないとき、薄い色で表示される。

　ウインドウ２０２には、音声認識により得られた入力文章、又は、入力文章を加工した加工文章が表示される。

　スライダ２０３は、感情レベルの設定値を示す。ユーザ操作の操作量を表すスライダ２０３の目盛りが左端に近づくほど、感情レベルが低くなり、目盛りが左端のとき、感情レベルは最小の０となる。一方、スライダ２０３の目盛りが右端に近づくほど、感情レベルが高くなり、目盛りが右端のとき、感情レベルは最大となる。

　図９のＡでは、感情レベルが０に設定され、加工前の入力文章である”あれはやばいよ”が表示されている。そして、ユーザは、クライアント１１の操作部２２を操作して、感情レベルを調整する。例えば、ユーザは、操作部２２を介して、画面上のポインタ（不図示）によりスライダ２０３の目盛りを直接操作して、感情レベルを調整する。或いは、例えば、ユーザは、コントローラ１００のタッチパッド１０１を左右にスワイプすることにより、感情レベルを調整する。

　なお、図９のＢの例では、感情レベルが中央値に設定されている。そして、入力文章の末尾の”よ”の母音を小文字にした”ぉぉ”が入力文章の末尾に付加され、”あれはやばいよぉぉ”という加工文章が表示されている。図９のＣの例では、感情レベルが最大値に設定されている。そして、図９のＢの加工文章の末尾にさらに”ぉぉ”及び”！！”が付加され、”あれはやばいよぉぉぉぉぉぉ！！”という加工文章が表示されている。

　また、例えば、図示は省略しているが、入力文章が英文の"That's crazy"である場合、例えば、図９のＢの例のように、感情レベルが中央値に設定された場合、入力文章の末尾の単語"crazy"の子音zが繰り返され、"That's crazzzzzy"という加工文章が表示される。また、図９のＣの例のように、感情レベルが最大値に設定された場合、感情レベルが中央値の場合と比較して、単語"crazy"の子音zの数が増えるとともに、"!!!!!"が末尾に付加され、"That's crazzzzzzzzzzy!!!!!"という加工文章が表示される。

　図１０及び図１１は、コントローラ１００を用いて感情タイプを入力する方法の例を示している。

　例えば、図１０に示されるように、ユーザは、タッチパッド１０１を上下左右にスワイプすることにより（ユーザ操作の方向により）、感情タイプを選択する。例えば、上方向にスワイプすると、”驚き”が選択される。下方向にスワイプすると、”無感情”が選択される。この場合、例えば、無感情であることを表現するために、文章が全てカタカナに変換される。左方向にスワイプすると、”かなしい”が選択される。右方向にスワイプすると、”うれしい”が選択される。

　なお、例えば、タッチパッド１０１をスワイプする距離（ユーザ操作の操作量）に基づいて、感情タイプとともに感情レベルを設定できるようにしてもよい。例えば、タッチパッド１０１をスワイプする距離が短いほど、感情レベルが低く設定され、タッチパッド１０１をスワイプする距離が長いほど、感情レベルが高く設定される。

　また、例えば、タッチパッド１０１が上下及び左右の２軸方向のスワイプしか検出できない場合、タッチパッド１０１では４種類の感情タイプしか入力することができない。この場合、５種類以上の感情タイプを入力可能にするためには、例えば、コントローラ１００の他の操作部を用いるようにすればよい。

　例えば、図１１に示されるように、スティック１０２を上下左右に倒すことにより（ユーザ操作の方向により）、感情タイプを選択できるようにすればよい。例えば、スティック１０２を上方向に倒して押下することにより、”憧れ”が選択される。スティック１０２を下方向に倒して押下することにより、”悲痛”が選択される。スティック１０２を左方向に倒して押下することにより、”驚嘆”が選択される。スティック１０２を右方向に倒して押下することにより、”喜び”が選択される。

　なお、例えば、スティック１０２を倒す量（ユーザ操作の操作量）に応じて、感情タイプとともに感情レベルを設定できるようにしてもよい。例えば、スティック１０２を倒す量が小さいほど、感情レベルが低く設定され、スティック１０２を倒す量が大きいほど、感情レベルが高く設定される。

　図１２乃至図１７は、クライアント１１がスマートフォン３００により構成される場合の感情タイプの入力方法の例を示している。

　図１２の例では、スマートフォン３００のタッチパネルディスプレイ３０１に、音声認識により得られた入力文章である"Your job is good"が表示されている。そして、例えば、タッチパネルディスプレイ３０１の下部がタッチされることにより、図１３及び図１４に示されるように、タッチパネルディスプレイ３０１の下部に、感情タイプを選択するための領域Ａ１乃至領域Ａ４が表示される。領域Ａ１乃至領域Ａ４は、矩形の領域を２本の対角線により区切ったそれぞれ三角形の領域である。領域Ａ１と領域Ａ２は上下に並び、領域Ａ３と領域Ａ４は左右に並んでいる。領域Ａ１は喜び（Happy）に対応し、領域Ａ２は悲しみ（Sad）に対応し、領域Ａ３は怒り（Angry）に対応し、領域Ａ４は驚き（Surprise）に対応している。

　そして、例えば、図１３に示されるように、ユーザが領域Ａ１内を指でタッチすることにより、喜びが選択される。そして、入力文章の末尾のgoodが大文字に変換され、文末に:Dという顔文字が付加された加工文章である"Your job is GOOD :D"が、タッチパネルディスプレイ３０１の上部に表示される。

　また、例えば、図１４に示されるように、ユーザが領域Ａ４内を指でタッチすることにより、驚きが選択される。そして、入力文章の末尾のgoodが大文字に変換され、母音Oが繰り返されるとともに、文末に!!!が付加された加工文章である"Your job is GOOOOD !!!"が、タッチパネルディスプレイ３０１の上部に表示される。

　図１５の例では、スマートフォン３００のタッチパネルディスプレイ３０１に、音声認識により得られた入力文章である"I don't understand"が表示されている。

　そして、例えば、図１６に示されるように、ユーザが領域Ａ２内を指でタッチすることにより、悲しみが選択される。そして、入力文章の末尾に:'(という顔文字が付加された加工文章である"I don't understand :'("が、タッチパネルディスプレイ３０１の上部に表示される。

　また、例えば、図１７に示されるように、ユーザが領域Ａ３内を指でタッチすることにより、怒りが選択される。そして、入力文章の末尾に:@!!という顔文字が付加された加工文章である"I don't understand :@!!"が、タッチパネルディスプレイ３０１の上部に表示される。

　次に、図１８及び図２０を参照して、スマートフォン３００において感情レベルを入力する方法について説明する。

　例えば、図１８に示されるように、タッチパネルディスプレイ３０１の下部の入力領域Ａ１１内をスワイプすることにより、感情タイプ及び感情レベルが入力される。具体的には、スワイプする方向により、感情タイプが選択される。また、ユーザ操作の操作量であるスワイプする距離（以下、スワイプ量と称する）により、感情レベルが設定される。

　例えば、ユーザがタッチパネルディスプレイ３０１の入力領域Ａ１１内の位置Ｐ１をタッチし、位置Ｐ２までスワイプした後、指をタッチパネルディスプレイ３０１から離した時点で、感情タイプ及び感情レベルが設定される。すなわち、位置Ｐ１から位置Ｐ２へのスワイプ方向により、感情タイプが選択される。また、位置Ｐ１と位置Ｐ２の間のスワイプ量に基づいて、感情レベルが設定される。例えば、スワイプ量が短くなるほど、感情レベルは低く設定され、スワイプ量が長くなるほど、感情レベルは高く設定される。

　なお、例えば、図１９に示されるように、ユーザが、指を位置Ｐ１から位置Ｐ２までスワイプした後、指をタッチパネルディスプレイ３０１から離さずに位置Ｐ１に戻してから、タッチパネルディスプレイ３０１から離すことにより、感情の入力がキャンセルされる。この場合、ユーザが最初にタッチした位置を容易に認識できるように、位置Ｐ１を囲むマークＭ１等をタッチパネルディスプレイ３０１に表示するようにすることが望ましい。

　なお、スマートフォン３００のタッチパネルディスプレイ３０１はサイズが小さく、スワイプ量が限られる。そのため、感情レベルのレベル数が多くなると、各レベルに対するスワイプ量の差が小さくなり、所望の感情レベルに設定することが困難になる。そこで、例えば、タッチパネルディスプレイ３０１が感圧式である場合、すなわち、タッチパネルディスプレイ３０１を押下する力（以下、押下量と称する）を検出できる場合、スワイプ量と押下量の組み合わせにより、感情レベルが設定されるようにしてもよい。

　例えば、図２０に示されるように、ユーザがタッチパネルディスプレイ３０１の入力領域Ａ１１内の位置Ｐ１１をタッチし、位置Ｐ１２までスワイプした後、指をタッチパネルディスプレイ３０１から離した場合、位置Ｐ１１から位置Ｐ１２へのスワイプ方向により、感情タイプが選択される。また、位置Ｐ１１と位置Ｐ１２の間の距離であるスワイプ量と、位置Ｐ１２における押下量により、感情レベルが設定される。例えば、スワイプ量が１ｃｍで、押下量が弱レベルである場合、感情レベルは１に設定される。スワイプ量が５ｃｍで、押下量が弱レベルである場合、感情レベルは１０に設定される。スワイプ量が１ｃｍで、押下量が強レベルである場合、感情レベルは２に設定される。スワイプ量が５ｃｍで、押下量が強レベルである場合、感情レベルは２０に設定される。

　なお、例えば、押下量の代わりに、位置Ｐ１２における押下時間を用いて、感情レベルを設定するようにしてもよい。

　＜１－５．情報処理システム１０の処理の第２の実施の形態＞
　次に、図２１及び図２２を参照して、情報処理システム１０の処理の第２の実施の形態について説明する。第２の実施の形態は、第１の実施の形態と比較して、音声認識の実行前に感情レベルを設定する点が大きく異なる。

　まず、図２１のフローチャートを参照して、クライアント１１の処理について説明する。この処理は、例えば、ユーザが操作部２２を介して音声認識の実行の指示を入力したとき開始される。

　ステップＳ１０１において、図３のステップＳ１の処理と同様に、音声認識の実行がサーバ１２に依頼される。

　ステップＳ１０２において、クライアント１１は、感情レベルの入力を受け付ける。例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、感情レベルの入力を促す。また、例えば、提示制御部４２は、感情レベルを入力するための入力画面を表示部２３に表示させる。

　これに対して、ユーザは、操作部２２を介して、感情レベルを入力する。感情レベルの入力方法には、例えば上述した方法が用いられる。

　入出力制御部４１は、このユーザ操作に対応する操作データを操作部２２から取得し、通信部２６を介してサーバ１２に送信する。

　ステップＳ１０３において、クライアント１１は、音声入力の受付を開始する。具体的には、例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、認識させたい文章（入力文章）を音声で入力するようにユーザを促す。これに対して、ユーザは、音声による入力文章の入力を開始する。入出力制御部４１は、入力文章の音声を示す音声データを音声入力部２１から取得し、通信部２６を介してサーバ１２に送信する処理を開始する。

　サーバ１２は、後述する図２２のステップＳ１５３において、クライアント１１からの音声データに対する音声認識を行い、ステップＳ１５７において、音声認識により得られた入力文章を加工した加工文章を含む加工文章情報を送信する。

　ステップＳ１０４において、提示制御部４２は、感情タイプの入力を受け付けるか否かを判定する。感情タイプの入力を受け付けると判定された場合、処理はステップＳ１０５に進む。

　ステップＳ１０５において、クライアント１１は、感情タイプの入力の受付を開始する。具体的には、例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、感情タイプの入力が可能であることを通知する。そして、ユーザが、操作部２２を介して、感情タイプの入力を行う度に、入出力制御部４１は、操作部２２から操作データを取得し、通信部２６を介してサーバ１２に送信する。なお、感情タイプの入力方法には、例えば上述した方法が用いられる。

　その後、処理はステップＳ１０６に進む。

　一方、ステップＳ１０４において、感情タイプの入力を受け付けないと判定された場合、ステップＳ１０５の処理はスキップされ、処理はステップＳ１０６に進む。これは、例えば、図９を参照して上述した例のように、感情レベルの入力のみが可能な場合である。

　ステップＳ１０６において、入出力制御部４１は、加工された文章を受信したか否かを判定する。入出力制御部４１は、通信部２６を介して、加工文章情報をサーバ１２から受信した場合、加工された文章を受信したと判定し、処理はステップＳ１０７に進む。

　ステップＳ１０７において、図３のステップＳ５の処理と同様に、加工された文章が提示される。

　その後、処理はステップＳ１０８に進む。

　一方、ステップＳ１０６において、加工された文章を受信していないと判定された場合、ステップＳ１０７の処理はスキップされ、処理はステップＳ１０８に進む。

　ステップＳ１０８において、入出力制御部４１は、音声入力が終了したか否かを判定する。音声入力が終了していないと判定された場合、処理はステップＳ１０６に戻る。

　その後、ステップＳ１０８において、音声入力が終了したと判定されるまで、ステップＳ１０６乃至ステップＳ１０８の処理が繰り返し実行される。

　一方、ステップＳ１０８において、入出力制御部４１は、例えば、所定の時間以上音声が入力されなかった場合、音声入力が終了したと判定し、処理はステップＳ１０９に進む。或いは、入出力制御部４１は、例えば、操作部２２からの操作データに基づいて、音声入力を終了する操作が行われたことを検出した場合、音声入力が終了したと判定し、処理はステップＳ１０９に進む。

　ステップＳ１０９において、入出力制御部４１は、音声入力の終了を通知する。具体的には、入出力制御部４１は、音声入力の終了を通知するための音声入力終了情報を生成し、通信部２６を介してサーバ１２に送信する。

　ステップＳ１１０において、図３のステップＳ５と同様の処理により、最終的な文章（加工文章）が提示される。

　その後、クライアント１１の処理は終了する。

　次に、図２２のフローチャートを参照して、図２１のクライアント１１の処理に対応してサーバ１２により実行される処理について説明する。

　ステップＳ１５１において、図４のステップＳ５１の処理と同様に、音声認識の実行が依頼されたか否かが判定される。この判定処理は所定のタイミングで繰り返し実行され、音声認識の実行が依頼されたと判定された場合、処理はステップＳ１５２に進む。

　ステップＳ１５２において、サーバ１２は、感情レベルの認識を行う。具体的には、操作認識部７６は、図２１のステップＳ１０２においてクライアント１１から送信された操作データを、通信部６１を介して受信する。操作認識部７６は、操作データに基づいて、クライアント１１で行われた操作を認識する。感情認識部７７は、操作認識部７６の認識結果に基づいて、ユーザにより入力された感情レベルを認識する。

　ステップＳ１５３において、図４のステップＳ５２の処理と同様に、音声認識が行われる。

　ステップＳ１５４において、操作認識部７６は、感情タイプが入力されたか否かを判定する。操作認識部７６は、図２１のステップＳ１０５においてクライアント１１から送信された操作データを、通信部６１を介して受信した場合、操作データに基づいて、クライアント１１で行われた操作を認識する。そして、操作認識部７６が、認識結果に基づいて、感情タイプが入力されたと判定した場合、処理はステップＳ１５５に進む。

　ステップＳ１５５において、感情認識部７７は、感情タイプの認識を行う。すなわち、感情認識部７７は、ステップＳ１５４における操作認識部７６の認識結果に基づいて、ユーザにより入力された感情タイプを認識する。

　その後、処理はステップＳ１５６に進む。

　一方、ステップＳ１５４において、感情タイプが入力されていないと判定された場合、ステップＳ１５５の処理はスキップされ、処理はステップＳ１５６に進む。

　ステップＳ１５６において、図４のステップＳ５５の処理と同様に、認識した感情に基づいて、文章が加工される。なお、ここでは、まだ音声入力の途中、或いは、音声認識の途中であり、全ての入力文章が得られていない段階であっても、途中までの入力文章に対して加工が行われる。

　ステップＳ１５７において、図４のステップＳ５６の処理と同様に、加工した文章が送信される。このとき、途中までの入力文章に対して加工を行うことにより得られた加工文章が送信される場合がある。従って、ユーザは、例えば、音声入力中に、それまで入力した音声による文章の加工状況を確認することができる。

　ステップＳ１５８において、加工部７８は、文章の加工が完了したか否かを判定する。まだ文章の加工が完了していないと判定された場合、処理はステップＳ１５３に戻る。

　その後、ステップＳ１５８において、文章の加工が完了したと判定されるまで、ステップＳ１５３乃至ステップＳ１５８の処理が繰り返し実行される。

　一方、ステップＳ１５８において、加工部７８は、図２１のステップＳ１０９においてクライアント１１から送信された音声入力終了信号を受信し、かつ、認識した入力文章を全て加工し、加工した文章をクライアント１１に送信済みの場合、文章の加工が完了したと判定し、処理はステップＳ１５１に戻る。

　その後、ステップＳ１５１以降の処理が実行される。

　以上のようにして、先に感情レベルを設定した後、音声により文章を入力し、設定された感情レベルに基づいて、音声認識により得られた文章が加工される。従って、例えば、ユーザは、感情レベルを入力した後、音声を入力するだけで、自動的に感情レベルに基づいて加工された文章を得ることができる。

　また、例えば、ユーザは、文章を音声で入力しながら、感情タイプを入力することにより、１つの文章の各部を異なる感情タイプに基づいて加工することができる。なお、例えば、ユーザが、文章を音声で入力しながら、感情レベル及び感情タイプの両方を入力できるようにしてもよい。

　＜＜２．変形例＞＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　＜２－１．文章の加工方法に関する変形例＞
　例えば、ユーザが音声を入力しながら加工したい部分を指定することにより、指定した部分が加工されるようにしてもよい。この例について、図２３を参照して説明する。

　図２３に示される例では、ユーザが、音声の入力中にコントローラ１００を操作した場合、操作したときに入力された音声に対応する部分の加工が行われる。

　まず、ユーザが”まじか”という入力文章を音声により入力して加工する例について説明する。

　まず、ユーザは、”ま”と発声する。このとき、ユーザは、コントローラ１００の操作を行わない。その結果、音声認識結果である”ま”が、そのまま加工されずに提示される。

　次に、ユーザは、”じ”と発声する。このとき、ユーザは、コントローラ１００の操作を行わない。その結果、音声認識結果である”まじ”が、そのまま加工されずに提示される。

　次に、ユーザは、”か”と発声する。このとき、ユーザは、コントローラ１００のタッチパッド１０１を右方向にスワイプする。これにより、操作中に入力された”か”の部分が加工対象となる。また、例えば、右方向のスワイプは、文字又は記号の繰り返しに対応する。その結果、音声認識結果である”まじか”の”か”の後に”ぁああ”が付加され、加工後の”まじかぁああ”が提示される。なお、例えば、右方向のスワイプ量に基づいて、文字又は記号を繰り返す量が調整される。

　続いて、ユーザは、発声せずに、コントローラ１００のタッチパッド１０１を上方向にスワイプする。例えば、上方向のスワイプは、”！”の付加に対応する。その結果、さらに文章の末尾に”！！”が付加され、加工後の”まじかぁああ！！”が提示される。なお、例えば、上方向のスワイプ量に基づいて、付加する”！”の老が調整される。

　次に、ユーザが、"It is cool"という入力文章を音声により入力して加工する例について説明する。

　まず、ユーザは、"It"と発声する。このとき、ユーザは、コントローラ１００の操作を行わない。その結果、音声認識結果である"It"が、そのまま加工されずに提示される。

　次に、ユーザは、"is"と発声する。このとき、ユーザは、コントローラ１００の操作を行わない。その結果、音声認識結果である"It is"が、そのまま加工されずに提示される。

　次に、ユーザは、"cool"と発声する。このとき、ユーザは、コントローラ１００のタッチパッド１０１を右方向にスワイプする。これにより、操作中に入力された"cool"の部分が加工対象となる。具体的には、音声認識結果である"It is cool"の"cool"に、母音である"o"が付加され、加工後の"It is coooooool"が提示される。

　続いて、ユーザは、発声せずに、コントローラ１００のタッチパッド１０１を上方向にスワイプする。その結果、さらに文章の末尾に"!!!!!"が付加され、加工後の"It is coooooool!!!!!"が提示される。

　このようにして、ユーザは、文章の所望の部分を容易に加工することができる。

　なお、タッチパッド１０１の操作と発声タイミングとを合わせることが困難な場合が想定される。そこで、例えば、サーバ１２の加工部７８が、文章の加工をある程度制御するようにしてもよい。例えば、”まじか”を加工する場合、”じ”の部分を加工することは、あまり想定されない。そこで、例えば、加工部７８は、”じ”を発声するタイミングでタッチパッド１０１の操作が行われても、加工しないようにする。或いは、加工部７８は、”じ”の代わりに、次の”か”の部分を加工するようにしてもよい。

　また、操作方向と付加する文字の種類等の割り当ては、任意に設定することができる。また、例えば、各操作方向に感情タイプを割り当てて、ユーザが操作したときに入力された音声に対応する部分が、ユーザが選択した感情タイプに基づいて加工されるようにしてもよい。

　さらに、以上の説明では、入力文章の中間又は末尾に文字列を付加することにより文章を加工する例を示したが、文章の先頭に文字列を付加することにより文章を加工することも可能である。

　また、以上の説明では、文字、記号、顔文字等の文字列を付加することにより文章を加工する例を示したが、例えば、元の文章の意味を維持しながら表現を変更するようにしてもよい。この文章の表現の変更には、単語の変更も含まれる。例えば、”楽しい”という文章を、”ハッピー”や"Haaaaappy!"等のより楽しそうな表現に変更することが考えられる。

　この場合、例えば、感情レベルに基づいて、文章の表現を変更する度合いが調整される。また、例えば、感情タイプに基づいて、表現の変更方法が選択される。

　さらに、チャットやメール等の相手とコミュニケーションを行うツールの文章を入力する場合、例えば、文章を加工する際に、相手が使用した記号や顔文字と重複しない記号や顔文字を優先的に付加するようにしてもよい。

　また、文章を加工する機能をオン又はオフできるようにしてもよい。

　さらに、ユーザが入力する文章の癖やユーザが好む加工文章の傾向を、過去のログ等に基づいて学習し、ユーザの癖や嗜好に合わせて文章を加工するようにしてもよい。

　＜２－２．感情の認識方法及び入力方法に関する変形例＞
　以上の説明では、ユーザが手動で感情を入力する例を示したが、例えば、サーバ１２が自動的に感情を認識するようにしてもよい。

　ここで、図２３のフローチャートを参照して、サーバ１２により実行される感情認識処理の例について説明する。

　ステップＳ１０１において、サーバ１２は、文章及び音声データのうち少なくとも１つの特徴量を抽出する。

　例えば、自然言語処理部７３は、加工対象となる文章（入力文章）に対して、形態素解析、構文解析等の自然言語処理を行うことにより、特徴量を抽出する。なお、入力文章は、音声データを音声認識した結果であってもよいし、テキストデータとして与えられたものであってもよい。

　また、例えば、音処理部７１は、ユーザにより入力された入力文章を示す音声データの特徴量を抽出する。

　ステップＳ１０２において、感情認識部７７は、特徴量に基づいて、感情を認識する。具体的には、感情認識部７７は、入力文章の特徴量及び音声データの特徴量のうち少なくとも１つに基づいて、ユーザが付与したい感情を認識する。なお、感情認識部７７は、感情タイプ及び感情レベルの両方を認識してもよいし、いずれか一方を認識するようにしてもよい。

　なお、感情認識部７７が感情を認識する方法には、任意の方法を採用することができる。例えば、機械学習、又は、ルールベースの認識処理等を採用することができる。

　その後、感情認識処理は終了する。

　なお、感情認識部７７は、例えば、この処理により、疑問形、命令形への変換など、感情とはあまり関係ない文章の加工を、機械学習等を用いて自動的に行うようにしてもよい。

　また、感情認識部７７は、感情の自動認識を行う場合、１つ以上前の１以上の文章の自然言語処理の解析結果や感情の認識結果に基づいて、認識処理に用いるようにしてもよい。例えば、感情認識部７７は、前の文章に付与する感情の認識結果が”楽しい”である場合、次の文章に付与する感情も”楽しい”である可能性が高いため、認識処理において”楽しい”の優先度を上げるようにしてもよい。

　また、感情認識部７７は、チャットやメール等において相手に返信する文章を入力する場合、相手の文章の感情に基づいて、感情の自動認識を行うようにしてもよい。例えば、感情認識部７７は、相手の文章に”楽しさ”を表す顔文字が含まれる場合、認識処理において”楽しい”の優先度を上げるようにしてもよい。

　さらに、例えば、ユーザを撮影した画像において、ユーザの表情等を感情の認識処理に用いるようにしてもよい。

　また、例えば、感情タイプを選択する場合、まずお勧めの感情タイプを１つ又は複数提示するようにしてもよい。そして、ユーザが、所望の感情タイプを見つけられなかった場合、全ての感情タイプを選択できるように提示するようにしてもよい。

　さらに、例えば、コントローラ１００が加速度センサやジャイロセンサを内蔵している場合、コントローラ１００を振動させることにより、感情レベルや感情タイプを入力できるようにしてもよい。

　また、ユーザがジェスチャ等により感情タイプや感情レベルを入力することができるようにしてもよい。例えば、各感情タイプにそれぞれ異なるジェスチャを割り当て、ジェスチャの大きさに基づいて、感情レベルを設定できるようにしてもよい。

　＜２－３．システムの構成に関する変形例＞
　図１の情報処理システム１０の構成例は、その一例であり、必要に応じて変更することが可能である。

　例えば、クライアント１１の機能の一部をサーバ１２に設けたり、サーバ１２の機能の一部をクライアント１１に設けたりすることが可能である。

　例えば、クライアント１１が、感情の認識を行い、サーバ１２が、認識された感情に基づいて文章を加工するようにしてもよい。

　また、例えば、サーバ１２が、感情の認識を行い、クライアント１１が、認識された感情に基づいて文章を加工するようにしてもよい。

　さらに、例えば、クライアント１１とサーバ１２を一体化し、１台の装置で上記の処理を行うことも可能である。

　さらに、音声以外の方法により入力情報を与える場合にも、本技術を適用することができる。例えば、テキスト情報により与えられた入力情報を、感情を付与するように加工する場合にも、本技術を適用することができる。

　＜＜３．応用例＞＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図２５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１，ＲＯＭ（Read Only Memory）５０２，ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インタフェース５０５が接続されている。入出力インタフェース５０５には、入力部５０６、出力部５０７、記憶部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記憶部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインタフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記憶部５０８に記憶されているプログラムを、入出力インタフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インタフェース５０５を介して、記憶部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記憶部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記憶部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　また、例えば、本技術は以下のような構成も取ることができる。

（１）
　ユーザ操作により入力された感情を認識する感情認識部と、
　認識された感情に基づいて第１の文章を加工する加工部と
　を備える情報処理装置。
（２）
　入力音声を前記第１の文章に変換する音声認識部を
　さらに備え、
　前記加工部は、前記音声認識部により変換された前記第１の文章を加工する
　前記（１）に記載の情報処理装置。
（３）
　前記加工部は、前記入力音声の入力中にユーザ操作が行われた場合、ユーザ操作中に入力された音声に対応する前記第１の文章の部分の加工を行う
　前記（２）に記載の情報処理装置。
（４）
　前記感情認識部は、さらに前記入力音声に基づいて、感情を認識する
　前記（２）又は（３）に記載の情報処理装置。
（５）
　前記感情認識部は、感情の種類及びレベルのうち少なくとも１つを認識する
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記感情認識部は、ユーザ操作の操作量に基づいて、感情のレベルを認識する
　前記（５）に記載の情報処理装置。
（７）
　前記感情認識部は、ユーザが操作する操作部に対するスワイプ量と押下量又は押下時間との組み合わせより、感情のレベルを認識する
　前記（６）に記載の情報処理装置。
（８）
　前記感情認識部は、ユーザ操作の方向に基づいて、感情の種類を認識する
　前記（５）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記加工部は、前記第１の文章の先頭、中間、及び、末尾のうち少なくとも１カ所に文字列を付加する
　前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記加工部は、認識された感情のレベルに基づいて、付加する文字列の量を調整する
　前記（９）に記載の情報処理装置。
（１１）
　前記加工部は、認識された感情の種類に基づいて、付加する文字列を変更する
　前記（９）又は（１０）に記載の情報処理装置。
（１２）
　前記加工部は、前記第１の文章の意味を維持しながら表現を変更する
　前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
　前記加工部は、認識された感情のレベルに基づいて、表現を変更する度合いを調整する
　前記（１２）に記載の情報処理装置。
（１４）
　前記加工部は、認識された感情の種類に基づいて、表現の変更方法を選択する
　前記（１２）又は（１３）に記載の情報処理装置。
（１５）
　前記感情認識部は、さらに前記第１の文章に基づいて、感情を認識する
　前記（１）乃至（１４）のいずれかに記載の情報処理装置。
（１６）
　前記感情認識部は、さらに前記第１の文章より前の第２の文章に基づいて、感情を認識する
　前記（１）乃至（１５）のいずれかに記載の情報処理装置。
（１７）
　前記感情認識部は、前記第１の文章が第３の文章に対する返信である場合、さらに前記第３の文章に基づいて、感情を認識する
　前記（１）乃至（１６）のいずれかに記載の情報処理装置。
（１８）
　前記加工部は、認識された感情に対応する表現を前記第１の文章に付与する
　前記（１）乃至（１７）のいずれかに記載の情報処理装置。
（１９）
　ユーザ操作により入力された感情を認識する感情認識ステップと、
　認識された感情に基づいて第１の文章を加工する加工ステップと
　を含む情報処理方法。

　１０　情報処理システム，　１１　クライアント，　１２　サーバ，　２１　音声入力部，　２２　操作部，　２３　表示部，　２５　センサ部，　２７　制御部，　４１　入出力制御部，　４２　提示制御部，　４３　実行部，　６２　制御部，　７１　音処理部，　７２　画像処理部，　７３　自然言語処理部，　７４　音声認識部，　７５　ジェスチャ認識部，　７６　操作認識部，　７７　感情認識部，　７８　加工部

Claims

　ユーザ操作により入力された感情を認識する感情認識部と、
　認識された感情に基づいて第１の文章を加工する加工部と
　を備える情報処理装置。
　入力音声を前記第１の文章に変換する音声認識部を
　さらに備え、
　前記加工部は、前記音声認識部により変換された前記第１の文章を加工する
　請求項１に記載の情報処理装置。
　前記加工部は、前記入力音声の入力中にユーザ操作が行われた場合、ユーザ操作中に入力された音声に対応する前記第１の文章の部分の加工を行う
　請求項２に記載の情報処理装置。
　前記感情認識部は、さらに前記入力音声に基づいて、感情を認識する
　請求項２に記載の情報処理装置。
　前記感情認識部は、感情の種類及びレベルのうち少なくとも１つを認識する
　請求項１に記載の情報処理装置。
　前記感情認識部は、ユーザ操作の操作量に基づいて、感情のレベルを認識する
　請求項５に記載の情報処理装置。
　前記感情認識部は、ユーザが操作する操作部に対するスワイプ量と押下量又は押下時間との組み合わせより、感情のレベルを認識する
　請求項６に記載の情報処理装置。
　前記感情認識部は、ユーザ操作の方向に基づいて、感情の種類を認識する
　請求項５に記載の情報処理装置。
　前記加工部は、前記第１の文章の先頭、中間、及び、末尾のうち少なくとも１カ所に文字列を付加する
　請求項１に記載の情報処理装置。
　前記加工部は、認識された感情のレベルに基づいて、付加する文字列の量を調整する
　請求項９に記載の情報処理装置。
　前記加工部は、認識された感情の種類に基づいて、付加する文字列を変更する
　請求項９に記載の情報処理装置。
　前記加工部は、前記第１の文章の意味を維持しながら表現を変更する
　請求項１に記載の情報処理装置。
　前記加工部は、認識された感情のレベルに基づいて、表現を変更する度合いを調整する
　請求項１２に記載の情報処理装置。
　前記加工部は、認識された感情の種類に基づいて、表現の変更方法を選択する
　請求項１２に記載の情報処理装置。
　前記感情認識部は、さらに前記第１の文章に基づいて、感情を認識する
　請求項１に記載の情報処理装置。
　前記感情認識部は、さらに前記第１の文章より前の第２の文章に基づいて、感情を認識する
　請求項１に記載の情報処理装置。
　前記感情認識部は、前記第１の文章が第３の文章に対する返信である場合、さらに前記第３の文章に基づいて、感情を認識する
　請求項１に記載の情報処理装置。
　前記加工部は、認識された感情に対応する表現を前記第１の文章に付与する
　請求項１に記載の情報処理装置。
　ユーザ操作により入力された感情を認識する感情認識ステップと、
　認識された感情に基づいて第１の文章を加工する加工ステップと
　を含む情報処理方法。