WO2012147274A1

WO2012147274A1 - 入力補助装置、入力補助方法及びプログラム

Info

Publication number: WO2012147274A1
Application number: PCT/JP2012/002099
Authority: WO
Inventors: 俊彦藤林
Original assignee: NEC Casio Mobile Communications Ltd
Current assignee: NEC Casio Mobile Communications Ltd
Priority date: 2011-04-26
Filing date: 2012-03-27
Publication date: 2012-11-01
Anticipated expiration: 2013-10-26
Also published as: EP2704024A4; JPWO2012147274A1; EP2704024A1; US9728189B2; US20140052441A1; JP5928449B2; EP2704024B1

Abstract

【課題】　音声認識する際の発話者の感情を正しく判断して適切な装飾の付加を行えるようにする。【解決手段】　入力補助装置１００は、文字列を入力する入力手段１０１と、複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段１０２に保持する装飾情報保持手段１０３と、姿勢を検出する姿勢検出手段１０４と、前記姿勢検出手段１０４によって検出された姿勢に紐付けされた装飾情報を前記記憶手段１０２から読み出す読み出し手段１０５と、前記読み出し手段１０５によって読み出された装飾情報を前記文字列に適用する装飾適用手段１０６とを備える。入力手段１０１は好ましくは音声データを音声認識して文字列に変換する音声認識手段を含む。

Description

入力補助装置、入力補助方法及びプログラム

　本発明は、音声認識された文字列に所望の装飾を施すための入力補助装置、入力補助方法及びプログラムに関する。

　音声認識（Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）とは、ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のことである。日本語変換用の音声認識の場合は、たとえば、“こんにちは”と発話した場合に、その発話内容を“今日は”という文字列に変換することができる。

　ところで、同じ「こんにちは」でも対面の場合は、表情や声の抑揚などから、発話者の感情を相手に伝えることができるが、音声認識の場合は、単なる文字列であるため、そのような感情の伝達を行うことができない。このため、文字列の読み手に感情を伝えるためには、“私は元気です”などの言葉を続けなければならず、発話内容が複雑化して音声認識の誤りを招きやすくなる。

　発話内容の複雑化を招かずに感情を伝えられる手法に「装飾」がある。装飾の典型は顔文字である。たとえば、「こんにちは」の後に笑顔に見える文字列（(^-^)；笑顔マークなどともいう）を付けると、発話者の感情（この場合は元気に相当する喜び）を読み手に伝えることができる。

　このような装飾を音声認識に適用するには、たとえば、“えがおまーく”などと発声し、その音声を認識して該当する装飾（この場合は笑顔マーク）を付加することが考えられる。

　しかしながら、このやり方では、あらかじめ各々の装飾を識別するための照合用の音声データを登録しておく必要があり、装飾の種類が増えるほど、照合用の音声データの容量が大きくなって記憶空間を圧迫するという欠点がある。しかも、ユーザは、照合用の音声データと同じ発声を覚えておかなければならないから、使い勝手が悪いという欠点もある。

　したがって、記憶空間の圧迫を招かず、且つ、使い勝手のよい装飾入力技術が求められている。

　このような背景から、たとえば、下記の特許文献１には、音声を認識して文字列に変換する際に、音声に込められた感情を推定し、その感情が表現された絵文字などの装飾を文字列に追加する技術が記載されている。
　また、下記の特許文献２には、文字入力時の打鍵速度や打鍵強度及び打鍵頻度から、文字入力者の意欲や感情などを推定し、その推定結果に応じた顔文字等の修飾情報を文字列に追加する技術が記載されている。
　また、下記の特許文献３には、メール送信端末は自端末の振動を検出してその振動情報を付加したメールを送信し、メール受信端末はメールを再生する際に、振動情報に応じた強度の振動を発生する技術が記載されている。
　また、下記の特許文献４には、携帯電話機の変位パターン（たとえば、前に倒す、丸く円を描く、横に振る）を検出し、検出された変位パターンに応じたメール補助入力情報（短文や例文等）をリスト表示する技術が記載されている。

特開２００６－２５９６４１号公報特開２００６－３１８４１３号公報特開２００９－２２４９５０号公報特開２００９－２７１６１３号公報

　しかしながら、特許文献１に記載の技術は、「音声に込められた感情を推定」するものであるが、その推定には誤差がつきものであるし、そもそも携帯電話機等の小型の携帯機器には簡易的な推定エンジンしか搭載できないから、充分な精度で感情の推定を行うことができないという欠点がある。
　この欠点は、とりわけ人前で音声認識を行う際に顕在化する。多くの人は、人前では周りを気にして感情を抑えて発声するからであり、棒読みまたは棒読みに近い単調な発声になってしまい、推定精度が低下して感情を正しく判断できなくなるからである。
　したがって、特許文献１に記載の技術は、感情を正しく判断できない点で改善すべき課題がある。

　なお、特許文献２に記載の技術は、打鍵速度や打鍵強度及び打鍵頻度に基づくものであり、これらの打鍵情報は、要するに、手作業によって得られる情報であるから、そもそも手作業を無くすために用いられる音声認識とは相容れないものであるし、仮に、音声認識と組み合わせたとしても、打鍵音によって音声認識の精度が著しく低下するので、そのような組み合わせは現実的でない。
　また、特許文献３に記載の技術は、単に振動を相手に伝えているに過ぎず、その振動の意味するところ、つまり、相手に伝えたい意図や気持ちが不明であるので、効果的な意思伝達の手段とはなり得ない。
　また、特許文献４に記載の技術は、単に変位パターンに応じたメール補助入力情報（短文や例文等）をリスト表示するものに過ぎず、リスト表示の労力緩和には貢献するものの、音声認識する際の発話者の感情を正しく判断して適切な装飾の付加を行うという点で何らの寄与もなさないものである。

　そこで、本発明の目的は、音声認識する際の発話者の感情を正しく判断して適切な装飾の付加を行えるようにする。

　本発明の入力補助装置は、文字列を入力する入力手段と、複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持手段と、姿勢を検出する姿勢検出手段と、前記姿勢検出手段によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し手段と、前記読み出し手段によって読み出された装飾情報を前記文字列に適用する装飾適用手段とを備えたことを特徴とする。
　本発明の入力補助方法は、文字列を入力する入力工程と、複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持工程と、姿勢を検出する姿勢検出工程と、前記姿勢検出工程によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し工程と、前記読み出し工程によって読み出された装飾情報を前記文字列に適用する装飾適用工程とを含むことを特徴とする。
　本発明のプログラムは、コンピュータに、文字列を入力する入力手段、複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持手段、姿勢を検出する姿勢検出手段、前記姿勢検出手段によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し手段、前記読み出し手段によって読み出された装飾情報を前記文字列に適用する装飾適用手段としての機能を与えることを特徴とする。

　本発明によれば、音声認識する際の発話者の感情を正しく判断して適切な装飾の付加を行うことができる。

携帯電話機１の構成図である。文字列装飾データベース１２の概念構造図である。音声認識情報格納テーブル１８の概念構造図である。文字列装飾データベース１２と音声認識情報格納テーブル１８の関係を示す図である。携帯電話機１の動作フローを示す図である。音声認識処理の動作フロー図である。音声入力中の操作画面の一例を示す図である。感情の「レベル」を適用する際の操作例を示す図である。感情レベルを変更した際の実例を示す図である。付記１の構成図である。

　以下、本発明の実施形態を、携帯電話機への適用を例にして、図面を参照しながら説明する。
　図１は、携帯電話機１の構成図である。この図において、携帯電話機１は、手持ちに適した形状のボディ２の内部に、制御部３、通信部４、操作部５、表示部６、音声入出力部７、音声認識部８、文字編集部９、姿勢検出部１０、記憶部１１などを備えている。なお、図示を略しているが、ボディ２の内部には、さらに、各部の電源を供給するためのバッテリを含む電源部が備えられているとともに、所望であれば、カメラ等の撮像部やＧＰＳ受信部等の位置検出部などが備えられていてもよい。

　制御部３は、コンピュータ（以下、ＣＰＵ）３ａや不揮発性メモリ（以下、ＲＯＭ）３ｂ及び高速作業用メモリ（以下、ＲＡＭ）３ｃ並びにそれらの周辺回路（不図示）から構成されたプログラム制御方式の制御要素であり、ＲＯＭ３ｂにあらかじめ格納されている制御プログラム（基本プログラムや各種アプリケーションプログラム等）をＲＡＭ３ｃに読み出してＣＰＵ３ａで実行することにより、この携帯電話機１に必要な様々な機能をソフトウェア的に実現する。なお、ここでは不揮発性メモリとしてＲＯＭ（すなわち読み出し専用型の不揮発性メモリ）を例にしているが、これに限定されない。電源オフでも保持内容が失われない不揮発性であればよく、たとえば、ワンタイム書き込み型や消去可能書き込み型の不揮発性メモリであってもよい。

　通信部４は、制御部３からの制御により、アンテナ４ａを介して最寄りの携帯電話基地局（図示略）との間で所定周波数帯域及び所定変調方式の無線によるデジタルデータの送受信を行う。デジタルデータには、電話の着呼や発呼の情報および音声通話の情報が含まれるほか、電子メールの送受信情報や、各種インターネットコンテンツの閲覧情報ならびに所要のネットワークサービスのサービス情報などが含まれる。

　操作部５は、ユーザインターフェース用の入力手段であり、たとえば、電話番号入力と文字入力の兼用ボタンや、各種の機能ボタン及びカーソル操作キーなどを備え、ユーザ操作に応答して、それらのボタンやキーに対応した入力信号を発生して制御部３に出力する。

　表示部６は、液晶パネルなどの平面二次元表示デバイス（好ましくは多色表示が可能で高精細な表示画面を持つもの）からなり、制御部３から適宜に出力される表示情報を画面上にグラフィカルに表示する。なお、この表示部６は、静電容量方式や抵抗膜方式などのタッチパネルを備えていてもよい。この場合、タッチパネルは操作部５の一部を構成する。

　音声入出力部７は、制御部３からの制御により、マイク７ａで拾った音声信号をデジタルデータに変換して制御部３に出力したり、制御部３から出力されたデジタルの音声信号をアナログ信号に変換してスピーカ７ｂから拡声したりする。マイク７ａやスピーカ７ｂは電話の送受話用であるが、マイク７ａは、さらに、メールなどの文章を音声認識で作成する際の音声入力手段としても用いられる。

　音声認識部８は、メールなどの文章を音声認識で作成する際に、マイク７ａで拾った音声データを音声入出力部７と制御部３を介して取り込み、その音声データを文字列に変換して制御部３に出力する。なお、ここでは、音声認識部８を独立したブロックとして図示しているが、これに限定されない。制御部３のＣＰＵ３ａでソフトウェア的に実現される態様であってもよいし、あるいは、外部の音声認識サーバでサービスとして提供される態様であってもよい。以下、この実施形態では、説明を簡単にするために、図示のとおりの独立したブロック（音声認識部８）の態様とする。

　文字編集部９は、メールなどの文章を作成する際の編集機能を提供する。編集とは、一般的に手作業による文章の作成や修正のことをいうが、この文字編集部９における編集は、さらに、「音声認識」によって作成された文章の一部を手直しすることをいう。具体的には、操作部５からの入力信号に応じて文章の一部を削除したり、文字を追加したり、語彙の順番を入れ替えたりなどすることをいう。また、この編集には、冒頭で説明した装飾が含まれていてもよい。すなわち、必要に応じ、操作部５からの入力信号に応じて、たとえば、顔文字等の装飾を追加したりしてもよい。
　しかし、このような編集（操作部５からの入力信号に基づく編集）は、手作業によるものであるので、音声認識の効果（手作業を要しない）を阻害する。したがって、文字の削除や追加といった細かな手直しを手作業で行うのはやむを得ないが、装飾については、以下に説明する本実施形態特有の技術（姿勢検出による装飾の付加）を利用することが望ましい。

　姿勢検出部１０は、携帯電話機１の姿勢に関する情報を検出して、その検出結果を制御部３に出力する。
　携帯電話機１の姿勢は、「静的」なものと「動的」なものの二種類ある。静的な姿勢は検出時点における携帯電話機１の向きや傾きであり、動的な姿勢は一の姿勢から二の姿勢への変化の方向と量及びその変化速度などである。以下、単に「姿勢」という場合は、これらの静的姿勢と動的姿勢を総称するものとし、特に必要な場合は、静的姿勢（または静的な姿勢）や動的姿勢（または動的な姿勢）というように区別することにする。

　姿勢検出部１０には、ＸＹＺの３軸方向の加速度ベクトルを一度に測定できる３軸加速度センサを使用することができる。３軸加速度センサは、ピエゾ抵抗型や静電容量型または熱検知型など様々な種類があるが、いずれを用いてもかまわない。測定精度や応答性、コスト及び実装サイズなどを勘案して適当なものを選択して使用すればよい。

　加速度は、単位時間当たりの速度の変化率のことである。負（進行方向と反対）の加速度は一般に「減速度」と呼ばれるが、極性（方向）の違いを除き、どちらも同じ加速度である。ＸＹＸの３軸方向の加速度ベクトルから「静的姿勢」を検出でき、また、その加速度の単位時間当たりの変化率（加加速度）を考慮すれば「動的姿勢」も検出できる。

　記憶部１１は、不揮発性且つ書き換え可能な大容量記憶デバイス（たとえば、フラッシュメモリやシリコンディスクまたはハードディスクなど）で構成された記憶要素であり、本実施形態特有の技術（姿勢検出による装飾の付加）に必要な各種データ（以下に述べる文字列装飾データベース１２や音声認識情報格納テーブル１８など）を書き換え可能に保持する。

　次に、記憶部１１に保持されている各種データについて説明する。前記のとおり、記憶部１１には、本実施形態特有の技術（姿勢検出による装飾の付加）に必要な各種データとして、文字列装飾データベース１２や音声認識情報格納テーブル１８などが書き換え可能に保持されている。

　図２は、文字列装飾データベース１２の概念構造図である。この図において、文字列装飾データベース１２は、装飾に関係する様々な既定情報を保持するためのデータベースであり、装飾の数に対応した同一構造の多数の紐付け情報格納領域１３、１３を備えている。ここでは、二つの紐付け情報格納領域１３、１３しか図示していないが、これは図面の輻輳を避けるための便宜である。

　なお、“紐付け”とは、一の紐付け情報格納領域１３に格納されている各種の情報が互いに関連付けられている（リレーションされているともいう）ことを意味する。たとえば、各々の紐付け情報格納領域１３は、姿勢情報格納領域１４、感情情報格納領域１５、アバタ情報格納領域１６、及び、装飾情報格納領域１７を備えているが、それらの格納領域１４～１７に格納されている情報が互いに関連付けられていることを意味する。

　ここで、姿勢情報格納領域１４は、方向格納領域１４ａと角度格納領域１４ｂとを備え、これらの格納領域１４ａ、１４ｂには姿勢検出部１０の検出結果と照合するための情報（方位情報と角度情報）が格納されている。また、感情情報格納領域１５は、感情種別格納領域１５ａと感情レベル格納領域１５ｂとを備え、これらの格納領域１５ａ、１５ｂには、上記の照合情報（方位情報と角度情報）に紐付けされた感情情報（感情の種別とレベル）が格納されている。また、アバタ情報格納領域１６は、姿勢に対応した表情を有するキャラクタ（アバタ）を格納するものであり、このアバタの詳しい説明は後述する。また、装飾情報格納領域１７は、文字色格納領域１７ａ、文字サイズ格納領域１７ｂ、追加文字列格納領域１７ｃ及び追加情報格納領域１７ｄを備え、これらの格納領域１７ａ～１７ｄには、上記の照合情報（方位情報と角度情報）に紐付けされた装飾情報（文字色、文字サイズ、追加文字列、追加情報）が格納されている。

　なお、図では、姿勢検出部１０の検出結果と照合するための情報として静的姿勢に対応する方位情報と角度情報とを例示しているが、これに限定されない。静的姿勢に対応する情報に加えて、さらに、動的姿勢に対応する情報（方位や傾きの変化に相当する量）も格納してもよい。

　図３は、音声認識情報格納テーブル１８の概念構造図である。この図において、音声認識情報格納テーブル１８は、ユーザの発話単位数、たとえば、無音で区切った発話単位の数に対応した複数の音声入力情報格納領域１９、１９を備えている。ここでは、二つの音声入力情報格納領域１９、１９しか図示していないが、これは図面の輻輳を避けるための便宜である。

　各々の音声入力情報格納領域１９、１９は同一構造であり、それぞれ入力順情報格納領域２０、音声情報格納領域２１、感情情報格納領域２２、認識文字列情報格納領域２３、及び、装飾文字列格納領域２４を備えている。

　入力順情報格納領域２０には、ユーザによって入力された音声データの一単位（発話単位）の入力順（つまり発話順）が格納され、音声情報格納領域２１には、その入力順の音声データが格納される。また、感情情報格納領域２２には、姿勢検出部１０の検出結果に従って文字列装飾データベース１２から取り出された感情情報が格納され、また、認識文字列情報格納領域２３には、当該入力順の音声データの音声認識結果の文字列情報が格納され、さらに、装飾文字列格納領域２４には、姿勢検出部１０の検出結果に従って文字列装飾データベース１２から取り出された装飾文字情報を認識文字列に付加した文字列が格納される。

　図４は、文字列装飾データベース１２と音声認識情報格納テーブル１８の関係を示す図である。今、ユーザが音声認識のために、“きょうはあめがふりそうですね＿いえでえいがでもみます”と発話したと仮定する。ここで、アンダーバー（＿）は無音区切りを示す。この場合のｉ番目の発話は“きょうはあめがふりそうですね”になり、ｉ＋１番目の発話は“いえでえいがでもみます”になる。

　この場合、ｉ番目の発話内容（“きょうはあめがふりそうですね”）は、音声認識情報格納テーブル１８の一の音声入力情報格納領域１９の音声情報格納領域２１に格納され、同時に、その発話順（入力順）の“ｉ”は、同じく一の音声入力情報格納領域１９の入力順情報格納領域２０に格納される。

　また、ｉ＋１番目の発話内容（“いえでえいがでもみます”）は、音声認識情報格納テーブル１８の二の音声入力情報格納領域１９の音声情報格納領域２１に格納され、同時に、その発話順（入力順）の“ｉ＋１”は、同じく二の音声入力情報格納領域１９の入力順情報格納領域２０に格納される。

　そして、ｉ番目の発話内容（“きょうはあめがふりそうですね”）の音声認識結果（“今日は雨が降りそうですね”）は、一の音声入力情報格納領域１９の認識文字列情報格納領域２３に格納され、同様に、ｉ＋１番目の発話内容（“いえでえいがでもみます”）の音声認識結果（“家で映画でも見ます”）は、二の音声入力情報格納領域１９の認識文字列情報格納領域２３に格納される。

　さて、ｉ番目の発話のときに、ユーザが携帯電話機１の姿勢を所定の姿勢（便宜的に姿勢Ａという）にしたと仮定すると、この姿勢Ａを手掛かりにして、文字列装飾データベース１２の紐付け情報格納領域１３が検索される。同様に、ｉ＋１番目の発話のときに、ユーザが携帯電話機１の姿勢を他の所定の姿勢（便宜的に姿勢Ｂという）にしたと仮定すると、この姿勢Ｂを手掛かりにして、文字列装飾データベース１２の紐付け情報格納領域１３が検索される。

　そして、姿勢情報格納領域１４の中から「姿勢Ａ」が格納された紐付け情報格納領域１３が見つかると、その紐付け情報格納領域１３の感情情報格納領域１５と装飾情報格納領域１７の格納情報（感情情報と装飾情報）が、ｉ番目の発話に対応した音声入力情報格納領域１９（上記の一の音声入力情報格納領域１９）の該当領域（感情情報格納領域２２と装飾文字列格納領域２４）に転記される。
　同様に、姿勢情報格納領域１４の中から「姿勢Ｂ」が格納された紐付け情報格納領域１３が見つかると、その紐付け情報格納領域１３の感情情報格納領域１５と装飾情報格納領域１７の格納情報（感情情報と装飾情報）が、ｉ＋１番目の発話に対応した音声入力情報格納領域１９（上記の二の音声入力情報格納領域１９）の該当領域（感情情報格納領域２２と装飾文字列格納領域２４）に転記される。

　この結果、ｉ番目の発話に対応した音声入力情報格納領域１９（上記の一の音声入力情報格納領域１９）と、ｉ＋１番目の発話に対応した音声入力情報格納領域１９（上記の二の音声入力情報格納領域１９）とに、それぞれ発話順（入力順）の情報（“ｉ”と“ｉ＋１”）、音声データ（“きょうはあめがふりそうですね”と“いえでえいがでもみます”）、感情情報（「悲しみ」と「喜び」）、音声認識結果（“今日は雨が降りそうですね”と“家で映画でも見ます”）、及び、装飾を追加した文字列（“今日は雨が降りそうですね・・・(ToT)”と“家で映画でも見ます(^-^)”）が格納される。
　なお、図中の二つの紐付け情報格納領域１３のアバタ情報格納領域（図２のアバタ情報格納領域１６に相当）には、それぞれ悲しみの表情のアバタ１６ａと、喜びの表情のアバタ１６ｂが示されている。これらのアバタ１６ａ、１６ｂは、姿勢Ａ（悲しみ）のときと姿勢Ｂ（喜び）のときに、それぞれ表示部６に出力されて表示される（後述の図７のアバタ２６参照）。

　図５は、携帯電話機１の動作フローを示す図である。携帯電話機１は、メールなどの文章を音声認識で作成することが可能なモード（以下、音声認識モードという）を備えており、この音声認識モードは、たとえば、操作部５の所定ボタンの押し下げに応答して実行されるようになっている。音声認識モードの実行主体は制御部３である。すなわち、制御部３は、操作部５の所定ボタンの押し下げに応答して、メール等の文書作成用アプリケーションプログラムをＲＯＭ３ｂからＲＡＭ３ｃに読み出してＣＰＵ３ａで実行（ステップＳ１０）しつつ、同様にＲＯＭ３ｂから音声認識モード用の制御プログラムをＲＡＭ３ｃに読み出して、その制御プログラムをＣＰＵ３ａで逐次に実行（ステップＳ１１～ステップＳ１７）する。

　制御プログラムは、音声入力（ステップＳ１１）とアバタ表示（ステップＳ１２）の各処理を順次に実行した後、姿勢変更判断（ステップＳ１３）を行ってその判断結果がＹＥＳの場合に感情情報検出（ステップＳ１４）、アバタ変更（ステップＳ１５）、入力音声との紐付け（ステップＳ１６）、及び、音声入力終了判断（ステップＳ１７）の各処理を順次に実行する一方、姿勢変更判断（ステップＳ１３）の判断結果がＮＯの場合にステップＳ１４～ステップＳ１６をパスして音声入力終了判断（ステップＳ１７）の処理を実行し、さらに、いずれの場合も、音声入力終了判断（ステップＳ１７）の判断結果がＮＯであればステップＳ１３に戻り、ＹＥＳであればプログラムを終了する。

　ステップＳ１１の音声入力処理では、マイク７ａで集音されたユーザの発話内容を音声データに変換し、その音声データを音声認識情報格納テーブル１８の音声入力情報格納領域１９に格納する。先にも説明したように音声入力情報格納領域１９は発話単位（たとえば、無音を区切りとする発話の単位）ごとに複数備えられるので、ｉ番目の発話に対応する音声データはｉ番目の音声入力情報格納領域１９の音声情報格納領域２１に格納され、同時に、このｉ番目の音声入力情報格納領域１９の入力順情報格納領域２０に当該発話順の情報（つまりｉ）が格納される。以降、ｉ＋１番目の発話に対応する音声データはｉ＋１番目の音声入力情報格納領域１９の音声情報格納領域２１に格納され、同時に、このｉ＋１番目の音声入力情報格納領域１９の入力順情報格納領域２０に当該発話順の情報（つまりｉ＋１）が格納されるという動作が、音声入力終了判断（ステップＳ１７）の判断結果がＹＥＳになるまで継続的に行われる。

　ステップＳ１２のアバタ表示処理では、表示部６にアバタを表示する。“アバタ”とは、一般的に自分の分身として画面上に登場するキャラクタのことをいう。このようなアバタ（キャラクタ）は、顔の表情で多様な感情を表現できるという特徴があることから、実施形態に好適なベストモードであるが、これに限定されない。多様な感情を表現できるものであればアバタ以外の態様であってもかまわない。たとえば、笑顔や怒り顔、泣き顔などの感情を表現したマークや図形であってもよく、あるいは、それらの感情を表した顔文字や絵文字などの文字列であってもよい。

　ステップＳ１３の姿勢変更判断処理では、姿勢検出部１０の検出結果に基づき携帯電話機１の姿勢変更の有無を判断し、姿勢変更有りの場合に、ステップＳ１４の感情情報検出に進む。

　ステップＳ１４の感情情報検出処理では、携帯電話機１の姿勢に対応した感情情報を文字列装飾データベース１２から読み出す。先に説明したとおり、文字列装飾データベース１２には、多数の紐付け情報格納領域１３が備えられており、各々の紐付け情報格納領域１３には、姿勢情報格納領域１４、感情情報格納領域１５、アバタ情報格納領域１６、及び、装飾情報格納領域１７が備えられている。ステップＳ１４の感情情報検出処理では、まず、携帯電話機１の姿勢に対応する姿勢情報が格納されている一の紐付け情報格納領域１３を特定し、その紐付け情報格納領域１３の感情情報格納領域１５から感情情報を取り出す。

　ステップＳ１５のアバタ変更処理では、ステップＳ１４の感情情報検出処理で特定された一の紐付け情報格納領域１３のアバタ情報格納領域１６からアバタ情報を取り出し、そのアバタ情報で表示部６のアバタを変更する。

　ステップＳ１６の入力音声と感情の紐付け処理では、ステップＳ１４の感情情報検出処理で特定された一の紐付け情報格納領域１３の感情情報格納領域１５及び装飾情報格納領域１７から感情情報と装飾情報を取り出し、それらの情報を該当する順番（たとえば、ｉ番目）の音声認識情報格納テーブル１８の感情情報格納領域２２と装飾文字列格納領域２４に格納する。

　図６は、音声認識処理の動作フローである。このフローでは、まず、音声認識情報格納テーブル１８（の音声入力情報格納領域１９）に格納されている音声データを順次に読み出し、音声認識によって文字列に変換（ステップＳ２０）して、その文字列を音声入力情報格納領域１９の認識文字列情報格納領域２３に格納する。音声データの読み出し順は、各々の音声入力情報格納領域１９の入力順情報格納領域２０に格納されている順番（ｉ番目、ｉ＋１番目、・・・・）に従う。

　次いで、各々の読み出し順の音声データに感情情報が紐付けられているか否かを判定する（ステップＳ２１）。このステップＳ２１の判定結果は、ｉ番目の音声入力情報格納領域１９の感情情報格納領域２２に感情情報が格納されていればＹＥＳ（紐付けされている）となり、格納されていなければＮＯ（紐付けされていない）となる。

　ステップＳ２１の判定結果がＮＯ（紐付けされていない）の場合は、音声入力情報格納領域１９の認識文字列情報格納領域２３に格納された文字列（ステップＳ２０で変換された文字列）をそのまま表示部６に表示する（ステップＳ２３）。一方、ステップＳ２１の判定結果がＹＥＳ（紐付けされている）の場合は、音声入力情報格納領域１９の認識文字列情報格納領域２３に格納された文字列（ステップＳ２０で変換された文字列）に装飾を施し（ステップＳ２２）、装飾後の文字列を表示部６に表示する（ステップＳ２３）。すなわち、紐付けされている場合は、音声入力情報格納領域１９の装飾文字列格納領域２４に格納されている文字列を表示部６に表示する。

　図７は、音声入力中の操作画面の一例を示す図である。この図において、表示部６の上部付近に音声入力中であることをユーザに通知するための通知メッセージ２５が表示されているとともに、中央部付近にアバタ２６が表示されている。また、そのアバタ２６を中心にした上下左右の方向に４つの感情設定ボタン２７～３０が表示されており、さらに、左下と右下の方向に肯定ボタン３１と否定ボタン３２が表示されている。

　感情設定ボタン２７～３０は、アバタ２６の表情を設定するためのものである。たとえば、上の感情設定ボタン２７は、アバタ２６の表情を「喜び」に設定し、右の感情設定ボタン２８は、アバタ２６の表情を「疑問」に設定し、下の感情設定ボタン２９は、アバタ２６の表情を「悲しみ」に設定し、左の感情設定ボタン３０は、アバタ２６の表情を「怒り」に設定するためのものである。また、肯定ボタン３１はアバタ２６に対する上記の表情設定を決定（肯定）するためのもの、否定ボタン３２は同表情設定を拒否（否定）するためのものである。

　表示部６がタッチパネル付である場合、それらのボタン類（感情設定ボタン２７～３０、肯定ボタン３１及び否定ボタン３２）を直接、指先等で操作することが可能である。すなわち、音声入力中に、その音声データに所望の感情を表す装飾を付加したければ、ユーザは、該当する感情設定ボタン（感情設定ボタン２７～３０のいずれか）にタッチすればよい。そして、アバタ２６が所望の表情になれば肯定ボタン３１にタッチし、所望の表情にならなければ、否定ボタン３２にタッチした後、感情設定ボタン（感情設定ボタン２７～３０のいずれか）のタッチをやり直せばよい。

　しかしながら、それらのボタン類（感情設定ボタン２７～３０、肯定ボタン３１及び否定ボタン３２）への直接的なタッチ操作は、せっかくの音声入力の効果（手作業を要しない）を阻害する。そこで、本実施形態では、携帯電話機１の姿勢を変更するだけで、上記のボタン類（感情設定ボタン２７～３０、肯定ボタン３１及び否定ボタン３２）の操作を実行できるようにした。

　アバタ２６の上下左右から延びる４本の矢印記号３３～３６と、左下及び右下の２つの曲線矢印記号３７、３８は、ユーザに対する携帯電話機１の姿勢変更の指南表示である。ユーザは、それらの指南表示を見て、直感的に携帯電話機１の姿勢を変更して所望のボタン操作を行うことができる。

　たとえば、アバタ２６の表情を「喜び」に設定したければ、携帯電話機１を矢印記号３３の方向に傾けるという姿勢変更操作を行えばよい。このときの傾け方向は、携帯電話機１の上端部を手前に近づける方向と、向こう側に遠ざける方向の二方向ある（二方向の適否については後述する）。または、アバタ２６の表情を「疑問」に設定したければ、携帯電話機１を矢印記号３４の方向に傾けるという姿勢変更操作を行えばよい。このときの傾け方向も、携帯電話機１の右端部を手前に近づける方向と、向こう側に遠ざける方向の二方向ある（同）。または、アバタ２６の表情を「悲しみ」に設定したければ、携帯電話機１を矢印記号３５の方向に傾けるという姿勢変更操作を行えばよい。このときの傾け方向も、携帯電話機１の下端部を手前に近づける方向と、向こう側に遠ざける方向の二方向ある（同）。または、アバタ２６の表情を「怒り」に設定したければ、携帯電話機１を矢印記号３６の方向に傾けるという姿勢変更操作を行えばよい。このときの傾け方向も、携帯電話機１の左端部を手前に近づける方向と、向こう側に遠ざける方向の二方向ある（同）。
　二方向の適否を検討する。一般的に物体の一端側をある方向に傾けると、他端側が逆方向に動く（つまり逆方向に傾く）。このことから、二方向をともに有効として検出すると、姿勢判定の混乱を生じる。たとえば、携帯電話機１の上端部を手前に近づけるように傾けると、下端部が逆方向に動いてしまうから、この場合は、「喜び」と「悲しみ」のいずれの設定であるのか判定できなくなる。したがって、実用上は、前記二方向のいずれか一方を有効とすべきである。たとえば、「喜び」の姿勢変更操作は、携帯電話機１の上端部を手前に近づける方向とし、「疑問」の姿勢変更操作は、携帯電話機１の右端部を手前に近づける方向とし、「悲しみ」の姿勢変更操作は、携帯電話機１の下端部を手前に近づける方向とし、「怒り」の姿勢変更操作は、携帯電話機１の左端部を手前に近づける方向とするなどである。または、手前に近づける方向ではなく、その逆に向こう側に遠ざける方向としてもよい。ポイントは、各々の姿勢変更操作を同一の方向（手前に近づける方向または向こう側に遠ざける方向）に統一する点にある。このようにすれば、姿勢判定の混乱は生じない。

　そして、アバタ２６の表情が所望どおりになれば、左下の曲線矢印記号３８に従い、携帯電話機１の姿勢を反時計回り方向に変化させればよく、所望どおりにならなければ、右下の曲線矢印記号３７に従い、携帯電話機１の姿勢を時計回り方向に変化させればよい。
　なお、ここでは、アバタ２６の表情を設定する際に、携帯電話機１を「傾ける」という姿勢変更操作を行うとしているが、この操作に限定されない。携帯電話機１の向きを維持したまま、矢印記号３３～３６の方向にスライドさせるという姿勢変更操作でもよい。つまり、アバタ２６の表情を「喜び」に設定したければ、上にスライドさせ、アバタ２６の表情を「疑問」に設定したければ、右にスライドさせ、アバタ２６の表情を「悲しみ」に設定したければ、下にスライドさせ、アバタ２６の表情を「怒り」に設定したければ、左にスライドさせるという姿勢変更操作を行ってもよい。以下、説明の都合上、「傾ける」という姿勢変更操作を例にする。

　このように、本実施形態では、音声入力中に携帯電話機１の姿勢（傾き）を変更するだけで、アバタ２６の表情をその姿勢に対応した感情に変化させることができ、そして、入力した音声を音声認識によって文字列に変換するとともに、アバタ２６の感情に対応した装飾を文字列に付加して表示部６に表示することができ、その文字列を、たとえば、メールなどで送信することができる。

　なお、音声入力中の操作画面は上記の例示（図７）に限定されないことはもちろんである。たとえば、「喜び」、「疑問」、「悲しみ」、「怒り」といった感情も一例に過ぎず、それらの感情の一部又は全部を他の感情に入れ替えてもよい。また、感情の数も「喜び」、「疑問」、「悲しみ」、「怒り」の４つに限定されない。複数であればよく、２つや３つあるいは５つ以上であってもかまわない。

　なお、以上の説明では、感情の「レベル」に触れていない。これは、説明を簡単にするためである。以下、感情の「レベル」を考慮した説明を行う。

　図８は、感情の「レベル」を適用する際の操作例を示す図である。この図において、携帯電話機１の表示部６の上部付近に音声入力中であることを明示するための通知メッセージ２５が表示されているとともに、中央部付近にアバタ２６が表示されている。このアバタ２６の表情は、当初、無表情（感情なし）である（左端の携帯電話機１を参照）。

　なお、この図８では、図面を簡素化するために、前出の図７における感情設定ボタン２７～３０や、肯定ボタン３１、否定ボタン３２、矢印記号３３～３６、及び、曲線矢印記号３７、３８を省略している。
　したがって、図示の操作例においても、前出の図７と同様に、携帯電話機１の上端部を手前に近づける方向に傾けると、アバタ２６の表情が「喜び」に変化し、携帯電話機１の右端部を手前に近づける方向に傾けると、アバタ２６の表情が「疑問」に変化し、携帯電話機１の下端部を手前に近づける方向に傾けると、アバタ２６の表情が「悲しみ」に変化し、携帯電話機１の左端部を手前に近づける方向に傾けると、アバタ２６の表情が「怒り」に変化する。

　この図８では、携帯電話機１の右端部を手前に近づける方向に傾けた例を代表して示している。ただし、図では「右回転」のように見えているが、これは図示の都合である。

　この操作例のポイントは、各々の感情（疑問、喜び、悲しみ、怒り）のレベルを変更できるようにしている点にある。たとえば、所定量（４５度程度）の傾きであればレベル１の疑問とし、それよりも大きな（９０度程度）の傾きであればレベル１よりも深いレベル２の疑問という具合である。なお、ここでは、２段階のレベルとしているが、姿勢（傾き）の変化を細分化することにより、３段以上の多段レベルとすることも可能である。

　図示中央の携帯電話機１に表示されているアバタ２６は、レベル１のときのものであり、このアバタ２６は軽い疑問を示す表情になっている。これに対して、図示右端の携帯電話機１に表示されているアバタ２６は、レベル２のときのものであり、このアバタ２６は深い疑問を示す表情になっている。これにより、ユーザは、感情のレベルの違いをアバタ２６の表情から直感的に読み取ることができる。

　図９は、感情レベルを変更した際の実例を示す図である。この図において、いま、ｉ番目の発話内容を“きょうはあめがふりそうですね”（音声認識結果：“今日は雨が降りそうですね”）とするとともに、ｉ＋１番目の発話内容を“いえでえいがでもみます”（音声認識結果：“家で映画でも見ます”）とし、また、ｉ番目の感情を「悲しみ／レベル２」とするとともに、ｉ＋１番目の感情を「喜び／レベル１」とするものとする。

　この場合、ユーザは、ｉ番目の発話内容（“きょうはあめがふりそうですね”）を音声認識する際に携帯電話機１の姿勢を「悲しみ／レベル２」に対応した傾きにすればよく、また、ｉ＋１番目の発話内容（“いえでえいがでもみます”）を音声認識する際に携帯電話機１の姿勢を「喜び／レベル１」に対応した傾きにすればよい。

　このようにすると、図示のとおり、音声認識情報格納テーブル１８のｉ番目の音声入力情報格納領域１９に“今日は雨が降りそうですね”という音声認識結果と「悲しみ／レベル２」という感情情報が格納され、また、音声認識情報格納テーブル１８のｉ＋１番目の音声入力情報格納領域１９に“家で映画でも見ます”という音声認識結果と「喜び／レベル１」という感情情報が格納される。

　今、「悲しみ／レベル２」と「喜び／レベル１」に対応した装飾情報が図示の装飾情報格納部２４に格納されているとおりであるとする。つまり、「悲しみ／レベル２」について、文字色が青で文字サイズが大、追加文言（文字列）が「“・・・”」で、且つ、追加情報が泣き顔の絵文字（“(ToT)”）であるとし、「喜び／レベル１」について、文字色が規定値のままで文字サイズが中、追加文言（文字列）なしで、且つ、追加情報が笑い顔の絵文字（“(^-^)”）であるとすると、この場合の最終文字列（表示部６に表示される文字列）は、図示のとおりのものとなる。

　すなわち、最初の文字列（“今日は雨が降りそうですね”）が青色の大サイズの文字列で表示されるとともに、その文字列の後に「“・・・”」と「“(ToT)”」が追加され、さらに、続く文字列（“家で映画でも見ます”）が既定色の中サイズの文字列で表示されるとともに、その文字列の後に「““(^-^)””」が追加される。
　このように、この操作例においては、感情のレベルを指定できるので、より情感豊かな文字列を生成することができる。

　なお、この操作例では、姿勢（傾き）の大きさによって感情のレベルを設定しているが、この態様に限定されない。たとえば、同じ姿勢の繰り返し回数に応じて感情のレベルを設定するようにしてもよい。たとえば、所定方向への傾きを１回行うとレベル１、続けて２回行うとレベル２、・・・・、続けてｎ回行うとレベルｎという具合である。あるいは、１度設定したレベルを下げる仕組みを組み込んでもよい。たとえば、所定方向にｎ回傾けた後に逆方向にｍ回傾けるとレベルをｍ段下げるようにしてもよい。ただし、ｎ＞＝ｍである。ｎ＝ｍの場合、その感情レベルをリセット（つまり感情の設定を解除）したことになる。

　以上のとおりであるから、本実施形態によれば、以下の効果を奏することができる。
（１）音声入力時に携帯電子機器１の姿勢を変えるという簡単な操作を行うだけで、周囲を気にせずに、しかも、音声入力を妨げることなく所要の装飾入力を行うことができる。
（２）ユーザの感情に対応した装飾を行うことができるとともに、その感情をアバタの表情で表現するので、感情の入力誤りをアバタの表情から直感的に把握して、誤りを速やかに修正することができる。
（３）音声の認識結果と感情とを紐付けることにより、感情に適合した装飾を、自動で認識結果に適用することができる。
（４）上記（１）～（３）により、ユーザは周囲を気にすることなく、また、音声入力を妨げることがなく、音声入力のみでは困難な、ユーザの感情を反映した装飾つき文書を簡単な操作で作成することができる。

　なお、以上の説明では、発話単位（たとえば、無音を区切りとする単位）ごとに装飾を行っているが、これに限らず、たとえば、文書全体に対して装飾を行ってもよい。この場合、文書の背景色を変更したり、画像を追加したりといった装飾を行ってもよい。
　また、以上の説明では、ユーザの「感情」に対応した装飾を行っているが、感情以外の態様、たとえば、春夏秋冬などの「季節」に対応した装飾を行ってもよい。この場合、たとえば、アバタの服装や背景を変えるなどして季節を表現してもよいし、アバタの代わりに季節を表す写真や絵などを用いてもよい。季節ごとの装飾は、たとえば、季節を表す文字列、記号やマーク、あるいは画像などであってもよい。
　また、以上の説明では、携帯電話機１の姿勢を検出して感情と装飾の設定を行っているが、これ以外にも、たとえば、音声認識に必要な操作（文書の保存や認識結果の候補が複数ある場合の選択またはシャッフル動作）などに適用してもよい。
　また、冒頭で説明した特許文献１の技術を応用してもよい。すなわち、特許文献１の技術は、音声に込められた感情を推定するというものであるが、その推定結果を用いてアバタの表情を変化させてもよい。このようにすると、ユーザは、アバタの表情を見て推定の誤りにすぐに気づくことができ、携帯電話機１の姿勢を変えることにより、その誤りを直ちに修正できるから好ましい。
　また、以上の説明では、携帯電話機１への適用を例にしたが、これに限定されない。音声認識を用いた文字列入力機能と、その文字列に装飾を施す装飾付加機能とを備えた電子機器であればよく、たとえば、スマートフォン、タブレット型ＰＣ、ノート型ＰＣ、電子ブック、ゲーム機、デジタルカメラ、ナビゲーション装置などにも適用できる。

　以下、本発明の特徴を付記する。
　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　図１０は、付記１の構成図である。この図に示すように、付記１に記載の入力補助装置１００は、
　文字列を入力する入力手段１０１と、
　複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段１０２に保持する装飾情報保持手段１０３と、
　姿勢を検出する姿勢検出手段１０４と、
　前記姿勢検出手段１０４によって検出された姿勢に紐付けされた装飾情報を前記記憶手段１０２から読み出す読み出し手段１０５と、
　前記読み出し手段１０５によって読み出された装飾情報を前記文字列に適用する装飾適用手段１０６とを備えたことを特徴とする。

（付記２）
　付記２に記載の入力補助装置は、付記１に記載の入力補助装置において、前記入力手段は、音声データを音声認識して文字列に変換する音声認識手段を含み、または、当該音声認識手段の認識結果に相当する外部信号を取り込む取り込み手段を含むことを特徴とする。

（付記３）
　付記３に記載の入力補助装置は、付記１又は付記２いずれかに記載の入力補助装置において、
　前記装飾情報保持手段は、前記装飾情報に紐付けされた感情情報または季節情報を保持することを特徴とする。

（付記４）
　付記４に記載の入力補助装置は、付記１乃至付記３いずれかに記載の入力補助装置において、
　前記装飾情報保持手段は、前記装飾情報に紐付けされた感情情報または季節情報を保持するとともに、その感情情報または季節情報を用いて表示部の表示態様を変更可能な表示制御手段を含むことを特徴とする。

（付記５）
　付記４に記載の入力補助方法は、
　文字列を入力する入力工程と、
　複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持工程と、
　姿勢を検出する姿勢検出工程と、
　前記姿勢検出工程によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し工程と、
　前記読み出し工程によって読み出された装飾情報を前記文字列に適用する装飾適用工程とを含むことを特徴とする。

（付記６）
　付記６に記載のプログラムは、
　コンピュータに、
　文字列を入力する入力手段、
　複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持手段、
　姿勢を検出する姿勢検出手段、
　前記姿勢検出手段によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し手段、
　前記読み出し手段によって読み出された装飾情報を前記文字列に適用する装飾適用手段としての機能を与えることを特徴とする。　

　１００　入力補助装置
　１０１　入力手段
　１０２　記憶手段
　１０３　装飾情報保持手段
　１０４　姿勢検出手段
　１０５　読み出す読み出し手段
　１０６　装飾適用手段１０６

Claims

　文字列を入力する入力手段と、
　複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持手段と、
　姿勢を検出する姿勢検出手段と、
　前記姿勢検出手段によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し手段と、
　前記読み出し手段によって読み出された装飾情報を前記文字列に適用する装飾適用手段と
　を備えたことを特徴とする入力補助装置。
　前記入力手段は、音声データを音声認識して文字列に変換する音声認識手段を含み、または、当該音声認識手段の認識結果に相当する外部信号を取り込む取り込み手段を含むことを特徴とする請求項１に記載の入力補助装置。
　前記装飾情報保持手段は、前記装飾情報に紐付けされた感情情報または季節情報を保持することを特徴とする請求項１又は請求項２いずれかに記載の入力補助装置。
　前記装飾情報保持手段は、前記装飾情報に紐付けされた感情情報または季節情報を保持するとともに、その感情情報または季節情報を用いて表示部の表示態様を変更可能な表示制御手段を含むことを特徴とする請求項１乃至請求項３いずれかに記載の入力補助装置。
　文字列を入力する入力工程と、
　複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持工程と、
　姿勢を検出する姿勢検出工程と、
　前記姿勢検出工程によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し工程と、
　前記読み出し工程によって読み出された装飾情報を前記文字列に適用する装飾適用工程と
　を含むことを特徴とする入力補助方法。
　コンピュータに、
　文字列を入力する入力手段、
　複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持手段、
　姿勢を検出する姿勢検出手段、
　前記姿勢検出手段によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し手段、
　前記読み出し手段によって読み出された装飾情報を前記文字列に適用する装飾適用手段
　としての機能を与えることを特徴とするプログラム。