WO2012147274A1 - 入力補助装置、入力補助方法及びプログラム - Google Patents

入力補助装置、入力補助方法及びプログラム Download PDF

Info

Publication number
WO2012147274A1
WO2012147274A1 PCT/JP2012/002099 JP2012002099W WO2012147274A1 WO 2012147274 A1 WO2012147274 A1 WO 2012147274A1 JP 2012002099 W JP2012002099 W JP 2012002099W WO 2012147274 A1 WO2012147274 A1 WO 2012147274A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
decoration
posture
input
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2012/002099
Other languages
English (en)
French (fr)
Inventor
俊彦 藤林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Casio Mobile Communications Ltd
Original Assignee
NEC Casio Mobile Communications Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Casio Mobile Communications Ltd filed Critical NEC Casio Mobile Communications Ltd
Priority to US14/113,897 priority Critical patent/US9728189B2/en
Priority to EP12776328.2A priority patent/EP2704024B1/en
Priority to JP2013511893A priority patent/JP5928449B2/ja
Publication of WO2012147274A1 publication Critical patent/WO2012147274A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72427User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting games or graphical animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Definitions

  • FIG. 1 is a configuration diagram of a mobile phone 1.
  • FIG. It is a conceptual structure figure of the character string decoration database.
  • 3 is a conceptual structural diagram of a voice recognition information storage table 18.
  • FIG. It is a figure which shows the relationship between the character string decoration database 12 and the speech recognition information storage table 18.
  • FIG. 6 is a diagram showing an operation flow of the mobile phone 1.
  • FIG. It is an operation
  • the operation unit 5 is an input means for a user interface.
  • the operation unit 5 includes buttons for both telephone number input and character input, various function buttons, cursor operation keys, and the like. An input signal corresponding to the key is generated and output to the control unit 3.
  • the voice recognition unit 8 takes in voice data picked up by the microphone 7a via the voice input / output unit 7 and the control unit 3 when creating a sentence such as an email by voice recognition, and converts the voice data into a character string.
  • the speech recognition unit 8 is illustrated as an independent block, but the present invention is not limited to this.
  • a mode realized by software by the CPU 3a of the control unit 3 or a mode provided as a service by an external voice recognition server may be used.
  • an independent block speech recognition unit 8 as illustrated is used.
  • the decoration information corresponding to “sadness / level 2” and “joy / level 1” is stored in the decoration information storage unit 24 shown in the figure.
  • the character color is blue
  • the character size is large
  • the additional wording (character string) is “...”
  • the additional information is a crying face pictogram (“(ToT)”
  • the text color remains the specified value
  • the text size is medium
  • no additional text (character string) and the additional information is a smiley face pictogram (“( ⁇ - ⁇ ) ")
  • the final character string (character string displayed on the display unit 6) in this case is as illustrated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)
  • Telephone Function (AREA)

Abstract

【課題】 音声認識する際の発話者の感情を正しく判断して適切な装飾の付加を行えるようにする。 【解決手段】 入力補助装置100は、文字列を入力する入力手段101と、複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段102に保持する装飾情報保持手段103と、姿勢を検出する姿勢検出手段104と、前記姿勢検出手段104によって検出された姿勢に紐付けされた装飾情報を前記記憶手段102から読み出す読み出し手段105と、前記読み出し手段105によって読み出された装飾情報を前記文字列に適用する装飾適用手段106とを備える。入力手段101は好ましくは音声データを音声認識して文字列に変換する音声認識手段を含む。

Description

入力補助装置、入力補助方法及びプログラム
 本発明は、音声認識された文字列に所望の装飾を施すための入力補助装置、入力補助方法及びプログラムに関する。
 音声認識(Speech Recognition)とは、ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のことである。日本語変換用の音声認識の場合は、たとえば、“こんにちは”と発話した場合に、その発話内容を“今日は”という文字列に変換することができる。
 ところで、同じ「こんにちは」でも対面の場合は、表情や声の抑揚などから、発話者の感情を相手に伝えることができるが、音声認識の場合は、単なる文字列であるため、そのような感情の伝達を行うことができない。このため、文字列の読み手に感情を伝えるためには、“私は元気です”などの言葉を続けなければならず、発話内容が複雑化して音声認識の誤りを招きやすくなる。
 発話内容の複雑化を招かずに感情を伝えられる手法に「装飾」がある。装飾の典型は顔文字である。たとえば、「こんにちは」の後に笑顔に見える文字列((^-^);笑顔マークなどともいう)を付けると、発話者の感情(この場合は元気に相当する喜び)を読み手に伝えることができる。
 このような装飾を音声認識に適用するには、たとえば、“えがおまーく”などと発声し、その音声を認識して該当する装飾(この場合は笑顔マーク)を付加することが考えられる。
 しかしながら、このやり方では、あらかじめ各々の装飾を識別するための照合用の音声データを登録しておく必要があり、装飾の種類が増えるほど、照合用の音声データの容量が大きくなって記憶空間を圧迫するという欠点がある。しかも、ユーザは、照合用の音声データと同じ発声を覚えておかなければならないから、使い勝手が悪いという欠点もある。
 したがって、記憶空間の圧迫を招かず、且つ、使い勝手のよい装飾入力技術が求められている。
 このような背景から、たとえば、下記の特許文献1には、音声を認識して文字列に変換する際に、音声に込められた感情を推定し、その感情が表現された絵文字などの装飾を文字列に追加する技術が記載されている。
 また、下記の特許文献2には、文字入力時の打鍵速度や打鍵強度及び打鍵頻度から、文字入力者の意欲や感情などを推定し、その推定結果に応じた顔文字等の修飾情報を文字列に追加する技術が記載されている。
 また、下記の特許文献3には、メール送信端末は自端末の振動を検出してその振動情報を付加したメールを送信し、メール受信端末はメールを再生する際に、振動情報に応じた強度の振動を発生する技術が記載されている。
 また、下記の特許文献4には、携帯電話機の変位パターン(たとえば、前に倒す、丸く円を描く、横に振る)を検出し、検出された変位パターンに応じたメール補助入力情報(短文や例文等)をリスト表示する技術が記載されている。
特開2006-259641号公報 特開2006-318413号公報 特開2009-224950号公報 特開2009-271613号公報
 しかしながら、特許文献1に記載の技術は、「音声に込められた感情を推定」するものであるが、その推定には誤差がつきものであるし、そもそも携帯電話機等の小型の携帯機器には簡易的な推定エンジンしか搭載できないから、充分な精度で感情の推定を行うことができないという欠点がある。
 この欠点は、とりわけ人前で音声認識を行う際に顕在化する。多くの人は、人前では周りを気にして感情を抑えて発声するからであり、棒読みまたは棒読みに近い単調な発声になってしまい、推定精度が低下して感情を正しく判断できなくなるからである。
 したがって、特許文献1に記載の技術は、感情を正しく判断できない点で改善すべき課題がある。
 なお、特許文献2に記載の技術は、打鍵速度や打鍵強度及び打鍵頻度に基づくものであり、これらの打鍵情報は、要するに、手作業によって得られる情報であるから、そもそも手作業を無くすために用いられる音声認識とは相容れないものであるし、仮に、音声認識と組み合わせたとしても、打鍵音によって音声認識の精度が著しく低下するので、そのような組み合わせは現実的でない。
 また、特許文献3に記載の技術は、単に振動を相手に伝えているに過ぎず、その振動の意味するところ、つまり、相手に伝えたい意図や気持ちが不明であるので、効果的な意思伝達の手段とはなり得ない。
 また、特許文献4に記載の技術は、単に変位パターンに応じたメール補助入力情報(短文や例文等)をリスト表示するものに過ぎず、リスト表示の労力緩和には貢献するものの、音声認識する際の発話者の感情を正しく判断して適切な装飾の付加を行うという点で何らの寄与もなさないものである。
 そこで、本発明の目的は、音声認識する際の発話者の感情を正しく判断して適切な装飾の付加を行えるようにする。
 本発明の入力補助装置は、文字列を入力する入力手段と、複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持手段と、姿勢を検出する姿勢検出手段と、前記姿勢検出手段によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し手段と、前記読み出し手段によって読み出された装飾情報を前記文字列に適用する装飾適用手段とを備えたことを特徴とする。
 本発明の入力補助方法は、文字列を入力する入力工程と、複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持工程と、姿勢を検出する姿勢検出工程と、前記姿勢検出工程によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し工程と、前記読み出し工程によって読み出された装飾情報を前記文字列に適用する装飾適用工程とを含むことを特徴とする。
 本発明のプログラムは、コンピュータに、文字列を入力する入力手段、複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持手段、姿勢を検出する姿勢検出手段、前記姿勢検出手段によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し手段、前記読み出し手段によって読み出された装飾情報を前記文字列に適用する装飾適用手段としての機能を与えることを特徴とする。
 本発明によれば、音声認識する際の発話者の感情を正しく判断して適切な装飾の付加を行うことができる。
携帯電話機1の構成図である。 文字列装飾データベース12の概念構造図である。 音声認識情報格納テーブル18の概念構造図である。 文字列装飾データベース12と音声認識情報格納テーブル18の関係を示す図である。 携帯電話機1の動作フローを示す図である。 音声認識処理の動作フロー図である。 音声入力中の操作画面の一例を示す図である。 感情の「レベル」を適用する際の操作例を示す図である。 感情レベルを変更した際の実例を示す図である。 付記1の構成図である。
 以下、本発明の実施形態を、携帯電話機への適用を例にして、図面を参照しながら説明する。
 図1は、携帯電話機1の構成図である。この図において、携帯電話機1は、手持ちに適した形状のボディ2の内部に、制御部3、通信部4、操作部5、表示部6、音声入出力部7、音声認識部8、文字編集部9、姿勢検出部10、記憶部11などを備えている。なお、図示を略しているが、ボディ2の内部には、さらに、各部の電源を供給するためのバッテリを含む電源部が備えられているとともに、所望であれば、カメラ等の撮像部やGPS受信部等の位置検出部などが備えられていてもよい。
 制御部3は、コンピュータ(以下、CPU)3aや不揮発性メモリ(以下、ROM)3b及び高速作業用メモリ(以下、RAM)3c並びにそれらの周辺回路(不図示)から構成されたプログラム制御方式の制御要素であり、ROM3bにあらかじめ格納されている制御プログラム(基本プログラムや各種アプリケーションプログラム等)をRAM3cに読み出してCPU3aで実行することにより、この携帯電話機1に必要な様々な機能をソフトウェア的に実現する。なお、ここでは不揮発性メモリとしてROM(すなわち読み出し専用型の不揮発性メモリ)を例にしているが、これに限定されない。電源オフでも保持内容が失われない不揮発性であればよく、たとえば、ワンタイム書き込み型や消去可能書き込み型の不揮発性メモリであってもよい。
 通信部4は、制御部3からの制御により、アンテナ4aを介して最寄りの携帯電話基地局(図示略)との間で所定周波数帯域及び所定変調方式の無線によるデジタルデータの送受信を行う。デジタルデータには、電話の着呼や発呼の情報および音声通話の情報が含まれるほか、電子メールの送受信情報や、各種インターネットコンテンツの閲覧情報ならびに所要のネットワークサービスのサービス情報などが含まれる。
 操作部5は、ユーザインターフェース用の入力手段であり、たとえば、電話番号入力と文字入力の兼用ボタンや、各種の機能ボタン及びカーソル操作キーなどを備え、ユーザ操作に応答して、それらのボタンやキーに対応した入力信号を発生して制御部3に出力する。
 表示部6は、液晶パネルなどの平面二次元表示デバイス(好ましくは多色表示が可能で高精細な表示画面を持つもの)からなり、制御部3から適宜に出力される表示情報を画面上にグラフィカルに表示する。なお、この表示部6は、静電容量方式や抵抗膜方式などのタッチパネルを備えていてもよい。この場合、タッチパネルは操作部5の一部を構成する。
 音声入出力部7は、制御部3からの制御により、マイク7aで拾った音声信号をデジタルデータに変換して制御部3に出力したり、制御部3から出力されたデジタルの音声信号をアナログ信号に変換してスピーカ7bから拡声したりする。マイク7aやスピーカ7bは電話の送受話用であるが、マイク7aは、さらに、メールなどの文章を音声認識で作成する際の音声入力手段としても用いられる。
 音声認識部8は、メールなどの文章を音声認識で作成する際に、マイク7aで拾った音声データを音声入出力部7と制御部3を介して取り込み、その音声データを文字列に変換して制御部3に出力する。なお、ここでは、音声認識部8を独立したブロックとして図示しているが、これに限定されない。制御部3のCPU3aでソフトウェア的に実現される態様であってもよいし、あるいは、外部の音声認識サーバでサービスとして提供される態様であってもよい。以下、この実施形態では、説明を簡単にするために、図示のとおりの独立したブロック(音声認識部8)の態様とする。
 文字編集部9は、メールなどの文章を作成する際の編集機能を提供する。編集とは、一般的に手作業による文章の作成や修正のことをいうが、この文字編集部9における編集は、さらに、「音声認識」によって作成された文章の一部を手直しすることをいう。具体的には、操作部5からの入力信号に応じて文章の一部を削除したり、文字を追加したり、語彙の順番を入れ替えたりなどすることをいう。また、この編集には、冒頭で説明した装飾が含まれていてもよい。すなわち、必要に応じ、操作部5からの入力信号に応じて、たとえば、顔文字等の装飾を追加したりしてもよい。
 しかし、このような編集(操作部5からの入力信号に基づく編集)は、手作業によるものであるので、音声認識の効果(手作業を要しない)を阻害する。したがって、文字の削除や追加といった細かな手直しを手作業で行うのはやむを得ないが、装飾については、以下に説明する本実施形態特有の技術(姿勢検出による装飾の付加)を利用することが望ましい。
 姿勢検出部10は、携帯電話機1の姿勢に関する情報を検出して、その検出結果を制御部3に出力する。
 携帯電話機1の姿勢は、「静的」なものと「動的」なものの二種類ある。静的な姿勢は検出時点における携帯電話機1の向きや傾きであり、動的な姿勢は一の姿勢から二の姿勢への変化の方向と量及びその変化速度などである。以下、単に「姿勢」という場合は、これらの静的姿勢と動的姿勢を総称するものとし、特に必要な場合は、静的姿勢(または静的な姿勢)や動的姿勢(または動的な姿勢)というように区別することにする。
 姿勢検出部10には、XYZの3軸方向の加速度ベクトルを一度に測定できる3軸加速度センサを使用することができる。3軸加速度センサは、ピエゾ抵抗型や静電容量型または熱検知型など様々な種類があるが、いずれを用いてもかまわない。測定精度や応答性、コスト及び実装サイズなどを勘案して適当なものを選択して使用すればよい。
 加速度は、単位時間当たりの速度の変化率のことである。負(進行方向と反対)の加速度は一般に「減速度」と呼ばれるが、極性(方向)の違いを除き、どちらも同じ加速度である。XYXの3軸方向の加速度ベクトルから「静的姿勢」を検出でき、また、その加速度の単位時間当たりの変化率(加加速度)を考慮すれば「動的姿勢」も検出できる。
 記憶部11は、不揮発性且つ書き換え可能な大容量記憶デバイス(たとえば、フラッシュメモリやシリコンディスクまたはハードディスクなど)で構成された記憶要素であり、本実施形態特有の技術(姿勢検出による装飾の付加)に必要な各種データ(以下に述べる文字列装飾データベース12や音声認識情報格納テーブル18など)を書き換え可能に保持する。
 次に、記憶部11に保持されている各種データについて説明する。前記のとおり、記憶部11には、本実施形態特有の技術(姿勢検出による装飾の付加)に必要な各種データとして、文字列装飾データベース12や音声認識情報格納テーブル18などが書き換え可能に保持されている。
 図2は、文字列装飾データベース12の概念構造図である。この図において、文字列装飾データベース12は、装飾に関係する様々な既定情報を保持するためのデータベースであり、装飾の数に対応した同一構造の多数の紐付け情報格納領域13、13を備えている。ここでは、二つの紐付け情報格納領域13、13しか図示していないが、これは図面の輻輳を避けるための便宜である。
 なお、“紐付け”とは、一の紐付け情報格納領域13に格納されている各種の情報が互いに関連付けられている(リレーションされているともいう)ことを意味する。たとえば、各々の紐付け情報格納領域13は、姿勢情報格納領域14、感情情報格納領域15、アバタ情報格納領域16、及び、装飾情報格納領域17を備えているが、それらの格納領域14~17に格納されている情報が互いに関連付けられていることを意味する。
 ここで、姿勢情報格納領域14は、方向格納領域14aと角度格納領域14bとを備え、これらの格納領域14a、14bには姿勢検出部10の検出結果と照合するための情報(方位情報と角度情報)が格納されている。また、感情情報格納領域15は、感情種別格納領域15aと感情レベル格納領域15bとを備え、これらの格納領域15a、15bには、上記の照合情報(方位情報と角度情報)に紐付けされた感情情報(感情の種別とレベル)が格納されている。また、アバタ情報格納領域16は、姿勢に対応した表情を有するキャラクタ(アバタ)を格納するものであり、このアバタの詳しい説明は後述する。また、装飾情報格納領域17は、文字色格納領域17a、文字サイズ格納領域17b、追加文字列格納領域17c及び追加情報格納領域17dを備え、これらの格納領域17a~17dには、上記の照合情報(方位情報と角度情報)に紐付けされた装飾情報(文字色、文字サイズ、追加文字列、追加情報)が格納されている。
 なお、図では、姿勢検出部10の検出結果と照合するための情報として静的姿勢に対応する方位情報と角度情報とを例示しているが、これに限定されない。静的姿勢に対応する情報に加えて、さらに、動的姿勢に対応する情報(方位や傾きの変化に相当する量)も格納してもよい。
 図3は、音声認識情報格納テーブル18の概念構造図である。この図において、音声認識情報格納テーブル18は、ユーザの発話単位数、たとえば、無音で区切った発話単位の数に対応した複数の音声入力情報格納領域19、19を備えている。ここでは、二つの音声入力情報格納領域19、19しか図示していないが、これは図面の輻輳を避けるための便宜である。
 各々の音声入力情報格納領域19、19は同一構造であり、それぞれ入力順情報格納領域20、音声情報格納領域21、感情情報格納領域22、認識文字列情報格納領域23、及び、装飾文字列格納領域24を備えている。
 入力順情報格納領域20には、ユーザによって入力された音声データの一単位(発話単位)の入力順(つまり発話順)が格納され、音声情報格納領域21には、その入力順の音声データが格納される。また、感情情報格納領域22には、姿勢検出部10の検出結果に従って文字列装飾データベース12から取り出された感情情報が格納され、また、認識文字列情報格納領域23には、当該入力順の音声データの音声認識結果の文字列情報が格納され、さらに、装飾文字列格納領域24には、姿勢検出部10の検出結果に従って文字列装飾データベース12から取り出された装飾文字情報を認識文字列に付加した文字列が格納される。
 図4は、文字列装飾データベース12と音声認識情報格納テーブル18の関係を示す図である。今、ユーザが音声認識のために、“きょうはあめがふりそうですね_いえでえいがでもみます”と発話したと仮定する。ここで、アンダーバー(_)は無音区切りを示す。この場合のi番目の発話は“きょうはあめがふりそうですね”になり、i+1番目の発話は“いえでえいがでもみます”になる。
 この場合、i番目の発話内容(“きょうはあめがふりそうですね”)は、音声認識情報格納テーブル18の一の音声入力情報格納領域19の音声情報格納領域21に格納され、同時に、その発話順(入力順)の“i”は、同じく一の音声入力情報格納領域19の入力順情報格納領域20に格納される。
 また、i+1番目の発話内容(“いえでえいがでもみます”)は、音声認識情報格納テーブル18の二の音声入力情報格納領域19の音声情報格納領域21に格納され、同時に、その発話順(入力順)の“i+1”は、同じく二の音声入力情報格納領域19の入力順情報格納領域20に格納される。
 そして、i番目の発話内容(“きょうはあめがふりそうですね”)の音声認識結果(“今日は雨が降りそうですね”)は、一の音声入力情報格納領域19の認識文字列情報格納領域23に格納され、同様に、i+1番目の発話内容(“いえでえいがでもみます”)の音声認識結果(“家で映画でも見ます”)は、二の音声入力情報格納領域19の認識文字列情報格納領域23に格納される。
 さて、i番目の発話のときに、ユーザが携帯電話機1の姿勢を所定の姿勢(便宜的に姿勢Aという)にしたと仮定すると、この姿勢Aを手掛かりにして、文字列装飾データベース12の紐付け情報格納領域13が検索される。同様に、i+1番目の発話のときに、ユーザが携帯電話機1の姿勢を他の所定の姿勢(便宜的に姿勢Bという)にしたと仮定すると、この姿勢Bを手掛かりにして、文字列装飾データベース12の紐付け情報格納領域13が検索される。
 そして、姿勢情報格納領域14の中から「姿勢A」が格納された紐付け情報格納領域13が見つかると、その紐付け情報格納領域13の感情情報格納領域15と装飾情報格納領域17の格納情報(感情情報と装飾情報)が、i番目の発話に対応した音声入力情報格納領域19(上記の一の音声入力情報格納領域19)の該当領域(感情情報格納領域22と装飾文字列格納領域24)に転記される。
 同様に、姿勢情報格納領域14の中から「姿勢B」が格納された紐付け情報格納領域13が見つかると、その紐付け情報格納領域13の感情情報格納領域15と装飾情報格納領域17の格納情報(感情情報と装飾情報)が、i+1番目の発話に対応した音声入力情報格納領域19(上記の二の音声入力情報格納領域19)の該当領域(感情情報格納領域22と装飾文字列格納領域24)に転記される。
 この結果、i番目の発話に対応した音声入力情報格納領域19(上記の一の音声入力情報格納領域19)と、i+1番目の発話に対応した音声入力情報格納領域19(上記の二の音声入力情報格納領域19)とに、それぞれ発話順(入力順)の情報(“i”と“i+1”)、音声データ(“きょうはあめがふりそうですね”と“いえでえいがでもみます”)、感情情報(「悲しみ」と「喜び」)、音声認識結果(“今日は雨が降りそうですね”と“家で映画でも見ます”)、及び、装飾を追加した文字列(“今日は雨が降りそうですね・・・(ToT)”と“家で映画でも見ます(^-^)”)が格納される。
 なお、図中の二つの紐付け情報格納領域13のアバタ情報格納領域(図2のアバタ情報格納領域16に相当)には、それぞれ悲しみの表情のアバタ16aと、喜びの表情のアバタ16bが示されている。これらのアバタ16a、16bは、姿勢A(悲しみ)のときと姿勢B(喜び)のときに、それぞれ表示部6に出力されて表示される(後述の図7のアバタ26参照)。
 図5は、携帯電話機1の動作フローを示す図である。携帯電話機1は、メールなどの文章を音声認識で作成することが可能なモード(以下、音声認識モードという)を備えており、この音声認識モードは、たとえば、操作部5の所定ボタンの押し下げに応答して実行されるようになっている。音声認識モードの実行主体は制御部3である。すなわち、制御部3は、操作部5の所定ボタンの押し下げに応答して、メール等の文書作成用アプリケーションプログラムをROM3bからRAM3cに読み出してCPU3aで実行(ステップS10)しつつ、同様にROM3bから音声認識モード用の制御プログラムをRAM3cに読み出して、その制御プログラムをCPU3aで逐次に実行(ステップS11~ステップS17)する。
 制御プログラムは、音声入力(ステップS11)とアバタ表示(ステップS12)の各処理を順次に実行した後、姿勢変更判断(ステップS13)を行ってその判断結果がYESの場合に感情情報検出(ステップS14)、アバタ変更(ステップS15)、入力音声との紐付け(ステップS16)、及び、音声入力終了判断(ステップS17)の各処理を順次に実行する一方、姿勢変更判断(ステップS13)の判断結果がNOの場合にステップS14~ステップS16をパスして音声入力終了判断(ステップS17)の処理を実行し、さらに、いずれの場合も、音声入力終了判断(ステップS17)の判断結果がNOであればステップS13に戻り、YESであればプログラムを終了する。
 ステップS11の音声入力処理では、マイク7aで集音されたユーザの発話内容を音声データに変換し、その音声データを音声認識情報格納テーブル18の音声入力情報格納領域19に格納する。先にも説明したように音声入力情報格納領域19は発話単位(たとえば、無音を区切りとする発話の単位)ごとに複数備えられるので、i番目の発話に対応する音声データはi番目の音声入力情報格納領域19の音声情報格納領域21に格納され、同時に、このi番目の音声入力情報格納領域19の入力順情報格納領域20に当該発話順の情報(つまりi)が格納される。以降、i+1番目の発話に対応する音声データはi+1番目の音声入力情報格納領域19の音声情報格納領域21に格納され、同時に、このi+1番目の音声入力情報格納領域19の入力順情報格納領域20に当該発話順の情報(つまりi+1)が格納されるという動作が、音声入力終了判断(ステップS17)の判断結果がYESになるまで継続的に行われる。
 ステップS12のアバタ表示処理では、表示部6にアバタを表示する。“アバタ”とは、一般的に自分の分身として画面上に登場するキャラクタのことをいう。このようなアバタ(キャラクタ)は、顔の表情で多様な感情を表現できるという特徴があることから、実施形態に好適なベストモードであるが、これに限定されない。多様な感情を表現できるものであればアバタ以外の態様であってもかまわない。たとえば、笑顔や怒り顔、泣き顔などの感情を表現したマークや図形であってもよく、あるいは、それらの感情を表した顔文字や絵文字などの文字列であってもよい。
 ステップS13の姿勢変更判断処理では、姿勢検出部10の検出結果に基づき携帯電話機1の姿勢変更の有無を判断し、姿勢変更有りの場合に、ステップS14の感情情報検出に進む。
 ステップS14の感情情報検出処理では、携帯電話機1の姿勢に対応した感情情報を文字列装飾データベース12から読み出す。先に説明したとおり、文字列装飾データベース12には、多数の紐付け情報格納領域13が備えられており、各々の紐付け情報格納領域13には、姿勢情報格納領域14、感情情報格納領域15、アバタ情報格納領域16、及び、装飾情報格納領域17が備えられている。ステップS14の感情情報検出処理では、まず、携帯電話機1の姿勢に対応する姿勢情報が格納されている一の紐付け情報格納領域13を特定し、その紐付け情報格納領域13の感情情報格納領域15から感情情報を取り出す。
 ステップS15のアバタ変更処理では、ステップS14の感情情報検出処理で特定された一の紐付け情報格納領域13のアバタ情報格納領域16からアバタ情報を取り出し、そのアバタ情報で表示部6のアバタを変更する。
 ステップS16の入力音声と感情の紐付け処理では、ステップS14の感情情報検出処理で特定された一の紐付け情報格納領域13の感情情報格納領域15及び装飾情報格納領域17から感情情報と装飾情報を取り出し、それらの情報を該当する順番(たとえば、i番目)の音声認識情報格納テーブル18の感情情報格納領域22と装飾文字列格納領域24に格納する。
 図6は、音声認識処理の動作フローである。このフローでは、まず、音声認識情報格納テーブル18(の音声入力情報格納領域19)に格納されている音声データを順次に読み出し、音声認識によって文字列に変換(ステップS20)して、その文字列を音声入力情報格納領域19の認識文字列情報格納領域23に格納する。音声データの読み出し順は、各々の音声入力情報格納領域19の入力順情報格納領域20に格納されている順番(i番目、i+1番目、・・・・)に従う。
 次いで、各々の読み出し順の音声データに感情情報が紐付けられているか否かを判定する(ステップS21)。このステップS21の判定結果は、i番目の音声入力情報格納領域19の感情情報格納領域22に感情情報が格納されていればYES(紐付けされている)となり、格納されていなければNO(紐付けされていない)となる。
 ステップS21の判定結果がNO(紐付けされていない)の場合は、音声入力情報格納領域19の認識文字列情報格納領域23に格納された文字列(ステップS20で変換された文字列)をそのまま表示部6に表示する(ステップS23)。一方、ステップS21の判定結果がYES(紐付けされている)の場合は、音声入力情報格納領域19の認識文字列情報格納領域23に格納された文字列(ステップS20で変換された文字列)に装飾を施し(ステップS22)、装飾後の文字列を表示部6に表示する(ステップS23)。すなわち、紐付けされている場合は、音声入力情報格納領域19の装飾文字列格納領域24に格納されている文字列を表示部6に表示する。
 図7は、音声入力中の操作画面の一例を示す図である。この図において、表示部6の上部付近に音声入力中であることをユーザに通知するための通知メッセージ25が表示されているとともに、中央部付近にアバタ26が表示されている。また、そのアバタ26を中心にした上下左右の方向に4つの感情設定ボタン27~30が表示されており、さらに、左下と右下の方向に肯定ボタン31と否定ボタン32が表示されている。
 感情設定ボタン27~30は、アバタ26の表情を設定するためのものである。たとえば、上の感情設定ボタン27は、アバタ26の表情を「喜び」に設定し、右の感情設定ボタン28は、アバタ26の表情を「疑問」に設定し、下の感情設定ボタン29は、アバタ26の表情を「悲しみ」に設定し、左の感情設定ボタン30は、アバタ26の表情を「怒り」に設定するためのものである。また、肯定ボタン31はアバタ26に対する上記の表情設定を決定(肯定)するためのもの、否定ボタン32は同表情設定を拒否(否定)するためのものである。
 表示部6がタッチパネル付である場合、それらのボタン類(感情設定ボタン27~30、肯定ボタン31及び否定ボタン32)を直接、指先等で操作することが可能である。すなわち、音声入力中に、その音声データに所望の感情を表す装飾を付加したければ、ユーザは、該当する感情設定ボタン(感情設定ボタン27~30のいずれか)にタッチすればよい。そして、アバタ26が所望の表情になれば肯定ボタン31にタッチし、所望の表情にならなければ、否定ボタン32にタッチした後、感情設定ボタン(感情設定ボタン27~30のいずれか)のタッチをやり直せばよい。
 しかしながら、それらのボタン類(感情設定ボタン27~30、肯定ボタン31及び否定ボタン32)への直接的なタッチ操作は、せっかくの音声入力の効果(手作業を要しない)を阻害する。そこで、本実施形態では、携帯電話機1の姿勢を変更するだけで、上記のボタン類(感情設定ボタン27~30、肯定ボタン31及び否定ボタン32)の操作を実行できるようにした。
 アバタ26の上下左右から延びる4本の矢印記号33~36と、左下及び右下の2つの曲線矢印記号37、38は、ユーザに対する携帯電話機1の姿勢変更の指南表示である。ユーザは、それらの指南表示を見て、直感的に携帯電話機1の姿勢を変更して所望のボタン操作を行うことができる。
 たとえば、アバタ26の表情を「喜び」に設定したければ、携帯電話機1を矢印記号33の方向に傾けるという姿勢変更操作を行えばよい。このときの傾け方向は、携帯電話機1の上端部を手前に近づける方向と、向こう側に遠ざける方向の二方向ある(二方向の適否については後述する)。または、アバタ26の表情を「疑問」に設定したければ、携帯電話機1を矢印記号34の方向に傾けるという姿勢変更操作を行えばよい。このときの傾け方向も、携帯電話機1の右端部を手前に近づける方向と、向こう側に遠ざける方向の二方向ある(同)。または、アバタ26の表情を「悲しみ」に設定したければ、携帯電話機1を矢印記号35の方向に傾けるという姿勢変更操作を行えばよい。このときの傾け方向も、携帯電話機1の下端部を手前に近づける方向と、向こう側に遠ざける方向の二方向ある(同)。または、アバタ26の表情を「怒り」に設定したければ、携帯電話機1を矢印記号36の方向に傾けるという姿勢変更操作を行えばよい。このときの傾け方向も、携帯電話機1の左端部を手前に近づける方向と、向こう側に遠ざける方向の二方向ある(同)。
 二方向の適否を検討する。一般的に物体の一端側をある方向に傾けると、他端側が逆方向に動く(つまり逆方向に傾く)。このことから、二方向をともに有効として検出すると、姿勢判定の混乱を生じる。たとえば、携帯電話機1の上端部を手前に近づけるように傾けると、下端部が逆方向に動いてしまうから、この場合は、「喜び」と「悲しみ」のいずれの設定であるのか判定できなくなる。したがって、実用上は、前記二方向のいずれか一方を有効とすべきである。たとえば、「喜び」の姿勢変更操作は、携帯電話機1の上端部を手前に近づける方向とし、「疑問」の姿勢変更操作は、携帯電話機1の右端部を手前に近づける方向とし、「悲しみ」の姿勢変更操作は、携帯電話機1の下端部を手前に近づける方向とし、「怒り」の姿勢変更操作は、携帯電話機1の左端部を手前に近づける方向とするなどである。または、手前に近づける方向ではなく、その逆に向こう側に遠ざける方向としてもよい。ポイントは、各々の姿勢変更操作を同一の方向(手前に近づける方向または向こう側に遠ざける方向)に統一する点にある。このようにすれば、姿勢判定の混乱は生じない。
 そして、アバタ26の表情が所望どおりになれば、左下の曲線矢印記号38に従い、携帯電話機1の姿勢を反時計回り方向に変化させればよく、所望どおりにならなければ、右下の曲線矢印記号37に従い、携帯電話機1の姿勢を時計回り方向に変化させればよい。
 なお、ここでは、アバタ26の表情を設定する際に、携帯電話機1を「傾ける」という姿勢変更操作を行うとしているが、この操作に限定されない。携帯電話機1の向きを維持したまま、矢印記号33~36の方向にスライドさせるという姿勢変更操作でもよい。つまり、アバタ26の表情を「喜び」に設定したければ、上にスライドさせ、アバタ26の表情を「疑問」に設定したければ、右にスライドさせ、アバタ26の表情を「悲しみ」に設定したければ、下にスライドさせ、アバタ26の表情を「怒り」に設定したければ、左にスライドさせるという姿勢変更操作を行ってもよい。以下、説明の都合上、「傾ける」という姿勢変更操作を例にする。
 このように、本実施形態では、音声入力中に携帯電話機1の姿勢(傾き)を変更するだけで、アバタ26の表情をその姿勢に対応した感情に変化させることができ、そして、入力した音声を音声認識によって文字列に変換するとともに、アバタ26の感情に対応した装飾を文字列に付加して表示部6に表示することができ、その文字列を、たとえば、メールなどで送信することができる。
 なお、音声入力中の操作画面は上記の例示(図7)に限定されないことはもちろんである。たとえば、「喜び」、「疑問」、「悲しみ」、「怒り」といった感情も一例に過ぎず、それらの感情の一部又は全部を他の感情に入れ替えてもよい。また、感情の数も「喜び」、「疑問」、「悲しみ」、「怒り」の4つに限定されない。複数であればよく、2つや3つあるいは5つ以上であってもかまわない。
 なお、以上の説明では、感情の「レベル」に触れていない。これは、説明を簡単にするためである。以下、感情の「レベル」を考慮した説明を行う。
 図8は、感情の「レベル」を適用する際の操作例を示す図である。この図において、携帯電話機1の表示部6の上部付近に音声入力中であることを明示するための通知メッセージ25が表示されているとともに、中央部付近にアバタ26が表示されている。このアバタ26の表情は、当初、無表情(感情なし)である(左端の携帯電話機1を参照)。
 なお、この図8では、図面を簡素化するために、前出の図7における感情設定ボタン27~30や、肯定ボタン31、否定ボタン32、矢印記号33~36、及び、曲線矢印記号37、38を省略している。
 したがって、図示の操作例においても、前出の図7と同様に、携帯電話機1の上端部を手前に近づける方向に傾けると、アバタ26の表情が「喜び」に変化し、携帯電話機1の右端部を手前に近づける方向に傾けると、アバタ26の表情が「疑問」に変化し、携帯電話機1の下端部を手前に近づける方向に傾けると、アバタ26の表情が「悲しみ」に変化し、携帯電話機1の左端部を手前に近づける方向に傾けると、アバタ26の表情が「怒り」に変化する。
 この図8では、携帯電話機1の右端部を手前に近づける方向に傾けた例を代表して示している。ただし、図では「右回転」のように見えているが、これは図示の都合である。
 この操作例のポイントは、各々の感情(疑問、喜び、悲しみ、怒り)のレベルを変更できるようにしている点にある。たとえば、所定量(45度程度)の傾きであればレベル1の疑問とし、それよりも大きな(90度程度)の傾きであればレベル1よりも深いレベル2の疑問という具合である。なお、ここでは、2段階のレベルとしているが、姿勢(傾き)の変化を細分化することにより、3段以上の多段レベルとすることも可能である。
 図示中央の携帯電話機1に表示されているアバタ26は、レベル1のときのものであり、このアバタ26は軽い疑問を示す表情になっている。これに対して、図示右端の携帯電話機1に表示されているアバタ26は、レベル2のときのものであり、このアバタ26は深い疑問を示す表情になっている。これにより、ユーザは、感情のレベルの違いをアバタ26の表情から直感的に読み取ることができる。
 図9は、感情レベルを変更した際の実例を示す図である。この図において、いま、i番目の発話内容を“きょうはあめがふりそうですね”(音声認識結果:“今日は雨が降りそうですね”)とするとともに、i+1番目の発話内容を“いえでえいがでもみます”(音声認識結果:“家で映画でも見ます”)とし、また、i番目の感情を「悲しみ/レベル2」とするとともに、i+1番目の感情を「喜び/レベル1」とするものとする。
 この場合、ユーザは、i番目の発話内容(“きょうはあめがふりそうですね”)を音声認識する際に携帯電話機1の姿勢を「悲しみ/レベル2」に対応した傾きにすればよく、また、i+1番目の発話内容(“いえでえいがでもみます”)を音声認識する際に携帯電話機1の姿勢を「喜び/レベル1」に対応した傾きにすればよい。
 このようにすると、図示のとおり、音声認識情報格納テーブル18のi番目の音声入力情報格納領域19に“今日は雨が降りそうですね”という音声認識結果と「悲しみ/レベル2」という感情情報が格納され、また、音声認識情報格納テーブル18のi+1番目の音声入力情報格納領域19に“家で映画でも見ます”という音声認識結果と「喜び/レベル1」という感情情報が格納される。
 今、「悲しみ/レベル2」と「喜び/レベル1」に対応した装飾情報が図示の装飾情報格納部24に格納されているとおりであるとする。つまり、「悲しみ/レベル2」について、文字色が青で文字サイズが大、追加文言(文字列)が「“・・・”」で、且つ、追加情報が泣き顔の絵文字(“(ToT)”)であるとし、「喜び/レベル1」について、文字色が規定値のままで文字サイズが中、追加文言(文字列)なしで、且つ、追加情報が笑い顔の絵文字(“(^-^)”)であるとすると、この場合の最終文字列(表示部6に表示される文字列)は、図示のとおりのものとなる。
 すなわち、最初の文字列(“今日は雨が降りそうですね”)が青色の大サイズの文字列で表示されるとともに、その文字列の後に「“・・・”」と「“(ToT)”」が追加され、さらに、続く文字列(“家で映画でも見ます”)が既定色の中サイズの文字列で表示されるとともに、その文字列の後に「““(^-^)””」が追加される。
 このように、この操作例においては、感情のレベルを指定できるので、より情感豊かな文字列を生成することができる。
 なお、この操作例では、姿勢(傾き)の大きさによって感情のレベルを設定しているが、この態様に限定されない。たとえば、同じ姿勢の繰り返し回数に応じて感情のレベルを設定するようにしてもよい。たとえば、所定方向への傾きを1回行うとレベル1、続けて2回行うとレベル2、・・・・、続けてn回行うとレベルnという具合である。あるいは、1度設定したレベルを下げる仕組みを組み込んでもよい。たとえば、所定方向にn回傾けた後に逆方向にm回傾けるとレベルをm段下げるようにしてもよい。ただし、n>=mである。n=mの場合、その感情レベルをリセット(つまり感情の設定を解除)したことになる。
 以上のとおりであるから、本実施形態によれば、以下の効果を奏することができる。
(1)音声入力時に携帯電子機器1の姿勢を変えるという簡単な操作を行うだけで、周囲を気にせずに、しかも、音声入力を妨げることなく所要の装飾入力を行うことができる。
(2)ユーザの感情に対応した装飾を行うことができるとともに、その感情をアバタの表情で表現するので、感情の入力誤りをアバタの表情から直感的に把握して、誤りを速やかに修正することができる。
(3)音声の認識結果と感情とを紐付けることにより、感情に適合した装飾を、自動で認識結果に適用することができる。
(4)上記(1)~(3)により、ユーザは周囲を気にすることなく、また、音声入力を妨げることがなく、音声入力のみでは困難な、ユーザの感情を反映した装飾つき文書を簡単な操作で作成することができる。
 なお、以上の説明では、発話単位(たとえば、無音を区切りとする単位)ごとに装飾を行っているが、これに限らず、たとえば、文書全体に対して装飾を行ってもよい。この場合、文書の背景色を変更したり、画像を追加したりといった装飾を行ってもよい。
 また、以上の説明では、ユーザの「感情」に対応した装飾を行っているが、感情以外の態様、たとえば、春夏秋冬などの「季節」に対応した装飾を行ってもよい。この場合、たとえば、アバタの服装や背景を変えるなどして季節を表現してもよいし、アバタの代わりに季節を表す写真や絵などを用いてもよい。季節ごとの装飾は、たとえば、季節を表す文字列、記号やマーク、あるいは画像などであってもよい。
 また、以上の説明では、携帯電話機1の姿勢を検出して感情と装飾の設定を行っているが、これ以外にも、たとえば、音声認識に必要な操作(文書の保存や認識結果の候補が複数ある場合の選択またはシャッフル動作)などに適用してもよい。
 また、冒頭で説明した特許文献1の技術を応用してもよい。すなわち、特許文献1の技術は、音声に込められた感情を推定するというものであるが、その推定結果を用いてアバタの表情を変化させてもよい。このようにすると、ユーザは、アバタの表情を見て推定の誤りにすぐに気づくことができ、携帯電話機1の姿勢を変えることにより、その誤りを直ちに修正できるから好ましい。
 また、以上の説明では、携帯電話機1への適用を例にしたが、これに限定されない。音声認識を用いた文字列入力機能と、その文字列に装飾を施す装飾付加機能とを備えた電子機器であればよく、たとえば、スマートフォン、タブレット型PC、ノート型PC、電子ブック、ゲーム機、デジタルカメラ、ナビゲーション装置などにも適用できる。
 以下、本発明の特徴を付記する。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 図10は、付記1の構成図である。この図に示すように、付記1に記載の入力補助装置100は、
 文字列を入力する入力手段101と、
 複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段102に保持する装飾情報保持手段103と、
 姿勢を検出する姿勢検出手段104と、
 前記姿勢検出手段104によって検出された姿勢に紐付けされた装飾情報を前記記憶手段102から読み出す読み出し手段105と、
 前記読み出し手段105によって読み出された装飾情報を前記文字列に適用する装飾適用手段106とを備えたことを特徴とする。
(付記2)
 付記2に記載の入力補助装置は、付記1に記載の入力補助装置において、前記入力手段は、音声データを音声認識して文字列に変換する音声認識手段を含み、または、当該音声認識手段の認識結果に相当する外部信号を取り込む取り込み手段を含むことを特徴とする。
(付記3)
 付記3に記載の入力補助装置は、付記1又は付記2いずれかに記載の入力補助装置において、
 前記装飾情報保持手段は、前記装飾情報に紐付けされた感情情報または季節情報を保持することを特徴とする。
(付記4)
 付記4に記載の入力補助装置は、付記1乃至付記3いずれかに記載の入力補助装置において、
 前記装飾情報保持手段は、前記装飾情報に紐付けされた感情情報または季節情報を保持するとともに、その感情情報または季節情報を用いて表示部の表示態様を変更可能な表示制御手段を含むことを特徴とする。
(付記5)
 付記4に記載の入力補助方法は、
 文字列を入力する入力工程と、
 複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持工程と、
 姿勢を検出する姿勢検出工程と、
 前記姿勢検出工程によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し工程と、
 前記読み出し工程によって読み出された装飾情報を前記文字列に適用する装飾適用工程とを含むことを特徴とする。
(付記6)
 付記6に記載のプログラムは、
 コンピュータに、
 文字列を入力する入力手段、
 複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持手段、
 姿勢を検出する姿勢検出手段、
 前記姿勢検出手段によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し手段、
 前記読み出し手段によって読み出された装飾情報を前記文字列に適用する装飾適用手段としての機能を与えることを特徴とする。 
 100 入力補助装置
 101 入力手段
 102 記憶手段
 103 装飾情報保持手段
 104 姿勢検出手段
 105 読み出す読み出し手段
 106 装飾適用手段106

Claims (6)

  1.  文字列を入力する入力手段と、
     複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持手段と、
     姿勢を検出する姿勢検出手段と、
     前記姿勢検出手段によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し手段と、
     前記読み出し手段によって読み出された装飾情報を前記文字列に適用する装飾適用手段と
     を備えたことを特徴とする入力補助装置。
  2.  前記入力手段は、音声データを音声認識して文字列に変換する音声認識手段を含み、または、当該音声認識手段の認識結果に相当する外部信号を取り込む取り込み手段を含むことを特徴とする請求項1に記載の入力補助装置。
  3.  前記装飾情報保持手段は、前記装飾情報に紐付けされた感情情報または季節情報を保持することを特徴とする請求項1又は請求項2いずれかに記載の入力補助装置。
  4.  前記装飾情報保持手段は、前記装飾情報に紐付けされた感情情報または季節情報を保持するとともに、その感情情報または季節情報を用いて表示部の表示態様を変更可能な表示制御手段を含むことを特徴とする請求項1乃至請求項3いずれかに記載の入力補助装置。
  5.  文字列を入力する入力工程と、
     複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持工程と、
     姿勢を検出する姿勢検出工程と、
     前記姿勢検出工程によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し工程と、
     前記読み出し工程によって読み出された装飾情報を前記文字列に適用する装飾適用工程と
     を含むことを特徴とする入力補助方法。
  6.  コンピュータに、
     文字列を入力する入力手段、
     複数の姿勢ごとの装飾情報を各姿勢に紐付けしてあらかじめ記憶手段に保持する装飾情報保持手段、
     姿勢を検出する姿勢検出手段、
     前記姿勢検出手段によって検出された姿勢に紐付けされた装飾情報を前記記憶手段から読み出す読み出し手段、
     前記読み出し手段によって読み出された装飾情報を前記文字列に適用する装飾適用手段
     としての機能を与えることを特徴とするプログラム。
PCT/JP2012/002099 2011-04-26 2012-03-27 入力補助装置、入力補助方法及びプログラム Ceased WO2012147274A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US14/113,897 US9728189B2 (en) 2011-04-26 2012-03-27 Input auxiliary apparatus, input auxiliary method, and program
EP12776328.2A EP2704024B1 (en) 2011-04-26 2012-03-27 Input assistance device, input asssistance method, and program
JP2013511893A JP5928449B2 (ja) 2011-04-26 2012-03-27 入力補助装置、入力補助方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-098254 2011-04-26
JP2011098254 2011-04-26

Publications (1)

Publication Number Publication Date
WO2012147274A1 true WO2012147274A1 (ja) 2012-11-01

Family

ID=47071808

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/002099 Ceased WO2012147274A1 (ja) 2011-04-26 2012-03-27 入力補助装置、入力補助方法及びプログラム

Country Status (4)

Country Link
US (1) US9728189B2 (ja)
EP (1) EP2704024B1 (ja)
JP (1) JP5928449B2 (ja)
WO (1) WO2012147274A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016511456A (ja) * 2013-01-23 2016-04-14 ノキア テクノロジーズ オーユー タッチレスユーザインタフェースのためのハイブリッド入力装置
JP6290479B1 (ja) * 2017-03-02 2018-03-07 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
WO2018079332A1 (ja) * 2016-10-31 2018-05-03 ソニー株式会社 情報処理装置及び情報処理方法
JP2019135609A (ja) * 2018-02-05 2019-08-15 東京瓦斯株式会社 文字入力支援システム、文字入力支援制御装置、文字入力支援プログラム
JP2019159333A (ja) * 2019-05-14 2019-09-19 東京瓦斯株式会社 文字入力支援システム、文字入力支援プログラム
US11176943B2 (en) 2017-09-21 2021-11-16 Kabushiki Kaisha Toshiba Voice recognition device, voice recognition method, and computer program product
WO2023167212A1 (ja) * 2022-03-01 2023-09-07 株式会社KPMG Ignition Tokyo コンピュータプログラム、情報処理方法及び情報処理装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569424B2 (en) * 2013-02-21 2017-02-14 Nuance Communications, Inc. Emotion detection in voicemail
CN106372059B (zh) * 2016-08-30 2018-09-11 北京百度网讯科技有限公司 信息输入方法和装置
US10043519B2 (en) * 2016-09-02 2018-08-07 Tim Schlippe Generation of text from an audio speech signal
CN107071655B (zh) * 2017-03-20 2020-03-27 Oppo广东移动通信有限公司 配置立体声输出的方法、装置、音频播放设备及移动终端
JP7073640B2 (ja) * 2017-06-23 2022-05-24 カシオ計算機株式会社 電子機器、感情情報取得システム、プログラム及び感情情報取得方法
CN109872728A (zh) * 2019-02-27 2019-06-11 南京邮电大学 基于核典型相关分析的语音和姿态双模态情感识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244496A (ja) * 1994-03-07 1995-09-19 N T T Data Tsushin Kk テキスト朗読装置
JPH09251453A (ja) * 1996-03-14 1997-09-22 Matsushita Electric Ind Co Ltd 書類作成装置および書類送信装置
JP2002278671A (ja) * 2001-03-16 2002-09-27 Just Syst Corp 文字列変換装置、文字列変換方法およびその方法をコンピュータに実行させるプログラム
JP2006259641A (ja) 2005-03-18 2006-09-28 Univ Waseda 音声認識装置及び音声認識用プログラム
JP2006318413A (ja) 2005-05-16 2006-11-24 Nippon Telegr & Teleph Corp <Ntt> 文字通信装置及び文字通信方法
JP2009224950A (ja) 2008-03-14 2009-10-01 Kyocera Corp メール送受信システム
JP2009271613A (ja) 2008-05-01 2009-11-19 Burosukomu:Kk 情報入力方法、携帯端末、及びネットワークシステム
JP2011061582A (ja) * 2009-09-11 2011-03-24 Nec Corp 装飾処理装置及び装飾処理方法及びプログラム及び通信機器及び装飾処理システム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453294B1 (en) * 2000-05-31 2002-09-17 International Business Machines Corporation Dynamic destination-determined multimedia avatars for interactive on-line communications
US7203648B1 (en) * 2000-11-03 2007-04-10 At&T Corp. Method for sending multi-media messages with customized audio
US9043212B2 (en) 2002-04-02 2015-05-26 Verizon Patent And Licensing Inc. Messaging response system providing translation and conversion written language into different spoken language
JP2005242790A (ja) * 2004-02-27 2005-09-08 Nomura Research Institute Ltd 携帯端末用表示データ作成装置、携帯端末用表示データ作成方法及び携帯端末用表示データ作成プログラム
US7669135B2 (en) * 2004-07-15 2010-02-23 At&T Mobility Ii Llc Using emoticons, such as for wireless devices
CA2481065C (en) * 2004-09-07 2014-01-21 Research In Motion Limited System and method for inserting a graphic object in to a text based message
JP2008527563A (ja) * 2005-01-16 2008-07-24 ズランゴー リミテッド アイコニック通信
US20080027984A1 (en) 2006-07-31 2008-01-31 Motorola, Inc. Method and system for multi-dimensional action capture
US8170872B2 (en) * 2007-12-04 2012-05-01 International Business Machines Corporation Incorporating user emotion in a chat transcript
JP2009271832A (ja) * 2008-05-09 2009-11-19 Nec Corp メール送信端末、メール送信システム、装飾コンテンツサーバ、メール送信方法およびプログラム
US8805110B2 (en) * 2008-08-19 2014-08-12 Digimarc Corporation Methods and systems for content processing
US8872767B2 (en) 2009-07-07 2014-10-28 Microsoft Corporation System and method for converting gestures into digital graffiti

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244496A (ja) * 1994-03-07 1995-09-19 N T T Data Tsushin Kk テキスト朗読装置
JPH09251453A (ja) * 1996-03-14 1997-09-22 Matsushita Electric Ind Co Ltd 書類作成装置および書類送信装置
JP2002278671A (ja) * 2001-03-16 2002-09-27 Just Syst Corp 文字列変換装置、文字列変換方法およびその方法をコンピュータに実行させるプログラム
JP2006259641A (ja) 2005-03-18 2006-09-28 Univ Waseda 音声認識装置及び音声認識用プログラム
JP2006318413A (ja) 2005-05-16 2006-11-24 Nippon Telegr & Teleph Corp <Ntt> 文字通信装置及び文字通信方法
JP2009224950A (ja) 2008-03-14 2009-10-01 Kyocera Corp メール送受信システム
JP2009271613A (ja) 2008-05-01 2009-11-19 Burosukomu:Kk 情報入力方法、携帯端末、及びネットワークシステム
JP2011061582A (ja) * 2009-09-11 2011-03-24 Nec Corp 装飾処理装置及び装飾処理方法及びプログラム及び通信機器及び装飾処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2704024A4

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016511456A (ja) * 2013-01-23 2016-04-14 ノキア テクノロジーズ オーユー タッチレスユーザインタフェースのためのハイブリッド入力装置
WO2018079332A1 (ja) * 2016-10-31 2018-05-03 ソニー株式会社 情報処理装置及び情報処理方法
JP6290479B1 (ja) * 2017-03-02 2018-03-07 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP2018147112A (ja) * 2017-03-02 2018-09-20 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
US11176943B2 (en) 2017-09-21 2021-11-16 Kabushiki Kaisha Toshiba Voice recognition device, voice recognition method, and computer program product
JP2019135609A (ja) * 2018-02-05 2019-08-15 東京瓦斯株式会社 文字入力支援システム、文字入力支援制御装置、文字入力支援プログラム
JP2019159333A (ja) * 2019-05-14 2019-09-19 東京瓦斯株式会社 文字入力支援システム、文字入力支援プログラム
WO2023167212A1 (ja) * 2022-03-01 2023-09-07 株式会社KPMG Ignition Tokyo コンピュータプログラム、情報処理方法及び情報処理装置

Also Published As

Publication number Publication date
EP2704024A4 (en) 2015-04-01
JPWO2012147274A1 (ja) 2014-07-28
EP2704024A1 (en) 2014-03-05
US9728189B2 (en) 2017-08-08
US20140052441A1 (en) 2014-02-20
JP5928449B2 (ja) 2016-06-01
EP2704024B1 (en) 2017-09-06

Similar Documents

Publication Publication Date Title
JP5928449B2 (ja) 入力補助装置、入力補助方法及びプログラム
US10108612B2 (en) Mobile device having human language translation capability with positional feedback
US9111538B2 (en) Genius button secondary commands
CN102782733B (zh) 采用配备有传感器的智能电话的方法和配置方案
JP3964734B2 (ja) ナビゲ−ション装置
JP5996783B2 (ja) 声紋特徴モデルを更新するための方法及び端末
AU2013204564B2 (en) Method and apparatus for processing multiple inputs
JP5637131B2 (ja) 音声認識装置
CN109240785B (zh) 一种设置语言的方法、终端及存储介质
CN110830368B (zh) 即时通讯消息发送方法及电子设备
CN111739517B (zh) 语音识别方法、装置、计算机设备及介质
US20130054243A1 (en) Electronic device and control method
CN111639209B (zh) 一种书本内容的搜索方法、终端设备及存储介质
CN108124061A (zh) 音频数据的存储方法及装置
US20140288916A1 (en) Method and apparatus for function control based on speech recognition
US9928084B2 (en) Electronic device and method for activating application
JP2004053620A (ja) 音声認識装置
JP6096341B1 (ja) 表示制御方法、端末、プログラム、及び情報処理装置
JP2003022092A (ja) 対話システム
Taylor “Striking a healthy balance”: speech technology in the mobile ecosystem
CN111639219A (zh) 一种口语测评贴纸的获取方法、终端设备及存储介质
KR20190053447A (ko) 터치스크린을 통한 문자입력 서비스를 제공하는 이동통신 단말기의 제어방법 및 가상현실에 기반한 그림지도를 이용하는 메신져서비스를 제공하는 이동통신 단말기의 제어방법
HK40018610B (zh) 多媒体数据播放方法、装置及存储介质
DUSAN et al. FLEXIBLE SPEECH AND PEN INTERACTION WITH HANDHELD DEVICES
CN108521498A (zh) 一种导航方法及移动终端

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12776328

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2012776328

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2012776328

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2013511893

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14113897

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE