JP2017516176A - 手跡及びジェスチャを認識するための方法とシステム - Google Patents
手跡及びジェスチャを認識するための方法とシステム Download PDFInfo
- Publication number
- JP2017516176A JP2017516176A JP2016554207A JP2016554207A JP2017516176A JP 2017516176 A JP2017516176 A JP 2017516176A JP 2016554207 A JP2016554207 A JP 2016554207A JP 2016554207 A JP2016554207 A JP 2016554207A JP 2017516176 A JP2017516176 A JP 2017516176A
- Authority
- JP
- Japan
- Prior art keywords
- data
- sensor unit
- motion sensor
- character
- trajectory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/014—Hand-worn input/output arrangements, e.g. data gloves
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/228—Character recognition characterised by the type of writing of three-dimensional [3D] handwriting, e.g. writing in the air
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Character Discrimination (AREA)
Abstract
本発明は、手跡を認識するための、コンピュータ実装方法、コンピュータプログラム製品及びコンピュータシステム(100)に関する。システムは、モーションセンサユニット(10)から測定データ(11)を受信するように構成されているインタフェースコンポーネント(110)を含んでいる。モーションセンサユニット(10)は、ユーザの身体の可動部分(1)に物理的に結合されており、測定データ(11)は、モーションセンサユニット(10)のセンサのセンサデータを含んでいる。センサデータは、モーションセンサユニット(10)の軌跡(20)の時間に関する二次導関数に対応している。システムは更に、各キャラクタに関連付けられているテクニカルプロフィールを記憶するデータストレージコンポーネント(130)を有している。テクニカルプロフィールは、少なくとも、複数の事前定義された加速度プロフィールを含んでいる。各加速度プロフィールは、モーションセンサユニット(10)の起こり得る軌跡の1つの特定の部分に関連付けられている動きを特徴付ける加速度データを、その起こり得る軌跡の少なくとも1つの先行の部分又は後続の部分のコンテクストにおいて含んでいる。システムのデコーディングコンポーネント(120)は、受信したセンサデータ(11)を、複数の事前定義された加速度プロフィールと比較して、軌跡(20)の複数の部分から成るシーケンスを識別する。軌跡(20)の複数の部分から成る識別されたシーケンスが、特定のキャラクタを表している特定の起こり得る軌跡の複数の部分から成る、事前定義されたコンテクスト依存シーケンスに関連付けられている場合には、デコーディングコンポーネントが、受信したセンサデータ(11)に対応する特定のキャラクタを識別する。識別されたキャラクタの表現が出力装置(200)に供給される。
Description
本発明は、一般的には、電子的なデータ処理に関し、より詳細には、手跡、即ちハンドライティング及びジェスチャを認識するための、方法、コンピュータプログラム製品及びシステムに関する。
キャラクタを電子的に認識するためのシステム及び方法に関する多数のアプローチが従来技術から公知である。幾つかのアプローチは、2次元の表面、例えばタッチスクリーン又は特定の電子ペーパ上に書かれたキャラクタの手跡を認識することに向けられている。従来技術では、そのようなシナリオにおいて、各キャラクタを字画(stroke)に、即ち各キャラクタを書く際の各工程に分解することが提案されている。このコンテクストにおいて、1つの字画は、各キャラクタを形作るために描かれる線の一部に対応する(例えば、文字「A」は3画から成る)。そのようなアプローチは、空中に書かれたキャラクタ、つまりユーザが3次元の動きを行うことによって仮想的に書かれたキャラクタの認識には適していない。何故ならば、3次元の各軌跡をそのようなシステムによって処理することができないからである。
そのような3次元の仮想的なキャラクタをサポートする、従来技術による手跡認識システムは、米国特許第7796819号に記載されており、この文献には、ユーザの3次元の動きを解析する手跡認識方法が開示されている。そこにおいて提案されている方法は、字画の開始部分及び終了部分における動きの向きに基づき各字画を識別し、字画の組み合わせを使用してキャラクタを認識している。またそこにおいて提案されているシステムにおいては、ライティングを行うユーザ、即ちキャラクタを書くユーザが、システムの各スイッチ機能を使用することによって、手動で各字画の開始及び終了をシステムに指示しなければならない。スイッチのこの手動操作は、ユーザによる連続的で流れるようなライティングを妨げる。
別の従来技術によるシステムでは、カメラを使用して、3次元の手跡を認識し、ユーザの手の絶対的な位置を求めることによって、ライティングの間にユーザの手によって成される軌跡を求める解決手段が提供されている。絶対的な位置を求めるためには、例えばMICROSOFT KINECTセンサシステムのような定置の固定されたカメラシステムが必要となる。
従来技術に鑑み、手による仮想的な3次元のライティングが行われる場合の、つまり空中への文字、サイン又は単語のライティングに関する、改善された手跡認識が必要とされている。定置のセンサを含んでいる複雑なシステムを必要とすることなく、連続的で流れるようなライティングをサポートするシステム及び方法を提供することが望まれている。
従って、手による仮想的な3次元のライティングが行われる場合の、改善されたキャラクタ認識及び手跡認識のためのデコーディングシステム及び方法を提供することが必要とされている。このコンテクストにおいて「仮想のライティング」とは、書き手が2次元の媒体(例えば紙、ディスプレイ等)への書き込みを強要されることのないライティングであると解される。その代わりに書き手は、例えば、制限なく空中に3次元の動きを行いながら空中へのライティングを行うことができる。この技術的な問題は、独立請求項に記載されている本発明の種々の実施の形態によって解決される。以下の記載のコンテクストにおいて、用語「キャラクタ」とは、複数の字画から成るシーケンス、即ち一連の字画から形成することができる何らかの文字、サイン又はシンボルを表している。キャラクタには例えば、情報交換用米国標準コード、即ちASCII(American Standard Code for Information Interchange)又はユニコード(Unicode)のすべてのキャラクタが含まれるだけでなく、日本語、中国語又は他のアジア諸国のキャラクタ、並びにその他のサイン、例えば四角、円又は矢印等も含まれる。
1つの実施の形態においては、手跡を認識するためのデコーディングコンピュータシステムが、モーションセンサユニットから測定データを受信するためのインタフェースコンポーネントを含んでいる。モーションセンサユニットは、ユーザの身体の可動部分に物理的に結合されている。例えば、モーションセンサユニットをユーザの手に取り付けることができる。モーションセンサユニットは、何らかの種類のウェアラブルアイテムの一部、例えばユーザが着用する手袋、ブレスレット、腕時計又は指輪の一部であって良い。またモーションセンサユニットは皮膚にインプリントされても良いし、皮膚に注入されても良いし、又は、埋め込まれても良い。若しくは、モーションセンサユニットを、その他のやり方で人間の身体に一時的又は永続的に取り付けても良い。またモーションセンサユニットは、ユーザが手にするデバイス(例えばスマートフォン、電子ペン等)の一部であっても良い。更に、コンピュータシステム自体が、ユーザが手にする、又はユーザが着用するデバイスの一部であっても良い。つまり、モーションセンサユニットを、ユーザの身体に一時的又は永続的に取り付けることができる。測定データは、モーションセンサユニットの少なくとも1つのセンサのセンサデータを含んでいる。センサデータは、モーションセンサユニットの軌跡の時間に関する二次導関数に対応するものであって良い。適切なセンサを利用できる場合には、時間に関するより高次の導関数も使用することができる。つまり、測定データは、モーションセンサユニットの一部である加速度センサから供給される加速度データを含むことができる。択一的な実施の形態においては、モーションセンサユニットが、ジャイロスコープ、磁力計又は気圧計のような複数のセンサを含むことができる。その種の実施の形態においては、測定データが、モーションセンサユニットの回転及び向きに関するデータ及び気圧に関するデータを含むことができる。例えば、モーションセンサは、加速度センサに加えて、又は加速度センサの代わりに、ジャイロスコープを含むことができ、その場合、センサデータは角速度に対応することができる。例えば、モーションセンサは更に、加速度センサ及び/又はジャイロスコープに加えて、気圧計も含むことができる。この場合、各センサデータは気圧も含んでいる。モーションセンサの2つの箇所での気圧の差異は、センサのそれら2つの箇所での高さの差異を表し、従ってこの差異を鉛直方向における動きの尺度として使用することができる。その種の様々なタイプのセンサ測定データを組み合わせて使用することによって、手跡認識方法の精度を改善することができる。更にその種のタイプの測定データは、モーションセンサの相対的な動きの尺度を提供する。本発明により提案される手跡認識は、軌跡を求めるためにモーションセンサユニットの絶対的な位置測定には依存しないので、そのような相対的な動きの尺度が提供されることによって、定置の固定されたセンサセットアップはもはや時代遅れのものとなる。
コンピュータシステムは、基本的なモーションユニットのテクニカルプロフィールを記憶するためのデータストレージコンポーネントを含んでいる。テクニカルプロフィールは、少なくとも、複数の事前定義された加速度プロフィールを含んでいる。つまり、本明細書のコンテクストにおける基本的なモーションユニットのテクニカルプロフィールとは、生データとしての、又は前処理された形式の、加速度データ、向きデータ、回転データ及び/又は圧力データのような物理的なデータを反映するプロフィールである。物理的なデータは、各キャラクタ又はサインを描く又は書くために成される3次元の動きに関連付けられている。これによって、物理的なデータ(例えば加速度、角速度、気圧等)は、各物理的な動きを特徴付ける。換言すれば、各加速度プロフィールは、少なくとも、モーションセンサユニットの起こり得る軌跡の1つの特定の部分に関連付けられている動きを特徴付ける加速度データを、その起こり得る軌跡の少なくとも1つの先行の部分又は後続の部分のコンテクストにおいて含んでいる。起こり得る軌跡の1つの特定の部分に関連付けられている動きのコンテクストは、先行の部分及び/又は後続の部分によって定義されている。起こり得る軌跡の1つの部分が組み込まれているコンテクストは、各テクニカルプロフィールに対して影響を及ぼすので、異なるコンテクストにおいて現れる異なる軌跡の区別される複数の類似の部分に使用することができる。例えば、上への動きとそれに続く下への動きを表している、テクニカルプロフィールのコンテクスト依存シーケンスは、2つの動きの間に休憩を挟む場合と、休憩を挟まない場合とで異なる。従って、基本的なテクニカルプロフィール(プリミティブ)を単に連結させるだけでは、殆どの場合、実際のセンサ測定データを反映することはないので、プロフィールのコンテクスト依存シーケンスを記憶することは有利である。
更に、システムは、受信したセンサデータを複数の事前定義された加速度プロフィールと比較し、モーションセンサユニットに関連付けられている軌跡の複数の部分から成るシーケンスを識別するための、デコーディングコンポーネントを含んでいる。例えば、デコーディングコンポーネントは、モーションセンサユニットの軌跡の複数の部分から成る識別されたシーケンスが、受信したセンサデータに対応する特定のキャラクタを表している特定の起こり得る軌跡の複数の部分から成る、事前定義された(例えば専門家によって定義された、又は、利用可能な知識から導出された、又は、トレーニングデータから自動的に学習された)コンテクスト依存シーケンスに関連付けられている場合には、そのキャラクタを識別することができる。換言すれば、テクニカルプロフィールの、1つ又は複数の特有のコンテクスト依存シーケンスによって、各キャラクタを特定することができる。例えばデコーダは、例えばテクニカルプロフィールとしての隠れマルコフモデルと共にビタビアルゴリズムを使用して、観測されたセンサ信号によって与えられている隠れマルコフモデルの尤度を計算することによって、受信した測定データと、テクニカルプロフィールの各事前定義されたコンテクスト依存シーケンスとの類似性スコアを計算することができる。この場合、最も高い類似性スコアを有しているテクニカルプロフィールのコンテクスト依存シーケンスに関連付けられている特定のキャラクタがシステムによって識別される。更にデコーダは、手によって書かれて識別されたテキスト若しくは1つ又は複数のサインの表現を出力装置に供給することができる。例えば、テキスト若しくは1つ又は複数のサイン(例えば、キャラクタ又はテキスト)を表示装置に表示することができるか、又は、印刷することができるか、若しくは、それらをオーディオ信号に変換して、音声言語として供給することができる。デコーディングされたキャラクタ又はサインを、ディジタルデバイスを制御するための命令の一部として使用することができるか、又は、仮想オブジェクトを操作するために使用することができる。例えば、デコーディングされたキャラクタ又はサインが特定のシンボル、例えば右への矢印又はダッシュ記号に対応する場合には、それらを右へのスクロール機能をトリガするために使用することができる。例えば、デコーディングされたキャラクタがプッシュジェスチャ(つまり、ドアを閉じる際のように手を前に向かって動かすこと)に対応する場合には、そのキャラクタを、機能選択をトリガするために使用することができる。3D空間におけるその種のシンボルキャラクタのシーケンスを、仮想オブジェクトの操作に使用することができる。
1つの実施の形態においては、受信した測定データを、モーションセンサユニットの各動きを特徴付ける特徴空間に変換することができる。このステップの目標は、デコーディングコンポーネントに供給されるデータが、手跡認識タスクにとって重要な情報だけを含むように、生データを変換することである。従って、変換された測定データは、動きを特徴付ける元のセンサ生データに比べて少ない量のデータ及び情報を含むことができる。例えば、前処理コンポーネントは、平均値正規化及び/又は分散正規化を使用することによって、元の生データからのそのような特徴抽出を実施することができる。記憶されているテクニカルフィールドは、特徴空間における対応する表現でもって、起こり得る軌跡の複数の部分を特徴付けることができる。これによって、センサデータから抽出された、変換されたデータと、特徴空間における各部分を表している、対応するテクニカルプロフィールとの類似性を計算することができる。
1つの実施の形態においては、検出コンポーネントは、手跡に関する測定データを、モーションセンサユニットのその他の測定データから分離させることができる。種々の公知のデータ分離方法をこの目的のために使用して、コンピュータシステムによって散発的なライティングを認識することができ、また使用される方法に依存して、手跡認識デコーディングに関する処理負荷を軽減することができる。そのような自動的な分離/分割システムは、提案されるシステムの常時オン動作モードを可能にする。つまり、システムはバックグラウンドで連続的に動作することができ、従って、散発的なライティング及び連続的なライティングに関する正確な手跡認識を実現する。
1つの実施の形態においては、ディクショナリが識別可能な各キャラクタに対して、1つ又は複数のコンテクスト依存テクニカルプロフィールシーケンスを記憶することができる。各コンテクスト依存テクニカルプロフィールシーケンスは、識別可能なキャラクタに関連付けられているモーションセンサユニットの1つの起こり得る軌跡を表している。ディクショナリが1つの特定の識別可能なキャラクタに関する複数のコンテクスト依存テクニカルプロフィールシーケンスを含んでいる場合、それらのシーケンスは、その特定の識別可能なキャラクタを書くためのモーションセンサの複数の起こり得る異なる軌跡を表すことができる。その種の識別可能なキャラクタを、後述するような自動的なやり方で、システムによって学習することができるか、又は、データから導出することができる。結果として、システムはキャラクタの大きさ及び形状の変化、ライティングの性質及びその他のユーザの癖に対してよりロバストになる。ディクショナリは、複数の文字列又は単語に関するコンテクスト依存テクニカルプロフィールシーケンスも記憶することができる。その種の(単語)コンテクスト依存テクニカルプロフィールシーケンスは、複数のキャラクタ文字列に関連付けられている、モーションセンサユニットの1つの起こり得る軌跡を表している。これは、複数のキャラクタ文字列の少なくとも1つの先行のキャラクタと後続のキャラクタとの間の、起こり得る軌跡の連結部分を表している、1つ又は複数の連結テクニカルプロフィールを含んでいる。連結テクニカルプロフィールは、キャラクタの一部ではないが、結果として得られるテクニカルプロフィールのコンテクスト依存シーケンスに影響を及ぼす可能性がある、ユーザによって成される動きを表しているので、それらの連結テクニカルプロフィールは、連続的なライティングでの手跡認識を容易にする。
データストレージコンポーネントは、更に、複数のコンテクストから成るグループを表しているグループプロフィールを記憶することができる。複数のコンテクストから成るグループは、複数の類似するコンテクスト依存テクニカルプロフィールに関連付けることができる。その種の類似するコンテクスト依存テクニカルプロフィールをグループ分けすることによって、記憶する必要があるテクニカルプロフィールの総数をフレキシブルに管理することができる。このことは、十分なトレーニングデータが存在する場合には、多くの数のコンテクスト依存テクニカルプロフィールを使用できることを意味している。トレーニングデータの数が少ない場合には、より多くのコンテクスト依存テクニカルプロフィールを一緒にグループ分けし、トレーニングデータから評価する必要があるパラメータの数を低減することができる。換言すれば、使用されるコンテクスト依存テクニカルプロフィールが多くなるほど、必要とされるトレーニングデータも多くなる。複数のコンテクストをグループ分けすることによって、利用可能なトレーニングデータの量をフレキシブルに適合させることができる。また、低減された数のコンテクスト依存テクニカルプロフィールによって、例えば、データストレージコンポーネントによって消費されるメモリを節約することもできる。
1つの実施の形態においては、コンピュータシステムは、複数のキャラクタシーケンスに関する確率をデコーディングコンポーネントに供給するように構成されている言語データベースを含むことができる。その種の言語データベースは、言語モデルと称されることもあり、また検索空間を制限するために使用することができ、更には検索についてのガイダンスを提供し、それによって、手跡認識の精度が改善され、且つ、デコーディング時間が短縮される。2つのキャラクタが、テクニカルプロフィールの非常に類似するコンテクスト依存シーケンス(例えば、小文字の「a」及び小文字の「d」を手で書く場合、それらは非常に類似する動きで書かれる)に関連付けられている場合には、システムによるキャラクタの識別は単に類似性の計算を基礎とするだけでは困難になる。しかしながら、言語モデルは、キャラクタシーケンス「and」がキャラクタシーケンス「dnd」よりも高い確率を有しているという情報を提供することができる。何故ならば、「and」は、英単語として頻繁に出現するが、その一方で「dnd」は英語の言語において意味を成していないからである。この場合、この言語モデル確率を、各キャラクタの識別に影響を及ぼすために使用することができる。更に、言語モデルは単語シーケンスに関する情報も提供することができる。例えば、単語シーケンス「be my guest」は、シーケンス「be my quest」よりも高い確率を有している。2つのシーケンスは小文字の「g」と「q」が異なるだけであるが、これを区別することは困難であると考えられる。単語シーケンスに関する確率は、正しいキャラクタ及び単語の識別に好適な影響を及ぼすことができる。
別の実施の形態においては、コンピュータプログラム製品が、コンピュータシステムのメモリにロードされ、コンピュータシステムの少なくとも1つのプロセッサによって実行されると、コンピュータシステムに、コンピュータシステムの機能を実行するための各コンピュータ実装方法のステップを実行させる。
本発明の更なる態様は、特に添付の特許請求の範囲に記載されている構成要素及び組み合わせによって実現及び達成される。上記の一般的な説明及び下記の詳細な説明のいずれも例示的なものであり、且つ説明を目的としたものであって、本発明を記載の通りに制限することを意図したものではない。
図1Aには、本発明の1つの実施の形態による、手跡を認識するためのコンピュータシステム100の簡略化されたブロック図が示されている。システム100は、モーションセンサユニット10から測定データ11を受信するためのインタフェースコンポーネント110を含んでいる。モーションセンサユニット10を、有線式の通信手段又は無線式の通信手段(例えばBluetooth,WLAN等)を介して、システム100に接続し、通信を行うことができる。モーションセンサユニット10は、ユーザの身体の可動部分(例えば、手、腕、指等)に物理的に結合されている。またモーションセンサユニット10は皮膚にインプリントされても良いし、皮膚に注入されても良いし、又は、埋め込まれても良い。若しくは、モーションセンサユニット10を、その他のやり方で人間の身体に一時的又は永続的に取り付けても良い。例えば、モーションセンサユニットをユーザの手に取り付けることができる。モーションセンサユニットは、ユーザが着用する手袋、腕時計、リストストラップ、ブレスレット又は指輪の一部であって良い。またモーションセンサユニットは、ユーザが手にするデバイス(例えばスマートフォン、電子ペン等)の一部であっても良い。集積型のモーションセンサを備えているその他の任意のウェアラブルデバイス、例えば眼鏡も使用することができる。更に、コンピュータシステム自体が、ユーザが手にする、又はユーザが着用するデバイスの一部であっても良い。つまり、モーションセンサユニット10を、所定の期間にのみ、ユーザの身体1に取り付けることができるか、又は、ユーザの身体1で保持することができる。この例において、測定データ11は、モーションセンサユニット10に組み込まれている加速度センサのセンサデータを含んでいる。加速度センサによって測定された加速度データは、ユーザが各身体部位1を動かしている間にモーションセンサユニットが成す軌跡(動き)20の時間に関する二次導関数に対応している。図中、モーションセンサユニット10が取り付けられているユーザの手に関して、太線は動きの開始時を表しており、また破線は動きの終了時を表している。センサユニット10が成す軌跡20は、点線のカーブした矢印によって表されている。
一旦、図1Bを参照する。モーションセンサユニットは、すべての空間次元x、y及びzに動かすことができる。ここでは、z次元は図示されているデカルト座標系の原点における黒丸によって表されている。つまり、軌跡の動きを表すベクトルは、すべての空間次元におけるベクトル成分を有することができる。
再び図1Aを参照する。モーションセンサユニット10は、別のセンサ、例えばジャイロスコープ、磁力計又は気圧計を含むことができる。その種の実施の形態において、測定データは更に、モーションセンサユニットの向き及び回転に関するデータ及びモーションセンサが位置する場所における気圧に関するデータを含むことができる。例えば、ジャイロスコープは、動いている間に生じる角速度に関するデータを測定することができる。磁力計は、動いている間のモーションセンサユニット10の向きに関する測定データを供給するためにコンパス機能を実施することができる。気圧計は、モーションセンサユニットの鉛直方向における位置の測定データを供給することができる。
コンピュータシステム100は、キャラクタのテクニカルプロフィールを記憶するためのデータストレージコンポーネント130を含んでいる。テクニカルプロフィールは、少なくとも、複数の事前定義された加速度プロフィールを含んでいる。向きプロフィール、角速度プロフィール(回転プロフィール)及び気圧プロフィールでもってテクニカルプロフィールを拡張することによって、手跡認識システムの全体の精度を改善することができる。これについては図8に基づきより詳細に説明する。本明細書のコンテクストにおける特定のキャラクタのテクニカルプロフィールとは、物理的なパラメータ、例えば、各キャラクタを描く又は書くために行われる3次元の動きに関連付けられている加速度データ、向きデータ、回転データ及び/又は気圧データを反映し、且つ、その物理的なパラメータによって、各物理的な動きを特徴付けるプロフィールである。換言すれば、各加速度プロフィールは、少なくとも、モーションセンサユニットの起こり得る軌跡の1つの特定の部分に関連付けられている動きを特徴付ける加速度データを、その起こり得る軌跡の少なくとも1つの先行の部分又は後続の部分のコンテクストにおいて含んでいる。テクニカルプロフィールは、生(未加工)の形式又は変換された形式での、所定の期間にわたるセンサ値の学習された表現、例えば隠れマルコフモデルの形式の表現と見なすことができる。例えば、この表現は、機械学習アルゴリズムによってトレーニングデータから自動的に学習することができる確率分布を含むことができる。起こり得る軌跡の1つの特定の部分に関連付けられている動きのコンテクストは、先行の部分及び/又は後続の部分によって定義されている。つまり、左から右に向かう線部分が先行し、且つ、別の左から右に向かう線部分が後に続く、上から下に向かう線部分の加速度/向き/回転/圧力のプロフィールは、下から上に向かう線部分が先行し、且つ、左から右に向かう線部分が後に続く、上から下に向かう線部分の加速度/向き/回転/圧力のプロフィールとは異なる。起こり得る軌跡の1つの部分が組み込まれているコンテクストは、各テクニカルプロフィールに対して影響を及ぼすので、異なるコンテクストにおいて現れる異なる軌跡の区別される複数の類似の部分に使用することができる。これを図2から図7に基づきより詳細に説明する。
更に、システム100は、受信したセンサデータ11を複数の事前定義されたテクニカルプロフィール(例えば加速度プロフィール)130と比較し、モーションセンサユニット10に関連付けられている軌跡20の複数の部分から成るシーケンスを識別するための、デコーディングコンポーネント120を含んでいる。図2Aから図2Dに基づき、この態様をより詳細に説明する。デコーディングコンポーネント120は、モーションセンサユニットの軌跡の複数の部分から成る識別されたシーケンスが、受信したセンサデータに対応する特定のキャラクタを表している特定の起こり得る軌跡の複数の部分から成る、事前定義されたコンテクスト依存シーケンスに関連付けられている場合には、そのキャラクタを識別することができる。換言すれば、各キャラクタは、テクニカルプロフィールの1つ又は複数の特有のコンテクスト依存シーケンスによって定義されている。
例えば、ディクショナリ140は、複数のテクニカルプロフィールから成る、その種のキャラクタ固有のコンテクスト依存シーケンスを記憶するために使用することができる。デコーダは、受信した測定データを、記憶されているコンテクスト依存シーケンスプロフィールと比較し、最も類似する(最も高い類似性を有している)キャラクタシーケンスを出力する/返す。識別されたキャラクタ/キャラクタシーケンスの表現を出力装置200に供給することができる。例えば、キャラクタを表示装置(例えば、コンピュータのスクリーン、拡張現実眼鏡等)に表示することができるか、又は印刷することができるか、若しくは、音声信号に変換して、音声言語として供給することができる。デコーディングされたキャラクタを、ディジタルデバイスを制御するための命令の一部として使用することもできる。
ディクショナリ140は、キャラクタ及び単語から部分(プリミティブ)及びそれらの各テクニカルプロフィールへのマッピングを定義するように構成されている。ディクショナリ140を、別個のキャラクタ及び単語ディクショナリから生成することができる。キャラクタディクショナリは、キャラクタから部分へのマッピングを定義する。特定のキャラクタを書くために1つ以上の可能性が存在する場合がある。従って、1つのキャラクタに関して、複数のテクニカルプロフィールの変型をディクショナリにおいて規定/定義することができる。ディクショナリは、複数のテクニカルプロフィールから成るシーケンスを相応に規定して、新たなキャラクタ、新たな単語、新たな変型を追加することによってフレキシブルに拡張することができる。表1は、文字「E」に関するキャラクタディクショナリにおける複数の変型に関する例を示す。この例において、省略表記は、「下(down)」への移動(D)に対応する部分、「右(right)」への移動(R)に対応する部分、「左(left)」への移動(L)に対応する部分、「左下(down−left)」への移動(DL)に対応する部分、「左上(up−left)」への移動(UL)に対応する部分を表すために使用される。以下の明細書においては、より詳細な表記を紹介する。
表1:文字「E」に関する変型ディクショナリ
表1:文字「E」に関する変型ディクショナリ
表3は、一例として、1単語内では「E」の変型ディクショナリは混在しておらず、即ち、1単語内でのユーザのEの書き順には一貫性があり、また、キャラクタ「L」は部分シーケンス「DR」にマッピングされているという仮定のもとで、生成されたディクショナリはどのようなものになるかを示す。連続する2つのキャラクタを連結部分によってリンクさせることができる。しかしながら、この連結部分は必須のものではない。提案される方法では、この連結部分が所定の信号データとより良く整合しているかを自動的に検出する。これらの部分をオプションとして、個々のキャラクタの字画間に挿入することができ、またこれらの部分は分かり易くするために、表3の例示的なディクショナリ収録語において括弧書きで示されている。例えば、すべてのキャラクタが定位置に書かれる場合、つまり、各キャラクタが仮想的にその他のキャラクタの上に書かれる場合、左への動きが、表3に示されている「EEL」の第1の変型についての文字間では必要になる。これは、キャラクタ「E」を書く場合、通常は、右側で終了し、またキャラクタ「E」及び「L」を書く場合、いずれも左側で開始されることに拠る。従って、左への動きに関する動きシンボルを、コンテクストに関して、キャラクタ間に挿入することができる。
表3:部分シーケンスの変型への単語のマッピングディクショナリ(変型には数字が付されている)
表3:部分シーケンスの変型への単語のマッピングディクショナリ(変型には数字が付されている)
1つの実施の形態においては、コンピュータシステムは、センサ測定生データを特徴空間に変換する前処理コンポーネントを含むことができる。これによって、生データのサンプルの数及び/又は次元数を変更することができ、それによって、手跡認識タスクに関する重要な情報のみが変換後に存在する。この変換は、種々のセンサ(即ち、異なるタイプのセンサの複数のセンサ)の融合も含むことができる。例えば、加速度計、ジャイロスコープ及び磁力計からのデータを融合させ、センサの絶対的な向きを評価することができる。その種の向き評価に関する種々の融合技術は当業者には公知であり、例えばカルマンフィルタ、Mahonyフィルタ又はMadgewickフィルタが挙げられる。
受信したセンサ生データに適用することができる典型的な前処理ステップは、平均値正規化及び分散正規化である。平均値正規化は、信号平均を減算する(従って平均を0にセットする)ことによって、生データ信号における一定のオフセットを除去する。加速度信号に関しては、平均値正規化は重力加速度の影響をある程度まで除去することができる。重力加速度は地球上では常に存在し、また、ハードウェアの構成に依存して、その向きに依存する加速度センサの軸に沿って測定することができる。例えば、ハンドライティングの間は、センサの向きが一定ではないが、センサの向きは大きな変化にも晒されない。従って、一定のオフセットの除去によって、重力の影響をある程度除去することができる。ジャイロスコープ及び磁力計を利用できる場合には、重力を減算するためのより正確な方法を使用することができる。所定の期間にわたり測定データからセンサの向きを評価するために、当業者には公知の種々の方法が存在している(例えばカルマンフィルタ、Madgwick/Mahonyフィルタ)。評価された向きを、信号平均の単純な減算の代わりに、重力を減算するために使用することができる。評価された向きを、特徴空間における付加的な次元として使用することもできる。
分散正規化は、生データ信号の分散を1にセットし、また、異なる書き速度及び書き方(書き速度及び書き方のいずれもユーザ毎に非常に異なると考えられる)によって惹起される高い又は低い振幅を補償することができる。平均値正規化と分散正規化の融合用途は、一般的にz正規化(z−normalization)と表される。図12A及び図12Bは、3つの空間次元x,y,zにおけるセンサ生データ信号11−x,11−y,11−zの例(図12Aを参照されたい)、及び、z正規化後の各正規化データ14−x,14−y,14−zの例(図12Bを参照されたい)を示す。連続的なライティングに関して、z変換をリアルタイムで、即ち対応するデータ信号を受信している間に、効率的に計算することができる。
別のオプションとしての前処理ステップは、受信したセンサ生データ信号のフィルタリングを含むことができる。通常の場合、人間の動きは低周波数(約30Hz未満)に関連付けられているので、例えばデータ信号をローパスフィルタリングして、ユーザの振動又はセンサノイズによって惹起される信号中の高周波数部分を除去することができる。信号正規化の他に、生信号を移動平均フィルタによってフィルタリングすることができる。移動平均フィルタは当業者には公知である広範囲にわたる他のフィルタのうちの1つのオプションである。
パターン認識に関する信号前処理及び特徴抽出において一般的に使用される他の変換には、信号の積分及び微分、ダウンサンプリング又はアップサンプリング、信号圧縮、ビット分解の変更、窓内の信号平均のような統計的な特徴を計算するための窓関数の適用、又は、スペクトル特徴を抽出するための短時間フーリエ変換と組み合わされた窓関数が含まれる。但し、変換はこれらに限定されるものではない。主成分分析(PCA:Principal Components Analysis)又は線形判別分析(LDA:Linear Discriminant Analysis)又は独立成分分析(ICA:Independent Component Analysis)のような方法が、特徴空間の次元数を低減するために一般的に使用されている。例えばスプライン近似、区分線形近似、シンボル表現又はウェーブレット変換のような信号近似を、圧縮された形態の信号を表すために使用しても良い。情報融合を使用してセンサ測定を融合させ、それによって、より高いレベルの情報を生成することができ、数ある例のうちの一部に過ぎないが、例えばカルマンフィルタ又はその変型のうちの1つを使用することによって、加速度、ジャイロスコープ及び磁力計の読み出しからセンサの向きの計算値を生成することができる。変換は所定の期間にわたる後続のサンプルの蓄積又は後続のサンプルのn次微分も含むことができる。
種々の方法のあらゆる組み合わせも元の信号(測定生データ)を変換するために一緒に使用することができる。前処理の出力は、特徴空間に変換された信号である。サンプルの数及び次元数は、変換を介して変更することができる。変換されたサンプルは一般的に特徴ベクトルと称され、従って、前処理の出力は複数の特徴ベクトルから成るシーケンスである。
センサ測定データ信号の複数の特有の特徴ベクトルから成るシーケンスを、受信したセンサ測定データから抽出することができる。例えば、窓関数を測定データ又は前処理されたデータに適用することができ、また窓毎の平均が信号の各次元x,y,zについて計算される。その他のアプローチは信号ピーク又はゼロ交差率の使用を含むが、アプローチはそれらに限定されるものではない。その種のデータ前処理の出力は、元の信号の特徴空間への変換である。
デコーディングコンポーネント120は、統計的及び確率的な技術、例えば隠れマルコフモデル(HMM:Hidden Markov Model)又は条件付き確率場(CRF:Conditional Random Field)、又は、HMM又はCRFデコーディング問題を解決するための適切なアルゴリズム(例えば、プレフィックス木、A*Starのようなスタックデコーダストラテジ又は有限状態トランスデューサを用いる、ビタビビーム探索の適切なメッセージパッシング変型)を用いるシャローネットワーク(Shallow network)又はディープニューラルネットワーク(Deep Neural network)を使用することができる。HMMが使用される場合には、デコーディングコンポーネントの出力は、仮説が所定の信号を表している尤度を定量化する各尤度スコアを有しているn個の最善の仮説のnベストリストである。1ベスト仮説、即ち最も高い尤度を有している1つの仮説は、典型的には、認識エンジン出力とみなされる。尤度は、事前定義されたテクニカルプロフィールと、軌跡20に関連付けられている、観測された特徴シーケンスとの間の整合度を定量化することによって計算される。従って、テクニカルプロフィールと、特徴空間に変換されたセンサ信号との類似性の尺度として、尤度を使用することができる。一般的に、キャラクタシーケンス及び/又は単語シーケンスの尤度を考慮することもできる。後者は言語モデルをデコーディングプロセス(言語データベース)150に統合することによって計算することができる。言語モデルは、典型的には、用途の言語及び領域について固有である、複数のキャラクタ又は単語から成るシーケンスに関する確率を含んでいる。キャラクタ言語モデルは、そのキャラクタ言語モデルに先行する固定数のキャラクタ言語モデルによって与えられるキャラクタの確率を返すことができる。単語言語モデルは、それまでに観測された単語の履歴によって与えられる単語に関する確率を返す。これによって、例えば音声認識及び手跡認識の分野における当業者には周知である機械学習アルゴリズムを介してトレーニングテキストから統計的な特性を導出することによって、ある言語の構文的な特性及び意味的な特性を利用することができる。言語モデルは、統計的なN−gramモデル又は文法として実施することができる。文法は、認識することができるキャラクタシーケンスを制限することができ、また認識のより高いロバスト性を提供することができる。言語モデルの影響に対するテクニカルプロフィールの尤度の影響を、重み付け係数によって調整することができる。換言すれば、デコーディングコンポーネントは、異なる2種類の確率スコア、例えば動きのパターンとの類似性を定量化する確率スコア及びシーケンス内に現れるキャラクタ又は単語の確率スコアを使用することができる。HMMアプローチに関する詳細は、DOI 10.1007/S00779−013−0637−3においてオンラインで入手できる、Amma C.;Georgi M.;Schultz T.の「Airwriting: a wearable handwriting recognition system」,Personal and Ubiquitous Computingに記載されている。
1つの実施の形態においては、コンピュータシステムが更に、受信したセンサデータをフィルタリングし、キャラクタに関するライティングの動きに関連付けられているセンサデータのみがデコーディングコンポーネントに供給されるように構成されている検出コンポーネント160を含むことができる。それによって、ユーザがライティングを行う際には、システムをバックグラウンドで連続的に動作させることができ、またシステムは自動的に検出を行うことができる。これによって、スイッチ又は特別なジェスチャを手動でアクティブ化して、ライティングの開始及び終了を指示する必要がないので、ユーザにはより良い便利性を提供することができる。換言すれば、この特徴によってユーザはシステムを常時身に付けることができ、また、システムのオン及びオフの手動での切り替え/意識的な切り替えを行うことを心配する必要がなくなる。つまり、システムは常に動作状態にあるが、しかしながらユーザが確かにライティングを行ったときにだけキャラクタ又は単語を認識する。検出コンポーネント160は、供給された測定データ11を手跡部分と非手跡部分とに分割することができる。例えば、このことは二項分類を使用して達成することができる。つまり、供給されたデータストリームがスライディングウィンドウの適用によってウィンドウ化され、個々のウィンドウが手跡又は非手跡に分類され、その結果、入力信号が分割される。このアプローチに関する詳細は、DOI 10.1007/S00779−013−0637−3においてオンラインで入手できる、Amma C.;Georgi M.;Schultz T.の「Airwriting: a wearable handwriting recognition system」,Personal and Ubiquitous Computingに記載されている。
手跡に関するデータをその他の測定データから分離するためのその他の可能性は、隠れマルコフモデル内のガベジモデル(garbage model)によって、非手跡の動きを処理することである。つまり、テクニカルプロフィールに関するキャラクタに加えて、非手跡(ガベジ)モデルに関する特別なテクニカルプロフィールが作成される。この技術は、Wilpon,J.G.;Rabiner,L;Chin−Hui Lee;Goldman,E.R.の「Automatic recognition of keywords in unconstrained speech using hidden Markov models」,Acoustics,Speech and Signal Processing,IEEE Transactions on,vol.38,no.11,pp.1870,1878,1990年11月において、自動音声認識に関して説明されている。当業者であれば、このアプローチを本発明のコンテクストにおいて適用することができる。
別の可能性は、Hyeon−Kyu Lee;Kim,J.Hの「An HMM−based threshold model approach for gesture recognition」,Pattern Analysis and Machine Intelligence,IEEE Transactions on,vol.21,no.10,pp.961,973,1999年10月において提案及び記載されているような閾値ベースのアプローチを使用することである。
図2Aから図2Dには、キャラクタを表す複数の部分から成るシーケンスを構成することができる基本軌跡部分(プリミティブ)の種々の例を示す。これらの代わりに、別のプリミティブも使用することができる。特に、それらの所定のプリミティブを、ユーザに近付く動き又はユーザから遠ざかる動きを含む3D空間に拡張することができる。それらは図面を見やすくするために図示していない。これらの例において使用されているラベルは以下のように解することができる。コロンの左側では線種が符号化されている。つまり、「s」は直線の線種を表しており、また「c」は環状の線種を表している。環状の線種は、90°の中心角を有している円弧を表している。コロンの右側では、各部分の開始及び終了が「from−to(〜から〜まで)」の形式で符号化されている。考えられる符号は、中心(center)を表す「c」、上(up)を表す「u」、下(down)を表す「d」、右(right)を表す「r」、及び、左(left)を表す「l」である。当業者であれば、異なる粒度で軌跡を区別することもできる。図面における幾つかの例を明確に説明する。
図2Aにおいて、「s:c−l」は中心から始まり左で終わる直線を表している。「s:c−dr」は中心から始まり右下で終わる直線を表している。
図2Bにおいて、「c:l−u」は左から始まり上に向かう(これは右に向かうことを含んでいる)環状の線を表している。「c:r−d」は右から始まり下に向かう(これは左に向かうことを含んでいる)環状の線を表している。
図2Cにおいて、「c:dl−ul」は左下から始まり左上に向かう環状の線を表している。「c:dl−dr」は左下から始まり右上へと向かう環状の線を表している。
その他のすべての符号もこの理論体系に従って復号することができる。この理論体系を、各部分から成るシーケンスとしてキャラクタのモデルを作成するために使用することができる。例えば、この理論体系に従って、図2Dに示した文字Bを書くために成される動きを表している、複数の部分から成るシーケンスを以下のように表すことができる(読みやすくするために、各部分をコンマによって区切っている)。s:c−d,s:c−u,c:u−r,c:r−d,c:u−r,c:r−d。
各部分に対して、それぞれテクニカルプロフィールを作成することができる。その種のテクニカルプロフィールは、部分のコンテクストに依存している。何故ならば、その部分を特徴付ける物理的なパラメータは、先行の部分及び後続の部分に依存しているからである。その種のテクニカルプロフィールによってキャラクタを表すことは、完全なキャラクタモデルのモデリングを必要としないので、非常にフレキシブルである。むしろ、何らかの任意のキャラクタ又はシンボルを、その種の基本コンテクスト依存プリミティブ又はコンテクストアウェアプリミティブから形成することができ、その結果、システムのデコーディングコンポーネントによって認識することもできる。従って、既存のモデル及びシステムを変更、修正又は維持する必要なく、新たなシンボル、キャラクタ及び単語を、オン・ザ・フライで定義して統合することができる。
図3から図7には、キャラクタ又はシンボルの特有の部分に関するテクニカルプロフィールのコンテクスト依存性が示されている。各図には、加速度センサから受信した実際の測定データ(信号パターン)が示されている。しかしながら、これらの図には、各テクニカルプロフィールが作成された際に考慮される部分のコンテクスト依存性によって生じる物理的な効果をはっきりと示されている。
個々の部分に関する信号パターンは、先行の部分及び/又は後続の部分に依存して変化する。例えば、連続する2つの動き(軌跡の部分)が、休憩を挟んで行われた場合と、休憩を挟まずに行われる場合とでは、複数のテクニカルプロフィールから成るコンテクスト依存シーケンスに大きな差異が生じると考えられる。
図3には、上への移動に関するパターン11−1(部分「s:c−u」)が示されている。図4には、下への移動に関するパターン11−2(部分「s:c−d」)が示されている。パターン11−1及びパターン11−2を連結した場合、連結結果パターンは、2つの部分間に休憩を挟まずに実行された、部分「s:c−u」及び「s:c−d」に関するパターン11−3(「上下」と表記されている図5を参照されたい)とは明確に異なる。換言すれば、上への動き又は下への動きに関するコンテクスト依存テクニカルプロフィールは、それぞれ、先行して行われた動き又は続けて行われる動きに依存して変化する。これは、「上」部分の終了時の加速の方向が、「下」部分の開始時の加速の方向と同じであるということに起因している。それらの部分間に休憩は挟まれていないので、加速度値は連続する2つの部分間では0にならない。従って、休憩を挟まずに連続的に実行される複数の部分に関するテクニカルプロフィールは、各部分の開始時及び終了時に休憩を挟んで実行される個々の部分のテクニカルプロフィールを単に連結したものとは異なるので、各部分に関するパターン(テクニカルプロフィール)をストレージコンポーネント130(図1を参照されたい)に記憶するだけでは十分ではない。従って、ストレージコンポーネント130は、図5の例に示されているようなコンテクスト依存テクニカルプロフィールも記憶する。
別の例は、図6において、「上」(s:c−u)及び「右」(s:c−r)の部分シーケンスに関して示されている。「右」部分は鉛直方向の動きを一切含んでいないので、「上」部分に関するx次元(図1Bを参照されたい)におけるパターン11−4は、図3に示したパターン11−1に非常に類似している。パターン11−4’は、y次元における加速度データを示しており、このケースにおいては「右」への垂直な動きに対応している。この例は、「右」部分がこのケースにおいて「上」部分に影響を及ぼしていないことを示している。またこの例は、先行の部分及び後続の部分の種々の組み合わせに関して、種々のコンテクスト依存テクニカルプロフィールを記憶することが有利であることを示している。
以下の命名規則は、先行の部分及び後続の部分(次の部分)のコンテクストにおいて1つの部分を表すために使用される:p(pp|sp)。ここで、pは部分であり、ppは先行の部分(先行のコンテクスト)を表しており、またspは次の部分(後続のコンテクスト)を表している。
例えば、テクニカルプロフィールを、先行のコンテクスト及び後続のコンテクストの考えられるすべての組み合わせに関して記憶することができる。択一的に、テクニカルプロフィールを、複数のコンテクストから成るグループに関して作成及び記憶することができる。例えば、「左上」及び「上」の先行の部分のコンテクストにおいて「下」部分に関するテクニカル加速度プロフィールは1つだけ作成すれば良い。何故ならば、「下」のパターンは大抵の場合、先行のいずれのコンテクストに対しても同じだからである(図7、パターン11−5「左上」とそれに続く「下」、及び図5、パターン11−3「上」とそれに続く「下」を参照されたい)。これによって、作成すべきテクニカルプロフィールの量をフレキシブルに管理することができる。このことは、十分なトレーニングデータが存在する場合には、多くの数のコンテクスト依存テクニカルプロフィールを使用できることを意味している。トレーニングデータの数が少ない場合には、より多くのコンテクスト依存テクニカルプロフィールを一緒にグループ分けし、トレーニングデータから評価する必要があるパラメータの数を低減することができる。換言すれば、使用されるコンテクスト依存テクニカルプロフィールが多くなるほど、必要とされるトレーニングデータも多くなる。複数のコンテクストをグループ分けすることによって、利用可能なトレーニングデータの量をフレキシブルに適合させることができる。また、低減された数のコンテクスト依存テクニカルプロフィールによって、例えば、ストレージコンポーネント130のメモリ消費量を低減することができる。複数のコンテクストから成るグループは、専門家によって定義することができるか、又は、クラスタリングアルゴリズム(例えばK平均法、K−median法、ニューラルガス)及び適切な距離測定又は類似性測定(例えばユークリッド距離、動的時間伸縮法、カルバック・ライブラー・ダイバージェンス)を用いて類似性に基づきテクニカルプロフィールをクラスタリングすることによって、データから学習することができる。
図8には加速度及び回転(角速度)に関するセンサデータの例が示されている。この図は、文字「A」のライティングの例に関する。キャラクタの字画に関する複数の部分から成る各シーケンスを、s:c−ur,s:c−dr,s:c−ul,s:c−rとして表すことができる。
上記において述べたように、加速度センサデータを別のセンサデータ、例えば回転センサデータ及び/又は向きセンサデータでもって補完することによって、手跡認識の精度を改善することができる。これらの3つすべてのタイプのセンサデータを、相関的なセンサデータに基づく手跡認識のために使用することができる。換言すれば、モーションセンサユニットの空間内での絶対的な位置を知る必要なく、加速度センサデータ、向きセンサデータ及び回転センサデータを、システムに記憶されている事前定義されたテクニカルプロフィールとの整合性を求めるために使用することができる。従って、従来技術において提案されているような、定置のカメラセンサを備えている複雑な固定的なシステムを用いる必要はない。本発明の実施の形態による正確な手跡認識は、いずれの絶対空間座標にも依存しないセンサによって測定されたデータにのみ基づいている。図8には、ユーザが空中に文字「A」を書いている間に、モーションセンサユニット10(図1を参照されたい)によって記録された信号の例が示されている。この例において、モーションセンサユニットは、3軸加速度計及び3軸ジャイロスコープを含んでいる。グラフの各行において、左側には1つの空間次元に関する加速度測定データが示されており、右側には同一の次元に関する角速度測定データが示されている。モーションセンサユニットとユーザの手との位置合わせに基づいて、鉛直方向及び水平方向の動きは3つすべての次元において部分的に観測される(1行目にはx軸、2行目にはy軸、3行目にはz軸がそれぞれ示されている)。しかしながら、主な鉛直方向の動きは主としてz軸及びx軸に沿って観測することができ、また主な水平方向の動きは主としてy軸に沿って観測することができる。実験的な試みによって、本発明のコンセプトによる手跡認識の精度は、モーションセンサユニットの各センサから受信した加速度、回転及び向きに関するデータを反映する測定データを組み合わせることによって改善されることが分かった。例えば、Amma C,Gehrig D.及びSchultz T.の「Airwriting recognition using wearable motion sensors」,Augmented Human Conference,2010,Megeve,Franceには、ジャイロスコープから供給される情報が加速度計のみを使用するシステムに比べて認識の性能が向上することが示されている。
図9には、本発明の1つの実施の形態による、手跡を認識するためのコンピュータ実装方法1000の簡略化されたフローチャートが示されている。この方法を、コンピュータシステム100の種々のコンポーネント(図1を参照されたい)によって実行することができる。センサデータを特徴空間に変換するステップ1200及びセンサデータを分離させるステップ1300は、基本となる実施の形態においては実施されなくても良いオプションのステップであって良い。
コンピュータシステムは、ユーザの身体の可動部分に物理的に結合されているモーションセンサユニットからセンサ測定データを受信する(ステップ1100)。センサ測定データは、モーションセンサユニットの軌跡の時間に関する二次導関数を含んでいる。軌跡は、ユーザによって成された動きに対応する複数の部分から成るシーケンスを含んでいる。例えば、ユーザは、モーションセンサユニットが取り付けられている自身の手を動かし、モーションセンサユニットは、モーションセンサユニットの加速度、回転又は向きに関する測定データを所定の期間にわたり記録する。続いて、コンピュータシステムはその種のデータを受信することができる。
コンピュータシステムは、受信したセンサ測定データを複数のテクニカルプロフィールから成る複数のシーケンスと比較する(ステップ1400)。その種のテクニカルプロフィールは、少なくとも、複数の事前定義された加速度プロフィールを含んでいる。代替的な実施の形態においては、テクニカルプロフィールは更に、向きプロフィール、回転プロフィール及び/又は圧力プロフィールを含むことができる。各加速度プロフィールは、モーションセンサユニットの起こり得る軌跡の1つの特定の部分に関連付けられている動きを特徴付ける加速度データの分布に関する情報を、その起こり得る軌跡の少なくとも1つの先行の部分又は後続の部分のコンテクストにおいて含んでいる。これによって、各テクニカルプロフィールは、所定の期間にわたる測定の変化の確率論的な記述を含むことができ、この場合、測定データはモーションセンサユニットの起こり得る軌跡の各特定の部分に関連付けられている動きを特徴付ける。これによって、測定データと各テクニカルプロフィールを正確に整合させる必要はなくなる。事前定義された類似性範囲内にある類似性は、各テクニカルプロフィールを識別するには十分であると考えられる。複数のコンテクスト依存テクニカルプロフィールから成る、考えられるシーケンスはディクショナリに定義されている。受信したセンサデータ又はそのセンサデータを特徴空間に変換したものは、複数のテクニカルプロフィールから成る考えられるシーケンス(例えば複数のキャラクタ又は単語)によって調整される。類似性スコアは、複数のテクニカルプロフィールから成る考えられるシーケンス及び受信したセンサデータ又はそのセンサデータを特徴空間に変換したものに関して計算される。複数のテクニカルプロフィールから成るシーケンスによってデータを調整するために、複数のテクニカルプロフィールがディクショナリに従い連結され、元の複数のテクニカルプロフィールから成るシーケンスを表している、新たな仮想のテクニカルプロフィールを形成する。そのシーケンスにおける個々のテクニカルプロフィールは、それらのコンテクストに従って、つまり先行のテクニカルプロフィール及び後続のテクニカルプロフィールに従って選択される。最も高い類似性スコアを有している、複数のテクニカルプロフィールから成るシーケンスが出力として選択される。
モーションセンサユニットが回転データ及び/又は向きデータも供給する場合には、テクニカルプロフィールは更に、モーションセンサユニットの起こり得る軌跡の1つの特定の部分に関連付けられている各所定の回転データ、向きデータ及び/又は圧力データを、その起こり得る軌跡の少なくとも1つの先行の部分又は後続の部分のコンテクストにおいて含むことができる。これによって、手跡認識方法の全体の精度を向上させることができる。上述の手跡認識方法はモーションセンサユニットの軌跡を求めるためにいずれの絶対位置値にも依存しないので、上述の4つのタイプのセンサ測定データ(加速度、向き、回転、気圧)は、複雑な定置のセンサを設置する必要なく、モーションセンサユニットの相対的な動きをすべての空間次元において所定の期間にわたって測定することに適している。
1つの実施の形態においては、システムが、受信したセンサデータを特徴空間に変換して、その変換されたデータをテクニカルプロフィールにおける表現と比較することができる(ステップ1200)。この表現(即ち、変換されたモーションセンサ測定データ)は、モーションセンサデータの加速度データ、回転データ、向きデータ及び/又は圧力データを表している。換言すれば、測定データは特徴空間に変換され、それらの特徴空間は、単位時間あたり異なる数のサンプル及び異なる次元数を有することができる。特徴空間におけるサンプルは特徴ベクトルと称され、従って、変換によって複数の特徴ベクトルから成るシーケンスが得られる。受信したセンサデータから抽出された、そのような複数の特徴ベクトルから成るシーケンスを、続けて、対応するテクニカルプロフィールと比較することができる。これによって、各テクニカルプロフィールは、所定の期間にわたる各特徴の変化の確率論的な記述を含むことができ、この場合、それらの特徴はモーションセンサユニットの起こり得る軌跡の各特定の部分に関連付けられている動きを特徴付ける。これによって、測定データから導出された特徴ベクトルと各テクニカルプロフィールを正確に整合させる必要はなくなる。事前定義された類似性範囲内にある類似性は、各テクニカルプロフィールを識別するには十分であると考えられる。測定生データの代わりに前処理された特徴を使用することによって、記憶すべき、またシステムによって処理すべきデータ量を低減することができ、更には、テクニカルプロフィールをより良好に生成し、手跡認識方法のより高い精度を実現することができる。
1つの実施の形態においては、センサ測定データの受信に基づき、システムは、手跡に関する測定データを、モーションセンサユニットのその他の測定データから分離させることができる(ステップ1300)。この前処理ステップによって、システムを明示的にオン又はオフする必要なく、バックグラウンドにおいてシステムの連続的な動作を実現することができる。更にこのことは、前述の比較ステップによって処理する必要があるデータの量の低減にとって有用であり、従って、手跡認識方法1000の性能の改善に寄与する。
続けてシステムは、測定生データに基づき、又は、動き特性を表している特徴空間に変換されたデータの表現を使用することによって、受信したセンサデータに対応する特定のサイン、キャラクタ又は単語を識別することができる(ステップ1500)。軌跡の複数の部分から成る識別されたシーケンスが、特定のサイン、キャラクタ又は単語を表している特定の起こり得る軌跡の複数の部分から成る、事前定義されたコンテクスト依存シーケンスに関連付けられている場合には、その特定のサイン、キャラクタ又は単語が識別される。
最後に、システムは、識別されたサイン、キャラクタ又は単語の表現を出力装置に供給する(ステップ1600)。
コンピュータシステムの記述において、コンピュータ実装方法1000と組み合わせることができる別のオプションとしての方法ステップ、例えば言語モデルの使用が開示されることは当業者にとって自明である。
図10には、モーションセンサユニット10から受信したセンササンプルデータ12に基づいて、テクニカルプロフィール130を作成するように構成されているトレーニングコンポーネント170を含んでいるコンピュータシステム100の別の実施の形態が示されている。これは、複数の異なるユーザ2がサンプルとなる手跡に関する動きを成している間に、それらユーザ2からセンサデータ12を記録することができる。この記録は、事前定義された記録プロトコルに従うことができ、これによってシステム100は、各センササンプルデータ12の記録後に、それらの記録された信号のどの部分がどのキャラクタ、単語又は文に属するかを知ることができる。換言すれば、ユーザに例えば単一の「A」を書くことが指示されると、対応するデータが記憶される。このことは、すべてのコンテクスト依存テクニカルプロフィールが収集されるまで、複数のその他のキャラクタ又は複数のキャラクタから成るシーケンスに対して繰り返される。記録されたセンササンプルデータを、人工的なトレーニングデータ13によって補完することができるか、それどころか置換することもできる。人工的なトレーニングデータは、システム100を使用する実際のユーザをシミュレートするシミュレータ210から取得される信号に対応すると考えられる。図10においてシミュレータ210はコンピュータシステム100の一部ではないが、このシミュレータ210をコンピュータシステム100内に実装することもできる。取得されたトレーニングサンプル12,13を、サンプルデータベース180に記憶することができる。
トレーニングサンプルデータ12,13は、異なるユーザ及び記録されたキャラクタの複数のインスタンスに由来するデータを含むことができる。記録されたキャラクタの複数のインスタンスは、同一のキャラクタを書くために使用されている複数の字画から成る異なるシーケンスに関して、異なるユーザの異なるライティングの性質を基礎とすることができる。一般的に、同一の人間が特定のキャラクタの書く過程では、通常は僅かな差異しか観測されないが、それに対し、種々の人々が特定のキャラクタを書く過程では大きな差異が観測される。トレーニングコンポーネント170は、結果として得られた加速度センサ信号、回転センサ信号、向きセンサ信号及び/又は圧力センサ信号が反映された、ユーザの動きにおけるその差異を表しているテクニカルプロフィールを識別するように構成されている。このことは、統計的及び/又は確率的な方法、例えば隠れマルコフモデル(HMM)を使用することによって達成することができる。トレーニングコンポーネントは、HMMに関する公知のトレーニング方法のうちの1つ、例えばバウムウェルチ(Baum−Welch)アルゴリズム、ビタビトレーニング又は識別トレーニング(discriminative training)を使用することができる。
図11には、テクニカルプロフィールを作成するためのコンピュータ実装方法2000の簡略化されたフローチャートが示されている。この方法2000は、手跡を認識するために使用されるテクニカルプロフィールを作成するために、方法1000(図9を参照されたい)に先行して実施することができる。
テクニカルプロフィールを作成するために、システムはトレーニングサンプルデータを受信する(ステップ2100)。図10を用いて説明したように、トレーニングサンプルデータを、一人以上のユーザによって使用されており、ライティングに関する特定の動きを繰り返すモーションセンサユニットによって生成することができる。その種のサンプルトレーニングデータを生成するための別の可能性はシミュレータの使用であり、シミュレータは、複数のユーザの動き及び/又はライティングの様式及びライティングのヴァリエーションを、シミュレーションパラメータを変更することによってシミュレートする。トレーニングサンプルデータは更なる処理のためにデータベースに記憶される。
受信したトレーニングサンプルデータを、事前定義されたプロトコルに従い分類することができる(ステップ2200)。この事前定義されたプロトコルによって、システムは動き(軌跡)のどのシーケンスがどのキャラクタ又は文字列に属するかを識別することができる。
後続のステップにおいて、トレーニングコンポーネント170(図10を参照されたい)は、例えば隠れマルコフモデル(HMM)を使用して、記憶されているトレーニングサンプルからテクニカルプロフィール130を生成する。このトレーニングの目標は、テクニカルプロフィールとトレーニングサンプルデータ12,13(図10を参照されたい)の整合度を定量化する目的関数を最小化するために、テクニカルプロフィールのパラメータを評価することにある(ステップ2300)。従って、トレーニングコンポーネントの結果は、少なくとも目的関数の局所的な最大値を表している複数のテクニカルプロフィールから成るセットである。トレーニングコンポーネントは、HMMに関する公知のトレーニング方法のうちの1つ、例えばバウムウェルチアルゴリズム、ビタビトレーニング又は識別トレーニングを使用することができる。これらのトレーニングアルゴリズムによって、軌跡のコンテクスト依存部分の正確な境界が既知でなく、例えばキャラクタ、即ちコンテクスト依存部分のシーケンスのみが既知である場合であってもトレーニングを実施することができる。例えば、トレーニングサンプルが、4つの字画、即ち4つのコンテクスト依存テクニカルプロフィールから成る「A」のセンサデータを含んでいる場合には、それらの4つのテクニカルプロフィールのパラメータを、測定データにおける字画の境界に関する知識がなくてもトレーニングすることができる。パラメータを評価するために(ステップ2300)、実際のトレーニングの前に、HMMパラメータがフラットスタート(flat start)プロシージャによって初期化される。線形HMMが使用される場合には、これは、サンプルデータ又はそのサンプルデータを特徴空間に変換したものを、それぞれ、HMMに存在する状態と同数の区画に分割することによって行うことができる。状態の放出確率分布は、この状態に属している区画におけるサンプルデータに基づき評価される。例えば混合ガウスモデルが確率分布をモデリングするために使用される場合には、これはk平均クラスタリングによって平均及び共分散を評価することによって行うことができる。例えば、ニューラルネットワークが使用される場合には、これは、バックプロパゲーションアルゴリズムを使用してサンプルデータに基づきネットワークをトレーニングすることによって行うことができる。トレーニングに関して挙げたいずれの方法も手跡認識又は音声認識の技術分野における当業者には公知である。
トレーニングコンポーネントは、複数のコンテクストから成るグループに関して1つのテクニカルプロフィールを作成することもできる。つまり、テクニカルプロフィールは、先行のコンテクスト又は後続のコンテクストの所定のセットに対して同一である。例えば、これは、軌跡の1つの部分が複数の先行のコンテクスト及び後続のコンテクストに対して同一である場合には有用であると考えられる。その種の複数の類似するコンテクスト依存テクニカルプロフィールをグループ分けすることによって、記憶する必要があるテクニカルプロフィールの総数を低減し、データストレージコンポーネントによって消費されるメモリを節約することができる。付加的に、トレーニング中に評価する必要があるパラメータの数を低減することができ、従って、システムパフォーマンスが改善される。その種のグループを専門家によって定義することができるか、又は、システムによって自動的に定義することができる。システムによる定義は、先ず、コンテクストの考えられるすべての組み合わせに関してテクニカルプロフィールを作成し、続けて、テクニカルプロフィールに関する類似性測定に従いテクニカルプロフィールが類似しているすべてのコンテクストが包含されることによって行われる。これは、クラスタリングアルゴリズムによって、例えばk平均法によって行うことができるか、又は、最大の類似度に関する所定の閾値に基づき行うことができる。
本発明の方法ステップを、入力データに基づく演算及び出力の生成によって本発明の機能を実施するためにコンピュータプログラムを実行する、プログラミング可能な1つ又は複数のプロセッサによって実施することができる。方法ステップを専用論理回路、例えばFPGA(field programmable gate array)又はASIC(application−specific integrated circuit)によって実施することもでき、また本発明の装置をその種の専用論理回路として実施することができる。
コンピュータプログラムの実行に適しているプロセッサには、例えば、汎用マイクロプロセッサ及び専用プロセッサのいずれも含まれ、また、任意の種類のディジタルコンピューティングデバイスのいずれかの1つ又は複数のプロセッサも含まれる。一般的に、プロセッサはリードオンリメモリ又はランダムアクセスメモリ若しくは両メモリから命令及びデータを受信する。コンピュータの本質的な構成要素は、命令を実行するための少なくとも1つのプロセッサ並びに命令及びデータを記憶するための1つ又は複数のメモリ装置である。一般的に、コンピュータは、データを記憶するための1つ又は複数の大容量記憶装置、例えば磁気ディスク、光磁気ディスク又は光学ディスクを含んでいるか、若しくは、大容量記憶装置からデータを受信するか、大容量記憶装置にデータを送信するか、又は、受信及び送信のいずれも行うように、大容量記憶装置に機能的に接続されている。その種の記憶装置をオンデマンドで供給することができ、また、インターネットを介してその種の記憶装置にアクセスすることもできる(クラウドコンピューティング)。コンピュータプログラム命令及びデータの実施に適している情報担体には、あらゆる形態の不揮発性メモリが含まれ、例えば、半導体メモリ装置、例えばEPROM、EEPROM及びフラッシュメモリ装置、磁気ディスク、例えば内部ハードディスク又はリムーバブルディスク、光磁気ディスク、並びにCD−ROM及びDVD−ディスクが含まれる。プロセッサ及びメモリを、専用論理回路によって補完することができるか、又は、専用論理回路に組み込むことができる。
ユーザとの対話を提供するために、本発明を、情報をユーザに表示するための表示装置、例えばブラウン管(CRT)モニタ又は液晶ディスプレイ(LCD)モニタと、ユーザがコンピュータに対して入力を行うことができる入力装置、例えばキーボード、タッチスクリーン又はタッチパッド、ポインティングデバイス、例えばマウス又はトラックボールと、を有しているコンピュータにおいて実施することができる。ユーザとの対話を提供するために、その他の種類の装置も使用することができる。例えば、ユーザに提供されるフィードバックは、いずれの形式の感覚フィードバックであって良く、例えば、視覚的なフィードバック、聴覚的なフィードバック又は触覚的なフィードバックであって良く、また、ユーザからの入力を、音響的な入力、音声による入力又は触覚的な入力を含むいずれかの形式の入力で受信することができる。
本発明を、バックエンドコンポーネント、例えばデータサーバを含むか、又は、ミドルウェアコンポーネント、例えばアプリケーションサーバを含むか、又は、フロントエンドコンポーネント、例えば、ユーザが本発明の実現形態と対話することができるグラフィカルユーザインタフェース又はウェブブラウザを有しているクライアントコンピュータを含むか、又は、その種のバックエンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントの任意の組み合わせを含んでいるコンピューティングシステムにおいて実施することができる。クライアントコンピュータは、モバイル装置、例えばスマートフォン、タブレットPC、又は、その他の任意のハンドヘルドコンピューティングデバイスであっても良い。システムの各コンポーネントを、ディジタル通信のいずれかの形態又は媒体によって、例えば通信ネットワークによって相互に接続することができる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)及びワイドエリアネットワーク(WAN)、例えばインターネット又はワイヤレスLAN又は電気通信網が含まれる。
コンピューティングシステムはクライアント及びサーバを含むことができる。一般的に、クライアントとサーバは相互に離れた場所に設けられており、通常は通信ネットワークを介して対話する。クライアントとサーバの関係は、各コンピュータにおいて実行されるコンピュータプログラムによって、また、それらが相互にクライアントサーバ関係を有していることによって生じる。
Claims (15)
- 手跡を認識するためのデコーディングコンピュータシステム(100)において、
モーションセンサユニット(10)から測定データ(11)を受信するように構成されているインタフェースコンポーネント(110)と、
各キャラクタに関連付けられているテクニカルプロフィールを記憶するように構成されているデータストレージコンポーネント(130)と、
デコーディングコンポーネント(120)と、
を備えており、
前記モーションセンサユニット(10)は、ユーザの身体の可動部分(1)に物理的に結合されており、
前記測定データ(11)は、前記モーションセンサユニット(10)のセンサのセンサデータを含んでおり、
前記センサデータは、前記モーションセンサユニット(10)の軌跡(20)の時間に関する少なくとも1つの二次導関数に対応しており、
前記テクニカルプロフィールは、少なくとも、複数の事前定義された加速度プロフィールを含んでおり、
各加速度プロフィールは、前記モーションセンサユニット(10)の起こり得る軌跡の1つの特定の部分に関連付けられている動きを特徴付ける加速度データを、前記起こり得る軌跡の少なくとも1つの先行の部分又は後続の部分のコンテクストにおいて含んでおり、
前記デコーディングコンポーネント(120)は、
受信したセンサデータ(11)を、前記複数の事前定義された加速度プロフィールと比較し、前記軌跡(20)の複数の部分から成るシーケンスを識別し、
前記軌跡(20)の複数の部分から成る前記識別されたシーケンスが、前記受信したセンサデータ(11)に対応する特定のキャラクタを表している特定の起こり得る軌跡の複数の部分から成る、事前定義されたコンテクスト依存シーケンスに関連付けられている場合には、前記特定のキャラクタを識別し、
前記識別されたキャラクタの表現を出力装置(200)に供給する、
ように構成されている、
ことを特徴とする、デコーディングコンピュータシステム(100)。 - 前記測定データは、更に、前記モーションセンサユニット(10)の別のセンサのセンサデータを含んでおり、
前記別のセンサデータは、前記モーションセンサユニット(10)の向きデータ、回転データ及び/又は気圧データに対応しており、
前記テクニカルプロフィールは、更に、前記モーションセンサユニット(10)の前記起こり得る軌跡の前記特定の部分に関連付けられている各事前定義された向きデータ及び/又は回転データを、前記起こり得る軌跡の少なくとも1つの先行の部分又は後続の部分のコンテクストにおいて含んでいる、
請求項1に記載のコンピュータシステム(100)。 - 各テクニカルプロフィールは、特徴空間における前記センサデータの表現を含んでおり、
前記表現は、前記モーションセンサユニット(10)の前記起こり得る軌跡の各特定の部分を特徴付けるものであり、
前記デコーディングコンポーネント(120)は、前記受信したセンサデータ(11)を前記特徴空間に変換して、前記変換されたデータを前記テクニカルプロフィールにおける前記表現と比較するように構成されている、
請求項1又は2に記載のコンピュータシステム(100)。 - 更に、手跡に関する測定データを、前記モーションセンサユニットのその他の測定データから分離させるように構成されている検出コンポーネントを備えている、
請求項1乃至3のいずれか1項に記載のコンピュータシステム(100)。 - 更に、識別可能な各キャラクタに関する、1つ又は複数のコンテクスト依存テクニカルプロフィールシーケンスを記憶するように構成されているディクショナリ(140)を備えており、
各コンテクスト依存テクニカルプロフィールシーケンスは、識別可能なキャラクタに関連付けられている前記モーションセンサユニットの1つの起こり得る軌跡を表している、
請求項1乃至4のいずれか1項に記載のコンピュータシステム(100)。 - 1つの特定の識別可能なキャラクタに関する複数のコンテクスト依存テクニカルプロフィールシーケンスは、前記特定の識別可能なキャラクタを書くための前記モーションセンサユニットの複数の起こり得る異なる軌跡を表している、
請求項5に記載のコンピュータシステム(100)。 - 前記ディクショナリ(140)は、更に、別のコンテクスト依存テクニカルプロフィールシーケンスを記憶するように構成されており、
各別のコンテクスト依存テクニカルプロフィールシーケンスは、複数のキャラクタ文字列に関連付けられている、前記モーションセンサユニットの1つの起こり得る軌跡を表しており、且つ、前記複数のキャラクタ文字列の少なくとも1つの先行のキャラクタと後続のキャラクタとの間の、前記起こり得る軌跡の連結部分を表している、1つ又は複数の連結テクニカルプロフィールを含んでいる、
請求項5又は6に記載のコンピュータシステム(100)。 - 前記データストレージコンポーネント(130)は、更に、複数のテクニカルプロフィールから成る類似するコンテクスト依存シーケンスに関連付けられている複数のコンテクストから成るグループを表しているグループプロフィールを記憶するように構成されている、
請求項1乃至7のいずれか1項に記載のコンピュータシステム(100)。 - 更に、前記デコーディングコンポーネント(120)に、キャラクタの特定のシーケンスに関する確率を供給するように構成されている言語データベース(150)を備えている、
請求項1乃至8のいずれか1項に記載のコンピュータシステム(100)。 - 手跡を認識するためのコンピュータ実装方法(1000)において、
ユーザの身体の可動部分(1)に物理的に結合されているモーションセンサユニット(10)から、前記ユーザによって成される動きに対応している複数の部分から成るシーケンスを含んでいる、前記モーションセンサユニット(10)の軌跡(20)の時間に関する少なくとも1つの二次導関数を含んでいるセンサ測定データ(11)を受信するステップ(1100)と、
前記センサ測定データ(11)を、少なくとも複数の事前定義された加速度プロフィール(130−1〜130−5)を含んでいる複数のテクニカルプロフィールと比較して、前記軌跡(20)の複数の部分から成る前記シーケンスを識別するステップ(1400)であって、各加速度プロフィールは、前記モーションセンサユニット(10)の起こり得る軌跡の1つの特定の部分に関連付けられている動きを特徴付ける加速度データを、前記起こり得る軌跡の少なくとも1つの先行の部分又は後続の部分のコンテクストにおいて含んでいる、ステップ(1400)と、
前記軌跡(20)の複数の部分から成る前記識別されたシーケンスが、受信したセンサデータ(11)に対応する特定のキャラクタを表している特定の起こり得る軌跡の複数の部分から成る、事前定義されたコンテクスト依存シーケンスに関連付けられている場合には、前記特定のキャラクタを識別するステップ(1500)と、
前記識別されたキャラクタの表現を出力装置(200)に供給するステップ(1600)と、
を備えていることを特徴とする、コンピュータ実装方法(1000)。 - 前記センサ測定データの受信に基づき、手跡に関する測定データを、前記モーションセンサユニット(10)のその他の測定データから分離させるステップ(1300)を更に備えている、
請求項10に記載のコンピュータ実装方法(1000)。 - 前記測定データは、更に、前記モーションセンサユニット(10)の別のセンサのセンサデータを含んでおり、
前記別のセンサデータは、前記モーションセンサユニット(10)の向きデータ、回転データ及び/又は気圧データに対応しており、
前記テクニカルプロフィールは、更に、前記モーションセンサユニット(10)の前記起こり得る軌跡の前記特定の部分に関連付けられている各事前定義された向きデータ、回転データ及び/又は気圧データを、前記起こり得る軌跡の少なくとも1つの先行の部分又は後続の部分のコンテクストにおいて含んでいる、
請求項10又は11に記載のコンピュータ実装方法(1000)。 - 各テクニカルプロフィールは、特徴空間における前記センサデータの表現を含んでおり、
前記表現は、前記モーションセンサユニット(10)の前記起こり得る軌跡の各特定の部分を特徴付けるものであり、
更に、
前記受信したセンサデータ(11)を前記特徴空間に変換して、前記変換されたデータを前記テクニカルプロフィールにおける前記表現と比較するステップ(1200)を備えている、
請求項10乃至12のいずれか1項に記載のコンピュータ実装方法(1000)。 - センサ測定データを受信する前記ステップ(1100)に先行して、更に、
前記モーションセンサユニット(10)の軌跡の特有の加速度データを表しているトレーニングサンプルデータ(12,13)を受信するステップ(2100)と、
前記受信したトレーニングサンプルデータを対応するキャラクタに関連付けることができる事前定義されたプロトコルに従って、前記トレーニングサンプルデータ(12,13)を分類するステップ(2200)と、
トレーニングデータとのベストフィットに従ってテクニカルプロフィールのパラメータを評価するステップ(2300)と、
前記テクニカルプロフィールをデータストレージコンポーネント(130)に記憶するステップ(2500)と、
を備えている、
請求項10乃至13のいずれか1項に記載のコンピュータ実装方法(1000)。 - コンピューティングデバイスのシステムのメモリにロードされ、前記コンピューティングデバイスの少なくとも1つのプロセッサによって実行されると、請求項10乃至14のいずれか1項に記載のコンピュータ実装方法のステップを実行することを特徴とする、コンピュータプログラム製品。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP14156530.9 | 2014-02-25 | ||
| EP14156530.9A EP2911089B1 (en) | 2014-02-25 | 2014-02-25 | Method and system for handwriting and gesture recognition |
| PCT/EP2015/051774 WO2015128151A1 (en) | 2014-02-25 | 2015-01-29 | Method and system for handwriting and gesture recognition |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2017516176A true JP2017516176A (ja) | 2017-06-15 |
Family
ID=50189513
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016554207A Pending JP2017516176A (ja) | 2014-02-25 | 2015-01-29 | 手跡及びジェスチャを認識するための方法とシステム |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20160364010A1 (ja) |
| EP (1) | EP2911089B1 (ja) |
| JP (1) | JP2017516176A (ja) |
| KR (1) | KR20160124779A (ja) |
| WO (1) | WO2015128151A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11934652B2 (en) | 2020-10-14 | 2024-03-19 | Samsung Electronics Co., Ltd. | Display apparatus and control method thereof |
Families Citing this family (25)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN204044747U (zh) * | 2014-08-20 | 2014-12-24 | 博世(中国)投资有限公司 | 用于采集手语识别用数据的手套 |
| WO2016100368A1 (en) | 2014-12-16 | 2016-06-23 | Somatix, Inc. | Methods and systems for monitoring and influencing gesture-based behaviors |
| EP3340188A4 (en) * | 2015-08-20 | 2019-05-22 | Sony Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM |
| US10564794B2 (en) * | 2015-09-15 | 2020-02-18 | Xerox Corporation | Method and system for document management considering location, time and social context |
| US10234990B2 (en) * | 2015-09-29 | 2019-03-19 | Microchip Technology Incorporated | Mapping of position measurements to objects using a movement model |
| EP3193227B1 (en) * | 2016-01-04 | 2021-02-03 | Siemens Aktiengesellschaft | Entropy-based validation of sensor measurements |
| US10295971B2 (en) | 2016-01-19 | 2019-05-21 | King Fahd University Of Petroleum And Minerals | Wearable hand device comprising an embedded control system |
| CN107092430B (zh) * | 2016-02-18 | 2020-03-24 | 纬创资通(中山)有限公司 | 空间绘画计分方法、用于进行空间绘画计分的装置及系统 |
| US9958979B1 (en) * | 2016-10-31 | 2018-05-01 | International Business Machines Corporation | Web server that renders a web page based on a client pressure profile |
| US10678422B2 (en) | 2017-03-13 | 2020-06-09 | International Business Machines Corporation | Automatic generation of a client pressure profile for a touch screen device |
| US20180293908A1 (en) | 2017-04-10 | 2018-10-11 | Pearson Education, Inc. | Electronic handwriting processor with derivative coordinate modeling |
| US20190013016A1 (en) * | 2017-07-07 | 2019-01-10 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Converting speech to text and inserting a character associated with a gesture input by a user |
| KR102074905B1 (ko) * | 2017-12-13 | 2020-02-07 | (주)자스텍엠 | 운전 위험도 분석 차량 정보 처리 장치 |
| WO2019180511A1 (en) * | 2018-03-19 | 2019-09-26 | King Abdullah University Of Science And Technology | Ultrasound based air-writing system and method |
| CN109045680A (zh) * | 2018-06-28 | 2018-12-21 | 努比亚技术有限公司 | 一种控制方法、第一电子设备及存储介质 |
| US10997402B2 (en) * | 2018-07-03 | 2021-05-04 | Fuji Xerox Co., Ltd. | Systems and methods for real-time end-to-end capturing of ink strokes from video |
| CN110717154A (zh) | 2018-07-11 | 2020-01-21 | 中国银联股份有限公司 | 运动轨迹的特征处理方法、设备以及计算机存储介质 |
| CN109612458B (zh) * | 2018-10-26 | 2022-07-12 | 南京航空航天大学 | 利用手机气压和加速度传感器在山区环境实现用户位置追踪的方法 |
| US11373373B2 (en) | 2019-10-22 | 2022-06-28 | International Business Machines Corporation | Method and system for translating air writing to an augmented reality device |
| EP3910454B1 (en) * | 2020-05-04 | 2025-09-10 | Société BIC | Mountable device for retrofitting handwriting instruments to detect handwriting problems |
| US11372518B2 (en) | 2020-06-03 | 2022-06-28 | Capital One Services, Llc | Systems and methods for augmented or mixed reality writing |
| CN114067333B (zh) * | 2021-09-29 | 2025-04-15 | 北京搜狗科技发展有限公司 | 手写轨迹的识别方法、装置、电子设备及存储介质 |
| US11822736B1 (en) * | 2022-05-18 | 2023-11-21 | Google Llc | Passive-accessory mediated gesture interaction with a head-mounted device |
| EP4365859B1 (en) | 2022-11-04 | 2025-02-12 | Tata Consultancy Services Limited | Systems and methods for real-time tracking of trajectories using motion sensors |
| KR102904952B1 (ko) | 2023-01-30 | 2025-12-30 | 한도희 | 손글씨 텍스트를 송신하는 방법 및 디바이스 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100518824B1 (ko) * | 2003-03-17 | 2005-10-05 | 삼성전자주식회사 | 필기 모션 획 구분 인식 시스템 및 그 인식방법 |
| US8069045B2 (en) * | 2004-02-26 | 2011-11-29 | International Business Machines Corporation | Hierarchical approach for the statistical vowelization of Arabic text |
| GB2419433A (en) * | 2004-10-20 | 2006-04-26 | Glasgow School Of Art | Automated Gesture Recognition |
| KR100777107B1 (ko) | 2005-12-09 | 2007-11-19 | 한국전자통신연구원 | 가속도 센서를 이용한 문자인식 장치 및 방법 |
| FR3007859A1 (fr) * | 2013-06-27 | 2015-01-02 | France Telecom | Procede de reconnaissance d'un geste instrumente, dispositif, terminal d'utilisateur et programme d'ordinateur associes |
| US9411508B2 (en) * | 2014-01-03 | 2016-08-09 | Apple Inc. | Continuous handwriting UI |
-
2014
- 2014-02-25 EP EP14156530.9A patent/EP2911089B1/en not_active Not-in-force
-
2015
- 2015-01-29 KR KR1020167023424A patent/KR20160124779A/ko not_active Withdrawn
- 2015-01-29 WO PCT/EP2015/051774 patent/WO2015128151A1/en not_active Ceased
- 2015-01-29 JP JP2016554207A patent/JP2017516176A/ja active Pending
-
2016
- 2016-08-25 US US15/246,639 patent/US20160364010A1/en not_active Abandoned
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11934652B2 (en) | 2020-10-14 | 2024-03-19 | Samsung Electronics Co., Ltd. | Display apparatus and control method thereof |
Also Published As
| Publication number | Publication date |
|---|---|
| EP2911089B1 (en) | 2018-04-04 |
| EP2911089A1 (en) | 2015-08-26 |
| WO2015128151A1 (en) | 2015-09-03 |
| US20160364010A1 (en) | 2016-12-15 |
| KR20160124779A (ko) | 2016-10-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP2911089B1 (en) | Method and system for handwriting and gesture recognition | |
| Amma et al. | Airwriting: a wearable handwriting recognition system. | |
| Amma et al. | Airwriting: Hands-free mobile text input by spotting and continuous recognition of 3D-space handwriting with inertial sensors | |
| Kumar et al. | Sign language recognition | |
| Gupta et al. | Indian sign language recognition using wearable sensors and multi-label classification | |
| Yanay et al. | Air-writing recognition using smart-bands | |
| US10109219B2 (en) | System and method for automated sign language recognition | |
| Ong et al. | Automatic sign language analysis: A survey and the future beyond lexical meaning | |
| Kumar et al. | Study of text segmentation and recognition using leap motion sensor | |
| Li et al. | Recognition system for home-service-related sign language using entropy-based $ K $-means algorithm and ABC-based HMM | |
| Bui et al. | Recognizing postures in Vietnamese sign language with MEMS accelerometers | |
| Caputo et al. | Comparing 3D trajectories for simple mid-air gesture recognition | |
| CN112074798B (zh) | 使用可穿戴式压力传感装置进行书写识别的方法和系统 | |
| LaViola Jr | Context aware 3D gesture recognition for games and virtual reality | |
| Sepahvand et al. | Evolutionary metric-learning-based recognition algorithm for online isolated Persian/Arabic characters, reconstructed using inertial pen signals | |
| Kumar et al. | A lexicon-free approach for 3D handwriting recognition using classifier combination | |
| Luo et al. | Wearable air-writing recognition system employing dynamic time warping | |
| LaViola Jr | An introduction to 3D gestural interfaces | |
| Moustafa et al. | Arabic sign language recognition systems: A systematic review | |
| Tan et al. | An end-to-end air writing recognition method based on transformer | |
| Kratz et al. | Making gestural input from arm-worn inertial sensors more practical | |
| CN104216940B (zh) | 检索设备和检索方法 | |
| Fraiwan et al. | A Kinect-based system for Arabic sign language to speech translation | |
| Zhou et al. | Pre-classification based hidden Markov model for quick and accurate gesture recognition using a finger-worn device | |
| Kumarawadu et al. | Sinhala sign language recognition using leap motion and deep learning |
