JP2012506579A - 画像内のジェスチャを認識するための装置、方法およびコンピュータ・プログラムと、デバイスを制御するための装置、方法およびコンピュータ・プログラム - Google Patents

画像内のジェスチャを認識するための装置、方法およびコンピュータ・プログラムと、デバイスを制御するための装置、方法およびコンピュータ・プログラム Download PDF

Info

Publication number
JP2012506579A
JP2012506579A JP2011532533A JP2011532533A JP2012506579A JP 2012506579 A JP2012506579 A JP 2012506579A JP 2011532533 A JP2011532533 A JP 2011532533A JP 2011532533 A JP2011532533 A JP 2011532533A JP 2012506579 A JP2012506579 A JP 2012506579A
Authority
JP
Japan
Prior art keywords
gesture
image
description
region
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011532533A
Other languages
English (en)
Other versions
JP5303652B2 (ja
Inventor
フランク クレフェンツ
ヴァイアンツィン ハルトツァイユー
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2012506579A publication Critical patent/JP2012506579A/ja
Application granted granted Critical
Publication of JP5303652B2 publication Critical patent/JP5303652B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

画像のジェスチャを認識するための装置(100)は、画像の、または、画像の前処理されたバージョンの要素を、同定されたジェスチャ構成要素として同定し、同定されたジェスチャ構成要素に関する情報(132)を得るように構成されたハフ変換器(130)を含む。前記装置は、同定されたジェスチャ構成要素に関する情報を使用するときに、ジェスチャ記述(142)を得るように構成されたジェスチャ記述生成器(140)を更に含む。さらに、前記装置は、ジェスチャ記述を、それらと関連したジェスチャコードを有する複数の比較ジェスチャ記述と比較するように構成されたジェスチャ分類器を含む。前記ジェスチャ分類器は、比較の結果として、認識されたジェスチャのジェスチャコード(120)を供給するように構成される。
【選択図】図1

Description

本発明による実施形態は、画像内のジェスチャを認識するための装置、方法およびコンピュータ・プログラムに関する。
本発明による別の実施形態は、ジェスチャに基づいてデバイスを制御するための装置、方法およびコンピュータ・プログラムに関する。
本発明によるいくつかの実施形態は、文字およびジェスチャ認識のための方法および装置に関する。
例えば、多くの種々の技術的アプリケーションにおいて、コンタクトレスの方法でコンピュータまたは他のデバイスを制御することが望ましい。ジェスチャによって制御を実行することは、多くの場合において有利であることが分かっている。ジェスチャは、例えば、非言語的意思疎通を目的とした、特定の体の部分の、例えば手または頭部の記号的な動きである。
例えば、人は、手および/または指を、多数のさまざまな立体配置に位置付けることが可能である。
手のさまざまな立体配置は、例えば、コンピュータまたはデバイスを制御するために使用されうる。これに関連して、情報を伝えることについて障害者に利用できる他のいかなる可能性もない場合であっても、ジェスチャは、多くの場合、コミュニケーションのために障害者によって使用されさえしうることにも留意すべきである。例えば、耳や口が不自由な人々の手話が、ここではあげられる。例えば、何がしかの理由で、キーボードを使用することができない人もまた、ジェスチャを使用することにより、コンピュータに情報を伝える場合もある。
ジェスチャ認識に関するいくつかの従来のアプローチおよび構想について、以下に説明する。
E.ローソンおよびZ.ジューリッチによる刊行物「シルエットから手のジェスチャを認識するための凸の欠損の使用」は、手のシルエットに基づいて手のジェスチャを認識する方法を表す。手の凸包は、そのシルエットに基づいて算出される。外殻とシルエットの違いを表す凸に関する欠損が、抽出される。その凸の欠損は、それらが外殻と共有するエッジのまわりをそれらが回転する点で、凸の欠損は規格化される。ジェスチャを決定するために、複数の例の欠損が抽出され、規格化される。その欠損は、類似性によって分類される。ジェスチャは、その欠損に最も近いものに対応する記号列によって示される。与えられたジェスチャに対応する記号の異なるシーケンスは、辞書に保存される。いずれの与えられた未知のジェスチャに関しても、凸の欠損は、抽出され、対応する記号のシーケンスと関連する。前記シーケンスは、周知のジェスチャの辞書と比較され、そして、最もよくあった文字列が属するクラスと関連する。
V.フェラーリらによる刊行物「輪郭セグメントネットワークによる物体検出」は、モデルとして単一の手書きの例に基づいて実際の画像内の物体検出の方法を説明する。画像のエッジは、輪郭セグメントに再分割されて、その接続を符号化する画像表現で構成される。物体検出問題は、モデルの輪郭を再現するネットワークへのパスの位置づけとして公式化される。検出テクニックは、説明される。
T.セールらによる刊行物「皮質に似たメカニズムを持つロバストな物体認識」(IEEE、パターン分析と人工知能に関する議事録、第29巻、No.3、2007年3月に掲載)は、複雑な視覚的なシーンを認識する構想を説明する。その刊行物は、視覚野の組織に従い、そして、テンプレート比較と最大の抽象化の演算との間を交互に動作することによってますます複雑で不変な機能表現を確立する階層的なシステムを説明する。
E.B.サダースらによる刊行物「ノンパラメトリック確率伝搬法を用いたビジュアルハンドトラッキング」(情報および意思決定システムに関するマサチューセッツ工科大学の研究室の技術報告書、P―2603、2004年5月に掲載)は、画像シーケンスに基づいて光学的に三次元のバイオメトリックハンドモデルを追従する確率ベースの方法を説明する。使用は、各モデル構成要素が世界座標フレームワークの範囲内でその位置および向きによって表される冗長表現でできている。前記文書は、モデルの関節によって含蓄された運動学の制限を強制するモデルを定める。その冗長表現は、例えば面とり距離などの色ベースおよびエッジベースの確率方法が、例えば、セルフオーバーレイがないケースに似た方法で細分化できるということを可能にする。手の運動学のこのグラフィックモデルに基づいて、手の動きは、ノンパラメトリック確率伝搬法のアルゴリズムを使用することにより追従される。ノンパラメトリック確率伝搬法は、一まとまりのサンプルとして手の立体配置の将来の分布を推測する。ノンパラメトリック確率伝搬法は、前記分布の次元の数を削減するためのグラフィック構造を使用する。
N.リューおよびB.C.ラヴェルによる刊行物「アクティブ形状モデルによる手ジェスチャ抽出」(デジタル・イメージング・コンピューティングの議事:テクニックおよびアプリケーション、DICTA 2005に掲載)は、手ジェスチャ抽出および認識のための統計モデルのアプリケーションを説明する。いったん手の輪郭がリアルタイムのセグメント化およびトラッキングのシステムによって見つかると、一組の特徴点は、輪郭に沿って自動的に、または、手動でマークされる。一組の特徴ベクトルは、規格化されて、整列配置される。その一組の特徴ベクトルは、それから、主成分分析を使用することにより訓練される。平均的形状、固有値および固有ベクトルは、算出されて、アクティブ形状モデルを形成する。モデル・パラメータが連続的に調整される場合、異なる形状輪郭が元の画像から抽出された手のエッジとの一致を認識するために生成される。最終的に、ジェスチャが認識される。
J.カップスおよびC.シュノールによる刊行物「DCプログラミングを用いた高連結グラフのためのMAP推論」は、離散値のマルコフ確率場のための結論算法の草稿を説明する。前述の刊行物は、前述の問題のクラスに適用されうる数学アルゴリズムのクラスを説明し、目的関数の臨界点への収束が保証される。結果として生じる反復アルゴリズムは、それらの設計のため収束する単純なメッセージの伝送アルゴリズムと解釈されうる。
D.M.ダブリラおよびV.フィロマンによる論文「「高性能な」車両のためのリアルタイム物体検出」は、距離変換に基づいた形状ベースの物体検出方法を説明する。その方法は、複数の物体の形状を検出するために、テンプレートの階層を使用する。推計学的な最適化手法を使用するときに、効率的な階層は与えられた形状分布のために生成されうる。比較は、形状の階層を介して、そして、変換パラメータを介して、同時の粗密(coarse―to―fine)手法を含む。
W.ザイデルらによる論文「Cassandra:攻撃性検出のためのオーディオビデオ・センサーフュージョン」(Advanced Video and Signal based Surveilance(AVSS)に関するIEEE国際会議、ロンドン、2007にて公表)は、一般の環境における攻撃的な人間の行動を検出するように命じられるカサンドラ(Cassandra)と呼ばれている知的モニタリングシステムを説明する。この状況において、音声検出およびビデオ検出の相互補間的性質は、利用される。低次では、音声ストリームおよびビデオストリームの独立分析が実行される。高次では、動的なベイジアンネットワークが、場面に関する攻撃性の徴候を得るために、組み合わせ機構として使用される。
U.ミレッツキー著の刊行物「シュアマン―多項式 ―ルーツと成果―」は、今日のパターン認識へのいわゆる「シュアマン多項式」の影響を説明する。
コンピュータベースの画像認識に関する更なる詳細は、例えば「コンピュータ・ビジョンの数学モデルのハンドブック」で見られうる。
米国特許出願公開第2005/117781号明細書 米国特許出願公開第2006/210116号明細書
E.ローソン、Z.ジューリッチ、「シルエットから手のジェスチャを認識するための凸の欠損の使用」、VISAPP 2006、コンピュータ・ビジョンの理論と応用に関する第1回国際会議、議事録(E.Lawson and Z.Duric,"Using Deficits of Convexity to Recognized Hand Gestures from Silhouettes",VIASPP 2006; 1st International Conference on Computer Vision Theory and Applications, Proceedings) V.フェラーリら、「輪郭セグメントネットワークによる物体検出」、パターン認識と人工知能に関するIEEEの議事録、29巻、No.3、2007年3月(V.Ferrari and others,"Object Detection by Contour Segment Networks"、IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol.29, No.3 March 2007) L.ヴォルフら、「皮質に似たメカニズムを持つロバストな物体認識」、パターン解析と人工知能に関するIEEEの議事録、29巻、No.3、2007年3月(L.Wolf and others、"Robust Object Recognition with Cortex−Like Mechanisms"、IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol.29, No.3 March 2007) E.B.サダースら、「ノンパラメトリック確率伝搬法を用いたビジュアルハンドトラッキング」、情報および意思決定システムに関するマサチューセッツ工科大学の研究室の技術報告書、P―2603、2004年5月(E.B.Sudderth and others,"Visual Hand Tracking using Nonparametric Belief Propagation",MIT Laboratory for Information & Decision Systems Technical Report P−2603, May 2004, presented at the 2004 IEEE CVPR Workshop on Generative Model based Vision) N.リューおよびB.C.ラヴェル、「アクティブ形状モデルによる手ジェスチャ抽出」、デジタル・イメージング・コンピューティングの議事録:テクニックおよびアプリケーション、DICTA 2005(N.Liu and V.C.Lovell,"Hand Gesture Extraction by Active Shape Models",Proceedings of the Digital Imaging Computing: Techniques and Applications (DICTA 2005)) J.カップスおよびC.シュノール、「DCプログラミングを用いた高連結グラフのためのMAP推論」、パターン認識ドイツ連盟の第30回年次シンポジウム、2008年6月(C.Schnoerr and others,"MAP−Interference for Highly−Connected Graphs with DC−Programming",30th Annual Symposium of the German Association for Pattern Recognition, June 2008) D.M.ダブリラおよびV.フィロマン、「「高性能な」車両のためのリアルタイム物体検出」、IEEE国際会議、調査に基づく先端的な映像および信号(AVSS)、ロンドン(UK)、2007(D.M.Gavrila and V.Philomin,Real−Time Object Detection for "Smart" Vehicles,IEEE International Conference on Advanced Video and Signal based Surveillance (AVSS), London(UK) 2007) W.ザイデルら、「Cassandra:攻撃性検出のためのオーディオビデオ・センサーフュージョン」、IEEE国際会議、調査に基づく先端的な映像および信号(AVSS)、ロンドン(UK)、2007(W.Zajdel and others,CASSANDRA: Audio−Video Sensor Fusion for Aggression Detection、IEEE International Conference on Advanced Video and Signal based Surveillance (AVSS), London, (UK) 2007) U.ミレッツキー、「シュアマン―多項式 ―ルーツと成果―」、手書き認識の最先端に関する第8回国際ワークショップの議事録(IWFHR‘02)(U.Miletzki、Schuermann−Polynomials − Roots and Offsprings,Proceedings of The Eighth International Workshop on Frontiers in Handwriting Recognition (IWFHR’02) N.パラギオス、「コンピュータ・ビジョンの数学モデルのハンドブック」、シュプリンガー、2005(N.Paragios,"Handbook of Mathematical Models in Computer Vision",Springer, 2005) C.シュノールら、「人間検知のためのグラフィカル情報表現」、ビジョンにおける事前情報の表現と使用に関する国際ワークショップ、2006年5月(C.Schnoerr and others,"Graphical Knowledge Representation for Human Detection",International Workshop on The Representation and Use of Prior Knowledge in Vision, May 2006) C.シュノールら、「オブジェクトクラス認識のためのグラフィックモデルと効率的な推論の学習」、パターン認識ドイツ連盟の第28回年次シンポジウム、2006年9月(C.Schnoerr and others,"Learning of Graphical Models and Efficient Inference for Object Class Recognition",28th Annual Symposium of the German Association for Pattern Recognition, September 2006) C.シュノールら、「部品ベースグラフィカルモデルを用いた脊椎検出とラベリング」、メディカルイメージングにおける情報処理2007、シュプリンガー、2007、ページ122〜133(C.Schnoerr and others,"Spine Detection and Labeling Using a Parts−Based Graphical Model",Information Processing in Medical Imaging 2007, Springer, 2007 pages 122−133) F.ウェンツェルら、「ハフ変換に関する方向の表現」、VIASPP 2006、コンピュータ・ビジョンの理論と応用に関する第1回国際会議、議事録(F.Wenzel and others,"Representing Directions for Hough−Transforms",VISAPP 2006; 1st International Conference on Computer Vision Theory and Applications, Proceedings) 「ロボット技術への導入」、VCH出版社("Einfuehrung in die Robotertechnik",VCH publishing house) ドン・マクロイ、「ロボット技術 −導入−」、VCH出版社(Don McCloy,"Robotertechnik − eine Einfuehrung"、VCH publishing house) マルタン・ド・ラ・ゴルスら、「テクスチャ、シェーディングおよび自己遮蔽を用いたモデルベースの手追跡」、CVPR2008(コンピュータ・ビジョンとパターン認識でのIEEEコンピュータサイエンス学会)(Martin de La Gorce and others,"Model−Based Hand Tracking with Texture, Shading and Self−Occlusions",CVPR 2008(IEEE Computer Science Conference on Computer Vision and Pattern Recognition))
前述のことからみて、特に信頼性の高いジェスチャの認識を可能にする画像内のジェスチャを認識するための構想の必要性がある。
本発明による実施形態は、画像内のジェスチャを認識するための装置を供給する。本装置は、同定されたジェスチャ構成要素に関する情報を得るために、画像内の、または、画像の前処理されたバージョン内のいかなる弧も、同定されたジェスチャ構成要素と同定するように構成されたハフ変換器を含む。本装置は、同定されたジェスチャ構成要素に関する情報を使用するときに、ジェスチャ記述を得るように構成されたジェスチャ記述生成器を更に含む。本装置は、比較の結果として、同定されたジェスチャのジェスチャコードを供給するために、それらと関連したジェスチャコードを有する複数の比較ジェスチャ記述と、ジェスチャ記述を比較するように構成されたジェスチャ分類器を更に含む。
本発明による前述の実施形態は、ハフ変換器によって、ジェスチャ構成要素が、すなわち、例えば円弧または楕円弧(又は実施例によってはまた、直線セグメント)が、特に有利な方法で同定され、そして、このように同定されたジェスチャ構成要素の位置が、ジェスチャを特定するために効率よく用いられうる特徴的なジェスチャ記述を表しうるという発見に基づく。
換言すれば、個々のジェスチャの構成要素の、すなわち弧または直線セグメントの同定が、効率的な処理を可能にすることが確認された。ハフ変換器において実行されるジェスチャ構成要素の同定によって、ジェスチャは、複数の明白に定められた個々の構成要素、すなわち、複数の個々の弧(例えば円弧または楕円弧)(そして、選択的、追加的に直線セグメント)に細分化される。このことは、少数のパラメータによって、すなわち、例えば、同定されたジェスチャ構成要素の位置によって、ジェスチャを表す可能性を提供する。したがって、同定されたジェスチャ構成要素、および/または、それらの位置パラメータは、(例えば、データベース比較を使用するときに、または、他の分類構想を使用するときに)特に効率的な分類に適した記述の形を表す。
ジェスチャは、例えば、何千ものピクセル(例えば100ピクセル×100ピクセル=10,000ピクセル)から成る場合、本発明の方法で生成されたジェスチャ記述は、例えば、比較的少ない数の位置パラメータだけを含む。例えば、人の手によって表されるジェスチャの指先の各々は、それに関連した位置パラメータを有しうる。加えて、例えば、更なる位置パラメータが使用される。多くの場合、ジェスチャの特徴的な点の約10〜20の位置パラメータは、ジェスチャを同定する、および/または、分類するのに充分である。
このように、同定されたジェスチャ構成要素の位置パラメータは、(例えば、データベース比較を使用するときに)効率的な分類に極めて適していて、したがってジェスチャに関する特有の情報を示す。具体的には、さまざまなジェスチャは、例えば弧(または弧の細部)によって画像内に表される個々のジェスチャの構成要素(例えば指先)の位置に関して、特に、互いに異なる。
例えば、手の輪郭は、ハフ変換器によって検出されうるこの種のジェスチャ構成要素(例えば弧の部分(円弧または楕円弧など)および直線)を正確に含む。加えて、手の輪郭は、一般的に複数の連続した弧(場合によってはそれらの間にほぼ直線を有したもの)から成る。そのため、これらのさまざまなジェスチャ構成要素(弧および場合によって直線)の記述は特にジェスチャを分類することに適している。
加えて、ハフ変換を使用することにより、低品質の画像内(例えば、低解像度で、または、暗い所や雨などの困難な状況でとられた画像内)のジェスチャの認識が信頼性の高いものでありうる点に留意すべきである。具体的には、ハフ変換器は、(画像ノイズまたは他の映像妨害に起因しうる)隣接した軌道として比較的短い途切れを呈している直線の軌道さえ認識することができる。このように、ジェスチャを認識するための本発明概念は、比較的低品質の画像の存在にさえ、それほど影響を受けない。
このように、2つの基本的効果が、ジェスチャを認識する際にハフ変換器を使用することにより得られる。第1に、ハフ変換器によって供給される認識されたジェスチャ構成要素に関する情報は、効率的なデータベース比較を可能にする特に信頼性が高く意味がある情報である。第2に、画像における干渉(例えばジェスチャの輪郭の途切れ)は、ハフ変換器を使用することにより基本的にはバランスをとられる。その結果、信頼性が高いジェスチャ認識は低品質の画像の場合さえ可能である。
本発明による一実施形態において、本装置は、ジェスチャ領域の領域パラメータを決定するように構成された領域パラメータ決定器を含む。この実施形態におけるジェスチャ記述生成器は、領域パラメータを使用するときに、ジェスチャ記述を得るように構成されうる。ジェスチャ記述を生成する際の領域パラメータの利用は、単にジェスチャの輪郭線を考慮するだけにとどまらない包括的なジェスチャ記述を決定することを可能にする。例えば、手のひらの位置は、手を使用することにより作られる人のジェスチャの重要な構成体である。しかし、その二次元の範囲のため、手のひらは、多くの場合、対応する輪郭の記述によってよりも、領域パラメータによっての方がはるかに良く記述できる。
領域情報を利用することによって、例えば、大量の情報は、ジェスチャ記述の単一のパラメータにおいて、縮約されうる。加えて、いくつかの実施形態における領域パラメータの利用は、ハフ変換器によって同定されたジェスチャ構成要素の位置が、領域の、および/または、領域の重心の位置に関連がありうるという利点がある。このように、ジェスチャ領域の輪郭線に関する情報およびジェスチャ領域自体に関する情報の両方を統一する特に意味があるジェスチャ記述は、得られうる。
加えて、領域情報は、例えば、ジェスチャ記述を規格化するために使用され、それによって、例えば、ジェスチャを示している画像のサイズと独立している、および/または、ジェスチャが画像内において表されるサイズと独立しているジェスチャ記述が得られうる。
一実施形態において、ジェスチャ記述生成器は、同定されたジェスチャ構成要素の順序付けられた記述としてジェスチャを記述するジェスチャ記述を、ジェスチャ記述として得るように構成される。個々のジェスチャ構成要素が、このように所定の配置規則に従う予め決められた順序となる場合、(例えば、データベース比較を使用することによる)分類は、特に効率的な方法でなされうる。
本発明の一実施形態において、ジェスチャ記述生成器は、ジェスチャ記述を、順序付けられた同定されたジェスチャ構成要素がジェスチャ領域の連続の輪郭線を表すような順序に並べるように構成される。この場合、ジェスチャ記述の配置は、例えば、ジェスチャまたはその輪郭が人によってトレースされる方法の「自然な」シーケンスに対応する。一般的に、対応する記述は明白である。このように、ジェスチャ記述生成器の記述された実施例は、結果として、特に効率的な、および、一般的に明白なジェスチャ記述を次々にもたらし、それによって、例えば、分類において、実行されるデータベース比較は非常に効率的でありうる。
本発明の一実施形態において、本装置は、明度が所定の範囲にあるピクセルを、ジェスチャ領域に属するピクセルとして同定するように構成される。ジェスチャ領域のこの種の同定は、多くの場合好都合である。というのは、ジェスチャが一般的にほぼモノクロの体の部分によって示されるからである。しかし、ジェスチャ領域内の色の微細な階調がマスクされるという点で、処理される情報量は削減されうるので、ジェスチャ領域内の微細構造は多くの場合重要でない。
本発明の一実施形態において、本装置は、その画像内で、隣接するジェスチャ領域を含んでいる画像の細部を同定するように構成された画像細部セレクタを含む。この場合、ハフ変換器は、画像の細部に対応する画像の前処理されたバージョンを処理するように構成されうる。したがって、本発明の装置を実行することによって、例えば、処理の効率は増加しうる。具体的には、画像の特定領域の中でジェスチャ領域がないことを発見する場合、そこに含まれる画像領域を有しない前記領域は、更なる処理のためにマスクされうる。したがって、ハフ変換を実行することに関係する消耗は、低減される。
本発明の一実施形態において、ジェスチャ分類器は、いわゆる「記号的アフィン写像(symbolic−affine mapping)」を実行するように構成される。この種の記号的アフィン写像を実行することによって、ジェスチャの分類は、実質的に、より容易になされる。記号的アフィン写像を実行することによって、例えば、(比較のジェスチャに関する)ジェスチャの回転または(比較のジェスチャのジェスチャ領域に関する)ジェスチャ領域のサイズの変化は、考慮されうる。そして、その分類を実行することに関係している消耗は、許容レベルにとどまる。
本発明の一実施形態において、ジェスチャ記述生成器は、例えば、ジェスチャ記述として、ジェスチャ領域の輪郭部分を記述しているパラメータの順序付けられた組を供給するように構成される。この場合、ジェスチャ分類器は、例えば、順序付けられたパラメータの組と比較パラメータの組との違いに関する情報を得るために、それらと関連した比較ジェスチャを有する複数の比較パラメータの組と、順序付けられたパラメータの組を比較するように構成されうる。
ジェスチャ分類器は、順序付けられたパラメータの組の循環的に回転した一つ以上のバージョンと比較パラメータの組との違いに関する情報を得るために、順序付けられたパラメータの組の一つ以上の循環的に回転したバージョンと複数の比較パラメータの組とを比較するように更に構成されうる。ジェスチャ分類器は、その違いに関する情報に基づいてジェスチャコードを得るように更に構成されうる。このように、ハフ変換器によって同定されたジェスチャ構成要素の順序付けられたパラメータの組の前記回転によって、記号的アフィン写像に関連する範囲内で、ジェスチャの回転は、表されうる、あるいは、確立されうる。その観点から、例えば、画像を取得しているカメラがそのジェスチャに関する位置からわずかに向きを変わった場合、またはその逆の場合でさえも、ジェスチャは認識されうる。加えて、ジェスチャはまた、(例えばデータベースの)ジェスチャのありうる全てのアライメントのための比較パラメータの組がなくても、前述の方法で、異なる方向においても検知され、識別されうる。例えば、比較パラメータの組と十分に整合するジェスチャ構成要素パラメータの組が、どれくらい回転されたものかを判定することが可能である。そして、ジェスチャの向きは、(例えば単純な数値の形で、)対応する情報によって、非常に効率的な方法で判定されうる。
記号的アフィン写像を使用することにより、繰り返し回転し、繰り返しジェスチャを示している画像を分析することを抑えることも可能である。このように、ハフ変換器によって同定されたジェスチャ構成要素を使用するときに、記号的アフィン写像を実行することによって、ジェスチャ認識における効率は、かなり増加する。
一実施形態において、ジェスチャ記述生成器は、ジェスチャ記述として、ジェスチャ領域の輪郭部分を表しているパラメータの順序付けられた組を供給するように構成されうる。ジェスチャ分類器は、例えば、順序付けられたパラメータの組と比較パラメータの組との違いに関する情報を得るために、順序付けられたパラメータの組を比較ジェスチャと関連した複数の比較パラメータの組と比較するように構成されうる。ジェスチャ分類器は、順序付けられたパラメータの組の一つ以上のスケールされたバージョンと比較パラメータの組との違いに関する情報を得るために、順序付けられたパラメータの組の一つ以上のスケールされたバージョンを複数の比較パラメータの組と比較するように更に構成されうる。ジェスチャ分類器は、また、その違いに関する情報に基づいて、順序付けられたパラメータの組に属している、又は、順序付けられたパラメータの組に属しているジェスチャコードを決定するようにも構成されうる。
記号的アフィン写像の中では、回転に加えて、ジェスチャ領域のサイズスケーリングも考慮されうる。このことは、ハフ変換器によって同定され、そして、ジェスチャ記述において表された個々のジェスチャ構成要素が、サイズに関してスケールされるように、遂行されうる。この方法で、ジェスチャ領域のサイズに関する分類の依存性は、こうして低減されうる。
一実施形態において、ジェスチャ分類器は、一つ以上のスケールされたバージョンが、実際に画像に含まれるジェスチャ領域と比較して、サイズの点で拡大又は縮小された、スケールされたジェスチャ領域の輪郭を表す方法で、順序付けられたパラメータの組の一つ以上のスケールされたバージョンを得るように構成される。
本発明の一実施形態において、ジェスチャ記述生成器は、ジェスチャ記述として、ジェスチャ領域の輪郭部分を表しているパラメータの組を供給するように構成されうる。ジェスチャ分類器は、例えば、ジェスチャを形成する体の一部の身体モデルによって、パラメータの組によって表され、体のその部分の個々の構成要素の位置がとられる確率を決定するように構成されうる。ジェスチャ分類器は、ジェスチャコードを決定するための確率を考慮するように更に構成されうる。
このように、ジェスチャを分類するときに、ジェスチャが形成される体の一部の身体モデルに関する情報を考慮することが可能である。例えば、体の部分の個々の構成要素のいくつかの位置が比較的可能性が低いことが考慮されうる。例えば、2本の指が約60°より大きい角度を形成する可能性は低い。加えて、ジェスチャを形成している体の部分に関する一連の更なる幾何的な制限が明らかにある。この種の身体構造の条件を考慮することによって、ジェスチャを認識する際の精度は、改善されうる。
一実施形態において、ジェスチャ記述生成器は、ジェスチャ記述として、ジェスチャ領域の輪郭部分を表しているパラメータの組を供給するように構成されうる。ジェスチャ分類器は、パラメータ値の組が所定の条件に反するかどうかを認識するように、そして、パラメータ値の組が所定の条件に反する場合にジェスチャコードの供給を抑制するように構成されうる。このように、例えば、ジェスチャを形成する体の部分に関する身体的制限の違反も考慮されうる。
更なる実施形態によれば、ジェスチャ記述生成器は、ジェスチャ記述として、ジェスチャ領域の輪郭部分を表しているパラメータの組を供給するように構成されうる。ジェスチャ分類器は、前の画像に基づいて前に決定され、前のジェスチャの状態を表すジェスチャコードに応じて、現在の状態を表す現在のジェスチャコードを決定するように構成されうる。このように、分類器は、ジェスチャの力学を考慮しうる。例えば、ジェスチャ分類器は、前のジェスチャの後に続く特定のフォローアップ・ジェスチャが、特に可能性がある、又は、特に可能性が低いことを確認しうる。例えば、体の部分、又は体の部分の個々の部分が、ある特定の最大速度でしか動かないと推測しうる。その観点から、2つの全く似通ったジェスチャ間の遷移は比較的可能性がある一方で、2つの明らかに異なるジェスチャ間の急な遷移は、非常に可能性が低いと推測しうる。分類器によって考慮された2つの連続したジェスチャ状態間の対応する遷移確率は、例えば、ジェスチャ記述が特定のジェスチャ(または比較ジェスチャ)と明らかに関連するはずがない場合に、非常に役立つ。例えば、2つの異なるジェスチャが結果として似たジェスチャ記述になる場合、前にみなされたジェスチャに基づいて、同定されたジェスチャ構成要素のため基本的に問題となるいくつかのジェスチャのうちのどれが、実際にあるか(または最もありそうか)を決定することが可能である。
一実施形態において、ジェスチャ分類器は、現在のジェスチャコードを決定するときに、どの現在のジェスチャ状態が前のジェスチャ状態に基づいて推測されうるかについて表している状態遷移許容情報を評価するように構成されうる。このように、現在のジェスチャ状態、および/または、関連したジェスチャコードは、例えば、硬判定(例えば「許容される遷移状態」か「許容しがたい遷移状態」)に基づいて決定されうる。
あるいは、または、加えて、ジェスチャ分類器は、現在のジェスチャコードを決定するときに、前のジェスチャ状態からさまざまな現在のジェスチャ状態への遷移の可能性のレベルを表している状態遷移確率情報を評価するように構成されうる。このように、現在のジェスチャ状態、および/または、関連したジェスチャコードは、軟判定法を使用することで決定されうる。
本発明は、画像内のジェスチャを認識するための対応する方法および対応するコンピュータ・プログラムを提供する。
加えて、本発明は、対応するコンピュータ・プログラムだけでなく、デバイスを制御する装置および方法を供給する。
本発明による実施形態について、付随する図を参照にして、より詳細に以下で説明する。
図1は、本発明の実施形態による、画像内のジェスチャを認識するための装置のブロック図を示す。 図2は、本発明の更なる実施形態による、画像内のジェスチャを認識するための装置のブロック図を示す。 図3は、本発明の実施形態による、画像処理手段のブロック図を示す。 図4は、本発明の実施形態によるピクセル分類器のブロック図を示す。 図5は、本発明の実施形態による輪郭線決定器のブロック図を示す。 図6aは、本発明の実施形態による領域パラメータ決定器のブロック図を示す。 図6bは、関連したヒストグラムと関係している画像または画像細部の略図を示す。 図6cは、画像内のジェスチャ領域の全体の角運動量mを計算するための、そして、x方向の角運動量mxおよびy方向の角運動量myを計算するための式の表現を示す。 図7aは、第1のジェスチャの略図を示す。 図7bは、第2のジェスチャの略図を示す。 図7cは、第3のジェスチャの略図を示す。 図7dは、第1のジェスチャの細部の略図を示す。 図8は、弧または直線セグメントを表すためのパラメータの略図を示す。 図9aは、典型的な関連するジェスチャ記述と関係している第1のジェスチャの略図を示す。 図9bは、更なる典型的な関連するジェスチャ記述と関係している第1のジェスチャの略図を示す。 図9cは、2つの弧の細部を接続する直線セグメントに関してどのようにその位置の詳細が決定されうるかについての簡単な説明の図を示す。 図10は、本発明の実施形態によるジェスチャ記述生成器のブロック図を示す。 図11は、本発明の更なる実施形態によるジェスチャ記述生成器のブロック図を示す。 図12は、本発明の更なる実施形態によるジェスチャ記述生成器のブロック図を示す。 図13は、本発明の実施形態によるジェスチャ分類器のブロック図を示す。 図14は、本発明の更なる実施形態によるジェスチャ分類器のブロック図を示す。 図15は、本発明の実施形態によるジェスチャ記述検査器のブロック図を示す。 図16は、本発明の実施形態によるジェスチャ分類器のブロック図を示す。 図17aは、パターン認識手段によるグラフィック画像を実行するアプローチの図解を示す。 図17bは、並列の時間信号へのラスタ画像の変換の間に結果として生じている時間信号の図解を示す。 図18は、実施形態による、ジェスチャを認識するための発明装置の利用のためのパターン認識手段のブロック図を示す。 図19は、本発明の実施形態によるパターン認識手段の利用のための3本の典型的な参照曲線の図解を示す。 図20aは、上方へ向けられた指先を含んでいる画像の細部の略図を示す。 図20bは、右上へ方向付けられた指先を示す画像の細部の略図を示す。 図21は、ジェスチャ記述の循環的回転におけるアプローチの略図を示す。 図22は、ジェスチャ記述のスケーリングにおけるアプローチの略図を示す。 図23は、本発明の実施形態によるデバイスを制御する装置のブロック図を示す。 図24は、本発明の実施形態によるカメラを制御する装置のブロック図を示す。 図25は、本発明の実施形態による、画像のジェスチャを同定する方法のフローチャートを示す。 図26は、本発明の更なる実施例によれば、画像のジェスチャを同定する方法のフローチャートを示す。
「図1に記載の装置」
図1は、画像内の文字を認識する装置のブロック図を示す。図1に記載の装置は、全体として100で示される。装置100は、画像110を受けて、画像110に基づいて、画像110内で認識されたジェスチャのジェスチャコード120を供給するように構成される。装置100は、画像110または画像の前処理されたバージョンを受けて、そして、同定されたジェスチャ構成要素に関する情報132を供給するように構成されたハフ変換器130を含む。装置100は、ハフ変換器130から同定されたジェスチャ構成要素に関する情報132を受けて、そして、同定されたジェスチャ構成要素に関する情報132に基づいてジェスチャ記述142を供給するように構成されたジェスチャ記述生成器140を更に含む。装置100は、ジェスチャ記述生成器140からジェスチャ記述142を受けて、そして、それに基づいて、認識されたジェスチャのジェスチャコード120を供給するように構成されたジェスチャ分類器150を更に含む。
装置100は、ジェスチャ分類器に複数の比較ジェスチャ記述を供給するように構成されたデータベース160を任意選択で含みうる。
装置100は、画像110を受けて、画像の前処理されたバージョンをハフ変換器130に利用可能にするように構成されうる画像前処理170を更に任意選択で含みうる。
上記の構造的記述に基づいて、画像内のジェスチャを認識するための本装置100の機能について、以下に説明する。ジェスチャ認識のために、本装置100は、画像110を受ける。ハフ変換器130は、例えば、画像内の、または、画像の前処理されたバージョン内の弧(例えば円弧および/または楕円弧、またはこの種の弧の細部)を特定されたジェスチャ構成要素として同定するように構成されうる。ハフ変換器130は、このように同定されたジェスチャ構成要素に関するジェスチャ情報132を得て、それをジェスチャ記述生成器140に利用可能にしうる。ジェスチャ記述生成器140は、同定されたジェスチャ構成要素に関する情報132を使用するときに、例えば、ジェスチャ記述142を得るように構成されうる。このように、ジェスチャ記述142は、例えば、同定されたジェスチャ構成要素の組を表しうる。
ジェスチャ分類器は、例えば、ジェスチャ記述142を、それらと関連したジェスチャコードを有する(例えば任意データベース160からの)複数の比較ジェスチャ記述と比較し、比較の結果として、認識されたジェスチャのジェスチャコードを供給するように構成されうる。
装置100が、効率的で信頼性が高い方法で、画像110のジェスチャを同定することを可能にすることは、このように述べられうる。ハフ変換器130によって、画像内(または画像の前処理されたバージョン内)の弧(例えば円弧や楕円弧、又はこの種の弧の細部)などの特に特徴的なジェスチャ構成要素は、同定されうる。ハフ変換器によるジェスチャ構成要素の同定は、特に信頼性が高く、速い方法で可能である。というのは、ハフ変換器は乱れた画像でさえもこの種のジェスチャ構成要素を認識しうる。加えて、ハフ変換器は、例えば、非常に信頼性が高く効率的な方法で、異なる曲率半径を有する弧を決定することが可能である。
このように、同定されたジェスチャ構成要素に関する情報は、信頼性が高く効率的な方法で得られうる。そして、ジェスチャの特に重要な構成要素がパラメータによって表されることが可能である。このように、ジェスチャ記述生成器140は、ハフ変換器によって供給された情報132に基づいて、例えば、ハフ変換器によって同定されたいくつかのジェスチャ構成要素に関する情報をまとめうる、意味があり信頼性が高いジェスチャ記述142を生成することが可能である。ジェスチャ記述生成器140は、このように、ハフ変換器130からコンパクトな情報(例えば同定されたジェスチャ構成要素のパラメータ)を受けて、それを結合しジェスチャ記述を生み出すことを必要とするだけである。
最後に、ジェスチャ分類器150は、ジェスチャ記述142に基づいて、効率的で信頼性が高い方法で、ジェスチャコード120を決定しうる。ジェスチャ分類器は、弧(例えば完全な弧の細部)などの特に特徴的なジェスチャの構成要素が、独立した、又は分離した方法で、ハフ変換により抽出されうるという事実から利益を得る。このように、ジェスチャ記述は、結局非常にコンパクトなものとなりえ、画像のアーティファクトはハフ変換器によって抑制され、このようにジェスチャ記述142を不必要に膨張させない。この観点から、ジェスチャ分類器150内でのジェスチャの分類もまた、非常に効率的な方法で実行される。
加えて、正確にハフ変換器を使用することにより、高水準の障害許容力および精度が得られうることは述べるべきことである。例えば、(例えば映像妨害による)軽微な妨害を有するジェスチャ領域の輪郭線は、それでもなお、ハフ変換器130によって確実に処理されうる。その結果、対応するジェスチャ構成要素の位置に関する非常に正確な情報がハフ変換器によって供給されうる。したがって、ジェスチャコードもまた、ジェスチャ分類器150において高い精度で決定されうる。
したがって、要約すると、ジェスチャ認識のハフ変換器130の利用は相当な利益を伴い、その結果、ハフ変換器130の利用はリソースに関する適度な消耗で、そして、高い信頼性を有して、効果的なジェスチャ認識を設定することを可能にすることは述べられる。
「図2に記載の装置」
図2は、画像内のジェスチャを認識するための装置のブロック図を示す。図2に記載の本装置は、全体として200で示される。装置200は、ラスタライズされた画像210を受けて、そのラスタライズされた画像210に基づいて、そのラスタライズされた画像内の認識されたジェスチャのジェスチャコード220を供給するように構成される。装置200は、ラスタライズされた画像210を受けて、それに基づいて、選択された画像細部232または選択されることになる画像細部に関する情報を供給するように構成された画像細部選択手段230を任意選択で含む。装置200は、ラスタライズされた画像210または選択的な画像細部選択手段230によって供給された画像細部を受けて、画像210または画像細部232に含まれるピクセルを分類するように構成されたピクセル分類器240を更に含む。ピクセル分類器240は、そのラスタライズされた画像210またはラスタライズされた画像細部232に基づいて分類された画像242(または分類された画像細部242)を供給するように更に構成される。装置200は、その分類された画像242(または分類された画像細部)を受けて、分類された画像(または分類された画像細部)に基づいて輪郭パラメータ252を供給するように構成された輪郭線決定器250を更に含む。任意選択で、装置200は、例えば、分類された画像(または分類された画像細部)を受けて、分類された画像(または分類された画像細部)に基づいて、少なくとも一つの領域パラメータ262を供給するように構成されうる領域パラメータ決定器260を更に含む。装置200は、輪郭パラメータ252(または複数の輪郭パラメータ)を受けるように構成されたジェスチャ記述生成器270を更に含む。ジェスチャ記述生成器は、任意の領域パラメータ262(または複数の領域パラメータ)を受けとるように任意選択で更に構成されうる。ジェスチャ記述生成器272は、輪郭パラメータ252(または複数の輪郭パラメータ252)に基づいてジェスチャ記述272を供給するように構成される。以下で説明されるように、ジェスチャ記述生成器272はまた、ジェスチャ記述272を生成するときに、領域パラメータ262(または複数の領域パラメータ262)を考慮するように任意選択で構成されうる。
装置260は、ジェスチャ記述272を受けとり、ジェスチャ記述272に基づいて、認識されたジェスチャのジェスチャコード220を供給するように構成されたジェスチャ分類器280を更に含む。
装置200の機能について、上記の構造的記述に基づいて以下に詳細に説明する。
装置200は、例えば、ラスタライズされた画像に基づいて、分類された画像242を生成するように構成されうる。これに関連して、ラスタライズされた画像210のどのピクセルがジェスチャ領域に属するかに関して、ラスタライズされた画像210に基づいて、決定が為されうる。このように、どのピクセルがジェスチャに属するものとして分類されるか、そして、どのピクセルがジェスチャに属しないものとして分類されるかに関して、ラスタライズされた画像に基づいて、例えば明度によって、決定が為されうる。対応する処理によって、例えば画像細部選択手段230によって、ラスタライズされた入力画像210の特定の領域が、ジェスチャに属するそこに置かれたピクセルを有さないことが認識されうる。例えば、ラスタライズされた画像210のある特定の小領域が、皮膚の色(または他の既定の色)を有するそこに置かれたピクセルを有しないこと、および/または、ラスタライズされた画像210のある特定の小領域が、そこに置かれた既定の最小サイズの隣接領域を有しないことが分かった場合、画像細部選択手段は、更なる処理のために、対応するジェスチャ領域(すなわち、ある特定の同一とみなされた色を有する領域、または、既定の最小範囲を有するほぼ単色の領域)が置かれた一つ以上の画像細部だけが使用されることを決定しうる。
以下の説明では、簡単化の目的のために、画像の処理に関して述べられる。そして、画像細部の更なる処理が同じ方法で遂行されることが可能である。
ピクセル分類器240によって供給された分類された画像242に基づいて、ジェスチャ領域の輪郭線の特性の記述は、決定されうる。この目的で、輪郭線決定器250は、例えば分類された画像242に基づいて、ジェスチャ領域の輪郭線の個々の部分を表す、および、同定されたジェスチャ構成要素に関する情報としてみなされうる輪郭パラメータ252を決定しうる。例えば、輪郭パラメータ252は、ジェスチャ領域の輪郭線が所定の方向における局所的な極値をどこに含むかを表しうる。例えば、輪郭パラメータ252は、以下に詳述するように、ジェスチャ領域の輪郭線に近い弧(例えば円弧または楕円弧)の位置を表しうる。任意選択で、輪郭パラメータ252は、ジェスチャ領域の輪郭線の一部である(またはジェスチャ領域の輪郭線に近い)直線セグメントの位置を表すこともあり、そのことも以下に詳細に説明される。全般的に見て、輪郭線決定器は、このように、分類された画像242に基づいて、ラスタライズされた画像に含まれるジェスチャに関して意味のある記述を示す輪郭パラメータ252の組を供給するのに役立つ。ジェスチャ記述生成器270は、輪郭パラメータ252の組を使用するときに、ジェスチャ記述272を生成するように構成される。これに関連して、以下に詳述するように、ジェスチャ記述生成器は、異なるストラテジーを使用しうる。例えば、以下に詳述するように、ジェスチャ記述生成器は、ジェスチャ記述272に変化した、あるいは、変化しない形で、複数の輪郭パラメータを引き継ぐ。さらに、ジェスチャ記述生成器は、ジェスチャ記述272を得るために、輪郭パラメータ252を任意選択で変えうる、例えば、それらを再度順序付ける、再配置する、スケールする、または、異なる座標系にそれらを変換する。ジェスチャ記述272を生成するときに、ジェスチャ記述生成器270は、輪郭パラメータ252を使用するときに、例えば、任意の領域パラメータ262の一つ以上を(任意選択で)考慮することもある。そして、そのことは下で詳述される。ジェスチャ記述生成器270はまた、例えば所定の規則に基づいて、ジェスチャ記述272がジェスチャ領域の輪郭部分を表しているパラメータの順序付けられた組を含むように、ジェスチャ記述272を生成することもある。換言すれば、(例えばジェスチャ領域の個々の輪郭部分の特性を表す)個々の輪郭パラメータ252に基づいて、ジェスチャ記述生成器は、ジェスチャ領域の複数の輪郭部分を表している複合のジェスチャ記述272を生成しうる。複合のジェスチャ記述272は、例えばソートされた方法で、ジェスチャ領域の複数の輪郭部分を表しうる。例えば、個々の輪郭線部分のパラメータは、さまざまな部分が輪郭線に沿って生じるシーケンスに従ってソートされうる。あるいは、ソーティングはまた、ジェスチャ構成要素のパラメータに基づいて遂行されることもあり、その結果、例えば、ジェスチャ記述は、対応するパラメータによってまず弧の全てを、そして、続いて直線セグメントの全てを表しうる。これに関する詳細は、以下で徹底的に説明される。
ジェスチャ分類器280は、認識されたジェスチャのジェスチャコードを、ジェスチャ記述生成器272によって得られるジェスチャ記述272と関連させうる。これに関連して、ジェスチャ分類器は、例えば、複数の比較ジェスチャ(または比較ジェスチャの関連パラメータの組)に基づいて、比較ジェスチャのうちのいずれが現在のジェスチャ記述272によって記述されたジェスチャと最も類似しているか(または比較ジェスチャのいずれが現在のジェスチャによって記述されたジェスチャに十分類似しているか)について、決定しうる。このように、ジェスチャ分類器は、任意選択で、より広範囲にわたる情報を使用するとともに、(比較ジェスチャによって表された、および/または、示された)複数の既定のジェスチャの種類のうちのどのジェスチャの種類がラスタライズされた画像に含まれるかを決めうる。
図2に記載の装置200が基本的に、図1に記載の装置100と同じ機能を為す点にも留意すべきである。例えば、画像前処理170は、画像細部選択手段230の機能、および/または、ピクセル分類器240の機能を引き継ぎうる。ハフ変換器130は、輪郭線決定器250の一部でありうるし、または、輪郭線決定器250を形成しうる。そして、そのことは以下に詳述される。ジェスチャ記述生成器140は、例えば、ジェスチャ記述生成器270の機能を有しうる、そして、例えば、ジェスチャ分類器150は、ジェスチャ分類器280の機能を有しうる。
図1および図2を使用して説明された手段の詳細は、装置100、200のありうる実施例を説明するために、以下に説明される。しかし、以下において説明された機能が例としてしかみなされないことは述べるべきことである。
「画像前処理」
図3は、本発明の実施形態に記載の画像前処理のブロック図を示す。図3に記載の画像前処理は、全体として300で示される。画像前処理300は、画像前処理170と取って代わるか、または、画像細部選択手段230の機能、および/または、ピクセル分類器240の機能を引き継ぎうる。例えば、画像前処理300は、画像310を受けて、画像310の画像または画像細部の前処理されたバージョン320、または、画像310の画像細部の前処理されたバージョンを供給するように構成される。
画像前処理300は、例えば、2値化器またはピクセル分類器を含みうる。2値化器、またはピクセル分類器、330は、例えば、画像310のピクセルをいくつかのクラスに分類するように構成されうる。例えば、2値化器は、画像のピクセルがジェスチャに属するか否かを決めるように構成されうる。このように、2値化器、またはピクセル分類器、330は、例えば、ジェスチャまたはジェスチャ領域に属しているピクセルが、それらに関連した第1の値(例えば明度「黒」)を有し、そして、ジェスチャ領域に属していないピクセルが、それらに関連した第2の値(例えば明度「白」)を有する、画像の前処理されたバージョンを生成しうる。
例えば、2値化器330は、皮膚の色を有するピクセルと皮膚の色を有しないピクセルを識別するように構成されうる。その識別は、例えば、(いくつかの個々のパラメータによって表されうる)ピクセルの明度を、(さらにまたいくつかの個々のパラメータによって表されうる)比較明度と比較することによってなされうる。
例えば、明度が既定の許容偏差のみによって比較明度から外れる場合、対応するピクセルは、ジェスチャまたはジェスチャ領域に属しているピクセルとして分類されうる。そうでなければ、対応するピクセルは、ジェスチャまたはジェスチャ領域に属していないピクセルとして分類されうる。ジェスチャ領域に属しているピクセルの対応する認識は、さまざまな色記述システム(例えば、赤/緑/青または青緑/マジェンタ/黄色、または彩度/輝度)において遂行されうる。
さらに、もちろん、2値化器330によって皮膚の色を認識することは、必要とは限らない。むしろ、例えば、色の付いた手袋も人の手も使用してジェスチャが生成されるときには、他の所定の色も認識されうる。
「エッジ認識」
加えて、例えば、画像前処理300は、エッジ認識340を含みうる。エッジ認識340は、例えば、画像310内の、または、画像のバージョン内のエッジを認識するように構成されうる。ここで、前記バージョンは2値化器330によって供給される。例えば、エッジ認識器340は、明るい領域および暗い領域の間、および/または、異なる色の間の変化を認識するように構成されうる。エッジ認識が画像処理の分野から周知であるので、エッジ認識の詳細は、これ以上深くはここでは言及しない。
「ジェスチャの画像細部認識/画像細部選択手段」
画像前処理300は、ジェスチャの画像細部認識、および/または、画像細部選択手段を任意選択で更に含みうる。そして、それらは共に350によって示される。ジェスチャの画像細部認識は、例えば、画像310の画像細部、または、ジェスチャを含む(またはジェスチャがあると仮定される)画像310の対応する処理されたバージョンの画像細部を認識するように構成されうる。
例えば、ジェスチャの画像細部認識器は、画像310において(または同上の処理されたバージョンにおいて)、隣接のジェスチャ領域を含む画像細部を同定するように構成されうる。例えば、ジェスチャの画像細部認識器は、(既定の許容範囲内で)ほぼ一定の明度を有する隣接の領域を含み、その範囲が既定の最小範囲に達する、又は、超えるような、画像310の画像細部を認識し、そして、それを更なる処理のために選択しうる。このように、例えば、この種の画像細部だけが、十分に広い色領域を有し、そして、それゆえにジェスチャがあることを予測する原因を与える、(可能性のある)ジェスチャ画像細部であるものとして認識される。アプリケーションのケース次第で、その色は、この状況において、既定のものであってもなくてもよい。例えば、ジェスチャ画像細部認識器は、可能性があるジェスチャ画像細部として、いずれにしろそこに含まれる最小範囲の隣接しているほぼ単色の領域を有するこの種の画像細部を選択するように構成されうる。
このように、ジェスチャ画像細部認識器は、全体として、基本的に十分に大きなジェスチャの画像を含みうる可能性がある画像細部に関する情報を供給しうる。しかし、第1の箇所において隣接のほぼ単色の領域を全く含まない他の画像細部は、ジェスチャ画像細部認識器によって抑制されうる。この方法で、全くジェスチャを含まないが、色に関して均一でないバックグラウンドだけは含む領域が、更に処理されるのを防ぐことは可能である。
このように、十分なサイズのジェスチャ領域の画像を実際に含むといういくらかの可能性をもって予想される画像細部の更なる処理のために、画像細部選択手段350によって、この種の画像細部は選択されうる。画像310の他の領域は、このように、例えば、第1の箇所において、いかなる更なる処理の影響も受けない。いくつかの可能性のあるジェスチャ領域が画像内に認識される場合、いくつかの画像細部が画像細部選択手段350によって、更なる処理のために選択されることは当然可能である。
「2値化、エッジ認識およびジェスチャ画像細部認識の協調」
加えて、2値化、エッジ認識、ジェスチャ画像細部認識および画像細部選択のさまざまなワークステップが、画像310の前処理されたバージョン、画像310の前処理された画像細部、または、画像310の選択された画像細部を得るために、要求されるいかなる命令においても実行されうることは述べるべきことである。画像の前処理されたバージョンの、画像細部の前処理されたバージョンの、または、選択された画像細部の更なる処理を実行するハフ変換器は、このように、選択された画像細部に対応する画像の前処理されたバージョンを処理するように構成されうる。
「2値化器に関する詳細」
2値化器330に関する詳細について、以下の図4によって説明する。図4は、本発明の実施形態によるピクセル分類器または2値化器のブロック図を示す。図4に記載のピクセル分類器は、全体として400で示される。ピクセル分類器400は、ジェスチャに属するピクセルを同定するように構成される。
この目的で、ピクセル分類器400は、画像領域410を受けるように構成される。例えば、画像領域は、画像310または画像310の選択された画像細部でもありうる。このように、ピクセル分類器400は、画像領域410に基づいて、ジェスチャに属するものとして同定されるピクセルを表す(そして、それらとジェスチャに属しないものとして同定されたピクセルとを識別する)情報を供給するように構成される。情報420は、このように、分類された画像の、または、分類された画像細部の記述としてみなされうる。例えば、情報420は、第1の値(または明度)を、ジェスチャに属するものとして同定される画像領域410のピクセルと関連させうるし、第1の値とは異なる第2の値(例えば明度)を、ジェスチャに属しないものとして同定されたピクセルと関連させうる。
ジェスチャまたはジェスチャ領域に属しているピクセルと、ジェスチャまたはジェスチャ領域に属していないピクセルとの間のこの識別は、異なる方法でなされうる。例えば、ピクセル分類器400は、画像領域410において、明度が既定の明度と十分に類似しているようなピクセルを同定するように構成されうる。例えば、ピクセルの赤/緑/青の明度がRpixel、GpixelおよびBpixelによって示される場合、そして、例えば、赤/緑/青の表色系において、既定の明度がR0、G0およびB0によって示される場合、ピクセルの既定の明度が、所定の明度から、所定の閾値ΔRGB,maxよりも、低いまたは高い段階に偏移するかに関して、例えば図4に示された公式を使用することによって、決定がなされうる。明度が所定の偏差(閾値)より小さい程度に比較の明度と異なるピクセルは、ジェスチャ領域に属するものとして同定され、その一方で、明度が所定の閾値以上に所定の明度と異なるピクセルは、ジェスチャ領域に属しないものとして同定されうる。
あるいは、または、加えて、ピクセル分類器400は、所定の最小範囲を有する隣接した(ほぼ単色の)領域に属する画像領域410のピクセルを同定されるように構成されうる。このような方法で同定されたピクセルは、ジェスチャに属しているピクセルとして同定されうるし、そして、情報420によって表されうる。その一方で、他のピクセル(すなわち、既定の最小範囲を有する隣接する領域に属さないピクセル)は、ジェスチャまたはジェスチャ領域に属していないピクセルと同定されうる。このように、関連するジェスチャ領域の色が必ずしもわかっていない場合(例えば、異なる色の手袋または素手が使用されうる場合)であっても、ジェスチャは認識されうる。
「輪郭線決定の詳細な説明」
輪郭パラメータが分類された画像又は分類された画像細部に基づいてどのように決定されうるかについての詳細な説明は、図5を用いて以下に与えられる。この目的で、図5は、本発明の実施形態に従う輪郭線決定器のブロック図を示す。図5に記載の輪郭線決定器は、全体として500で示される。
輪郭線決定器500は、例えば、分類された画像または画像細部510を受けて、それに基づいて輪郭パラメータ520を供給するように構成されうる。分類された画像または画像細部は、例えば、図2に記載の分類された画像または画像細部242、画像または画像細部の前処理されたバージョン320または情報420でありうる。分類された画像510または分類された画像細部510がエッジ認識のために前処理されたかに依存して、輪郭線決定器500は、輪郭認識器530を任意選択で含みうる。例えば、分類された画像または画像細部510が、輪郭認識器によってまだ処理されていないとき、輪郭認識器530は、輪郭線決定器500の一部でありうる。そうでない場合、もちろん、輪郭認識器530は、省略されうる。
加えて、輪郭線決定器500は、輪郭画像542または輪郭画像細部542を受けて、それに基づいて輪郭パラメータ520を供給するように構成された輪郭パラメータ決定器540を含む。輪郭画像542または輪郭画像細部542は、このように、例えば、輪郭または輪郭線によってジェスチャの領域を表しうる。前処理の品質次第では、輪郭画像542または輪郭画像細部542は、ジェスチャ領域の輪郭線に加えて、他の寄生線または線断片を場合によっては含みうる。しかし、この種の寄生線または線断片は、一般的に以下において詳述する輪郭パラメータ決定器540のまさしくその利用のため、特に害はない。
好ましい実施形態において、輪郭線決定器540は、輪郭画像542または輪郭画像細部542を受けて、それに基づいて、輪郭パラメータ520の形で同定されたジェスチャ構成要素に関する情報を供給するように構成されたハフ変換器を含む。ハフ変換器に関する詳細について、以下に説明する。
「領域パラメータ決定器」
図2に記載の選択的なパラメータ決定器260に関するいくつかの詳細について、以下の図6aにより説明する。この目的で、図6aは、本発明の実施形態による領域パラメータ決定器のブロック図を示す。図6aに示された領域パラメータ決定器は、全体として600で示され、領域パラメータ決定器360を交換しうる。
領域パラメータ決定器600は、分類された画像610または分類された画像細部610を受けるように構成される。分類された画像または画像細部610は、例えば、図2に記載の分類された画像または画像細部242でありうる。あるいは、分類された画像または画像細部610は、画像または画像細部320の前処理されたバージョンまたは情報420でありうる。また、領域パラメータ決定器600は、例えば、輪郭線決定器500の入力情報510に対応する入力情報610を受けうる。
領域パラメータ決定器600は、例えば、分類された画像または画像細部610に含まれるジェスチャ領域の一つ以上の領域パラメータを決定するように構成されうる。このように、領域パラメータ決定器600は、分類された画像または画像細部610に含まれるジェスチャ領域を表している一つ以上の領域パラメータ620を供給するように構成される。
例えば、領域パラメータ決定器600は、領域パラメータ620として、分類された画像または画像細部610に含まれる領域またはジェスチャ領域の重心に関する情報を供給するように構成されうる。あるいは、または、加えて、領域パラメータ決定器600は、領域パラメータ620として領域またはジェスチャ領域の範囲に関する情報を供給するか、または領域パラメータ620として領域またはジェスチャ領域の運動量に関する情報を供給するように構成されうるか、または、領域パラメータ620として領域またはジェスチャ領域の偏心に関する情報を供給する。領域パラメータ決定器は、領域パラメータ620として前述の情報のいかなる組み合わせも当然に供給しうる。いくつかの実施形態では、領域パラメータ決定器600は、周知の領域パラメータ(領域の重心に関する情報、ジェスチャ領域の範囲に関する情報、ジェスチャ領域の運動量に関する情報およびジェスチャ領域の偏心に関する情報)の全てを供給もする。
このように、例えば、領域パラメータ決定器600は、一つ以上の以下の機能ブロック、例えば、領域の重心決定器630、領域範囲決定器640、領域角運動量決定器650および領域偏心決定器660を含みうる。
領域パラメータ620(または領域パラメータ620の少なくともいくつか)は、例えば、一つ以上のヒストグラムを使用して決定されうる。例えば、図6bに示されるように、ヒストグラムを使用しうる。
図6bは、関連するx頻度ヒストグラムおよび関連するy頻度ヒストグラムを加えた画像または画像細部の略図を示す。図6bに示される画像は、全体として680で示される。例えば、画像680は、画像行および画像列に配置された複数のピクセルを含む。例えば、画像行はx方向に沿って伸び、画像列はy方向に沿って伸びる。例えば、画像行は、1から10まで一連番号を与えられる。画像列もまた、1から10まで一連番号を与えられる。画像680は、ジェスチャ領域に属しているピクセル(ハッチングされて示される)およびジェスチャ領域に属していないピクセル(ハッチングなしで示される)を含む。列ヒストグラム684は、例えば、異なる列のためのジェスチャ領域に属している多くのピクセルを表す。列ヒストグラム684から分かるように、列1、2および3は、例えば、ジェスチャ領域に属しているピクセルを一つも含まない。例えば、第4の列はジェスチャ領域に属している8つのピクセルを含み、第6の列も同様である。第5、第7および第8の列の各々は、ジェスチャ領域に属している4つのピクセルを含む。画像列9および10は、ジェスチャ領域に属しているピクセルを一つも含まない。列番号(1〜10)に応じて対応する度数分布は、列ヒストグラム684に示される。図6は、ジェスチャ領域に属しているピクセル数が画像680のさまざまな行に関してプロットされる行ヒストグラムを更に示す。例えば、第1の画像行は、ジェスチャ領域に属しているピクセルを一つも含まない。第2、第3、第4および第5の行は、それぞれ、例えば、ジェスチャ領域に属している5つのピクセルを含む。行6、7、8および9は、それぞれ、ジェスチャ領域に属している2つのピクセルを含む。行10は、ジェスチャ領域に属しているピクセルを一つも含まない。
例えば、画像860の(またはジェスチャ領域に属しているピクセルの)領域の重心は、例えばヒストグラム684、688を使用して、(または異なる方法で)算出されうる。x方向の、そして、y方向のジェスチャ領域の領域重心があると算出する公式は、図6bにおいて示される。例えば、x方向の領域の重心は、xmによって示される。画像列は、xで示される。最大列インデックスは、xmaxで示される。ジェスチャ領域に属する画像列xの多くのピクセルは、h(x)で示される。対応する定義はまた、画像行yにも適用する。
図6bに示された公式を使用することにより、例えば、画像680の、または、その中で示されたジェスチャ領域の重心は、x方向または画像列方向において、そして、y方向または画像行方向において決定されうる。例えば、対応する決定は、重心決定器630によってなされうる。
あるいは、または、加えて、例えば画像列方向の、および/または、画像行方向の画像680の範囲もまた、決定されうる。図6bに記載の典型的な画像において、ジェスチャ領域は、例えば、5つの画像列(画像列4〜8)および8つの画像行(画像行2〜9)を含む。対応する範囲は、範囲決定器640により直ちに決定されうる。
図6cは、全体の角運動量m、x方向の角運動量mx、y方向の角運動量myを決定するための公式を含む。
全体の角運動量は、ジェスチャ領域に属し、インデックスiを有するピクセルの全てにわたった、座標xmおよびymを伴うジェスチャ領域の重心からのピクセルの平方距離の総計として算出されうる。したがって、図6cに示されるように、角運動量mxは、x方向において決定され、そして、角運動量myは、y方向において決定されうる。
「例−ジェスチャ」
その中に同定されうるさまざまなジェスチャおよびジェスチャ構成要素について、図7a、7b、7cおよび7dを参照として以下に説明する。
図7aは、「5本指、わずかに広げられた手」とも呼ばれる第1のジェスチャの略図を示す。図7aに記載の表示は、700で示される。図7aに示されたジェスチャの画像は、複数の特徴的なジェスチャ構成要素を含む。画像が、x方向702、および、それに対してほぼ直交のy方向704に関して定められると仮定する場合、ジェスチャの画像は、y方向において、複数の少なくとも局所的極値点P1、P2、P3、P4、P5、P6、P7、P8、P9を含む。ジェスチャ領域(手のひら)の輪郭線は、例えば極値P1の周りにおいて、円弧および/または楕円弧の細部によって、近似される。ここで、前記細部は下方へ開いたものである。同様に、ジェスチャ領域の輪郭線は、極値点P2、P3、P4、P5において、下方へ開いた円弧または楕円弧によって(例えば完全な弧の、または、完全な円または楕円の細部によって)、近似される。同様に、極値点P6、P7、P8、P9において、上方へ開かれた弧(例えば円弧および/または楕円弧の細部)によって、ジェスチャ領域の輪郭線は、近似される。
加えて、極値点は、x方向においても当然に値を求められうる。例えば、ジェスチャ領域の輪郭線は、極値点P1aにおいて、左の方へ開かれた弧(例えば円弧および/または楕円弧の細部)によって、近似される。ジェスチャ領域の輪郭線は、例えば、極値点P5aにおいて、左方に開かれた弧によって(例えば円弧または楕円弧の細部によって)、近似される。例えばx方向の、または、y方向の更なる極値点も、当然に考慮されうるが、明快さの理由でここでは省略された。
さらに、例えば、ジェスチャ領域(手のひら)は、上で説明されたように決定されうる重心Sを有する。さらにまた、ジェスチャ領域(手のひら)は、例えば、x方向の範囲L1およびy方向の範囲L2を有し、そして、例えば、上記の方法で範囲L1およびL2が決定されることは可能である。加えて、ジェスチャ領域(ここでは手のひら)は、上で示した方法で算出されうる角運動量Mを有する。また、ジェスチャ領域(手のひら)は、偏心Eもまた有しうる。
図7aに示されたジェスチャ「5本指、わずかに広げられた手」は、このように、極値点P1、P2、P3、P4、P5、P6、P7、P8、P9、P1a、P5aの位置によって、および、領域パラメータ「重心Sの位置」、「x方向の範囲L1」、「y方向の範囲L2」、「角運動量M」および「偏心E」によって、表されうる。もちろん、図7aに示されたジェスチャを表すために言及されたパラメータのサブセットだけを使用することもまた、可能である。
図7bは、第2のジェスチャ(同様に「5本指、広げられた手」と称する)の略図を示す。図7bに記載のジェスチャの表現は、720で示される。図7に示されたジェスチャもまた、例えば、極値点P1、P2、P3、P4、P5、P6、P7、P8、P9、P1a、P5aによって表されうる。同様に、図7bに記載のジェスチャに関してもまた、図7aに記載のジェスチャと関連して言及された領域パラメータは、決定されうる。
図7bに対する図7aの比較から直ちに明らかであるように、極値点P1〜P9の相対的位置関係は、例えば、図7aおよび7bに記載のジェスチャにおいて異なり、そして、そのことは、例えば、ジェスチャの識別を可能にする。
図7cは、別のジェスチャ(同様に「2本指」とも称する)の略図を示す。図7cに示されたジェスチャにおいて、例えば、図7aおよび7bに示されたジェスチャと比べて局所的な極値点は、ほとんど見られず、すなわち、例えば極値点P1、P2、P3、P4およびP5だけである。
図7aに示されているように、図7dは、第1のジェスチャの細部の略図を示す。第1のジェスチャ「5本指、わずかに広げられた手」の、図7dに示された細部は、ジェスチャに属している極値点の全てが各画像細部において認識可能であることは、必ずしも必要ではないことを示す。
「ジェスチャ記述の生成」
続いては、ジェスチャ記述が同定されたジェスチャ構成要素に関する情報を使用することによりどのように生成されうるかについての説明である。同定されたジェスチャ構成要素に関する情報は、例えば、円弧、楕円弧の、円弧の細部の、楕円弧の細部の、または、ほぼ直線の位置を表しうる。同定されたジェスチャ構成要素に関する情報は、ハフ変換器によって、例えば、ハフ変換器130によって、または、輪郭線決定器250によって、供給されうる。同定されたジェスチャ構成要素に関する情報は、例えば、輪郭パラメータ252および/または520の形などの輪郭パラメータの形で、供給されうる。例えば、以下で詳細に説明されるハフ変換器は、ジェスチャの画像(またはそこから結果として生じるエッジ画像)の弧(例えば円弧または楕円弧の細部)を同定するように構成されうる。ハフ変換器130は、例えば、左方に、又は、右方に、又は、上方に、又は、下方に開かれた、円弧又は楕円弧の細部を認識するように構成されうる。ハフ変換器は、右方に開かれた円弧の細部と、左方に開かれた円弧の細部を識別するように構成されうる。同様に、ハフ変換器は、下方に開かれた円弧の細部と、上方に開かれた円弧の細部を識別するように構成されうる。要約すると、このように、全般的に見て、ハフ変換器が異なる方向へ開かれた弧(円弧および/または楕円弧の細部)を識別可能でありうることが述べられうる。
このように、ハフ変換器130は、輪郭パラメータの形で、同定されたジェスチャ構成要素に関する情報132を供給しうる。
例えば、ハフ変換器は、同定された円弧または楕円弧のために、(上方に、下方に、右方に、左方に方向付けられた;上方に、下方に、右方に、左方に開かれた)円弧または楕円弧の方向または向きに関する情報を供給しうる。例えば、ハフ変換器は、円弧または楕円弧の少なくとも2つの異なる向き(例えば、第1の方向に向けられたものと、第1の方向とは反対に向けられたもの;または、第1の方向に開いたものと、第1の方向とは反対に開いたもの)を識別するように構成されうる。いくつかの実施形態では、上で説明されたように、ハフ変換器は、円弧または楕円弧の2つ以上の異なる向きを識別するように構成されうる。
ハフ変換器は、円弧または楕円弧の同定された細部に関して、極値についての情報を更に供給しうる。例えば、ハフ変換器は、円弧および楕円弧の同定された細部の点であって、前記点は、第1の方向(例えばx方向)のもっとも遠くに置かれた点に関する情報、または円弧および楕円弧の同定された細部の点であって、前記点は第2の方向(例えばy方向)の最も遠くに置かれた点に関する情報を供給するように構成されうる。円弧または楕円弧の同定された部分に関して、例えば、ハフ変換器は、この種の極値点の座標を供給しうる。例えば、ハフ変換器は、2つの座標によって、(例えば第1の方向またはx方向で、または、第2の方向またはy方向で、または、第1の方向とは反対の方向で、または、第2の方向とは反対の方向で)極値点を表しうる。あるいは、関係する円又は関係する楕円の細部がその画像において同定される場合、ハフ変換器は、例えば、座標によって、各々の円の、または、各々の楕円の中心を表すだけで充分でありうる。
加えて、ハフ変換器は、任意選択で、円弧または楕円弧の同定された細部の曲率半径に関する情報を供給しうる。
同定された弧(円弧または楕円弧の細部)を表している一組の輪郭パラメータは、このように、例えば、円弧または楕円弧の以下のパラメータに関する情報を含みうる:
・方向(上方に、下方に、左方に、右方に開かれている)
・極値の位置(x座標およびy座標)
・曲率半径(任意選択で)
任意選択で、ハフ変換器はまた、ジェスチャ領域の輪郭に属する同定された直線セグメントに関する情報も供給しうる。例えば、ハフ変換器は、同定された直線セグメントの方向に関する情報を供給するように構成されうる。加えて、ハフ変換器は、同定された直線セグメントの位置に関して、付加情報を供給しうる。例えば、ハフ変換器は、直線セグメントのために、x軸区間および方向を供給しうる。この方法で、例えば、直線の曲がりは、すでに明白に特定される。いくつかの実施形態では、ハフ変換器は、直線セグメントの位置についての付加情報(例えば直線セグメントの始点および終点に関する情報または直線セグメントの長さおよび中心に関する情報など)を供給しうる。しかし、直線セグメントに関する情報を使用することが必ずしも必要ではない点には留意されたい。直線セグメントに関する情報が使用される場合、例えば、前記情報は以下のパラメータの一つ以上を含みうる:
・方向(例えば水平に対する角度)
・始点および終点、又は、長さおよび中心
図8は、例えば、ハフ変換器によって供給されうる弧または直線セグメントを表すためのパラメータの略図を示す。
「例−ジェスチャ記述」
図9aおよび9bを参照して、ジェスチャ1(「5本指、わずかに広げられた手」)のさまざまなジェスチャ記述を以下で説明する。
図9aは、典型的な関連するジェスチャ記述と関係している第1のジェスチャの略図を示す。図9aに記載の略図は、全体として900で示される。略図900は、関連するパラメータを有する弧のリスト910を示す。これに関連して、下方に(例えばyの負方向に)開かれた円弧または楕円弧の細部B1によって、極値点P1の周りにおいて、第1のジェスチャが近似されると仮定される。この円弧または楕円弧の細部は、ハフ変換器において認識され、関連するパラメータ(例えば位置、曲率半径および向き)によって表されうる。同様に、第1のジェスチャは、極値点P2の周辺の弧B3によって近似され、極値点P3の周辺の弧B5によって近似され、極値点P4の周辺の弧B7によって近似され、極値点P5の周辺の弧B9によって近似される。加えて、第1のジェスチャのジェスチャ領域の輪郭線は、極値点P6の周辺の弧B2によって、極値点P7の周辺の弧B4によって、極値点P8の周辺の弧B6によって、そして、極値点P9の周辺の弧B8によって近似される。
弧のリスト910は、このように、例えば、位置、向きおよび(任意選択で) 曲率半径などの関連するパラメータによって弧B1〜B9を表しうる。第1のジェスチャのジェスチャ領域の輪郭線は、このように、例えば、弧の、および/または、完全な弧(例えば円弧または楕円弧)の細部のパラメータのリストによって表しうる。
例えば、リスト910は、所定の規則に従って順序付けられうる。例えば、それらのパラメータによって表された弧は、第1の方向(例えばx方向)に沿って、1つの配置に従って、ソートされうる。例えば、弧B1、B2、B3、B4、B5、B6、B7、B8、B9は、x上向きの方向に配置される。したがって、リスト910も、順序付けられる。あるいは、または、加えて、必要なソーティング基準は、例えば、下方へ開かれた弧および上方へ開かれた弧(または弧の細部)がリスト910に交互に含まれるということもありうる。そして、それが特定の方向に沿って、例えばx方向に沿って、さらにその配列を使用することも可能である。
したがって、図9aに示されているように、ジェスチャ領域の輪郭線に沿って同定された弧(または弧の細部)に基づいて、パラメータによって表された弧のリストが生成されうることは述べるべきことである。パラメータによって表された弧のリスト910は、例えば、ジェスチャ記述142として、および/または、ジェスチャ記述271として、みなされうる。
別のジェスチャ記述について、図9bにより以下に説明する。この目的で、図9bは、別の典型的な関連するジェスチャ記述とともに、第1のジェスチャの略図を示す。図9bで示されるような第1のジェスチャの輪郭線は、例えば、(例えば円弧または楕円弧の細部の形で)一連の直線セグメントおよび弧部分として少なくとも近似的に示されうる。図9bに示されているように、第1のジェスチャの指の部分を見れば、この指の部分の輪郭線は、例えば一連の直線セグメントL1〜L10および弧部分B1〜B9によって近似的に示されうる。例えば、指部分の輪郭線は、直線セグメントおよび弧部分L1、B1、L2、B2、L3、B3、L4、B4、L5、B5、L6、B6、L7、B7、L8、B8、L9、B9、L10によって近似されうる。例えば、直線セグメントと弧部分は、いずれの場合においても交互の方法で生じうる。しかし、いくつかの直線セグメントが間に入る弧部分なしで生じうる他の実施形態もある。
略図930は、例えば、関連するパラメータによって表されうる輪郭線部分のリスト940を示す。弧部分は、例えば、それらの位置、それらの向きおよび場合によってはそれらの曲率半径によって表されうる。直線セグメントは、例えば、それらの長さおよび方向によって、または、他のパラメータによって(例えば始点および終点または中心によって)表されうる。
リスト940は、例えば、所定の基準に従ってソートされうる。例えば、リストが「自然な」順序でジェスチャ領域の輪郭線の個々の部分を表すように、リストは弧の細部および直線セグメントの「自然な」順序に従ってソートされうる。
ソーティングは、さまざまな基準に基づいて遂行されうる。例えば、直線セグメントは、いずれの場合においても局所極大(例えば下方へ開いた弧の細部)および局所極小(例えば上方へ開いた弧の細部)の間にあることが予め定められうる。例えば、直線セグメントL2は、第1の弧の細部B1および第2の弧の細部B2との間に位置付けされる。隣接する弧の細部は、例えば、それらの距離およびそれらの向きに基づいて同定されうる。線は、例えば、弧の細部(例えばP1およびP6)に属している2つの端点からの線の距離が決定されるという点で、2つの弧の細部との間に伸びるように同定されうる。例えば、点P1およびP6を見ると、線L2がP1およびP6に最も近くなる画像のその直線セグメントであると述べられうる。このように、この位置関係は、例えば、個々の弧の細部および直線セグメントを順序付けるために評価されうる。
しかし、他の配列方式も、可能である。例えば、(関連するパラメータだけでなく)最初に弧の細部の全てがリストに含まれ、そして、次に、直線セグメント(そして、それらのパラメータ)がリスト化されるように、そのリストは順序付けられもしうる。当然、リスト940における逆順も可能である。
2つの弧の細部を接続する直線セグメントに関してどのようにその位置の詳細が決定されうるかについての簡単な説明が、図9cを参照にして以下に与えられる。例えば、第1の弧の細部B1の位置および曲率半径、および、第2の弧の細部B2の位置および曲率半径を表す、そして、加えて、弧の細部B1、B2の(それぞれ、下方へ開いた、そして、上方へ開いた)向きを表す情報は、ハフ変換によって、得られうる。加えて、ハフ変換によって、2つの位置パラメータによって、画像の直線を表す情報を得ることは、比較的単純な方法で可能である。例えば、直線は、2つのパラメータによって、すなわち、例えば、それがx軸と交差する(ここではxgで示された)座標によって、そして、方向の指標(例えば角度値φ)によって、表されうる。このことは図9cで示される。このように、例えば、x軸との交点によって、そして、方向の指標φによって、直線が定められる場合、そして、加えて弧B1およびB2の周知の位置パラメータが知られている場合、例えば単純な幾何的な考慮によって、直線gが弧B1およびB2と接触する、または交差する点G1、G2において、決定されうる。このように、第1の弧B1と第2の弧B2を関係付ける直線セグメントL2の始点G1および終点G2は分かる。
換言すれば、ハフ変換によって、画像内の(または同上の前処理されたバージョン内の)直線の位置を表す情報が得られる場合、例えば、弧B1、B2が分かれば、弧に関係する直線セグメントの始点G1および終点G2に関する情報が得られうる。あるいは、どの情報が要求されるかに応じて、対応する直線セグメントの長さに関する情報を得ることも可能である。もちろん、直線に関する情報の1つを使用することは、いくつかの実施形態においては充分でありうる。
「ジェスチャ記述生成器」
ジェスチャ記述生成器のさまざまな詳細について、図10、11および12を参照として以下に説明する。
「ジェスチャ記述生成器−第1の実施形態」
図10は、本発明の実施形態によるジェスチャ記述生成器のブロック図を示す。図10に記載のジェスチャ記述生成器は、全体として1000で示される。ジェスチャ記述生成器1000は、同定されたジェスチャ構成要素に関する情報を受けるように構成され、そして、前記情報は1010で示される。情報1010は、例えば、その画像内で、または、その画像の前処理されたバージョン内で同定されたさまざまな弧(例えば円弧または楕円弧)のパラメータの無順序のリストを含みうる。例えば、同定された円弧または楕円弧のパラメータに関する情報は、ハフ変換器によって得られうる。
任意選択で、情報1010は、その画像において、または、その画像の前処理されたバージョンにおいて、同定された一つ以上の直線のパラメータのリスト(それは、例えば、無順序である)を更に含みうる。例えば、上で説明されたような対応する位置パラメータや(任意選択で)サイズパラメータ(例えば向きおよび/または極値点の座標および/または中心の座標および/または曲率半径および/または他のパラメータ)によって、弧は表されうる。直線もまた、さまざまなパラメータ(例えば方向および/または座標軸との交点および/または原点からの距離および/または長さおよび/または始点および/または終点および/または中心)によって表されうる。
ジェスチャ記述生成器1000は、例えば、ジェスチャ記述1030として、同定されたジェスチャ構成要素の順序付けられた記述を得るように構成されたジェスチャ構成要素順序付け装置1020を含みうる。例えば、ジェスチャ記述1030において順序付けられ、同定されたジェスチャ構成要素がジェスチャ領域の連続の輪郭線を表すように、ジェスチャ構成要素順序付け装置1020は、ジェスチャ記述1030において、個々のジェスチャ構成要素(すなわち例えば弧および間に入る直線)を順序付けるように構成されうる。
換言すれば、ジェスチャ構成要素順序付け装置1020は、特に、ジェスチャ記述が対応する(連続した)順序で輪郭線の連続部分を表すように、ジェスチャ記述1030を得るために、図9により上で説明されたような配列規則に基づいた情報1010によって表されたジェスチャ構成要素を配置しうる。換言すれば、ジェスチャ記述1030の個々のジェスチャ構成要素(例えば弧および直線セグメント)がジェスチャ領域の輪郭線に沿ったそれらの実際のシーケンスによって順序付けられるように、ジェスチャ記述1030は生成されうる。これは、結果として、更なる処理に非常に適した、特に意味のあるジェスチャ記述1030をもたらす。以下で説明されるように、ジェスチャ記述1030は、このように回転に関して特に容易に処理されうる。
加えて、ジェスチャ記述1030がジェスチャ領域の輪郭線に属しているジェスチャ構成要素(例えば弧および任意選択で直線セグメントも)の相対的位置の記述を含むように、ジェスチャ記述生成器1000は、ジェスチャ記述1030を生成するように任意選択で構成されうる。換言すれば、後のジェスチャ構成要素の位置は、例えば、前のジェスチャ構成要素の位置を参照として表されうる。例えば、弧から始まって、直線セグメントが続く場合、例えば、弧から始まって、それが特定の方向に、特定の長さで伸びるという点で、直線セグメントは、定められうる。このように、直線セグメントは、前の弧の位置に関連して、十分に定められる。
しかし、例えば、同定されたジェスチャ構成要素に関する情報がさまざまな弧および/または弧の細部を表すときに、相対的な記述もまた、得られうる。例えば、ジェスチャ領域の輪郭線に沿って互いに続いている弧および/または弧の細部の中心の距離を表している情報は、ジェスチャ記述生成器1000によって、ジェスチャ記述1030において付け加えられうる。あるいは、ジェスチャ記述生成器1000は、ジェスチャ記述1030に輪郭線に沿って互いに続いている極値点間の距離に関する情報も、当然に付け加えうる。
このように、ジェスチャ記述1030が輪郭線に沿って互いに続く同定されたジェスチャ構成要素の相対的位置関係を表すように、ジェスチャ記述1030は生成されうる。
「ジェスチャ記述生成器−第2の実施形態」
図11は、本発明の別の実施形態によるジェスチャ記述生成器のブロック図を示す。図11に記載のジェスチャ記述生成器は、全体として1100で示される。ジェスチャ記述生成器1100は、同定されたジェスチャ構成要素(弧および任意選択の直線)に関する情報1110を受けるように構成される。そして、情報1110は、情報1010に対応する。
例えば、ジェスチャ記述生成器1100は、ジェスチャ記述1130として、情報1110によって表されたジェスチャ構成要素の複数のさまざまな組み合わせを供給するように構成されたジェスチャ構成要素コンバイナ1120を含みうる。同定されたジェスチャ構成要素に関する情報1110が、例えば、関連する位置パラメータを有する3つの同定された弧(「弧1」、「弧2」、「弧3」)についての情報、および、加えて、関連する位置パラメータを有する同定された直線(「直線1」)についての情報を含む場合、例えば、後者がジェスチャ構成要素のさまざまな組み合わせを含むように、ジェスチャ構成要素コンバイナ1120はジェスチャ記述1130を生成しうる。3つの可能性のある組み合わせが、図11の1140、1142および1144で示される。図11において直ちに分かるように、さまざまな組み合わせ1140、1142、1144において、個々のジェスチャ構成要素はさまざまな順序を呈しうる。ジェスチャ記述1130によって表されたジェスチャ構成要素の組み合わせ1140、1142、1144は、例えば、所定の規則に従って選択されうる。しかし、この状況において、さまざまなジェスチャ構成要素がそれらの順序に従って輪郭線に沿って配置されるような方法で、正確にその配列を選択することが必要とは限らない。正確にいうと、前もってこの種の配列を決定することは、場合によってはかなり困難でありうる。この場合において、輪郭線に沿ったジェスチャ構成要素の順序の情報を活用することなしで、(異なる配列および/または順序で)そのジェスチャ構成要素のさまざまな組み合わせを生成すること、そして、さまざまな組み合わせ1140、1142、1144のその後の分類までは、どの組み合わせが実際にありうるジェスチャに対応するかについての決定を実行しないことは、計算能力に関して、より効率的でありうる。
ジェスチャ記述生成器1100はまた、例えば、情報1110によって表されたジェスチャ構成要素のサブセットを選択するように構成されうるジェスチャ構成要素セレクタ1124も任意選択で含みうる。これは、特に、情報1110がジェスチャに属すると誤って同定される「間違った」ジェスチャ構成要素を表すときに、好都合である。
まとめると、例えば、ジェスチャ記述生成器1110は、ジェスチャ記述1130として、例えば情報1110によって表されたジェスチャ構成要素の複数のさまざまな(実際の)サブセットを供給し、そして、与えられた(実際の)サブセットのジェスチャ構成要素が、その組み合わせのうちの異なったものにおいて異なった順序で生ずることが可能であることは述べるべきことである。
「ジェスチャ記述生成器−第3実施形態」
図12は、本発明の別の実施形態によるジェスチャ記述生成器のブロック図を示す。図12に記載のジェスチャ記述生成器は、全体として1200で示される。
ジェスチャ記述生成器1200は、同定されたジェスチャ構成要素および領域情報1212に関する情報1210を受けるように構成される。同定されたジェスチャ構成要素に関する情報1210は、例えば、情報1110に、または、情報1010に、または、情報132に、または、情報252に対応しうる。情報1212は、例えば、情報262に、または、情報620に対応しうる。情報1212は、このように、画像内に(または同上に基づく画像のバージョン内に)含まれたジェスチャ領域を表しうる。例えば、情報1212は、ジェスチャ領域の重心に関する情報、ジェスチャ領域の空間的広がりに関する情報、ジェスチャ領域の角運動量に関する情報、および/または、ジェスチャ領域の偏心に関する情報を含みうる。
ジェスチャ記述生成器1200は、情報1210および領域情報1212を受けて、それに基づいて複合ジェスチャ記述1230を生成するように構成された領域情報ジェスチャ構成要素情報コンバイナ1220を更に含みうる。任意選択で、ジェスチャ記述生成器1200はまた、(例えば、ジェスチャ構成要素順序付け装置1020に対応する)ジェスチャ構成要素順序付け装置、および/または、(例えばジェスチャ構成要素セレクタ1124に対応する)ジェスチャ構成要素セレクタ、および/または、(例えばジェスチャ構成要素コンバイナ1120に対応する)ジェスチャ構成要素コンバイナも含みうる。したがって、ジェスチャ記述1230は、例えば、領域情報も考慮されるような方法で、領域情報1212および同定されたジェスチャ構成要素に関する情報1210に基づいて、ジェスチャ記述生成器1200によって供給される。
一実施形態において、ジェスチャ記述生成器1200は、ジェスチャ記述1230が全体としてジェスチャ領域の特性を表している少なくとも一つの領域パラメータだけでなく、ジェスチャ領域の輪郭部分を表しているパラメータの組を含むように、ジェスチャ記述1230として一組のパラメータを供給するように構成される。
換言すれば、いくつかの実施形態において、ジェスチャ記述1230は、互いに別々に、ジェスチャ領域(位置パラメータLP1〜LP9)の輪郭部分を表している第1のパラメータ、および、ジェスチャ領域(「領域情報1」、「領域情報2」)の特性を表している第2のパラメータを表しうる。この種のジェスチャ記述の例は、図12の1240で示される。
あるいは、ジェスチャ記述生成器1200は、同定されたジェスチャ構成要素に関する情報1210を領域情報1212に結合して、その同定されたジェスチャ構成要素のパラメータが一つ以上の領域パラメータに結合されることを特徴としたジェスチャ記述1230を得るように構成されうる。例えば、ジェスチャ記述生成器1200は、ジェスチャ記述1230として、ジェスチャ領域の輪郭部分を表している一組のパラメータを供給するように構成されうる。これに関連して、ジェスチャ記述生成器1200は、少なくとも一つの領域パラメータを使用するときに、ジェスチャ記述1230を規格化するように構成されうる。例えば、ジェスチャ記述生成器1200は、ジェスチャ領域の全体の広がりに関する情報を使用するときに、円弧の曲率半径および/または直線セグメントの長さを規格化するように構成されうる。もちろん、他の規格化も適用できる。
別の実施形態において、ジェスチャ記述生成器1200は、領域パラメータから、ジェスチャ領域の領域重心の位置に関する情報を表す領域パラメータ決定器を得るように構成されうる。ジェスチャ領域の輪郭部分の位置パラメータがジェスチャ領域の領域重心の位置に関連するように、ジェスチャ記述生成器1200はジェスチャ記述1230を供給するように更に構成されうる。このように、輪郭部分の位置は、ジェスチャ記述1230において、結果としてジェスチャ記述の標準化となるジェスチャ領域の領域重心に関連して、表されうる。この種のジェスチャ記述は、図12において1244で示される。
別の実施形態において、ジェスチャ記述生成器1200は、領域パラメータ決定器からジェスチャ領域の寸法に関する情報を得るように構成されうる。ジェスチャ領域の寸法に関する情報に基づいて、サイズに関して、輪郭部分の位置パラメータまたは寸法パラメータが定められる、および/または、規格化されるように、ジェスチャ記述生成器1200はジェスチャ記述を供給するように更に構成されうる。
いくつかの実施形態では、いくつかの異なる領域パラメータが考慮されうる。例えば、ジェスチャ記述1230は、個々のジェスチャ構成要素の位置がジェスチャ領域の特徴点(例えば領域の重心またはジェスチャ領域の、または、同上の包括的な矩形の左下の点)に関連しているように、生成されうる。加えて、ジェスチャ記述1230は、ジェスチャ構成要素の寸法がジェスチャ領域全体の寸法に関して規格化されるように、同時に生成されうる。対応するアプローチは、ジェスチャが十分に大きくありさえすれば、ジェスチャが特定の画像のジェスチャの表示サイズとは関係なく認識されうることを達成しうる。加えて、それにより、ジェスチャが、画像のジェスチャの正確な位置に関係なく認識されることを達成しうる。このように、ジェスチャが入力画像を取得しているカメラに関してどこで再生されるかに関して基本的に独立しているジェスチャ記述1230が得られる。
要約すると、このように、図10、11および12に関して、同定されたジェスチャ構成要素に関する情報に基づいてジェスチャ記述を得ることについてのさまざまな可能性が説明されたことが述べられうる。これに関連して、ジェスチャ記述は、例えば、既に定められた一定の規則に従って順序付けられるジェスチャ構成要素のリストを含みうる。あるいは、しかし、ジェスチャ記述はまた、(例えば異なる順序の)ジェスチャ構成要素のいくつかの異なる組み合わせも含みうる。任意選択で、例えばサイズに関するジェスチャ記述の個々の規格に関して、又は、ジェスチャ構成要素の位置の位置的な規格に関して、ジェスチャ記述を生成するとき、領域パラメータは考慮されうる。しかし、領域パラメータはまた、独立パラメータとしての機能も果たしうる。
「ジェスチャの分類」
以下に、どのようにジェスチャコードがジェスチャ記述に基づいて得られうるかについての記述が与えられる。ジェスチャ記述に基づいてジェスチャコードを得ることは、分類として理解されうる。
「ジェスチャ分類器−第1実施形態」
図13は、本発明の実施形態によるジェスチャ分類器のブロック図を示す。図13に記載のジェスチャ分類器は、全体として1300で示される。ジェスチャ分類器1300は、ジェスチャ記述1310を受けて、ジェスチャ記述1310に基づいてジェスチャコード1320を供給するように構成される。例えば、ジェスチャ分類器1300は、ジェスチャ記述1310を異なるジェスチャ構成要素のパラメータのベクトルとみなしる。ジェスチャ分類器は、例えば、比較ジェスチャのジェスチャ構成要素のパラメータの組を含んでいるデータベースにアクセスするように更に構成されうる。例えば、ジェスチャ分類器は、ジェスチャ記述1310によって表されたジェスチャ構成要素を表しているパラメータの組と比較ジェスチャに属しているジェスチャ構成要素を表しているパラメータの組との間の類似性の程度を決定するように構成されうる。例えば、ジェスチャ分類器1300は、いずれの比較ジェスチャが最大の類似性があるか、または整合するかを決定するために、ジェスチャ記述1310によって表されたジェスチャ構成要素のパラメータの組と、異なる比較ジェスチャに属しているパラメータの組とを比較しうる。これに関連して、ジェスチャ記述1310に属するジェスチャ構成要素の一組のパラメータと比較ジェスチャのジェスチャ構成要素に属する一組のパラメータとの間の違いは、例えば、数学的距離の大きさを使用するとともに、決定されうる。例えば、このために、さまざまなパラメータの組は、違いがベクトルのノルムによって評価されるベクトルとして解釈されうる。これに関連して、関連するパラメータの組がジェスチャ記述によって表されたパラメータの組との違いが最小となる比較ジェスチャについてのインデックスが決まりうる。ジェスチャコードを決定するためのありうる公式が、図13から見られうる。そこに示された公式によると、例えばベクトルのノルムの形で距離の大きさは算出され、そして、現在の画像のジェスチャ記述のパラメータベクトルと(比較ジェスチャコードiを有している)異なる比較ジェスチャのパラメータベクトルとの間の違いが決まり、その比較ジェスチャは異なるインデックス又は比較ジェスチャコードiによって識別される。このように、例えば、ジェスチャ記述1310によって表されたジェスチャに(パラメータベクトルに関して)最も似たその比較ジェスチャの比較ジェスチャインデッスクスiは決定される。例えば、比較ジェスチャの対応するジェスチャインデックスiは、ジェスチャコード1320としての機能を果たしうる。
要約すると、ジェスチャ分類器1300は、ジェスチャコード1320として、複数の異なる比較ジェスチャからいずれの比較ジェスチャがジェスチャ記述1310によって表されたジェスチャに最も類似しているかについての情報を供給しうることがこうして述べられうる。これに関連して、例えば、個々のジェスチャ構成要素のパラメータは、全体として、パラメータの1つのベクトルとして解釈されうる。ジェスチャパラメータのベクトル間の違いは、数学的ベクトルのノルムを使用するときに、定量的方法で決められうる、および/または、示されうる。
もちろん、他のジェスチャ分類法も使用されうる。
ジェスチャ分類に関して以下にさまざまな開発は、説明する。
「ジェスチャ分類器−第2実施形態」
図14は、本発明の別の実施形態によるジェスチャ分類器のブロック図を説明する。図14に記載のジェスチャ分類器は、全体として1400で示される。
例えば、ジェスチャ分類器1400は、ジェスチャ分類器1300と非常に類似しうる。ジェスチャ分類器1400は、例えば、ジェスチャ記述1310に対応しうるジェスチャ記述1410を受けるように構成されうる。ジェスチャ分類器1400は、ジェスチャコード1320に対応しうるジェスチャ記述1410に基づいてジェスチャコード1420を供給するように構成される。例えば、ジェスチャ分類器1400は、ジェスチャ分類器1300の類推により、ジェスチャ記述によって表された特徴ベクトル(又はパラメータベクトル)と比較ジェスチャの特徴ベクトル(又はパラメータベクトル)の違いを決定し、例えばジェスチャ構成要素の数学的ベクトルのノルムを使用することにより、サイズに関して同上を評価するように構成されうる。しかし、ジェスチャ分類器1400は、加えて、前に決定されたジェスチャから現在のジェスチャへの遷移の遷移確率を考慮するように構成されうる。遷移確率は、例えば、図14において、Ci,i0によって示され、i0は直前に認識されたジェスチャを示す。
遷移確率は、さまざまな基準に基づいて形成されうる。異なる連続したジェスチャが異なる命令または「ワード」を示す限り、例えば、命令および/またはワードの異なるシーケンスのために異なる確率がありうる。例えば、ジェスチャが機械の異なる制御命令を示す場合、例えば、異なる命令の連続したものは異なる確率を含みうる。例えば、命令「B」が命令「A」に続くという可能性は25%でありうる。加えて、命令「C」が命令「A」に続くという可能性はわずか約10%になりうる。例えば、第1の命令「A」が第1のジェスチャによって示され、命令「B」が第2のジェスチャによって示され、命令「C」が第3のジェスチャによって示される場合、第2のジェスチャが第1のジェスチャに続く可能性は、約25%になるだろう。対照的に、第3のジェスチャが第1のジェスチャに続く可能性は、わずか約10%にしかならない。例えば、対応する遷移確率は、量Ci,i0によって示されうる。
加えて、身体モデルは、遷移確率Ci,i0を決定するのに使用されうる。例えば、ジェスチャが人の手によって生成されると仮定される場合、例えば、人の手の身体モデルが使用されうる。十分に小さく選択された特定の時間間隔で画像が取得されると仮定される場合、人が一般的には無条件に痙攣的な動きをしないことを考慮に入れると、手により形成されたジェスチャが、2つの連続した画像の取得間で無制限には一般的に変化しないと考えられうる。このように、連続した画像が充分な繰り返し速度で取得されること、および/または、無条件に痙攣的な動きがされないことが仮定される場合、「類似した」ジェスチャしか2つの連続した画像では起こらないと考えられうる。加えて、連続した画像の全く異なるジェスチャの発生が非常に可能性が低い、または、おそらく不可能でさえあると考えられうる。したがって、ジェスチャインデックスi0を有するジェスチャが前の画像において認識された場合、遷移確率Ci,i0は、ジェスチャインデックスiを有するジェスチャの発生の確率を表す。
対応する遷移確率は、さまざまな方法で考慮されうる。例えば、ジェスチャコードを決定するときに、(現在のジェスチャから始まる)遷移確率が所定の閾値以下にあるジェスチャは、完全に無視できる。換言すれば、現在のジェスチャの現在のジェスチャコードを決定するために、例えば(現在のジェスチャから始まる)遷移確率が十分に高い(例えば所定の値より高い)ようなジェスチャしか使用されないようにもできる。
あるいは、全ての比較ジェスチャは、現在のジェスチャのジェスチャコードを決定するために使用されうる。しかし、また、異なる遷移確率を考慮することも可能である。
このように、ジェスチャ分類のために、第2の異なるジェスチャの遷移の意味に関する確率と、あるいは、または、加えて、身体モデルの構造の範囲内の確率の両方を考慮することは可能である。
「ジェスチャ記述検証」
図15は、本発明の実施形態によるジェスチャ記述検査器のブロック図を示す。図15に記載のジェスチャ記述検査器は、全体として1500で示される。ジェスチャ記述検査器1500は、ジェスチャ記述1510を受けて、パラメータによって表されたジェスチャ構成要素の許容されうる組み合わせをジェスチャ記述1510が示すかどうかを検査するように構成される。これに関連して、ジェスチャ記述検査器1500は、図1に記載の装置100および図2に記載の装置200において、それぞれ、使用されうる。
ジェスチャ記述が、ジェスチャ構成要素の特徴の許容できない組み合わせを表すことが認識される場合、ジェスチャ記述検査器は、例えば、ジェスチャコードが出力されるのを妨げる、あるいは、エラーを信号で伝えるなどの対応する信号を出力する。
ジェスチャ記述検査器1500は、さまざまな方法でジェスチャ記述1510を検査しうる。例えば、ジェスチャ記述検査器1500は、静的ジェスチャモデルを評価するように構成されうる。静的ジェスチャモデルは、個々のジェスチャ構成要素のどの異なる相互の相対的位置関係が実際に許容可能かについて定めうる。例えば、ジェスチャが人の手によってなされると仮定される場合、人の手の個々の関節がいずれの場合においても特定の範囲内でしか動きをなすことができないことを認めるのは容易である。例えば、指の蝶番関節が1軸だけに沿って基本的に曲げられる一方で、球関節として形成される指の中手指節関節は、より多くの自由度を提供する。加えて、例えば、親指の関節は、特に大きな移動量を提供する。しかし、通常、ジェスチャの身体モデルは、例えば、可能性のあるジェスチャに関して特定の制限を定め、前記モデルは移動度を考慮に入れることは、一般に述べられうる。例えば、ジェスチャをつくるために使用された体の一部の(例えば手の)身体モデルは、どのジェスチャが動きの自由度に基づいて実際に可能であるか、そして、どのジェスチャが達成可能でないかの情報を供給する。
ジェスチャ記述1510が身体の動きのモデルに基づいて達成可能でないジェスチャ構成要素の配置を定める場合、例えば、ジェスチャ記述検査器はエラー信号を供給しうる。
あるいは、または、加えて、ジェスチャ記述検査器は、動的ジェスチャモデルを使用するときに、ジェスチャ記述1510によって表されたジェスチャ構成要素の位置を検査するように構成されうる。例えば、動的ジェスチャモデルは、ジェスチャ(またはジェスチャをつくる体の部分)の身体モデルでもよい。動的身体モデルは、例えば、動きのどのシーケンスが可能か、すなわち、2つの連続したジェスチャ(または連続したジェスチャ記述1510)間でどの遷移が可能かを定めうる。例えば、動的モデルは、ジェスチャ構成要素の最初の位置から始まって(または最初のジェスチャから始まって)、特定の時間内において、個々のジェスチャ構成要素のどの位置が可能かについて表しうる。この目的のために、ジェスチャ記述検査器は、例えば、ジェスチャ構成要素の前の位置に関する情報または前に認識されたジェスチャに関する情報を得うる。ジェスチャ記述検査器は、ジェスチャ記述1510によって表されるジェスチャ構成要素の現在の位置が実際に達成可能か否かに関して、(例えばジェスチャをつくっている体の部分の)身体モデルに基づいて、決定を更に下しうる。ジェスチャ記述1510によって表されるジェスチャ構成要素の現在の位置が、最初の位置または最初のジェスチャから始まって達成可能でない場合、ジェスチャ記述検査器は、対応する信号を(例えばエラー信号の形で)供給しうる。
「データベース比較によるジェスチャ分類」
どのようにジェスチャコードがジェスチャ記述に基づいて得られうるかについての簡単な説明が、以下に与えられる。この目的で、図16は、本発明の実施形態によるジェスチャ分類器のブロック図を示す。図16に記載のジェスチャ分類器は、全体として1600で示される。ジェスチャ分類器1600は、ジェスチャ記述1610を受けて、それに基づいてジェスチャコード1620を供給するように構成される。ジェスチャ分類器1600は、ジェスチャ記述1610、または、任意選択で、修正されたジェスチャ記述1610aを受けるように構成されたデータベース比較器1630を含む。データベース比較器は、受け取ったジェスチャ記述1610または修正されたジェスチャ記述1610aを、データベース1650に含まれた複数の比較ジェスチャ記述と比較するように更に構成される。データベース1650の比較ジェスチャ記述が、それらに関連したジェスチャコードを有する場合、例えば、データベース比較器1630は、例えば同定されたジェスチャコード1620として、比較ジェスチャ記述が、現在処理されたジェスチャ記述1610または修正されたジェスチャ記述1610aと整合する、又は、最大の類似性を示すデータベース1650からの比較ジェスチャのジェスチャコードを供給しうる。
このように、ジェスチャ分類器1600は、全般的に見て、データベース比較によって、ジェスチャ記述1610によって表された現在処理されたジェスチャと関連したジェスチャコードを供給することができる。
「動きの考慮」
本発明によるいくつかの実施形態において、ジェスチャ記述生成器は、ジェスチャの動きに関する情報を含んでいるジェスチャ記述を供給するように構成されうる。あるいは、ジェスチャ分類器は、ジェスチャ記述生成器によって供給されたジェスチャ記述から、ジェスチャの動きに関する情報を抽出するように構成されうる。
いずれの場合においても、ジェスチャ分類器は、ジェスチャコードを決定するときに、ジェスチャ領域の動きを考慮するように構成されうる。ジェスチャ分類器は、このように、ジェスチャの動きのさまざまな状態を識別するように構成されうる。
動きの状態の判定は、さまざまな方法で遂行され、例えば、専用の動き判定手段によって、または、ジェスチャ記述生成器によって、または、ジェスチャ分類器によって遂行されうる。
一実施形態において、ジェスチャの動きの状態は、例えば、時間における異なる点において相互に対応するジェスチャ構成要素の位置パラメータの比較に基づいてもたらされる。例えば、相互に対応するジェスチャ構成要素の位置パラメータは、最初に少なくとも2つの異なる時点で決定されうる。このように、ジェスチャ構成要素は、それと関連する第1の時点で同定された選択されたジェスチャ構成要素のために第2の時点で同定されうる。これに関連して、その位置が選択されたジェスチャ構成要素の位置の十分近くに来るジェスチャ構成要素は、第2の時点のために、同定される。このように、選択されたジェスチャ構成要素および第2の時点のために同定されたジェスチャ構成要素は、互いに対応するとみなされる。したがって、選択されたジェスチャ構成要素の位置と第2の時点のために同定された対応するジェスチャ構成要素の位置との間の位置の違いは、位置における変化に関する情報、そして、このように、動きに関する情報としてみなされうる。
2つの時点の間の動きに関する情報は、異なるジェスチャ構成要素のために決定されうる。こうして、異なるジェスチャ構成要素の動きに関する情報は、利用できる。それに基づいて、例えば、異なるジェスチャ構成要素の平均の動きは、決定されうる。ジェスチャ構成要素のこの平均の動きは、全体のジェスチャの動きに関する情報として解釈されうる。
あるいは、または、加えて、異なるジェスチャ構成要素が異なる方向へ移動するかどうかを決定しうる。この場合には、例えば、そこから回転の動きを推測しうる。
したがって、全般的に見て、ハフ変換器によって供給された、ジェスチャ構成要素の位置に関する情報が、ジェスチャの動きに関する情報を得るために評価されうることが述べられうる。
あるいは、または、加えて、領域情報は、ジェスチャの動きに関する情報を得るために評価されうる。例えば、ジェスチャ領域の領域重心の位置の時間的推移は、動き情報を得るために評価されうる。
あるいは、または、加えて、例えば、図6a〜6cによって説明されたように、さまざまな方向の(又は、さまざまな方向に沿った)ジェスチャ領域の運動量は、決定されうる。第1の方向の(例えばx方向の、および/または、画像行に沿った)、および、第2の方向の(例えばy方向、および/または、画像列に沿った)ジェスチャ領域の運動量は、決定されうる。このように、例えば図6a〜6cに記載の運動量mxおよびmyは、決定されうる。ジェスチャ領域が円形から外れる場合、mxおよびmyは一般的に異なる。また、mxとmyの比率は、一般的にジェスチャ領域の回転に応じて変化する。経時的なmxおよびmyの比率の変化(または経時的なmxおよびmyの差の変化、または、経時的なmxおよびmyに基づく他の量の変化)は、例えば、動き情報を得るために使用されうる。
動き情報(それは、例えば、ジェスチャ領域の、または、同上の領域の重心の線速度に関する情報、および/または、回転速度に関する情報、および/または、ジェスチャ領域の時間的変化に関する情報を含みうる情報)は、ジェスチャ分類において、さまざまなジェスチャを識別するために、任意選択で評価されうる。例えば、動き情報は、ジェスチャ記述ベクトルにも含まれうるし、例えば、データベース比較において考慮されうる。
任意選択で、動き情報の時間的経過さえ、(例えば、異なる時点で決定された動き情報の形で)ジェスチャ記述ベクトルに含まれうる。従って、動きの時間的経過は、ジェスチャ分類において考慮されうる。
「ハフ変換」
弧(例えば円弧または楕円弧)を同定するためのハフ変換を実行する際のアプローチについて、以下に説明する。様々な種類のハフ変換が使用されうるというこの点に留意されたい。
例えば、パラメータ化された曲線形状は、ハフ変換によって、画像においてかなり一般的に同定されうるし、そして、加えて、パラメータ化された曲線のパラメータは決定されうる。例えば、特定のパラメータを有する円弧または楕円弧の細部を考える場合、例えば、特定の半径を有するこの種の円弧の中心が(前記中心は所定の点を通過する)、どこに位置づけられうるかについてのさまざまな可能性がある。逆にいえば、特定の点が(異なる半径および異なる中心の)異なる円弧に位置づけされると述べられうる。
ハフ変換を実行することによって、周知の方法で画像の完全な円および楕円および円弧または楕円弧の細部を同定しうる。これに関連して、例えば、円弧の細部(例えば左に開いた円弧の細部、又は右に開いた円弧の細部、又は上方に開いた円弧の細部、又は下方に開いた円弧の細部)は、パラメータ化された曲線としてみなされうる。
ハフ変換を実行するときに、各ピクセルは、それと関連した、このピクセルが対応するパラメータを含んでいる円弧の細部に位置づけられているかについての情報を有する。ここで、前記細部は、右に開いている(または左に開いている、または上方に開いている、または下方に開いている)。したがって、ジェスチャ構成要素は、例えば異なる向きの円弧(例えば完全な円の細部)または楕円弧(例えば完全な楕円の細部)の形で、認識され、識別され、そして、パラメータにより表されうる。
従来のハフ変換を実行するときに、例えば、ピクセルはそれに関連した複数のパラメータの組を有しうる。半円を同定するためのハフ変換を実行するときに、例えば、ピクセルごとに以下の問いが問われる:その点は(例えば既定の向きの)どの半円上にあるか。換言すれば、その問いは、与えられたピクセルを通って伸びている(例えば既定の向きの)半円の中心がどこにあるかに関して解決することになる。第1の半円の半径が既定である場合、与点を通って伸びている(所定の向きの)半円の中心もまた、半円(前記半円は第1の半径を含む)に位置決めされる。別の半円の半径を特定する場合、(既定の向きの)半円の中心は別の半円(前記別の半円は前記別の半径を含む)に位置決めされうる。
ハフ変換から知られているように、可能性のある異なるパラメータの組合せ(半円の半径および中心の座標)は、集積されうる。ハフ変換からよく知られているように、処理は全てのピクセルに関して遂行されうる。このように、ハフ変換を使用するときに、半円(または円あるいは楕円曲線の他の細部)もまた、直ちに同定されうる。
「ハフ変換−並列ハフ変換」
例えば円弧および楕円弧の細部を認識するために使用されうる、いわゆる「並列ハフ変換」を実行するためのアプローチについて、以下に説明する。
この目的のために、図17aは、パターン認識手段を通してグラフィック画像を実行するためのアプローチの図解を示す。具体的には、図17aは、後に図18で示される(ハフ領域またはハフ配列とも呼ばれる)ハフ変換手段1800を通して列ごとに実行される画像またはラスタ画像を示す。
これに関連して、図17aは、複数のラスタ行1720および複数のラスタ列1730からなるラスタ画像1710を示す。例えば、画像1710は、画像110、画像210、画像110の前処理されたバージョン232または画像の分類されたバージョン242でありうる。
加えて、例えば各場合における5つのラスタ列1730のグループ1740が示され、各場合におけるその5つのラスタ列は、信号1812、1814、1816の形で並列にハフ変換手段1800に同時に供給されると仮定される(下で説明される)。
図17bは、並列の部分信号へのラスタ画像変換の間、出現する時間信号の図解を示す。図17bの図解は、全体として1750で示される。図解1750は、複数の非アクティブのラスタ点又はピクセル1762、および、ハッチングでマークされた複数のアクティブのラスタ点又はピクセル1764を含んでいるラスタ画像を示す。アクティブのラスタ点又はピクセル1764は、例えば、曲線形状、例えば円弧または楕円弧の細部を表し、前記細部は「上方に開いている」。上ですでに説明されたように、これに関連したラスタ画像1760は、複数のラスタ行1770および複数のラスタ列1772を含む。時間信号が、例えば7つのラスタ列のグループを含んでいる画像細部1780に基づいて形成されるとも仮定される。例えば、第1の時間信号1782は、ラスタ列のグループ1780に含まれた第1のラスタ列1784と関連している。これに関連して、ラスタ画像1760が関連するラスタ列1784に沿って行ごとにスキャンされるという点で、時間信号1782は出現する。同様に、ラスタ列のグループ1780からの第2のラスタ列1788が行ごとにスキャンされるという点で、第2の時間信号1786は出現する。時間曲線を熟視することで、スキャンしている方向に表された状態で、ラスタ画像1760の同じラスタ行に置かれたアクティブのラスタ点が、結果として時間信号1782、1786、1790上に同じアクティブパルスとなることが明白に分かる。水平線、すなわちラスタ行内で伸びている線は、このように時間信号1782、1786、1790上の同時パルスによって、それ自体、時間信号1782、1786、1790上に感知される。しかし、線の曲がった段は、それ自体は時間信号1782、1786、1790上の時間的にオフセットしたパルスに感知される。
図18は、ハフ変換を実行するための特に有利な手段を示す。これに関連して、ハフ変換を実行するための手段1800は、複数のカスケードステージ1810を含み、それによって、いくつかの信号1812、1814、1814は並列に転送される。ステージは、信号ごとに、遅延素子1820(また、Aとも称される)またはバイパス1824(また、Bとも称される)を含む。加えて、信号は、ステージの出力で、加算素子1830に供給され、前記加算素子はまたCとも称される。ここの加算素子は、好ましくは問題となっているステージの出力で同時にいくつの信号がアクティブであるかを確定するように構成される。このように、いわゆる行総計は加算素子1830の出力1832に存在し、前記行総計はいくつの信号が問題となっているステージの出力で同時にアクティブであるかについて指し示す。行総計1832は、それから、行総計1832を既定の閾値と比較している比較器1834に供給されうる。行総計1832が既定の閾値を上回る場合、このことは少なくとも所定の数の信号が各ステージにおいてアクティブであることを意味する。換言すれば、各ステージに、各ステージの少なくとも所定の数の信号が同時にアクティブであるという点を特徴とした、少なくともほぼ、「直線」がある。比較器1834の出力信号は、そこにおいて遅延素子1836に供給される。いくつかの遅延素子1836は、それぞれがステージ1810の比較器1834の出力と接続されており、遅延素子1836の出力信号がその後の遅延素子1836の入力に供給されるように直列になっている。
信号1812、1814、1816と比較器1834の出力信号の両方が計時された方法で送られるように、遅延素子1820、1836は計時された方法で作動することは更に指摘すべきことである。信号1812、1814、1816と比較器1834の出力信号は、構造の観点から、並列に、および、同方向に転送されるが、ステージ1810において信号1812、1814、1816を転送するために使用されるのが遅延素子1820か、それともバイパス1824かに応じて、個々のステージの信号1812、1814、1816は異なる程度に遅れる。しかし、複数の信号1812、1814、1816の中心信号が比較器1834の出力からの信号として等しい速さで複数のステージを通過し転送されることが好ましい。中心信号はステージの各々において等しく遅れることが好ましく、そして、比較器1834の出力信号は一定の遅延を有してステージを通過して転送されることが好ましい。好ましくは、中心信号は、第1の信号1812および最後の信号1814との間のほぼ中間に位置付けされる、すなわち、それは、ハフ変換手段1800に供給された画像細部の中心にラスタ行を表す、または、画像細部の幅の最大25%分を画像細部の中央から離した間隔で置かれる。ここで画像細部の幅は、ハフ変換手段1800に同時に供給されるラスタ行またはラスタ列の数によって定義される。
構造的な記述に基づいて、パターン認識手段1800の動作モードについて、以下に更に詳細に説明する。これに関連して、画像細部が並列な時間信号1812、1814、1816の形でハフ変換手段1800に供給されると仮定される。異なる時間信号1812、1814、1816が、それらが個々のステージを通過するときに、異なる程度に遅れるように、遅延素子1820またはバイパス1824は構成される。遅延素子1820またはバイパス1824におけるスイッチングによって、その遅延は設定され、そうすると、曲がった曲線形状(好ましくは、円形に曲がった曲線形状または、楕円の形で曲がった曲線形状)は、一つ以上のステージ1810を通過した後にまっすぐになる。換言すれば、ハフ変換手段によって処理された画像細部の曲がった曲線形状は、個々の信号1812、1814、1816が異なる時点でアクティブであるという結果を生じる。しかし、最適に遅延素子1820および/またはバイパス1824を設定することによって、信号1812、1814、1816が異なった速さで個々のステージを通過し、結果として、ステージ1810の特定数を通過した後、信号1812、1814、1816に基づいて転送された理想的には全ての信号がステージの出力で同時にアクティブであることが成し遂げられる。この場合、特定のステージにおいて特に大きい行総計が生じる。そして、前記特に大きい行総計が、対応する合計手段1830によって算出される。この種の大きい行総計の発生は、問題となっているステージの比較器1834がアクティブ信号を出力するということにつながり、それは遅延素子1836のカスケードを介してハフ変換手段の出力1840に再度転送される。このように、時間信号1812、1814、1816の形でハフ変換手段1800に入力される画像細部の曲線形状の位置は、ハフ変換手段1800の出力1840で、出力信号のアクティブの時間的位置から割り出されうる。
信号1812、1814、1816からの所定の信号(また、中心信号とも呼ばれる)が遅延素子1836のカスケードによって転送される比較器1834の出力からの出力信号と等しい速さでハフ変換手段1800のステージ1810を通過することが好ましい点には更に留意すべきである。換言すれば、入力信号1812、1814、1816のうちの少なくとも1つは、並列に、そして、比較器1834の出力信号と同速度で、広がる。このように、ハフ変換手段1800の出力1840に存在し、そして、遅延素子1836のカスケードにおいて通過された比較器1834のそれらの信号に基づく出力信号が、入力信号1812、1814、1816の曲がった線セグメントの発生の時点の方向指標および/または位置を伝えることが達せられうる。ここで、ハフ変換手段1800の出力1840の出力信号のアクティブの発生時点は、曲がった線形が入力信号1812、1814、1816の形でハフ変換手段に入力された時点および/または位置に関する指標を供給する。信号1812、1814、1816のまっすぐになった曲線形状の発生の時点により、明らかに、信号1812、1814、1816の基となっているラスタ画像の曲がった曲線形の空間位置の直接の推測が可能となる。
加えて、比較器1834の出力信号と同様に信号1812、1814、1816のうち少なくとも一つがステージ1810を等しい速さで伝わることを特徴とする示された配置において、曲線の正確な形、すなわち、例えば曲がった曲線における曲率半径は、いずれのステージ1810において比較器1834がアクティブとなるかに影響を与えるのみであることは、留意すべきである。しかし、示された配置における曲がった曲線形状の正確な形は、ハフ変換手段1800の出力1840におけるアクティブ出現の時点に影響を与えない。
このように、ラスタ画像(またはその細部)が異なる速さでハフ変換手段1800のいくつかのステージを通過する複数の並列信号に変換される点で、図18に示されたハフ変換手段1800が、非常に効率的な方法で、ラスタ画像の曲がった曲線形状の位置を確定することに適していることが述べられうる。ステージ1810の出力で列の総計を形成することによって、少なくとも所定の数の信号がそのステージの出力で同時にいつアクティブであるかを認識しうる。そして、それは当初曲がっていた曲線形状(例えば、ほぼ円、又は、ほぼ楕円)が「まっすぐになった」ことを示す。
好ましくは、遅延素子1820またはバイパス1824の適切な選択によって、ハフ変換手段1800は、第1の楕円点(例えば第1の方向の極値点)、第2の楕円点(例えば第1の方向とは反対方向の極値点)、第3の楕円点(例えば第2の方向の極値点)、または、第4の楕円点(例えば第2の方向とは反対方向の極値点)において楕円を近似しうる信号1812、1814、1816によって表されたこの種の曲線形状をまっすぐにするように構成される。加えて、第1の楕円点、第2の楕円点、第3の楕円点、または、第4の楕円点で楕円を近似しうるこの種の曲線形状しかまっすぐにならないことが好ましい。このように、図18に記載のハフ変換手段1800は、第1の向きを有する(例えば、「左方へ開いた」)曲がった線セグメント(略して「弧」と称される)、第2の向きを有する(例えば、「右方へ開いた」)曲がった線セグメント、第3の向きを有する(例えば、「下方へ開いた」)曲がった線セグメント、または、第4の向きを有する(例えば、「上方へ開いた」)曲がった線セグメントを同定するのに適している。出力信号がハフ変換手段1800の出力1840に存在する時点は、信号1812、1814、1816が基にしているラスタ画像の同定された曲線形状(または線セグメントまたは弧)の位置(すなわち異なる向きを有する曲がった線セグメントのパラメータ)を表す。
ハフ変換手段1800の時間信号1782、1786、1790が入力信号1812、1814、1816として供給され、そして、信号1812、1814、1816がハフ変換手段1800の個々のステージ1810において異なる程度に遅れると仮定される場合、時間信号1782、1786、1790の遅延の異なる程度がラスタ画像1760のディストーションに対応し、それにより、曲がった曲線形状(「弧」)は曲げられて直線に変えられうることは明らかになる。しかし、時間信号1782、1786、1790のいくつかの同時のアクティブに対応する直線は、上で説明されたように、ハフ変換手段1800で認識されうる。
「ハフ変換−参照曲線」
図19は、本発明の実施形態によるパターン認識手段の利用のための典型的な参照曲線の図解を示す。換言すれば、図19は、発明のパターン認識手段の利用のための参照曲線形状の2つの例の図解を示す。図19の図解は、全体として1900で示される。
第1の図解1910は、ラスタ画像の形で、第1の曲率半径r1を有する円(または楕円)曲線の部分(または細部)を近似している第1の参照曲線形状を表す。第2の図解1920は、ラスタ画像の形で、第2の曲率半径r2を有する円(または楕円)の部分(または細部)に近似している第2の参照曲線形状を表し、そして、その第2の曲率半径r2は、第1の曲率半径r1より大きい。加えて、第3の図解1930は、ラスタ画像の形で、第3の参照曲線形状を示し、そして、それはまた、第3の曲率半径r3を有する円(または楕円)の線の部分又は細部を表す。第3の曲率半径r3は、第1の曲率半径r1より小さい。このように、図19の3つの図解1910、1920、1930は、例えば、ハフ変換器130において、または、輪郭線決定器250において、パターン認識手段の利用のための3つの可能性のある参照曲線形状を表す。換言すれば、ハフ変換器130および/または輪郭線決定器250は、例えば、ラスタ画像において、または、ラスタ画像の処理されたバージョンにおいて(例えば画像110において、または、画像または画像細部142において)、図19の図解1910、1920、1930に示された3つの参照曲線形状の一つ以上を認識するように、そして、それ/それらをジェスチャ構成要素(弧又は曲がった線セグメント)と同定するように構成されうる。加えて、パターン認識手段またはハフ変換器は、位置パラメータによってラスタ画像または画像細部において認識された参照曲線形状の位置を表して、そして、例えば、同定されたジェスチャ構成要素に関する情報132を使用するときに、または、輪郭パラメータ252の形で、前記位置パラメータを更なる処理に利用可能にするように構成されうる。
図19によって表された参照曲線は、両方ともパラメータの集積を使用している従来のハフ変換の基礎として役立つことができて、並列ハフ変換において使用されうる。
「ハフ変換−指先の例1」
図20aは、上方に向きを定められた指先の輪郭線を含んでいる典型的な画像細部の略図を示す。図20aに記載の画像細部は、全体として2000で示される。
ラスタ画像2000は、複数のラスタ行2010a〜2010kおよび複数のラスタ列に2012a〜2012mを含む。指先の輪郭線に属しているピクセルはハッチングで示される、そして、他のピクセルはハッチングなしで示される。画像2000は、画像110および/または画像210の細部とみなされうる、または、この種の画像の前処理されたバージョンの細部でありうる。ハフ変換器(例えばハフ変換器130または輪郭線決定器250)は、例えば、上方へ開いた弧(例えば完全な円弧または楕円弧の対応する細部)、下方へ開いた弧、左方へ開いた弧、および/または、右方へ開いた弧を、そこに同定するために画像2000を処理しうる。
この種の弧の細部の同定は、例えば、演算のモードおよび構造が図17a、17b、18および19によって説明された並列ハフ変換器を使用することにより遂行されうる。あるいは、対応する弧もまた、ハフ変換の他の構想を使用して同定されうる。
換言すれば、ハフ変換器は、例えば、比較曲線1910、1920、1930のうちの1つが画像2000に存在するかどうかを確定するように構成されうる。これに関連して、ハフ変換器は、例えば、異なる向きの弧を識別するために、さまざまな向きにおいて画像を処理しうる、あるいは、異なる向きの比較曲線を使用しうる。
本実施例では、ハフ変換器は、画像2000において、(開きの方向を除いて)参照弧1920に対応する下方に開いた弧があると認識しうる。このように、ハフ変換器は、画像領域2020に存在する弧を同定しうるし、一つ以上の位置パラメータによってそれを表しうる。例えば、ハフ変換器は、画像領域2020に存在する弧の極値点P3が第2の行2010bおよび第7の列2012gに位置するという事実に関する情報を供給しうる。
このように、ハフ変換器は、全体として、同定されたジェスチャ構成要素(下方へ開いた、画像領域2020に存在する弧)に関する情報、すなわち、例えば(下方へ開いた)向きについての、そして、(例えば、画像行および/または画像列によって表された)極値点の、または、中心の位置についての情報を供給しうる。
このように、ハフ変換器は、画像2000において示された指先の位置に関する情報を全体として供給しうる。
「ハフ変換−指先の例2」
図20bは、右上を指さしている指を示している画像細部の略図を示す。図20bに記載の画像細部は、全体として2050で示される。画像領域2070は、例えば、下方へ開かれており、極値点P5を含んでいる弧を含み、そして、左方へ開かれた弧は画像領域2080に存在する。弧は、さらにまた、ハフ変換器によって認識されうる。したがって、ハフ変換器は、画像領域2080に存在する弧の極値点P5aの位置に関する情報を供給しうる。
このように、ハフ変換器が、画像において、および/または、画像細部において、および/または、画像の前処理されたバージョンにおいて、弧(例えば完全な弧の細部)をどのように認識しうるか、そして、対応するパラメータ示度(例えば向きおよび極値点の位置)によって、それらをどのように表しうるかが、図20aおよび20bから理解されうる。このように、ハフ変換器は、同定されたジェスチャ構成要素に関する情報132または輪郭パラメータ252を供給しうる。
「記号的アフィン写像」
以下に、どのように記号的アフィン写像がジェスチャ記述生成器140によって、または、ジェスチャ分類器150によって(および/または、ジェスチャ記述生成器270によって、または、ジェスチャ分類器280によって)実行されうるかについての説明が与えられる。
基本的に、3つの異なる種類の記号的アフィン写像は、可能である。
・シフト
・回転
・スケーリング
ジェスチャ記述生成器140またはジェスチャ分類器150は、例えば、いくつかのジェスチャ記述を(例えばデータベース160からの比較ジェスチャ記述162との比較のために)生成しうる。そして、それは、幾何学的な意味で、相互に類似した輪郭線を表し、アフィン写像によって互いに関連して変えられる。
「記号的アフィン写像−シフト」
まず、シフトについて以下に説明する。最初のジェスチャ記述から始まって、例えば、個々のジェスチャ構成要素のための全ての位置パラメータ(例えばx座標およびy座標)がいずれの場合においても同じように変えられるという点で、シフトされたジェスチャ記述は生成されうる。換言すると、例えば、特定の予め定義された値が、(それらが輪郭線に属するので、ジェスチャ記述の生成において考慮される)ジェスチャ構成要素の全ての位置パラメータに加算、または、減算される。例えば、特定値が、x方向の位置パラメータに加算されうる。あるいは、または、加えて、(別の)特定値は、y方向の位置パラメータに加算、または、減算されうる。このように、シフトは、ジェスチャ構成要素の位置パラメータの単純な変化によって遂行されうる。
いくつかの実施形態では、その位置は規格化されうる。これに関連して、一つ以上の任意の領域パラメータは、評価されうる。
「記号的アフィン写像−回転」
回転の機能について、以下に説明する。これに関連して、図21について述べる。図21は、循環的にジェスチャ記述を順に回転することによるアプローチの略図を示す。最初のジェスチャ記述は、図21の2110で示される。ここから始まって、一つ回転したジェスチャ記述2120は、第1の循環的回転によって得られる。更なる循環的回転によって、二つ回転したジェスチャ記述2130は得られる。図21から分かるように、個々のジェスチャ構成要素は、循環的に回転される。循環的な回転の方向は、異なるように選択されうる。基本的に、ジェスチャ記述が各場合において更に回転されることになるジェスチャ構成要素の数はランダムにも選択されうる。循環的に回転されたジェスチャ記述2120、2130は、最初のジェスチャ記述2110によって表されたジェスチャに関して回転されたジェスチャを表す。一実施形態において、最初のジェスチャ記述2110と(一つ以上の)循環的に回転されたジェスチャ記述2120、2130は、データベースに格納された比較ジェスチャ記述と比較されうる。
適切な回転を特定するために、一つ以上の領域パラメータは、任意選択で使用されうる。例えば、領域パラメータは、ジェスチャ領域がどの方向において最大の範囲を有するかについて表しうる。この情報は、最初のジェスチャ記述が回転されることになる角度(前記角度は、例えば、多くのジェスチャ構成要素によって表される)を特定するために使用されうる。
「記号的アフィン写像−スケーリング」
ジェスチャ記述のスケーリングについて、以下に説明する。ジェスチャ記述のスケーリングは、例えば、最初のジェスチャ記述から始まったサイズ決定パラメータのスケーリングを含むが、形状決定パラメータは不変のままである。
例えば、直線については、長さパラメータはスケールされるが、方向パラメータは不変のままでありうる。円または円の細部の記述に関しては、半径パラメータだけは変化するが、その一方で、角度パラメータまたは方向パラメータは不変のままである。
したがって、例えば拡張中心から離れた、または、拡張中心方向への拡張という意味において、位置パラメータ(直線の始点、直線の終点、円の中心または円の極値点)をスケールすることもまた可能である。
図22は、ジェスチャ記述のスケーリングのためのアプローチの略図を示す。最初のジェスチャ記述は、2210で示される。一回スケールされたジェスチャ記述は、2220で示される。二回スケールされたジェスチャ記述(または異なってスケールされたジェスチャ記述)は、2230で示される。上で説明されたように、例えば、円の半径パラメータおよび直線セグメントの長さパラメータがスケーリングファクタ(例えば1、2)を使用してスケールされるという点で、スケールされたジェスチャ記述2220、2230は、最初のジェスチャ記述2210と異なる。最初のジェスチャ記述2210およびスケールされたジェスチャ記述2220、2230は、データベースが提供している比較ジェスチャ記述とジェスチャ分類器によって比較されうる。
「アプリケーション1」
ジェスチャ認識のための本発明装置の1つの考えられるアプリケーションについて図23を参照して以下に説明する。図23に記載の装置は、全体として2300で示される。
装置2300は、例えば(2310で示された)カメラの形で、画像取得手段を含む。画像取得手段2310は、その画像取得手段によって取得された画像を表している画像信号2312を供給する。装置2300は、例えば、本明細書において説明されたジェスチャ認識器の一つでありうるジェスチャ認識器2310を更に含む。ジェスチャ認識器2310は、例えばジェスチャコードの形で、画像内に認識されたジェスチャを表している情報2322を、画像を表している画像信号2312に基づいて供給するように構成される。情報2320は、デバイス2330が制御されるための制御情報として役立つために制御されるデバイス2330に供給されうる。
このように、制御されるデバイス2330は、例えばジェスチャ認識器2320によって認識されたジェスチャに基づいて、異なる状態に設定されうる。第1のジェスチャが認識される場合、これは、制御されるデバイス2330による第1の命令として、制御信号2322に基づいて理解されうる。しかし、第2のジェスチャが第1のジェスチャとは異なることを認識される場合、これは、制御されるデバイス2330による第2の命令として理解されうる。このように、制御されるデバイス2330の機能は、ジェスチャ認識器2320によって認識されたジェスチャに基づいて制御され、そして、異なるジェスチャが制御されるデバイス2330のための異なる命令を示すことが全体として述べられる。
「アプリケーション2」
本発明による別の実施形態について、図24を参照に以下に説明する。図24は、本発明の実施形態によるカメラを制御する装置のブロック図を示す。図24に記載の装置は、全体として2400で示される。装置2400は、画像信号2412を供給するように構成されたカメラ2410を含む。装置2400は、本明細書において説明されたジェスチャ認識器に対応するジェスチャ認識器2420を更に含む。例えば、ジェスチャ認識器2420は、画像信号2412に基づいて、例えば、位置決め信号2422として用いられうるジェスチャコードを供給するように構成される。例えば、位置決め信号2422は、カメラ2410のチルトおよび/またはパンを遂行するのに利用されうる。このように、例えば、画像信号2412によって表された画像において認識されたジェスチャに応じて、カメラ2410のチルトおよび/またはパンは、遂行されうる。このように、全体として、ジェスチャは、カメラ2410の位置合わせを制御するために使用されうる。あるいは、または、加えて、例えば、速写、ズーム機能、露光パラメータの設定など、カメラの別の機能は、制御されうる。
「方法1」
方法の記載について、以下に与える。図25は、本発明の実施形態による画像のジェスチャを同定する方法のフローチャートを示す。図25に記載の方法は、全体として2500で示される。
方法2500は、同定されたジェスチャ構成要素に関する情報を得るために、画像内の、または、画像の前処理されたバージョン内の弧を、同定されたジェスチャ構成要素と同定するためにハフ変換を実行するステップ2510を含む。
その方法は、加えて、同定されたジェスチャ構成要素に関する情報を使用するときに、ジェスチャ記述を生成するステップ2520を含む。
方法2500は、比較の結果として、認識されたジェスチャのジェスチャコードを供給するために、それらと関連したジェスチャコードを有する複数の比較ジェスチャ記述と、ジェスチャ記述を比較するステップ2530を更に含む。
方法2500は、本発明装置に関して本明細書において説明された全ての特徴および機能によって、任意選択で補充されうる。
「方法2」
ジェスチャを同定する別の方法は、図26を参照に以下に簡潔に述べられる。図26に記載の方法は、全体として2600で示される。方法2600は、全体として、画像2610に基づいてジェスチャ識別子2612を供給するように構成される。第1の(任意選択の)ステップ2620において、方法2600は、有用な情報を伝えている画像領域を選択することを含む。このように、例えば、画像領域2622は、同定されうる。更なるステップ2630において、方法2600は画像領域2622(または画像2610)のピクセルを同定することを含む。ここで、前記ピクセルはジェスチャに属する。こうして、同定されたピクセルを表す情報2632は利用できる。同定されたピクセルに関する情報2632に基づいて、既定の形状(例えば異なる開き方向の弧)の輪郭線部分は、輪郭線部分を表す輪郭パラメータを得るために、更なるステップ2640において同定されうる。このように、例えば輪郭線部分を表す輪郭パラメータ2642は得られる。加えて、更なるステップ2650において、同定されたピクセルによって定められた領域の特性を表す一つ以上の領域パラメータは、得られうる。こうして、領域パラメータ2652は、利用できる。更なるステップ2660において、例えば、画像に含まれたジェスチャは、同定されうる。その分類は、例えば、複数の比較パラメータの組と、少なくとも一つの領域パラメータおよび少なくとも一つの輪郭パラメータを含んでいるパラメータの組を比較することによって遂行されうる。この状況において、最も可能性のある整合、または少なくとも充分な整合が存在する比較パラメータの組のうちの1つが同定されうる。ジェスチャ識別子2612は、このように、比較パラメータの組のうちのいずれが最も現在のパラメータの組に対応するかに応じて供給されうる。
加えて、方法2600は、本明細書において説明される全ての機能によって補充されうる。
「実施変形例」
本発明装置および本発明方法は、ハードウェアにおいて、または、ソフトウェアにおいて実行されうる。実施は、対応する方法が実行されるように、プログラミング可能な計算機システムと協動しうる電子的に読み込み可能な制御信号を有する例えばディスク、CD、DVD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリなどのデジタル記憶媒体上でありうる。
通常、本発明はまた、このように、コンピュータ・プログラム製品がコンピュータ上で動作するときに、本発明方法を実行するための、機械で読み取り可能なキャリアに格納されたプログラムコードを有するコンピュータ・プログラム製品に存する。
換言すれば、本発明は、コンピュータ・プログラムはコンピュータ上で動作するときに、本発明方法を実行するためのプログラムコードを有するコンピュータ・プログラムとして実現されうる。
次に、本発明によるいくつかの別の実施形態について説明する。
「更なる実施形態1」
一実施形態において、本発明構想は、データストリームから情報を抽出し、そして、発見されたパターンを解釈する、画像または動画記録のための方法および装置である。例えば、本方法および本装置は、文字を認識するのに役立つ。アプリケーションの具体的事例において、文字は、異なる手の位置によって生成されたジェスチャでありうる。例えば、手(または両手)のポーズは、カメラによって記録される。マルチステージ処理方法において、本方法および本装置は、現存のビデオシーケンス(フレーム)または個々の画像を処理して、そこからジェスチャを抽出する。前処理ステージは、例えば、皮膚の色と関連している、画像の分割およびピクセルの分類である。画像は、例えば、皮膚色のピクセルおよび非皮膚色のピクセルに分離される。
例えば、次のステップにおいて、本方法は、輪郭線抽出アルゴリズムと結合される。このように、情報は、領域情報としても、そして、輪郭パラメータとしても存在する。例えば、重心、伸び、および/または、水平および垂直方向の広がりなどの領域パラメータ、角運動量、および/または、偏心は、その領域から決定される。分類アルゴリズムは、例えば、ジェスチャが特定のジェスチャクラスと関連付けている分類アルゴリズムによって、前記パラメータに適用される(これはマッチ・ファインディング又はマッチングとも称される)。
例えば、「WinDelayLine」と呼ばれる装置またはコンピュータ・プログラムなどの形状抽出器、又は、ランレングス符号化方法は、輪郭線抽出器として使用される。発見されたランレングス符号、および/または、空間位置x_i、y_iにより各場合において定められた、発見された線セグメントの、および、局所勾配および/または曲率の要素からなる組が、例えば、分類アルゴリズムによって、格納されたパターンデータの組と照合される。
「アプリケーションの可能性」
本発明によるいくつかの実施形態は、例えばラジオまたはテレビ受像機のなどの各種デバイスの遠隔制御のために使用されうる。本発明による実施形態は、例えば、障害者あるいは高齢者(「高齢者世代」)を援助するために使用されうる。本発明による全ての実施形態は、工業設備を制御するために使用されうる。かなり一般的に、本発明による実施形態は、人と機械の相互のやりとりを改善するために使用されうる。
本発明によるいくつかの実施形態は、このように、文字および/またはジェスチャ認識のための普遍的に適用可能な方法と装置を供給する。
「本発明に関する更なる考え」
本発明によるいくつかの実施形態において、本明細書において説明された、ジェスチャ認識のためのエッジ検出方法のアプリケーションは、特に重要である。
しかし、他の実施形態において、わずかに修正されたエッジ検出方法は、使用されうる。
本発明によるいくつかの実施形態において、グラフィックモデル(例えば手の輪郭線を表しているグラフィックモデル)は、使用されうる。そのグラフィックモデルは、例えば、個々のオブジェクト、および/または、それらのパラメータを数えることによって、画像オブジェクトを表しうる。グラフィックモデルを使用する可能性に関する詳細のために、V.フェラーリら著の「輪郭セグメントネットワークによる物体検出」およびL.ヴォルフら著の「皮質に似たメカニズムを持つロバストな物体認識」(パターン解析と人工知能に関するIEEEの議事録、29巻、No.3、2007年3月)を参照されたい。ここで、前記主題が説明される。
いくつかの実施形態において、皮膚色認識器および、それに続くハフ変換は、ジェスチャ認識の状況の範囲で使用される。ハフ変換器のありうる実施例に関する詳細が、例えば、米国特許出願公開第2005/117781号明細書および米国特許出願公開第2006/210116号明細書において説明される。前述の文書は、今日では車両やASIMOにおいて使用されるハフ変換を実行することに関しての例を説明する。前述の文書で説明された構想の利用は、本発明装置および方法に関連する範囲内で可能である。
本発明によるいくつかの実施形態において、構想は、例えば、E.B.サダースら著の「ノンパラメトリック確率伝搬法を使用したビジュアルハンドトラッキング」という刊行物(発生モデルベースのビジョンに関する、2004年 IEEE CVPRワークショップにて提示された、情報および意思決定システムに関するマサチューセッツ工科大学の研究室の技術報告書、P―2603、2004年5月に掲載)の中で説明されるジェスチャおよび/または手のポーズを決定するために使用されうる。あるいは、または、加えて、例えば、N.リューおよびB.C.ラヴェル著の「アクティブ形状モデルによる手ジェスチャ抽出」(デジタル・イメージング・コンピューティングの議事:テクニックおよびアプリケーション、DICTA 2005にて掲載)において説明されるように、ジェスチャ認識に関連して使用されうる。加えて、例えば、C.シュノールら著の「人間検知のためのグラフィカル情報表現」という刊行物(ビジョンにおける事前情報の表現と使用に関する国際ワークショップ、2006年5月にて掲載)において説明されるように、構想は使用されうる。あるいは、または、加えて、例えば、C.シュノールら著の「オブジェクトクラス認識のためのグラフィックモデルと効率的な推論の学習」という刊行物(パターン認識ドイツ連盟の第28回年次シンポジウム、2006年9月にて掲載)において説明されるように、ジェスチャ認識において、構想は使用されうる。
あるいは、または、加えて、例えば、C.シュノールら著の「部品ベースグラフィカルモデルを用いた脊椎検出とラベリング」という刊行物(メディカルイメージングにおける情報処理2007、シュプリンガー、2007、ページ122〜133にて掲載)において説明されるように、ジェスチャ認識において構想は使用されうる。
あるいは、または、加えて、C.シュノールら著の「DCプログラミングを用いた高連結グラフのためのMAP推論」という刊行物(パターン認識ドイツ連盟の第30回年次シンポジウム、2008年6月に掲載)において説明されるように、ジェスチャ認識に関して使用されうる。
本発明によるいくつかの実施形態において、F.ウェンツェルら著の「ハフ変換に関する方向の表現」という刊行物(VIASPP 2006、コンピュータ・ビジョンの理論と応用に関する第1回国際会議、議事録にて掲載)において説明された構想もまた、ジェスチャ認識に関して使用されうる。
本発明によるいくつかの実施形態において、E.ローソン、Z.ジューリッチ著の「シルエットから手のジェスチャを認識するための凸の欠損の使用」という刊行物(VISAPP 2006、コンピュータ・ビジョンの理論と応用に関する第1回国際会議、議事録にて掲載)において説明された構想もまた、ジェスチャ認識に関して使用されうる。
例えば、「WinDelayLine」と呼ばれるハードウェアまたはソフトウェアを使用するとともに、ジェスチャ認識は実行されうる。例えば、本発明の実施形態において、全ての輪郭構成要素は、1秒につき800回検出されうる。対応する更なる処理は、それに基づいて遂行されうる。
本発明によるいくつかの実施形態において、グラフィックモデルは、使用されうる。これに関連して、例えば、C.シュノール著の「DCプログラミングを用いた高連結グラフのためのMAP推論」という刊行物において説明されるような構想は、ジェスチャ認識のために使用されうる。対応する構想は、例えば、ジェスチャ認識に適合されることもあり、そして、ハフ変換を使用するときに、ジェスチャ構成要素の認識を使用することは可能である。換言すれば、構想「WinDelayLine」は、使用されうる。
本発明のいくつかの実施形態において、例えば、D.M.ダブリラ著の「「高性能な」車両のためのリアルタイム物体検出」およびW.ザイデルら著の「Cassandra:攻撃性検出のためのオーディオビデオ・センサーフュージョン」(IEEE国際会議、調査に基づく先端的な映像および信号(AVSS)、ロンドン(UK)、2007にて掲載)といった刊行物において説明されるような構想を使用することも可能である。
いくつかの実施形態において、U.ミレッツキー、「シュアマン―多項式 ―ルーツと成果―」(手書き認識の最先端に関する第8回国際ワークショップの議事録(IWFHR'02)にて掲載)において説明されるような構想は使用されうる。換言すれば、文字認識のためのシュアマン理論は、例えばハフ変換(また、「WinDelayLine」ジェスチャ認識とも呼ばれる)を使用するときに、ジェスチャ認識に適合されうる。
「手モデルを考慮すること」
本発明のいくつかの実施形態において、手のモデルは、使用されうる。手には、例えば、5本の指(親指、人さし指、中指、薬指および小指)がある。したがって、手の3Dワイヤーフレームモデルは、(例えば、「Adope Maya」によって使用されているように)使用されうる。
その運動モデルは、ロボット工学から知られる。この点においては、「ロボット技術への導入」(VCH出版社)という本を参照されたい。前記本は、運動学が逆運動学へ変換されうることを説明する。そのモデルは、固有の座標(肘関節、手首、中指の骨、各指の回転の自由度、および、手の一体とした平行移動またはシフト)のモデルである。
例えば、「WinDelayLine」(またはハフ変換を実行するための、そして、ジェスチャ構成要素を同定するためのその他の装置)は、各指および手の輪郭を毎秒800コマで個々に追従する。このようにして、手の動きは、ありうる手のポーズの全てからなる状態空間の単一の瞬間的な実際の状態に連続的に変わる。これに関連して、身体的に可能である状態遷移のサブレンジしかない。このように、再評価は、一連の画像シーケンスを評価することによって遂行される。これに関連して、手は、WinDelayLineによって供給された「赤点」で決められる。換言すれば、手は、例えば、円弧または楕円弧の極値点と認識された点で決められる。これに関連して、例えばシュノール―ガブリラ、シュアマン HMM、ポギオ、フェラーリアルゴリズムは使用され始める。
ランクを下げられたバージョンは、アップルiphoneモデルまたはアジテーションマウスパッドである。接触検出モニター領域(タッチスクリーン領域)の代わりに、動きがコンタクトレスの方法でビデオカメラによって記録されることを除いて、接触検出モニター領域(タッチスクリーン領域)上のように同じ動きが実行される。これは興味深いことである。というのは、このようにして、手が制御を可能にするからである。ゆっくりとした上方への動きは、基準量を線形に増加させることができる(スライド制御機能)。金庫またはステレオシステムの音量制御またはVHS受信装置の回転ハブと同じような回転の動きは、光学的に記録できて、洗濯機のスイッチのようなスイッチの回転の動きに変わりうる。
いくつかの実施形態では、(例えば、「WinDelayLine」の構想を使用するときに、)円弧または楕円弧の認識に加えて、ヒストグラム化は使用されうる。
本発明によるいくつかの実施形態において、例えば、N.パラギオス著の「コンピュータ・ビジョンの数学モデルのハンドブック」(シュプリンガー、2005年)という本の8章および9章において説明されるように、構想は任意選択で使用されうる。優先的形状、および/または形状のデフォルト状態値を含んでいるバリエーションのセグメント化は、ジェスチャ認識のために使用されうる。加えて、レベルセット方法およびグループ化だけでなく湾曲伝播(curve propagation)の構想は、ジェスチャ認識のために使用されうる。
このように、いくつかの実施形態は、マニュアル制御のために使用されうる。例えば、本発明方法によって、指先(またはそれらの位置)はビデオカメラによって認識されうる。そして、指先がジェスチャ構成要素としてみなされることが可能である。ハフ変換器、例えばいわゆる「WinDelayLine」を使用することにより、指先だけでなく、すべての局所的極値は、決定されうる。しかし、例えばいくつかの指先に加えて、いくつかの更なる局所的極値の決定で十分である。
このように、ジェスチャ認識、および/または、デバイスの制御に適する装置が、全体として実施されうる。
「優先的形状、および/または形状のデフォルト状態値を含んでいるバリエーションのセグメント化」
本発明によるいくつかの実施形態において使用されうるような、優先的形状を有するバリエーションのセグメント化の構想は、以下に簡単に説明される。詳しくは、「コンピュータ・ビジョンの数学モデルのハンドブック」という本の8章を参照されたい。
ハミルトンの変分法は、変化に関する積分の極小化である。数値デジタルの実施例において、変分法は、積和の極小化として実施されうる。C.シュノールの上述の刊行物によると、例えば、輪郭は、形状ベクトルとして示されうる。例えば、「WinDelayLine」の構想を使用するときに、ハフ変換に基づくと、これは単純である。各輪郭は、位置x_i、y_iおよび曲率を有する一組の極値である。コスト関数により、例えば、データベースの各組は、参照パターンによって整合される。
これは、さまざまな方法で実現されうるバランス調整計算である。とりわけ、例えば、プログラム言語「フォートラン」のプログラムを使用する実現は、可能である。
「湾曲伝播、レベルセット方法およびグループ化」
「湾曲伝播」、「レベルセット方法」および「グループ化」の構想を以下で簡単に説明する。これに関する詳細は、上述の「コンピュータ・ビジョンの数学モデルのハンドブック」の第9章で説明される。湾曲伝播は、それがぴったりとオブジェクトにくっつくまで、オブジェクト周辺にそれ自体を位置付けるコードである。
WinDelayLineは、対照的に、極値の全てを取得し、完全な個の要素からなる組からサブセットを形成し、そして、これと合うデータベースのものがあるかを調べる(または確認する)。
「幾何学的スネークの確率モデル」
いくつかの実施形態では、幾何学的スネーク確率モデルを特徴とする構想が使用されうる。この構想において、前述のDNA塩基配列決定算法を実行しうる。というのは、前記算法もまた、サブシーケンスの集合および挿入および処理量を認識する。
「シフト、または、平行移動、回転および拡大のアフィン写像の利用」
本発明のいくつかの実施形態において、「WinDelayLine」の集合の、および/または、認識されたジェスチャ構成要素を表しているパラメータのアフィン記号的写像は、使用されうる。
例えば、回転は、単純な方法で実行されうる。例えば、(異なるジェスチャ構成要素を表す)文字列の組は、データベース列に関して循環的にシフトされるように経うるし、そして、最大一致がある所で更にチェックされうる。簡単な言葉で、「私がデータベース列に関して循環的にシフトされるように、私は文字列の組を通過し、最もアクティブであるところはどこかをチェックしている」
平行移動もまた、単純な方法で実現されうる。例えば、全ての組のリストが、経られうる。一致がある所で、その(例えばジェスチャの)位置も知ることになる。
続いては、拡大がどのようになされうるかについての説明である。
例えば、円が最初に企図される。曲率半径がそうであるように、(例えば左の極値点、右の極値点、下の極値点および上の極値点の)4つの空間位置ともシフトする。しかし、位置と曲率半径における変化は、互いに結合し、その結果、いくつかの実施形態において、スケーリングパラメータを、計算的に適用する、あるいは適用することは十分である。
本発明によるいくつかの実施形態は、ジェスチャを同定するためにここで説明された「記号的なアフィン幾何学」を使用する。
アフィン写像、すなわち平行移動(シフト)、回転および拡大による「同一の」オブジェクトの変換、平行移動(シフト)が記号的アフィン写像において、容易に実現可能である(「問題ではない」)こと、そして、回転は循環的に組のリストを経ることによって直ちに可能であることが分かる。
以下に、やや難しい記号的アフィン拡大に関する詳細について説明する。
放射の一般原理により、同心の波が起点の外側の方へ流れるという点で、小円は大きい円に変換されうる(=アフィン写像)。以下に、「弧の構成要素の同一性」が何を意味するかについての説明が与えられる。同一の角度要素に関する2つの弧の構成要素Δ(φ)は、「同一」のものとして称される。弧長は異なるが、双方の弧の要素を使用して、異なる曲率半径だけによって構成された円を形成することは可能である。このように、輪郭が絶え間なく連続しているゆえ、不変なままであるため、各オブジェクトの輪郭は、異なるサイズで形成されうる。
換言すれば、我々は、2つの弧要素を同一角度の要素Δ(φ)であるものを同一であると呼び、その弧長は異なるが、双方の弧要素に関して、我々は異なる曲率半径によっての構成される円を形成しうるし、このように、輪郭は絶え間なく連続しているゆえに、不変に維持されるので、異なるサイズで各オブジェクトの輪郭は形成しうる。
記号的なアフィン拡大について、以下に視覚的に説明する。
衛生設備の卸売業者を例にとることにしよう。送水管を備え付けるために、形作られた部分(T形片、15度片、ヤール物、90度角、曲片)は、供給される。これらを用いて、送水管は、(まるで下水管状に)備え付けられうる。
我々のケースにおいて、「送水管」、すなわち、物体の輪郭は、n形片から成る。したがって、我々は、そこに含まれた形作られた部分のリストによって、その物体を表す。
更なる実施例について、以下に説明する。
交差線に関する原理に従う例として、正方形をあげよう。角の点において、我々は、中心から停止面上に外面を射出する。90度角だけでなく直線も維持される。形作られた構成要素に関しては、4つの直線セグメントの長さだけが変化する。同じ90度のエルボ継手を使用することは、可能である。
更なる実施例は、以下に説明する。交差線に関する原理に従って、円をあげよう。起点から始まって、我々は、円のセグメントの外側の方へ、極座標の円を射出させる。形作られた部分は、今、異なる弧長および曲率半径を有する。こうして、我々は、特定の曲率半径iのためにn形部分を供給しなければならない。
更なる実施例について以下に説明する。それでは、例えば瓶に関して、記号的なアフィン拡大とは何であるか。我々は、瓶の中央で交差線に関する原理を適用して、外側(底部、蓋、瓶の首の壁および瓶の本体)の方へ、始点および終点における直線を射出させる。(これは、我々が各形作られた要素にスケーリングファクタを掛けて拡大することを意味する。形作られた部分の探索においては、我々はαが0からαが最大までを掛ける)そして、データベースと比較する。曲がった線要素のために、我々は、より大きい曲率半径を有する形作られた部分を取る。
視覚的に、例えば、瓶の図面を用いてこのことを試みうる。我々は、形状は同一であり、きっちりワンボックス分広げられたものであり、外に拡大された第2の瓶を描く。その方法は、1つの場所、すなわち瓶の首の2つの底の点でのみ慎重を要する。我々は、区切りを通過する半直線を作る。直線セグメントを維持するために、我々は、新しい瓶蓋から半直線区域まで垂直に実行しなければならない。
本発明によるいくつかの実施形態は、このように、ジェスチャを同定するための記号的アフィン写像を使用しうる。これに関連して、ジェスチャ構成要素は、さまざまな方法でシフトされ、および/または、回転され、および/または、スケールされる。シフト、回転およびスケーリングは、例えば、(パラメータで表される)ジェスチャ構成要素の修正されたリストを得るために、対応する操作をジェスチャ構成要素のリストに適用することによって遂行されうる。パラメータで表されたジェスチャ構成要素のさまざまな修正されたリストは、それから、例えば、データベースに格納された比較リストと比較される。
「動きのジェスチャ」
いくつかの実施形態では、静的ジェスチャだけでなく、動きのジェスチャも考慮することは、可能である。例えば、ジェスチャ構成要素の位置の特定の変化が、2つの連続した画像間(またはいくつかの連続した画像間)で生じたときに、ジェスチャは認識されうる。
Figure 2012506579
例えば、コンロおよび洗濯機は、示された方法で作動されうる。
いくつかの実施形態では、低価格の実施例において、2台の相互に垂直に位置するラインスキャンカメラを使用することは、充分でありうる。
Figure 2012506579
「加算」
いくつかの実施形態において使用されうる更なる追加について、以下に説明する。
いくつかの実施形態では、以下の追加の特徴は、任意選択で使用されうる:
a) 結合されたヒンジモデル重心の3D運動学および角運動量の慣性の楕円
および/または
b) 直交のラドン変換を使用した完全な逆再構成。
本発明のいくつかの実施形態において、結合されたヒンジモデルの3D運動学モデルは、このように使用されうる。
手は、多くの関節と自由度からなる。本:ドン・マクロイ著の「ロボット技術 −序文−」(VCH出版社)は、結合された関節系の運動学および逆運動学への導入を含む。
結合された関節モデルの3Dの動きは、重心の並進の動き(重心軌跡)に、そして、結合された関節モデルの、そして、個々の体の部分の動きの固有の回転に表される。その固有の回転は、慣性の楕円の容易軸の固有角運動量(角運動量の固有の行列)によって、主軸変換後に決定される。
記録された2Dカメラ映像において、その画像は、2つの直交軸に沿って2つの直交のラドン変換を使用して細分化される。二値化された画像において、これは、x軸およびy軸に沿って、2Dのヒストグラム化に対応する。単純な「バトルシップ」アルゴリズムを使用して、最初の画像がxヒストグラムおよびyヒストグラムから再構築されうることを数値的に示すことは可能である。ヒストグラムのxおよびy重心は、算出される。このように、オブジェクトの画像の(x,y)重心は知られ、そして、重心の動きの軌跡は画像ごとに記録されうる。偏心(不均衡)の計測としての角運動量は、xおよびy方向において測定される。このように、不規則に形作られた本体は、この計測(イプシロン環境計測)によって分離されうる。
さらに詳しくは、マルタン・ド・ラ・ゴルスらによる「テクスチャ、シェーディングおよび自己遮蔽を用いたモデルベースの手追跡」という発表、および、マルタン・ド・ラ・ゴルスらによる「テクスチャ、シェーディングおよび自己遮蔽を用いたモデルベースの手追跡」という論文を参照されたい。記載の2つの刊行物は、CVPR2008(コンピュータ・ビジョンとパターン認識でのIEEEコンピュータサイエンス学会)で紹介された。

Claims (42)

  1. 画像(110;210)内のジェスチャを認識するための装置(100;200)であって、
    同定されたジェスチャ構成要素に関する情報(132;252)を得るために、前記同定されたジェスチャ構成要素として、前記画像内の、または、前記画像の前処理されたバージョン(232、242)内の弧(B1〜B9)を同定するように構成されたハフ変換器(130;250)と、
    前記同定されたジェスチャ構成要素に関する前記情報を使用するときに、ジェスチャ記述(142;272)を得るように構成されたジェスチャ記述生成器(140;270)と、
    比較の結果、認識されたジェスチャのジェスチャコード(120;220)を供給するために、前記ジェスチャ記述を、それらと関連したジェスチャコードを有する複数の比較ジェスチャ記述と前記比較をするように構成されたジェスチャ分類器(150;280)と、を含むこと、を特徴とする、装置。
  2. 前記装置は、ジェスチャ領域の領域パラメータ(262)を決定するように構成された領域パラメータ決定器(260;600)を含み、
    前記ジェスチャ記述生成器(270)は、前記領域パラメータを使用するときに、前記ジェスチャ記述(272)を得るように構成されること、を特徴とする、請求項1に記載の装置。
  3. 前記領域パラメータ(262)は、それぞれに領域輪郭の前記領域の特性を表すこと、を特徴とする、請求項2に記載の装置。
  4. 前記領域パラメータ決定器(260)は、前記領域パラメータとして、前記ジェスチャ領域の領域重心(S)に関する情報、または、
    前記ジェスチャ領域の範囲(L1、L2)に関する情報、
    または、前記ジェスチャ領域の運動量(M)に関する情報、
    または、前記ジェスチャ領域の偏心(E)に関する情報、を得るように構成されること、を特徴とする、請求項2または請求項3に記載の装置。
  5. 前記ジェスチャ記述生成器(270)は、前記ジェスチャ記述(272)として、前記ジェスチャ領域の輪郭部分を表しているパラメータの組を供給するように構成されること、および、
    前記ジェスチャ記述生成器は、前記領域パラメータを使用するときに、前記ジェスチャ記述を規格化するように構成されること、を特徴とする、請求項2〜請求項4のいずれかに記載の装置。
  6. 前記領域パラメータ決定器(260)は、前記領域パラメータ(262)として、前記ジェスチャ領域の領域重心の位置に関する情報を得るように構成されること、および、
    前記ジェスチャ記述生成器(270)は、前記ジェスチャ領域の前記輪郭部分の位置パラメータが前記ジェスチャ領域の前記領域重心(S)の前記位置に関連しているように、前記ジェスチャ記述(272)を供給するように構成されること、を特徴とする、請求項2〜請求項5のいずれかに記載の装置。
  7. 前記領域パラメータ決定器(260)は、前記領域パラメータ(262)として、前記ジェスチャ領域の寸法(L1、L2)に関する情報を得るように構成されること、および、
    前記ジェスチャ記述生成器(270)は、前記ジェスチャ領域の前記寸法に関する前記情報に基づいて、サイズに関して、前記輪郭部分の位置パラメータまたは寸法パラメータが規格化されるように、前記ジェスチャ記述を供給するように構成されること、を特徴とする、請求項2〜請求項6のいずれかに記載の装置。
  8. 前記ハフ変換器(130;250)は、同定されたジェスチャ構成要素として、さまざまな方向に前記画像を通って伸びている複数の直線セグメントを、同定するように構成されること、を特徴とする、請求項1〜請求項7のいずれかに記載の装置。
  9. 前記ハフ変換器(130;250)は、同定された直線セグメントの位置、長さ、または、方向に関する情報を供給するように構成されること、および、
    前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ記述を生成するための前記同定された直線セグメントに関する、前記ハフ変換器により供給された前記情報(132;252)を使用するように構成されること、を特徴とする、請求項8に記載の装置。
  10. 前記ジェスチャ記述生成器(140;270)は、同定されたジェスチャ構成要素(B1〜B9、L1〜L10)のパラメータの順序付けられたリストとして前記ジェスチャを表しているジェスチャの記述を、前記ジェスチャ記述(142;272)として得るように構成されること、を特徴とする、請求項1〜請求項9のいずれかに記載の装置。
  11. 前記ジェスチャ記述生成器(140;270)は、
    前記順序付けられた同定されたジェスチャ構成要素が、それらのシーケンスに従って、ジェスチャ領域の連続の輪郭線に沿って順序付けられるような、または、
    前記順序付けられた同定されたジェスチャ構成要素が、前記ジェスチャ領域の連続の輪郭線を表すような、方法で、前記ジェスチャ記述(142;272)を順序付けるように構成されること、を特徴とする、請求項10に記載の装置。
  12. 前記ハフ変換器(130;250)は、前記同定された弧の位置、向き、弧長、曲率半径、または、曲率の角度に関する情報(132;252)を供給するように構成されること、および、
    前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ記述(142;272)を生成するために、前記同定された弧の前記位置、前記向き、前記弧長、前記曲率半径、または、前記曲率の角度に関する、前記ハフ変換器によって供給された前記情報を使用するように構成されること、を特徴とする、請求項1〜請求項11のいずれかに記載の装置。
  13. 前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ記述がジェスチャ領域の輪郭線に属する円弧または楕円弧(B1〜B9)の相対的位置関係についての記述を含むように、前記ジェスチャ記述(142;272)を生成するように構成されること、を特徴とする、請求項1〜請求項12のいずれかに記載の装置。
  14. 前記ジェスチャ記述生成器(140;270)は、前記各円弧または楕円弧の向きに関する、前記ハフ変換器によって供給された情報を、同定された円弧または楕円弧(B1〜B9)のための前記ジェスチャ記述(142;272)に含むように構成されること、を特徴とする、請求項1〜請求項13のいずれかに記載の装置。
  15. 前記ジェスチャ記述生成器(140;270)は、前記同定された円弧または前記同定された楕円弧の極値点(P1〜P9)の位置に関する、前記ハフ変換器(130;250)によって供給された情報を、同定された円弧または楕円弧(B1〜B9)のための前記ジェスチャ記述(142;272)に含むように構成されること、を特徴とする、請求項1〜請求項14のいずれかに記載の装置。
  16. 前記ハフ変換器(130;250)は、曲率半径が大きさの点で所定の最大許容曲率半径よりも小さいような円弧または楕円弧(B1〜B9)だけを同定するように構成されること、を特徴とする、請求項1〜請求項15のいずれかに記載の装置。
  17. 前記ジェスチャ記述生成器(140;270)は、選択された隣接する同定されたジェスチャ構成要素(B1〜B9、L1〜L10)をつぎ合わせることによって、前記ジェスチャの記述を生成するように構成されること、および、
    前記ジェスチャ記述生成器は、前記選択されたジェスチャ構成要素が始点から終点までの連続線形状を表すように、同定されたジェスチャ構成要素の全体から、前記ジェスチャの前記記述に使用された前記選択されたジェスチャ構成要素を選択するように構成されること、を特徴とする、請求項1〜請求項16のいずれかに記載の装置。
  18. 前記ジェスチャ記述生成器(140;270)は、前記同定されたジェスチャ構成要素(B1〜B9、L1〜L10)に基づいて、ジェスチャ領域の輪郭線の連続した部分を表している特徴ベクトルを生成するように構成されること、を特徴とする、請求項1〜請求項17のいずれかに記載の装置。
  19. 前記ジェスチャ分類器(150;280;1300;1400;1600)は、特徴ベクトルと比較特徴ベクトルとの間の違いの尺度を得るために、そして、前記違いの前記尺度に基づいて、前記特徴ベクトルに属しているジェスチャコードを決定するために、前記ジェスチャ記述(142;272)の前記情報を含んでいる前記特徴ベクトルを、比較ジェスチャと関連した複数の前記比較特徴ベクトルと比較するように構成されたデータベース比較器(1630)を含むこと、を特徴とする、請求項1〜請求項18のいずれかに記載の装置。
  20. 前記画像内のエッジを認識して、前記画像(310)に基づいて、前記画像の前記前処理されたバージョン(320)としてエッジ画像を生成するように構成されたエッジ認識器(340)を含むこと、を特徴とする、請求項1〜請求項19のいずれかに記載の装置。
  21. 明度がジェスチャ領域に属しているピクセルとして所定の範囲にあるピクセルを同定するように構成されること、を特徴とする、請求項1〜請求項20のいずれかに記載の装置。
  22. 前記装置は、隣接するジェスチャ領域を含む画像細部を前記画像(310)内において同定するように構成された画像細部セレクタ(350)を含むこと、および、
    前記ハフ変換器(130;250)は、前記画像細部に対応する前記画像の前処理されたバージョンを処理するように構成されること、を特徴とする、請求項1〜請求項21のいずれかに記載の装置。
  23. 前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ記述(142;272)として、ジェスチャ領域の輪郭部分を表しているパラメータの順序付けられた組を供給するように構成されることと、
    前記ジェスチャ分類器(150;280)は、パラメータの前記順序付けられた組と比較パラメータの組との間の違いに関する情報を得るために、パラメータの前記順序付けられた組(2110)を比較ジェスチャと関連した複数の前記比較パラメータの組と比較するように構成されることと、
    前記ジェスチャ分類器は、パラメータの前記順序付けられた組の一つ以上の循環的に回転したバージョンと前記比較パラメータの組との間の違いに関する情報を得るために、パラメータの前記順序付けられた組の一つ以上の循環的に回転したバージョン(2120、2130)を前記複数の比較パラメータの組と比較するように構成されることと、
    前記ジェスチャ分類器は、前記違いに関する前記情報に基づいて、パラメータの前記順序付けられた組に属している、または、パラメータの前記順序付けられた組の回転したバージョンに属している、ジェスチャコード(120;220)を決定するように構成されること、を特徴とする、請求項1〜請求項22のいずれかに記載の装置。
  24. 前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ記述(142;272)として、ジェスチャ領域の輪郭部分を表しているパラメータの順序付けられた組を供給するように構成されることと、
    前記ジェスチャ分類器(150;280)は、パラメータの前記順序付けられた組と比較パラメータの組との間の違いに関する情報を得るために、パラメータの前記順序付けられた組(2210)を、比較ジェスチャと関連している複数の前記比較パラメータの組と比較するように構成されることと、
    前記ジェスチャ分類器は、パラメータの前記順序付けられた組の少なくとも一つのスケールされたバージョンと前記比較パラメータの組との間の違いに関する情報を得るために、パラメータの前記順序付けられた組の一つ以上の前記スケールされたバージョン(2220、2230)を、前記複数の比較パラメータの組と比較するように構成されることと、
    前記ジェスチャ分類器は、前記違いに関する前記情報に基づいて、パラメータの前記順序付けられた組に属している、または、パラメータの前記順序付けられた組のスケールされたバージョンに属しているジェスチャコードを決定するように構成されること、を特徴とする、請求項1〜請求項23のいずれかに記載の装置。
  25. 前記ジェスチャ分類器(150;280)は、前記一つ以上のスケールされたバージョンが、前記画像に実際に含まれたジェスチャ領域と比較して、サイズの点で拡大または縮小されるスケールされたジェスチャ領域の輪郭を表すように、パラメータの前記順序付けられた組の前記一つ以上のスケールされたバージョン(2220、2230)を得るように構成されること、を特徴とする、請求項24に記載の装置。
  26. 前記ジェスチャ分類器(150;280)は、前記順序付けられた組の前記一つ以上のスケールされたバージョン(2220、2230)を得るために、前記ハフ変換器(130;250)によって供給される、そして、パラメータの前記順序付けられた組の一部である、曲率半径情報をスケールするように構成されること、を特徴とする、請求項24または請求項25に記載の装置。
  27. 前記ジェスチャ分類器(150;280)は、パラメータの前記順序付けられた組の前記一つ以上のスケールされたバージョン(2220、2230)を得るために、パラメータの前記順序付けられた組の一部である直線の長さ情報をスケールするように構成されること、を特徴とする、請求項24〜請求項26のいずれかに記載の装置。
  28. 前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ記述(142;272)として、ジェスチャ領域の輪郭部分を表しているパラメータの組を供給するように構成されることと、
    前記ジェスチャ分類器(150;280)は、前記ジェスチャを形成している体の部分の身体モデルによって、前記体の部分の個々要素の、パラメータの前記組によって表された前記ポーズがとられる確率を決定するように構成されることと、
    前記ジェスチャ分類器は、前記ジェスチャコードを決定するときに、前記確率を考慮するように構成されること、を特徴とする、請求項1〜請求項27のいずれかに記載の装置。
  29. 前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ記述として、ジェスチャ領域の輪郭部分を表しているパラメータの組を供給するように構成されることと、
    前記ジェスチャ分類器は、パラメータ値の前記組が所定の身体の位置条件に反するかどうかを検知し、
    パラメータ値の前記組が所定の位置条件に反する場合、前記ジェスチャコードの供給を抑制するように、または、エラーの信号を送るように構成されること、を特徴とする、請求項1〜請求項28のいずれかに記載の装置。
  30. 前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ記述(142;272)として、ジェスチャ領域の輪郭部分を表しているパラメータの組を供給するように構成されること、および、
    前記ジェスチャ分類器は、前の画像に基づいて決定され、前のジェスチャ状態を表す前のジェスチャコードに応じて、現在のジェスチャ状態を表している現在のジェスチャコードを決定するように構成されること、を特徴とする、請求項1〜請求項29のいずれかに記載の装置。
  31. 前記ジェスチャ分類器(150;280)は、前記現在のジェスチャコードを決定するとき、どの現在のジェスチャ状態が前のジェスチャ状態に基づいて考えられうるかを表している状態遷移許容性情報を評価するように構成されること、を特徴とする、請求項30に記載の装置。
  32. 前記ジェスチャ分類器(150;280)は、前記状態遷移許容性情報によって許容できないものとして表される現在のジェスチャ状態への前のジェスチャ状態からの遷移を抑制するように構成されること、を特徴とする、請求項31に記載の装置。
  33. 前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ領域の回転に関する情報を得るように構成されること、および、
    前記ジェスチャ分類器(150;280)は、前記ジェスチャコード(120;220)を決定するときに、前記ジェスチャ領域の前記回転に関する前記情報を考慮するように構成されること、を特徴とする、請求項1〜請求項30のいずれかに記載の装置。
  34. 前記ジェスチャ分類器(150;280)は、前記ジェスチャ領域の前記回転に関する前記情報に応じて、ジェスチャを識別するように構成されること、を特徴とする、請求項33に記載の装置。
  35. 前記ジェスチャ分類器(150;280)は、前記同定されたジェスチャ構成要素の位置パラメータの時間的推移に基づいて、前記ジェスチャ領域の前記回転に関する前記情報を決定するように構成されること、を特徴とする、請求項33または請求項34に記載の装置。
  36. 前記ジェスチャ分類器(150;280)は、異なる方向に関して前記ジェスチャ領域の運動量(mx、my)を表している領域パラメータを使用するときに、前記ジェスチャ領域の前記回転に関する前記情報を得るように構成されること、を特徴とする、請求項33〜請求項35のいずれかに記載の装置。
  37. 画像内のジェスチャを認識するための方法(2500)であって、
    前記同定されたジェスチャ構成要素に関する情報を得るために、前記画像内の、または、前記画像の前処理されたバージョン内の弧を、同定されたジェスチャ構成要素として、同定するためのハフ変換を実行するステップ(2510)と、
    前記同定されたジェスチャ構成要素に関する前記情報を使用するときに、ジェスチャ記述を生成するステップ(2520)と、
    比較の結果として、認識されたジェスチャのジェスチャコードを供給するために、前記ジェスチャ記述を、それらと関連したジェスチャコードを有する複数の比較ジェスチャ記述と前記比較をするステップ(2530)と、を含むこと、を特徴とする、方法。
  38. コンピュータ・プログラムがコンピュータにおいて実行されるときに、請求項37に記載の方法を実行するための前記コンピュータ・プログラム。
  39. カメラシステム(2400)であって、
    カメラによって取得されたカメラ画像を表しているカメラ信号(2412)を供給するように構成された前記カメラ(2410)と、
    請求項1〜請求項36のいずれかに記載の、画像内のジェスチャを認識するための装置(2420)であって、ジェスチャを認識するための前記装置は、前記カメラ画像を受けて、それに基づいて前記ジェスチャコード(2422)を得るように構成される装置と、
    前記カメラ画像において同定された前記ジェスチャの前記ジェスチャコードに応じて、前記カメラの位置合わせ、焦点合わせ、または、機能をセットするように構成された、カメラ制御器と、を含むこと、を特徴とする、カメラシステム。
  40. デバイス構造であって、
    デバイス制御器を含んでいるデバイスと、
    カメラによって取得されたカメラ画像を表しているカメラ信号を供給するように構成された前記カメラと、
    請求項1〜請求項36のいずれかに記載の、画像内のジェスチャを認識するための装置であって、ジェスチャを認識するための前記装置は、前記カメラ画像を受けて、それに基づいて前記ジェスチャコードを得るように構成される装置と、を含み、
    前記デバイス制御器は、前記ジェスチャコードに応じて、前記デバイスの機能を制御するように構成されること、を特徴とする、デバイス構造。
  41. 画像(110;210)内のジェスチャを認識するための装置(100;200)であって、
    前記同定されたジェスチャ構成要素に関する情報(132;252)を得るために、前記画像内の、または、前記画像の前処理されたバージョン(232、242)内の弧(B1〜B9)を、同定されたジェスチャ構成要素として、同定するように構成されたハフ変換器(130;250)と、
    前記同定されたジェスチャ構成要素に関する前記情報を使用するときに、ジェスチャ記述(142;272)を得るように構成されたジェスチャ記述生成器(140;270)と、
    比較の結果として、認識されたジェスチャのジェスチャコード(120;220)を供給するために、前記ジェスチャ記述を、それらと関連したジェスチャコードを有する複数の比較ジェスチャ記述と前記比較をするように構成されたジェスチャ分類器(150;280)と、を含み、
    前記ハフ変換器(130;250)は、同定されたジェスチャ構成要素として、さまざまな方向に前記画像を通って伸びている複数の直線セグメントを同定するように構成されることと、
    前記ハフ変換器(130;250)は、同定された直線セグメントの位置、長さ、または、方向に関する情報を供給するように構成されることと、
    前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ記述を生成するための前記同定された直線セグメントに関する、前記ハフ変換器によって供給された前記情報(132;252)を使用するように構成されることと、
    前記ジェスチャ記述生成器(140;270)は、前記ジェスチャ記述(142;272)として、同定されたジェスチャ構成要素(B1〜B9、L1〜L10)のパラメータの順序付けられたリストとして前記ジェスチャを表しているジェスチャの記述を得るように構成されることと、を特徴とする、装置。
  42. 画像内のジェスチャを認識するための方法(2500)であって、
    前記同定されたジェスチャ構成要素に関する情報を得るために、前記画像内の、または、前記画像の前処理されたバージョン内の弧を、同定されたジェスチャ構成要素として、同定するために、および、
    同定された直線セグメントの位置、長さ、または、方向に関する情報を供給するために、同定されたジェスチャ構成要素として、さまざまな方向に前記画像を通って伸びている複数の直線セグメントを同定するために、少なくとも一つのハフ変換を実行するステップ(2510)と、
    前記ジェスチャ記述が、同定されたジェスチャ構成要素のパラメータの順序付けられたリストとして、前記ジェスチャを表すように、前記同定されたジェスチャ構成要素に関する前記情報を使用するときに、前記ジェスチャ記述を生成するステップ(2520)であって、
    前記ハフ変換によって供給される前記同定された直線セグメントに関する前記情報は、前記ジェスチャ記述を生成するために使用されるステップと、
    比較の結果として、認識されたジェスチャのジェスチャコードを供給するために、前記ジェスチャ記述を、それらと関連したジェスチャコードを有する複数の比較ジェスチャ記述と前記比較をするステップ(2530)と、を含むこと、を特徴とする、方法。
JP2011532533A 2008-10-23 2009-10-21 画像内のジェスチャを認識するための装置、方法およびコンピュータ・プログラムと、デバイスを制御するための装置、方法およびコンピュータ・プログラム Expired - Fee Related JP5303652B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102008052928A DE102008052928A1 (de) 2008-10-23 2008-10-23 Vorrichtung, Verfahren und Computerprogramm zur Erkennung einer Geste in einem Bild, sowie Vorrichtung, Verfahren und Computerprogramm zur Steuerung eines Geräts
DE102008052928.1 2008-10-23
PCT/EP2009/007547 WO2010046101A1 (de) 2008-10-23 2009-10-21 Vorrichtung, verfahren und computerprogramm zur erkennung einer geste in einem bild, sowie vorrichtung, verfahren und computerprogramm zur steuerung eines geräts

Publications (2)

Publication Number Publication Date
JP2012506579A true JP2012506579A (ja) 2012-03-15
JP5303652B2 JP5303652B2 (ja) 2013-10-02

Family

ID=41394074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011532533A Expired - Fee Related JP5303652B2 (ja) 2008-10-23 2009-10-21 画像内のジェスチャを認識するための装置、方法およびコンピュータ・プログラムと、デバイスを制御するための装置、方法およびコンピュータ・プログラム

Country Status (5)

Country Link
US (1) US8570383B2 (ja)
EP (1) EP2344980B1 (ja)
JP (1) JP5303652B2 (ja)
DE (1) DE102008052928A1 (ja)
WO (1) WO2010046101A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160129000A (ko) * 2014-01-05 2016-11-08 마노모션 에이비 모바일 디바이스를 위한 실시간 3d 제스처 인식 및 트랙킹 시스템
KR101743249B1 (ko) 2016-05-26 2017-06-07 한국과학기술원 엄지 손가락의 움직임을 파악하기 위해 센서를 부착할 기준 벡터를 선정하는 방법, 장치 및 프로그램
JP2022507635A (ja) * 2019-06-19 2022-01-18 シャンハイ センスタイム インテリジェント テクノロジー カンパニー リミテッド インテリジェント車両の運動制御方法および装置、機器並びに記憶媒体

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006062061B4 (de) * 2006-12-29 2010-06-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zum Bestimmen einer Position basierend auf einem Kamerabild von einer Kamera
US8125544B2 (en) * 2008-09-02 2012-02-28 Casio Computer Co., Ltd. Image processing apparatus for extracting quadrangle area in image
DE102011012543A1 (de) 2011-02-26 2012-08-30 Walter Schopf Vorrichtung zur Identifikation und Selektierung gebrauchter Kfz-Katalysatoren mit Einrichtungen zur Freilegung, Erkennung und Rückgewinnung ihrer Inhaltswertstoffe
JP2012212373A (ja) * 2011-03-31 2012-11-01 Casio Comput Co Ltd 画像処理装置、画像処理方法及びプログラム
JP5488548B2 (ja) * 2011-08-04 2014-05-14 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
US10691219B2 (en) 2012-01-17 2020-06-23 Ultrahaptics IP Two Limited Systems and methods for machine control
US20150253428A1 (en) 2013-03-15 2015-09-10 Leap Motion, Inc. Determining positional information for an object in space
US8693731B2 (en) 2012-01-17 2014-04-08 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging
US9501152B2 (en) 2013-01-15 2016-11-22 Leap Motion, Inc. Free-space user interface and control using virtual constructs
US9679215B2 (en) 2012-01-17 2017-06-13 Leap Motion, Inc. Systems and methods for machine control
US8638989B2 (en) 2012-01-17 2014-01-28 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
US11493998B2 (en) 2012-01-17 2022-11-08 Ultrahaptics IP Two Limited Systems and methods for machine control
US9070019B2 (en) 2012-01-17 2015-06-30 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
US12260023B2 (en) 2012-01-17 2025-03-25 Ultrahaptics IP Two Limited Systems and methods for machine control
US8964045B2 (en) * 2012-01-31 2015-02-24 Microsoft Corporation Image blur detection
JP5593339B2 (ja) * 2012-02-07 2014-09-24 日本システムウエア株式会社 自動車のステアリングハンドルを用いるジェスチャー認識装置と手の認識方法及びそのプログラム
JP5867198B2 (ja) * 2012-03-14 2016-02-24 オムロン株式会社 領域指定方法及び領域指定装置
DE102012025564A1 (de) * 2012-05-23 2013-11-28 Elmos Semiconductor Ag Vorrichtung und Verfahren zur Kalibration einer kalibrierbaren Gestenerkennungsvorrichtung zur Übermittlung von Kommandos und Informationen an eine Mensch-Maschineschnittstelle
US9870056B1 (en) * 2012-10-08 2018-01-16 Amazon Technologies, Inc. Hand and hand pose detection
US9285893B2 (en) 2012-11-08 2016-03-15 Leap Motion, Inc. Object detection and tracking with variable-field illumination devices
US8761448B1 (en) * 2012-12-13 2014-06-24 Intel Corporation Gesture pre-processing of video stream using a markered region
US10609285B2 (en) 2013-01-07 2020-03-31 Ultrahaptics IP Two Limited Power consumption in motion-capture systems
US9465461B2 (en) 2013-01-08 2016-10-11 Leap Motion, Inc. Object detection and tracking with audio and optical signals
DE102013000080B4 (de) * 2013-01-08 2015-08-27 Audi Ag Aktivierung einer Kraftfahrzeugfunktion mittels eines optischen Sensors
US9104240B2 (en) 2013-01-09 2015-08-11 Intel Corporation Gesture pre-processing of video stream with hold-off period to reduce platform power
US9459697B2 (en) 2013-01-15 2016-10-04 Leap Motion, Inc. Dynamic, free-space user interactions for machine control
US9632658B2 (en) 2013-01-15 2017-04-25 Leap Motion, Inc. Dynamic user interactions for display control and scaling responsiveness of display objects
US9105103B2 (en) * 2013-01-23 2015-08-11 Leap Motion, Inc. Systems and methods of tracking object movements in three-dimensional space
US9292103B2 (en) * 2013-03-13 2016-03-22 Intel Corporation Gesture pre-processing of video stream using skintone detection
US10620709B2 (en) 2013-04-05 2020-04-14 Ultrahaptics IP Two Limited Customized gesture interpretation
US9916009B2 (en) 2013-04-26 2018-03-13 Leap Motion, Inc. Non-tactile interface systems and methods
CN104143075A (zh) * 2013-05-08 2014-11-12 光宝科技股份有限公司 应用于电子装置的手势判断方法
US9747696B2 (en) 2013-05-17 2017-08-29 Leap Motion, Inc. Systems and methods for providing normalized parameters of motions of objects in three-dimensional space
DE102013010018B3 (de) * 2013-06-14 2014-12-04 Volkswagen Ag Kraftfahrzeug mit einem Fach zum Aufbewahren eines Gegenstands sowie Verfahren zum Betreiben eines Kraftfahrzeugs
US10281987B1 (en) 2013-08-09 2019-05-07 Leap Motion, Inc. Systems and methods of free-space gestural interaction
US10846942B1 (en) 2013-08-29 2020-11-24 Ultrahaptics IP Two Limited Predictive information for free space gesture control and communication
US9582737B2 (en) * 2013-09-13 2017-02-28 Qualcomm Incorporated Context-sensitive gesture classification
US9159115B1 (en) * 2013-09-30 2015-10-13 Emc Corporation Processing vectorized elements associated with IT system images
US9632572B2 (en) 2013-10-03 2017-04-25 Leap Motion, Inc. Enhanced field of view to augment three-dimensional (3D) sensory space for free-space gesture interpretation
US10152136B2 (en) 2013-10-16 2018-12-11 Leap Motion, Inc. Velocity field interaction for free space gesture interface and control
US10168873B1 (en) 2013-10-29 2019-01-01 Leap Motion, Inc. Virtual interactions for machine control
US9996638B1 (en) 2013-10-31 2018-06-12 Leap Motion, Inc. Predictive information for free space gesture control and communication
US9996797B1 (en) 2013-10-31 2018-06-12 Leap Motion, Inc. Interactions with virtual objects for machine control
US9740296B2 (en) * 2013-12-16 2017-08-22 Leap Motion, Inc. User-defined virtual interaction space and manipulation of virtual cameras in the interaction space
WO2015098810A1 (ja) * 2013-12-27 2015-07-02 京セラドキュメントソリューションズ株式会社 画像処理装置および特定図形検出方法
US20150199592A1 (en) * 2014-01-14 2015-07-16 Microsoft Corporation Contour-based classification of objects
US9613262B2 (en) 2014-01-15 2017-04-04 Leap Motion, Inc. Object detection and tracking for providing a virtual device experience
US9767609B2 (en) 2014-02-12 2017-09-19 Microsoft Technology Licensing, Llc Motion modeling in visual tracking
US9679197B1 (en) 2014-03-13 2017-06-13 Leap Motion, Inc. Biometric aware object detection and tracking
US9785247B1 (en) 2014-05-14 2017-10-10 Leap Motion, Inc. Systems and methods of tracking moving hands and recognizing gestural interactions
US9741169B1 (en) 2014-05-20 2017-08-22 Leap Motion, Inc. Wearable augmented reality devices with object detection and tracking
US9400924B2 (en) 2014-05-23 2016-07-26 Industrial Technology Research Institute Object recognition method and object recognition apparatus using the same
JP2016038889A (ja) 2014-08-08 2016-03-22 リープ モーション, インコーポレーテッドLeap Motion, Inc. モーション感知を伴う拡張現実
US9746929B2 (en) 2014-10-29 2017-08-29 Qualcomm Incorporated Gesture recognition using gesture elements
US10552750B1 (en) 2014-12-23 2020-02-04 Amazon Technologies, Inc. Disambiguating between multiple users
US10438277B1 (en) 2014-12-23 2019-10-08 Amazon Technologies, Inc. Determining an item involved in an event
US10475185B1 (en) 2014-12-23 2019-11-12 Amazon Technologies, Inc. Associating a user with an event
US10656720B1 (en) 2015-01-16 2020-05-19 Ultrahaptics IP Two Limited Mode switching for integrated gestural interaction and multi-user collaboration in immersive virtual reality environments
US10429923B1 (en) 2015-02-13 2019-10-01 Ultrahaptics IP Two Limited Interaction engine for creating a realistic experience in virtual reality/augmented reality environments
US9696795B2 (en) 2015-02-13 2017-07-04 Leap Motion, Inc. Systems and methods of creating a realistic grab experience in virtual reality/augmented reality environments
CN104899600B (zh) * 2015-05-28 2018-07-17 北京工业大学 一种基于深度图的手部特征点检测方法
US10599919B2 (en) * 2015-12-31 2020-03-24 Microsoft Technology Licensing, Llc Detection of hand gestures using gesture language discrete values
US10310618B2 (en) 2015-12-31 2019-06-04 Microsoft Technology Licensing, Llc Gestures visual builder tool
US10599324B2 (en) * 2015-12-31 2020-03-24 Microsoft Technology Licensing, Llc Hand gesture API using finite state machine and gesture language discrete values
DE102016100075A1 (de) 2016-01-04 2017-07-06 Volkswagen Aktiengesellschaft Verfahren zur Auswertung von Gesten
CN105740882A (zh) * 2016-01-22 2016-07-06 苏州大学 一种基于多尺度不变量描述的目标识别方法及装置
US10026014B2 (en) * 2016-10-26 2018-07-17 Nxp Usa, Inc. Method and apparatus for data set classification based on generator features
KR101883228B1 (ko) * 2017-02-16 2018-07-30 (주)더블유알티랩 제스처 인식 방법 및 장치
US11290518B2 (en) * 2017-09-27 2022-03-29 Qualcomm Incorporated Wireless control of remote devices through intention codes over a wireless connection
CN107678551B (zh) * 2017-10-19 2021-12-28 京东方科技集团股份有限公司 手势识别方法和装置、电子设备
US20190156270A1 (en) 2017-11-18 2019-05-23 Walmart Apollo, Llc Distributed Sensor System and Method for Inventory Management and Predictive Replenishment
CN107944960A (zh) * 2017-11-27 2018-04-20 深圳码隆科技有限公司 一种无人售货方法和设备
CN108647597B (zh) * 2018-04-27 2021-02-02 京东方科技集团股份有限公司 一种手腕识别方法、手势识别方法、装置和电子设备
US11875012B2 (en) 2018-05-25 2024-01-16 Ultrahaptics IP Two Limited Throwable interface for augmented reality and virtual reality environments
CN111435429B (zh) * 2019-01-15 2024-03-01 北京伟景智能科技有限公司 一种基于双目立体数据动态认知的手势识别方法及系统
SE542978C2 (en) 2019-03-20 2020-09-22 Manomotion Ab A method and device for recognizing a gesture in real-time
US11709252B2 (en) * 2019-08-21 2023-07-25 Arm Limited Topological model generation
US11188145B2 (en) * 2019-09-13 2021-11-30 DTEN, Inc. Gesture control systems
JP2021096652A (ja) * 2019-12-17 2021-06-24 富士通株式会社 画像識別装置、方法、及びプログラム
CN113515981A (zh) 2020-05-22 2021-10-19 阿里巴巴集团控股有限公司 识别方法、装置、设备和存储介质
CN113392847B (zh) * 2021-06-17 2023-12-05 拉萨搻若文化艺术产业开发有限公司 一种藏汉英三语ocr手持扫描翻译装置及翻译方法
CN114067136B (zh) * 2021-10-13 2026-04-24 原力图新(重庆)科技有限公司 图像匹配方法、装置、电子设备、存储介质及相关产品
CN114898457B (zh) * 2022-04-11 2024-06-28 厦门瑞为信息技术有限公司 一种基于手部关键点和transformer的动态手势识别方法和系统
DE102022205181A1 (de) * 2022-05-24 2023-11-30 Ibak Helmut Hunger Gmbh & Co Kg Kanalrohrinspektionssystem sowie Verfahren zur Steuerung eines Kanalrohrinspektionssystems
CN117373114B (zh) * 2023-09-19 2024-07-02 海智合芯科技(深圳)有限公司 基于跟拍图像的手势识别方法、系统、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056861A (ja) * 1999-06-08 2001-02-27 Matsushita Electric Ind Co Ltd 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
JP2003131785A (ja) * 2001-10-22 2003-05-09 Toshiba Corp インタフェース装置および操作制御方法およびプログラム製品
JP2003216931A (ja) * 2002-01-28 2003-07-31 Matsushita Electric Works Ltd 特定パターン認識方法、特定パターン認識プログラム、特定パターン認識プログラム記録媒体および特定パターン認識装置
US6788809B1 (en) * 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548667A (en) * 1991-05-24 1996-08-20 Sony Corporation Image processing system and method thereof in which three dimensional shape is reproduced from two dimensional image data
US6147678A (en) * 1998-12-09 2000-11-14 Lucent Technologies Inc. Video hand image-three-dimensional computer interface with multiple degrees of freedom
JP4377665B2 (ja) 2003-12-01 2009-12-02 本田技研工業株式会社 位置検出用マーク、並びに、マーク検出装置、その方法及びそのプログラム
JP4708422B2 (ja) * 2004-04-15 2011-06-22 ジェスチャー テック,インコーポレイテッド 両手動作の追跡
JP4637618B2 (ja) 2005-03-18 2011-02-23 株式会社ホンダエレシス 車線認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056861A (ja) * 1999-06-08 2001-02-27 Matsushita Electric Ind Co Ltd 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
US6788809B1 (en) * 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
JP2003131785A (ja) * 2001-10-22 2003-05-09 Toshiba Corp インタフェース装置および操作制御方法およびプログラム製品
JP2003216931A (ja) * 2002-01-28 2003-07-31 Matsushita Electric Works Ltd 特定パターン認識方法、特定パターン認識プログラム、特定パターン認識プログラム記録媒体および特定パターン認識装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KERDVIBULVECH: "Vision-Based Detection of Guitar Players' Fingertips Without Markers", COMPUTER GRAPHICS, IMAGING AND VISUALISATION, 2007. CGIV '07, JPN6012043696, 14 August 2007 (2007-08-14), ISSN: 0002308768 *
KIERKEGAARD P: "A METHOD FOR DETECTION OF CIRCULAR ARCS BASED ON THE HOUGH TRANSFORM", MACHINE VISION AND APPLICATIONS, vol. V1992 N5, JPN5012002786, 1992, pages 249 - 263, ISSN: 0002308770 *
MUNIB: "AMERICAN SIGN LANGUAGE (ASL) RECOGNITION BASED ON HOUGH TRANSFORM AND NEURAL NETWORKS", EXPERT SYSTEMS WITH APPLICATIONS, vol. V32 N1, JPN5012002782, 1 January 2007 (2007-01-01), GB, pages 24 - 37, ISSN: 0002308767 *
SAFAEE-RAD R: "APPLICATION OF MOMENT AND FOURIER DESCRIPTORS TO THE ACCURATE ESTIMATION 以下備考", SPEECH PROCESSING 1, JPN5012002785, 14 April 1991 (1991-04-14), US, pages 2465 - 2468, XP010043505, ISSN: 0002308769, DOI: 10.1109/ICASSP.1991.150900 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160129000A (ko) * 2014-01-05 2016-11-08 마노모션 에이비 모바일 디바이스를 위한 실시간 3d 제스처 인식 및 트랙킹 시스템
JP2017505965A (ja) * 2014-01-05 2017-02-23 マノモーション アーベー モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム
KR102285915B1 (ko) * 2014-01-05 2021-08-03 마노모션 에이비 모바일 디바이스를 위한 실시간 3d 제스처 인식 및 트랙킹 시스템
KR101743249B1 (ko) 2016-05-26 2017-06-07 한국과학기술원 엄지 손가락의 움직임을 파악하기 위해 센서를 부착할 기준 벡터를 선정하는 방법, 장치 및 프로그램
JP2022507635A (ja) * 2019-06-19 2022-01-18 シャンハイ センスタイム インテリジェント テクノロジー カンパニー リミテッド インテリジェント車両の運動制御方法および装置、機器並びに記憶媒体

Also Published As

Publication number Publication date
EP2344980B1 (de) 2013-12-18
US20110234840A1 (en) 2011-09-29
US8570383B2 (en) 2013-10-29
JP5303652B2 (ja) 2013-10-02
WO2010046101A1 (de) 2010-04-29
EP2344980A1 (de) 2011-07-20
DE102008052928A1 (de) 2010-05-06

Similar Documents

Publication Publication Date Title
JP5303652B2 (ja) 画像内のジェスチャを認識するための装置、方法およびコンピュータ・プログラムと、デバイスを制御するための装置、方法およびコンピュータ・プログラム
Gurav et al. Real time finger tracking and contour detection for gesture recognition using OpenCV
JP5598751B2 (ja) 動作認識装置
WO2010099034A1 (en) Capturing and recognizing hand postures using inner distance shape contexts
Vishwakarma et al. An efficient interpretation of hand gestures to control smart interactive television
Itkarkar et al. A survey of 2D and 3D imaging used in hand gesture recognition for human-computer interaction (HCI)
Liang et al. Hand gesture recognition using view projection from point cloud
Chanthaphan et al. Facial emotion recognition based on facial motion stream generated by kinect
Patel et al. A survey on hand gesture recognition techniques, methods and tools
Ben Jmaa et al. A new approach for hand gestures recognition based on depth map captured by rgb-d camera
Sultana et al. Vision based gesture recognition for alphabetical hand gestures using the SVM classifier
Lei et al. An investigation of applications of hand gestures recognition in industrial robots
Zhang et al. Adaptive face recognition for low-cost, embedded human-robot interaction
Ke et al. Real-time hand gesture recognition for service robot
Panduranga et al. Dynamic hand gesture recognition system: a short survey
CN118397651A (zh) 一种自定义静态手势识别判定方法及系统
Raza et al. An integrative approach to robust hand detection using CPM-YOLOv3 and RGBD camera in real time
Heer et al. An improved hand gesture recognition system based on optimized msvm and sift feature extraction algorithm
Johnston et al. Sketch recognition of digital logical circuits
Gu et al. Natural hand posture recognition based on Zernike moments and hierarchical classifier
Rusu et al. Human action recognition using global point feature histograms and action shapes
Kakade et al. Dynamic hand gesture recognition: a literature review
Gurav et al. Vision based hand gesture recognition with haar classifier and AdaBoost algorithm
Hasan New Rotation Invariance Features Based on Circle Partitioning
Patil et al. Hand Gesture Recognition for MP3 Player using Image Processing Technique and PIC16F8779.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121115

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130624

R150 Certificate of patent or registration of utility model

Ref document number: 5303652

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees