JP7626523B2

JP7626523B2 - デバイスのハンドジェスチャベースの制御のための方法及びシステム

Info

Publication number: JP7626523B2
Application number: JP2022556503A
Authority: JP
Inventors: ルゥ，ジュウエイ; モハンマドシャム，サイエム; ジョウ，ウエイ; ダイ，ペン; ウ，シアオフェイ; シュイ，ソォンツェン
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2025-02-04
Anticipated expiration: 2040-03-20
Also published as: CN114600072B; BR112022018723A2; JP2023518284A; EP4115273A1; EP4115273A4; CN114600072A; CN119781655A; WO2021184356A1; KR20220144889A; US12001613B2; US20220291755A1; EP4115273B1

Description

本開示は、ハンドジェスチャの検出及び認識並びにハンドジェスチャを使用してテレビ又はスマートフォンのようなデバイスを制御することに関する。

デバイスのカメラによってキャプチャされるデジタルビデオのフレームのシーケンスにおけるハンドジェスチャの機械ビジョンベースの検出（一般的に、当技術分野ではコンピュータビジョンと呼ばれる）を使用する、そのようなデバイス（例えばスマートフォン、タブレット、テレビ等）のリモート制御は、改善されたユーザ体験を提供するために興味深いものである。デジタルビデオのフレームのシーケンスにおけるジェスチャ検出及び認識を実行するための既存の解決策は、ビデオアクションの分類（すなわち、デジタルビデオのフレームのシーケンスの複数のフレームにわたって検出及び追跡される手の動きの分類）に基づいている。これは、典型的に、フレームデジタルビデオのシーケンスに対してジェスチャ・セグメンテーション及び認識を実行する必要がある。しかしながら、デジタル画像のシーケンスに対してジェスチャ・セグメンテーション及び認識を実行することは、典型的には、かなりの計算コストがかかるが、依然として精度は比較的低い。

デジタルビデオのフレームのシーケンスに対してジェスチャ・セグメンテーション及び認識を実行するという課題は別として、実生活の用途における手の検出もまた課題に直面する。例えばデジタルビデオのフレームのシーケンスにおいてジェスチャ検出を実行することは、複雑な背景において（例えばユーザの居住空間内にあり、それが散乱している可能性がある場合）、ユーザからデバイスまでの長い距離があるとき（例えばユーザが壁に取り付けられたデバイスを制御しているとき）又は低光環境（例えば夜間）では、典型的に困難である。そのような条件下でデジタルビデオのフレームのシーケンスに対してジェスチャ検出及び認識を実行することは、しばしば偽陽性及び偽陰性の許容できないほど高い発生をもたらす。また、検出ゾーン内に複数の人間がいるときにも課題が発生し、これはジェスチャを検出及び認識する際に混乱を生む可能性がある。

デジタルビデオのフレームのシーケンスに対してセグメンテーション及び認識を実行するための機械学習ベースのアプローチもまた、特定の課題に直面する。例えば満足な精度を得るために、ジェスチャ検出及びセグメンテーションを実行するように構成されるジェスチャ検出器と、分類器は、大きくて深い畳み込みニューラルネットワークを使用してトレーニングされ得るが、これは、典型的に、高い計算リソースを必要とする。さらに、より遠い距離でより小さな手を検出するためには、デジタルビデオのフレームは高解像度を有する必要があり、これは計算コストの著しい増加をもたらす。別の課題は、ジェスチャ（又は手）検出器によって生成されるバウンディングボックスは、後続の分類器の期待される入力に一致するサイズでない可能性があることである。

したがって、非理想的な実生活環境であっても、デバイスのリモート制御のために、デバイスのカメラによってキャプチャされるデジタルビデオのフレームのシーケンスにおけるジェスチャの検出及び認識のための、より正確でより計算コストの低い機械学習ベースの方法及びシステムを提供することは有用であろう。

様々な例において、本開示は、ハンドジェスチャの検出及び認識のためのエンドツーエンドシステムを説明する。開示されるシステム及び方法は、ハンドジェスチャのリアルタイム検出及び認識を可能にする。本明細書で説明される様々な例は、長距離及び／又は低照明のシナリオにおいて、既存のアプローチよりも高い精度のハンドジェスチャの検出及び認識を可能にし得る。

いくつかの例において、本開示は、ジェスチャ入力を処理するための方法を説明する。本方法は、受信した入力フレーム内で定義される仮想ジェスチャ空間を決定するステップであって、仮想ジェスチャ空間は、１人以上のユーザのランク付けされたユーザリストからのプライマリユーザに関連付けられる、ステップと；手を検出して追跡するために、受信した入力フレームを仮想ジェスチャ空間内のみにおいて処理するステップと；手を検出して追跡することによって生成される手のバウンディングボックスを使用して、ジェスチャ分類を実行して手に関連付けられるジェスチャ入力を決定するステップと；決定されたジェスチャ入力に関連付けられるコマンド入力の処理を引き起こすように、決定されたジェスチャ入力を出力するステップと；を含む。

上記の例のいずれかにおいて、仮想ジェスチャ空間を決定するステップは、入力フレームを処理して、１人以上のユーザを検出するステップと；検出された１人以上のユーザに基づいて、ランク付けされたユーザリストを生成するステップであって、プライマリユーザは、ランク付けされたユーザリストにおいて最も高くランク付けされたユーザとして識別される、ステップと；プライマリユーザの検出された解剖学的特徴に基づいて、仮想ジェスチャ空間を生成するステップと；を含み得る。

上記の例のいずれかにおいて、入力フレームを処理することは、入力フレームを処理するための関心領域（ＲＯＩ：region of interest）を選択するステップを含んでよく、ＲＯＩは、入力フレームの全領域よりも小さい領域を定義し、ＲＯＩは、定義されたＲＯＩシーケンスから選択され、ＲＯＩシーケンスは、それぞれの複数の逐次的に受信した入力フレームを処理するための複数のＲＯＩを定義する。

上記の例のいずれかにおいて、仮想ジェスチャ空間を決定するステップは、プライマリユーザに関連付けられる仮想ジェスチャ空間内で検出された手に関連付けられる無効なジェスチャ入力を決定するステップと；ランク付けされたユーザリスト内の次に高くランク付けされたユーザを新たなプライマリユーザとして選択するステップと；新たなプライマリユーザを使用して方法を繰り返すステップと；を含み得る。

上記の例のいずれかにおいて、入力フレームを仮想ジェスチャ空間内のみにおいて処理するステップは、受信した入力フレームに関連付けられる低光条件を決定するステップと；低光条件に応答して、受信した入力フレームのピクセル値を自動的に調整するために画像調整を自動的に実行するステップと；を含み得る。

上記の例のいずれかにおいて、入力フレームは、トレーニングされた共同ニューラルネットワーク（joint neural network）を使用して手を検出して追跡するために処理されてよく、トレーニングされた共同ニューラルネットワークは、トレーニングされたバウンディングボックス精緻化（bounding box refinement）畳み込みニューラルネットワークへの側枝接続を有する、トレーニングされたジェスチャ分類畳み込みニューラルネットワークを含み得る。

上記の例のいずれかにおいて、ジェスチャ分類を実行することは、受信した入力フレーム内で検出された手に関連付けられるジェスチャクラスを識別するステップと；前の入力フレームに関連付けられる前のジェスチャ状態から現在のジェスチャ状態への状態遷移を決定するステップであって、状態遷移は、識別されたジェスチャクラスに基づいて決定される、ステップと；現在のジェスチャ状態に関連付けられるジェスチャ入力を決定するステップと；を含み得る。

上記の例のいずれかにおいて、受信した入力フレームは、受信した入力フレームをキャプチャするために使用される画像キャプチャデバイスのフレームキャプチャ頻度より低い頻度で受信されて処理され得る。

いくつかの例において、本開示は、機械実行可能な命令を記憶するメモリに結合される処理デバイスを含む装置を説明する。命令は、処理デバイスによって実行されると、装置に上述の方法のいずれかを実行させる。

上記の例のいずれかにおいて、装置は、ジェスチャ制御デバイスであり得る。

上記の例のいずれかにおいて、装置は、入力フレームをキャプチャするためのカメラを含み得る。

上記の例のいずれかにおいて、ジェスチャ制御デバイスは、テレビ、スマートフォン、タブレット、車両結合デバイス、モノのインターネットデバイス、人工現実デバイス又は仮想現実デバイス、のうちの１つであり得る。

いくつかの例において、本開示は、その上に記憶される機械実行可能な命令を有するコンピュータ読取可能媒体を説明する。命令は、装置の処理デバイスによって実行されると、装置に、上述の方法のいずれかを実行させる。

本明細書で開示される例は、（ランク付けされたユーザリストからの）プライマリユーザからのジェスチャ入力のみを検出することによって、ジェスチャ入力のより効率的及び／又は正確な検出を可能にし得る。適応ＲＯＩ技術も説明され、これは、トレーニングされた顔又は手の分類器によるより良い性能を可能にし得る。適応ＲＯＩはまた、プロセッサの需要を減らすことにも役立ち得る。また、低光条件が検出されるときに照明を調整することによって手の検出を改善するために、自動画像調整技術も説明される。いくつかの例では、共同ニューラルネットワークが説明され、これは、検出された手のバウンディングボックスを精緻化することによってジェスチャ分類を改善することに役立ち得る。

次に、例として、本出願の例示的な実施形態を示す添付の図面の参照を行う。

例示的なジェスチャ制御デバイスと対話するユーザを示すブロック図である。

例示的なジェスチャ制御デバイスのいくつかの構成要素を示すブロック図である。

例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的なジェスチャクラスを示す図である。例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的なジェスチャクラスを示す図である。例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的なジェスチャクラスを示す図である。例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的なジェスチャクラスを示す図である。例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的なジェスチャクラスを示す図である。例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的なジェスチャクラスを示す図である。例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的なジェスチャクラスを示す図である。例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的なジェスチャクラスを示す図である。

例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的な動的ジェスチャを示す図である。例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的な動的ジェスチャを示す図である。例示的なジェスチャ制御デバイスによって検出及び認識され得るいくつかの例示的な動的ジェスチャを示す図である。

例示的なジェスチャ制御デバイス内で実装され得る例示的な適応ジェスチャ感知システムのいくつかの詳細を示すブロック図である。

仮想ジェスチャ空間を使用する手検出の例示的な方法を示すフローチャートである。

仮想マウスを実装するための定義された部分空間を含む、仮想ジェスチャ空間の例を示す図である。

２Ｄ及び３Ｄ仮想ジェスチャ空間の例を示す図である。２Ｄ及び３Ｄ仮想ジェスチャ空間の例を示す図である。

手検出及び検出された手に基づく仮想ジェスチャ空間再定義のための例示的な方法を示すフローチャートである。

図９の方法の例示的な実装を示す図である。図９の方法の例示的な実装を示す図である。

ユーザリストの実装を伴う、仮想ジェスチャ空間を使用する手検出のための例示的な方法を示すフローチャートである。

適応ＲＯＩを使用して検出を実行するための例示的な方法を示すフローチャートである。

図１２の方法で使用され得る例示的なＲＯＩシーケンスを示す図である。

ジェスチャ認識に使用され得る例示的な共同ネットワークを示すブロック図である。

図１４の共同ネットワークをトレーニングするために使用され得るいくつかの例示的なトレーニングデータサンプルを示す図である。図１４の共同ネットワークをトレーニングするために使用され得るいくつかの例示的なトレーニングデータサンプルを示す図である。

ジェスチャ認識のための例示的な方法を示すフローチャートである。

状態ベースのジェスチャ認識の例を示す状態図である。

画像調整を含む手検出の例示的な方法を示すフローチャートである。

画素強度に基づく画像調整の例を示すグラフである。

表示されたコンテンツに照明セクションを追加することを含む画像調整の例を示す図である。表示されたコンテンツに照明セクションを追加することを含む画像調整の例を示す図である。

類似の参照番号が、異なる図において類似の構成要素を示すために使用され得る。

様々な例において、本開示は、デバイスのジェスチャベースの制御を可能にする方法及びシステムを説明する。例えばジェスチャ制御デバイスは、他の可能性の中でも特に、テレビ（例えばスマートＴＶ）、モバイル通信デバイス（例えばスマートフォン）、タブレットデバイス、デスクトップデバイス、車両ベースのデバイス（例えばダッシュボードデバイス）又はスマートスピーカ等であり得る。本明細書で説明されるジェスチャベースの制御は、ディスプレイ出力を伴う又は伴わないユーザインタフェースを含む、ジェスチャ制御デバイスによって提供される任意のユーザインタフェースとのユーザ対話を可能にするために使用され得る。本開示の例はまた、他の可能性の中でも特に、拡張現実（ＡＲ）、仮想現実（ＶＲ）又はビデオゲームアプリケーションのために実装され得る。

簡潔性のために、本開示は、ディスプレイ出力（例えばスマートＴＶ、スマートフォン又はタブレット）を有するジェスチャ制御デバイスのコンテキストにおける例を説明し、ビデオの再生と対話するためのジェスチャベースの制御を説明する。しかしながら、本出願は、そのような実施形態に限定されず、様々な用途における様々なデバイスのジェスチャベースの制御に使用され得ることを理解されたい。

図１は、ジェスチャ制御デバイス１００と対話するユーザ１０の例を示す。この簡略化された図において、ジェスチャ制御デバイス１００は、フレームのシーケンスがジェスチャ入力を含む視野（ＦＯＶ：field-of-view）２０内でフレーム（例えばデジタル画像）のシーケンスをキャプチャする、カメラ１０２を含む。ＦＯＶ２０は、以下で更に説明されるように、ユーザ１０の少なくとも一部、特に、ユーザ１０の顔と手を含み得る。注目すべきことに、実際の使用における（例えば実験室環境の外部で）ＦＯＶ２０が含むのは、典型的に、ユーザ１０だけではない。例えばＦＯＶ２０は、他の物体、背景シーン又は可能性のある他の人間も含み得る。ジェスチャ制御デバイス１００は、カメラ１０２の代わりに、ユーザ１０からのジェスチャ入力を感知することができる別のセンサ、例えば画像キャプチャデバイス／センサのＦＯＶ２０内のジェスチャ入力を含むフレーム（例えば赤外線画像）のシーケンスをキャプチャする任意の画像キャプチャデバイス／センサ（例えば赤外線画像センサ）を有してもよい。ジェスチャ制御デバイス１００はまた、ビデオのような出力を提供するディスプレイ１０４も含む。ジェスチャ制御デバイス１００は、図１に示される実施形態ではカメラ１０２を含むが、他の実施形態では、カメラ１０２は、ジェスチャ制御デバイス１００と通信する周辺デバイスであってもよい。

図２は、ジェスチャ制御デバイス１００のいくつかの構成要素を示すブロック図である。ジェスチャ制御デバイス１００の例示的な実施形態が以下に示され、説明されるが、他の実施形態を使用して本明細書で開示される実施例を実装してもよく、これは、図示されたものとは異なる構成要素を含んでもよい。図２は、各構成要素の単一のインスタンスを示しているが、図示される各構成要素の複数のインスタンスが存在してもよい。

ジェスチャ制御デバイス１００は、プロセッサ、マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用論理回路、専用人工知能プロセッサユニット又はそれらの組合せのような１つ以上の処理デバイス２０２を含む。ジェスチャ制御デバイス１００はまた、１つ以上の入力／出力（Ｉ／Ｏ）インタフェース２０４も含み、これは、カメラ１０２のような入力デバイスとディスプレイ１０４のような出力デバイスをインタフェースする。ジェスチャ制御デバイス１００は、他の入力デバイス（例えばボタン、マイクロホン、タッチスクリーン、キーボード等）及び他の出力デバイス（例えばスピーカ、振動ユニット等）を含み得る。カメラ１０２（又は他の入力デバイス）は、ジェスチャ入力を含むフレームのシーケンスをキャプチャする能力を有し得る。キャプチャされたフレームは、Ｉ／Ｏインタフェース２０４によって、記憶（例えばその中へのバッファリング）のためにメモリ２０８に提供され、リアルタイム又はほぼリアルタイム（例えば１０ｍｓ以内）で処理されるように処理デバイス２０２に提供され得る。

ジェスチャ制御デバイス１００は、ネットワーク（例えばイントラネット、インターネット、Ｐ２Ｐネットワーク、ＷＡＮ及び／又はＬＡＮ）又は他のノードとの有線又は無線通信のための１つ以上のオプションのネットワークインタフェース２０６を含み得る。ネットワークインタフェース２０６は、イントラネットワーク及び／又はインターネットワーク通信のための有線リンク（例えばイーサネット（登録商標）ケーブル）及び／又は無線リンク（例えば１つ以上のアンテナ）を含み得る。

ジェスチャ制御デバイス１００は、１つ以上のメモリ２０８を含み、これは、揮発性又は不揮発性メモリ（例えばフラッシュメモリ、ランダムアクセスメモリ（ＲＡＭ）及び／又は読取専用メモリ（ＲＯＭ））を含み得る、。非一時的なメモリ２０８は、本開示で説明される実施例を実行するように、処理デバイス２０２による実行のための命令を記憶し得る。例えばメモリ２０８は、適応ジェスチャ感知システム３００を実行するための命令を含み得る。メモリ２０８は、オペレーティングシステム及び他のアプリケーション／機能を実装するためのような他のソフトウェア命令を含み得る。メモリ２０８はまた、ディスプレイ１０４を介して出力として提供され得るビデオコンテンツファイルのようなデータ２１０も含み得る。

いくつかの例では、ジェスチャ制御デバイス１００は、ソリッドステートドライブ、ハードディスクドライブ、磁気ディスクドライブ及び／又は光ディスクドライブのような、１つ以上の電子記憶ユニット（図示せず）も含み得る。いくつかの例において、１つ以上のデータセット及び／又はモジュールは、外部メモリ（例えばジェスチャ制御デバイス１００と有線又は無線通信する外部ドライブ）によって提供され得るか、あるいは一時的又は非一時的なコンピュータ読取可能媒体によって提供され得る。非一時的なコンピュータ読取可能媒体の例は、ＲＡＭ、ＲＯＭ、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、ＣＤ－ＲＯＭ又は他のポータブルメモリストレージを含む。ジェスチャ制御デバイス１００の構成要素は、例えばバスを介して互いに通信し得る。

本開示の理解を助けるために、ジェスチャの議論を最初に提供する。本開示において、ハンドジェスチャは、一般に、ジェスチャ制御デバイス１００によって特定のコマンド入力として認識され得る明確な手の形状として定義される。ハンドジェスチャは、異なる形状と動きを有し得る。例えばハンドジェスチャは、図３Ａ～図３Ｈに示されるクラスのうちの１つに属するものとしてジェスチャ制御デバイス１００によって認識され得る。カメラ１０２によってキャプチャされるフレーム（例えば画像）のシーケンスに存在する、図３Ａ～図３Ｈに示されるようなハンドジェスチャは、ジェスチャ入力と呼ばれる。

図３Ａは「オープンハンド」ジェスチャ３０を示し、図３Ｂは「握りこぶし」（又は「クローズドハンド」）ジェスチャ３２を示し、図３Ｃは「ピンチオープン」ジェスチャ３４を示し、図３Ｄは「ピンチクローズド」ジェスチャ３６を示し、図３Ｅは「ミュート」（又は「静かに」）のジェスチャ３８を示し、図３Ｆは「いいね」（又は「賛成（approve）」）のジェスチャ４０を示し、図３Ｇは「他のもの」（又は「次」）のジェスチャ４２を示し、図３Ｈは「タッチ」（又は「選択」）のジェスチャ４４を示す。他のジェスチャクラスが、ジェスチャ制御デバイス１００によって認識されてもよい。

このようなジェスチャクラスに基づいて、ハンドジェスチャは静的又は動的ジェスチャに分類され得る。静的ジェスチャは、単一のジェスチャクラスによって定義され、カメラ１０２によってキャプチャされるフレームのシーケンスにおいて、少なくとも定義された期間（例えば１秒）又は少なくとも定義された数の連続フレーム（例えば１００フレーム）の間、一般的に固定された位置（例えば何らかの誤差のマージンを許容する定義された領域内）に保持される。例えば静的なオープンハンドジェスチャ３０は、ジェスチャ制御デバイス１００（例えば適応ジェスチャ感知システム３００）によって認識され得、ビデオ再生のコンテキストでは、一時停止コマンド入力として解釈され得る。静的な握りこぶしジェスチャ３２は、ジェスチャ制御デバイス１００によって認識され得、ビデオ再生のコンテキストでは、停止コマンド入力として解釈され得る。

動的ジェスチャは、１つ以上のジェスチャクラス、位置及び／又は動きの組合せによって定義される。例えば動的ジェスチャは、経時的に位置が変化する単一のジェスチャクラスであり得る（例えばカメラ１０２によってキャプチャされるフレームのシーケンスにわたる異なる位置で検出される）。位置が変化するオープンハンドジェスチャ３０は、ジェスチャ制御デバイス１００（例えば適応ジェスチャ感知システム３００）によって認識され得、表示されたアイコンのようなインタフェースオブジェクトをドラッグ又は移動するためのコマンドとして解釈され得る。

図４Ａは、ジェスチャクラスの組合せであり得る別のタイプの動的ジェスチャを示す。図４Ａでは、動的ジェスチャは、タッチジェスチャ４４と、それに続く握りこぶしジェスチャ３２との組合せを含む。この動的ジェスチャは、ジェスチャ制御デバイス１００（例えばジェスチャ制御デバイス１００において動作する適応ジェスチャ感知システム３００）によって認識され得、マウスデバイスを使用してインタフェースオブジェクトを選択してその後クリックするのと同等のコマンド入力として解釈され得る。別の例では、ピンチクローズドジェスチャ３６に続くピンチオープンジェスチャ３４は一緒に、「ピンチング」動的ジェスチャとして認識され得、これは、ジェスチャ制御デバイス１００によって認識され得、ズームアウトコマンド入力として解釈され得る。

より複雑な動的ジェスチャは、ジェスチャクラスの組合せと位置の変化の両方を含み得る。例えば図４Ａでは、タッチジェスチャ４４が、経時的に位置の変化として検出され（例えばカメラデバイス１０２によってキャプチャされるフレームのシーケンス内の異なる位置で検出され）、その後に握りこぶしジェスチャ３２が続く場合、ジェスチャ制御デバイス１００（例えばジェスチャ制御デバイス１００において動作する適応ジェスチャ感知システム３００）は、握りこぶしジェスチャ３２が検出されると、表示されたカーソルを、その後にクリックコマンドが続くタッチジェスチャ４４の位置の変化をミラーリングするような方法で動かすためのコマンド入力として、その複雑な動的なジェスチャを解釈し得る。

別の例では、ピンチオープンジェスチャ３４、それに続くピンチクローズドジェスチャ３６、それに続くピンチクローズドジェスチャ３６の位置の変化及びそれに続くピンチオープンジェスチャ３４は、ジェスチャ制御デバイス１００（例えばジェスチャ制御デバイス１００上で動作する適応ジェスチャ感知システム３００）によって、動的な「ピンチドラッグ解放」ジェスチャとして、やはり一緒に認識され得る。位置の変化を含む動的なジェスチャは、位置の特定の変化に依存して異なる入力として解釈され得ることに留意されたい。例えば図４Ｂに示されるように、ピンチクローズドジェスチャ３６の位置の垂直変化４６（又は垂直「ドラッグ」）を伴うピンチドラッグ解放ジェスチャは、ビデオ再生のコンテキストでは、音量を変更するためのコマンド入力として解釈され得る。対照的に、図４Ｃに示されるように、ピンチクローズドジェスチャ３６の位置の水平変化４８を伴うピンチドラッグ解放ジェスチャは、ビデオ再生のコンテキストでは、ビデオ内を前方又は後方に動かすためのコマンド入力として解釈され得る。このようなピンチドラッグ解放の動的ジェスチャは、ユーザがジェスチャ制御デバイス１００と対話するための直感的かつ便利な方法を提供することができ、ジェスチャ入力が、ジェスチャ制御デバイス１００（例えばジェスチャ制御デバイス１００上で動作する適応ジェスチャ感知システム３００）によって比較的高い精度で検出及び認識されることを可能にすることもできる。特に、ピンチドラッグ解放の動的ジェスチャは、該動的ジェスチャを、その静的ジェスチャ構成要素（例えばピンチオープンジェスチャ３４、それに続くピンチクローズドジェスチャ３６、それに続く別のピンチオープンジェスチャ３４）に分割することによって検出され、認識され得る。

ハンドジェスチャ認識のためのいくつかの従来的な既存のコンピュータビジョン技術は、カメラ１０２によってキャプチャされるフレーム（例えばデジタル画像）のシーケンスにおける手の形状及び位置に基づいて、手検出、手の形状分類及びジェスチャ認識を実行する。ジェスチャ・セグメンテーション及び認識は、一般に、計算コストが高い。さらに、フレームのシーケンスが、制御されていない潜在的に複雑な環境（例えば散らかった背景で、ユーザがデバイスから遠い距離にあるとき、低光環境において又はＦＯＶ内に複数の人間がいる環境のとき）においてジェスチャ制御デバイス１００のカメラ１０２によってキャプチャされるときに、カメラ１０２によってキャプチャされるフレームのシーケンスを処理して、ハンドジェスチャ（静的であっても又は動的であっても）を検出及び認識することは、しばしば困難である。

様々な例において、本開示は、ジェスチャ制御デバイスのカメラによってキャプチャされるフレームのシーケンスにおいて、より正確で効率的なジェスチャ検出及び認識を可能にする解決策を説明する。いくつかの例において、本開示は、ジェスチャ検出のために処理されるべき、カメラによってキャプチャされるフレームのシーケンスの各フレーム内の領域を低減するために、仮想ジェスチャ空間を利用する適応ジェスチャ検出システムを説明する。いくつかの例において、本開示はまた、動的ジェスチャを認識するための（動きベースの代わりに）状態ベースのアプローチを説明する。本開示は追加の態様及び特徴を含むことが理解されよう。

本開示は、フレームのシーケンス内のハンドジェスチャを検出するために、カメラによってキャプチャされるフレームのシーケンスの各フレームを処理するために、少なくとも最初はユーザの顔を囲む空間として定義される仮想ジェスチャ空間の使用を説明する。仮想ジェスチャ空間は、カメラ１０２によってキャプチャされるＦＯＶ２０よりも小さくなければならない。仮想ジェスチャ空間内で検出及び認識されたハンドジェスチャ（例えばジェスチャ入力）のみが、有効なハンドジェスチャ（例えばジェスチャ入力）とみなされ得る。仮想ジェスチャ空間の使用は、フレームのシーケンス内のハンドジェスチャの検出における（例えば特に、複雑な背景における）偽陽性の低減を可能にすることができ、ハンドジェスチャを特定のユーザに関連付けることをより容易にすることができ、ハンドジェスチャ（例えばジェスチャ入力）を検出及び認識するためにフレームのシーケンスのより効率的な処理を可能にすることができる。

図５は、適応ジェスチャ感知システム３００のいくつかの例示的なサブシステムを示すブロック図である。この例では、適応ジェスチャ感知システム３００は、仮想ジェスチャ空間サブシステム３１０及びジェスチャ解析サブシステム３２０を使用して実装され得る。以下の例では、適応ジェスチャ感知システム３００は、両方のサブシステム３１０、３２０を含むものとして又は両方のサブシステム３１０、３２０の機能を提供するものとして説明されることになる。しかしながら、他の例では、適応ジェスチャ感知システム３００は、サブシステム３１０、３２０のうちの１つのみを含む（又はその機能を提供する）ことがある。例えば適応ジェスチャ感知システム３００は、（例えば仮想ジェスチャ空間サブシステム３１０を使用して）仮想ジェスチャ空間の適応的生成と、仮想ジェスチャ空間内にあるジェスチャ制御デバイス１００のカメラ１０２によってキャプチャされたフレームのシーケンスにおけるハンドジェスチャの検出のみを提供するだけでよく、ジェスチャ認識及び解析は、ジェスチャ制御デバイス１００の別の構成要素によって（例えば任意の適切な既存のジェスチャ認識技術を使用して）実行されてよい。別の例では、適応ジェスチャ感知システム３００は、（例えばジェスチャ解析サブシステム３２０を使用して）複数のユーザのジェスチャ認識及び管理のみを提供してよく、ジェスチャ検出は、ジェスチャ制御デバイス１００の別の構成要素によって（例えば任意の適切な既存のジェスチャ検出技術を使用して）実行されてもよい。

いくつかの例では、適応ジェスチャ感知システム３００は、別個のサブシステム３１０、３２０を含まなくてもよい。代わりに、サブシステム３１０、３２０のサブブロックが、適応ジェスチャ感知システム３００自体のサブブロックとみなされてもよい。したがって、別個のサブシステム３１０、３２０を使用する適応ジェスチャ感知システム３００の実装は任意である。

適応ジェスチャ感知システム３００は、顔検出及び追跡サブシステム３１２と、仮想ジェスチャ空間生成サブシステム３１４と、手検出及び追跡サブシステム３１６と、ジェスチャ認識サブシステム３２２と、ユーザリスト３２４を含む。顔検出及び追跡サブシステム３１２と、仮想ジェスチャ空間生成サブシステム３１４と、手検出及び追跡サブシステム３１６は、仮想ジェスチャ空間サブシステム３１０の一部であってよく、ジェスチャ認識サブシステム３２２とユーザリスト３２４は、ジェスチャ解析サブシステム３２０の一部であってよい。

いくつかの例において、顔検出及び追跡サブシステム３１２の代わりに又はこれに加えて、別のサブシステム（図示せず）が、カメラ１０２によってキャプチャされるフレームのシーケンスにおける異なる解剖学的特徴（例えば人間の身体全体又は人間の胴）の検出及び追跡のために使用されてもよい。以下で更に議論されるように、仮想ジェスチャ空間を生成するための基礎として、人間の顔の代わりに又はこれに加えて、異なる解剖学的特徴が使用され得る。簡潔性のために、本開示は、カメラ１０２によってキャプチャされたフレームのシーケンスにおける顔検出及び追跡の使用に焦点を当てるが、これは限定することを意図していないことを理解されたい。

カメラ１０２によってキャプチャされるフレームのシーケンスのフレームは、適応ジェスチャ感知システム３００への入力フレームとして受信される。顔検出及び追跡サブシステム３１２は、入力フレームに対して顔検出を実行する。顔検出及び追跡サブシステム３１２は、任意の適切な顔検出技術を使用して、入力フレーム内の顔を検出し、検出した顔についてバウンディングボックスを生成し得る。バウンディングボックスは、入力フレーム内で検出された顔を中心にして顔を囲む二次元（２Ｄ）又は三次元（３Ｄ）ボックスであり得る。

入力フレーム内で検出された顔について生成されるバウンディングボックスは、仮想ジェスチャ空間生成サブシステム３１４によって、仮想ジェスチャ空間を定義するために使用される。本開示において、仮想ジェスチャ空間（又は単にジェスチャ空間）は、入力フレーム内において定義され、かつユーザ１０の実生活環境内の仮想空間にマップする、２Ｄ又は３Ｄ空間を指し、その中で、ハンドジェスチャ（例えばジェスチャ入力）が検出され得る。換言すれば、ユーザ１０は、ジェスチャ制御デバイス１００にコマンド入力を提供するために、仮想的に定義された２Ｄ又は３Ｄ仮想ジェスチャ空間内でハンドジェスチャを成し得る。仮想ジェスチャ空間の外部で実行されるジェスチャは検出されない可能性があり、ジェスチャ制御デバイス１００によってコマンド入力として認識されない可能性がある。仮想ジェスチャ空間の次元は、顔のバウンディングボックスの次元と一致しても一致しなくてもよい（例えば顔のバウンディングボックスは２Ｄであってよく、仮想ジェスチャ空間は３Ｄであってもよい）。

仮想ジェスチャ空間生成サブシステム３１４によって定義される仮想ジェスチャ空間は、手検出及び追跡サブシステム３１６によって、カメラによってキャプチャされたフレームのシーケンスにおいて手検出及び追跡を実行するために使用される。特に、手検出及び追跡サブシステム３１６は、入力フレーム内の定義された仮想ジェスチャ空間と、フレームのシーケンス内の各後続フレームのみを分析して、フレームのシーケンス内の手を検出して手を追跡し得る。手検出及び追跡サブシステム３１６は、任意の適切な手検出技術を使用して、入力フレーム内の手を検出し、検出した手についての２Ｄ又は３Ｄバウンディングボックスを定義し得る。

いくつかの例では、顔検出及び追跡サブシステム３１２は、顔検出を実行するために構成される、トレーニングされたニューラルネットワークを含み得る。同様に、手検出及び追跡サブシステム３１６は、手検出を実行するために構成される、別のトレーニングされたニューラルネットワークを含み得る。例えば顔又は手検出のために構成される適切なトレーニングされたニューラルネットワークは、（例えばHe，Kaiming等著、"Deep residual learning for image recognition" Proceedings of the IEEE conference on computer vision and pattern recognition. 2016 において記載される）ResNet34のような残差ニューラルネットワーク（ＲｅｓＮｅｔ：residual neural network）アーキテクチャに基づく、（例えばRedmon等著、"Yolov3: An incremental improvement"、arXiv preprint arXiv:1804.02767, 2018 において記載される）YoloV3を使用するようなトレーニングされたオブジェクト検出器であり得る。顔又は手検出のために構成される適切なトレーニングされたニューラルネットワークの別の例は、（例えばSandler等著、"Mobilenetv2: Inverted residuals and linear bottlenecks" Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018 において記載される）MobileNetV2のような畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャに基づく、（例えばLiu等著、"Ssd: Single shot multibox detector" European conference on computer vision. Springer, Cham, 2016 において記載される）マルチボックスＳＳＤのようなトレーニングされたシングルショット検出器（ＳＳＤ：single shot detector）であり得る。顔及び手追跡は、それぞれ顔検出及び追跡サブシステム３１２と手検出及び追跡サブシステム３１６によって（Lucas等著、“An iterative image registration technique with an application to stereo vision.” Proceedings of Imaging Understanding Workshop, 1981 において記載される）、Lucas-Kanade光学フロー技術を使用して実行され得る。

検出された手について定義されるバウンディングボックスは、ジェスチャ認識サブシステム３２２によって使用され、ジェスチャクラスとして、検出された手の形状の識別及び分類を実行する。ジェスチャ認識サブシステム３２２は、任意の適切な分類技術を使用して、検出された手の形状を特定のジェスチャクラスとして分類し得る。例えばジェスチャ認識サブシステム３２２は、所定のジェスチャクラスのセットに従ってジェスチャを分類するようにトレーニングされたニューラルネットワーク（例えばＣＮＮ）を含み得る。ニューラルネットワークは、ニューラルネットワークのパラメータ（例えば重み）を学習するために、既知の機械学習アルゴリズムを使用してトレーニングされている。トレーニングされたニューラルネットワークは、検出されたハンドジェスチャについてのバウンディングボックスを受け取り、所定のジェスチャクラスのセットから、バウンディングボックスに対応する特定のジェスチャクラスを予測する。ジェスチャ認識サブシステム３２２によって予測されるジェスチャクラスは、適応ジェスチャ感知システム３００から（例えばラベルとして）出力され得る。

ジェスチャ制御デバイス１００のソフトウェアアプリケーション（例えばオペレーティングシステム）は、適応ジェスチャ感知システム３００によって出力されるジェスチャクラスをコマンド入力に変換し得る。コマンド入力へのジェスチャクラスの変換は、アプリケーション依存であり得る。例えば所与のジェスチャクラスは、第１アプリケーションがアクティブであるときには第１コマンド入力に変換され得るが、第２アプリケーションがアクティブであるときには第２コマンド入力に変換され得る（又は無効とみなされ得る）。

いくつかの例では、適応ジェスチャ感知システム３００は、プライマリユーザの追跡を続けるためにユーザリスト３２４を記憶して維持する。例えばカメラ１０２のＦＯＶ２０内に複数の人間が存在し得る。したがって、顔検出及び追跡サブシステム３１２は、カメラ１０２によってＦＯＶ２０内でキャプチャされるフレームのシーケンス内の複数の人間の顔を検出及び追跡し得る。各々の検出された顔は、ジェスチャ制御デバイス１００に入力を提供することができる潜在的にユーザである人間に属し得る。したがって、各々の検出された人間は、たとえ当該検出された人間が、認識されたハンドジェスチャ（例えばジェスチャ入力）を現在提供していない場合であっても、ユーザ（又は潜在的なユーザ）とみなされ得る。ユーザリスト３２４は、検出されたすべてのユーザの追跡を続け、何らかの所定の基準に従って、検出されたユーザをランク付けする（例えばユーザのサイズ、ジェスチャ制御デバイス１００からのユーザの距離、ユーザの注視がジェスチャ制御デバイス１００に向けられるかどうか等に基づいて）。ユーザリスト３２４内の最も高いランキングのユーザは、プライマリユーザとみなされてよい。プライマリユーザに関連付けられるフレームのシーケンス内のハンドジェスチャ（例えばジェスチャ入力）は、他の検出されたユーザに関連付けられるフレームのシーケンス内で検出されたいずれの他のハンドジェスチャ（例えばジェスチャ入力）よりも優先され得る。いくつかの例では、許可又は事前登録されたユーザのみがユーザリスト３２４に含まれ得る。例えばユーザプロファイルは、許可又は事前登録されたユーザと関連付けられてよく、ユーザプロファイルは、許可又は事前登録されたユーザがジェスチャ制御デバイス１００によって（例えば適切な顔認識技術を使用して）識別されることを可能にするデータ（例えば生体データ）を含み得る。許可又は事前登録されたユーザのこのような顔認識は、適応ジェスチャ感知システム３００によって又はジェスチャ制御デバイス１００の別個の顔認識システムによって実行され得る。許可又は事前登録されたユーザのみを含むようにユーザリスト３２４を制限することによって、デバイス１００の許可されていないジェスチャベースの制御が回避され得る。加えて、ジェスチャ入力の偽陽性検出が低減され得る。

適応ジェスチャ感知システム３００は、異なるサブブロック（又はサブシステム）を有するものとして図示されているが、これは、限定することを意図していないことを理解されたい。例えば適応ジェスチャ感知システム３００は、より多くの又はより少ない数のサブブロック（又はサブシステム）を使用して実装され得るか又はいずれのサブブロック（又はサブシステム）も必要としないことがある。さらに、特定のサブブロック（又はサブシステム）によって実行されるものとして本明細書に記載される機能は、代わりに、別のサブブロック（又はサブシステム）によって実行されてもよい。

一般に、適応ジェスチャ感知システム３００の機能は、様々な適切な方法で実装されてよく、本開示の範囲内にある。

適応ジェスチャ感知システム３００の動作の例を次に説明する。

図６は、例えば仮想ジェスチャ空間サブシステム３１０（及びサブシステム３１２、３１４、３１６）を使用して、適応ジェスチャ感知システム３００によって実行され得る、例示的な方法６００を示すフローチャートである。方法６００は、ジェスチャ制御デバイス１００の処理デバイス２０２によって実行されるソフトウェアのルーチン又はサブルーチンによって実行されてもよい。このようなルーチン又はサブルーチンを実行するためのソフトウェアのコーディングは、本開示を考慮して十分に当業者の範囲内にある。方法６００は、図示及び説明されるものの追加のステップ又はより少ないステップ又は動作を含んでよく、異なる順序で実行されてもよい。例えば処理デバイス２０２によって実行可能なコンピュータ読取可能なコードが、コンピュータ読取可能媒体に記憶されてもよい。

６０２において、フレームのシーケンス内の入力フレームを受信する。一般に、入力フレームと、フレームのシーケンスの入力フレームに対する各後続フレームは、一度に１つずつ、リアルタイムで又はほぼリアルタイムで受信される。入力フレーム（及び各後続フレーム）は、カメラ１０２によってキャプチャされた生の未処理のデジタル画像であり得るか又は最小限処理された（例えば正規化された）デジタル画像であり得る。

６０４において、適応ジェスチャ感知システム３００は、入力フレーム内の区別的な解剖学的特徴（distinguishing anatomical feature）を検出する。入力フレーム全体が、ステップ６０４で処理され得る。区別的な解剖学的特徴は、背景から容易に検出及び区別され得る、ユーザの身体の任意の部分であり得る。一例は、（例えば顔検出及び追跡サブシステム３１２を使用する）人の顔の検出である。状況によっては、顔を検出することが難しいことがあり、その場合、異なる解剖学的特徴（例えば人間の身体全体又は人間の胴）が代わりに検出され得る。上述のように、解剖学的特徴は、任意の適切なコンピュータビジョン技術を使用することを含め、任意の適切なアプローチを使用して検出され得る。区別的な解剖学的特徴を検出することは、解剖学的特徴の位置（例えばバウンディングボックス又は座標によって表される）を決定することを含んでもよい。

６０６において、検出された区別的な解剖学的特徴（例えば検出された顔）に基づいて、（例えば仮想ジェスチャ空間生成サブシステム３１４を使用して）仮想ジェスチャ空間が生成される。いくつかの例では、区別的な解剖学的特徴の複数のインスタンスが検出されることがあり（例えばカメラ１０２によってＦＯＶ２０内でキャプチャされた入力フレーム内に複数の人間が存在する場合、複数の顔が検出され得る）、その場合、区別的な解剖学的特徴のそれぞれの検出されたインスタンスごとに１つの仮想ジェスチャ空間が生成され得る。以下で更に議論されるように、いくつかの例では、区別的な解剖学的特徴の複数のインスタンスが検出されるとき、生成される仮想ジェスチャ空間は１つのみであってよく、あるいは仮想ジェスチャ空間の生成は、区別的な解剖学的特徴の検出されたインスタンスのランク付け又は優先順位付けに基づいてもよい。

仮想ジェスチャ空間は、入力フレーム内で検出されたそれぞれの解剖学的特徴の位置に関連する所定の方程式を使用して生成され得る。例えば仮想ジェスチャ空間は、検出された顔のバウンディングボックスに対する矩形空間を計算することによって生成され得る。いくつかの例示的な方程式は、以下で更に提供される。

任意に、６０８において、ジェスチャ制御デバイス１００が、生成された仮想ジェスチャ空間に関するフィードバックをユーザ１０に提供することを可能にするために、生成された仮想ジェスチャ空間に関する情報が適応ジェスチャ感知システム３００によって提供され得る。例えば適応ジェスチャ感知システム３００は、ジェスチャ制御デバイス１００がユーザ１０に対する仮想ジェスチャ空間の表現をディスプレイ１０４上に（例えばライブカメラ画像の上部にオーバーレイとして）レンダリングすることを可能にするために、仮想ジェスチャ空間の座標又は他のパラメータを示す情報を提供し得る。別の例では、仮想ジェスチャ空間は、該仮想ジェスチャ空間に対応するＦＯＶのみを示すために、ジェスチャ制御デバイス１００によってディスプレイ１０４上にレンダリングされる差込みウィンドウ又は補助ウィンドウを有することによって、ユーザ１０に対して表現されてもよい。ユーザ１０にフィードバックを提供する他の方法もまた適切であり得る。

６１０において、手が、入力フレーム内で、生成された仮想ジェスチャ空間において（例えば手検出及び追跡サブシステム３１６を使用して）検出される。検出された手は、該手が入力フレーム内で検出されたそれぞれの仮想ジェスチャ空間に関連付けられ得る（例えばラベル付けされる）。生成された複数の仮想ジェスチャ空間がある場合、入力フレーム内の各生成された仮想ジェスチャ空間内の手を検出しようという試みが行われ得る。手が入力フレーム内の所与の仮想ジェスチャ空間で検出されない場合、その所与の仮想ジェスチャ空間は無視されるか破棄されてよい。

入力フレーム内の生成された仮想ジェスチャ空間のいずれにおいても手が検出されない場合、入力フレーム内で発見されるハンドジェスチャ（例えばジェスチャ入力）はないと決定されてよく、方法６００はステップ６０２に戻って、フレームのシーケンス内の次の入力フレームを受信し得る。少なくとも１つの手が少なくとも１つの仮想ジェスチャ空間で検出されると仮定すると、方法６００は任意のステップ６１２に進む。

任意に、６１２において、入力フレーム内の所与の仮想ジェスチャ空間において２つ以上の手が検出される場合、所与の仮想ジェスチャ空間において１つのプライマリハンドが識別され得る。プライマリハンドは、他の可能性の中でも特に、例えば入力フレーム内の所与の仮想ジェスチャ空間において最も大きい手；入力フレーム内の所与の仮想ジェスチャ空間において、検出された区別的な解剖学的特徴（例えば顔）に最も近い、検出された手；又は入力フレーム内の所与の仮想ジェスチャ空間において、検出された区別的な解剖学的特徴（例えば顔）に照明及び／又は色相が最も近い、検出された手；に基づいて識別され得る。入力フレーム内の所与の仮想ジェスチャ空間において検出された手が片手のみである場合、当該片手がプライマリハンドであると仮定されてもよい。

６１４において、検出された手（又はプライマリハンド）は、フレームのシーケンスの入力フレームに対する後続フレーム内のそれぞれの仮想ジェスチャ空間において（例えば手検出及び追跡サブシステム３１６を使用して）追跡される。検出された手（又はプライマリハンド）の追跡は、各後続フレームを処理することによって実行される。各後続フレームにおける手（又はプライマリハンド）の検出及び追跡からの情報は、更なる分析及び解析のために提供される。例えば後続フレームにおいて検出された手を追跡するために、バウンディングボックス及び任意の識別子を生成し得る。次いで、バウンディングボックス（及び任意の識別子）は、分析及び解析のために（例えばジェスチャ認識サブシステム３２２に）提供され得る。

いくつかの例では、方法６００は、適応ジェスチャ感知システム３００によって、仮想ジェスチャ空間サブシステム３１０のみを使用して実装され得る。（図５に示すように）ジェスチャクラスを出力する代わりに、適応ジェスチャ感知システム３００は、追跡された手に関する情報（例えばバウンディングボックス）を従来のジェスチャ認識システムに出力してもよく、従来のジェスチャ認識システムは、その情報（例えばバウンディングボックス）に対して手の分類及びジェスチャ認識を実行してよい。

ユーザの手を直接検出する代わりに、上述の例は、まず、入力フレーム内の区別的な解剖学的特徴（例えばユーザの顔）を検出し、検出された特徴に基づいて仮想ジェスチャ空間（入力フレーム内のＦＯＶよりも小さい）を生成する。次いで、手検出が、仮想ジェスチャ空間内のみにおいて入力フレームに対して実行される。ユーザの顔は、仮想ジェスチャ空間を生成するための区別的な解剖学的特徴として使用され得る。なぜなら、顔検出は典型的に、手検出よりも正確かつ信頼性が高いからである。手検出を仮想ジェスチャ空間に制限することによって、手検出のために後続フレームを処理するために必要な処理を簡略化することができ、偽陽性を低減することができ、ジェスチャ入力のための後続フレーム内のプライマリハンドを識別することをより容易にすることができる。

いくつかの例では、方法６００を使用して、カメラ１０２によってキャプチャされるすべてのフレームを処理し得る。他の例では、方法６００は、ジェスチャ入力が期待されるときにのみ使用され得る。例えば方法６００は、入力の受信（例えばキーボード入力、マウス入力又は音声入力を介して）に応答して開始され得る。いくつかの例では、方法６００は、人間の注意の検出に基づいて開始され得る。例えばジェスチャ制御デバイス１００は、注意検出技術（例えばアイトラッキングソフトウェアを実行し得る）を使用して、人間がジェスチャ制御デバイス１００を直接見ているかどうかを判断してよく、方法６００は、ジェスチャ制御デバイス１００で直接的な人間注視が検出されるときにのみ開始され得る。検出された人間の注意に応答して方法６００を開始することは、ジェスチャ入力の偽陽性又は誤った解釈を回避するために有用であり得る。

図７は、検出された顔に基づいて仮想ジェスチャ空間が生成される、方法６００の例示的な実装を示す。この例では、プライマリユーザの顔１２が６０４において検出され、顔１２が、６０６において仮想ジェスチャ空間を生成するためのベースとして、区別的な解剖学的特徴として使用されると仮定される。

バウンディングボックス７０２は、上述のようなコンピュータビジョンベースの技術を含む任意の適切な顔検出技術を使用して、顔１２について生成され得る。この例では、バウンディングボックス７０２は、値｛ｘ_ｆ，ｙ_ｆ，ｗ_ｆ，ｈ_ｆ｝のセットによって定義され、ここで、ｘ_ｆ及びｙ_ｆは、それぞれ、バウンディングボックス７０２のアンカーポイント（例えば中心）の（適応ジェスチャ感知システム３００によって定義される基準のフレーム内の）ｘ座標及びｙ座標を定義し、ｗ_ｆ及びｈ_ｆは、それぞれ、バウンディングボックス７０２の幅及び高さを定義する。バウンディングボックス７０２に基づいて、仮想ジェスチャ空間７０４が（例えばステップ６０６において）生成され、値｛ｘ_ｇ，ｙ_ｇ，ｗ_ｇ，ｈ_ｇ｝のセットによって定義され、ここで、ｘ_ｇ及びｙ_ｇは、それぞれ、仮想ジェスチャ空間７０４のアンカーポイント（例えば中心）の（適応ジェスチャ感知システム３００に定義される基準のフレーム内の）ｘ座標及びｙ座標を定義し、ｗ_ｇ及びｈ_ｇは、それぞれ、仮想ジェスチャ空間７０４の幅及び高さを定義する。例えば以下の方程式を使用して、仮想ジェスチャ空間７０４を生成し得る：

ｈ_ｇ＝β・ｈ_ｆ

ここで、（Δ_ｘ，Δ_ｙ）は、所定の相対位置パラメータであり、
（外１）

は、所定のスケールパラメータである。パラメータ（Δ_ｘ，Δ_ｙ）及び
（外２）

は、それに従う結果として仮想ジェスチャ空間７０４の所望のサイズ及び仮想ジェスチャ空間７０４内のバウンディングボックス７０２の所望のポジショニングをもたらすように、（例えばユーザ１０によって又はジェスチャ制御デバイス１００の製造者によって）予め定義され得る。いくつかの例において、仮想ジェスチャ空間７０４は、顔１２のバウンディングボックス７０２が部分的又は全体的に仮想ジェスチャ空間７０４の外部にあるように生成されてもよいことに留意されたい。すなわち、仮想ジェスチャ空間７０４を生成するための基礎として顔１２が使用され得るが、必ずしも仮想ジェスチャ空間７０４が顔１２を含む必要はない。

図７の例では、仮想ジェスチャ空間７０４は、矩形形状を有する２Ｄ空間として生成される。しかしながら、仮想ジェスチャ空間７０４は、２Ｄ空間又は３Ｄ空間として生成さてよく、任意の幾何学的形状（例えば正方形、長方形、円等）、規則的な形状又は不規則な形状を有するように生成されてよいことを理解されたい。

いくつかの例において、仮想ジェスチャ空間７０４は、１つ以上の部分空間７０６、７０８を更に定義してよく、該部分空間は、特定の入力機能を実装するために使用され得る。部分空間７０６、７０８は、検出された顔１２の特徴に基づいて（例えば仮想ジェスチャ空間生成サブシステム３１４によって）定義され得る。例えば左部分空間７０６及び右部分空間７０８は、顔１２の検出された目及び鼻の位置に基づいて、検出された顔１２の左下部分及び右下部分に対応して仮想ジェスチャ空間内において定義され得る。左部分空間７０６におけるタッチ（又はポイント）ジェスチャの検出は、左マウスボタンクリック入力として解釈され得る。同様に、右部分空間７０８におけるタッチ（又はポイント）ジェスチャの検出は、右マウスボタンクリック入力として解釈され得る。このようにして、定義された部分空間７０６、７０８を有する仮想ジェスチャ空間７０４を使用して、仮想マウスを実装し得る。いくつかの例において、図４Ａに図示される動的ジェスチャは、仮想カーソルを実装するようにジェスチャ入力として検出され得る。仮想カーソルは、タッチ（又はポイント）ジェスチャ４４が追跡されるにつれて移動されてよく（及びユーザ１０に表示される視覚的オーバーレイを介して表現されてよい）、マウスクリック入力は、クローズドハンドジェスチャ３２が検出されるときに検出され得る。このようにして、仮想マウスが実装され得る。

図８Ａ及び図８Ｂは、カメラ１０２によってキャプチャされたフレームのシーケンス内の入力フレームにおいて検出されたユーザ１０の顔１２に基づいて生成される、仮想ジェスチャ空間７０４の別の例を示す。図８Ａにおいて、仮想ジェスチャ空間７０４は、２Ｄ空間であり、ユーザ１０の顔１２と手１４の両方を含む矩形形状を有する（例えば図７の例と同様）。図８Ｂにおいて、仮想ジェスチャ空間７０４は、ユーザ１０の顔１２と手１４の両方を含む３Ｄ空間である。仮想ジェスチャ空間７０４は、深度情報が利用可能であるとき、３Ｄ空間として生成され得る。例えば深度情報は、ビデオ分析技術を使用してフレームのシーケンスから計算され得る。例えばジェスチャ制御デバイス１００は、２つのカメラ１０２を使用して（例えばコンピュータステレオビジョン技術を使用して）深度情報を計算してもよく、あるいはカメラ１０２は、（従来のＲＧＢ画像情報に加えて）深度情報を生成することができるＲＧＢ深度（ＲＧＢＤ）カメラであってよく、あるいはジェスチャ制御デバイス１００は、従来のカメラ１０２に加えて、ＲＧＢ画像情報及び追加の対応する深度情報を取得するための飛行時間（ＴｏＦ）カメラを含んでもよい。いくつかの例では、深度情報は、カメラ１０２に加えて、深度情報をキャプチャすることができるセンサ（例えば赤外線センサ）を使用してキャプチャされ得る。３Ｄ仮想ジェスチャ空間７０４の使用は、（例えば手をジェスチャ制御デバイス１００により近くに又はより遠くに動かす）深度ベースジェスチャ入力を検出して、コマンド入力として認識することを可能にするために有用であり得る。

いくつかの例において、仮想ジェスチャ空間は最初に、フレームのシーケンス内の入力フレームにおいて検出された区別的な解剖学的特徴（例えば顔）に基づいて生成され、その後、フレームのシーケンス内の入力フレームに対する後続フレームにおいて検出された手に基づいて再定義又は更新され得る。このように、仮想ジェスチャ空間は、たとえ手が区別的な解剖学的特徴から遠くへ動く場合であっても、検出された手の位置に従うことができる。

図９は、例えば仮想ジェスチャ空間サブシステム３１０（及びサブシステム３１２、３１４、３１６）を使用して、適応ジェスチャ感知システム３００によって実行され得る、例示的な方法９００を示すフローチャートである。方法９００は、ジェスチャ制御デバイス１００の処理デバイス２０２によって実行されるソフトウェアのルーチン又はサブルーチンによって実行され得る。このようなルーチン又はサブルーチンを実行するためのソフトウェアのコーディングは、本開示を考慮して十分に当業者の範囲内にある。方法９００は、図示及び説明されるものの追加のステップ又はより少ないステップ又は動作を含んでよく、異なる順序で実行されてもよい。例えば処理デバイス２０２によって実行可能なコンピュータ読取可能なコードは、コンピュータ読取可能媒体に記憶されてもよい。方法９００は、上記方法６００について説明されたものと同様のステップを含んでもよく、その場合、同様のステップは、再度詳細には説明されないことがある。

９０２において、フレームのシーケンスの入力フレームを受信する。このステップは、上述のステップ６０２と同様であり得る。

９０４において、適応ジェスチャ感知システム３００は、入力フレーム内の区別的な解剖学的特徴を検出する。このステップは、上述のステップ６０４と同様であり得る。

９０６において、入力フレーム内の検出された区別的な解剖学的特徴（例えば検出された顔）に基づいて、（例えば仮想ジェスチャ空間生成サブシステム３１４を使用して）仮想ジェスチャ空間が生成される。このステップは、上述のステップ６０６と同様であり得る。任意に、仮想ジェスチャ空間を表す情報が提供され得る（例えばその結果、フィードバックがユーザ１０に提供され得る）。簡潔性のために、方法９００の以下の説明では、１つの仮想ジェスチャ空間のみが生成されると仮定する。しかしながら、方法９００は、（例えば入力フレーム内の区別的な解剖学的特徴の複数の検出されたインスタンスに基づいて）複数の仮想ジェスチャ空間が生成される場合に適合され得ることを理解されたい。

９０８において、手が、入力フレーム内の仮想ジェスチャ空間において（例えば手検出及び追跡サブシステム３１６を使用して）検出され、該手が検出された仮想ジェスチャ空間に関連付けられる。このステップは、上述のステップ６１０と同様であり得る。任意に、プライマリハンドが識別されて、仮想ジェスチャ空間に関連付けられ得る。

９１０において、検出された手に基づいて、仮想ジェスチャ空間が再定義される。仮想ジェスチャ空間を再定義することは、（検出された解剖学的特徴に関連するのではなく）検出された手に関連する所定の方程式を使用して、入力フレームに対する後続フレーム内で仮想ジェスチャ空間の位置及び／又は寸法を再計算することを含み得る。例えば仮想ジェスチャ空間は、該仮想ジェスチャ空間が、検出された手のバウンディングボックスを中心とするように再定義され得る。いくつかの例示的な方程式は、以下で更に説明される。

９１２において、再定義された仮想ジェスチャ空間が記憶される。これは、（検出された手に基づいて再定義された）再定義された仮想ジェスチャ空間を、（検出された顔のような、入力フレーム内の検出された区別的な解剖学的特徴に基づいて最初に生成された）最初に生成された仮想ジェスチャ空間の代わりに、入力フレームに対する後続フレームにおける手の検出及び追跡のための基礎として使用することを可能にする。

９１４において、入力フレーム内で検出された手（又はプライマリハンド）は、（例えば手検出及び追跡サブシステム３１６を使用して）再定義された仮想ジェスチャ空間内の入力フレームに対する後続フレームにおいて追跡される。このステップは、上述のステップ６１４と同様であり得る。バウンディングボックス（及び任意の識別子）は、ジェスチャ入力を分析及び解析するために（例えばジェスチャ認識サブシステム３２２又は他の手分類器に）提供され得る。

方法９００は、仮想ジェスチャ空間が、入力フレーム内で検出された手に基づいて再定義されることを可能にし、その結果、たとえ手が区別的な解剖学的特徴から更に遠くに動かされる場合であっても、手を追跡し続けて、入力フレームに対する各後続フレーム内で検出し得る。検出された手に基づいて仮想ジェスチャ空間が再定義された後、後続フレームは、再定義された仮想ジェスチャ空間を使用して処理され得る。再定義された仮想ジェスチャ空間は、手が動くにつれて、仮想ジェスチャ空間が、検出される手を中心とし続けるように、手が空間内の位置を変えるにつれて、各後続フレームにおいて連続的に再定義され得る。例えばフレームのシーケンス内の入力フレームに対する後続フレームは、ステップ９０４及びステップ９０６が省略される方法９００の変形を使用して処理され得る。

いくつかの例において、後続フレーム内の再定義された仮想ジェスチャ空間において、手がもはや検出されない場合、仮想ジェスチャ空間は、入力フレーム内の検出された区別的な解剖学的特徴に基づいて再生成され得る。換言すれば、区別的な解剖学的特徴は、仮想ジェスチャ空間を定義するためのアンカー又はデフォルトの基礎として使用され得る。いくつかの例において、仮想ジェスチャ空間のデフォルトの基礎として区別的な解剖学的特徴を使用することへのこの復帰は、所定の数より多くの後続フレーム（例えば入力フレームに後続する少なくとも１０のフレーム）についての再定義された仮想ジェスチャ空間内で手を検出することができない場合にのみ実行され得る。

図１０Ａ及び図１０Ｂは、仮想ジェスチャ空間７０４が、フレームのシーケンス内の入力フレーム内で検出されたユーザ１０の顔１２に基づいて最初に生成され、その後、入力フレーム内で検出されたユーザ１０の手１４に基づいて再定義される、方法９００の例示的な実装を示す。図１０Ａでは、仮想ジェスチャ空間７０４は、入力フレーム内で検出される顔１２のバウンディングボックス７０２に基づいて生成される、矩形形状を有する２Ｄ空間である（例えば図７の例と同様）。手１４は、入力フレーム内の仮想ジェスチャ空間７０４において検出され、手１４についてのバウンディングボックス７０６が定義される。図１０Ｂにおいて、仮想ジェスチャ空間７０４ｂは、手１４のバウンディングボックス７０６に基づいて再定義される。

例えば手１４のバウンディングボックス７０６は、値｛ｘ_ｈ，ｙ_ｈ，ｗ_ｈ，ｈ_ｈ｝のセットによって定義されてよく、ここで、ｘ_ｈ及びｙ_ｈは、それぞれ、バウンディングボックス７０６のアンカーポイント（例えば中心）の（適応ジェスチャ感知システム３００によって定義される基準のフレーム内の）ｘ座標及びｙ座標を定義し、ｗ_ｈ及びｈ_ｈは、それぞれ、バウンディングボックス７０６の幅及び高さを定義する。バウンディングボックス７０６に基づいて、仮想ジェスチャ空間７０４ｂが（例えばステップ９１０において）再定義される。例えば以下の方程式を使用して、仮想ジェスチャ空間７０４ｂを再定義し得る：

ｈ_ｇ＝β_ｈ・ｈ_ｆ

ここで、｛ｘ_ｈ，ｙ_ｈ，ｗ_ｈ，ｈ_ｈ｝は、前述のように、仮想ジェスチャ空間７０４ｂを定義するパラメータであり、（Δ_ｘｈ、Δ_ｙｈ）は、所定の相対位置パラメータであり、
（外３）

は、検出された手に関する所定のスケールパラメータである。パラメータ（Δ_ｘｈ、Δ_ｙｈ）及び
（外４）

は、それに従う結果として、再定義された仮想ジェスチャ空間７０４ｂの所望のサイズ及び再定義された仮想ジェスチャ空間７０４ｂ内のバウンディングボックス７０６の所望のポジショニングをもたらすように、（例えばユーザ１０によって又はジェスチャ制御デバイス１００の製造者によって）予め定義され得る。注目すべきことに、図１０Ｂの例に示されるように、顔１２は、再定義された仮想ジェスチャ空間７０４ｂから部分的又は全体的に除外され得る。

いくつかの例において、複数の人間が入力フレーム内で検出される（例えば複数の顔が顔検出及び追跡サブシステム３１２によって検出される）とき、適応ジェスチャ感知システム３００は、検出された人間をランク付けして１人の人間をプライマリユーザ（又はプライマリコントローラ）として識別するために、ユーザリスト３２４を実装し得る。仮想ジェスチャ空間は、プライマリユーザに対してのみ生成され得る。

図１１は、例えば仮想ジェスチャ空間サブシステム３１０及びジェスチャ解析サブシステム３２０（及びサブシステム３１２、３１４、３１６、３２２、３２４）を使用して、適応ジェスチャ感知システム３００によって実行され得る、例示的な方法１１００を示すフローチャートである。方法１１００は、ジェスチャ制御デバイス１００の処理デバイス２０２によって実行されるソフトウェアのルーチン又はサブルーチンによって実行され得る。このようなルーチン又はサブルーチンを実行するためのソフトウェアのコーディングは、本開示を考慮して十分に当業者の範囲内にある。方法１１００は、図示及び説明されるものの追加のステップ又はより少ないステップ又は動作を含んでもよく、異なる順序で実行されてもよい。例えば処理デバイス２０２によって実行可能なコンピュータ読取可能なコードは、コンピュータ読取可能媒体に記憶され得る。方法１１００は、上記で方法６００について説明されたものと同様のステップを含んでよく、その場合、同様のステップは、再度詳細に説明されないことがある。

１１０２において、フレームのシーケンス内の入力フレームを受信する。このステップは、上述のステップ６０２と同様であり得る。

１１０４において、プライマリユーザがすでに識別されて選択されているかどうかが判断される。例えばプライマリユーザは、フレームのシーケンス内の前の入力フレームを分析することから識別され、選択されたものであり得る。プライマリユーザがすでに選択されている場合、方法１１００は、ステップ１１０６に進み、そうでない場合、方法１１００は、ステップ１１０８に進む。

１１０６において、プライマリユーザの区別的な解剖学的特徴（例えば顔）が、（例えば顔検出及び追跡サブシステム３１２を使用して）入力フレーム内で検出され、フレームのシーケンス内の入力フレームに対する後続フレームにおいて追跡される。プライマリユーザが前の入力フレーム内で識別された場合、仮想ジェスチャ空間がプライマリユーザについてすでに定義されている可能性がある。このような場合、入力フレームと、入力フレームの後続フレームにおける解剖学的特徴の検出及び追跡は、すでに定義された仮想ジェスチャ空間内のみにおいて各後続フレームを処理することによって実行され得る。解剖学的特徴の追跡は、すべての後続フレームを処理することによって実行されるが、検出は、より低い頻度で（例えば１つ以上の後続フレームをスキップして）実行され得る。解剖学的特徴の検出は、追跡誤差を補正するために実行され得る（例えば追跡誤差は、多数の後続フレームにわたって追跡するときに累積され得る）。この議論は、プライマリユーザの区別的な解剖学的特徴（例えば顔）を検出及び追跡するコンテキストにおけるものであるが、（例えば図１０Ａ及び図１０Ｂに関して上述したように）入力フレーム内で検出された手に基づいて仮想ジェスチャ空間が再定義される場合、入力フレーム及び後続フレームを処理してプライマリユーザの手を検出及び追跡するために、ステップ１１０６の修正が行われてもよいことに留意されたい。

１１０８において、プライマリユーザが以前に選択されていない場合、例えば顔検出及び追跡サブシステム３１２を使用して、入力フレーム全体が、区別的な解剖学的特徴のインスタンス（例えば人間の顔のすべてのインスタンス）を検出するため処理され得る。バウンディングボックス及び識別子が、各々の検出された解剖学的特徴について生成され得る。区別的な解剖学的特徴のインスタンスが入力フレーム内で検出されない場合、方法１１００は、フレームのシーケンス内の次の入力フレームを処理するために１１０２に戻ってよい。

１１１０において、ランク付けされたユーザリスト３２４が、解剖学的特徴の検出されたインスタンスに基づいて生成される。各々の検出されたインスタンスは、それぞれの検出されたユーザに関連付けられ得る。ユーザリスト３２４は、所定のランク付け基準に従って、（例えば任意のアイトラッキング技術のような任意の適切な顔分析技術を使用して）検出された解剖学的特徴を更に分析することによってランク付けされ得る。例えば解剖学的特徴が顔である場合、ランク付け基準は、より大きな顔（ジェスチャ制御デバイス１００により近いと仮定される）が小さな顔よりも上位にランク付けされること；ジェスチャ制御デバイス１００の方に向けられる顔が、ジェスチャ制御デバイス１００から離れる方に向いている顔よりも上位にランク付けされること；あるいは目がジェスチャ制御デバイス１００を注視している顔が、目がジェスチャ制御デバイス１００から離れたところを見ている顔よりも上位にランク付けされ得ることを指定し得る。他のランク付け基準が使用されてもよい。検出された区別的な解剖学的特徴のインスタンスが１つのみの場合、その１つのインスタンスは、デフォルトでリストの最上位にランク付けされ得る。

１１１２において、ランク付けされたユーザリスト３２４内の最も高いランキングのユーザが、プライマリユーザとして選択される。ユーザリスト３２４内に１人のユーザしか存在しない場合、そのユーザはデフォルトでプライマリユーザとして選択され得る。次いで、方法１１００は、ステップ１１０６に進み、カメラ１０２によってキャプチャされたフレームのシーケンス内のプライマリユーザの解剖学的特徴を追跡する。

１１１４において、プライマリユーザについて仮想ジェスチャ空間が生成される。仮想ジェスチャ空間が（カメラ１０２によってキャプチャされた前のフレームの分析に基づいて）以前に定義されている場合、仮想ジェスチャ空間を生成する代わりに、すでに定義された仮想ジェスチャ空間が使用され得る。そうでなければ、仮想ジェスチャ空間は、（例えば前述のステップ６０６と同様に）フレームのシーケンスの入力フレーム内で検出されたプライマリユーザの区別的な解剖学的特徴（例えば顔）に基づいて生成される。任意に、仮想ジェスチャ空間を表す情報が提供され得る（例えばその結果、フィードバックがプライマリユーザに提供され得る）。

１１１６において、手が、フレームのシーケンス内の入力フレーム内の仮想ジェスチャ空間において（例えば手検出及び追跡サブシステム３１６を使用して）検出される。このステップは、上述のステップ６１０と同様であり得る。任意に、入力フレーム内の仮想ジェスチャ空間において２つ以上の手が検出される場合、プライマリハンドが（例えば手のサイズのような何らかの所定の基準に基づいて）識別され、仮想ジェスチャ空間に関連付けられ得る。任意に、仮想ジェスチャ空間は、（図９について上述したものと同様に）入力フレーム内で検出された手に基づいて再定義され得る。仮想ジェスチャ空間が、入力フレーム内で検出された手に基づいて、入力フレームに対する後続フレームにおいて再定義された場合、検出及び追跡は、ステップ１１０６においてすでに実行されていることがあり、このステップは必要とされないことがある。

１１１８において、ジェスチャ認識は、入力フレームに対するフレームのシーケンス内で（例えばバウンディングボックスによって定義されるように）検出及び追跡される手について（例えばジェスチャ認識サブシステム３２２を使用して）実行され、検出された手についてのジェスチャクラスを予測する。予測されたジェスチャクラス（有効なジェスチャが識別される場合）は、例えばソフトウェアアプリケーションのためのコマンド入力に変換されるために出力される。ユーザリスト３２４内のすべての非プライマリユーザは破棄され（すなわち、プライマリユーザのみを維持する）、方法１１００は１１０２に戻り、カメラ１０２によってキャプチャされたフレームのシーケンス内の次の入力フレームを受信して処理する。

ジェスチャ認識が、有効なジェスチャを予測できない（例えば手の形状を、いずれの所定のジェスチャクラスにも分類することができない）場合又はジェスチャが現在アクティブなソフトウェアアプリケーションにとって有効なジェスチャでない（例えばソフトウェアアプリケーションが、無効な入力を適応ジェスチャ感知システム３００に報告する）場合、方法１１００はステップ１１２０に進む。

１１２０において、現在選択されているプライマリユーザは、ユーザリスト３２４から破棄される。

１１２２において、ユーザリスト３２４内にいずれか他のユーザが存在するかどうかが判断される。ユーザリスト３２４に少なくとも１人の残りのユーザが存在する場合、ステップ１１１２において、ユーザリスト３２４内で最も高くランク付けされた残りのユーザがプライマリユーザとして選択され、方法１１００は、上述のようにステップ１１０６に進む。ユーザリスト３２４内に残りのユーザが存在しない場合、方法１１００は、ステップ１１０２に戻り、フレームのシーケンス内の次の入力フレームを受信して処理する。

ユーザリスト３２４は、カメラ１０２のＦＯＶ２０内に複数の人間が存在するときであっても、適応ジェスチャ感知システム３００が、減少した偽陽性で、ジェスチャ入力を分析して処理することを可能にする。ユーザリスト３２４は、複数の人間の存在に適応するよう比較的効率的な方法であり得るが、上述のように、ユーザリスト３２４の代わりに又はそれに加えて、他の技術が使用されてもよい。

上述のいくつかの例において、区別的な解剖学的特徴（例えば人間の顔）の検出は、入力フレーム全体を処理することによって実行され得る。他の例では、以下に説明するように、区別的な解剖学的特徴の検出は、入力フレーム内の関心領域（ＲＯＩ）のみを処理することによって実行され得る。例えば上述のステップ１１０８において、適応ＲＯＩアプローチが使用され得る（例えば顔検出及び追跡サブシステム３１２によって、顔検出のために実装し得る）。

適応ＲＯＩは、本開示において、ＲＯＩのサイズ及び／又は位置が、例えば顔検出器（例えば顔検出及び追跡システムサブ３１２）の要件、入力フレームの解像度又は処理効率に基づいて調整され得るという意味で、「適応的」とみなされ得る。例えば機械学習ベース（例えばコンピュータビジョンベース）の顔及び手検出器は、典型的に、正方形入力画像を処理するようにトレーニングされる。したがって、顔と手の検出における改善された性能のために、検出を行うためのＲＯＩは正方形であるべきである。同様の理由で、手検出のための仮想ジェスチャ空間は正方形として定義され得る。

図１２は、カメラ１０２によってキャプチャされるフレームのシーケンス内の入力フレームにおいて区別的な解剖学的特徴を検出するために適応ＲＯＩを使用する例示的な方法１２００を示すフローチャートである。方法１２００は、上述のステップ１１０８の一部として使用され得る。例えば方法１２００は、顔検出及び追跡サブシステム３１２によって実装され得る。方法１１００は、ステップ１１０８のための他の技術を使用して実装されてよく、適応ＲＯＩが使用されても使用されなくてもよいことを理解されたい。

１２０２において、解剖学的特徴が、前の入力フレーム内で検出されたかどうかが検出される。検出された場合、１２０４において、前の入力フレーム内の解剖学的特徴（例えば顔）の検出に使用されたＲＯＩが、現在の入力フレーム内で再び使用されるように選択される。一般に、解剖学的特徴の検出のためのＲＯＩは、入力フレーム全体よりも小さくあるべきであり、（検出アルゴリズムがトレーニング又は設計された方法に基づいて）正方形であり得る。

解剖学的特徴が前の入力フレームで検出されなかった（又は前の入力フレームがない）場合、１２０６において、ＲＯＩが、ＲＯＩシーケンスから選択される。ＲＯＩシーケンスからのあるＲＯＩが前の入力フレームで使用された場合、ＲＯＩシーケンス内の次のＲＯＩが、現在の入力フレームで使用するために選択され得る。ＲＯＩシーケンスは、予め定義され得る（例えば顔検出及び追跡サブシステム３１２において予め定義され得る）。ＲＯＩシーケンスは、逐次的入力フレームを処理するために使用されるべき異なるＲＯＩのシーケンスを定義する。例えばＲＯＩシーケンスが８つの異なるＲＯＩ（例えば異なる位置及び／又はサイズを有する）のシーケンスである場合、シーケンス内の各ＲＯＩは、８つの入力フレームのシーケンス内の解剖学的特徴の検出を実行するために順番に選択される。次いで、ＲＯＩシーケンスは、シーケンス内の最初のＲＯＩに戻るようサイクルし得る。

図１３は、８つの異なるＲＯＩ１３０２、１３０４、１３０６、１３０８、１３１０、１３１２、１３１４、１３１６を有する例示的なＲＯＩシーケンスを示す。８つのＲＯＩ１３０２～１３１６は、８つの異なる入力フレームのシーケンスにわたってサイクルされ得、異なる解像度の入力フレームに適用され得る。例えば６つのＲＯＩ１３０２～１３１２は、入力フレームの元の解像度１３００に適用されてよく、（例えばユーザ１０が、ジェスチャ制御デバイス１００からより離れている場合）より小さな解剖学的特徴の検出を可能にするように設計され得る。２つのＲＯＩ１３１４、１３１６は、（より低い解像度を有する）入力フレームの小型化されたバージョン１３５０に適用されてよく、（例えばユーザ１０が、ジェスチャ制御デバイス１００により近い場合）より大きな解剖学的特徴の検出を可能にするように設計され得る。いくつかのＲＯＩ１３１４、１３１６のための入力フレームの小型化されたバージョンを使用することは、入力フレームのより大きな領域のより低計算コストの処理を可能にするために有用であり得る。

ＲＯＩのシーケンスは、（２つ以上のＲＯＩを使用して同じ入力フレームを処理する代わりに）各入力フレームが、１つの選択されたＲＯＩのみを使用して処理されるように、カメラ１０２によってキャプチャされるフレームのシーケンスにわたってサイクルされることに留意されたい。カメラ１０２によってキャプチャされる入力フレームは、典型的には高頻度でキャプチャされるので、隣接するフレーム間の時間差は、このようにして、ＲＯＩのシーケンスを用いてフレームを処理することによって失われる情報がない（又は非常に少ない）ように十分小さい可能性がある。

予め定義された（例えば顔検出及び追跡サブシステム３１２内に記憶された）異なるＲＯＩシーケンスが存在してもよい。使用されるＲＯＩシーケンスは、ユーザ１０によって選択されてもよく、あるいは異なるＲＯＩシーケンスを通してサイクルするための所定の順序が存在してもよい（すなわち、使用すべきＲＯＩシーケンスの所定のシーケンスが存在しもよい）。さらに、図１３の例は、シーケンス内で一度に使用されているＲＯＩシーケンス内の各ＲＯＩを示すが、いくつかの例では、ＲＯＩシーケンスは、該ＲＯＩシーケンス内で所与のＲＯＩを２回以上使用するよう定義され得る。他のそのようなバリエーションも可能であり得る。

１２０８において、選択されたＲＯＩ（ステップ１２０４において前の入力フレーム内で選択されたＲＯＩ又はステップ１２０６においてＲＯＩシーケンスから選択されたＲＯＩのいずれか）で、区別的な解剖学的特徴の検出が、選択されたＲＯＩを使用して実行される。

区別的な解剖学的特徴（例えば顔）の検出を実行するための適応ＲＯＩの使用は、計算コストの低減及び／又はトレーニングされた検出器の改善された性能を可能にし得る。

いくつかの例において、適応ＲＯＩ技術は、ジェスチャ検出が活性化されるとき（又はジェスチャ検出がデフォルトで使用されるとき）、カメラ１０２によってキャプチャされるすべてのフレームを処理するために使用され得る。他の例では、適応ＲＯＩ技術は、すべてのＮ（ここで、Ｎ＞１）フレームを処理するために使用され得る。
前述したように、いくつかの例では、手検出及び追跡サブシステム３１６は、ジェスチャ認識のためにジェスチャ認識サブシステム３２２によって使用されるべきバウンディングボックスを出力し得る。いくつかの実施形態では、ジェスチャ認識サブシステム３２２は、機械学習アルゴリズムを使用して構築されるモデルを実装し得る。いくつかの実施形態では、ジェスチャ認識サブシステム３２２は、ジェスチャ分類を実行するために構成される、トレーニングされたニューラルネットワーク（以下、トレーニングされたジェスチャ分類ネットワークと称する）を含み得る。トレーニングされたジェスチャ分類ネットワークは、ニューラルネットワークのパラメータ（例えば重み）を学習するために既知の機械学習アルゴリズムを用いてトレーニングされている。トレーニングされたジェスチャ分類は、検出されたハンドジェスチャのためのバウンディングボックスを受け取り、バウンディングボックスに対応するジェスチャクラスの所定のセットから特定のジェスチャクラスを予測する。

典型的には、ジェスチャ分類を実行するように構成される、トレーニングされたニューラルネットワークによって達成されるジェスチャ分類の精度は、手画像が切り取られる（cropped）につれて（例えばバウンディングボックスがグラウンドトゥルースから大きなオフセットを有するとき）低下する。バウンディングボックスの調整の例は、２０１９年３月１５日に出願された米国特許出願第１６／３５５,６６５号、「ＡＤＡＰＴＩＶＥＩＭＡＧＥＣＲＯＰＰＩＮＧＦＯＲＦＡＣＥＲＥＣＯＧＮＩＴＩＯＮ」に記載されており、その全体が参照によって本明細書に組み込まれる。ここでは、ジェスチャ認識を改善するのに役立つバウンディングボックス調整のための同様のアプローチについて説明する。

図１４は、ジェスチャ認識サブシステム３２２に使用され得るジェスチャ分類ネットワークの例示的な実装を示すブロック図である。ジェスチャ分類ネットワーク１４００は、バウンディングボックス精緻化ネットワーク（bounding box refinement network）１４５０への側枝とともに実装され得る。ジェスチャ分類ネットワーク１４００は、入力フレーム内のバウンディングボックスによって定義された手画像に対してジェスチャ分類を実行し、バウンディングボックス精緻化ネットワーク１４５０は、ジェスチャ分類ネットワーク１４００によって使用されるバウンディングボックスの精緻化（refinement）を実行する。

入力フレームは、ジェスチャ分類ネットワーク１４００への入力データとして受信される。入力データは、（例えば手のための定義されたバウンディングボックスに基づいて）入力フレームの切り取られたバージョンであり得る。いくつかの実施形態において、入力データは、ネットワーク１４００、１４５０のバッチベースのトレーニングのための、あるいはフレームのシーケンスに基づくジェスチャ分類を可能にするような、画像のバッチであり得る。ジェスチャ分類ネットワーク１４００は、一連の畳み込みブロック１４０２（例えばＲｅｓＮｅｔ設計を使用して実装される）を含む。簡潔性のために、３つのそのような畳み込みブロック１４０２が示されているが、ジェスチャ分類ネットワーク１４００内には、より大きい又はより少ない畳み込みブロック１４０２が存在し得る。一連の畳み込みブロック１４０２は、決定されたジェスチャクラスを出力するジェスチャ分類完全接続ネットワーク（ＦＣＮ：fully connected network）１４０４に出力する。ジェスチャ分類ＦＣＮ１４０４は、入力として、一連の畳み込みブロック１４０２内の最後の畳み込みブロック１４０２からのベクトル出力を受信する。ジェスチャ分類ＦＣＮ１４０４は、バウンディングボックスによって定義される手についてのジェスチャクラスを決定するために特徴埋め込み（feature embedding）を使用し、決定されたジェスチャクラスをラベルとして出力する。いくつかの例では、ジェスチャ分類ＦＣＮ１４０４は、可能なジェスチャクラスに対する確率分布を含むベクトルを出力する。すなわち、ジェスチャ分類ネットワーク１４００の出力は、１つの最終的な決定されるジェスチャクラスの代わりに、異なるジェスチャクラスについての確率であってよい。いくつかの例では、ジェスチャ分類ＦＣＮ１４０４は、最後の出力層内にソフトマックス関数を含み、これは、可能なジェスチャクラスについて、出力された確率分布を正規化する働きをする。

各畳み込みブロック１４０２は、バウンディングボックス精緻化ネットワーク１４５０に属する側枝１４５２にも出力する。各側枝１４５２は、バウンディングボックス精緻化ＦＣＮ１４５４に出力する。各側枝１４５２は、独立に、任意の最大プーリング層、任意のリサイズresizing）層及び畳み込みブロックを含み得る。側枝１４５２の出力は、組合せ出力ベクトル（combined output vector）に連結され、該組合せ出力ベクトルは、バウンディングボックス精緻化ＦＣＮ１４５４に入力される前に、１×１畳み込みブロック（図示せず）によって平坦化され得る。バウンディングボックス精緻化ＦＣＮ１４５４の出力は、入力フレーム内の手を定義するバウンディングボックスのサイズ及び位置を調整又は精緻化する情報（例えばバウンディングボックスについての座標情報の形式の）である。

共同ネットワーク１４００、１４５０のトレーニングを以下で議論する。上述のように、ジェスチャ分類ＦＣＮ１４０４は、ソフトマックス層を含み得る。ジェスチャ分類ＦＣＮ１４０４は更に、クロスエントロピー損失を計算して出力することができ、これは、出力された確率分布とモデルにおける元の確率分布との間の差の尺度として考えられ得る。このクロスエントロピー損失は、ソフトマックス層の損失関数として使用されてよく、したがって、ソフトマックス損失と呼ばれることもある。同様に、バウンディングボックス損失が、バウンディングボックス精緻化ＦＣＮ１４５４から出力され得る。ソフトマックス損失とバウンディングボックス損失は、共同ネットワーク１４００、１４５０のトレーニング１４５６に使用され得る全損失関数（total loss function）のために組み合わされ得る。ソフトマックス損失、バウンディングボックス損失及び全損失関数を使用するトレーニング１４５６は、ネットワーク１４００、１４５０のトレーニング中にのみ使用され得、推論中には必要とされないことがある。

ネットワーク１４００、１４５０のトレーニング中に、トレーニングデータサンプルは、グラウンドトゥルース・ハンドバウンディングボックスの周囲に基づいてランダムに切り取られた手画像で生成され得る。

いくつかの例が図１５に示されており、ここでは、グラウンドトゥルース１５０２は、手画像のための最適化されたバウンディングボックスを定義し、他のランダムに切り取られた手画像は、トレーニングデータサンプル１５０４として生成される。トレーニングデータサンプル１５０４は、バウンディングボックスの位置をシフトし得るだけでなく、（バウンディングボックス内の手画像がより大きく又はより小さく表れ得るように）バウンディングボックスのサイズも変更し得ることに留意されたい。グラウンドトゥルース１５０２に対する各トレーニングデータサンプル１５０４のバウンディングボックスのオフセットは、バウンディングボックス精緻化をトレーニングするためのラベルとして使用される。

共同ネットワーク１４００、１４５０は、全損失関数を最小化することによってトレーニングされ、該全損失関数は、この例では、分類損失関数（ソフトマックス損失）とバウンディングボックス損失関数の線形結合である。次に、バウンディングボックス損失関数の例を議論する。

図１６の簡略化された例を考慮して、オブジェクトの周囲に定義されたグラウンドトゥルース・バウンディングボックス１６０２と、切り取られたトレーニングデータサンプル・バウンディングボックス１６０４とを例示する。｛（ｘ_１，ｙ_１），（ｘ_１，ｙ_２），（ｘ_２，ｙ_１），（ｘ_２，ｙ_２）｝は、トレーニングデータサンプル・バウンディングボックス１６０４の位置（この例では、四隅）を定義する座標であり、

は、対応するグラウンドトゥルース・バウンディングボックス１６０２の位置を定義する座標であるとする。バウンディングボックス精緻化ネットワーク１４５０は、トレーニングデータサンプル・バウンディングボックス１６０４とグラウンドトゥルース・バウンディングボックス１６０２との間の相対的回転θ及び相対的変位｛ｚ_１，ｚ_２，ｚ_３，ｚ_４｝を推定し、ここで、

である。

バウンディングボックス損失関数を、以下のように定義することができる：

ここで、λは、正規化パラメータである。

推論中、入力フレーム内の手画像を定義しているバウンディングボックスを、バウンディングボックス精緻化ネットワーク１４５０によって予測されるオフセットがゼロに近くなるまで、反復的に補正することができる。最終的なジェスチャ分類スコアは、各反復で取得されるすべての個々のジェスチャ分類スコアを以下のように組み合わせることによって、計算されることができる：

ここで、ｓ_ｍは、ｍ回目の反復の分類スコア（例えばソフトマックス出力）であり、
（外５）

は、ｍ回目のバウンディングボックス及び最終的な精緻化バウンディングボックスの対応する重み（例えばＩｏＵ（intersection over union））である。

推論中、ジェスチャ分類ネットワーク１４００を使用して、反復分類が（入力画像に適用されるバウンディングボックスによって定義される）入力の手画像に適用される。各反復において、ジェスチャ分類ネットワーク１４００への入力画像は、前の反復の出力されたバウンディングボックス精緻化パラメータによって補正された前の入力画像に基づいて、取得される。

したがって、バウンディングボックス精緻化ネットワーク１４５０及びジェスチャ分類ネットワーク１４００は、ジェスチャ分類ネットワーク１４００の性能を改善するのを助けるために、入力フレーム内の手画像を定義するバウンディングボックスを精緻化するためのフィードバックを提供するように一緒に動作する。

図１７は、ジェスチャ認識を実行するためのバウンディングボックス精緻化を使用する（例えば上述の共同ネットワーク１４００、１４５０を使用する）例示的な方法１７００を示すフローチャートである。方法１７００は、上述のステップ１１１８の一部として使用され得る。例えば方法１７００は、ジェスチャ認識サブシステム３２２によって実装され得る。方法１１００は、ステップ１１１８のための他の技術を使用して実装されてもよく、バウンディングボックス微細化が使用されても使用されなくてもよいことを理解されたい。

１７０２において、入力フレーム並びに（例えば手検出及び追跡サブシステム３１６によって出力される）検出された手を定義するバウンディングボックスを受信する。

１７０４において、（上述の）共同バウンディングボックス精緻化ネットワークを有するジェスチャ分類ネットワークが、バウンディングボックス精緻化を用いるジェスチャ分類を実行するために使用され得る。

任意に、１７０６において、ジェスチャ分析が、複数の入力フレームにわたって実行され得る。例えばジェスチャ認識サブシステム３２２は、前の入力フレームのバッファを記憶し、前の入力フレームを考慮することによってジェスチャ分析を実行し得る。

バッファ（例えば適応ジェスチャ感知システム３００内で実装される）は、所定の数の前の入力フレームを記憶するために使用されてもよい。バッファに記憶される前の入力フレームの数は、メモリリソースのより効率的な使用のために、比較的少ない可能性がある（例えば１０～３０の前の入力フレーム）。いくつかの例では、バッファは追加又は代替的に、より少ない数の前の入力フレームに対して実行されたジェスチャ分析の結果を記憶し得る。

認識されるべき単一の静的ジェスチャについて、ジェスチャ認識サブシステム３２２は、同じジェスチャクラスが、所定の数の前の入力フレーム（Ｎ）にわたって所定の最小回数（Ｋ）検出されることを要求することがあり、ここで、Ｋ≧１及びＫ≦Ｎである。この要件は、検出精度を改善させて偽陽性を減少させるのに役立つ可能性がある。いくつかの例では、同じジェスチャクラスが、Ｎ個の前の入力フレームにわたってＫ個の連続する入力フレームにわたって検出される必要があり得る。所定の最小数Ｋは、より良好な検出を可能にし、依然としてほぼリアルタイムのジェスチャ認識を達成するために、比較的少ない数（例えば１０）であるように選択され得る。このアプローチを使用して検出され得る静的ジェスチャは、例えばミュートジェスチャ（例えばミュート又は非ミュートコマンド）又はオープンハンドジェスチャ（例えば再生又は一時停止コマンド）を含み得る。Ｎ個の前の入力フレームは、バッファに記憶されてよく、偽陽性を減らすのを助けるために、ジェスチャを検出するためのスライディングウィンドウ（sliding window）として使用されてもよい。

動的ジェスチャは、２つ以上の静的ジェスチャの組合せに基づいて、ジェスチャ認識サブシステム３２２によって認識され得る。例えば完全な動的ジェスチャは、異なる状態に分離されてもよく、この場合、状態間の遷移は、静的ジェスチャの検出の結果である。ジェスチャ認識サブシステム３２２は、動的ジェスチャの状態ベースの認識のために、所定の状態遷移ルールのセットを実装してもよい。

図１８は、ジェスチャ認識サブシステム３２２によって実装され得る、動的ジェスチャの状態ベースの認識の例を示す状態図である。中立状態１８０２は、ジェスチャ入力が最初に活性化されるとき又は現在の有効なジェスチャが検出されないときのデフォルトによる初期状態であり得る。

スワイプの動的なジェスチャは、握りこぶしジェスチャが最初に検出されてスワイプ準備（swipe ready）状態１８０４に遷移し、その後、オープンハンドジェスチャの検出が続いてスワイプド（swiped）状態１８０６に遷移するときに、検出され得る。スワイプド状態１８０６に到達すると、ジェスチャ認識サブシステム３２２は、ジェスチャ入力を動的なスワイプジェスチャとして認識する。したがって、静的な握りこぶしジェスチャとそれに続く静的なオープンハンドジェスチャの（適切な順序での）認識は、動的なスワイプジェスチャの認識という結果をもたらす。さらに、検出された握りこぶしジェスチャと検出されたオープンハンドのジェスチャとの間の位置の変化は、動的なスワイプジェスチャを積極的に検出するために必要とされ得る（例えばスワイプジェスチャを、位置の変化を伴わない別の動的なジェスチャと区別するために）。検出されたジェスチャの位置の変化は、手のバウンディングボックスの座標の変化に基づいて計算され得る。スワイプド状態１８０６に到達すると、ジェスチャ認識サブシステム３２２は、認識されたジェスチャを示す出力（例えばジェスチャクラスラベル）を生成してもよく、スワイプ準備状態１８０４とスワイプド状態１８０６の検出の間の位置の変化を示す出力を更に提供してもよい。

垂直又は水平の動的ドラッグジェスチャは、ピンチオープン、ピンチクローズド及びピンチオープン静的ジェスチャの組合せとして検出され得る。例えば中立状態１８０２から、ピンチオープン静的ジェスチャの検出後に、ピンチ準備状態１８０８への遷移が生じる。ピンチ準備状態１８０８から、ピンチクローズドの静的ジェスチャの検出は、ピンチ活性化（pinch activated）状態１８１０への遷移を引き起こす。ピンチ活性化状態１８１０から、ピンチクローズド静的ジェスチャに留まると、垂直位置の変化（例えば所定の閾値を超える変化）は、垂直ドラッグ状態１８１２への遷移を引き起こす。同様に、ピンチ活性化状態１８１０から、ピンチクローズド静的ジェスチャに留まると、水平位置の変化（例えば所定の閾値を超える変化）は、水平ドラッグ状態１８１４への遷移を引き起こす。位置の変化が、垂直及び水平変化の組合せ（例えば位置の斜めの変化）である場合、規模がより大きい変化が、状態遷移を決定するために使用され得る。あるいは、位置の変化が垂直と水平変化の組合せである場合、状態遷移が認識されないことがある。垂直ドラッグ状態１８１２又は水平ドラッグ状態１８１４に到達すると、ジェスチャ認識サブシステム３２２は、認識されたジェスチャを示す出力（例えばジェスチャクラスラベル）を生成してもよく、垂直又は水平位置の変化を示す出力を更に提供してもよい。例えばジェスチャ認識サブシステム３２２は、（例えば入力フレームで定義された座標に基づいて）距離を計算し、この値を出力し得る。距離値は、動的ドラッグジェスチャをドラッグコマンド入力にマッピングするために使用され得る。垂直ドラッグ状態１８１２又は水平ドラッグ状態１８１４から、ピンチオープン静的ジェスチャの検出は、ピンチ準備状態１８０８への遷移を引き起こす。ピンチ準備状態１８０８に戻ることは、動的ドラッグジェスチャの終了として認識され得る。

位置の変化を伴う動的ジェスチャについて、ジェスチャ認識サブシステム３２２は、可能性のある偽陽性を更に排除するために、物理的及び／又は期待される人間の動きの法則に基づいて所定のルールを実装し得る。例えば所定のルールは、検出された手は、連続する入力フレームの間の所定の閾値より大きい位置の変化（例えば１００ピクセルを超える変化）を示すべきでないというものであり得る。

状態ベースのジェスチャ認識を使用することは、動きベースのジェスチャ・セグメンテーション及び認識よりも有利であり得る。例えば静的ジェスチャを検出することと比較して、ジェスチャの動きを検出して処理するためには、非常に高い処理リソースが必要とされ得る。さらに、状態ベースのジェスチャ認識は、偽陽性の傾向がより少ない可能性がある。

いくつかの例において、本開示は、画像品質を改善するのを助けるために画像調整を実行することを含む、カメラ１０２によってキャプチャされたフレームのシーケンス内の入力フレームにおける手検出のための方法を説明する。一般に、ジェスチャ認識の性能は、低光シナリオで劣化する傾向がある。例えばジェスチャ制御デバイス１００が、暗い部屋で視聴されているスマートＴＶである場合、フレームのシーケンスがジェスチャ制御デバイス１００のカメラ１０２によってキャプチャされるとき、スマートＴＶの画面が唯一の重要な照明源であり得る。本発明では、この問題を解決するための３つの方法を提案する。画像調整のためのいくつかの例示的な技術が以下に説明され、これらの技術の各々は、例えば手検出及び追跡サブシステム３１６によって実装されてよく、組み合わせて使用されてもよい。

図１９は、カメラ１０２によってキャプチャされるフレームのシーケンスにおいて画像調整を実行することを含む、手の検出及び追跡を実行するための例示的な方法１９００を示すフローチャートである。方法１９００は、上述のステップ１１１６の一部として使用され得る。例えば方法１９００は、手検出及び追跡サブシステム３１６によって実装され得る。方法１９００は、ステップ１１１６のための他の技術を使用して実装されてもよく、以下に説明されるような画像調整が使用されても使用されなくてもよい。

方法１９００は、（例えばステップ１１１４において、仮想ジェスチャ空間生成サブシステム３１４によって）仮想ジェスチャ空間が定義された後に開始する。

１９０２において、カメラ１０２によってキャプチャされたフレームのシーケンス内の前の入力フレームにおいて、手がすでに検出されているかどうかが判断される。手がすでに検出された場合、方法１９００はステップ１９０８に進み得る。例えば手が前の入力フレームですでに成功裏に検出された場合、前の入力フレームにおける手の成功裏の検出から生成されたバウンディングボックスは、フレームのシーケンス内の現在の入力フレームにおいて手を追跡するための開始点として使用され得る（例えば連続するフレーム間の時間は、手がまだ少なくとも部分的に前のバウンディングボックス内にあるのに十分短いという仮定に基づく）。さらに、フレームのシーケンス内の前の入力フレームにおいて手が成功裏に検出された場合、環境内の照明は十分であるとみなされてよく（例えば環境内の光レベルは連続するフレーム間の短時間では大きく変化しないという仮定に基づく）、画像調整は必要とされない。

カメラ１０２によってキャプチャされたフレームのシーケンス内の前の入力フレームにおいて手がまだ検出されていない場合、方法１９００はステップ１９０４に進む。

任意に、１９０４において、画像調整が実行される。いくつかの例において、画像調整は、画像調整が必要であると判断される場合にのみ実行され得る。例えばジェスチャ制御デバイス１００の光センサを使用して、周囲光レベルを検出し、光レベルが画像調整を必要とするほど十分に低いかどうかを判断してよい。いくつかの例において、入力画像の少なくとも一部（例えば入力画像全体にわたる、仮想ジェスチャ空間のみにわたる又は手のバウンディングボックスのみにわたる）の分析が、画像調整が必要とされるかどうかを決定する（例えば全体的な画素強度レベルを決定する）ために実行され得る。

いくつかの例では、画像調整は、画像調整が必要とされるかどうかを最初に判断することなく、デフォルトで実行されてもよい。そのような場合、画像調整（例えばガンマ補正）を実行することは、画像がすでに十分に照明されている場合には、画像に対してほとんど又は全く変化をもたらさないことがある。

特に低光条件（low-light conditions）に対して補正するために、画像調整のための様々な技術が使用され得る。

いくつかの例では、画像調整は、（人の顔が区別的な解剖学的特徴である場合には）フレームのシーケンスにおける前のフレーム内で検出された顔を基準として使用して、画像の照明を調整することを含み得る。顔が前のフレームで検出されたと仮定すると（例えば顔検出及び追跡サブシステム３１２を使用して）、検出された顔は、入力フレームにおいて照明調整を実行するための基準として使用され得る。

（外６）

及び
（外７）

は、それぞれ、低光及び好ましい照明条件下でキャプチャされた顔画像について、所定の（例えば較正を介して経験的に決定された又は事前コード化された）平均値及びピクセル強度の標準偏差を示すものとする。

図２０は、顔を含む画像が低光でキャプチャされるときのピクセル強度値の代表的なヒストグラム２００２と、顔を含む画像が好ましい照明条件でキャプチャされるときのピクセル強度値の代表的なヒストグラム２００４とを示すグラフである。

低光ピクセルから好ましい照明ピクセルへのマッピングは、以下の方程式を使用して計算されることができる：

この方程式を使用して、入力フレーム内で定義される仮想ジェスチャ空間内のすべてのピクセルｘ_ｉは、より良好な手検出のために上記のマッピング式を使用することによって、調整されたピクセルｙ_ｉに変換され得る。上記の説明は、低光条件を補正するための照明調整を議論しているが、同様の照明調整が過剰光状態を補正するために使用されてもよいことを理解されたい。

いくつかの例では、画像調整は、（照明補正の形態と考えられ得る）ガンマ補正を実行することを含み得る。様々なガンマ補正技術が使用され得る。例えばｘ_ｉは、入力フレームの単一チャネルのピクセル値とする。次に、ガンマ変換は、次のように計算され得る：

ここで、ｙ_ｉは、調整されたピクセル値であり、γは、ガンマ変換の標準パラメータである。

いくつかの例では、画像調整は、ジェスチャ制御デバイス１００の表示を変更することを含み得る。このアプローチは、ジェスチャ制御デバイス１００の画面が環境内の照明源である（例えばジェスチャ制御デバイス１００が、テレビ、スマートフォン又はタブレットである）状況において有用であり得る。このようなアプローチでは、低光条件は、任意の適切な技術を使用して最初に検出され得る。例えば低光条件は、ジェスチャ制御デバイス１００の一部であり得る光センサを使用して検出され得る。また、低光条件は、入力フレームのピクセル強度を分析することによって検出されてもよく、ピクセルの大部分が所定の強度閾値を下回る場合、低光条件が決定され得る。

低光条件が検出された後、ジェスチャ制御デバイス１００の画面の表示コンテンツ及び／又は明るさは、より良好な品質の画像をキャプチャするために画面がより強い光源となるように制御され得る。適応ジェスチャ感知システム３００からの出力は、入力フレームが不十分な照明を有するよう分析されたことを示すために通信され、処理デバイス２０２は、それに応じて画面の表示コンテンツ及び／又は明るさを変更するようにディスプレイ１０４を制御し得る。いくつかの例では、低光条件の検出が、（例えばジェスチャ制御デバイス１００の光センサを使用する）画像分析に基づいていない場合、処理デバイス２０２は、それに応じて、適応ジェスチャ感知システム３００からのいずれの情報もなしにディスプレイ１０４を制御し得る。

いくつかの例において、このようにして表示コンテンツ及び／又は明るさを制御することは、低光条件が検出された後であって、ジェスチャ入力が開始された（例えばユーザ１０がジェスチャベースのコマンド入力を活性化するための入力を手動で提供したか又は認識されたハンドジェスチャが最初に検出された）後に実行され得る。いくつかの例では、ジェスチャ制御デバイス１００の画面は、画面背景照明をより明るくするように変更するように制御され得る。いくつかの例では、ジェスチャ制御デバイス１００の画面は、表示されたコンテンツに照明セクションを追加するように制御され得る。照明セクションは、ディスプレイのより明るいセクション（例えばすべて白のセクション）であり得る。

例えば図２１Ａは、通常の光条件下で、あるいはテレビやスマートフォンのようなジェスチャ制御デバイスのディスプレイ１０４上でジェスチャ入力が開始されていないときに表示され得る、正常な画像２１０２を示す。低光条件が検出され、ジェスチャ入力が開始された後、表示されるコンテンツは、図２１Ｂのものへと調整され得る。図２１Ｂでは、画像２１０２はサイズが縮小されており、照明セクション２１０４が追加されている。この例では、照明セクション２１０４は、ディスプレイの４つの側面すべてに沿った縁である。他のセクションでは、照明セクション２１０４は、１つの側面、２つの側面又は３つの側面のみに沿っていてもよく、あるいはディスプレイの１つ以上の側面に沿った不連続なセクションを含んでもよい。照明セクション２１０４の明るさ、色相及び／又はサイズ（例えば厚さ及び長さ）は、検出された低光条件に基づいて自動的に調整され得る。例えば（例えば検出されたピクセル強度に基づいて又は光センサからの出力に基づいて）所定の閾値において異なる低照明レベルが存在することがあり、照明セクション２１０４のための異なるパラメータは、異なる低照明レベルにおいて予め定義され得る。一般に、より低い照明レベルは、より大きい及び／又はより明るい照明セクション２１０４を必要とし得る。

図１９に戻ると、１９０６において、手検出は、（例えば手検出及び追跡サブシステム３１６を使用して）仮想ジェスチャ空間内で実行される。手検出及び追跡サブシステム３１６は、上述のように、画像２１０２内の手を検出するために使用されて構成され得るトレーニングされたニューラルネットワークを含み得る。トレーニングされたニューラルネットワークを使用する手検出及び追跡サブシステム３１６による成功した手検出は、仮想ジェスチャ空間で検出された手について定義されたバウンディングボックスを出力し得る。

１９０８において、手追跡は、検出された手について定義されたバウンディングボックスに基づいて、手検出及び追跡サブシステム３１６を使用して実行される。バウンディングボックスは、追跡に基づいて更新され得る。

次いで、手検出及び追跡からの情報（例えば手について定義されたバウンディングボックス）が、（例えばジェスチャ認識サブシステム３２２による）ジェスチャ認識のために提供され得る。

様々な例において、本開示は、ジェスチャ入力を検出及び認識するための精度及び効率を改善することを助けるためのシステム及び方法を説明する。本開示は、複雑な環境においてジェスチャ入力を検出及び認識するため及び／又はジェスチャの長距離検出のために有用であり得る。

上述の方法（例えば適応ＲＯＩ技術、バウンディングボックス精緻化共同ネットワーク、仮想ジェスチャ空間、画像調整、状態ベースのジェスチャ認識）のうちの１つ以上を使用することは、複雑な実生活シナリオにおいてさえ、ジェスチャ入力のよりロバストな検出及び認識を可能にし得る。ジェスチャ検出の改善された精度は、キャプチャされた入力フレームのより効率的な処理を可能にし得る。いくつかの例において、入力フレームは、画像キャプチャの速度より低い頻度で処理され得る。例えばすべての入力フレームを処理する代わりに、すべてのＮ（Ｎ＞１）のフレームが、顔（又は他の区別的な解剖学的特徴）及び手検出及び追跡のために処理される。Ｎは、ユーザ選択されたパラメータであってよく、予めプログラムされてよく、あるいはジェスチャ制御デバイス１００によって自動的に選択されてもよい（例えば画像が所定の閾値を下回る速度でキャプチャされるとき、Ｎは１であってよく；画像が所定の閾値を上回ってキャプチャされるとき、Ｎは２以上であってよく；画像品質が悪いか又は低解像度のとき、Ｎは１であってよく；画像解像度が高いとき、Ｎは２以上であってよい）。すべてのＮ（Ｎ＞１）フレームを処理することにより、ジェスチャ検出及び認識は依然として、良好な精度でほぼリアルタイムに実行されることができ、ジェスチャ制御デバイスから必要とされる処理リソースを低減することができる。

本開示は、顔及び手検出のためにニューラルネットワークを使用する例示的な実装を記載する。ジェスチャ分類及び認識の精度を改善することを助けるために、手のバウンディングボックスの精緻化を可能にする例示的な共同ニューラルネットワークを記載する。

いくつかの例において、仮想ジェスチャ空間が説明され、これは、検出された人間の顔（又は他の区別的な解剖学的特徴）に基づいて定義され得る。手の検出のために定義された仮想ジェスチャ空間を使用することによって、ハンドジェスチャのより正確及び／又は効率的な検出が達成され得る。いくつかの例では、仮想ジェスチャ空間は、特定の部分空間へのジェスチャ入力がマウス入力にマッピングされ得る部分空間で更に定義され得る。したがって、仮想ジェスチャ空間は仮想マウスとして使用され得る。

ディスプレイ及びカメラを有するジェスチャ制御デバイス（スマートＴＶ、スマートフォン又はタブレットのような）のコンテキストで実施例を説明してきたが、本開示は、ディスプレイ及び／又はカメラを含むことも含まないこともある他のジェスチャ制御デバイスに関連してもよい。例えば本開示は、スマートスピーカ、スマートアプライアンス、モノのインターネット（ＩｏＴ）デバイス、ダッシュボードデバイス（例えば車両に設置される）又は低計算リソースを有するデバイスに関連し得る。

本明細書に記載される例は、人工現実（ＡＲ）、仮想現実（ＶＲ）及び／又はビデオゲームアプリケーションに適用可能であり得る。

本開示は、特定の順序のステップを有する方法及びプロセスを説明するが、方法及びプロセスの１つ以上のステップは必要に応じて省略又は変更されてもよい。１つ以上のステップは、必要に応じてそれらが記載されている順序以外の順序で行われてよい。

本開示は、少なくとも部分的に、方法に関して説明されるが、当業者には、本開示が、ハードウェア構成要素、ソフトウェア又はこれら２つの任意の組合せによる方法である、説明される方法の態様及び特徴の少なくとも一部を実行するための様々な構成要素に向けられていることが理解されよう。したがって、本開示の技術的解決策は、ソフトウェア製品の形態で具体化され得る。適切なソフトウェア製品は、予め記録された記憶デバイス、あるいは例えばＤＶＤ、ＣＤ－ＲＯＭ、ＵＳＢフラッシュディスク、取り外し可能ハードディスク又は他の記憶媒体を含む、他の類似の不揮発性又は非一時的なコンピュータ読取可能媒体に記憶され得る。ソフトウェア製品は、処理デバイス（例えばパーソナルコンピュータ、サーバ又はネットワークデバイス）が本明細書に開示される方法の例を実行することを可能にする、その上に有形に記憶された命令を含む。

本開示は、特許請求の範囲の主題から逸脱することなく、他の特定の形態で具体化され得る。説明される例示的な実施形態は、すべての点において、単なる例示的なものであり、限定的なものではないと考えられるべきである。上述の実施形態の１つ以上からの選択された特徴を組み合わせて、明示的に説明されていない代替的な実施形態を作り出すことができ、そのような組合せに適した特徴は本開示の範囲内で理解される。

開示される範囲内のすべての値及び副次的範囲も開示される。また、本明細書において開示及び示されているシステム、デバイス及びプロセスは、特定の数の要素／構成要素を含み得るが、システム、デバイス及びアセンブリは、追加又はより少ない要素／構成要素を含むように修正される可能性がある。例えば開示される要素／構成要素のいずれかは、単数であるものとして参照され得るが、本明細書に開示される実施形態は、複数のそのような要素／構成要素を含むように修正される可能性がある。本明細書に記載される主題は、技術におけるすべての適切な変更をカバーし、包含するように意図している。

Claims

ジェスチャ入力を処理するための方法であって、当該方法は、ジェスチャ制御デバイスによって実行され、
受信した入力フレーム内で定義される仮想ジェスチャ空間を決定するステップであって、前記仮想ジェスチャ空間は、前記受信した入力フレーム内の視野よりも小さく、前記仮想ジェスチャ空間は、１人以上のユーザのランク付けされたユーザリストからのプライマリユーザに関連付けられている、ステップと、
手を検出して追跡するために、前記受信した入力フレームを前記仮想ジェスチャ空間内のみにおいて処理するステップと、
前記手を検出して追跡することによって生成される手のバウンディングボックスを使用して、ジェスチャ分類を実行して前記手に関連付けられるジェスチャ入力を決定するステップと、
前記決定されたジェスチャ入力に関連付けられるコマンド入力の処理を引き起こすように、前記決定されたジェスチャ入力を出力するステップと、
を含み、
前記ジェスチャ分類を実行することは、
前記受信した入力フレーム内で検出された前記手に関連付けられるジェスチャクラスを識別することと、
前の入力フレームに関連付けられる前のジェスチャ状態から現在のジェスチャ状態への状態遷移を決定することであって、前記状態遷移は前記識別されたジェスチャクラスに基づいて決定されることと、
前記決定された状態遷移に関連付けられる所定のルールセットに基づいて、前記ジェスチャ入力を決定することと、
を含む、方法。
前記仮想ジェスチャ空間を決定するステップは、
前記入力フレームを処理して、前記１人以上のユーザを検出するステップと、
前記検出された１人以上のユーザに基づいて、前記ランク付けされたユーザリストを生成するステップであって、前記プライマリユーザは、前記ランク付けされたユーザリストにおいて最も高くランク付けされたユーザとして識別される、ステップと、
前記プライマリユーザの検出された解剖学的特徴に基づいて、前記仮想ジェスチャ空間を生成するステップと、
を含む、請求項１に記載の方法。
前記入力フレームを処理することは、
前記入力フレームを処理するための関心領域（ＲＯＩ）を選択するステップを含み、前記ＲＯＩは、前記入力フレームの全領域よりも小さい領域を定義し、
前記ＲＯＩは、定義されたＲＯＩシーケンスから選択され、前記ＲＯＩシーケンスは、それぞれの複数の逐次的に受信した入力フレームを処理するための複数のＲＯＩを定義する、
請求項２に記載の方法。
前記仮想ジェスチャ空間を決定するステップは、
前記プライマリユーザに関連付けられる前記仮想ジェスチャ空間内で検出された前記手に関連付けられる無効なジェスチャ入力を決定するステップと、
前記ランク付けされたユーザリスト内の次に高くランク付けされたユーザを新たなプライマリユーザとして選択するステップと、
前記新たなプライマリユーザを使用して当該方法を繰り返すステップと、
を含む、請求項１乃至３のいずれか一項に記載の方法。
前記入力フレームを前記仮想ジェスチャ空間内のみにおいて処理するステップは、
前記受信した入力フレームに関連付けられる低光条件を決定するステップと、
前記低光条件に応答して、前記受信した入力フレームのピクセル値を自動的に調整するために画像調整を自動的に実行するステップと、
を含む、請求項１乃至４のいずれか一項に記載の方法。
前記入力フレームは、トレーニングされた共同ニューラルネットワークを使用して前記手を検出して追跡するために処理され、前記トレーニングされた共同ニューラルネットワークは、トレーニングされたバウンディングボックス精緻化畳み込みニューラルネットワークへの側枝接続を有する、トレーニングされたジェスチャ分類畳み込みニューラルネットワークを含む、
を含む、請求項１乃至５のいずれか一項に記載の方法。
前記受信した入力フレームは、前記受信した入力フレームをキャプチャするために使用される画像キャプチャデバイスのフレームキャプチャ頻度より低い頻度で受信されて処理される、
請求項１乃至６のいずれか一項に記載の方法。
装置であって、
機械実行可能な命令を記憶するメモリに結合される処理デバイスを含み、前記命令は、前記処理デバイスによって実行されると、当該装置に、
受信した入力フレーム内で定義される仮想ジェスチャ空間を決定するステップであって、前記仮想ジェスチャ空間は、前記受信した入力フレーム内の視野よりも小さく、前記仮想ジェスチャ空間は、１人以上のユーザのランク付けされたユーザリストからのプライマリユーザに関連付けられている、ステップと、
手を検出して追跡するために、前記受信した入力フレームを前記仮想ジェスチャ空間内のみにおいて処理するステップと、
前記手を検出して追跡することによって生成される手のバウンディングボックスを使用して、ジェスチャ分類を実行して前記手に関連付けられるジェスチャ入力を決定するステップと、
を含む方法を実行させ、
前記決定されたジェスチャ入力は、前記決定されたジェスチャ入力に関連付けられるコマンド入力の処理を引き起こし、
前記命令は、当該装置に更に、
前記受信した入力フレーム内で検出された前記手に関連付けられるジェスチャクラスを識別することと、
前の入力フレームに関連付けられる前のジェスチャ状態から現在のジェスチャ状態への状態遷移を決定することであって、前記状態遷移は前記識別されたジェスチャクラスに基づいて決定されることと、
前記決定された状態遷移に関連付けられる所定のルールセットに基づいて、前記ジェスチャ入力を決定することと、
によって、前記ジェスチャ分類を実行させる、
装置。
前記命令は、当該装置に更に、
前記入力フレームを処理して、前記１人以上のユーザを検出することと、
前記検出された１人以上のユーザに基づいて、前記ランク付けされたユーザリストを生成することであって、前記プライマリユーザは、前記ランク付けされたユーザリストにおいて最も高くランク付けされたユーザとして識別されることと、
前記プライマリユーザの検出された解剖学的特徴に基づいて、前記仮想ジェスチャ空間を生成することと、
によって、前記仮想ジェスチャ空間を決定させる、
請求項８に記載の装置。
前記命令は、当該装置に更に、
前記入力フレームを処理するための関心領域（ＲＯＩ）を選択すること、
によって、前記入力フレームを処理させ、前記ＲＯＩは、前記入力フレームの全領域よりも小さい領域を定義し、
前記ＲＯＩは、定義されたＲＯＩシーケンスから選択され、前記ＲＯＩシーケンスは、それぞれの複数の逐次的に受信した入力フレームを処理するための複数のＲＯＩを定義する、
請求項９に記載の装置。
前記命令は、当該装置に更に、
前記プライマリユーザに関連付けられる前記仮想ジェスチャ空間内で検出された前記手に関連付けられる無効なジェスチャ入力を決定することと、
前記ランク付けされたユーザリスト内の次に高くランク付けされたユーザを新たなプライマリユーザとして選択することと、
前記新たなプライマリユーザを使用して前記方法を繰り返すことと、
によって、前記仮想ジェスチャ空間を決定させる、
請求項８乃至１０のいずれか一項に記載の装置。
前記命令は、当該装置に更に、
前記受信した入力フレームに関連付けられる低光条件を決定することと、
前記低光条件に応答して、前記受信した入力フレームのピクセル値を自動的に調整するために画像調整を自動的に実行することと、
によって、前記入力フレームを前記仮想ジェスチャ空間内のみにおいて処理させる、
請求項８乃至１１のいずれか一項に記載の装置。
前記入力フレームは、トレーニングされた共同ニューラルネットワークを使用して前記手を検出して追跡するために処理され、前記トレーニングされた共同ニューラルネットワークは、トレーニングされたバウンディングボックス精緻化畳み込みニューラルネットワークへの側枝接続を有する、トレーニングされたジェスチャ分類畳み込みニューラルネットワークを含む、
請求項８乃至１２のいずれか一項に記載の装置。
前記受信した入力フレームは、前記受信した入力フレームをキャプチャするために使用される画像キャプチャデバイスのフレームキャプチャ頻度より低い頻度で受信されて処理される、
請求項８乃至１３のいずれか一項に記載の装置。
当該装置は、ジェスチャ制御デバイスである、
請求項８乃至１４のいずれか一項に記載の装置。
前記入力フレームをキャプチャするためのカメラを更に含む、
請求項１５に記載の装置。
前記ジェスチャ制御デバイスは、
テレビ、
スマートフォン、
タブレット、
車両結合デバイス
モノのインターネットデバイス、
人工現実デバイス、又は
仮想現実デバイス、
のうちの１つである、請求項１５又は１６に記載の装置。
その上に記憶される機械実行可能な命令を有するコンピュータ読取可能媒体であって、前記命令は、装置の処理デバイスによって実行されると、前記装置に請求項１乃至７のいずれか一項に記載の方法を実行させる、コンピュータ読取可能媒体。