JP2020009316A

JP2020009316A - 学習方法および学習装置

Info

Publication number: JP2020009316A
Application number: JP2018131662A
Authority: JP
Inventors: 正雄山中; Masao Yamanaka
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2020-01-16

Abstract

【課題】人の姿勢を精度良く認識する識別器を得る。【解決手段】対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習方法。前記対象者を含む画像を取得する画像取得ステップと、前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得ステップと、前記第一の部位情報を特徴量に変換する変換ステップと、複数の前記特徴量をクラスタリングする分類ステップと、生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成ステップと、前記第二の部位情報を用いて、前記識別器を学習させる学習ステップと、を含む。【選択図】図１

Description

本発明は画像処理に関し、特に人の姿勢を推定する技術に関する。

画像中の人物の姿勢を推定する方法として、例えば、非特許文献１に記載された方法が提案されている。当該方法では、まず、ＣＧ（コンピュータ・グラフィックス）を用いて様々な体格・姿勢の人物に対する奥行画像を大量に生成する。また、これらの奥行画像のそれぞれに対して、頭部、顔面、首、上腕などといった、身体部位に対応する領域ごとに色分け（腑分け）を行う。さらに、古典的機械学習の一種であるランダム・フォレストを用いて、奥行画像中の任意の一点が、複数の身体部位に対応する複数の領域のうちのどれに属するのかを推定するための識別器を学習する。最終的に、得られた識別器を用いて、奥行画像中のすべての点について、複数の領域のうちのどれに属するのかを推定する。

また、画像中の人物の姿勢を推定する方法として、例えば、非特許文献２に記載された方法が提案されている。当該方法では、まず、様々な体格・姿勢の人物に対応する画像を大量に用意する。また、これらの画像のそれぞれに対して、頭部、顔面、首、肩、肘などといった、人体の部位の位置を付与する。さらに、深層学習の一種で、ＶＧＧ−１６と呼ばれる畳み込みニューラル・ネットワーク（ＣＮＮ）を用いて、画像中の人物の人体の部位の位置を推定するための識別器を学習する。最終的に、得られた識別器を用いて画像中の人物の人体の部位の位置を推定する。

J. Shotton et al., Real-Time Human Pose Recognition in Parts from Single Depth Images, CVPR2011 K. Simonyan et al., "Very Deep Convolutional Networks for Large-Scale Image Recognition", International Conference on Learning Representations, 2015. 田口善弘・大野克嗣・横山和成(2001):非計量多次元尺度構成法への期待と新しい視点、統計数理、第49巻第1号133-153 M. Belkin et al., Laplacian Eigenmaps for Dimensionality Reduction and Data Representation, Neural Computation, Vol. 15, No.6, pp. 1373-1396 (2003) Normalized cuts and image segmentation, 2000 Jianbo Shi, Jitendra Malik M. Sugiyama et al., On information maximization clustering: Tuning parameter selection and analytic solution. In L. Getoor and T. Scheffer, editors, Proceedings of 28th International Conference on Machine Learning (ICML2011), pages 65-72, Bellevue, Washington, USA, Jun. 28-Jul. 2 2011. A. Toshev et al., Pose Estimation via Deep Neural Networks, CVPR2015 M. Schwarz et al., RGB-D Object Recognition and Pose Estimation Based on Pre-Trained Convolutional Neural Network Features ICRA2015

従来技術に係る識別方法では、識別器の推定精度が、学習データの質と量（具体的には
、画像中の人物の体格・服装・姿勢、カメラの解像度・向き・角度などのばらつき）に強く依存するといった問題がある。
すなわち、従来技術においては、識別器を学習させるために、十分な質と量を満たす学習データを用意しなければならないという点において課題があった。

本発明は上記の問題点を考慮してなされたものであり、人の姿勢を精度良く識別するための識別器を得ることを目的とする。

本発明の第一の形態に係る学習方法は、
対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習方法であって、前記対象者を含む画像を取得する画像取得ステップと、前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得ステップと、前記第一の部位情報を特徴量に変換する変換ステップと、複数の前記特徴量をクラスタリングする分類ステップと、生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成ステップと、前記第二の部位情報を用いて、前記識別器を学習させる学習ステップと、を含むことを特徴とする。

本発明の第二の形態に係る学習装置は、
対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習装置であって、前記対象者を含む画像を取得する画像取得手段と、前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得手段と、前記第一の部位情報を特徴量に変換する変換手段と、複数の前記特徴量をクラスタリングする分類手段と、生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成手段と、前記第二の部位情報を用いて、前記識別器を学習させる学習手段と、を有することを特徴とする。

本発明によれば、人の姿勢を精度良く識別するための識別器を得ることができる。

第一の実施形態に係る識別装置１０の機能構成図。識別装置１０が行う学習処理のフローチャート。画像入力部１１に入力される画像の例。真値付与部１２によって付与された座標の例。部位間の距離の大きさの順位に基づく順位特徴量の説明図。分類部１５によってクラスタリングされた特徴量を説明する図。第二の部位情報を生成する方法を説明する図。第二の実施形態に係る識別装置１０の機能構成図。

本発明に係る学習方法は、人が有する複数の身体部位の位置を、入力された画像に基づいて識別する識別器を学習させる方法である。
識別器を学習させるためには、一般的に、大量の学習データが必要になる。そこで、本発明では、既知の学習データに基づいて、数の不足が予測される学習データを推定して生成し、生成した学習データを併用して識別器の学習を行う。かかる構成によると、識別器の汎化性能を高めることができる。

本発明に係る学習方法は、対象者を含む画像を取得し、当該対象者が有する身体部位の
位置に関する情報である第一の部位情報を取得する。画像は、例えば、可視光画像や赤外画像である。また、可視光画像や赤外画像と、距離画像とを組み合わせて用いてもよい。
また、第一の部位情報は、真の値を表すデータ（正解データ）である。第一の部位情報には、例えば、頭、首、肩、肘、手首、掌、胴、股関節、膝、足首などの位置（例えば、各部位の中心位置）が含まれる。また、第一の部位情報には、頭部領域、顔の向き、視線方向、手（手指）領域、手指形状が含まれてもよい。
これらの情報は、特徴量に変換される。

本発明に係る学習方法は、さらに、複数の画像にそれぞれ対応する複数の特徴量をクラスタリングし、生成された複数のクラスタのそれぞれについて、対応する第一の部位情報に類似する第二の部位情報を生成する。第二の部位情報は、新たに生成された学習データである。そして、生成された第二の部位情報を少なくとも用いて識別器を学習させる。

かかる形態によれば、正解データに基づいて学習データの数を増やせるため、人の姿勢をより精度よく識別する識別器を得ることができる。
さらに、特徴量をクラスタリングして得られたクラスタごとに第二の部位情報を生成するため、学習データの充足度を判定することが可能になる。

また、前記生成ステップでは、前記複数のクラスタにそれぞれ含まれる特徴量の数に基づいて、クラスタごとに生成する前記第二の部位情報の数を決定することを特徴としてもよい。
かかる構成によると、含まれる特徴量の数が相対的に少ないクラスタがある場合に、当該クラスタに対応する第二の部位情報を相対的に多く生成するといった対応が可能になる。

なお、前記特徴量は、前記複数の身体部位の位置関係に基づいた特徴量であることを特徴としてもよい。また、前記特徴量は、前記複数の身体部位間の距離の順位に基づいた特徴量であることを特徴としてもよい。

このような特徴量は、スケール変換・回転・平行移動に対して不変であり、また、微小変動に対して頑強である。したがって、このような特徴量を採用することで、どのような学習データが不足しているのかを精度よく推定することができる。

また、前記生成ステップでは、前記第一の部位情報に対応する複数の身体部位の位置を、それぞれ所定の半径を有する領域内において移動させることで、前記第二の部位情報を生成することを特徴としてもよい。
このように、複数の身体部位の位置に微小変動を加えることで、学習データを増やし、位置の推定誤差が少ない識別器を生成できるようになる。

また、前記生成ステップでは、前記領域に含まれる複数の点について、位置に基づいた重みを付与し、前記重みに基づいて移動先を決定することを特徴としてもよい。
例えば、第一の部位情報に対応する座標に近いほど重みを大きくするようにしてもよい。重みは、例えば、正規分布などを用いて付与してもよい。

また、前記分類ステップでは、前記特徴量の次元数を削減した結果をクラスタリングしてもよい。かかる構成によると、処理効率を向上させることができる。

（第一の実施形態）
本発明の第一の実施形態に関して、図面を参照して説明する。図１は、第一の実施形態に係る識別装置１０の機能構成を示すブロック図である。
本実施形態に係る識別装置１０は、入力された画像に基づいて、当該画像に含まれる人物が有する複数の身体部位の座標を識別し出力する装置である。識別装置１０は、識別器を有しており、当該識別器を学習させる学習モードと、学習結果に基づいて、識別を行う識別モードに切り替え可能に構成される。以降の説明において、識別器を学習させる処理を学習処理と称し、学習した識別器を用いて識別を行う処理を識別処理と称する。

本実施形態に係る識別装置１０は、半導体集積回路（ＬＳＩ）を用いて実現できる。識別装置１０は、画像入力部１１、真値付与部１２、特徴量算出部１３、射影部１４、分類部１５、データ生成部１６、識別部１７を有して構成される。これらの構成要素はソフトウェアモジュールによって実現され、識別装置１０が果たす機能にそれぞれ対応している。

これらの各機能部については、以下に説明する学習処理および識別処理の中で合わせて説明する。

次に、識別装置１０が行う学習処理について説明する。図２は、学習処理の流れを示すフローチャートである。

まず、ステップＳ１０において、画像の入力インターフェースである画像入力部１１が、対象者の体が含まれる画像を取得する。
画像入力部１１は、識別装置１０に接続されたカメラや、記憶装置、ネットワーク等を介して画像を取得する。例えば、車両内の乗員を対象として処理を行う場合、車両内に設置されたカメラから画像を取得してもよい。なお、本実施形態では、画像入力部１１が赤外画像を取得しているが、可視光画像を取得してもよい。ここで取得される画像は、当該画像に含まれる対象者の姿勢が既知である画像である。

画像入力部１１は、図３のような、対象者が含まれた画像を複数取得し、時刻ｔ(t = 1,2,…,T)に対応する画像I(t)を真値付与部１２に出力する。なお、本実施形態では、学習を行うための画像の集合として、所定の間隔で取得されたＴ枚の画像を用いるが、画像を取得する間隔や枚数は特に限定されない。

次に、ステップＳ１１において、真値付与部１２が、画像入力部１１が取得した画像I(t)のそれぞれについて、対象者の体に存在するＭ個の身体部位の、画像中における二次元座標(x_m(t),y_m(t)) (m=1,2,…,M)を取得する。
図４は、Ｍ＝１０である場合の例を示した図である。ここでは、真値付与部１２が、頭、首、肩（左右）、肘（左右）、掌（左右）、股関節（左右）の各部位の中心座標を取得するものとする。すなわち、１０組の二次元座標が取得される。
ここで、x_m(t)は、時刻ｔにおける、ｍ番目の部位の、画像I(t)中における水平方向座
標を表す。また、y_m(t)は、時刻ｔにおける、ｍ番目の部位の、画像I(t)中における垂直
方向座標を表す。

ここで取得する座標の組が、本発明における第一の部位情報である。第一の部位情報は、真の値を表す情報である。第一の部位情報は、装置のユーザによって与えられてもよいし、座標データが画像に付属している場合、当該データを取得してもよい。

次に、ステップＳ１２において、特徴量算出部１３が、真値付与部１２で得られた、時刻ｔにおける対象者のＭ個の部位の二次元座標(x_m(t),y_m(t))(m=1,2,…,M)に基づいて、
特徴量F(t)を算出する。具体的には、特徴量F(t)は、次の式（１）を用いて算出される。

ここで、D(m,n)は、ｍ番目の部位とｎ番目の部位との画像空間上におけるユークリッド距離を表す。また、R（D(m,n)）は、D(1,2),D(1,3),…,D(8,9),D(9,10)を降順にソートした際における、D(m,n)の順位を表す。

図５（Ａ）は、対象者の身体部位を便宜上４つとした場合の例である。ここでは、すべての部位のペア間の距離D(t)が、以下のように与えられたとする。
D(t) = (D(1,2), D(1,3), D(1,4), D(2,3), D(2,4), D(3,4))
= (5.5, 2.6, 2.8, 3.5, 4.3, 4.0)
この場合、時刻ｔにおける特徴量F(t)は、
F(t)=(1,6,5,4,2,3)
のように算出される。

特徴量F(t)は、複数の身体部位の間の距離の大きさの順位に基づく特徴量である。より詳細には、複数の身体部位間の距離の、全ての身体部位の組み合わせ中における順位を列挙したものである。
本明細書では、このような特徴量を「順位特徴量（または単に特徴量）」と称する。

順位特徴量F(t)は、スケール変換や微少変動に対して頑強であるという特徴を持つ。例えば、ある画像から得た身体部位が、図５（Ａ）に示したような位置関係にある場合、当該画像を拡大すると、各身体部位の位置は図５（Ｂ）のようになる。これらの図からも分かるように、身体部位のスケールが変動しても、順位特徴量は変わらない。

図５（Ｃ）は、図５（Ａ）に示した身体部位の位置が微小に変動した場合の例である。図５（Ａ）および図５（Ｃ）から分かるように、身体部位の微小変動に対して順位特徴量は頑健である。順位特徴量F(t)は、身体部位間の距離の順位のみに依存するため、拡大・縮小といったスケール変動に影響されない。また、身体部位の位置が微小に変動しても、その変動がそれらの順位に影響しなければ、順位特徴量F(t)は変化しない。
このような特性により、対象者の姿勢を推定する際に生じる様々な変動、例えば、対象者の水平移動、対象者の体格差、カメラの位置や向き、深層学習による人体の部位の位置の推定誤差などによる影響を抑制することができる。
なお、順位特徴量F(t)の次元数Ｄは、身体部位の個数がＭ個であるとき、その組み合わせの個数_MＣ₂によって与えられる。例えば、身体部位の個数が１０個である場合、順位特徴量は４５次元のベクトルとなる。

以上に説明した処理により、画像I(t)ごとに一つの順位特徴量F(t)が取得される。すなわち、画像がＴ枚ある場合、Ｔ個の順位特徴量が取得される。

次に、ステップＳ１３において、射影部１４が、特徴量算出部１３が取得したＴ個の順位特徴量F(t) (t=1,..,T)を、d（< D）次元の低次元空間（例えば、d=2の平面）に射影し、Ｔ個の特徴量f(t) (t=1,…,T)を生成する。以降、低次元空間に射影された特徴量を、
低次元特徴量と称する。

特徴量を低次元空間に射影するための手法として、例えば、古典的な統計解析手法の一種である主成分分析（ＰＣＡ）がある。あるいは、例えば、非特許文献３に記載されたような、多次元尺度構成法（ＭＤＳ）を用いてもよい。あるいは、例えば、非特許文献４に記載されたような、ラプラシアン固有値マップ（ＬＬＥ）を用いてもよい。
本ステップにより、例えば、順位特徴量の次元数が、４５次元から２次元に削減される。

次に、ステップＳ１４において、分類部１５が、低次元特徴量f(t)をクラスタリングし、複数のクラスタ（低次元特徴量f(t) (t=1,…,T)の部分集合）を生成する。
クラスタを生成するための手法として、例えば、古典的なクラスタリング手法の一種であるk-meansを用いることができる。あるいは、例えば、非特許文献５に記載されたよう
な、スペクトラル・クラスタリングを用いてもよい。あるいは、例えば、非特許文献６に記載されたような、二乗損失相互情報量を用いた情報量最大化クラスタリングを用いてもよい。

図６（Ａ）は、二次元平面に射影された複数の低次元特徴量を示した図であり、図６（Ｂ）は、複数の低次元特徴量をクラスタリングした結果を示した図である。ここでは、４つのクラスタが生成されたものとする。

ここで生成されたクラスタは、順位特徴量に基づいたものである。すなわち、異なるクラスタに分類された低次元特徴量は、異なる姿勢に対応するものである可能性が高い。すなわち、複数のクラスタに含まれる低次元特徴量の数に基づいて、学習データが相対的に不足している姿勢を特定することができる。本実施形態に係る識別装置１０は、複数のクラスタに含まれる低次元特徴量の数に基づいて、学習データが相対的に不足している姿勢を特定し、さらなる学習データを自動的に生成する。

ステップＳ１５では、データ生成部１６が、ステップＳ１５で得られたクラスタリングの結果を参照して、第一の部位情報から、新たな部位情報（第二の部位情報）を生成する。

具体的には、順位特徴量F(t)から変換された低次元特徴量f(t)(t=1,…,T)をクラスタリングした結果に基づいて、対象者のＭ個の身体部位に対する二次元座標(x_m(t),y_m(t)) (m=1,2,…,M) に対して、以下で説明するデータ拡張を適用し、新たな二次元座標(x'_m(t'),y'_m(t'))(m=1,2,…,M,t'=1,…,T')を生成する。

なお、データ拡張とは、対象者のＭ個の身体部位に対する二次元座標(x_m(t),y_m(t))(m=1,2,…,M)に微小な変動を加えることで、元の二次元座標(x_m(t),y_m(t))(m=1,2,…,M)とは似て非なる新たな二次元座標(x'_m(t'),y'_m(t')) (m=1,2,…,M, t'=1,…,T')を生成することを意味する。

微小な変動は、例えば、以下のようにして加えることができるが、これらに限られない。
（１）Ｍ個の身体部位のうちの一つ以上を、それぞれ所定の範囲内で別個に移動させる
（２）Ｍ個の身体部位の組を拡大または縮小させる
（３）Ｍ個の身体部位の組を平行移動させる
（４）Ｍ個の身体部位の組を回転させる
（５）Ｍ個の身体部位の組を所定のルールによって変形させる

ここで、Ｔ個の低次元特徴量f(t)(t=1,…,T)から、Ｔ'個の新たな二次元座標(x'_m(t'),y'_m(t')) (m=1,2,…,M, t'=1,…,T')を生成する場合を考える。
k番目のクラスタに、低次元特徴量f(t_k)(t_k=1,…,L_k)が含まれるとした場合、当該クラスタに対応する二次元座標(x_m(t),y_m(t)) (m=1,2,…,M)に対してデータ拡張を適用し、L'_k（＝w_k×c）個の二次元座標(x'_m(t'),y'_m(t')) (m=1,2,…,M, t'=1,…,L'_k)を生成する
。ここで、係数w_kは、k番目のクラスタに対する重みであり、式（２）で与えられる。

また、係数cは、データ拡張を適用して生成する低次元特徴量f'(t) (t=1,…,T')の個数T'の関数であり、式（３）で与えられる。

すなわち、ｋ番目のクラスタに含まれる低次元特徴量f(t_k) (t_k=1,…,L_k)の個数L_kが相対的に少ない場合、データ拡張により、相対的に多くの二次元座標(x'_m(t'),y'_m(t')) (m=1,2,…,M, t'=1,…,L'_k)が生成される。
一方、ｋ番目のクラスタに含まれる低次元特徴量f(t_k) (t_k=1,…,L_k)の個数L_kが相対的に多い場合、データ拡張により、相対的に少ない二次元座標(x'_m(t'),y'_m(t')) (m=1,2,
…,M, t'=1,…,L'_k)が生成される。
なお、データ拡張によって生成されるデータの総数は、試行錯誤的に決定すればよい。

微小な変動は、例えば、複数の身体部位を表す座標を含んだ所定の範囲を生成し、当該範囲内において行うことができる。例えば、図７に示したように、複数の身体部位の位置を中心とした半径ｒの円を生成し、当該円内において座標を移動させてもよい。移動は、ランダムに行ってもよいし、座標の移動先がより円の中心側に偏るように重みを付したうえで行ってもよい。また、半径ｒの値は、対応する人物の属性（身長、体格、体幹の長さ、顔の大きさ等）に応じて試行錯誤的に決定すればよい。
以上の処理により、第二の部位情報が生成される。

次に、ステップＳ１６で、第一の部位情報と、新たに生成した第二の部位情報を用いて、対象者が有する身体部位の位置を推定するための識別器（識別部１７）を学習させる。
具体的には、第二の部位情報に対応する画像を新たに生成し、以下のデータを、学習データとして識別部１７が有する識別器に入力し、学習させる。
（１）第一の部位情報に対応する画像と、第一の部位情報の組み合わせ
（２）第二の部位情報に対応する画像と、第二の部位情報の組み合わせ
なお、第二の部位情報に対応する画像は、元の画像に変形を加えることで生成することができる。
本実施形態では、識別部１７は、識別器を含んで構成される。具体的には、識別部１７は、取得した画像に基づいて、予め定められた複数の身体部位の座標を推定して出力する識別器を含む。
ここで、識別器は、例えば、非特許文献７の深層学習を用いて学習させることができる。あるいは、例えば、非特許文献８の深層学習を用いて学習させてもよい。

これにより、ある時刻t₀における画像に基づいて、当該画像に含まれる対象者のＭ個の身体部位の二次元座標(X_m(t₀),Y_m(t₀)) (m=1,2,…,M)を出力する識別器を得ることができる。すなわち、画像中の人物の身体部位の座標を取得する装置を得ることができる。
また、身体部位の座標を、身体部位を活用するより上位の装置に送信することで、人物がとっている姿勢や行動を特定することが可能になる。例えば、車両内乗員によるスマートフォンの操作や飲食といった危険姿勢を識別し、車両の走行状態と照らし合わせることで適応的に注意を促すことなどが可能になる。

以上説明したように、第一の実施形態によると、複数の順位特徴量をクラスタリングした結果を用いることで、数が相対的に不足している学習データを特定し、追加の学習データを自動生成することができる。かかる形態によると、身体部位の位置を識別する識別器をより精度よく学習させることが可能になる。

（第二の実施形態）
第一の実施形態では、識別部１７が、対象者の複数の身体部位の座標を出力した。これに対し、第二の実施形態は、識別部１７が、対象者の複数の身体部位の座標に加え、対象者の姿勢を示す姿勢ラベルを出力する実施形態である。図８は、第二の実施形態における識別装置１０の機能構成を示すブロック図である。

第二の実施形態では、真値付与部１２が、身体部位の二次元座標に加え、対象者が取っている姿勢を表す姿勢ラベルV(t)を取得する。姿勢ラベルは、姿勢を表すものであればどのように定義されていてもよい。例えば、車両の乗員を対象とする場合、ハンドル操作，バックミラーの調整，コントロール・パネルの調整，シートベルトの着脱，スマートフォン操作，飲食といった姿勢ラベルを定義してもよい。本例では、説明を簡単にするため、「正常姿勢」と「異常姿勢」の二種類のラベルを付与するものとする。例えば、正常姿勢の場合、V(t)=0という値を与え、異常姿勢の場合、V(t)=1という値を与える。

第二の実施形態では、射影部１４が生成した低次元特徴量f(t) (t=1,…,T)が、分類部
１５の他に識別部１７へも出力される。
また、第二の実施形態では、データ生成部１６が生成した第二の部位情報（すなわち、対象者のＭ個の身体部位に対する新たな二次元座標(x'_m(t'),y'_m(t'))(m=1,2,…,M, t'=1,…,T')）が、識別部１７の他に特徴量算出部１３へも出力される。

第二の実施形態では、識別部１７は、二種類の識別器を有して構成される。一つ目（第一の識別器）は、第一の実施形態で述べたような、ある時刻t₀における画像に含まれる対象者のＭ個の身体部位の座標を推定して出力する識別器である。二つ目（第二の識別器）は、ある時刻t₀における画像に含まれる対象者の姿勢ラベルV(t₀)を推定して出力する識
別器である。このような識別器は、例えば、古典的機械学習の一種であるサポート・ベクターマシンを用いて学習することができる。

第二の識別器は、順位特徴量を用いて学習される。すなわち、データ生成部１６によって生成された第二の部位情報が、特徴量算出部１３によって順位特徴量に変換され、射影部１４によって低次元特徴量に変換されたのち、識別部１７に入力される。
かかる構成によると、対象者の身体部位の位置を推定する識別器に加え、対象者の姿勢そのものを識別する識別器を得ることができるようになる。すなわち、対象者の姿勢に基づいた様々な機能を提供できるようになる。

（変形例）
本発明は、上記手段の少なくとも一部を備える識別装置または学習装置として捉えることができる．また、本発明は、上記処理の少なくとも一部を実行する識別方法または学習方法として捉えることもできる。また、本発明は、これら方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

なお、学習処理（ステップＳ１１）において用いられる身体部位の位置は、どのようにして求めても構わない。これは部位検出のアルゴリズムが特定のものに限定されないことを意味するだけでなく、部位検出を人手で行ってもよいことを意味する。

また、実施形態の説明では、二次元の画像空間上における距離を用いたが、人体の部位が三次元座標によって得られている場合、三次元空間内における距離を採用することもできる。例えば、赤外画像や可視光画像に加え、距離画像を取得可能である場合、処理系を三次元に拡張することもできる。

本発明における識別装置１０は、半導体集積回路（ＬＳＩ）による実装に限定されず、汎用的なマイクロプロセッサやメモリを有するコンピュータがプログラムを実行することによって実現されても構わない。

また、実施形態の説明では、同一の装置が学習処理と識別処理の双方を行ったが、学習処理を行う装置と、識別処理を行う装置が分かれていてもよい。さらに、識別装置１０から、学習処理に関連した手段を省いてもよい。例えば、例示した識別装置１０から、真値付与部１２、特徴量算出部１３、射影部１４、分類部１５、データ生成部１６を省略し、識別処理のみを行う装置（識別装置）として実施してもよい。
この場合、学習済みの識別部１７（または、識別部１７が有する識別器）を装置から論理的に切り離し、別の装置に組み込み可能に構成してもよい。例えば、実施形態に係る識別装置１０によって学習された識別部１７を、識別処理のみを行う装置に組み込めるようにしてもよい。
また、反対に、学習処理のみを行う装置として発明を実施してもよい。

１０・・・識別装置
１１・・・画像入力部
１２・・・真値付与部
１３・・・特徴量算出部
１４・・・射影部
１５・・・分類部
１６・・・データ生成部
１７・・・識別部

Claims

対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習方法であって、
前記対象者を含む画像を取得する画像取得ステップと、
前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得ステップと、
前記第一の部位情報を特徴量に変換する変換ステップと、
複数の前記特徴量をクラスタリングする分類ステップと、
生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成ステップと、
前記第二の部位情報を用いて、前記識別器を学習させる学習ステップと、
を含む、学習方法。
前記生成ステップでは、前記複数のクラスタにそれぞれ含まれる特徴量の数に基づいて、クラスタごとに生成する前記第二の部位情報の数を決定する、
請求項１に記載の学習方法。
前記特徴量は、前記複数の身体部位の位置関係に基づいた特徴量である、
請求項１または２に記載の学習方法。
前記特徴量は、前記複数の身体部位間の距離の順位に基づいた特徴量である、
請求項３に記載の学習方法。
前記生成ステップでは、前記第一の部位情報に対応する複数の身体部位の位置を、それぞれ所定の半径を有する領域内において移動させることで、前記第二の部位情報を生成する、
請求項３または４に記載の学習方法。
前記生成ステップでは、前記領域に含まれる複数の点について、位置に基づいた重みを付与し、前記重みに基づいて移動先を決定する、
請求項５に記載の学習方法。
前記分類ステップでは、前記特徴量の次元数を削減した結果をクラスタリングする、
請求項１から６のいずれかに記載の学習方法。
請求項１から７のいずれかに記載の学習方法の各ステップをコンピュータに実行させるためのプログラム。
対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習装置であって、
前記対象者を含む画像を取得する画像取得手段と、
前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得手段と、
前記第一の部位情報を特徴量に変換する変換手段と、
複数の前記特徴量をクラスタリングする分類手段と、
生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成手段と、
前記第二の部位情報を用いて、前記識別器を学習させる学習手段と、
を有する、学習装置。