JP2020009316A - 学習方法および学習装置 - Google Patents
学習方法および学習装置 Download PDFInfo
- Publication number
- JP2020009316A JP2020009316A JP2018131662A JP2018131662A JP2020009316A JP 2020009316 A JP2020009316 A JP 2020009316A JP 2018131662 A JP2018131662 A JP 2018131662A JP 2018131662 A JP2018131662 A JP 2018131662A JP 2020009316 A JP2020009316 A JP 2020009316A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- part information
- image
- body parts
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】人の姿勢を精度良く認識する識別器を得る。【解決手段】対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習方法。前記対象者を含む画像を取得する画像取得ステップと、前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得ステップと、前記第一の部位情報を特徴量に変換する変換ステップと、複数の前記特徴量をクラスタリングする分類ステップと、生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成ステップと、前記第二の部位情報を用いて、前記識別器を学習させる学習ステップと、を含む。【選択図】図1
Description
本発明は画像処理に関し、特に人の姿勢を推定する技術に関する。
画像中の人物の姿勢を推定する方法として、例えば、非特許文献1に記載された方法が提案されている。当該方法では、まず、CG(コンピュータ・グラフィックス)を用いて様々な体格・姿勢の人物に対する奥行画像を大量に生成する。また、これらの奥行画像のそれぞれに対して、頭部、顔面、首、上腕などといった、身体部位に対応する領域ごとに色分け(腑分け)を行う。さらに、古典的機械学習の一種であるランダム・フォレストを用いて、奥行画像中の任意の一点が、複数の身体部位に対応する複数の領域のうちのどれに属するのかを推定するための識別器を学習する。最終的に、得られた識別器を用いて、奥行画像中のすべての点について、複数の領域のうちのどれに属するのかを推定する。
また、画像中の人物の姿勢を推定する方法として、例えば、非特許文献2に記載された方法が提案されている。当該方法では、まず、様々な体格・姿勢の人物に対応する画像を大量に用意する。また、これらの画像のそれぞれに対して、頭部、顔面、首、肩、肘などといった、人体の部位の位置を付与する。さらに、深層学習の一種で、VGG−16と呼ばれる畳み込みニューラル・ネットワーク(CNN)を用いて、画像中の人物の人体の部位の位置を推定するための識別器を学習する。最終的に、得られた識別器を用いて画像中の人物の人体の部位の位置を推定する。
J. Shotton et al., Real-Time Human Pose Recognition in Parts from Single Depth Images, CVPR2011
K. Simonyan et al., "Very Deep Convolutional Networks for Large-Scale Image Recognition", International Conference on Learning Representations, 2015.
田口善弘・大野克嗣・横山和成(2001):非計量多次元尺度構成法への期待と新しい視点、統計数理、第49巻第1号133-153
M. Belkin et al., Laplacian Eigenmaps for Dimensionality Reduction and Data Representation, Neural Computation, Vol. 15, No.6, pp. 1373-1396 (2003)
Normalized cuts and image segmentation, 2000 Jianbo Shi, Jitendra Malik
M. Sugiyama et al., On information maximization clustering: Tuning parameter selection and analytic solution. In L. Getoor and T. Scheffer, editors, Proceedings of 28th International Conference on Machine Learning (ICML2011), pages 65-72, Bellevue, Washington, USA, Jun. 28-Jul. 2 2011.
A. Toshev et al., Pose Estimation via Deep Neural Networks, CVPR2015
M. Schwarz et al., RGB-D Object Recognition and Pose Estimation Based on Pre-Trained Convolutional Neural Network Features ICRA2015
従来技術に係る識別方法では、識別器の推定精度が、学習データの質と量(具体的には
、画像中の人物の体格・服装・姿勢、カメラの解像度・向き・角度などのばらつき)に強く依存するといった問題がある。
すなわち、従来技術においては、識別器を学習させるために、十分な質と量を満たす学習データを用意しなければならないという点において課題があった。
、画像中の人物の体格・服装・姿勢、カメラの解像度・向き・角度などのばらつき)に強く依存するといった問題がある。
すなわち、従来技術においては、識別器を学習させるために、十分な質と量を満たす学習データを用意しなければならないという点において課題があった。
本発明は上記の問題点を考慮してなされたものであり、人の姿勢を精度良く識別するための識別器を得ることを目的とする。
本発明の第一の形態に係る学習方法は、
対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習方法であって、前記対象者を含む画像を取得する画像取得ステップと、前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得ステップと、前記第一の部位情報を特徴量に変換する変換ステップと、複数の前記特徴量をクラスタリングする分類ステップと、生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成ステップと、前記第二の部位情報を用いて、前記識別器を学習させる学習ステップと、を含むことを特徴とする。
対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習方法であって、前記対象者を含む画像を取得する画像取得ステップと、前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得ステップと、前記第一の部位情報を特徴量に変換する変換ステップと、複数の前記特徴量をクラスタリングする分類ステップと、生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成ステップと、前記第二の部位情報を用いて、前記識別器を学習させる学習ステップと、を含むことを特徴とする。
本発明の第二の形態に係る学習装置は、
対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習装置であって、前記対象者を含む画像を取得する画像取得手段と、前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得手段と、前記第一の部位情報を特徴量に変換する変換手段と、複数の前記特徴量をクラスタリングする分類手段と、生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成手段と、前記第二の部位情報を用いて、前記識別器を学習させる学習手段と、を有することを特徴とする。
対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習装置であって、前記対象者を含む画像を取得する画像取得手段と、前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得手段と、前記第一の部位情報を特徴量に変換する変換手段と、複数の前記特徴量をクラスタリングする分類手段と、生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成手段と、前記第二の部位情報を用いて、前記識別器を学習させる学習手段と、を有することを特徴とする。
本発明によれば、人の姿勢を精度良く識別するための識別器を得ることができる。
本発明に係る学習方法は、人が有する複数の身体部位の位置を、入力された画像に基づいて識別する識別器を学習させる方法である。
識別器を学習させるためには、一般的に、大量の学習データが必要になる。そこで、本発明では、既知の学習データに基づいて、数の不足が予測される学習データを推定して生成し、生成した学習データを併用して識別器の学習を行う。かかる構成によると、識別器の汎化性能を高めることができる。
識別器を学習させるためには、一般的に、大量の学習データが必要になる。そこで、本発明では、既知の学習データに基づいて、数の不足が予測される学習データを推定して生成し、生成した学習データを併用して識別器の学習を行う。かかる構成によると、識別器の汎化性能を高めることができる。
本発明に係る学習方法は、対象者を含む画像を取得し、当該対象者が有する身体部位の
位置に関する情報である第一の部位情報を取得する。画像は、例えば、可視光画像や赤外画像である。また、可視光画像や赤外画像と、距離画像とを組み合わせて用いてもよい。
また、第一の部位情報は、真の値を表すデータ(正解データ)である。第一の部位情報には、例えば、頭、首、肩、肘、手首、掌、胴、股関節、膝、足首などの位置(例えば、各部位の中心位置)が含まれる。また、第一の部位情報には、頭部領域、顔の向き、視線方向、手(手指)領域、手指形状が含まれてもよい。
これらの情報は、特徴量に変換される。
位置に関する情報である第一の部位情報を取得する。画像は、例えば、可視光画像や赤外画像である。また、可視光画像や赤外画像と、距離画像とを組み合わせて用いてもよい。
また、第一の部位情報は、真の値を表すデータ(正解データ)である。第一の部位情報には、例えば、頭、首、肩、肘、手首、掌、胴、股関節、膝、足首などの位置(例えば、各部位の中心位置)が含まれる。また、第一の部位情報には、頭部領域、顔の向き、視線方向、手(手指)領域、手指形状が含まれてもよい。
これらの情報は、特徴量に変換される。
本発明に係る学習方法は、さらに、複数の画像にそれぞれ対応する複数の特徴量をクラスタリングし、生成された複数のクラスタのそれぞれについて、対応する第一の部位情報に類似する第二の部位情報を生成する。第二の部位情報は、新たに生成された学習データである。そして、生成された第二の部位情報を少なくとも用いて識別器を学習させる。
かかる形態によれば、正解データに基づいて学習データの数を増やせるため、人の姿勢をより精度よく識別する識別器を得ることができる。
さらに、特徴量をクラスタリングして得られたクラスタごとに第二の部位情報を生成するため、学習データの充足度を判定することが可能になる。
さらに、特徴量をクラスタリングして得られたクラスタごとに第二の部位情報を生成するため、学習データの充足度を判定することが可能になる。
また、前記生成ステップでは、前記複数のクラスタにそれぞれ含まれる特徴量の数に基づいて、クラスタごとに生成する前記第二の部位情報の数を決定することを特徴としてもよい。
かかる構成によると、含まれる特徴量の数が相対的に少ないクラスタがある場合に、当該クラスタに対応する第二の部位情報を相対的に多く生成するといった対応が可能になる。
かかる構成によると、含まれる特徴量の数が相対的に少ないクラスタがある場合に、当該クラスタに対応する第二の部位情報を相対的に多く生成するといった対応が可能になる。
なお、前記特徴量は、前記複数の身体部位の位置関係に基づいた特徴量であることを特徴としてもよい。また、前記特徴量は、前記複数の身体部位間の距離の順位に基づいた特徴量であることを特徴としてもよい。
このような特徴量は、スケール変換・回転・平行移動に対して不変であり、また、微小変動に対して頑強である。したがって、このような特徴量を採用することで、どのような学習データが不足しているのかを精度よく推定することができる。
また、前記生成ステップでは、前記第一の部位情報に対応する複数の身体部位の位置を、それぞれ所定の半径を有する領域内において移動させることで、前記第二の部位情報を生成することを特徴としてもよい。
このように、複数の身体部位の位置に微小変動を加えることで、学習データを増やし、位置の推定誤差が少ない識別器を生成できるようになる。
このように、複数の身体部位の位置に微小変動を加えることで、学習データを増やし、位置の推定誤差が少ない識別器を生成できるようになる。
また、前記生成ステップでは、前記領域に含まれる複数の点について、位置に基づいた重みを付与し、前記重みに基づいて移動先を決定することを特徴としてもよい。
例えば、第一の部位情報に対応する座標に近いほど重みを大きくするようにしてもよい。重みは、例えば、正規分布などを用いて付与してもよい。
例えば、第一の部位情報に対応する座標に近いほど重みを大きくするようにしてもよい。重みは、例えば、正規分布などを用いて付与してもよい。
また、前記分類ステップでは、前記特徴量の次元数を削減した結果をクラスタリングしてもよい。かかる構成によると、処理効率を向上させることができる。
(第一の実施形態)
本発明の第一の実施形態に関して、図面を参照して説明する。図1は、第一の実施形態に係る識別装置10の機能構成を示すブロック図である。
本実施形態に係る識別装置10は、入力された画像に基づいて、当該画像に含まれる人物が有する複数の身体部位の座標を識別し出力する装置である。識別装置10は、識別器を有しており、当該識別器を学習させる学習モードと、学習結果に基づいて、識別を行う識別モードに切り替え可能に構成される。以降の説明において、識別器を学習させる処理を学習処理と称し、学習した識別器を用いて識別を行う処理を識別処理と称する。
本発明の第一の実施形態に関して、図面を参照して説明する。図1は、第一の実施形態に係る識別装置10の機能構成を示すブロック図である。
本実施形態に係る識別装置10は、入力された画像に基づいて、当該画像に含まれる人物が有する複数の身体部位の座標を識別し出力する装置である。識別装置10は、識別器を有しており、当該識別器を学習させる学習モードと、学習結果に基づいて、識別を行う識別モードに切り替え可能に構成される。以降の説明において、識別器を学習させる処理を学習処理と称し、学習した識別器を用いて識別を行う処理を識別処理と称する。
本実施形態に係る識別装置10は、半導体集積回路(LSI)を用いて実現できる。識別装置10は、画像入力部11、真値付与部12、特徴量算出部13、射影部14、分類部15、データ生成部16、識別部17を有して構成される。これらの構成要素はソフトウェアモジュールによって実現され、識別装置10が果たす機能にそれぞれ対応している。
これらの各機能部については、以下に説明する学習処理および識別処理の中で合わせて説明する。
次に、識別装置10が行う学習処理について説明する。図2は、学習処理の流れを示すフローチャートである。
まず、ステップS10において、画像の入力インターフェースである画像入力部11が、対象者の体が含まれる画像を取得する。
画像入力部11は、識別装置10に接続されたカメラや、記憶装置、ネットワーク等を介して画像を取得する。例えば、車両内の乗員を対象として処理を行う場合、車両内に設置されたカメラから画像を取得してもよい。なお、本実施形態では、画像入力部11が赤外画像を取得しているが、可視光画像を取得してもよい。ここで取得される画像は、当該画像に含まれる対象者の姿勢が既知である画像である。
画像入力部11は、識別装置10に接続されたカメラや、記憶装置、ネットワーク等を介して画像を取得する。例えば、車両内の乗員を対象として処理を行う場合、車両内に設置されたカメラから画像を取得してもよい。なお、本実施形態では、画像入力部11が赤外画像を取得しているが、可視光画像を取得してもよい。ここで取得される画像は、当該画像に含まれる対象者の姿勢が既知である画像である。
画像入力部11は、図3のような、対象者が含まれた画像を複数取得し、時刻t(t = 1,2,…,T)に対応する画像I(t)を真値付与部12に出力する。なお、本実施形態では、学習を行うための画像の集合として、所定の間隔で取得されたT枚の画像を用いるが、画像を取得する間隔や枚数は特に限定されない。
次に、ステップS11において、真値付与部12が、画像入力部11が取得した画像I(t)のそれぞれについて、対象者の体に存在するM個の身体部位の、画像中における二次元座標(xm(t),ym(t)) (m=1,2,…,M)を取得する。
図4は、M=10である場合の例を示した図である。ここでは、真値付与部12が、頭、首、肩(左右)、肘(左右)、掌(左右)、股関節(左右)の各部位の中心座標を取得するものとする。すなわち、10組の二次元座標が取得される。
ここで、xm(t)は、時刻tにおける、m番目の部位の、画像I(t)中における水平方向座
標を表す。また、ym(t)は、時刻tにおける、m番目の部位の、画像I(t)中における垂直
方向座標を表す。
図4は、M=10である場合の例を示した図である。ここでは、真値付与部12が、頭、首、肩(左右)、肘(左右)、掌(左右)、股関節(左右)の各部位の中心座標を取得するものとする。すなわち、10組の二次元座標が取得される。
ここで、xm(t)は、時刻tにおける、m番目の部位の、画像I(t)中における水平方向座
標を表す。また、ym(t)は、時刻tにおける、m番目の部位の、画像I(t)中における垂直
方向座標を表す。
ここで取得する座標の組が、本発明における第一の部位情報である。第一の部位情報は、真の値を表す情報である。第一の部位情報は、装置のユーザによって与えられてもよいし、座標データが画像に付属している場合、当該データを取得してもよい。
次に、ステップS12において、特徴量算出部13が、真値付与部12で得られた、時刻tにおける対象者のM個の部位の二次元座標(xm(t),ym(t))(m=1,2,…,M)に基づいて、
特徴量F(t)を算出する。具体的には、特徴量F(t)は、次の式(1)を用いて算出される。
特徴量F(t)を算出する。具体的には、特徴量F(t)は、次の式(1)を用いて算出される。
ここで、D(m,n)は、m番目の部位とn番目の部位との画像空間上におけるユークリッド距離を表す。また、R(D(m,n))は、D(1,2),D(1,3),…,D(8,9),D(9,10)を降順にソートした際における、D(m,n)の順位を表す。
図5(A)は、対象者の身体部位を便宜上4つとした場合の例である。ここでは、すべての部位のペア間の距離D(t)が、以下のように与えられたとする。
D(t) = (D(1,2), D(1,3), D(1,4), D(2,3), D(2,4), D(3,4))
= (5.5, 2.6, 2.8, 3.5, 4.3, 4.0)
この場合、時刻tにおける特徴量F(t)は、
F(t)=(1,6,5,4,2,3)
のように算出される。
D(t) = (D(1,2), D(1,3), D(1,4), D(2,3), D(2,4), D(3,4))
= (5.5, 2.6, 2.8, 3.5, 4.3, 4.0)
この場合、時刻tにおける特徴量F(t)は、
F(t)=(1,6,5,4,2,3)
のように算出される。
特徴量F(t)は、複数の身体部位の間の距離の大きさの順位に基づく特徴量である。より詳細には、複数の身体部位間の距離の、全ての身体部位の組み合わせ中における順位を列挙したものである。
本明細書では、このような特徴量を「順位特徴量(または単に特徴量)」と称する。
本明細書では、このような特徴量を「順位特徴量(または単に特徴量)」と称する。
順位特徴量F(t)は、スケール変換や微少変動に対して頑強であるという特徴を持つ。例えば、ある画像から得た身体部位が、図5(A)に示したような位置関係にある場合、当該画像を拡大すると、各身体部位の位置は図5(B)のようになる。これらの図からも分かるように、身体部位のスケールが変動しても、順位特徴量は変わらない。
図5(C)は、図5(A)に示した身体部位の位置が微小に変動した場合の例である。図5(A)および図5(C)から分かるように、身体部位の微小変動に対して順位特徴量は頑健である。順位特徴量F(t)は、身体部位間の距離の順位のみに依存するため、拡大・縮小といったスケール変動に影響されない。また、身体部位の位置が微小に変動しても、その変動がそれらの順位に影響しなければ、順位特徴量F(t)は変化しない。
このような特性により、対象者の姿勢を推定する際に生じる様々な変動、例えば、対象者の水平移動、対象者の体格差、カメラの位置や向き、深層学習による人体の部位の位置の推定誤差などによる影響を抑制することができる。
なお、順位特徴量F(t)の次元数Dは、身体部位の個数がM個であるとき、その組み合わせの個数MC2によって与えられる。例えば、身体部位の個数が10個である場合、順位特徴量は45次元のベクトルとなる。
このような特性により、対象者の姿勢を推定する際に生じる様々な変動、例えば、対象者の水平移動、対象者の体格差、カメラの位置や向き、深層学習による人体の部位の位置の推定誤差などによる影響を抑制することができる。
なお、順位特徴量F(t)の次元数Dは、身体部位の個数がM個であるとき、その組み合わせの個数MC2によって与えられる。例えば、身体部位の個数が10個である場合、順位特徴量は45次元のベクトルとなる。
以上に説明した処理により、画像I(t)ごとに一つの順位特徴量F(t)が取得される。すなわち、画像がT枚ある場合、T個の順位特徴量が取得される。
次に、ステップS13において、射影部14が、特徴量算出部13が取得したT個の順位特徴量F(t) (t=1,..,T)を、d(< D)次元の低次元空間(例えば、d=2の平面)に射影し、T個の特徴量f(t) (t=1,…,T)を生成する。以降、低次元空間に射影された特徴量を、
低次元特徴量と称する。
低次元特徴量と称する。
特徴量を低次元空間に射影するための手法として、例えば、古典的な統計解析手法の一種である主成分分析(PCA)がある。あるいは、例えば、非特許文献3に記載されたような、多次元尺度構成法(MDS)を用いてもよい。あるいは、例えば、非特許文献4に記載されたような、ラプラシアン固有値マップ(LLE)を用いてもよい。
本ステップにより、例えば、順位特徴量の次元数が、45次元から2次元に削減される。
本ステップにより、例えば、順位特徴量の次元数が、45次元から2次元に削減される。
次に、ステップS14において、分類部15が、低次元特徴量f(t)をクラスタリングし、複数のクラスタ(低次元特徴量f(t) (t=1,…,T)の部分集合)を生成する。
クラスタを生成するための手法として、例えば、古典的なクラスタリング手法の一種であるk-meansを用いることができる。あるいは、例えば、非特許文献5に記載されたよう
な、スペクトラル・クラスタリングを用いてもよい。あるいは、例えば、非特許文献6に記載されたような、二乗損失相互情報量を用いた情報量最大化クラスタリングを用いてもよい。
クラスタを生成するための手法として、例えば、古典的なクラスタリング手法の一種であるk-meansを用いることができる。あるいは、例えば、非特許文献5に記載されたよう
な、スペクトラル・クラスタリングを用いてもよい。あるいは、例えば、非特許文献6に記載されたような、二乗損失相互情報量を用いた情報量最大化クラスタリングを用いてもよい。
図6(A)は、二次元平面に射影された複数の低次元特徴量を示した図であり、図6(B)は、複数の低次元特徴量をクラスタリングした結果を示した図である。ここでは、4つのクラスタが生成されたものとする。
ここで生成されたクラスタは、順位特徴量に基づいたものである。すなわち、異なるクラスタに分類された低次元特徴量は、異なる姿勢に対応するものである可能性が高い。すなわち、複数のクラスタに含まれる低次元特徴量の数に基づいて、学習データが相対的に不足している姿勢を特定することができる。本実施形態に係る識別装置10は、複数のクラスタに含まれる低次元特徴量の数に基づいて、学習データが相対的に不足している姿勢を特定し、さらなる学習データを自動的に生成する。
ステップS15では、データ生成部16が、ステップS15で得られたクラスタリングの結果を参照して、第一の部位情報から、新たな部位情報(第二の部位情報)を生成する。
具体的には、順位特徴量F(t)から変換された低次元特徴量f(t)(t=1,…,T)をクラスタリングした結果に基づいて、対象者のM個の身体部位に対する二次元座標(xm(t),ym(t)) (m=1,2,…,M) に対して、以下で説明するデータ拡張を適用し、新たな二次元座標(x'm(t'),y'm(t'))(m=1,2,…,M,t'=1,…,T')を生成する。
なお、データ拡張とは、対象者のM個の身体部位に対する二次元座標(xm(t),ym(t))(m=1,2,…,M)に微小な変動を加えることで、元の二次元座標(xm(t),ym(t))(m=1,2,…,M)とは似て非なる新たな二次元座標(x'm(t'),y'm(t')) (m=1,2,…,M, t'=1,…,T')を生成することを意味する。
微小な変動は、例えば、以下のようにして加えることができるが、これらに限られない。
(1)M個の身体部位のうちの一つ以上を、それぞれ所定の範囲内で別個に移動させる
(2)M個の身体部位の組を拡大または縮小させる
(3)M個の身体部位の組を平行移動させる
(4)M個の身体部位の組を回転させる
(5)M個の身体部位の組を所定のルールによって変形させる
(1)M個の身体部位のうちの一つ以上を、それぞれ所定の範囲内で別個に移動させる
(2)M個の身体部位の組を拡大または縮小させる
(3)M個の身体部位の組を平行移動させる
(4)M個の身体部位の組を回転させる
(5)M個の身体部位の組を所定のルールによって変形させる
ここで、T個の低次元特徴量f(t)(t=1,…,T)から、T'個の新たな二次元座標(x'm(t'),y'm(t')) (m=1,2,…,M, t'=1,…,T')を生成する場合を考える。
k番目のクラスタに、低次元特徴量f(tk)(tk=1,…,Lk)が含まれるとした場合、当該クラスタに対応する二次元座標(xm(t),ym(t)) (m=1,2,…,M)に対してデータ拡張を適用し、L'k(=wk×c)個の二次元座標(x'm(t'),y'm(t')) (m=1,2,…,M, t'=1,…,L'k)を生成する
。ここで、係数wkは、k番目のクラスタに対する重みであり、式(2)で与えられる。
k番目のクラスタに、低次元特徴量f(tk)(tk=1,…,Lk)が含まれるとした場合、当該クラスタに対応する二次元座標(xm(t),ym(t)) (m=1,2,…,M)に対してデータ拡張を適用し、L'k(=wk×c)個の二次元座標(x'm(t'),y'm(t')) (m=1,2,…,M, t'=1,…,L'k)を生成する
。ここで、係数wkは、k番目のクラスタに対する重みであり、式(2)で与えられる。
すなわち、k番目のクラスタに含まれる低次元特徴量f(tk) (tk=1,…,Lk)の個数Lkが相対的に少ない場合、データ拡張により、相対的に多くの二次元座標(x'm(t'),y'm(t')) (m=1,2,…,M, t'=1,…,L'k)が生成される。
一方、k番目のクラスタに含まれる低次元特徴量f(tk) (tk=1,…,Lk)の個数Lkが相対的に多い場合、データ拡張により、相対的に少ない二次元座標(x'm(t'),y'm(t')) (m=1,2,
…,M, t'=1,…,L'k)が生成される。
なお、データ拡張によって生成されるデータの総数は、試行錯誤的に決定すればよい。
一方、k番目のクラスタに含まれる低次元特徴量f(tk) (tk=1,…,Lk)の個数Lkが相対的に多い場合、データ拡張により、相対的に少ない二次元座標(x'm(t'),y'm(t')) (m=1,2,
…,M, t'=1,…,L'k)が生成される。
なお、データ拡張によって生成されるデータの総数は、試行錯誤的に決定すればよい。
微小な変動は、例えば、複数の身体部位を表す座標を含んだ所定の範囲を生成し、当該範囲内において行うことができる。例えば、図7に示したように、複数の身体部位の位置を中心とした半径rの円を生成し、当該円内において座標を移動させてもよい。移動は、ランダムに行ってもよいし、座標の移動先がより円の中心側に偏るように重みを付したうえで行ってもよい。また、半径rの値は、対応する人物の属性(身長、体格、体幹の長さ、顔の大きさ等)に応じて試行錯誤的に決定すればよい。
以上の処理により、第二の部位情報が生成される。
以上の処理により、第二の部位情報が生成される。
次に、ステップS16で、第一の部位情報と、新たに生成した第二の部位情報を用いて、対象者が有する身体部位の位置を推定するための識別器(識別部17)を学習させる。
具体的には、第二の部位情報に対応する画像を新たに生成し、以下のデータを、学習データとして識別部17が有する識別器に入力し、学習させる。
(1)第一の部位情報に対応する画像と、第一の部位情報の組み合わせ
(2)第二の部位情報に対応する画像と、第二の部位情報の組み合わせ
なお、第二の部位情報に対応する画像は、元の画像に変形を加えることで生成することができる。
本実施形態では、識別部17は、識別器を含んで構成される。具体的には、識別部17は、取得した画像に基づいて、予め定められた複数の身体部位の座標を推定して出力する識別器を含む。
ここで、識別器は、例えば、非特許文献7の深層学習を用いて学習させることができる。あるいは、例えば、非特許文献8の深層学習を用いて学習させてもよい。
具体的には、第二の部位情報に対応する画像を新たに生成し、以下のデータを、学習データとして識別部17が有する識別器に入力し、学習させる。
(1)第一の部位情報に対応する画像と、第一の部位情報の組み合わせ
(2)第二の部位情報に対応する画像と、第二の部位情報の組み合わせ
なお、第二の部位情報に対応する画像は、元の画像に変形を加えることで生成することができる。
本実施形態では、識別部17は、識別器を含んで構成される。具体的には、識別部17は、取得した画像に基づいて、予め定められた複数の身体部位の座標を推定して出力する識別器を含む。
ここで、識別器は、例えば、非特許文献7の深層学習を用いて学習させることができる。あるいは、例えば、非特許文献8の深層学習を用いて学習させてもよい。
これにより、ある時刻t0における画像に基づいて、当該画像に含まれる対象者のM個の身体部位の二次元座標(Xm(t0),Ym(t0)) (m=1,2,…,M)を出力する識別器を得ることができる。すなわち、画像中の人物の身体部位の座標を取得する装置を得ることができる。
また、身体部位の座標を、身体部位を活用するより上位の装置に送信することで、人物がとっている姿勢や行動を特定することが可能になる。例えば、車両内乗員によるスマートフォンの操作や飲食といった危険姿勢を識別し、車両の走行状態と照らし合わせることで適応的に注意を促すことなどが可能になる。
また、身体部位の座標を、身体部位を活用するより上位の装置に送信することで、人物がとっている姿勢や行動を特定することが可能になる。例えば、車両内乗員によるスマートフォンの操作や飲食といった危険姿勢を識別し、車両の走行状態と照らし合わせることで適応的に注意を促すことなどが可能になる。
以上説明したように、第一の実施形態によると、複数の順位特徴量をクラスタリングした結果を用いることで、数が相対的に不足している学習データを特定し、追加の学習データを自動生成することができる。かかる形態によると、身体部位の位置を識別する識別器をより精度よく学習させることが可能になる。
(第二の実施形態)
第一の実施形態では、識別部17が、対象者の複数の身体部位の座標を出力した。これに対し、第二の実施形態は、識別部17が、対象者の複数の身体部位の座標に加え、対象者の姿勢を示す姿勢ラベルを出力する実施形態である。図8は、第二の実施形態における識別装置10の機能構成を示すブロック図である。
第一の実施形態では、識別部17が、対象者の複数の身体部位の座標を出力した。これに対し、第二の実施形態は、識別部17が、対象者の複数の身体部位の座標に加え、対象者の姿勢を示す姿勢ラベルを出力する実施形態である。図8は、第二の実施形態における識別装置10の機能構成を示すブロック図である。
第二の実施形態では、真値付与部12が、身体部位の二次元座標に加え、対象者が取っている姿勢を表す姿勢ラベルV(t)を取得する。姿勢ラベルは、姿勢を表すものであればどのように定義されていてもよい。例えば、車両の乗員を対象とする場合、ハンドル操作,バックミラーの調整,コントロール・パネルの調整,シートベルトの着脱,スマートフォン操作,飲食といった姿勢ラベルを定義してもよい。本例では、説明を簡単にするため、「正常姿勢」と「異常姿勢」の二種類のラベルを付与するものとする。例えば、正常姿勢の場合、V(t)=0という値を与え、異常姿勢の場合、V(t)=1という値を与える。
第二の実施形態では、射影部14が生成した低次元特徴量f(t) (t=1,…,T)が、分類部
15の他に識別部17へも出力される。
また、第二の実施形態では、データ生成部16が生成した第二の部位情報(すなわち、対象者のM個の身体部位に対する新たな二次元座標(x'm(t'),y'm(t'))(m=1,2,…,M, t'=1,…,T'))が、識別部17の他に特徴量算出部13へも出力される。
15の他に識別部17へも出力される。
また、第二の実施形態では、データ生成部16が生成した第二の部位情報(すなわち、対象者のM個の身体部位に対する新たな二次元座標(x'm(t'),y'm(t'))(m=1,2,…,M, t'=1,…,T'))が、識別部17の他に特徴量算出部13へも出力される。
第二の実施形態では、識別部17は、二種類の識別器を有して構成される。一つ目(第一の識別器)は、第一の実施形態で述べたような、ある時刻t0における画像に含まれる対象者のM個の身体部位の座標を推定して出力する識別器である。二つ目(第二の識別器)は、ある時刻t0における画像に含まれる対象者の姿勢ラベルV(t0)を推定して出力する識
別器である。このような識別器は、例えば、古典的機械学習の一種であるサポート・ベクターマシンを用いて学習することができる。
別器である。このような識別器は、例えば、古典的機械学習の一種であるサポート・ベクターマシンを用いて学習することができる。
第二の識別器は、順位特徴量を用いて学習される。すなわち、データ生成部16によって生成された第二の部位情報が、特徴量算出部13によって順位特徴量に変換され、射影部14によって低次元特徴量に変換されたのち、識別部17に入力される。
かかる構成によると、対象者の身体部位の位置を推定する識別器に加え、対象者の姿勢そのものを識別する識別器を得ることができるようになる。すなわち、対象者の姿勢に基づいた様々な機能を提供できるようになる。
かかる構成によると、対象者の身体部位の位置を推定する識別器に加え、対象者の姿勢そのものを識別する識別器を得ることができるようになる。すなわち、対象者の姿勢に基づいた様々な機能を提供できるようになる。
(変形例)
本発明は、上記手段の少なくとも一部を備える識別装置または学習装置として捉えることができる.また、本発明は、上記処理の少なくとも一部を実行する識別方法または学習方法として捉えることもできる。また、本発明は、これら方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明は、上記手段の少なくとも一部を備える識別装置または学習装置として捉えることができる.また、本発明は、上記処理の少なくとも一部を実行する識別方法または学習方法として捉えることもできる。また、本発明は、これら方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
なお、学習処理(ステップS11)において用いられる身体部位の位置は、どのようにして求めても構わない。これは部位検出のアルゴリズムが特定のものに限定されないことを意味するだけでなく、部位検出を人手で行ってもよいことを意味する。
また、実施形態の説明では、二次元の画像空間上における距離を用いたが、人体の部位が三次元座標によって得られている場合、三次元空間内における距離を採用することもできる。例えば、赤外画像や可視光画像に加え、距離画像を取得可能である場合、処理系を三次元に拡張することもできる。
本発明における識別装置10は、半導体集積回路(LSI)による実装に限定されず、汎用的なマイクロプロセッサやメモリを有するコンピュータがプログラムを実行することによって実現されても構わない。
また、実施形態の説明では、同一の装置が学習処理と識別処理の双方を行ったが、学習処理を行う装置と、識別処理を行う装置が分かれていてもよい。さらに、識別装置10から、学習処理に関連した手段を省いてもよい。例えば、例示した識別装置10から、真値付与部12、特徴量算出部13、射影部14、分類部15、データ生成部16を省略し、識別処理のみを行う装置(識別装置)として実施してもよい。
この場合、学習済みの識別部17(または、識別部17が有する識別器)を装置から論理的に切り離し、別の装置に組み込み可能に構成してもよい。例えば、実施形態に係る識別装置10によって学習された識別部17を、識別処理のみを行う装置に組み込めるようにしてもよい。
また、反対に、学習処理のみを行う装置として発明を実施してもよい。
この場合、学習済みの識別部17(または、識別部17が有する識別器)を装置から論理的に切り離し、別の装置に組み込み可能に構成してもよい。例えば、実施形態に係る識別装置10によって学習された識別部17を、識別処理のみを行う装置に組み込めるようにしてもよい。
また、反対に、学習処理のみを行う装置として発明を実施してもよい。
10・・・識別装置
11・・・画像入力部
12・・・真値付与部
13・・・特徴量算出部
14・・・射影部
15・・・分類部
16・・・データ生成部
17・・・識別部
11・・・画像入力部
12・・・真値付与部
13・・・特徴量算出部
14・・・射影部
15・・・分類部
16・・・データ生成部
17・・・識別部
Claims (9)
- 対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習方法であって、
前記対象者を含む画像を取得する画像取得ステップと、
前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得ステップと、
前記第一の部位情報を特徴量に変換する変換ステップと、
複数の前記特徴量をクラスタリングする分類ステップと、
生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成ステップと、
前記第二の部位情報を用いて、前記識別器を学習させる学習ステップと、
を含む、学習方法。 - 前記生成ステップでは、前記複数のクラスタにそれぞれ含まれる特徴量の数に基づいて、クラスタごとに生成する前記第二の部位情報の数を決定する、
請求項1に記載の学習方法。 - 前記特徴量は、前記複数の身体部位の位置関係に基づいた特徴量である、
請求項1または2に記載の学習方法。 - 前記特徴量は、前記複数の身体部位間の距離の順位に基づいた特徴量である、
請求項3に記載の学習方法。 - 前記生成ステップでは、前記第一の部位情報に対応する複数の身体部位の位置を、それぞれ所定の半径を有する領域内において移動させることで、前記第二の部位情報を生成する、
請求項3または4に記載の学習方法。 - 前記生成ステップでは、前記領域に含まれる複数の点について、位置に基づいた重みを付与し、前記重みに基づいて移動先を決定する、
請求項5に記載の学習方法。 - 前記分類ステップでは、前記特徴量の次元数を削減した結果をクラスタリングする、
請求項1から6のいずれかに記載の学習方法。 - 請求項1から7のいずれかに記載の学習方法の各ステップをコンピュータに実行させるためのプログラム。
- 対象者が有する複数の身体部位の位置を識別する識別器を学習させる学習装置であって、
前記対象者を含む画像を取得する画像取得手段と、
前記画像に含まれる前記対象者が有する複数の身体部位の位置に関する情報である第一の部位情報を取得する真値取得手段と、
前記第一の部位情報を特徴量に変換する変換手段と、
複数の前記特徴量をクラスタリングする分類手段と、
生成された複数のクラスタのそれぞれについて、対応する前記第一の部位情報に類似する第二の部位情報を生成する生成手段と、
前記第二の部位情報を用いて、前記識別器を学習させる学習手段と、
を有する、学習装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018131662A JP2020009316A (ja) | 2018-07-11 | 2018-07-11 | 学習方法および学習装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018131662A JP2020009316A (ja) | 2018-07-11 | 2018-07-11 | 学習方法および学習装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2020009316A true JP2020009316A (ja) | 2020-01-16 |
Family
ID=69151937
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018131662A Pending JP2020009316A (ja) | 2018-07-11 | 2018-07-11 | 学習方法および学習装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2020009316A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021174387A (ja) * | 2020-04-28 | 2021-11-01 | 三菱重工業株式会社 | モデル評価装置、モデル評価方法、及びプログラム |
| JP2021174385A (ja) * | 2020-04-28 | 2021-11-01 | 三菱重工業株式会社 | モデル最適化装置、モデル最適化方法、及びプログラム |
| US12307823B2 (en) | 2020-09-22 | 2025-05-20 | Samsung Electronics Co., Ltd. | Display apparatus and method for controlling thereof |
-
2018
- 2018-07-11 JP JP2018131662A patent/JP2020009316A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021174387A (ja) * | 2020-04-28 | 2021-11-01 | 三菱重工業株式会社 | モデル評価装置、モデル評価方法、及びプログラム |
| JP2021174385A (ja) * | 2020-04-28 | 2021-11-01 | 三菱重工業株式会社 | モデル最適化装置、モデル最適化方法、及びプログラム |
| US12307823B2 (en) | 2020-09-22 | 2025-05-20 | Samsung Electronics Co., Ltd. | Display apparatus and method for controlling thereof |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106682598B (zh) | 一种基于级联回归的多姿态的人脸特征点检测方法 | |
| US8249310B2 (en) | Image processing apparatus and method and program | |
| JP6443393B2 (ja) | 行動認識装置,学習装置,並びに方法およびプログラム | |
| JP2019040465A (ja) | 行動認識装置,学習装置,並びに方法およびプログラム | |
| US7912253B2 (en) | Object recognition method and apparatus therefor | |
| JP6398979B2 (ja) | 映像処理装置、映像処理方法および映像処理プログラム | |
| Balazia et al. | Gait recognition from motion capture data | |
| CN103295025B (zh) | 一种三维模型最优视图的自动选择方法 | |
| CN106650619A (zh) | 一种人体动作识别方法 | |
| CN106570480B (zh) | 一种基于姿势识别的人体动作分类方法 | |
| WO2014078440A1 (en) | Devices, systems, and methods for collaborative object verification | |
| Nambiar et al. | Context-aware person re-identification in the wild via fusion of gait and anthropometric features | |
| Qi et al. | Learning complex spatio-temporal configurations of body joints for online activity recognition | |
| Agarwal et al. | Facial expression recognition through adaptive learning of local motion descriptor | |
| Ashfaq et al. | Classification of hand gestures using Gabor filter with Bayesian and naïve Bayes classifier | |
| JP2020009316A (ja) | 学習方法および学習装置 | |
| Cai et al. | Accurate eye center localization via hierarchical adaptive convolution | |
| Perez et al. | Face and iris localization using templates designed by particle swarm optimization | |
| CN103927554A (zh) | 一种基于拓扑结构的图像稀疏表征面部表情特征提取系统和方法 | |
| Banerjee et al. | Learning unseen emotions from gestures via semantically-conditioned zero-shot perception with adversarial autoencoders | |
| Kilinc et al. | Automatic human age estimation using overlapped age groups | |
| Li et al. | A novel art gesture recognition model based on two channel region-based convolution neural network for explainable human-computer interaction understanding | |
| Endres et al. | Graph-based action models for human motion classification | |
| Wong et al. | Optimal linear combination of facial regions for improving identification performance | |
| Kumar et al. | Graph matching based hand posture recognition using neuro-biologically inspired features |
