JP7537700B2

JP7537700B2 - 学習装置、学習データの作成方法、学習方法、及び学習プログラム

Info

Publication number: JP7537700B2
Application number: JP2020203258A
Authority: JP
Inventors: 英夫山田; 雅聡柴田; 修一榎田; 元樹今里
Original assignee: Aisin Seiki Co Ltd; Kyushu Institute of Technology NUC; Aisin Corp
Current assignee: Kyushu Institute of Technology NUC; Aisin Corp
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2024-08-21
Anticipated expiration: 2040-12-08
Also published as: JP2022090760A

Description

本発明は、学習装置、、学習データの作成方法、学習方法、及び学習プログラムに関し、例えば、動画上で歩行者を追跡する歩行追跡装置で使用するニューラルネットワークの学習に関する。

歩行中の歩行者をカメラで動画撮影し、その動画上で歩行者を同定して追跡する技術の需要が高まっている。
例えば、特許文献１の技術では、外観による特徴や座標、及び歩行の方向などを手がかりにして複数のカメラで撮影した人物を追跡しつつ、アバターに変換している。

しかし、一般的に、カメラによる歩行者の追跡は、監視カメラ設置エリアなど多数の人々が行き交う場所で行われる。
このような集団で歩行するようなシーンで歩行者を追跡する場合、外見の似た他者が近くを同じ方向に歩いていたり、歩行者の身体の一部が他の歩行者の陰に隠れたり、あるいは、服装のデザインの影響で角度によって歩行者の外見の見え方が変化したり、など、同様な情報が取得できるため、個々の歩行者を分離して追跡することが困難な場合があった。

また、カメラによる歩行者の追跡において、追跡中の歩行者の一部が柱や荷物などの遮蔽物によって遮蔽されることで、歩行者の認識が困難になる場合がある。
そこで、特許文献２では、カメラによる対象物の骨格から歩行者を認識する場合に、遮蔽のない学習データから人工的に骨格の一部を欠損させたデータを用いて補間器を作成し、補間器と推定器を用いて対象物の骨格を認識する技術が提案されている。

しかし、特許文献２記載技術では、補間器と推定器の２つを学習・推論させる必要があり、学習・推論にかかる処理時間が多い。
また、データを欠損させる際に現実空間でありえないような欠損を行うことは、逆にノイズとなる可能性がある。

特開２０１９－９７５２号公報特開２０２０－１２３１０５号公報

本発明は、ニューラルネットワークによる歩行者追跡の頑健性を高めることを目的とする。

（１）請求項１に記載の発明では、歩行している被写体を撮影した動画のフレーム画像から取得した前記被写体の骨格情報を入力し、当該被写体の歩行状態を出力するニューラルネットワークの学習装置であって、前記被写体に骨格情報として設定されている複数のジョイントの位置情報が全て揃った完全骨格情報ｊと、当該完全骨格情報ｊによる歩行状態ｓとからなる複数の完全学習データ（ｊ、ｓ）を取得する完全学習データ取得手段と、前記取得した各完全学習データに対して、その完全骨格情報ｊから前記被写体の中心線に沿って設定された主要ジョイントを除くジョイントの位置情報を削除した遮蔽骨格情報ｃｊと歩行状態ｓとからなる複数の遮蔽学習データ（ｃｊ、ｓ）を作成する遮蔽学習データ作成手段と、前記取得した複数の完全学習データ（ｊ、ｓ）と前記作成した複数の遮蔽学習データ（ｃｊ、ｓ）を使用して前記ニューラルネットワークの学習を行う学習手段と、を具備することを特徴とする学習装置を提供する。
（２）請求項２に記載の発明では、前記歩行状態ｓは、前記被写体の周期的な歩行動作における歩行段階と、前記被写体の歩行する方向を構成要素としている、ことを特徴とする請求項１に記載の学習装置を提供する。
（３）請求項３に記載の発明では、前記遮蔽学習データ作成手段は、鼻、首、及び、腰部中心に設定されたジョイントを前記主要ジョイントとして削除対象から除外する、ことを特徴とする請求項１、又は請求項２に記載の学習装置を提供する。
（４）請求項４に記載の発明では、前記遮蔽学習データ作成手段は、前記被写体の右手、左手、右足、左足に対応する少なくとも1つの先端側から前記主要ジョイントに向けて繋がるジョイントを削除対象とする、ことを特徴とする請求項１、請求項２、又は請求項３に記載の学習装置を提供する。
（５）請求項５に記載の発明では、前記遮蔽学習データ作成手段は、前記被写体に対して設定された全てのジョイントの８０％以下のジョイントを削除対象とする、ことを特徴とする請求項１～請求項４のうちの１の請求項に記載の学習装置を提供する。
（６）請求項６に記載の発明では、前記遮蔽学習データ作成手段は、前記主要ジョイントに加え、前記主要ジョイントに直結している１次ジョイントの少なくとも２以上を残して削除する、ことを特徴とする請求項１～請求項４のうちの１の請求項に記載の学習装置を提供する。
（７）請求項７に記載の発明では、前記遮蔽学習データ作成手段は、全ての完全学習データに対する遮蔽学習データを予め作成し、前記学習手段は、完全学習データと予め作成した遮蔽学習データを使用して学習を行う、ことを特徴とする請求項１から請求項６のうちのいずれか１の請求項に記載の学習装置を提供する。
（８）請求項８に記載の発明では、前記遮蔽学習データ作成手段は、１の完全学習データに対する複数の遮蔽学習データを作成し、当該１の完全学習データと作成した複数の遮蔽学習データによる学習の後に、次の完全学習データに対する遮蔽学習データを作成する、ことを特徴とする請求項１から請求項６のうちのいずれか１の請求項に記載の学習装置を提供する。
（９）請求項９に記載の発明では、歩行している被写体を撮影した動画のフレーム画像から取得した前記被写体の骨格情報を入力し、当該被写体の歩行状態を出力するニューラルネットワークにおける学習データの作成方法であって、前記被写体に骨格情報として設定されている複数のジョイントの位置情報が全て揃った完全骨格情報ｊと、当該完全骨格情報ｊによる歩行状態ｓとからなる複数の完全学習データ（ｊ、ｓ）を取得する完全学習データ取得ステップと、前記取得した各完全学習データに対して、その完全骨格情報ｊから前記被写体の中心線に沿って設定された主要ジョイントを除くジョイントの位置情報を削除した遮蔽骨格情報ｃｊと歩行状態ｓとからなる複数の遮蔽学習データ（ｃｊ、ｓ）を作成する遮蔽学習データ作成ステップと、を具備することを特徴とする学習データの作成方法を提供する。
（１０）請求項１０に記載の発明では、歩行している被写体を撮影した動画のフレーム画像から取得した前記被写体の骨格情報を入力し、当該被写体の歩行状態を出力するニューラルネットワークの学習方法であって、前記被写体に骨格情報として設定されている複数のジョイントの位置情報が全て揃った完全骨格情報ｊと、当該完全骨格情報ｊによる歩行状態ｓとからなる複数の完全学習データ（ｊ、ｓ）を取得する完全学習データ取得ステップと、前記取得した各完全学習データに対して、その完全骨格情報ｊから前記被写体の中心線に沿って設定された主要ジョイントを除くジョイントの位置情報を削除した遮蔽骨格情報ｃｊと歩行状態ｓとからなる複数の遮蔽学習データ（ｃｊ、ｓ）を作成する遮蔽学習データ作成ステップと、前記取得した複数の完全学習データ（ｊ、ｓ）と前記作成した複数の遮蔽学習データ（ｃｊ、ｓ）を使用して前記ニューラルネットワークの学習を行う学習ステップと、を具備することを特徴とする学習方法を提供する。
（１１）請求項１１に記載の発明では、歩行している被写体を撮影した動画のフレーム画像から取得した前記被写体の骨格情報を入力し、当該被写体の歩行状態を出力するニューラルネットワークの学習プログラムであって、前記被写体に骨格情報として設定されている複数のジョイントの位置情報が全て揃った完全骨格情報ｊと、当該完全骨格情報ｊによる歩行状態ｓとからなる複数の完全学習データ（ｊ、ｓ）を取得する完全学習データ取得機能と、前記取得した各完全学習データに対して、その完全骨格情報ｊから前記被写体の中心線に沿って設定された主要ジョイントを除くジョイントの位置情報を削除した遮蔽骨格情報ｃｊと歩行状態ｓとからなる複数の遮蔽学習データ（ｃｊ、ｓ）を作成する遮蔽学習データ作成機能と、前記取得した複数の完全学習データ（ｊ、ｓ）と前記作成した複数の遮蔽学習データ（ｃｊ、ｓ）を使用して前記ニューラルネットワークの学習を行う学習機能と、をコンピュータに実現させることを特徴とする学習プログラムを提供する。

本発明によれば、取得した各完全学習データに対して、その完全骨格情報ｊから被写体の中心線に沿って設定された主要ジョイントを除くジョイントの位置情報を削除した遮蔽骨格情報ｃｊと歩行状態ｓとからなる複数の遮蔽学習データ（ｃｊ、ｓ）を作成するので、ニューラルネットワークによる歩行者追跡の頑健性を高めることができる。

歩行追跡装置のハードウェア的な構成を示した図である。歩行状態の検出手順を説明するための図である。骨格情報を説明するための図である。歩行方向を説明するための図である。歩行段階を説明するための図である。歩行状態を説明するための図である。ＭＬＰを説明するための図である。歩行状態を用いた人物同定方法を説明するための図である。実験結果を説明するための図である。歩行追跡処理を説明するためのフローチャートである。歩行状態計算処理を説明するためのフローチャートである。隠れを有する学習データを説明するための図である。部分領域を説明するための図である。ＭＬＰの全体構成を説明するための図である。歩行状態計算処理を説明するためのフローチャートである。学習モデルの精度を比較した実験結果を説明するための図である。歩行状態による対応付け手順を説明するためのフローチャートである。隠れを有する学習データを使用したＭＬＰの隠れ学習処理を表したフローチャートである。

（１）実施形態の概要
歩行追跡装置１（図１）は、動画の異なるフレーム画像に写った歩行者９が同一人物であることを同定して追跡する。
同定は、歩行者９の外見情報による同定と歩行状態による同定を相補的に組み合わせて行い、これによって頑健性を高めている。外見情報による同定は、一般的に利用されている技術を用いる。

歩行状態による同定は今回新たに開発した技術であって、歩行者９が連続的な歩行動作を行う際の姿勢に着目したものである。
歩行者は、歩行する際に周期２πの周期的な歩行動作を行うが、この歩行動作の各歩行段階を位相角φで表し、更に、歩行方向をθで表し、θとφの組み合わせによって歩行状態を定義する。

類似した外見情報と歩行状態を有する複数の歩行者が近接して歩行していることは希であるため、外見情報と歩行状態を組み合わせることにより、頑健に歩行者９を識別して同定することができる。
また、歩行状態自体も、歩行方向θと歩行段階φを相補的に組み合わせてあるため、多少歩行方向がぶれたり、歩調が乱れたりしても、頑健に歩行者９の歩行状態を検出することができる。

歩行状態については、２５個のジョイントで定義した歩行者９の骨格情報１５を抽出し、骨格情報による深層学習済みのＭＬＰ１６（多層パーセプトロン）に入力することで、その出力値から推定する。
本実施形態のＭＬＰ１６に対しては、フレーム画像から抽出した骨格情報１５が遮蔽などによって一部欠損してても、より高い精度で歩行状態を推定することが可能な学習を済ませてある。
すなわち、歩行状態の学習の際に、歩行者と判断するために重要な骨格（顔の中心や胴など）は保持し、遮蔽が発生しやすい手やつま先等の骨格の末端から一定の割合で削除した学習データを使用してＭＬＰ１６の学習を行う。
学習データは、全てを備えた骨格情報１５とその歩行状態ｓ（教師信号）からなる完全学習データと、当該骨格情報１５から末端側のジョイントの位置情報を欠如（削除）した遮蔽骨格情報と同一の歩行情報ｓ（教師信号）とからなる遮蔽学習データ、を使用する。遮蔽骨格情報と教師信号については、予め作成しておく場合と、学習の際に作成する場合のいずれでもよい。

（２）実施形態の詳細
カメラで歩行者を動画撮影し、２つのフレーム画像に写った歩行者を対応させて同一人物であると同定する場合、同じ動画データの時間的に前後するフレーム画像間で歩行者を対応させて同定する場合と、複数台のカメラで撮影した異なる動画データのフレーム画像間で歩行者を対応させて同定する場合がある。
以下、第１～第３実施形態で前者について説明し、第４実施形態で後者について説明するが、歩行状態を用いて２つのフレーム画像に写っている歩行者を同定する技術は共通である。

［第１実施形態］
図１（ａ）は、第１実施形態に係る歩行追跡装置１のハードウェア的な構成を示した図である。
歩行追跡装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４、表示部５、入力部６、通信制御部７、カメラ８、記憶部１０などから構成されている。

歩行追跡装置１は、歩行者９を動画撮影して、動画内で歩行者９を追跡する。骨格を有する対象であれば、歩行状態を検出して歩行を追跡できるが、本実施形態では、追跡対象を人とし、歩行追跡装置として利用する。

図では、単一の歩行者９を図示しているが、歩行追跡装置１は、集団で歩行している複数の歩行者９、９、・・・を個別に追跡することができる。
歩行追跡装置１は、歩行者ごとにばらばらである歩行状態を用いて個々の歩行者９を識別するため、集団的な歩行で特に顕著な頑健性を示す。
歩行追跡装置１は、例えば、自律走行ロボットに搭載されて省人化を行ったり、監視カメラ映像を用いて防犯対策やマーケティング分析などを行うのに用いられる。

ＣＰＵ２は、記憶部１０やＲＯＭ３などに記憶されたプログラムに従って、各種の情報処理や制御を行う中央処理装置である。
本実施形態では、歩行追跡プログラムに従って情報処理することにより、動画データを構成する２つのフレーム画像に写った歩行者９を同定し、この同定処理を繰り返すことによって歩行者９を動画内で追跡する。

ＲＯＭ３は、読み取り専用メモリであって、歩行追跡装置１を動作させるための基本的なプログラムやパラメータなどを記憶している。
ＲＡＭ４は、読み書きが可能なメモリであって、ＣＰＵ２が動作する際のワーキングメモリを提供する。
本実施形態では、動画を構成するフレーム画像（１コマの静止画像）の画像データを展開して記憶したり、計算結果を記憶したりすることにより、ＣＰＵ２が、歩行者９を追跡するのを支援する。

表示部５は、液晶画面などの表示デバイスを用いて構成されており、歩行追跡装置１の操作画面や動画の表示などを行う。
入力部６は、キーボードやマウスなどの入力デバイスを用いて構成されており、操作画面への入力などを受け付ける。

通信制御部７は、インターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などの通信ネットワーク１１を介して、外部の装置との通信を行う。
本実施形態では、例えば、遠隔地のイベント会場などの外部のカメラで撮影した動画データを通信ネットワーク１１経由で受信して、この動画について歩行追跡処理を行うことができる。

カメラ８は、汎用の動画撮影カメラであって、レンズで構成された光学系と、これによって結像した像を電気信号に変換する画像素子を用いて構成されている。
カメラ８は、歩行者９が歩行している場所を所定のフレームレートで撮影し、これら連続するフレーム画像で構成された動画をＲＧＢ信号などの所定の画像信号によって出力する。
このように歩行追跡装置１は、歩行している被写体（歩行者９）を撮影した動画をカメラ８や通信ネットワーク１１経由で外部の装置などから取得する動画取得手段を備えている。

記憶部１０は、ハードディスクやＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）などの記憶媒体を用いて構成されており、歩行追跡プログラムやその他のプログラム、及びデータ（解析に必要なパラメータや解析によって得た歩行者９の歩行経路や歩行状態の時間的推移など）を記憶している。

歩行追跡装置１は、ニューラルネットワークの一種であるＭＬＰ（Ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）による深層学習を用いて歩行者９の歩行状態を解析するが、これを高速化するためにＧＰＧＰＵ（Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）を用いたり、あるいは、ＣＰＵ、ＧＰＵ、メモリなどを一体にモジュール化した小型コンピュータを用いて小型化することもできる。この小型コンピュータは、自律走行ロボットに搭載して人物を自動追尾するのに適している。

図１（ｂ）の式（１）は、歩行追跡装置１が歩行者追跡のために行う計算式の一例を示している。
式（１）は、２つのフレーム画像に写っている歩行者９を対応させて同定するのに用いる式であって、第１実施形態～第３実施形態では、単一のカメラ８で撮影した時間的に前後するフレーム画像間で歩行者９を同定するのに用い、第４実施形態では、複数台のカメラ８、８、・・・で同時刻に撮影した２つのフレーム画像間で歩行者９を同定するのに用いる。
このように、動画撮影したカメラ８の異同にかかわらず、式（１）を用いて２つのフレーム画像間で歩行者９を同定することができる。

歩行追跡装置１は、動画フレームで歩行者９を矩形によって人物検索し、歩行者９の外見情報を用いて計算した同一人物である確率と、歩行者９の歩行状態を用いて計算した同一人物である確率の線形和によって、歩行者９が同一人物である確率を計算する。係数αは、０＜α＜１の実数であり、例えば、０．３＜α＜０．７程度の範囲で実験により好適な値を設定する。
歩行追跡装置１は、外見情報と歩行状態を併せて判定した同一人物である確率が所定の閾値以上である場合に、歩行者９を同一人物であると同定する。閾値は、実験により求める。
このように、歩行追跡装置１は、被写体の外見情報を取得する外見情報取得手段を備え、歩行状態と、当該外見情報と、を用いて被写体を同定する。

フレーム画像から人物を矩形で画像認識する技術や外見情報による同一人物程度の判定技術は、一般に用いられている技術を用いる。
外見情報を用いて同定する技術には、色分布によるカラーヒストグラム特徴を用いるもの、輝度勾配分布によるＨＯＧ特徴量を用いるもの、及び、深層学習で構築した距離空間に基づくもの（同一人物同士を近づけ、異なる人物同士を遠ざける距離空間を学習したもの）などがある。
これらは、何れも外見（Ａｐｐｅａｒａｎｃｅ）に基づくものであり、例えば、服の色や種類が類似している場合や、照明が変化する場合、あるいは、カメラ設置位置による見え方が違う場合に誤同定することがある。

一方、歩行状態による同一人物程度は、歩行者９の姿勢（Ｐｏｓｅ）に着目して人物同定を行う技術であって、本願発明者が今回新たに開発した技術である。
近接する時刻であれば、カメラ位置によらず同一人物は同じ姿勢をとるため、姿勢に基づいて人物同定を行うことが可能となる。

外見情報と歩行状態は、異なる観点から得られる情報であるため、相補効果が顕著である。
そのため、式（１）に示したように、外見情報による同定と、歩行状態による同定と、を相補的に組み合わせることによって、外見情報で生じる誤同定の原因に対しても頑健となり、人物同定判断の精度を大幅に高めることができる。

例えば、人々が集団で歩行していて、歩行者９の近くを歩行している他の歩行者の外見が類似している場合は、歩行状態による区別が可能であり、逆に、歩行状態が類似している場合は、外見情報による区別が可能である。
以下では、今回新たに導入した歩行状態の検出について説明する。

図２は、歩行状態の検出手順の全体像を説明するための図である。
まず、歩行追跡装置１は、フレーム画像から歩行者９を矩形により人物検出する。そして、検出した歩行者９の姿勢情報を骨格情報１５によって抽出する。
骨格情報１５の抽出には、例えば、ＯｐｅｎＰｏｓｅやＰｏｓｅＮｅｔといったソフトウェアで一般的に利用されている技術を用いることができる。
このように、歩行追跡装置１は、被写体の骨格情報を取得する骨格情報取得手段を備えている。

次に、歩行追跡装置１は、抽出した骨格情報１５を、予め骨格情報に対応する歩行状態を学習しておいたＭＬＰ１６に入力して歩行状態ｓを推定する。
このように、歩行追跡装置１は、各種の歩行状態を骨格情報によって学習したニューラルネットワークを備えている。

後述するように、本実施形態では、歩行者９が歩行する際の周期的な歩行動作に基づいて歩行状態ｓを定義し、歩行方向の２次元と、歩行段階の２次元で張られた４次元の歩行状態空間１７における４次元ベクトルとして歩行状態ｓを表す。
なお、ベクトルのｓは、図では太字で表しているが、文字コードの誤変換を防ぐために、明細書中では通常の英文字ｓで表す。他のベクトル量についても同様とする。
このように、歩行追跡装置１は、ニューラルネットワークを用いて被写体の周期的な歩行動作の連続性に基づく歩行状態を取得する。

そして、歩行追跡装置１は、歩行状態空間１７で、１つ前の動画フレーム画像で検出した歩行状態（ｓ２とする）と、今回の動画フレームで検出した歩行状態（ｓ１とする）の差をユーグリッド距離Ｕによって計測し、これによって人物同定を行う。

平面上の２点間の距離は、ピタゴラスの定理で与えられるが、これを一般化したのがユーグリッド距離であって、ユーグリッド距離Ｕは、ｓ１とｓ２の各成分の差分の二乗の和の平方根で求めることができる。
歩行状態が近いほどユーグリッド距離Ｕは小さくなるため、これによって２つの歩行状態の類似度を定量的に比較することができる。そのため、ユーグリッド距離Ｕが近いほど同一人物である確率が高くなるように同定判断を行うことができる。なお、これは一例であって、他の計量を用いてもよい。

このように、歩行追跡装置１は、骨格情報をニューラルネットワークに入力して、当該ネットワークが出力する歩行状態を用いて、動画を構成するフレーム画像間での被写体を同定する同定手段を備えている。
そして、歩行追跡装置１は、フレーム画像での同定処理を逐次行うことにより、歩行者９を動画内で追跡することができる。
このように、歩行追跡装置１は、動画で同定した被写体を追跡する追跡手段を備えている。

図３は、骨格情報を説明するための図である。
本実施形態では、骨格情報をジョイント番号０～２４の合計２５個のジョイントで定義した。以下、ジョイント番号０のジョイントをＪ０などと略記する。ジョイントは、骨格情報において関節として機能する部位であって、ジョイントを中心としてこれらを結ぶ線分を回転させることにより姿勢を変化させることができる。本実施形態で用いたジョイントと人体部位との対応関係は次の通りである。

Ｊ０：鼻、Ｊ１：首、Ｊ２：右肩、Ｊ３：右肘、Ｊ４：右手首、Ｊ８：腰部中心、Ｊ９：腰部右、Ｊ１０：右膝、Ｊ１１：右足首、Ｊ１５：右目、Ｊ１７：右耳、Ｊ２２：右足親指、Ｊ２３：右足小指、Ｊ２４：右かかと、以下、対応する左半身も同様である。

歩行追跡装置１は、矩形で検出した人物の画像において、各ジョイントの画像上での２次元座標値を取得することにより、姿勢に応じた骨格情報を２次元データとして抽出する。
座標を取得する元となる画像は、フレーム画像から人物検出で切り出した矩形の画像における座標でもよいし、フレーム画像上での座標でもよい。

ジョイントは、更に多く定義したり、あるいは少なく定義したり、自由に設定することができる。例えば、背骨に該当する領域に更にジョイントを追加してより細かい姿勢を検出することもできるが、通常歩行は背筋を伸ばした状態で行うため必要ないと考えられる。このように、検出したい姿勢の属性に応じて適切なジョイントを定義することによって不要な計算を避けることができる。実験の結果、上記２５点のジョイントで良好に歩行状態の推定を行うことができた。

図４は、歩行方向を説明するための図である。
図４（ａ）は、撮影エリアを上から見たところを示しており、歩行者９の歩行方向ｄを、歩行面に平行な平面上の単位ベクトルで表す。
図の例では、撮影方向のＤ１軸と、これに垂直なＤ２軸で張られるＤ平面を設定し、歩行者９を中心として回転する単位ベクトルによって歩行方向ｄを定義した。

計測する角度の基点は、どこでもよいが、図の例のようにＤ１を基点とする反時計回りの角度θ（０°≦θ＜３６０°）で計測すると、歩行方向ｄの成分は、図４（ｂ）に示したように、ｄ＝（ｄ１、ｄ２）＝（ｃｏｓθ、ｓｉｎθ）となる。

図５は、歩行段階を説明するための図である。
図５（ａ）に示したように、歩行動作（足や手を運動させて体の重心を移動させる全身の連続動作）を歩行方向に垂直な方向から観察すると、歩行者９は、同じ周期的な動作を連続的に繰り返している。

１歩行周期は、例えば、右足を着地する（歩行者９ａ）→右足に重心を乗せる（歩行者９ｂ）→左足を振り出す（歩行者９ｃ）→左足を着地する（歩行者９ｄ）→右足を振り出す（歩行者９ｅ、図は省略）、の各歩行段階で構成されている。
このように歩行動作は周期的な動作であるため、歩行段階は１歩行周期の位相で表すことができる。

そこで、図５（ｂ）で示したように直交するＰ１、Ｐ２軸で張られるＰ平面を想定し、歩行の位相の位相角φ（０°≦φ＜３６０°）に対応してＰ平面上を回転する単位ベクトル（ｐ１，ｐ２）によって歩行段階ｐを定義した。
位相角の起点は、どこでもよいが、図の例では、歩行者９ａの段階を位相角φの起点とし、歩行者９ｂ～９ｅの段階に進むに従って反時計回りに増大するようにφを定義した。
なお、図５（ｂ）では、歩行者９ｅを省略し、Ｐ１、Ｐ２軸による単位円上に歩行者９ａ～９ｄを順に表示した概念図であって、Ｐ１、Ｐ２軸と、歩行者９ａ～９ｄの正確な対応関係を示すものではない。

このように歩行段階ｐを２次元ベクトルで表すと、その成分は、図５（ｃ）に示したように、ｐ＝（ｐ１、ｐ２）＝（ｃｏｓφ、ｓｉｎφ）となる。

図６は、歩行状態を説明するための図である。
図６（ａ）に示したように、歩行方向ｄと歩行段階ｐを合わせた４次元ベクトルで歩行状態ｓ＝（ｄ１、ｄ２、ｐ１、ｐ２）を定義する。
図示すると、歩行状態ｓは、図６（ｂ）で示したようなＤ１、Ｄ２、Ｐ１、Ｐ２軸で張られる４次元の歩行状態空間１７内のベクトルｓで表される。
４次元空間は図示することはできないため、図では、模式的にＤ１～Ｐ２軸を示してある。

このように歩行方向ｄと歩行段階ｐを組み合わせて歩行状態ｓを定義すると、歩行方向ｄや歩行段階ｐのばらつきによる歩行状態ｓのずれが小さくなるように、これらが相補的に機能するため、歩行状態検出の頑健性を高めることができる

歩行状態をこのように４次元ベクトルで表現したのは、後述する機械学習や人物同定の計算が容易になるからであり、他の手法で歩行状態の表現をすることもできる。
歩行状態は、同一時刻（多少前後してもよい）の歩行方向θと歩行段階の位相角φの組み合わせで規定されるため、直交するθ軸とφ軸からなる平面での点（θ、φ）（０≦θ、φ＜２π）で表したり、単位球からなる球座標（θ、φ）で表すこともできる。これらのうち、理論計算や実装など、それぞれの場面で便利な座標系を用いればよい。

なお、本実施形態では、θとφの組み合わせによって歩行状態を定義したが、φだけ、即ち歩行段階ｐだけで歩行状態を定義することも可能である。
また、更に他の要素を加えて更に高次元のベクトルとすることもできる。
歩行追跡装置１が備える同定手段は、歩行方向と歩行段階から歩行状態を生成することにより、歩行動作に加えて、被写体の歩行する方向を歩行状態に含めて同定を行うことができる。

ところで、歩行者が歩行する様子、即ち歩容によって歩行者を識別する技術は、従来各種のものが提案されているが、これらは何れも、歩行者がある時間歩いたシーケンスにおいて歩容を取得している。これに対し、本実施形態の歩行追跡装置１は、歩行者９が歩いている一場面を切り取ったワンショットの画像から歩行状態を推定できるところが大きな特徴の１つである。

図７は、ＭＬＰを説明するための図である。
歩行追跡装置１は、ＭＬＰ（多層パーセプトロン：ニューラルネットワークの一種）による深層学習によって歩行状態ｓを計算した。
ＭＬＰ１６は、入力層、中間層、及び出力層を備えている。中間層の層数は３、各中間層のノード数は６４とした。

入力層は、フレーム画像上でのＪ０の座標値（ｘ０、ｙ０）、Ｊ１の座標値（ｘ１、ｙ１）、・・・、Ｊ２４の座標値（ｘ２４、ｙ２４）の、それぞれを入力する５０個のノードを備えている。
出力層は、歩行状態ｓ＝（ｄ１、ｄ２、ｐ１、ｐ２）の各成分を出力する４個のノードを備えている。

活性化関数はＲｅＬＵを用い、エポック数を１００、バッチサイズを２５６とした。ＲｅＬＵは、ＭＬＰで一般的に使われる非線形の関数である。活性化関数の非線形性により、対象（ここでは歩行状態）を非線形分離することができる。
エポック数は、学習回数であり、バッチサイズは、学習データをバッチに分けて学習させる際の各バッチに含まれる学習データ数である。

学習については、様々な歩行状態の画像を用意し、これらのジョイント座標値ｊ＝［ｘ０、ｙ０、・・・、ｘ２４、ｙ２４］と歩行状態ｓ＝［ｄ１、ｄ２、ｐ１、ｐ２］からなる学習データ（ｊ、ｓ）を用いて教師あり学習を行った。
つまり、学習データ（ｊ、ｓ）のｊを入力すると、ＭＬＰ１６はｓを出力するが、これを正解であるところの学習データ（ｊ、ｓ）のｓと比較し、その誤差が小さくなるように中間層などのパラメータを調節した。
このようにパラメータが調整されたＭＬＰ１６を用いると、あるフレーム画像から抽出た骨格情報１５のジョイント座標値を入力するだけで、歩行状態ｓ、即ち、歩行方向ｄと歩行段階ｐを同時に算出することができる。

図８は、歩行状態を用いた人物同定方法を説明するための図である。
人物同定は、先に述べたように歩行状態空間１７でのユーグリッド距離Ｕを用いて行う。
例えば、歩行状態ｓ１、ｓ２を、それぞれ、最新のフレーム画像の歩行者９から抽出した歩行状態と、これより１つ前のフレーム画像の歩行者９から抽出した歩行状態とする。
なお、第４実施形態で、複数台のカメラ８ａ、８ｂからの動画で歩行者９を同定する場合は、カメラ８ａで撮影したフレーム画像ａから抽出した歩行状態と、カメラ８ｂで同一時刻に撮影したフレーム画像ｂから抽出した歩行状態とする。

カメラ８による動画撮影のフレームレートは例えば３０ｆｐｓ程度であり、この場合時間的に隣接するフレーム画像の撮影時間差は、０．０３秒程度である。これを人間の歩行動作の速さと比較すると非常に速く、隣接するフレーム画像内での姿勢変化はないと考えられる。
このように同一時刻の概念は、追跡対象の動く早さと、フレーム画像の撮影間隔の対比により規定され、撮影間隔での歩行状態ｓの変化が同定処理に実質的に影響を与えない範囲内である時間差は、同一時刻と考えられる。

これにより、最新のフレーム画像と１つ前のフレーム画像は、ほぼ同一時刻に撮影した画像と考えられ、最新のフレーム画像から計算した歩行状態ｓ１と、１つ前のフレーム画像から計算した歩行状態ｓ２が、同一人物によるものであった場合、これらの差は非常に小さいことが期待できる。

そこで、本実施形態では、歩行状態ｓ１、ｓ２の差を式（２）で示したユーグリッド距離Ｕで表し、両歩行状態の人物が同一人物である確率ｐｒｏｂを式（３）で定義した。
式（２）で示したユーグリッド距離Ｕが小さいほど歩行状態ｓ１、ｓ２の差が小さく、両フレーム画像での歩行者９の姿勢が近くなり、同一人物である可能性が高くなる。
そして、式（３）によれば、ユーグリッド距離Ｕが小さいほど確率が１に近づいて同一人物である確率が高まり、その近づき方を定数γによって調節することができる。
両人物が同一であると同定判断するための確率の閾値と定数γは、実験により適当な値を設定する。

変形例として、歩行状態ｓ１、ｓ２の内積を用いて人物同定することも可能である。
例えば、歩行状態ｓ１、ｓ２の大きさが、それぞれ１となるように規格化して内積を計算すると、歩行状態ｓ１、ｓ２の距離を内積によって－１から１までの値で測量することができる。内積計算は、計算機で容易に計算できるため、これを用いることも考えられる。
これらは、一例であって、他の計算式によって人物同定を行ってもよい。

以上の例では、時間的に隣接する２つのフレーム画像での歩行状態について説明したが、実質的に同一時刻と考えられる範囲内で時間的に前後したフレーム画像であれば、間欠的に取得したフレーム画像で解析可能である。
このように、歩行追跡装置１は、実質的に同一時刻での歩行状態ｓを抽出して比較するため、歩行者９が方向を変えたり歩調を変化させたりしても、これに追随して追跡することができる。

図９は、実験結果を説明するための図である。
図９（ａ）の左図は、歩行方向ｄの実験結果を表したグラフである。
横軸は実線３１で示したグランドトゥルースを表しており、縦軸は、実際に動画から計算した歩行者の歩行方向ｄの予測値（ＭＬＰ１６が出力した値）の分布（縦線）を表している。
グランドトゥルースとは、機械学習の精度を評価するための比較用のデータである。
図に示したように、予測値は、グランドトゥルース上に分布しており、高い精度で歩行方向ｄを予測することができている。

図９（ａ）の右図は、歩行段階ｐの実験結果を表したグラフである。
同様に、実線３２でグランドトゥルースを表し、縦線で予測値の分布を表している。歩行方向ｄに比べると、予測値のばらつきが若干広がるものの、予測値は、概ねグランドトゥルース上に分布しており、高い精度で歩行段階ｐを予測することができている。

図９（ｂ）は、これら実験による歩行方向ｄ、歩行段階ｐ、及び歩行状態ｓのＲＭＳＥを示した表である。
ＲＭＳＥ（ＲｏｏｔＭｅａｎＳｑｕａｒｅＥｒｒｏｒ：二乗平均平方根誤差）は、式（４）で表され、グランドトゥルース（ｙｏｂｓ、ｉ）と予測値（ｙｐｒｅｄ、ｉ）とのずれの二乗の総和の平均の平方根である。この値が小さいほどＭＬＰ１６の性能が良く、予測精度が高いことを意味している。

表に示したように、歩行方向ｄ、歩行段階ｐ、及び歩行状態ｓのＲＭＳＥは、それぞれ、０．１１０、０．２２９、０．１７９となり、これらは、十分に実用に耐える値である。
なお、表では、歩行方向ｄと歩行段階ｐについて、平均誤差をベクトルの角度に換算した値も併記してあり、それぞれ、６．３°、１３．１°である。

図１０は、歩行追跡装置１が行う歩行追跡処理を説明するためのフローチャートである。
以下の処理は、記憶部１０に記憶した歩行追跡プログラムに従ってＣＰＵ２が行うものである。
まず、ＣＰＵ２は、カメラ８が撮影した動画のフレーム画像を取得してＲＡＭ４に記憶する（ステップ５）。

次に、ＣＰＵ２は、ステップ５でＲＡＭ４に記憶したフレーム画像において、矩形によって人物検出を行い、これによって追跡対象となる歩行者９を設定する（ステップ１０）。
人物検出で複数の歩行者９、９、・・・が検出された場合は、これら全員を追跡対象としてもよいし、これから選択した単数、又は複数の歩行者９、９、・・・を追跡対象としてもよい。複数の歩行者９、９、・・・を追跡対象とする場合は、個々の歩行者９の追跡を並列処理にて同時に行う。
また、追跡対象とする歩行者９を選択する場合は、何らかのアルゴリズムに従って自動的に選択してもよいし、手動で選択してもよい。

次に、ＣＰＵ２は、追跡対象として設定した歩行者９の外見情報を取得してＲＡＭ４に記憶する（ステップ１５）。
複数の歩行者９、９、・・・を追跡対象として設定した場合は、それぞれの歩行者９について外見情報を取得する。以下同様に、複数の歩行者９、９、・・・を追跡する場合は、歩行者ごとに処理する。

次に、ＣＰＵ２は、歩行者９の骨格情報１５を抽出してＭＬＰ１６に入力することにより歩行状態を取得し、これをＲＡＭ４に記憶する（ステップ２０）。
以上の外見情報と歩行状態が、追跡に用いる初期値となり、以降の動作で外見情報と歩行状態を連続的に追跡していく際の起点となる。

次に、ＣＰＵ２は、カメラ８の撮影した動画から次のフレーム画像を取得してＲＡＭ４に記憶する（ステップ２５）。
次に、ＣＰＵ２は、外見情報計算処理を行って、式（１）右辺第１項の外見情報による確率を計算してＲＡＭ４に記憶する（ステップ３０）。

ＣＰＵ２は、この外見情報による確率の計算を、例えば、次のようにして行う。
まず、ＣＰＵ２は、ステップ２５でＲＡＭ４に記憶したフレーム画像から歩行者９を人物検出し、その外見情報を取得してＲＡＭ４に記憶する。
そして、ＣＰＵ２は、ステップ１５でＲＡＭ４に記憶した１つ前のフレーム画像から取得した外見情報を読み取り、それを今回記憶した外見情報と比較して、その類似度によって同一人物である確率を計算する。
この計算は、一例であって、外見情報を用いて一般的に行われている他の方法を用いてもよい。

次に、ＣＰＵ２は、歩行状態計算処理を行って、ステップ２５でＲＡＭ４に記憶したフレーム画像による歩行状態を計算してＲＡＭ４に記憶すると共に、式（１）右辺第２項の歩行状態による確率を計算してＲＡＭ４に記憶する（ステップ３５）。
次に、ＣＰＵ２は、ステップ３０で記憶した外見情報による確率とステップ３５で記憶した歩行状態による確率をＲＡＭ４から読み出し、これらを式（１）に代入して、歩行者９が同一人物である確率を計算してＲＡＭ４に記憶する。

そして、ＣＰＵ２は、同一人物である確率が所定の閾値以上である場合は、今回のフレーム画像から検出した人物が、追跡対象の歩行者９であると同定する（ステップ４０）。
同定により、ステップ２５でＲＡＭ４に記憶したフレーム画像での追跡が成功したことになる。

確率が閾値未満であった場合、ＣＰＵ２は、今回の判定はスキップして、次回のフレーム画像で再度判定を試みるとか、検索した人物が複数いる場合は、歩行者９に近接する人物が歩行者９である可能性があるため、これについて判定するとか、あるいは、アラームを発して処理を終了するなど、何らかの処理を行う。

追跡を続行する場合（ステップ４５；Ｙ）、ＣＰＵ２は、ステップ２５に戻って次のフレーム画像について判定を行う。この場合は、前回にステップ３０、３５でＲＡＭ４に記憶した外見情報と歩行状態を用いて判定を行う。
一方、追跡を続行しない場合（ステップ４５；Ｎ）、ＣＰＵ２は、処理を終了する。

図１１は、ステップ３５（図１０）の歩行状態計算処理を説明するためのフローチャートである。
まず、ＣＰＵ２は、矩形領域によって人物検出した歩行者９から骨格情報１５を抽出してＲＡＭ４に記憶する（ステップ６０）。
ＣＰＵ２は、例えば、矩形領域によって切り出した画像におけるＪ０～Ｊ２４の座標値によって骨格情報１５を構成する。

次に、ＣＰＵ２は、ステップ６０でＲＡＭ４に記憶した骨格情報１５をＭＬＰ１６に入力し（ステップ６５）、次いで、ＭＬＰ１６によって計算した歩行状態ｓ１を取得してＲＡＭ４に記憶する（ステップ７０）。
次に、ＣＰＵ２は、前のフレーム画像で取得した歩行状態ｓ２をＲＡＭ４から読み出して取得する（ステップ７５）。

そして、ＣＰＵ２は、ステップ７０で記憶した歩行状態ｓ１（今回のフレーム画像での歩行状態）をＲＡＭ４から読み出して取得し、これとステップ７５で読み出した歩行状態ｓ２（１つ前のフレーム画像での歩行状態）を図８の式（３）に代入して歩行状態による確率を計算し、これをＲＡＭ４に記憶する（ステップ８０）。

［第２実施形態］
第１実施形態では、例えば、ＯｐｅｎＰｏｓｅやＰｏｓｅＮｅｔなどで用いられている骨格検出可能な手法を利用して歩行者９の姿勢を算出した。
しかし、障害物の存在や人とのすれ違いなど、環境によっては歩行者９の一部が隠れによって観測できず、骨格座標が部分的にしか検出できない場合があり、このようなときは歩行状態の推定が困難となる場合がある。

そこで、第２実施形態では、隠れによって骨格情報１５の一部が観測できない学習データを人為的に作成し、これをＭＬＰ１６に入力して隠れを含めた学習を行った。
これにより、隠れによって未検出のジョイントがあっても頑健な歩行状態の推定を実施することができる。

図１２は、隠れを有する学習データを説明するための図である。
本実施形態では、骨格情報１５の一部の領域に含まれるジョイントを未検出に設定することにより、隠れによって未検出となったジョイントを含む学習データ（遮蔽学習データ）を用意した。
例えば、図に示した領域３５を隠すと右頭部が未検出となった骨格情報１５が得られ、領域３６を隠すと左手が未検出となった骨格情報１５が得られ、領域３７を隠すと右足が未検出となった骨格情報１５が得られる。

このように骨格情報１５を部分的に隠すことにより、骨格の先端領域から中心領域に向けて骨格情報が欠如するように、また、隠れ領域の面積が全面積の０～８０％の間となるように隠れ領域を設定した学習データ（遮蔽学習データ）を多数用意した。
骨格の先端から骨格の中心に向けて領域が隠れるようにしたのは、歩行中には手足などの四肢や片半身が隠れる場合が多いためである。

このようにＭＬＰ１６の学習を行う学習データとしては、完全学習データ（ｊ、ｓ）と、遮蔽学習データ（ｃｊ、ｓ）を使用する。
完全学習データ（ｊ、ｓ）は、第１実施形態で説明した学習データと同じで、全ジョイント座標値ｊが揃った骨格情報（完全骨格情報ｊ）と歩行状態ｓ（教師信号）からなる学習データである。
遮蔽学習データ（ｃｊ、ｓ）は、完全学習データの完全骨格情報ｊから、末端側のジョイントから優先的に位置情報を削除（欠如）して作成した遮蔽骨格情報ｃｊと、完全骨格情報ｊに対する歩行状態ｓ（教師信号）からなる学習データである。
遮蔽学習データの遮蔽骨格情報ｃｊは、完全骨格情報ｊから、図１２に示すように、末端側のジョイントを削除することで作成する。

すなわち、顔の中心や胴などの身体の中心線に沿ったジョイントを主要ジョイントとし、この主要ジョイントは必ず保持する。
一方、遮蔽が発生しやすい手やつま先等の骨格の末端側から優先して一定の割合で削除する。
主要ジョイントに直結しているジョイントを１次ジョイントとした場合、この１次ジョイントについては、隠れ領域の全面積（削除するジョイントの割合）が最大８０％以下、好ましくは６０％以下となる数の範囲まで削除する。

ここで、図３のジョイントｊ０～ｊ２４のうち、主要ジョイントは身体の中心線に沿った鼻（ｊ０）、首（ｊ１）、腰部中心（ｊ８）が該当し、この主要ジョイントに直結しているジョイントｊ２、ｊ５、ｊ９、ｊ１２、ｊ１５、ｊ１６が１次ジョイントに該当する。
全ジョイント数が２５で、主要ジョイント数が３なので、６つの１次ジョイントのうち、少なくとも２つ以上のジョイントは削除対象から除外することで、隠れ領域の全面積を８０％以下としている。
このように、主要ジョイントと、それに直結する１次ジョイントの一部を保持することで、歩行状態ｓの推定が可能になる。

本実施形態による学習は、完全学習データと遮蔽学習データにより行うことで、より多くの学習データを使用した学習が可能なり、学習精度を向上させることができる。
なお、上述のように、遮蔽学習データは完全学習データから作成するが、次の何れの方法によることも可能である。
すなわち、第１の方法では、予め全学習データから対応する全ての遮蔽学習データを作成しておき、両学習データを使用してＭＬＰ１６の学習を行う。
一方、第２の方法では、完全学習データにおける個々の学習データを使用してＭＬＰ１６の学習を行う際に、対応する個々の個別学習データを作成しながらＭＬＰ１６の学習を行う。

図１８は、隠れを有する学習データを使用したＭＬＰ１６の隠れ学習処理を表したフローチャートである。
この隠れ学習処理については、上記第２の方法によるＭＰＬ１６の学習方法である。
なお、本実施形態としては、ＭＰＬ１６の学習を、歩行追跡装置１のＣＰＵ２が行う場合について説明する。但し、取得したフレーム画像から歩行者９の歩行状態ｓを推定する場合、歩行追跡装置１は学習済みのＭＰＬ１６を使用することになるので、歩行追跡装置１以外のコンピュータシステムによりＭＰＬ１６の学習を行うことも可能である。

歩行追跡装置１のＣＰＵ２は、予め用意した様々な歩行状態の画像による多数の完全学習データをＲＡＭ４に記憶しておく。ＲＡＭ４に保存する完全学習データは、第１実施形態でも説明したように、完全骨格情報ｊのジョイント座標値ｊ＝［ｘ０、ｙ０、・・・、ｘ２４、ｙ２４］と、教師信号である歩行状態ｓ＝［ｄ１、ｄ２、ｐ１、ｐ２］で構成される。
そして、ＣＰＵ２は、ＲＡＭ４から１つの完全学習データ（ｊ、ｓ）を取得する（ステップ２００）。

次にＣＰＵ２は、遮蔽学習データ（ｃｊ、ｓ）を作成する（ステップ２１０）。
すなわち、ＣＰＵ２は、取得した完全学習データ（ｊ、ｓ）の完全骨格情報ｊのジョイント座標値ｊ＝［ｘ０、ｙ０、・・・、ｘ２４、ｙ２４］から、図１２で説明したように、骨格の末端側の座標値を一定の割合で削除することで、遮蔽骨格情報ｃｊを作成する。
なお、遮蔽骨格情報ｃｊにおいて、削除したジョイントの座標値は（ｘｎ、ｙｎ）は存在しない。このため、ＭＬＰ１６の層入力（図７参照）における５０個のノードのうち、削除した１ジョイント当たり対応する２か所のノードの入力はされない。
そしてＣＰＵ２は、作成した遮蔽骨格情報ｃｊと、完全学習データの歩行情報ｓとから写生学習データ（ｃｊ、ｓ）を作成しＲＡＭ４に記憶する。
ＣＰＵ２は、１の完全学習データ（ｊ、ｓ）に対して作成する遮蔽学習データ（ｃｊ、ｓ）は１つではなく、異なる割合いでジョイントを削除した複数の遮蔽データ（ｃｊ１、ｓ）、（ｃｊ２、ｓ）、…、を作成する。

削除するジョイントの一例として、骨格情報１５のうち、右手、左手、右足、左足の少なくとも1つの先端側から身体の中心線に沿った主要ジョイントに向けて任意の範囲の骨格情報（ジョイントの値）を欠如させた遮蔽学習データ（ｃｊ、ｓ）を複数作成する。
この遮蔽学習データ（ｃｊ、ｓ）のパターンとしては、手足の4つの組み合わせのパターン（１３通り）×それぞれの欠如範囲を変えたパターン（任意通り）の組み合わせが可能である。
この場合にも、上述したように、主要ジョイントである、鼻（ｊ０）、首（ｊ１）、腰部中心（ｊ８）と、この主要ジョイントに直結している１次ジョイントｊ２、ｊ５、ｊ９、ｊ１２、ｊ１５、ｊ１６のうちの少なくとも２つの１次ジョイントとを残すことで、隠れ領域の全面積８０％以下の条件を満たす必要がある。

次にＣＰＵ２は、完全学習データと遮蔽学習データで歩行状態の学習を行う（ステップ２２０）。
すなわち、ＣＰＵ２は、取得した完全学習データ（ｊ、ｓ）と、作成した複数の遮蔽学習データ（ｃｊ、ｓ）を使用し、ＭＬＰ１６に対する学習を行う。

次にＣＰＵ２は、未学習である他の完全学習データがＲＡＭ４に存在するか否かを判断し（ステップ２３０）、存在する場合には（ステップ２３０；Ｙ）、ステップ２００に戻って、次の完全学習データに対する処理を行う。
一方、ＣＰＵ２は、他の完全学習データが存在しなければ（ステップ２３０；Ｎ）、隠れ学習処理を終了する。

本実施形態では、全身の骨格情報１５（完全学習データ）に加えて、このようなランダムな位置に隠れ（未検出ジョイント）を発生させた骨格情報１５の学習データ（遮蔽学習データ）をＭＬＰ１６に学習させた。
このように骨格の先端領域から中心領域に向けて骨格情報が欠如するように、全身の骨格情報の少なくとも一部の領域から構成された学習データを用いて学習したＭＬＰ１６を用いて実験したところ、全身の骨格情報１５がある場合に加えて、隠れがある場合でも歩行状態を高い精度で予測することができた。
実験結果は、第３実施形態において、第１～第３実施形態での実験結果を比較する形で説明する。

［第３実施形態］
本実施形態では、骨格情報１５を上半身・下半身などの部分領域に分割して、それぞれの部分領域を個別に学習したＭＬＰ１６を用意し、これらによる結果を統合して歩行状態を推定する。

図１３は、部分領域を説明するための図である。
本実施形態では、図の破線で示したように、骨格情報１５を、全身（Ｒ０）、右半身（Ｒ１）、左半身（Ｒ２）、上半身（Ｒ３）、下半身（Ｒ４）の５領域に分類し、領域Ｒ０～領域Ｒ４の各領域について隠れありの学習を行った。以下、領域Ｒ１の骨格情報１５を骨格情報（Ｒ１）などと記すことにする。
なお、この領域分割例は一例であって、更に多数の領域、あるいは少数の領域に分割してもよい。

図１４は、本実施形態に係るＭＬＰ１６の全体構成を説明するための図である。
本実施形態ではＭＬＰを６個用いるが、これらをＭＬＰ（Ｒ０）、ＭＬＰ（Ｒ１）、ＭＬＰ（Ｒ２）、ＭＬＰ（Ｒ３）、ＭＬＰ（Ｒ４）、ＭＬＰ（重み）とする。
第２実施形態では、全身の骨格情報１５や、ジョイントの一部が欠如し、未検出となった骨格情報１５を多数用いてＭＬＰ１６を学習させたが、本実施形態でも同じく、全身や隠れのある骨格情報１５を用いて学習を行った。

ＭＬＰ（Ｒ０）は、骨格情報（Ｒ０）を用いて学習しており、骨格情報１５を入力すると、領域Ｒ０に含まれるジョイントの座標値を用いて歩行状態を出力する。
同様に、ＭＬＰ（Ｒ１）～ＭＬＰ（Ｒ４）は、それぞれ骨格情報（Ｒ１）～骨格情報（Ｒ４）を用いて学習しており、骨格情報１５を入力すると、それぞれ、領域Ｒ１～Ｒ４に含まれるジョイントの座標値を用いて領域別歩行状態を出力する。
このように、本実施形態では、隠れを含めた骨格情報１５で領域ごとに歩行状態推定の学習を行った複数のＭＬＰを並列に配置して使用する。

このように、領域ごとに学習したＭＬＰを用いると、隠れの発生した骨格情報１５に対して、隠れの発生していない領域での推定が得意なＭＬＰが存在するため、隠れに対する頑健性が向上する。
例えば、主に右半身のジョイントが検出された骨格情報１５に関しては、右半身用のＭＬＰ（Ｒ１）での推定値の精度が高く、左半身用のＭＬＰ（Ｒ２）での推定値は、精度が高くないと予想される。また、下半身用の領域Ｒ４など、他の領域での推定値も、ＭＬＰ（Ｒ１）ほどではないものの、ＭＬＰ（Ｒ２）よりは、ある程度確かであると思われる。

この場合、ＭＬＰ（Ｒ１）による歩行状態の重み付けを最も大きく、ＭＬＰ（Ｒ２）による歩行状態の重み付けを最も小さく、他のＭＬＰによる歩行状態を、その間で適度に重み付けし、これらを合算すると、最も確からしい歩行状態を求めることができる。
ＭＬＰ（重み）は、骨格情報１５の隠れのパターンに対して、このようなＭＬＰ（Ｒ０）～ＭＬＰ（Ｒ４）による領域別歩行状態の適切な重み付けを学習している。

隠れのパターンは、検出フラグによって与えられる。検出フラグは、各ジョイントに対して、例えば、検出したものを１で表し、未検出のものを０で表したフラグ情報である。
主に右半身のジョイントが検出された骨格情報１５に関しては、その領域あたりのフラグが主に１になるなど、ジョイントの検出／未検出のパターンを検出フラグで表すことができる。

ＭＬＰ（重み）の学習は、骨格情報１５によってＭＬＰ（Ｒ０）～ＭＬＰ（Ｒ４）が出力した各領域別歩行状態と、骨格情報１５から取得した検出フラグをＭＬＰ（重み）に入力し、これによってＭＬＰ（重み）が出力した歩行状態と正解の歩行状態の誤差が小さくなるようにＭＬＰ（重み）の各パラメータを調節することにより行った。

このように調節されたＭＬＰ（重み）は、検出フラグの各パターンに従って、ＭＬＰ（Ｒ０）～ＭＬＰ（Ｒ４）が出力した領域別歩行状態を、検出フラグに基づいて動的に重み付けして合成し（例えば、単純に加算して）、最終的な推定結果となる歩行状態を出力する。
上述したように、ニューラルネットワーク（ＭＬＰ（Ｒ０）～ＭＬＰ（Ｒ４）、ＭＬＰ（重み））は、骨格の領域ごとに学習した複数の領域ネットワーク（ＭＬＰ（Ｒ０）～ＭＬＰ（Ｒ４））と、当該領域ネットワークのそれぞれの出力を、骨格情報の欠如に応じて重み付けする重み付けネットワーク（ＭＬＰ（重み））と、によって歩行状態を出力している。

図１５は、本実施形態における歩行状態計算処理を説明するためのフローチャートである。
図１１と同じステップには同じ番号を付して説明を簡略化する。
まず、ＣＰＵ２は、矩形領域によって検出した歩行者９から骨格情報１５を抽出してＲＡＭ４に記憶する（ステップ６０）。
次に、ＣＰＵ２は、当該記憶した骨格情報１５で、ジョイントの検出／未検出を調べてて検出フラグを生成し、これをＲＡＭ４に記憶する（ステップ１０５）。

次に、ＣＰＵ２は、ステップ６０で記憶した骨格情報１５を分割して骨格情報（Ｒ０）～骨格情報（Ｒ４）を生成し、これらをＲＡＭ４に記憶する（ステップ１１０）。
次に、ＣＰＵ２は、ステップ１１０でＲＡＭ４に記憶した領域別の骨格情報を、それぞれ対応する領域別のＭＬＰ（Ｒ０）～ＭＬＰ（Ｒ４）に入力する（ステップ１１５）。
次に、ＣＰＵ２は、ＭＬＰ（Ｒ０）～ＭＬＰ（Ｒ４）が出力した領域別歩行状態を取得してＲＡＭ４に記憶する（ステップ１２０）。

次に、ＣＰＵ２は、ステップ１２０でＲＡＭ４に記憶した領域別歩行状態と、ステップ１０５でＲＡＭ４に記憶した検出フラグをＭＬＰ（重み）に入力する（ステップ１２５）。
そしてＣＰＵ２は、ＭＬＰ（重み）によって計算した歩行状態ｓ１を取得してＲＡＭ４に記憶する（ステップ７０）。

次に、ＣＰＵ２は、前のフレーム画像で取得した歩行状態ｓ２をＲＡＭ４から読み出して取得する（ステップ７５）。
そして、ＣＰＵ２は、ステップ７０で記憶した歩行状態ｓ１とステップ７５で読み出した歩行状態ｓ２を用いて歩行状態による確率を計算し、これをＲＡＭ４に記憶する（ステップ８０）。
以上のように、第３実施形態では、各領域の学習モデルにより歩行状態を推定し、各ジョイントの検出／未検出により、動的に各領域の推定結果に重み付けを付与して歩行状態を算出することができる。

図１６は、第１実施形態、第２実施形態、及び第３実施形態による学習モデルの精度を比較した実験結果を説明するための図である。
第１実施形態、第２実施形態、第３実施形態で行った処理形態を、それぞれ、隠れ未学習モデル、隠れ学習モデル、領域分割モデルと呼ぶことにする。
実験では、テストデータの未検出ジョイントの割合ｒを変化させることにより、隠れに対する頑健性を評価した。

各モデルの評価は、図１６（ａ）のグラフのようになった。
縦軸はＲＭＳＥを表し、横軸は未検出ジョイントの割合ｒを示している。ジョイントの未検出（隠れ）割合は、最大８０％とし、２０％間隔で測定を行った。ＲＭＳＥが小さいほど精度が高いことを示している。具体的な数値は、図１６（ｂ）の表に示した通りである。

グラフ中の実線４１、４２、４３は、それぞれ、隠れ未学習モデル、隠れ学習モデル、領域分割モデルを表している。
グラフから分かるように、隠れがない場合（ｒ＝０）は、どのモデルも高い精度を示しており、隠れ未学習モデルが他のモデルよりも若干よい精度を示している。
しかし、隠れ未学習モデルは、隠れが生じた場合（０＜ｒ≦０．８）、精度が大幅に低下し、ｒ＝０．８では、ＲＭＳＥが１．０近くまで達している。

一方、隠れ学習モデルと領域分割モデルは、隠れが生じた場合でも精度の低下が軽減されており、隠れを含む学習の効果が現れている。
特に、ｒ＝０．８においては、領域分割モデルは、隠れ学習モデルよりも１０％近く高い精度を示した。

表に示したように、０≦ｒ≦０．８で総合的に評価した場合、領域分割モデル（ＲＭＳＥ＝０．３１６）、隠れ学習モデル（ＲＭＳＥ＝０．３５３）、隠れ未学習モデル（ＲＭＳＥ＝０．７９４）の順で評価が高かった。
このように、隠れ学習モデルと領域分割モデルは、隠れに対して頑健な状態推定を行うことができ、領域分割モデルは特に効果が高いことがわかった。

［第４実施形態］
本実施形態では、複数のカメラの映像に写った歩行者９をカメラ間で対応づけて追跡する場合について説明する。
この例では、例えば、イベント会場などに設置した複数台のカメラ８、８、・・・の動画データを通信ネットワーク１１経由で歩行追跡装置１に送信する。
このように、歩行追跡装置１の有する動画取得手段は、複数のカメラで撮影した被写体の複数の動画を取得する。
そして、これらカメラ８、８、・・・の映像の重なったエリアにおいて、複数のカメラによる同一時刻のフレーム画像で歩行者９を同定する。
これにより、複数のカメラ映像を連携させて歩行者９を追跡することができる。

あるいは、カメラ８をステレオカメラとして自律走行ロボットに搭載することもできる。
この場合、ロボットは、右フレーム画像と左フレーム画像で歩行者９を対応させて歩行者９を立体視しながら、これによって得られる３次元情報を用いて歩行者９を追跡する。

このように複数台のカメラ８、８、・・・を用いる場合、カメラの取付位置などの影響によって歩行者９の見え方が各映像で異なる。外見情報は、これによる影響を受けやすいため、歩行状態を付加情報として用いることは、誤った対応付けを抑止するために特に有効である。

また、一般の複数カメラによる追跡では、歩行者の座標値を歩行者の特定に用いるため、各カメラの相対位置や姿勢を正確に設定するキャリブレーションが必要であるが、歩行追跡装置１は、歩行者９に固有の歩行状態を手がかりとして同定を行うため、正確なキャリブレーションは必ずしも必要ない。
そのため、固定カメラの設置が容易であるほか、複数のドローンに搭載したカメラを配置、移動させながら歩行者９を追跡することも可能である。

本実施形態では、２台のカメラ８ａ、８ｂで、それぞれ同時刻に撮影したフレーム画像ａでの歩行者９と、フレーム画像ｂでの歩行者９を対応づける場合について説明する。
ここで、カメラ８ａとカメラ８ｂは、異なる位置から歩行者９を撮影するため、カメラ８ａ、８ｂから見た歩行方向の角度θが異なる。そのため、例えば、カメラ８ｂによるＤ平面の座標軸がカメラ８ａによる座標軸に対してΔθの角度を成すとき、カメラ８ｂによる歩行方向からΔθを減算して歩行状態を補正するなどして、両カメラ８の歩行方向を揃えて比較する。
なお、歩行段階の位相角φは、両カメラ８に共通である。また、歩行状態を歩行段階から成る２次元ベクトルで定義し、θによらない歩行状態を定義することもできる。

図１７は、歩行状態による対応付け手順を説明するためのフローチャートである。
図１１と同じステップには、ａ、ｂを付して処理対象となるフレーム画像のａ、ｂを区別しながら説明を簡略化する。
まず、ＣＰＵ２は、フレーム画像ａから骨格情報１５を抽出して（ステップ６０ａ）、ＭＬＰ１６に入力し（ステップ６５ａ）、ＭＬＰ１６が出力した歩行状態ｓ１を取得してＲＡＭ４に記憶する（ステップ７０ａ）。

次に、ＣＰＵ２は、フレーム画像ｂから骨格情報１５を抽出して（ステップ６０ｂ）、ＭＬＰ１６に入力し（ステップ６５ｂ）、ＭＬＰ１６が出力した歩行状態ｓ２を取得してＲＡＭ４に記憶する（ステップ７０ｂ）。

次に、ＣＰＵ２は、ステップ７０ａでＲＡＭ４に記憶した歩行状態ｓ１と、ステップ７０ｂでＲＡＭ４に記憶した歩行状態ｓ２を用いて式（３）（図８の式（３））による歩行状態による確率を計算し、これをＲＡＭ４に出力する（ステップ８０）。

また、ＣＰＵ２は、外見情報についても、フレーム画像ａ、ｂについて外見情報による確率を計算し、式（１）に従って、同一人物である確率を計算する。カメラのキャリブレーションが行われている場合は、外見情報と歩行状態に加えて、歩行者９の座標値を用いて同定することもできる。
このように、歩行追跡装置１が有する同定手段は、複数の動画のフレーム画像間で被写体を対応させることにより被写体を同定している。

以上、異なるカメラ８の映像間で歩行者９を同定する場合について説明したが、本実施形態に、第１実施形態～第３実施形態の技術を組み合わせることも可能である。
この場合、カメラ８ａによる時間的に隣接するフレーム画像ａ１、ａ２で歩行者９を同定し、カメラ８ｂによる時間的に隣接するフレーム画像ｂ１、ｂ２で歩行者９を同定すると共に、更に、同一時刻のフレーム画像ａ１、ｂ１間（あるいは、フレーム画像ａ２、ｂ２間、撮影時刻が近ければフレーム画像ａ１、ｂ２などの組み合わせも可能）で歩行者９を同定して対応づける。
ここで、２台のカメラ８ａ、８ｂで歩行者９を同定する場合について説明したが、３台以上のカメラ８で撮影する場合も同様にして歩行者９の同定を行うことができる。

以上、各実施形態について説明したが、これらは、歩行を検出するという要素技術であるため、様々な技術的、及びビジネス的な展開が考えられる。
歩行追跡装置１を自律走行ロボットに搭載する場合、例えば、ホテルで顧客を追尾しながら顧客の荷物を運んだり、イベント会場の入り口で入場者を追跡して検温したり、あるいは、工場で資材を積載した状態で担当者の後についていったり、といった用途に用いることができる。

監視カメラ映像を用いる場合、例えば、店内のカメラと商店街に設置したカメラを連携させて、店に忘れ物をした顧客を追跡して担当者が忘れ物を届けたり、迷子の子供を追跡して保護したりなど、色々な用途に用いることができる。
また、歩行追跡装置１は、未来に向かって歩行者９を追跡するほか、撮影した動画を逆に辿ることにより（即ち、動画を逆に再生して）、歩行者９が歩行してきた経路を過去に向かって追跡することもできる。
これにより、ある店で商品を購入した顧客の歩行経路を過去に向かって追跡し、どのような動線を経て当該店にやってきたかを調べる、といったマーケティング分析に用いることもできる。

更に、歩行は歩行者の健康状態を反映するため、医療分野への展開が考えられる。
例えば、リハビリで歩行訓練している患者の歩行を撮影して歩行状態の時間的推移を計測し、歩行方向や歩行周期のばらつきなどを統計学的手法を用いて解析して訓練の進捗状況を把握する、といった歩行診断装置としての利用方法が考えられる。

この場合、歩行追跡装置１は、記憶部１０に記憶した歩行状態の時間的変化を統計的な処理を施すなどして表示部５で提示する。
このように、歩行追跡装置１は、ニューラルネットワークが出力した歩行状態の時間変化を提示する提示手段を備えている。

また、健康診断の際に高齢者に歩行してもらって歩行状態を保存しておき、その経年変化を観察することにより、老化の進行具合を観察したり、病気の早期発見を行ったりすることも考えられる。
更に、スマートフォンなどを用いて患者に自宅で歩行するところを動画撮影してもらい、これを病院に設置した歩行追跡装置１に送信して、病院で歩行状態を解析するといったような、遠隔診断も可能である。

また、発明者の実験によると、歩行追跡装置１は、歩行状態を継続的に観察するため、歩行の異常を検知する能力に優れている。
そこで、歩行追跡装置１は、異常歩行検出装置として用いることが可能である。
例えば、ホテルのロビーで異常歩行を検出した場合、顧客が重い荷物を運んでいる場合や気分が悪くなった場合などが考えられ、これを異常歩行検出装置で検出して早期の支援を行うことができる。
あるいは、重い荷物を運んでいる顧客の歩行状態を学習させておき、事務所に設置した異常歩行検出装置でこれを検出した場合は、歩行追跡装置１を搭載した自律走行ロボットが顧客の場所に急行して荷物を受け取り、顧客の歩行を追跡しながら顧客の荷物を搬送する、といった運用も考えられる。

更に、歩行追跡装置１は、歩行状態を付加情報として用いるため、同じ外見をした集団で歩行者９を追跡する場合に特に効果を発揮する。
これは、例えば、同じ制服を着用した高校生などの集団が団体旅行している場合に適用できる。
また、同じ外見の集団が同一の歩行状態である場合は行進を行っている、とか、人々の歩行状態が一斉に変化して一方向に急激に移動を始めた場合は、何らかの緊急の事象が起こって人々が避難行動を始めた、などと歩行が行われているシーンを推論することも可能である。

更に、骨格情報によって姿勢を把握できればよいので、歩行追跡装置１を動物に適用することも可能である。特に、群れで暮らす動物は外見が同じため、歩行追跡装置１の歩行状態による追跡が効果的である。
例えば、近年、農業分野や牧畜分野のＩＴ化が急速に進んでおり、牧羊の数理解析モデルの研究に基づく牧羊ロボットの開発が行われている。

羊は外見が同じなので、外見で羊の個体を識別するのは困難であるが、歩行状態はばらばらであるので歩行追跡装置１で認識・追跡することができる。
これにより、例えば、複数の羊オーナーから集めた羊の群れを牧畜しているところを複数のドローンで撮影し、オーナーごとに個別の羊を追跡して動画配信したり、あるいは、各羊を追跡しながら画像解析することにより食べた牧草の量を羊ごとに推定し、その代金をオーナーに課金する、といった新たなビジネスを生む可能性を秘めている。

また、原理的には節足動物に対しても適用可能であり、蟻のような集団で行動する昆虫や蟹のような甲殻類に適用して、学術的な研究に利用することも考えられる。
これらは一例であって、歩行状態を用いた観察対象の同定は要素的な技術であるため、裾野の広い応用分野を有している。

なお、以上に説明した第１実施形態～第４実施形態により、歩行追跡装置、歩行追跡プログラムを次の様に構成することも可能である。
（１）構成１では、歩行している被写体を撮影した動画を取得する動画取得手段と、前記被写体の周期的な歩行動作に基づく歩行状態を用いて、前記取得した動画を構成するフレーム画像間での前記被写体を同定する同定手段と、前記取得した動画で前記同定した被写体を追跡する追跡手段と、を具備したことを特徴とする歩行追跡装置を提供する。
（２）構成２では、前記同定手段が、前記歩行動作に加えて、前記被写体の歩行する方向を前記歩行状態に含めて前記同定を行うことを特徴とする構成１に記載の歩行追跡装置を提供する。
（３）構成３では、前記同定手段が、前記歩行動作の連続性に基づく歩行状態を用いることを特徴とする構成１、又は構成２に記載の歩行追跡装置を提供する。
（４）構成４では、前記被写体の外見情報を取得する外見情報取得手段を具備し、前記同定手段は、前記歩行状態と、前記取得した外見情報と、を用いて前記被写体を同定することを特徴とする構成１、構成２、又は構成３に記載の歩行追跡装置を提供する。
（５）構成５では、前記被写体の骨格情報を取得する骨格情報取得手段と、各種の歩行状態を骨格情報によって学習したニューラルネットワークと、を具備し、前記同定手段は、前記取得した骨格情報を前記ニューラルネットワークに入力して、当該ニューラルネットワークが出力する歩行状態を取得する、ことを特徴とする構成１から構成４までのうちの何れか１の構成に記載の歩行追跡装置を提供する。
（６）構成６では、前記ニューラルネットワークが、全身の骨格情報の少なくとも一部の領域から構成された学習データを用いて学習した、ことを特徴とする構成５に記載の歩行追跡装置を提供する。
（７）構成７では、前記ニューラルネットワークが、骨格の先端領域から中心領域に向けて骨格情報が欠如するように構成された学習データで学習した、ことを特徴とする構成６に記載の歩行追跡装置を提供する。
（８）構成８では、前記ニューラルネットワークが、骨格の領域ごとに学習した複数の領域ネットワークと、当該領域ネットワークのそれぞれの出力を、骨格情報の欠如に応じて重み付けする重み付けネットワークと、によって前記歩行状態を出力する、ことを特徴とする構成６、又は構成７に記載の歩行追跡装置を提供する。
（９）構成９では、前記動画取得手段が、複数の前記カメラで撮影した前記被写体の複数の動画を取得し、前記同定手段は、前記取得した複数の動画のフレーム画像間で前記被写体を対応させることにより前記被写体を同定する、ことを特徴とする構成１から構成８までのうちの何れか１の構成に記載の歩行追跡装置を提供する。
（１０）構成１０では、前記ニューラルネットワークが出力した歩行状態の時間変化を提示する提示手段を具備したことを特徴とする構成５から構成９までのうちの何れか１の構成に記載の歩行追跡装置を提供する。
（１１）構成１１では、歩行している被写体を撮影した動画を取得する動画取得機能と、前記被写体の周期的な歩行動作に基づく歩行状態を用いて、前記取得した動画を構成するフレーム画像間での前記被写体を同定する同定機能と、前記取得した動画で前記同定した被写体を追跡する追跡機能と、をコンピュータで実現する歩行追跡プログラムを提供する。

以上の各構成によれば、歩行状態を用いて対象を同定することにより、歩行者追跡の頑健性を高めることができる。

１歩行追跡装置
２ＣＰＵ
３ＲＯＭ
４ＲＡＭ
５表示部
６入力部
７通信制御部
８カメラ
９歩行者
１０記憶部
１１通信ネットワーク
１５骨格情報
１６ＭＬＰ
１７歩行状態空間
３１、３２、４１、４２、４３実線
３５、３６、３７領域

Claims

歩行している被写体を撮影した動画のフレーム画像から取得した前記被写体の骨格情報を入力し、当該被写体の歩行状態を出力するニューラルネットワークの学習装置であって、
前記被写体に骨格情報として設定されている複数のジョイントの位置情報が全て揃った完全骨格情報ｊと、当該完全骨格情報ｊによる歩行状態ｓとからなる複数の完全学習データ（ｊ、ｓ）を取得する完全学習データ取得手段と、
前記取得した各完全学習データに対して、その完全骨格情報ｊから前記被写体の中心線に沿って設定された主要ジョイントを除くジョイントの位置情報を削除した遮蔽骨格情報ｃｊと歩行状態ｓとからなる複数の遮蔽学習データ（ｃｊ、ｓ）を作成する遮蔽学習データ作成手段と、
前記取得した複数の完全学習データ（ｊ、ｓ）と前記作成した複数の遮蔽学習データ（ｃｊ、ｓ）を使用して前記ニューラルネットワークの学習を行う学習手段と、
を具備することを特徴とする学習装置。
前記歩行状態ｓは、前記被写体の周期的な歩行動作における歩行段階と、前記被写体の歩行する方向を構成要素としている、
ことを特徴とする請求項１に記載の学習装置。
前記遮蔽学習データ作成手段は、鼻、首、及び、腰部中心に設定されたジョイントを前記主要ジョイントとして削除対象から除外する、
ことを特徴とする請求項１、又は請求項２に記載の学習装置。
前記遮蔽学習データ作成手段は、前記被写体の右手、左手、右足、左足に対応する少なくとも1つの先端側から前記主要ジョイントに向けて繋がるジョイントを削除対象とする、ことを特徴とする請求項１、請求項２、又は請求項３に記載の学習装置。
前記遮蔽学習データ作成手段は、前記被写体に対して設定された全てのジョイントの８０％以下のジョイントを削除対象とする、
ことを特徴とする請求項１～請求項４のうちの１の請求項に記載の学習装置。
前記遮蔽学習データ作成手段は、前記主要ジョイントに加え、前記主要ジョイントに直結している１次ジョイントの少なくとも２以上を残して削除する、
ことを特徴とする請求項１～請求項４のうちの１の請求項に記載の学習装置。
前記遮蔽学習データ作成手段は、全ての完全学習データに対する遮蔽学習データを予め作成し、
前記学習手段は、完全学習データと予め作成した遮蔽学習データを使用して学習を行う、
ことを特徴とする請求項１から請求項６のうちのいずれか１の請求項に記載の学習装置。
前記遮蔽学習データ作成手段は、１の完全学習データに対する複数の遮蔽学習データを作成し、当該１の完全学習データと作成した複数の遮蔽学習データによる学習の後に、次の完全学習データに対する遮蔽学習データを作成する、
ことを特徴とする請求項１から請求項６のうちのいずれか１の請求項に記載の学習装置。
歩行している被写体を撮影した動画のフレーム画像から取得した前記被写体の骨格情報を入力し、当該被写体の歩行状態を出力するニューラルネットワークにおける学習データの作成方法であって、
前記被写体に骨格情報として設定されている複数のジョイントの位置情報が全て揃った完全骨格情報ｊと、当該完全骨格情報ｊによる歩行状態ｓとからなる複数の完全学習データ（ｊ、ｓ）を取得する完全学習データ取得ステップと、
前記取得した各完全学習データに対して、その完全骨格情報ｊから前記被写体の中心線に沿って設定された主要ジョイントを除くジョイントの位置情報を削除した遮蔽骨格情報ｃｊと歩行状態ｓとからなる複数の遮蔽学習データ（ｃｊ、ｓ）を作成する遮蔽学習データ作成ステップと、
を具備することを特徴とする学習データの作成方法。
歩行している被写体を撮影した動画のフレーム画像から取得した前記被写体の骨格情報を入力し、当該被写体の歩行状態を出力するニューラルネットワークの学習方法であって、
前記被写体に骨格情報として設定されている複数のジョイントの位置情報が全て揃った完全骨格情報ｊと、当該完全骨格情報ｊによる歩行状態ｓとからなる複数の完全学習データ（ｊ、ｓ）を取得する完全学習データ取得ステップと、
前記取得した各完全学習データに対して、その完全骨格情報ｊから前記被写体の中心線に沿って設定された主要ジョイントを除くジョイントの位置情報を削除した遮蔽骨格情報ｃｊと歩行状態ｓとからなる複数の遮蔽学習データ（ｃｊ、ｓ）を作成する遮蔽学習データ作成ステップと、
前記取得した複数の完全学習データ（ｊ、ｓ）と前記作成した複数の遮蔽学習データ（ｃｊ、ｓ）を使用して前記ニューラルネットワークの学習を行う学習ステップと、
を具備することを特徴とする学習方法。
歩行している被写体を撮影した動画のフレーム画像から取得した前記被写体の骨格情報を入力し、当該被写体の歩行状態を出力するニューラルネットワークの学習プログラムであって、
前記被写体に骨格情報として設定されている複数のジョイントの位置情報が全て揃った完全骨格情報ｊと、当該完全骨格情報ｊによる歩行状態ｓとからなる複数の完全学習データ（ｊ、ｓ）を取得する完全学習データ取得機能と、
前記取得した各完全学習データに対して、その完全骨格情報ｊから前記被写体の中心線に沿って設定された主要ジョイントを除くジョイントの位置情報を削除した遮蔽骨格情報ｃｊと歩行状態ｓとからなる複数の遮蔽学習データ（ｃｊ、ｓ）を作成する遮蔽学習データ作成機能と、
前記取得した複数の完全学習データ（ｊ、ｓ）と前記作成した複数の遮蔽学習データ（ｃｊ、ｓ）を使用して前記ニューラルネットワークの学習を行う学習機能と、
をコンピュータに実現させることを特徴とする学習プログラム。