JP7794014B2

JP7794014B2 - 設定プログラム、設定方法および設定装置

Info

Publication number: JP7794014B2
Application number: JP2022023946A
Authority: JP
Inventors: 翔岩▲崎▼; 大輔内田; 源太鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2026-01-06
Anticipated expiration: 2042-02-18
Also published as: EP4231251A1; JP2023120848A; US20230267744A1; US12051246B2

Description

本発明は、設定プログラム等に関する。

近年、店舗において、顧客による、商品棚（棚）からの商品の出し入れを認識する技術が着目されている。かかる技術を用いることで、無人レジを導入できたり、万引き検知等を行ったりすることができる。商品の出し入れを認識する技術には、カメラと画像認識技術とを利用する方式、各商品にＲＦＩＤ（Radio Frequency Identification）を付与する方式、棚毎に重量センサを設置する方式等がある。

各商品にＲＦＩＤを付与する方式、棚毎に重量センサを設置する方式と比較して、カメラと画像認識技術とを利用する方式では、導入が容易であるという利点がある。また、カメラと画像認識技術とを利用する方式では、既存の監視カメラを用いることで、追加コストを抑えることができ、需要が高い。

ここで、カメラと画像認識技術とを用いて、商品の出し入れを認識する従来技術の一例について説明する。図１４は、従来技術を説明するための図である。従来技術は、棚５の上部に設置されたカメラ６を用いる。左側の棚５は、棚５を前方から示したものであり、右側の棚５は、棚５を上方から示したものである。従来技術は、事前に棚５に検出ライン５ａを設定しておく。

従来技術では、カメラ６の映像を解析して人物の手を検出し、人物の手が検出ライン５ａを通過する際に、手の周辺領域の画像を用いて、商品の出し入れを認識する。

特開２０２１－１０７９８９号公報

しかしながら、上述した従来技術では、商品の出し入れを誤検出するという問題がある。

たとえば、監視カメラを使用する場合、カメラと棚との位置関係が、カメラと棚との組み合わせ毎に異なるため、従来技術のように、一律に事前定義した検出ラインを用いることが難しい。

特に、撮影条件によっては、同じ棚であっても人物の位置によって適した検出ラインが異なる。図１５は、適した検出ラインの一例を示す図である。たとえば、人物Ｃ１の位置に対する適した検出ラインは、棚７の検出ライン７ａとなる。人物Ｃ２の位置に対する適した検出ラインは、棚７の検出ライン７ｂとなる。人物は棚７の前を移動するため、従来技術のように、事前に設定した検出ラインを用いると、商品の出し入れの誤検出が発生する。

１つの側面では、本発明は、商品の出し入れを検出することができる設定プログラム、検出プログラム、設定方法および設定装置を提供することを目的とする。

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、商品が収容される収容部を有する店内に設定されたカメラの映像を取得する。コンピュータは、取得したカメラの映像を機械学習モデルに入力することで、映像の構成要素毎のカメラからの距離を示す深度を特定する。コンピュータは、特定した映像の構成要素毎のカメラからの距離を示す深度から構成される３次元の店内のモデルを生成する。コンピュータは、カメラの映像から、店内を移動する人物の骨格情報を生成する。コンピュータは、生成された骨格情報の遷移に基づいて、生成された３次元の店内のモデルの中に、店内の通路の範囲および方向を設定する。コンピュータは、店内の通路の範囲および方向に基づいて、人物が商品に手を伸ばしたことを検出するための検出ラインを収容部に設定する。

商品の出し入れを検出できる。

図１は、本実施例に係るシステムを示す図である。図２は、本実施例に係る情報処理装置の処理を説明するための図（１）である。図３は、本実施例に係る情報処理装置の処理を説明するための図（２）である。図４は、本実施例に係る情報処理装置の処理を補足するための図である。図５は、従来技術が誤検出する一例を説明するための図である。図６は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図７は、移動軌跡テーブルのデータ構造の一例を示す図である。図８は、骨格情報の例を示す図である。図９は、商品を取り出す行動を検知する処理を説明するための図である。図１０は、判定部のその他の処理を説明するための図である。図１１は、情報処理装置が実行する事前設定処理を示すフローチャートである。図１２は、情報処理装置が実行する検出処理を示すフローチャートである。図１３は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１４は、従来技術を説明するための図である。図１５は、適した検出ラインの一例を示す図である。

以下に、本願の開示する設定プログラム、検出プログラム、設定方法および設定装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例に係るシステムを示す図である。図１に示すように、このシステムは、カメラ１０ａ，１０ｂ，１０ｃと、情報処理装置１００とを有する。情報処理装置１００は設定装置、検出装置の一例である。カメラ１０ａ～１０ｃと、情報処理装置１００とは、ネットワーク１５を介して相互に接続される。

カメラ１０ａ～１０ｃは、商品が収容される棚等の収容部を有する店内に設置されたカメラである。カメラ１０ａ～１０ｃは、店内に設置された棚を含む映像を撮影し、撮影した映像の情報を、情報処理装置１００に送信する。以下の説明では、映像の情報を「映像情報」と表記する。映像情報には、時系列の画像（静止画像）が含まれる。カメラ１０ａ～１０ｃをまとめて「カメラ１０」と表記する。

情報処理装置１００は、カメラ１０から受信する映像情報を基にして、棚に収容された商品の出し入れを検出するための検出ラインを設定する。また、情報処理装置１００は、設定した検出ラインを用いて、ユーザによる商品の出し入れを検出する。

図２、図３は、本実施例に係る情報処理装置の処理を説明するための図である。まず、図２について説明する。情報処理装置１００は、カメラ１０から受信した映像情報Ｉｍ１を、単眼デプス推定を実行する訓練済みの学習モデルに入力することで、深度画像Ｉｍ２を生成する。深度画像Ｉｍ２は、複数の画素を有し、各画素には、距離情報が設定される。深度画像Ｉｍ２の各画素は、映像情報（画像）Ｉｍ１の同一座標の各画素に対応する。深度画像Ｉｍ２の各画素に設定される距離情報は、映像情報Ｉｍ１の画素に対応する店内の領域と、カメラ１０との距離を示す。

情報処理装置１００が、深度画像Ｉｍ２を生成する場合、映像情報Ｉｍ１には、ユーザが含まれていないものとする。すなわち、情報処理装置１００は、ユーザが含まれていない時間帯に、カメラ１０に撮影された映像情報Ｉｍ１を用いて、深度画像Ｉｍ２を生成する。

情報処理装置１００は、映像情報Ｉｍ１を基にして、店内を移動するユーザの骨格情報を生成し、生成した骨格情報の足部分の遷移に基づいて、移動軌跡を特定する。情報処理装置１００が、移動軌跡を特定する場合、映像情報Ｉｍ１には、ユーザが含まれているものとする。すなわち、情報処理装置１００は、ユーザが含まれている時間帯に、カメラ１０に撮影された映像情報Ｉｍ１を用いて、ユーザの移動軌跡を特定する。

図２に示す例では、情報処理装置１００は、移動軌跡ｔｒ１，ｔｒ２，ｔｒ３，ｔｒ４を特定した例を示す。情報処理装置１００は、移動軌跡ｔｒ１，ｔｒ２，ｔｒ３，ｔｒ４を基にして、通路領域ｆ１と、通路方向ｄ１とを特定する。たとえば、情報処理装置１００は、移動軌跡ｔｒ１～４の移動範囲を、通路領域ｆ１とする。情報処理装置１００は、移動軌跡ｔｒ１～４の変位ベクトルの平均ベクトルを、通路方向ｄ１とする。

情報処理装置１００は、深度画像Ｉｍ２と、通路領域ｆ１と、進路方向ｄ１とを基にして、３次元空間の店内３Ｄモデルを生成する。たとえば、情報処理装置１００は、深度画像Ｉｍ２の距離情報、通路領域ｆ１の座標、進路方向ｄ１の座標を、店内３Ｄモデル上の３次元座標に変換して、合成する。

図３の説明に移行する。たとえば、図３に示すように、店内３ＤモデルＭ１には、棚８ａ，８ｂと、通路領域ｆ１と、通路方向ｄ１が設定される。情報処理装置１００は、ユーザＣ３が含まれる映像情報Ｉｍ３を基にして、ユーザＣ３の骨格情報を推定し、ユーザＣ３の足元の位置ｐ１を特定する。

情報処理装置１００は、位置ｐ１を店内３ＤモデルＭ１上の位置ｐ１´に変換する。情報処理装置１００は、位置ｐ１´と、通路方向ｄ１とを基にして、店内３ＤモデルＭ１上に、面Ｈ１を設定する。面Ｈ１の下端の線分ｌ１は、位置ｐ１´を通り、通路方向ｄ１に対して垂直となる。

情報処理装置１００は、商品の棚８ａ，８ｂが、通路方向ｄ１に垂直に向く形で設置されることを利用し、線分ｌ１と棚８ａとが接触する点ａ１と、棚８ａの上端ｂ１とを結ぶ検出ラインＬ１０ａを設定する。情報処理装置１００は、線分ｌ１と棚８ｂとが接触する点ａ２と、棚８ｂの上端ｂ２とを結ぶ検出ラインＬ１０ｂを設定する。情報処理装置１００は、ユーザＣ１が移動し、位置ｐ１が変わる度に、上記処理を実行し、検出ラインＬ１０ａ，Ｌ１０ｂを再設定する。たとえば、情報処理装置１００は、代表的な複数の位置毎に検出ラインを事前に算出しておき、位置ｐ１に対して、位置ｐ１に近接する代表的な位置を求めて、位置ｐ１に対応する検出ラインを採用する。もしくは、情報処理装置１００は、位置ｐ１に近接する代表的な位置（複数）の検出ラインを、位置ｐ１と代表的な位置との距離に応じて統合することで検出ラインを設定する。

情報処理装置１００は、ユーザＣ３が棚８ａ（８ｂ）から商品を取る際に、棚８ａ（８ｂ）と正対することを利用し、検出ラインＬ１０ａ，Ｌ１０ｂを用いて、ユーザＣ３による商品の出し入れを検出する。

図４は、本実施例に係る情報処理装置の処理を補足するための図である。図４では、図３に示した店内３ＤモデルＭ１を上から見た場合を示す。図４に示すように、商品の棚８ａは、通路方向ｄ１に垂直に向く形で設置される。たとえば、ユーザは、位置ｐ１´に立ち、棚８ａから商品を取り出す場合には、棚８ａと正対する。すなわち、図３で示した線分ｌ１は、通路方向ｄ１に対して垂直となる。

上記のように、情報処理装置１００は、カメラ１０の映像情報から求めた深度画像とユーザの移動軌跡とを基にして店内３ＤモデルＭ１を生成し、床面のユーザの立ち位置毎に棚の検出ラインを設定し、検出に利用する。このように、ユーザの立ち位置毎に検出ラインを設定することで、従来技術のように、予め検出ラインを設定する場合と比較して、商品の出し入れを精度よく検出することができる。

図５は、従来技術が誤検出する一例を説明するための図である。図５の画像Ｉｍ４－１には、棚９Ａ，９Ｂが含まれ、検出ラインＬ９Ａ，Ｌ９Ｂが事前に設定される。検出ラインＬ９Ａは、棚９Ａに収容された商品の出し入れを検出する場合に用いられる。検出ラインＬ９Ｂは、棚９Ｂに収容された商品の出し入れを検出する場合に用いられる。検出ラインＬ９Ａ，Ｌ９Ｂは、本実施例の情報処理装置１００のように、ユーザの位置に応じて検出ラインＬ９Ａ，Ｌ９Ｂを設定するものでない。このため、ユーザＣ４が棚９Ａの手前を移動し、棚９Ａに収容された商品の出し入れを行わない場合でも、ユーザＣ４の手が検出ラインＬ９Ａを越えてしまい、誤検出の原因となり得る。

図５の画像Ｉｍ４－２には、棚９Ｃが含まれ、たとえば、棚の輪郭が、検出ラインＬ９Ｃとして事前に設定されている。検出ラインＬ９Ｃは、棚９Ｃに収容された商品の出し入れを検出する場合に用いられる。この検出ラインＬ９Ｃも、本実施例の情報処理装置１００のように、ユーザの位置に応じて検出ラインＬ９Ｃを設定するものでない。このため、ユーザＣ５が棚９Ｃの手前を移動し、棚９Ｃに収容された商品の出し入れを行わない場合でも、ユーザＣ５の手が検出ラインＬ９Ｃを越えてしまい、誤検出の原因となり得る。

次に、本実施例に係る情報処理装置１００の構成例について説明する。図６は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図６に示すように、この情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

通信部１１０は、ネットワーク１５を介して、カメラ１０との間で情報の送受信を行う。通信部１１０は、カメラ１０から映像情報を受信する。たとえば、通信部１１０は、ＮＩＣ（Network Interface Card）等によって実現される。

入力部１２０は、キーボードやマウス等の入力デバイスを用いて実現され、管理者等による入力操作に対応して、制御部１５０に対して各種の情報を入力する。

表示部１３０は、液晶ディスプレイなどの表示装置等によって実現される。たとえば、表示部１３０は、制御部１５０の処理結果を表示してもよい。

記憶部１４０は、映像バッファ１４１、深度画像情報１４２、移動軌跡テーブル１４３、店内３ＤモデルＭ１を有する。記憶部１４０は、たとえば、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

映像バッファ１４１は、カメラ１０から送信される映像情報を保持するバッファである。たとえば、映像バッファ１４１には、図２で説明した映像情報Ｉｍ１、図３で説明した映像情報Ｉｍ３等を保持する。

深度画像情報１４２は、複数の画素を有し、画素毎に、距離情報が設定される。映像（画像）の複数の画素は、複数の構成要素に対応する。距離情報は、映像情報の画素に対応する店内の領域と、カメラ１０との距離を示す。深度画像情報１４２は、図２で説明した深度画像Ｉｍ２等に対応する。

移動軌跡テーブル１４３は、ユーザの移動軌跡の情報を保持するテーブルである。図７は、移動軌跡テーブルのデータ構造の一例を示す図である。図７に示すように、この移動軌跡テーブル１４３は、ユーザＩＤ（Identification）と、移動軌跡とを対応付ける。ユーザＩＤは、カメラ１０の映像情報から特定されるユーザを識別する情報である。移動軌跡は、映像情報から特定されたユーザの移動軌跡を示し、所定時間間隔毎の位置情報が設定される。

店内３ＤモデルＭ１は、図３で説明した３次元の店内のモデルである。たとえば、店内３ＤモデルＭ１には、棚８ａ，８ｂの各隅の３次元座標、通路領域ｆ１の各隅の３次元座標、通路方向ｄ１を示す始点と終点の３次元座標等が定義される。

図６の説明に戻る。制御部１５０は、受信部１５１、深度特定部１５２、姿勢推定部１５３、移動軌跡算出部１５４、通路推定部１５５、検出ライン設定部１５６、判定部１５７を有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＭＰＵ(Micro Processing Unit)により実現される。また、制御部１５０は、たとえば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実行されてもよい。

受信部１５１は、カメラ１０から映像情報を受信する。受信部１５１は、受信した映像情報を、映像バッファ１４１に格納する。

深度特定部１５２は、店内にユーザがいない時間帯にカメラ１０から受信した映像情報を、単眼デプス推定を実行する訓練済みの第１学習モデルに入力することで、深度画像情報１４２を生成する。たとえば、かかる学習モデルは、映像情報を入力とし、映像情報の各画素の距離情報を正解ラベルとする教師データを基にして、訓練される。深度特定部１５２は、深度画像情報１４２を記憶部１４０に格納する。

姿勢推定部１５３は、店内にユーザがいる時間帯にカメラ１０から受信した映像情報を、ユーザの骨格情報を推定する訓練済みの第２学習モデルに入力することで、ユーザの骨格情報を推定する。たとえば、姿勢推定部１５３は、映像情報に含まれる時系列の画像を順に、第２学習モデルに入力し、各画像の骨格情報を順に推定する。姿勢推定部１５３は、時系列の骨格情報を、移動軌跡算出部１５４に出力する。

なお、ユーザが商品に手を伸ばしたか否かを検知する認識時において、姿勢推定部１５３は、時系列の骨格情報を、検出ライン設定部１５６、判定部１５７に出力する。

たとえば、第２学習モデルは、ユーザの領域を含む画像を入力とし、骨格情報を出力とする訓練済みの機械学習モデルである。たとえば、第２学習モデルは、DeepPoseやOpenPoseなどの既存アルゴリズムを用いて構築される。図８は、骨格情報の例を示す図である。骨格情報は、公知の骨格モデルで特定される各関節をナンバリングした、１８個（０番から１７番）の定義情報を用いることができる。例えば、右肩関節（SHOULDER＿RIGHT）には７番が付与され、左肘関節（ELBOW＿LEFT）には５番が付与され、左膝関節（KNEE＿LEFT）には１１番が付与され、右股関節（HIP＿RIGHT）には１４番が付与される。したがって、図８に示した１８個の骨格の座標情報が、画像データから取得可能であり、例えば、７番の右肩関節の位置として「Ｘ座標＝Ｘ７、Ｙ座標＝Ｙ７」が取得される。なお、Ｘ軸が画像の水平方向、Ｙ軸が画像の垂直方向と定義することができる。

移動軌跡算出部１５４は、姿勢推定部１５３から取得する時系列の骨格情報の遷移を基にして、ユーザの移動軌跡を算出する。移動軌跡算出部１５４は、移動軌跡にユーザＩＤを割り当て、ユーザＩＤと、ユーザの移動軌跡の情報とを対応付けて、移動軌跡テーブル１４３に格納する。たとえば、移動軌跡算出部１５４は、時系列の骨格情報の足の位置を特定し、時系列の足の位置（たとえば、２次元の座標）の遷移を、移動軌跡として算出する。骨格情報の足の位置は、図８で説明した骨格情報の１７番（FOOT_RIGHT）の座標、または、１３番（FOOT_LEFT）の座標、あるいは、１７番と１３番との平均値等とする。

なお、移動軌跡算出部１５４は、足の位置が観測されない場合には、観測された残りの骨格情報の各関節から、足の位置を推定し、足の位置として用いてもよい。

通路推定部１５５は、移動軌跡テーブル１４３に格納された各移動軌跡の情報を基にして、通路領域と、通路方向を推定する。通路推定部１５５は、推定した通路領域と、通路方向の情報を、検出ライン設定部１５６に出力する。

通路推定部１５５が通路領域を推定する処理の一例について説明する。通路推定部１５５は、各移動軌跡の足の位置をそれぞれ内包する多角形を算出し、算出した多角形を、通路領域として推定する。たとえば、通路推定部１５５によって推定される通路領域の情報は、図２に示した通路領域ｆ１に対応する。

通路推定部１５５が通路方向を推定する処理の一例について説明する。各移動軌跡の足の変位ベクトルの平均ベクトルを、通路方向として推定する。たとえば、通路推定部１５５によって推定される通路方向の情報は、図２に示した通路方向ｄ１に対応する。

検出ライン設定部１５６は、ユーザが商品に手を伸ばしたことを検出するための検出ラインを棚に設定する。たとえば、検出ライン設定部１５６は、店内３ＤモデルＭ１を生成する処理を行った後に、検出ラインを設定する処理を行う。

検出ライン設定部１５６が店内３ＤモデルＭ１を生成する処理の一例について説明する。検出ライン設定部１５６は、深度画像情報１４２と、通路領域ｆ１と、進路方向ｄ１とを基にして、３次元空間の店内３ＤモデルＭ１を生成する。

たとえば、検出ライン設定部１５６は、深度画像情報１４２の距離情報と、第１定義テーブルとを基にして、深度画像情報１４２の距離情報を、店内３ＤモデルＭ１上の３次元座標に変換する。第１定義テーブルは、距離情報と、店内３ＤモデルＭ１上の３次元座標との関係を定義したテーブルである。

検出ライン設定部１５６は、通路領域ｆ１の座標および進路方向ｄ１の座標と、第２定義テーブルとを基にして、通路領域ｆ１の座標、進路方向ｄ１の座標を、店内３ＤモデルＭ１上の３次元座標に変換する。第２定義テーブルは、通路領域ｆ１の座標および進路方向ｄ１の座標と、店内３ＤモデルＭ１上の３次元座標との関係を定義したテーブルである。

たとえば、検出ライン設定部１５６は、深度画像情報１４２の距離情報から求められた店内３ＤモデルＭ１上の物体のうち、通路領域ｆ１以外の領域の物体を、棚として特定する。図３で説明した例では、検出ライン設定部１５６は、店内３ＤモデルＭ１において、通路領域ｆ１以外の物体を、棚８ａ，８ｂとして特定される。

続いて、検出ライン設定部１５６が、検出ラインを設定する処理の一例について説明する。たとえば、ユーザが商品に手を伸ばしたか否かを検知する認識時において、検出ライン設定部１５６は、姿勢推定部１５３から、骨格情報を取得し、ユーザの足の位置（３次元座標）を算出する。たとえば、検出ライン設定部１５６が算出した足の位置を、図３に示した位置ｐ１´とする。検出ライン設定部１５６は、面Ｈ１の下端の線分ｌ１が位置ｐ１´を通り、通路方向ｄ１に対して垂直となるように、面Ｈ１を店内３ＤモデルＭ１に配置する。たとえば、姿勢推定部１５３が推定する骨格情報の各関節座標は２次元の座標であり、検出ライン設定部１５６は、２次元座標を３次元座標に変換する変換テーブル等を用いて、３次元の座標を算出する。

検出ライン設定部１５６は、商品の棚８ａ，８ｂが、線分ｌ１と棚８ａとが接触する点ａ１と、棚８ａの上端ｂ１とを結ぶ検出ラインＬ１０ａを設定する。検出ライン設定部１５６は、線分ｌ１と棚８ｂとが接触する点ａ２と、棚８ｂの上端ｂ２とを結ぶ検出ラインＬ１０ｂを設定する。検出ライン設定部１５６は、設定した検出ラインＬ１０ａ，Ｌ１０ｂの情報を、判定部１５７に出力する。

検出ライン設定部１５６は、ユーザが移動し、位置ｐ１´が変わる度に、上記処理を実行し、検出ラインＬ１０ａ，Ｌ１０ｂを再設定し、再設定した検出ラインＬ１０ａ，Ｌ１０ｂの情報を、判定部１５７に出力する。

判定部１５７は、検出ライン設定部１５６から取得する検出ラインを基にして、ユーザが商品に手を伸ばしたことを検出し、商品を棚から取り出したか否かを判定する。以下において、判定部１５７の処理の一例について説明する。

判定部１５７は、姿勢推定部１５３から、骨格情報を取得し、ユーザの手の位置（２次元座標）を算出する。たとえば、判定部１５７は、ユーザの手の位置として、図８で説明した骨格情報の６番（WRIST_RIGHT）の座標、または、９番（WRIST_LEFT）の座標を算出する。以下の説明では、６番（WRIST_RIGHT）の座標を右手の位置と表記する。９番（WRIST_LEFT）の座標を左手の位置と表記する。

判定部１５７の処理を、検出ラインＬ１０ａを用いて説明する。判定部１５７は、検出ラインＬ１０ａの位置と、右手の位置、左手の位置とを比較して、右手、左手のうち、検出ラインＬ１０ａの位置に近い方の手を、着目する手とする。ここでは、右手を着目する手として説明を行う。

判定部１５７は、検出ラインＬ１０ａの位置と、右手の位置とを距離を算出し、距離が閾値未満となった場合に、ユーザが棚の商品に手を伸ばしたと判定する。判定部１５７は、ユーザが棚の商品に手を伸ばしたと判定した場合、以下の処理を行って、ユーザによる商品を取り出す行動を検知する。

図９は、商品を取り出す行動を検知する処理を説明するための図である。判定部１５７は、検出ラインＬ１０ａの近くに設定される領域２５の画像（映像情報）を映像バッファ１４１から取得する。上記のように、検出ラインＬ１０ａの位置は、ユーザＣ１の位置に応じて変化するため、領域２５の位置は、検出ラインＬ１０ａの位置に応じて、動的に変化するものとする。

たとえば、ユーザＣ１が手を棚２０ａに伸ばす際の領域２５の画像を、画像２５ａとする。ユーザＣ１が手を棚２０ａから戻す際の領域２５の画像を画像２５ｂとする。判定部１５７は、識別モデル２６を用いて、ユーザＣ１の手に商品が存在するか否かを判定する。識別モデル２６は、ユーザの手に商品が存在するか否かを識別するモデルであり、ＨＯＩＤ（Human Object Interaction Detection）等に基づく学習モデルであってもよい。

判定部１５７は、画像２５ａを識別モデル２６に入力して「商品なし」と識別され、かつ、画像２５ｂを識別モデル２６に入力して「商品あり」と識別された場合に、ユーザＣ１が商品を取り出す行動を行ったことを検知する。

一方、判定部１５７は、画像２５ａを識別モデル２６に入力して「商品あり」と識別され、かつ、画像２５ｂを識別モデル２６に入力して「商品なし」と識別された場合に、ユーザＣ１が商品を戻す行動を行ったことを検知する。

ここで、カメラ１０の映像情報（画像）を用いる場合、ユーザの背景が棚となり、背景内にユーザの保持する商品と同一の商品が写りこむ場合があり、ユーザが商品を持っているか否かの判定精度が低下する。判定部１５７は、ユーザＣが映り込む前の時間帯の画像（背景画像）と現在の画像とを比較することで、画像認識の精度を向上させてもよい。

図１０は、判定部のその他の処理を説明するための図である。図１０に示すように、判定部１５７は、映像バッファ１４１から入力画像Ｉｍ５－１（映像情報）を取り出して、画像処理を行う場合、入力画像Ｉｍ５－１から、事前に準備した背景画像Ｉｍ５－２を減算することで、前景マスクＩｍ５－３を生成する。判定部１５７は、入力画像Ｉｍ５－１と、前景マスクＩｍ５－３とを比較して、マスクＡ１の領域以外を抽出した画像Ｉｍ５－４を生成する。画像Ｉｍ５－４には、背景の画像が含まれていないため、図９で説明した検知する処理を実行する際の精度を向上することができる。

次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図１１は、情報処理装置が実行する事前設定処理を示すフローチャートである。図１１に示すように、情報処理装置１００の受信部１５１は、カメラ１０から映像情報を受信し、映像バッファ１４１に格納する（ステップＳ１０１）。

情報処理装置１００の深度特定部１５２は、映像情報を第１学習モデルに入力し、深度画像情報１４２を生成する（ステップＳ１０２）。情報処理装置１００の姿勢推定部１５３は、映像情報を第２学習モデルに入力し、骨格情報を生成する（ステップＳ１０３）。

情報処理装置１００の移動軌跡算出部１５４は、時系列の骨格情報を基にして、移動軌跡の情報を生成し、移動軌跡テーブル１４３に格納する（ステップＳ１０４）。情報処理装置１００の通路推定部１５５は、移動軌跡テーブル１４３に格納された移動軌跡の情報を基にして、通路領域および通路方向を推定する（ステップＳ１０５）。

情報処理装置１００の検出ライン設定部１５６は、深度画像情報１４２と、通路領域と、通路方向とを基にして、店内３ＤモデルＭ１を生成する（ステップＳ１０６）。

図１２は、情報処理装置が実行する検出処理を示すフローチャートである。図１２に示すように、情報処理装置１００の受信部１５１は、カメラ１０から映像情報を受信し、映像バッファ１４１に格納する（ステップＳ２０１）。

情報処理装置１００の姿勢推定部１５３は、映像情報を第２学習モデルに入力し、骨格情報を生成する（ステップＳ２０２）。情報処理装置１００の検出ライン設定部１５６は、骨格情報を基にして、足の位置を算出する（ステップＳ２０３）。検出ライン設定部１５６は、店内３ＤモデルＭ１と足の位置とを基にして、検出ラインを設定する（ステップＳ２０４）。

情報処理装置１００の判定部１５７は、骨格情報を基にして、手の位置を算出する（ステップＳ２０５）。判定部１５７は、検出ラインの位置と手の位置との距離を算出する（ステップＳ２０６）。判定部１５７は、距離が閾値未満である場合には（ステップＳ２０７，Ｙｅｓ）、棚の商品に手を伸ばしたと判定し、商品を取り出す行動を検出する（ステップＳ２０８）。

一方、判定部１５７は、距離が閾値未満でない場合には（ステップＳ２０７，Ｎｏ）、処理を終了する。

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、カメラ１０の映像情報から求めた深度画像情報１４２とユーザの移動軌跡とを基にして店内３ＤモデルＭ１を生成し、床面のユーザの立ち位置毎に棚の検出ラインを設定し、検出に利用する。このように、ユーザの立ち位置毎に検出ラインを設定することで、従来技術のように、予め検出ラインを設定する場合と比較して、商品の出し入れを精度よく検出することができる。

情報処理装置１００は、ユーザの時系列の骨格情報を基にして、ユーザの足の位置の遷移を特定し、特定した足の位置の遷移を内包する多角形を、通路領域として特定する。これによって、店内３ＤモデルＭ１の通路領域および、棚の３次元位置を特定することができる。

情報処理装置１００は、ユーザの時系列の骨格情報を基にして、ユーザの足の位置の遷移を特定し、特定した足の位置の遷移に基づく変位方向ベクトルを基にして、通路方向を特定する。特定した通路方向と直角に交わる面を店内３ＤモデルＭ１に配置することで、検出ラインを精度よく設定できる。

情報処理装置１００は、ユーザの立ち位置毎に検出ラインを設定し、ユーザの骨格情報を基にして、ユーザの手に対応する部位を特定し、検出ラインと手の部位との位置関係に基づいて、棚に収容された商品に対して、ユーザが商品に手を伸ばしたことを検出する。これによって、ユーザによる商品を棚から取り出す行動を検知することができる。

また、情報処理装置１００によれば、店内３ＤモデルＭ１を事前に設定し、ユーザの足の位置のみを特定することで、検出ラインを設定でき、情報処理装置１００の処理負荷を軽減できる。また、高解像度のカメラを用いなくても、ユーザによる商品を棚から取り出す行動を検知することができる。

次に、上記実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１３は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図１３に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置３０４と、インタフェース装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１～３０７は、バス３０８に接続される。

ハードディスク装置３０７は、受信プログラム３０７ａ、深度特定プログラム３０７ｂ、姿勢推定プログラム３０７ｃ、移動軌跡算出プログラム３０７ｄ、通路推定プログラム３０７ｅを有する。ハードディスク装置３０７は、検出ライン設定プログラム３０７ｆ、判定プログラム３０７ｇを有する。また、ＣＰＵ３０１は、各プログラム３０７ａ～３０７ｇを読み出してＲＡＭ３０６に展開する。

受信プログラム３０７ａは、受信プロセス３０６ａとして機能する。深度特定プログラム３０７ｂは、深度特定プロセス３０６ｂとして機能する。姿勢推定プログラム３０７ｃは、姿勢推定プロセス３０６ｃとして機能する。移動軌跡算出プログラム３０７ｄは、移動軌跡算出プロセス３０６ｄとして機能する。通路推定プログラム３０７ｅは、通路推定プロセス３０６ｅとして機能する。検出ライン設定プログラム３０７ｆは、検出ライン設定プロセス３０６ｆとして機能する。判定プログラム３０７ｇは、判定プロセス３０６ｇとして機能する。

受信プロセス３０６ａの処理は、受信部１５１の処理に対応する。深度特定プロセス３０６ｂの処理は、深度特定部１５２の処理に対応する。姿勢推定プロセス３０６ｃの処理は、姿勢推定部１５３の処理に対応する。移動軌跡算出プロセス３０６ｄの処理は、移動軌跡算出部１５４の処理に対応する。通路推定プロセス３０６ｅの処理は、通路推定部１５５の処理に対応する。検出ライン設定プロセス３０６ｆの処理は、検出ライン設定部１５６の処理に対応する。判定プロセス３０６ｇの処理は、判定部１５７の処理に対応する。

なお、各プログラム３０７ａ～３０７ｇについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｇを読み出して実行するようにしてもよい。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）商品が収容される収容部を有する店内に設定されたカメラの映像を取得し、
取得した前記カメラの映像を機械学習モデルに入力することで、前記映像の構成要素毎の前記カメラからの距離を示す深度を特定し、
特定した前記映像の構成要素毎の前記カメラからの距離を示す深度から構成される３次元の店内のモデルを生成し、
前記カメラの映像から、前記店内を移動する人物の骨格情報を生成し、
生成された前記骨格情報の遷移に基づいて、生成された前記３次元の店内のモデルの中に、前記店内の通路の範囲および方向を設定し、
前記店内の通路の範囲および方向に基づいて、人物が前記商品に手を伸ばしたことを検出するための検出ラインを前記収容部に設定する
処理をコンピュータに実行させることを特徴とする設定プログラム。

（付記２）前記店内の通路の範囲および方向を設定する処理は、前記人物の骨格情報に含まれる足の位置の遷移を特定し、特定した前記足の位置の遷移を内包する多角形を、前記通路の範囲として設定することを特徴とする付記１に記載の設定プログラム。

（付記３）前記店内の通路の範囲および方向を設定する処理は、前記人物の骨格情報に含まれる足の位置の遷移を特定し、前記足の位置の遷移に基づく変位方向ベクトルを基にして、前記方向を設定することを特徴とする付記１または２に記載の設定プログラム。

（付記４）店内に設定されたカメラの映像の構成要素毎にカメラからの距離を示す深度から構成される３次元の店内のモデルの中に、前記店内の通路の範囲および方向に基づいて、人物が商品に手を伸ばしたことを検出するための検出ラインを、前記店内に配置された収容部に設定した設定情報を特定し、
前記店内を撮影した映像から生成された人物の骨格情報に基づいて、前記人物の手に対応する部位を特定し、
特定した前記人物の手に対応する部位と、前記設定情報に含まれる検出ラインとの位置関係に基づいて、前記収容部に収容された商品に対して、前記人物が商品に手を伸ばしたことを検出する
処理をコンピュータに実行させることを特徴とする検出プログラム。

（付記５）商品が収容される収容部を有する店内に設定されたカメラの映像を取得し、
取得した前記カメラの映像を機械学習モデルに入力することで、前記映像の構成要素毎の前記カメラからの距離を示す深度を特定し、
特定した前記映像の構成要素毎の前記カメラからの距離を示す深度から構成される３次元の店内のモデルを生成し、
前記カメラの映像から、前記店内を移動する人物の骨格情報を生成し、
生成された前記骨格情報の遷移に基づいて、生成された前記３次元の店内のモデルの中に、前記店内の通路の範囲および方向を設定し、
前記店内の通路の範囲および方向に基づいて、人物が前記商品に手を伸ばしたことを検出するための検出ラインを前記収容部に設定する
処理をコンピュータが実行することを特徴とする設定方法。

（付記６）前記店内の通路の範囲および方向を設定する処理は、前記人物の骨格情報に含まれる足の位置の遷移を特定し、特定した前記足の位置の遷移を内包する多角形を、前記通路の範囲として設定することを特徴とする付記５に記載の設定方法。

（付記７）前記店内の通路の範囲および方向を設定する処理は、前記人物の骨格情報に含まれる足の位置の遷移を特定し、前記足の位置の遷移に基づく変位方向ベクトルを基にして、前記方向を設定することを特徴とする付記５または６に記載の設定方法。

（付記８）店内に設定されたカメラの映像の構成要素毎にカメラからの距離を示す深度から構成される３次元の店内のモデルの中に、前記店内の通路の範囲および方向に基づいて、人物が商品に手を伸ばしたことを検出するための検出ラインを、前記店内に配置された収容部に設定した設定情報を特定し、
前記店内を撮影した映像から生成された人物の骨格情報に基づいて、前記人物の手に対応する部位を特定し、
特定した前記人物の手に対応する部位と、前記設定情報に含まれる検出ラインとの位置関係に基づいて、前記収容部に収容された商品に対して、前記人物が商品に手を伸ばしたことを検出する
処理をコンピュータが実行することを特徴とする検出方法。

（付記９）商品が収容される収容部を有する店内に設定されたカメラの映像を取得し、
取得した前記カメラの映像を機械学習モデルに入力することで、前記映像の構成要素毎の前記カメラからの距離を示す深度を特定し、
特定した前記映像の構成要素毎の前記カメラからの距離を示す深度から構成される３次元の店内のモデルを生成し、
前記カメラの映像から、前記店内を移動する人物の骨格情報を生成し、
生成された前記骨格情報の遷移に基づいて、生成された前記３次元の店内のモデルの中に、前記店内の通路の範囲および方向を設定し、
前記店内の通路の範囲および方向に基づいて、人物が前記商品に手を伸ばしたことを検出するための検出ラインを前記収容部に設定する
処理を実行する制御部を有する設定装置。

（付記１０）前記店内の通路の範囲および方向を設定する処理は、前記人物の骨格情報に含まれる足の位置の遷移を特定し、特定した前記足の位置の遷移を内包する多角形を、前記通路の範囲として設定することを特徴とする付記９に記載の設定装置。

（付記１１）前記店内の通路の範囲および方向を設定する処理は、前記人物の骨格情報に含まれる足の位置の遷移を特定し、前記足の位置の遷移に基づく変位方向ベクトルを基にして、前記方向を設定することを特徴とする付記９または１０に記載の設定装置。

（付記１２）店内に設定されたカメラの映像の構成要素毎にカメラからの距離を示す深度から構成される３次元の店内のモデルの中に、前記店内の通路の範囲および方向に基づいて、人物が商品に手を伸ばしたことを検出するための検出ラインを、前記店内に配置された収容部に設定した設定情報を特定し、
前記店内を撮影した映像から生成された人物の骨格情報に基づいて、前記人物の手に対応する部位を特定し、
特定した前記人物の手に対応する部位と、前記設定情報に含まれる検出ラインとの位置関係に基づいて、前記収容部に収容された商品に対して、前記人物が商品に手を伸ばしたことを検出する
処理を実行する制御部を有する検出装置。

１００情報処理装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４１映像バッファ
１４２深度画像情報
１４３移動軌跡テーブル
１５０制御部
１５１受信部
１５２深度特定部
１５３姿勢推定部
１５４移動軌跡算出部
１５５通路推定部
１５６検出ライン設定部
１５７判定部

Claims

商品が収容される収容部を有する店内に設定されたカメラの映像を取得し、
取得した前記カメラの映像を機械学習モデルに入力することで、前記映像の構成要素毎の前記カメラからの距離を示す深度を特定し、
特定した前記映像の構成要素毎の前記カメラからの距離を示す深度から構成される３次元の店内のモデルを生成し、
前記カメラの映像から、前記店内を移動する人物の骨格情報を生成し、
生成された前記骨格情報の遷移に基づいて、生成された前記３次元の店内のモデルの中に、前記店内の通路の範囲および方向を設定し、
前記店内の通路の範囲および方向に基づいて、人物が前記商品に手を伸ばしたことを検出するための検出ラインを前記収容部に設定する
処理をコンピュータに実行させることを特徴とする設定プログラム。
前記店内の通路の範囲および方向を設定する処理は、前記人物の骨格情報に含まれる足の位置の遷移を特定し、特定した前記足の位置の遷移を内包する多角形を、前記通路の範囲として設定することを特徴とする請求項１に記載の設定プログラム。
前記店内の通路の範囲および方向を設定する処理は、前記人物の骨格情報に含まれる足の位置の遷移を特定し、前記足の位置の遷移に基づく変位方向ベクトルを基にして、前記方向を設定することを特徴とする請求項１または２に記載の設定プログラム。
商品が収容される収容部を有する店内に設定されたカメラの映像を取得し、
取得した前記カメラの映像を機械学習モデルに入力することで、前記映像の構成要素毎の前記カメラからの距離を示す深度を特定し、
特定した前記映像の構成要素毎の前記カメラからの距離を示す深度から構成される３次元の店内のモデルを生成し、
前記カメラの映像から、前記店内を移動する人物の骨格情報を生成し、
生成された前記骨格情報の遷移に基づいて、生成された前記３次元の店内のモデルの中に、前記店内の通路の範囲および方向を設定し、
前記店内の通路の範囲および方向に基づいて、人物が前記商品に手を伸ばしたことを検出するための検出ラインを前記収容部に設定する
処理をコンピュータが実行することを特徴とする設定方法。
商品が収容される収容部を有する店内に設定されたカメラの映像を取得し、
取得した前記カメラの映像を機械学習モデルに入力することで、前記映像の構成要素毎の前記カメラからの距離を示す深度を特定し、
特定した前記映像の構成要素毎の前記カメラからの距離を示す深度から構成される３次元の店内のモデルを生成し、
前記カメラの映像から、前記店内を移動する人物の骨格情報を生成し、
生成された前記骨格情報の遷移に基づいて、生成された前記３次元の店内のモデルの中に、前記店内の通路の範囲および方向を設定し、
前記店内の通路の範囲および方向に基づいて、人物が前記商品に手を伸ばしたことを検出するための検出ラインを前記収容部に設定する
処理を実行する制御部を有する設定装置。