WO2020008726A1

WO2020008726A1 - 対象物体検出プログラム、および対象物体検出装置

Info

Publication number: WO2020008726A1
Application number: PCT/JP2019/018629
Authority: WO
Inventors: 智也岡▲崎▼
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2018-07-02
Filing date: 2019-05-09
Publication date: 2020-01-09
Anticipated expiration: 2021-01-02
Also published as: EP3819864A1; JPWO2020008726A1; JP7243725B2; EP3819864A4

Abstract

【課題】撮影画像中の領域ごとの対象物の変化に起因した対象物の誤検出を低減し、高速かつ高精度に対象物体を検出可能な対象物体検出プログラムを提供する。【解決手段】撮影された画像を取得する手順（ａ）と、取得された画像から特徴マップを生成する手順（ｂ）と、画像を複数の領域に分割する分割領域と、各分割領域に対応して対象物体を検出するための辞書と、が設定された領域別推定パラメーターに基づいて、分割領域ごとに、分割領域に対応する辞書を用いて、前記特徴マップから、対象物体を検出する手順（ｃ）と、を有する処理をコンピューターに実行させるための対象物体検出プログラム。

Description

対象物体検出プログラム、および対象物体検出装置

　本発明は、対象物体検出プログラム、および対象物体検出装置に関する。

　我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。

　要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、撮影画像から要介護者等の状態を検出するためのシステムの開発が進められている。このようなシステムで要介護者等の状態を検出するためには、撮影画像から検知対象の対象物体（対象者等）を高精度で検出する必要がある。

　このような、撮影画像から対象物体を検知する技術に関連し、下記特許文献１には、次の技術が開示されている。魚眼カメラにより撮影された魚眼画像を所定の角度ずつ回転した複数の画像を作成し、回転前および回転後の複数の画像と、予めデーターベースに記憶された検出したい対象物体の画像と、を比較することで対象物体を検知する。これにより、画像の中心から周辺に向かって歪みが大きくなる魚眼画像から、高精度に対象物体を検出できる。

　下記特許文献２には、次の技術が開示されている。ディープニューラルネットワークを用いて、撮影画像から特徴マップを生成する。特徴マップに基づいて、物体が存在すると推定される領域である候補矩形を検出する。そして、各候補矩形について物体のカテゴリーごとの信頼度スコアを算出することで、対象物体を検出する。これにより、撮影画像全体から生成した１つの特徴マップを利用して、候補矩形および信頼度スコアの両方の算出を行うことで、高精度かつ高速に対象物体を検出できる。

特開２０１２－２３０５４６号公報米国特許出願公開第２０１７／０２０６４３１号明細書

　しかし、特許文献１に開示された技術は、入力される魚眼画像を回転させた複数の画像を生成する必要があり、当該複数の画像に対する複数回の検出処理が必要なため処理時間が増加するという問題がある。特許文献２に開示された技術は、魚眼画像のように画像の歪みが比較的大きい画像から対象物体を検出する場合に、当該画像の歪みに起因した対象物体の誤検出が発生する可能性があるという問題がある。

　本発明は、このような問題を解決するためになされたものである。すなわち、撮影画像中の領域ごとの物体の変化に起因した対象物の誤検出を低減し、高速かつ高精度に対象物体を検出可能な対象物体検出プログラム、および対象物体検出装置を提供することを目的とする。

　本発明の上記課題は、以下の手段によって解決される。

　（１）撮影された画像を取得する手順（ａ）と、前記手順（ａ）により取得された前記画像から特徴マップを生成する手順（ｂ）と、前記画像を複数の領域に分割する分割領域と、各分割領域に対応して対象物体を検出するための辞書と、が設定された領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから、対象物体を検出する手順（ｃ）と、を有する処理をコンピューターに実行させるための対象物体検出プログラム。

　（２）前記画像は広角画像であり、前記分割領域は、前記画像上の位置に対応して変化する歪みの大きさに応じて設定された、上記（１）に記載の対象物体検出プログラム。

　（３）前記画像は、前記画像を撮影したカメラからの撮影方向の物体までの距離に対応して、前記画像上の前記物体の大きさと当該物体の実際の大きさとの比が変化した画像であり、前記分割領域は、前記比の大きさに応じて設定された、上記（１）に記載の対象物体検出プログラム。

　（４）前記手順（ｃ）は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記対象物体を検出する、上記（１）～（３）のいずれかに記載の対象物体検出プログラム。

　（５）前記手順（ｃ）は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから物体を検出する手順（ｃ１）と、前記手順（ｃ１）により検出された前記物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記物体の中から前記対象物体を検出する手順（ｃ２）と、を含む、上記（１）～（３）のいずれかに記載の対象物体検出プログラム。

　（６）前記手順（ｃ）は、前記分割領域ごとに、前記特徴マップと前記辞書とを用いて、前記画像において設定した基準矩形の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、前記位置のシフト量およびスケールのシフト量を最小化することで前記物体が含まれる候補矩形を検出し、前記候補矩形に含まれた前記物体の所定のカテゴリーごとの信頼度スコアを算出し、前記信頼度スコアが最も高いカテゴリーが前記対象物体のカテゴリーとなった前記候補矩形を、前記対象物体が含まれる出力矩形として出力することで、前記対象物体を検出し、前記基準矩形の形状は、前記分割領域ごとに異なる、上記（１）～（３）のいずれかに記載の対象物体検出プログラム。

　（７）前記手順（ｃ）は、前記広角画像を撮影したカメラのレンズの歪み特性に基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該レンズの歪み特性に対応して前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記（２）に記載の対象物体検出プログラム。

　（８）前記手順（ｃ）は、前記広角画像を撮影したカメラの設置高さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該カメラの設置高さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記（２）に記載の対象物体検出プログラム。

　（９）前記手順（ｃ）は、前記画像の撮影範囲の広さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該撮影範囲の広さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記（３）に記載の対象物体検出プログラム。

　（１０）撮影された画像を取得する取得部と、取得された前記画像から特徴マップを生成する特徴マップ生成部と、前記画像を複数の領域に分割する分割領域と、各分割領域に対応して対象物体を検出するための辞書と、が設定された領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから、対象物体を検出する検出部と、を有する対象物体検出装置。

　（１１）前記画像は広角画像であり、前記分割領域は、前記画像上の位置に対応して変化する歪みの大きさに応じて設定された、上記（１０）に記載の対象物体検出装置。

　（１２）前記画像は、前記画像を撮影したカメラからの撮影方向の物体までの距離に対応して、前記画像上の前記物体の大きさと当該物体の実際の大きさとの比が変化した画像であり、前記分割領域は、前記比の大きさに応じて設定された、上記（１０）に記載の対象物体検出装置。

　（１３）前記検出部は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記対象物体を検出する、上記（１０）～（１２）のいずれかに記載の対象物体検出装置。

　（１４）前記検出部は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから物体を検出する物体検出部と、前記物体検出部により検出された前記物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記物体の中から前記対象物体を検出する対象物体検出部と、を含む、上記（１０）～（１２）のいずれかに記載の対象物体検出装置。

　（１５）前記検出部は、前記分割領域ごとに、前記特徴マップと前記辞書とを用いて、前記画像において設定した基準矩形の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、前記位置のシフト量およびスケールのシフト量を最小化することで前記物体が含まれる候補矩形を検出し、前記候補矩形に含まれた前記物体の所定のカテゴリーごとの信頼度スコアを算出し、前記信頼度スコアが最も高いカテゴリーが前記対象物体のカテゴリーとなった前記候補矩形を、前記対象物体が含まれる出力矩形として出力することで、前記対象物体を検出し、前記基準矩形の形状は、前記分割領域ごとに異なる、上記（１０）～（１２）のいずれかに記載の対象物体検出装置。

　（１６）前記検出部は、前記広角画像を撮影したカメラのレンズの歪み特性に基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該レンズの歪み特性に対応して前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記（１１）に記載の対象物体検出装置。

　（１７）前記検出部は、前記広角画像を撮影したカメラの設置高さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該カメラの設置高さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記（１１）に記載の対象物体検出装置。

　（１８）前記検出部は、前記画像の撮影範囲の広さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該撮影範囲の広さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記（１２）に記載の対象物体検出装置。

　撮影画像を分割した分割領域ごとに、各分割領域に対応する辞書を用いて、当該撮影画像から生成した特徴マップから対象物体を検出する。これにより、撮影画像中の領域ごとの物体の変化に起因した対象物体の誤検出を低減し、高速かつ高精度に対象物体を検出できる。

対象物体検出システムの概略構成を示す図である。広角カメラにより撮影された広角画像を示す説明図である。広域撮影用カメラにより撮影された広域撮影画像を示す説明図である。対象物体検出装置のハードウェア構成を示すブロック図である。分割領域の例を示す図である。分割領域の例を示す図である。対象物体検出装置の制御部の機能を示すブロック図である。特徴マップに基づいて候補矩形を検出する方法について説明するための説明図である。候補矩形の例を説明するための説明図である。対象者の検出結果として出力された出力矩形の例を示す図である。推定された関節点の例を示す説明図である。対象物体検出装置の動作を示すフローチャートである。

　以下、図面を参照して、本発明の実施形態に係る対象物体検出プログラム、および対象物体検出装置について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　図１は、実施形態に係る対象物体検出装置を含む対象物体検出システムの概略構成を示す図である。

　対象物体検出システム１０は、対象物体検出装置１００、撮影装置２００、通信ネットワーク３００、および携帯端末４００を有する。対象物体検出装置１００は、通信ネットワーク３００により撮影装置２００および携帯端末４００と相互に通信可能に接続される。本明細書において、対象物体とは、対象物体検出装置１００が検出対象とする物体である。対象物体には複数のカテゴリーが含まれ得る。カテゴリーとは、対象物体検出装置１００が認識可能な物体の種別であり、人、ベッド、机、椅子、歩行器等が含まれる。カテゴリーには、対象物体以外の物体の種別も含まれる。以下、対象物体は対象者５０（すなわち、人）であるものとして説明する。

　対象物体検出装置１００は、撮影装置２００により撮影された画像（以下、単に「撮影画像２５０」と称する（図２Ａ、図２Ｂ等参照））を、撮影装置２００から受信し、撮影画像２５０に含まれる対象者５００を対象物体として検出する。後述するように、対象物体検出装置１００は、撮影画像２５０上で物体が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、対象者５００を検出する。物体が存在する領域は、撮影画像２５０上で物体が含まれる矩形（以下、当該矩形を「候補矩形２５３」と称する（図７参照））として検出される。検出された候補矩形２５３のうち、物体のカテゴリーが人であると推定された候補矩形２５３（以下、当該候補矩形２５３を「出力矩形２５４」と称する（図８参照））を検出することで、対象者５００を検出する。なお、対象物体検出装置１００は、出力矩形２５４に基づいて、対象者５００の姿勢および行動をさらに検出し得る。また、推定した行動から、対象者５００に関するイベントを検出し得る。イベントとは、対象者７０に関する対象物体検出装置１００等が認識した状態の変化であって、例えば、起床、離床、転倒、および微体動異常等のスタッフ８０に発報（報知）を行うべき事象である。対象物体検出装置１００は、イベントを検出した場合は、イベントの内容を通知するイベント通知を携帯端末４００へ送信する。対象物体検出装置１００は、ディープニューラルネットワーク（以下、「ＤＮＮ」と称する）により、対象者５００を検出し得る。ＤＮＮによる対象物体の検出方法としては、例えば、Ｆａｔｅｒ　Ｒ－ＣＮＮ、Ｆａｓｔ　Ｒ－ＣＮＮ、およびＲ－ＣＮＮといった公知の方法が挙げられる。以下、対象物体検出装置１００は、Ｆａｓｔｅｒ　Ｒ－ＣＮＮを利用して対象物体を検出するものとして説明する。対象物体検出装置１００は、コンピューターにより構成される。例えば、対象物体検出装置１００は、サーバーとして構成され得る。

　撮影装置２００は、たとえば近赤外線カメラにより構成され、所定の位置に設置されることで、当該所定の位置を視点として俯瞰される撮影領域を撮影する。すなわち、撮影装置２００は、ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｅｖｉｃｅ）により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をＣＭＯＳ（Ｃｏｍｐｌｅｍｅｍｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）センサーにより受光することで撮影領域を撮影し得る。撮影画像２５０は近赤外線の反射率を各画素とするモノクロ画像であり得る。所定の位置は、たとえば対象者５００の居室の天井である。撮影領域は、たとえば居室の床全体を含む３次元の領域である。撮影装置２００は、たとえば１５ｆｐｓ～３０ｆｐｓのフレームレートの動画として撮影領域を撮影し得る。撮影画像２５０には動画と静止画とを含む。撮影装置２００は、撮影画像２５０を対象物体検出装置１００等に送信する。

　撮影装置２００を構成するカメラは、広角カメラであり得る。広角カメラは、比較的広い画角の撮影画像２５０を撮影できるカメラであり、撮影画像２５０上の位置に対応して歪みの大きさが変化するカメラである。広角カメラには、例えば、魚眼レンズカメラが含まれる。

　一方、撮影装置２００を構成するカメラは、比較的広い範囲を撮影範囲とするために、カメラの設置高さ等を調整することで、画角を広くしたカメラ（以下、「広域撮影用カメラ」と称する）であり得る。広域撮影用カメラは、カメラから撮影方向の物体までの距離に対応して、撮影画像２５０上の物体の大きさと、当該物体の実際の大きさとの比が変化した撮影画像２５０が撮影されるカメラである。広域撮影用カメラとして、撮影画像２５０上の位置に対応して歪みの大きさを変化させていない一般的なカメラを広域撮影用カメラとして利用できる。

　図２Ａは、広角カメラにより撮影された広角画像を示す説明図である。図２Ｂは、広域撮影用カメラにより撮影された広域撮影画像を示す説明図である。

　図２Ａは、広角カメラにより居室にいる人５０１を撮影したときの広角画像２５１を示している。なお、説明を簡単にするために、当該広角画像２５１においては、同じ人５０１が異なる３つの位置にいて、１つの広角画像２５１において撮影されたものとして仮想的に示されている。広角画像２５１は、破線の矢印で示す、画像の中心から画像の外側に向って歪みが大きくなる。これにより、同じ人５０１であっても、広角画像２５１上の人５０１の位置が広角画像２５１の中心に近いか遠いかによって、形状等が比較的大きく変化する。

　図２Ｂは、広域撮影用カメラにより、空５０３、海５０４、および砂浜５０５を含むように、海５０４または砂浜５０５に存在する船５０２を撮影したときの広域撮影画像２５２を示している。なお、説明を簡単にするために、当該広域撮影画像２５２においては、同じ船５０２が異なる３つの位置にあって、１つの広域撮影画像２５２において撮影されたものとして仮想的に示されている。図２Ｂの例においては、広域撮影画像２５２は、破線の矢印で示す、画像の下から上に向って、広域撮影用カメラから撮影方向の船５０２までの距離が遠くなる。これにより、同じ船５０２であっても、広域撮影画像２５２上の船５０２の位置が広域撮影画像２５２の上方向にいくに従い、画像上の船５０２の大きさが小さくなる。このことは、広域撮影画像２５２は、広域撮影用カメラからの撮影方向の物体までの距離の変化に対応して、画像上の物体の大きさと当該物体の実際の大きさとの比（比の大きさ）が変化することを意味する。

　撮影装置２００は、コンピューターを有するセンサーボックスにより構成し得る。センサーボックスとは、近赤外線カメラおよび体動センサー等を備える箱状の装置である。この場合、対象物体検出装置１００の機能の一部または全部をセンサーボックスが有するようにし得る。体動センサーは、ベッドに対してマイクロ波を送受信して対象者５００の体動（例えば呼吸動）によって生じたマイクロ波のドップラシフトを検出するドップラシフト方式のセンサーである。

　通信ネットワーク３００には、イーサネット（登録商標）などの有線通信規格によるネットワークインターフェースを使用し得る。通信ネットワーク３００には、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１などの無線通信規格によるネットワークインターフェースを使用してもよい。通信ネットワーク３００には、アクセスポイント３１０が設けられ、携帯端末４００と、対象物体検出装置１００および撮影装置２００とを無線通信ネットワークにより通信可能に接続する。

　携帯端末４００は、対象物体検出装置１００からイベント通知を受信し、イベント通知の内容を表示する。携帯端末４００は、対象物体検出装置１００により検出された対象者５００の検出結果を対象物体検出装置１００から受信して表示する。具体的には、例えば、携帯端末４００は、撮影画像２５０上で出力矩形２５４を表示することで、対象者５００の検出結果を表示し得る。携帯端末４００は、対象物体検出装置１００から、対象者５００の姿勢および行動の検出結果を受信して表示し得る。姿勢の検出結果には、後述するように、対象者５００の関節点１１９（図９参照）の推定結果が含まれる。行動の検出結果には、起床、離床、転倒、および微体動異常等のイベントに該当する行動の検出結果の他、入室、睡眠、および着座等の行動の検出結果が含まれる。行動の検出結果はイベント通知に含まれて受信されてもよい。携帯端末４００は、撮影装置２００または対象物体検出装置１００から撮影画像２５０を受信して表示し得る。携帯端末４００は、たとえばスマートフォンにより構成される。

　図３は、対象物体検出装置のハードウェア構成を示すブロック図である。対象物体検出装置１００は、制御部１１０、記憶部１２０、表示部１３０、入力部１４０、および通信部１５０を有する。これらの構成要素は、バス１６０を介して相互に接続される。

　制御部１１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）により構成され、プログラムにしたがって対象物体検出装置１００の各部の制御および演算処理を行う。制御部１１０の機能の詳細については後述する。

　記憶部１２０は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、およびＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され得る。ＲＡＭは、制御部１１０の作業領域として一時的にプログラムやデータを記憶する。ＲＯＭは、あらかじめ各種プログラムや各種データを格納する。ＳＳＤは、オペレーションシステムを含む各種プログラムおよび各種データを格納する。

　記憶部１２０は、撮影画像２５０を複数の領域に分割する分割領域（以下、単に「分割領域」と称する）と、各分割領域に対応する辞書とが設定された領域別推定パラメーターを記憶する。分割領域は、例えば、分割後の撮影画像２５０の複数の領域に含まれる画素の座標として設定され得る。辞書は、ＤＮＮの各層のノード間に与えられた重み付けを定義するデータであり、辞書をＤＮＮに反映させることで、ＤＮＮを学習済みモデルとすることができる。本実施形態においては、分割領域ごとに、当該分割領域に対応した辞書をＤＮＮに反映させ、後述する特徴マップ（畳み込み特徴マップ）から、対象者５００を検出する。

　図４Ａ、図４Ｂは、分割領域の例を示す図である。図４Ａは、広角画像２５１に対して設定された分割領域の例である。図４Ｂは、広域撮影画像２５２に対して設定された分割領域の例である。

　図４Ａの例においては、広角画像２５１の中心部に設定された１つの矩形の分割領域（グレーのＥで示された領域）と、その周囲に設定された８個の矩形の分割領域（グレーのＡ～Ｄ、Ｆ～Ｉで示された領域）が示されている。すなわち、広角画像２５１の歪が比較的小さい領域と、歪みが比較的大きい領域とに区分されるように分割領域が設定されている。本実施形態においては、分割領域ごとに、対応する領域別推定パラメーターを用いる。これにより、広角画像２５１の歪が比較的小さい領域と、歪みが比較的大きい領域とで異なる領域別推定パラメーターが用いられる。

　図４Ｂの例においては、広域撮影画像２５２の上部に設定された分割領域（グレーのＡで示された領域）、中部に設定された分割領域（グレーのＢで示された領域）、および下部に設定された分割領域（グレーのＣで示された領域）が示されている。すなわち、広域撮影画像２５２上の物体の大きさと当該物体の実際の大きさとの比が大きい、広域撮影画像２５２の上部と、当該比が小さい、広域撮影画像２５２の下部と、当該比がこれらの中間の、広域撮影画像２５２の中部と、に区分されるように分割領域が設定されている。従って、広域撮影画像２５２上の物体の大きさと当該物体の実際の大きさとの比の大きさに応じて異なる領域別推定パラメーターが用いられる。

　表示部１３０は、たとえば液晶ディスプレイであり、各種情報を表示する。

　入力部１４０は、たとえばタッチパネルや各種キーにより構成される。入力部１４０は、各種操作、入力のために使用される。

　通信部１５０は、外部機器と通信するためのインターフェースである。通信には、イーサネット（登録商標）、ＳＡＴＡ、ＰＣＩ　Ｅｘｐｒｅｓｓ、ＵＳＢ、ＩＥＥＥ１３９４などの規格によるネットワークインターフェースが用いられ得る。その他、通信には、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１、４Ｇなどの無線通信インターフェースが用いられ得る。通信部１５０は、撮影装置２００から撮影画像２５０を受信する。通信部１５０は、イベント通知を携帯端末４００へ送信する。通信部１５０は、撮影画像２５０からの対象者５００の検出結果を携帯端末４００へ送信する。また、通信部１５０は、対象者５００の姿勢および行動の検出結果を携帯端末４００へ送信し得る。

　制御部１１０の機能の詳細について説明する。

　図５は、対象物体検出装置の制御部の機能を示すブロック図である。制御部１１０は、画像取得部１１１、対象物体検出部１１２、関節点推定部１１３、行動推定部１１４、および、出力部１１５を有する。画像取得部１１１は取得部を構成する。対象物体検出部１１２は、特徴マップ生成部、検出部、物体検出部、および対象物体検出部を構成する。

　画像取得部１１１は、通信部１５０を介して撮影装置２００から受信した撮影画像２５０を取得する。

　対象物体検出部１１２は、次のように、撮影画像２５０から、対象者５００を検出する。ＤＮＮによる撮影画像２５０の畳み込み演算により、画素の特徴が抽出された特徴マップを生成する。領域別推定パラメーターを記憶部１２０から読み出し、設定された分割領域ごとに、分割領域に対応する辞書を反映させたＤＮＮにより、特徴マップから対象者５００を検出する。具体的には、分割領域ごとに、ＤＮＮにより、特徴マップに基づいて、撮影画像２５０上で物体が存在する領域を候補矩形２５３として検出し、候補矩形２５３に含まれる物体のカテゴリーを推定する。そして、推定された物体のカテゴリーが人である候補矩形２５３を、対象者５００が含まれる出力矩形２５４として検出する。以下、特徴マップから候補矩形２５３および出力矩形２５４を検出する方法について詳細に説明する。

　図６は、特徴マップに基づいて候補矩形を検出する方法について説明するための説明図である。図７は、候補矩形の例を説明するための説明図である。

　図６においては、特徴マップ１１６の、分割領域に対応する部分が特徴マップ１１６として示されている。特徴マップ１１６には、局所領域としてグリッド１１７が設定される。各グリッド１１７には、撮影画像２５０上の基準矩形であるアンカー１１８が対応付けされる。各グリッド１１７には、予め形状が決められた複数のアンカー１１８が対応付けされる。複数のアンカー１１８の形状は、分割領域ごとに異なってもよい。分割領域に対応する辞書を反映させたＤＮＮにより、各アンカー１１８に物体が存在する確率を推定し、物体が存在する確率が最も高いアンカー１１８を決定する。決定されたアンカー１１８の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、これらのシフト量を最小化することで候補矩形２５３を検出する。

　図７の例においては、物体である、人、ベッド、机、椅子、歩行器、テレビ、および扇風機等がそれぞれ含まれた候補矩形２５３が示されている。なお、一部の物体（例えば、動物等の動く物体）のみが候補矩形２５３として検出されてもよい。

　対象物体検出部１１２は、検出した候補矩形２５３ごとに、所定のカテゴリーごとの信頼度スコアを算出する。信頼度スコアは、所定のカテゴリーごとの尤度である。所定のカテゴリーは、対象者５００のカテゴリーである人を含めて任意に設定できる。所定のカテゴリーは、例えば、人、椅子、机、および機具とし得る。対象物体検出部１１２は、信頼度スコアが最も高いカテゴリーが人である候補矩形２５３を出力矩形２５４として検出する。

　対象物体検出部１１２は、検出した出力矩形２５４を、算出した、カテゴリーごとの信頼度スコアとともに出力する。

　図８は、対象者の検出結果として出力された出力矩形２５４の例を示す図である。

　図８の例においては、広角画像２５１に対する、対象者５００の検出結果が示されている。検出結果として出力された出力矩形２５４には、所定のカテゴリーごとの信頼度スコアが付記されている。人のカテゴリーの信頼度スコアが０．９で、機具のカテゴリーの信頼度スコアが０．１で、それ以外のカテゴリーの信頼度スコアは０である。これにより、人のカテゴリーの信頼度スコアが最も高い候補矩形２５３が出力矩形２５４として検出されたことで、対象者５００が検出されていることが判る。なお、本実施形態においては、上述したように、対象物体を対象者５００のみとしているため、「人」以外のカテゴリーの信頼度スコアが最も高くなった候補矩形２５３は、出力矩形２５４として検出されない。

　本実施形態においては、撮影画像２５０を分割した分割領域ごとに、各分割領域に対応する辞書を用いて、撮影画像２５０から生成した特徴マップ１１６から対象者５００を検出する。これにより、撮影画像２５０中の領域ごとの対象物の変化に起因した対象物の誤検出を低減できる。一方、撮影画像２５０の全ての領域において、同じ辞書を用いて、特徴マップ１１６から対象者５００を検出した場合は、撮影画像２５０中の領域ごとの対象物の変化に起因した対象物の誤検出が発生し得る。すなわち、例えば、撮影画像２５０の歪みにより、歩行器の画像が変化することで、当該歩行器が含まれる候補矩形２５３の、人に対する信頼度スコアが他のカテゴリーに対して相対的に大きくなり、歩行器を人として誤検出されることが発生し得る。

　また、本実施形態においては、撮影画像２５０の全体から特徴マップ１１６を生成し、分割領域ごとに特徴マップ１１６を生成しない。すなわち、各分割領域からの対象者５００の検出において１つの特徴マップ１１６を共有し、分割領域ごとに特徴マップ１１６を生成しない。これにより、高速かつ高精度に対象者５００を検出できる。

　関節点推定部１１３は、出力矩形２５４に基づいて、対象者５００の姿勢として関節点１１９を推定し、関節点１１９の検出結果として行動推定部１１４へ出力する。関節点推定部１１３は、ＤＮＮを用いた公知の方法により、出力矩形２５４に基づいて関節点１１９を推定し得る。

　図９は、推定された関節点の例を示す説明図である。関節点１１９は撮影画像２５０に重畳されて示されており、関節点１１９の位置は白抜きの丸により示されている。関節点１１９には、例えば、頭、首、肩、肘、手、腰、腿、膝、および足の関節点１１９が含まれる。図９の例においては、各関節点１１９の相対的な位置関係から、対象者５００が座位の姿勢にあることが認識できる。

　行動推定部１１４は、関節点推定部１１３により推定された関節点１１９に基づいて、対象者５００の行動を推定し、対象者５００の行動の検出結果として出力部１１５へ出力する。行動推定部１１４は、複数の撮影画像２５０から推定された関節点１１９の時間的変化に基づいて対象者５００の行動を推定し得る。行動推定部１１４は、例えば、各関節点１１９の平均速度が急に低下し、かつ平均速度の低下後の各関節点１１９により認識される姿勢が臥位であるような場合に、対象者５００の行動として「転倒」を推定し得る。

　出力部１１５は、対象物体検出部１１２により検出された出力矩形２５４、関節点推定部１１３により検出された、対象者５００の関節点１１９、および行動推定部１１４により検出された、対象者５００の行動を出力する。

　対象物体検出装置１００の動作について説明する。

　図１０は、対象物体検出装置の動作を示すフローチャートである。本フローチャートは、記憶部１２０に記憶されたプログラムにしたがい、制御部１１０により実行される。

　制御部１１０は、領域推定パラメーターを記憶部１２０に記憶させる（Ｓ１０１）。

　制御部１１０は、撮影装置２００から、通信部１５０を介して撮影画像２５０を取得する（Ｓ１０２）。

　制御部１１０は、ＤＮＮを用いて、撮影画像２５０から特徴マップを生成する（Ｓ１０３）。

　制御部１１０は、対象者５００の検出に用いる領域別パラメーターを、選択することにより切り替える。

　撮影装置２００が広角カメラの場合は、制御部１１０は、領域別パラメーターを、広角カメラの歪み特性に基づいて選択され得る。広角カメラの歪み特性は、広角カメラの型番により特定される。このため、例えば、広角カメラごとに、広角カメラの型番と対応付けて、当該型番の広角カメラの歪み特性に対応して分割領域が設定された領域別パラメーターを記憶部１２０に予め記憶させておく。制御部１１０は、広角カメラから取得される撮影画像２５０のデータに含まれる、広角カメラの型番に対応する領域別パラメーターを選択し得る。制御部１１０は、表示部１３０に撮影装置２００の広角カメラの歪み特性の入力を受け付ける画面を表示して、入力部１４０においてユーザーに入力された歪み特性に基づいて、当該歪み特性に対応して分割領域が設定された領域別パラメーターを選択してもよい。制御部１１０は、領域別パラメーターを、撮影装置２００の広角カメラの設置高さに基づいて選択してもよい。例えば、広角カメラの設置高さごとに、当該設置高さと対応付けて、当該設置高さに対応して分割領域が設定された領域別パラメーターを記憶部１２０に予め記憶させておく。施設のＣＡＤ（Ｃｏｍｐｕｔｅｒ－Ａｉｄｅｄ　Ｄｅｓｉｇｎ）データを記憶部１２０に予め記憶させておく。制御部１１０は、広角カメラから取得される撮影画像２５０のデータに含まれる、広角カメラが設置された居室の部屋番号等から、施設のＣＡＤデータに基づいて、当該居室において広角カメラが設置された天井の高さを算出する。そして、算出された高さの設置高さに対応して分割領域が設定された領域別パラメーターを取得し得る。制御部１１０は、表示部１３０に撮影装置２００の広角カメラの設置高さの入力を受け付ける画面を表示して、入力部１４０においてユーザーに入力された設置高さに基づいて、当該設置高さに対応して分割領域が設定された領域別パラメーターを選択してもよい。

　撮影装置２００が広域撮影用カメラの場合は、制御部１１０は、領域別パラメーターを、撮影装置２００の撮影範囲の広さに基づいて選択され得る。例えば、広域撮影画像２５２の撮影範囲の広さごとに、当該撮影範囲の広さと対応付けて、当該撮影範囲の広さに対応して分割領域が設定された領域別パラメーターを記憶部１２０に予め記憶させておく。制御部１１０は、表示部１３０に撮影装置２００の広域撮影用カメラの撮影範囲の広さ（例えば、撮影面積、または画角）の入力を受け付ける画面を表示して、入力部１４０においてユーザーに入力された撮影範囲の広さに基づいて、当該撮影範囲の広さに対応して分割領域が設定された領域別パラメーターを選択し得る。制御部１１０は、領域別パラメーターを、撮影装置２００の広域撮影用カメラの設置高さに基づいて選択してもよい。例えば、広域撮影用カメラの設置高さごとに、当該設置高さと対応付けて、当該設置高さに対応して分割領域が設定された領域別パラメーターを記憶部１２０に予め記憶させておく。施設のＣＡＤデータを記憶部１２０に予め記憶させておく。制御部１１０は、広域撮影用カメラから取得される広域撮影画像２５２のデータに含まれる、広域撮影用カメラが設置された居室の部屋番号等から、施設のＣＡＤデータに基づいて、当該居室において広域撮影用カメラが設置された天井の高さを算出する。そして、算出された高さの設置高さに対応して分割領域が設定された領域別パラメーターを取得し得る。制御部１１０は、表示部１３０に撮影装置２００の広域撮影用カメラの設置高さの入力を受け付ける画面を表示して、入力部１４０においてユーザーに入力された設置高さに基づいて、当該設置高さに対応して分割領域が設定された領域別パラメーターを選択してもよい。

　制御部１１０は、領域別推定パタメーターに基づいて、分割領域ごとに、分割領域に対応する辞書を用いて、特徴マップから、物体が含まれる候補矩形２５３を検出する（Ｓ１０５）。

　制御部１１０は、候補矩形２５３ごとに所定のカテゴリーごとの信頼度スコアを算出して、出力矩形２５４を検出することで、対象者５００を検出する（Ｓ１０６）。

　制御部１１０は、出力矩形２５４と、当該出力矩形２５４に対する所定のカテゴリーごとの信頼度スコアを、携帯端末４００へ送信すること等により出力する（Ｓ１０７）。

　本発明に係る実施形態は、以下の効果を奏する。

　撮影画像を分割した分割領域ごとに、各分割領域に対応する辞書を用いて、当該撮影画像から生成した特徴マップから対象物体を検出する。これにより、撮影画像中の領域ごとの対象物の変化に起因した対象物の誤検出を低減し、高速かつ高精度に対象物体を検出できる。

　さらに、撮影画像が広角画像の場合は、分割領域を、広角画像である撮影画像上の位置に対応して変化する歪みの大きさに応じて設定する。これにより、撮影画像が広角画像であっても、広角画像における領域ごとの歪みの大きさによる対象物の変化に起因した対象物の誤検出を低減し、高速かつ高精度に対象物体を検出できる。

　さらに、撮影画像を、当該撮影画像を撮影したカメラからの撮影方向の物体までの距離に対応して、撮影画像上の物体の大きさと当該物体の実際の大きさとの比が変化した画像とし、分割領域を、撮影画像上の物体の大きさと当該物体の実際の大きさとの比の大きさに応じて設定する。これにより、撮影画像が、撮影画像上の物体の大きさと当該物体の実際の大きさとの比が変化した広域撮影画像であっても、広域撮影画像における領域ごとの、撮影画像上の物体の大きさと当該物体の実際の大きさとの比の変化に起因した対象物の誤検出を低減し、高速かつ高精度に対象物体を検出できる。

　さらに、領域別推定パラメーターに基づいて、分割領域ごとに、分割領域に対応する辞書を用いて、物体の所定のカテゴリーごとの信頼度スコアを算出することで、対象物体を検出する。これにより、分割領域ごとに分割領域に対応する辞書を用いて信頼度スコアを算出して対象物体を検出することで、撮影画像中の領域ごとの対象物の変化に起因した対象物の誤検出をより効果的に低減し、高速かつより高精度に対象物体を検出できる。

　さらに、領域別推定パラメーターに基づいて、分割領域ごとに、分割領域に対応する辞書を用いて、特徴マップから物体を検出した後、検出された物体の所定のカテゴリーごとの信頼度スコアを算出することで、物体の中から対象物体を検出する。これにより、物体の検出精度と、物体のカテゴリーごとの信頼度スコアの算出精度を分けて検証できることで、より高精度に対象物体を検出できる。

　さらに、分割領域ごとに、特徴マップと辞書とを用いて、撮影画像において設定した基準矩形の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、当該位置のシフト量およびスケールのシフト量を最小化することで候補矩形２５３を検出する。そして、候補矩形２５３に含まれた物体の所定のカテゴリーごとの信頼度スコアを算出し、信頼度スコアが最も高いカテゴリーが対象物体のカテゴリーとなった候補矩形を、対象物体が含まれた出力矩形と推定することで、対象物体を検出する。また、基準矩形は、分割領域ごとに異なる形状とする。これにより、Ｆａｓｔｅｒ　Ｒ－ＣＮＮを利用して、より簡易に、高速かつ高精度な対象物体の検出を実現できる。

　さらに、撮影画像として広角画像を撮影したカメラのレンズの歪み特性に基づいて、対象物体を検出するために用いる領域別推定パラメーターを、レンズの歪み特性に対応して分割領域が設定された領域別推定パラメーターに切り替える。これにより、より簡単な手順により、広角画像から高速かつ高精度に対象物体を検出できる。

　さらに、撮影画像として広角画像を撮影したカメラの設置高さに基づいて、対象物体を検出するために用いる領域別推定パラメーターを、カメラの設置高さに対応した分割領域が設定された領域別推定パラメーターに切り替える。これにより、より簡単な手順により、広角画像から高速かつ高精度に対象物体を検出できる。

　さらに、広域撮影画像の撮影範囲の広さに基づいて、対象物体を検出するために用いる領域別推定パラメーターを、当該撮影範囲の広さに対応した分割領域が設定された領域別推定パラメーターに切り替える。これにより、より簡単な手順により、広域撮影画像から高速かつ高精度に対象物体を検出できる。

　以上に説明した対象物体検出システム１０の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な対象物体検出システムが備える構成を排除するものではない。

　例えば、対象物体検出装置１００が有する機能を、センサーボックスにより構成される撮影装置２００、または携帯端末４００が備えるようにしてもよい。

　また、対象物体検出装置１００、撮影装置２００、および携帯端末４００は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。

　また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。

　また、対象物体は、人に限定されず、船、猫、または犬等であってもよく、対象物体に複数のカテゴリーが含まれてもよい。

　また、上述した対象物体検出システム１０における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、ＵＳＢメモリやＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）－ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。

　本出願は、２０１８年７月２日に出願された日本特許出願（特願２０１８－１２６３０５号）に基づいており、その開示内容は、参照され、全体として、組み入れられている。

Claims

　撮影された画像を取得する手順（ａ）と、
　前記手順（ａ）により取得された前記画像から特徴マップを生成する手順（ｂ）と、
　前記画像を複数の領域に分割する分割領域と、各分割領域に対応して対象物体を検出するための辞書と、が設定された領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから、対象物体を検出する手順（ｃ）と、
　を有する処理をコンピューターに実行させるための対象物体検出プログラム。
　前記画像は広角画像であり、
　前記分割領域は、前記画像上の位置に対応して変化する歪みの大きさに応じて設定された、請求項１に記載の対象物体検出プログラム。
　前記画像は、前記画像を撮影したカメラからの撮影方向の物体までの距離に対応して、前記画像上の前記物体の大きさと当該物体の実際の大きさとの比が変化した画像であり、
　前記分割領域は、前記比の大きさに応じて設定された、請求項１に記載の対象物体検出プログラム。
　前記手順（ｃ）は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記対象物体を検出する、請求項１～３のいずれか一項に記載の対象物体検出プログラム。
　前記手順（ｃ）は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから物体を検出する手順（ｃ１）と、前記手順（ｃ１）により検出された前記物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記物体の中から前記対象物体を検出する手順（ｃ２）と、を含む、請求項１～３のいずれか一項に記載の対象物体検出プログラム。
　前記手順（ｃ）は、前記分割領域ごとに、前記特徴マップと前記辞書とを用いて、前記画像において設定した基準矩形の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、前記位置のシフト量およびスケールのシフト量を最小化することで前記物体が含まれる候補矩形を検出し、前記候補矩形に含まれた前記物体の所定のカテゴリーごとの信頼度スコアを算出し、前記信頼度スコアが最も高いカテゴリーが前記対象物体のカテゴリーとなった前記候補矩形を、前記対象物体が含まれる出力矩形として出力することで、前記対象物体を検出し、
　前記基準矩形の形状は、前記分割領域ごとに異なる、請求項１～３のいずれか一項に記載の対象物体検出プログラム。
　前記手順（ｃ）は、前記広角画像を撮影したカメラのレンズの歪み特性に基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該レンズの歪み特性に対応して前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項２に記載の対象物体検出プログラム。
　前記手順（ｃ）は、前記広角画像を撮影したカメラの設置高さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該カメラの設置高さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項２に記載の対象物体検出プログラム。
　前記手順（ｃ）は、前記画像の撮影範囲の広さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該撮影範囲の広さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項３に記載の対象物体検出プログラム。
　撮影された画像を取得する取得部と、
　取得された前記画像から特徴マップを生成する特徴マップ生成部と、
　前記画像を複数の領域に分割する分割領域と、各分割領域に対応して対象物体を検出するための辞書と、が設定された領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから、対象物体を検出する検出部と、
　を有する対象物体検出装置。
　前記画像は広角画像であり、
　前記分割領域は、前記画像上の位置に対応して変化する歪みの大きさに応じて設定された、請求項１０に記載の対象物体検出装置。
　前記画像は、前記画像を撮影したカメラからの撮影方向の物体までの距離に対応して、前記画像上の前記物体の大きさと当該物体の実際の大きさとの比が変化した画像であり、
　前記分割領域は、前記比の大きさに応じて設定された、請求項１０に記載の対象物体検出装置。
　前記検出部は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記対象物体を検出する、請求項１０～１２のいずれか一項に記載の対象物体検出装置。
　前記検出部は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから物体を検出する物体検出部と、前記物体検出部により検出された前記物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記物体の中から前記対象物体を検出する対象物体検出部と、を含む、請求項１０～１２のいずれか一項に記載の対象物体検出装置。
　前記検出部は、前記分割領域ごとに、前記特徴マップと前記辞書とを用いて、前記画像において設定した基準矩形の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、前記位置のシフト量およびスケールのシフト量を最小化することで前記物体が含まれる候補矩形を検出し、前記候補矩形に含まれた前記物体の所定のカテゴリーごとの信頼度スコアを算出し、前記信頼度スコアが最も高いカテゴリーが前記対象物体のカテゴリーとなった前記候補矩形を、前記対象物体が含まれる出力矩形として出力することで、前記対象物体を検出し、
　前記基準矩形の形状は、前記分割領域ごとに異なる、請求項１０～１２のいずれか一項に記載の対象物体検出装置。
　前記検出部は、前記広角画像を撮影したカメラのレンズの歪み特性に基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該レンズの歪み特性に対応して前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項１１に記載の対象物体検出装置。
　前記検出部は、前記広角画像を撮影したカメラの設置高さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該カメラの設置高さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項１１に記載の対象物体検出装置。
　前記検出部は、前記画像の撮影範囲の広さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該撮影範囲の広さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項１２に記載の対象物体検出装置。