JP2017182436A - 画像認識装置、及び画像認識プログラム - Google Patents

画像認識装置、及び画像認識プログラム Download PDF

Info

Publication number
JP2017182436A
JP2017182436A JP2016068435A JP2016068435A JP2017182436A JP 2017182436 A JP2017182436 A JP 2017182436A JP 2016068435 A JP2016068435 A JP 2016068435A JP 2016068435 A JP2016068435 A JP 2016068435A JP 2017182436 A JP2017182436 A JP 2017182436A
Authority
JP
Japan
Prior art keywords
image
window
acquired
person
reference line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016068435A
Other languages
English (en)
Other versions
JP6661082B2 (ja
Inventor
英夫 山田
Hideo Yamada
英夫 山田
和宏 久野
Kazuhiro Kuno
和宏 久野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Equos Research Co Ltd
Original Assignee
Equos Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Equos Research Co Ltd filed Critical Equos Research Co Ltd
Priority to JP2016068435A priority Critical patent/JP6661082B2/ja
Priority to US16/088,766 priority patent/US10832044B2/en
Priority to PCT/JP2017/013278 priority patent/WO2017170875A1/ja
Priority to CN201780020977.1A priority patent/CN109074646B/zh
Priority to EP17775409.0A priority patent/EP3441938B1/en
Publication of JP2017182436A publication Critical patent/JP2017182436A/ja
Application granted granted Critical
Publication of JP6661082B2 publication Critical patent/JP6661082B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】認識対象の一部が画像の外側に出ている場合でも認識対象を検出する。【解決手段】画像認識装置は、撮影画像1の周囲に所定の画像データで埋めた余白領域10を追加して撮影画像1よりも大きい拡張画像11を作成する。人物がカメラに接近しすぎると、人物像5の一部が撮影画像1からはみ出すが、画像認識装置は、余白領域10も含む大きな検出窓3eを設定することにより、はみ出た領域をも含む窓画像4eを拡張画像11から取り出す。窓画像4eは、人物像5のはみ出た部分を欠いてはいるが、人物像5の全身を写した画像となる。画像認識装置は、人物8が種々の状態(歩行、走行、ジャンプ、座り等の各姿勢に対して、手や足の位置や向き等が異なる状態)を想定した多数の基準画像7を記憶している。画像認識装置は、窓画像4eから特徴を抽出し、これを基準画像7の特徴と比較することにより人物像5を認識する。【選択図】図2

Description

本発明は、画像認識装置、及び画像認識プログラムに関し、例えば、画像に写っている対象物を認識するものに関する。
近年、ロボットや車両にカメラを搭載し、撮影された画像から対象物を認識して制御に用いたり、あるいは、カメラを街路に設置して人を画像認識し、これによって人の往来を観察したりなど、画像認識技術が産業や社会の各方面で利用されるようになってきた。
これら画像認識技術には、対象物や非対象物(対象物ではないと認識するのに必要)の特徴を表す基準画像を画像認識装置に記憶させておき、基準画像とカメラ画像の特徴を比較することにより行うものがある。
このような画像認識技術として、特許文献1の「物体検出装置」がある。
この技術は、HOG(Histogram of Oriented Gradients)特徴量を用いて画像に写った物体を検出するものである。
図7は、従来例の画像認識方法を説明するための図である。
図7(a)に示したように、カメラで撮影した画像1に認識対象である人物像5が写っているとする。
画像認識装置は、この人物像5を次のようにして検出する。
まず、画像認識装置は、人物の画像1での立ち位置に応じた複数の基準線(ベースライン)を設定する。
図の例では、カメラから1m、5m、10m、15mの位置に基準線2a、2b、2c、2dが設定されている。
人物は、カメラから遠いほど画像1の上側に写るため、基準線2(基準線2a〜2dを特に区別しない場合は、単に基準線2と記し、他の要素についても同様とする)は、画像1の下からこの順に設定される。
次に、画像認識装置は、基準線2を下端とする検出窓3a〜3dを基準線2ごとに設定する。
検出窓3の大きさは、基準線2で規定される距離に人物が立っていた場合に、全身が収まる程度の大きさに設定されている。
これは、人物の全身が写った基準画像を使用しているため、基準画像との整合性を図るためである。
次に、画像認識装置は、検出窓3を基準線2に沿って移動(シフト)させながら検出窓3で囲まれた窓画像4の特徴を抽出し、これを予め記憶している基準画像の特徴と比較する。そして両者の類似性(相関)により人物を認識する。
この例では、図7(b)に示したように人物像8が写った基準画像7の特徴と、検出窓3cで囲まれた領域の窓画像4cの特徴を比較して人物像5が認識される。
ところで、人物がカメラに接近しすぎると、図7(c)に示したように、人物像5が画像1からはみ出てしまい、最も大きい検出窓3aを用いたとしても、人物像5の頭部や下肢などを欠いた窓画像4aが得られる。
これにより、画像認識装置は、図7(d)に示したように、人物像8の全体が写った基準画像7の特徴と、人物像5の一部が画面全体に写った窓画像4aの特徴を比較することになる。
この場合、画像における人物の形、大きさ、構図などが全く異なるため、基準画像7の特徴から窓画像4aで人物像5を認識することは困難である。
更に、画像の特徴としてHOGなどの輝度勾配を用いる手法を用いる場合、頭部が寸断されたエッジ部分100では、画像の端部であるため、輝度勾配の計算、即ち特徴の抽出が困難であり、計算のための何らかの工夫を施す必要がある。
このような問題に対して、人物の一部が画像の外側に出ている状態の基準画像を作り画像認識装置に記憶しておく方法も考えられるが、これを実行するには様々な態様で人物の一部が画像の外側に出ている基準画像を記憶する必要があり、記憶すべきデータ量が膨大となって実現は困難である。
具体的には、1の対象物に対する基準画像(全体が写った画像)が複数(数千枚程度)存在し、その各々に対して上下が欠けた各種状態の画像、右側が欠けた各種状態の画像、左側が欠けた各種状態の画像、上下と左右の一方が欠けた各種状態の画像を準備、記憶する必要があり膨大な量になってしまう。
このように、従来技術は、認識対象の一部が画像の外に出ている場合にこれを認識できないという問題があった。
特に、画像認識装置をロボットや車両などの移動体に搭載する場合、遠くの対象物を認識する場合よりも、例えば、対象物の回避動作を素早く行うためにも、接近した対象物(人や物)を適確に認識することが重要になる場面が多い。
このように、近距離に対する認識要請が高い場合にも係わらず、認識対象の全体がカメラの画角に入りきらないことが原因で認識できなかった。
特開2016−12311号公報
本発明は、認識対象の一部が画像の外側に出ている場合でも認識対象を検出することを目的とする。
(1)本発明は、前記目的を達成するために、請求項1に記載の発明では、画像を取得する画像取得手段と、前記画像取得手段から被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定手段と、前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定手段と、前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得手段と、前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得手段と、前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定手段と、前記判定による判定結果を出力する出力手段と、を具備したことを特徴とする画像認識装置を提供する。
(2)請求項2に記載の発明では、前記取得した窓画像から当該窓画像の特徴を表す窓画像特徴データを抽出する窓画像特徴データ抽出手段を具備し、前記判定手段は、前記取得した基準特徴データと前記抽出した窓画像特徴データを比較することにより前記判定を行うことを特徴とする請求項1に記載の画像認識装置を提供する。
(3)請求項3に記載の発明では、前記基準線設定手段が、前記取得した画像の下側の当該画像の外側の領域に前記基準線を設定することを特徴とする請求項1、又は請求項2に記載の画像認識装置を提供する。
(4)請求項4に記載の発明では、前記基準線設定手段が、前記取得した画像の水平方向の外側に前記基準線を設定することを特徴とする請求項1、請求項2、又は請求項3に記載の画像認識装置を提供する。
(5)請求項5に記載の発明では、前記取得した窓画像が前記取得した画像の外側の領域を含む場合に、当該外側の領域を所定の画像データで補完する補完手段を具備したことを特徴とする請求項1から請求項4までのうちの何れか1の請求項に記載の画像認識装置を提供する。
(6)請求項6に記載の発明では、前記補完手段が、前記取得した画像の周囲に前記所定の画像データからなる余白領域を設定することにより、前記外側の領域を前記所定の画像データで補完することを特徴とする請求項5に記載の画像認識装置を提供する。
(7)請求項7に記載の発明では、前記補完手段が、前記取得した窓画像が前記外側の領域を含む場合に、当該外側の領域に前記所定の画像データを追加することにより補完することを特徴とする請求項5に記載の画像認識装置を提供する。
(8)請求項8に記載の発明では、前記判定手段が、比較に際して、前記窓画像に含まれる前記画像の外側の領域の部分の重み付けを他の部分の重み付けよりも小さく設定することを特徴とする請求項2に記載の画像認識装置を提供する。
(9)請求項9に記載の発明では、画像を取得する画像取得機能と、被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定機能と、前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定機能と、前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得機能と、前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得機能と、前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定機能と、前記判定による判定結果を出力する出力機能と、をコンピュータで実現する画像認識プログラムを提供する。
本発明によれば、検出窓領域を画像の外側に拡張することにより、認識対象の一部が画像の外側に出ている場合でも認識対象を検出することができる。
画像認識装置が行う検出窓の設定方法を説明するための図である。 人物が画像からはみ出た場合の処理を説明するための図である。 人物が画像からはみ出た場合の処理を説明するための図である。 人物が画像からはみ出た場合の処理を説明するための図である。 画像認識装置のハードウェア構成の一例を示した図である。 画像認識装置の動作を説明するためのフローチャートである。 従来例の画像認識方法を説明するための図である。
(1)実施形態の概要
図2(a)に示したように、画像認識装置は、カメラで撮影した撮影画像1の周囲に所定の画像データで埋めた余白領域10を追加して撮影画像1よりも大きい拡張画像11を作成する。
人物がカメラに接近しすぎると、人物像5の一部が撮影画像1からはみ出すが、画像認識装置は、余白領域10も含む大きな検出窓3eを設定することにより、はみ出た領域をも含む窓画像4eを拡張画像11から取り出す。
図2(b)に示したように、窓画像4eは、人物像5のはみ出た部分(頭部と下肢の一部)を欠いてはいるが、人物像5の全身を写した画像となる。
画像認識装置は、人物8が種々の状態(歩行、走行、ジャンプ、座り等の各姿勢に対して、手や足の位置や向き等が異なる状態等)を想定した多数の基準画像7を記憶している。
なお、本実施形態では、基準画像7そのものの画像データではなく、各基準画像7から予め抽出した特徴量を記憶することで記憶すべきデータ量を減らすと共に、基準画像7の特徴量を抽出する処理負荷を減らして認識速度を向上させているが、基準画像7を記憶するようにしてもよい。
そして、画像認識装置は、窓画像4eから特徴を抽出し、これを基準画像7の特徴量(以下たんに基準画像7という。)と比較することにより人物像5を認識する。
基準画像7と窓画像4eは、余白領域10に相当する部分は似ていないものの、撮影画像1に相当する部分は類似するため、基準画像7の特徴によって人物像5を認識することが可能となる。
(2)実施形態の詳細
図1は、本実施の形態に係る画像認識装置が行う検出窓の設定方法を説明するための図である。
画像認識装置は、カメラから撮影画像1を得ると、撮影画像1の外周部の全周に渡って白色の画像データで埋められた余白領域10を追加する。
これにより、画像認識装置は、撮影画像1の上下端部をy方向(縦方向)に拡張し、左右端部をx方向(横方向)に拡張した拡張画像11を作成する。
ここで拡張画像11による上下方向拡張量yと横方向拡張量xについて説明する。
拡張量については、カメラの撮影状態や撮像画像1の画角やサイズ等により任意に決定される。
例えば、撮像画像1のサイズが横1280ピクセル、縦720ピクセルである場合、上下左右の各々に対して200ピクセル分の余白領域10を追加する。
また、一例として、撮影画像1の最下部に基準線2を設定した場合の検出窓3のサイズを基準サイズとし、上下方向の各々に基準サイズのn%を拡張し、左右方向の各々に基準サイズのm%とする。
nとmの値は、認識対象に対応した基準画像7に応じて決定され、例えば、25%、30%、50%等が使用され、nとmは同じ値であっても異なる値であってもよい。また、基準画像の縦横比に基づいてnとmの比率を決定するようにしてもよい。
このように、画像認識装置は、画像を取得する画像取得手段と、当該取得した画像の周囲に所定の画像データからなる余白領域10を設定することにより、当該外側の領域を当該所定の画像データで補完する補完手段を備えている。
ここで、一例として余白領域10を白色の画像データで埋めたのは、後ほど画像の輝度勾配の分布による、基準画像の特徴データとの比較を行うため、余白領域10においてノイズとなる輝度勾配が発生するのを抑制するためである。
そのため、認識精度に影響しないなら他の色や模様の画像データによって余白領域10を補完してもよい。
画像認識装置は、このようにして拡張画像11を形成した後、1m、5m、10m、15mに対応する基準線2a〜2dをx方向に延長して、撮影画像1の外側の余白領域10まで設定する。
更に、画像認識装置は、カメラから50cmの距離に対応する基準線2eを撮影画像1の下方外側の余白領域10に追加する。
なお、これら基準線2を設定する距離や本数については、一例であって、画像認識装置の用途や認識対象によって各種の設定が可能である。
例えば、本実施形態の場合、撮影画像1内に8本を設定し、更に拡張した余白領域10に2本を設定するようにしている。但し、図面では複雑化を避けるために減らして表示している。
このように、画像認識装置は、被写体の遠近に対応し、少なくとも一部が撮影画像1の外側の領域に位置する基準線2a〜2eを、撮影画像1に対して水平方向に設定する基準線設定手段を備えている。
そして、当該基準線設定手段は、撮影画像1の下側の当該撮影画像1の外側の領域に基準線2eを設定し、撮影画像1の水平方向の外側に基準線2a〜2dを設定している。
画像認識装置は、基準線2a〜2eを設定すると、これらに対応する矩形形状の検出窓3a〜3eを設定する。
検出窓3a〜3dは、従来例のものと同様であり、人物の全身が検出窓3に程よく収まるように基準線2の位置に応じて(カメラからの距離が遠くなるにつれて)窓枠が小さくなるように形成されている。
そして、検出窓3a〜3dは、延長された基準線2に沿って、撮影画像1の水平方向外側に位置する余白領域10まで移動できるようになっている。
検出窓3eは、基準線2eの新設に伴って新たに追加されたものである。
検出窓3eの窓枠は、人物がカメラから50cm程度の距離に立っている場合に、撮影画像1からはみ出る部分も含めて当該人物の全身が程よく収まる程度の大きさに形成されている。
この例では、検出窓3eは、撮影画像1の上下端の外側の余白領域10に渡って設定されている。
検出窓3eは、基準線2eに沿って水平方向に移動し、余白領域10を含めた拡張画像11を走査することができる。
このように、拡張画像11の余白領域10もカバーするように検出窓3を設定したため、人物が左右に移動して撮影画像1の左右端からはみ出した場合でも検出窓3a〜3dで捕捉することができ、また、人物がカメラに近づきすぎて撮影画像1の上下端からはみ出た場合でも検出窓3eで捕捉することができる。
以上のように、画像認識装置は、基準線2a〜2eに応じた大きさの検出窓3a〜3eを基準線2に沿って設定する検出窓設定手段を備えている。
図2の各図は、人物がカメラに接近して撮影画像1からはみ出た場合の処理を説明するための図である。
図2(a)の波線で示したように、人物がカメラから50cm〜1m程度に近づくと、当該人物の人物像5は、頭部が撮影画像1の上端からはみ出し、下肢が撮影画像1の下端からはみ出して撮影されない。
しかし、検出窓3eは、撮影画像1の上端側と下端側で余白領域10まで拡張されているため、画像認識装置は、図2(b)に示したように、頭部と下肢は欠けているものの人物像5の全身を写した窓画像4eを得ることができる。
ここで、窓画像4eは、検出窓3eによって拡張画像11から取得された画像であって、境界線21、22は、撮影画像1と余白領域10の境界を表している。
このように、画像認識装置は、検出窓3eに含まれる領域の窓画像4eを取得する窓画像取得手段を備えている。
そして、補完手段によって、余白領域10が所定の画像データで補完されているため、窓画像4eが撮影画像1の外側の領域を含む場合に、当該外側の領域が補完手段によって所定の画像データで補完されている。
また、この例では、予め所定の画像データで余白領域10を補完しておいて検出窓3eで拡張画像11を取り出したが、検出窓3eで余白領域10の部分の欠損した撮影画像1のサイズの窓画像4eを取り出して、その後、余白領域10を所定の画像データで補完することも可能である。
この場合、補完手段は、窓画像4eが撮影画像1の外側の領域を含む場合に、当該外側の領域に所定の画像データを追加することにより補完している。
あるいは、予め余白の設定値に基づく(例えば、白色の)拡張画像11を用意しておき、その拡張画像11の中央部に画像1を書き込むことで画像1の周囲に余白が設定された拡張画像11を作成するようにしてもよい。
窓画像4eを基準画像7と比べてみると、人物像5の頭部と下肢が欠損しているものの、両者の構図は近く、頭部と下肢以外の部分は、特徴がよく似ている。
そのため、基準画像7から抽出した特徴(特徴量)と窓画像4eから抽出した特徴(特徴量)の類似度(相関)が大きくなり、窓画像4eの人物像5を認識することが可能となる。実験によってもそのような結果が得られている。
なお、画像認識装置は、予め各基準画像7から抽出した特徴を記憶しており、これを窓画像4eから抽出した特徴と比較して比較結果を出力するようになっている。
このように、画像認識装置は、認識対象の特徴を表した基準特徴データ(基準画像7から抽出した特徴データ)を取得する基準特徴データ取得手段と、当該取得した基準特徴データを用いて窓画像4eに認識対象(人物像5)が含まれるか否かを判定する判定手段と、当該判定による判定結果を出力する出力手段を備えている。
更に、画像認識装置は、窓画像4eから当該窓画像4eの特徴を表す窓画像特徴データ(窓画像4eの特徴)を抽出する窓画像特徴データ抽出手段を備えており、判定手段は、当該取得した基準特徴データと当該抽出した窓画像特徴データを比較することにより判定を行っている。
窓画像4eから人物像5を認識する技術は、既存の各種のものが使用可能であるが、本実施の形態では、一例として、MRCoHOG(Multi Resolution CoHOG)技術を用いた。
MRCoHOG技術は、輝度勾配を用いて画像認識する系統の技術であり、HOG技術を改良したCoHOG(Co−occurrence HOG)技術を更に改良して、処理演算量を低減させつつ、頑健性(ロバスト性)を維持したものである。
HOG技術では、画像をセルと呼ばれる小領域に区分する。そして、セル内の各画素の輝度勾配を、例えば、8方向に量子化し、どの方向の輝度勾配がどの頻度で出現しているか、のヒストグラムを作成する。
そして、複数のセルを含むブロック単位でヒストグラムを正規化した後、全セルのヒストグラムを一列に並べて出力したものが当該画像の特徴となる。
これを基準画像7の特徴と比較することにより、画像中の認識対象を認識することができる。認識対象の認識については、例えば、所定閾値以上の尤度であるか否かによる。
CoHOG技術では、HOG技術と同様に画面をセル(ブロックとも呼ばれる)に分割し、セル内の各画素の輝度勾配を量子化する。
そして、セル内のある画素に注目し、この画素の輝度勾配方向と予め指定された周辺の画素の輝度勾配方向との組合せ(共起)により、ヒストグラムへの投票を行う。これをセル内の全画素について行う。
例えば、注目画素の輝度勾配方向が右方向で、隣の画素の輝度勾配が上方向であったら、右行上列の行列要素に一票を投じる。このようにしてセルごとに共起行列が作成される。
そして、全セルの共起行列要素を一列に並べて出力したものが当該画像の特徴となる。
基準画像7の特徴量と比較することにより、画像中の対象を認識することができる。
MRCoHOG技術では、同じ対象を写した異なる解像度の画像間で共起をとる。
例えば、高解像度画像から中解像度画像と低解像度画像を作成することにより、高中低の3種類の解像度の画像を用意する。
そして、高解像度画像のある画素に注目し、当該画素の輝度勾配の方向と、これに隣接する中解像度、及び低解像度の画素の輝度勾配の方向の組合せにより共起行列に投票する。これを高解像度画像の全ての画素について行う。
場合によっては、中解像度画像や低解像度画像の画素を注目画素として同様の投票を行う。
そして、全共起行列要素を一列に並べて出力したものが当該画像の特徴となる。
これを基準画像7の特徴と比較することにより、画像中の対象を認識することができる。
なお、CoHOG技術やHOG技術を使用する場合、複数の基準画像7から抽出した各特徴データから1の統一基準特徴データを作成(学習)し、この統一基準特徴データを認識対象毎に記憶するようにしてもよい。これにより、窓画像4との比較量を大幅に削減することができる。
本実施の形態では、このように画像認識に輝度勾配を用いるため、頭部のエッジ部分100に着目すると、余白領域10がなかった場合、隣接する画素がないため輝度勾配が計算できない。
しかし、窓画像4eでは、余白領域10の追加によりエッジ部分100の隣接画素が形成されているため、この部分での輝度勾配を計算することが可能であり、これら輝度勾配を用いた特徴抽出技術を利用することができる。
図2(c)は、基準画像7と窓画像4eの相関を更に高めるための試みを説明するための図である。
基準画像7と窓画像4eを比較すると、余白領域10の部分が明らかに似ていない。そのため、この例では、基準画像7と窓画像4eの類似を判定する際に、余白領域10に相当する領域25の重み付けを小さくする。
このように基準画像7と窓画像4eの撮影画像1に相当する部分に比べて余白領域10に相当する部分の重み付けを小さくして両者の特徴の類似を判断することにより、より認識精度を高めることができる。
この例では、判定手段は、比較に際して、窓画像4eに含まれる撮影画像1の外側の領域の部分の重み付けを他の部分の重み付けよりも小さく設定している。
なお、領域25は、余白領域10と厳密に一致している必要はなく、実験や状況に応じてどの程度の範囲に領域25を設定したらよいか決めればよい。
例えば、輝度勾配による特徴量を抽出する場合、撮影画像1と余白領域10の境界(頭部や下肢の切断箇所)で、本来の人物像5とは異なった輝度勾配が生じるため、これがノイズになる可能性がある。
その場合は、これら切断箇所を覆う位置まで領域25を拡張し、当該箇所の重み付けを小さくすればよい。
図3の各図は、人物がカメラに接近して撮影画像1の上下端からはみ出ると共に左端からもはみ出た場合の処理を説明するための図である。
図3(a)の波線で示したように、人物がカメラから50cm〜1m程度に近づき、画角の左端に寄ると、当該人物の人物像5は、頭部が撮影画像1の上端からはみ出し、下肢が撮影画像1の下端からはみ出し、左側の部分が撮影されない。
しかし、検出窓3eは、撮影画像1の上下端側、及び左端側で余白領域10まで拡張されているため、画像認識装置は、図3(b)に示したように、頭部、下肢、及び左部分は欠けているものの人物像5の全身を写した窓画像4eを得ることができる。
窓画像4eを基準画像7と比べてみると、人物像5の頭部、下肢、及び左部分が境界線21〜23の外側で欠損しているものの、両者の構図は近く、欠損部分以外は、特徴がよく似ている。
そのため、基準画像7から抽出した特徴量と窓画像4eから抽出した特徴量が類似し、窓画像4eの人物像5を認識することが可能となる。
図3(c)は、基準画像7と窓画像4eの相関を更に高めるための試みを説明するための図である。
上の例と同様に、余白領域10に対応する部分(上下端部と左端部)に領域25を設定し、この部分における特徴量比較の重み付けを他の部分よりも小さく設定する。
これにより、認識精度の向上が期待できる。
図4の各図は、カメラから人物までの距離は、人物の全身が撮影画像1に写る距離であるものの、人物が撮影画像1の左端に寄ってしまったため、人物像5の左部分が撮影画像1の外側にはみ出た場合の処理を説明するための図である。
図4(a)で示したように、人物の左部分は、撮影画像1の外側に位置するためこの部分の画像は得られないが、検出窓3bは、延長した基準線2b上を左側に移動可能なため、図4(b)に示したように、左部分が欠損するものの人物の全身が写った窓画像4bが得られる。
このように画像認識装置は、接近により撮影画像1からはみ出る人物のほか、カメラからの距離は適切であるが、カメラの画角からはみ出る人物に対しても画像認識を行うことができる。
窓画像4bを基準画像7と比べてみると、人物像5の左部分が欠損しており余白領域10で置き換えられているものの、両者の構図は近く、欠損部分以外は、特徴がよく似ている。
そのため、基準画像7から抽出した特徴量と窓画像4bから抽出した特徴量を比較することにより窓画像4の人物像5を認識することができる。
また、余白領域10に領域25を設定してこの部分の重み付けを小さくすることにより認識精度を高めることもできる。
図5は、本実施の形態に係る画像認識装置30のハードウェア構成の一例を示した図である。
画像認識装置30は、CPU(Central Processing Unit)31、ROM(Read Only Memory)32、RAM(Random Access Memory)33、カメラ34、記憶装置35、入力装置36、出力装置37などがバスラインで接続されたパーソナルコンピュータを用いて構成されている。
CPU31は、記憶装置35に記憶された画像認識プログラムに従って画像認識処理を行うほか、画像認識装置30の各部の制御などを行う。
より詳細には、CPU31は、カメラ34から入力される画像フレームに対して余白領域10の設定による拡張画像11の形成、拡張画像11に対する基準線2a〜2e、及び検出窓3a〜3eの設定、窓画像4からの特徴量の抽出と、当該抽出した特徴量と学習データ(基準画像から抽出した特徴量)の相関による人物像5の認識などを行う。
ROM32は、CPU31が画像認識装置30を動作させるための基本的なプログラムやパラメータなどを記憶した読み取り専用のメモリである。
RAM33は、CPU31が上記処理を行うためのワーキングメモリを提供する読み書きが可能なメモリである。
カメラ34による画像フレームや基準画像7の特徴量はRAM33に展開されてCPU31により利用される。
カメラ34は、所定のインターフェースを介して画像認識装置30に接続されており、投影像を電気信号に変換する撮像面を有する撮像素子と、当該撮像面上に被写体を投影する光学系を用いて構成されている。
カメラ34は、所定のフレームレートで被写体(レンズの前方の風景であり、人物と背景から成る)の動画を出力し、各フレームを構成する画像が画像認識処理の対象となる。
記憶装置35は、例えば、ハードディスクや半導体メモリなどの記憶媒体を用いた記憶装置であり、CPU31に上記の画像認識処理を行わせるための画像認識プログラムを記憶している。
また、記憶装置35は、人物像5を認識するために大量の基準画像7に対する特徴量も記憶しており、これらを画像認識処理のためにCPU31に提供する。
入力装置36は、画像認識装置30に各種の情報を入力する装置であり、例えば、キーボード、マウスなどの入力デバイスで構成されている。
ユーザは、キーボード操作やマウス操作によってコマンドを入力するなどして画像認識装置30を操作することができる。
出力装置37は、画像認識装置30が各種の情報を出力する装置であり、例えば、ディスプレイ、プリンタなどの出力デバイスで構成されている。
ユーザは、ディスプレイに表示された操作画面に従いながら画像認識装置30を操作することができる。
以上の構成は、一例であって、画像認識装置30を画像キャプチャボードに組み込んでロボットに搭載するなど、実装形態に応じた構成を採用することができる。
図6は、画像認識装置30の動作を説明するためのフローチャートである。
以下の動作は、画像認識装置30のCPU31が画像認識プログラムに従って行うものである。
まず、CPU31は、カメラ34から撮影画像1の画像データを取得してRAM33に記憶する(ステップ5)。
次に、CPU31は、撮影画像1に余白領域10を追加し、又は予め用意した拡張画像11の中央部に撮影画像1を書き込むことで、拡張画像11の画像データを作成し、RAM33に記憶する(ステップ10)。
次に、CPU31は、検出窓3a〜3eを生成し、これらを拡張画像11の初期位置(左端)に設定する(ステップ15)。
検出窓3を設定した後、CPU31は、各検出窓3に囲まれている画像(窓画像)の画像データを取得してRAM33に記憶する(ステップ20)。
そして、CPU31は、これらの画像データから、例えば、HOGなどの所定のアルゴリズムに従って特徴量を抽出してRAM33に記憶する(ステップ25)。
次に、CPU31は、多数の基準画像7の特徴をRAM33から読み出し、窓画像の画像データから抽出した特徴と比較して、その類似性から窓画像に人物が写っているか否かを判定する(ステップ30)。
そして、CPU31は、判定結果を所定の出力先に出力した後(ステップ35)、検出窓3の右端が拡張画像11の右端に達したか否かを判断する(ステップ40)。
右端に達した検出窓3があった場合(ステップ40;Y)、その検出窓3に関しては、拡張画像11を全て走査したので画像認識処理を終了する。
一方、まだ右端に達していない検出窓3があった場合(ステップ40;N)、その検出窓3に関しては、まだ画像認識処理が終了していないため、当該検出窓3を右水平方向に移動して(ステップ45)、ステップ20に戻る。
以上の処理では、検出窓3a〜3eによる人物像5の検索を平行して同時に行ったが、例えば、まず、検出窓3aによる検索を行った後、検出窓3bによる検索を行うなど、順に行ってもよい。
以上に説明した実施の形態により、次のような効果を得ることができる。
(1)元画像の縦横に余白を追加することにより元画像を大きくすることができ、追加余白部分に対応した検出窓を追加した検出器に、その画像をかけることで、一部がカメラ外に出てしまった対象が認識可能となる。
(2)画像認識できる特徴量を有するにもかかわらず、撮影画像1の周辺部から一部がはみ出るため従来は捨てられていた画像に対しても画像認識を行うことができる。
(3)余白領域10を追加することにより、画像認識できる範囲を撮影画像1の外側に拡張することができる。
(4)撮影画像1からはみ出た人物像5を認識するために撮影画像1からはみ出た人物像5を大量に記憶する必要がなく、全身を撮影した標準の基準画像7を用いることができる。
1 画像
2 基準線
3 検出窓
4 窓画像
5 人物像
7 基準画像
8 人物像
10 余白領域
11 拡張画像
21、22、23 境界線
25 領域
30 画像認識装置
31 CPU
32 ROM
33 RAM
34 カメラ
35 記憶装置
36 入力装置
37 出力装置
100 エッジ部分

Claims (9)

  1. 画像を取得する画像取得手段と、
    前記画像取得手段から被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定手段と、
    前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定手段と、
    前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得手段と、
    前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得手段と、
    前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定手段と、
    前記判定による判定結果を出力する出力手段と、
    を具備したことを特徴とする画像認識装置。
  2. 前記取得した窓画像から当該窓画像の特徴を表す窓画像特徴データを抽出する窓画像特徴データ抽出手段を具備し、
    前記判定手段は、前記取得した基準特徴データと前記抽出した窓画像特徴データを比較することにより前記判定を行うことを特徴とする請求項1に記載の画像認識装置。
  3. 前記基準線設定手段は、前記取得した画像の下側の当該画像の外側の領域に前記基準線を設定することを特徴とする請求項1、又は請求項2に記載の画像認識装置。
  4. 前記基準線設定手段は、前記取得した画像の水平方向の外側に前記基準線を設定することを特徴とする請求項1、請求項2、又は請求項3に記載の画像認識装置。
  5. 前記取得した窓画像が前記取得した画像の外側の領域を含む場合に、当該外側の領域を所定の画像データで補完する補完手段を具備したことを特徴とする請求項1から請求項4までのうちの何れか1の請求項に記載の画像認識装置。
  6. 前記補完手段は、前記取得した画像の周囲に前記所定の画像データからなる余白領域を設定することにより、前記外側の領域を前記所定の画像データで補完することを特徴とする請求項5に記載の画像認識装置。
  7. 前記補完手段は、前記取得した窓画像が前記外側の領域を含む場合に、当該外側の領域に前記所定の画像データを追加することにより補完することを特徴とする請求項5に記載の画像認識装置。
  8. 前記判定手段は、比較に際して、前記窓画像に含まれる前記画像の外側の領域の部分の重み付けを他の部分の重み付けよりも小さく設定することを特徴とする請求項2に記載の画像認識装置。
  9. 画像を取得する画像取得機能と、
    被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定機能と、
    前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定機能と、
    前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得機能と、
    前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得機能と、
    前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定機能と、
    前記判定による判定結果を出力する出力機能と、
    をコンピュータで実現する画像認識プログラム。
JP2016068435A 2016-03-30 2016-03-30 画像認識装置、及び画像認識プログラム Active JP6661082B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2016068435A JP6661082B2 (ja) 2016-03-30 2016-03-30 画像認識装置、及び画像認識プログラム
US16/088,766 US10832044B2 (en) 2016-03-30 2017-03-30 Image recognition device and image recognition program
PCT/JP2017/013278 WO2017170875A1 (ja) 2016-03-30 2017-03-30 画像認識装置、及び画像認識プログラム
CN201780020977.1A CN109074646B (zh) 2016-03-30 2017-03-30 图像识别装置以及图像识别程序
EP17775409.0A EP3441938B1 (en) 2016-03-30 2017-03-30 Image recognition device and image recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016068435A JP6661082B2 (ja) 2016-03-30 2016-03-30 画像認識装置、及び画像認識プログラム

Publications (2)

Publication Number Publication Date
JP2017182436A true JP2017182436A (ja) 2017-10-05
JP6661082B2 JP6661082B2 (ja) 2020-03-11

Family

ID=59965957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016068435A Active JP6661082B2 (ja) 2016-03-30 2016-03-30 画像認識装置、及び画像認識プログラム

Country Status (5)

Country Link
US (1) US10832044B2 (ja)
EP (1) EP3441938B1 (ja)
JP (1) JP6661082B2 (ja)
CN (1) CN109074646B (ja)
WO (1) WO2017170875A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI647625B (zh) * 2017-10-23 2019-01-11 緯創資通股份有限公司 判斷使用者之姿勢之影像偵測方法以及影像偵測裝置
TWI637354B (zh) 2017-10-23 2018-10-01 緯創資通股份有限公司 判斷使用者之姿勢之影像偵測方法以及影像偵測裝置
WO2022034798A1 (ja) * 2020-08-14 2022-02-17 Jfeスチール株式会社 スクラップ判別システム、及びスクラップ判別方法
CN113112470B (zh) * 2021-04-08 2023-12-15 揭阳市柏亿不锈钢有限公司 一种基于人工智能的冷轧过程钢材弯曲检测分析方法
JP7775151B2 (ja) * 2022-06-21 2025-11-25 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
CN116352267B (zh) * 2023-04-11 2025-11-04 苏州智慧谷激光智能装备有限公司 接线盒焊接检测方法
JP2025049761A (ja) * 2023-09-22 2025-04-04 株式会社Jvcケンウッド 認識処理装置および認識処理方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006950B1 (en) * 2000-06-12 2006-02-28 Siemens Corporate Research, Inc. Statistical modeling and performance characterization of a real-time dual camera surveillance system
JP2004235711A (ja) 2003-01-28 2004-08-19 Nissan Motor Co Ltd 対象物追跡システムおよび対象物追跡方法
WO2013108371A1 (ja) * 2012-01-17 2013-07-25 パイオニア株式会社 画像処理装置、画像処理サーバ、画像処理方法、画像処理プログラム、及び記録媒体
JP5935118B2 (ja) 2012-05-30 2016-06-15 株式会社日立製作所 物体検出装置および物体検出方法
CN102855496B (zh) * 2012-08-24 2016-05-25 苏州大学 遮挡人脸认证方法及系统
CN103065163B (zh) * 2013-02-04 2015-10-14 成都神州数码索贝科技有限公司 一种基于静态图片的快速目标检测识别系统及方法
JP6163453B2 (ja) * 2014-05-19 2017-07-12 本田技研工業株式会社 物体検出装置、運転支援装置、物体検出方法、および物体検出プログラム
JP6570219B2 (ja) 2014-06-30 2019-09-04 日本信号株式会社 物体検出装置
CN104092991A (zh) * 2014-07-11 2014-10-08 金陵科技学院 针对目标跟踪控制的图像信号综合处理装置及实现方法

Also Published As

Publication number Publication date
CN109074646A (zh) 2018-12-21
US10832044B2 (en) 2020-11-10
CN109074646B (zh) 2022-09-27
JP6661082B2 (ja) 2020-03-11
EP3441938A4 (en) 2019-09-04
WO2017170875A1 (ja) 2017-10-05
EP3441938A1 (en) 2019-02-13
US20190130178A1 (en) 2019-05-02
EP3441938B1 (en) 2023-08-16

Similar Documents

Publication Publication Date Title
JP6661082B2 (ja) 画像認識装置、及び画像認識プログラム
JP5726125B2 (ja) 奥行き画像内の物体を検出する方法およびシステム
JP6636154B2 (ja) 顔画像処理方法および装置、ならびに記憶媒体
US11087169B2 (en) Image processing apparatus that identifies object and method therefor
US10079974B2 (en) Image processing apparatus, method, and medium for extracting feature amount of image
CN103003842B (zh) 运动物体检测装置、运动物体检测方法、运动物体跟踪装置、运动物体跟踪方法
JP6217635B2 (ja) 転倒検知装置および転倒検知方法、転倒検知カメラ、並びにコンピュータ・プログラム
US8958641B2 (en) Moving object detection device
JP2013533998A (ja) 自己類似性を用いる画像内オブジェクトの検出
JP2008257713A (ja) 透視変換歪み発生文書画像補正装置および方法
JP2008192131A (ja) 特徴レベル・セグメンテーションを実行するシステムおよび方法
KR101279561B1 (ko) 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법
CN109919128B (zh) 控制指令的获取方法、装置及电子设备
JP2013206458A (ja) 画像における外観及びコンテキストに基づく物体分類
JP2013037539A (ja) 画像特徴量抽出装置およびそのプログラム
CN107368832A (zh) 基于图像的目标检测及分类方法
KR101758693B1 (ko) 물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치
JP6276504B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
JP2017033556A (ja) 画像処理方法及び電子機器
JP5217917B2 (ja) 物体検知追跡装置,物体検知追跡方法および物体検知追跡プログラム
KR101601564B1 (ko) 얼굴의 원형 블록화를 이용한 얼굴 검출 방법 및 그 장치
JP6962662B2 (ja) 検出装置及びプログラム
JP5713655B2 (ja) 映像処理装置、映像処理方法及びプログラム
KR102414953B1 (ko) 전경 추출 방법 및 장치
KR101349672B1 (ko) 영상 특징 고속 추출 방법 및 이를 지원하는 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200106

R150 Certificate of patent or registration of utility model

Ref document number: 6661082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150