JP2017182436A

JP2017182436A - 画像認識装置、及び画像認識プログラム

Info

Publication number: JP2017182436A
Application number: JP2016068435A
Authority: JP
Inventors: 英夫山田; Hideo Yamada; 和宏久野; Kazuhiro Kuno
Original assignee: Equos Research Co Ltd
Current assignee: Equos Research Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2017-10-05
Anticipated expiration: 2036-03-30
Also published as: CN109074646A; US10832044B2; CN109074646B; JP6661082B2; EP3441938A4; WO2017170875A1; EP3441938A1; US20190130178A1; EP3441938B1

Abstract

【課題】認識対象の一部が画像の外側に出ている場合でも認識対象を検出する。【解決手段】画像認識装置は、撮影画像１の周囲に所定の画像データで埋めた余白領域１０を追加して撮影画像１よりも大きい拡張画像１１を作成する。人物がカメラに接近しすぎると、人物像５の一部が撮影画像１からはみ出すが、画像認識装置は、余白領域１０も含む大きな検出窓３ｅを設定することにより、はみ出た領域をも含む窓画像４ｅを拡張画像１１から取り出す。窓画像４ｅは、人物像５のはみ出た部分を欠いてはいるが、人物像５の全身を写した画像となる。画像認識装置は、人物８が種々の状態（歩行、走行、ジャンプ、座り等の各姿勢に対して、手や足の位置や向き等が異なる状態）を想定した多数の基準画像７を記憶している。画像認識装置は、窓画像４ｅから特徴を抽出し、これを基準画像７の特徴と比較することにより人物像５を認識する。【選択図】図２

Description

本発明は、画像認識装置、及び画像認識プログラムに関し、例えば、画像に写っている対象物を認識するものに関する。

近年、ロボットや車両にカメラを搭載し、撮影された画像から対象物を認識して制御に用いたり、あるいは、カメラを街路に設置して人を画像認識し、これによって人の往来を観察したりなど、画像認識技術が産業や社会の各方面で利用されるようになってきた。
これら画像認識技術には、対象物や非対象物（対象物ではないと認識するのに必要）の特徴を表す基準画像を画像認識装置に記憶させておき、基準画像とカメラ画像の特徴を比較することにより行うものがある。

このような画像認識技術として、特許文献１の「物体検出装置」がある。
この技術は、ＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）特徴量を用いて画像に写った物体を検出するものである。

図７は、従来例の画像認識方法を説明するための図である。
図７（ａ）に示したように、カメラで撮影した画像１に認識対象である人物像５が写っているとする。
画像認識装置は、この人物像５を次のようにして検出する。
まず、画像認識装置は、人物の画像１での立ち位置に応じた複数の基準線（ベースライン）を設定する。

図の例では、カメラから１ｍ、５ｍ、１０ｍ、１５ｍの位置に基準線２ａ、２ｂ、２ｃ、２ｄが設定されている。
人物は、カメラから遠いほど画像１の上側に写るため、基準線２（基準線２ａ〜２ｄを特に区別しない場合は、単に基準線２と記し、他の要素についても同様とする）は、画像１の下からこの順に設定される。

次に、画像認識装置は、基準線２を下端とする検出窓３ａ〜３ｄを基準線２ごとに設定する。
検出窓３の大きさは、基準線２で規定される距離に人物が立っていた場合に、全身が収まる程度の大きさに設定されている。
これは、人物の全身が写った基準画像を使用しているため、基準画像との整合性を図るためである。

次に、画像認識装置は、検出窓３を基準線２に沿って移動（シフト）させながら検出窓３で囲まれた窓画像４の特徴を抽出し、これを予め記憶している基準画像の特徴と比較する。そして両者の類似性（相関）により人物を認識する。
この例では、図７（ｂ）に示したように人物像８が写った基準画像７の特徴と、検出窓３ｃで囲まれた領域の窓画像４ｃの特徴を比較して人物像５が認識される。

ところで、人物がカメラに接近しすぎると、図７（ｃ）に示したように、人物像５が画像１からはみ出てしまい、最も大きい検出窓３ａを用いたとしても、人物像５の頭部や下肢などを欠いた窓画像４ａが得られる。

これにより、画像認識装置は、図７（ｄ）に示したように、人物像８の全体が写った基準画像７の特徴と、人物像５の一部が画面全体に写った窓画像４ａの特徴を比較することになる。
この場合、画像における人物の形、大きさ、構図などが全く異なるため、基準画像７の特徴から窓画像４ａで人物像５を認識することは困難である。

更に、画像の特徴としてＨＯＧなどの輝度勾配を用いる手法を用いる場合、頭部が寸断されたエッジ部分１００では、画像の端部であるため、輝度勾配の計算、即ち特徴の抽出が困難であり、計算のための何らかの工夫を施す必要がある。

このような問題に対して、人物の一部が画像の外側に出ている状態の基準画像を作り画像認識装置に記憶しておく方法も考えられるが、これを実行するには様々な態様で人物の一部が画像の外側に出ている基準画像を記憶する必要があり、記憶すべきデータ量が膨大となって実現は困難である。
具体的には、１の対象物に対する基準画像（全体が写った画像）が複数（数千枚程度）存在し、その各々に対して上下が欠けた各種状態の画像、右側が欠けた各種状態の画像、左側が欠けた各種状態の画像、上下と左右の一方が欠けた各種状態の画像を準備、記憶する必要があり膨大な量になってしまう。

このように、従来技術は、認識対象の一部が画像の外に出ている場合にこれを認識できないという問題があった。
特に、画像認識装置をロボットや車両などの移動体に搭載する場合、遠くの対象物を認識する場合よりも、例えば、対象物の回避動作を素早く行うためにも、接近した対象物（人や物）を適確に認識することが重要になる場面が多い。
このように、近距離に対する認識要請が高い場合にも係わらず、認識対象の全体がカメラの画角に入りきらないことが原因で認識できなかった。

特開２０１６−１２３１１号公報

本発明は、認識対象の一部が画像の外側に出ている場合でも認識対象を検出することを目的とする。

（１）本発明は、前記目的を達成するために、請求項１に記載の発明では、画像を取得する画像取得手段と、前記画像取得手段から被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定手段と、前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定手段と、前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得手段と、前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得手段と、前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定手段と、前記判定による判定結果を出力する出力手段と、を具備したことを特徴とする画像認識装置を提供する。
（２）請求項２に記載の発明では、前記取得した窓画像から当該窓画像の特徴を表す窓画像特徴データを抽出する窓画像特徴データ抽出手段を具備し、前記判定手段は、前記取得した基準特徴データと前記抽出した窓画像特徴データを比較することにより前記判定を行うことを特徴とする請求項１に記載の画像認識装置を提供する。
（３）請求項３に記載の発明では、前記基準線設定手段が、前記取得した画像の下側の当該画像の外側の領域に前記基準線を設定することを特徴とする請求項１、又は請求項２に記載の画像認識装置を提供する。
（４）請求項４に記載の発明では、前記基準線設定手段が、前記取得した画像の水平方向の外側に前記基準線を設定することを特徴とする請求項１、請求項２、又は請求項３に記載の画像認識装置を提供する。
（５）請求項５に記載の発明では、前記取得した窓画像が前記取得した画像の外側の領域を含む場合に、当該外側の領域を所定の画像データで補完する補完手段を具備したことを特徴とする請求項１から請求項４までのうちの何れか１の請求項に記載の画像認識装置を提供する。
（６）請求項６に記載の発明では、前記補完手段が、前記取得した画像の周囲に前記所定の画像データからなる余白領域を設定することにより、前記外側の領域を前記所定の画像データで補完することを特徴とする請求項５に記載の画像認識装置を提供する。
（７）請求項７に記載の発明では、前記補完手段が、前記取得した窓画像が前記外側の領域を含む場合に、当該外側の領域に前記所定の画像データを追加することにより補完することを特徴とする請求項５に記載の画像認識装置を提供する。
（８）請求項８に記載の発明では、前記判定手段が、比較に際して、前記窓画像に含まれる前記画像の外側の領域の部分の重み付けを他の部分の重み付けよりも小さく設定することを特徴とする請求項２に記載の画像認識装置を提供する。
（９）請求項９に記載の発明では、画像を取得する画像取得機能と、被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定機能と、前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定機能と、前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得機能と、前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得機能と、前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定機能と、前記判定による判定結果を出力する出力機能と、をコンピュータで実現する画像認識プログラムを提供する。

本発明によれば、検出窓領域を画像の外側に拡張することにより、認識対象の一部が画像の外側に出ている場合でも認識対象を検出することができる。

画像認識装置が行う検出窓の設定方法を説明するための図である。人物が画像からはみ出た場合の処理を説明するための図である。人物が画像からはみ出た場合の処理を説明するための図である。人物が画像からはみ出た場合の処理を説明するための図である。画像認識装置のハードウェア構成の一例を示した図である。画像認識装置の動作を説明するためのフローチャートである。従来例の画像認識方法を説明するための図である。

（１）実施形態の概要
図２（ａ）に示したように、画像認識装置は、カメラで撮影した撮影画像１の周囲に所定の画像データで埋めた余白領域１０を追加して撮影画像１よりも大きい拡張画像１１を作成する。
人物がカメラに接近しすぎると、人物像５の一部が撮影画像１からはみ出すが、画像認識装置は、余白領域１０も含む大きな検出窓３ｅを設定することにより、はみ出た領域をも含む窓画像４ｅを拡張画像１１から取り出す。
図２（ｂ）に示したように、窓画像４ｅは、人物像５のはみ出た部分（頭部と下肢の一部）を欠いてはいるが、人物像５の全身を写した画像となる。

画像認識装置は、人物８が種々の状態（歩行、走行、ジャンプ、座り等の各姿勢に対して、手や足の位置や向き等が異なる状態等）を想定した多数の基準画像７を記憶している。
なお、本実施形態では、基準画像７そのものの画像データではなく、各基準画像７から予め抽出した特徴量を記憶することで記憶すべきデータ量を減らすと共に、基準画像７の特徴量を抽出する処理負荷を減らして認識速度を向上させているが、基準画像７を記憶するようにしてもよい。

そして、画像認識装置は、窓画像４ｅから特徴を抽出し、これを基準画像７の特徴量（以下たんに基準画像７という。）と比較することにより人物像５を認識する。
基準画像７と窓画像４ｅは、余白領域１０に相当する部分は似ていないものの、撮影画像１に相当する部分は類似するため、基準画像７の特徴によって人物像５を認識することが可能となる。

（２）実施形態の詳細
図１は、本実施の形態に係る画像認識装置が行う検出窓の設定方法を説明するための図である。
画像認識装置は、カメラから撮影画像１を得ると、撮影画像１の外周部の全周に渡って白色の画像データで埋められた余白領域１０を追加する。
これにより、画像認識装置は、撮影画像１の上下端部をｙ方向（縦方向）に拡張し、左右端部をｘ方向（横方向）に拡張した拡張画像１１を作成する。

ここで拡張画像１１による上下方向拡張量ｙと横方向拡張量ｘについて説明する。
拡張量については、カメラの撮影状態や撮像画像１の画角やサイズ等により任意に決定される。
例えば、撮像画像１のサイズが横１２８０ピクセル、縦７２０ピクセルである場合、上下左右の各々に対して２００ピクセル分の余白領域１０を追加する。
また、一例として、撮影画像１の最下部に基準線２を設定した場合の検出窓３のサイズを基準サイズとし、上下方向の各々に基準サイズのｎ％を拡張し、左右方向の各々に基準サイズのｍ％とする。
ｎとｍの値は、認識対象に対応した基準画像７に応じて決定され、例えば、２５％、３０％、５０％等が使用され、ｎとｍは同じ値であっても異なる値であってもよい。また、基準画像の縦横比に基づいてｎとｍの比率を決定するようにしてもよい。

このように、画像認識装置は、画像を取得する画像取得手段と、当該取得した画像の周囲に所定の画像データからなる余白領域１０を設定することにより、当該外側の領域を当該所定の画像データで補完する補完手段を備えている。

ここで、一例として余白領域１０を白色の画像データで埋めたのは、後ほど画像の輝度勾配の分布による、基準画像の特徴データとの比較を行うため、余白領域１０においてノイズとなる輝度勾配が発生するのを抑制するためである。
そのため、認識精度に影響しないなら他の色や模様の画像データによって余白領域１０を補完してもよい。

画像認識装置は、このようにして拡張画像１１を形成した後、１ｍ、５ｍ、１０ｍ、１５ｍに対応する基準線２ａ〜２ｄをｘ方向に延長して、撮影画像１の外側の余白領域１０まで設定する。
更に、画像認識装置は、カメラから５０ｃｍの距離に対応する基準線２ｅを撮影画像１の下方外側の余白領域１０に追加する。
なお、これら基準線２を設定する距離や本数については、一例であって、画像認識装置の用途や認識対象によって各種の設定が可能である。
例えば、本実施形態の場合、撮影画像１内に８本を設定し、更に拡張した余白領域１０に２本を設定するようにしている。但し、図面では複雑化を避けるために減らして表示している。

このように、画像認識装置は、被写体の遠近に対応し、少なくとも一部が撮影画像１の外側の領域に位置する基準線２ａ〜２ｅを、撮影画像１に対して水平方向に設定する基準線設定手段を備えている。
そして、当該基準線設定手段は、撮影画像１の下側の当該撮影画像１の外側の領域に基準線２ｅを設定し、撮影画像１の水平方向の外側に基準線２ａ〜２ｄを設定している。

画像認識装置は、基準線２ａ〜２ｅを設定すると、これらに対応する矩形形状の検出窓３ａ〜３ｅを設定する。
検出窓３ａ〜３ｄは、従来例のものと同様であり、人物の全身が検出窓３に程よく収まるように基準線２の位置に応じて（カメラからの距離が遠くなるにつれて）窓枠が小さくなるように形成されている。
そして、検出窓３ａ〜３ｄは、延長された基準線２に沿って、撮影画像１の水平方向外側に位置する余白領域１０まで移動できるようになっている。

検出窓３ｅは、基準線２ｅの新設に伴って新たに追加されたものである。
検出窓３ｅの窓枠は、人物がカメラから５０ｃｍ程度の距離に立っている場合に、撮影画像１からはみ出る部分も含めて当該人物の全身が程よく収まる程度の大きさに形成されている。

この例では、検出窓３ｅは、撮影画像１の上下端の外側の余白領域１０に渡って設定されている。
検出窓３ｅは、基準線２ｅに沿って水平方向に移動し、余白領域１０を含めた拡張画像１１を走査することができる。

このように、拡張画像１１の余白領域１０もカバーするように検出窓３を設定したため、人物が左右に移動して撮影画像１の左右端からはみ出した場合でも検出窓３ａ〜３ｄで捕捉することができ、また、人物がカメラに近づきすぎて撮影画像１の上下端からはみ出た場合でも検出窓３ｅで捕捉することができる。
以上のように、画像認識装置は、基準線２ａ〜２ｅに応じた大きさの検出窓３ａ〜３ｅを基準線２に沿って設定する検出窓設定手段を備えている。

図２の各図は、人物がカメラに接近して撮影画像１からはみ出た場合の処理を説明するための図である。
図２（ａ）の波線で示したように、人物がカメラから５０ｃｍ〜１ｍ程度に近づくと、当該人物の人物像５は、頭部が撮影画像１の上端からはみ出し、下肢が撮影画像１の下端からはみ出して撮影されない。

しかし、検出窓３ｅは、撮影画像１の上端側と下端側で余白領域１０まで拡張されているため、画像認識装置は、図２（ｂ）に示したように、頭部と下肢は欠けているものの人物像５の全身を写した窓画像４ｅを得ることができる。
ここで、窓画像４ｅは、検出窓３ｅによって拡張画像１１から取得された画像であって、境界線２１、２２は、撮影画像１と余白領域１０の境界を表している。

このように、画像認識装置は、検出窓３ｅに含まれる領域の窓画像４ｅを取得する窓画像取得手段を備えている。
そして、補完手段によって、余白領域１０が所定の画像データで補完されているため、窓画像４ｅが撮影画像１の外側の領域を含む場合に、当該外側の領域が補完手段によって所定の画像データで補完されている。

また、この例では、予め所定の画像データで余白領域１０を補完しておいて検出窓３ｅで拡張画像１１を取り出したが、検出窓３ｅで余白領域１０の部分の欠損した撮影画像１のサイズの窓画像４ｅを取り出して、その後、余白領域１０を所定の画像データで補完することも可能である。
この場合、補完手段は、窓画像４ｅが撮影画像１の外側の領域を含む場合に、当該外側の領域に所定の画像データを追加することにより補完している。
あるいは、予め余白の設定値に基づく（例えば、白色の）拡張画像１１を用意しておき、その拡張画像１１の中央部に画像１を書き込むことで画像１の周囲に余白が設定された拡張画像１１を作成するようにしてもよい。

窓画像４ｅを基準画像７と比べてみると、人物像５の頭部と下肢が欠損しているものの、両者の構図は近く、頭部と下肢以外の部分は、特徴がよく似ている。
そのため、基準画像７から抽出した特徴（特徴量）と窓画像４ｅから抽出した特徴（特徴量）の類似度（相関）が大きくなり、窓画像４ｅの人物像５を認識することが可能となる。実験によってもそのような結果が得られている。

なお、画像認識装置は、予め各基準画像７から抽出した特徴を記憶しており、これを窓画像４ｅから抽出した特徴と比較して比較結果を出力するようになっている。
このように、画像認識装置は、認識対象の特徴を表した基準特徴データ（基準画像７から抽出した特徴データ）を取得する基準特徴データ取得手段と、当該取得した基準特徴データを用いて窓画像４ｅに認識対象（人物像５）が含まれるか否かを判定する判定手段と、当該判定による判定結果を出力する出力手段を備えている。

更に、画像認識装置は、窓画像４ｅから当該窓画像４ｅの特徴を表す窓画像特徴データ（窓画像４ｅの特徴）を抽出する窓画像特徴データ抽出手段を備えており、判定手段は、当該取得した基準特徴データと当該抽出した窓画像特徴データを比較することにより判定を行っている。

窓画像４ｅから人物像５を認識する技術は、既存の各種のものが使用可能であるが、本実施の形態では、一例として、ＭＲＣｏＨＯＧ（ＭｕｌｔｉＲｅｓｏｌｕｔｉｏｎＣｏＨＯＧ）技術を用いた。
ＭＲＣｏＨＯＧ技術は、輝度勾配を用いて画像認識する系統の技術であり、ＨＯＧ技術を改良したＣｏＨＯＧ（Ｃｏ−ｏｃｃｕｒｒｅｎｃｅＨＯＧ）技術を更に改良して、処理演算量を低減させつつ、頑健性（ロバスト性）を維持したものである。

ＨＯＧ技術では、画像をセルと呼ばれる小領域に区分する。そして、セル内の各画素の輝度勾配を、例えば、８方向に量子化し、どの方向の輝度勾配がどの頻度で出現しているか、のヒストグラムを作成する。
そして、複数のセルを含むブロック単位でヒストグラムを正規化した後、全セルのヒストグラムを一列に並べて出力したものが当該画像の特徴となる。
これを基準画像７の特徴と比較することにより、画像中の認識対象を認識することができる。認識対象の認識については、例えば、所定閾値以上の尤度であるか否かによる。

ＣｏＨＯＧ技術では、ＨＯＧ技術と同様に画面をセル（ブロックとも呼ばれる）に分割し、セル内の各画素の輝度勾配を量子化する。
そして、セル内のある画素に注目し、この画素の輝度勾配方向と予め指定された周辺の画素の輝度勾配方向との組合せ（共起）により、ヒストグラムへの投票を行う。これをセル内の全画素について行う。

例えば、注目画素の輝度勾配方向が右方向で、隣の画素の輝度勾配が上方向であったら、右行上列の行列要素に一票を投じる。このようにしてセルごとに共起行列が作成される。
そして、全セルの共起行列要素を一列に並べて出力したものが当該画像の特徴となる。
基準画像７の特徴量と比較することにより、画像中の対象を認識することができる。

ＭＲＣｏＨＯＧ技術では、同じ対象を写した異なる解像度の画像間で共起をとる。
例えば、高解像度画像から中解像度画像と低解像度画像を作成することにより、高中低の３種類の解像度の画像を用意する。
そして、高解像度画像のある画素に注目し、当該画素の輝度勾配の方向と、これに隣接する中解像度、及び低解像度の画素の輝度勾配の方向の組合せにより共起行列に投票する。これを高解像度画像の全ての画素について行う。
場合によっては、中解像度画像や低解像度画像の画素を注目画素として同様の投票を行う。
そして、全共起行列要素を一列に並べて出力したものが当該画像の特徴となる。
これを基準画像７の特徴と比較することにより、画像中の対象を認識することができる。

なお、ＣｏＨＯＧ技術やＨＯＧ技術を使用する場合、複数の基準画像７から抽出した各特徴データから１の統一基準特徴データを作成（学習）し、この統一基準特徴データを認識対象毎に記憶するようにしてもよい。これにより、窓画像４との比較量を大幅に削減することができる。

本実施の形態では、このように画像認識に輝度勾配を用いるため、頭部のエッジ部分１００に着目すると、余白領域１０がなかった場合、隣接する画素がないため輝度勾配が計算できない。
しかし、窓画像４ｅでは、余白領域１０の追加によりエッジ部分１００の隣接画素が形成されているため、この部分での輝度勾配を計算することが可能であり、これら輝度勾配を用いた特徴抽出技術を利用することができる。

図２（ｃ）は、基準画像７と窓画像４ｅの相関を更に高めるための試みを説明するための図である。
基準画像７と窓画像４ｅを比較すると、余白領域１０の部分が明らかに似ていない。そのため、この例では、基準画像７と窓画像４ｅの類似を判定する際に、余白領域１０に相当する領域２５の重み付けを小さくする。

このように基準画像７と窓画像４ｅの撮影画像１に相当する部分に比べて余白領域１０に相当する部分の重み付けを小さくして両者の特徴の類似を判断することにより、より認識精度を高めることができる。
この例では、判定手段は、比較に際して、窓画像４ｅに含まれる撮影画像１の外側の領域の部分の重み付けを他の部分の重み付けよりも小さく設定している。

なお、領域２５は、余白領域１０と厳密に一致している必要はなく、実験や状況に応じてどの程度の範囲に領域２５を設定したらよいか決めればよい。
例えば、輝度勾配による特徴量を抽出する場合、撮影画像１と余白領域１０の境界（頭部や下肢の切断箇所）で、本来の人物像５とは異なった輝度勾配が生じるため、これがノイズになる可能性がある。
その場合は、これら切断箇所を覆う位置まで領域２５を拡張し、当該箇所の重み付けを小さくすればよい。

図３の各図は、人物がカメラに接近して撮影画像１の上下端からはみ出ると共に左端からもはみ出た場合の処理を説明するための図である。
図３（ａ）の波線で示したように、人物がカメラから５０ｃｍ〜１ｍ程度に近づき、画角の左端に寄ると、当該人物の人物像５は、頭部が撮影画像１の上端からはみ出し、下肢が撮影画像１の下端からはみ出し、左側の部分が撮影されない。

しかし、検出窓３ｅは、撮影画像１の上下端側、及び左端側で余白領域１０まで拡張されているため、画像認識装置は、図３（ｂ）に示したように、頭部、下肢、及び左部分は欠けているものの人物像５の全身を写した窓画像４ｅを得ることができる。

窓画像４ｅを基準画像７と比べてみると、人物像５の頭部、下肢、及び左部分が境界線２１〜２３の外側で欠損しているものの、両者の構図は近く、欠損部分以外は、特徴がよく似ている。
そのため、基準画像７から抽出した特徴量と窓画像４ｅから抽出した特徴量が類似し、窓画像４ｅの人物像５を認識することが可能となる。

図３（ｃ）は、基準画像７と窓画像４ｅの相関を更に高めるための試みを説明するための図である。
上の例と同様に、余白領域１０に対応する部分（上下端部と左端部）に領域２５を設定し、この部分における特徴量比較の重み付けを他の部分よりも小さく設定する。
これにより、認識精度の向上が期待できる。

図４の各図は、カメラから人物までの距離は、人物の全身が撮影画像１に写る距離であるものの、人物が撮影画像１の左端に寄ってしまったため、人物像５の左部分が撮影画像１の外側にはみ出た場合の処理を説明するための図である。

図４（ａ）で示したように、人物の左部分は、撮影画像１の外側に位置するためこの部分の画像は得られないが、検出窓３ｂは、延長した基準線２ｂ上を左側に移動可能なため、図４（ｂ）に示したように、左部分が欠損するものの人物の全身が写った窓画像４ｂが得られる。
このように画像認識装置は、接近により撮影画像１からはみ出る人物のほか、カメラからの距離は適切であるが、カメラの画角からはみ出る人物に対しても画像認識を行うことができる。

窓画像４ｂを基準画像７と比べてみると、人物像５の左部分が欠損しており余白領域１０で置き換えられているものの、両者の構図は近く、欠損部分以外は、特徴がよく似ている。
そのため、基準画像７から抽出した特徴量と窓画像４ｂから抽出した特徴量を比較することにより窓画像４の人物像５を認識することができる。
また、余白領域１０に領域２５を設定してこの部分の重み付けを小さくすることにより認識精度を高めることもできる。

図５は、本実施の形態に係る画像認識装置３０のハードウェア構成の一例を示した図である。
画像認識装置３０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３３、カメラ３４、記憶装置３５、入力装置３６、出力装置３７などがバスラインで接続されたパーソナルコンピュータを用いて構成されている。

ＣＰＵ３１は、記憶装置３５に記憶された画像認識プログラムに従って画像認識処理を行うほか、画像認識装置３０の各部の制御などを行う。
より詳細には、ＣＰＵ３１は、カメラ３４から入力される画像フレームに対して余白領域１０の設定による拡張画像１１の形成、拡張画像１１に対する基準線２ａ〜２ｅ、及び検出窓３ａ〜３ｅの設定、窓画像４からの特徴量の抽出と、当該抽出した特徴量と学習データ（基準画像から抽出した特徴量）の相関による人物像５の認識などを行う。

ＲＯＭ３２は、ＣＰＵ３１が画像認識装置３０を動作させるための基本的なプログラムやパラメータなどを記憶した読み取り専用のメモリである。
ＲＡＭ３３は、ＣＰＵ３１が上記処理を行うためのワーキングメモリを提供する読み書きが可能なメモリである。
カメラ３４による画像フレームや基準画像７の特徴量はＲＡＭ３３に展開されてＣＰＵ３１により利用される。

カメラ３４は、所定のインターフェースを介して画像認識装置３０に接続されており、投影像を電気信号に変換する撮像面を有する撮像素子と、当該撮像面上に被写体を投影する光学系を用いて構成されている。
カメラ３４は、所定のフレームレートで被写体（レンズの前方の風景であり、人物と背景から成る）の動画を出力し、各フレームを構成する画像が画像認識処理の対象となる。

記憶装置３５は、例えば、ハードディスクや半導体メモリなどの記憶媒体を用いた記憶装置であり、ＣＰＵ３１に上記の画像認識処理を行わせるための画像認識プログラムを記憶している。
また、記憶装置３５は、人物像５を認識するために大量の基準画像７に対する特徴量も記憶しており、これらを画像認識処理のためにＣＰＵ３１に提供する。

入力装置３６は、画像認識装置３０に各種の情報を入力する装置であり、例えば、キーボード、マウスなどの入力デバイスで構成されている。
ユーザは、キーボード操作やマウス操作によってコマンドを入力するなどして画像認識装置３０を操作することができる。

出力装置３７は、画像認識装置３０が各種の情報を出力する装置であり、例えば、ディスプレイ、プリンタなどの出力デバイスで構成されている。
ユーザは、ディスプレイに表示された操作画面に従いながら画像認識装置３０を操作することができる。
以上の構成は、一例であって、画像認識装置３０を画像キャプチャボードに組み込んでロボットに搭載するなど、実装形態に応じた構成を採用することができる。

図６は、画像認識装置３０の動作を説明するためのフローチャートである。
以下の動作は、画像認識装置３０のＣＰＵ３１が画像認識プログラムに従って行うものである。
まず、ＣＰＵ３１は、カメラ３４から撮影画像１の画像データを取得してＲＡＭ３３に記憶する（ステップ５）。

次に、ＣＰＵ３１は、撮影画像１に余白領域１０を追加し、又は予め用意した拡張画像１１の中央部に撮影画像１を書き込むことで、拡張画像１１の画像データを作成し、ＲＡＭ３３に記憶する（ステップ１０）。
次に、ＣＰＵ３１は、検出窓３ａ〜３ｅを生成し、これらを拡張画像１１の初期位置（左端）に設定する（ステップ１５）。

検出窓３を設定した後、ＣＰＵ３１は、各検出窓３に囲まれている画像（窓画像）の画像データを取得してＲＡＭ３３に記憶する（ステップ２０）。
そして、ＣＰＵ３１は、これらの画像データから、例えば、ＨＯＧなどの所定のアルゴリズムに従って特徴量を抽出してＲＡＭ３３に記憶する（ステップ２５）。

次に、ＣＰＵ３１は、多数の基準画像７の特徴をＲＡＭ３３から読み出し、窓画像の画像データから抽出した特徴と比較して、その類似性から窓画像に人物が写っているか否かを判定する（ステップ３０）。
そして、ＣＰＵ３１は、判定結果を所定の出力先に出力した後（ステップ３５）、検出窓３の右端が拡張画像１１の右端に達したか否かを判断する（ステップ４０）。
右端に達した検出窓３があった場合（ステップ４０；Ｙ）、その検出窓３に関しては、拡張画像１１を全て走査したので画像認識処理を終了する。

一方、まだ右端に達していない検出窓３があった場合（ステップ４０；Ｎ）、その検出窓３に関しては、まだ画像認識処理が終了していないため、当該検出窓３を右水平方向に移動して（ステップ４５）、ステップ２０に戻る。

以上の処理では、検出窓３ａ〜３ｅによる人物像５の検索を平行して同時に行ったが、例えば、まず、検出窓３ａによる検索を行った後、検出窓３ｂによる検索を行うなど、順に行ってもよい。

以上に説明した実施の形態により、次のような効果を得ることができる。
（１）元画像の縦横に余白を追加することにより元画像を大きくすることができ、追加余白部分に対応した検出窓を追加した検出器に、その画像をかけることで、一部がカメラ外に出てしまった対象が認識可能となる。
（２）画像認識できる特徴量を有するにもかかわらず、撮影画像１の周辺部から一部がはみ出るため従来は捨てられていた画像に対しても画像認識を行うことができる。
（３）余白領域１０を追加することにより、画像認識できる範囲を撮影画像１の外側に拡張することができる。
（４）撮影画像１からはみ出た人物像５を認識するために撮影画像１からはみ出た人物像５を大量に記憶する必要がなく、全身を撮影した標準の基準画像７を用いることができる。

１画像
２基準線
３検出窓
４窓画像
５人物像
７基準画像
８人物像
１０余白領域
１１拡張画像
２１、２２、２３境界線
２５領域
３０画像認識装置
３１ＣＰＵ
３２ＲＯＭ
３３ＲＡＭ
３４カメラ
３５記憶装置
３６入力装置
３７出力装置
１００エッジ部分

Claims

画像を取得する画像取得手段と、
前記画像取得手段から被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定手段と、
前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定手段と、
前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得手段と、
前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得手段と、
前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定手段と、
前記判定による判定結果を出力する出力手段と、
を具備したことを特徴とする画像認識装置。
前記取得した窓画像から当該窓画像の特徴を表す窓画像特徴データを抽出する窓画像特徴データ抽出手段を具備し、
前記判定手段は、前記取得した基準特徴データと前記抽出した窓画像特徴データを比較することにより前記判定を行うことを特徴とする請求項１に記載の画像認識装置。
前記基準線設定手段は、前記取得した画像の下側の当該画像の外側の領域に前記基準線を設定することを特徴とする請求項１、又は請求項２に記載の画像認識装置。
前記基準線設定手段は、前記取得した画像の水平方向の外側に前記基準線を設定することを特徴とする請求項１、請求項２、又は請求項３に記載の画像認識装置。
前記取得した窓画像が前記取得した画像の外側の領域を含む場合に、当該外側の領域を所定の画像データで補完する補完手段を具備したことを特徴とする請求項１から請求項４までのうちの何れか１の請求項に記載の画像認識装置。
前記補完手段は、前記取得した画像の周囲に前記所定の画像データからなる余白領域を設定することにより、前記外側の領域を前記所定の画像データで補完することを特徴とする請求項５に記載の画像認識装置。
前記補完手段は、前記取得した窓画像が前記外側の領域を含む場合に、当該外側の領域に前記所定の画像データを追加することにより補完することを特徴とする請求項５に記載の画像認識装置。
前記判定手段は、比較に際して、前記窓画像に含まれる前記画像の外側の領域の部分の重み付けを他の部分の重み付けよりも小さく設定することを特徴とする請求項２に記載の画像認識装置。
画像を取得する画像取得機能と、
被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定機能と、
前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定機能と、
前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得機能と、
前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得機能と、
前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定機能と、
前記判定による判定結果を出力する出力機能と、
をコンピュータで実現する画像認識プログラム。