JP4217954B2

JP4217954B2 - 画像探索装置

Info

Publication number: JP4217954B2
Application number: JP2003033845A
Authority: JP
Inventors: 仁池田; 典司加藤; 洋次鹿志村
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-02-12
Filing date: 2003-02-12
Publication date: 2009-02-04
Anticipated expiration: 2023-02-12
Also published as: JP2004246477A

Description

【０００１】
【発明の属する技術分野】
本発明は、写真などの画像データから、顔の部分などといった特定の画像部分を探索する画像探索装置に関する。
【０００２】
【従来の技術】
近年、写真等に含まれる特定の対象体、例えば人の顔などの部分を特定し、当該特定した部分に基づいて所定の処理を行うことが考えられている。その一例としては撮影された写真から各人の顔の部分を検出し、当該顔の部分のみを焼き付けたり、または撮像中の映像から人の顔部分を検出して顔の認証処理に供したり、といったものが考えられる。
【０００３】
従来の顔画像等、対象体を認識する装置では、対象体の撮像状態（傾き、大きさ、照明状態など）によっては対象体の認識が困難になる場合に対応するため、撮像状態を所定の撮像状態（基準状態）に適合させる処理を行うものがある。
【０００４】
従来、この処理では、具体的には撮像状態を変化させながら撮影した学習用画像データを用いてニューラルネットワークを学習させ、当該学習させたニューラルネットワークを利用して処理の対象となった写真での撮像状態が基準状態からどの程度ずれているかを検出し、当該ずれを補正するよう画像処理を行うことが考えられてきた。
【０００５】
なお、対象となる画像データから所望のパターンを検出する処理の例としては、特許文献１に開示される、カーネル非線形部分空間法等の方法が知られている。
【０００６】
【特許文献１】
特開２００１−９０２７４号公報
【０００７】
【発明が解決しようとする課題】
しかしながら、例えば人物の顔部分で言えば、横向き加減や上向き加減、首のかしげ具合、照明の具合といった様々な変化があり、従来の基準状態からのずれを検出する処理を行おうとすると、ニューラルネットワークの学習に用いる学習用画像データが上記様々な変化に合わせて大量に必要となる。また、こうした大量の画像データによって学習された結果、ニューラルネットワークの規模も膨大なものとなって、当該処理を現実的な時間内に完了することは不可能であった。
【０００８】
また従来の対象体を認識するための装置では、対象体を探索する元となる写真等について、その全体を探索範囲として処理を行っている。このため、処理すべきデータ量も増大してしまい、処理負荷が多大であった。
【０００９】
本発明は、上記実情に鑑みて為されたもので、探索の対象体を写真などから探索する処理の負荷を軽減でき、探索の精度を向上できる画像探索装置を提供することをその目的の一つとする。
【００１０】
【課題を解決するための手段】
請求項１記載の発明は、処理の対象となった対象画像データ内から、探索の対象となる探索対象の画像データ部分を探索する画像探索装置であって、前記対象画像データ内に、探索領域を少なくとも一つ画定する手段と、変換方法ごとに予め学習獲得された複数の第１変換データベースを参照して、前記画定されたそれぞれの探索領域に含まれる各探索部分データについて適用すべきＮ１個の変換の方法及び変換の量を含んでなる変換条件を取得し、当該取得した変換条件に基づく変換を、各探索部分データに対して少なくとも一度行う第１変換手段と、前記第１変換手段によって変換された各探索部分データについて、さらに、前記第１変換手段における変換に比べ、変換の方法をＮ２個（Ｎ２はＮ１とは異なる）とし、変換の量を制限した制限変換条件を、変換方法ごとに予め学習獲得された複数の第２変換データベースを参照して取得し、当該取得した制限変換条件に基づく変換を前記変換された各探索部分データに対して少なくとも一度行い、前記各探索部分データを基準状態へ変換する第２変換手段と、を含み、予め、前記基準状態での画像データを用いて学習獲得された探索データベースを参照し、前記変換後の探索部分データの各々に探索対象が含まれているか否かを判断し、当該判断結果を出力することとしたものである。ここで第１、第２の各変換手段における変換条件の取得の際には、それぞれ探索部分データに基づき所定の特徴量のセットを含んだ特徴量ベクトル情報を演算し、当該特徴量ベクトル情報を用いてそれぞれ第１、第２変換データベースを参照することとなるが、第１変換手段での特徴量ベクトル情報に含まれる特徴量の数Ｎ１を、第２変換手段での特徴量ベクトル情報に含まれる特徴量の数Ｎ２より少なくして、その精度を粗くしておくこととしてもよい。これによると、第１変換手段における処理負荷が軽減される。
【００１１】
請求項２記載の発明は、請求項１に記載の画像探索装置において、前記第１変換手段によって変換された各探索部分データについて、探索対象が含まれているか否かを判断する予備探索手段をさらに有し、当該予備探索手段により、探索対象が含まれていると判断された探索部分データについてのみ、前記第２変換手段が変換を行うこととしたものである。
【００１２】
また請求項３記載の発明は、請求項２に記載の画像探索装置において、前記予備探索手段は、第１変換手段によって変換された後の探索部分データについて、探索対象の画像データ例を用いて学習獲得された探索データベースを参照し、前記変換後の探索部分データの各々に探索対象が含まれているか否かを判断することとしたものである。
【００１３】
また請求項４記載の発明は、請求項３記載の画像探索装置において、前記探索領域を画定する手段が、探索領域として画定しようとする領域の内部に含まれる画像データのエントロピー、階層エントロピー、色、及び輝度分散、の少なくとも一つを用い、探索領域として実際に画定するか否かを決定することとしたものである。また請求項５記載の発明は、請求項３に記載の画像探索装置において、前記探索領域を画定する手段が、探索領域として画定しようとする領域の内部に含まれる画像データのエントロピーが、所定のしきい値よりも大きい場合には当該探索領域として画定しようとしている領域を実際に探索領域として画定することとしたものである。
【００１４】
請求項６記載の発明は、処理の対象となった対象画像データ内から、探索の対象となる探索対象の画像データ部分を探索する画像探索プログラムであって、コンピュータを、前記対象画像データ内に、探索領域を少なくとも一つ画定する手段と、変換方法ごとに予め学習獲得された複数の第１変換データベースを参照して、前記画定されたそれぞれの探索領域に含まれる各探索部分データについて適用すべきＮ１個の変換の方法及び変換の量を含んでなる変換条件を取得し、当該取得した変換条件に基づく変換を、各探索部分データに対して少なくとも一度行う第１変換手段と、前記第１変換手段によって変換された各探索部分データについて、さらに、前記第１変換手段における変換に比べ、変換の方法をＮ２個（Ｎ２はＮ１とは異なる）とし、変換の量を制限した制限変換条件を、変換方法ごとに予め学習獲得された複数の第２変換データベースを参照して取得し、当該取得した制限変換条件に基づく変換を前記変換された各探索部分データに対して少なくとも一度行い、前記各探索部分データを基準状態へ変換する第２変換手段と、予め、前記基準状態での画像データを用いて学習獲得された探索データベースを参照し、前記変換後の探索部分データの各々に探索対象が含まれているか否かを判断し、当該判断結果を出力する手段と、として機能させることとしたものである。
【００１５】
請求項７記載の発明は、請求項６に記載の画像探索プログラムにおいて、前記第１変換手段としての機能によって変換された各探索部分データについて、探索対象が含まれているか否かを判断し、探索対象が含まれていると判断された探索部分データについてのみ、前記第２変換手段として機能させるよう、前記コンピュータを機能させる手段をさらに含むこととしたものである。
【００１６】
請求項８記載の発明は、請求項７に記載の画像探索プログラムにおいて、前記予備探索手段として機能させる際に、第１変換手段によって変換された後の探索部分データについて、探索対象の画像データ例を用いて学習獲得された探索データベースを参照し、前記変換後の探索部分データの各々に探索対象が含まれているか否かを判断させることとしたものである。
【００１７】
【発明の実施の形態】
［基本構成］
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る画像探索装置は、図１に示すように、制御部１１と、記憶部１２と、データベース部１３と、表示部１４と、操作部１５と、外部記憶部１６とを含んで構成された、一般的なコンピュータを用いて実現される。このコンピュータは、他の製品、例えばカメラなどに組み込まれたものであっても構わない。
【００１８】
制御部１１は、記憶部１２に格納されているプログラムに従って動作するものであり、処理の対象となった対象画像データのうち、探索領域を少なくとも一つ画定する探索領域画定処理と、基準状態に変換する変換処理と、探索対象が含まれている探索領域を検出する探索処理と、探索結果を用いた所定の処理とを実行する。これらの制御部１１の具体的処理内容については、後に詳しく述べる。
【００１９】
記憶部１２は、制御部１１が実行するソフトウエアを格納している。また、この記憶部１２は、制御部１１がその処理の過程で必要とする種々のデータを保持するワークメモリとしても動作する。具体的にこの記憶部１２は、ハードディスクなどの記憶媒体、あるいは半導体メモリ、ないしこれらの組み合わせとして実現できる。
【００２０】
データベース部１３は、後に説明するように、制御部１１の第１変換処理において用いられる第１変換データベース１３ａ、第２変換処理において用いられる第２変換データベース１３ｂ、並びに探索処理において用いられる探索データベース１３ｃを含んだデータベースである。このデータベース部１３は、具体的にはハードディスクなどの記憶媒体であり、記憶部１２がこのデータベース部１３を兼ねてもよいが、ここでは説明のため、特に分けて示している。
【００２１】
表示部１４は、例えばディスプレイ装置やプリンタ装置などであり、制御部１１から入力される指示に従い、情報の表示などを行うものである。操作部１５は、例えばキーボードやマウスなどであり、ユーザの操作を受け入れて、当該操作の内容を制御部１１に出力する。
【００２２】
外部記憶部１６は、例えばＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなど、コンピュータ可読なリムーバブルメディア（記憶媒体の一種）からプログラムやデータを読み出して制御部１１に出力し、制御部１１の処理によって記憶部１２に格納させる処理を行うものである。本実施の形態に係るプログラムは、例えばＣＤ−ＲＯＭなどの可搬的な記憶媒体に格納されて頒布でき、この外部記憶部１６を用いて記憶部１２に複写されて利用される。なお、本実施の形態に係るプログラムは、こうした記憶媒体だけでなく、ネットワーク上のサーバなどから図示しない通信部を介して記憶部１２に複写されることとしてもよい。
【００２３】
［制御部１１の処理］
ここで、制御部１１の処理の内容について具体的に説明する。本実施の形態においては、各処理の対象となる画像データ（対象画像データ）は、外部記憶部１６や図示しない通信部を介して外部から入力され、記憶部１２に格納される。ここで対象画像データは、一つであっても複数であっても構わない。ユーザが操作部１５を操作して、制御部１１に対し、特定の対象画像データについて探索対象を探索する処理を行うべき旨の指示（処理開始の指示）を行うと、制御部１１は、図２に示す処理を開始する。
【００２４】
制御部１１は、対象画像データを順次縮小変換しながら、各縮小変換された対象画像データについて探索領域を画定し、各探索領域に含まれる画像データ部分を基準状態に近づける第１変換処理を行い、その後さらに当該各探索領域に含まれる画像データ部分を基準状態により近づける第２変換処理を実行する。そして制御部１１は、第２変換処理後の探索領域に含まれる画像データ部分に対して探索処理を実行する。
【００２５】
［第１変換処理］
ここでまず、第１変換処理の内容について説明する。本実施の形態において特徴的なことの一つは、この第１変換処理が段階的に、つまり一回ずつ、一つの変換自由度に対応する変換を逐次的に行うようになっていることである。
【００２６】
各段階で行うべき変換の内容と変換の量を決定するため、制御部１１は、現在選択している探索領域に含まれている画像データ部分に基づいてＮ1次元の所定の特徴量ベクトル情報を演算する。ここで特徴量ベクトル情報は、探索対象の性状に合わせて選択された、Ｎ1個の特徴量要素を含んでなるベクトル量である。
【００２７】
本実施の形態では、制御部１１は、この特徴量ベクトル情報と、変換データベース１３ａに格納されている特徴量ベクトル情報とを用いた、カーネル非線形部分空間法によって変換を特定することとして説明する。
【００２８】
［第１変換データベース１３ａの内容］
このカーネル非線形部分空間法は、データを何らかのカテゴリに分類する方法として広く知られているので、詳しい説明を省略するが、その概要を述べれば、Ｎ1個の特徴量要素を基底として張られる空間Ｆ1において、当該空間Ｆ1に含まれる複数の部分空間Ωのそれぞれをデータの分類先であるカテゴリとして認識し、分類しようとするデータに基づいて作成される空間Ｆ内の特徴量ベクトル情報（例えばΦとする）を各部分空間Ωに射影し（射影の結果を例えばφとする）、射影前の特徴量ベクトル情報Φと、射影後の特徴量ベクトル情報φとの距離Ｅが最も小さくなる部分空間Ω（仮に最近接部分空間と呼ぶ）を検出し、分類しようとするデータは、その部分空間Ωによって表されるカテゴリに属すると判断する方法である。
【００２９】
そこで学習段階では、同一のカテゴリに属するべき学習用の例示データ（学習サンプル）に対応するＮ1次元の特徴量ベクトル情報に基づく最近接部分空間Ωが同一となるよう、非線形写像（空間Ｆ1への写像、すなわちカーネル関数に含まれるパラメータ等）と、各カテゴリに対応する部分空間Ω間を隔てる超平面との少なくとも一方を調整することとなる。
【００３０】
本実施の形態においては、探索対象を基準状態に変換する方法（変換の種類及び量）を決定するために、この変換データベース１３ａが形成される。つまり、基準状態にあるか否かが不明な画像データに対して、行うべき変換の種類ごとに、変換の量（カテゴリ）を決定できるように変換データベース１３ａが学習獲得されている。本実施の形態では、画像の回転、平行移動、サイズ変更という、画像に対して行うべき変換の種類（自由度）ごとに、変換データベース１３ａを作成している。変換の各自由度に対応する変換データベース１３ａは、対応する変換の変換量をカテゴリとして学習獲得したものである。
【００３１】
この学習獲得のため、本実施の形態の変換データベース１３ａの学習過程では、学習サンプルを次のように生成する。すなわち、所定の基準状態での探索対象である画像データの例を複数用意し、各画像データの例について、変換の自由度ごとに、それぞれの自由度について、互いに異なる変換量での変換が行われた複数の変換画像データを生成する。こうして自由度ごとに生成された変換画像データを、各自由度ごとの学習サンプルとする。具体的に顔を探索対象とする場合、所定の基準状態（所定の撮影条件・姿勢）にある顔の画像データを例として複数用意し、各画像データについて、変換の自由度として、例えば回転・平行移動・サイズ変更等という各自由度ごとに、回転であれば−１８０度から１８０度までの範囲で５度ずつ等の角度で回転させた変換画像データを回転の自由度に対する学習サンプルとする。また、平行移動であれば、縦横にそれぞれ５ピクセルずつ移動させた複数の変換画像データを平行移動の自由度に対する学習サンプルとする。なお、これらの学習サンプルは、移動等の変換自由度を含むために、基準状態よりも広い領域の画像データのうちから基準状態の面積を５ピクセルずつ移動させながら取り出すことで生成する。
【００３２】
こうして複数の画像データ例のそれぞれについて、さらに自由度ごとにそれぞれ複数の変換が施された複数の画像データを生成し、各画像データにどのような変換を行ったかを表す情報（変換量の大きさ等）を関連づける。
【００３３】
なお、ここでは互いに異なる変換量の変換を施した画像データを得るために、変換量を所定のステップ（例えば回転で言えば５度）ずつ変化させながらそれぞれ変換を行った画像データを学習サンプルに含めるようにしたが、所定のステップずつ変化させながらでなくとも、変換量を乱数によって決定しながら変換を行って、それぞれを学習サンプルに含めるようにしてもよい。
【００３４】
次に、各自由度ごとの学習サンプルを用いて、各自由度に対応する変換データベース１３ａを学習させる。
【００３５】
［第１変換処理の動作］
制御部１１は、こうして学習された各変換データベース１３ａを用いて、探索領域画定処理によって画定された探索領域の各々について次のように変換処理を行う。すなわち、処理の対象となった探索領域に含まれている画像データ部分（例えば画素値の列としてベクトル値と同視し得る）を、空間Ｆ1内のＮ1次元特徴量ベクトル情報（各変換データベース１３ａごと、つまり変換の各自由度ごとに定義されている特徴量の組）に写像し、さらにその写像を各部分空間Ωに射影する。そして、射影前の特徴量ベクトル情報と、射影後の特徴量ベクトル情報との距離Ｅが最小となる変換量を決定する。また制御部１１は、距離Ｅの二乗値Ｌを演算し、これを誤差として記憶部１２に保持する。
【００３６】
ここで変換量は、各変換データベース１３ａに基づき自由度ごとに決定されるが、制御部１１は、各自由度に対応する変換量のうち一つを所定の条件（例えば各変換量に対応する距離Ｅが最小となるもの等の条件）に基づいて選択し、選択した自由度に対応する変換を、選択した変換量の分だけ変換する。
【００３７】
つまり、探索領域に含まれている画像データ部分からは、各自由度に対応する各変換データベース１３ａに学習獲得された情報によって、例えば回転の自由度に対しては１０度の回転変換により基準状態に近づき、その誤差がＬｒであり、平行移動の自由度に対しては左へ５ピクセルの変換で基準状態に近づき、その誤差がＬｐといった情報が得られるので、この中から、誤差が最小となる自由度の変換を選択する。例えば上述の例の場合、Ｌｒ＜Ｌｐならば１０度の回転変換を探索領域に施して、新たな探索領域を画定する。そして、この新たな探索領域に含まれる画像データ部分をさらに空間Ｆ1内の特徴量ベクトル情報に写像し、その写像をさらに各部分空間Ωに射影する。そして、射影前の特徴量ベクトル情報と、射影後の特徴量ベクトル情報との距離Ｅが最小となる変換量を決定する処理から繰り返す。
【００３８】
また、各自由度に対応する変換量がいずれも「０」（つまり無変換）を表すものとなっている場合は、その段階で処理を終了し、さらに未処理の探索領域があれば、当該未処理の探索領域のいずれかを処理の対象として変換処理を行う。
【００３９】
なお、ここでは対象画像データのうち、画定された探索領域に含まれる画像データ部分をそのまま用いているが、当該画像データ部分の解像度を低減する処理を行って、粗視データとし、当該粗視データを用いて変換処理を実行してもよい。この場合は、当該粗視データに対応する学習サンプルを用いて、各変換データベース１３ａを学習獲得させておく。
【００４０】
［第２変換処理］
ここでまず、第２変換処理の内容について説明する。本実施の形態において特徴的なことの一つは、この第２変換処理が段階的に、つまり一回ずつ、一つの変換自由度に対応する変換を逐次的に行うようになっていることである。
【００４１】
各段階で行うべき変換の内容と変換の量を決定するため、制御部１１は、現在選択している探索領域に含まれている画像データ部分に基づいてＮ2次元の所定の特徴量ベクトル情報を演算する。ここで特徴量ベクトル情報は、探索対象の性状に合わせて選択された、Ｎ2個の特徴量要素を含んでなるベクトル量である。本実施の形態においては、第１変換処理によってまず大まかに基準状態に近接させ、ついで第２変換処理を行ってより精密に基準状態に近づける。このため、第２変換処理における特徴ベクトル情報の次元数は、第１変換処理におけるものより大きくする（Ｎ2＞Ｎ1）。これにより、第２変換処理はより精度の高い変換とすることができる。
【００４２】
制御部１１は、第１変換処理と同様に、このＮ2次元の特徴量ベクトル情報と、変換データベース１１ｂに格納されている特徴量ベクトル情報とを用いた、カーネル非線形部分空間法によって変換を特定する。
【００４３】
［第２変換データベース１３ｂの内容］
第２変換データベース１３ｂは、第１変換データベース１３ａと同様の方法によって学習獲得されるものであるが、第１変換データベース１３ａの学習課程では、学習サンプルに基づき、所定Ｎ1次元の特徴量ベクトル情報に変換していたのに対し、第２変換データベース１３ｂの学習課程では学習サンプルから所定Ｎ2次元の特徴量ベクトル情報に変換して、これを利用した学習を行う点が異なる。
【００４４】
［第２変換処理の動作］
制御部１１は、各変換自由度ごとに学習獲得されている第２変換データベース１３ｂを用いて、第１変換処理によって変換された探索領域の各々についてさらに第２変換処理を施す。すなわち、処理の対象となった探索領域に含まれている画像データ部分（例えば画素値の列としてベクトル値と同視し得る）を、空間Ｆ2内のＮ2元特徴量ベクトル情報（各第２変換データベース１３ｂごと、つまり変換の各自由度ごとに定義されている特徴量の組）に写像し、さらにその写像を各部分空間Ωに射影する。そして、射影前の特徴量ベクトル情報と、射影後の特徴量ベクトル情報との距離Ｅが最小となる変換量を決定する。また制御部１１は、距離Ｅの二乗値Ｌを演算し、これを誤差として記憶部１２に保持する。
【００４５】
ここで変換量は、第１変換処理の場合と同じく、各第２変換データベース１３ｂに基づき自由度ごとに決定されるが、制御部１１は、各自由度に対応する変換量のうち一つを所定の条件（例えば各変換量に対応する距離Ｅが最小となるもの等の条件）に基づいて選択し、選択した自由度に対応する変換を、選択した変換量の分だけ変換する。
【００４６】
つまり、この場合も第１変換処理と同様に、探索領域に含まれている画像データ部分からは、各自由度に対応する各第２変換データベース１３ｂに学習獲得された情報によって、例えば回転の自由度に対しては１０度の回転変換により基準状態に近づき、その誤差がＬｒであり、平行移動の自由度に対しては左へ５ピクセルの変換で基準状態に近づき、その誤差がＬｐといった情報が得られるので、この中から、誤差が最小となる自由度の変換を選択する。例えば上述の例の場合、Ｌｒ＜Ｌｐならば１０度の回転変換を探索領域に施して、新たな探索領域を画定する。そして、この新たな探索領域に含まれる画像データ部分をさらに空間Ｆ2内の特徴量ベクトル情報に写像し、その写像をさらに各部分空間Ωに射影する。そして、射影前の特徴量ベクトル情報と、射影後の特徴量ベクトル情報との距離Ｅが最小となる変換量を決定する処理から繰り返す。
【００４７】
一方各自由度に対応する変換量がいずれも「０」（つまり無変換）を表すものとなっている場合は、その段階で処理を終了し、さらに未処理の探索領域があれば、当該未処理の探索領域のいずれかを処理の対象として変換処理を行う。
【００４８】
また、ここでも対象画像データのうち、画定された探索領域に含まれる画像データ部分をそのまま用いているが、当該画像データ部分の解像度を低減する処理を行って、粗視データとし、当該粗視データを用いて第２変換処理を実行してもよい。この場合は、当該粗視データに対応する学習サンプルを用いて、各第２変換データベース１３ｂを学習獲得させておく。
【００４９】
なお、これら第１・第２の変換処理において、制御部１１は、特徴量ベクトル情報の演算、部分空間への写像、距離の評価、誤差の評価といった処理を各自由度ごとに順次行うのではなく、並列して行ってもよい。
【００５０】
さらにここではカーネル非線形部分空間法を用いる場合を例として説明したが、データの分類と、分類時の誤差評価が可能であれば例えばオートエンコーダ等、他の方法を用いても構わない。
【００５１】
さらにここでは第２変換処理においても第１変換処理と同様に、各自由度の変換が行われるとして説明したが、第２変換処理においては、変換に係る自由度数を低減してもよい。例えば第１変換処理において最後に施した変換の自由度と同じ自由度の変換だけを行うようにしたり、第２変換処理において最初は変換の自由度を選択するが、第２回目以降の第２変換処理は当該最初の第２変換処理で選択した自由度だけに限って変換を繰り返すようにしてもよい。
【００５２】
また、第２変換処理において決定されるカテゴリとしての変換量の最大値を、第１変換処理において決定される変換量の最大値よりも小さく設定しておいてもよい。すなわち、第２変換処理において利用される第２変換データベース１３ｂの学習サンプルは、第１変換データベース１３ａの学習サンプルよりも変換量の範囲を狭めたものを用いておいてもよい。例えば、第１変換データベース１３ａ用の学習サンプルでは、回転角度−１８０度から１８０度までの範囲で１０度ずつ回転させた画像データを用い、第２変換データベース１３ｂ用の学習サンプルでは、その範囲ときざみ量とをそれぞれ小さくして、−３０度から３０度までの範囲で３度ずつ回転させた画像データを用いるといったようにする。
【００５３】
このように、第２変換処理における変換の条件（変換の自由度又は変換量の少なくとも一方）は第１変換処理に比べて制限されたものであってもよい。
【００５４】
［制御部１１の処理の流れ］
具体的に制御部１１は、まず縮小率Ｓを最小縮小率（例えば１倍、つまり縮小せず）に設定し（Ｓ１）、対象画像データを縮小率Ｓで縮小する（Ｓ２）。そして縮小後の対象画像データのサイズに等しいサイズのマップデータの領域を記憶部１２上に確保し、当該領域の値を「偽（false）」に設定して、マップデータの初期化を実行する（Ｓ３）。例えば縮小後の対象画像データが１０００×１０００ピクセルの画像データであれば、１０００×１０００ビット分の領域を確保し、各ビット値を「０」に初期設定する。
【００５５】
次に制御部１１は、縮小後の対象画像データについて、少なくとも一つの探索領域を画定する処理を行う（Ｓ４）。この探索領域の画定処理については後に詳しく述べる。そして探索領域の一つを選択し（Ｓ５）、当該探索領域について第１変換処理を実行する（Ｓ６）。
【００５６】
制御部１１は、続いて、第１変換処理の結果となった探索領域についてさらに第２変換処理を実行し（Ｓ７）、これら第１・第２変換処理後の探索領域に含まれる画像データ部分について、探索対象が含まれているか否かを判定する処理（探索処理）を実行する（Ｓ８）。ここで探索対象が含まれていると判断されるときには（Ｙｅｓのときには）、当該変換処理後の探索領域に相当する、マップデータ上の領域の値を「真（true）」に設定する（Ｓ９）。そしてさらに選択していない探索領域があるか否かを調べ（Ｓ１０）、選択していない探索領域があれば（Ｙｅｓであれば）、処理Ｓ５に戻り（Ａ）、当該選択していない探索領域の一つを選択して処理を続ける。
【００５７】
一方、処理Ｓ８における探索処理の結果、探索対象が含まれていないと判定されるときには（Ｎｏのときには）、そのまま処理Ｓ１０に移行する。また、処理Ｓ１０において、選択していない探索領域がなければ、つまり、すべての探索領域について変換処理と探索処理とを完了したならば（Ｎｏならば）、現在設定されている縮小率Ｓが事前に定められた最大縮小率を上回っているか否かを調べ（Ｓ１１）、上回っていなければ（Ｎｏならば）、縮小率Ｓを大きくするように調整して（Ｓ１２）、処理Ｓ２に戻って処理を続ける（Ｂ）。ここで、縮小率Ｓを大きく調整する処理Ｓ１２は、例えば縮小率Ｓを所定比で高めるような処理としてもよいし、縮小率Ｓである倍率に対し、所定乗率ΔＳを乗じて、Ｓ＝Ｓ×ΔＳとして新たな縮小率Ｓを定めてもよい。
【００５８】
また、処理Ｓ１１において現在設定されている縮小率Ｓが事前に定められた最大縮小率を上回っていなければ（Ｙｅｓならば）、各縮小率での対象画像データに対応するマップデータに基づき、元の（縮小前の）対象画像データ内で、探索対象が含まれている領域を画定して（Ｓ１３）、処理を終了する。
【００５９】
なお、ここでは第１変換処理の後、直ちに第２変換処理を実行しているが、第１変換処理の後で予備的な探索処理（その内容については後に述べる）を行い、この予備的な探索処理の結果、第１変換処理後の探索領域に含まれる画像データ部分に探索対象が含まれる可能性があると判断されたときにのみ第２変換処理を行うようにし、予備的な探索処理の際に第１変換処理後の探索領域に含まれる画像データ部分に探索対象が含まれる可能性はないと判断されたときには、上記の処理Ｓ１０に移行して処理を続けるようにしてもよい。これによると探索対象が含まれない領域について第２変換処理を行うことがなくなるので、処理負荷をより軽減できる。
【００６０】
［探索領域画定処理］
ここで制御部１１が探索領域を画定する処理（探索領域画定処理）について説明する。探索領域画定処理は、ユーザから入力された開始点の情報を利用しても、また、所定の条件を満足する領域を自律的に画定することによっても行うことができる。
【００６１】
例えばユーザから入力される情報を利用する場合、制御部１１は、操作部１５などから入力された少なくとも一つの開始点座標の情報に基づき、各開始点座標を左上隅とする予め定められたサイズの矩形領域を探索領域としてそれぞれ画定する。
【００６２】
また所定の条件を満足する領域を自律的に検索して画定する場合、制御部１１は、（縮小後の）対象画像データの左上隅の座標（例えばＸ＝０，Ｙ＝０）を開始点として、予め定められたサイズの矩形領域について所定の画定条件を満足しているか否かを調べ、画定条件を満足しているときには、当該矩形領域を探索領域とするという処理を、開始点を幅方向に所定量ずつ移動しながら（Ｘ＝Ｘ＋ΔＸ）順次行い、開始点が対象画像データの幅を逸脱する（Ｘ＞対象画像データの幅）と、高さ方向に所定量だけ開始点を移動して（Ｘ＝０，Ｙ＝Ｙ＋ΔＹ）、幅方向の処理を繰り返す。こうして対象画像データ全体のうち、画定条件を満足する領域を探索領域として画定する。
【００６３】
なお、ここでは開始点の移動量を幅方向、高さ方向にそれぞれΔＸ，ΔＹとしているが、これら移動量は対象画像データの縮小率Ｓに応じて、１倍のときのΔＸ，ΔＹに対してΔＸ／Ｓ，ΔＹ／Ｓとしてもよい。
【００６４】
［探索処理］
次に処理Ｓ８で行われる探索処理について説明する。この探索処理では変換処理を完了した探索領域の各々にそれぞれ含まれる画像データ部分について、探索データベース１３ｃを用いて、探索対象が含まれているか否かを判定する。具体的な探索処理の例としては、特開２００２−３２９１８８号公報に開示された方法などがある。次にその概要を説明する。
【００６５】
［探索データベースの学習課程］
この探索データベース１３ｃは、基準状態にある探索対象の画像データの例を学習サンプルとして用い、ニューラルネットワークを学習させて形成する。すなわち、制御部１１は、複数の学習サンプルの入力を受けて、その各々について、探索対象の性状に合わせて予め選択された特徴量のセット（特徴量ベクトル）を演算し、学習用データを生成する。次に、この学習用データを用いて、記憶部１２に格納されたＭ×Ｍ′の格子空間上に、ＳＯＭ（自己組織化マップ）によって格子空間マップを形成する。つまり、制御部１１は、入力された学習用データである特徴量ベクトルと、各格子ごとに割り当てられた重みベクトルとの距離を所定の測度（例えばユークリッド測度）で演算し、この距離が最小となる格子（最整合ノード）ｃを検出する。そしてこの最整合ノード近傍の複数の格子について、その重みベクトルを当該入力された特徴量ベクトルを用いて更新する。この処理の繰り返しにより、記憶部１２上に格子空間マップが形成され、互いに類似する特徴量ベクトルに対する最整合ノードが連続的な領域を形成するようになる。つまり、この格子空間には、多次元の入力信号である特徴量ベクトルから２次元のマップへの非線形射影が位相を保持したまま形成され、重みの更新により、データの特徴部分が組織化され、その学習成果として類似のデータに反応する格子が近接して存在しているようになる。
【００６６】
各学習データに基づく学習が完了すると、次に制御部１１は、格子空間マップの各格子をカテゴリに分類する。この分類は、例えば各格子間の距離（各格子に関連づけられた重みベクトル間の距離）に基づいて行うことができ、探索対象に似た画像データに反応する格子群のカテゴリ（探索対象カテゴリ）と、そうでない格子群のカテゴリ（非探索対象カテゴリ）とに分類される。
【００６７】
［探索処理の動作］
制御部１１は、対象画像データと同じサイズのマップデータを記憶する領域を記憶部１２に確保し、当該領域の値を「偽（false）」に初期化する。
【００６８】
制御部１１は、学習獲得した探索データベース１３ｃを用い、変換処理を完了した探索領域の画像データ部分に基づいて所定の特徴量ベクトルを演算する。そして当該演算した特徴量ベクトルと探索データベース１３ｃ内の各格子に関連づけられた重みベクトルとの距離を求め、特徴量ベクトルとの距離が最小となる格子（最整合ノード）を特定し、特定した格子が探索対象カテゴリに属していれば、探索領域に探索対象が含まれていると判断し、特定した格子が非探索対象カテゴリに属していれば、探索領域には探索対象が含まれていないと判断する。
【００６９】
［予備的探索処理］
また、第２変換処理を行うか否かを決定するための予備的な探索処理について説明する。この予備的な探索処理は、上記処理Ｓ８で行われる探索処理と同様の処理を行ってもよいが、探索処理自体の処理負荷に配慮して、より簡便な処理としておくことも好ましい。
【００７０】
例えばこの予備的探索処理としては、第１変換処理後の探索領域に含まれる画像データ部分に基づき、所定の特徴量を演算し、その特徴量が所定の条件を満足しているか否かによって探索対象が含まれている可能性があるか否かを判断するようにしてもよい。一例として、人の顔を探索対象とする場合、人の顔の輪郭部分ではその他の部分に比べてエントロピーが高いので、特徴量としてこのエントロピーを演算し、所定のしきい値（例えば対象画像データ全体の平均的なエントロピー値に基づいて決定されるしきい値）に比べて当該演算したエントロピーの値が高い場合に探索対象が含まれている可能性があると判断する。
【００７１】
［制御部１１の動作］
本実施の形態の制御部１１は、以上のように、探索の対象となった対象画像データを順次縮小しながら、縮小後のそれぞれの対象画像データから探索処理を行う領域を取り出し、当該領域内の画像データ部分を基準状態に近づけるべく第１変換処理を実行し、ついで当該第１変換処理後の画像データ部分に探索対象が含まれているか否かを予備的に探索する。
【００７２】
そして、この予備的な探索の結果、探索対象が含まれている可能性があると判断されると、さらに基準状態に近づけるように第２変換処理を実行し、探索対象が当該変換後の探索領域内の画像データに含まれているか否かを判断する。すなわち、制御部１１は探索処理の対象となる画像データを基準状態とする処理をまずは粗く行い、ついで細かく行うことで、全体としての処理負荷を軽減する。
【００７３】
このように基準状態への変換処理が行われるので、本実施の形態においては、変換前の探索領域の位置が多少ずれていても構わない。また、縮小率が基準状態から多少ずれていたとしても問題とならない。従って従来であれば、０．８倍ずつ縮小した多段階の縮小画像データを生成し、しかも探索領域を１画素ずつずらしながら取り出すようにしていたのに対し、本実施の形態のものでは０．５倍ずつの縮小で構わないし、探索領域を画定する際に、所定の条件を満足する領域を自律的に取り出す場合であっても、ΔＸやΔＹを６画素等とすることができる。これにより、探索処理の対象となるパターン数を大幅に低減でき、探索の対象体を写真などから探索する処理の負荷を軽減できる。
【００７４】
制御部１１は、探索対象が含まれていると判断された領域を表すマップデータを探索結果情報として生成するが、このマップデータは各縮小率で縮小された後の対象画像データのそれぞれに対応して複数生成される。そこで、これら複数のマップデータ（それぞれ縮小後の対象画像データのサイズとなっている）を統合的に用いて探索対象が含まれている領域を決定する。
【００７５】
例えば、各マップデータを、それぞれの縮小率に応じた拡大率で拡大し、元の対象画像データのサイズに揃えて比較し、すべてのマップデータで共通して「真」となっている領域（どの縮小率の対象画像データに基づいても、探索対象が含まれていると判断された領域）に探索対象が含まれていると判断することとしてもよい。また、いずれか一つのマップデータで「真」となっている領域を探索対象が含まれている領域と判断するようにしてもよい。
【００７６】
［探索領域画定処理の変形例］
さらに探索領域画定処理において、制御部１１は探索領域として画定しようとする領域について、その内部に含まれる画像データのエントロピーや、階層エントロピー、色、輝度分散、及びこれらのうちの二以上の値の組み合わせを用い、探索領域として実際に画定するか否かを決定してもよい。例えば人物の顔部分を探索する場合、顔の周辺部（輪郭部分）ではエントロピーが高くなるので、エントロピーが所定のしきい値よりも大きい場合には当該探索領域として画定しようとしている領域を実際に探索領域として画定し、そうでない場合には、当該領域を探索領域とせずに、他の処理を続けるようにする。これによると、変換処理・探索処理の対象となる探索領域を合理的に減少させることができ、処理負荷の軽減が図られる。
【００７７】
［その他の変形例］
ここまでの説明では、変換処理において行われる変換は、探索領域に関する２次元的な回転、平行移動、拡大縮小（探索領域を拡大縮小し、その内部の画像データ部分を元の（拡大縮小前の）探索領域のサイズに変換して扱えばよい）であり、その結果として、当該探索領域に含まれる画像データ部分が変換されるものとして説明したが、これ以外にも例えば人の顔であれば、姿勢（うつむき加減や振り向き加減）に影響される３次元的な回転等、画像データ部分そのものに対しての変換を含んでもよい。具体的にこのような３次元的な回転などの場合、探索対象の平均的３次元モデルを想定し、当該平均的３次元モデルへ画像データ部分を投射したものを用いて実現することができる。
【００７８】
また、探索処理においては探索対象として、例えば人の顔であっても、さらに細かくカテゴリを分けて、年齢や性別、口を開けているか否かなどの条件を含めてもよい。
【００７９】
さらに、図２のフローチャート図においては各縮小率における処理を制御部１１が順次行うものとしていたが、各縮小率における処理は互いに独立しているので、制御部１１は、これらの各縮小率における処理を並列して行ってもよい。
【００８０】
［動作］
次に、本実施の形態の画像探索装置の動作について、対象画像データとして与えられた写真の画像データから人の顔部分を探索対象として探索する場合を例として説明する。なお、以下の例では簡単のため、変換の自由度は平行移動（ｘ，ｙ）と、回転（θ）のみであるとして説明する。
【００８１】
制御部１１は、図示しない外部インタフェースや通信部など、外部から入力される対象画像データを記憶部１２に格納し、既に説明した方法で探索領域を画定する。例えば制御部１１は、対象画像データを、所定サイズの画像ブロック（その一部が互いに重なり合ってもよい）に区切り、そのうち、例えばエントロピーが所定の値より高い画像ブロックを探索領域として画定する。そして画定された探索領域の一つを選択し、当該選択した探索領域について第１変換処理を実行する。この第１変換処理では、概念的には、基準状態Ｏから、図３（ａ）に示すような範囲Ｒ１にある画像データ部分が基準状態Ｏ近傍に近づけられる。
【００８２】
制御部１１は、さらに第１変換処理後の画像データ部分に探索対象である人の顔が含まれているか否かを予備的に探索する。この予備的な探索処理は、ニューラルネットワークを利用した本探索処理と同様のものであってもよいし、エントロピーなどの特徴量を用いた簡易なものであってもよい。制御部１１は、この予備的な探索処理の結果、第１変換処理後の画像データ部分に探索対象である人の顔が含まれていると判断される場合は、続いて当該画像データ部分に係る探索領域に第２変換処理を実行する。この第２変換処理では、概念的には、図３（ａ）に対応する図３（ｂ）に示すように、自由度が例えばθ方向（回転）のみで、その変換量の範囲も狭い変換処理（Ｒ２）が適用され、画像データ部分を基準状態Ｏにより近接させる微調整が行われる。
【００８３】
制御部１１は、この第２変換処理後の探索領域に含まれる画像データ部分に対して探索処理を実行し、探索対象が含まれているか否かを調べ、探索対象が含まれていれば、当該探索処理を行った探索領域に相当する対象画像データの部分を特定する情報を生成する。
【００８４】
このように、本実施の形態では、二段階の変換処理を行って、一つの変換データベースを用いるだけの変換処理の場合に比べ、処理負荷を軽減でき、より基準状態に近接させて探索を行わせるため、探索精度も向上できる。
【００８５】
なお、ここまでの説明では二段階の変換処理を行う場合を例として示しているが、３回以上の複数回であっても構わない。この場合、段階があがるにつれて変換処理における変換条件をより制限したり、特徴量ベクトル情報の次元数をより高めてもよい。
【００８６】
【実施例】
図４（ａ）は、一種類の変換データベースを用いた変換処理によって基準状態への変換を行った後の画像データが、実際の基準状態からどれだけの誤差を生じていたかを表す分布図であり、図４（ｂ）は、本実施の形態と同様に、二種類の変換データベースを用いて、まずは粗く、次に細かくと２回に分けて変換処理を行った場合に、その結果としての画像データが、実際の基準状態からどれだけの誤差を生じていたかを表す分布図である。各図を参照して理解されるように、本実施の形態の方法によれば、誤差の平均が小さくなり、分布状態からも、より基準状態に近くなるよう変換が為されている。
【００８７】
また、前記一種類の変換データベースを用いた変換処理の場合では、収束までに平均的に２０回前後の変換処理を要する（各自由度ごとの単位変換がおおよそ２０回行われる）のに対し、前記二種類の変換データベースを用いる場合、粗い変換処理に約１０回、細かい変換処理に約５回で済んでおり、全体的に変換処理自体の処理負荷も軽減されている。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る画像探索装置の構成ブロック図である。
【図２】制御部１１の処理の一例を表すフローチャート図である。
【図３】本発明の実施の形態に係る画像探索装置が行う変換処理の概要を表す説明図である。
【図４】一種類の変換データベースを用いた変換処理の結果と二種類の変換データベースを用いた二段階の変換処理の結果とを比較した実験結果を表す説明図である。
【符号の説明】
１１制御部、１２記憶部、１３データベース部、１４表示部、１５操作部、１６外部記憶部。

Claims

処理の対象となった対象画像データ内から、探索の対象となる探索対象の画像データ部分を探索する画像探索装置であって、
前記対象画像データ内に、探索領域を少なくとも一つ画定する手段と、
変換方法ごとに予め学習獲得された複数の第１変換データベースを参照して、前記画定されたそれぞれの探索領域に含まれる各探索部分データについて適用すべきＮ１個の変換の方法及び変換の量を含んでなる変換条件を取得し、当該取得した変換条件に基づく変換を、各探索部分データに対して少なくとも一度行う第１変換手段と、
前記第１変換手段によって変換された各探索部分データについて、さらに、前記第１変換手段における変換に比べ、変換の方法をＮ２個（Ｎ２はＮ１とは異なる）とし、変換の量を制限した制限変換条件を、変換方法ごとに予め学習獲得された複数の第２変換データベースを参照して取得し、当該取得した制限変換条件に基づく変換を前記変換された各探索部分データに対して少なくとも一度行い、前記各探索部分データを基準状態へ変換する第２変換手段と、
を含み、
予め、前記基準状態での画像データを用いて学習獲得された探索データベースを参照し、前記変換後の探索部分データの各々に探索対象が含まれているか否かを判断し、当該判断結果を出力することを特徴とする画像探索装置。
請求項１に記載の画像探索装置において、
前記第１変換手段によって変換された各探索部分データについて、探索対象が含まれているか否かを判断する予備探索手段をさらに有し、
当該予備探索手段により、探索対象が含まれていると判断された探索部分データについてのみ、前記第２変換手段が変換を行うことを特徴とする画像探索装置。
請求項２に記載の画像探索装置において、
前記予備探索手段は、第１変換手段によって変換された後の探索部分データについて、探索対象の画像データ例を用いて学習獲得された探索データベースを参照し、前記変換後の探索部分データの各々に探索対象が含まれているか否かを判断することを特徴とする画像探索装置。
請求項３に記載の画像探索装置において、
前記探索領域を画定する手段は、
探索領域として画定しようとする領域の内部に含まれる画像データのエントロピー、階層エントロピー、色、及び輝度分散、の少なくとも一つを用い、探索領域として実際に画定するか否かを決定することを特徴とする画像探索装置。
請求項３に記載の画像探索装置において、
前記探索領域を画定する手段は、
探索領域として画定しようとする領域の内部に含まれる画像データのエントロピーが、所定のしきい値よりも大きい場合には当該探索領域として画定しようとしている領域を実際に探索領域として画定することを特徴とする画像探索装置。
処理の対象となった対象画像データ内から、探索の対象となる探索対象の画像データ部分を探索する画像探索プログラムであって、コンピュータを、
前記対象画像データ内に、探索領域を少なくとも一つ画定する手段と、
変換方法ごとに予め学習獲得された複数の第１変換データベースを参照して、前記画定されたそれぞれの探索領域に含まれる各探索部分データについて適用すべきＮ１個の変換の方法及び変換の量を含んでなる変換条件を取得し、当該取得した変換条件に基づく変換を、各探索部分データに対して少なくとも一度行う第１変換手段と、
前記第１変換手段によって変換された各探索部分データについて、さらに、前記第１変換手段における変換に比べ、変換の方法をＮ２個（Ｎ２はＮ１とは異なる）とし、変換の量を制限した制限変換条件を、変換方法ごとに予め学習獲得された複数の第２変換データベースを参照して取得し、当該取得した制限変換条件に基づく変換を前記変換された各探索部分データに対して少なくとも一度行い、前記各探索部分データを基準状態へ変換する第２変換手段と、
予め、前記基準状態での画像データを用いて学習獲得された探索データベースを参照し、前記変換後の探索部分データの各々に探索対象が含まれているか否かを判断し、当該判断結果を出力する手段と、
として機能させることを特徴とするプログラム。
請求項６に記載の画像探索プログラムにおいて、
前記第１変換手段としての機能によって変換された各探索部分データについて、探索対象が含まれているか否かを判断し、探索対象が含まれていると判断された探索部分データについてのみ、前記第２変換手段として機能させるよう、前記コンピュータを機能させる手段をさらに含むことを特徴とする画像探索プログラム。
請求項７に記載の画像探索プログラムにおいて、
前記予備探索手段として機能させる際に、第１変換手段によって変換された後の探索部分データについて、探索対象の画像データ例を用いて学習獲得された探索データベースを参照し、前記変換後の探索部分データの各々に探索対象が含まれているか否かを判断させることを特徴とする画像探索プログラム。