JP5591360B2

JP5591360B2 - 分類及び対象物検出の方法及び装置、撮像装置及び画像処理装置

Info

Publication number: JP5591360B2
Application number: JP2013040008A
Authority: JP
Inventors: ジャンヤン; ジャンウェンウェン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-02-29
Filing date: 2013-02-28
Publication date: 2014-09-17
Anticipated expiration: 2033-02-28
Also published as: JP2013182620A; CN103295024A; CN103295024B; US9141881B2; US20130223726A1

Description

本発明は、画像処理及びパターン認識の分野に関し、特に、対象物検出を実行するために分類器をトレーニングする方法及び装置に関する。

コンピュータ画像処理技術の開発が進み、コンピュータビジョンの原理が広く適用されるようになったことに伴い、対象物検出技術によって画像及びビデオからリアルタイムで対象物を探索することが一般的になっている。対象物検出技術は、スマート端末デバイス、スマート交通システム、スマート監視システム、更には軍用対象物検出システムなどの用途で広く実用に供されるようになった。

対象物検出の分野では、１クラス分類方法（ｏｎｅ−ｃｌａｓｓｍｅｔｈｏｄ）によりトレーニングされた分類器が広く使用される。Ｍ．Ｍｏｙａ及びＤ．Ｈｕｓｈの「Ｎｅｔｗｏｒｋｃｏｎｓｔｒａｉｎｔｓａｎｄｍｕｌｔｉ−ｏｂｊｅｃｔｉｖｅｏｐｔｉｍｉｚａｔｉｏｎｆｏｒｏｎｅ−ｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎ」（ＮｅｕｒａｌＮｅｔｗｏｒｋ、９（３）：４６３−４７４.ｄｏｉ：１０．１０１６／０８９３−６０８０（９５）００１２０−４、１９９６年）に記載されるように、１クラス分類器の場合、１つのクラスの対象物のみを含むトレーニングセットからの学習によって、そのクラスの対象物を可能な他のすべての対象物から弁別できる。例えば、顔／猫／犬を目標とする分類器をカメラに組み込むことができる。

しかし、このような既存の１クラス分類器は、消費者の要求に応えられなくなってきている。カメラを例にとると、ユーザは、ペットのようなある特定の被写体の写真を定期的に撮影する傾向にある。これは、従来の１クラス分類器のような分類器、すなわち単に顔／猫／犬などのある特定のクラスの被写体のみを目的とする分類器ではなく、ユーザ自身により指定される被写体（ペットなど）の外見特徴を学習可能な分類器が望まれていることを意味する。例えば、ユーザは、カメラを持ち上げた時点で自動的にペットに焦点を合わせたり、あるいは自身のカメラで撮影したすべての写真の中からペットに関する写真を見つけたりする傾向がある。

現在、既存の殆どの対象物検出製品は、適切にトレーニングされた分類器を得るために十分な数のサンプルの集合に依存しており、分類器は、対象物の位置の特定を実現するために使用される。しかし、実際の用途によっては、分類器をトレーニングするのに十分な数のサンプルを収集することが困難である。例えば、交通監視システムを介して特定の車両を追跡する場合、その特定の車両に関するサンプルはわずかしかなく、利用可能なサンプルが１つしかないということも考えられる。更に、顧客向け製品では、単純にユーザのみに依存して多数のサンプルを収集することは実用的ではなく、これは低いユーザエクスペリエンスにつながることもある。

従って、（１）可能な対象物のカテゴリが非常に膨大であり、その分布はロングテール理論に従うため、考えられるすべての対象物カテゴリに対応する事前学習済み辞書を準備することは実質的に不可能であるので、事前の知識にまったく依存せず、（２）照明、視点、歪み、ぶれ、回転などの対象物の外観変化を扱うことができると同時に、１つ又はいくつかのサンプルだけでも検出を実行することが可能であり、且つ（３）同一のカテゴリの他のすべての対象物から１つの対象物を十分に分離できる弁別性、例えばユーザの犬を他のユーザの犬から識別可能な弁別性を有する対象物検出方法が望まれる。

従来の対象物検出方法は上記の条件を満たすことができない。例えば、Ｆ．Ｆｅｒｒａｒｉ及びＡ．Ｚｉｓｓｅｒｍａｎの「ＬｅａｒｎｉｎｇＶｉｓｕａｌＡｔｔｒｉｂｕｔｅｓ」（ＮＩＰＳに掲載、２００８年）に「属性」の概念が開示されているが、エンドユーザが対象物の属性を識別する必要がある。

Ｌ．Ｆｅｉ−Ｆｅｉ、Ｒ．Ｆｅｒｇｕｓ及びＰ．Ｐｅｒｏｎａの「Ａｂａｙｅｓｉａｎａｐｐｒｏａｃｈｔｏｕｎｓｕｐｅｒｖｉｓｅｄｏｎｅ−ｓｈｏｔＬｅａｒｎｉｎｇｏｆｏｂｊｅｃｔｃａｔｅｇｏｒｉｅｓ」（ＩＣＣＶに掲載、１１３４〜１１４１ページ、２００３年）には、ワンショット学習法が開示されている。Ｍ．Ｌｅｗの「Ｃｏｎｔｅｎｔ−ｂａｓｅｄＭｕｌｔｉｍｅｄｉａＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ：ＳｔａｔｅｏｆｔｈｅＡｒｔａｎｄＣｈａｌｌｅｎｇｅｓ」（ＡＣＭＴｒａｎｓ．ＭＣＣＡ、２００６年）並びにＪ．Ｅａｋｉｎｓ及びＭ．Ｇｒａｈａｍの「Ｃｏｎｔｅｎｔ−ｂａｓｅｄＩｍａｇｅＲｅｔｒｉｅｖａｌ」（ＮｏｒｔｈｕｍｂｒｉａＵｎｉｖｅｒｓｉｔｙ、ニューカッスル）には、コンテンツに基づく画像検索方法が開示されているが、これらの方法は共に、対象物を同一のカテゴリの他の対象物から識別するのに十分な精度を備えていない。

ＨａｅＪｏｎｇＳｅｏ及びＰｅｙｍａｎＭｉｌａｎｆａｒの「Ｔｒａｉｎｉｎｇ−ＦｒｅｅＧｅｎｅｒｉｃＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎＵｓｉｎｇＬｏｃａｌｌｙＡｄａｐｔｉｖｅＲｅｇｒｅｓｓｉｏｎＫｅｒｎｅｌｓ」（ＩＥＥＥＴｒａｎｓ．ＰＡＭＩ、第３２巻第９号、１６８８〜１７０４ページ、２０１０年）には、トレーニング不要のＬＡＲＫに基づく検出方法が開示されているが、この方法は回転不変性を備えておらず、クラス内弁別性も低い。

ＤａｖｉｄＧ．Ｌｏｗｅの「Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｌｏｃａｌｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓ」（ＩＣＣＶ．、１１５０〜１１５７ページ、１９９９年）並びにＨ．Ｂａｙ、Ａ．Ｅｓｓ、Ｔ．Ｔｕｙｔｅｌａａｒｓ及びＬ．Ｖ．Ｇｏｏｌの「ＳＵＲＦ：ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ」（ＣＶＩＵ、３４６〜３５９ページ、２０００８年）には、ＳＩＦＴ／ＳＵＲＦに基づくローカルポイント整合方法が開示されている。Ｅ．Ｎｏｗａｋ、Ｆ．Ｊｕｒｉｅ及びＢ．Ｔｒｉｇｇｓの「ＳａｍｐｌｉｎｇＳｔｒａｔｅｇｉｅｓｆｏｒＢａｇ−ｏｆ−ＦｅａｔｕｒｅｓＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎ」（ＥＣＣＶ、２００６年）には、ＢＯＷ／Ｐａｒｔに基づくモデルが開示されている。これらの方法は、非常に小さな目標を扱うこと及び非剛体対象物歪みを扱うことには適さない。

以上挙げたような従来の種々の方法は、サンプル数が少ない場合に満足できる検出性能を示さない。従って、ごく少数のサンプルを使用して高いロバスト性及び高い弁別性で対象物検出を実現可能である方法及び装置が極めて望ましい。

１つ又はいくつかのサンプルのみを使用することによって有効な分類器をトレーニングする際の妨げになっているのは、少数のサンプルしか利用できない場合の分類器の性能、すなわちロバスト性及び弁別性をどのように制御するかということである。言い換えれば、分類器は、目標対象物のすべての外観変化に適正に対応できなければならないだけではなく、目標対象物を同一カテゴリの他の対象物から正確に識別できなければならない。しかし、利用可能なサンプルの数が少ない場合、図１に示されるように、照明、視点、歪み、ぶれ、回転などの目標対象物について可能なすべての外観変化に対応するためには、サンプルの多様性があまりにも限られている。これが、従来の技術において分類器をトレーニングするために十分な数のサンプルが必要であった理由の１つである。

上記の問題を解決するために、本発明は、新規の分類学習方法及び分類学習装置を提供する。本発明の分類学習方法及び分類学習装置は、分類閾値としてサポートベクトルに基づいて決定超球面を推定してもよい。どのようなサンプルであるかにかかわらず又はサンプルの数にかかわらず、決定超球面は実質的に変化しない。すなわち、どの正の（ポジティブ）サンプルも、決定超球面の中に含まれる確率はほぼ一定である。

本発明の１つの態様によれば、全て又は一部がサポートベクトルとして識別される１以上の特徴ベクトルを含む特徴空間内での分類方法であって、サポートベクトルに従って、特徴空間内で最大超球面を作成する最大超球面作成工程と、サポートベクトルに従って、作成された最大超球面の中心を計算する中心計算工程と、作成された最大超球面の表面積を計算する表面積計算工程と、中心が最大超球面の計算された中心となり、最大超球面との表面積の比が予め定められた値となるように、決定超球面を作成する決定超球面作成工程と、決定超球面の中にある特徴ベクトルを正の（ポジティブ）特徴ベクトルとして分類する分類工程とを有する分類方法が提供される。

本発明の他の特徴及び利点は、添付の図面を参照して以下の説明を読むことにより更に明らかになるだろう。

本明細書に含まれ且つ本明細書の一部を形成する添付の図面は、本発明の実施形態を例示し、以下の詳細な説明と共に本発明の原理を示すために使用される。

図１は、例示的な目標対象物について可能な外観変化を示す図である。図２Ａは、従来の技術によるサポートベクトルデータ記述（ＳＶＤＤ）を示す概略図である。図２Ｂは、従来の技術のＳＶＤＤ分類方法に従った閾値と複数のサンプルとの関係を概略的に示す図である。図３Ａは、本発明に係る分類方法の原理を示す概略図である。図３Ｂは、本発明の分類方法に従った閾値と複数のサンプルとの関係を概略的に示す図である。図４は、本発明の実施形態に係る分類方法を示すフローチャートである。図５は、本発明の実施形態に係る中心計算ステップを示すフローチャートである。図６は、本発明の実施形態に係る最小超球面内に存在する特徴ベクトルはただ１つであるか否かを判定する方法を示す図である。図７は、本発明の実施形態に係る決定超球面作成ステップを示すフローチャートである。図８は、本発明の実施形態に係る対象物検出方法を示すフローチャートである。、図９Ａ及び図９Ｂは、本発明の実施形態に係る対象物検出方法によって対象物を識別する一例を示す図である。図１０は、本発明の実施形態に係る分類装置を示す機能ブロック図である。図１１は、本発明の実施形態に係る対象物検出装置を示す機能ブロック図である。図１２は、本発明の実施形態を実現可能なコンピュータシステムのハードウェア構成を示すブロック図である。図１３は、本発明の実施形態を実現可能な撮像装置を示す機能ブロック図である。

添付の図面を参照して、本発明の種々の例示的な実施形態を詳細に説明する。尚、実施形態において説明される構成要素の相対的配置及びステップの相対的配列、数式及び数値は、特に指示のない限り本発明の範囲を限定しない。

以下の少なくとも１つの例示的な実施形態の説明は本質的に単なる例であり、本発明、その適用又は用途を限定することをまったく意図しない。

当業者には周知である技術、方法及び装置は詳細に説明されない場合があるが、本明細書の一部を適宜構成することが意図される。

本明細書で示され且つ説明されるすべての例において、特定の値は、いずれも単なる例であり、本発明を限定すると解釈されるべきではない。従って、例示的な実施形態の他の例では値が異なることもありうるだろう。

尚、添付の図面中、同一の図中符号及び文字は類似する項目を示すので、１つの図においてある項目が定義されている場合、他の図でその項目を更に解説する必要はないと考えられる。

前述のように、ごくわずかな数のサンプルを使用して高いロバスト性及び高い弁別性で対象物検出を実現するためには、目標対象物のほぼすべての外観変化に対応するばかりでなく、同一カテゴリの他の対象物から目標対象物を十分な精度で識別することが可能な分類器を提供する必要がある。

サポートベクトルデータ記述（ＳＶＤＤ）法は、１クラス分類方法の重要な技術である。Ｄ．Ｔａｘ及びＲ．Ｄｕｉｎの「Ｓｕｐｐｏｒｔｖｅｃｔｏｒｄｏｍａｉｎｄｅｓｃｒｉｐｔｉｏｎ」（ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔ．Ｌｅｔｔ．、第２０巻、１１９１〜１１９９ページ、１９９９年）に記載されるように、ＳＶＤＤ法は、可能な限り多くのトレーニングサンプルを囲い込むことができる最小の体積を有する球を発見することを目的としている。図２Ａは、ＳＶＤＤ法を説明するための概略図である。図２Ａに示される特徴空間の中で、白丸（○）は、トレーニングサンプルに対応する特徴ベクトルを表し、黒丸（●）は、球の境界に位置するサポートベクトルを表す。図示されるように、サポートベクトルは、ＳＶＤＤ法で取得される超球面を定義する。すなわち、ＳＶＤＤ分類器の閾値が判定される。言い換えれば、ＳＶＤＤ法の目的は、図示されるようなサポートベクトルを取得することである。

従来のＳＶＤＤ法を利用する対象物検出方法の性能及び精度は、トレーニングサンプルをどの程度まで利用可能であるかによって決まる。図２Ｂは、従来のＳＶＤＤ法を利用する分類方法に従った閾値と複数のサンプルとの関係を概略的に示す。図２Ｂにおいて、白丸（○）は元のトレーニングサンプルを表し、黒四角（■）は新たに追加されたトレーニングサンプルを表す。実線の囲み線は、元のトレーニングサンプルに基づいて取得されたＳＶＤＤ超球面を表し、破線の囲み線は、新たなトレーニングサンプルが追加された後に取得されたＳＶＤＤ超球面を表す。

図２Ｂからわかるように、トレーニングサンプルの数が少ない場合、一般にトレーニングサンプルの多様性は低いので、図２Ｂの実線の囲み線により示されるように、分類器閾値を定義するＳＶＤＤ超球面は小さくなる。そのような場合、トレーニング後の分類器が目標対象物の多くの外観変化を認識できないこと、すなわち検出率が非常に低くなるために対象物検出に失敗することは明らかである。例えば、ビデオ監視、画像検索などのオンライン適用例において、元の状態で十分な数のトレーニングサンプルがないので、従来の分類方法では、検出率が低いために目標対象物を検出できない。

図２Ｂに破線の囲み線で示されるように、サンプル数が多くなるにつれて、ＳＶＤＤ超球面は連続的に拡大される。すなわち、分類器の閾値が大きくなる。超球面が拡大された場合、検出率は向上するが、誤検出率も高くなる。すなわち、誤の（ネガティブ）サンプルを正のサンプルとして判定する確率が高くなる。従って、従来のＳＶＤＤを利用する対象物検出方法は不安定な性能を有し、サンプル数が少ない場合には機能できない。

図１に関して説明したように、サンプルの特徴空間内で、１つのサンプル（例えば図１の実線で囲まれた正方形により表されるトレーニングサンプル）は、単にごく狭い領域を占めるか又は特徴ベクトルとして特徴付けられることが可能であるが、このサンプルの外観のバリエーションは、サンプルの周囲の広い領域を占めるかもしれない。わずか１つ又は数個のサンプルに従って、現れる可能性があるすべての外観バリエーションを検出するためには、それらの外観変化が占める領域、すなわち図１の楕円形の実線により示される領域を推定することが必要である。

本発明によれば、図３Ａに示されるように、特徴空間内で目標対象物の外観変化が占める領域を適切に推定するために、サポートベクトルに基づいて、外観変化が占める最大超球面（半径Ｒ_ｍａｘ）が作成される。次に、最大超球面の中心が推定される。例えば、超球面の中心が推定されるように、最小の超球面（半径Ｒ_ｍｉｎ）が推定される。最後に、最大超球面及び推定された中心に基づき、統計的確率に従って分類器の閾値として決定超球面（半径Ｒ_Ｔ）が作成される。サンプルの数にかかわらず、作成される決定超球面はほぼ一定の大きさである。［Ｒ_ｍｉｎ ^２，Ｒ_ｍａｘ ^２］の範囲内のｆ＝Ｒ^２の分布は、図３Ａの右下隅に概略的に示される。

図３Ｂに示されるように、新たなトレーニングサンプルが追加された後、サポートベクトルにより定義される超球面は著しく拡大されるが（図３Ｂの実線及び破線により示される）、新たに作成される決定超球面は、元の決定超球面とほぼ同一の大きさである（図３Ｂの２本の点線により示される）。サポートベクトルに基づいて決定超球面を作成する方法は、以下に詳細に説明される。

尚、本明細書においてはＳＶＤＤを例にとって分類器をトレーニングする方法を説明するが、サポートベクトルマシン（ＳＶＭ）に基づく分類器にも本発明の分類方法を適用可能であることを当業者は理解すべきである。

図４は、本発明の実施形態に係る分類方法を示すフローチャートである。目標トレーニングサンプルを取得した後、それらのサンプルに対して特徴空間が構成される。次に、可能な限り多くのトレーニングサンプルを囲むことが可能な最大超球面の境界がＳＶＤＤ法によって取得される。すなわち、特徴空間内でサポートベクトルが判定される。従って、判定されたサポートベクトルに従って特徴空間内の最大超球面が作成される（ステップ１０、最大超球面作成ステップとも呼ばれる）。

ＳＶＤＤ法に基づく超球面の判定は次の式により表される。
式中、αは超球面の中心であり、Ｒは超球面の半径であり、Ｃはペナルティ係数であり、ξ_ｉはスラック誤差であり、ｘ_ｉは超球面を定義するサポートベクトルを表す。

式（１）にラグランジュ乗数を適用すると、次のように双対問題（ｄｕａｌｐｒｏｂｌｅｍ）を取得できる。
式中、Ｋ（・）は、非負関数値のカーネル関数である。本明細書中、カーネル関数Ｋ（・）は、特徴空間内のあらゆる正規化特徴ベクトルｚに対して一定であるように選択される。すなわち、Ｋ（ｚ，ｚ）は一定である。

一実施形態において、ヒストグラムインタセクションカーネル（ＨＩＫ）を次のように選択できる（詳細に関してはhttp://c2inet.sce.ntu.edu.sg/Jianxin/projects/libHIK/libHIK_v2.pdfを参照）。
式中、Ｔ及びＱは特徴ヒストグラムであり、Ｎはヒストグラムの次元である。

尚、本実施形態は式（３）のＨＩＫ関数を例にとって説明されるが、へリンガーのカーネル関数及びジェンセン−シャノンカーネル関数も選択可能であることは当業者には理解されるべきである。

式（２）の双対最適化問題の解を使用して、サポートベクトルｘ_ｉ∈ＳＶｓ及び対応する重みα_ｉのセットが取得される。

上述のＳＶＤＤ法によって取得されたサポートベクトルｘ_ｉ及び重みα_ｉから、最大超球面の半径Ｒ_ｍａｘを計算できる。正規化特徴ベクトルｚに関して、超球面の中心までの距離を次のように計算できる。
ｆ（ｚ）＝Ｒ_ｚ ^２≦Ｒ^２であれば、特徴ベクトルｚは超球面の中にあり、このベクトルを目標対象物カテゴリに分類できる。

最大超球面の半径Ｒ_ｍａｘを解くために、先の式（４）に従って次の式を取得できる。

先に述べた通り、任意の正規化ベクトルｚに対して、Ｋ（ｚ，ｚ）は一定である。サポートベクトルｘ_ｉ∈ＳＶｓ及び対応する重みα_ｉが式（２）に従って計算されれば、
は一定の値を有する。従って、ｆ_ｍａｘを解く鍵は、
の最小値を取得することである。前述のように、カーネル関数Ｋ（・）は非負であるので、
となる。

従って、式（５）を次のように簡略化できる。

このようにして、上記の式（６）により最大超球面の半径Ｒ_ｍａｘが判定される。

次に、図４のステップ２０を説明する。このステップは中心計算ステップとも呼ばれる。最大超球面の中心は、サポートベクトルに従って計算される。すなわち、最短距離ｆ_ｍｉｎが判定されるのである。

図５は、本発明の実施形態に係る中心計算ステップの特定の一実現形態を示すフローチャートである。図５に示されるように、まず、式（２）に基づいて計算されたサポートベクトルに従って、特徴空間内の最小超球面が作成される（ステップ２１０）。上記の式（４）に従って、最短距離ｆ_ｍｉｎは次のように表される。

前述のように、すべてのサポートベクトルの判定が終了している条件の下では、任意の正規化特徴ベクトルｚに対してｆ_ｍｉｎは一定である。従って、ｆ_ｍｉｎを解くことを
の最大値を解くことに変換できる。カーネル関数の定義から、
は特定の値でなければならず、＋∞ではないことがわかる。

次に、最小超球面の中に存在する特徴ベクトルがただ１つであるか否か、すなわちｆ（ｚ）＝Ｒ_ｚ ^２≦Ｒ_ｍｉｎ ^２を満たす超球面の中心までの距離を有する特徴ベクトルｚはただ１つであるか否かが判定される（ステップ２２０）。最小超球面の中に存在する特徴ベクトルｚがただ１つである場合、その特徴ベクトルがまさに最小超球面及び最大超球面の中心であることを意味する。最小超球面の中に２つ以上の特徴ベクトルが存在する場合、以下に詳細に説明するように、最大超球面の中心として最小超球面の中心を推定する必要がある（ステップ２３０）。

この例では、説明の便宜上、ＨＩＫ関数が選択されている。計算速度を増すために、ルックアップテーブルｌｕｔが定義される。
式中、ｘ_ｉｊ∈Ｘ_ｉ，Ｘ_ｉ∈ＳＶｓであり、Ｍはサポートベクトルの数であり、Ｎはサポートベクトルの次元である。

上記の式（８）から、
であることがわかるが、ｍａｘ（ｌｕｔ）は
と等しいとは限らないことがわかる。ｍａｘ（ｌｕｔ）が
の値をとることができる場合、それは、最小超球面の中に特徴ベクトルが１つしか存在しないことを意味する。そのような場合、その特徴ベクトルを超球面の中心と判定でき、
と判定される。

図６を参照すると、最小超球面の中に特徴ベクトルが２つ存在する場合、
であり、この場合ｆ_ｍｉｎを評価しなければならない。すなわち、ｍａｘ（ｌｕｔ）を評価しなければならない。

ＨＩＫカーネル関数の例では、ｊ番目の次元に関して、次のように定義される。

Ｈ_ｊの平均値は
と定義され、式（８）によれば、
である。従って、Ｎ次元特徴ベクトルｚ_ｊに関して、ｌｕｔの最大値の推定は、Ｎ個の次元におけるｌｕｔの平均値の最大値を推定すること、すなわち
を推定することと同等である。以下の説明中、統計学の分野における標本推定理論に従って
の範囲が推定される。

中心極限定理によれば、
は標本空間における正規分布に従う。従って、確率Φ_ｚは累積分布であり、特に次の通りである。

中心極限定理によれば、以下が得られる。

標準誤差
、及び確率Φ_ｚに従って、標準正規累積分布関数のルックアップテーブルからλ_ｚを取得でき、
の範囲は［μ−λ_ｚσ_ｅ，μ＋λ_ｚσ_ｅ］と判定される。その結果として、
が判定される。

最後に、式（１１）の結果を式（７）に代入すると、ｆ_ｍｉｎを推定できる。

次に、図４に戻って説明する。ステップ３０（決定超球面作成ステップとも呼ばれる）において、計算された中心及び作成された最大超球面に基づいて決定超球面が作成される。例えば、ステップ２０で計算されたｆ_ｍｉｎ及びステップ１０で計算されたｆ_ｍａｘを使用して決定超球面が作成される。決定超球面の中心は、作成された最大超球面についての計算された中心と同一である。

図７は、本発明の実施形態に係る決定超球面作成ステップを示すフローチャートである。図７を参照すると、ステップ３１０において、最大超球面の表面積が次のように計算される。

ｆ（ｚ）は［ｆ_ｍｉｎ，ｆ_ｍａｘ］の範囲内でほぼ同一の分布型を有する。以下の説明中、パラメータＰ、すなわち決定超球面の表面積と最大超球面の表面積との比を表す所定の値を想定する。ステップ２０で計算されたＲ_ｍｉｎ及びステップ１０で計算されたＲ_ｍａｘを使用することによって、決定超球面の半径Ｒ_Ｔが生成される（ステップ３２０）。パラメータＰは次のように定義される。

式（１３）によれば、決定半球の半径Ｒ_Ｔを次のように判定できる。

式（１４）によれば、特徴ベクトルｚに対して適切な閾値、すなわちｆ_Ｔ（ｚ）が推定される。最後に、すべてのサポートベクトルＸ_ｉ∈ＳＶｓに対してｆ_Ｔが推定される。

ｆ_Ｔはトレーニング後の分類器の閾値である。トレーニングサンプルの数にかかわらず又はどのようなトレーニングサンプルであるかにかかわらず、分類器の誤検出率をパラメータＰを有するレベル以下に定常的に抑制できる。すなわち、どの正の特徴ベクトルに関しても、作成された決定超球面に含まれる確率は一定である。尚、パラメータＰ自体は、正の特徴ベクトルが決定超球面の中に含まれる確率を表わさないが、所定のパラメータＰに対して、この確率は一定である。

したがって、決定超球面の中心が計算された最大超球面の中心と一致し且つ決定超球面の表面積と最大超球面の表面積との比が所定の値であるように、決定超球面は作成される。

最後に、図４のステップ４０（分類ステップとも呼ばれる）において、特徴空間内で決定超球面の中に特徴ベクトルが存在する場合、その特徴ベクトルは正の特徴ベクトルとして分類される。そうでない場合、特徴ベクトルは誤の（ネガティブ）特徴ベクトルとして分類される。

以上説明した分類方法により、ごくわずかな数のサンプルを使用して、高いロバスト性及び高い弁別性で対象物検出を実現できる。図８は、本発明の実施形態に係る対象物検出方法を示すフローチャートである。

まず、ステップ５０（判定ステップとも呼ばれる）において、サポートベクトルの集合が判定される。一実施形態では、サポートベクトルの集合は、受信された１つ又はいくつかのサンプルに基づいて判定される。別の実施形態において、サポートベクトルの集合は、他のトレーニング済み分類器から抽出される。

トレーニングされるべき分類器の高い弁別性及びロバスト性を保証するために、サポートベクトルの数は所定のレベル以上に保持される。一例において、サポートベクトルの数は３０以上である。一般に１つの特徴ベクトルは１つのサンプルに対応するので、サンプルの数は所定の値以上である必要がある。サンプルの数が所定の値を下回る場合、サンプルの集合が所定の値に増加するまで、利用可能なサンプルに基づいてシミュレーション演算が実行される。例えば、Ｍ．Ｓｈｅｅｌａｇｈ、Ｔ．Ｃａｒｐｅｎｄａｌｅ、ＤａｖｉｄＪ．Ｃｏｗｐｅｒｔｈｗａｉｔｅ及びＦ．ＤａｖｉｄＦｒａｃｃｈａｉａの「ＩｎｆｏｒｍａｔｉｏｎＶｉｓｕａｌｉｚａｔｉｏｎ」（ＳｉｍｏｎＦｒａｓｅｒＵｎｉｖｅｒｓｉｔｙ、１９９７年）で説明されている３Ｄ歪曲法をサンプルシミュレーションに使用できる。

次に、一定の確率パラメータＰが設定され、利用可能な入力サンプルの数にかかわらず安定した検出性能を保持可能な分類器を取得するように、図４に示される分類方法を使用して分類器がトレーニング（すなわち学習）される（ステップ６０、トレーニングステップとも呼ばれる）。

ステップ６０でトレーニングされた分類器を使用して、画像又はビデオから対象物を検出できる（ステップ７０、検出ステップとも呼ばれる）。まず、画像又はビデオフレームから複数の部分領域が生成される。一実施形態において、正のサンプルと同一の大きさを有する検索ウィンドウが最初に設定される。次に、検索ウィンドウの中に含まれる画素を抽出して入力画像の一部分を作成するために、画像又はビデオフレームに沿って検索ウィンドウが徐々に移動される。入力画像全体に沿って検索ウィンドウが移動された後、入力画像はサイズ変更される。所定の値に到達するまで、サイズ変更ステップ及び移動ステップは繰り返される。次に、生成された部分領域の各々から特徴ベクトルが抽出され、トレーニング済み分類器に入力される。最後に、分類器で検出された正のサンプルを有する部分領域が記録され、対象物の大きさ及び場所がグループごとに分類される。これにより、わずかな数のサンプルを使用して、高いロバスト性及び高い弁別性で対象物検出を実現できる。

図９Ａ及び図９Ｂは、本発明の実施形態の対象物検出方法による対象物の識別の一例を示す。背景、照明条件及び視点などが異なる状況で同一のポメラニアン犬を撮影した７枚のビデオが試験用として選択される。図９Ａに示されるように、各ビデオから１つのトレーニングサンプルが選択される。図９Ｂは、本発明の方法と従来のＳＶＤＤを利用した方法との性能の違いを示す。図中、横軸は、各画像の誤検出率、すなわち誤のサンプルを誤って正のサンプルと判定する確率を示し、縦軸は、検出率、すなわち正のサンプルを検出する確率を示す。誤検出率が低いほど、また、検出率が高いほど、対象物検出方法の性能はよいと考えられる。図９Ｂからわかるように、従来の方法の場合、サンプル数が増加するにつれて誤検出率は増加するが、本発明では、誤検出率はほぼ安定している。更に、利用可能なサンプルの数が少ない場合、従来の方法の検出率は非常に低いが、本発明の方法の検出率は常に高いレベルに保持されている。

図１０は、本発明の一実施形態に係る分類装置２０００を示す機能ブロック図である。分類装置２０００の機能モジュールは、本発明の原理を実行するために、ハードウェア、ソフトウェア又はハードウェアとソフトウェアとの組み合わせにより実現される。先に説明した本発明の原理を実現するために、図１０に示される機能ブロックが組み合わされるか又はサブブロックに分割されてもよいことは当業者には理解される。従って、以下の説明は、本明細書において説明される機能ブロックについて可能なあらゆる組み合わせ又は分割又は更なる定義をサポートするだろう。

分類装置２０００は、特徴空間内の正の特徴ベクトルを認識可能である。特徴空間は１つ以上の特徴ベクトルを含む。一実施形態において、入力サンプルの特徴ベクトルに基づき、ＳＶＤＤ方法によってサポートベクトルを判定できる。別の実施形態では、他のトレーニング済み分類器からサポートベクトルを抽出できる。

分類装置２０００は、最大超球面作成ユニット２０１０と、中心計算ユニット２０２０と、決定超球面作成ユニット２０３０と、分類ユニット２０４０とを備えてもよい。

最大超球面作成ユニット２０１０は、サポートベクトルに従って特徴空間内の最大超球面を作成してもよい。中心計算ユニット２０２０は、サポートベクトルに従って、最大超球面作成ユニット２０１０により作成された最大超球面の中心を計算してもよい。決定超球面作成ユニット２０３０は、中心計算ユニット２０２０により計算された中心及び最大超球面作成ユニット２０１０により作成された最大超球面に基づいて決定超球面を作成してもよい。決定超球面は分類装置２０００の閾値である。分類ユニット２０４０は、決定超球面作成ユニット２０３０により作成された決定超球面の中の特徴ベクトルを正の特徴ベクトルとして分類してもよい。一実施形態において、決定超球面は、作成された決定超球面の中に含まれる確率がどの正の特徴ベクトルに関しても一定になるように作成される。

一実施形態において、中心計算ユニット２０２０は、最小超球面作成ユニット２０２２と、超球面中心判断ユニット２０２４と、超球面中心判定ユニット２０２６とを更に備えてもよい。最小超球面作成ユニット２０２２は、サポートベクトルに従って特徴空間内の最小超球面を作成してもよい。超球面中心判断ユニット２０２４は、最小超球面の中に存在する特徴ベクトルがただ１つであるか否かを判断してもよい。最小超球面の中に存在する特徴ベクトルがただ１つである場合、超球面中心判定ユニット２０２６は、その特徴ベクトルを最大超球面の中心であると判定してもよい。最小超球面の中に特徴ベクトルが２つ以上存在する場合、超球面中心判定ユニット２０２６は最小超球面の中心を推定する。この中心が最大超球面の中心であると考えられる。

一実施形態において、決定超球面作成ユニット２０３０は、最大超球面表面積計算ユニット２０３２と、決定超球面判定ユニット２０３４とを更に備える。最大超球面表面積計算ユニット２０３２は、最大超球面作成ユニット２０１０により作成された最大超球面の表面積を計算してもよい。決定超球面判定ユニット２０３４は、決定超球面の中心が最大超球面の計算上の中心と一致し且つ決定超球面の表面積と最大超球面表面積計算ユニット２０３２により計算された最大超球面の表面積との比が所定の値になるように決定超球面を判定してもよい。

一実施形態では、最大超球面作成ユニット２０１０、中心計算ユニット２０２０及び決定超球面作成ユニット２０３０においてカーネル関数Ｋ（・）が使用される。このカーネル関数は、特徴空間内の任意の正規化特徴ベクトルｚに対して固定されるように選択される。例えば、カーネル関数Ｋ（・）はヒストグラムインタセクションカーネルを含んでもよい。

図１１は、本発明の実施形態に係る対象物検出装置３０００を示す機能ブロック図である。対象物検出装置３０００の機能モジュールは、本発明の原理を実行するために、ハードウェア、ソフトウェア又はハードウェアとソフトウェアとの組み合わせにより実現されてもよい。先に説明したような本発明の原理を実現するために、図１１に示される機能ブロックが組み合わされるか又はサブブロックに分割されてもよいことは当業者には理解される。従って、以下の説明は、本明細書において説明される機能ブロックについて可能なあらゆる組み合わせ又は分割又は更なる定義をサポートするだろう。

対象物検出装置３０００は、判定ユニット３０１０と、トレーニングユニット３０２０と、検出ユニット３０３０とを備えてもよい。

判定ユニット３０１０はサポートベクトルの集合を判定してもよい。一実施形態において、判定ユニット３０１０は、１つ以上のサンプルを受信するサンプル受信ユニット３０１２と、サンプル受信ユニット３０１２により受信されたサンプルに基づいてサポートベクトルの集合を計算するサポートベクトル計算ユニット３０１４とを備えてもよい。その代わりに又はこれに加えて、判定ユニット３０１０は、他のトレーニング済み分類器からサポートベクトルを抽出するサポートベクトル抽出ユニット３０１６と、サポートベクトル抽出ユニット３０１６により抽出されたトレーニング済み分類器のサポートベクトルに基づいてサポートベクトルの集合を選択するサポートベクトル選択ユニット３０１８とを備えてもよい。

トレーニングユニット３０２０は、判定ユニット３０１０により判定されたサポートベクトルの集合を使用して図４の分類方法によって分類器をトレーニングしてもよい。検出ユニット３０３０は、トレーニングされた分類器を使用して画像又はビデオから対象物を検出してもよい。

図１２は、本発明の実施形態を実現するために使用可能な計算システム１０００のハードウェア構成の一例を示すブロック図である。例えば、コンピュータシステム１０００は、デスクトップコンピュータ、タブレットコンピュータ、ラップトップコンピュータ、警報装置、スマートフォン、ゲーム機などの画像処理装置として実現可能である。

図１２に示されるように、計算システム１０００は計算デバイス１１１０を備える。計算デバイス１１１０は、処理ユニット１１２０と、システムメモリ１１３０と、着脱不可能な不揮発性メモリインタフェース１１４０と、着脱可能な不揮発性メモリインタフェース１１５０と、ユーザ入力インタフェース１１６０と、ネットワークインタフェース１１７０と、ビデオインタフェース１１９０と、出力周辺装置インタフェース１１９５とを備え、これらの構成要素はシステムバス１１２１を介して接続されている。

システムメモリ１１３０は、ＲＯＭ（読み取り専用メモリ１１３１）及びＲＡＭ（ランダムアクセスメモリ１１３２）を備える。ＲＯＭ１１３１にはＢＩＯＳ（基本入出力システム）１１３３が存在する。オペレーティングシステム１１３４、アプリケーションプログラム１１３５、他のプログラムモジュール１１３６及びいくつかのプログラムデータ１１３７は、ＲＡＭ１１３２に存在する。

ハードディスクなどの着脱不可能な不揮発性メモリ１１４１は、着脱不可能な不揮発性メモリインタフェース１１４０に接続される。着脱不可能な不揮発性メモリ１１４１は、例えばオペレーティングシステム１１４４、アプリケーションプログラム１１４５、他のプログラムモジュール１１４６及びいくつかのプログラムデータ１１４７を記憶する。

例えば、図１１に関して説明した対象物検出装置３０００をシステムメモリ１１３０又は着脱不可能な不揮発性メモリ１１４１にアプリケーションモジュールとして記憶することが可能である。

フロッピー（登録商標）ドライブ１１５１及びＣＤ−ＲＯＭドライブ１１５５などの着脱可能な不揮発性メモリは、着脱可能な不揮発性メモリインタフェース１１５０に接続される。例えば、フロッピー（登録商標）ディスクをフロッピー（登録商標）ドライブ１１５１に挿入可能であり、ＣＤ（コンパクトディスク）をＣＤ−ＲＯＭドライブ１１５５に挿入可能である。

マウス１１６１及びキーボード１１６２などの入力デバイスは、ユーザ入力インタフェース１１６０に接続される。

計算デバイス１１１０は、ネットワークインタフェース１１７０により遠隔計算デバイス１１８０に接続可能である。例えば、ネットワークインタフェース１１７０は、ローカルエリアネットワーク１１７１を介して遠隔計算デバイス１１８０に接続可能である。あるいは、ネットワークインタフェース１１７０はモデム（変復調器）１１７２に接続可能であり、モデム１１７２は、ワイドエリアネットワーク１１７３を介して遠隔計算デバイス１１８０に接続される。

遠隔計算デバイス１１８０は、遠隔アプリケーションプログラム１１８５を記憶するハードディスクなどのメモリ１１８１を備える。

ビデオインタフェース１１９０はモニタ１１９１に接続される。

出力周辺装置インタフェース１１９５は、プリンタ１１９６及びスピーカ１１９７に接続される。

図１２に示される計算システムは単なる例であり、本発明、その適用又は用途を限定することはまったく意図されない。

どの実施形態においても、図１２に示される計算システムは、独立型コンピュータとして又は１つのデバイスの中の処理システムとして実現可能であり、システムから１つ以上の不要な構成要素を除去すること又はシステムに１つ以上の追加構成要素を追加することが可能である。

一例において、計算システム１０００のユーザは、例えば着脱不可能な不揮発性メモリ１１４１に記憶されている１つ以上の画像サンプルを検出されるべき目標対象物として識別し、次に、検出されるべきサンプルの範囲を指定するために、キーボード１１６２などの入力デバイスを介して計算システム１０００と対話する。その後、システムメモリ１１３０又は着脱不可能な不揮発性メモリ１１４１に記憶されている対象物検出モジュールは、図４に示される方法に従って学習する。次に、学習を完了した対象物検出モジュールを使用して、ユーザにより指定されたサンプルの範囲から目標対象物が検出される。最後に、サンプルの範囲から検出された目標対象物がユーザに対して提示される。

図１３は、本発明の実施形態に係る撮像装置４０００を示す機能ブロック図である。例えば、撮像装置４０００はカメラ、ビデオカメラなどとして実現される。図１３に示されるように、撮像装置４０００は、画像又はビデオを撮影するように構成された光学系４０１０と、図８の方法に従って動作可能な対象物検出装置４０２０と、対象物検出装置４０２０により検出される対象物に焦点を合わせるために光学系４０１０を制御するように構成された制御ユニット４０３０とを備える。

一例において、撮像装置４０００のユーザは、撮像装置４０００を始動した後、撮像を実行する前に、撮像装置４０００の記憶装置（図示せず）に記憶されている１つ以上の画像サンプルを追跡されるべき目標対象物として指定する。次に、対象物検出装置４０２０に含まれる分類器は、図４に示される方法に従ってトレーニングされる。撮像中、対象物検出装置４０２０は、プレビュー画像（例えばカメラのファインダの中にある画像）の中に検出されるべき目標対象物が含まれているか否かを判定するためにプレビュー画像を自動的に検索する。目標対象物が含まれている場合、対象物検出装置４０２０は、目標対象物の位置を探索する。最後に、制御ユニット４０３０は、対象物検出装置４０２０により検出された目標対象物に焦点を合わせるために光学系４０１０を制御する。別の例では、ユーザによる目標対象物の指定が撮像装置４０００の記憶装置に記録されてもよい。

本発明の方法及び装置は多くの態様で実現可能である。例えば、本発明の方法及び装置は、ソフトウェア、ハードウェア又はソフトウェアとハードウェアとの何らかの組み合わせにより実現可能である。方法のステップの順序は単なる例であり、特に指示のない限り、本発明の方法のステップは、先に説明された特定の順序に限定されない。更に、いくつかの実施形態において、本発明は、記録媒体に記録され且つ本発明に係る方法を実現するための機械可読命令を含むプログラムとして実現可能である。従って、本発明は、本発明に係る方法を実現するためのプログラムが記憶されている記録媒体をも含む。

更に、本発明は画像処理システムにおいても実現可能である。画像処理システムは、特に、プロセッサと、プロセッサに本発明の方法、すなわち分類方法及び／又は対象物検出方法を実行させるプログラムを記憶するメモリとを備える。

本発明のいくつかの特定の実施形態を例によって示したが、上記の例が単なる例であり、本発明の範囲を限定することを意図していないことは当業者には理解されるだろう。本発明の範囲及び精神から逸脱することなく上記の実施形態を変形できることを当業者は理解すべきである。本発明の範囲は添付の特許請求の範囲により定義される。

Claims

全て又は一部がサポートベクトルとして識別される１以上の特徴ベクトルを含む特徴空間内での分類方法であって、
前記サポートベクトルに従って、前記特徴空間内で最大超球面を作成する最大超球面作成工程と、
前記サポートベクトルに従って、前記作成された最大超球面の中心を計算する中心計算工程と、
前記作成された最大超球面の表面積を計算する表面積計算工程と、
中心が前記最大超球面の前記計算された中心となり、前記最大超球面との表面積の比が予め定められた値となるように、決定超球面を作成する決定超球面作成工程と、
前記決定超球面の中にある特徴ベクトルを正の特徴ベクトルとして分類する分類工程と
を有することを特徴とする分類方法。
前記決定超球面作成工程において、任意の正の特徴ベクトルが前記作成された決定超球面内に入る確率を一定とするように、前記決定超球面は作成されることを特徴とする、請求項１に記載の分類方法。
前記中心計算工程は、
前記サポートベクトルに従って、前記特徴空間内で最小超球面を作成する工程と、
前記最小超球面内に特徴ベクトルが１つのみ存在するか否かを判定する工程と、
前記最小超球面内に特徴ベクトルが１つのみ存在する場合、当該１つのみの特徴ベクトルを前記最大超球面の前記中心として決定する工程と、
前記最小超球面内に１つより多い特徴ベクトルが存在する場合、前記最大超球面の中心として、前記最小超球面の中心を推定する工程と、
をさらに有することを特徴とする、請求項１に記載の分類方法。
前記サポートベクトルが予め識別されているか、又は前記１以上の特徴ベクトルに基づいて計算されることを特徴とする、請求項１に記載の分類方法。
前記最大超球面作成工程において、前記最大超球面がサポートベクトルデータ記述（ＳＶＤＤ）アルゴリズムを用いて作成されることを特徴とする、請求項１に記載の分類方法。
前記最大超球面作成工程、前記中心計算工程及び前記決定超球面作成工程においてカーネル関数Ｋ（・）が用いられ、
前記特徴空間内の任意の正規化特徴ベクトルｚのうちの１つについてＫ（ｚ，ｚ）が一定となるように前記カーネル関数が選択される
ことを特徴とする、請求項１に記載の分類方法。
前記カーネル関数Ｋ（・）がヒストグラムインタセクションカーネル（ＨＩＫ）を含むことを特徴とする、請求項６に記載の分類方法。
全て又は一部がサポートベクトルとして識別される１以上の特徴ベクトルを含む特徴空間内での分類装置であって、
前記サポートベクトルに従って、前記特徴空間内で最大超球面を作成する最大超球面作成手段と、
前記サポートベクトルに従って、前記最大超球面作成手段によって作成された前記最大超球面の中心を計算する中心計算手段と、
前記作成された最大超球面の表面積を計算する表面積計算手段と、
中心が前記最大超球面の前記計算された中心となり、前記最大超球面との表面積の比が予め定められた値となるように、決定超球面を作成する決定超球面作成手段と、
前記決定超球面作成手段によって作成された前記決定超球面の中にある特徴ベクトルを正の特徴ベクトルとして分類する分類手段と
を有することを特徴とする分類装置。
サポートベクトルのセットを決定する決定工程と、
前記決定工程において決定された前記サポートベクトルのセットに基づいて、請求項１に記載の分類方法を用いて分類器をトレーニングするトレーニング工程と、
学習済みの前記分類器を用いて画像又はビデオから対象物を検出する検出工程と、
を有することを特徴とする対象物検出方法。
前記決定工程が、
１以上のサンプルを取得するサンプル取得工程と、
前記取得したサンプルに基づいて前記サポートベクトルのセットを計算するサポートベクトル計算工程と
を有することを特徴とする、請求項９に記載の対象物検出方法。
前記決定工程が、
他の学習済みの分類器からサポートベクトルを抽出するサポートベクトル抽出工程と、
他の学習済みの分類器の前記抽出されたサポートベクトルに基づいて、前記サポートベクトルのセットを選択するサポートベクトル選択工程と、
を有することを特徴とする、請求項９に記載の対象物検出方法。
サポートベクトルのセットを決定する決定手段と、
前記決定手段において決定された前記サポートベクトルのセットに基づいて、請求項１に記載の分類方法を用いて分類器をトレーニングするトレーニング手段と、
学習済みの前記分類器を用いて画像又はビデオから対象物を検出する検出手段と、
を備えることを特徴とする対象物検出装置。
画像又はビデオを撮像する光学系と、
請求項１２に記載の対象物検出装置と、
前記対象物検出装置によって検出された前記対象物に焦点を合わせるように前記光学系を制御する制御装置と、
を備えることを特徴とする撮像装置。
請求項１２に記載の対象物検出装置を備える画像処理装置。
前記画像処理装置が、デスクトップコンピュータ、タブレットコンピュータ、ラップトップコンピュータ、警報装置、スマートフォン及びゲーム機で構成される群から選択されるものであることを特徴とする、請求項１４に記載の画像処理装置。
請求項８に記載の分類装置の各手段としてコンピュータを機能させるプログラムを格納することを特徴とする、コンピュータ読み取り可能な記録媒体。
請求項１２に記載の対象物検出装置の各手段としてコンピュータを機能させるプログラムを格納することを特徴とする、コンピュータ読み取り可能な記録媒体。
プロセッサと、
前記プロセッサに請求項１に記載の方法を実行させるプログラムを格納するメモリと、
を備えることを特徴とする画像処理システム。
プロセッサと、
前記プロセッサに請求項９に記載の方法を実行させるプログラムを格納するメモリと、
を備えることを特徴とする画像処理システム。