JPH1055444A

JPH1055444A - Ｄｃｔをベースとするフィーチャー・ベクトルを使った顔の認識

Info

Publication number: JPH1055444A
Application number: JP9115461A
Authority: JP
Inventors: Christine Irene Podilchuk; アイレンポデルチュッククリスチン; Xiaoyu Zhang; ツァンキシアオユ
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1996-05-06
Filing date: 1997-05-06
Publication date: 1998-02-24
Anticipated expiration: 2017-05-06
Also published as: EP0806739A3; DE69718553D1; DE69718553T2; EP0806739A2; US5802208A; EP0806739B1; JP3649311B2

Abstract

(57)【要約】【課題】ＤＣＴをベースとするフィーチャー・ベクト
ルを用いて顔の認識率を向上させる。【解決手段】入力画像信号中の所与のオブジェクト
は、データベースに保存された複数の既知のオブジェク
トの１つと比較され、その際、既知のオブジェクトの各
々の保存された表示は、既知のオブジェクトを含むトレ
ーニング画像信号に基づいて生成されたコードブックを
含む。第１の例示としての実施例は、所与のオブジェク
トをブロックに分解するステップと、各エンコーディン
グがコードブックの１つを使ったオブジェクトのコーデ
ィングからなる、所与のオブジェクトの複数のエンコー
ディングを行うステップと、各エンコーディングについ
てコーディング誤差を決定するステップと、コーディン
グの誤差に基づいて所与のオブジェクトを既知のオブジ
ェクトの１つと比較するステップとを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概して、自動化画
像分析の分野に関し、特に画像に含まれる人間の顔を認
識および識別する問題に関する。

【０００２】

【従来の技術、及び、発明が解決しようとする課題】検
証と識別を含む、静止画像またはビデオ・データからの
顔の認識は大きなデータベースのビデオ検索、保安上の
アクセスなどの無数のマルチメディア適用例を含む広い
範囲の商業的な適用例がある。顔を認識する際の問題
は、一般に以下のように説明される。静止画像またはビ
デオ・シーケンスが入力として与えられると、必要とさ
れるタスクは、例えば以前に保存された顔のデータベー
スの内容に基づいて、入力された画像の中に１つかそれ
以上の人物を認識することである。高品質の顔認識シス
テムは、照明、背景、顔の表情、位置、縮尺に変化があ
る時や、入力された画像とデータベースの元になるトレ
ーニング画像の間に髪型の違いがあっても、入力された
画像すなわちテスト画像と保存されたデータベースを一
致させることができるはずである。

【０００３】顔識別の問題は、詳細には、入力された画
像の人物が保存されたデータベースに含まれる人物の誰
かに一致するか、もし一致するなら、どの人物と一致す
るかを判定する、一対多マッピングをシステムが行うこ
とを要求する。他方、顔の認証の問題は、入力された画
像が（充分に）データベースの中の１人の特定の個人の
データ（通常そのアイデンティティがシステムを使う人
物によって要求される個人のためのデータ）に一致する
かを判定する、一対一マッピングをシステムが行うこと
を要求する。顔の認証がセキュリティの分野で利用され
る一方、顔の識別はセキュリティと同様、新聞報道のよ
うな分野で利用され、そこでは多数のマルチメディア・
データベースから特定の個人の画像を検索できることが
望ましい。

【０００４】通常の顔認識システムは、３つの部分、す
なわち、データを分割して重要な部分または特徴を抽出
する前処理ステップ、特徴選択ステップ、分類付けステ
ップからなる。例えば、前処理ステップは、入力された
画像を粗分割して背景のデータから顔のデータを分離す
るステップからなるか、または特徴を生じるために使わ
れる目、鼻、口といった顔の部分の位置を見つけるため
のより細かな分割を含む。前処理ステップはまた、顔の
部分同士の位置関係といったフィーチャー・ベクトルを
抽出する。いずれにしても、一度前処理がなされると、
対象となる部分、すなわち顔は、通常画像の他の部分か
ら抽出されて（寸法と位置について）標準化される。こ
うした前処理は従来通りで、本技術に普通に熟練した者
には周知であるので、ここでの残りの議論は顔認識プロ
セスの特徴抽出および分類付け部分に焦点を当てる。

【０００５】重要な顔の部分を抽出したり、または特定
の顔の部分同士の位置関係を判定して、それらをデータ
ベースと比較する識別用の特徴として使うことに基づく
多数の顔認識のための技術が使われたり、および／また
は提案されてきた。あいにく、これらの方法は通常顔の
部分を非常に高い精度で位置決めする能力に依存する。
このことは画像が非常に良く管理された環境で捉えられ
ないと、非常に困難である。さらに、これらの技術の大
部分は画像のエッジの正確な検出や、照明の変化や多く
の量のノイズを伴う質の低い画像に対して特に強くない
ローカル操作に依存する。

【０００６】例えば、眼の間の距離、口の幅、眼から鼻
への距離、眼から口までの距離といった位置関係を測定
し、これらのパラメータを、それに対して入力（すなわ
ち、テスト）データとトレーニング・データ（すなわ
ち、データベースに保存されたデータ）の間で突き合わ
される特徴として使おうとする技術は、例えば、Ｒ．Ｂ
ｒｕｎｅｌｌｉ、Ｔ．Ｐｏｇｇｉｏ、「位置的特徴を通
じた顔の認識」、Ｐｒｏｃ．Ｅｕｒｏｐｅ．Ｃｏｎｆ．
ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、ｐｐ．７９２−
８００、１９９２を含む。

【０００７】他方、特徴選択プロセスのための顔の部分
の位置決めに依存しない技術は、例えば、顔の認識のた
めに良く知られたＫａｒｈｕｎｅｎ−Ｌｏｅｖｅ変換を
使うＬ．Ｓｉｒｏｖｉｃｈ、Ｍ．Ｋｉｒｂｙ、「人間の
顔の特徴づけのためのロー・ディメンショナル手続
き」、Ｊ．Ｏｐｔ．Ｓｏｃ．Ａｍｅｒ．、ｖｏｌ４、ｐ
ｐ．５１９−５２４と、顔の検出と認識のために「固有
の顔」を定義して使用するＭ．Ａ．Ｔｕｒｋ、Ａ．Ｐ．
Ｐｅｎｔｌａｎｄ、「固有の顔を使った顔の認識」Ｐｒ
ｏｃ．Ｉｎｔ．Ｃｏｎｆ．ｏｎＰａｔｔ．Ｒｅｃｏ
ｇ．、ｐｐ．５８６−５９１、１９９１を含む。これら
のアプローチの各々では、各人の顔は本質的に、あらか
じめ定義された「固有の顔」の集合に適用される重みの
ベクトルとして示される。この特定のアプローチの弱点
の１つは、入力された画像が「固有の顔」を計算するた
めに収集された画像と縮尺や頭の位置の点で同じでない
場合、認識率が大きく低下する点である。

【０００８】最後に、顔の認識のためにニューラル・ネ
ットワークも利用される。しかし、ニューラル・ネット
ワークのアプローチは、通常大量のトレーニング・デー
タ（例えば、データベース中の各人について、数百の画
像）を必要とするので、大きなデータベースが必要にな
るため、このアプローチを非実用的なものにしている。
上記で説明された従来技術のアプローチは他のものと同
様、Ｒ．Ｃｈｅｌｌａｐｐａ、Ｃ．Ｌ．Ｗｉｌｓｏｎ、
Ｓ．Ｓｉｒｏｈｅｙ、「人間と機械による顔の認識：概
観」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥ
Ｅ、１９９５年５月で説明されている。

【０００９】

【課題を解決するための手段】本発明は、顔の画像デー
タに固有の特性の何らかの事前知識を組み込むことな
く、一般的な画像の統計を利用する信号処理アプローチ
を利用するので有利である。もちろん、これは、大部分
が発見的方法に基づき、一般的に、広い範囲の入力画像
の変化に対して特に強くない、上記で説明された従来技
術の「コンピュータ・ビジョン」アプローチとは対照的
である。詳細には、本発明によれば、画像の中の顔とい
うオブジェクトの認識は、認識されるオブジェクト（例
えば、顔）を含む画像の一部がコード化され、それによ
って生じたコード化データが、既知のオブジェクト・デ
ータベースに保存された、前にコード化されたトレーニ
ング・データと一致する画像の一部を含む、信号圧縮技
術（すなわち、コーディング技術）を使って達成され
る。画像圧縮技術を使うことによって、各オブジェクト
（例えば、人物の顔）は、小さな数の集合によって表す
ことができるので有利である。

【００１０】例えば、本発明のある例示としての実施例
によれば、オブジェクト（例えば、顔）を含む入力画像
の一部がピクセル・データのブロックに分解され、各ブ
ロックのピクセル・データに対して、例えば、ディスク
リート・コサイン変換（ＤＣＴ）のような（リニア）変
換が行われ、変換されたブロックは「ベクトル量子化」
（ＶＱ）され、各人物についてコードベクトルのコード
ブックを発生する。（ブロックをベースとする変換はブ
ロックの信号エネルギーを、少数の有意な変換係数にコ
ンパクト化する効果を持ち、この係数は有利にもブロッ
クを表すために使用できるので有利である。トレーニン
グ集合の中のデータの各ブロックを示す変換係数は、コ
ードベクトルのコードブックを生成するために使われ
る。）一般に、入力されるベクトルの数は、コードブッ
クに保存されたコードベクトルの数よりはるかに大き
い。従って、トレーニング・データを示すために必要な
データの量はさらに圧縮されるので有利である。

【００１１】ブロックをベースとする変換（ＤＣＴを含
む）とベクトル量子化（ＶＱ）は共に画像コーディング
の分野で共通して使われる周知の技術であり、本技術に
普通に熟練した者には周知の技術である。ディスクリー
ト・コサイン変換は、例えばＮ．Ａｈｍｅｄ、Ｔ．Ｎａ
ｔａｒａｊａｎ、Ｋ．Ｒａｏ、「ディスクリート・コサ
イン変換」、ＩＥＥＥＴｒａｎｓ．Ｃｏｍｐｕｔ．、
ｖｏｌ２３、ｐｐ．９０−９３、１９７４に説明され、
ベクトル量子化は、例えばＹ．Ｌｉｎｄｅ、Ａ．Ｂｕｚ
ｏ、Ｒ．Ｍ．Ｇｒａｙ、「ベクトル量子化設計のための
アルゴリズム」、ＩＥＥＥＴｒａｎｓ．Ｃｏｍｍｕ
ｎ．、ＣＯＭ−２８、ｐｐ．８４−９５、１９９０に説
明されている。トレーニング・データからコードブック
のコードベクトルを生成するために有利にも利用される
例示としての技術の１つは「ｋ平均クラスタリング」と
して知られ、これも本技術に普通に熟練した者には周知
の技術で、例えば、Ｓ．Ｐ．Ｌｌｏｙｄ、「ＰＣＭにお
ける最小二乗量子化」、ＩＥＥＥＴｒａｎｓ．Ｉｎｆ
ｏｒｍ．Ｔｈｅｏｒｙ、ＩＴ−２８、ｐｐ．１２７−１
３５、１９８２に説明されている。「ディスクリート・
コサイン変換」、「ベクトル量子化設計のためのアルゴ
リズム」、「ＰＣＭにおける最小二乗量子化」はそれぞ
れ、ここで発表されたのと同様に、参照によってここに
組み込まれている。

【００１２】本発明のある例示された実施例によれば、
入力画像信号の中の所与のオブジェクトはデータベース
の中に保存された複数の既知のオブジェクトの１つと一
致するが、その際、各既知のオブジェクトの保存された
表示は、既知のオブジェクトを含むトレーニング画像信
号に基づいて生成するコードブックを含む。第１の例示
としての実施例は、所与のオブジェクトをブロックに分
解するステップと、各エンコーディングがコードブック
の１つを使ったオブジェクトのコーディングからなる、
所与のオブジェクトの複数のエンコーディングを行うス
テップと、各エンコーディングについてコーディングの
誤差を判定するステップと、コーディングの誤差に基づ
いて、所与のオブジェクトを既知のオブジェクトの１つ
と突き合わせるステップとを含む。第２の例示としての
実施例は、所与のオブジェクトをブロックに分解するス
テップと、ブロックに基づいて所与のオブジェクトに対
応するコードブックを生成するステップと、所与のオブ
ジェクトに対応するコードブックを各既知のオブジェク
トに対応するコードブックと比較するステップと、所与
のオブジェクトをコードブックの比較に基づいて既知の
オブジェクトの１つと突き合わせるステップとを含む。

【００１３】

【発明の実施の形態】図１は、既知の顔のためのデータ
が、本発明の例示としての実施例に従って構成されるデ
ータベース発生プロセスの略図である。各々が既知の個
人の顔の異なった「絵」を含む多数の異なったトレーニ
ング画像が、有利にも図１のプロセスに提供され、それ
によって、異なった照明、背景、顔の表情、姿勢、縮尺
等といった種々の条件下での所与の既知の顔の画像をよ
り完全に反映するコードブックが作り出される。詳細に
は、図１のプロセスは有利にも、その顔がデータベース
に含まれている各人物について繰り返されるので、異な
ったコードブックが、トレーニング集合の中の異なった
人物の各々について、図１のプロセスによって生成され
る。図示されるように、１つかそれ以上のトレーニング
画像（各々が、トレーニング集合の中のｉ番目の人物の
顔の画像を含む）が処理され、その１人の特定の人物の
ためのコードベクトルの集合を含む、コードブック２３
−ｉとなる。

【００１４】図面を参照すると、（上記で説明したよう
に）第１プリプロセッサ２１は入力された画像から関心
のある領域（すなわち、顔）を抽出し、縮尺を標準化す
る。従って、それ以降の処理はすべて、有利にも顔につ
いて（しかも顔だけについて）行うことができ、システ
ムに提出される顔はすべて同じ縮尺（すなわち、サイ
ズ）となる。プリプロセッサ２１によって行われる前処
理は従来通りで本技術に熟練した者には周知である。

【００１５】前処理が完了した後、画像の抽出された部
分はブロックに分解され、各ブロックに対して、変換２
２によって、リニアな、ブロックをベースとする変換が
行われる。ブロックは、例えば、８×８の寸法の領域
（すなわち、８ピクセル対８ピクセルの寸法の正方形）
からなるか、または、１６×１６の寸法でも良い。ブロ
ックは画像の範囲にわたって隣接しているか、または、
好適には、重なっている（例えば、各範囲について２ピ
クセルずつ）。リニア変換の演算子を元の信号に適用す
ることによって、より有効な表現が得られ、そこではデ
ータは統計的に独立（または少なくとも非相関的）であ
る。さらに、リニア変換はまた、一般にすべての信号圧
縮技術にとって望ましい特性である、大きなエネルギー
のコンパクト化を提供する。画像データ圧縮の分野で普
通に使われる変換の１つが２方向ディスクリート・コサ
イン変換（ＤＣＴ）であり、本技術に普通に熟練した者
には周知である。ＤＣＴは上記で言及した長所の各々を
提供し、現在静止画像と動画の両方について、すべての
国際圧縮規格のための基礎単位である。

【００１６】変換２２の変換を各画像ブロックに行うこ
とによって、これらのブロックの各々は少数のＤＣＴ係
数によって表示できるので有利である。特に、変換２２
は、（Ｂ×Ｂ）ブロックの変換から得られる（Ｂ×Ｂ）
係数から、最大の信号エネルギー内容を持つ（Ｌ）係数
のみを提供する。例えば、ブロックの寸法が８×８（す
なわち、Ｂ＝８）の時、Ｌ＝８というＤＣＴの係数が提
供されるので有利である。また、例えば、ブロックの寸
法が１６×１６（すなわち、Ｂ＝１６）の時、Ｌ＝１６
というＤＣＴの係数が提供されるので有利である。本技
術に普通に熟練した者には周知であるように、最大の信
号エネルギー内容を持つＤＣＴ係数は通常低い周波数の
係数に対応する。

【００１７】トレーニング・データ中の各ブロックにつ
いて（生成され提供された）ＤＣＴ係数は、組み合わさ
れて対応するベクトルとなり、その結果生じたベクトル
の集合は、コードブック発生装置２５によって、ＶＱコ
ードブックをデザインするために使われる。このコード
ブックはデータベース中の所与の既知の個人の顔を表す
データを含んでいる。コードブック・ベクトルの数は、
通常それらが生成される元となった（ＤＣＴ）ベクトル
の総数よりはるかに小さいことに留意されたい。例え
ば、１０００以上の入力ベクトルが有利にもコードブッ
ク発生装置２５に供給され、それらは１００以下（例え
ば６４）のコードブック・ベクトル（すなわち、コード
ベクトル）を含むコードブックにマッピングされる。コ
ードブック発生装置２５によって行われるコードブック
のデザインは、例えば、良く知られた「ｋ平均クラスタ
リング」技術か、または信号圧縮の分野で良く知られて
いる、トレーニング・ベクトルのデータからコードブッ
クをデザインするための従来の技術からなる。

【００１８】図３は図１の例示としてのトレーニングの
手続きのコードブック発生装置２５によって行われるコ
ードブック発生プロセスの例示としての流れ図である。
上記で説明したように、有利にも顔がデータベースに示
される各人物について行われる、図１のプロセスの終了
結果は、その人物の顔を含む１つかそれ以上のトレーニ
ング画像に基づいて、所与の人物のためのコードブック
を生成することである。従って、コードブックＣ^p が、
各人物について生成されるので、ｐ＝１、２、．．．、
Ｎ。この時Ｎは、データベース中の人物（すなわち、
顔）の数である。各コードブックは複数のコードベクト
ルｙ_i からなり、この時ｉ＝１、２、．．．Ｍであり、
この時Ｍは各コードブックのサイズ（すなわち、そこに
含まれるコードベクトルの数）である。この例では、Ｍ
は６４に等しい。各コードベクトルは、上記で説明した
ように、Ｌの値（すなわち、ＤＣＴ係数）からなる。こ
の例では、ブロックは８×８の寸法であり、Ｌは８であ
る。

【００１９】図３に示す例示としての手続きは、トレー
ニング・ベクトルを一連の「中間」コードブックＣ^p ₀、
Ｃ^p ₁、．．．Ｃ^p _m．．．と繰り返し突き合わせ、各反復
の際に、最終的な基準が合致するまでコードブックを変
更する（すなわち、コードブックＣ^p _mを改良されたコー
ドブックＣ^p _m+1によって置き換える）、反復プロセスを
含む。最終的な反復から生じたコードブックは、データ
ベースの中の特定の個人の顔を表すために使われるコー
ドブックになるので有利である。

【００２０】詳細には、図３の例示としての手続きは、
最初の反復で使われるコードブックＣ^p ₀を初期化して、
コードベクトルの無作為の集合にする、ステップ３１か
ら始まる。これらの無作為に選ばれたコードベクトル
は、例えば、トレーニング集合からの最初のＭベクトル
を含むか、または、無作為の値を生成することによって
選択される。その後、各反復ｍで、ステップ３２は、ト
レーニング・ベクトルの（完全な）集合を使って、「ク
ラスタ集合」を形成するが、それは本技術に熟練した者
には周知である。詳細には、各トレーニング・ベクトル
ｘ_j （この時ｊ＝１、２、．．．Ｊ）は、コードブック
Ｃ^p _mの中の各コードベクトルｙ^p _i（この時ｉ＝１、
２、．．．Ｍ）と突き合わされ、誤差関数ｄ（ｘ_j ，ｙ
^p _i）を計算する。この突き合わせの結果、各トレーニン
グ・ベクトルｘ_j は、対応する１つのコードベクトルｙ
_i に関連するクラスタの集合Ｒ_i に割り当てられ、すな
わち以下の式となる。Ｒ_i ＝｛ｘ：ｄ（ｘ，ｙ^p _i）＜ｄ（ｘ，ｙ^P _k）すべてに
ついてｋ≠ｉ｝すなわち、各クラスタの集合Ｒ_i は、すべてのトレーニ
ング・ベクトルｘからなり、トレーニング・ベクトルｘ
とｉ番目のコードベクトルｙ^p _iの間の誤差（すなわち、
差）は、トレーニング・ベクトルｘとコードブックの中
の他のどのコードベクトルとの間の誤差よりも小さい。
言い換えれば、各トレーニング・ベクトルは、誤差関数
ｄ（ｘ，ｙ）によって決定される、「最も近い」現行の
コードブックの中のコードベクトルに関連するクラスタ
に割り当てられる。誤差関数ｄ（ｘ，ｙ）は何らかの適
当な誤差の計量である。例えば、ｄ（ｘ，ｙ）は、本技
術に普通に熟練した者には周知の、従来の平均二乗誤差
（ｍｓｅ）の計量である。

【００２１】ステップ３３では、新しいコードブックＣ
^p _m+1が、ステップ３２の分析から生じたクラスタの集合
に基づく次の反復で使うために展開される。詳細には、
各クラスタの集合Ｒ_i について、集合の重心（すなわ
ち、集合の中の独立したベクトルのｎ次元の加重平均）
が計算される。その後、（次の反復のための）新しいコ
ードブックが、各ｉ＝１，２、．．．、Ｍについて、計
算された重心ｃｅｎｔ（Ｒ_i ）を含むように構成され
る。誤差の計量として平均二乗誤差が使われる場合、重
心は減少して算術的平均になることに留意されたい。す
なわち、Ｒ_i ＝ｘ_j（ｊ＝１，２、．．．、‖Ｒ_i ‖）
であり、‖Ｒ_i ‖が集合Ｒ_i の濃度（すなわち、元の
個数）である時、次の式になる。

【数１】

【００２２】ステップ３４では、所与の反復に関する総
ひずみの大きさＤ_m が、トレーニング・ベクトルの各々
とそれがクラスタをなす重心の間の距離に基づいて計算
される。すなわち、Ｄ_m ＝Σｄ（ｘ_j ，ｃｅｎｔ（Ｒ_i ））であり、この時、合計はすべてのｊ＝１，２、．．．、
Ｊについて（すなわち、すべてのトレーニング・ベクト
ルについて）行われる。こうして、Ｄ_m は、コードブッ
クＣ^p _mがトレーニング・ベクトルの所与の集合をコード
化する正確さの度合いを含む。最後に、決定ステップ３
５は、前の反復から現在の反復へのコードブックの質の
改善の度合いを測定するために、計算されたひずみの大
きさ（Ｄ_m）と前の反復の際計算されたひずみの大きさ
（Ｄ_m-1 ）の間の差を計算する。この差が所定のしきい
値Ｔ_D 以下である場合、さらに反復を行うことによって
得られそうなコードブックの質の改善は小さいので、反
復は有利にも終了される。

【００２３】一度既知の顔を表すコードブックのデータ
ベースが作り出されると、顔の認識が、本発明の原理に
従って、データベースに含まれるコードブックの集合に
基づいて行われる。図２は、本発明の例示としての実施
例による顔認識プロセスの略図である。例えば、図１お
よび図３の例示としての手続きを使って生成したものと
して、コードブックのデータベース（例えば、コードブ
ック２３−１，２３−２、．．．、２３−Ｎ）を与えら
れると、図２に示すような例示としての実施例は、入力
画像信号からなる人物の顔を識別する（または顔の同一
性を検証する）ために使われる。

【００２４】第１に、図１の例示としてのコードブック
発生プロセスと同一の方法で、プリプロセッサ２１は入
力された画像から関心のある領域（すなわち、顔）を抽
出し、縮尺を標準化する。従って、これ以降の処理はす
べて、有利にも顔について、（しかも顔だけについて）
行われ、システムに提示される顔はすべて同じ縮尺（す
なわち、サイズ）である。ここでも、プリプロセッサ２
１によって行われる前処理は、従来通りであり、本技術
に熟練した者には周知である。

【００２５】前処理が完了した後、再び図１の例示され
たコードブック発生プロセスと同一の方法によって、入
力された画像の抽出された部分がブロックに分解され、
変換２２によって、リニアな、ブロックをベースとする
変換が各ブロックについて行われる。ここでも、ブロッ
クは、例えば、８×８の寸法かまたは１６×１６の寸法
であり、それらは画像空間にわたって隣接しているか、
好適には、重なり合っている。コードブック２３−１か
ら２３−Ｎの生成の際に使われたのと同じ（ＤＣＴのよ
うな）変換が、図２の顔認識プロセスでも使われるので
有利である。さらに、同じブロックのサイズが使われる
ので有利であり、同じ（Ｌ）係数の集合が提供されるの
で有利である。

【００２６】一度ＤＣＴ入力ベクトルが変換２２によっ
て提供されると、選別機２４が、（既知の）顔のコード
ブック２３−１から２３−Ｎに基づいて、入力された画
像に含まれる顔を識別する（または、顔の検証の場合、
検証する）ために使われる。詳細には、選別機２４は、
例えば、どのコードブックが入力された画像から得られ
た入力ベクトルと最も良く一致するかを判断する。顔識
別の場合、「最も一致する」コードブックに関連する顔
が最も有力な候補として識別される。しかし、比較の基
礎となる誤差の計量（例えば、以下の議論を参照）が、
既知の顔のコードブックのいずれについても「十分に」
小さな総誤差の値（例えば、所定のしきい値以下）を提
供せず、（それによって「十分に良い」組み合わせが見
つからないことが示される）場合、システムは既知の顔
のいずれをも入力された画像の顔として認識しない。む
しろ、システムは単純に、顔が画像の中にある人物は、
実際に、顔のデータが以前に収集され、データベースに
保存された人々の中の誰でもないと判断する。

【００２７】顔の検証の場合、システムは、要求された
アイデンティティが、入力された画像の中の顔と最も良
く一致すると判断された既知の顔のコードブックと一致
するかどうかに基づいて、要求されたアイデンティティ
を検証または拒絶（すなわち、検証に失敗）する。また
は、システムは入力された画像が、要求されたアイデン
ティティの顔に関連する特定のコードブックに関して分
析された時得られる総誤差の計量が「十分に」小さく、
それによって入力された画像の中の顔と要求されたアイ
デンティティの顔の間に十分「良好な」一致が示される
かどうかに基づいて、要求されたアイデンティティを検
証または拒絶する。

【００２８】本発明のある実施例によれば、どの既知の
顔のコードブックが入力された画像の顔と最良の一致を
提供するかの決定は、多数の異なった方法で行うことが
できる。例えば、図２の例示としての顔認識プロセスの
選別機２４の動作の２つの例示としての実施例が、それ
ぞれ図４および図５に示される。

【００２９】図４は、本発明の第１の例示としての実施
例による図２の例示としての顔認識プロセスの選別機２
４の動作の流れ図である。この実施例によれば、既知の
顔のコードブックの各々は入力画像ベクトルをエンコー
ディングするために使われ、総コーディング誤差はその
エンコーディングの各々について決定される。その後、
総コーディング誤差の最も低いエンコーディングが決定
され、そのエンコーディングで使われたコードブックに
対応する顔が、入力された画像の顔と最も良く一致する
顔として識別される。

【００３０】詳細には、図４を参照すると、例示として
のプロセスはステップ４１から始まり、そこでは入力さ
れた画像ベクトルの複数の従来のＶＱコードブックのエ
ンコーディングが行われ、こうしたエンコーディングの
各々は既知の顔のコードブック（すなわち、コードブッ
ク２３−１から２３−Ｎ）の異なった１つを使って行わ
れる。詳細には、また本技術に普通に熟練した者には周
知であるように、これらのエンコーディングの各々は、
入力された画像ベクトルのための所与のコードブックか
らのコードベクトルの１つを選択することからなり、そ
の際、選択は、例えば平均二乗誤差のような誤差の計量
に基づいてなされる。

【００３１】選択されたコードベクトルは、入力された
ベクトルとの「最良の一致」を提供するものである。す
なわち、コードベクトルは、各入力ベクトルについて、
入力ベクトルとコーディング（すなわち、選択されたコ
ードベクトル）の間の誤差（すなわち、差）を有利にも
最小にするように選択される。従って、コードベクトル
ｙ^p _iを含む各コードブックＣ^p （この時ｐ＝１，
２、．．．、Ｎ）について、各入力ベクトルｘ_j （この
時ｊ＝１、２、．．．、Ｊ）は各コードベクトルと比較
され、最小の誤差を生じる１つが決定され、誤差関数ｄ
（ｘ，ｙ）が与えられる。詳細には、コードブックＣ^p
を使った入力ベクトルｘ_j のコーディングに関する最小
誤差を表すｄ^p _min（ｘ_j ）は、各入力ベクトルｘ_j につ
いて、以下のように決定される。

【００３２】ｄ^p _min（ｘ_j ）＝｛ｄ（ｘ_j ，ｙ^p _i）：ｄ
（ｘ_j ，ｙ^p _i）＜ｄ（ｘ_j ，ｙ^p _k）すべてｋ≠ｉ、但しｉ、ｋ＝１、２、．．．Ｍ｝

【００３３】各エンコーディングが行われた後、図４の
例示としての手続きのステップ４４は、各エンコーディ
ングについて（すなわち、すべてのｐ＝１、
２、．．．、Ｎについて）総誤差Ｄ^p を計算する。これ
らの総誤差は単に個別のコーディング誤差の合計であ
り、以下のように計算される。Ｄ^p ＝Σｄ^p _min（ｘ_j ）この時合計はすべてのｊ＝１、２、．．．、Ｊについて
行われ、ｄ^p _min（ｘ_j ）の個別の値は、上記で示したよ
うに、各入力ベクトルｘ_j のコーディングの際に、対応
するコードブックＣ^p を使って決定される。従って、こ
れらの総誤差の値はコードブックの各々について行われ
たエンコーディングの全体的な質（すなわち、正確さ）
を表す。（もちろん、ステップ４４が、ステップ４１で
行われるエンコーディングから分離した別個の動作とし
て行われる必要を回避して、これらの総誤差の値がま
た、有利にもエンコーディング・プロセスの間にそれ自
体の一部として計算されることもあることに留意された
い。）

【００３４】図４の例示としての手続きを完了すると、
ステップ４５は、エンコーディング全体から得られた最
小の総誤差の値（すなわち、Ｄ^p が最小になるｐの値）
を判断し、ステップ４６は、最小の総誤差（すなわち、
最上のエンコーディング）を達成したエンコーディング
の際に使われたコードブックによって示される既知の顔
を選択する。この方法で、入力された画像から得られた
顔は、関連するコードブックが与えられた顔の「最良
の」エンコーディングを生じるデータベースの中の既知
の顔として識別されるので有利である。

【００３５】図５は、本発明の第２の例示としての実施
例による図２の例示としての顔認識プロセスの選別機２
４の動作の流れ図である。この例示としての実施例は、
図４の例示としての実施例よりもわずかに性能を低下さ
せるだけで、コンピュータの使用上より簡単な技術が提
供される。詳細には、この第２の例示としての実施例
は、入力された画像についてコードブックを生成し、そ
の後「最上の一致」を決定するためにこのコードブック
を既知の顔のコードブックの各々と比較する。ここで
も、図４の例示された手続きのように、最も低い総誤差
が、最上の一致を示すものと考えられる。しかし、図４
および図５の例示としての手続きの間の差は、（Ｊ）個
の入力ベクトルの各々のコーディング（それは、例え
ば、数千のベクトルのコーディングを必要とする）より
もむしろ、図５の手続きの中で、ステップ４２が例示す
るように、Ｍ個（例えば６４）のコードベクトルだけを
含むコードブックを発生することにある。その後、この
より制限されたベクトルの集合（すなわち、通常Ｊ＞＞
Ｍの時、Ｊ個の入力ベクトルでなく、Ｍ個のコードベク
トル）が、Ｎ個のコードブックを使ってエンコードされ
（ステップ４３）、これらの（簡単な）エンコーディン
グの各々から得られた総誤差が（ステップ４４〜４６
で）使われて、最小の総誤差を持つコードブックによっ
て表される既知の顔を選択する。

【００３６】詳細には、ステップ４２のコードブックの
生成は、本質的には図３で示したような、既知の顔のコ
ードブックを生成する単に例示的に使われたのと同じ手
続きからなる。しかし、この場合、図３の例示としての
トレーニングの手続きは、トレーニング画像データでは
なく、入力画像データに適用される。（トレーニング画
像ベクトルが有利にも得られる潜在的に多くの画像があ
るのに対して、入力画像ベクトルが得られるのは通常１
つの画像だけしかないことに留意すべきである。）従っ
て、図４の例示としての手続きの代わりに、図５の例示
としての手続きを使うことの利点は、Ｎ個のコードブッ
クの各々について、Ｊ個の（入力画像から得られた）コ
ードベクトルを、Ｍ個の（トレーニング画像から得られ
た）コードベクトルと比較しなければならないのとは違
って、Ｎ個のコードブックの各々について、Ｍ個の（入
力画像から得られた）コードベクトルをＭ個の（トレー
ニング画像から得られた）コードベクトルと比較するだ
けで良いということである。通常、Ｊ＞＞Ｍなので、こ
のことは計算量の大きな節約になるので有利である。こ
こでも、使われる誤差の計量は平均二乗誤差であるか、
または、本技術に普通に熟練した者には周知の、何らか
の他の誤差の計量でもよい。

【００３７】ここでは本発明の多数の特定の実施例が示
され説明されたが、これらの実施例は、本発明の原理の
適用例の中で考案できる多くのありうる特定の配置を例
示したものに過ぎないことが理解されるべきである。例
えば、上記の説明は人間の顔の認識に焦点を当てている
が、本技術に熟練した者には、本発明の技術が、所与の
オブジェクトが、その表示がデータベースに保存されて
いる複数の既知のオブジェクトの１つと一致する、何ら
かの一般的な画像認識に適用可能なことが理解されるだ
ろう。さらに、上記で説明された本発明の実施例は、例
えば、入力ベクトルとコードベクトルの間の差を測定す
るために平均二乗誤差を利用しているが、他の実施例
は、例えば、知覚的基準を組み込んだ知覚的計量を含
む、他の誤差の計量を使うことができる。こうした知覚
的計量は本技術に熟練した者には周知である。本技術に
普通に熟練した者によって、本発明の精神と範囲から逸
脱することなく、本発明の原理に従って無数の多様な装
置が得られる。

【図面の簡単な説明】

【図１】既知の顔のためのデータが本発明の例示として
の実施例に従って構成される、データベース発生プロセ
スの略図である。

【図２】本発明の例示としての実施例による顔認識プロ
セスの略図である。

【図３】図１の例示としてのデータベース発生プロセス
の例示としてのコードブック発生装置の流れ図である。

【図４】本発明の第１の例示としての実施例による図２
の例示としての顔認識プロセスの選別機の流れ図であ
る。

【図５】本発明の第２の例示としての実施例による図２
の例示としての顔認識プロセスの選別機の流れ図であ
る。

───────────────────────────────────────────────────── フロントページの続き (72)発明者キシアオユツァンアメリカ合衆国 08854 ニュージャーシィ，ピスカッタウェイ，アパートメントナンバー274，ロイヤルドライヴ 60

Claims

【特許請求の範囲】

【請求項１】入力画像信号に含まれる所与のオブジェ
クトを複数の既知のオブジェクトの１つと突き合わせる
方法であって、既知のオブジェクトの各々の表示がデー
タベースに保存されており、それに対応するコードブッ
クからなり、各コードブックが、対応する既知のオブジ
ェクトからなる、１つかそれ以上の対応するトレーニン
グ画像信号に基づいて生成した複数のコードベクトルか
らなり、該方法が、所与のオブジェクトを含む入力画像信号の一部を複数の
ブロックに分解するステップと、各入力ベクトルが対応するブロックに基づく、複数のブ
ロックに対応する複数の入力ベクトルを生成するステッ
プと、所与のオブジェクトを、１つかそれ以上の入力ベクトル
と、既知のオブジェクトに対応する１つかそれ以上のコ
ードブックに含まれる１つかそれ以上のコードベクトル
に基づく既知のオブジェクトの１つと突き合わせるステ
ップとを含む方法。
【請求項２】所与のオブジェクトを既知のオブジェク
トの１つと突き合わせるステップが、各エンコーディングが、対応する１つのコードブックに
含まれる１つかそれ以上のコードベクトルに基づく１つ
かそれ以上の入力ベクトルのコーディングからなる、入
力画像信号の少なくとも一部の複数のエンコーディング
を行うステップと、複数のエンコーディングに対応する複数のコーディング
誤差を判断するステップと、複数のコーディング誤差に基づいて、所与のオブジェク
トを既知のオブジェクトの１つと突き合わせるステップ
とを含む、請求項１に記載の方法。
【請求項３】コーディング誤差が平均二乗誤差からな
る、請求項２に記載の方法。
【請求項４】複数のコーディング誤差を比較して、最
も小さいコーディング誤差を決定するステップを含み、
その際、所与のオブジェクトを既知のオブジェクトの１
つと突き合わせるステップが、入力画像信号の少なくと
も一部がエンコードされた時、最も小さいコーディング
誤差を発生したコードブックに対応する既知のオブジェ
クトを選択するステップをさらに含む、請求項２に記載
の方法。
【請求項５】所与のオブジェクトを既知のオブジェク
トの１つと突き合わせるステップが、１つかそれ以上の入力ベクトルに基づいて、所与のオブ
ジェクトに対応するコードブックを生成するステップ
と、所与のオブジェクトに対応するコードブックを、既知の
オブジェクトに対応する１つかそれ以上のコードブック
と比較するステップと、所与のオブジェクトに対応するコードブックと、既知の
オブジェクトに対応するコードブックとの比較に基づい
て、所与のオブジェクトを既知のオブジェクトの１つと
突き合わせるステップとを含む、請求項１に記載の方
法。
【請求項６】所与のオブジェクトに対応するコードブ
ックを既知のオブジェクトに対応するコードブックと比
較するステップが、各比較について平均二乗誤差を計算
するステップを含む、請求項５に記載の方法。
【請求項７】計算された平均二乗誤差から最小の平均
二乗誤差を決定するステップをさらに含み、所与のオブ
ジェクトを既知のオブジェクトの１つと突き合わせるス
テップが、所与のオブジェクトに対応するコードブック
と比較する時最小の平均二乗誤差を生じるコードブック
と対応する既知のオブジェクトを選択するステップを含
む、請求項６に記載の方法。
【請求項８】入力ベクトルを生成するステップが、ブ
ロックにリニア変換を行うステップと、変換されたブロ
ックに基づいて入力ベクトルを生成するステップとを含
む、請求項１に記載の方法。
【請求項９】リニア変換が、ディスクリート・コサイ
ン変換を含む、請求項８に記載の方法。
【請求項１０】既知のオブジェクトに対応するコード
ブックがベクトル量子化コードブックを含む、請求項１
に記載の方法。
【請求項１１】既知のオブジェクトに対応するコード
ブックに含まれるコードベクトルが、ｋ平均クラスタリ
ング技術を使って、１つかそれ以上の対応するトレーニ
ング画像信号から生成された、請求項１に記載の方法。
【請求項１２】所与のオブジェクトを、所与のオブジ
ェクトと一致する既知のオブジェクトとして識別するス
テップをさらに含む、請求項１に記載の方法。
【請求項１３】所与のオブジェクトの要求されたアイ
デンティフィケーションが所与のオブジェクトと一致す
る既知のオブジェクトからなることを検証するステップ
をさらに含む、請求項１に記載の方法。
【請求項１４】所与のオブジェクトと既知のオブジェ
クトの各々が人間の顔を含む、請求項１に記載の方法。
【請求項１５】既知のオブジェクトの複数の表示を含
むデータベースを生成する方法であって、データベース
は入力画像信号に含まれる所与のオブジェクトを既知の
オブジェクトの１つと突き合わせる際に使うためのもの
であって、既知のオブジェクトの表示の各々が対応する
コードブックからなり、該方法が、既知のオブジェクトの各々について、各トレーニング画
像信号の一部が既知のオブジェクトを含む、１つかそれ
以上のトレーニング画像信号の各々の一部を複数のブロ
ックに分解するステップと、既知のオブジェクトの各々について、各トレーニング・
ベクトルが対応するブロックに基づく、複数のブロック
に対応する複数のトレーニング・ベクトルを生成するス
テップと、既知のオブジェクトの各々について、既知のオブジェク
トを含むトレーニング画像信号から生成された１つかそ
れ以上のトレーニング・ベクトルに基づいて、対応する
コードブックを生成するステップとを含む方法。
【請求項１６】トレーニング・ベクトルを生成するス
テップが、ブロックにリニア変換を行うステップと、変
換されたブロックに基づいてトレーニング・ベクトルを
生成するステップとを含む、請求項１５に記載の方法。
【請求項１７】リニア変換がディスクリート・コサイ
ン変換を含む、請求項１６に記載の方法。
【請求項１８】生成されたコードブックの各々がベク
トル量子化コードブックを含む、請求項１５に記載の方
法。
【請求項１９】コードブックの各々が、ｋ平均クラス
タリング技術を使って、対応するトレーニング・ベクト
ルから生成する、請求項１５に記載の方法。
【請求項２０】所与のオブジェクトと既知のオブジェ
クトの各々が人間の顔を含む、請求項１５に記載の方
法。
【請求項２１】入力画像信号からなる所与のオブジェ
クトを複数の既知のオブジェクトの１つと突き合わせる
ためのシステムであって、既知のオブジェクトの各々の
表示がデータベースに保存されて対応するコードブック
からなり、各コードブックが、対応する既知のオブジェ
クトを含む１つかそれ以上の対応するトレーニング画像
信号に基づいて生成された複数のコードベクトルからな
り、該システムが、所与のオブジェクトを含む入力画像信号の一部を複数の
ブロックに分解するための手段と、各入力ベクトルが対応するブロックに基づく、複数のブ
ロックに対応する複数の入力ベクトルを生成するための
手段と、１つかそれ以上の入力ベクトルと、既知のオブジェクト
に対応する１つかそれ以上のコードブックに含まれる１
つかそれ以上のコードベクトルに基づいて、所与のオブ
ジェクトを既知のオブジェクトの１つと突き合わせるた
めの手段とを備えてなるシステム。
【請求項２２】所与のオブジェクトを既知のオブジェ
クトの１つと突き合わせるための手段が、各エンコーディングが、コードブックの対応する１つに
含まれる１つかそれ以上のコードベクトルに基づく１つ
かそれ以上の入力ベクトルのコーディングを含む、入力
画像信号の少なくとも一部分の複数のエンコーディング
を行うための手段と、複数のエンコーディングに対応する複数のコーディング
誤差を判断するための手段と、複数のコーディング誤差に基づいて、所与のオブジェク
トを既知のオブジェクトの１つと突き合わせるための手
段とを備えてなる、請求項２１に記載のシステム。
【請求項２３】複数のコーディング誤差を比較して最
小のコーディング誤差を決定するコンパレータをさらに
含み、所与のオブジェクトを既知のオブジェクトの１つ
と突き合わせるための手段が、入力画像信号の少なくと
も一部がエンコードされた時、最も小さなコーディング
誤差を発生したコードブックに対応する既知のオブジェ
クトを選択するセレクタを含む、請求項２２に記載の方
法。
【請求項２４】所与のオブジェクトを既知のオブジェ
クトの１つと突き合わせるための手段が、１つかそれ以上の入力ベクトルに基づいて、所与のオブ
ジェクトに対応するコードブックを生成するための手段
と、所与のオブジェクトに対応するコードブックを、既知の
オブジェクトに対応する１つかそれ以上のコードブック
と比較するコンパレータと、所与のオブジェクトに対応するコードブックと、既知の
オブジェクトに対応するコードブックとの比較に基づい
て、所与のオブジェクトを既知のオブジェクトの１つと
突き合わせるための手段とを備えてなる、請求項２１に
記載のシステム。
【請求項２５】コンパレータが各比較について、平均
二乗誤差を計算する、請求項２４に記載のシステム。
【請求項２６】計算された平均二乗誤差から最小の平
均二乗誤差を決定するための手段をさらに含み、所与の
オブジェクトを既知のオブジェクトの１つと突き合わせ
るための手段が、既知のオブジェクトと対応するコード
ブックと比較される時最小の平均二乗誤差となるコード
ブックに対応する既知のオブジェクトを選択するセレク
タを含む、請求項２５に記載のシステム。
【請求項２７】所与のオブジェクトに対応するコード
ブックを生成するための手段が、ｋ平均クラスタリング
技術を行うための手段を含む、請求項２４に記載のシス
テム。
【請求項２８】入力ベクトルを生成するための手段
が、ブロックにリニア変換を行うための手段と、変換さ
れたブロックに基づいて入力ベクトルを生成するための
手段とを備えてなる、請求項２１に記載のシステム。
【請求項２９】所与のオブジェクトを、所与のオブジ
ェクトと一致する既知のオブジェクトとして識別するた
めの手段をさらに含む、請求項２１に記載のシステム。
【請求項３０】所与のオブジェクトの要求されたアイ
デンティフィケーションが、所与のオブジェクトと一致
した既知のオブジェクトを含むことを検証するための手
段をさらに含む、請求項２１に記載のシステム。
【請求項３１】所与のオブジェクトと、各既知のオブ
ジェクトが人間の顔を含む、請求項２１に記載のシステ
ム。
【請求項３２】既知のオブジェクトの複数の表示から
なるデータベースを生成するためのシステムであって、
そのデータベースが入力画像信号に含まれる所与のオブ
ジェクトを既知のオブジェクトの１つと突き合わせる際
に使うためのもので、既知のオブジェクトの表示の各々
が対応するコードブックを含み、該システムが、既知のオブジェクトの各々に適用される、各トレーニン
グ画像信号の一部が既知のオブジェクトを含む、１つか
それ以上のトレーニング画像信号の各々の一部を複数の
ブロックに分解するための手段と、既知のオブジェクトの各々に適用される、各トレーニン
グ・ベクトルが対応するブロックに基づく、複数のブロ
ックに対応する複数のトレーニング・ベクトルを生成す
るための手段と、既知のオブジェクトの各々に適用される、既知のオブジ
ェクトを含むトレーニング画像信号から生成された１つ
かそれ以上のトレーニング・ベクトルに基づいて、対応
するコードブックを生成するための手段とを備えてなる
システム。
【請求項３３】トレーニング・ベクトルを生成するた
めの手段が、ブロックにリニア変換を行うための手段
と、変換されたブロックに基づいてトレーニング・ベク
トルを生成するための手段とを備えてなる、請求項３２
に記載のシステム。
【請求項３４】コードブックを生成するための手段
が、ｋ平均クラスタリング技術を行うための手段を備え
てなる、請求項３２に記載のシステム。
【請求項３５】所与のオブジェクトと各既知のオブジ
ェクトが人間の顔を含む、請求項３２に記載のシステ
ム。