JP2017117024A

JP2017117024A - 画像認識装置、画像認識方法、及び撮像装置

Info

Publication number: JP2017117024A
Application number: JP2015249147A
Authority: JP
Inventors: 雄司金田; Yuji Kaneda; 佐藤　博; Hiroshi Sato; 博佐藤; 崇士鈴木; Takashi Suzuki; 俊亮中野; Toshiaki Nakano; 敦夫野本; Atsuo Nomoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2017-06-29

Abstract

【課題】高精度で、かつ安定的な顔向き検出を実現できる画像認識装置を提供すること。
【解決手段】顔の画像を取得する画像取得手段と、前記顔の状態を検出する顔状態検出手段と、前記顔の状態に基づいて、顔向き検出モデルの切り替えを行う顔向き検出モデル切り替え手段と、前記顔向き検出モデル切り替え手段で選択された前記顔向き検出モデルを使用して前記顔の向きを検出する顔向き検出手段と、から構成されることを特徴とする。
【選択図】図１

Description

本発明は、画像認識装置、画像認識方法、及び撮像装置に関する。

顔の画像認識技術、例えば、表情認識によるカメラのオートシャッター、個人認証によるセキュリティや画像検索などの多くのアプリケーションに有用であるため、様々な技術が提案されている。その中で、照明などの環境変動や、表情や顔の向きなどの被写体自身の変動が顔の画像認識精度の劣化要因となっている。そのため、これらの変動を何らかの手段によって検出し、その検出結果に基づいた認識処理を実施する手法が数多く提案されている。

このような様々な変動を検出する技術の１つとして、顔の向きを検出する技術がある。

特許文献１は、顔画像から目尻や目頭などの顔器官を検出し、検出した顔器官の幾何情報を使用して顔の向きを検出する幾何情報ベースの手法を開示している。

一方、特許文献２は、顔の向きに関する様々な辞書を用意し、この辞書とのマッチングにより顔の向きを検出するアピアランスベースの手法を開示している。

特開２００７−２６５３６７号公報特許第０３７９０６８０号公報

特許文献１のような幾何情報ベースの手法は、顔器官位置などの局所的な情報を使用しているため、顔の向きが大きく回転していない場合、影がない比較的良好な照明条件の場合では、高精度な顔向き検出が可能である。

しかし、顔が大きく回転して一部の顔器官が隠れる、もしくは、照明変動が良好でない場合には、期待値から大きくかけ離れた特徴点が検出され、その結果、でたらめな顔向き検出結果となる可能性がある。

一方、特許文献２のようなアピアランスベースの手法は、顔の輪郭エッジなど大局的で、冗長な情報を使用しているため、変動などに頑健であり、安定した顔向き検出が可能である。しかし、幾何情報ベース並みの高精度な顔向き検出は困難であるという問題がある。

そこで、本発明は、高精度で、かつ安定的な顔向き検出を実現できる画像認識装置を提供することを目的とする。

上記の目的を達成するために、本発明に係る画像認識装置は、幾何情報ベース方式とアピアランスペース方式の異なる２つの顔向き検出手法を用意し、被写体の状況に応じて、どちらか一方の最適な方式を選択し、選択された手法を使用して、顔向き検出を実施する。これにより、高精度で、かつ安定的な顔向き検出を実現する。
そのために、本発明の画像認識装置は、
顔の画像を取得する画像取得手段と、
前記顔の状態を検出する顔状態検出手段と、
前記顔の状態に基づいて、顔向き検出モデルの切り替えを行う顔向き検出モデル切り替え手段と、
前記顔向き検出モデル切り替え手段で選択された前記顔向き検出モデルを使用して前記顔の向きを検出する顔向き検出手段と、
から構成されることを特徴とする。

本発明に係る画像認識装置によれば、被写体の状況を検出し、その状況に基づいて、幾何情報ベース方式、もしくはアピアランスペース方式を選択することで、高精度で、かつ安定的な顔向き検出が可能となる。

本発明の第１の実施形態の全体構成を示した図である。顔向き検出モデル切り替え部の詳細構成を示した図である。本発明の第１の実施形態の全体フローを示した図である。顔状態検出における第１の詳細例を示した図である。顔向きを示した図である。顔状態検出における第２の詳細例を示した図である。顔表面に影がない場合とある場合を示した図である。顔領域を４つのブロックに分割した例を示した図である。サングラスをしている顔を示した図である。本発明の第２の実施形態における顔向き検出モデル切り替え部の詳細構成を示した図である。本発明の第２の実施形態の全体フローを示した図である。顔領域を左目、右目、口の３つのブロックに分割した例を示した図である。目領域に影が存在する場合の顔器官検出結果の例を示している。２０点全ての顔器官を使用した顔器官検出モデルと、１８点（右目の上下瞼の器官を除いた）顔器官検出モデルを示した図である。顔領域を左目、右目、口の３つのブロックに分割した時の各ブロックの照明条件に基づいて、顔器官検出モデルを選択するフローを示している。顔向き検出部の詳細構成を示した図である。顔向き検出部の詳細フローを示した図である。検出した目頭と目尻の顔器官から上下瞼、検出した左右の口端点から上下唇の顔器官を推定する式を示した図である。

以下、本発明を実施するための形態を図面に基づいて説明する。

本発明の第１の実施形態について説明する。

先に述べたように、顔器官検出位置に基づく幾何情報ベースの顔向き検出方式は、変動が混入しないような良好な条件下では、高精度な顔向き検出が可能である一方、様々な変動が混入する良好でない条件下では、顔器官位置が大きくズレ、極端に顔向き検出精度が劣化するといった問題がある。

一方、エッジやヒストグラムに基づくアピアランスベースの顔向き検出方式は、変動の混入に関わらず、安定した顔向き検出が可能であるが、幾何情報ベースの顔向き検出方式と比較すると、高精度化が難しいといった問題がある。

そこで、本発明の第１の実施形態では、幾何情報ベース方式とアピアランスペース方式の異なる２つの顔向き検出手法を用意し、被写体の状況に応じて、どちらか一方の最適な方式を選択し、選択された手法を使用して、顔向き検出を実施する。これにより、高精度で、かつ安定的な顔向き検出を実現する。

図１は本発明の第１の実施形態の全体構成を示しており、画像取得部１００、顔検出部１１０、画像正規化部１３０、顔状態検出部１４０、顔向き検出モデル切り替え部１５０、顔向き検出部１６０から構成される。また、図２は顔向き検出モデル切り替え部１５０の詳細を示しており、特徴抽出部１５１、顔器官検出部１５２で構成される。

図３は全体フローを示しており、以下では、図３の全体フローに沿って説明する。

ステップＳ１０００では、画像取得部１００において、レンズなどの集光素子、光を電気信号に変換するＣＭＯＳやＣＣＤなどの撮像素子、アナログ信号をデジタル信号に変換するＡＤ変換器を通過することによって、得られたデジタル画像データを取得する。また、間引き処理等を行うことによって、例えば、ＶＧＡ（６４０×４８０[pixel]）やＱＶＧＡ（３２０×２４０[pixel]）に変換した顔画像を取得することも可能である。

ステップＳ１１００では、顔検出部１１０において、ステップＳ１０００で取得したデジタル画像データに対して物体領域の重心位置検出をする。なお、本発明の第１の実施形態では、顔領域の中心位置である。顔検出処理は、非特許文献１のような手法があり、本実施形態１においては、この技術を使用する。
［非特許文献１］ P. Viola, M. Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features”, in Proc. Of CVPR, vol.1, pp.511-518, December, 2001
なお、顔検出処理では、目や口などの顔パーツを検出することでデジタル画像データ中に顔が存在するか否かを判定する手法がよく用いられている。そのため、ステップＳ１１００では、顔の中心座標（ｘ，ｙ）と共に、左右の眼の中心座標（ｘ，ｙ）や口の中心座標（ｘ，ｙ）を取得することが可能である。

ステップＳ１２００では、ステップ１１００で顔が検出されたかどうかを判定する。顔が検出された場合にはステップＳ１３００へ進む。一方、顔が検出されなかった場合にはステップＳ１０００に戻り、次の画像を取得する。

ステップＳ１３００では、画像正規化部１３０において、ステップＳ１１００における顔検出処理によって得られる、顔の中心座標（ｘ，ｙ）、左右の眼の中心座標（ｘ，ｙ）、口の中心座標（ｘ，ｙ）を使用して画像の切り出しと正規化処理を行う。なお、正規化処理には、アフィン変換を使用する。この正規化処理によって、例えば、左右の眼の中心座標間の距離が５０[pixcel]で、かつ、左右の眼の中心座標を結ぶ直線が平行、つまり、顔が正立するようになる。

ステップＳ１４００では、顔状態検出部１４０において、まずは、ステップＳ１３００で生成された正規化画像に対して特徴抽出を行う。特徴は、非特許文献２のようなLocal Binary Patternのヒストグラムや、非特許文献３のような輝度勾配のヒストグラムなど、様々な特徴が考えられるが、本発明の第１の実施形態では、非特許文献３の輝度勾配のヒストグラム（以下、ＨＯＧ特徴）を使用する。
［非特許文献２］ C. Shan, T. Gritti, “Learning discriminative lbp-histogram bins for facial expression recognition”, Proc. British Machine Vision Conference, 2008
［非特許文献３］ N. Dalal, B. Triggs, “Histograms of Oriented Gradients for Human Detection”, Computer Vision and Pattern Recognition (CVPR), 2005
次に、抽出した特徴を使用して、顔の状態を検出する。顔の状態とは、顔が一定角度以上回転しているかどうか、顔表面に影が存在するかどうか、メガネなどを装着しているかどうかなどである。

ステップＳ１４２０では、ステップＳ１４００で検出した顔の状態に基づいて、より詳細な顔向きを検出するためにモデルの切り替えをする。つまり、顔の状態に基づいて、変動に対して弱い一方で高精度化が可能な幾何情報を使用した顔向き検出方式（顔器官位置検出モデル）と、変動に頑健である一方で幾何情報を使用した顔向き検出方式と比べると高精度化が難しいアピアランス情報を使用した顔向き検出方式（アピアランス特徴抽出モデル）とを、切り替えるようにしている。

以下では切り替え方法について、幾つかのバリエーションと共に詳細な説明をする。

「切り替え方法１」大まかな顔の向き検出結果に基づく切り替え
顔が一定以上回転すると、目や口などの一部の顔器官が隠れてしまうため、正確に顔器官を検出することができず、その状態で顔向き検出を実施しても、結果が期待される顔向きとは大きくかけ離れてしまう問題がある。

そこで、変動にロバストなアピアランス特徴を使用して、大まかな顔の回転量を検出し、その検出結果に基づいて、詳細な顔の向き検出に顔器官位置検出モデルを使用するか、アピアランス特徴抽出モデルを使用するか選択する。図４は一例を示している。

ステップＳ１４０１では、大まかな顔の向きを検出するための特徴抽出を行う。例えば、上述したようにＨＯＧ特徴を抽出する。

ステップＳ１４０２では、顔向きクラス判定を行う。顔向きクラス判定とは、本発明の第１の実施形態では、顔の向きが所定の角度未満なのか、所定の角度以上なのか、２値判定を行う。例えば、図５のように、ほぼ正面向きの顔１４０１１、１４０１２、１４０１３なのか、横向き１４０１０、１４０１４なのか２値判定を行う。判定に使用する識別器には、非特許文献１で使用されているSupport Vector Machine（以下、ＳＶＭ）を使用する。ＳＶＭを使用する場合には、予め学習が必要であり、例えば、ほぼ正面向きの顔１４０１１、１４０１２、１４０１３から抽出した大量のＨＯＧ特徴と、横向き１４０１０、１４０１２から抽出した大量のＨＯＧ特徴を用意し、これらの特徴を使用して学習する。学習の際、ほぼ正面向きの顔１４０１１、１４０１２、１４０１３に対して正のラベル、横向き１４０１０、１４０１４に対して負のラベルを割り当てることにより、ＳＶＭからの結果が正の値であれば顔がほぼ正面を向いている、負の値であれば横を向いているという判定結果になる。なお、ＳＶＭのカーネルには、線形関数、非線形関数など様々な関数が選択できるが、本発明の第１の実施形態では線形関数を使用する。

ステップＳ１４０３では、ステップＳ１４０２での判定結果に基づいて、詳細な顔の向き検出に顔器官位置検出モデルを使用するか、アピアランス特徴抽出モデルを使用するか選択する。ステップＳ１４０２で、顔向きがほぼ正面向きであると判定された場合、つまり、ステップＳ１４０２での結果が正の値の場合にはステップＳ１４０４に進み、詳細な顔向き検出に幾何情報ベースの顔器官位置検出モデルが選択される。一方で、横向きであると判定された場合には、つまり、ステップＳ１４０２での結果が負の値の場合にはステップＳ１４０５に進み、詳細な顔向き検出にアピアランス特徴抽出モデルが選択される。

「切り替え方法２」．影の有無判定結果に基づく切り替え
先に述べた顔向きによる顔器官の隠れ以外にも照明変動による影の影響により、顔器官検出結果に大きな位置ズレが生じ、その結果、期待される顔向き検出結果と大きく異なる場合がある。

そこで、変動にロバストなアピアランスベース特徴を使用して、顔表面の照明変動による影を検出した後、その結果に基づいて、より詳細な顔向きを検出する方式を切り替えるようにする。図６はそのフローを示している。

ステップＳ１４０６では、影の有無判定をするための特徴抽出を行う。例えば、上述したようにＨＯＧ特徴を抽出する。

ステップＳ１４０７では、影の有無判定を行う。影の有無判定とは、図７のように、顔の表面に影が存在するか否かの判定を行う。図７の顔１４０１５は顔表面に影がない顔、顔１４０１６は顔表面に影がある顔を示している。影の有無判定には、先に述べた顔向きクラス判定同様に、ＳＶＭを使用する。学習には、顔表面に影がない図７の顔画像１４０１５と、顔表面に影がある顔画像１４０１６を大量に用意し、これらの顔画像から抽出したＨＯＧ特徴を使用する。なお、影の有無判定では、図８の顔画像１４０１７のように、顔画像を複数のブロックに分割し、各ブロック毎に判定する方法でも構わない。

ステップＳ１４０８では、ステップＳ１４０７での判定結果に基づいて、詳細な顔の向き検出に顔器官位置検出モデルを使用するか、アピアランス特徴抽出モデルを使用するか選択する。顔表面に影がない場合には、ステップＳ１４０９に進み、詳細な顔向き検出に幾何情報ベースの顔器官位置検出モデルが選択される。一方で、顔表面に影がある場合には、ステップＳ１４１０に進み、詳細な顔向き検出にアピアランスベースのアピアランス特徴抽出モデルが選択される。

「切り替え方法３」．装飾物の判定結果に基づく切り替え
更に、メガネなどの装飾物によって、顔器官に隠れが生じる場合もある。この場合も同様に、変動にロバストなアピアランスベース特徴を顔全体ではなくて、図９のように顔の一部の領域１４０１８から抽出し、メガネなどの装飾物が存在するかどうかを判定する。なお、ステップＳ１３００で顔の中心が所定の位置、かつ、顔の大きさが所定の大きさになるように正規化されているため、ここで設定される領域は固定された領域で構わない。

メガネなどの装飾物を検出する処理の詳細については、上述した顔向きや影の有無の場合と同様であるため、処理を省略する。

以上、顔向き検出方式を切り替える条件は、多数存在するが、以下では、最初に述べた「切り替え方法１」の大まかな顔の向き検出結果に基づく切り替え方法として説明を行う。

ステップＳ１４２０では、ステップＳ１４００において、詳細な顔の向き検出にアピアランス特徴抽出モデルが選択された場合には、ステップＳ１５１０に進む。つまり、ある一定以上回転した顔向きに対しては、アピアランス情報に基づくアピアランス特徴抽出モデルを選択する。

ステップＳ１５１０では、特徴抽出部１５１において、顔器官の隠れなどの影響を受けにくい、ステップＳ１４００で抽出したＨＯＧ特徴などのアピアランス特徴を再度抽出する。なお、被写体の顔向きを、より詳細に検出するため、ステップＳ１４０１における特徴抽出とは別のパラメータを使用するようにしても良い。例えば、ＨＯＧ特徴では横軸を輝度勾配方向、縦軸を輝度勾配強度としたヒストグラムを生成しているが、横軸の輝度勾配方向のビンの数を細分化することで、より細かな特徴を抽出可能である。

ステップＳ１６０１では、顔向き検出部１６０において、ステップＳ１５１０で抽出したアピアランス特徴を使用して、顔向きの角度を検出する。顔向きの角度を検出する方法として、非特許文献４のように、Support Vector Regressor（以下、ＳＶＲ）などの回帰モデルを使用する。
［非特許文献４］ E. Murphy-Chutorian, M. Manubhai Trivedi, “Head Pose Estimation in Computer Vision: A Survey”, IEEE Transaction on Pattern Analysis and Machine Intelligence, 2008
この場合には、ＨＯＧ特徴と、それに対応する顔向きの角度をペアとして、ＳＶＲを学習させることで、顔向きの角度を検出することが可能である。

一方、ステップＳ１４２０では、ステップＳ１４００において、詳細な顔の向き検出に顔器官位置検出モデルが選択された場合には、ステップＳ１５２０に進む。つまり、ほぼ正面向きの顔向きに対しては、幾何情報に基づく顔器官位置検出モデルを選択する。

ステップＳ１５２０では、顔器官検出部１５２において、特許文献１や非特許文献５のような方法で顔器官位置検出を行う。
［非特許文献５］ K.Kinoshita, Y.Konishi, S.Lao, M.Kawade, “A Fast and Robust Facial Feature Detection and 3D Head Pose Estimation based on 3D Model Fitting”, MIRU2008
ステップＳ１６００では、顔向き検出部１６０において、非特許文献４のように、ステップＳ１６００で検出された顔器官座標の相対関係から顔向きの角度を検出する。ステップＳ１６０１同様に、回帰モデルを使用する場合には、顔器官座標（Ｘｎ，Ｙｎ）から１つの特徴ベクトルを生成し、それに対応する顔向きの角度をラベルとして学習する。

以上のように、顔器官検出位置に基づく幾何情報ベースの顔向き検出は、変動が混入しないような条件下では、高精度な顔向き検出が可能である一方、様々な変動が混入する条件下では、顔器官位置が大きくズレ、極端に性能が劣化するといった問題がある。例えば、顔向きが一定以上回転した場合の顔器官の隠れなどである。一方、エッジやヒストグラムに基づくアピアランスベースの顔向き検出は、様々な変動の混入に関わらず、安定した顔向き検出が可能である。

このような特徴から、顔の向きなど被写体の状況を検出し、その状況に基づいて、幾何情報ベース方式、もしくはアピアランスペース方式を選択することで、高精度で、かつ安定的な顔向き検出が可能となる。

本発明の第２の実施形態について説明する。

第１の実施形態では、影の有無やメガネの装飾物による隠れなどを検出し、その検出結果に基づいて、アピアランス特徴抽出モデル、もしくは顔器官位置検出モデルのどちらか一方の顔向き検出方式を選択するようにした。つまり、顔検出方式の異なる２つの方式を切り替えるようにしていた。

第２の実施形態では、異なる２つの方式を切り替えるのではなく、顔器官位置検出モデルだけを使用する。但し、被写体の状態、つまり、影の有無やメガネの装飾物による隠れなどに基づいて、顔器官位置検出モデルで用いる顔器官検出モデルを切り替えるようにしている。

本発明の第２の実施形態の全体構成は、第１の実施形態と同様に図１で構成される。但し、顔向き検出モデル切り替え部１５０は、第１の実施形態とは異なり、図１０ように顔器官検出モデル記憶部２５０、顔器官検出モデル選択部２６０、顔器官検出部２７０で構成されている。また、図１１はその全体フローを示しており、以下では、図１１の全体フローに沿って説明する。

ステップＳ２０００からステップＳ２３００までは本発明の第１の実施形態と同様のため説明を省略する。

ステップＳ２４００では、顔状態検出部２４０において、まず、第１の実施形態と同様にＨＯＧ特徴などの特徴抽出を実施する。次に、顔表面の影やメガネなどの装飾物の有無などを検出することで、顔器官検出を実施する前に顔器官が正確に検出可能かどうかを予測する。顔状態検出には、本発明の第１の実施形態で説明したようにＳＶＭを使用する。

図１２の左図（２５０１）は顔表面に影のない照明条件が良好な場合、右図（２５０２）は右目の一部に影が発生し、照明条件が良好でない場合を示している。例えば、１つの目に対して、目頭、目尻、上瞼、下瞼の４つの顔器官を検出する場合、影などの照明変動の影響により、顔器官位置がズレてしまう可能性がある。目頭や目尻など顔表面上で特徴的なコーナーエッジを検出する場合には照明条件が良好でない場合にも比較的正確に検出可能である。しかし、上瞼、下瞼の水平エッジなど様々な変動により容易に発生しうる特徴的ではないエッジを検出する場合には、図１３のように、影の境界を、上瞼２５０５、下瞼２５０６として誤検出する可能性がある。

そこで、ステップＳ２５００では、図１２のように顔表面を幾つかのブロックに分割し、ブロック毎に影などを検出することで、顔器官を正確に検出可能かどうか顔器官検出実施前に判定する。

ステップＳ２６００では、顔器官検出モデル選択部２６０において、ステップＳ２４００での顔状態検出結果に基づいて、顔器官検出モデル記憶部２５０に記憶されている顔器官検出モデルの中から１つの顔器官検出モデルを選択する。顔器官検出モデルには、非特許文献４のように、Active Apperance Model（以下、ＡＡＭ）やActive Shape Model（以下、ＡＳＭ）を使用する。

例えば、図１２の左図のように影のない照明条件が良好な場合には、図１４の左図のように１２点の顔器官を使用したモデル２６０１を使用する。一方、図１２の右図のように右目の一部に影がある照明条件が良好でない場合には、照明変動の影響を受け易い顔器官を除外した図１４の右図のような１０点のモデル２６０２を使用する。つまり、各ブロックの状態に応じて顔器官検出モデルを切り替えるようにする。なお、顔器官検出モデルＭは、モデル形状を表す基底ベクトル群Ｖと各基底ベクトルに係る係数Ｂで構成されている。そのため、顔器官検出モデル記憶部２５０には、モデル形状を表す基底ベクトルＶと各基底ベクトルに係る係数Ｂなどのパラメータが記憶されており、各ブロックの状態に応じてパラメータが選択される。なお、本発明の第２の実施形態では、図１４に示す１２点の顔器官検出モデルを使用しているが、鼻の穴など別の顔器官を使用しても良く、これに限られるわけではない。

図１５は顔領域を図１２のように左目、右目、口の３つのブロックに分割し、各ブロックでの影の有無に基づいて、顔器官検出モデルを選択しているフローを示している。

以下では、各ブロックでの判定結果に基づいて、顔器官検出モデルを選択する図１５のフローに関して詳細な説明をする。

ステップＳ２６０３において、左目を含むブロック内に影があるかどうかを判定する。左目を含むブロック内に影がある場合には、ステップＳ２６０４へ進む。

ステップＳ２６０４において、右目を含むブロック内に影があるかどうかを判定する。右目を含むブロック内に影がある場合には、ステップＳ２６０５へ進む。

ステップＳ２６０５において、口を含むブロック内に影があるかどうかを判定する。口を含むブロック内に影がある場合には、ステップＳ２６０６へ進む。

ステップＳ２６０６において、左目、右目、口のブロック内に影があり、左右目の上下瞼と上下唇が正確に検出できないと予想されるため、左右目の上下瞼と上下唇を除外したモデル（１）を選択する。

ステップＳ２６０５において、口を含むブロック内に影がない場合には、ステップＳ２６０７に進む。

ステップＳ２６０７において、左目、右目のブロック内に影があり、左右目の上下瞼が正確に検出できないと予想されるため、左右目の上下瞼を除外したモデル（２）を選択する。

ステップＳ２６０４において、右目を含むブロック内に影がない場合には、ステップＳ２６０８に進む。

ステップＳ２６０８において、口を含むブロック内に影があるかどうかを判定する。口を含むブロック内に影がある場合には、ステップＳ２６０９へ進む。

ステップＳ２６０９において、左目、口を含むブロック内に影があり、左目の上下瞼、口の上下唇が正確に検出できないと予想されるため、左目の上下瞼、口の上下唇を除外したモデル（３）を選択する。

ステップＳ２６０８において、口を含むブロック内に影がない場合には、ステップＳ２６１０に進む。

ステップＳ２６１０において、左目を含むブロック内に影があり、左目の上下瞼が正確に検出できないと予想されるため、左目の上下瞼を除外したモデル（４）を選択する。

ステップＳ２６０３において、左目を含むブロック内に影がない場合には、ステップＳ２６１１に進む。

ステップＳ２６１１において、右目を含むブロック内に影があるかどうかを判定する。右目を含むブロック内に影がある場合には、ステップＳ２６１２へ進む。

ステップＳ２６１２において、口を含むブロック内に影があるかどうかを判定する。口を含むブロック内に影がある場合には、ステップＳ２６１３へ進む。

ステップＳ２６１３において、右目、口を含むブロック内に影があり、右目の上下瞼、口の上下唇が正確に検出できないと予想されるため、右目の上下瞼、口の上下唇を除外したモデル（５）を選択する。

ステップＳ２６１２において、口を含むブロック内に影がない場合には、ステップＳ２６１４に進む。

ステップＳ２６１４において、右目を含むブロック内に影があり、右目の上下瞼が正確に検出できないと予想されるため、右目の上下瞼を除外したモデル（６）を選択する。

ステップＳ２６１１において、右目を含むブロック内に影がない場合には、ステップＳ２６１５に進む。

ステップＳ２６１５において、口を含むブロック内に影があるかどうかを判定する。口を含むブロック内に影がある場合には、ステップＳ２６１６へ進む。

ステップＳ２６１６において、口を含むブロック内に影があり、上下唇が正確に検出できないと予想されるため、上下唇を除外したモデル（７）を選択する。

ステップＳ２６１５において、口を含むブロック内に影がない場合には、ステップＳ２６１７に進む。

ステップＳ２６１７において、顔表面全体で影がない照明条件が良好な場合には、全ての顔器官を使用したモデル（８）を選択する。

以上のように、各ブロックの状態に応じた顔器官検出モデルの切り替えについて説明した。

ステップＳ２７００では、ステップＳ２６００で選択された顔器官検出モデルを使用して、顔器官検出を行う。非特許文献５は、その例を示している。

ステップＳ２８００では、顔向き検出部１６０において、ステップＳ２７００で検出した顔器官位置を使用して顔向き検出を行う。なお、一部の顔器官検出モデルを使用する、つまり、図１５のステップＳ２６０６、Ｓ２６０７、Ｓ２６０９、Ｓ２６１０、Ｓ２６１３、Ｓ２６１４、Ｓ２６１６を通った場合には、左右目の上下瞼、上下唇のいずれかの顔器官が得られない。例えば、図１５において顔器官検出モデル（１）（Ｓ２６０６）が選択された場合には、左右の目頭、左右の目尻、口両端の６点の顔器官が検出されるが、左右目の上下瞼、上下唇の６点の顔器官位置は得られない。そこで、このような場合には、顔器官位置の補間を実施する。

図１６は顔向き検出部１６０の詳細を示しており、顔器官位置補間部３００、顔向き角度検出部３１０で構成される。また、ステップＳ２８００の詳細フローを示したのが図１７である。

ステップＳ２８０１では、所定の顔器官が全て検出したかどうか判定する。所定の顔器官が全て検出した場合にはステップＳ２８０４へ進む。一方、所定の顔器官が全て検出しなかった場合にはステップＳ２８０２へ進む。

ステップＳ２８０２では、顔器官位置を補間するかどうか判定する。顔器官位置を補間しない場合にはステップＳ２８０４へ進む。顔器官位置を補間する場合には、ステップＳ２８０３へ進む。

ステップＳ２８０３では、顔器官位置補正部２９０において、検出しなかった顔器官位置の補間を行う。例えば、検出した顔器官位置に基づいて、平均的な顔器官位置を設定する。図１８は検出した顔器官（左右の目頭、左右の目尻、口両端）に基づく位置を設定する例を示している。図１８の中塗丸は顔器官検出モデルによって検出された顔器官、中塗でない丸は検出した顔器官（左右の目頭、左右の目尻、口両端）に基づく位置である。図１８の上瞼のｙ座標にあるａ、下瞼のｙ座標にあるｂ、上唇のｙ座標にあるｃ、下唇のｙ座標にあるｄは夫々定数であり、これらの定数ａ，ｂ，ｃ，ｄは、ステップＳ２３００で正規化された顔から算出した統計的な平均値である。

ステップＳ２８０４では、顔向き角度検出部３１０において、本発明の第１の実施形態同様に、顔器官位置の幾何情報を使用して顔向きの角度検出を行う。

以上のように、顔器官検出位置に基づく幾何情報ベースの顔向き検出方式は、変動が混入しないような条件下では、高精度な顔向き検出が可能である一方、様々な変動が混入する条件下では、顔器官位置が大きくズレ、極端に性能が劣化するといった問題がある。特に、目頭や目尻などの顔表面に特徴的な顔器官と比べ、上下瞼や上下唇などの顔器官は変動による影響が非常に大きい。

そこで、本発明では、顔を複数のブロックに分割し、ブロック毎に影の有無などを検出することで、正確な顔器官検出が可能かどうか判定し、その判定結果に応じて顔器官検出モデルを選択するようにしている。このような手法により、高精度で、かつ安定的な幾何情報ベースの顔向き検出が可能となる。

１００画像取得部、１１０顔検出部、１３０画像正規化部、
１４０顔状態検出部、１５０顔向き検出モデル切り替え部、１６０顔向き検出部

Claims

顔の画像を取得する画像取得手段と、
前記顔の状態を検出する顔状態検出手段と、
前記顔の状態に基づいて、顔向き検出モデルの切り替えを行う顔向き検出モデル切り替え手段と、
前記顔向き検出モデル切り替え手段で選択された前記顔向き検出モデルを使用して前記顔の向きを検出する顔向き検出手段と、
から構成されることを特徴とする画像認識装置。
前記顔向き検出モデル切り替え手段は、前記顔の状態に基づいて、複数の顔向き検出手法の中から１つを選択することを特徴とする請求項１に記載の画像認識装置。
前記顔向き検出手法は、前記顔から顔器官位置を検出する顔器官位置検出モデル、前記顔からアピアランス特徴を抽出するアピアランス特徴抽出モデルであることを特徴とする請求項２に記載の画像認識装置。
前記状態とは顔の向きの回転量であり、前記顔の向きの回転量に基づいて、顔向き検出手法を選択することを特徴とする請求項２に記載の画像認識装置。
前記顔の向きが一定以上回転している場合には前記アピアランス特徴抽出モデル、前記顔の向きが一定以上回転していない場合には前記顔器官位置検出モデルを使用することを特徴とする請求項４に記載の画像認識装置。
前記状態とは顔表面における影の有無であり、前記顔向き検出モデル切り替え手段では、前記顔表面において影が存在する場合には前記アピアランス特徴抽出モデル、前記顔表面において影が存在しない場合には前記顔器官位置検出モデルを使用することを特徴とする請求項２に記載の画像認識装置。
前記状態とは装飾物の有無であり、前記顔向き検出モデル切り替え手段では、前記装飾物が存在する場合には前記アピアランス特徴抽出モデル、前記装飾物が存在しない場合には前記顔器官位置検出モデルを使用することを特徴とする請求項２に記載の画像認識装置。
更に、複数の顔器官検出モデルを記憶する顔器官検出モデル記憶部を備え、前記顔の状態に基づいて前記顔器官検出モデルを選択することを特徴とする請求項１乃至請求項７の何れか一項に記載の画像認識装置。
更に、前記顔向き検出手段は、前記顔器官検出モデルによって、検出されなかった顔器官が存在する場合には、前記検出されなかった顔器官を補間する顔器官位置補間部を備えることを特徴とする請求項１乃至請求項８の何れか一項に記載の画像認識装置。
前記顔の向きは、角度を算出することを特徴とする請求項１乃至請求項９の何れか一項に記載の画像認識装置。
顔の画像を取得する画像取得工程と、
前記顔の状態を検出する顔状態検出工程と、
前記顔の状態に基づいて、顔向き検出モデルの切り替えを行う顔向き検出モデル切り替え工程と、
前記顔向き検出モデル切り替え工程で選択された前記顔向き検出モデルを使用して前記顔の向きを検出する顔向き検出工程と、
から構成される画像認識方法。
前記顔向き検出モデル切り替え工程は、前記顔の状態に基づいて、複数の顔向き検出手法の中から１つを選択することを特徴とする請求項１１に記載の画像認識方法。
前記顔向き検出手法は、前記顔から顔器官位置を検出する顔器官位置検出モデル、前記顔からアピアランス特徴を抽出するアピアランス特徴抽出モデルであることを特徴とする請求項１２に記載の画像認識方法。
前記状態とは顔の向きの回転量であり、前記顔の向きの回転量に基づいて、顔向き検出手法を選択することを特徴とする請求項１２に記載の画像認識方法。
前記顔の向きが一定以上回転している場合には前記アピアランス特徴抽出モデル、前記顔の向きが一定以上回転していない場合には前記顔器官位置検出モデルを使用することを特徴とする請求項１４に記載の画像認識方法。
前記状態とは顔表面における影の有無であり、前記顔向き検出モデル切り替え工程では、前記顔表面において影が存在する場合には前記アピアランス特徴抽出モデル、前記顔表面において影が存在しない場合には前記顔器官位置検出モデルを使用することを特徴とする請求項１２に記載の画像認識方法。
前記状態とは装飾物の有無であり、前記顔向き検出モデル切り替え工程では、前記装飾物が存在する場合には前記アピアランス特徴抽出モデル、前記装飾物が存在しない場合には前記顔器官位置検出モデルを使用することを特徴とする請求項１２に記載の画像認識方法。
更に、複数の顔器官検出モデルを記憶する顔器官検出モデル記憶部を備え、前記顔の状態に基づいて前記顔器官検出モデルを選択することを特徴とする請求項１１乃至請求項１７の何れか一項に記載の画像認識方法。
更に、前記顔向き検出工程は、前記顔器官検出モデルによって、検出されなかった顔器官が存在する場合には、前記検出されなかった顔器官を補間する顔器官位置補間部を備えることを特徴とする請求項１１乃至請求項１８の何れか一項に記載の画像認識方法。
前記顔の向きは、角度を算出することを特徴とする請求項１１乃至請求項１９の何れか一項に記載の画像認識方法。