WO2023012967A1

WO2023012967A1 - 生成方法、情報処理装置および生成プログラム

Info

Publication number: WO2023012967A1
Application number: PCT/JP2021/029117
Authority: WO
Inventors: リナセプティアナ; 秀継内田; 智明松濤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2023-02-09
Anticipated expiration: 2024-02-05
Also published as: JP7688289B2; EP4383188A4; US20240144729A1; EP4383188A1; JPWO2023012967A1; CN117751380A

Abstract

判定の計算コストを削減する。　情報処理装置（１０）は、人の生体画像をそれぞれ含む複数の画像データを用いた機械学習により、ニューラルネットワーク（１３）に含まれる複数のレイヤーそれぞれのパラメータを算出する。情報処理装置（１０）は、レイヤー（１５）を含みレイヤー（１６）を含まないニューラルネットワーク（１４）の中のレイヤー（１５）に、ニューラルネットワーク（１３）のレイヤー（１５）に対して算出されたパラメータ（１８）を設定することで、受け付けた画像データに含まれる人の生体画像の真正性を判定する判定モデルを生成する。

Description

生成方法、情報処理装置および生成プログラム

　本発明は生成方法、情報処理装置および生成プログラムに関する。

　個人認証技術の１つとして、顔、指紋、静脈、虹彩などの生体情報に基づいて、認証対象者が登録者本人であるか判定する生体認証がある。生体認証システムに対するセキュリティ攻撃の１つとして、プレゼンテーション攻撃がある。

　プレゼンテーション攻撃は、攻撃者が、登録者の生体情報を偽造した人工物を用意し、人工物をセンサーに対して提示することで登録者になりすます攻撃である。例えば、攻撃者は、スマートフォンなどの携帯撮像装置を用いて登録者の生体画像を取得し、生体画像が表示された表示装置を画像センサーにかざす。撮像素子や表示装置の高性能化に伴い、プレゼンテーション攻撃を検知するタスクの難易度が上がっている。

　そこで、機械学習によって検知精度の高いモデルを生成する試みが行われている。例えば、訓練用画像データから特徴量を抽出し、抽出された特徴量に基づいて、プレゼンテーション攻撃を検知するためのモデルを生成し、生成されたモデルを用いてプレゼンテーション攻撃を検知する異常検知システムが提案されている。

米国特許出願公開第２０１９／００５７２６８号明細書

　しかし、機械学習によって検知精度を向上させる従来技術は、層が非常に多い多層ニューラルネットワークのような複雑なモデルを生成することがある。複雑なモデルは、入力が攻撃であるか判定するための計算コストが大きく、実行時間が長いことがある。そこで、１つの側面では、本発明は、判定の計算コストを削減することを目的とする。

　１つの態様では、以下の処理をコンピュータが実行する生成方法が提供される。人の生体画像をそれぞれ含む複数の画像データを用いた第１の機械学習により、第１のニューラルネットワークに含まれる複数のレイヤーそれぞれのパラメータを算出する。複数のレイヤーのうちの第１のレイヤーを含み第２のレイヤーを含まない第２のニューラルネットワークの中の第１のレイヤーに、第１のニューラルネットワークの第１のレイヤーに対して算出されたパラメータを設定することで、受け付けた画像データに含まれる人の生体画像の真正性を判定する判定モデルを生成する。

　また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。また、１つの態様では、コンピュータに実行させる生成プログラムが提供される。

　１つの側面では、判定の計算コストが削減される。
　本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

第１の実施の形態の情報処理装置を説明するための図である。情報処理装置のハードウェア例を示すブロック図である。情報処理装置のソフトウェア例を示すブロック図である。訓練データ用およびテストデータ用の入力データの生成例を示す図である。第１の畳み込みニューラルネットワークの構造例を示す図である。畳み込みブロックの構造例を示す図である。第２の畳み込みニューラルネットワークの構造例を示す図である。転移学習におけるパラメータの引き継ぎ例を示す図である。機械学習の手順例を示すフローチャートである。モデルテストの手順例を示すフローチャートである。

　以下、本実施の形態を図面を参照して説明する。
　［第１の実施の形態］
　第１の実施の形態を説明する。

　図１は、第１の実施の形態の情報処理装置を説明するための図である。
　第１の実施の形態の情報処理装置１０は、生体認証システムに対するプレゼンテーション攻撃の検知に用いられる判定モデルを、機械学習によって生成する。情報処理装置１０は、生成された判定モデルを用いてプレゼンテーション攻撃を検知してもよい。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０が、コンピュータ、機械学習装置または生成装置と呼ばれてもよい。

　情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの特定用途の電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

　記憶部１１は、画像データ１７を含む複数の画像データを記憶する。複数の画像データは、それぞれ人の生体画像を含む。生体画像は、生体認証の際に画像センサーによって読み込まれる認証対象者の画像である。例えば、生体画像は、顔認証に用いられる顔画像や、指紋認証に用いられる指紋画像などである。

　ただし、複数の画像データの中に、認証対象者自身の生体ではなく偽造物を画像センサーにかざすことで生成される不正な画像データが含まれていてもよい。すなわち、複数の画像データの中に、攻撃者が登録者になりすますプレゼンテーション攻撃に相当する画像データが含まれていてもよい。攻撃者は、例えば、スマートフォンなどの携帯撮像装置を用いて登録者の生体を撮像し、その画像を表示装置に表示させて画像センサーにかざす。複数の画像データには、真正か否かを示す教師ラベルが付与されていてもよい。

　処理部１２は、上記の画像データを用いて機械学習により判定モデルを生成する。処理部１２は、まず、ニューラルネットワーク１３を生成する。ニューラルネットワーク１３は、レイヤー１５，１６を含む多層ニューラルネットワークである。ニューラルネットワーク１３は、複数のノードとノード間を接続する複数のエッジとを含む。各エッジは、機械学習を通じて値が算出される重みをパラメータとしてもつ。

　処理部１２は、ニューラルネットワーク１３に含まれる複数のレイヤーそれぞれのパラメータを算出する。処理部１２は、誤差逆伝播法によってパラメータを算出してもよい。例えば、処理部１２は、画像データをニューラルネットワーク１３に入力し、ニューラルネットワーク１３の出力と教師ラベルとの間の誤差を算出する。処理部１２は、誤差情報をニューラルネットワーク１３の後方から前方に向かって逆方向に伝播し、各エッジの重みに対する誤差の勾配を算出し、勾配に基づいて重みを更新する。

　ニューラルネットワーク１３は、入力された画像データに対して畳み込み演算を行う畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）であってもよい。畳み込み演算は、例えば、生体画像の上でカーネルと呼ばれる行列をスライドさせながら積和演算を繰り返す。カーネルに含まれる係数は、上記のパラメータに相当する。

　ニューラルネットワーク１３は、例えば、入力された画像データが真正であるかプレゼンテーション攻撃であるか判定するように生成される。ニューラルネットワーク１３は、攻撃クラスを表す「１」と真正クラスを表す「２」の何れか一方を出力してもよい。また、ニューラルネットワーク１３に入力される画像データは、同一物を異なるタイミングで写した複数のフレームを含む時系列データであってもよい。ニューラルネットワーク１３の入力は、テンソルと呼ばれてもよい。入力データが時間軸をもつ畳み込みニューラルネットワークは、三次元畳み込みニューラルネットワークと呼ばれてもよい。

　処理部１２は、ニューラルネットワーク１３に基づいてニューラルネットワーク１４を生成する。ニューラルネットワーク１３からニューラルネットワーク１４を生成することが、転移学習と呼ばれてもよい。ニューラルネットワーク１４は、畳み込みニューラルネットワークであってもよい。ニューラルネットワーク１４は、入力された画像データが真正であるかプレゼンテーション攻撃であるか判定するように生成されてもよい。また、ニューラルネットワーク１４は、三次元畳み込みニューラルネットワークであってもよい。

　ニューラルネットワーク１４は、ニューラルネットワーク１３に含まれる複数のレイヤーのうち、レイヤー１５を含みレイヤー１６を含まない。ニューラルネットワーク１４に含まれるレイヤーは、ニューラルネットワーク１３より少なくてもよく、ニューラルネットワーク１３に含まれる複数のレイヤーのサブセットであってもよい。処理部１２は、ニューラルネットワーク１４のレイヤー１５に、ニューラルネットワーク１３のレイヤー１５に対して算出されたパラメータ１８を設定する。これにより、処理部１２は、受け付けた画像データに含まれる人の生体画像の真正性を判定する判定モデルを生成する。

　ニューラルネットワーク１４が判定モデルであってもよい。また、処理部１２は、ニューラルネットワーク１３で算出されたパラメータ１８をニューラルネットワーク１４の初期値として設定し、複数の画像データを用いた機械学習をニューラルネットワーク１４に対して更に実行してもよい。このようにして更新されたニューラルネットワーク１４が、生体画像の真正性を判定する判定モデルであってもよい。

　ニューラルネットワーク１３の中で、レイヤー１５はレイヤー１６よりも前方に配置されていてもよい。また、ニューラルネットワーク１３は、それぞれ複数のレイヤーを含む前方レイヤー群（First Layers）、中央レイヤー群（Middle Layers）および後方レイヤー群（Last Layers）を含んでもよい。中央レイヤー群は前方レイヤー群よりも後方に配置されており、後方レイヤー群は中央レイヤー群よりも後方に配置されている。

　その場合、例えば、レイヤー１５は中央レイヤー群に属し、レイヤー１６は後方レイヤー群に属する。ニューラルネットワーク１４は、中央レイヤー群に属する全てのレイヤーを含んでもよく、後方レイヤー群に属する何れのレイヤーを含まなくてもよい。また、ニューラルネットワーク１４は、前方レイヤー群に属する一部のレイヤーを含んでもよい。

　なお、処理部１２は、画像センサーによって読み込まれた動画像を特定のフレーム数ずつ分割することで、それぞれ連続する複数のフレーム（例えば、連続する３フレーム）を含む複数の画像データを生成してもよい。処理部１２は、同一の動画像から生成された複数の画像データを、パラメータ１８を算出するための訓練データとして使用してもよい。一方、処理部１２は、画像センサーによって読み込まれた動画像の先頭から特定のフレーム数のフレームだけ抽出することで、１つの画像データを生成してもよい。処理部１２は、ニューラルネットワーク１４の判定精度を評価するテストの際にこの画像データを使用してもよく、生体認証システムの運用の際にこの画像データを使用してもよい。

　以上説明したように、第１の実施の形態の情報処理装置１０は、受け付けた画像データからプレゼンテーション攻撃の当否を判定する判定モデルを、機械学習を通じて生成する。撮像装置や表示装置の高性能化に伴って、プレゼンテーション攻撃を検知するタスクの難易度が上がっている。この点、生成された判定モデルを用いることで、判定精度を向上させて生体認証システムのセキュリティを向上させることが可能である。

　また、情報処理装置１０は、ニューラルネットワーク１３に含まれる複数のレイヤーそれぞれのパラメータを機械学習によって算出し、そのうちの一部のレイヤーのパラメータをニューラルネットワーク１４に引き継ぐことで、判定モデルを生成する。これにより、情報処理装置１０は、判定モデルのサイズを削減することが可能となり、プレゼンテーション攻撃の有無を判定するための計算コストを削減し得る。また、ニューラルネットワーク１４は、ニューラルネットワーク１３の中の一部のレイヤーの役割を引き継ぐ。このため、最初からレイヤーの少ない判定モデルを生成する場合と比べて、レイヤーが多い（深い）判定モデルは画像データから本質的特徴を抽出しやすいという多層構造の利点を享受することができ、判定モデルの精度低下が抑制される。

　例えば、ニューラルネットワーク１３の前方レイヤー群のパラメータは、画像データから基本的特徴を抽出するための基本的パターン情報をもつように算出されることがある。ニューラルネットワーク１３の中央レイヤー群のパラメータは、基本的特徴から本質的特徴を抽出するための本質的パターン情報をもつように算出されることがある。ニューラルネットワーク１４の後方レイヤー群のパラメータは、本質的特徴を更に抽象化するための抽象的パターン情報をもつように算出されることがある。ただし、後方レイヤー群のパラメータは、機械学習に使用した訓練データの影響を受けやすい。

　そこで、ニューラルネットワーク１４が、あるレイヤーのパラメータを引き継ぎ、それより後方のレイヤーのパラメータを引き継がないことで、判定モデルの精度低下が抑制される。また、ニューラルネットワーク１４が後方レイヤー群を含まないことで、訓練データへの依存性が低下し、判定精度が向上する。また、ニューラルネットワーク１４が中央レイヤー群を含むことで、多層構造のもとで学習される汎用性の高い本質的パターン情報が引き継がれ、判定精度が向上する。また、ニューラルネットワーク１４が前方レイヤー群の一部レイヤーを含まないことで、計算コストが更に削減される。

　また、ニューラルネットワーク１３からニューラルネットワーク１４にパラメータを引き継いだ後、転移学習として更にニューラルネットワーク１４のパラメータを更新することで、判定モデルの判定精度が向上する。また、判定モデルの精度向上によって、プレゼンテーション攻撃に相当する生体画像を誤って真正と判定するリスクや、真正な生体画像をプレゼンテーション攻撃であると誤って判定するリスクが低下する。

　また、入力データが時系列の複数のフレームを含むことで、判定モデルは、生物らしい動きや反射光の変化や環境変化などの時間変化を考慮して、高精度にプレゼンテーション攻撃を判定することができる。また、同一の動画像から分割された複数の画像データを訓練データとして使用することで、多様かつ十分な量の訓練データが確保される。また、動画像の先頭から抽出される画像データをテストデータとして使用することで、実際の生体認証の運用を想定して判定モデルの精度が適切に評価される。

　［第２の実施の形態］
　次に、第２の実施の形態を説明する。
　第２の実施の形態の情報処理装置１００は、機械学習によって、生体認証システムに対するプレゼンテーション攻撃を検知するための判定モデルを生成する。第２の実施の形態の生体認証は、顔画像に基づいてユーザを認証する顔認証である。第２の実施の形態の判定モデルは、連続する複数フレーム分の顔画像を攻撃クラスまたは真正クラスに分類する三次元畳み込みニューラルネットワーク（３Ｄ＿ＣＮＮ）である。

　第２の実施の形態の判定モデルは、生体情報登録装置に組み込まれてもよい。例えば、生体情報登録装置は、登録用の顔画像から判定モデルがプレゼンテーション攻撃を検知した場合、生体情報の登録を拒否する。また、第２の実施の形態の判定モデルは、生体認証装置に組み込まれてもよい。例えば、生体認証装置は、認証用の顔画像から判定モデルがプレゼンテーション攻撃を検知した場合、登録時の顔画像と認証時の顔画像との間の類似度に関係なく認証失敗と判定する。生体認証システムは、プレゼンテーション攻撃が検知されたことをシステム管理者に警告してもよく、警告メッセージを保存してもよい。第２の実施の形態の生体認証システムは、ＩＣ（Integrated Circuit）認証、入退出管理、キャッシュレス決済、システムログインなどに利用されてもよい。

　情報処理装置１００は、生成された判定モデルの精度を評価するテストを行ってもよい。また、情報処理装置１００は、判定モデルを利用して生体情報登録または生体認証を行ってもよい。また、他の情報処理装置が、判定モデルのテスト、生体情報登録および生体認証を行ってもよい。情報処理装置１００は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００が、コンピュータ、機械学習装置または生体認証装置と呼ばれてもよい。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。

　図２は、情報処理装置のハードウェア例を示すブロック図である。
　情報処理装置１００は、バスに接続されたＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

　ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムおよびデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。情報処理装置１００は、複数のプロセッサを有してもよい。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

　ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

　ＨＤＤ１０３は、ＯＳ（Operating System）、ミドルウェア、アプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

　ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像を生成し、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。なお、情報処理装置１００に、プリンタなどの他の種類の出力デバイスが接続されてもよい。

　入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、マウス、タッチパネルまたはキーボードであってもよい。また、入力デバイス１１２は、顔画像を撮像する画像センサーであってもよい。後述する訓練データに使用される顔画像とテストデータに使用される顔画像の少なくとも一方は、入力デバイス１１２によって撮像されたものであってもよい。情報処理装置１００に複数の入力デバイスが接続されてもよい。

　媒体リーダ１０６は、記録媒体１１３に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

　記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

　通信インタフェース１０７は、ネットワーク１１４に接続され、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

　図３は、情報処理装置のソフトウェア例を示すブロック図である。
　情報処理装置１００は、顔画像記憶部１２１およびモデル記憶部１２２を有する。これらの記憶部は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。また、情報処理装置１００は、訓練データ生成部１２３、機械学習部１２４、テストデータ生成部１２５および攻撃検知部１２６を有する。これらの処理部は、例えば、ＣＰＵ１０１またはＧＰＵ１０４とプログラムとを用いて実装される。

　顔画像記憶部１２１は、複数の動画像を記憶する。複数の動画像はそれぞれ、人の顔を写した顔画像であり、時系列に並んだ複数のフレームを含む。動画像のフレームレートは、例えば、３０ｆｐｓ（frames per second）や６０ｆｐｓなどである。

　ただし、複数の動画像の中には、真正な動画像と不正な動画像とが含まれる。真正な動画像は、生体認証用の画像センサーが人の顔を直接撮像した画像である。不正な動画像は、生体認証用の画像センサーに、スマートフォンなどの携帯撮像装置によって事前に撮像された顔画像を提示することで読み込まれる画像である。不正な動画像は、プレゼーテーション攻撃を表す。複数の動画像にはそれぞれ、教師ラベルが付与されている。教師ラベルは、攻撃クラスを示す「１」または真正クラスを示す「２」である。

　モデル記憶部１２２は、情報処理装置１００によって生成された判定モデルを記憶する。前述の通り、第２の実施の形態の判定モデルは、三次元畳み込みニューラルネットワークである。この判定モデルは、高さ１２０ピクセル、幅１２０ピクセル、３フレーム（Ｈ１２０×Ｗ１２０×Ｃ３）のテンソルを入力データとして受け付ける。

　判定モデルは、入力されたテンソルに対して畳み込み演算を行い、入力されたテンソルが属するクラスとして、攻撃クラスを示す「１」または真正クラスを示す「２」を出力する。畳み込み演算は、カーネルと呼ばれる行列をテンソル上でスライドさせながら積和演算を行って、特徴マップと呼ばれる別のテンソルを生成する。カーネルに含まれる係数は、多層ニューラルネットワークに含まれるノード間のエッジの重みに相当し、機械学習を通じて最適化されるパラメータである。判定モデルは多層ニューラルネットワークであり、複数のレイヤーを通じて畳み込み演算を複数回行う。

　訓練データ生成部１２３は、顔画像記憶部１２１の中から訓練データ用の１以上の動画像を選択し、訓練データを生成する。訓練データは、入力データと教師ラベルとをそれぞれ組み合わせた複数のレコードを含む。入力データは、判定モデルに入力されるテンソルである。教師ラベルは、判定モデルの出力の正解である。訓練データ生成部１２３は、動画像に含まれる時系列のフレームを３フレームずつに分割して入力データを生成し、その動画像に付与された教師ラベルを入力データに対応付ける。

　機械学習部１２４は、訓練データ生成部１２３によって生成された訓練データを用いて判定モデルのパラメータを最適化する。機械学習部１２４は、誤差逆伝播法によってパラメータを最適化してもよい。例えば、機械学習部１２４は、訓練データから１つまたは少数のレコードを選択し、判定モデルにテンソルを入力し、判定モデルの出力と教師ラベルとの間の誤差を算出する。機械学習部１２４は、誤差情報を判定モデルの後方から前方に向かって逆方向に伝播し、各エッジの重みに対する誤差の勾配を算出し、勾配に基づいて重みを更新する。機械学習部１２４は、訓練データの中から選択するレコードを変えながらエッジの重みの更新を繰り返して、重みを最適化する。

　後述するように、機械学習部１２４は、転移学習によって判定モデルを生成する。機械学習部１２４は、ある三次元畳み込みニューラルネットワークを生成し、ここで最適化されたパラメータを用いて、別の三次元畳み込みニューラルネットワークを判定モデルとして生成する。後者の三次元畳み込みニューラルネットワークは、前者の三次元畳み込みニューラルネットワークよりレイヤーの少ないコンパクトな判定モデルである。

　テストデータ生成部１２５は、顔画像記憶部１２１の中からテストデータ用の１以上の動画像を選択し、テストデータを生成する。テストデータは、訓練データと同様、入力データと教師ラベルとを組み合わせたレコードを含む。入力データは、判定モデルに入力されるテンソルである。教師ラベルは、判定モデルの出力の正解である。ただし、テストデータ生成部１２５は、選択された動画像から先頭の３フレームを抽出して入力データとして使用する。先頭３フレーム以外のフレームはテストデータに使用されない。

　攻撃検知部１２６は、モデル記憶部１２２から判定モデルを読み出す。攻撃検知部１２６は、テストデータ生成部１２５によって生成されたテストデータを用いて判定モデルの精度を評価する。攻撃検知部１２６は、テストデータに含まれる入力データを判定モデルに入力し、判定モデルの出力とテストデータに含まれる教師ラベルとの間の誤差を算出する。攻撃検知部１２６は、判定モデルの精度を、不揮発性ストレージに保存してもよいし、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。

　なお、実際の生体認証では、生体認証システムは、画像センサーによって取得された動画像からテストデータ生成部１２５と同様の方法で入力データを生成し、入力データが属するクラスを攻撃検知部１２６と同様の方法で判定する。テストデータ生成部１２５および攻撃検知部１２６を、他の情報処理装置が有していてもよい。

　次に、判定モデルの構造について説明する。
　図４は、訓練データ用およびテストデータ用の入力データの生成例を示す図である。
　前述の通り、訓練データ生成部１２３は、複数のフレームを含む動画像を分割して、３フレームずつの入力データを生成する。訓練データ生成部１２３は、フレーム＃１，＃２，＃３を含む入力データ１３１と、フレーム＃４，＃５，＃６を含む入力データ１３２と、フレーム＃７，＃８，＃９を含む入力データ１３３と、フレーム＃１０，＃１１，＃１２を含む入力データ１３４を生成する。入力データ１３１，１３２，１３３，１３４は、訓練データの中の異なるレコードに含まれるテンソルを形成する。

　一方、テストデータ生成部１２５は、複数のフレームを含む動画像の中から、先頭３フレームを抽出して入力データを生成する。通常、訓練データ用の動画像とテストデータ用の動画像は、異なる動画像である。テストデータ生成部１２５は、フレーム＃１，＃２，＃３を含む入力データ１３５を生成する。入力データ１３５は、テストデータの中の１つのレコードに含まれるテンソルを形成する。

　入力データ１３１，１３２，１３３，１３４を生成するにあたり、訓練データ生成部１２３は、動画像を正規化する。訓練データ生成部１２３は、画像認識によって動画像から人の顔を検出し、検出された顔を囲む矩形領域を抽出する。訓練データ生成部１２３は、抽出された矩形領域のサイズを、判定モデルの入力サイズに変換する。例えば、訓練データ生成部１２３は、抽出された矩形領域のサイズを１２０×１２０に変換する。また、訓練データ生成部１２３は、各画素値を補正して画素値の分布を正規化する。入力データ１３５を生成するにあたり、テストデータ生成部１２５も同様の正規化を行う。

　図５は、第１の畳み込みニューラルネットワークの構造例を示す図である。
　前述の通り、機械学習部１２４は、ある三次元畳み込みニューラルネットワークを生成し、転移学習によって別の三次元畳み込みニューラルネットワークを生成する。１つ目の三次元畳み込みニューラルネットワークは、図５に示すように、先頭から順に畳み込みブロック１４０、プーリング層１４１、畳み込みブロック１４２～１４９、プーリング層１５０、全結合層１５１および活性化層１５２を含む。

　畳み込みブロック１４０は、Ｈ１２０×Ｗ１２０×Ｃ３のテンソルを受け付ける。畳み込みブロック１４０，１４２～１４９はそれぞれ、入力のテンソルにカーネルを適用して別のテンソルを生成する畳み込み演算を実行する。畳み込みブロック１４０，１４２～１４９の内部構造については後述する。畳み込みブロック１４０，１４２～１４９のストライドは、例えば、１である。ストライドは、テンソル上でカーネルをスライドさせる際の１回のシフト量である。ストライドが１である場合、畳み込みブロック１４０，１４２～１４９それぞれでは、テンソルの高さおよび幅が変化しない。

　プーリング層１４１，１５０はそれぞれ、テンソルの中の隣接する複数の要素を１つの要素に合成するプーリングを実行する。よって、プーリング層１４１，１５０それぞれでは、テンソルの高さおよび幅が減少する。プーリング層１４１，１５０は、例えば、３×３または５×５の小領域を１つの要素に合成する。プーリングは、例えば、小領域の中から最大値の要素を選択する最大値プーリング、または、小領域に含まれる複数の要素の平均を算出する平均プーリングである。

　全結合層１５１は、プーリング層１５０が出力する全ての要素を使用して、２つのクラスに対応する２つの数値を算出する。２つのクラスは、プレゼンテーション攻撃であることを示す攻撃クラスおよびプレゼンテーション攻撃でないことを示す真正クラスである。活性化層１５２は、活性化関数としてソフトマックス関数を使用して、全結合層１５１が出力する２つの数値をそれぞれ０以上１以下の数値に変換する。この２つの数値は、２つのクラスの確率を示す。三次元畳み込みニューラルネットワークは、２つの数値のうち大きい方の数値に対応するクラスを判定結果として出力する。

　三次元畳み込みニューラルネットワークは、１０個のブロックを含む。畳み込みブロック１４０は、第１ブロック（Ａ１）に相当する。プーリング層１４１は、第２ブロック（Ａ２）に相当する。畳み込みブロック１４２～１４９は、第３ブロックから第９ブロック（Ａ３～Ａ９）に相当する。全結合層１５１は、第１０ブロック（Ａ１０）に相当する。

　１０個のブロックのうち９個のブロックは、概ね以下のような役割をもつ。畳み込みブロック１４０、プーリング層１４１および畳み込みブロック１４２，１４３は、前方レイヤー群に属する。畳み込みブロック１４４～１４６は、中央レイヤー群に属する。畳み込みブロック１４７～１４９は、後方レイヤー群に属する。

　前方レイヤー群は、顔画像から様々な基本的特徴を抽出するための基本的パターン情報をもつように学習される。中央レイヤー群は、前方レイヤー群で抽出された基本的特徴から顔画像の本質的特徴を抽出するための本質的パターン情報をもつように学習される。後方レイヤー群は、中央レイヤー群で抽出された本質的特徴を更に抽象化してクラス判定を行うための抽象的パターン情報をもつように学習される。

　三次元畳み込みニューラルネットワークのレイヤー数を増やすことで、前方レイヤー群と後方レイヤー群とに挟まれた中央レイヤー群が、汎用的かつ良質な本質的パターン情報をもつようになる。これは、中央レイヤー群が、入力データから離れており、教師ラベルとの誤差を示す誤差情報からも離れており、訓練データに含まれるバイアスやノイズの影響を大きく受けないためである。しかし、三次元畳み込みニューラルネットワークのレイヤー数を増やすことは、クラス判定時の計算コストを増大させる。

　また、中央レイヤー群のパラメータが最適化される間に、後方レイヤー群のパラメータが訓練データに過度に適合してしまう過学習が発生することがある。これは、後方レイヤー群は、教師ラベルとの誤差を示す誤差情報に近く、訓練データに含まれるバイアスやノイズの影響を大きく受けるためである。その結果、判定モデルが、プレゼンテーション攻撃のサンプルを作成するために使用された特定の撮像装置とは異なる機種によるプレゼンテーション攻撃を、誤って真正と判定するリスクがある。また、判定モデルが、真正な顔画像をプレゼンテーション攻撃と誤って判定するリスクがある。

　そこで、機械学習部１２４は、図５の三次元畳み込みニューラルネットワークをそのまま判定モデルとして使用せず、転移学習によって別の三次元畳み込みニューラルネットワークを生成して判定モデルとして使用する。

　図６は、畳み込みブロックの構造例を示す図である。
　畳み込みブロック１４０は、先頭から順に畳み込み層１６１、バッチ正規化層１６２、活性化層１６３、畳み込み層１６４、バッチ正規化層１６５および活性化層１６６を含む。畳み込みブロック１４２～１４９などの他の畳み込みブロックが、畳み込みブロック１４０と同様のレイヤー構造を有してもよい。

　畳み込み層１６１，１６４はそれぞれ、入力されたテンソルに対して畳み込み演算を実行し、別のテンソルを生成する。バッチ正規化層１６２，１６５はそれぞれ、入力されたテンソルに対してバッチ正規化を実行する。バッチ正規化は、同一のミニバッチに属する複数のテンソルの間で、テンソルに含まれる要素の分布を平均０かつ分散１に正規化する。活性化層１６３，１６６はそれぞれ、活性化関数として正規化線形ユニット（ＲｅＬＵ）を用いて、入力されたテンソルに含まれる数値を変換する。正規化線形ユニットは、負数を０にクリップすることで各数値を非負数に変換する。

　ここで、畳み込みブロック１４０は、バッチ正規化層１６５の出力と畳み込みブロック１４０の入力とを加算し、加算されたテンソルを活性化層１６６に入力する。これにより、畳み込み層１６１からバッチ正規化層１６５までのレイヤー群のパラメータは、当初の入力テンソルとの差分を最適化するように算出される。このような畳み込みブロック１４０は、残差ニューラルネットワークと呼ばれてもよい。なお、畳み込み層、バッチ正規化層および活性化層の個数は、１つずつであってもよい。

　図７は、第２の畳み込みニューラルネットワークの構造例を示す図である。
　転移学習によって生成される２つ目の三次元畳み込みニューラルネットワークは、図７に示すように、先頭から順に畳み込みブロック１７１～１７４、プーリング層１７５、全結合層１７６および活性化層１７７を含む。

　畳み込みブロック１７１は、Ｈ１２０×Ｗ１２０×Ｃ３のテンソルを受け付ける。畳み込みブロック１７１～１７４はそれぞれ、入力のテンソルにカーネルを適用して別のテンソルを生成する畳み込み演算を実行する。プーリング層１７５は、テンソルの中の隣接する複数の要素を１つの要素に合成するプーリングを実行する。

　全結合層１７６は、プーリング層１７５が出力する全ての要素を使用して、２つのクラスに対応する２つの数値を算出する。活性化層１７７は、活性化関数としてソフトマックス関数を使用して、全結合層１７６が出力する２つの数値をそれぞれ０以上１以下の数値に変換する。三次元畳み込みニューラルネットワークは、２つの数値のうち大きい方の数値に対応するクラスを判定結果として出力する。

　転移学習によって生成される２つ目の三次元畳み込みニューラルネットワークは、５個のブロックを含む。畳み込みブロック１７１は、第１ブロック（Ｂ１）に相当する。畳み込みブロック１７２は、第２ブロック（Ｂ２）に相当する。畳み込みブロック１７３は、第３ブロック（Ｂ３）に相当する。畳み込みブロック１７４は、第４ブロック（Ｂ４）に相当する。全結合層１７６は、第５ブロック（Ｂ５）に相当する。

　畳み込みブロック１７１は、図５の畳み込みブロック１４０に対応する。機械学習部１２４は、畳み込みブロック１４０のパラメータを、畳み込みブロック１７１のパラメータの初期値として複写する。よって、畳み込みブロック１７１は、顔画像から基本的特徴を抽出するための基本的パターン情報をもつことが期待される。

　一方、機械学習部１２４は、前方レイヤー群に含まれる畳み込みブロック１４２，１４３のパラメータを複写しない。プーリング層１４１および畳み込みブロック１４２，１４３を省略することで、計算コストが削減されてクラス判定の実行時間が短縮される。ただし、２つ目の三次元畳み込みニューラルネットワークが、畳み込みブロック１４２，１４３に相当する畳み込みブロックを含んでもよい。

　畳み込みブロック１７２～１７４は、図５の畳み込みブロック１４４～１４６に対応する。機械学習部１２４は、畳み込みブロック１４４～１４６のパラメータを、畳み込みブロック１７２～１７４のパラメータの初期値として複写する。よって、畳み込みブロック１７２～１７４は、畳み込みブロック１７１によって抽出された基本的特徴から本質的特徴を抽出するための本質的パターン情報をもつことが期待される。

　ここで、畳み込みブロック１７２～１７４それぞれの入力サイズおよび出力サイズは、畳み込みブロック１４４～１４６と同じである。また、畳み込みブロック１７１の入力サイズは、畳み込みブロック１４０と同じである。一方、１つ目の三次元畳み込みニューラルネットワークと異なり、畳み込みブロック１７１と畳み込みブロック１７２との間にはプーリング層が存在しない。そこで、機械学習部１２４は、畳み込みブロック１７１の出力サイズと畳み込みブロック１７２の入力サイズとを一致させる調整を行う。

　具体的には、機械学習部１２４は、畳み込みブロック１７１で行われる畳み込み演算のストライドを、畳み込みブロック１４０よりも大きくする。ストライドが２である場合、ストライドが１である場合と比べて、出力されるテンソルの高さおよび幅がそれぞれ２分の１になる。ストライドが３である場合、ストライドが１である場合と比べて、出力されるテンソルの高さおよび幅がそれぞれ３分の１になる。

　また、機械学習部１２４は、後方レイヤー群に含まれる畳み込みブロック１４７～１４９のパラメータを複写しない。畳み込みブロック１４７～１４９を省略することで、計算コストが削減されてクラス判定の実行時間が短縮される。また、訓練データへの依存性が高いパラメータを除去することで、クラス判定能力が汎化されて判定精度が向上する。

　全結合層１７６は、図５の全結合層１５１に対応する。ただし、全結合層１５１から全結合層１７６には、パラメータは複写されない。機械学習部１２４は、畳み込みブロック１７１～１７４に上記の初期値を設定した後、訓練データを用いて、２つ目の三次元畳み込みニューラルネットワークのパラメータを更新する。転移学習に使用する訓練データは、１つ目の機械学習と同じでもよいし異なってもよい。

　図８は、転移学習におけるパラメータの引き継ぎ例を示す図である。
　畳み込みブロック１４０は、テンソル１８１を受け付ける。テンソル１８１は、例えば、高さ１２０かつ幅１２０のサイズをもつ。また、畳み込みブロック１４０は、ニューラルネットワークのエッジの重みの集合に相当するカーネル１８２をもつ。カーネル１８２は、例えば、高さ３かつ幅３、または、高さ５かつ幅５のサイズをもつ。機械学習部１２４は、機械学習によってカーネル１８２の係数を算出する。畳み込みブロック１４０は、テンソル１８１の上でカーネル１８２をスライドさせながら積和演算を行い、特徴マップ１８３を生成する。この畳み込み演算のストライドは、例えば、１である。特徴マップ１８３は、例えば、高さ１２０かつ幅１２０のサイズをもつ。

　例えば、畳み込みブロック１４０は、テンソル１８１のａ_１１，ａ_１２，ａ_１３，ａ_２１，ａ_２２，ａ_２３，ａ_３１，ａ_３２，ａ_３３とカーネル１８２のｋ_１１，ｋ_１２，ｋ_１３，ｋ_２１，ｋ_２２，ｋ_２３，ｋ_３１，ｋ_３２，ｋ_３３との積和演算を行い、特徴マップ１８３のｃ_１１を算出する。また、畳み込みブロック１４０は、テンソル１８１のａ_１２，ａ_１３，ａ_１４，ａ_２２，ａ_２３，ａ_２４，ａ_３２，ａ_３３，ａ_３４とカーネル１８２のｋ_１１，ｋ_１２，ｋ_１３，ｋ_２１，ｋ_２２，ｋ_２３，ｋ_３１，ｋ_３２，ｋ_３３との積和演算を行い、特徴マップ１８３のｃ_１２を算出する。

　畳み込みブロック１７１は、テンソル１８４を受け付ける。テンソル１８４のサイズは、テンソル１８１と同じである。また、畳み込みブロック１７１は、カーネル１８５をもつ。カーネル１８５のサイズは、カーネル１８２と同じである。機械学習部１２４は、カーネル１８２をカーネル１８５に複写して転移学習を行い、カーネル１８５を更新する。畳み込みブロック１７１は、テンソル１８４とカーネル１８５から特徴マップ１８６を生成する。この畳み込み演算のストライドは、例えば、２または３である。特徴マップ１８６は、例えば、高さ６０かつ幅６０、または、高さ４０かつ幅４０のサイズをもつ。

　例えば、畳み込みブロック１７１は、テンソル１８４のｂ_１１，ｂ_１２，ｂ_１３，ｂ_２１，ｂ_２２，ｂ_２３，ｂ_３１，ｂ_３２，ｂ_３３とカーネル１８５のｋ^’ _１１，ｋ^’ _１２，ｋ^’ _１３，ｋ^’ _２１，ｋ^’ _２２，ｋ^’ _２３，ｋ^’ _３１，ｋ^’ _３２，ｋ^’ _３３との積和演算を行い、特徴マップ１８６のｄ_１１を算出する。また、畳み込みブロック１７１は、テンソル１８４のｂ_１３，ｂ_１４，ｂ_１５，ｂ_２３，ｂ_２４，ｂ_２５，ｂ_３３，ｂ_３４，ｂ_３５とカーネル１８５のｋ^’ _１１，ｋ^’ _１２，ｋ^’ _１３，ｋ^’ _２１，ｋ^’ _２２，ｋ^’ _２３，ｋ^’ _３１，ｋ^’ _３２，ｋ^’ _３３との積和演算を行い、特徴マップ１８６のｄ_１２を算出する。カーネル１８５のシフト量が、カーネル１８２とは異なる。

　次に、情報処理装置１００の処理手順について説明する。
　図９は、機械学習の手順例を示すフローチャートである。
　（Ｓ１０）訓練データ生成部１２３は、顔の動画像を３フレーム毎に分割する。

　（Ｓ１１）訓練データ生成部１２３は、各フレームを正規化する。フレームの正規化は、顔領域の抽出、サイズ変更および画素値の正規化を含む。
　（Ｓ１２）訓練データ生成部１２３は、連続する３フレームの入力データと動画像に付与された教師ラベルとを組み合わせて、複数のレコードを含む訓練データを生成する。

　（Ｓ１３）機械学習部１２４は、ブロックＡ１～Ａ１０を含む三次元畳み込みニューラルネットワーク（モデルＡ）を生成する。
　（Ｓ１４）機械学習部１２４は、ステップＳ１２で生成された訓練データのうちの少なくとも一部のレコードを用いて、機械学習によりモデルＡのパラメータを最適化する。

　（Ｓ１５）機械学習部１２４は、モデルＡとは別に、ブロックＢ１～Ｂ５を含む三次元畳み込みニューラルネットワーク（モデルＢ）を生成する。
　（Ｓ１６）機械学習部１２４は、モデルＡのブロックＡ１，Ａ４，Ａ５，Ａ６のパラメータを、モデルＢのブロックＢ１～Ｂ４に初期値として複写する。

　（Ｓ１７）機械学習部１２４は、ステップＳ１２で生成された訓練データのうちの少なくとも一部のレコードを用いて、機械学習によりモデルＢのパラメータを最適化する。この機械学習は、ステップＳ１６で複写されたパラメータから開始する転移学習である。

　（Ｓ１８）機械学習部１２４は、生成されたモデルＢを判定モデルとして保存する。
　図１０は、モデルテストの手順例を示すフローチャートである。
　（Ｓ２０）テストデータ生成部１２５は、顔の動画像の先頭３フレームを抽出する。

　（Ｓ２１）テストデータ生成部１２５は、各フレームを正規化する。フレームの正規化は、顔領域の抽出、サイズ変更および画素値の正規化を含む。
　（Ｓ２２）攻撃検知部１２６は、判定モデルである三次元畳み込みニューラルネットワークを読み出す。攻撃検知部１２６は、ステップＳ２０で抽出された３フレームの顔画像を含む入力データを判定モデルに入力する。

　（Ｓ２３）攻撃検知部１２６は、判定モデルによって判定されたクラスの情報を出力する。クラスは、顔画像がプレゼンテーション攻撃の偽造物であることを示す攻撃クラス、または、顔画像が真正であることを示す真正クラスである。攻撃検知部１２６は、判定されたクラスの情報を不揮発性ストレージに保存してもよいし、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。

　以上説明したように、第２の実施の形態の情報処理装置１００は、受け付けた顔画像からプレゼンテーション攻撃の当否を判定する判定モデルを、機械学習を通じて生成する。これにより、判定精度が向上して生体認証システムのセキュリティが向上する。また、様々なプレゼンテーション攻撃方法や様々な電子機器に柔軟に対応することが可能となる。

　また、情報処理装置１００は、レイヤーの多いニューラルネットワークを生成し、一部のレイヤーのパラメータを複写してレイヤーの少ないニューラルネットワークを生成する転移学習を行う。これにより、最終的な判定モデルのサイズが小さくなり、プレゼンテーション攻撃の判定のための計算コストが削減されて実行時間が短縮される。また、レイヤーの多いニューラルネットワークでは、顔画像の本質的特徴を抽出するための本質的パターン情報が形成されやすい。このため、最終的な判定モデルは、転移学習を通じて多層構造の利点を享受することができ、判定精度が向上する。

　また、情報処理装置１００は、転移学習の際に、当初のニューラルネットワークから後方レイヤー群を除去する。後方レイヤー群のパラメータは、訓練データに大きく依存することがある。よって、訓練データへの依存度が低下し、訓練データとは異なるプレゼンテーション攻撃方法や異なる電子機器の使用に対して判定精度が向上する。一方、情報処理装置１００は、転移学習の際に、当初のニューラルネットワークから中央レイヤー群のパラメータを複写する。中央レイヤー群では、訓練データへの依存度が低い汎用的な本質的パターン情報が形成されやすい。よって、判定モデルの判定精度が向上する。

　また、情報処理装置１００は、転移学習の際に、当初のニューラルネットワークに含まれる前方レイヤー群のうち先頭のブロックのパラメータを複写する。前方レイヤー群のうち先頭のブロックでは、顔画像から基本的特徴を抽出するために特に重要となる基本的パターン情報が形成されやすい。よって、判定モデルの判定精度が向上する。一方、情報処理装置１００は、転移学習の際に、前方レイヤー群に含まれる他のブロックを除去する。これにより、最終的な判定モデルのサイズが小さくなり、プレゼンテーション攻撃の判定のための計算コストが削減されて実行時間が短縮される。

　また、パラメータの複写後に、レイヤーの少ないニューラルネットワークのパラメータを更新する機械学習を更に行うことで、判定精度が向上する。また、入力データが時系列の複数のフレームを含むことで、判定モデルは、生物らしい動きや反射光の変化や環境変化などの時間変化を考慮して、高精度にプレゼンテーション攻撃を判定することができる。また、動画像を３フレームずつ分割して訓練データに使用することで、多様かつ十分な量の訓練データが確保される。また、動画像の先頭３フレームをテストデータに使用することで、実際の生体認証の運用を想定して判定モデルの精度が適切に評価される。

　上記については単に本発明の原理を示すものである。更に、多数の変形や変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応する全ての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

　１０　情報処理装置
　１１　記憶部
　１２　処理部
　１３，１４　ニューラルネットワーク
　１５，１６　レイヤー
　１７　画像データ
　１８　パラメータ

Claims

　人の生体画像をそれぞれ含む複数の画像データを用いた第１の機械学習により、第１のニューラルネットワークに含まれる複数のレイヤーそれぞれのパラメータを算出し、
　前記複数のレイヤーのうちの第１のレイヤーを含み第２のレイヤーを含まない第２のニューラルネットワークの中の前記第１のレイヤーに、前記第１のニューラルネットワークの前記第１のレイヤーに対して算出された前記パラメータを設定することで、受け付けた画像データに含まれる人の生体画像の真正性を判定する判定モデルを生成する、
　処理をコンピュータが実行する生成方法。
　前記判定モデルの生成は、設定された前記パラメータを初期値として用いて、前記第２のニューラルネットワークを更新する第２の機械学習を実行することを含み、
　前記判定モデルは、更新された前記第２のニューラルネットワークである、
　請求項１記載の生成方法。
　前記第２のレイヤーは、前記第１のレイヤーよりも後方のレイヤーである、
　請求項１記載の生成方法。
　前記複数のレイヤーは、前記第１のレイヤーを含む複数の第１のレイヤーと、前記第２のレイヤーを含み前記複数の第１のレイヤーよりも後方にある複数の第２レイヤーと、前記複数の第１のレイヤーよりも前方にある複数の第３のレイヤーとを含み、
　前記第２のニューラルネットワークは、前記複数のレイヤーのうち、前記複数の第１のレイヤーを含み前記複数の第２のレイヤーを含まない、
　請求項１記載の生成方法。
　前記第２のニューラルネットワークは、前記複数の第３のレイヤーのうち、一部の第３のレイヤーを含み他の第３のレイヤーを含まない、
　請求項４記載の生成方法。
　前記第１の機械学習に用いられる前記複数の画像データは、複数のフレームを含む第１の動画像データを特定のフレーム数ずつ分割することで生成され、
　前記判定モデルが受け付ける前記画像データは、第２の動画像データの先頭から前記特定のフレーム数のフレームを抽出することで生成される、
　請求項１記載の生成方法。
　人の生体画像をそれぞれ含む複数の画像データを記憶する記憶部と、
　前記複数の画像データを用いた第１の機械学習により、第１のニューラルネットワークに含まれる複数のレイヤーそれぞれのパラメータを算出し、前記複数のレイヤーのうちの第１のレイヤーを含み第２のレイヤーを含まない第２のニューラルネットワークの中の前記第１のレイヤーに、前記第１のニューラルネットワークの前記第１のレイヤーに対して算出された前記パラメータを設定することで、受け付けた画像データに含まれる人の生体画像の真正性を判定する判定モデルを生成する処理部と、
　を有する情報処理装置。
　人の生体画像をそれぞれ含む複数の画像データを用いた第１の機械学習により、第１のニューラルネットワークに含まれる複数のレイヤーそれぞれのパラメータを算出し、
　前記複数のレイヤーのうちの第１のレイヤーを含み第２のレイヤーを含まない第２のニューラルネットワークの中の前記第１のレイヤーに、前記第１のニューラルネットワークの前記第１のレイヤーに対して算出された前記パラメータを設定することで、受け付けた画像データに含まれる人の生体画像の真正性を判定する判定モデルを生成する、
　処理をコンピュータに実行させる生成プログラム。