JP7516170B2

JP7516170B2 - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP7516170B2
Application number: JP2020148383A
Authority: JP
Inventors: 崇宮内
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-03-12
Filing date: 2020-09-03
Publication date: 2024-07-16
Anticipated expiration: 2040-09-03
Also published as: JP2021144673A

Description

本開示は、画像に含まれるインデックスを抽出する技術に関する。

帳票等の紙文書を画像読み取り装置でスキャンすることにより得られたスキャン画像に含まれる所望の項目の文字列（以下、インデックスという）を抽出する方法がある。文書の内容からインデックスを抽出するには、ＯＣＲ処理が必要となる。しかし、スキャン画像全体に対してＯＣＲ処理を実行すると処理負荷が増し、ユーザの待ち時間の増加することがある。

特許文献１には、文書の種類ごとにインデックスが含まれる領域の情報を予め登録し、登録されているインデックスの領域に対して部分的にＯＣＲ処理を行い、スキャン画像からインデックスを抽出する方法が開示されている。

特開２０１９－１２８７１５号公報

しかしながら、同じ種類の文書であっても、記載される内容によってインデックスが含まれる文字列領域（以下、テキストブロックという）の位置がずれていることがある。このため、登録されているインデックスの領域に対して部分的にＯＣＲ処理を行っても、インデックスの抽出に失敗してしまうことがある。

本開示の技術は、スキャン画像のテキストブロックの位置が、登録されている位置とずれている場合であっても、抽出対象のインデックスを抽出することを目的とする。

本開示の画像処理装置は、入力画像におけるテキストブロックを検出する検出手段と、複数の登録文書の中から、前記入力画像に対応する登録文書を特定する特定手段と、前記特定された登録文書において規定されている、処理対象の項目に対応する第１のテキストブロックと前記第１のテキストブロックの近傍に存在する少なくとも１つの第２のテキストブロックとを含む部分レイアウトに基づき、前記入力画像における前記処理対象の項目に対応するテキストブロックの決定をする決定手段と、前記決定されたテキストブロックに対して文字認識処理を行うことにより、前記入力画像における前記処理対象の項目に対応する文字列を取得する取得手段と、を有することを特徴とする。

本開示の技術によれば、スキャン画像のテキストブロックの位置が登録されている文書と異なる場合であっても、抽出対象のインデックスを抽出することができる。

システムの構成例を示す図である。画像形成装置のハードウェア構成例を示す図である。画像形成装置の機能構成を示す図である。スキャン画像のファイル生成処理のフローチャートである。インデックス抽出処理のフローチャートである。ブロックセレクション処理の例を示す図である。インデックス抽出ルールの例を示す図である。インデックスブロック推定処理のフローチャートである。ペアブロックの決定方法を説明する図である。部分パターンの例を示す図である。Ｙ候補位置の決定処理を説明する図である。Ｙ方向のシフト量のヒストグラムの例を示す図である。部分パターンの一致度の算出を説明する図である。部分パターンの一致度の算出を説明する図である。部分パターン範囲の決定方法を説明する図である。インデックスブロック推定処理のフローチャートである。部分パターンの例を示す図である。ＸＹ候補位置群の例を示す図である。類似位置群の例を示す図である。類似位置群とＸＹ候補位置群の対応付けを説明する図である。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る本開示の技術を限定するものでなく、また本実施形態で説明されている特徴の組み合わせの全てが本開示の技術の解決手段に必須のものとは限らない。

＜実施形態１＞
本実施形態の画像形成装置は、文書原稿をスキャンして、得られたスキャン画像の先頭ページの画像に含まれる所定の項目の文字列を組み合わせてファイル名を生成する。そして生成したファイル名をそのスキャン画像のファイル名としてユーザにレコメンドする。しかしながら、スキャン画像から所定の項目の文字列を抽出するには処理負荷が増すことがある。

このため、文書の種類ごとに所定の項目のテキストブロックの位置情報を登録しておく。そしてスキャン画像の文書の種類を特定して、特定された文書における登録されたテキストブロックの位置に基づき、スキャン画像から所定の項目の文字列を抽出することが考えられる。しかしながらこの場合も、同じ文書の種類であっても、記載内容の変更等によりスキャンされた画像におけるテキストブロックの位置は登録されている位置と異なってしまうことがある。

例えば、図１１（ａ）の文書が登録されており、テキストブロック１００３の位置を示す情報が発行元会社名を示す文字列が含まれる領域の情報として登録されているものとする。一方、図１１（ｂ）は、図１１（ａ）と同じ種類の文書をスキャンして得られたスキャン画像であるが、表構造内の項目行数が増えており、抽出されるべき発行元会社名のテキストブロック１１０１が、図１１（ａ）と比較して下方向にシフトしている。このため図１１（ｂ）のスキャン画像を得るためにスキャンされた文書が図１１（ａ）と同じ種類であると特定できても、図１１（ｂ）の画像の発行元会社名を示す文字列の抽出に失敗することがある。なお、図１１（ｃ）の説明については後述する。

このため実施形態では、スキャン画像に含まれる項目のテキストブロックを抽出するために、スキャンされた文書原稿と同じ種類の文書における項目を示すテキストブロックと、それ以外の少なくとも１つのテキストブロックとのレイアウトを用いる。本実施形態では、そのレイアウトとの一致度が高い領域をスキャン画像から探索して、探索された結果に基づきスキャン画像に含まれる項目のテキストブロックを推定する方法を説明する。

なお、本実施形態では、画像内の座標は例えば、原点が左上で、縦方向がＹ方向、文字列が連続する横方向がＸ方向に延びる座標系が用いられる。テキストブロックの位置は、例えば、左上座標値が夫々の位置として保持される。

［システム構成］
図１は、本実施形態を適用可能なシステムの全体構成を示す図である。本実施形態のシステム１０５は、画像形成装置１００および端末１０１を有する。図１に示すように、画像形成装置１００はＬＡＮ１０２に接続され、Ｉｎｔｅｒｎｅｔ１０３等を介してＰＣなどの端末１０１等と通信可能になっている。なお、本実施形態においては、端末１０１は無くてもよく、画像形成装置１００のみの構成だけでもよい。

画像形成装置１００は、表示・操作部１２３（図２参照）、スキャナ部１２２（図２参照）及び、プリンタ部１２１（図２参照）等を有する複合機（ＭＦＰ）である。画像形成装置１００は、スキャナ部１２２を用いて文書原稿をスキャンするスキャン端末として利用することが可能である。また、タッチパネルやハードボタンなどの表示・操作部１２３を有し、ファイル名や格納先のレコメンド結果を表示したり、ユーザからの指示を受け付けたりするためのユーザインタフェースの表示を行う。

［画像形成装置のハードウェア構成］
図２は、画像形成装置１００のハードウェア構成を示すブロック図である。本実施形態の画像形成装置１００は、表示・操作部１２３、スキャナ部１２２、プリンタ部１２１、及び制御部１１０を有する。

制御部１１０は、ＣＰＵ１１１、記憶装置１１２（ＲＯＭ１１８，ＲＡＭ１１９，ＨＤＤ１２０）、プリンタＩ／Ｆ部１１３、ネットワークＩ／Ｆ部１１４、スキャナＩ／Ｆ部１１５、表示・操作Ｉ／Ｆ部１１６を有する。また、制御部１１０ではこの各部がシステムバス１１７を介して互いに通信可能に接続されている。制御部１１０は、画像形成装置１００全体の動作を制御する。

ＣＰＵ１１１は、記憶装置１１２に記憶された制御プログラムを読み出し実行することにより、後述のフローチャートにおける読取制御や画像処理、表示制御などの各処理を実行する手段として機能する。

記憶装置１１２は、制御プログラム、画像データ、メタデータ、設定データ及び、処理結果データ等を格納し保持する。記憶装置１１２には、不揮発性メモリであるＲＯＭ１１８、揮発性メモリであるＲＡＭ１１９及び、大容量記憶領域であるＨＤＤ１２０などがある。ＲＯＭ１１８は、制御プログラムなどを保持する不揮発性メモリであり、ＣＰＵ１１１はその制御プログラムを読み出し制御を行う。ＲＡＭ１１９は、ＣＰＵ１１１の主メモリ、ワークエリア等の一時記憶領域として用いられる揮発性メモリである。

ネットワークＩ／Ｆ部１１４は、制御部１１０（画像形成装置１００）を、システムバス１１７を介してＬＡＮ１０２に接続する。ネットワークＩ／Ｆ部１１４は、ＬＡＮ１０２上の外部装置に画像データを送信したり、ＬＡＮ１０２上の外部装置から各種情報を受信したりする。

スキャナＩ／Ｆ部１１５は、スキャナ部１２２と制御部１１０とを、システムバス１１７を介して接続する。スキャナ部１２２は、文書原稿を読み取ってスキャン画像データを生成し、スキャナＩ／Ｆ部１１５を介してスキャン画像データを制御部１１０に入力する。なお、スキャナ部１２２は、原稿フィーダを備え、トレイに置かれた複数の原稿を１枚ずつフィードして、連続的に読み取ることを可能とする。

表示・操作Ｉ／Ｆ部１１６は、表示・操作部１２３と制御部１１０とを、システムバス１１７を介して接続する。表示・操作部１２３には、タッチパネル機能を有する液晶表示部、ハードボタンなどが備えられている。

プリンタＩ／Ｆ部１１３は、プリンタ部１２１と制御部１１０とを、システムバス１１７を介して接続する。プリンタ部１２１は、ＣＰＵ１１１で生成された画像データをプリンタＩ／Ｆ部１１３を介して受信し、当該受信した画像データを用いて記録紙へのプリント処理が行われる。以上のように、本実施形態に係る画像形成装置１００では、上記のハードウェア構成によって、画像処理機能を提供することが可能である。

［画像形成装置の機能構成］
図３は、画像形成装置１００の機能構成を示すブロック図である。なお、図３では画像形成装置１００が有する諸機能のうち、文書原稿をスキャンして電子化（ファイル化）し、保存を行うまでの処理に関わる機能に絞った機能を示す。

表示制御部３０１は、表示・操作部１２３のタッチパネルに、各種のユーザ操作を受け付けるためのユーザインタフェース画面（ＵＩ画面）を表示する。各種のユーザ操作には、例えば、スキャン設定、スキャンの開始指示、ファイル名設定、ファイルの保存指示などがある。

スキャン制御部３０２は、ＵＩ画面でなされたユーザ操作（例えば「スキャン開始」ボタンの押下）に応じて、スキャン設定の情報と共にスキャン実行部３０３に対しスキャン処理の実行を指示する。スキャン実行部３０３は、スキャン制御部３０２からのスキャン処理の実行指示に従い、スキャナＩ／Ｆ部１１５を介してスキャナ部１２２に文書原稿の読み取り動作を実行させ、スキャン画像データを生成する。生成したスキャン画像データは、スキャン画像管理部３０４によってＨＤＤ１２０に保存される。

画像処理部３０５は、スキャン画像データに対して、テキストブロックの検出処理、ＯＣＲ処理（文字認識処理）、類似文書の判定処理といった画像解析処理の他、回転や傾き補正といった画像加工処理を行う。画像処理部３０５によって、画像形成装置１００は画像処理装置としても機能する。スキャン画像から検出される文字列領域は「テキストブロック」とも呼ばれる。なお画像処理の詳細については後述する。

図３の各部の機能は、画像形成装置１００のＣＰＵがＲＯＭに記憶されているプログラムコードをＲＡＭに展開し実行することにより実現される。または、図３の各部の一部または全部の機能をＡＳＩＣや電子回路等のハードウェアで実現してもよい。

［スキャン画像のファイル生成処理のフローチャート］
画像形成装置１００が文書原稿を読み取り、文書原稿の先頭ページのスキャン画像に対して画像処理を行い、スキャン画像に含まれる文字列を利用してファイル名を生成し、表示・操作部１２３を通じてユーザにレコメンドする処理の全体について説明する。

図４のフローチャートで示される一連の処理は、画像形成装置１００のＣＰＵがＲＯＭに記憶されているプログラムコードをＲＡＭに展開し実行することにより行われる。また、図４におけるステップの一部または全部の機能をＡＳＩＣや電子回路等のハードウェアで実現してもよい。なお、各処理の説明における記号「Ｓ」は、当該フローチャートにおけるステップであることを意味し、以後のフローチャートにおいても同様とする。

Ｓ４００においてスキャン制御部３０２は、表示・操作部１２３を介してユーザのスキャン指示を受け付けると、スキャン実行部３０３に、スキャナ部１２２の原稿フィーダのトレイから複数の文書原稿を１枚ずつ読み取り（スキャン）を実行させる。そして、スキャン制御部３０２は、スキャンの結果得られた画像（スキャン画像とよぶ）の画像データを取得する。

Ｓ４０１において画像処理部３０５は、Ｓ４００で取得した画像データを解析し、スキャン画像に含まれるインデックスを抽出する処理（インデックス抽出処理）を行う。「インデックス」とは、文書のタイトル、管理ナンバー、会社名などの所定の項目の文字列である。本実施形態ではインデックスは、スキャン画像を保存する際のファイル名またはメタデータとして使用される。本ステップのインデックス抽出処理の詳細については、図５を用いて後述する。

インデックスの使用方法はファイル名の生成またはメタデータの抽出に限られない。フォルダパスなどの他のプロパティ情報を設定するために用いられてもよい。つまり、ファイル名およびメタデータは、スキャン画像データに関するプロパティ（属性）として設定される情報の一種である。

Ｓ４０２において表示制御部３０１は、Ｓ４０１で抽出されたインデックスを用いてファイル名を生成し、生成されたファイル名およびメタデータを、表示・操作部１２３に表示させてユーザに提示（レコメンド）する。また、表示制御部３０１は、ユーザによる確認または提示したファイル名の修正を受け付ける。表示制御部３０１は表示・操作部１２３を介してユーザから確認または修正を受け付けると、提示したファイル名または修正された場合は修正後のファイル名がスキャン画像のファイル名として決定される。ユーザが表示・操作部１２３を介して修正した場合は、インデックス抽出ルールが更新される。インデックス抽出ルールについては後述する。

Ｓ４０３において画像処理部３０５は、Ｓ４００で取得した画像データからファイルを作成し、Ｓ４０２で決定されたファイル名を設定する。本実施形態では、一例として、ファイル形式としてＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）化してスキャン画像を保存するものとして説明する。ＰＤＦの場合には、画像データをページに分け保存することが可能であり、Ｓ４００において複数の文書原稿をスキャンした場合には、各文書原稿に対応する画像データを別々のページとして１つのファイルに保存される。

Ｓ４０４においてスキャン画像管理部３０４は、Ｓ４０３で作成したファイルを、ＬＡＮ１０２を通じて所定の送信先に送信する。

［インデックス抽出処理（Ｓ４０１）について］
図５は、Ｓ４０１のインデックス抽出処理の詳細を示すフローチャートである。インデックス抽出処理の詳細について図５を用いて説明する。インデックス抽出処理では、画像データの１ページに対して、向きの補正を行い、文書の種類を特定し、文書の種類に応じたインデックス抽出を行う処理を行う。

Ｓ５００において画像処理部３０５は、画像データからスキャン画像の傾きの角度を検出し、検出した傾きだけ逆方向に画像を回転することでスキャン画像の傾きを補正する。傾き補正の対象となる傾きは、例えば、文書原稿のスキャン時にスキャナ部１２２の原稿フィーダ内のローラの摩耗などが原因でまっすぐに文書原稿が読み取られないことで発生する。または、スキャンされた文書原稿が印刷時にまっすぐ印刷されなかったために発生する。

傾きの角度の検出方法として、まず、画像データ内に含まれるオブジェクトを検出し、水平方向あるいは鉛直方向に隣り合うオブジェクト群を連結する。そして、連結されたオブジェクト群の中心位置を結んだ角度が、水平方向または鉛直方向からどれだけ傾いているかを導出して傾きを求める。なお、傾きの検出方法はこの方法に限られない。他にも例えば、画像データ内に含まれるオブジェクトの中心座標を取得し、０．１度単位で中心座標群を回転させて、中心座標群が水平方向あるいは垂直方向に並ぶ割合がもっとも高い角度をスキャン画像の傾きとして求める方法でもよい。スキャン画像の傾きを補正することによって、以降に行われる、回転補正、ブロックセレクション処理、およびＯＣＲ処理のそれぞれの処理精度を上げることができる。

Ｓ５０１において画像処理部３０５は、Ｓ５００の処理の結果得られた傾き補正後のスキャン画像に対して、画像内の文字が正立する向きになるように、９０度単位で画像を回転補正する。回転補正の方法は、例えば、傾き補正後のスキャン画像を基準画像として、基準画像と、基準画像を９０回転した画像と、基準画像を１８０度回転した画像と、基準画像を２７０度回転した画像と、の４枚の画像を用意する。そして、それぞれの画像に対し、高速処理可能な簡易的なＯＣＲ処理を実行して、一定値以上の確信度で認識された文字の数が最も多い画像を回転補正後の画像とする方法がある。ただし、回転補正の方法はこの方法に限るものではない。なお以降のスキャン画像とは、特に断りが無い限りＳ５００およびＳ５０１で補正されたスキャン画像のことを指すものとする。

Ｓ５０２において画像処理部３０５は、スキャン画像に対しブロックセレクション処理を実行する。ブロックセレクション処理とは、画像を前景領域と背景領域に分類した上で、前景領域をテキストブロックとそれ以外のブロックに分割して、テキストブロックを検出する処理である。

具体的には、白黒に二値化されたスキャン画像に対し輪郭線追跡を行って、黒画素輪郭で囲まれる画素の塊を抽出する。そして、面積が所定の大きさよりも大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行い白画素の塊を抽出し、さらに一定の大きさ以上の面積の白画素の塊の内部から再帰的に黒画素の塊を抽出する。こうして得られた黒画素の塊を前景領域と決定する。決定された前景領域は、大きさ及び形状で分類し異なる属性を持つ領域に分類する。例えば、縦横比が１に近く大きさが一定の範囲の前景領域を文字相当の画素塊とし、さらに近接する文字が整列良くグループ化され得る領域は文字列の領域（ＴＥＸＴ）と決定する。扁平な画素塊は線領域（ＬＩＮＥ）と決定する。一定大きさ以上でかつ矩形の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域（ＴＡＢＬＥ）と決定する。不定形の画素塊が散在している領域を写真領域（ＰＨＯＴＯ）と決定する。そして、それ以外の形状の画素塊を図画領域（ＰＩＣＴＵＲＥ）と決定する。こうしてオブジェクトの属性毎に領域分割されたものの中から、文字属性を持つと決定された前景領域（ＴＥＸＴ）がテキストブロックとして検出される。

図６は、ブロックセレクション処理の結果の一例を示す図である。図６（ａ）は回転補正後のスキャン画像を示す。図６（ｂ）は図６（ａ）のスキャン画像に対するブロックセレクション処理の結果を示しており、点線で示した矩形が前景領域を表している。なお、図６（ｂ）では、全ての前景領域の属性が決定されているが、属性については一部の前景領域に対してのみ表示している。本ステップで検出された各テキストブロックの情報（属性と各ブロックの位置およびサイズを示す情報）は、後続処理である、ＯＣＲ処理および類似度計算等で用いられる。

本ステップのブロックセレクション処理ではテキストブロックだけを検出する。その理由は、文字列の位置はスキャン画像の構造をよく表現し、インデックス情報と密接に関連するためである。したがって、写真領域や表領域等の他の属性を持つと判定されたブロックの情報を後続の処理で利用することを排除するものではない。

Ｓ５０３において画像処理部３０５は、ＨＤＤ１２０からインデックス抽出ルールを取得しＲＡＭ１１９に展開する。

図７は、インデックス抽出ルール（以下単に、抽出ルールとよぶ）の一部を示す図である。図７は、抽出ルールに含まれる帳票ＩＤとして「０００１」が付与され登録されている抽出ルールのレコードを示している。抽出ルールでは、登録されている文書１つについて、「文書ＩＤ」と、「サムネイル」と、「文書識別情報」と、「インデックス情報」との各データが、レコード単位で対応付けられている。抽出ルールは登録済み文書の数だけこれらの組み合わせ（レコード）を保持する。文書ＩＤは、文書の種類を表すユニークなＩＤである。

文書識別情報は、登録されている文書のスキャン画像に対してブロックセレクション処理を実行した結果得られるテキストブロックの位置およびサイズの情報である。文書識別情報は、文書の種類を特定するための情報であり後述する文書マッチングで使用される。

インデックス情報は、スキャン画像に含まれるインデックスを抽出するための情報である。インデックスは、ファイルに付与するファイル名またはメタデータを決定するために使用される。インデックス情報は、具体的には、登録されている文書内における、それぞれの項目の文字列（インデックス）が含まれるテキストブロックの座標およびサイズの情報が含まれる。図７の「インデックス情報」の画像７０１はそれぞれの項目が含まれるテキストブロックの位置およびサイズを画像上の座標に配置して図示したものである。また、インデックス情報にはファイル名を生成するために用いられるインデックスとその順番を示す情報、メタデータとして付与するための情報が含まれる。

インデックス情報の「ファイル名ルール」には、タイトル（title）、発行元会社名（sender）、帳票番号（number）の項目のインデックスを、セパレータであるアンダースコアでつなげてファイル名を生成することが示されている。また、「メタデータ」には合計金額（total_price）の項目のインデックスをメタデータとして利用することが示されている。つまり、所定の項目のインデックスを抽出することで、ユーザにレコメンドするファイル名の生成、およびメタデータの抽出をすることができる。

なお、本実施形態では、抽出されたインデックスをファイル名またはメタデータとして利用する例を示しているが、他のプロパティ情報であるファイルの送信先のフォルダ情報を決定するためのルールを保持してもよい。その場合も、インデックスを用いて生成されたプロパティ情報がＳ４０２でユーザにレコメンドされて、Ｓ４０３でプロパティ情報がスキャン画像のファイルに設定される。

また、登録されている文書の抽出ルールとして、図７の「サムネイル」に示したように、登録された文書に対応するスキャン画像のサムネイルを一緒に保持してもよい。

Ｓ５０４において画像処理部３０５は、スキャン画像に対して文書マッチングを実行する。文書マッチングでは、スキャン画像を得るためにスキャンされた文書（入力文書）と同じ種類の文書が、抽出ルールに登録されている文書群にあるかどうかを判定する。そして、入力文書と同じ種類の文書が登録されていると判定された場合、その種類を特定する処理である。

本実施形態では、まず、スキャン画像と、抽出ルールに登録されている夫々の文書と、を１対１で比較し、含まれるテキストブロックの形状および配置がどれだけ類似しているかを表す類似度の算出を行う。類似度の算出の方法として、例えば、スキャン画像のテキストブロック全体と、登録されている文書のテキストブロック全体で位置合わせを行う。そして、スキャン画像の各テキストブロックと登録されている文書の各テキストブロックとが重なる面積の総和の二乗（値Ａとする）を求める。さらにスキャン画像のテキストブロックの面積の総和と登録されている文書のテキストブロックの面積の総和との積（値Ｂとする）を求める。そして、値Ａを値Ｂで割った値を類似度とする方法がある。この類似度の算出を、スキャン画像と抽出ルールに登録されている全ての文書との間で行う。

そして、所定値以上の類似度であり、かつ、最も類似度が高い、抽出ルールに登録されている文書が、スキャンされた入力文書と同じ種類の文書と特定される。また、抽出ルールに、類似度が所定値以上の文書が無かった場合は、入力文書と同じ種類の文書は、抽出ルールには登録されていないと判定される。

Ｓ５０５において画像処理部３０５は、Ｓ５０４で実行した文書マッチングの結果、入力文書と同じ種類の文書が抽出ルールに登録されていたかを判定する。入力文書が登録済み文書でなかった場合（Ｓ５０５がＮＯ）、本フローチャートの処理を終了する。登録済み文書でなかった場合は、前述したように新たにＩＤが付されて、Ｓ５０２で検出したテキストブロックのレイアウト情報等が抽出ルールに登録される。この場合、Ｓ４０２ではファイル名およびメタデータのユーザにレコメンドはされずに、表示制御部３０１は、ユーザによるファイル名の入力を受け付ける。表示制御部３０１は表示・操作部１２３を介してユーザから入力を受け付けると、入力されたファイル名がスキャン画像のファイル名として決定される。

入力文書と同じ種類の文書が登録されている場合（Ｓ５０５がＹＥＳ）、Ｓ５０６において画像処理部３０５は、Ｓ５０４で入力文書と同じ種類と特定された抽出ルールの文書と同じ文書ＩＤを、スキャン画像に付与する。

Ｓ５０７において画像処理部３０５は、Ｓ５０６で付与された文書ＩＤに紐づいた抽出ルールに基づいて、スキャン画像内における抽出対象（処理対象）の項目のインデックスのテキストブロックを推定するインデックスブロック推定処理を実行する。タイトル、発行元会社名、帳票番号等の項目を示す文字列（インデックス）が含まれるテキストブロックをインデックスブロックと呼ぶことがある。インデックスブロック推定処理の詳細については、後述する。

Ｓ５０８において画像処理部３０５は、Ｓ５０７で推定された夫々の項目のインデックスブロック群に対して、部分的なＯＣＲを実行し、各インデックスブロックに対応する文字列をインデックスとして抽出する。

［インデックスブロック推定処理（Ｓ５０７）について］
図８は、Ｓ５０７のインデックスブロック推定処理のフローチャートである。インデックスブロック推定処理の詳細について図８を用いて説明する。なお、以下、登録文書とは、Ｓ５０３で取得した抽出ルールにおいて登録されている文書のうち、Ｓ５０６でスキャン画像に付与された文書ＩＤに対応する文書のことをいう。本フローチャートの説明では、登録文書は図７の文書ＩＤ「０００１」の文書であるものとして説明する。

Ｓ８００において画像処理部３０５は、抽出ルールから、Ｓ５０６で付与された文書ＩＤに紐づいた文書識別情報を取得する。そして、画像処理部３０５は、スキャン画像内の全体のテキストブロックと、登録文書の全体のテキストブロックとで全体の位置合わせを行う。

Ｓ４００で取得されたスキャン画像の入力文書は、登録文書と同じ種類の文書であり、夫々の項目は登録文書の項目と同じ座標に印刷される。しかし、印刷およびスキャンのタイミングまたは印刷時の機器による違い等により、スキャン画像上のテキストブロックの位置と登録文書のテキストブロックの位置とにズレが生じてしまうことがある。そこで、本ステップではそのズレの影響を軽減して以降の処理の精度を向上させるため、全体の位置合わせを行う。なお、本実施形態では、図５のＳ５００で傾き補正を行っているため、本ステップの全体の位置合わせでは、スキャン画像上のテキストブロック全体をシフト（平行移動）する補正のみを行う例について説明する。

全体の位置合わせでは、登録文書のテキストブロックに対してどれだけスキャン画像のテキストブロックがシフトしているかというシフト量を算出して、シフト量だけスキャン画像の各テキストブロックがシフトするように座標の修正を行う。

図９は、スキャン画像のテキストブロックと登録文書のテキストブロックとを同じ座標系に描画した画像の一部分を切り出した図である。図９を用いて全体の位置合わせのためのシフト量の算出の具体的な手順を説明する。図９において、実線の矩形はスキャン画像内のテキストブロック群のうちから選択された１つのテキストブロック９００を示し、破線の矩形は、テキストブロック９００の周囲にある登録文書のテキストブロック９０１～９０３を示している。また、図９において、一点鎖線の円９０４は、スキャン画像のテキストブロック９００の左上頂点を中心に一定距離を半径とした範囲を示している。

シフト量の算出のために、スキャン画像の各テキストブロックと対応する候補となる登録文書のテキストブロック（ペアブロックとよぶ）を決定する。ここでスキャン画像のテキストブロックのペアブロックの決定について説明する。

初めに、登録文書のテキストブロック９０１～９０３のうち、スキャン画像内のテキストブロック群から選択された１つのテキストブロック９００の左上頂点を中心とする円９０４の中に、左上頂点が入るテキストブロックを探す。図９では、テキストブロック９０１、９０２が該当することになる。次に、スキャン画像のテキストブロック９００と、登録文書のテキストブロック９０１、９０２それぞれとのオーバラップ率を求める。オーバラップ率は、スキャン画像のテキストブロックと登録画像のテキストブロックとの左上頂点同士を合わせて、両テキストブロックの共通部分の面積を算出する。そして、（共通部分の面積）／（両テキストブロックのうち大きい方の面積）によって値を求めてオーバラップ率とする。

オーバラップ率が、所定の条件を満たす登録文書のテキストブロックを、ペアブロックとする。所定の条件は、例えば、スキャン画像のテキストブロックとのオーバラップ率が、最大オーバラップ率に係数αを乗算した値以上であり、かつ、所定の閾値以上であることである。この場合において、係数αは最大オーバラップ率と近いオーバラップ率を持つ組合せを選択するためのもので、例えば０．５～０．８のような１．０未満の値とする。また、所定の閾値は最低ラインを規定するものであり、例えば０．３～０．７のような１．０未満の値とする。

図９では、登録文書のテキストブロック９０１、９０２のうち、スキャン画像のテキストブロック９００と形状の近い、テキストブロック９０１のみがペアブロックとして選択される。所定の条件を満たすテキストブロックが他にもあればペアブロックは複数選択されることもある。このように、スキャン画像内から選択された１つのテキストブロックに対応するペアブロック群のそれぞれに対して、スキャン画像内から選択されたテキストブロックとの左上頂点のＸ方向およびＹ方向の差分量（シフト量）を算出する。そして、差分量をシフト量ヒストグラムに投票する。この場合のヒストグラムのビンの範囲は任意でよい。

図９の場合、テキストブロック９００については、登録文書のテキストブロック９０１とのの左上頂点のＸ方向およびＹ方向の差分量（シフト量）が算出されて、シフト量がシフト量ヒストグラムに投票される。

スキャン画像内のテキストブロックに対応するペアブロック群を決定し、シフト量ヒストグラムに投票するまでの処理を、スキャン画像の全てテキストブロックに対してそれぞれ行う。そして、最終的に得られたシフト量ヒストグラムにおける最大のピーク点となる位置を決定する。決定された位置が示すシフト量を全体の位置合わせのシフト量とする。

なお、ノイズの影響が懸念される場合は、生成したシフト量ヒストグラムに対してスムージングを掛けてもよい。また、最大となるピーク点以外の局所的なピーク点についても、シフト量の候補として選び、その候補の中から全体の位置合わせに用いるシフト量を選んでもよい。例えば、シフト量の各候補について、スキャン画像のテキストブロックの座標をシフトさせて、図５のＳ５０４の文書マッチングと同様の類似度算出を行い、最も類似度が高くなる候補を、最終的なシフト量として決定してもよい。

上記の手順で決定されたシフト量だけ、スキャン画像の各テキストブロックの座標をシフトすることで、位置合わせされたスキャン画像のテキストブロック群を得ることができる。なお、テキストブロックの位置合わせの方法は上記の方法に限るものではない。スキャン画像全体のシフト（平行移動）に関する補正のみを行う例について説明したが、印刷およびスキャンのズレとして、倍率に関するズレが想定される場合には、シフト量だけでなく、倍率のズレも考慮した位置合わせを行ってもよい。

なお以下のステップにおけるスキャン画像またはスキャン画像のテキストブロック群は、この全体の位置合わせされたスキャン画像またはテキストブロック群を指すものとする。

次に、Ｓ５０６で付与された文書ＩＤに紐づいた登録文書のインデックス情報を取得する。そしてＳ８０１でインデックス情報に含まれるインデックスの項目のいずれかを処理対象に選んでＳ８０１～Ｓ８１０を繰り返す。そして、スキャン画像のテキストブロック群から、処理対象の項目のテキストブロックを推定する処理を行う。処理対象の項目に対する処理が終了すると、再度、未処理の項目の中から処理対象の項目が選択される。

Ｓ８０１において画像処理部３０５は、登録文書のインデックス情報に登録されている項目のうち未処理のインデックスの項目を１つ選択して処理対象の項目とする。本実施形態では、図７のインデックス情報に保持されている、タイトル（title）、発行元会社名（sender）、帳票番号（number）、合計金額（total_price）の項目の何れかが処理対象として選択される。

Ｓ８０２において画像処理部３０５は、処理対象の項目の「部分パターン」を取得する。部分パターンには、登録文書に含まれるテキストブロックの一部のレイアウト（部分レイアウト）の情報と、部分レイアウトを含む範囲（部分パターン範囲）の情報と、が含まれる。

図１０（ａ）は、図７で文書ＩＤ「０００１」として登録されている登録文書における、それぞれの項目のインデックスブロックの位置およびサイズを図示したものである。図１０（ａ）の破線の矩形は、タイトル、帳票番号、合計金額、発行元会社名のそれぞれの項目のインデックスブロック１０００～１００３を表している。

図１０（ｂ）は、「発行元会社名（sender）」の項目の部分パターンを示す図である。図１０（ｂ）の一点鎖線の矩形で表される範囲は、「発行元会社名（sender）」の項目の部分パターン範囲１００６を示す。部分パターン範囲１００６は、「発行元会社名（sender）」の項目のテキストブロックであるインデックスブロック１００３を基準として予め設定された値を使って決定される。

テキストブロック１００４、１００５は、登録文書における、部分パターン範囲１００６に少なくとも一部が含まれるテキストブロックを表している。このテキストブロック１００４、１００５と、インデックスブロック１００３で表される登録文書内の部分的なレイアウトが、発行元会社名の項目の部分レイアウトである。部分レイアウトは、処理対象の項目のテキストブロックと、処理対象の項目のテキストブロック以外の少なくとも１つのテキストブロックとで表される。レイアウトとは、夫々のテキストブロックの位置情報と、夫々のテキストブロックのサイズと、を表す情報である。

発行元会社名の項目の部分パターンに含まれる情報として、部分パターン範囲１００６と、インデックスブロック１００３とテキストブロック１００４および１００５とからなる部分レイアウトと、が決定される。このように、登録文書の夫々の項目に対応する部分パターンが決定されて記憶されている。

詳細は後述するが、本実施形態では、部分レイアウトと配置が類似または一致しているスキャン画像内の位置を探索して、スキャン画像内における処理対象の項目のテキストブロックを推定する。

図１０（ｃ）は、「タイトル(title)」の項目の部分パターンを示す図である。タイトルについても同様に、部分パターン範囲１００７と、タイトルのインデックスブロック１０００と部分パターン範囲１００７に含まれるテキストブロック１００１、１００８～１０１３とからなる部分レイアウトと、が部分パターンとして決定されている。

なお、部分パターン範囲１００７のサイズは、図１０（ｂ）の部分パターン範囲１００６と比べてサイズが異なる。このように項目の性質に応じて部分パターンサイズは異ならせてもよい。または、部分パターン範囲のサイズは、全ての項目で共通のサイズが用いられてもよい。部分パターン範囲のサイズの決定方法については実施形態２で説明する。

なお、部分パターンは、文書原稿をスキャンした後に行われるインデックス抽出処理の実行が行われるごとに決定される必要はない。例えば、文書の登録時において、項目ごとに部分パターンを決定し、図７で示した抽出ルールの一部として予め記憶させてもよい。つまり、Ｓ８０２では、記憶されている処理対象の項目の部分パターンが取得されればよい。

次のＳ８０３およびＳ８０４では、処理対象の項目の部分レイアウトとの一致度が高い領域のある、スキャン画像内の位置（ＸＹ候補位置）を決定する。ＸＹ候補位置の決定方法としては、例えば、テンプレートマッチングのようにスキャン画像内の探索範囲に対して部分パターンを走査して一致度を算出することで候補位置を推定してもよい。本実施形態では計算量を抑制させるため、探索範囲におけるＹ方向の候補となる位置を決定してＹ方向の位置（Ｙ位置）を絞り込む。その上で、Ｙ位置の候補（Ｙ候補位置）群それぞれにおいて、Ｘ方向に部分パターンを走査してＸＹ候補位置を決定することで、計算量を抑える方法を説明する。

Ｓ８０３において画像処理部３０５は、スキャン画像のテキストブロック群から、登録文書における処理対象の項目の部分パターンのテキストブロックに類似するＹ候補位置群を決定する。

図１１は、Ｙ候補位置群の決定処理を説明するための図である。処理対象の項目が発行元会社名（sender）であるものとして説明を行う。

図１１（ａ）は、登録文書における発行元会社名（sender）の部分パターンを示す図であり図１０（ｂ）と同様の図である。図１１（ｂ）は、スキャン画像であり破線の矩形は、位置合わせがされたテキストブロック群を表している。また、図１１（ｂ）で示したスキャン画像が示す文書は、登録文書「０００１」と同じ種類の文書として判定された文書であるが、図７の登録文書に比べて表構造内の項目行数が増えている例を示している。よって、スキャン画像における推定されるべき発行元会社名（sender）のインデックスブロック１１０１が、登録文書における発行元会社名（sender）のインデックスブロック１００２の位置と比較して下方向にシフトしてしまっている。

図１１（ｃ）は、発行元会社名の部分パターンに含まれる部分レイアウトを表すテキストブロック１００３～１００５のうちの１つのテキストブロック１００３を、スキャン画像のテキストブロック群と同じ座標系に重畳させた図である。Ｙ候補位置群の決定について、部分パターン内のテキストブロック１００３に注目して図１１（ｃ）を用いて説明する。

図１１（ｃ）の、一点鎖線の矩形で表される探索範囲１１００は、処理対象の項目のＹ候補位置群を決定するために探索する範囲を表している。破線の矩形で表されるテキストブロック１１０１～１１０９は、図１１（ｂ）に示すスキャン画像のテキストブロックのうち、矩形の中心が探索範囲１１００の中にあるテキストブロックである。

Ｙ候補位置群の決定には、はじめに、部分レイアウトに含まれる１つのテキストブロック（図１１（ｃ）ではテキストブロック１００３）が選択される。そして選択されたテキストブロックをスキャン画像のテキストブロック群と同じ座標系に重畳し、探索範囲内のスキャン画像のテキストブロック（図１１（ｃ）ではテキストブロック１１０１～１１０９）との矩形の中心のＹ位置の差分量をそれぞれ算出する。そして、算出された差分量がＹ方向のシフト量ヒストグラムに投票される。シフト量ヒストグラムのビンの範囲は任意でよい。

図１２は、Ｙ方向のシフト量ヒストグラムの例を示す図である。図１２（ａ）は、図１１（ｃ）における部分パターンのテキストブロック１００３と、スキャン画像のテキストブロック１１０２とのＹ位置の差分量を投票した後のシフト量ヒストグラムである。ｈは基準からのＹ方向の探索範囲の絶対値の上限を示している。テキストブロック１００３とテキストブロック１１０２とのＹ方向の差分量に従い、位置１２００に投票が行われている。同様に、部分パターンに含まれる１つのテキストブロックと、スキャン画像の探索範囲内の全てのテキストブロックとのＹ中心の差分量に応じた投票が行われる。この投票を、部分パターン内の全テキストブロックに対して行う。つまり、部分パターンのテキストブロック１００４、１００５についても、探索範囲内のテキストブロック１１０１～１１０９とのＹ中心の差分量が算出されてシフト量ヒストグラムに投票される。そして、Ｙ方向のシフト量ヒストグラムを完成させる。なお、ノイズの影響が懸念される場合は、Ｙ方向の生成したシフト量ヒストグラムに対してスムージングを掛けてもよい。

図１２（ｂ）は最終的に生成されるＹ方向のシフト量ヒストグラムである。シフト量ヒストグラムの生成が完了した後、ヒストグラム内の位置１２０１～１２０６に示すようなピーク点を決定し、各ピーク点のビンに応じたＹ方向のシフト量に基づきＹ候補位置群を決定する。

なお、図１１（ｃ）のＹ候補位置群を決定するための探索範囲１１００は、部分パターンのインデックスブロックの位置を基準に、あらかじめ設定された値で自動決定される。なお、探索範囲のサイズについては、全ての項目で共通の範囲を使用してもよいし、処理対象の項目の属性に応じて決定してもよい。例えば、タイトルのインデックスブロックは文書内で固定の位置にあることが多い。よって、処理対象の項目がタイトルの場合、探索範囲を狭くしても探索範囲から推定されるべきインデックスブロックが外れる可能性は低いため、探索範囲を狭く設定してもよい。探索範囲を狭くすることで、計算量を抑えつつ、余計な候補位置が決定されることを防ぐことができる。一方、項目が合計金額のインデックスブロックは、文書内の表構造の項目行数の変化に応じて、位置が上下に変化することがある。このため、処理対象の項目が合計金額の場合は他の項目よりも探索範囲を上下に広く設定してもよい。

Ｓ８０４において画像処理部３０５は、Ｓ８０３で決定された夫々のＹ候補位置を基準に、部分パターンの部分レイアウトとスキャン画像のテキストブロック群との一致度を導出する。

図１３は、スキャン画像内のある位置に処理対象の項目の部分レイアウトを重ねて置いた場合の、部分レイアウトとスキャン画像のテキストブロックのレイアウトとのの重なりの状態を示した図である。図１３を用いて、部分レイアウトとスキャン画像のテキストブロック群の一致度の導出方法について説明する。

図１３において、実線の矩形は、処理対象の項目の部分レイアウトを構成するテキストブロック１００３～１００５である。一点鎖線の矩形は、部分パターン範囲１００６を表している。破線の矩形は、スキャン画像のテキストブロック１１０１、１１０４～１１０６、１１０９を表す。斜線塗りつぶし領域１３０９、１３１０は、部分レイアウトのテキストブロック１００３～１００５とスキャン画像のテキストブロックの重なっている領域を表している。

部分レイアウトとスキャン画像のテキストブロックとの一致度Ｓｃｏｒｅは、以下の式（１）で導出する。

上記式（１）において、Ｒは部分レイアウトを構成する全テキストブロックを表しており、またＮ_Rは部分レイアウトを構成するテキストブロックの総数を表す。図１３において、Ｒは、テキストブロック１００３～１００５であり、Ｎ_Rは３である。

Correlation(r)は、部分レイアウトを構成する一つのテキストブロックｒの個別一致度である。テキストブロックｒの個別一致度Correlation(r)は、式（２）によって導出する。

OverlappingQは、テキストブロックｒと重なりのあるスキャン画像のテキストブロックの集合である。OverlapArea(r,q)は、テキストブロックｒとOverlappingQのテキストブロックうちの１つのテキストブロックｑとの重なり領域の面積である。またＮ_OverlappingQはOverlappingQの総数を表す。

図１３において、rをテキストブロック１００３とした場合、OverlappingQはテキストブロック１１０５のみでありOverlapArea(r,q)は領域１３０９である。ｒをテキストブロック１００５とした場合、OverlappingQは、テキストブロック１１０４のみでありOverlapArea(r,q)は領域１３１０が該当する。ｒをテキストブロック１００４とした場合、該当するOverlappingQは無いためＮ_OverlappingQは0であることから、Correlation(r)は0である。

Area_rはテキストブロックｒの面積であり、Area_qはテキストブロックｑの面積である。

なお、式（１）による一致度の導出では、スキャン画像のテキストブロックの数が多く、またテキストブロックの面積が大きいほど、個別一致度Collrelation(r)の値は大きく導出されてしまうことがある。そこで、一致度Ｓｃｏｒｅは、以下の式（１）’に示すようにペナルティ項PenaltyTermを追加してもよい。

式（１）’におけるペナルティ項PenaltyTermは、式（３）によって導出する。

TotalArea_Rは、部分レイアウトを構成する全テキストブロックの総面積である。
図１３ではテキストブロック１００３～１００５の総面積である。

TotalArea_NonOverlappingQは、部分パターン範囲内に存在するスキャン画像のテキストブロックのうち、部分レイアウトを構成するテキストブロックの何れとも重ならないテキストブロック群の面積の総和である。図１３の場合、部分パターン範囲１００６内のテキストブロック１１０１、１１０４、１１０５、１１０６、１１０９のうちテキストブロック１００３～１００５と重ならないテキストブロック１１０１、１１０６、１１０９の面積の総和である。

ペナルティ項を設けることによって、部分パターン範囲１００６内の部分レイアウトを構成するテキストブロックが存在しなかった範囲に、スキャン画像内のテキストブロックが存在する場合に一致度を減点するように調整することができる。よって、部分レイアウトを構成するテキストブロックが少ない場合であっても、部分パターン範囲内の部分レイアウトを構成するテキストブロックが存在しない領域の情報を活用して一致度を導出することができる。なお、一致度の導出方法は、上記の式による導出に限るものではなく、部分レイアウトとの一致度が決定できればよい。

Ｓ８０４において画像処理部３０５は、Ｓ８０３で決定したＹ候補位置群のうちのいずれかのＹ候補位置に、インデックスブロックが位置するように部分パターン（部分レイアウトおよび部分パターン範囲）を置く。そして、画像処理部３０５は、部分パターンをＸ方向に走査して、各位置における一致度を導出する。画像処理部３０５は、これを全てのＹ候補位置群に対して行う。

図１４は、Ｓ８０３で決定したＹ候補位置群のうちの一つのＹ候補位置における本ステップの処理を表した図である。図１４（ａ）において、実線の矩形は、部分レイアウトを構成するテキストブロック１００３～１００５であり、一点鎖線の矩形は部分パターン範囲１００６を表している。また破線の矩形は、スキャン画像のテキストブロック１１０１、１１０５、１１０６を表し、斜線の領域は、部分レイアウトのテキストブロックとスキャン画像のテキストブロックとの重なっている領域を表している。また、図１４では、本ステップにおける処理が図１４（ａ）～（ｅ）から順に処理が進むように示されており、探索範囲内で部分パターンをＸ方向に（左から右に）走査しながら、それぞれの位置における一致度を導出する様子を示している。同様の処理が夫々のＹ候補位置において行われる。

Ｓ８０５において画像処理部３０５は、Ｓ８０４で導出した一致度が最大となる位置をＸＹ候補位置と決定する。例えば、図１４の場合、部分パターン（部分レイアウト）が、図１４（ｃ）に示す位置で一致度が最大となる。このため、図１４（ｃ）における部分レイアウトに含まれるインデックスブロックを示すテキストブロック１００３の位置が、ＸＹ候補位置として決定される。

Ｓ８０６において画像処理部３０５は、Ｓ８０５で決定したＸＹ候補位置における一致度が所定の閾値以上かどうかを判定する。

一致度が閾値以上の場合（Ｓ８０６がＹＥＳ）、Ｓ８０７において画像処理部３０５は、Ｓ８０５で決定したスキャン画像上のＸＹ候補位置を処理対象の項目のテキストブロック（インデックスブロック）のある位置と推定する。画像処理部３０５は、推定した位置に基づき、スキャン画像内の処理対象の項目のインデックスブロックを推定する処理を行う。

例えば、登録文書における処理対象の項目のインデックスブロックをスキャン画像内のＸＹ候補位置にシフトさせた場合に、重なり合うスキャン画像内のテキストブロックが、所定の条件を満たすかが判定される。所定の条件とは、例えば、登録文書における処理対象のインデックスブロックとの重なり度合いを示す重なり率が所定の値以上、かつ、登録文書における処理対象のインデックスブロックとの左上座標の距離が一定の範囲内に入っているかという条件である。

所定の条件を満たすテキストブロックがあると判定された場合（Ｓ８０７がＹＥＳ）、Ｓ８０８に進む。Ｓ８０８において画像処理部３０５は、Ｓ８０７で所定の条件を満たすと判定されたスキャン画像のテキストブロックを、Ｓ８０１で選択した処理対象の項目を示す文字列を含むテキストブロック（インデックスブロック）と推定する。

一致度が閾値未満の場合（Ｓ８０６がＮＯ）または該当のテキストブロックがないと判定された場合（Ｓ８０７がＮＯ）、Ｓ８０９に進む。Ｓ８０９において画像処理部３０５は、Ｓ８０１で選択した処理対象の項目に対応するテキストブロックはスキャン画像内には無いと決定する。例えば、スキャン画像において処理対象の項目に対応する文字列が所定の領域に記載されていない場合、あるいは、Ｓ８０４で誤って位置を推定してしまった場合、Ｓ８０９において決定が行われる。

Ｓ８１０において画像処理部３０５は、登録文書のインデックス情報に登録されている全ての項目について、インデックスブロックを推定する処理を完了したかを判定する。未処理の項目があればＳ８０１に戻る。

全ての項目について処理が完了していれば本フローチャートの処理を終えＳ５０８に進む。Ｓ５０８において画像処理部３０５は、推定された夫々の項目のインデックスブロックにＯＣＲ処理を実行し、それぞれの項目に対応する文字列をインデックスとして抽出する。

以上説明したように本実施形態では、テキストブロックのレイアウトの一部を利用してスキャン画像に含まれるインデックスの抽出を行う。このため、本実施形態によれば、入力文書おける記載内容の変化等によって、スキャン画像に含まれるインデックスブロックの位置が登録文書と異なる場合であっても、インデックスを抽出することができる。また、本実施形態では、文書マッチングによって入力文書の種類を特定して、文書の種類に紐づいた抽出ルールを利用する。このため、テキストブロックの部分的なレイアウトによるインデックスブロックを推定する処理であっても、インデックスの誤抽出を抑制することができる。また、文書マッチングおよびインデックスブロック推定処理では、ＯＣＲ処理の前処理の結果として得られる前景領域のうちテキストブロックのみを使用する。このため、余計な計算コストをかけることなく、インデックス抽出処理を行うことができる。

＜実施形態２＞
実施形態１では、部分パターン範囲は、予め設定された値に基づき決定する方法について説明した。しかしながら、部分パターン範囲を広く設定しすぎると、インデックスブロックの周囲のみレイアウトが変わっているような場合、適切にインデックスブロックの位置を推定することができない。一方、部分パターン範囲が小さくなると部分レイアウトを構成するテキストブロックの数が少なく決定されることがあり、スキャン画像内の一致度の高い領域を探索するのが難しくなる。このため本実施形態では、部分パターン範囲を適切なサイズに決定する方法を説明する。なお、本実施形態については、実施形態１からの差分を中心に説明する。特に明記しない部分については実施形態１と同じ構成および処理である。

文書の種類に応じてインデックスブロックの周囲に存在するテキストブロックの数、レイアウトは変わる。このため、本実施形態では、部分パターン範囲のサイズを決定するために、段階的に対象の項目のインデックスブロックを含む領域を広げながら、その領域にと重なるテキストブロックの数をカウントする。そして重なるテキストブロックの数が一定数以上になったときの領域を、その項目の部分パターン範囲として決定する。

図１５は、本実施形態における部分パターン範囲の決定方法を説明するための図である。図１５（ａ）における、実線の矩形はタイトルのインデックスブロック１０００であり、一点鎖線の矩形は、タイトルの部分パターン範囲を決定するための領域である。領域は、それぞれ、初期領域１５００、２段階目の領域１５０１、最大領域１５０２を示している。図１５（ａ）では、タイトルの項目における部分パターン範囲を決定するための領域が段階的に変更される様子を示している。初期領域から最大領域まで段階的に領域を広げながら、その領域と重なるインデックスブロックを除くテキストブロックをカウントする。そして、カウントされたテキストブロックが所定の数以上になったときの一点鎖線の矩形で示す領域を、その項目の部分パターン範囲として決定する。なお、所定の数は、１個以上であることが好ましい。本実施形態では、所定の数が５であるものとして説明する。

本実施形態の部分パターン範囲の決定方法について具体的に説明する。はじめに、初期領域１５００と少しでも重なっているテキストブロックの数をカウントする。この場合、インデックスブロック１０００以外のテキストブロックが存在しないため、次の段階へ進む。

次に、領域を広げて、２段階目の領域１５０１と少しでも重なっているテキストブロックをカウントする。図１５（ｂ）は、部分パターン範囲を決定するための領域を２段階目の領域１５０１とした場合の図である。図１５（ｂ）に示すように２段階目の領域１５０１とは、テキストブロック１００１、１００８～１０１３が重なる。このため２段階目の領域１５０１と重なるテキストブロックは７個とカウントされる。そして重なるテキストブロックの数が所定の数である５以上であると判定される。このため、タイトルの部分パターン範囲については２段階目の領域１５０１が示す位置およびサイズに決定される。このため部分パターン範囲に少なくとも一部が含まれるテキストブロック１００１、１００８～１０１３と、インデックスブロック１０００とからなるレイアウトが、タイトルの部分レイアウトとして決定される。

または、項目によって、周囲のテキストブロックの数は異なり、記載内容によるテキストブロックのレイアウトの変化が少ない領域は異なる。このため、例えば、項目の属性に応じて部分パターン範囲のサイズを異ならせてもよい。つまり、項目の属性に応じた部分パターンのサイズを予め設定してもよい。

項目がタイトルの場合、タイトルのテキストブロックの近傍にはテキストブロックが存在しないことが多いという特徴がある。また、タイトルは、文書の記載内容の変化によるテキストブロックのレイアウトの変化が少ない文書の上部に存在するという特徴がある。このため、図１０（ｃ）の部分パターン範囲１００７に示すように、項目が文書のタイトルであれば、Ｘ方向は画像幅全体が収まり、Ｙ方向も画像の約４分の１が収まるような領域が部分パターン範囲として決定されてもよい。

以上説明したように本実施形態では、文書に応じて部分パターン範囲が決定される。このため、文書に応じて適切な部分パターン範囲によって、インデックスブロック推定処理の精度を向上させることができる。

＜実施形態３＞
実施形態１では、部分パターンを利用して導出された一致度が最大となる位置をＸＹ候補位置として決定し、ＸＹ候補位置の一致度が所定の閾値以上であれば、ＸＹ候補位置に基づき処理対象の項目のインデックスブロックのある位置を推定する方法を説明した。

しかしながら、入力文書には、登録文書の部分レイアウトと配置が類似したテキストブロックを含む領域が複数存在することがある。入力文書内に部分レイアウトと類似する領域が複数存在する場合、実施形態１の方法では、入力文書内における処理対象の項目のインデックスブロックの推定に失敗してしまうことがある。

そこで本実施形態では、処理対象の項目の部分レイアウトに類似した領域が入力文書内に複数存在する場合であっても、入力文書内のインデックスブロックの位置を適切に推定する方法について説明する。なお、本実施形態については、実施形態１からの差分を中心に説明する。特に明記しない部分については実施形態１と同じ構成および処理である。

図１６は、本実施形態におけるＳ５０７のインデックスブロック推定処理を説明するためのフローチャートである。本実施形態におけるインデックスブロック推定処理の詳細について、図１６のフローチャートに従い説明する。Ｓ１６００～Ｓ１６０４はＳ８００～Ｓ８０４と同一であるため説明を省略する。

Ｓ１６０５において画像処理部３０５は、Ｓ１６０４で導出した一致度が所定の閾値以上となるスキャン画像内のＸＹ位置を決定する。本ステップの結果、複数のＸＹ位置が決定されない場合もあるが、便宜的に本ステップによって決定されるＸＹ位置をＸＹ候補位置群と呼ぶ。

図１７は、インデックスブロックとその周囲のブロックからなる部分レイアウトと類似する領域が複数存在する登録文書の例を示す図である。図１７（ａ）は、登録文書の一例を示す図である。図１７（ｂ）は、図１７（ａ）の登録文書における「見積日付（ＱｕｏｔａｔｉｏｎＤａｔｅ）」の項目に対応する文字列を含むテキストブロック１７０５をインデックスブロックとした場合の部分パターンを示す図である。図１７（ｂ）において、一点鎖線の矩形は、「見積日付」の項目の部分パターン範囲１７００を示し、実線の矩形で表されるテキストブロック１７０１～１７０６は、「見積日付」の項目の部分レイアウトを構成するテキストブロックを示している。図１６のフローチャートの説明では、「見積日付」を処理対象の項目とした場合の処理について説明する。

図１８は、入力文書を説明するための図である。図１８（ａ）は、入力文書を示す図であり、本フローチャートの説明では、この入力文書がスキャンされた結果得られたスキャン画像に対して、インデックスブロック推定処理が行われるものとして説明する。また、Ｓ５０４の文書マッチングにより、図１８（ａ）の入力文書に類似する文書は、図１７の登録文書が特定されたものとして説明する。

図１８（ｂ）～（ｅ）は、それぞれ、図１８（ａ）の入力文書のスキャン画像に対してブロックセレクション処理を行った結果検出されたテキストブロックを表す画像に、図１７（ｂ）の「見積日付」の部分パターンを重畳した図である。図１８（ｂ）～（ｅ）の夫々の図における矩形は、部分パターンを示す。即ち、実線の矩形は、部分レイアウトを構成するテキストブロックであり、一点鎖線の矩形は部分パターン範囲である。

図１８（ｂ）～（ｅ）で示す、部分パターンの位置は、Ｓ１６０４で導出した一致度が所定の閾値以上となったときの位置である。このため部分レイアウトを構成する実線の矩形で表したテキストブロックのうち、インデックスブロックのＸＹ位置１８０１～１８０４が、本ステップの処理の結果、ＸＹ候補位置群として決定されている。

図１８（ａ）に示す入力文書のように、単純なテキストブロックの配置が繰り返し存在する文書において、その繰り返して配置されているテキストブロックの中にインデックスブロックが存在される場合には、一致度が閾値以上となるＸＹ位置が複数決定される。このため、図１８（ａ）に示す入力文書に対して、本ステップの処理がされた結果決定されるＸＹ候補位置群の数は２以上となる。

Ｓ１６０６において画像処理部３０５は、Ｓ１６０５で決定したＸＹ候補位置群の数に応じて処理を切り替える。ＸＹ候補位置群の数が１個であれば、Ｓ１６１０に進み、ＸＹ候補位置群の数が０個であれば、Ｓ１６１２に進む。Ｓ１６１２の処理はＳ８０９と同一であるため説明を省略する。

ＸＹ候補位置群の数が２個以上である場合はＳ１６０７に進む。Ｓ１６０７において画像処理部３０５は、登録文書内の位置であって、処理対象の項目の部分レイアウトとの一致度が所定の閾値以上となる位置である類似位置（群）を取得する。

登録文書内の位置に、処理対象の項目の部分パターンに含まれる部分レイアウトを重畳させてテキストブロックの一致度の導出を行い、一致度が所定の閾値以上となる登録文書内のＸＹ位置が「類似位置」として決定される。登録文書内のテキストブロックと部分レイアウトのテキストブロックとの一致度の算出方法は、Ｓ１６０２～Ｓ１６０４と同様の方法で導出されればよい。即ち、入力文書を対象としていたところを、登録文書を対象として同様の手順で一致度を導出すればよい。

図１９は、登録文書内の類似位置を説明するための図である。図１９（ａ）は、図１７（ａ）と同一の登録文書を示す図である。図１９（ｂ）～（ｅ）は、それぞれ、図１９（ａ）の登録文書のスキャン画像に対してブロックセレクション処理を行った結果検出されたテキストブロックを表す画像に、図１７（ｂ）の「見積日付」の部分パターンを重畳した図である。図１９（ｂ）～（ｅ）の夫々の図における矩形は、部分パターンを示す。即ち、実線の矩形は、部分レイアウトを構成するテキストブロックであり、一点鎖線の矩形は部分パターン範囲である。

図１９（ｂ）～（ｅ）の、部分パターンの位置は、導出された一致度が所定の閾値以上となったときの、それぞれの位置である。このため部分レイアウトを構成するテキストブロックのうちのインデックスブロックのＸＹ位置が、類似位置群１９０１～１９０４として決定されている。本ステップでは、処理対象の項目の類似位置群の位置情報が取得される。類似位置群１９０１～１９０４には、類似位置１９０２のように、図１７（ｂ）で示した登録時のインデックスブロック１７０５のＸＹ位置も含まれる。

なお、Ｓ１６０７で登録文書内の類似位置を決定する処理が行われる必要はない。例えば、文書の登録時において、項目ごとに部分パターンを決定した後に類似位置群を決定し、類似位置群の情報を図７で示した抽出ルールの一部として予め記憶させてもよい。つまり、Ｓ１６０７では、記憶されている処理対象の項目の抽出ルールの１つとして類似位置群が取得されればよい。

Ｓ１６０８において画像処理部３０５は、Ｓ１６０７で取得した登録文書の類似位置群と、Ｓ１６０５で決定した入力文書におけるＸＹ候補位置群との対応付けを行う。具体的には、Ｙ位置でソートされた類似位置群に対して、類似位置群と同一条件でソートされたＸＹ候補位置群を、Ｙ位置の一方の側から順番で対応付けを行い、さらにＹ位置の他方の側からの順番で対応付けを行う。

図２０は、本ステップの処理を説明するための図である。表中の数値は、図１８または図１９で示した文書内の位置を示す符号を示す数値である。

図２０（ａ）は、図１８および図１９で示したように、類似位置群とＸＹ候補位置群の数が一致している場合の対応付けを示す図である。列２００１はＹ位置でソートされた類似位置群である。列２００２はＹ位置でソートされたＸＹ候補位置群であり、列２００１の類似位置群に対してＹ位置の上から順番で対応付けられたＸＹ候補位置群である。列２００３はＹ位置でソートされたＸＹ候補位置群であり、列２００１の類似位置群に対してＹ位置の下から順番で対応付けられたＸＹ候補位置群である。図２０（ａ）では、列２００２のＸＹ候補位置群も列２００３のＸＹ候補位置群も、それぞれ同じ類似位置と対応付けられる。

図２０（ｂ）は、ＸＹ位置群の数に対して、類似位置群の数が少ない場合の本ステップの対応付けの方法を説明するための図である。例えば、図１９（ｅ）に示す登録文書の位置に部分パターンを重畳させた場合の登録文書との一致度が閾値未満であり、Ｓ１６０７では類似位置群１９０１～１９０３のみが取得された場合の、対応付けを表した図が図２０（ｂ）である。列２０１１はＹ位置でソートされた類似位置群である。列２０１２は、列２０１１の類似位置群に対してＹ位置の上から順番で対応付けられたＸＹ候補位置群である。列２０１３は、列２０１１の類似位置群に対してＹ位置の下から順番で対応付けられたＸＹ候補位置群である。図２０（ｂ）では、上からの対応付けと下からの対応付けでは、類似位置群に対応するＸＹ候補位置群が異なる結果となっている。

図２０（ｃ）は、ＸＹ候補位置群の数に対して、類似位置群の数が多い場合の本ステップの対応付けの方法を説明するための図である。図１８（ｅ）に示す入力文書の位置に部分パターンを重畳させた場合の入力文書との一致度が閾値未満であり、Ｓ１６０５ではＸＹ位置１８０１～１８０３のみがＸＹ候補位置群として決定された場合の、対応付けを表した図が図２０（ｃ）である。列２０２１はＹ位置でソートされた類似位置群である。列２０２２は、列２０２１の類似位置群に対してＹ位置の上から順番で対応付けられたＸＹ候補位置群である。列２０２３は、列２０２１の類似位置群に対してＹ位置の下から順番で対応付けられたＸＹ候補位置群である。上からの対応付けと下からの対応付けとでは異なる結果となり、上からの対応付けでは類似位置１９０４に対応するＸＹ候補位置群は見つからず、下からの対応付けでは類似位置１９０１に対応するＸＹ候補位置群は見つからない結果となる。

Ｓ１６０９において画像処理部３０５は、Ｓ１６０８で行った対応付けの結果に基づき、Ｓ１６０５で決定されたＸＹ候補位置群から１つのＸＹ候補位置を決定する。

Ｓ１６０８で行われた対応付けの結果が、図２０（ａ）に示したように、上からの対応付けと下からの対応付けの結果が一致する場合がある。この場合は、ＸＹ候補位置群のうち、登録時のインデックスブロックの位置を示す類似位置に対応付けられたＸＹ位置を、１つのＸＹ候補位置として決定する。図２０（ａ）の例では、インデックスブロックの位置を示す類似位置１９０２に対応付けられたＸＹ位置１８０２が、１つのＸＹ候補位置として決定される。

一方、Ｓ１６０８で行われた対応付けの結果が、図２０（ｂ）および（ｃ）で示したように、上からの対応付けと下からの対応付けの結果が一致しない場合がある。この場合ははじめに、上からの対応付けを行った場合の、インデックスブロックの位置を示す類似位置に対応付けられた入力文書のＸＹ位置を決定する。さらに、下からの対応付けを行った場合の、インデックスブロックの位置を示す類似位置に対応付けられた入力文書のＸＹ位置を決定する。

図２０（ｂ）の例では、インデックスブロックの位置を示す類似位置１９０２に対応付けられた、ＸＹ位置１８０２とＸＹ位置１８０３とが決定される。図２０（Ｃ）の例では、類似位置１９０２に対応付けられた、ＸＹ位置１８０２とＸＹ位置１８０１とが決定される。そして、決定された２つのＸＹ位置のうち、Ｓ１６０４で導出した一致度が高い方を、ＸＹ候補位置群のうちの１つのＸＹ候補位置として決定する。なお、一致度を用いないで、２つのＸＹ位置から１つの中から１つのＸＹ位置を選択してもよい。例えば、２つのＸＹ位置を表示させてユーザからの指示を受け付け、上からの対応付けと下からの対応付けのどちらを利用するかを項目ごとに覚えておいて利用してもよい。

ＸＹ候補位置群から１つのＸＹ候補位置を決定されるとＳ１６１０に進む。Ｓ１６１０では、Ｓ８０７の処理と同様に、ＸＹ候補位置を処理対象のインデックスブロックのある位置として推定して、スキャン画像のテキストブロックから、処理対象の項目のインデックスブロックを推定する処理を行う。Ｓ１６１１はＳ８０８と、Ｓ１６１３はＳ８１０とそれぞれ同一であるため説明を省略する。

以上説明したように本実施形態では、入力文書において一致度が閾値以上となるＸＹ候補位置が複数存在した場合に、部分パターンとの一致度が閾値以上となる登録文書の類似位置群との対応付けを行った上で１つのＸＹ候補位置を決定する。このため、インデックスブロックとその周囲のテキストブロックからなる部分レイアウトに類似した領域が文書内に複数存在する場合でも、インデックスブロック推定処理の精度を向上させることができる。

＜その他の実施形態＞
上述の実施形態では、画像形成装置１００が単体で図４のフローチャートの各ステップの処理を行う例を説明した。他にも、これらの処理の全部または一部を図３の機能を有するシステム１０５上の他の画像処理装置で行う形態でもよい。

例えば、スキャン処理を画像形成装置１００で実行して、スキャン画像を端末１０１にネットワークを介して送信する。端末１０１が画像処理部３０５と同様の機能を有しており、端末１０１においてインデックス抽出処理を実行してもよい。この場合、端末１０１はインデックス抽出結果を画像形成装置１００に返信して、画像形成装置１００は取得したインデックス抽出結果に基づきファイル生成およびファイル送信をする。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００画像形成装置
３０５画像処理部
１１１ＣＰＵ

Claims

入力画像におけるテキストブロックを検出する検出手段と、
複数の登録文書の中から、前記入力画像に対応する登録文書を特定する特定手段と、
前記特定された登録文書において規定されている、処理対象の項目に対応する第１のテキストブロックと前記第１のテキストブロックの近傍に存在する少なくとも１つの第２のテキストブロックとを含む部分レイアウトに基づき、前記入力画像における前記処理対象の項目に対応するテキストブロックの決定をする決定手段と、
前記決定されたテキストブロックに対して文字認識処理を行うことにより、前記入力画像における前記処理対象の項目に対応する文字列を取得する取得手段と、
を有することを特徴とする画像処理装置。
前記決定手段は、
前記入力画像における探索範囲の何れかの位置に前記部分レイアウトを重畳させて、前記部分レイアウトに含まれるテキストブロックと前記入力画像におけるテキストブロックとが重なる領域の大きさに基づく一致度を導出することにより、前記決定を行う
ことを特徴とする請求項１に記載の画像処理装置。
前記決定手段は、
前記特定された登録文書における前記第１のテキストブロックの位置に対応する前記入力画像における位置を含む所定の領域を前記探索範囲として、前記一致度の導出を行う
ことを特徴とする請求項２に記載の画像処理装置。
前記決定手段は、
前記部分レイアウトに含まれるテキストブロックと前記探索範囲内のテキストブロックとの縦方向の位置の差に基づき、前記決定のための縦方向の位置群を導出する
ことを特徴とする請求項２または３に記載の画像処理装置。
前記決定手段は、
前記探索範囲内の前記縦方向の位置群の横方向に、前記部分レイアウトを重畳した場合の、夫々の位置における前記一致度を導出する
ことを特徴とする請求項４に記載の画像処理装置。
前記決定手段は、
前記一致度が閾値以上であり、かつ、前記一致度が最大となる前記入力画像における位置を、前記決定を行うための前記入力画像における位置として導出する
ことを特徴とする請求項２から５のいずれか１項に記載の画像処理装置。
前記決定手段は、
前記一致度が閾値以上となる前記入力画像における候補位置を導出し、
前記候補位置の数が１つの場合、前記候補位置を、前記決定を行うための前記入力画像における位置として導出し、
前記候補位置の数が２つ以上の場合、前記部分レイアウトに含まれるテキストブロックを前記特定された登録文書内の何れかの位置に重畳させた場合に前記一致度を導出する方法と同一の方法で導出された一致度が閾値以上となる前記特定された登録文書内の位置を類似位置として取得し、前記候補位置と、前記類似位置とを対応付けることにより、前記決定を行うための前記入力画像における位置を導出する
ことを特徴とする請求項５に記載の画像処理装置。
前記決定手段は、
前記候補位置の数が２つ以上の場合で、かつ、前記候補位置の数と前記類似位置の数とが同じ場合、
同一条件で並べられた前記候補位置と前記類似位置とを一方の側から順に対応付けを行った結果、前記第１のテキストブロックに対応する前記類似位置に対応付けられた前記候補位置を、前記決定を行うための前記入力画像における位置として導出する
ことを特徴とする請求項７に記載の画像処理装置。
前記候補位置の数が２つ以上の場合で、かつ、前記候補位置と前記類似位置の数が異なる場合、
同一条件で並べられた前記候補位置と前記類似位置とをそれぞれ一方の側から順に対応付けを行った結果、前記第１のテキストブロックに対応する前記類似位置に対応付けられた前記候補位置が示す第１の位置と、
前記同一条件で並べられた前記候補位置と前記類似位置とをそれぞれ他方の側から順に対応付けを行った結果、前記第１のテキストブロックに対応する前記類似位置に対応付けられた前記候補位置が示す第２の位置と、を求め、
前記第１の位置と前記第２の位置とのうち、所定の条件を満たす方の位置を、前記決定を行うための前記入力画像における位置として導出する
ことを特徴とする請求項７または８に記載の画像処理装置。
前記決定手段は、
前記一致度に基づき導出された前記入力画像における前記位置に、前記特定された登録文書における前記第１のテキストブロックを配置して、前記配置されたテキストブロックと重なり合う前記入力画像におけるテキストブロックが所定の条件を満たす場合、前記重なり合うテキストブロックを前記入力画像における前記処理対象の項目に対応するテキストブロックと決定する
ことを特徴とする請求項６から９のいずれか１項に記載の画像処理装置。
前記所定の条件は、
前記配置されたテキストブロックと前記重なり合うテキストブロックとの重なり度合いが所定値以上であり頂点の距離が一定の範囲内の場合である
ことを特徴とする請求項１０に記載の画像処理装置。
前記特定された登録文書における前記第１のテキストブロックを基準とした所定の範囲が設定されており、
前記一致度は、
前記部分レイアウトを前記入力画像に重畳させた場合、前記入力画像における前記所定の範囲に含まれるテキストブロックのうち、前記部分レイアウトに含まれるテキストブロックと重ならないテキストブロックの面積が大きいほど、前記一致度が下がるように調整される
ことを特徴とする請求項２から１１のいずれか１項に記載の画像処理装置。
前記部分レイアウトには、前記特定された登録文書における前記第１のテキストブロックと、前記特定された登録文書における前記第１のテキストブロックを基準とした所定の範囲に含まれる前記第２のテキストブロックと、が含まれる
ことを特徴とする請求項１から１２のいずれか１項に記載の画像処理装置。
前記所定の範囲は、
前記特定された登録文書において、前記第１のテキストブロックを基準とした領域であって、テキストブロックが所定の数以上が含まれる領域に基づく領域である
ことを特徴とする請求項１２または１３に記載の画像処理装置。
前記特定手段は、
前記検出された前記入力画像におけるテキストブロックのレイアウトと前記複数の登録文書それぞれにおけるテキストブロックのレイアウトとの類似度に基づいて、前記入力画像に対応する登録文書を特定する
ことを特徴とする請求項１から１４のいずれか１項に記載の画像処理装置。
前記特定手段が前記入力画像に対応する登録文書を特定できない場合、前記入力画像を新たな文書として登録する登録手段をさらに有する
ことを特徴とする請求項１から１５のいずれか１項に記載の画像処理装置。
前記取得手段によって取得された前記入力画像における前記処理対象の項目に対応する文字列に基づき、前記入力画像のプロパティを設定する設定手段をさらに有する
ことを特徴とする請求項１から１６のいずれか１項に記載の画像処理装置。
入力画像におけるテキストブロックを検出する検出ステップと、
複数の登録文書の中から、前記入力画像に対応する登録文書を特定する特定ステップと、
前記特定された登録文書において規定されている、処理対象の項目に対応する第１のテキストブロックと前記第１のテキストブロックの近傍に存在する少なくとも１つの第２のテキストブロックとを含む部分レイアウトに基づき、前記入力画像における前記処理対象の項目に対応するテキストブロックの決定をする決定ステップと、
前記決定されたテキストブロックに対して文字認識処理を行うことにより、前記入力画像における前記処理対象の項目に対応する文字列を取得する取得ステップと、
を有することを特徴とする画像処理方法。
コンピュータを、請求項１から１７のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。