JP4594765B2

JP4594765B2 - 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体

Info

Publication number: JP4594765B2
Application number: JP2005064386A
Authority: JP
Inventors: 良規草地; 章鈴木; 賢一荒川; 慎吾安藤
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2005-03-08
Filing date: 2005-03-08
Publication date: 2010-12-08
Anticipated expiration: 2025-03-08
Also published as: JP2006251920A

Description

本発明は、文字列を画像として撮影し、この文字列を識別する画像識別技術に関するものである。この具体的な産業応用システムとして、例えば看板の日本語翻訳システムなどが挙げられる。

景観に存在する文字列識別は、一般的には文字列位置特定、文字領域特定、２値化、及び文字識別という４ステップを経る。しかし、このような技術では、照明変動や複雑な背景などの影響によって、文字列位置特定、文字領域特定、２値化がうまくいかず、文字列識別精度が低いという問題があった。

このような問題を解決するために、景観に存在する文字列識別技術として、全画面探索、文字候補絞込み、及び言語モデルによる文字列推定という３ステップを経る方法がある(例えば、非特許文献１参照。)。
草地良規、伊藤直己、鈴木章、荒川賢一、「画像インデクシングを目的としたテキスト領域不要の景観中文字認識」、電子情報通信学会信学技報ＰＲＭＵ２００４−８９、（２００４−１０）、ｐ.３７−４２

しかしながら、上記方法では、特徴の定義及び識別アルゴリズムに限界があり、背景と文字との区別が完全にはつかず、背景部分に文字候補が多数存在してしまい、言語モデルによる文字列推定がうまく働かないという課題があった。

本発明は、かかる事情に鑑みてなされたものであり、その目的は、上記課題を解決した文字認識技術を提供することにある。

そこで、上記課題を解決するために、請求項１に記載の発明は、画像中の文字を認識する文字認識装置であって、入力した画像を走査しながら局所画像を切り出して特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度に基づいて文字候補を決定する第一段文字認識手段と、前記決定した文字候補について、既に特徴抽出に用いられた特徴とは異なる特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度から前記文字候補の絞込みを行う一以上の異特徴文字認識手段と、を有し、前記第一段文字認識手段と前記一以上の異特徴文字認識手段のうちのいずれか１つの手段が、入力された画像について、複数の方向に線の線幅を検出する線幅検出手段と、前記各方向の線の線幅を特徴値とした特徴ベクトルを出力する出力手段と、を有し、前記線幅検出手段は、線幅を検出する方向および線の線幅に応じた複数のフィルタを生成するフィルタ生成手段と、前記画像と前記複数のフィルタとの一致度を算出する一致度算出手段と、前記算出した一致度において最大の一致度を示すフィルタの線の線幅の値と前記一致度とを乗算して得た値を線の線幅とする線幅計算手段と、を有することを特徴とする。

また、請求項２に記載の発明は、画像中の文字を認識する文字認識装置における文字認識方法であって、第一段文字認識手段が、入力した画像を走査しながら局所画像を切り出して特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度に基づいて文字候補を決定する第一段文字認識ステップと、一以上の異特徴文字認識手段が、前記決定した文字候補について、既に特徴抽出に用いられた特徴とは異なる特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度から前記文字候補の絞込みを行う異特徴文字認識ステップと、を有し、前記第一段文字認識ステップと前記異特徴文字認識ステップのいずれかのステップにおいて、線幅検出手段が、入力された画像について、複数の方向に線の幅を検出する線幅検出ステップと、出力手段が、前記各方向の線の線幅を特徴値とした特徴ベクトルを出力する出力ステップと、を有し、前記線幅検出ステップにおいて、フィルタ生成手段が、線幅を検出する方向および線の線幅に応じた複数のフィルタを生成するフィルタ生成ステップと、一致度算出手段が、前記画像と前記複数のフィルタとの一致度を算出する一致度算出ステップと、線幅計算手段が、前記算出した一致度において最大の一致度を示すフィルタの線の線幅の値と前記一致度とを乗算して得た値を線の線幅とする線幅計算ステップと、を有することを特徴とする。

また、請求項３に記載の発明は、上記請求項１または２いずれかに記載の文字認識装置又は文字認識方法を、コンピュータで実行可能に記載したプログラムを記録したことを特徴とする。

請求項１〜３に記載の発明によれば、第一段文字認識手段で決定した文字候補について、異特徴文字認識手段がさらに絞込みを行うので、背景部分の文字候補を削減することができる。

また、第一段文字認識手段と異特徴文字認識手段とで異なる特徴を組み合わせて絞り込みを行うことで、さらに文字候補を削減することができる。

以下、本発明の実施形態について図面を用いて説明する。

(文字列翻訳システム)
まず図１を用いて、文字認識装置を文字列翻訳システムに適用した例を説明する。文字列翻訳システムは、カメラ付きＰＤＡなどの携帯端末１１、文字認識装置１２、文字列推定装置１３、及び翻訳装置１４から構成される。

この文字列翻訳システムにおいて、ユーザは携帯端末１１にて画像を撮影して文字認識装置１２に送付する。文字認識装置１２は画像から文字候補を抽出して文字列推定装置１３に送付する。文字列推定装置１３は文字候補から文字列を推定して翻訳装置１４に送付する。翻訳装置１４は文字列を翻訳して翻訳結果を携帯端末１１に送付し、ユーザはこの翻訳結果を閲覧することができる。このように文字列翻訳システムにより、ユーザは撮影した文字列の画像を基に、この文字列の翻訳結果を見ることが可能となる。

(文字認識装置)
ここで図２を用いて、文字認識装置１２の構成を説明する。図２に示すように文字認識装置１２は、第一段文字認識手段２１、及びＮ個の異特徴文字認識手段２２−１〜２２−Ｎから構成される。

(第一段文字認識手段)
第一段文字認識手段２１は、画像から文字候補を抽出する手段であり、例えば、「画像インデクシングを目的としたテキスト領域不要の景観中文字認識」、電子情報通信学会信学技報ＰＲＭＵ２００４−８９（２００４−１０）、ｐ.３７−４２、に記載の方法により実現できる。

ここで、第一段文字認識手段２１について、例を挙げて説明する。この第一段文字認識手段２１では、大きさの異なる文字に対応するために、複数解像度画像を生成し、位置をずらしながら、定められた大きさの画像を切り出し、粗密検索を行う。この結果をインデクスとして利用する。画像検索では、キーワードが入力されると、インデクスから該当する文字のみを抽出して規則性を判定し、規則的と判定された画像を結果として出力する。

ここで、粗密探索はパターン学習、及びパターン識別より構成される。以下に、パターン学習、及びパターン識別について説明する。

[パターン学習] パターン学習は、特徴抽出、カテゴリの階層構造の作成、幾何学変形によるパターン生成、及び辞書生成の４つの段階から構成される。

特徴抽出では、文字を正面から撮影した原パターン(ｗ×ｗとする)を用意し、特徴を抽出する。特徴は、加重方向指数ヒストグラム特徴(ＷＤＣＨ)を利用する。ＷＤＣＨはＯＣＲに用いられ、２値画像を対象としていたが、グレー画像に容易に拡張可能である。以下にアルゴリズムの概要を示す。ただし、Ｍ、Ｎは正定数である。
１：原パターンから、ソーベルオペレータを用いて微分の値及び方向を求める。
２：微分の方向をＭ方向に量子化する。
３：原パターンをＮ×Ｎのグリッドに分割する。
４：各グリッドの各Ｍ方向で、微分値の大きさを加算する。
５：Ｎ×Ｎ×Ｍの特徴ベクトルと考え、ノルムを正規化する。

ＷＤＣＨは、微分値をベースとしているため、明るさ変動の影響を受けにくい。また、グリッド内の微分値の和を用いることにより、フォントによる変形などの形状の微小変動を吸収することができる。

カテゴリの階層構造の作成では、特徴ベクトルの類似性から各カテゴリをクラスタリングし、階層構造を作成する。各ノードは、複数のカテゴリが含まれる。最下層のノードでは、単体のカテゴリのみが含まれる。

幾何学変形によるパターン生成では、各カテゴリに対し、視点の変動に伴う文字の変形パターンを生成する。原パターンを回転、垂直スキュー、水平スキュー、縦横比、及び拡大縮小の５パラメータのアフィン変換により幾何学変形する。生成されたパターンの大きさは、原パターンよりも大きくなる場合があるが、現パターンの窓サイズ内の部分パターンのみを用いて特徴を抽出し、この特徴ベクトルを辞書生成に用いる。

辞書生成では、以下の手順で各ノードの辞書を作成する。

第１段階として、特徴圧縮を行う。まず、各階層において、特徴を圧縮する。幾何変形パターンを含む全特徴ベクトルを主成分分析し、上位の固有値を有する固有ベクトルを用いて圧縮する。この圧縮特徴ベクトルをｆ(ｃ，ｒ，ｐ)と表す。ただし、ｃはカテゴリ、ｒは圧縮率、ｐは変形パラメータである。

第２段階として、各ノードでの辞書生成を行う。各ノードのカテゴリ集合をＣとすると、ｆ(Ｃ，ｒ，ｐ)のベクトルを主成分分析し、部分空間Ｅｄ(Ｃ，ｒ)を求める。ただし、ｄは部分空間の次元数であり、寄与率により求めるが、システムにより定められる整数である。

各階層の圧縮率は、下層に向かうに従い低く設定することで粗密探索を実現する。上層では、精度は低いが、高速な識別を行い、下層では、低速であるが高精度な識別を実行する。

[パターン識別] 複数解像度画像全面に位置を動かしながら、大きさＷ×Ｗの小領域を切り出し、パターン識別を行う。パターン識別では、階層構造において複数のルートを辿りながら、粗密探索を実行する。以下にアルゴリズムの概要を示す。
１．特徴抽出：各解像度画像全面に対し位置を変化させつつ、領域を切り出して特徴を抽出する。すべての切り出し領域の特徴をあらかじめ算出しておく。
２．初期化：木構造のルートノードを出発点とする。
３．候補ノードの設定：すべての切り出し領域に、候補ノードとして第一階層のノードをセットする。各切り出し領域に対して、４〜６を繰り返す。
４．圧縮：下層の圧縮率を用いて切り出し領域の特徴を圧縮する。これをＩ’(ｒ)と表す。
５．投影距離計算：以下の式に従い、候補ノードＣの部分空間を用いて投影距離Ｌ(Ｃ)を求める。

ただし、Ｄは部分空間次元である。
６．スクリーニング：上記の距離値から、各候補ノードの順位を計算する。この距離及び順位の閾値から、候補ノードを更新する。
７．ピーク検出：すべての切り出し領域の各候補ノードについて、３次元(縦、横、解像度)の空間的な連結性を算出し、セグメントを求める。各セグメント内の距離値の最小ピークを有する候補ノードのみを残す。その他の候補ノードは削除する。
８．局所領域でのスクリーニング：同一解像度のピークの集合各々に対して以下の処理を行う。まず空間をブロック分割し、各ブロック内に含まれるピークを距離値によってソートして、上位から一定個数以内だけ採用する。その後、ブロック分割の位置を水平／垂直に半ブロックずらして同じ処理を行う。
９．同一候補文字のピーク統合：同一候補文字を持つ２つのピークを取り出して中心座標と解像度が互いに近ければ距離値の小さい方に統合する処理を、統合するピークの対が存在しなくなるまで繰り返す。
１０．候補ノードの更新：候補ノードの下層に接続されたノードを新しい候補ノードとして登録する。
１１．終了判定：最下層に辿り着いていれば残った候補ノードをインデクスとして出力して終了、その他であれば上記４に戻る。インデクスのフォーマットは(カテゴリ名、位置、大きさ、類似度)である。

上記７の空間的な連結性は３次元だけでなく２次元(縦、横)等も考えられる。また、上記７〜９は、処理量削減のための処理であり、精度及び処理量のトレードオフとなる。すべての階層で行う必要はなく、定められた階層のみでおこなえばよい。

[画像検索] 画像検索では、キーワードが文字列として入力されるとパターン識別で得たインデクスの中からパターンが空間的に規則的に配置された個所を探索し、そのような個所が存在するインデクスを有する画像を検索結果として出力する。パターンの空間的な配置の規則として、ここでは、
(１)パターンの大きさがほぼそろっていること
(２)ピッチがほぼ一定であること
(３)ピッチの大きさが個別のパターンの大きさに対して相対的に一定の範囲内に収まっていること
(４)パターンの並ぶ順序が入力された文字列の順序と一致し、かつパターンの並ぶ方向と水平方向又は垂直方向との角度の差が一定の範囲内であることを用いる。

この場合の探索アルゴリズムでは、入力文字列を構成する順方向の任意の２個の文字の組み合わせがインデクスの中で存在する個所をすべて探し、これらの個所で仮想的な入力文字列の開始位置の２次元座標、及び文字送りを表す２次元のベクトルの値を算出し、これらのパラメータで構成される投票空間に投票を行う。ただし、投票の際には、その組み合わせが上記(１)、(３)、(４)の規則に反しないか否かをチェックし、反すると判定した場合には投票を行わない。そして最後に、投票空間の中からスコアが閾値以上の個所の有無を探索する。

このアルゴリズムでは、投票の際に処理対象となる候補文字は２つのカテゴリだけに限定するため偽の候補文字を多く含むインデクスに対しても高速な処理が可能となり、かつ投票処理の特性により部分的な正解の欠落に対してロバスト性を有することになる。

このようにして第一段文字認識手段２１は画像から文字候補(候補カテゴリ、位置、大きさ、類似度)を決定する。

(異特徴文字認識手段)
異特徴文字認識手段２２−１〜２２−Ｎは、文字候補（候補カテゴリ、位置、大きさ、類似度）から文字を認識する手段であり、画像から特徴を抽出した後、部分空間法等により文字識別を行う。なお、部分空間法は、以下の文献に詳細が記載されている。“Ｅ．Ｏｊａ．ＳｕｂｓｐａｃｅＭｅｔｈｏｄｓｏｆＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎｓ．ＲｅｓｅａｒｃｈＳｔｕｄｉｅｓＰｒｅｓｓ，１９８３．”。

例えば、第一段文字認識手段２１は撮影画像から特徴を抽出し、この特徴と辞書に登録された文字の特徴との類似度に基づいて、図３に示すような文字候補の出力をするものとする。これに対し、異特徴文字認識手段２２−Ａは、第一段文字認識手段２１から出力された文字候補情報の位置及び大きさに応じた画像について、第一段文字認識手段２１が用いた特徴とは異なる特徴を抽出し、文字カテゴリの識別を行う。そして中間データとして図４に示すような文字候補のデータを出力する。この文字候補データに対して、さらに異なる異特徴文字認識手段２２−Ｂが、異特徴文字認識手段２２−Ａとは異なる特徴を抽出して、文字候補の絞込みを行う。最後には、各文字候補の距離閾値（例えば、１０００以内）又は順位閾値（例えば、５位以内）等によって、図５のような出力を得る。すなわち、複数の異なる特徴に着目して文字候補の絞込みを行う異特徴文字認識手段２２を用いて処理を行うことにより、文字候補を削減することができる。

(第一段文字認識手段と異特徴文字認識手段とが特徴抽出手段を共有)
ここで図６を用いて、第一段文字認識手段２１と異特徴文字認識手段２２とが特徴抽出手段６１を共有する場合について説明する。図６に示すように、第一段文字認識手段２１と異特徴文字認識手段２２とが特徴抽出手段６１をシュアしており、そのパラメータのみが異なるものとする。

例えば、図７〜図９を用いて、特徴抽出手段６１がパラメータとしてブロック数を入力可能な拡張加重方向指数ヒストグラムを用いる場合について説明する。

図７は、拡張加重方向指数ヒストグラムの処理の流れを示した図である。図７に示すように、
エッジの方向／大きさを求める(Ｓ７１)。

エッジの方向を量子化する(Ｓ７２)。

ブロック分割をする(Ｓ７３)。

各ブロック／各量子化方向でエッジの大きさの和を計算する(Ｓ７４)。

平滑化を行う(Ｓ７５)。

各値を１つの特徴ベクトルの要素とみなしてノルムの大きさを正規化する(Ｓ７６)。

上記の処理を経て拡張加重方向指数ヒストグラムの処理を行う。

なお、上記Ｓ７２、Ｓ７４、Ｓ７５については、加重方向指数ヒストグラムの詳細を記載した以下の文献に詳細が記載される。「Ｔ．Ｗａｋａｂａｙａｓｈｉ，Ｓ．Ｔｓｕｒｕｏｋａ，Ｆ．Ｋｉｍｕｒａ，Ｙ．Ｍｉｙａｋｅ，“ＡｃｃｕｒａｃｙＩｍｐｒｏｖｅｍｅｎｔｔｈｒｏｕｇｈＩｎｃｒｅａｓｅｄＦｅａｔｕｒｅＳｉｚｅｉｎＨａｎｄｗｒｉｔｔｅｎＮｕｍｅｒａｌＲｅｃｏｇｎｉｔｉｏｎ”，ＩＥＩＣＥ，Ｖｏｌ．Ｊ７７−Ｄ−ＩＩ，Ｎｏ．１０，ｐｐ．２０４６−２０５３，１９９４（ｉｎＪａｐａｎｅｓｅ）」。

Ｓ７１では、図８に示すように、エッジの大きさ及び方向を求める。具体的な例としては、縦と横のソーベルオペレータを用いて算出することができる。

Ｓ７３では、図９に示すように、ブロック数が８である場合は、画像を８×８のブロックに分割する。また、ブロック数が４である場合は、画像を４×４のブロックに分割する。

Ｓ７６では、一般的な技術を用いて、各値を１つの特徴ベクトルの要素とみなしてノルムの大きさを正規化することができる。

このように、第一段文字認識手段２１で用いる特徴と異特徴文字認識手段２２で用いる特徴とがパラメータのみが異なるものを用いることにより、識別率を低下させずに文字候補を削減することが可能となる。

(第一段文字認識手段と異特徴文字認識手段とが異なる特徴を用いる)
ここで、図１０を用いて、第一段文字認識手段２１が加重方向指数ヒストグラム特徴抽出手段１０１を有し、異特徴文字認識手段２２が線幅特徴抽出手段１０２を有する場合について説明する。なお、第一段文字認識手段２１が線幅特徴抽出手段１０２を有し、異特徴文字認識手段２２が加重方向指数ヒストグラム特徴抽出手段１０１を有してもよい。

(線幅特徴抽出手段)
図１１を用いて線幅特徴抽出手段１０２について説明する。図１１は、線幅特徴抽出手段１０２の構成図である。図１１に示すように線幅特徴抽出手段１０２は、文字パターン群又は画像（画像パターンと呼ぶ）を入力する画像入力手段１１１、任意の画素において複数の方向の線幅を検出する線幅検出手段１１２、及び各画素の各方向の線幅を特徴値とした特徴ベクトルとして出力する出力手段１１３から構成される。

図１２は、線幅検出の計算例であって、「ア」の画像に対して０度、４５度、９０度、及び１３５度の方向の線幅を算出する。例えば、局所的に２値化を行い、各方向の連結の長さを測定する。図１２に示すように各画素で４つの方向の線幅値が得られ、これを特徴ベクトルとみなす（ただし、数値の記載がない画素の線幅の値は０である）。特徴ベクトルの次元は、方向数×画素数である。

ここで図１３を用いて線幅ヒストグラム計算手段１３３を有する線幅特徴抽出手段１０２について説明する。図１３に示すように線幅ヒストグラム計算手段１３３を有する線幅特徴抽出手段１０２は、文字パターン群又は画像（画像パターンと呼ぶ）を入力する画像入力手段１３１、任意の画素において複数の方向の線幅を検出する線幅検出手段１３２、定められた局所領域内において方向別に線幅のヒストグラムを計算する線幅ヒストグラム計算手段１３３、及び各局所領域の各方向の線幅のヒストグラムを特徴値とした特徴ベクトルとして出力する出力手段１３４から構成される。

図１４は、線幅ヒストグラムの計算例である。図１４に示すように、図１３の線幅検出手段１３２にて算出された線幅に対し、画像に対して局所領域を設定し、局所領域内で角度方向別に、線幅の大きさを加算する。ここでは、０度の中央付近の局所領域では、各画素の線幅が１、１、０．５であるため、これらを加算して２．５となる。図１４に示すように、各領域で４つの方向の線幅ヒストグラムが得られ、これを特徴ベクトルとみなす。特徴ベクトルの次元は、方向数×局所領域数である。なお、局所領域は、例えば画像を格子状に単純に分割することにより求める。

(線幅検出手段)
ここで図１５を用いて線幅検出手段１１２、１３２について説明する。図１５に示すように、線幅検出手段１１２、１３２は、任意の方向および線幅に応じた複数のフィルタを算出するフィルタ生成手段１５１、着目画素を中心とした領域と複数のフィルタとの一致度を算出する一致度算出手段１５２、及び最大の一致度を示すフィルタの線幅の大きさと一致度とを乗算して線幅とする線幅計算手段１５３から構成される。

図１６は、フィルタ生成手段１５１により生成されるフィルタの例である。図１６に示すように、４方向、かつ３種類の線幅を検出するフィルタ例である。この場合の線幅は２、３、４である。

(一致度計算手段)
一致度計算手段１５２では、生成した各フィルタと着目画素を中心とした領域との一致度を計算する。ここで、図１７に一致度計算手段１５２の構成について説明する。図１７に示すように、一致度計算手段１５２は正規化相関手段１７１を有している。この正規化相関手段１７１は、フィルタ生成手段１５１が生成したフィルタ並びに文字パターン群若しくは画像を入力して、フィルタと文字パターン群又は画像との正規化相関値を算出し、この正規化相関値を一致度として出力する。この正規化相関値の算出においては、例えば、内積値や距離などを用いることができる。

このように、第一段文字認識手段２１が加重方向指数ヒストグラム特徴抽出手段１０１を有し、異特徴文字認識手段２２が線幅特徴抽出手段１０２を有する、すなわち、第一段文字認識手段２１と異特徴文字認識手段２２とがまったく原理の異なる特徴を組み合わせることにより、若干の識別率の低下を伴うが劇的に文字候補を削減することが可能となる。

(プログラム等)
なお、上記実施形態において、文字認識装置は、例えば、文字認識装置を構成するコンピュータ装置が有するＣＰＵによって実現され、必要とする第一段文字認識処理、異特徴文字認識処理、特徴抽出処理、拡張加重方向指数ヒストグラム特徴抽出処理、線幅特徴抽出処理、正規化相関計算処理などをアプリケーションプログラムとして搭載することができる。

また、第一段文字認識処理、異特徴文字認識処理、特徴抽出処理、拡張加重方向指数ヒストグラム特徴抽出処理、線幅特徴抽出処理、正規化相関計算処理などで行った処理結果や計算結果等のデータを内部メモリや外部記憶装置等に書き込み・読み出しができるようにしてもよい。

また、本実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システム又は装置に供給し、そのシステム又は装置のＣＰＵ（ＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することも可能である。この場合、記憶媒体から読み出されたプログラムコード自体が上記実施形態の機能を実現することになり、このプログラムコードを記憶した記憶媒体としては、例えば、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＭＯ、ＨＤＤ等がある。

文字列翻訳システムの構成図。文字認識装置の構成図。第一段文字認識手段の出力例。異特徴文字認識手段の出力例。異特徴文字認識手段の出力例。第一段文字認識手段と異特徴文字認識手段との特徴抽出手段の共有例。拡張加重方向指数ヒストグラムの処理フロー図。エッジの大きさ及び方向を求める例を示す図。画像をブロックに分割する例を示す図。第一段文字認識手段と異特徴文字認識手段との構成図。線幅特徴抽出手段の構成図。線幅検出の計算例を示す図。線幅特徴抽出手段の構成図。線幅ヒストグラムの計算例を示す図。線幅検出手段の構成図。フィルタ生成手段により生成されるフィルタの例を示す図。一致度算出手段の構成図。

符号の説明

１１…携帯端末
１２…文字認識装置
１３…文字列推定装置
１４…翻訳装置
２１…第一段文字認識手段
２２…異特徴文字認識手段
６１…特徴抽出手段
１０１…拡張加重方向指数ヒストグラム特徴抽出手段
１０２…線幅特徴抽出手段
１１１…画像入力手段
１１２…線幅検出手段
１１３…出力手段
１３１…画像入力手段
１３２…線幅検出手段
１３３…線幅ヒストグラム計算手段
１３４…出力手段
１５１…フィルタ生成手段
１５２…一致度計算手段
１５３…線幅計算手段
１７１…正規化相関手段

Claims

画像中の文字を認識する文字認識装置であって、
入力した画像を走査しながら局所画像を切り出して特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度に基づいて文字候補を決定する第一段文字認識手段と、
前記決定した文字候補について、既に特徴抽出に用いられた特徴とは異なる特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度から前記文字候補の絞込みを行う一以上の異特徴文字認識手段と、を有し、
前記第一段文字認識手段と前記一以上の異特徴文字認識手段のうちのいずれか１つの手段が、
入力された画像について、複数の方向に線の線幅を検出する線幅検出手段と、
前記各方向の線の線幅を特徴値とした特徴ベクトルを出力する出力手段と、を有し、
前記線幅検出手段は、
線幅を検出する方向および線の線幅に応じた複数のフィルタを生成するフィルタ生成手段と、
前記画像と前記複数のフィルタとの一致度を算出する一致度算出手段と、
前記算出した一致度において最大の一致度を示すフィルタの線の線幅の値と前記一致度とを乗算して得た値を線の線幅とする線幅計算手段と、
を有することを特徴とする文字認識装置。
画像中の文字を認識する文字認識装置における文字認識方法であって、
第一段文字認識手段が、入力した画像を走査しながら局所画像を切り出して特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度に基づいて文字候補を決定する第一段文字認識ステップと、
一以上の異特徴文字認識手段が、前記決定した文字候補について、既に特徴抽出に用いられた特徴とは異なる特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度から前記文字候補の絞込みを行う異特徴文字認識ステップと、を有し、
前記第一段文字認識ステップと前記異特徴文字認識ステップのいずれかのステップにおいて、
線幅検出手段が、入力された画像について、複数の方向に線の幅を検出する線幅検出ステップと、
出力手段が、前記各方向の線の線幅を特徴値とした特徴ベクトルを出力する出力ステップと、を有し、
前記線幅検出ステップにおいて、
フィルタ生成手段が、線幅を検出する方向および線の線幅に応じた複数のフィルタを生成するフィルタ生成ステップと、
一致度算出手段が、前記画像と前記複数のフィルタとの一致度を算出する一致度算出ステップと、
線幅計算手段が、前記算出した一致度において最大の一致度を示すフィルタの線の線幅の値と前記一致度とを乗算して得た値を線の線幅とする線幅計算ステップと、
を有することを特徴とする文字認識方法。
上記請求項１または２いずれかに記載の文字認識装置又は文字認識方法を、コンピュータで実行可能に記載したプログラムを記録したことを特徴とする記録媒体。