JP4594765B2 - 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体 - Google Patents

文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体 Download PDF

Info

Publication number
JP4594765B2
JP4594765B2 JP2005064386A JP2005064386A JP4594765B2 JP 4594765 B2 JP4594765 B2 JP 4594765B2 JP 2005064386 A JP2005064386 A JP 2005064386A JP 2005064386 A JP2005064386 A JP 2005064386A JP 4594765 B2 JP4594765 B2 JP 4594765B2
Authority
JP
Japan
Prior art keywords
feature
character recognition
character
line width
coincidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005064386A
Other languages
English (en)
Other versions
JP2006251920A (ja
Inventor
良規 草地
章 鈴木
賢一 荒川
慎吾 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005064386A priority Critical patent/JP4594765B2/ja
Publication of JP2006251920A publication Critical patent/JP2006251920A/ja
Application granted granted Critical
Publication of JP4594765B2 publication Critical patent/JP4594765B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、文字列を画像として撮影し、この文字列を識別する画像識別技術に関するものである。この具体的な産業応用システムとして、例えば看板の日本語翻訳システムなどが挙げられる。
景観に存在する文字列識別は、一般的には文字列位置特定、文字領域特定、2値化、及び文字識別という4ステップを経る。しかし、このような技術では、照明変動や複雑な背景などの影響によって、文字列位置特定、文字領域特定、2値化がうまくいかず、文字列識別精度が低いという問題があった。
このような問題を解決するために、景観に存在する文字列識別技術として、全画面探索、文字候補絞込み、及び言語モデルによる文字列推定という3ステップを経る方法がある(例えば、非特許文献1参照。)。
草地良規、伊藤直己、鈴木章、荒川賢一、「画像インデクシングを目的としたテキスト領域不要の景観中文字認識」、電子情報通信学会 信学技報 PRMU2004−89、(2004−10)、p.37−42
しかしながら、上記方法では、特徴の定義及び識別アルゴリズムに限界があり、背景と文字との区別が完全にはつかず、背景部分に文字候補が多数存在してしまい、言語モデルによる文字列推定がうまく働かないという課題があった。
本発明は、かかる事情に鑑みてなされたものであり、その目的は、上記課題を解決した文字認識技術を提供することにある。
そこで、上記課題を解決するために、請求項1に記載の発明は、画像中の文字を認識する文字認識装置であって、入力した画像を走査しながら局所画像を切り出して特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度に基づいて文字候補を決定する第一段文字認識手段と、前記決定した文字候補について、既に特徴抽出に用いられた特徴とは異なる特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度から前記文字候補の絞込みを行う一以上の異特徴文字認識手段と、を有し、前記第一段文字認識手段と前記一以上の異特徴文字認識手段のうちのいずれか1つの手段が、入力された画像について、複数の方向に線の線幅を検出する線幅検出手段と、前記各方向の線の線幅を特徴値とした特徴ベクトルを出力する出力手段と、を有し、前記線幅検出手段は、線幅を検出する方向および線の線幅に応じた複数のフィルタを生成するフィルタ生成手段と、前記画像と前記複数のフィルタとの一致度を算出する一致度算出手段と前記算出した一致度において最大の一致度を示すフィルタの線の線幅の値と前記一致度とを乗算して得た値を線の線幅とする線幅計算手段と、を有することを特徴とする。
また、請求項に記載の発明は、画像中の文字を認識する文字認識装置における文字認識方法であって、第一段文字認識手段が、入力した画像を走査しながら局所画像を切り出して特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度に基づいて文字候補を決定する第一段文字認識ステップと、一以上の異特徴文字認識手段が、前記決定した文字候補について、既に特徴抽出に用いられた特徴とは異なる特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度から前記文字候補の絞込みを行う異特徴文字認識ステップと、を有し、前記第一段文字認識ステップと前記異特徴文字認識ステップのいずれかのステップにおいて、線幅検出手段が、入力された画像について、複数の方向に線の幅を検出する線幅検出ステップと、出力手段が、前記各方向の線の線幅を特徴値とした特徴ベクトルを出力する出力ステップと、を有し、前記線幅検出ステップにおいて、フィルタ生成手段が、線幅を検出する方向および線の線幅に応じた複数のフィルタを生成するフィルタ生成ステップと、一致度算出手段が、前記画像と前記複数のフィルタとの一致度を算出する一致度算出ステップと、線幅計算手段が、前記算出した一致度において最大の一致度を示すフィルタの線の線幅の値と前記一致度とを乗算して得た値を線の線幅とする線幅計算ステップと、を有することを特徴とする。
また、請求項に記載の発明は、上記請求項1または2いずれかに記載の文字認識装置又は文字認識方法を、コンピュータで実行可能に記載したプログラムを記録したことを特徴とする。
請求項1〜に記載の発明によれば、第一段文字認識手段で決定した文字候補について、異特徴文字認識手段がさらに絞込みを行うので、背景部分の文字候補を削減することができる。
また、第一段文字認識手段と異特徴文字認識手段とで異なる特徴を組み合わせて絞り込みを行うことで、さらに文字候補を削減することができる。

以下、本発明の実施形態について図面を用いて説明する。
(文字列翻訳システム)
まず図1を用いて、文字認識装置を文字列翻訳システムに適用した例を説明する。文字列翻訳システムは、カメラ付きPDAなどの携帯端末11、文字認識装置12、文字列推定装置13、及び翻訳装置14から構成される。
この文字列翻訳システムにおいて、ユーザは携帯端末11にて画像を撮影して文字認識装置12に送付する。文字認識装置12は画像から文字候補を抽出して文字列推定装置13に送付する。文字列推定装置13は文字候補から文字列を推定して翻訳装置14に送付する。翻訳装置14は文字列を翻訳して翻訳結果を携帯端末11に送付し、ユーザはこの翻訳結果を閲覧することができる。このように文字列翻訳システムにより、ユーザは撮影した文字列の画像を基に、この文字列の翻訳結果を見ることが可能となる。
(文字認識装置)
ここで図2を用いて、文字認識装置12の構成を説明する。図2に示すように文字認識装置12は、第一段文字認識手段21、及びN個の異特徴文字認識手段22−1〜22−Nから構成される。
(第一段文字認識手段)
第一段文字認識手段21は、画像から文字候補を抽出する手段であり、例えば、「画像インデクシングを目的としたテキスト領域不要の景観中文字認識」、電子情報通信学会 信学技報 PRMU2004−89(2004−10)、p.37−42、に記載の方法により実現できる。
ここで、第一段文字認識手段21について、例を挙げて説明する。この第一段文字認識手段21では、大きさの異なる文字に対応するために、複数解像度画像を生成し、位置をずらしながら、定められた大きさの画像を切り出し、粗密検索を行う。この結果をインデクスとして利用する。画像検索では、キーワードが入力されると、インデクスから該当する文字のみを抽出して規則性を判定し、規則的と判定された画像を結果として出力する。
ここで、粗密探索はパターン学習、及びパターン識別より構成される。以下に、パターン学習、及びパターン識別について説明する。
[パターン学習] パターン学習は、特徴抽出、カテゴリの階層構造の作成、幾何学変形によるパターン生成、及び辞書生成の4つの段階から構成される。
特徴抽出では、文字を正面から撮影した原パターン(w×wとする)を用意し、特徴を抽出する。特徴は、加重方向指数ヒストグラム特徴(WDCH)を利用する。WDCHはOCRに用いられ、2値画像を対象としていたが、グレー画像に容易に拡張可能である。以下にアルゴリズムの概要を示す。ただし、M、Nは正定数である。
1:原パターンから、ソーベルオペレータを用いて微分の値及び方向を求める。
2:微分の方向をM方向に量子化する。
3:原パターンをN×Nのグリッドに分割する。
4:各グリッドの各M方向で、微分値の大きさを加算する。
5:N×N×Mの特徴ベクトルと考え、ノルムを正規化する。
WDCHは、微分値をベースとしているため、明るさ変動の影響を受けにくい。また、グリッド内の微分値の和を用いることにより、フォントによる変形などの形状の微小変動を吸収することができる。
カテゴリの階層構造の作成では、特徴ベクトルの類似性から各カテゴリをクラスタリングし、階層構造を作成する。各ノードは、複数のカテゴリが含まれる。最下層のノードでは、単体のカテゴリのみが含まれる。
幾何学変形によるパターン生成では、各カテゴリに対し、視点の変動に伴う文字の変形パターンを生成する。原パターンを回転、垂直スキュー、水平スキュー、縦横比、及び拡大縮小の5パラメータのアフィン変換により幾何学変形する。生成されたパターンの大きさは、原パターンよりも大きくなる場合があるが、現パターンの窓サイズ内の部分パターンのみを用いて特徴を抽出し、この特徴ベクトルを辞書生成に用いる。
辞書生成では、以下の手順で各ノードの辞書を作成する。
第1段階として、特徴圧縮を行う。まず、各階層において、特徴を圧縮する。幾何変形パターンを含む全特徴ベクトルを主成分分析し、上位の固有値を有する固有ベクトルを用いて圧縮する。この圧縮特徴ベクトルをf(c,r,p)と表す。ただし、cはカテゴリ、rは圧縮率、pは変形パラメータである。
第2段階として、各ノードでの辞書生成を行う。各ノードのカテゴリ集合をCとすると、f(C,r,p)のベクトルを主成分分析し、部分空間Ed(C,r)を求める。ただし、dは部分空間の次元数であり、寄与率により求めるが、システムにより定められる整数である。
各階層の圧縮率は、下層に向かうに従い低く設定することで粗密探索を実現する。上層では、精度は低いが、高速な識別を行い、下層では、低速であるが高精度な識別を実行する。
[パターン識別] 複数解像度画像全面に位置を動かしながら、大きさW×Wの小領域を切り出し、パターン識別を行う。パターン識別では、階層構造において複数のルートを辿りながら、粗密探索を実行する。以下にアルゴリズムの概要を示す。
1.特徴抽出:各解像度画像全面に対し位置を変化させつつ、領域を切り出して特徴を抽出する。すべての切り出し領域の特徴をあらかじめ算出しておく。
2.初期化:木構造のルートノードを出発点とする。
3.候補ノードの設定:すべての切り出し領域に、候補ノードとして第一階層のノードをセットする。各切り出し領域に対して、4〜6を繰り返す。
4.圧縮:下層の圧縮率を用いて切り出し領域の特徴を圧縮する。これをI’(r)と表す。
5.投影距離計算:以下の式に従い、候補ノードCの部分空間を用いて投影距離L(C)を求める。
ただし、Dは部分空間次元である。
6.スクリーニング:上記の距離値から、各候補ノードの順位を計算する。この距離及び順位の閾値から、候補ノードを更新する。
7.ピーク検出:すべての切り出し領域の各候補ノードについて、3次元(縦、横、解像度)の空間的な連結性を算出し、セグメントを求める。各セグメント内の距離値の最小ピークを有する候補ノードのみを残す。その他の候補ノードは削除する。
8.局所領域でのスクリーニング:同一解像度のピークの集合各々に対して以下の処理を行う。まず空間をブロック分割し、各ブロック内に含まれるピークを距離値によってソートして、上位から一定個数以内だけ採用する。その後、ブロック分割の位置を水平/垂直に半ブロックずらして同じ処理を行う。
9.同一候補文字のピーク統合:同一候補文字を持つ2つのピークを取り出して中心座標と解像度が互いに近ければ距離値の小さい方に統合する処理を、統合するピークの対が存在しなくなるまで繰り返す。
10.候補ノードの更新:候補ノードの下層に接続されたノードを新しい候補ノードとして登録する。
11.終了判定:最下層に辿り着いていれば残った候補ノードをインデクスとして出力して終了、その他であれば上記4に戻る。インデクスのフォーマットは(カテゴリ名、位置、大きさ、類似度)である。
上記7の空間的な連結性は3次元だけでなく2次元(縦、横)等も考えられる。また、上記7〜9は、処理量削減のための処理であり、精度及び処理量のトレードオフとなる。すべての階層で行う必要はなく、定められた階層のみでおこなえばよい。
[画像検索] 画像検索では、キーワードが文字列として入力されるとパターン識別で得たインデクスの中からパターンが空間的に規則的に配置された個所を探索し、そのような個所が存在するインデクスを有する画像を検索結果として出力する。パターンの空間的な配置の規則として、ここでは、
(1)パターンの大きさがほぼそろっていること
(2)ピッチがほぼ一定であること
(3)ピッチの大きさが個別のパターンの大きさに対して相対的に一定の範囲内に収まっていること
(4)パターンの並ぶ順序が入力された文字列の順序と一致し、かつパターンの並ぶ方向と水平方向又は垂直方向との角度の差が一定の範囲内であることを用いる。
この場合の探索アルゴリズムでは、入力文字列を構成する順方向の任意の2個の文字の組み合わせがインデクスの中で存在する個所をすべて探し、これらの個所で仮想的な入力文字列の開始位置の2次元座標、及び文字送りを表す2次元のベクトルの値を算出し、これらのパラメータで構成される投票空間に投票を行う。ただし、投票の際には、その組み合わせが上記(1)、(3)、(4)の規則に反しないか否かをチェックし、反すると判定した場合には投票を行わない。そして最後に、投票空間の中からスコアが閾値以上の個所の有無を探索する。
このアルゴリズムでは、投票の際に処理対象となる候補文字は2つのカテゴリだけに限定するため偽の候補文字を多く含むインデクスに対しても高速な処理が可能となり、かつ投票処理の特性により部分的な正解の欠落に対してロバスト性を有することになる。
このようにして第一段文字認識手段21は画像から文字候補(候補カテゴリ、位置、大きさ、類似度)を決定する。
(異特徴文字認識手段)
異特徴文字認識手段22−1〜22−Nは、文字候補(候補カテゴリ、位置、大きさ、類似度)から文字を認識する手段であり、画像から特徴を抽出した後、部分空間法等により文字識別を行う。なお、部分空間法は、以下の文献に詳細が記載されている。“E.Oja.Subspace Methods of Pattern Recognitions.Research Studies Press,1983.”。
例えば、第一段文字認識手段21は撮影画像から特徴を抽出し、この特徴と辞書に登録された文字の特徴との類似度に基づいて、図3に示すような文字候補の出力をするものとする。これに対し、異特徴文字認識手段22−Aは、第一段文字認識手段21から出力された文字候補情報の位置及び大きさに応じた画像について、第一段文字認識手段21が用いた特徴とは異なる特徴を抽出し、文字カテゴリの識別を行う。そして中間データとして図4に示すような文字候補のデータを出力する。この文字候補データに対して、さらに異なる異特徴文字認識手段22−Bが、異特徴文字認識手段22−Aとは異なる特徴を抽出して、文字候補の絞込みを行う。最後には、各文字候補の距離閾値(例えば、1000以内)又は順位閾値(例えば、5位以内)等によって、図5のような出力を得る。すなわち、複数の異なる特徴に着目して文字候補の絞込みを行う異特徴文字認識手段22を用いて処理を行うことにより、文字候補を削減することができる。
(第一段文字認識手段と異特徴文字認識手段とが特徴抽出手段を共有)
ここで図6を用いて、第一段文字認識手段21と異特徴文字認識手段22とが特徴抽出手段61を共有する場合について説明する。図6に示すように、第一段文字認識手段21と異特徴文字認識手段22とが特徴抽出手段61をシュアしており、そのパラメータのみが異なるものとする。
例えば、図7〜図9を用いて、特徴抽出手段61がパラメータとしてブロック数を入力可能な拡張加重方向指数ヒストグラムを用いる場合について説明する。
図7は、拡張加重方向指数ヒストグラムの処理の流れを示した図である。図7に示すように、
エッジの方向/大きさを求める(S71)。
エッジの方向を量子化する(S72)。
ブロック分割をする(S73)。
各ブロック/各量子化方向でエッジの大きさの和を計算する(S74)。
平滑化を行う(S75)。
各値を1つの特徴ベクトルの要素とみなしてノルムの大きさを正規化する(S76)。
上記の処理を経て拡張加重方向指数ヒストグラムの処理を行う。
なお、上記S72、S74、S75については、加重方向指数ヒストグラムの詳細を記載した以下の文献に詳細が記載される。「T.Wakabayashi,S.Tsuruoka,F.Kimura,Y.Miyake,“Accuracy Improvement through Increased Feature Size in Handwritten Numeral Recognition”,IEICE,Vol.J77−D−II,No.10,pp.2046−2053,1994(in Japanese)」。
S71では、図8に示すように、エッジの大きさ及び方向を求める。具体的な例としては、縦と横のソーベルオペレータを用いて算出することができる。
S73では、図9に示すように、ブロック数が8である場合は、画像を8×8のブロックに分割する。また、ブロック数が4である場合は、画像を4×4のブロックに分割する。
S76では、一般的な技術を用いて、各値を1つの特徴ベクトルの要素とみなしてノルムの大きさを正規化することができる。
このように、第一段文字認識手段21で用いる特徴と異特徴文字認識手段22で用いる特徴とがパラメータのみが異なるものを用いることにより、識別率を低下させずに文字候補を削減することが可能となる。
(第一段文字認識手段と異特徴文字認識手段とが異なる特徴を用いる)
ここで、図10を用いて、第一段文字認識手段21が加重方向指数ヒストグラム特徴抽出手段101を有し、異特徴文字認識手段22が線幅特徴抽出手段102を有する場合について説明する。なお、第一段文字認識手段21が線幅特徴抽出手段102を有し、異特徴文字認識手段22が加重方向指数ヒストグラム特徴抽出手段101を有してもよい。
(線幅特徴抽出手段)
図11を用いて線幅特徴抽出手段102について説明する。図11は、線幅特徴抽出手段102の構成図である。図11に示すように線幅特徴抽出手段102は、文字パターン群又は画像(画像パターンと呼ぶ)を入力する画像入力手段111、任意の画素において複数の方向の線幅を検出する線幅検出手段112、及び各画素の各方向の線幅を特徴値とした特徴ベクトルとして出力する出力手段113から構成される。
図12は、線幅検出の計算例であって、「ア」の画像に対して0度、45度、90度、及び135度の方向の線幅を算出する。例えば、局所的に2値化を行い、各方向の連結の長さを測定する。図12に示すように各画素で4つの方向の線幅値が得られ、これを特徴ベクトルとみなす(ただし、数値の記載がない画素の線幅の値は0である)。特徴ベクトルの次元は、方向数×画素数である。
ここで図13を用いて線幅ヒストグラム計算手段133を有する線幅特徴抽出手段102について説明する。図13に示すように線幅ヒストグラム計算手段133を有する線幅特徴抽出手段102は、文字パターン群又は画像(画像パターンと呼ぶ)を入力する画像入力手段131、任意の画素において複数の方向の線幅を検出する線幅検出手段132、定められた局所領域内において方向別に線幅のヒストグラムを計算する線幅ヒストグラム計算手段133、及び各局所領域の各方向の線幅のヒストグラムを特徴値とした特徴ベクトルとして出力する出力手段134から構成される。
図14は、線幅ヒストグラムの計算例である。図14に示すように、図13の線幅検出手段132にて算出された線幅に対し、画像に対して局所領域を設定し、局所領域内で角度方向別に、線幅の大きさを加算する。ここでは、0度の中央付近の局所領域では、各画素の線幅が1、1、0.5であるため、これらを加算して2.5となる。図14に示すように、各領域で4つの方向の線幅ヒストグラムが得られ、これを特徴ベクトルとみなす。特徴ベクトルの次元は、方向数×局所領域数である。なお、局所領域は、例えば画像を格子状に単純に分割することにより求める。
(線幅検出手段)
ここで図15を用いて線幅検出手段112、132について説明する。図15に示すように、線幅検出手段112、132は、任意の方向および線幅に応じた複数のフィルタを算出するフィルタ生成手段151、着目画素を中心とした領域と複数のフィルタとの一致度を算出する一致度算出手段152、及び最大の一致度を示すフィルタの線幅の大きさと一致度とを乗算して線幅とする線幅計算手段153から構成される。
図16は、フィルタ生成手段151により生成されるフィルタの例である。図16に示すように、4方向、かつ3種類の線幅を検出するフィルタ例である。この場合の線幅は2、3、4である。
(一致度計算手段)
一致度計算手段152では、生成した各フィルタと着目画素を中心とした領域との一致度を計算する。ここで、図17に一致度計算手段152の構成について説明する。図17に示すように、一致度計算手段152は正規化相関手段171を有している。この正規化相関手段171は、フィルタ生成手段151が生成したフィルタ並びに文字パターン群若しくは画像を入力して、フィルタと文字パターン群又は画像との正規化相関値を算出し、この正規化相関値を一致度として出力する。この正規化相関値の算出においては、例えば、内積値や距離などを用いることができる。
このように、第一段文字認識手段21が加重方向指数ヒストグラム特徴抽出手段101を有し、異特徴文字認識手段22が線幅特徴抽出手段102を有する、すなわち、第一段文字認識手段21と異特徴文字認識手段22とがまったく原理の異なる特徴を組み合わせることにより、若干の識別率の低下を伴うが劇的に文字候補を削減することが可能となる。
(プログラム等)
なお、上記実施形態において、文字認識装置は、例えば、文字認識装置を構成するコンピュータ装置が有するCPUによって実現され、必要とする第一段文字認識処理、異特徴文字認識処理、特徴抽出処理、拡張加重方向指数ヒストグラム特徴抽出処理、線幅特徴抽出処理、正規化相関計算処理などをアプリケーションプログラムとして搭載することができる。
また、第一段文字認識処理、異特徴文字認識処理、特徴抽出処理、拡張加重方向指数ヒストグラム特徴抽出処理、線幅特徴抽出処理、正規化相関計算処理などで行った処理結果や計算結果等のデータを内部メモリや外部記憶装置等に書き込み・読み出しができるようにしてもよい。
また、本実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システム又は装置に供給し、そのシステム又は装置のCPU(MPU)が記憶媒体に格納されたプログラムコードを読み出し実行することも可能である。この場合、記憶媒体から読み出されたプログラムコード自体が上記実施形態の機能を実現することになり、このプログラムコードを記憶した記憶媒体としては、例えば、CD−ROM、DVD−ROM、CD−R、CD−RW、MO、HDD等がある。
文字列翻訳システムの構成図。 文字認識装置の構成図。 第一段文字認識手段の出力例。 異特徴文字認識手段の出力例。 異特徴文字認識手段の出力例。 第一段文字認識手段と異特徴文字認識手段との特徴抽出手段の共有例。 拡張加重方向指数ヒストグラムの処理フロー図。 エッジの大きさ及び方向を求める例を示す図。 画像をブロックに分割する例を示す図。 第一段文字認識手段と異特徴文字認識手段との構成図。 線幅特徴抽出手段の構成図。 線幅検出の計算例を示す図。 線幅特徴抽出手段の構成図。 線幅ヒストグラムの計算例を示す図。 線幅検出手段の構成図。 フィルタ生成手段により生成されるフィルタの例を示す図。 一致度算出手段の構成図。
符号の説明
11…携帯端末
12…文字認識装置
13…文字列推定装置
14…翻訳装置
21…第一段文字認識手段
22…異特徴文字認識手段
61…特徴抽出手段
101…拡張加重方向指数ヒストグラム特徴抽出手段
102…線幅特徴抽出手段
111…画像入力手段
112…線幅検出手段
113…出力手段
131…画像入力手段
132…線幅検出手段
133…線幅ヒストグラム計算手段
134…出力手段
151…フィルタ生成手段
152…一致度計算手段
153…線幅計算手段
171…正規化相関手段

Claims (3)

  1. 画像中の文字を認識する文字認識装置であって、
    入力した画像を走査しながら局所画像を切り出して特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度に基づいて文字候補を決定する第一段文字認識手段と、
    前記決定した文字候補について、既に特徴抽出に用いられた特徴とは異なる特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度から前記文字候補の絞込みを行う一以上の異特徴文字認識手段と、を有し、
    前記第一段文字認識手段と前記一以上の異特徴文字認識手段のうちのいずれか1つの手段が、
    入力された画像について、複数の方向に線の線幅を検出する線幅検出手段と、
    前記各方向の線の線幅を特徴値とした特徴ベクトルを出力する出力手段と、を有し、
    前記線幅検出手段は、
    線幅を検出する方向および線の線幅に応じた複数のフィルタを生成するフィルタ生成手段と、
    前記画像と前記複数のフィルタとの一致度を算出する一致度算出手段と
    前記算出した一致度において最大の一致度を示すフィルタの線の線幅の値と前記一致度とを乗算して得た値を線の線幅とする線幅計算手段と、
    を有することを特徴とする文字認識装置。
  2. 画像中の文字を認識する文字認識装置における文字認識方法であって、
    第一段文字認識手段が、入力した画像を走査しながら局所画像を切り出して特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度に基づいて文字候補を決定する第一段文字認識ステップと、
    一以上の異特徴文字認識手段が、前記決定した文字候補について、既に特徴抽出に用いられた特徴とは異なる特徴を抽出し、当該特徴と辞書に登録された文字の特徴との類似度から前記文字候補の絞込みを行う異特徴文字認識ステップと、を有し、
    前記第一段文字認識ステップと前記異特徴文字認識ステップのいずれかのステップにおいて、
    線幅検出手段が、入力された画像について、複数の方向に線の幅を検出する線幅検出ステップと、
    出力手段が、前記各方向の線の線幅を特徴値とした特徴ベクトルを出力する出力ステップと、を有し、
    前記線幅検出ステップにおいて、
    フィルタ生成手段が、線幅を検出する方向および線の線幅に応じた複数のフィルタを生成するフィルタ生成ステップと、
    一致度算出手段が、前記画像と前記複数のフィルタとの一致度を算出する一致度算出ステップと、
    線幅計算手段が、前記算出した一致度において最大の一致度を示すフィルタの線の線幅の値と前記一致度とを乗算して得た値を線の線幅とする線幅計算ステップと、
    を有することを特徴とする文字認識方法。
  3. 上記請求項1または2いずれかに記載の文字認識装置又は文字認識方法を、コンピュータで実行可能に記載したプログラムを記録したことを特徴とする記録媒体。
JP2005064386A 2005-03-08 2005-03-08 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体 Expired - Fee Related JP4594765B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005064386A JP4594765B2 (ja) 2005-03-08 2005-03-08 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005064386A JP4594765B2 (ja) 2005-03-08 2005-03-08 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体

Publications (2)

Publication Number Publication Date
JP2006251920A JP2006251920A (ja) 2006-09-21
JP4594765B2 true JP4594765B2 (ja) 2010-12-08

Family

ID=37092383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005064386A Expired - Fee Related JP4594765B2 (ja) 2005-03-08 2005-03-08 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体

Country Status (1)

Country Link
JP (1) JP4594765B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0664629B2 (ja) * 1985-11-26 1994-08-22 沖電気工業株式会社 文字認識方式
JP3161107B2 (ja) * 1992-11-20 2001-04-25 富士ゼロックス株式会社 文字認識装置
JP2766205B2 (ja) * 1994-12-27 1998-06-18 長野日本電気ソフトウェア株式会社 文字認識装置
JP2000155803A (ja) * 1998-11-20 2000-06-06 Nec Corp 文字読取方法および光学式文字読取装置

Also Published As

Publication number Publication date
JP2006251920A (ja) 2006-09-21

Similar Documents

Publication Publication Date Title
US8594431B2 (en) Adaptive partial character recognition
US9767604B2 (en) Image analysis method by analyzing point cloud using hierarchical search tree
JP5202148B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
CN105095905B (zh) 目标识别方法和目标识别装置
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
US20070058856A1 (en) Character recoginition in video data
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
CN111626303B (zh) 性别和年龄的识别方法、装置、存储介质及服务器
JP2006252162A (ja) パターン認識装置及びその方法
JP6278108B2 (ja) 画像処理装置、画像センサ、画像処理方法
JP6754120B2 (ja) プログラム、情報記憶媒体及び文字分割装置
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
JP2017084006A (ja) 画像処理装置およびその方法
JP2019021100A (ja) 画像探索装置、商品認識装置および画像探索プログラム
KR101521136B1 (ko) 얼굴 인식 방법 및 얼굴 인식 장치
KR20240043468A (ko) 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템 및 방법
JP4721829B2 (ja) 画像検索方法及び装置
JP6393495B2 (ja) 画像処理装置および物体認識方法
CN112818983A (zh) 一种利用图片相识度判断字符倒置的方法
JP4594765B2 (ja) 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体
JP6778625B2 (ja) 画像検索システム、画像検索方法及び画像検索プログラム
JPWO2013154062A1 (ja) 画像識別システム、画像識別方法、およびプログラム
JP2003123023A (ja) 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体
JP2006235817A (ja) 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体
JP7782225B2 (ja) 機械学習モデルを用いてクラス分類処理を実行するクラス分類装置、方法、及び、コンピュータープログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070221

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100520

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100917

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees