JP2013246721A - 文字列認識装置、文字列認識プログラム、及び記録媒体 - Google Patents
文字列認識装置、文字列認識プログラム、及び記録媒体 Download PDFInfo
- Publication number
- JP2013246721A JP2013246721A JP2012121172A JP2012121172A JP2013246721A JP 2013246721 A JP2013246721 A JP 2013246721A JP 2012121172 A JP2012121172 A JP 2012121172A JP 2012121172 A JP2012121172 A JP 2012121172A JP 2013246721 A JP2013246721 A JP 2013246721A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- image
- matching
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
【課題】より高精度に文字列を認識することができる文字列認識装置、文字列認識プログラム、及び記録媒体を提供する。
【解決手段】入力画像から複数の文字画像を含む文字列画像を抽出し(ステップ102)、抽出した文字列画像に含まれる文字画像の各々と、予め文字データベースに記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力し(ステップ104)、該出力した文字からなる文字列に基づいて自然言語処理を行なって、複数の文字列候補を推定し(ステップ106)、該推定された複数の文字列候補について、文字データベースに記憶されている前記文字列候補に含まれる各文字に対応する文字情報と、前記抽出された文字列画像とを照合して、前記文字列候補に含まれる各文字の一致度を計算し(ステップ108)、計算された一致度に基づいて、尤もらしい文字列を決定する(ステップ112)。
【選択図】図2
【解決手段】入力画像から複数の文字画像を含む文字列画像を抽出し(ステップ102)、抽出した文字列画像に含まれる文字画像の各々と、予め文字データベースに記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力し(ステップ104)、該出力した文字からなる文字列に基づいて自然言語処理を行なって、複数の文字列候補を推定し(ステップ106)、該推定された複数の文字列候補について、文字データベースに記憶されている前記文字列候補に含まれる各文字に対応する文字情報と、前記抽出された文字列画像とを照合して、前記文字列候補に含まれる各文字の一致度を計算し(ステップ108)、計算された一致度に基づいて、尤もらしい文字列を決定する(ステップ112)。
【選択図】図2
Description
本発明は、画像に含まれる文字列を認識する文字列認識装置、文字列認識プログラム、及び文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体に関する。
従来の文字認識技術として、図6の例1に示すように、まず、入力された画像から文字列領域の画像(以下、文字列画像という)を特定して切り出し、文字列画像から各文字の画像(以下、文字画像)を切り出して、文字データベース(文字DB)に記憶されている文字情報と照合し、一致度の最も高い文字を正解として出力する技術が一般的に知られている(例えば、非特許文献1参照)。このように、従来の文字認識技術は、1文字レベルで認識するため、単語或いは文として意味を持たない文字列が出力される場合が多い。
そこで、文字列を単語或いは文として推定する機能を持つ認識技術も提案されている。例えば、図6の例2に示すように、上記従来技術の例1に加えて、上記例1により認識された一致度の最も高い文字からなる文字列から、一般的な(自然な)文字列候補を推定し、推定した文字列候補の中から最も高い指標を示した文字列を出力する技術が知られている(例えば、非特許文献2参照)。
Ray Smith, An Overview of the Tesseract OCR Engine, http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseracticdar2007.pdf
Takafumi Yamazoe, Minoru Etoh, Takeshi Yoshimura and Kousuke Tsujino. Hypothesis Preservation Approach to Scene Text Recognition with Weighted Finite-State Transducer, ICDAR, 2011.
しかしながら、上記従来技術において、最も高い指標を示した文字列が必ずしも正解であるとは限らない。また、固有名詞など辞書或いは学習データに含まれていない文字列を認識する場合には、推定機能を持たない文字認識結果に劣る場合がある。
本発明は、上記問題を解決するためになされたもので、従来技術に比べてより高精度に文字列を認識することができる文字列認識装置、文字列認識プログラム、及び文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体を提供することを目的とする。
上記目的を達成するために、本発明の文字列認識装置は、入力画像から複数の文字画像を含む文字列画像を抽出する抽出手段と、前記抽出手段により抽出された文字列画像に含まれる文字画像の各々と、予めデータベースに記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力する第1照合手段と、前記第1照合手段から出力された文字からなる文字列に基づいて自然言語処理を行なって、複数の文字列候補を推定する文字列推定手段と、前記文字列推定手段により推定された複数の文字列候補について、前記データベースに記憶されている前記文字列候補に含まれる各文字に対応する文字情報と、前記抽出手段により抽出された文字列画像とを照合して、前記文字列候補に含まれる各文字の一致度を計算する第2照合手段と、前記第2照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補から、尤もらしい文字列を決定する文字列決定手段と、を備えている。
このように、入力画像から抽出された文字列画像に含まれる文字画像の各々と文字データベースに記憶されている文字情報とを照合して得られた文字列に基づいて、自然言語処理により複数の文字列候補を推定し、推定した複数の文字列候補の各々と、文字列画像とを照合するようにしたため、言語処理的な文字列の確からしさと、画像処理による文字列画像との一致度の双方を満たす文字列が、尤もらしい文字列として決定され、従来技術に比べてより高精度に文字列を認識することができる。なお、文字列推定手段により推定される文字列候補は、人が日常的なコミュニケーションにおいて使用する文字列であって、日本語や英語などの自然言語の文字列をいう。
なお、前記第2照合手段は、前記推定された複数の文字列候補について、前記文字列候補に含まれる各文字の一致度を計算し、当該計算した一致度を用いて、前記文字列推定手段により推定された文字列候補毎の一致度を計算し、前記文字列決定手段は、前記第2照合手段により計算された文字列候補毎の一致度に基づいて、前記尤もらしい文字列を決定することができる。
また、前記文字列決定手段は、前記文字列候補毎の一致度の各々が、予め設定した閾値以下となる場合には、前記第1照合手段から出力された文字からなる文字列を前記尤もらしい文字列として決定するようにしてもよい。
また、前記文字列決定手段は、前記第2照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補のうち、少なくとも1つの文字の一致度が閾値以下となる文字列以外の文字列から、尤もらしい文字列を決定するようにしてもよい。
また、前記文字列決定手段は、前記文字列推定手段により推定された文字列候補毎の一致度、及び前記第1照合手段から出力された文字からなる文字列の一致度の各々が、予め設定した閾値以下となる場合には、前記抽出手段により前記文字列画像として抽出された画像から前記尤もらしい文字列を決定せず、当該文字列画像として抽出された画像の領域を、文字列画像以外の非文字列画像の領域であると判断し、当該非文字列画像の領域に関する情報を所定の保存部に保存し、非文字列画像の領域であると判断されなかった文字列画像の領域については、当該文字列画像の領域に関する情報を前記非文字列画像の領域に関する情報と区別して前記保存部に保存するようにしてもよい。
また、本発明のプログラムは、コンピュータを上記文字列認識装置の各手段として機能させるための文字列認識プログラムである。
また、本発明の記録媒体は、コンピュータを上記文字列認識装置の各手段として機能させるための文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体である。
以上説明したように、本発明の文字列認識装置、文字列認識プログラム、及び記録媒体によれば、従来技術に比べてより高精度に文字列を認識することができる、という効果が得られる。
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本実施の形態に係る文字列認識装置の構成の一例を示す図である。
文字列認識装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、CPUが後述する各処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。また、文字列認識装置10を構成するコンピュータは、ハードディスクドライブ等の記憶部や通信インタフェース等を備えていてもよい。また、ハードディスクドライブにCPUが実行するプログラムが記憶されていてもよい。CPUがROMやハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協働させて以下に説明する機能が実現される。
このコンピュータは、機能的には、図1に示すように、文字列画像抽出部12、第1照合部14、文字列推定部16、第2照合部18、文字列決定部20、文字DB(データベース)22、言語DB24、及びページフォーマット保存部26を含んだ構成で表わすことができる。
文字DB22には、様々な書体(フォント)、サイズ、及び太さの文字を示す文字情報が予め文字毎に登録されている。なお、文字情報は、例えば、個々の文字の文字パターン画像情報であってもよいし、個々の文字の特徴を示す特徴値であってもよい。言語DB24には、人が日常的に使用する日本語や英語などの自然言語の大量の言語データが、コンピュータによる検索が可能な状態で記憶されている。
なお、ここでは、文字列認識装置10が文字DB22及び言語DB24を備えている場合について説明したが、例えば文字DB22及び言語DB24が文字列認識装置10の外部装置に設けられ、文字列認識装置10は、外部装置と通信手段を用いて通信することにより、文字DB22、及び言語DB24を参照するようにしてもよい。
文字列画像抽出部12は、文字列認識対象としての入力画像を取得し、画像処理により、入力画像から文字列領域の画像(以下、文字列画像)を抽出する。文字列画像は、複数の文字画像を含むものである。
第1照合部14は、文字列画像抽出部12により抽出された文字列画像に含まれる文字画像の各々と、予め文字DB22に記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力する。以下、第1照合部14から出力された文字からなる文字列を、便宜上、仮認識文字列と呼称する。
文字列推定部16は、仮認識文字列に基づいて、言語DB24を用いた周知の自然言語処理を行ない、複数の文字列候補を推定する。ここで推定される文字列候補は、人が日常的なコミュニケーションにおいて使用する文字列であって、日本語や英語などの自然言語の文字列をいう。以下、文字列推定部16により推定された文字列候補の集合を文字列候補群と呼称する。
第2照合部18は、文字列候補群の各文字列候補と、文字列画像抽出部12により抽出された文字列画像とを照合する。ここでは、文字列候補の各々に含まれる文字単位で照合を行なう。具体的には、第2照合部18は、文字列候補に含まれる文字に対応する文字情報を文字DB22から選択し、当該選択した文字情報の各々と、文字列画像抽出部12により抽出された文字列画像に含まれる文字画像の各々とを照合する。
文字列決定部20は、第2照合部18による照合結果に基づいて、尤もらしい文字列を決定する。ここで決定された文字列が文字列認識結果として出力される。
また、文字列決定部20は、第1照合部14による照合結果及び第2照合部18による照合結果を参照し、仮認識文字列及び文字列候補の各々の文字列単位の一致度が全て、予め設定された閾値以下の場合には、文字列画像抽出部12により抽出された画像は、文字列領域の画像ではなく、挿絵や写真など、文字列以外の非文字列領域の画像であると判断し、当該画像からの文字列の決定は行なわず、入力画像における当該非文字列領域に関する情報(例えば、当該非文字列領域の座標及びサイズを示す情報)をページフォーマット情報としてページフォーマット保存部26に保存する。
また、文字列決定部20は、非文字列領域の画像であると判断されなかった画像については、ページフォーマット情報として当該文字列画像の領域(文字列領域)に関する情報(例えば、当該文字列領域の座標、サイズ、及びフォントの情報)を、前記非文字列領域に関する情報と区別してページフォーマット保存部26に保存する。
次に、文字列認識装置10の作用について図2を参照して詳細に説明する。
ステップ100において、文字列画像抽出部12は、文字列認識対象としての入力画像を取得する。
ステップ102において、文字列画像抽出部12は、取得した入力画像から文字列画像を抽出する。
ステップ104において、第1照合部14は、文字列画像抽出部12により抽出された文字列画像から個々の文字画像を切り出す。そして、第1照合部14は、該切り出した文字画像の各々と、予め文字DB22に記憶されている文字情報とを照合し、文字画像毎に当該文字画像との一致度が最も高い文字情報が示す文字(テキストデータ)を出力する。なお、ここで、例えば文字情報が文字パターン画像ではなく、文字の特徴を示すベクトル等の特徴値であった場合には、第1照合部14は、文字情報を画像に展開して文字列画像の文字画像と照合する。なお、文字画像を文字情報と同様の形式に変換して照合するようにしてもよい。
なお、第1照合部14は、文字列画像抽出部12により抽出された文字列画像が、横書きの文字列画像であれば、左から右に向かう(認識言語によっては右から左であってもよい)配列順に各文字画像と文字情報とを照合し、上記抽出された文字列画像が、縦書きの文字列画像であれば、上から下に向かう配列順に各文字画像と文字情報とを順に照合していく。照合して出力された文字を出力順に並べることで仮認識文字列が得られる。
ステップ100からステップ104までの処理は、周知の従来手法(例えば、図4に例示した例1の手法)と同様の技術を利用できる。
次に、ステップ106において、文字列推定部16は、仮認識文字列をもとに自然言語処理を行なって、複数の文字列候補を推定する。この自然言語処理では、言語DB24に登録されている言語データが参照される。文字列推定部16は、推定結果を1つの文字列に絞らず、尤もらしい順に複数の文字列候補を出力する。
なお、ここで用いる言語処理技術には、単語推定、共起語推定、誤り訂正法(例えば、非参考文献3:永田. 文字類似度と統計的言語モデルを用いた日本語文字認識誤り訂正法. 情処論, 81(11):2624−2634, 1998.参照)等、様々な手法を適用できる。
ステップ108において、第2照合部18は、複数の文字列候補と、文字列画像抽出部12により抽出された文字列画像とを順次照合する。本実施形態において、この照合は、文字DB22を再度利用して、文字毎に行なう。
以下、第2照合部18による処理を詳述する。第2照合部18は、各文字列候補に含まれる複数の文字の各々に対応する複数の文字情報を、文字DB22に記憶されている文字情報から選択する。そして、第2照合部18は、該選択した文字情報の各々と、文字列画像抽出部12により抽出された文字列画像に含まれる文字画像の各々とを照合し、各文字列候補に含まれる文字毎に文字画像との一致度を計算する。なお、文字情報が示す文字の文字列候補における位置と、当該文字情報と照合される個々の文字画像の文字列画像における位置とは、互いに対応しているものとする。また、ここでも、ステップ104における第1照合部14の処理と同様に、文字情報が特徴値等により表わされており、照合する文字画像と文字情報とが異なる形式である場合には、文字情報を画像に展開して文字列画像の文字画像と照合する。或いは、文字画像を文字情報の形式に変換して照合してもよい。
ここで、第2照合部18による照合処理について詳述する。第2照合部18は、推定された文字列候補に文字DB22に登録されているフォントを順次適用、或いは複数のフォントを組み合わせてできる新しい字体を適用し、文字列候補を構成する各文字の文字画像を生成した後、第1照合部14と同様に、生成した文字画像と文字列画像に含まれる各文字画像と照合し、文字毎の一致度を計算する。
照合の結果、文字列候補に一致度の極めて低い文字が含まれていると、当該文字列候補について次のステップ110において計算される文字列候補毎の一致度も低い値となる。なお、一致度が予め設定された閾値より小さい文字が含まれている文字列候補については、当該文字列候補に含まれる他の文字の一致度に拘わらず、文字列候補群から除外してもよい。
ステップ110において、第2照合部18は、上記ステップ108において計算された文字毎の一致度に基づいて、文字列候補毎の一致度を計算する。例えば、文字列候補に含まれる文字毎の一致度の総和を、当該文字列候補の一致度としてもよいし、当該総和に予め定められた係数を乗じた値を当該文字列候補の一致度としてもよい。
ステップ112において、文字列決定部20は、文字列候補毎の一致度に基づいて、尤もらしい文字列を決定し、出力する。具体的には、例えば、文字列候補毎の一致度が最も高い文字列候補を、尤もらしい文字列として決定することができる。
また、文字列候補毎の一致度を予め設定した閾値と比較して決定してもよい。具体的には、文字列決定部20は、文字列候補群の中に、予め設定した閾値を超える一致度の文字列候補がある場合には、閾値を超える最も高い一致度の文字列候補を尤もらしい文字列として決定し、上記予め設定した閾値を超える一致度の文字列候補がない場合には、文字列画像から直接取り出された仮認識文字列を尤もらしい文字列として決定してもよい。
更にまた、文字列決定部20は、上記予め設定した閾値を超える一致度の文字列候補がない場合において、第1照合部14による照合結果から仮認識文字列の文字列単位の一致度を更に計算し、当該一致度も上記予め設定した閾値を超えないときには、文字列画像抽出部12により抽出された画像は、文字列領域の画像ではなく、挿絵や写真など、文字列以外の非文字列領域の画像であると判断し、当該画像からの文字列の決定は行なわず、入力画像における当該非文字列領域の座標(例えば当該領域の左上頂点の座標としてもよい)及びサイズを示す情報等をページフォーマット情報としてページフォーマット保存部26に保存する。なお、仮認識文字列の文字列単位の一致度は、第1照合部14で予め計算するようにしてもよい。
また、文字列決定部20は、非文字列領域の画像であると判断されなかった文字列画像については、当該文字列画像の領域の座標、サイズ、及びフォントの情報等をページフォーマット情報として前記非文字列領域に関する情報と区別してページフォーマット保存部26に保存する。例えば、文字列領域に関する情報には、文字列領域であることを示すフラグを付与する等により区別する。
従来は、文字列画像抽出において、入力画像から可能な限り全ての部分領域を文字列領域であると仮定し、文字列画像の抽出を行なうのが一般的であった。上記手法によれば、文字列領域と非文字列領域とを区別してページフォーマット情報として保存されるため、これを利用すれば、更なる文字認識処理、或いは文字認識以外の画像処理などを効率よく行うことができる。
例えば、同じようなページフォーマットの複数ページからなる書籍や書類のページの読取画像を入力画像として文字列抽出を行なう場合、文字列画像抽出部12は、最初の数ページ分のページフォーマット情報が得られた段階で、それ以降のページの画像については、ページフォーマット保存部26に記憶されたページフォーマット情報を参照して文字列画像の抽出を行なうことができる。具体的には、文字列画像抽出部12は、ページフォーマット情報として記憶されている非文字列領域以外の文字列領域の座標及びサイズに従って、文字列画像を抽出することができる。これにより文字列画像の抽出処理が効率化する。また、第1照合部14において、ページフォーマット情報として記憶されているフォントの情報に従って、文字DB22から該当の文字情報を選択して照合に用いることができる。これにより、照合処理が効率化する。
また、ページフォーマット保存部26の情報を、挿絵や写真等のイメージを抽出する際に参照することもできる。これにより、文字列ではなく、挿絵や写真等のイメージを抽出する処理を効率化できる。
なお、上記ステップ106における自然言語処理による文字列の推定については、周知の従来手法(例えば、図4に示した例2の手法)を利用できる。また、第2照合部18による文字列候補と文字列画像との文字毎の照合も、従来技術の照合と同じ技術で実現できる。すなわち、文字DB22から文字列候補の文字に対応する文字のデータ(様々な書体、サイズ、太さの画像情報)を取り出し、文字列画像の各文字画像と照合すればよい。文字毎の一致度の計算も同様である。
なお、上記では、文字列候補毎の一致度を全ての文字列候補について予め求めておき、これら文字列候補毎の一致度に基づいて尤もらしい文字列を決定する例について説明したが、これに限定されない。
例えば、文字毎の照合結果と文字列候補の推定度(仮認識文字列を元に文字列候補を推定したときの確からしさ)とを加味して、出力となる文字列を決定するようにしてもよい。例えば、推定度の高い順に文字列候補と文字列画像との照合を行い、文字毎の一致度が予め設定した閾値を下回る文字を含まない最初の文字列候補を尤もらしい文字列として決定し、出力することもできる。以下、図3のフローチャートを参照して説明する。なお、図3において、図2と同じ処理については同一のステップ番号を付して説明を省略する。
ステップ120において、第2照合部18は、ステップ106において推定された文字列候補群に含まれる文字列候補の中から最も推定度の高い文字列候補を1つ選択する。ステップ122において、第2照合部18は、選択した文字列候補と文字列画像とを照合する。この照合は、上記ステップ108と同様、文字単位での照合とされる。ステップ124において、第2照合部18は、文字列候補に含まれる各文字について、文字毎の一致度を計算する。ステップ126において、文字列決定部20は、一致度が予め設定した閾値以下の文字が文字列候補に存在するか否かを判断する。ステップ126で否定判断された場合には、ステップ130において、文字列決定部20は、現在選択中の文字列候補を尤もらしい文字列として決定し、出力する。
一方、文字列決定部20は、ステップ124で肯定判断した場合には、ステップ128で、文字列候補群の全文字列候補についての照合が終了したか否かを判定する。ステップ128で否定判断した場合には、現在選択中の文字列候補を破棄し、ステップ120に戻り、次に推定度の高い文字列候補を選択して照合を行なう。また、文字列決定部20は、ステップ128で肯定判断した場合には、ステップ130において、仮認識文字列を尤もらしい文字列として決定して出力する。
次に、図4を参照して、図1の構成図と比較しながらより具体的な例を挙げて文字列認識装置10による作用を説明する。なお、ここでは、図3を参照して説明した、推定度の高い順に照合を行なう場合を例に挙げて説明する。
(1)入力画像が取得される(図1(A))。
(2)文字列画像が切り出される(図1(B))。一点鎖線により囲まれた部分が文字列領域である。
(3)文字列画像の文字画像毎に文字DB22の文字情報と照合され(図1(C))、最も一致度が高い文字情報の文字がそれぞれ出力として取り出される(図1(D))。このとき、文字の切り分けや背景などの影響により、必ずしも正しい文字列が取り出されるとは限らない。
(4)取り出された文字列(仮認識文字列)を元に自然言語処理を行ない、複数の文字列候補を推定し(図1(E))、尤もらしい順に(推定度が高い順に)複数の文字列候補を出力する(図1(F))。前述したように、ここで用いる言語処理技術には、単語推定、共起語推定、誤り訂正法等、様々な手法を適用できる。図3では、DRY CLEANER、DRY CLEANING、DERBY CLOTHINGという3つの文字列候補が推定された状態が示されている。
(5)推定度の高い文字列候補から順に文字列画像と照合する。ここでの照合は、文字DBから該当する文字情報を取り出し、文字毎に行なう(図1(G))。この照合結果から、尤もらしい文字列を決定し(図1(H))、出力する(図1(I))。
(1)入力画像が取得される(図1(A))。
(2)文字列画像が切り出される(図1(B))。一点鎖線により囲まれた部分が文字列領域である。
(3)文字列画像の文字画像毎に文字DB22の文字情報と照合され(図1(C))、最も一致度が高い文字情報の文字がそれぞれ出力として取り出される(図1(D))。このとき、文字の切り分けや背景などの影響により、必ずしも正しい文字列が取り出されるとは限らない。
(4)取り出された文字列(仮認識文字列)を元に自然言語処理を行ない、複数の文字列候補を推定し(図1(E))、尤もらしい順に(推定度が高い順に)複数の文字列候補を出力する(図1(F))。前述したように、ここで用いる言語処理技術には、単語推定、共起語推定、誤り訂正法等、様々な手法を適用できる。図3では、DRY CLEANER、DRY CLEANING、DERBY CLOTHINGという3つの文字列候補が推定された状態が示されている。
(5)推定度の高い文字列候補から順に文字列画像と照合する。ここでの照合は、文字DBから該当する文字情報を取り出し、文字毎に行なう(図1(G))。この照合結果から、尤もらしい文字列を決定し(図1(H))、出力する(図1(I))。
例えば、予め設定された閾値以下の文字が現れればこの文字列候補を破棄し、次の文字列候補の照合へ移る。閾値以下の文字が現れなければこの文字列候補を尤もらしい文字列として決定し、出力とする。すなわち、ここでは、文字毎の一致度が全て閾値を上回る文字列候補のうち推定度が最も高い文字列候補が、尤もらしい文字列として決定される。また、全ての文字列候補で各文字の一致度が閾値以下となる場合は、上記(3)の出力を最終出力として採用する。なお、一致度計算及び文字列決定の方法としては、図2を参照して説明したように、文字列候補毎に当該文字列候補に含まれる文字毎の一致度の総和等を文字列候補毎の一致度として計算し、最大の一致度を示した文字列候補を尤もらしい文字列として決定して出力する方法も適用できる。
以上説明したように、画像処理により取り出された(第1照合部14の照合により得られた)文字列を文字列推定部16の自然言語処理により一般的な文字列候補へ変換し、再びこれら文字列候補を文字列画像と照合することにより、言語処理的な文字列の確からしさ、及び画像処理的な文字列画像との一致度の双方を満たす文字列が最終的な文字列認識結果として得られるため、より精度の高い文字列認識機能を実現することが可能となる。
なお、文字列認識装置の構成は、上記例に限定されず、例えば、図5に示すような構成とすることもできる。図5に示す文字列認識装置11は、文字列画像抽出部12、第1照合部14、文字画像照合部15、文字列推定部16、文字列決定部20、文字DB22、言語DB24、及びページフォーマット保存部26を含んだ構成で表わすことができる。ここで、図5に示す符号と、図1に示す符号が同一の構成要素は、それぞれ、同一の機能を有する構成要素を意味するため説明を省略する。
図5に示す文字列認識装置11では、第1照合部14と文字画像生成部15とで第2照合部19が構成されている。文字画像生成部15は、文字列推定部16により推定された文字列候補に文字DB22に登録されているフォントを順次適用、或いは複数のフォントを組み合わせてできる新しい字体を適用し、文字列候補を構成する各文字の文字画像を生生成する。第1照合部14は、第2照合部19の機能として動作する場合には、文字画像生成部15で生成した文字画像と、文字列画像に含まれる各文字画像とを照合し、文字毎の一致度を計算する。計算された一致度は、文字列決定部20に出力される。第1照合部14及び文字画像生成部15により、図1を用いて例示した第2照合部18と同等の機能が実現される。
また、上述の文字列認識装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読取り可能な記録媒体に格納して提供することも可能である。
10、11 文字列認識装置
12 文字列画像抽出部
14 第1照合部
16 文字列推定部
18 第2照合部
20 文字列決定部
22 文字DB
24 言語DB
26 ページフォーマット保存部
12 文字列画像抽出部
14 第1照合部
16 文字列推定部
18 第2照合部
20 文字列決定部
22 文字DB
24 言語DB
26 ページフォーマット保存部
Claims (7)
- 入力画像から複数の文字画像を含む文字列画像を抽出する抽出手段と、
前記抽出手段により抽出された文字列画像に含まれる文字画像の各々と、予めデータベースに記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力する第1照合手段と、
前記第1照合手段から出力された文字からなる文字列に基づいて自然言語処理を行なって、複数の文字列候補を推定する文字列推定手段と、
前記文字列推定手段により推定された複数の文字列候補について、前記データベースに記憶されている前記文字列候補に含まれる各文字に対応する文字情報と、前記抽出手段により抽出された文字列画像とを照合して、前記文字列候補に含まれる各文字の一致度を計算する第2照合手段と、
前記第2照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補から、尤もらしい文字列を決定する文字列決定手段と、
を備えた文字列認識装置。 - 前記第2照合手段は、前記推定された複数の文字列候補について、前記文字列候補に含まれる各文字の一致度を計算し、当該計算した一致度を用いて、前記文字列推定手段により推定された文字列候補毎の一致度を計算し、
前記文字列決定手段は、前記第2照合手段により計算された文字列候補毎の一致度に基づいて、前記尤もらしい文字列を決定する
請求項1に記載の文字列認識装置。 - 前記文字列決定手段は、前記文字列候補毎の一致度の各々が、予め設定した閾値以下となる場合には、前記第1照合手段から出力された文字からなる文字列を前記尤もらしい文字列として決定する
請求項2に記載の文字列認識装置。 - 前記文字列決定手段は、前記文字列推定手段により推定された文字列候補毎の一致度、及び前記第1照合手段から出力された文字からなる文字列の一致度の各々が、予め設定した閾値以下となる場合には、前記抽出手段により前記文字列画像として抽出された画像から前記尤もらしい文字列を決定せず、当該文字列画像として抽出された画像の領域を、文字列画像以外の非文字列画像の領域であると判断し、当該非文字列画像の領域に関する情報を所定の保存部に保存し、非文字列画像の領域であると判断されなかった文字列画像の領域については、当該文字列画像の領域に関する情報を前記非文字列画像の領域に関する情報と区別して前記保存部に保存する
請求項2に記載の文字列認識装置。 - 前記文字列決定手段は、前記第2照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補のうち、少なくとも1つの文字の一致度が閾値以下となる文字列候補以外の文字列候補から、尤もらしい文字列を決定する
請求項1〜請求項4の何れか1項記載の文字列認識装置。 - コンピュータを請求項1〜請求項5の何れか1項記載の文字列認識装置の各手段として機能させるための文字列認識プログラム。
- コンピュータを請求項1〜請求項5の何れか1項記載の文字列認識装置の各手段として機能させるための文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012121172A JP2013246721A (ja) | 2012-05-28 | 2012-05-28 | 文字列認識装置、文字列認識プログラム、及び記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012121172A JP2013246721A (ja) | 2012-05-28 | 2012-05-28 | 文字列認識装置、文字列認識プログラム、及び記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2013246721A true JP2013246721A (ja) | 2013-12-09 |
Family
ID=49846413
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012121172A Pending JP2013246721A (ja) | 2012-05-28 | 2012-05-28 | 文字列認識装置、文字列認識プログラム、及び記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2013246721A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102048638B1 (ko) * | 2018-08-31 | 2019-11-25 | 망고슬래브 주식회사 | 콘텐츠 인식 방법 및 시스템 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59128681A (ja) * | 1983-01-12 | 1984-07-24 | Comput Basic Mach Technol Res Assoc | 文字読取り装置 |
| JPS6491288A (en) * | 1987-09-30 | 1989-04-10 | Toshiba Corp | Character reader |
| JPH04349581A (ja) * | 1991-05-27 | 1992-12-04 | Dainippon Printing Co Ltd | テキストデータファイル作成システム |
| JPH06111079A (ja) * | 1992-09-30 | 1994-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 単語読み取り装置 |
| JP2006139659A (ja) * | 2004-11-15 | 2006-06-01 | Fujitsu Ltd | 単語認識装置、単語認識方法、単語認識プログラム |
| JP2011081454A (ja) * | 2009-10-02 | 2011-04-21 | Sharp Corp | 情報処理装置、情報処理方法、プログラムおよび記録媒体 |
-
2012
- 2012-05-28 JP JP2012121172A patent/JP2013246721A/ja active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59128681A (ja) * | 1983-01-12 | 1984-07-24 | Comput Basic Mach Technol Res Assoc | 文字読取り装置 |
| JPS6491288A (en) * | 1987-09-30 | 1989-04-10 | Toshiba Corp | Character reader |
| JPH04349581A (ja) * | 1991-05-27 | 1992-12-04 | Dainippon Printing Co Ltd | テキストデータファイル作成システム |
| JPH06111079A (ja) * | 1992-09-30 | 1994-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 単語読み取り装置 |
| JP2006139659A (ja) * | 2004-11-15 | 2006-06-01 | Fujitsu Ltd | 単語認識装置、単語認識方法、単語認識プログラム |
| JP2011081454A (ja) * | 2009-10-02 | 2011-04-21 | Sharp Corp | 情報処理装置、情報処理方法、プログラムおよび記録媒体 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102048638B1 (ko) * | 2018-08-31 | 2019-11-25 | 망고슬래브 주식회사 | 콘텐츠 인식 방법 및 시스템 |
| WO2020045714A1 (ko) * | 2018-08-31 | 2020-03-05 | 망고슬래브 주식회사 | 콘텐츠 인식 방법 및 시스템 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110309305B (zh) | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 | |
| US7515770B2 (en) | Information processing method and apparatus | |
| Wshah et al. | Script independent word spotting in offline handwritten documents based on hidden markov models | |
| JP3919617B2 (ja) | 文字認識装置および文字認識方法、プログラムおよび記憶媒体 | |
| Zhu et al. | DocBed: A multi-stage OCR solution for documents with complex layouts | |
| WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
| Hussain et al. | Nastalique segmentation-based approach for Urdu OCR | |
| JP2008225695A (ja) | 文字認識誤り修正装置およびプログラム | |
| US20230177266A1 (en) | Sentence extracting device and sentence extracting method | |
| Wshah et al. | Multilingual word spotting in offline handwritten documents | |
| JP4244423B2 (ja) | 適正単語列推定装置 | |
| Chamchong et al. | A combined method of segmentation for connected handwritten on palm leaf manuscripts | |
| JP2013246721A (ja) | 文字列認識装置、文字列認識プログラム、及び記録媒体 | |
| CN114266238B (zh) | 文本要素提取方法、装置、电子设备及存储介质 | |
| CN110533035B (zh) | 基于文本匹配的学生作业页码识别方法 | |
| CN115393865A (zh) | 文字检索方法、设备以及计算机可读存储介质 | |
| JPH11328315A (ja) | 文字認識装置 | |
| Lamb et al. | Predicting the ordering of characters in Japanese historical documents | |
| Edwards et al. | Searching for character models | |
| JP2017146841A (ja) | 文字認識装置、文字認識方法、およびプログラム | |
| CN117194818B (zh) | 基于视频的图文网页生成方法及装置 | |
| JP2007264858A (ja) | 人名性別判定プログラム、機械翻訳プログラム、人名性別判定装置、機械翻訳装置、人名性別判定処理方法および機械翻訳処理方法 | |
| JPH07319880A (ja) | キーワード抽出・検索装置 | |
| AU2021101278A4 (en) | System and Method for Automatic Language Detection for Handwritten Text | |
| JPH05174187A (ja) | 文字認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140723 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150519 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150526 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20151013 |