JP2013246721A

JP2013246721A - 文字列認識装置、文字列認識プログラム、及び記録媒体

Info

Publication number: JP2013246721A
Application number: JP2012121172A
Authority: JP
Inventors: Satoshi Suzuki; 敏鈴木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2012-05-28
Filing date: 2012-05-28
Publication date: 2013-12-09

Abstract

【課題】より高精度に文字列を認識することができる文字列認識装置、文字列認識プログラム、及び記録媒体を提供する。
【解決手段】入力画像から複数の文字画像を含む文字列画像を抽出し（ステップ１０２）、抽出した文字列画像に含まれる文字画像の各々と、予め文字データベースに記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力し（ステップ１０４）、該出力した文字からなる文字列に基づいて自然言語処理を行なって、複数の文字列候補を推定し（ステップ１０６）、該推定された複数の文字列候補について、文字データベースに記憶されている前記文字列候補に含まれる各文字に対応する文字情報と、前記抽出された文字列画像とを照合して、前記文字列候補に含まれる各文字の一致度を計算し（ステップ１０８）、計算された一致度に基づいて、尤もらしい文字列を決定する（ステップ１１２）。
【選択図】図２

Description

本発明は、画像に含まれる文字列を認識する文字列認識装置、文字列認識プログラム、及び文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体に関する。

従来の文字認識技術として、図６の例１に示すように、まず、入力された画像から文字列領域の画像（以下、文字列画像という）を特定して切り出し、文字列画像から各文字の画像（以下、文字画像）を切り出して、文字データベース（文字ＤＢ）に記憶されている文字情報と照合し、一致度の最も高い文字を正解として出力する技術が一般的に知られている（例えば、非特許文献１参照）。このように、従来の文字認識技術は、１文字レベルで認識するため、単語或いは文として意味を持たない文字列が出力される場合が多い。

そこで、文字列を単語或いは文として推定する機能を持つ認識技術も提案されている。例えば、図６の例２に示すように、上記従来技術の例１に加えて、上記例１により認識された一致度の最も高い文字からなる文字列から、一般的な（自然な）文字列候補を推定し、推定した文字列候補の中から最も高い指標を示した文字列を出力する技術が知られている（例えば、非特許文献２参照）。

Ray Smith, An Overview of the Tesseract OCR Engine, http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseracticdar2007.pdf Takafumi Yamazoe, Minoru Etoh, Takeshi Yoshimura and Kousuke Tsujino. Hypothesis Preservation Approach to Scene Text Recognition with Weighted Finite-State Transducer, ICDAR, 2011.

しかしながら、上記従来技術において、最も高い指標を示した文字列が必ずしも正解であるとは限らない。また、固有名詞など辞書或いは学習データに含まれていない文字列を認識する場合には、推定機能を持たない文字認識結果に劣る場合がある。

本発明は、上記問題を解決するためになされたもので、従来技術に比べてより高精度に文字列を認識することができる文字列認識装置、文字列認識プログラム、及び文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体を提供することを目的とする。

上記目的を達成するために、本発明の文字列認識装置は、入力画像から複数の文字画像を含む文字列画像を抽出する抽出手段と、前記抽出手段により抽出された文字列画像に含まれる文字画像の各々と、予めデータベースに記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力する第１照合手段と、前記第１照合手段から出力された文字からなる文字列に基づいて自然言語処理を行なって、複数の文字列候補を推定する文字列推定手段と、前記文字列推定手段により推定された複数の文字列候補について、前記データベースに記憶されている前記文字列候補に含まれる各文字に対応する文字情報と、前記抽出手段により抽出された文字列画像とを照合して、前記文字列候補に含まれる各文字の一致度を計算する第２照合手段と、前記第２照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補から、尤もらしい文字列を決定する文字列決定手段と、を備えている。

このように、入力画像から抽出された文字列画像に含まれる文字画像の各々と文字データベースに記憶されている文字情報とを照合して得られた文字列に基づいて、自然言語処理により複数の文字列候補を推定し、推定した複数の文字列候補の各々と、文字列画像とを照合するようにしたため、言語処理的な文字列の確からしさと、画像処理による文字列画像との一致度の双方を満たす文字列が、尤もらしい文字列として決定され、従来技術に比べてより高精度に文字列を認識することができる。なお、文字列推定手段により推定される文字列候補は、人が日常的なコミュニケーションにおいて使用する文字列であって、日本語や英語などの自然言語の文字列をいう。

なお、前記第２照合手段は、前記推定された複数の文字列候補について、前記文字列候補に含まれる各文字の一致度を計算し、当該計算した一致度を用いて、前記文字列推定手段により推定された文字列候補毎の一致度を計算し、前記文字列決定手段は、前記第２照合手段により計算された文字列候補毎の一致度に基づいて、前記尤もらしい文字列を決定することができる。

また、前記文字列決定手段は、前記文字列候補毎の一致度の各々が、予め設定した閾値以下となる場合には、前記第１照合手段から出力された文字からなる文字列を前記尤もらしい文字列として決定するようにしてもよい。

また、前記文字列決定手段は、前記第２照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補のうち、少なくとも１つの文字の一致度が閾値以下となる文字列以外の文字列から、尤もらしい文字列を決定するようにしてもよい。

また、前記文字列決定手段は、前記文字列推定手段により推定された文字列候補毎の一致度、及び前記第１照合手段から出力された文字からなる文字列の一致度の各々が、予め設定した閾値以下となる場合には、前記抽出手段により前記文字列画像として抽出された画像から前記尤もらしい文字列を決定せず、当該文字列画像として抽出された画像の領域を、文字列画像以外の非文字列画像の領域であると判断し、当該非文字列画像の領域に関する情報を所定の保存部に保存し、非文字列画像の領域であると判断されなかった文字列画像の領域については、当該文字列画像の領域に関する情報を前記非文字列画像の領域に関する情報と区別して前記保存部に保存するようにしてもよい。

また、本発明のプログラムは、コンピュータを上記文字列認識装置の各手段として機能させるための文字列認識プログラムである。

また、本発明の記録媒体は、コンピュータを上記文字列認識装置の各手段として機能させるための文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体である。

以上説明したように、本発明の文字列認識装置、文字列認識プログラム、及び記録媒体によれば、従来技術に比べてより高精度に文字列を認識することができる、という効果が得られる。

実施の形態に係る文字列認識装置の構成の一例を示す図である。文字列認識処理ルーチンのフローチャートの一例である。文字列認識処理ルーチンのフローチャートの他の例である。文字列認識処理の具体例を模式的に説明する説明図である。文字列認識装置の他の構成例を示す図である。従来の文字認識技術について説明する説明図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。図１は、本実施の形態に係る文字列認識装置の構成の一例を示す図である。

文字列認識装置１０は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、ＣＰＵが後述する各処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。また、文字列認識装置１０を構成するコンピュータは、ハードディスクドライブ等の記憶部や通信インタフェース等を備えていてもよい。また、ハードディスクドライブにＣＰＵが実行するプログラムが記憶されていてもよい。ＣＰＵがＲＯＭやハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協働させて以下に説明する機能が実現される。

このコンピュータは、機能的には、図１に示すように、文字列画像抽出部１２、第１照合部１４、文字列推定部１６、第２照合部１８、文字列決定部２０、文字ＤＢ（データベース）２２、言語ＤＢ２４、及びページフォーマット保存部２６を含んだ構成で表わすことができる。

文字ＤＢ２２には、様々な書体（フォント）、サイズ、及び太さの文字を示す文字情報が予め文字毎に登録されている。なお、文字情報は、例えば、個々の文字の文字パターン画像情報であってもよいし、個々の文字の特徴を示す特徴値であってもよい。言語ＤＢ２４には、人が日常的に使用する日本語や英語などの自然言語の大量の言語データが、コンピュータによる検索が可能な状態で記憶されている。

なお、ここでは、文字列認識装置１０が文字ＤＢ２２及び言語ＤＢ２４を備えている場合について説明したが、例えば文字ＤＢ２２及び言語ＤＢ２４が文字列認識装置１０の外部装置に設けられ、文字列認識装置１０は、外部装置と通信手段を用いて通信することにより、文字ＤＢ２２、及び言語ＤＢ２４を参照するようにしてもよい。

文字列画像抽出部１２は、文字列認識対象としての入力画像を取得し、画像処理により、入力画像から文字列領域の画像（以下、文字列画像）を抽出する。文字列画像は、複数の文字画像を含むものである。

第１照合部１４は、文字列画像抽出部１２により抽出された文字列画像に含まれる文字画像の各々と、予め文字ＤＢ２２に記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力する。以下、第１照合部１４から出力された文字からなる文字列を、便宜上、仮認識文字列と呼称する。

文字列推定部１６は、仮認識文字列に基づいて、言語ＤＢ２４を用いた周知の自然言語処理を行ない、複数の文字列候補を推定する。ここで推定される文字列候補は、人が日常的なコミュニケーションにおいて使用する文字列であって、日本語や英語などの自然言語の文字列をいう。以下、文字列推定部１６により推定された文字列候補の集合を文字列候補群と呼称する。

第２照合部１８は、文字列候補群の各文字列候補と、文字列画像抽出部１２により抽出された文字列画像とを照合する。ここでは、文字列候補の各々に含まれる文字単位で照合を行なう。具体的には、第２照合部１８は、文字列候補に含まれる文字に対応する文字情報を文字ＤＢ２２から選択し、当該選択した文字情報の各々と、文字列画像抽出部１２により抽出された文字列画像に含まれる文字画像の各々とを照合する。

文字列決定部２０は、第２照合部１８による照合結果に基づいて、尤もらしい文字列を決定する。ここで決定された文字列が文字列認識結果として出力される。

また、文字列決定部２０は、第１照合部１４による照合結果及び第２照合部１８による照合結果を参照し、仮認識文字列及び文字列候補の各々の文字列単位の一致度が全て、予め設定された閾値以下の場合には、文字列画像抽出部１２により抽出された画像は、文字列領域の画像ではなく、挿絵や写真など、文字列以外の非文字列領域の画像であると判断し、当該画像からの文字列の決定は行なわず、入力画像における当該非文字列領域に関する情報（例えば、当該非文字列領域の座標及びサイズを示す情報）をページフォーマット情報としてページフォーマット保存部２６に保存する。

また、文字列決定部２０は、非文字列領域の画像であると判断されなかった画像については、ページフォーマット情報として当該文字列画像の領域（文字列領域）に関する情報（例えば、当該文字列領域の座標、サイズ、及びフォントの情報）を、前記非文字列領域に関する情報と区別してページフォーマット保存部２６に保存する。

次に、文字列認識装置１０の作用について図２を参照して詳細に説明する。

ステップ１００において、文字列画像抽出部１２は、文字列認識対象としての入力画像を取得する。

ステップ１０２において、文字列画像抽出部１２は、取得した入力画像から文字列画像を抽出する。

ステップ１０４において、第１照合部１４は、文字列画像抽出部１２により抽出された文字列画像から個々の文字画像を切り出す。そして、第１照合部１４は、該切り出した文字画像の各々と、予め文字ＤＢ２２に記憶されている文字情報とを照合し、文字画像毎に当該文字画像との一致度が最も高い文字情報が示す文字（テキストデータ）を出力する。なお、ここで、例えば文字情報が文字パターン画像ではなく、文字の特徴を示すベクトル等の特徴値であった場合には、第１照合部１４は、文字情報を画像に展開して文字列画像の文字画像と照合する。なお、文字画像を文字情報と同様の形式に変換して照合するようにしてもよい。

なお、第１照合部１４は、文字列画像抽出部１２により抽出された文字列画像が、横書きの文字列画像であれば、左から右に向かう（認識言語によっては右から左であってもよい）配列順に各文字画像と文字情報とを照合し、上記抽出された文字列画像が、縦書きの文字列画像であれば、上から下に向かう配列順に各文字画像と文字情報とを順に照合していく。照合して出力された文字を出力順に並べることで仮認識文字列が得られる。

ステップ１００からステップ１０４までの処理は、周知の従来手法（例えば、図４に例示した例１の手法）と同様の技術を利用できる。

次に、ステップ１０６において、文字列推定部１６は、仮認識文字列をもとに自然言語処理を行なって、複数の文字列候補を推定する。この自然言語処理では、言語ＤＢ２４に登録されている言語データが参照される。文字列推定部１６は、推定結果を１つの文字列に絞らず、尤もらしい順に複数の文字列候補を出力する。

なお、ここで用いる言語処理技術には、単語推定、共起語推定、誤り訂正法（例えば、非参考文献３：永田. 文字類似度と統計的言語モデルを用いた日本語文字認識誤り訂正法. 情処論, 81(11):2624−2634, 1998.参照）等、様々な手法を適用できる。

ステップ１０８において、第２照合部１８は、複数の文字列候補と、文字列画像抽出部１２により抽出された文字列画像とを順次照合する。本実施形態において、この照合は、文字ＤＢ２２を再度利用して、文字毎に行なう。

以下、第２照合部１８による処理を詳述する。第２照合部１８は、各文字列候補に含まれる複数の文字の各々に対応する複数の文字情報を、文字ＤＢ２２に記憶されている文字情報から選択する。そして、第２照合部１８は、該選択した文字情報の各々と、文字列画像抽出部１２により抽出された文字列画像に含まれる文字画像の各々とを照合し、各文字列候補に含まれる文字毎に文字画像との一致度を計算する。なお、文字情報が示す文字の文字列候補における位置と、当該文字情報と照合される個々の文字画像の文字列画像における位置とは、互いに対応しているものとする。また、ここでも、ステップ１０４における第１照合部１４の処理と同様に、文字情報が特徴値等により表わされており、照合する文字画像と文字情報とが異なる形式である場合には、文字情報を画像に展開して文字列画像の文字画像と照合する。或いは、文字画像を文字情報の形式に変換して照合してもよい。

ここで、第２照合部１８による照合処理について詳述する。第２照合部１８は、推定された文字列候補に文字ＤＢ２２に登録されているフォントを順次適用、或いは複数のフォントを組み合わせてできる新しい字体を適用し、文字列候補を構成する各文字の文字画像を生成した後、第１照合部１４と同様に、生成した文字画像と文字列画像に含まれる各文字画像と照合し、文字毎の一致度を計算する。

照合の結果、文字列候補に一致度の極めて低い文字が含まれていると、当該文字列候補について次のステップ１１０において計算される文字列候補毎の一致度も低い値となる。なお、一致度が予め設定された閾値より小さい文字が含まれている文字列候補については、当該文字列候補に含まれる他の文字の一致度に拘わらず、文字列候補群から除外してもよい。

ステップ１１０において、第２照合部１８は、上記ステップ１０８において計算された文字毎の一致度に基づいて、文字列候補毎の一致度を計算する。例えば、文字列候補に含まれる文字毎の一致度の総和を、当該文字列候補の一致度としてもよいし、当該総和に予め定められた係数を乗じた値を当該文字列候補の一致度としてもよい。

ステップ１１２において、文字列決定部２０は、文字列候補毎の一致度に基づいて、尤もらしい文字列を決定し、出力する。具体的には、例えば、文字列候補毎の一致度が最も高い文字列候補を、尤もらしい文字列として決定することができる。

また、文字列候補毎の一致度を予め設定した閾値と比較して決定してもよい。具体的には、文字列決定部２０は、文字列候補群の中に、予め設定した閾値を超える一致度の文字列候補がある場合には、閾値を超える最も高い一致度の文字列候補を尤もらしい文字列として決定し、上記予め設定した閾値を超える一致度の文字列候補がない場合には、文字列画像から直接取り出された仮認識文字列を尤もらしい文字列として決定してもよい。

更にまた、文字列決定部２０は、上記予め設定した閾値を超える一致度の文字列候補がない場合において、第１照合部１４による照合結果から仮認識文字列の文字列単位の一致度を更に計算し、当該一致度も上記予め設定した閾値を超えないときには、文字列画像抽出部１２により抽出された画像は、文字列領域の画像ではなく、挿絵や写真など、文字列以外の非文字列領域の画像であると判断し、当該画像からの文字列の決定は行なわず、入力画像における当該非文字列領域の座標（例えば当該領域の左上頂点の座標としてもよい）及びサイズを示す情報等をページフォーマット情報としてページフォーマット保存部２６に保存する。なお、仮認識文字列の文字列単位の一致度は、第１照合部１４で予め計算するようにしてもよい。

また、文字列決定部２０は、非文字列領域の画像であると判断されなかった文字列画像については、当該文字列画像の領域の座標、サイズ、及びフォントの情報等をページフォーマット情報として前記非文字列領域に関する情報と区別してページフォーマット保存部２６に保存する。例えば、文字列領域に関する情報には、文字列領域であることを示すフラグを付与する等により区別する。

従来は、文字列画像抽出において、入力画像から可能な限り全ての部分領域を文字列領域であると仮定し、文字列画像の抽出を行なうのが一般的であった。上記手法によれば、文字列領域と非文字列領域とを区別してページフォーマット情報として保存されるため、これを利用すれば、更なる文字認識処理、或いは文字認識以外の画像処理などを効率よく行うことができる。

例えば、同じようなページフォーマットの複数ページからなる書籍や書類のページの読取画像を入力画像として文字列抽出を行なう場合、文字列画像抽出部１２は、最初の数ページ分のページフォーマット情報が得られた段階で、それ以降のページの画像については、ページフォーマット保存部２６に記憶されたページフォーマット情報を参照して文字列画像の抽出を行なうことができる。具体的には、文字列画像抽出部１２は、ページフォーマット情報として記憶されている非文字列領域以外の文字列領域の座標及びサイズに従って、文字列画像を抽出することができる。これにより文字列画像の抽出処理が効率化する。また、第１照合部１４において、ページフォーマット情報として記憶されているフォントの情報に従って、文字ＤＢ２２から該当の文字情報を選択して照合に用いることができる。これにより、照合処理が効率化する。

また、ページフォーマット保存部２６の情報を、挿絵や写真等のイメージを抽出する際に参照することもできる。これにより、文字列ではなく、挿絵や写真等のイメージを抽出する処理を効率化できる。

なお、上記ステップ１０６における自然言語処理による文字列の推定については、周知の従来手法（例えば、図４に示した例２の手法）を利用できる。また、第２照合部１８による文字列候補と文字列画像との文字毎の照合も、従来技術の照合と同じ技術で実現できる。すなわち、文字ＤＢ２２から文字列候補の文字に対応する文字のデータ（様々な書体、サイズ、太さの画像情報）を取り出し、文字列画像の各文字画像と照合すればよい。文字毎の一致度の計算も同様である。

なお、上記では、文字列候補毎の一致度を全ての文字列候補について予め求めておき、これら文字列候補毎の一致度に基づいて尤もらしい文字列を決定する例について説明したが、これに限定されない。

例えば、文字毎の照合結果と文字列候補の推定度（仮認識文字列を元に文字列候補を推定したときの確からしさ）とを加味して、出力となる文字列を決定するようにしてもよい。例えば、推定度の高い順に文字列候補と文字列画像との照合を行い、文字毎の一致度が予め設定した閾値を下回る文字を含まない最初の文字列候補を尤もらしい文字列として決定し、出力することもできる。以下、図３のフローチャートを参照して説明する。なお、図３において、図２と同じ処理については同一のステップ番号を付して説明を省略する。

ステップ１２０において、第２照合部１８は、ステップ１０６において推定された文字列候補群に含まれる文字列候補の中から最も推定度の高い文字列候補を１つ選択する。ステップ１２２において、第２照合部１８は、選択した文字列候補と文字列画像とを照合する。この照合は、上記ステップ１０８と同様、文字単位での照合とされる。ステップ１２４において、第２照合部１８は、文字列候補に含まれる各文字について、文字毎の一致度を計算する。ステップ１２６において、文字列決定部２０は、一致度が予め設定した閾値以下の文字が文字列候補に存在するか否かを判断する。ステップ１２６で否定判断された場合には、ステップ１３０において、文字列決定部２０は、現在選択中の文字列候補を尤もらしい文字列として決定し、出力する。

一方、文字列決定部２０は、ステップ１２４で肯定判断した場合には、ステップ１２８で、文字列候補群の全文字列候補についての照合が終了したか否かを判定する。ステップ１２８で否定判断した場合には、現在選択中の文字列候補を破棄し、ステップ１２０に戻り、次に推定度の高い文字列候補を選択して照合を行なう。また、文字列決定部２０は、ステップ１２８で肯定判断した場合には、ステップ１３０において、仮認識文字列を尤もらしい文字列として決定して出力する。

次に、図４を参照して、図１の構成図と比較しながらより具体的な例を挙げて文字列認識装置１０による作用を説明する。なお、ここでは、図３を参照して説明した、推定度の高い順に照合を行なう場合を例に挙げて説明する。
（１）入力画像が取得される（図１（Ａ））。
（２）文字列画像が切り出される（図１（Ｂ））。一点鎖線により囲まれた部分が文字列領域である。
（３）文字列画像の文字画像毎に文字ＤＢ２２の文字情報と照合され（図１（Ｃ））、最も一致度が高い文字情報の文字がそれぞれ出力として取り出される（図１（Ｄ））。このとき、文字の切り分けや背景などの影響により、必ずしも正しい文字列が取り出されるとは限らない。
（４）取り出された文字列（仮認識文字列）を元に自然言語処理を行ない、複数の文字列候補を推定し（図１（Ｅ））、尤もらしい順に（推定度が高い順に）複数の文字列候補を出力する（図１（Ｆ））。前述したように、ここで用いる言語処理技術には、単語推定、共起語推定、誤り訂正法等、様々な手法を適用できる。図３では、DRY CLEANER、DRY CLEANING、DERBY CLOTHINGという３つの文字列候補が推定された状態が示されている。
（５）推定度の高い文字列候補から順に文字列画像と照合する。ここでの照合は、文字ＤＢから該当する文字情報を取り出し、文字毎に行なう（図１（Ｇ））。この照合結果から、尤もらしい文字列を決定し（図１（Ｈ））、出力する（図１（Ｉ））。

例えば、予め設定された閾値以下の文字が現れればこの文字列候補を破棄し、次の文字列候補の照合へ移る。閾値以下の文字が現れなければこの文字列候補を尤もらしい文字列として決定し、出力とする。すなわち、ここでは、文字毎の一致度が全て閾値を上回る文字列候補のうち推定度が最も高い文字列候補が、尤もらしい文字列として決定される。また、全ての文字列候補で各文字の一致度が閾値以下となる場合は、上記(3)の出力を最終出力として採用する。なお、一致度計算及び文字列決定の方法としては、図２を参照して説明したように、文字列候補毎に当該文字列候補に含まれる文字毎の一致度の総和等を文字列候補毎の一致度として計算し、最大の一致度を示した文字列候補を尤もらしい文字列として決定して出力する方法も適用できる。

以上説明したように、画像処理により取り出された（第１照合部１４の照合により得られた）文字列を文字列推定部１６の自然言語処理により一般的な文字列候補へ変換し、再びこれら文字列候補を文字列画像と照合することにより、言語処理的な文字列の確からしさ、及び画像処理的な文字列画像との一致度の双方を満たす文字列が最終的な文字列認識結果として得られるため、より精度の高い文字列認識機能を実現することが可能となる。

なお、文字列認識装置の構成は、上記例に限定されず、例えば、図５に示すような構成とすることもできる。図５に示す文字列認識装置１１は、文字列画像抽出部１２、第１照合部１４、文字画像照合部１５、文字列推定部１６、文字列決定部２０、文字ＤＢ２２、言語ＤＢ２４、及びページフォーマット保存部２６を含んだ構成で表わすことができる。ここで、図５に示す符号と、図１に示す符号が同一の構成要素は、それぞれ、同一の機能を有する構成要素を意味するため説明を省略する。

図５に示す文字列認識装置１１では、第１照合部１４と文字画像生成部１５とで第２照合部１９が構成されている。文字画像生成部１５は、文字列推定部１６により推定された文字列候補に文字ＤＢ２２に登録されているフォントを順次適用、或いは複数のフォントを組み合わせてできる新しい字体を適用し、文字列候補を構成する各文字の文字画像を生生成する。第１照合部１４は、第２照合部１９の機能として動作する場合には、文字画像生成部１５で生成した文字画像と、文字列画像に含まれる各文字画像とを照合し、文字毎の一致度を計算する。計算された一致度は、文字列決定部２０に出力される。第１照合部１４及び文字画像生成部１５により、図１を用いて例示した第２照合部１８と同等の機能が実現される。

また、上述の文字列認識装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読取り可能な記録媒体に格納して提供することも可能である。

１０、１１文字列認識装置
１２文字列画像抽出部
１４第１照合部
１６文字列推定部
１８第２照合部
２０文字列決定部
２２文字ＤＢ
２４言語ＤＢ
２６ページフォーマット保存部

Claims

入力画像から複数の文字画像を含む文字列画像を抽出する抽出手段と、
前記抽出手段により抽出された文字列画像に含まれる文字画像の各々と、予めデータベースに記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力する第１照合手段と、
前記第１照合手段から出力された文字からなる文字列に基づいて自然言語処理を行なって、複数の文字列候補を推定する文字列推定手段と、
前記文字列推定手段により推定された複数の文字列候補について、前記データベースに記憶されている前記文字列候補に含まれる各文字に対応する文字情報と、前記抽出手段により抽出された文字列画像とを照合して、前記文字列候補に含まれる各文字の一致度を計算する第２照合手段と、
前記第２照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補から、尤もらしい文字列を決定する文字列決定手段と、
を備えた文字列認識装置。
前記第２照合手段は、前記推定された複数の文字列候補について、前記文字列候補に含まれる各文字の一致度を計算し、当該計算した一致度を用いて、前記文字列推定手段により推定された文字列候補毎の一致度を計算し、
前記文字列決定手段は、前記第２照合手段により計算された文字列候補毎の一致度に基づいて、前記尤もらしい文字列を決定する
請求項１に記載の文字列認識装置。
前記文字列決定手段は、前記文字列候補毎の一致度の各々が、予め設定した閾値以下となる場合には、前記第１照合手段から出力された文字からなる文字列を前記尤もらしい文字列として決定する
請求項２に記載の文字列認識装置。
前記文字列決定手段は、前記文字列推定手段により推定された文字列候補毎の一致度、及び前記第１照合手段から出力された文字からなる文字列の一致度の各々が、予め設定した閾値以下となる場合には、前記抽出手段により前記文字列画像として抽出された画像から前記尤もらしい文字列を決定せず、当該文字列画像として抽出された画像の領域を、文字列画像以外の非文字列画像の領域であると判断し、当該非文字列画像の領域に関する情報を所定の保存部に保存し、非文字列画像の領域であると判断されなかった文字列画像の領域については、当該文字列画像の領域に関する情報を前記非文字列画像の領域に関する情報と区別して前記保存部に保存する
請求項２に記載の文字列認識装置。
前記文字列決定手段は、前記第２照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補のうち、少なくとも１つの文字の一致度が閾値以下となる文字列候補以外の文字列候補から、尤もらしい文字列を決定する
請求項１〜請求項４の何れか１項記載の文字列認識装置。
コンピュータを請求項１〜請求項５の何れか１項記載の文字列認識装置の各手段として機能させるための文字列認識プログラム。
コンピュータを請求項１〜請求項５の何れか１項記載の文字列認識装置の各手段として機能させるための文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体。