JPH11203406A - 文字切り出し方法、文字認識方法、文字認識装置および記録媒体 - Google Patents

文字切り出し方法、文字認識方法、文字認識装置および記録媒体

Info

Publication number
JPH11203406A
JPH11203406A JP10008582A JP858298A JPH11203406A JP H11203406 A JPH11203406 A JP H11203406A JP 10008582 A JP10008582 A JP 10008582A JP 858298 A JP858298 A JP 858298A JP H11203406 A JPH11203406 A JP H11203406A
Authority
JP
Japan
Prior art keywords
character
pattern
candidate
patterns
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10008582A
Other languages
English (en)
Inventor
Shinobu Yamamoto
忍 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10008582A priority Critical patent/JPH11203406A/ja
Publication of JPH11203406A publication Critical patent/JPH11203406A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 部分文字パターンを適切な大きさに設定し、
作成する文字列候補パターンの数を抑制することによ
り、メモリ容量を削減する。 【解決手段】 入力文字列から基本パターンを抽出
(2)し、基本パターンを統合して部分文字パターンを
作成(3)する。部分文字パターンの並びから文字候補
パターンを切り出し(4)、これを辞書(5)と照合す
ることにより認識(6)し、文字コード、類似度を出力
する。文字候補の幾何学的特徴量を計算(7)し、文字
候補から文字列候補を作成(8)し、その文字列候補の
幾何学的特徴量を計算(9)する。文字列候補毎の特徴
量などを基に評価値を計算(10)し、最も評価値の高
い文字列候補に含まれる文字候補を認識結果として出力
(11、12)する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、帳票などに記入さ
れた複数の手書き文字からなる文字列を読み取る文字認
識方法において、特に分離文字を含む文字列や、個々の
文字の大きさや文字間隔が不定な文字列から精度よく文
字の切り出しを行って認識処理する文字切り出し方法、
文字認識方法、文字認識装置および文字認識処理のプロ
グラムを記録した記録媒体に関する。
【0002】
【従来の技術】従来、文書や帳票に記入されている住
所、氏名や電話番号等の手書き文字を認識する文字認識
方法においては、1文字だけ記入する枠を複数設け、各
枠内には1文字しか文字が記入されないものとして認識
する手法が採られ、従って筆記者は1枠内に1文字だけ
記入しなければならない。図11(a)は、1文字単位
の記入枠の例を示す。
【0003】このような1文字について1枠という制限
は筆記者にとって余計な手間であり、1行をまとめて記
入できる方がより自然であり、記入が容易になる。図1
1(b)は、1行単位の記入枠の例を示す。しかし、1
行分の文字列を読み取る際に、例えば横書きの場合、漢
字やかななどの左右に分離できる文字があり、また手書
き文字ではその大きさや間隔が不揃いになることもある
ため、パターンの形状と間隔に基いて文字の切り出し行
うと、誤った切り出し結果となることが多い。図12
(a)は、従来の方法である、文字の幅と高さが近い値
をとるという考え方に基づいて、文字の高さの平均値に
近い空白部分で文字を切り出した例である。
【0004】手書き文字は、通常、図12のように文字
幅が不揃いになる。この図の例では、「浜」と「町」と
いう文字の幅が広い。また、これらの文字が左右に分離
できる文字であるために、誤った切り出し結果となって
いる。
【0005】ところで、活字文字認識で用いられている
方法として、形状に基いて切り出した結果に対して一旦
文字認識を実行し、その結果の類似度が低い部分に対し
てのみ、文字の切り出し方法を変更する方法がある(例
えば特開平8−161432号公報を参照)。しかし、
分離文字の中には、分離した部分ごとに確からしい文字
となることがあるので、上記した方法は手書き文字には
適用できない。図12(b)の例では、「横」と[町」
という文字がそれぞれ「木」と「黄」、「田」と「丁」
という文字に認識されることから類似度が高くなり、従
って誤って切り出したと判断されず、切り出し方法が変
更されないことになる。
【0006】
【発明が解決しようとする課題】上記した欠点を解決す
る手法として、文字パターンの一部である部分文字パタ
ーンを抽出し、予め定めた文字パターンとみなせる範囲
内で1つ以上の部分文字パターンを組み合わせて文字候
補パターンを作成し、部分文字パターンの不足や重複の
生じない全ての文字候補パターンの組み合わせによって
1つ以上の文字列候補パターンを作成し、作成された文
字列候補パターン毎に、文字列候補パターンに含まれる
文字候補パターンの文字認識結果や幾何学的特徴に基づ
いた評価値を算出し、最も評価の高い文字列候補パター
ンを認識結果として選択する方法がある。
【0007】この方法では、部分文字パターンが複数の
実際に記入される文字を含まないように十分小さく設定
され、部分文字パターンを組み合わせる範囲が実際に記
入される文字を必ず含むように十分大きく設定されてい
る限り、複数作成される文字列候補パターンの中に必ず
正解が含まれることになるため、実際に記入される文字
の大きさや間隔などにばらつきがあっても、正しい文字
切り出しおよび認識結果が得られることになる。
【0008】このような方法を採るものとして、例え
ば、連続した黒画素部分から作成される成分パターンか
ら複数の切り出し仮説をたてて文字リストを作成し、文
字の属性値と認識結果の総合判定により結果を出力す
る、パターン切り出しおよび認識方法とそのシステム
(特開平7−73273号公報)がある。
【0009】しかし、上記した方法では、成分パターン
から文字リストを作成しているので、文字に含まれる成
分パターンの数が大幅に増加する漢字やかなを含む文字
列において、総合判定の際に作成する一行分の文字列候
補パターンの数が膨大になることから、実行速度が遅く
なり、使用するメモリ容量が多くなるという問題があ
る。
【0010】本発明の目的は、部分文字パターンを適切
な大きさに設定し、作成する文字列候補パターンの数を
抑制することにより、使用するメモリ容量を削減し、高
速、かつ高精度に文字を切り出し、認識する文字切り出
し方法、文字認識方法、文字認識装置および文字認識処
理のプログラムを記録した記録媒体を提供することにあ
る。
【0011】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、手書き文字を含む帳票な
どの文書画像中の文字列パターンから文字パターンを切
り出す方法であって、前記文字列パターンから黒画素の
連結成分を基本パターンとして抽出し、所定方向に所定
の割合で重なりを持つ基本パターンを統合することによ
って部分文字パターンを作成し、該部分文字パターンを
文字候補パターンとして切り出すと共に、該部分文字パ
ターンに隣接する複数の部分文字パターンを組み合わせ
たときの大きさが所定の閾値以下のとき、該組み合わせ
たパターンを文字候補パターンとして切り出すことを特
徴としている。
【0012】請求項2記載の発明では、前記部分文字パ
ターンを組み合わせときの大きさが所定の閾値以下であ
り、前記隣接する部分文字パターン間に所定の閾値以上
の幅の空白があるとき、文字候補パターンとして切り出
さないことを特徴としている。
【0013】請求項3記載の発明では、前記部分文字パ
ターンを組み合わせときの大きさが所定の閾値以上であ
り、かつ前記隣接する部分文字パターン間に空白がない
とき、文字候補パターンとして切り出すことを特徴とし
ている。
【0014】請求項4記載の発明では、手書き文字を含
む帳票などの文書画像中の文字列パターンから文字パタ
ーンを切り出し、切り出した各文字パターンを認識処理
する文字認識方法であって、請求項1、2または3記載
の方法によって切り出された文字候補パターンについ
て、辞書と照合することによって文字コードと類似度を
求めると共にパターンの大きさに関する第1の特徴量を
算出し、前記切り出された文字候補パターンを組み合わ
せた文字列候補パターンを作成し、該各文字列候補パタ
ーンにおいて、隣接する文字候補パターン間の中心間距
離に関する第2の特徴量を算出し、前記各文字列候補パ
ターン毎に、文字列候補パターンに含まれる文字候補パ
ターンの類似度の平均値と第1の特徴量の平均値、およ
び前記第2の特徴量を基に、各文字列候補パターンの評
価値を算出し、最も評価値の高い文字列候補パターンに
含まれる各文字候補パターンに対応する文字コードを認
識結果として出力することを特徴としている。
【0015】請求項5記載の発明では、前記第2の特徴
量として、さらに、隣接する文字候補パターン間の空白
の幅を用いることを特徴としている。
【0016】請求項6記載の発明では、手書き文字を含
む帳票などの文書画像中の文字列パターンから黒画素の
連結成分を基本パターンとして抽出する手段と、所定方
向に所定の割合で重なりを持つ基本パターンを統合する
ことによって部分文字パターンを作成する手段と、該部
分文字パターンを文字候補パターンとして切り出すと共
に、該部分文字パターンに隣接する複数の部分文字パタ
ーンを組み合わせたときの大きさが所定の閾値以下のと
き、該組み合わせたパターンを文字候補パターンとして
切り出す手段と、該切り出された文字候補パターンにつ
いて、辞書と照合することによって文字コードを出力
し、類似度を算出する手段と、前記文字候補パターンの
大きさに関する第1の特徴量を算出する手段と、前記切
り出された文字候補パターンを組み合わせた文字列候補
パターンを作成する手段と、該各文字列候補パターンに
おいて、隣接する文字候補パターン間の中心間距離に関
する第2の特徴量を算出する手段と、前記各文字列候補
パターン毎に、文字列候補パターンに含まれる文字候補
パターンの類似度の平均値と第1の特徴量の平均値、お
よび前記第2の特徴量を基に、各文字列候補パターンの
評価値を算出する手段と、評価値を比較し最も評価値の
高い文字列候補パターンを判定する手段と、最も評価値
の高い文字列候補パターンに含まれる各文字候補パター
ンに対応する文字コードを認識結果として出力する手段
とを備えたことを特徴としている。
【0017】請求項7記載の発明では、手書き文字を含
む帳票などの文書画像中の文字列パターンから黒画素の
連結成分を基本パターンとして抽出する機能と、所定方
向に所定の割合で重なりを持つ基本パターンを統合する
ことによって部分文字パターンを作成する機能と、該部
分文字パターンを文字候補パターンとして切り出すと共
に、該部分文字パターンに隣接する複数の部分文字パタ
ーンを組み合わせたときの大きさが所定の閾値以下のと
き、該組み合わせたパターンを文字候補パターンとして
切り出す機能、あるいは、前記部分文字パターンを組み
合わせときの大きさが所定の閾値以上であり、かつ前記
隣接する部分文字パターン間に空白がないとき、文字候
補パターンとして切り出す機能、あるいは、前記部分文
字パターンを組み合わせときの大きさが所定の閾値以下
であり、前記隣接する部分文字パターン間に所定の閾値
以上の幅の空白があるとき、文字候補パターンとして切
り出しを抑制する機能と、該切り出された文字候補パタ
ーンについて、辞書と照合することによって文字コード
を出力し、類似度を算出する機能と、前記文字候補パタ
ーンの大きさに関する第1の特徴量を算出する機能と、
前記切り出された文字候補パターンを組み合わせた文字
列候補パターンを作成する機能と、該各文字列候補パタ
ーンにおいて、隣接する文字候補パターン間の中心間距
離、または中心間距離と該パターン間の空白の幅に関す
る第2の特徴量を算出する機能と、前記各文字列候補パ
ターン毎に、文字列候補パターンに含まれる文字候補パ
ターンの類似度の平均値と第1の特徴量の平均値、およ
び前記第2の特徴量を基に、各文字列候補パターンの評
価値を算出する機能と、評価値を比較し最も評価値の高
い文字列候補パターンを判定する機能と、最も評価値の
高い文字列候補パターンに含まれる各文字候補パターン
に対応する文字コードを認識結果として出力する機能を
コンピュータに実現させるためのプログラムを記録した
コンピュータ読み取り可能な記録媒体であることを特徴
としている。
【0018】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図1は、本発明の実施例の構
成を示す。図において、1は帳票などを光学的に読み取
り画像を入力する画像入力手段、2は入力画像の文字列
パターンから、黒画素の連結成分を基本パターンとして
抽出する基本パターン抽出手段、3は近接する基本パタ
ーンを組み合わせて部分文字パターンを作成する部分文
字パターン作成手段、4は1つ以上の部分文字パターン
からなる文字パターンを切り出す文字候補パターン切り
出し手段、5は文字パターンを格納した辞書、6は辞書
と照合することにより、個々の文字候補パターンを認識
して文字コードと類似度を出力する文字認識手段、7は
文字候補パターンの幾何学的特徴量を算出する文字候補
パターン特徴量計算手段、8は部分文字パターンが複数
の文字候補パターンに含まれているような領域に対して
1つ以上の文字列候補パターンを作成する文字列候補パ
ターン構成手段、9は個々の文字列候補パターンに対し
て幾何学的特徴量を算出する文字列候補パターン特徴量
計算手段、10は文字列候補パターンごとに、文字列候
補パターンに含まれる文字候補パターンの認識類似度と
幾何学的特徴量および文字列候補パターンの幾何学的特
徴量にもとづき文字列候補パターンの評価値を計算する
文字列候補パターン評価値計算手段、11は文字列候補
パターンの評価値を比較して、最も評価値の高い文字列
候補パターンを判定する文字列パターン判定手段、12
は判定された文字列候補パターンに含まれる文字候補パ
ターンの文字コードを認識結果として出力する認識結果
出力手段である。
【0019】また、図2は、本発明の実施例の処理フロ
ーチャートを示す。
【0020】〈実施例1〉画像入力手段1は、帳票など
に記入された複数の手書き文字を光学的に読み取り帳票
画像を入力する(ステップ101)。次いで、基本パタ
ーン抽出手段2は、入力画像の文字列パターンから、公
知の方法を用いて、黒画素の連結成分を基本パターンと
して抽出する(ステップ102)。このような方法とし
ては、例えば、高木他 編 「別冊OplusE 画像
処理アルゴリズムの最新動向」(1986、新技術コミ
ュニケーションズ)に記載された方法を用いればよい。
【0021】次に、部分文字パターン作成手段3では、
基本パターンから部分文字パターンを作成する(ステッ
プ103)。すなわち、基本パターンの位置と大きさを
求め、2つの基本パターンが文字列方向(横書きであれ
ば横方向)に対して縦方向に斜影をとったとき包含関係
にあれば、それらの基本パターンに対して第1の統合を
行う。第1の統合実行後、文字列方向に対して縦方向に
重なりがある基本パターンの組を抽出し、重なり部分の
大きさが、どちらかの基本パターンの文字列方向の大き
さのある一定の割合、例えば3分の2を超えていれば、
それらの統合された基本パターンをさらに統合する。
【0022】横書きの場合を例にとると、図3の「浜」
という文字のさんずいの部分で、基本パターン21〜2
3の内、基本パターン21と23が縦方向に包含関係に
あるため、これらの基本パターンを統合して、統合され
た基本パターン24とする。そして、基本パターン22
と基本パターン24に関して、これらの重なりの部分の
大きさは、基本パターン24の大きさの3分の2を超え
ていないが、基本パターン22の大きさの3分の2を超
えており、これらを統合して部分文字パターン31とす
る。
【0023】このような処理を、1つの基本パターン
が、複数の部分文字パターンには含まれないように順次
実行し、統合すべき基本パターンがなくなったときの統
合された基本パターンを部分文字パターンとする。
【0024】次に、文字候補パターン切り出し手段4に
おいて、部分文字パターンの並びから文字候補パターン
を切り出す(ステップ104)。まず、単独の部分文字
パターンを1つの文字候補パターンとする。その部分文
字パターンに隣接する部分文字パターンと仮に統合した
場合のパターンの文字列方向の大きさが、所定の閾値
(例えば、文字列内のすべての部分文字パターンの文字
列に垂直方向(横書きならば縦方向)である、全体の高
さの平均値の2倍)以下であるとき、仮に統合したパタ
ーンを文字候補パターンとして切り出す。
【0025】さらに、隣接する部分文字パターンをも仮
に統合して、大きさが所定の範囲内にあれば、文字候補
パターンとして切り出す。この処理を順次繰り返し、文
字候補パターンを切り出す。図4の例において、図4
(a)では、入力された文字列パターンから10個の部
分文字パターンが得られたことを示し、図4(b)で
は、それらの部分文字パターンから27個の文字候補パ
ターンが作成されたことを示している。
【0026】文字認識手段6では、辞書5と照合するこ
とにより、個々の文字候補パターンに対して文字コード
とともに類似度を出力するような文字認識を実行する
(ステップ105)。このような文字認識の方法として
は、例えば加重方向指数ヒストグラム法(鶴岡他 「加
重方向指数ヒストグラム法による手書き漢字・ひらがな
認識」 電子情報通信学会論文誌,J70−D,7,p
p.1390−1397(1987))などの方法を用
いることができる。得られた類似度は、例えば、0〜1
の間に正規化する(全く類似していないとき0を、最も
確からしいとき1をとる)。
【0027】文字候補パターン特徴量計算手段7では、
個々の文字候補パターンに対して幾何学的な特徴量を算
出する(ステップ106)。この特徴量としては、例え
ば、文字列内の部分文字パターンの全体の高さ(文字列
に垂直方向)の平均値を1として、文字候補パターンの
文字列方向の大きさ(幅)を正規化し(幅/高さ)、こ
の正規化された文字候補パターンの大きさと上記平均値
との差を特徴量とする。
【0028】文字列候補パターン構成手段8において、
部分文字パターンの不足や重複が生じないように文字候
補パターンを選択し、文字列候補パターンを作成する
(ステップ107)。図5(a)のように、部分文字パ
ターンの区切り位置A〜Kに仮想ノードを設定し、個々
の文字候補パターンの両端の区切り位置に対応する仮想
ノードを枝で結べば、図5(b)のようなグラフ表現で
表すことができ、一般的に知られているパス選択の問題
に帰着することができる。
【0029】つまり、左端の仮想ノードAから右端の仮
想ノードKまでのパスは、パス上の枝に対応する文字候
補パターンを組み合わせた文字列候補パターンに対応す
ることになり、一般的なパス選択問題で用いられる方法
を用いて可能なすべてのパスを作成すれば、可能な文字
列候補パターンをすべて求めることができる。図5
(b)の太線のパスは、そのような文字列候補パターン
の1つであり、正しく切り出された場合の文字列パター
ン(「横」「浜」「市」...)を表している。
【0030】文字列候補パターンが作成されると、続い
て、文字列候補パターン特徴量計算手段9は、個々の文
字列候補パターンに含まれている文字候補パターンの位
置関係に関する幾何学的特徴量を算出する(ステップ1
08)。このような特徴量としては、例えば、文字候補
パターンの中心間距離の平均値を1として、文字候補パ
ターンの中心間距離を正規化し、この正規化された文字
候補パターンの中心間距離の分散を特徴量として求め
る。文字候補パターンの中心間距離は、例えば、図6
(a)において区間A〜E、図6(b)において区間F
〜Lの大きさで表される。
【0031】次いで、文字列候補パターン評価値計算手
段10は、個々の文字列候補パターンごとに、含まれる
文字候補パターンの文字認識類似度の平均値と、文字候
補パターンの幾何学的特徴量の平均値と、文字列候補パ
ターンの幾何学的特徴量の重み付き加算により文字列候
補パターンの評価値を求める(ステップ109)。例え
ば、あるN個の文字候補パターンからなる文字列候補パ
ターンについて考える。個々の文字候補パターンの、文
字認識類似度をC1〜CN、幾何学的特徴量をS1〜SN
し、文字列候補パターンの幾何学的特徴量をDとする
と、
【0032】
【数1】
【0033】のような式で、文字列候補パターンの評価
値Eを求めることができる。w1、w2は重みであり、例
えば w1=4 w2=3 などと設定する。
【0034】文字列パターン判定手段11は、個々の文
字列候補パターンの評価値を比較し、最も評価値の高い
文字列候補パターンを判定し(ステップ110)、認識
結果出力手段12は、文字列パターン判定手段11で判
定された文字列候補パターンに含まれる文字候補パター
ンの文字コードを順に並べて、入力された文字列パター
ンに対する認識結果として出力する(ステップ11
1)。
【0035】このように本発明では、適度な大きさの部
分文字パターンから文字候補パターンを作成して、可能
な文字列候補パターンを構成しているので、作成される
文字列候補パターンの数が制限され、かつ、文字列候補
パターン中に正解文字列パターンが含まれるので、高速
で精度のよい文字切り出しおよび認識方法を実現するこ
とができる。なお、上記した実施例は横書きの例である
が、本発明は同様にして縦書きの場合にも適用すること
ができる。
【0036】〈実施例2〉本実施例は、実施例1の文字
候補パターン切り出し手段4において、隣接する部分文
字パターンの文字列方向の大きさが所定値以下であって
も、それらの間の空白が予め定めた値を超えていれば、
文字候補パターンとして切り出さないようにした実施例
である。
【0037】例えば、図7において、部分文字パターン
41と部分文字パターン42を仮に組み合わせたパター
ンの文字列方向の大きさwが、部分文字パターンの高さ
(文字列に垂直方向)の平均値hの2倍以下であって
も、それらの間の空白gが予め定められた値、例えばh
の4分の3を超えていれば、これらを組み合わせた文字
候補パターンを作成しない。
【0038】このように、実施例2では、部分文字パタ
ーン間の空白の大きさで文字候補パターンの切り出しを
制限しているので、明らかに別の文字であるようなパタ
ーンの切り出しを抑えることができ、処理の高速化と、
使用メモリ量の削減が実現できる。
【0039】〈実施例3〉本実施例は、実施例1の文字
候補パターン切り出し手段4において、隣接する部分文
字パターンの文字列方向の大きさが、所定値以上である
場合でも、それらの間に空白がない場合、文字候補パタ
ーンとして切り出すようにした方法である。例えば、図
8において、部分文字パターン51と部分文字パターン
52を仮に組み合わせたパターンの文字列方向の大きさ
が、部分文字パターンの高さ(文字列に垂直方向)の平
均値の2倍以上であっても、それらの間に空白がないた
め、これらを組み合わせた文字候補パターンを作成す
る。
【0040】このように、実施例3では、部分文字パタ
ーン間に空白がない場合には、部分文字パターンを組み
合わせた大きさが所定値以上大きくても文字候補パター
ンとして切り出しを行っているので、横長につぶれた分
離可能な文字の切り出し誤りを防ぐことができ、切り出
し精度を高めることができる。
【0041】〈実施例4〉本実施例は、実施例1の文字
列候補パターン特徴量計算手段9において、特徴量とし
て、隣接する文字候補パターン間の中心間距離に加え、
隣接する文字候補パターン間の空白の幅も用いるように
した実施例である。例えば、隣接する文字候補パターン
間の中心間距離の分散だけでなく、隣接する文字候補パ
ターン間の中心間距離の平均値と、文字候補パターン間
の空白の大きさとの比を用いる。
【0042】図9に示すように、文字の大きさと間隔が
まちまちな文字列パターンに対して、誤りをもつ文字列
候補パターンのほうが、中心間距離の分散が小さくな
り、文字列候補パターンの評価値を計算した後に、誤っ
た評価結果をもたらすことが考えられる。このような場
合に、文字候補パターン間の空白の大きさも特徴に加え
ることによって、誤った評価結果となることを防止する
ことができる。
【0043】〈実施例5〉本発明は上記した実施例に限
定されず、ソフトウエアによっても実現することができ
る。本発明をソフトウエアによって実現する場合には、
図10に示すように、CPU、メモリ、表示装置、ハー
ドディスク、キーボード、CD‐ROMドライブ、マウ
スなどからなるコンピュータシステムを用意する。CD
−ROMなどのコンピュータ読み取り可能な記録媒体に
は、本発明の文字認識処理機能や処理手順を実現するプ
ログラムなどが記録されている。また、処理対象の帳票
画像は例えばハードディスクなどに格納されている。そ
して、CPUは、記録媒体から上記した処理機能、処理
手順を実現するプログラムを読み出し、ハードディスク
などから読み込まれた帳票画像から文字候補パターンを
切り出して認識処理し、その認識結果をディスプレイな
どに出力する。
【0044】
【発明の効果】以上、説明したように、請求項1、4、
6、7記載の発明によれば、適度な大きさの部分文字パ
ターンから文字候補パターンを切り出しているので、精
度よく文字の切り出しが行われ、また文字候補パターン
から可能な文字列候補パターンを作成しているので、作
成される文字列候補パターンの数が制限され、かつ、文
字列候補パターン中に正解文字列パターンが含まれるの
で、高速かつ精度よく文字を認識することができる。
【0045】請求項2記載の発明によれば、部分文字パ
ターン間の空白の大きさに基づいて文字候補パターンの
切り出しを制限しているので、明らかに別の文字である
ようなパターンの切り出しを抑制することが可能とな
り、従って、処理時間が短縮されると共に、使用メモリ
量が削減される。
【0046】請求項3記載の発明によれば、部分文字パ
ターン間に空白がない場合には、部分文字パターンを組
み合わせた大きさが所定値以上大きくても文字候補パタ
ーンとして切り出しを行っているので、横長に大きい文
字を切り出すことができ、切り出し精度が向上する。
【0047】請求項5記載の発明によれば、文字列候補
パターンの評価値として、文字候補パターン間の空白の
大きさも特徴に加えているので、評価値を正しく計算す
ることができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の実施例の処理フローチャートを示す。
【図3】部分文字パターンの作成を示す。
【図4】文字候補パターンの切り出しを示す。
【図5】文字列候補パターンの構成を説明する図であ
る。
【図6】文字列候補パターンの幾何学的特徴量を説明す
る図である。
【図7】部分文字パターン間の空白を説明する図であ
る。
【図8】重なりのある部分文字パターンを示す。
【図9】文字列候補パターンの他の幾何学的特徴量を説
明する図である。
【図10】本発明をソフトウェアによって実現する場合
の構成例を示す。
【図11】帳票の例を示す。
【図12】従来の方法によって文字を切り出した例を示
す。
【符号の説明】
1 画像入力手段 2 基本パターン抽出手段 3 部分文字パターン作成手段 4 文字候補パターン切り出し手段 5 辞書 6 文字認識手段 7 文字候補パターン特徴量計算手段 8 文字列候補パターン構成手段 9 文字列候補パターン特徴量計算手段 10 文字列候補パターン評価値計算手段 11 文字列パターン判定手段 12 認識結果出力手段

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 手書き文字を含む帳票などの文書画像中
    の文字列パターンから文字パターンを切り出す方法であ
    って、前記文字列パターンから黒画素の連結成分を基本
    パターンとして抽出し、所定方向に所定の割合で重なり
    を持つ基本パターンを統合することによって部分文字パ
    ターンを作成し、該部分文字パターンを文字候補パター
    ンとして切り出すと共に、該部分文字パターンに隣接す
    る複数の部分文字パターンを組み合わせたときの大きさ
    が所定の閾値以下のとき、該組み合わせたパターンを文
    字候補パターンとして切り出すことを特徴とする文字切
    り出し方法。
  2. 【請求項2】 前記部分文字パターンを組み合わせとき
    の大きさが所定の閾値以下であり、前記隣接する部分文
    字パターン間に所定の閾値以上の幅の空白があるとき、
    文字候補パターンとして切り出さないことを特徴とする
    請求項1記載の文字切り出し方法。
  3. 【請求項3】 前記部分文字パターンを組み合わせとき
    の大きさが所定の閾値以上であり、かつ前記隣接する部
    分文字パターン間に空白がないとき、文字候補パターン
    として切り出すことを特徴とする請求項1記載の文字切
    り出し方法。
  4. 【請求項4】 手書き文字を含む帳票などの文書画像中
    の文字列パターンから文字パターンを切り出し、切り出
    した各文字パターンを認識処理する文字認識方法であっ
    て、請求項1、2または3記載の方法によって切り出さ
    れた文字候補パターンについて、辞書と照合することに
    よって文字コードと類似度を求めると共にパターンの大
    きさに関する第1の特徴量を算出し、前記切り出された
    文字候補パターンを組み合わせた文字列候補パターンを
    作成し、該各文字列候補パターンにおいて、隣接する文
    字候補パターン間の中心間距離に関する第2の特徴量を
    算出し、前記各文字列候補パターン毎に、文字列候補パ
    ターンに含まれる文字候補パターンの類似度の平均値と
    第1の特徴量の平均値、および前記第2の特徴量を基
    に、各文字列候補パターンの評価値を算出し、最も評価
    値の高い文字列候補パターンに含まれる各文字候補パタ
    ーンに対応する文字コードを認識結果として出力するこ
    とを特徴とする文字認識方法。
  5. 【請求項5】 前記第2の特徴量として、さらに、隣接
    する文字候補パターン間の空白の幅を用いることを特徴
    とする請求項4記載の文字認識方法。
  6. 【請求項6】 手書き文字を含む帳票などの文書画像中
    の文字列パターンから黒画素の連結成分を基本パターン
    として抽出する手段と、所定方向に所定の割合で重なり
    を持つ基本パターンを統合することによって部分文字パ
    ターンを作成する手段と、該部分文字パターンを文字候
    補パターンとして切り出すと共に、該部分文字パターン
    に隣接する複数の部分文字パターンを組み合わせたとき
    の大きさが所定の閾値以下のとき、該組み合わせたパタ
    ーンを文字候補パターンとして切り出す手段と、該切り
    出された文字候補パターンについて、辞書と照合するこ
    とによって文字コードを出力し、類似度を算出する手段
    と、前記文字候補パターンの大きさに関する第1の特徴
    量を算出する手段と、前記切り出された文字候補パター
    ンを組み合わせた文字列候補パターンを作成する手段
    と、該各文字列候補パターンにおいて、隣接する文字候
    補パターン間の中心間距離に関する第2の特徴量を算出
    する手段と、前記各文字列候補パターン毎に、文字列候
    補パターンに含まれる文字候補パターンの類似度の平均
    値と第1の特徴量の平均値、および前記第2の特徴量を
    基に、各文字列候補パターンの評価値を算出する手段
    と、評価値を比較し最も評価値の高い文字列候補パター
    ンを判定する手段と、最も評価値の高い文字列候補パタ
    ーンに含まれる各文字候補パターンに対応する文字コー
    ドを認識結果として出力する手段とを備えたことを特徴
    とする文字認識装置。
  7. 【請求項7】 手書き文字を含む帳票などの文書画像中
    の文字列パターンから黒画素の連結成分を基本パターン
    として抽出する機能と、所定方向に所定の割合で重なり
    を持つ基本パターンを統合することによって部分文字パ
    ターンを作成する機能と、該部分文字パターンを文字候
    補パターンとして切り出すと共に、該部分文字パターン
    に隣接する複数の部分文字パターンを組み合わせたとき
    の大きさが所定の閾値以下のとき、該組み合わせたパタ
    ーンを文字候補パターンとして切り出す機能、あるい
    は、前記部分文字パターンを組み合わせときの大きさが
    所定の閾値以上であり、かつ前記隣接する部分文字パタ
    ーン間に空白がないとき、文字候補パターンとして切り
    出す機能、あるいは、前記部分文字パターンを組み合わ
    せときの大きさが所定の閾値以下であり、前記隣接する
    部分文字パターン間に所定の閾値以上の幅の空白がある
    とき、文字候補パターンとして切り出しを抑制する機能
    と、該切り出された文字候補パターンについて、辞書と
    照合することによって文字コードを出力し、類似度を算
    出する機能と、前記文字候補パターンの大きさに関する
    第1の特徴量を算出する機能と、前記切り出された文字
    候補パターンを組み合わせた文字列候補パターンを作成
    する機能と、該各文字列候補パターンにおいて、隣接す
    る文字候補パターン間の中心間距離、または中心間距離
    と該パターン間の空白の幅に関する第2の特徴量を算出
    する機能と、前記各文字列候補パターン毎に、文字列候
    補パターンに含まれる文字候補パターンの類似度の平均
    値と第1の特徴量の平均値、および前記第2の特徴量を
    基に、各文字列候補パターンの評価値を算出する機能
    と、評価値を比較し最も評価値の高い文字列候補パター
    ンを判定する機能と、最も評価値の高い文字列候補パタ
    ーンに含まれる各文字候補パターンに対応する文字コー
    ドを認識結果として出力する機能をコンピュータに実現
    させるためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体。
JP10008582A 1998-01-20 1998-01-20 文字切り出し方法、文字認識方法、文字認識装置および記録媒体 Pending JPH11203406A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10008582A JPH11203406A (ja) 1998-01-20 1998-01-20 文字切り出し方法、文字認識方法、文字認識装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10008582A JPH11203406A (ja) 1998-01-20 1998-01-20 文字切り出し方法、文字認識方法、文字認識装置および記録媒体

Publications (1)

Publication Number Publication Date
JPH11203406A true JPH11203406A (ja) 1999-07-30

Family

ID=11697011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10008582A Pending JPH11203406A (ja) 1998-01-20 1998-01-20 文字切り出し方法、文字認識方法、文字認識装置および記録媒体

Country Status (1)

Country Link
JP (1) JPH11203406A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202068A (ja) * 2005-01-21 2006-08-03 Hitachi Ltd 単語認識装置および単語認識方法
US9280725B2 (en) 2013-02-14 2016-03-08 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium
CN111476240A (zh) * 2019-01-24 2020-07-31 富士施乐株式会社 信息处理装置、记录媒体及信息处理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202068A (ja) * 2005-01-21 2006-08-03 Hitachi Ltd 単語認識装置および単語認識方法
US9280725B2 (en) 2013-02-14 2016-03-08 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium
CN111476240A (zh) * 2019-01-24 2020-07-31 富士施乐株式会社 信息处理装置、记录媒体及信息处理方法
CN111476240B (zh) * 2019-01-24 2023-07-25 富士胶片商业创新有限公司 信息处理装置、记录媒体及信息处理方法

Similar Documents

Publication Publication Date Title
JP2734386B2 (ja) 文字列読み取り装置
JP3452774B2 (ja) 文字認識方法
JP2012160000A (ja) 目次と見出しの対応付け方法、対応付け装置、及び対応付けプログラム
JP4704601B2 (ja) 文字認識方法,プログラム及び記録媒体
JPH0634256B2 (ja) 接触文字切出し方法
JP4450888B2 (ja) 帳票認識方法
JP3216800B2 (ja) 手書き文字認識方法
JP4856235B2 (ja) 帳票認識方法及び帳票認識装置
JPH11203406A (ja) 文字切り出し方法、文字認識方法、文字認識装置および記録媒体
JP4834351B2 (ja) 文字認識装置及び文字認識方法
JP2003058556A (ja) 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
JP2002063548A (ja) 手書き文字認識方法
JP2940747B2 (ja) 文字切り出し装置
JP3897999B2 (ja) 手書き文字認識方法
JP4878057B2 (ja) 文字認識方法,プログラム及び記録媒体
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
JPH09274645A (ja) 文字認識方法および装置
JP3848792B2 (ja) 文字列認識方法及び記録媒体
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
JP2671533B2 (ja) 文字列認識方法及びその装置
JP3376931B2 (ja) 文字行抽出方法および装置
JP4141217B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP4148966B2 (ja) パターン照合装置及びそれを実現するためのプログラム、記録媒体
JPH0436885A (ja) 光学式文字読取装置
JPH06162266A (ja) オンライン手書き文字認識の方法及びその装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050901

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051108