JPH08221507A - 文書認識方法および装置 - Google Patents

文書認識方法および装置

Info

Publication number
JPH08221507A
JPH08221507A JP7049197A JP4919795A JPH08221507A JP H08221507 A JPH08221507 A JP H08221507A JP 7049197 A JP7049197 A JP 7049197A JP 4919795 A JP4919795 A JP 4919795A JP H08221507 A JPH08221507 A JP H08221507A
Authority
JP
Japan
Prior art keywords
sentence
word
recognition result
character recognition
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7049197A
Other languages
English (en)
Inventor
Takuya Okamoto
卓哉 岡本
Masatoshi Hino
匡利 樋野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7049197A priority Critical patent/JPH08221507A/ja
Publication of JPH08221507A publication Critical patent/JPH08221507A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】印影を含めた2値画像として入力された画像か
ら、高精度に印影部分を判定し除去して文字認識するこ
とのできる文書認識方法および装置を提供することを目
的とする。 【構成】画像中の認識領域(フィールド)を抽出し、フ
ィールド内の行抽出および文字認識を行なう(10
1)。認識したフィールドが文末に捺印されるフィール
ドであれば、印影除去処理を行なう。印影除去処理で
は、まず、行末判定処理として、フィールド内の各行の
字下げ、行末の余白の情報から、文末位置を求める(1
03)。さらに、各文末位置に対して(104,10
5,106,108)、文末検証処理として、文末部分
に出現する可能性のある単語との比較検証処理を行な
い、その結果に基づいて文末の位置補正及び認識結果の
修正を行なう(107)。以上の処理を各フィールドに
ついて繰り返す(109)。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、戸籍など、各文の文末
に捺印のある文書を認識する際に用いて好適な文書認識
方法および装置に関する。
【0002】
【従来の技術】戸籍など各文の文末に捺印のある文書を
スキャナなどで読み取った画像情報から文字認識を行な
う場合、文書中の印影が文字認識の邪魔になることがあ
る。文字認識の際に余分となる印影の除去については、
例えば、画像入力時に、スキャナの光源の色を、消去す
べき印影部分の色と同系色の色とし、これにより光学的
ドロップアウトによる除去を実現する手段(特開平5−
28313号:光学情報読取装置など)を用いる方法が
ある。また、カラースキャナなどを用いて入力したカラ
ー画像から、所定の色情報の部分を分離することによ
り、指定色を消去するなどの手段(特開平5−2831
4号:光学的文字読取装置など)も利用可能である。
【0003】
【発明が解決しようとする課題】認識の際に余分となる
印影の除去手段として、光学的ドロップアウトなど、画
像を入力する時点で印影を除去する方法を用いると、朱
肉の色の変動により、ドロップアウトする場合としない
場合とがあり、一意にドロップアウトカラー(光源色)
を設定できないという問題がある。また、朱筆訂正の部
分が存在する文書の場合、光学的ドロップアウトを行な
うと、これら朱筆の訂正情報などの情報も欠落するなど
の問題がある。
【0004】また、カラー画像を利用し、色分離などの
方法で印影部分を除去する方法では、1文書をカラー画
像で記録するため、データ量が増加し処理時間も増大す
る。大量文書を扱う場合、データ量の削減、および処理
時間の削減は重要な課題である。
【0005】本発明は、上述の従来技術における問題点
に鑑み、印影を含めた2値画像として入力された画像か
ら、高精度に印影部分を判定し除去して文字認識するこ
とのできる文書認識方法および装置を提供することを目
的とする。
【0006】
【課題を解決するための手段】本発明に係る文書認識方
法および装置では、文書画像から幾つかの行の集まりで
あるフィールドおよび該フィールド内の行を抽出し、抽
出された各行について文字認識を行ない文字認識結果と
して候補文字のコード情報を取得し、抽出された各行に
ついてその行末が文末であるか否かを判定し、行末が文
末であると判定された行について、その行の文末部分の
文字認識の結果を文末に出現する可能性のある単語と比
較して検証し、その検証結果に基づいて、文字認識結果
に含まれる印影部分を判定し除去して文末位置を決定す
るとともに、印影と重なった文字の文字認識結果を修正
することを特徴とする。
【0007】文末に出現する可能性のある単語は、あら
かじめ辞書に登録しておいたものを用いるとよい。ま
た、文末検証においては、該辞書に登録された単語と文
字認識結果とが一致するか否かを検証し、文字認識結果
中に、上記辞書に登録された単語と全文字が一致する部
分が検出されたときは、その単語の終りの位置を文末と
し、それ以降を印影として除去し、文字認識結果中に、
上記辞書に登録された単語と先頭からの何文字かが一致
する部分が検出されたときは、文字認識結果中の当該部
分をその単語に置き換えるとともに、その単語の終りの
位置を文末とし、それ以降を印影として除去するように
する。
【0008】文末に出現する可能性のある単語を登録し
た辞書は、より文末に近い位置に出現する単語の優先順
位が高くなるように、優先順位付きで単語を登録してお
き、文末検証では、優先順位の高い単語から順に前記文
字認識結果と一致するか否か検証していくとよい。
【0009】
【作用】文末に捺印された文書を認識する際には、文末
の捺印部分を除いた認識結果を得る必要がある。また、
印影部分が文字と重なった場合には、正しい認識結果を
得ることができない。このような場合、まず、複数の文
より構成される文書から、文書を構成する行を抽出し、
抽出された各行が文末であるかどうか判定する。さら
に、行末が文末であると判定された行については、その
行の文末部分の文字認識の結果を、文末に出現する可能
性のある単語と比較して、検証する。そして、検証の結
果に基づいて、各文の文末の印影の影響による誤認識の
修正、文字として認識した印影部分の検出および除去を
実現する。
【0010】以上により、画像の色情報によらず、文末
に捺印された印影部分を除去し、高い認識率を実現す
る。特に、定形の文が多い戸籍のような文書において
は、文末に現れる表現が限られているため、本方式によ
り高い修正率が得られる。
【0011】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。
【0012】図1は、本発明の一実施例に係る文書認識
装置における文書認識処理のフローチャートであり、文
末に捺印のある文書を認識する処理全体のフローチャー
トである。この図を用いて処理内容を説明する。
【0013】まず、認識対象の文書画像中から、認識対
象領域(以下、フィールドと呼ぶ)を抽出し、フィール
ド内の行抽出及び文字認識を行なう(ステップ10
1)。認識対象の文書画像は、有意な行が幾つか集まっ
て構成されるフィールドのほか、例えば文書のページ余
白部分等を含むので、本ステップでは、まずフィールド
部分を抽出する。さらに、そのフィールド内の行を抽出
するとともに、各行に対して文字認識を行うものであ
る。
【0014】戸籍や帳票のように、罫線等によって区切
られたフィールドの抽出方法については、特願平6−2
7443号「表認識方法及びその装置」などに示した方
法を用いることで実現できる。また、罫線等でフィール
ドに分けられていない文書についても、その中に出現す
る文の文末に捺印されるていような文書であれば、画像
全体を1つのフィールドとして処理することで、以下同
様の処理が実現できる。各フィールドから文字行を抽出
する方法は、「横書き日本語文書における個別文字の抽
出」電子通信学会論文誌 '85/11 Vol.J68-D No.11 pp.1
899-1909 などの方法を利用することで実現できる。文
字認識に関しては、特願平04−51305号「文字認
識方式」などを利用することで実現できる。
【0015】次に、フィールドごとにあらかじめ与えら
れたフィールドの属性に関する情報に基づいて、認識さ
れたフィールドが、文末に捺印されるフィールドである
か否かを調べる(ステップ102)。捺印されるフィー
ルドであれば、印影除去を行なうためにステップ103
に進む。ステップ102で印影除去の対象フィールドで
なかったときは、次フィールドがあるか否かを判定し
(ステップ109)、あればそのフィールドに対してス
テップ101からの処理を繰返す。次フィールドが無け
れば、処理を終了する(ステップ109)。
【0016】印影除去の処理を説明する。まず、文末判
定として、当該フィールド内の各行のフィールド内での
位置から、全ての行について行末が文末となっているか
否かを判定する(ステップ103)。判定結果は、所定
のエリアに記憶しておく。なお、ステップ103の文末
判定処理については、図2および図3を参照して後に詳
しく説明する。
【0017】次に、ワークエリアiを1に初期設定し
(ステップ104)、ワークエリアiの値が当該フィー
ルド内の行数以下であるか否かを判定する(ステップ1
05)。ワークエリアiの値が当該フィールド内の行数
を超えていたときは、当該フィールドのすべての行に対
してステップ106〜108を実行したということであ
るから、ステップ109に進む。
【0018】ステップ105でワークエリアiの値が当
該フィールド内の行数以下のときは、第i行が文末の行
であるか否かを判定する(ステップ106)。この判定
は、ステップ103で記憶してある判定結果を読出すこ
とにより行なう。ステップ106で第i行が文末の行で
ある場合は、文末印影除去処理を行ない(ステップ10
7)、iを歩進して(ステップ108)、ステップ10
5に戻り次の行の処理を行なう。文末印影除去処理につ
いては、図4〜図8を参照して後に詳しく説明する。ス
テップ106で第i行が文末の行でない場合は、ステッ
プ108に進む。
【0019】要するにステップ104〜108は、各行
の文末の判定結果を読み出し、文末と判定された行につ
いては文末印影除去を行なう処理である。
【0020】図2は、あるフィールド中の文字記載例で
ある。この図を用いて、図1のステップ103の文末判
定の処理の概要を説明する。図2において、罫線で囲ま
れている領域がフィールドであり、フィールド内の各行
も罫線により区切られている。このフィールドは7行よ
りなり、下側の2行には文字が記載されていない。
【0021】文末判定処理においては、201に示すよ
うに、フィールド中の各行の先頭文字のフィールド枠
(左側の縦罫線)からの距離を求めることで、各行が字
下げされているかどうか判定する。字下げされた行の前
の行の行末は、文末であると判定する。さらに、202
に示すように、末尾の文字のフィールド枠(右側の縦罫
線)からの距離を求めることで、行末の余白の有無を判
定する。行末の余白があれば、その行は文末と判定す
る。
【0022】なお、行203のように、文末であっても
行末の余白が存在しない場合もあるので、行末の余白だ
けを判定するのでは、文末判定できない。一方、次行の
行頭の字下げチェックだけでも、文末は判定できるが、
ノイズなどの影響により、字下げ判定に誤りが発生する
場合もありうるので、やはり次行の行頭の字下げチェッ
クだけでは不十分である。そこで、本実施例では、文頭
字下げ、文末余白の2点から文末のチェックを行なうこ
とで、判定誤りを減少させている。
【0023】図3は、図1のステップ103の文末判定
の処理内容を示したフローチャートである。
【0024】まず、フィールドの画像中での位置を読み
出す(ステップ301)。すなわち、文書画像はページ
の余白部分なども含むので、その画像中から図2のよう
なフィールドの位置を認識する処理である。次に、フィ
ールド内における、文字行の位置を求める(ステップ3
02)。文字行の位置から、各行が字下げされているか
どうかを判定し(ステップ303)、さらに行末に余白
があるかどうかを判定する(ステップ304)。各行に
ついて、その行末に余白があるか、または、次行が字下
げされていれば、文末の行であると判定する(ステップ
305)。
【0025】ステップ303の字下げ判定について具体
的に説明する。各行の字下げ判定では、まず、各行ごと
に、認識したフィールド枠から各行の文字開始位置まで
の距離を求める。求めた距離を、L[i](i=1,
2,…,N(=行数))とし、L[i]の最小値Min
と、最大値Maxを求める。
【0026】Max−Min<T(=行頭位置変動の誤
差の閾値)であれば、すべての行が字下げと判定する。
これは、各文が1行しかない場合に対応するためであ
る。そうでなければ、各行の距離が、Min,Maxか
ら得られる閾値S(例えば、S=(Min+Max)/
2)より大きいか否かで字下げの有無を判定する。
【0027】ステップ304の行末の余白判定について
説明する。行末の余白判定は、字下げ判定と同様に、各
行の文字終了位置からフィールド枠までの距離を求め
る。行末については、各行の文字終了位置がばらばらな
ため、求めた距離が、閾値以上の行を行末の余白ありと
判定する。図2で示したように、行末の余白は、文末判
定において、行頭字下げによる文末判定の補助的な役割
として利用される。したがって、行末の空白の有無の判
定の閾値は、2文字分以上の空白などのように大きな値
を設定することで、文末でない部分を、誤って文末と判
定することを防ぐ。
【0028】次に、文末検証及び印影除去について説明
する。図4は、認識対象となる、捺印された文の例であ
る。401は、文末の「入籍」の文字と重ならず、捺印
された場合である。402は、文末の「入籍」の最後の
1文字と捺印が重なった場合である。403は、「入
籍」の後に、「助役」がつけ加えられ、「役」と重なっ
て捺印された場合である。何れの場合も、「@」が印影
を示すものとする。
【0029】図のように、各文の文頭で1文字の字下げ
が行なわれ、さらに1文が終われば、文末に捺印され改
行する。印影の大きさは様々であることから、文末から
何文字分を印影として除去すれば良いかは、一意には決
められない。
【0030】401の場合であれば、文末に現われ得る
として登録された単語(この場合は「入籍」)と一致す
る位置を、文末から順にサーチし、一致した位置以降を
印影とすれば、印影の除去が行なえる。402のように
文字と印影が重なった画像が入力された場合、最後の文
字を正しく認識するのは困難である。したがって、1文
字前の認識結果「入」から、最後の文字を「籍」と推定
する。結果として、文末の文字が「入籍」と認識され、
印影除去が行なわれたことになる。
【0031】ところが、403のように文末に現われる
単語が追加される場合、401のように「入籍」という
単語以降を印影として除去すると、「助役」の部分も印
影として除去されてしまう。また「…届出@」のような
文末があった場合、「出」の文字が出てきた時点で、文
末として登録された単語「出生」の1文字目とマッチす
るため、ここで修正を行なうと、印影の部分も文字とし
て誤修正してしまうことになる。
【0032】これらの問題を解決するために、本実施例
では、文末に出現する可能性のある表現を元に、図5に
示すように、より文末に現われ得る単語から先に優先順
位(レベル)を付けて登録する。そして、レベルの順
に、2文字とも一致、あるいは、1文字目のみ一致する
単語による修正を行なうことで、上記のような誤修正を
防止する。
【0033】図6を用いて、単語に優先度を付けて登録
する方法を説明する。まず、「送付入籍助役」、「届出
入籍」など、文末に出現する可能性のある表現のデータ
(601)を収集する。次に、収集した文末例のデータ
を単語に分解し、文末例登録テーブル(602−a)に
文末から順に(すなわち、文末に近い単語が、レベル値
が小さい位置にくるように)並べる。さらに、登録単語
テーブル(603−a)に出現単語を登録する。登録単
語テーブル(603−a)への登録の際には、単語の文
字列と共に、その単語が全文末例中で、最も大きなレベ
ル値に格納されたときのレベル値を登録する。
【0034】次に、登録単語テーブル(603−a)上
のレベル値が小さい単語から順に、文末例登録テーブル
(602−a)上の単語を取り出し、取り出した単語と
一致する単語を含む文末例を文末例登録テーブル(60
2−a)から抽出する。抽出された文末例については、
一致した単語のレベルを、登録テーブル(602−a)
のレベル欄に合わせて右にずらす。さらに、文末例中の
右側の単語については、各単語のレベルが重ならないよ
うに全体を右にずらす。
【0035】ずらされた文末例中の単語の文末例登録テ
ーブル上のレベルが、登録単語テーブル(603−a)
の登録レベルより大きな値になったときは、登録単語テ
ーブル(603−a)の当該単語のレベルをその値に更
新する。更新後、同様の処理を登録単語のレベルの変化
が無くなるまで繰り返すことで、602−bに示すよう
に文末例登録テーブル上の同一の単語が同じレベルとな
る。そして、全ての単語の登録レベルが、603−bの
ように設定される。
【0036】以上のように文末単語を登録することによ
り、より文末に近い位置に出現する単語が、よりレベル
値が小さくなるように登録されたことになる。すなわ
ち、
【0037】・レベル0の単語が出現したときは、それ
以降に続く単語はない ・レベル1の単語が出現したときは、それ以降にレベル
0の単語が続く可能性がある ・レベル2の単語が出現したときは、それ以降にレベル
1以下の単語が続く可能性がある : というようになる。
【0038】図7は、図1のステップ107の文末印影
除去の処理内容の概要を説明するための文末認識結果修
正図である。画像データは「…長より送付入籍助役@」
で「役」と捺印「@」が重なっている。まず、各行ごと
に印影部分も含めて文字認識し、文字認識の認識候補文
字を得る。上記の画像データに対しては、「…長より送
付入籍助??」と認識されたとする。「??」の部分
は、文字認識できなかった、あるいは誤認識された部分
を示す。
【0039】得られた文字候補から、登録単語と、全て
マッチする位置を文末から順に探し、最初にマッチした
単語(701)の位置までをチェック範囲(702)と
して設定する。この例では、「入籍」がマッチしてい
る。もしマッチする単語が見つからなければ、予め定め
ておいた文字数(図7の場合は7文字)の範囲(70
3)をチェック範囲とする。
【0040】以下の処理においては、登録単語を2文字
に限定し、2文字とも一致した場合を全文字マッチ、先
頭の1文字だけマッチした場合を1文字マッチとする。
ただし、登録単語の文字数が増加した場合(N文字とす
る)は、N文字とも一致した場合を全文字マッチ、先頭
からM(M<N)文字一致した場合をM文字マッチ(本
実施例の場合は、1文字マッチ)とすることで、同様の
処理で、印影除去が実現できる。
【0041】設定したチェック範囲において、レベル0
で登録された単語から順に、全文字マッチおよび1文字
マッチのチェックを文末より行ない、マッチした時点で
文末位置の補正(704)、認識結果の修正(705)
を行なう。
【0042】図8は、図1のステップ107の文末印影
除去の処理内容のフローチャートであり、図7で説明し
た文末印影除去の処理内容を詳しく示すフローチャート
である。
【0043】まず、認識候補文字の文末から順に、登録
単語テーブル(図6)に登録された全ての単語について
全文字マッチのチェックを行なう(ステップ801)。
次に、全文字が一致する単語があるか否か判定する(ス
テップ802)。全文字が一致する単語があれば(ステ
ップ802)、一致した単語の前までをチェック範囲と
して設定し(ステップ803)、そうでなければ、あら
かじめ決められた固定範囲をチェック範囲として設定す
る(ステップ804)。
【0044】次に、ワークエリアi=0(ステップ80
5)とし(図1のiとは異なる)、、全文字マッチする
第iレベルの単語が存在するかどうか、認識候補文字の
文末からチェックを行なう(ステップ806)。一致す
る単語が存在したなら(ステップ807)、この単語の
終わりの位置が文末であるとし、文末位置の補正(ステ
ップ813)に処理を移す。ステップ807で全文字マ
ッチする第iレベルの単語がなければ、次に第iレベル
の単語との1文字マッチのチェックを行なう(ステップ
808)。1文字目が一致したときは(ステップ80
9)、一致した単語がその位置に存在するものとして、
文字認識結果の修正(ステップ812)を行ない、さら
に置き換えた単語の終わりを文末位置とするために文末
位置の補正(ステップ813)を行なう。
【0045】ステップ809で第iレベルの単語と1文
字マッチする単語もない場合は、iを歩進し(ステップ
810)、全レベルの単語についてチェックしたか否か
を判定する(ステップ811)。未だ全レベルの単語に
ついてチェックが終了していないときは、次レベルの単
語で同様な処理を繰返すため、ステップ811からステ
ップ806に戻る。全レベルの単語についてチェックを
終了したら、処理を終了する(ステップ811)。最終
的にどの単語とも一致しなければ、文末印影除去は行な
わない。
【0046】認識結果の補正(ステップ812)では、
認識結果(認識候補文字)と1文字目が一致した位置の
次の文字を登録単語の2文字目と置き換え、文末は置き
換えた単語の終わりとする。文末位置の補正(ステップ
813)では、文末に設定された位置以降を印影として
除去するため、認識結果の文字数を、除去する文字数分
だけ減少させる。
【0047】以上の処理で、文末の印影部分の除去を実
現する。
【0048】
【発明の効果】以上説明したように、本発明によれば、
文末に捺印された文面であっても、印影を含めた2値画
像として入力された画像から、高精度に印影部分を判定
し、除去することができる。これにより、高精度に文字
認識することが可能となる。
【図面の簡単な説明】
【図1】文書認識処理のフローチャート図
【図2】文末判定の内容を説明する図
【図3】文末判定処理のフローチャート図
【図4】文末印影の例を示す図
【図5】登録された文末単語の例を示す図
【図6】文末単語登録処理を説明する図
【図7】文末認識結果修正の処理内容を説明する図
【図8】文末印影除去処理のフローチャート図
【符号の説明】
201…行頭の字下げ、202…文末の余白、203…
余白の無い文末例、601…文末例、602…文末例登
録テーブル、603…登録単語テーブル、701…単語
マッチ、702…文末検証範囲、703…固定チェック
範囲、704…文末位置補正、705…認識結果修正。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】文末に捺印のある文書の画像から文字を認
    識する文字認識方法において、 文書画像から、幾つかの行の集まりであるフィールドお
    よび該フィールド内の行を抽出する抽出ステップと、 上記抽出ステップにより抽出された各行について、文字
    認識を行ない、文字認識結果として候補文字のコード情
    報を出力する文字認識ステップと、 上記抽出ステップにより抽出された各行について、その
    行末が文末であるか否かを判定する文末判定ステップ
    と、 上記文末判定ステップにより行末が文末であると判定さ
    れた行について、その行の文末部分の文字認識の結果
    を、文末に出現する可能性のある単語と比較して、検証
    する文末検証ステップと、 上記文末検証ステップの検証結果に基づいて、文字認識
    結果に含まれる印影部分を判定し除去して文末位置を決
    定するとともに、印影と重なった文字の文字認識結果を
    修正する認識結果修正ステップとを備えたことを特徴と
    する文書認識方法。
  2. 【請求項2】あらかじめ文末に出現する可能性のある単
    語を辞書に登録しておき、前記文末検証ステップでは、
    該辞書に登録された単語と前記文字認識結果とが一致す
    るか否かを検証し、 文字認識結果中に、上記辞書に登録された単語と全文字
    が一致する部分が検出されたときは、前記認識結果修正
    ステップにおいて、その単語の終りの位置を文末とし、
    それ以降を印影として除去し、 文字認識結果中に、上記辞書に登録された単語と先頭か
    らの何文字かが一致する部分が検出されたときは、前記
    認識結果修正ステップにおいて、文字認識結果中の当該
    部分をその単語に置き換えるとともに、その単語の終り
    の位置を文末とし、それ以降を印影として除去する請求
    項1に記載の文書認識方法。
  3. 【請求項3】前記文末に出現する可能性のある単語を登
    録した辞書は、より文末に近い位置に出現する単語の優
    先順位が高くなるように、優先順位付きで単語が登録さ
    れており、前記文末検証ステップでは、優先順位の高い
    単語から順に前記文字認識結果と一致するか否か検証し
    ていく請求項2に記載の文書認識方法。
  4. 【請求項4】文末に捺印のある文書の画像から文字を認
    識する文字認識装置において、 文書画像から、幾つかの行の集まりであるフィールドお
    よび該フィールド内の行を抽出する抽出手段と、 上記抽出手段により抽出された各行について、文字認識
    を行ない、文字認識結果として候補文字のコード情報を
    出力する文字認識手段と、 上記抽出手段により抽出された各行について、その行末
    が文末であるか否かを判定する文末判定手段と、 上記文末判定手段により行末が文末であると判定された
    行について、その行の文末部分の文字認識の結果を、文
    末に出現する可能性のある単語と比較して、検証する文
    末検証手段と、 上記文末検証手段の検証結果に基づいて、文字認識結果
    に含まれる印影部分を判定し除去して文末位置を決定す
    るとともに、印影と重なった文字の文字認識結果を修正
    する認識結果修正手段とを備えたことを特徴とする文書
    認識装置。
  5. 【請求項5】さらに、あらかじめ文末に出現する可能性
    のある単語を登録した辞書を備え、前記文末検証手段で
    は、該辞書に登録された単語と前記文字認識結果とが一
    致するか否かを検証し、 文字認識結果中に、上記辞書に登録された単語と全文字
    が一致する部分が検出されたときは、前記認識結果修正
    手段により、その単語の終りの位置を文末とし、それ以
    降を印影として除去し、 文字認識結果中に、上記辞書に登録された単語と先頭か
    らの何文字かが一致する部分が検出されたときは、前記
    認識結果修正手段により、文字認識結果中の当該部分を
    その単語に置き換えるとともに、その単語の終りの位置
    を文末とし、それ以降を印影として除去する請求項4に
    記載の文書認識装置。
  6. 【請求項6】前記文末に出現する可能性のある単語を登
    録した辞書は、より文末に近い位置に出現する単語の優
    先順位が高くなるように、優先順位付きで単語が登録さ
    れており、前記文末検証手段は、優先順位の高い単語か
    ら順に前記文字認識結果と一致するか否か検証していく
    請求項5に記載の文書認識装置。
JP7049197A 1995-02-14 1995-02-14 文書認識方法および装置 Pending JPH08221507A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7049197A JPH08221507A (ja) 1995-02-14 1995-02-14 文書認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7049197A JPH08221507A (ja) 1995-02-14 1995-02-14 文書認識方法および装置

Publications (1)

Publication Number Publication Date
JPH08221507A true JPH08221507A (ja) 1996-08-30

Family

ID=12824286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7049197A Pending JPH08221507A (ja) 1995-02-14 1995-02-14 文書認識方法および装置

Country Status (1)

Country Link
JP (1) JPH08221507A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989819A (zh) * 2020-07-10 2022-01-28 富士胶片商业创新有限公司 信息处理装置、信息处理方法和计算机可读介质
JPWO2023135963A1 (ja) * 2022-01-13 2023-07-20

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989819A (zh) * 2020-07-10 2022-01-28 富士胶片商业创新有限公司 信息处理装置、信息处理方法和计算机可读介质
JPWO2023135963A1 (ja) * 2022-01-13 2023-07-20

Similar Documents

Publication Publication Date Title
CN108595410B (zh) 手写作文的自动批改方法及装置
US8340425B2 (en) Optical character recognition with two-pass zoning
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
Romero-Gómez et al. Automatic alignment of handwritten images and transcripts for training handwritten text recognition systems
JP2000315247A (ja) 文字認識装置
US20120281919A1 (en) Method and system for text segmentation
JPH08221507A (ja) 文書認識方法および装置
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JPH06215184A (ja) 抽出領域のラベリング装置
JPH0991385A (ja) 文字認識辞書追加方法及びこれを用いた端末ocr装置
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP3730073B2 (ja) テンプレート作成方法、装置、およびテンプレート作成プログラムを記録した記録媒体
JP2985813B2 (ja) 文字列認識装置および知識データベース学習方法
JP3812719B2 (ja) 文書検索装置
JP2968354B2 (ja) 文字認識結果の後処理方法
CN120564201B (zh) 一种提升精度和效率的文献数字化加工辅助方法及装置
JP3157557B2 (ja) 文字認識装置
JPH0728935A (ja) 文書画像処理装置
JP3929560B2 (ja) 誤記自動修正方法、読取装置、および誤記自動修正プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP3086264B2 (ja) 文字間スペース認識方法
JP2008084105A (ja) 文字切出方法及び文字認識装置
JP2746345B2 (ja) 文字認識の後処理方法
JP2002074262A (ja) 認識文字修正方法
JPH09167206A (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法、定ピッチ英数文字列のスペース検出方法、及びプロポーショナルピッチ英数文字列のスペース検出方法
JPH11143983A (ja) 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体