JPH08221507A

JPH08221507A - 文書認識方法および装置

Info

Publication number: JPH08221507A
Application number: JP7049197A
Authority: JP
Inventors: Takuya Okamoto; 卓哉岡本; Masatoshi Hino; 匡利樋野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-02-14
Filing date: 1995-02-14
Publication date: 1996-08-30

Abstract

(57)【要約】【目的】印影を含めた２値画像として入力された画像か
ら、高精度に印影部分を判定し除去して文字認識するこ
とのできる文書認識方法および装置を提供することを目
的とする。【構成】画像中の認識領域（フィールド）を抽出し、フ
ィールド内の行抽出および文字認識を行なう（１０
１）。認識したフィールドが文末に捺印されるフィール
ドであれば、印影除去処理を行なう。印影除去処理で
は、まず、行末判定処理として、フィールド内の各行の
字下げ、行末の余白の情報から、文末位置を求める（１
０３）。さらに、各文末位置に対して（１０４，１０
５，１０６，１０８）、文末検証処理として、文末部分
に出現する可能性のある単語との比較検証処理を行な
い、その結果に基づいて文末の位置補正及び認識結果の
修正を行なう（１０７）。以上の処理を各フィールドに
ついて繰り返す（１０９）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、戸籍など、各文の文末
に捺印のある文書を認識する際に用いて好適な文書認識
方法および装置に関する。

【０００２】

【従来の技術】戸籍など各文の文末に捺印のある文書を
スキャナなどで読み取った画像情報から文字認識を行な
う場合、文書中の印影が文字認識の邪魔になることがあ
る。文字認識の際に余分となる印影の除去については、
例えば、画像入力時に、スキャナの光源の色を、消去す
べき印影部分の色と同系色の色とし、これにより光学的
ドロップアウトによる除去を実現する手段（特開平５−
２８３１３号：光学情報読取装置など）を用いる方法が
ある。また、カラースキャナなどを用いて入力したカラ
ー画像から、所定の色情報の部分を分離することによ
り、指定色を消去するなどの手段（特開平５−２８３１
４号：光学的文字読取装置など）も利用可能である。

【０００３】

【発明が解決しようとする課題】認識の際に余分となる
印影の除去手段として、光学的ドロップアウトなど、画
像を入力する時点で印影を除去する方法を用いると、朱
肉の色の変動により、ドロップアウトする場合としない
場合とがあり、一意にドロップアウトカラー（光源色）
を設定できないという問題がある。また、朱筆訂正の部
分が存在する文書の場合、光学的ドロップアウトを行な
うと、これら朱筆の訂正情報などの情報も欠落するなど
の問題がある。

【０００４】また、カラー画像を利用し、色分離などの
方法で印影部分を除去する方法では、１文書をカラー画
像で記録するため、データ量が増加し処理時間も増大す
る。大量文書を扱う場合、データ量の削減、および処理
時間の削減は重要な課題である。

【０００５】本発明は、上述の従来技術における問題点
に鑑み、印影を含めた２値画像として入力された画像か
ら、高精度に印影部分を判定し除去して文字認識するこ
とのできる文書認識方法および装置を提供することを目
的とする。

【０００６】

【課題を解決するための手段】本発明に係る文書認識方
法および装置では、文書画像から幾つかの行の集まりで
あるフィールドおよび該フィールド内の行を抽出し、抽
出された各行について文字認識を行ない文字認識結果と
して候補文字のコード情報を取得し、抽出された各行に
ついてその行末が文末であるか否かを判定し、行末が文
末であると判定された行について、その行の文末部分の
文字認識の結果を文末に出現する可能性のある単語と比
較して検証し、その検証結果に基づいて、文字認識結果
に含まれる印影部分を判定し除去して文末位置を決定す
るとともに、印影と重なった文字の文字認識結果を修正
することを特徴とする。

【０００７】文末に出現する可能性のある単語は、あら
かじめ辞書に登録しておいたものを用いるとよい。ま
た、文末検証においては、該辞書に登録された単語と文
字認識結果とが一致するか否かを検証し、文字認識結果
中に、上記辞書に登録された単語と全文字が一致する部
分が検出されたときは、その単語の終りの位置を文末と
し、それ以降を印影として除去し、文字認識結果中に、
上記辞書に登録された単語と先頭からの何文字かが一致
する部分が検出されたときは、文字認識結果中の当該部
分をその単語に置き換えるとともに、その単語の終りの
位置を文末とし、それ以降を印影として除去するように
する。

【０００８】文末に出現する可能性のある単語を登録し
た辞書は、より文末に近い位置に出現する単語の優先順
位が高くなるように、優先順位付きで単語を登録してお
き、文末検証では、優先順位の高い単語から順に前記文
字認識結果と一致するか否か検証していくとよい。

【０００９】

【作用】文末に捺印された文書を認識する際には、文末
の捺印部分を除いた認識結果を得る必要がある。また、
印影部分が文字と重なった場合には、正しい認識結果を
得ることができない。このような場合、まず、複数の文
より構成される文書から、文書を構成する行を抽出し、
抽出された各行が文末であるかどうか判定する。さら
に、行末が文末であると判定された行については、その
行の文末部分の文字認識の結果を、文末に出現する可能
性のある単語と比較して、検証する。そして、検証の結
果に基づいて、各文の文末の印影の影響による誤認識の
修正、文字として認識した印影部分の検出および除去を
実現する。

【００１０】以上により、画像の色情報によらず、文末
に捺印された印影部分を除去し、高い認識率を実現す
る。特に、定形の文が多い戸籍のような文書において
は、文末に現れる表現が限られているため、本方式によ
り高い修正率が得られる。

【００１１】

【実施例】以下、図面を用いて本発明の実施例を説明す
る。

【００１２】図１は、本発明の一実施例に係る文書認識
装置における文書認識処理のフローチャートであり、文
末に捺印のある文書を認識する処理全体のフローチャー
トである。この図を用いて処理内容を説明する。

【００１３】まず、認識対象の文書画像中から、認識対
象領域（以下、フィールドと呼ぶ）を抽出し、フィール
ド内の行抽出及び文字認識を行なう（ステップ１０
１）。認識対象の文書画像は、有意な行が幾つか集まっ
て構成されるフィールドのほか、例えば文書のページ余
白部分等を含むので、本ステップでは、まずフィールド
部分を抽出する。さらに、そのフィールド内の行を抽出
するとともに、各行に対して文字認識を行うものであ
る。

【００１４】戸籍や帳票のように、罫線等によって区切
られたフィールドの抽出方法については、特願平６−２
７４４３号「表認識方法及びその装置」などに示した方
法を用いることで実現できる。また、罫線等でフィール
ドに分けられていない文書についても、その中に出現す
る文の文末に捺印されるていような文書であれば、画像
全体を１つのフィールドとして処理することで、以下同
様の処理が実現できる。各フィールドから文字行を抽出
する方法は、「横書き日本語文書における個別文字の抽
出」電子通信学会論文誌 '85/11 Vol.J68-D No.11 pp.1
899-1909 などの方法を利用することで実現できる。文
字認識に関しては、特願平０４−５１３０５号「文字認
識方式」などを利用することで実現できる。

【００１５】次に、フィールドごとにあらかじめ与えら
れたフィールドの属性に関する情報に基づいて、認識さ
れたフィールドが、文末に捺印されるフィールドである
か否かを調べる（ステップ１０２）。捺印されるフィー
ルドであれば、印影除去を行なうためにステップ１０３
に進む。ステップ１０２で印影除去の対象フィールドで
なかったときは、次フィールドがあるか否かを判定し
（ステップ１０９）、あればそのフィールドに対してス
テップ１０１からの処理を繰返す。次フィールドが無け
れば、処理を終了する（ステップ１０９）。

【００１６】印影除去の処理を説明する。まず、文末判
定として、当該フィールド内の各行のフィールド内での
位置から、全ての行について行末が文末となっているか
否かを判定する（ステップ１０３）。判定結果は、所定
のエリアに記憶しておく。なお、ステップ１０３の文末
判定処理については、図２および図３を参照して後に詳
しく説明する。

【００１７】次に、ワークエリアｉを１に初期設定し
（ステップ１０４）、ワークエリアｉの値が当該フィー
ルド内の行数以下であるか否かを判定する（ステップ１
０５）。ワークエリアｉの値が当該フィールド内の行数
を超えていたときは、当該フィールドのすべての行に対
してステップ１０６〜１０８を実行したということであ
るから、ステップ１０９に進む。

【００１８】ステップ１０５でワークエリアｉの値が当
該フィールド内の行数以下のときは、第ｉ行が文末の行
であるか否かを判定する（ステップ１０６）。この判定
は、ステップ１０３で記憶してある判定結果を読出すこ
とにより行なう。ステップ１０６で第ｉ行が文末の行で
ある場合は、文末印影除去処理を行ない（ステップ１０
７）、ｉを歩進して（ステップ１０８）、ステップ１０
５に戻り次の行の処理を行なう。文末印影除去処理につ
いては、図４〜図８を参照して後に詳しく説明する。ス
テップ１０６で第ｉ行が文末の行でない場合は、ステッ
プ１０８に進む。

【００１９】要するにステップ１０４〜１０８は、各行
の文末の判定結果を読み出し、文末と判定された行につ
いては文末印影除去を行なう処理である。

【００２０】図２は、あるフィールド中の文字記載例で
ある。この図を用いて、図１のステップ１０３の文末判
定の処理の概要を説明する。図２において、罫線で囲ま
れている領域がフィールドであり、フィールド内の各行
も罫線により区切られている。このフィールドは７行よ
りなり、下側の２行には文字が記載されていない。

【００２１】文末判定処理においては、２０１に示すよ
うに、フィールド中の各行の先頭文字のフィールド枠
（左側の縦罫線）からの距離を求めることで、各行が字
下げされているかどうか判定する。字下げされた行の前
の行の行末は、文末であると判定する。さらに、２０２
に示すように、末尾の文字のフィールド枠（右側の縦罫
線）からの距離を求めることで、行末の余白の有無を判
定する。行末の余白があれば、その行は文末と判定す
る。

【００２２】なお、行２０３のように、文末であっても
行末の余白が存在しない場合もあるので、行末の余白だ
けを判定するのでは、文末判定できない。一方、次行の
行頭の字下げチェックだけでも、文末は判定できるが、
ノイズなどの影響により、字下げ判定に誤りが発生する
場合もありうるので、やはり次行の行頭の字下げチェッ
クだけでは不十分である。そこで、本実施例では、文頭
字下げ、文末余白の２点から文末のチェックを行なうこ
とで、判定誤りを減少させている。

【００２３】図３は、図１のステップ１０３の文末判定
の処理内容を示したフローチャートである。

【００２４】まず、フィールドの画像中での位置を読み
出す（ステップ３０１）。すなわち、文書画像はページ
の余白部分なども含むので、その画像中から図２のよう
なフィールドの位置を認識する処理である。次に、フィ
ールド内における、文字行の位置を求める（ステップ３
０２）。文字行の位置から、各行が字下げされているか
どうかを判定し（ステップ３０３）、さらに行末に余白
があるかどうかを判定する（ステップ３０４）。各行に
ついて、その行末に余白があるか、または、次行が字下
げされていれば、文末の行であると判定する（ステップ
３０５）。

【００２５】ステップ３０３の字下げ判定について具体
的に説明する。各行の字下げ判定では、まず、各行ごと
に、認識したフィールド枠から各行の文字開始位置まで
の距離を求める。求めた距離を、Ｌ［ｉ］（ｉ＝１，
２，…，Ｎ（＝行数））とし、Ｌ［ｉ］の最小値Ｍｉｎ
と、最大値Ｍａｘを求める。

【００２６】Ｍａｘ−Ｍｉｎ＜Ｔ（＝行頭位置変動の誤
差の閾値）であれば、すべての行が字下げと判定する。
これは、各文が１行しかない場合に対応するためであ
る。そうでなければ、各行の距離が、Ｍｉｎ，Ｍａｘか
ら得られる閾値Ｓ（例えば、Ｓ＝（Ｍｉｎ＋Ｍａｘ）／
２）より大きいか否かで字下げの有無を判定する。

【００２７】ステップ３０４の行末の余白判定について
説明する。行末の余白判定は、字下げ判定と同様に、各
行の文字終了位置からフィールド枠までの距離を求め
る。行末については、各行の文字終了位置がばらばらな
ため、求めた距離が、閾値以上の行を行末の余白ありと
判定する。図２で示したように、行末の余白は、文末判
定において、行頭字下げによる文末判定の補助的な役割
として利用される。したがって、行末の空白の有無の判
定の閾値は、２文字分以上の空白などのように大きな値
を設定することで、文末でない部分を、誤って文末と判
定することを防ぐ。

【００２８】次に、文末検証及び印影除去について説明
する。図４は、認識対象となる、捺印された文の例であ
る。４０１は、文末の「入籍」の文字と重ならず、捺印
された場合である。４０２は、文末の「入籍」の最後の
１文字と捺印が重なった場合である。４０３は、「入
籍」の後に、「助役」がつけ加えられ、「役」と重なっ
て捺印された場合である。何れの場合も、「＠」が印影
を示すものとする。

【００２９】図のように、各文の文頭で１文字の字下げ
が行なわれ、さらに１文が終われば、文末に捺印され改
行する。印影の大きさは様々であることから、文末から
何文字分を印影として除去すれば良いかは、一意には決
められない。

【００３０】４０１の場合であれば、文末に現われ得る
として登録された単語（この場合は「入籍」）と一致す
る位置を、文末から順にサーチし、一致した位置以降を
印影とすれば、印影の除去が行なえる。４０２のように
文字と印影が重なった画像が入力された場合、最後の文
字を正しく認識するのは困難である。したがって、１文
字前の認識結果「入」から、最後の文字を「籍」と推定
する。結果として、文末の文字が「入籍」と認識され、
印影除去が行なわれたことになる。

【００３１】ところが、４０３のように文末に現われる
単語が追加される場合、４０１のように「入籍」という
単語以降を印影として除去すると、「助役」の部分も印
影として除去されてしまう。また「…届出＠」のような
文末があった場合、「出」の文字が出てきた時点で、文
末として登録された単語「出生」の１文字目とマッチす
るため、ここで修正を行なうと、印影の部分も文字とし
て誤修正してしまうことになる。

【００３２】これらの問題を解決するために、本実施例
では、文末に出現する可能性のある表現を元に、図５に
示すように、より文末に現われ得る単語から先に優先順
位（レベル）を付けて登録する。そして、レベルの順
に、２文字とも一致、あるいは、１文字目のみ一致する
単語による修正を行なうことで、上記のような誤修正を
防止する。

【００３３】図６を用いて、単語に優先度を付けて登録
する方法を説明する。まず、「送付入籍助役」、「届出
入籍」など、文末に出現する可能性のある表現のデータ
（６０１）を収集する。次に、収集した文末例のデータ
を単語に分解し、文末例登録テーブル（６０２−ａ）に
文末から順に（すなわち、文末に近い単語が、レベル値
が小さい位置にくるように）並べる。さらに、登録単語
テーブル（６０３−ａ）に出現単語を登録する。登録単
語テーブル（６０３−ａ）への登録の際には、単語の文
字列と共に、その単語が全文末例中で、最も大きなレベ
ル値に格納されたときのレベル値を登録する。

【００３４】次に、登録単語テーブル（６０３−ａ）上
のレベル値が小さい単語から順に、文末例登録テーブル
（６０２−ａ）上の単語を取り出し、取り出した単語と
一致する単語を含む文末例を文末例登録テーブル（６０
２−ａ）から抽出する。抽出された文末例については、
一致した単語のレベルを、登録テーブル（６０２−ａ）
のレベル欄に合わせて右にずらす。さらに、文末例中の
右側の単語については、各単語のレベルが重ならないよ
うに全体を右にずらす。

【００３５】ずらされた文末例中の単語の文末例登録テ
ーブル上のレベルが、登録単語テーブル（６０３−ａ）
の登録レベルより大きな値になったときは、登録単語テ
ーブル（６０３−ａ）の当該単語のレベルをその値に更
新する。更新後、同様の処理を登録単語のレベルの変化
が無くなるまで繰り返すことで、６０２−ｂに示すよう
に文末例登録テーブル上の同一の単語が同じレベルとな
る。そして、全ての単語の登録レベルが、６０３−ｂの
ように設定される。

【００３６】以上のように文末単語を登録することによ
り、より文末に近い位置に出現する単語が、よりレベル
値が小さくなるように登録されたことになる。すなわ
ち、

【００３７】・レベル０の単語が出現したときは、それ
以降に続く単語はない・レベル１の単語が出現したときは、それ以降にレベル
０の単語が続く可能性がある・レベル２の単語が出現したときは、それ以降にレベル
１以下の単語が続く可能性がある：というようになる。

【００３８】図７は、図１のステップ１０７の文末印影
除去の処理内容の概要を説明するための文末認識結果修
正図である。画像データは「…長より送付入籍助役＠」
で「役」と捺印「＠」が重なっている。まず、各行ごと
に印影部分も含めて文字認識し、文字認識の認識候補文
字を得る。上記の画像データに対しては、「…長より送
付入籍助？？」と認識されたとする。「？？」の部分
は、文字認識できなかった、あるいは誤認識された部分
を示す。

【００３９】得られた文字候補から、登録単語と、全て
マッチする位置を文末から順に探し、最初にマッチした
単語（７０１）の位置までをチェック範囲（７０２）と
して設定する。この例では、「入籍」がマッチしてい
る。もしマッチする単語が見つからなければ、予め定め
ておいた文字数（図７の場合は７文字）の範囲（７０
３）をチェック範囲とする。

【００４０】以下の処理においては、登録単語を２文字
に限定し、２文字とも一致した場合を全文字マッチ、先
頭の１文字だけマッチした場合を１文字マッチとする。
ただし、登録単語の文字数が増加した場合（Ｎ文字とす
る）は、Ｎ文字とも一致した場合を全文字マッチ、先頭
からＭ（Ｍ＜Ｎ）文字一致した場合をＭ文字マッチ（本
実施例の場合は、１文字マッチ）とすることで、同様の
処理で、印影除去が実現できる。

【００４１】設定したチェック範囲において、レベル０
で登録された単語から順に、全文字マッチおよび１文字
マッチのチェックを文末より行ない、マッチした時点で
文末位置の補正（７０４）、認識結果の修正（７０５）
を行なう。

【００４２】図８は、図１のステップ１０７の文末印影
除去の処理内容のフローチャートであり、図７で説明し
た文末印影除去の処理内容を詳しく示すフローチャート
である。

【００４３】まず、認識候補文字の文末から順に、登録
単語テーブル（図６）に登録された全ての単語について
全文字マッチのチェックを行なう（ステップ８０１）。
次に、全文字が一致する単語があるか否か判定する（ス
テップ８０２）。全文字が一致する単語があれば（ステ
ップ８０２）、一致した単語の前までをチェック範囲と
して設定し（ステップ８０３）、そうでなければ、あら
かじめ決められた固定範囲をチェック範囲として設定す
る（ステップ８０４）。

【００４４】次に、ワークエリアｉ＝０（ステップ８０
５）とし（図１のｉとは異なる）、、全文字マッチする
第ｉレベルの単語が存在するかどうか、認識候補文字の
文末からチェックを行なう（ステップ８０６）。一致す
る単語が存在したなら（ステップ８０７）、この単語の
終わりの位置が文末であるとし、文末位置の補正（ステ
ップ８１３）に処理を移す。ステップ８０７で全文字マ
ッチする第ｉレベルの単語がなければ、次に第ｉレベル
の単語との１文字マッチのチェックを行なう（ステップ
８０８）。１文字目が一致したときは（ステップ８０
９）、一致した単語がその位置に存在するものとして、
文字認識結果の修正（ステップ８１２）を行ない、さら
に置き換えた単語の終わりを文末位置とするために文末
位置の補正（ステップ８１３）を行なう。

【００４５】ステップ８０９で第ｉレベルの単語と１文
字マッチする単語もない場合は、ｉを歩進し（ステップ
８１０）、全レベルの単語についてチェックしたか否か
を判定する（ステップ８１１）。未だ全レベルの単語に
ついてチェックが終了していないときは、次レベルの単
語で同様な処理を繰返すため、ステップ８１１からステ
ップ８０６に戻る。全レベルの単語についてチェックを
終了したら、処理を終了する（ステップ８１１）。最終
的にどの単語とも一致しなければ、文末印影除去は行な
わない。

【００４６】認識結果の補正（ステップ８１２）では、
認識結果（認識候補文字）と１文字目が一致した位置の
次の文字を登録単語の２文字目と置き換え、文末は置き
換えた単語の終わりとする。文末位置の補正（ステップ
８１３）では、文末に設定された位置以降を印影として
除去するため、認識結果の文字数を、除去する文字数分
だけ減少させる。

【００４７】以上の処理で、文末の印影部分の除去を実
現する。

【００４８】

【発明の効果】以上説明したように、本発明によれば、
文末に捺印された文面であっても、印影を含めた２値画
像として入力された画像から、高精度に印影部分を判定
し、除去することができる。これにより、高精度に文字
認識することが可能となる。

【図面の簡単な説明】

【図１】文書認識処理のフローチャート図

【図２】文末判定の内容を説明する図

【図３】文末判定処理のフローチャート図

【図４】文末印影の例を示す図

【図５】登録された文末単語の例を示す図

【図６】文末単語登録処理を説明する図

【図７】文末認識結果修正の処理内容を説明する図

【図８】文末印影除去処理のフローチャート図

【符号の説明】

２０１…行頭の字下げ、２０２…文末の余白、２０３…
余白の無い文末例、６０１…文末例、６０２…文末例登
録テーブル、６０３…登録単語テーブル、７０１…単語
マッチ、７０２…文末検証範囲、７０３…固定チェック
範囲、７０４…文末位置補正、７０５…認識結果修正。

Claims

【特許請求の範囲】

【請求項１】文末に捺印のある文書の画像から文字を認
識する文字認識方法において、文書画像から、幾つかの行の集まりであるフィールドお
よび該フィールド内の行を抽出する抽出ステップと、上記抽出ステップにより抽出された各行について、文字
認識を行ない、文字認識結果として候補文字のコード情
報を出力する文字認識ステップと、上記抽出ステップにより抽出された各行について、その
行末が文末であるか否かを判定する文末判定ステップ
と、上記文末判定ステップにより行末が文末であると判定さ
れた行について、その行の文末部分の文字認識の結果
を、文末に出現する可能性のある単語と比較して、検証
する文末検証ステップと、上記文末検証ステップの検証結果に基づいて、文字認識
結果に含まれる印影部分を判定し除去して文末位置を決
定するとともに、印影と重なった文字の文字認識結果を
修正する認識結果修正ステップとを備えたことを特徴と
する文書認識方法。
【請求項２】あらかじめ文末に出現する可能性のある単
語を辞書に登録しておき、前記文末検証ステップでは、
該辞書に登録された単語と前記文字認識結果とが一致す
るか否かを検証し、文字認識結果中に、上記辞書に登録された単語と全文字
が一致する部分が検出されたときは、前記認識結果修正
ステップにおいて、その単語の終りの位置を文末とし、
それ以降を印影として除去し、文字認識結果中に、上記辞書に登録された単語と先頭か
らの何文字かが一致する部分が検出されたときは、前記
認識結果修正ステップにおいて、文字認識結果中の当該
部分をその単語に置き換えるとともに、その単語の終り
の位置を文末とし、それ以降を印影として除去する請求
項１に記載の文書認識方法。
【請求項３】前記文末に出現する可能性のある単語を登
録した辞書は、より文末に近い位置に出現する単語の優
先順位が高くなるように、優先順位付きで単語が登録さ
れており、前記文末検証ステップでは、優先順位の高い
単語から順に前記文字認識結果と一致するか否か検証し
ていく請求項２に記載の文書認識方法。
【請求項４】文末に捺印のある文書の画像から文字を認
識する文字認識装置において、文書画像から、幾つかの行の集まりであるフィールドお
よび該フィールド内の行を抽出する抽出手段と、上記抽出手段により抽出された各行について、文字認識
を行ない、文字認識結果として候補文字のコード情報を
出力する文字認識手段と、上記抽出手段により抽出された各行について、その行末
が文末であるか否かを判定する文末判定手段と、上記文末判定手段により行末が文末であると判定された
行について、その行の文末部分の文字認識の結果を、文
末に出現する可能性のある単語と比較して、検証する文
末検証手段と、上記文末検証手段の検証結果に基づいて、文字認識結果
に含まれる印影部分を判定し除去して文末位置を決定す
るとともに、印影と重なった文字の文字認識結果を修正
する認識結果修正手段とを備えたことを特徴とする文書
認識装置。
【請求項５】さらに、あらかじめ文末に出現する可能性
のある単語を登録した辞書を備え、前記文末検証手段で
は、該辞書に登録された単語と前記文字認識結果とが一
致するか否かを検証し、文字認識結果中に、上記辞書に登録された単語と全文字
が一致する部分が検出されたときは、前記認識結果修正
手段により、その単語の終りの位置を文末とし、それ以
降を印影として除去し、文字認識結果中に、上記辞書に登録された単語と先頭か
らの何文字かが一致する部分が検出されたときは、前記
認識結果修正手段により、文字認識結果中の当該部分を
その単語に置き換えるとともに、その単語の終りの位置
を文末とし、それ以降を印影として除去する請求項４に
記載の文書認識装置。
【請求項６】前記文末に出現する可能性のある単語を登
録した辞書は、より文末に近い位置に出現する単語の優
先順位が高くなるように、優先順位付きで単語が登録さ
れており、前記文末検証手段は、優先順位の高い単語か
ら順に前記文字認識結果と一致するか否か検証していく
請求項５に記載の文書認識装置。