JPH04104384A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH04104384A
JPH04104384A JP2221023A JP22102390A JPH04104384A JP H04104384 A JPH04104384 A JP H04104384A JP 2221023 A JP2221023 A JP 2221023A JP 22102390 A JP22102390 A JP 22102390A JP H04104384 A JPH04104384 A JP H04104384A
Authority
JP
Japan
Prior art keywords
character
characters
recognition device
size
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2221023A
Other languages
English (en)
Inventor
Hiroaki Ikeda
裕章 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2221023A priority Critical patent/JPH04104384A/ja
Priority to DE69132789T priority patent/DE69132789T2/de
Priority to EP91304283A priority patent/EP0457534B1/en
Publication of JPH04104384A publication Critical patent/JPH04104384A/ja
Priority to US08/348,833 priority patent/US5729630A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は文字認識装置に関し、特に、例えば、誤認識さ
れた文字を自動修正する文字認識装置に関するものであ
る。
[従来の技術] 従来の一般的な文字認識装置における文字認識処理を示
すフローチャートを第4図に示す。このような文字認識
装置では、イメージスキャナなどの光電変換装置を利用
し原稿を読み取り、二値画像データに変換する(S41
)。続いて、ステップS42で二値画像に変換された入
力画像から1文字分の文字画像を切り出す。この切り出
しは、まず行方向の画素分布より行の抽出をし、次に行
に垂直な方向の画素分布を調べることで行なわれる。次
に、切り出された文字画像の大きさの変動を吸収するた
め、ステップS46で正規化を行なう。これに続いて、
ステップS47で正規化された文字画像の特徴抽出が行
なわれる。このようにして特徴抽出が行われた正規化画
像は、ステップS48で、予め用意されている識別用辞
書53を参照しつつ類似度の計算を行ない、最も類似度
の大きい文字を認識結果として選択し、最後にステップ
S51で認識結果を表示する。
[発明が解決しようとする課題] しかしながら上記従来例では、正規化により、例えば、
第5図に示すような°“ °°(句読点)と0  (オ
ー)、また°“、  (コンマ)と°°゛°。
(アポストロフィ)など正規化後の文字画像がきわめて
類似する文字(記号を含む)が結果として生じるため、
そのような類似文字どうしの誤認識が生じてしまうとい
う欠点があった。
本発明は上記従来例に鑑みてなされたもので、類似した
文字とおしの誤認識を自動的に修正できる文字認識装置
を提供することを目的とする。
[課題を解決するための手段] 上記目的を達成するために本発明の文字認識装置は以下
の様な出力からなる。即ち、 文字が描かれた原稿を入力し、前記文字を画像データと
して読み取り、前記画像データを文字として認識する文
字認識装置であって、前記画像データの中から文字の位
置と大きさを特定する特定手段と、前記特定手段から出
力される装置と大きさ情報を、所定の基準情報と比較す
る比較手段と、前記比較手段からの比較結果に基づいて
、前記画像データの中から認識された文字を修正する修
正手段と、前記所定の基準情報を更新する更新手段とを
有することを特徴とする文字認識装置を備える。
[作用] 以上の出力により本発明は、画像データの中から認識さ
れる文字の位置と大きさを特定し、それらの情報を所定
の基準情報と比較することにより、文字を特定し修正す
るよう動作する。
[実施例] 以下添付図面を参照して本発明の好適な実施例を詳細に
説明する。第1図は本発明の代表的な実施例である誤認
識文字の自動修正が可能な文字認識装置の出力を表わす
ブロック図である。第1図において、文字認識装置は画
像読取部と文字検出・修正部から成り立っている。さら
に、画像読取部はイメージスキャナ等の光電変換装置2
、スキャン制御器3及びアンプ4から出力されている。
また、文字検出・修正部は、二値化回路5、文字切り出
し部6、正規化部7、CPU8、ROM9、RAMl0
1入出力制御部11、特徴抽出部12、手動入力部13
、表示部14及びCPUバス15から出力されている。
ここで、ROM9には、識別用辞書53の他に、基準文
字サイズ計算、大きさ・位置情報取り出し、識別計算、
修正判定及び自動修正など後述の各処理を行う処理プロ
グラムが収容されている。
このような文字認識装置において、文字原稿1はイメー
ジスキャナ等の光電変換装置2で読み取られた後、その
出力がアンプ4で増幅され、二値化回路5によって、ア
ナログ信号から二値のデジタルデータに変換される。次
に、文字切り出し部6により1文字毎に文字が切り出さ
れ、後に詳述する文字の大きさ・位置情報を取り出した
後、正規化、文字の特徴抽出を行う。続いて、ROM9
に格納された識別用辞書を参照しながら正規化された文
字に最も類似する文字を選択することにより、文字が認
識される。
次に、第2図に示すフローチャートを用いながら、本実
施例の文字認識及び誤認識文字の自動修正処理について
説明する。ただし、第2図に示すフローチャートにおい
て、従来例と同じ処理ステップは同じ工程番号を付し、
かつ従来技術によるものとして説明を省略する。
まず、ステップ810〜14において、イメージスキャ
ナ等で読み込まれ、アンプにより増幅され、二値化回路
5で二値化された画像データが、文字切り出し部6で1
文字毎に切り出された後、ステップS18で、基準文字
サイズ計算を行う。
基準文字サイズ計算とは、例えば、入力され二値化され
た画像データに含まれる文字1行中で文字高が最大とな
る文字を選ぶことである。続いて、ステップS20でそ
の文字の文字高を基準値(H)とし、1行毎にHの値を
求め、認識対象の各文字画像の文字高をhとし、h/H
の値を計算する。この結果はRAM1Oの大きさ情報格
納部60に格納する。さらにステップS22で、第3図
に示すように文字切り出し部6で切り出された切り出し
枠70の領域データと各文字画像の文字高を用い、上部
から文字画像上部までの距離(1)と、切り出し枠下部
から文字画像下部までの距離(b)を求め、t/H及び
b/Hの値を計算し、その結果をRAMl0の位置情報
格納部62に格納する。
次に、正規化及び特徴抽出がなされた画像データに対し
て識別用辞書53を用いて、最も類似する文字を識別し
た後、ステップS30で、その文字が修正を必要とする
かどうかを判定する。ここで、修正判定には識別用辞書
53から選択された最も類似する文字、大きさ情報格納
部60に格納されている大きさ情報、位置情報格納部6
2に格納されている位置情報及びRAMl0の判定基準
情報格納部64に格納されている判定基準情報が用いら
れ、次のような判定を行う。
例えば、識別用辞書53から選択された類似度が最も大
きい文字(以下第1候補とする)が、(1)その大きさ
だけが異なる類似文字がある場合(例:°“や°°と°
°や°゛)、 第1候補文字の大きさに関する判定基準情報である閾値
Uと、大きさ情報格納部60に格納したh/Hの値とを
比較し、 h/H<   U ならば小文字、 U ≦ h/H ならば、大文字と判定する。
そして、引き続くステップS32において、もし第1候
補が大文字で、判定結果が小文字となった場合、識別結
果を小文字に修正する。その後、その修正された認識結
果を入出力制御部11を経て表示部14に出力する。
(2)その位置だけが異なる類似文字がある場合((列
 :””’(アポストロフィー)と “’、”(コンマ
) ) 、位置情報格納部62に格納したt/H及びb
/Hの値より p= (t/H)−(b/H) を計算し、位置に関する判定基準情報である基準値P 
(P>0)及びQ (Q<O)と比較しp>P なら文字切り出し枠70の下部に、 p<Q なら文字切り出し枠70の上部に、そして、Q≦p≦P なら文字切り出し枠70の中部に文字が存在すると判定
する。
そして、引き続(ステップS32において、もし第1候
補が下部文字で、判定結果が下部文字以外になった場合
、識別結果を判定結果で修正する。その後、その修正さ
れた認識結果を入出力制御部11を経て表示部14に出
力する。
さらに、表示部14に修正された認識結果を表示後、ス
テップ836において、ステップ330〜S32でなさ
れた修正判定に基づ(自動修正後の認識結果の誤りを手
動で修正する。このとき、利用者は表示部14に表示さ
れた認識結果を見ながら、手動入力部13からの人力に
より、小文字と大文字の修正や、位置の違いによる類似
文字どうしの修正などを行う。このようにして手動修正
で修正された修正結果は再び表示部14に表示される。
ここで手動でなされた小文字と大文字の修正や、位置の
違いによる類似文字どうしの修正の判断は、判定基準情
報の値であるU、P、Qなどに反映され以後の処理に利
用される。
従って本実施例に従えば、仮名や英字のように文字の大
きさ、あるいは、位置のみが異なるような類似文字ばか
りではなく、°“、゛と°“ °゛などのような位置も
大きさも異なるが正規化後の文字画像が類似している文
字についても、誤認識を自動的に修正することができる
また、本実施例においては、誤認識を修正するための文
字情報として、文字の高さ方向の大きさや位置情報を用
いた場合について説明したが、本発明はこれに限定され
るものではない。例えば、文字の高さ方向の情報に加え
、文字幅の情報を用いても、本発明を適用することがで
きる。この場合、本実施例の基準文字サイズ計算におい
て、1行中で文字幅が最大となる文字を基準値(W)と
して選択し、“−°゛と“−゛などの文字高だけでは判
別しきれない文字について、その文字幅(w)に対する
w / Wの値と判定基準情報の閾値により修正判定を
行なうことができる。さらに例えば、文字高(h)と文
字幅(w)の比や文字外接矩形面積hXwを基準にする
ことによっても本発明を適用することが可能である。こ
のことにより、半角文字と全角文字などの文字幅の違い
によるものについても自動修正が可能となる。
さらに本実施例においては、基準文字サイズを各行の文
字高が最大ものと定義して説明したが、本発明はこれに
限定されるものではない。例えば、基準文字サイズを得
るための文字をマウスなどの手動入力部からの外部入力
により指定するようにすることもできる。
[発明の効果] 以上説明したように本発明によれば、類似した文字どう
しの誤認識を自動的に修正できる効果がある。また、手
動修正による修正結果が以後の自動文字修正に反映され
、文字自動修正能力が向上するので、手作業であった誤
認識の修正作業を軽減されるという利点も有する。
【図面の簡単な説明】
第1図は本発明の代表的な実施例である文字認識装置の
出力を示すブロック図、 第2図は文字認識及び誤認識文字の自動修正処理につい
て示すフローチャート、 第3図は大きさ情報や位置情報についての説明図、 第4図は従来例による文字認識装置の処理フローチャー
ト、そして、 第5図は従来例による正規化についての説明図である。 図中、1・・・文字原稿、2・・・光電変換装置、3・
・・スキャン制御器、4・・・アンプ、5・・・二値化
回路、6・・・文字切り出し部、7・・・正規化部、8
・・・CPU、9・・・ROM、10・・・RAM、1
1・・・入出力制御部、12・・・特徴抽出部、13・
・・手動入力部、14・・・判定基準情報、15・・・
CPUバス、53・・・識別用辞書、60・・・大きさ
情報格納部、62・・・位置情報格納部、64・・・判
定基準情報格納部である。

Claims (1)

  1. 【特許請求の範囲】 文字が描かれた原稿を入力し、前記文字を画像データと
    して読み取り、前記画像データを文字として認識する文
    字認識装置であつて、 前記画像データの中から文字の位置と大きさを特定する
    特定手段と、 前記特定手段から出力される位置と大きさ情報を、所定
    の基準情報と比較する比較手段と、前記比較手段からの
    比較結果に基づいて、前記画像データの中から認識され
    た文字を修正する修正手段と、 前記所定の基準情報を更新する更新手段とを有すること
    を特徴とする文字認識装置。
JP2221023A 1990-05-14 1990-08-24 文字認識装置 Pending JPH04104384A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2221023A JPH04104384A (ja) 1990-08-24 1990-08-24 文字認識装置
DE69132789T DE69132789T2 (de) 1990-05-14 1991-05-13 Verfahren und Gerät zur Bildverarbeitung
EP91304283A EP0457534B1 (en) 1990-05-14 1991-05-13 Image processing method and apparatus
US08/348,833 US5729630A (en) 1990-05-14 1994-11-29 Image processing method and apparatus having character recognition capabilities using size or position information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2221023A JPH04104384A (ja) 1990-08-24 1990-08-24 文字認識装置

Publications (1)

Publication Number Publication Date
JPH04104384A true JPH04104384A (ja) 1992-04-06

Family

ID=16760279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2221023A Pending JPH04104384A (ja) 1990-05-14 1990-08-24 文字認識装置

Country Status (1)

Country Link
JP (1) JPH04104384A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009230658A (ja) * 2008-03-25 2009-10-08 Mitsubishi Electric Corp 文字検索システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009230658A (ja) * 2008-03-25 2009-10-08 Mitsubishi Electric Corp 文字検索システム

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US7970213B1 (en) Method and system for improving the recognition of text in an image
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
US5729630A (en) Image processing method and apparatus having character recognition capabilities using size or position information
JPH04104384A (ja) 文字認識装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
CN120564201B (zh) 一种提升精度和效率的文献数字化加工辅助方法及装置
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP2788506B2 (ja) 文字認識装置
JPH0728935A (ja) 文書画像処理装置
JP3060248B2 (ja) 表認識装置
JP3074691B2 (ja) 文字認識装置
JPH06348911A (ja) 英文字認識装置
JP3345246B2 (ja) 文字認識装置及び文字認識方法
JP2887823B2 (ja) 文書認識装置
JPH0679348B2 (ja) 行切り出し方法
JPH07160810A (ja) 文字認識装置
JPH0432970A (ja) 画像認識・修正方法及びその装置
JPH03217993A (ja) 文字サイズ認識装置
JP2963474B2 (ja) 類似文字識別方法
JPS63143685A (ja) 文字認識装置における認識結果表示方法
JPH07168911A (ja) 文書認識装置
JP4270767B2 (ja) 罫線情報処理方法と罫線情報処理プログラムと画像処理装置及び記憶媒体
JPH0855185A (ja) 文字認識装置
JP2974396B2 (ja) 画像処理方法及び装置