JPH0573716A - 英文字認識装置 - Google Patents

英文字認識装置

Info

Publication number
JPH0573716A
JPH0573716A JP3236677A JP23667791A JPH0573716A JP H0573716 A JPH0573716 A JP H0573716A JP 3236677 A JP3236677 A JP 3236677A JP 23667791 A JP23667791 A JP 23667791A JP H0573716 A JPH0573716 A JP H0573716A
Authority
JP
Japan
Prior art keywords
character
word
english
unit
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3236677A
Other languages
English (en)
Inventor
Ryoichi Yushimo
良一 湯下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3236677A priority Critical patent/JPH0573716A/ja
Publication of JPH0573716A publication Critical patent/JPH0573716A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】正確な単語切り出しを行うことにより認識率の
向上を図る。 【構成】画像入力部1にて入力した文書画像から切り出
された、文章領域・行領域・文字領域の位置情報をもと
に文字認識部5で文字の認識処理を行い、その結果とし
て得られた行ごとの文字列に対して、隣接する文字領域
の水平方向の隙間の広さから、単語区切り処理部7で得
られた確定単語区切りと候補単語区切りをもとに、分割
候補生成部8で複数の分割候補を生成し、得られた全て
の候補に対して、分割で得られる文字列が英単語として
綴りが正しいかを英単語綴り辞書10との照合により英単
語綴り判定部9で判定する。 【効果】文字の間隔情報に加え、英単語の綴り情報を利
用して単語の区切り処理を行うことにより、正確な単語
区切りが得られ、認識率は向上する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は英文字の認識を行う英文
字認識装置に関するものである。
【0002】
【従来の技術】近年、文字認識装置をコンピュータなど
の入力装置として利用する要求が高まっており、安定な
認識結果を得ることのできる文字認識装置がコンピュー
タなどのシステムの性能向上に不可欠となっている。従
来の認識装置では、英文書の単語区切り処理は画像情報
のみをもとに行われていた。
【0003】
【発明が解決しようとする課題】上記のように従来の文
字認識装置は、英文書の単語区切り処理を画像情報のみ
をもとに行っていたため、文字の間隔が狭い文書やイタ
リック体の文書などを認識する際に、誤って単語を区切
り、そのため認識率の低下を招いていた。
【0004】本発明は上記問題を解決するもので、文字
の間隔情報に加え、英単語の綴り情報を利用して単語区
切り処理を行うことにより、文字の間隔が狭い文書やイ
タリック体の文書などにおいて、精度の高い単語区切り
処理を行うことのできる英文字認識装置を提供すること
を目的とするものである。
【0005】
【課題を解決するための手段】上記課題を解決するため
に、本発明の英文字認識装置は、認識対象文書を入力す
る画像入力部と、入力された文書画像から文章領域を出
力する文章領域切り出し部と、文章領域を1行ずつ分割
し行領域として切り出す行領域切り出し部と、行領域内
の文字を1文字ずつ分割し文字領域として切り出す文字
領域切り出し部と、文字領域の画像の図形特徴と認識辞
書としてあらかじめ求められた各文字種の図形特徴を比
較し、それらの間の類似の度合により認識結果を決定す
る文字認識部と、隣接する文字領域の間隔をもとに単語
の区切りとして確定した確定単語区切りとその候補とな
る候補単語区切りを求める単語区切り処理部と、確定単
語区切りにより仕切られた領域内の文字列を候補単語区
切りの組合せによりいく通りかに分割し、分割候補を生
成する分割候補生成部と、分割した全ての文字列が英単
語の綴りとして正しいかを英単語の綴りを保持している
英単語綴り辞書と照合することにより判定し、正しい綴
りが得られた分割文字列を認識結果とする英単語綴り判
定部とを備えたものである。
【0006】
【作用】上記構成により、単語区切り処理部で得られた
確定単語区切りおよび候補単語区切りをもとに、分割候
補生成部において、確定単語区切りで囲まれている文字
列をその間に存在する候補単語区切りの組合せにより分
割して複数の分割候補を生成し、得られたすべての候補
に対して、分割で得られる文字列が英単語として綴りが
正しいかを英単語綴り辞書との照合により英単語綴り判
定部で判定し、これにより単語の区切り誤りを抑えて認
識率の向上を図ることができる。
【0007】
【実施例】本発明の一実施例を図面とともに説明する。
図1は本発明の一実施例の英文字認識装置を示す構成図
である。図1において、1は認識対象文書を文書画像と
して入力する画像入力部、2は入力された文書画像から
文字列の集まりを見つけ、文書領域を出力する文書領域
切り出し部、3は文書領域から横方向の文字の連なりを
見つけ、一連なりの文字列を行として切り出す行領域切
り出し部、4は行領域内の文字を一文字ずつ分割し文字
領域として切り出す文字領域切り出し部、5は文字領域
の画像の図形特徴と認識辞書としてあらかじめ求められ
た各文字種の図形特徴を比較し、それらの間の類似の度
合により認識結果を決定する文字認識部、6はあらかじ
め求められた各文字種の図形特徴を保持している認識辞
書、7は隣接する文字領域の間隔をもとに単語の区切り
として確定した確定単語区切りと確定しないがその候補
となる候補単語区切りを求める単語区切り処理部、8は
確定単語区切りにより仕切られた領域内の文字列を候補
単語区切りの組合せにより、いく通りかに分割し、分割
候補を生成する分割候補生成部、9は分割した全ての文
字列が英単語として正しい綴りかを、英単語の綴りを保
持している英単語綴り辞書と照合することにより判定
し、正しい綴りが得られた分割文字列を認識結果とする
英単語綴り判定部、10は英単語の綴り情報を保持してい
る英単語綴り辞書、11は1から5および7から9の各部
をつなぐ内部バス、12,13 はそれぞれ5と6、9と10を
つなぐ内部バスである。このように構成された本実施例
の英文字認識装置について、図2の全体の流れ図と図3
の処理の過程を示す概念図を用いて、以下その動作を説
明する。
【0008】まず、認識対象文書を画像入力部1にて文
書画像として入力する(処理14)。入力された文書画像
を文章領域切り出し部2に送り、文書領域切り出し部2
にて文書画像中に存在する黒画素のヒストグラムを水平
および垂直方向に求め、その分布から文書領域を切り出
し、その位置情報を内部データとして蓄える(処理1
5)。
【0009】次に行領域切り出し部3に文章領域の位置
情報を送り、文章領域内の行の切り出し処理を行う(処
理16)。行領域切り出し部3では隣接する文字間の隙間
よりも行間の隙間の方が大きいことに注目して横方向の
文字の連なりを見つけ、一連なりの文字列を行として切
り出し、文章領域内で切り出された全ての行の位置情報
を内部データとして蓄える。
【0010】次に、行領域の位置情報を文字切り出し部
4に送り、文字領域に対する文字領域切り出し処理を行
う(処理17)。文字切り出し部4では行領域内の黒画素
の連結情報、および垂直方向のヒストグラムの変化に注
目し、横方向に黒画素の連結が切れている箇所やヒスト
グラムの値が一定の値よりも低い箇所を文字と文字の区
切りとして分割し、一文字ずつの文字領域を求め、その
位置情報を内部データとして蓄える。
【0011】次に、文字領域の位置情報を文字認識部5
に送り、文章領域内の全ての文字の認識処理を行う(処
理18)。文字の認識処理は文字領域内の画像から黒画素
の分布を図形特徴として求めておき、それと認識辞書6
にあらかじめ用意した各文字種の同様の図形特徴とを比
較することにより、それらの間の類似の度合いを求め、
最も類似性の高い文字種をその文字領域の認識結果とす
る。
【0012】以上の処理15から処理18にて求められた、
文章領域・行領域・文字領域の位置情報、および文字領
域の認識結果をもとに、行の一連なりとなっている文字
列を単語毎に区切る単語区切り処理を単語区切り処理部
7にて行う(処理19)。単語区切り処理は行領域内にお
ける隣接する文字領域間の水平方向の隙間に注目して行
われ、隙間が単語区切りとして安定な大きさ(一定値
1)以上あればその隙間を単語区切りとして確定する
(確定単語区切り)。また、確定はできないが単語区切
りの可能性がある大きさ(一定値2)以上あればその隙
間を単語区切りの候補とする(候補単語区切り)。な
お、一定値1および一定値2は行領域内の文字領域の隙
間の大きさの分布により、各行領域毎に求められる値で
ある。
【0013】確定単語区切りおよび候補単語区切りをも
とに、分割候補生成部8にて、分割候補生成処理を行
い、文字列の連なりを単語毎に分割し英単語としての文
字列の候補を生成する(処理20)。分割候補生成処理
は、確定単語区切りで囲まれている文字列をその間に存
在する候補単語区切りの組合せにより分割し、複数の分
割候補を得ることである。
【0014】分割の過程を図3に示す。図3において、
24は入力文書内のある一行、25は24に対して単語区切り
処理をほどこした結果、26は確定単語区切り1と2の間
の文字列を候補単語区切りの組合せにより分割し、分割
候補を求めた結果を示している。この例の場合、確定単
語区切り1と2の間には、If、you、justの3
つの単語があるが、これらの単語間の隙間が他の単語間
より狭いため単語の区切りとして確定できず、その可能
性のある文字間として3つの候補単語区切りが得られて
いる。分割候補生成処理では、この候補単語区切りの組
合せにより26の分割候補結果に示すように、8通りの分
割候補を生成する。
【0015】英単語綴り判定部では、上記で得られた全
ての候補に対して、分割で得られる文字列が英単語とし
て綴りが正しいかを、英単語綴り辞書10との照合により
判定する(処理21)。
【0016】分割候補結果を示す26において、分割候補
1の文字列は「Ifyoujust」であるが、このよ
うな綴りは英単語に無いため判定結果は「誤り」とな
る。また、分割候補2の文字列は「If」「youju
st」であり、「If」は正しいが、「youjus
t」が英単語に無いため判定結果は「誤り」となる。同
様に全ての分割候補の判定処理を行い、分割候補4の
「If」「you」「just」が全て綴りが正しいた
め正解となり、認識結果として出力される。
【0017】以上、処理20から処理21を確定単語区切り
に囲まれた文字列全てに行い、文章領域全ての認識結果
を得る(処理22、処理23)。
【0018】
【発明の効果】以上のように本発明により、文字の間隔
情報に加え、英単語の綴り情報を利用して単語区切り処
理を行うことにより、文字の間隔が狭い文書やイタリッ
ク体の文書などにおいて、単語区切り処理の誤りを軽減
し、認識率の向上を図ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例の英文字認識装置の構成図で
ある。
【図2】同英文字認識装置における文字認識処理の全体
の流れ図である。
【図3】同処理の過程を示す概念図である。
【符号の説明】
1 画像入力部 2 文章領域切り出し部 3 行領域切り出し部 4 文字領域切り出し部 5 文字認識部 6 認識辞書 7 単語区切り処理部 8 分割候補生成部 9 英単語綴り判定部 10 英単語綴り辞書

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 認識対象文書を入力する画像入力部と、
    入力された文書画像から文章領域を出力する文章領域切
    り出し部と、文章領域を1行ずつ分割し行領域として切
    り出す行領域切り出し部と、行領域内の文字を1文字ず
    つ分割し文字領域として切り出す文字領域切り出し部
    と、文字領域の画像の図形特徴と認識辞書としてあらか
    じめ求められた各文字種の図形特徴を比較し、それらの
    間の類似の度合により認識結果を決定する文字認識部
    と、隣接する文字領域の間隔をもとに単語の区切りとし
    て確定した確定単語区切りとその候補となる候補単語区
    切りを求める単語区切り処理部と、確定単語区切りによ
    り仕切られた領域内の文字列を候補単語区切りの組合せ
    によりいく通りかに分割し、分割候補を生成する分割候
    補生成部と、分割した全ての文字列が英単語の綴りとし
    て正しいかを英単語の綴りを保持している英単語綴り辞
    書と照合することにより判定し、正しい綴りが得られた
    分割文字列を認識結果とする英単語綴り判定部とからな
    る英文字認識装置。
JP3236677A 1991-09-18 1991-09-18 英文字認識装置 Pending JPH0573716A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3236677A JPH0573716A (ja) 1991-09-18 1991-09-18 英文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3236677A JPH0573716A (ja) 1991-09-18 1991-09-18 英文字認識装置

Publications (1)

Publication Number Publication Date
JPH0573716A true JPH0573716A (ja) 1993-03-26

Family

ID=17004149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3236677A Pending JPH0573716A (ja) 1991-09-18 1991-09-18 英文字認識装置

Country Status (1)

Country Link
JP (1) JPH0573716A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010157241A (ja) * 2008-12-30 2010-07-15 Nhn Corp Ocr結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010157241A (ja) * 2008-12-30 2010-07-15 Nhn Corp Ocr結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
EP1016033B1 (en) Automatic language identification system for multilingual optical character recognition
Parhami et al. Automatic recognition of printed Farsi texts
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
EP2545495B1 (en) Paragraph recognition in an optical character recognition (ocr) process
CA1299292C (en) Character recognition algorithm
US8401293B2 (en) Word recognition of text undergoing an OCR process
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
JP3452774B2 (ja) 文字認識方法
CN102870399B (zh) 在ocr过程中将词语位图分割为单个字符或字形
US11551461B2 (en) Text classification
KR100582039B1 (ko) 문자 인식 장치
US12032651B2 (en) Method and system for extracting information from input document comprising multi-format information
JPH0573716A (ja) 英文字認識装置
Kumar et al. Line based robust script identification for indianlanguages
US20240303432A1 (en) Method, device, computer equipment and storage medium for determining text blocks of pdf file
JPH02230484A (ja) 文字認識装置
JP2746345B2 (ja) 文字認識の後処理方法
JPH04211884A (ja) 文字切り出し方法
JPH04306786A (ja) 文字認識装置
JP2851102B2 (ja) 文字切出し方法
JPH01255987A (ja) 特定文字列の照合方法
Nakano et al. A document analysis system based on text line matching of multiple OCR outputs
JPH04289989A (ja) 英文字認識装置
JPH05174195A (ja) 英文字認識装置
Thakur et al. Offline Recognition of Image for content Based Retrieval