JPH02230484A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH02230484A
JPH02230484A JP1051383A JP5138389A JPH02230484A JP H02230484 A JPH02230484 A JP H02230484A JP 1051383 A JP1051383 A JP 1051383A JP 5138389 A JP5138389 A JP 5138389A JP H02230484 A JPH02230484 A JP H02230484A
Authority
JP
Japan
Prior art keywords
character
separated
characters
image data
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1051383A
Other languages
English (en)
Inventor
Masateru Sakata
坂田 正輝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Industry and Control Solutions Co Ltd
Original Assignee
Hitachi Engineering Co Ltd Ibaraki
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Engineering Co Ltd Ibaraki filed Critical Hitachi Engineering Co Ltd Ibaraki
Priority to JP1051383A priority Critical patent/JPH02230484A/ja
Publication of JPH02230484A publication Critical patent/JPH02230484A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、日本語文書の文書画像データを入力して、文
字認識を行なう電子計算機応用製品に係り、特に、日本
語ワードプロセッサまたは活字印刷等により作成された
全角の漢字および半角の莢数字・記号の混在する日本語
印刷文書の認識に好適な文字認識装置に関するものであ
る。
〔従来の技術〕
従来、OCR装置として一般的に使用されてきた技術は
、文字枠を予め専用の用紙に印刷しておき、それによっ
て文字を分離し認識するものである。この種のものの代
表的例として、郵便番号の読み取り装置がある。一方、
最近になって、文字枠無しの一般文書を処理対象とする
OCR装置が開発されるようになり、文字枠無しでの文
字切り出し技術の開発が各種試みられている。
ここで、行および文字の切り出しは、例えば、黒画素の
射影によるヒス1・ダラムを作成して実現される。この
場合、ある種の活字印刷物のように、理想的に文字ピッ
チ,文字サイズが均一な場合には正確な切り出しが可能
である。しかし、現実には、最近の写植印刷のように文
字ピッチが不均一であったり、活字印刷でも、全角文字
と半角文字が複雑かつ不規則に混在している場合が殆ど
であり、正確な切り出しを行うのは極めて困何Fであっ
た。
特に、問題となるのは、横書き文書の場合、全角漢字に
含まれている″化′″,″和+2rr門+2u別″,″
利++,u川JT,LL測++,′l即n,u検77%
いII,IIに″,″り″,“ル″′の様に一つの文字
が垂直方向に分離可能な複数の文字部分から構成されて
いる文字(以下分離文字と呼ぶ)と、II(IPZ I
IIHIZ l112+I,rr abcuというよう
な連続する半角文字列とが混在する文書である。これら
の文字は、印刷条件やフォントの種類によって分離した
り融合したりとさまざまに切出される。また、ある場合
には″中u,uれ″のような非分離文字の一部がかすれ
により、分離されてしまうこともある。
一方、縦書き文書の場合でも、″二n,u三″に代表さ
れる水平方向の分離文字があり、縦書き文書にも半角文
字がそのまま使用される例が多いため、同様な問題が存
在する。しかし、一般に横書き文書の処理の方が、量的
にも多く深刻である。
以上のような状況に対し、既に切り出された文字の平均
ピッチを利用して不均一なピッチを持つ文字列の切り出
しを行う方法等が提案されているが、ヒストグラム等か
ら得られる連続黒画素の幅のみにより切り出しを行うか
ぎり、いかなる方法によっても、ピッチまたは分離文字
の文字部分の間隔が、たまたま連続する半角文字と全く
同しか同じでなくとも極めて区別しにくい場合には、切
り出し誤りが発生し得る。
〔発明が解決しようとする課題〕
以上述べたように、従来技術は全角の漢字および半角の
英数字・記号が複雑に混在する日本語文書の認識を行う
場合についての配慮が十分てはなく、上記従来技術によ
る切り出し処理は、本来は分離すべきでない分旅文字を
分離して切り出し、類似の文字に誤認識したり、また逆
に連続する半角文字を分離文字として切り出して誤認識
するという問題があった。
本発明の目的は、全角の漢字および半角の英数字・記号
が複雑に混在する日本語文書を正確に認識可能な文字認
識装置を提供することである。
〔課題を解決するための手段〕
本発明は、」二記目的を達成するために、文字画像デー
タを記憶する画像テータ記憶手段と、画像データ記憶手
段から文字画像データを読み出す手段と、認識対象の全
ての文字および認識対象の文字に含まれる全ての分離文
字の文字部分に関する文字認識に必要な情報を辞書とし
て格納する文字認識辞書手段と、読み出された文字画像
データを文字認識辞書手段と照合し、認識対象の全ての
文字および認識対象の文字に含まれる全ての分離文字の
部分文字について文字認識を実行する文字認識手段と、
分離文字の部分と全体との関係を分離文字辞書として記
憶する分離文字辞書手段と、文字認識手段に分離文字の
小部分が部分文字列として入力された場合に起動され、
入力された部分文字列が分離文字列であるかどうかを分
離文字辞書手段と照合して判定し、分離文字と判定した
場合はその分離文字を最も確信度の高い第−位候補文字
として出力し、第二位候補文字として部分文字列を出力
する分離文字認識手段とを備えた文字認識装置を提案す
るものである。
前記文字画像データ読み出し手段は,前記画像データ記
憶手段から前記画像データを読み出し、一つの文字が複
数の小部分からなる分離文字の場合は、横書き文書の場
合は縦方向の,縦書き文書の場合は横方向の各小部分毎
に切り出し、単一の小部分からなる非分離文字の場合は
全体として切り出し、文字データを切り出す文字切り出
し手段を含むことができる。
前記文字画像テータ読み出し手段は、さらに、画像デー
タ記憶手段から画像データを読み出し、文字行データを
切り出す行切り出し手段を文字切り出し手段の前に含む
ことも可能である。
いずれの場合も、分離文字認識手段は、分離文字を認識
した際に、結合された分離文字と分離された部分文字列
との両者を認識結果の候補文字として出力する機能を備
えてもよい。
前記分離文字認識手段は、また、認識対象文字が半角文
字の融合により一つの全角または横倍角文字のようにみ
なされるとき、全角または横倍角文字としての候補文字
と半角文字列としての候補文字との両者を出力する機能
を備えることもできる。
これらの文字認識装置は、コンピュータシステム,光学
的文字認識装置,イメージスキャナ等に組み込み可能で
ある。
〔作用〕
画像データ記憶手段は、文字画像データを入力するイメ
ージスキャナ等の画像入力装置から入力した画像データ
を記憶する。行切り出し手段は、前記画像データから、
文字行データを切り出す。
文字切り出し手段は、この文字行データから、つの文字
が複数の小部分からなる分離文字の場合には、横書き文
書では縦方向の,縦書き文書では横方向の各小部分毎に
切り出し、単一の小部分からなる非分離文字の場合には
全体として切り出し、文字データを切り出す。文字認識
辞書手段は、認識対象の全ての文字および認識対象の文
字に含まれる全ての分離文字の部分文字に関する文字認
識に必要な情報を辞書として格納しておく。文字認識手
段は、前記文字切り出し手段により切り出された文字デ
ータを前記文字認識辞書手段と照合し、分離文字の文字
部分を含む文字を認識する。分離文字辞書手段は、前記
分離文字の部分と全体との関係を分離文字辞書として記
憶しておく。分離文字認識手段は、前記文字認識手段に
前記分離文字の小部分が部分文字列として入力された場
合に起動され、前記分離文字辞書手段を参照して入力さ
れた部分文字列が分離文字であるかどうかを判定し、分
離文字と判定した場合は、該当の分離文字を最も確信度
の高い第一位候補文字として出力し、第二位に部分文字
列を出力する。
〔実施例〕
以下、本発明の一実旅例を図面により説明する。
第1図において、画像入力装置/から入力された画像デ
ータは、電子計算機ρの画像データ記憶手段,.2/に
白黒2値の画素データとして記憶される。行切り出し手
段.,!一は、行と並行方向への射影データ(ヒストグ
ラム)作成等の方法により、画像データ記憶手段.2/
から行データを切り出し、この行データを、例えば画像
データ記憶手段,.2/内の行データ格納領域を表す矩
形の左上及び右下の画素アドレスの値として、文字切り
出し手段.,23に出力する。
文字切り出し手段.,23は、この行データにより画像
データ記憶手段.2/からその行に対応する画像データ
を取り出し、行切り出しと同様のヒストクラム等の方法
により、一文字毎に、横書き文書の場合には縦方向の,
縦書き文書の場合には横方向の各小部分毎に切り出し、
単一の小部分からなる非分離文字の場合は全体として切
り出すことにより、文字データを順次切り出し、文字デ
ータを、例えば画像データ記憶手段.,!/内の文字デ
ータ格納領域を表す矩形の左上及び右下の画素アドレス
の値として、文字認識手段..2ダに出力する。
文字認識手段..2ダは、この文字データにより画像デ
ータ記憶手段..2/からその文字に対応する画像デー
タを取り出し、正規化,塵処理等の前処理を行った上で
、予め用意された文字認識辞書手段.,27を用いて、
文字認識辞書手段..27とのパターンマッチング等の
文字認識手法により文字認識処理を行い、入力された文
字データに似ていると判断した文字認識辞書手段..2
7内の文字候補を分離文字認識手段.26に出力する。
第2図は、横書き文書の場合の分離文字辞書d乙の構成
例である。この辞書には、全角漢字に含まれている、″
化II,u和IZLL門r2rr別II,LL利″,″
川II,LL測n,u即n,u検r+,rrいn,uに
′″,′゛り″,″ル″のように一つの文字が垂直方向
に分離可能な複数の文字部分からなる分離文字全てが含
まれている。この辞書ρ乙は、各分離文字毎に分離文字
部分,2/0と分離文字コード.2.20および対応文
字部分.2JOから構成されており、分離文字部分.2
/0により検索可能となっている。分離文字部分.2/
0には、分離文字の一番左側の文字部分が通常の電子計
算機用文字コード,例えばシフトJISコ一ドとは区別
された特殊コードとして格納され、分離文字コード.2
.20には、対応する分離文字が電子計算機用文字コー
ド,例えばシフトJISコードとして格納されており、
対応文字部分.2JOには対応する分離文字の一番左側
に続く右側の文字部分が分離文字部分..2/Oと同様
の特殊文字コードとして例に示すように格納されている
文字認識辞書手段..27には分離文字辞書一乙の分離
文字部分.2/0と対応文字部分.:l.30に含まれ
る全ての文字部分が前記の特殊コードとして格納されて
おり、通常の全角または半角文字と区別される。
次に、第3図により分離文字認識手段..2.5の動作
を説明する。分離又字認識手段.2.5は、入力された
文字候補が、分離文字辞書手段.2Aの中に登録されて
いるかどうかを調べ(ステップA)、登録されていなけ
れば、その文字候補をそのまま認識結果として出力する
(ステップB−F−G−E)。
その文字候補が分離文字辞書手段β乙の中に登録されて
いれば、その文字候補を分離文字の文字部分として、分
離文字認識手段.2,5の内部に一時的に保持し(ステ
ップA−H)、引き続く分離文字の部分と判定されない
文字候補の入力を待つ。連続する文字候補が分離文字の
文字部分列として保持された場合、分離文字認識手段.
.2.5は分離文字辞書手段.2乙を参照し(ステップ
A−B−C)、その文字部分列が辞書内に存在する場合
、対応する分離文字を、その文字部分列に対する第一位
の候補文字として出力する(ステップD)。この場合、
文字部分列そのものも第二位の候補文字として出力する
(ステップD−E)。一方、文字部分列が辞書内に存在
しない場合は、その文字部分列を、そのまま候補文字列
として出力する(ステップCG−E)。
第4図に分離文字と半角文字の両者を含む文書における
候補文字の出力例を示す。
上記実施例においては、行切り出しと文字切り出しとを
実行してから、文字認識に移行したが、文字画像データ
を直接読み出して文字認識をしてもよく、また、行切り
出しを省略して文字切り出しの後に文字認識を実行する
こともできる。
さらに、分離文字を認識した際に、結合された分離文字
と分離された部分文字列との両者を認識結果の候補文字
として出方できる。
それに加えて、認識対象文字が半角文字の融合により一
つの全角または横倍角文字のようにみなされるときは、
全角または横倍角文字としての候補文字と半角文字列と
しての候補文字との両者を出力することも可能である。
これらの文字認識機能を備えたシステムは、コンピュー
タシステムとして実現可能であるのは勿論のこと、光学
的文字認識装置(いわゆるOCR)やイメージスキャナ
として構成できる。
〔発明の効果〕
本発明によれば、全角の漢字および半角の英数字・記号
が混在する日本語文書を認識する場合でも、分離文字を
分離文字として正しく切り出して認識するとともに、連
続する半角文字は半角文字として正しく切り出して認識
できる。また、切り出しおよび認識を一意的に実行する
のが困難な場合でも、分離文字と分離文字を構成する部
分文字列の両者を候補文字として出力し、文字認識装置
の認識率を向」ニさせ、文字認識処理の確認修正処理時
間を短縮できるので、最終的な認識精度が上がる。
本発明の方法は、印刷文字文書の認識に限らず、手書き
文字の認識に適用しても、発生しやすい分離文字の辞書
を用意すれば、同様の効果が得られる。
【図面の簡単な説明】
第1図は本発明による文字認識装置の一実施例の全体構
成を示すブロック図、第2図は分離文字辞書の構成例を
示す図、第3図は分離文字認識手段の処理の流れを示す
フローチャート、第4図は分離文字と半角文字を含む文
書の候補文字の出力例を示す図である。 / ・画像入力装置、2・・・電子計算機、..2/ 
・画像データ記憶手段、..2ρ・・行切り出し手段、
.,!3文字切り出し手段、,.2ダ・・・文字認識手
段、.,!6分離文字認識手段、.,!乙  ・分離文
字辞書手段、,27 ・文字認識辞書手段、.2/0・
・分離文字部分、.,2.20・・・分離文字コード、
.230 ・対応文字部分。

Claims (1)

  1. 【特許請求の範囲】 1、文字画像データから文字情報を認識する文字認識装
    置において、 前記文字画像データを記憶する画像データ記憶手段と、 前記画像データ記憶手段から前記文字画像データを読み
    出す手段と、 認識対象の全ての文字および認識対象の文字に含まれる
    全ての分離文字の文字部分に関する文字認識に必要な情
    報を辞書として格納する文字認識辞書手段と、 前記読み出された文字画像データを前記文字認識辞書手
    段と照合し、認識対象の全ての文字および認識対象の文
    字に含まれる全ての分離文字の部分文字について文字認
    識を実行する文字認識手段と、 前記分離文字の部分と全体との関係を分離文字辞書とし
    て記憶する分離文字辞書手段と、前記文字認識手段に前
    記分離文字の小部分が部分文字列として入力された場合
    に起動され、入力された部分文字列が分離文字列である
    かどうかを前記分離文字辞書手段と照合して判定し、分
    離文字と判定した場合は当該分離文字を最も確信度の高
    い第一位候補文字として出力し、第二位候補文字として
    前記部分文字列を出力する分離文字認識手段と を備えたことを特徴とする文字認識装置。 2、請求項1に記載の文字認識装置において、前記文字
    画像データ読み出し手段が、前記画像データ記憶手段か
    ら前記画像データを読み出し、一つの文字が複数の小部
    分からなる分離文字の場合は、横書き文書の場合は縦方
    向の、縦書き文書の場合は横方向の各小部分毎に切り出
    し、単一の小部分からなる非分離文字の場合は全体とし
    て切り出し、文字データを切り出す文字切り出し手段を
    含むことを特徴とする文字認識装置。 3、請求項2に記載の文字認識装置において、前記文字
    画像データ読み出し手段が、前記画像データ記憶手段か
    ら前記画像データを読み出し、文字行データを切り出す
    行切り出し手段を前記文字切り出し手段の前に含むこと
    を特徴とする文字認識装置。 4、請求項1〜3のいずれか一項に記載の文字認識装置
    において、 前記分離文字認識手段が、前記分離文字を認識した際に
    、結合された分離文字と分離された部分文字列との両者
    を認識結果の候補文字として出力する機能を有すること
    を特徴とする文字認識装置。 5、請求項1〜4のいずれか一項に記載の文字認識装置
    において、 前記分離文字認識手段が、認識対象文字が半角文字の融
    合により一つの全角または横倍角文字のようにみなされ
    るとき、全角または横倍角文字としての候補文字と半角
    文字列としての候補文字との両者を出力する機能を有す
    ることを特徴とする文字認識装置。 6、請求項1〜5のいずれか一項に記載の文字認識装置
    を備えたことを特徴とするコンピュータシステム。 7、請求項1〜5のいずれか一項に記載の文字認識装置
    を含むことを特徴とする光学的文字認識装置。 8、請求項1〜5のいずれか一項に記載の文字認識装置
    を含むことを特徴とするイメージスキャナ。
JP1051383A 1989-03-03 1989-03-03 文字認識装置 Pending JPH02230484A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1051383A JPH02230484A (ja) 1989-03-03 1989-03-03 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1051383A JPH02230484A (ja) 1989-03-03 1989-03-03 文字認識装置

Publications (1)

Publication Number Publication Date
JPH02230484A true JPH02230484A (ja) 1990-09-12

Family

ID=12885426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1051383A Pending JPH02230484A (ja) 1989-03-03 1989-03-03 文字認識装置

Country Status (1)

Country Link
JP (1) JPH02230484A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198355A (ja) * 2009-02-25 2010-09-09 Canon Inc 画像処理装置及び画像処理方法
WO2013121648A1 (ja) * 2012-02-17 2013-08-22 オムロン株式会社 文字認識方法、およびこの方法を用いた文字認識装置およびプログラム
JP2020194491A (ja) * 2019-05-30 2020-12-03 キヤノン株式会社 情報処理装置、制御方法、及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198355A (ja) * 2009-02-25 2010-09-09 Canon Inc 画像処理装置及び画像処理方法
WO2013121648A1 (ja) * 2012-02-17 2013-08-22 オムロン株式会社 文字認識方法、およびこの方法を用いた文字認識装置およびプログラム
JP2013171310A (ja) * 2012-02-17 2013-09-02 Omron Corp 文字認識方法、およびこの方法を用いた文字認識装置およびプログラム
US9224065B2 (en) 2012-02-17 2015-12-29 Omron Corporation Character-recognition method and character-recognition device and program using said method
JP2020194491A (ja) * 2019-05-30 2020-12-03 キヤノン株式会社 情報処理装置、制御方法、及びプログラム

Similar Documents

Publication Publication Date Title
WO2011112573A2 (en) Paragraph recognition in an optical character recognition (ocr) process
JPH07200732A (ja) ワードオブジェクト抽出方法及びラスタ化イメージ内のノイズ除去方法
JPH11120293A (ja) 文字認識/修正方式
JP7282989B2 (ja) テキスト分類
JPH04195692A (ja) 文書読取装置
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
US4887301A (en) Proportional spaced text recognition apparatus and method
JPH0430070B2 (ja)
JPH02230484A (ja) 文字認識装置
Kumar et al. Line based robust script identification for indianlanguages
Al-Barhamtoshy et al. Arabic OCR segmented-based system
Dhandra et al. Morphological reconstruction for word level script identification
Attia et al. Histogram-based lines and words decomposition for arabic omni font-written OCR systems; enhancements and evaluation
JP5041775B2 (ja) 文字切出方法及び文字認識装置
Singh et al. Development of a page segmentation technique for Bangla documents printed in italic style
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
Trenkle An Off-Line Arabic Recognition System for Machine
JP3197441B2 (ja) 文字認識装置
JP3151866B2 (ja) 英文字認識方法
Widiarti et al. A Baseline Evaluation of OCR Segmentation and Classification Methods for Printed Javanese Script
JP2931485B2 (ja) 文字切出し装置及び方法
JPH0514952B2 (ja)
Akiyama Addressee recognition for automated fax mail distribution
JP2851102B2 (ja) 文字切出し方法
JP2752499B2 (ja) 文字読取り装置