JPH04169986A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH04169986A
JPH04169986A JP2295209A JP29520990A JPH04169986A JP H04169986 A JPH04169986 A JP H04169986A JP 2295209 A JP2295209 A JP 2295209A JP 29520990 A JP29520990 A JP 29520990A JP H04169986 A JPH04169986 A JP H04169986A
Authority
JP
Japan
Prior art keywords
character
image
line
cutting
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2295209A
Other languages
English (en)
Inventor
Masami Hisagai
正己 久貝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2295209A priority Critical patent/JPH04169986A/ja
Publication of JPH04169986A publication Critical patent/JPH04169986A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 【産業上の利用分野】
本発明は文書画像を入力して、該文書画像を認識して文
字コードに変換する文字認識装置に関するものである。
【従来の技術】
従来の文字認識装置では、文書原稿をスキャナ等で光電
的に読取り、その文字部分を各文字毎に分ける、所謂切
り出し処理を行っている。このような文字の切り出しは
、例えば第2図に示すように、一定サイズの文字枠を用
いて文字を切り出すようにしている。この場合、行方向
(文字の並びの方向)に各文字幅のヒストグラムをとっ
て、このヒストグラムの幅等から行の幅を求める。そし
て、この行幅を基準にして文字枠のサイズが決められる
。こうして切り出された文字画像は、位置の正規化を行
った後、拡大または縮小されて、ある固定の大きさに変
換され、文字の大きさが正規化される。 しかし、このような方法では、位置の正規化が必要にな
り、また、文字の傾き等のために各文字に対応する文字
枠の大きさに変動が生じる。このため、文字の文字枠に
対する相対的な大きさかばらつ(ことになり、本当の意
味で文字の大きさの正規化が適正に実施されにくいとい
う問題がある。 次に、このような問題点を改善するために、第3図に示
すように各文字毎に文字の外接矩形を求め、この外接矩
形内で文字画像をある固定の大きさに拡大または縮小し
て変換する。これにより、各文字の大きさの正規化する
方法が考えられる。 この方法によれば、文字枠の位置を正規化する必要がな
く、また文字枠を使用しないので同一文字の拡大比また
は縮小比が一定となり、より適正な正規化が可能となる
。 しかし、この方法では、句読点(。や、)、コンマ(1
)、ピリオド(、)などの特殊小文字については、これ
らの文字にとって重要な位置情報(文字枠内の相対位置
情報)が消失してしまう。 また、このような特殊小文字は拡大比が太き(なるため
、第4図に示すように文字パターンの輪郭のギザギザが
現れて、文字画像のゆがみが発生するという難点がある
。このため、ピリオド(、)と中黒(・)の区別1句点
(。)と中白丸(○)の区別や、読点(、)と繰返し記
号(A)の区別等ができなかったり、他の文字として誤
認識するなどの問題があった。これら句読点等の特殊小
文字は、文字認識装置で通常行われる後処理の構文解析
のための文節区切りの情報として使用される重要な文字
であるため、これら特殊小文字の誤認識は文字認識上重
大な問題となる。
【発明が解決しようとする課題】
以上説明したように、従来の文字の切り出し方法では、
前述した第2図に示す第1の方法では、文字枠の位置の
正規化が必要になり、また、文字の傾き等のため文字枠
の大きさに変動が生じる。 これにより、文字の文字枠に対する相対的な大きさがば
らつくため、大きさの正規化が正しく行われにくい問題
がある。また、第3図に示す第2の方法では句読点(。 や、)、コンマ(1)、ピリオド(、)など特殊小文字
については、これらの文字の特徴として重要な位置情報
(文字枠内の相対位置情報)及び大きさ情報が消失して
しまったり、他の文字への誤認識が生じたりした。 本発明は上記従来例1こ鑑みてなされたもので、文字種
に応じて文字の切出しを変更することにより、特殊小文
字等の認識精度を向上させた文字認識装置を提供するこ
とを目的とする。
【課題を解決するための手段】
上記目的を達成するために本発明の文字認識装置は以下
の様な構成からなる。即ち、 文書画像を入力して、該文書画像の文字認識を行う文字
認識装置であって、前記文書画像を行単位に切出す行切
出し手段と、前記行切出し手段により切出された各行画
像を文字画像単位に切出す文字切出し手段と、前記文字
切出し手段により切出された文字画像のサイズを基に前
記文字画像の文字種を判定する判定手段と、前記判定手
段の判定結果に応じて前記文字画像に相当する文字画像
を、切出しサイズを変更して該当行画像より再度切出す
切出し手段と、前記文字切出し手段或は前記切出し手段
により切出された文字画像を認識する文字認識手段とを
有す、る。
【作用】
以上の構成において、文書画像を行単位に切出す行切出
し、その切出された各行画像を文字画像単位に切出す。 こうして切出された文字画像のサイズを基に、文字画像
の文字種を判定し、その判定結果に応じてその文字画像
に相当する文字画像を、切出しサイズを変更して該当行
画像より再度切出すように動作する。こうして、切出さ
れた文字画像にもとづいて、その文字画像の文字認識を
行うように動作する。
【実施例】
以下、添付図面を参照して本発明の好適な実施例を詳細
に説明する。 第1図は、本発明の第1の実施例の文字認識装置の構成
を示すブロック図である。 第1図において、1はページメモリで、図示しないスキ
ャナ等より入力された、少なくとも原稿1頁分のイメー
ジデータを記憶している。2は行バッファで、ページメ
モリ1に記憶されたイメージの内、行切出し部4により
切出された各行のイメージデータな記憶している。3は
文字バッファで、外接矩形切出し部5により切出された
文字部分のイメージを配憶する。4は行切出し部で、ペ
ージメモリ1の各行データを切出すことができる。 5は外接矩形切出し部で、ページメモリ1のイメージデ
ータな、例えば第3図に示すような矩形枠により文字部
分のイメージを切出している。6は文字種判定部で、外
接矩形切出し部5により切出された文字種が、標準の文
字か句読点等の特殊小文字かを判定する。7は標準文字
枠切り出し部で、切出さhた文字が特殊小文字のときに
、再度文字の切出し処理を行う。8は正規化部で、切出
された文字イメージを正規化する。9は特徴抽出部で、
文字イメージの特徴を抽出し、識別部10では辞書部1
1を参照して、この文字イメージの認識を行う。12は
コードバッファで、認識された文字情報を記憶すること
ができる。 以上の構成による文字認識装置の動作について以下に説
明する。 ページメモリ1には、図示しないスキャナ等から読み込
まれた1ペ一ジ分の文書画像(イメージデータ)が蓄え
られる。そして、行切出し部4により、ページメモリ1
内の文書画像の黒画素数を行方向に計数して、そのヒス
トグラムを作成する。次に、このヒストグラムの谷部分
で、イメージデータを行方向に切断することにより、1
ページの画像から1つの行画像データを切り出し、その
行データ(イメージデータ)を行バッファ2に格納する
。 次に、外接矩形切出し部5により、行バツフア2内の行
画像データを第3図に示すように、各文字毎に外接する
外接矩形枠により1文字ごとに文字イメージを切り出し
、文字バッファ3に1文字分の画像データを格納する。 このとき、各外接矩形の高さb+  (i=1.2.・
・・)を求め、このうち最大地hMをもとめて、この値
を文字種判定部6のレジスタへ転送する。 文字種判定部6では、各文字毎にhl/h、を演算し、
この値が所定の閾値S(例えば1/2)以下であるかど
うかを調べる。(hr/hM)<Sであれば、第1番目
の文字は特殊小文字であると判断し、標準文字切出し部
7へ再切出し信号を送る。これにより、標準文字枠切出
し部7は、第5図に示すように、hMxh、lサイズの
文字枠で第1番目の文字を切出し直して、文字バッファ
3へ入れ直す。一方、文字種判定部6で(bl /hM
)≧Sであるときは、標準文字枠切出し部7は動作せず
、文字バッファ3のデータは外接矩形切出し部5で切出
されたデータそのものである。 正規化部8では、文字バッファ3内の文字画像を一定の
大きさ(例えば64X64ドツト)に拡大または縮小す
る。次に公知の方法により、特徴抽出部9での文字イメ
ージの特徴抽出を行なった後、識別部10と辞書部11
により文字の識別を行う。こうして認識された文字の文
字コードは、コードバッファ12に記憶される。 以上説明したように本実施例の文字認識装置によれば、
標準サイズの全角文字は、文字の切出しによって変動し
ない一定の大きさで正規化される。一方、特殊小文字の
場合は、位置情報、サイズ情報を保持しつつ、文字サイ
ズを正規化でき、複数のフォントの混在を許した高精度
の文字認識を実現できる。 〈他の実施例 (第6図)〉 第6図は第2の実施例の文字認識装置の概略構成を示す
ブロック図で、第1図と共通する部分を同じ番号で示し
、それらの説明を省略する。 62は認識部工であり、内部に図示しない簡易な特徴抽
出部と、簡易な識別部を含む。ここで、簡易とは、特徴
抽出部9で抽出する特徴量の一部又は全部と同一の特徴
を抽出し、その抽出した特徴を使用すること々意味する
。63はやはり簡易な認識辞書であるところの辞書■で
ある。64は文字か文字部分であるかと判定する文字種
判定部である。72は合成部である。 前述した第1の実施例と同じ手順で、外接矩形切出し部
5によって、文字イメージを外接する矩形で切出した後
、認識部I62において公知の方法により、辞書工を使
って簡易な認識を行なう。 即ち、ここでは辞書■に含まれる標準パターンと、切出
された文字イメージとの距離dを計算する。 次に文字種判定部64では、距離dが所定の閾値りより
大きいかどうかを調べる。距離dが所定の閾値りより大
きければ文字ではない、即ち、文字の一部であるとみな
して、合成部72へ動作信号を送る。これにより合成部
72では、現在の画像(イメージデータ)と次の画像(
外接矩形切出し部5により切出された次のイメージデー
タ)とを合成し、新たに1つの文字イメージを作成して
文字バッファ3に格納する。そして、第1の実施例と同
様に、正規化以降の処理を行う。 文字種判定部64で、距離dが閾値りより大きくない場
合は、処理中の画像は文字イメージであるとみなし、合
成部72へは動作信号を送ることなく、直ちに正規化以
降の処理を行う。 このように他の実施例によれば、分離文字(い、す、情
、清など)が文字の切出しにより分解されて切出される
のを防止することができる。 以上説明したように本実施例によれば、文字種に応じて
適切な文字の切出しを行うことができ、文字認識の認識
精度を大きく向上させることができる。
【発明の効果】
以上説明したように本発明によれば、文字種に応じて適
正に文字を切出すことができるため、例えば特殊小文字
等の認識精度を向上できる効果がある。
【図面の簡単な説明】
第1図は本発明の第1の実施例の文字認識装置の概略構
成を示すブロック図、 第2図は従来の文字切出しの例を説明するための図、 第3図は本実施例の文字切出し例を示す図、第4図は従
来の文字イメージの正規化により画像のゆがみが発生す
る状態を説明した図、第5図は本実施例における特殊小
文字の文字切出し方法を説明した図、そして 第6図は第2の実施例の文字認識装置の概略構成を示す
ブロック図である。 図中、1・・・ページメモリ、2・・・行バッファ、3
・・・文字バッファ、4・・・行切出し部、5・・・外
接矩形切出し部、6・・・文字種判定部、7・・・標準
文字枠切出し部、8・・・正規化部、9・・・特徴抽出
部、10・・・識別部、11・・・辞書、12・・・コ
ードバッファ、62・・・認識部■、63・・・辞書工
、64・・・文字種判定部、72・・・合成部である。 不発日月1コ、丈′8閑、島にり\n・める。 ロ国巳同ロ区区同国−−巳口一■ 第2図 本発明1コ、 文寺コL鐵四g・η・りる 。 困F旧弓ロロ 目因目閂目日日ロ日ロ 困罰80゜11囮訳ロ日ロ巳圏。 第3図 第5図

Claims (3)

    【特許請求の範囲】
  1. (1)文書画像を入力して、該文書画像の文字認識を行
    う文字認識装置であつて、 前記文書画像を行単位に切出す行切出し手段と、 前記行切出し手段により切出された各行画像を文字画像
    単位に切出す文字切出し手段と、前記文字切出し手段に
    より切出された文字画像のサイズを基に前記文字画像の
    文字種を判定する判定手段と、 前記判定手段の判定結果に応じて前記文字画像に相当す
    る文字画像を、切出しサイズを変更して該当行画像より
    再度切出す切出し手段と、 前記文字切出し手段或は前記切出し手段により切出され
    た文字画像を認識する文字認識手段と、を有することを
    特徴とする文字認識装置。
  2. (2)前記判定手段は前記文字画像のサイズが、当該行
    の文字サイズの最大値に比較して所定値以下のときに異
    なる文字種と判定し、前記切出し手段はこの判定された
    文字画像を前記最大値に相当するサイズで切出すように
    したことを特徴とする請求項第1項に記載の文字認識装
    置。
  3. (3)文書画像を入力して、該文書画像の文字認識を行
    う文字認識装置であつて、 前記文書画像を行単位に切出す行切出し手段と、 前記行切出し手段により切出された各行画像を文字画像
    単位に切出す文字切出し手段と、前記文字切出し手段に
    より切出された文字画像と辞書に記憶された文字との距
    離が所定値以上かどうかを判定する判定手段と、 前記判定手段により前記距離が所定値以上であると判定
    されると、前記文字画像に相当する文字画像と、次に前
    記文字切出し手段により切出される文字画像とを合成し
    て認識する認識手段と、を有することを特徴とする文字
    認識装置。
JP2295209A 1990-11-02 1990-11-02 文字認識装置 Pending JPH04169986A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2295209A JPH04169986A (ja) 1990-11-02 1990-11-02 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2295209A JPH04169986A (ja) 1990-11-02 1990-11-02 文字認識装置

Publications (1)

Publication Number Publication Date
JPH04169986A true JPH04169986A (ja) 1992-06-17

Family

ID=17817622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2295209A Pending JPH04169986A (ja) 1990-11-02 1990-11-02 文字認識装置

Country Status (1)

Country Link
JP (1) JPH04169986A (ja)

Similar Documents

Publication Publication Date Title
US5212739A (en) Noise tolerant optical character recognition system
JPH05242292A (ja) 分離方法
US5561720A (en) Method for extracting individual characters from raster images of a read-in handwritten or typed character sequence having a free pitch
JPH04169986A (ja) 文字認識装置
JP3197441B2 (ja) 文字認識装置
JP2612383B2 (ja) 文字認識処理方式
JPH02116987A (ja) 文字認識装置
JP2788506B2 (ja) 文字認識装置
JP3140079B2 (ja) 罫線認識方法及び表処理方法
EP0446630A2 (en) Method and apparatus for segmenting characters in an amount field on a financial document
JPH05282493A (ja) 英文字認識装置
JP3560794B2 (ja) 文字画像の正規化方法および文字認識装置
JP3193573B2 (ja) かぎかっこ付文字認識装置
JPH02230484A (ja) 文字認識装置
JP2978801B2 (ja) 手書き文字認識の文字入力方式
JPH05108880A (ja) 英文字認識装置
JP2995825B2 (ja) 日本語文字認識装置
KR100480024B1 (ko) 획의두께정보를이용한모음인식방법
JPH04130979A (ja) 文字画像切出し方法
JP3116452B2 (ja) 英文字認識装置
JP2922356B2 (ja) 文字認識処理装置
JP2004220625A (ja) 文字画像の正規化方法および文字認識装置
JPS62262194A (ja) 光学式文字読取装置
JPH05242299A (ja) 文字認識装置
JPH0554071A (ja) デジタル翻訳装置