JPH083827B2 - キャラクタ画像処理方法 - Google Patents

キャラクタ画像処理方法

Info

Publication number
JPH083827B2
JPH083827B2 JP62267227A JP26722787A JPH083827B2 JP H083827 B2 JPH083827 B2 JP H083827B2 JP 62267227 A JP62267227 A JP 62267227A JP 26722787 A JP26722787 A JP 26722787A JP H083827 B2 JPH083827 B2 JP H083827B2
Authority
JP
Japan
Prior art keywords
line
character
basic
coordinates
basic line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62267227A
Other languages
English (en)
Other versions
JPH01108691A (ja
Inventor
秀明 田中
義弘 北村
敏昭 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP62267227A priority Critical patent/JPH083827B2/ja
Publication of JPH01108691A publication Critical patent/JPH01108691A/ja
Priority to US07/785,249 priority patent/US5272765A/en
Publication of JPH083827B2 publication Critical patent/JPH083827B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、光学的読取り装置(OCR)などにおいて、
好適に実施されるキャラクタ画像処理方式に関する。
従来技術 従来からコンピュータなどへの入力手段の一種とし
て、光学的読取り装置(OCR)が用いられている。この
光学的読取り装置は、原稿に光源からの光を照射し、画
像を撮像装置で読取り、読取られた画像を構成する各キ
ャラクタの種類(英数字や記号など)を判別して、入力
を行なうものである。
このような光学的読取り装置では、読取られた画像か
らキャラクタ列が抽出され、この後、各キャラクタ列ご
とに個々のキャラクタが抽出される。抽出されたキャラ
クタは、光学的読取り装置が辞書として記憶している全
てのキャラクタの形状パターンと比較して判別される。
発明が解決しようとする問題点 従来の光学的読取り装置は、抽出したキャラクタを判
別するとき、辞書として記憶している全てのキャラクタ
の形状パターンと比較しているため、形状パターン数に
比例して判別に要する時間が長くなる。
この問題を解決する或る先行技術は、たとえば特開昭
55−112687に開示されている。この先行技術では、帳票
中の文字の高さと、予め定める定数を用いて算出した閾
値を用いて、文字グループを判定する。
このような先行技術では、一般的な入力原稿では、文
字のフォントが変化するので、文字高さからの、または
基準線からの相対的な上部または下部座標差分長も様々
に変化する。したがって、このような先行技術を一般原
稿に適用した場合、前記閾値を越えるような変化に対応
することができず、文字グループの判定を正確に行うこ
とができなくなる。
本発明の目的は、キャラクタの判別に要する時間が短
縮され、判別率が向上されたキャラクタ画像処理方式を
提供することである。
問題点を解決するための手段 本発明は、一配列方向に沿って配列された複数のキャ
ラクタから成るキャラクタ列を読取って画像メモリ3に
記憶し、 画像メモリ3の記憶内容を読出して、そのキャラクタ
列に含まれるキャラクタの主要部分の上下方向の各占有
範囲を示す相互に平行な上部基本ラインl2と下部基本ラ
イン1とをそれぞれ定め、 上部基本ラインl2と複数の各キャラクタの上部抽出座
標との絶対差距離を求め、その各絶対差距離の頻度を求
め、頻度の大きい2つのグループ22,23が存在すると
き、上部および下部の基本ラインL2,1に垂直方向に
沿うそれらのグループ22,23間の座標と上部基本ラインl
2の座標とから、それらのグループ22,23間に上部基本ラ
インl2に平行な上部閾値ラインl8を定め、 下部基本ライン1と複数の各キャラクタの下部抽出
座標との絶対差距離を求め、その各絶対差距離の頻度を
求め、頻度の大きい2つのグループが存在するとき、上
部および下部の基本ライン1,l2に垂直方向に沿うそれ
らのグループ間の座標と下部基本ライン1の座標とか
ら、それらのグループ間に下部基本ライン1に平行な
下部閾値ラインl9を定め、 各キャラクタを、上部基本ラインl2と下部基本ライン
1と上部閾値ラインl8と下部閾値ラインl9との各位置
関係によって、複数のキャラクタ群に分類することを特
徴とするキャラクタ画像処理方法である。
作用 本発明に従えば、複数のキャラクタが一配列方向に沿
って配列されてキャラクタ列が構成され、このキャラク
タ列を読取って画像メモリ3に記憶し、その画像メモリ
3の記憶内容を読出して、上部基本ラインl2と下部基本
ライン1とをそれぞれ定める。このような上部基本ラ
インl2と下部基本ライン1とを定める技術は、公知の
手法によって可能である。
そこで上部基本ラインl2と各キャラクタの上部抽出座
標との絶対差距離の頻度を求めて、頻度の大きい2つの
グループ22,23が存在するとき、それらのグループ22,23
間の後述の実施例では谷部の座標と上部基本ラインl2の
座標とから、上部閾値ラインl8を定め、また同様に下部
基本ライン1と各キャラクタの下部抽出座標との絶対
差距離を求めて下部閾値ラインl9を定め、こうして上下
の基本ラインl2,1と上下の閾値ラインl8,l9との各位
置関係によって複数のキャラクタ群に分類する。このよ
うに上部閾値ラインl8と下部閾値ラインl9は、各キャラ
クタの高さに動的に対応して定めるようにしたので、一
般原稿の文字フォント変化にも動的に対応し、安定した
文字グループ、すなわちキャラクタ群の判定を正確に行
うことができるようになる。
実施例 まず、キャラクタを分類するために、基本ラインと称
される概念を用いる。第2図は、この基本ラインを説明
する図である。読取られた後に、配列された行毎に区分
されたキャラクタ列に対して、キャラクタの配列方向に
沿い、キャラクタの主要部分の上下方向占有範囲を示す
仮想線1およびl2が想定され、各キャラクタは基本的
に仮想線1上に揃えて表記される。
このとき英文字「g」や「y」などはその一部が仮想
線1の下方に突出し、英文字「h」や「k」などはそ
の一部が仮想線l2の上方に突出する。各キャラクタの主
要部分は、仮想線1,l2の間に表記されることになる。
このような仮想線1およびl2を、下部基本ラインおよ
び上部基本ラインと称する。
このような下部基本ライン1および上部基本ライン
l2を用いて分類したキャラクタの具体例が第3図に示さ
れている。第3図(1)は、キャラクタの一部が上部基
本ラインl2の上方に突出するもので、上部突出キャラク
タと称する。第3図(2)は、キャラクタの一部が下部
基本ライン1の下方に突出するもので、下部突出キャ
ラクタと称する。第3図(3)は、キャラクタが下部基
本ライン1および上部基本ラインl2の間に表記される
もので、中間キャラクタと称する。第3図(4)は、キ
ャラクタの一部が下部基本ライン1の下方および上部
基本ラインl2の上方に突出するもので、その他のキャラ
クタと称する。第3図(5)は記号である。
第1図は、本発明に従う光学的読取り装置1の基本的
構成を示すブロック図である。
光学的読取り装置1は、固体撮像素子などを用いた画
像入力装置2と、画像入力装置2で読取った画像が記憶
される画像メモリ3と、抽出されたキャラクタ列画像が
記憶されるキャラクタ列画像メモリ4と、各キャラクタ
列毎に抽出された上部基本ラインl2および下部基本ライ
ン1の座標が記憶される上部基本ライン座標メモリ5
および下部基本ライン座標メモリ6と、抽出されたキャ
ラクタの抽出座標が記憶されるキャラクタ抽出座標メモ
リ7と、キャラクタ抽出座標と上部基本ライン座標また
は下部基本ライン座標との絶対差距離から求められたヒ
ストグラムが記憶されるヒストグラムメモリ8と、ヒス
トグラムから検出された上部閾値座標および下部閾値座
標が記憶される上部閾値座標メモリ9および下部閾値座
標メモリ10と、上部基本ラインl2および下部基本ライン
1から求められた中心ラインの座標が記憶される中心
ライン座標メモリ11と、判別されたキャラクタのキャラ
クタ群フラグが記憶されるキャラクタ群フラグメモリ12
と、上記各構成要素の動作を統一的に制御する制御部13
とを含んで構成される。前述の座標というのは、第2
図、第3図および第7図の上下方向の位置を表す座標で
あり、第2図、第3図および第7図の左右の水平方向に
延びるライン1〜l9は、相互に平行であり、したがっ
て各ライン1〜l9を座標によって特定することができ
る。第2図、第3図および第7図の上下方向は、後述の
第6図では左右の水平方向に対応する。
第4図は、光学的読取り装置1の基本的動作を説明す
るフローチャートである。
ステップa1では、画像入力装置2によって読取られた
画像が、画像メモリ3に記憶される。ステップa2では、
画像メモリ3に記憶された画像からキャラクタ列画像が
抽出され、キャラクタ列画像メモリ4に記憶される。ス
テップa3では、キャラクタ列画像から上部基本ラインl2
および下部基本ライン1が抽出され、キャラクタ列画
像メモリ4内に第2図、第3図および第7図の上部およ
び下部の基本ラインl2,1に垂直な上下方向の仮想的
な座標軸を設定し、上部基本ライン座標および下部基本
ライン座標が求められ、上部基本ライン座標メモリ5お
よび下部基本ライン座標メモリ6に記憶される。ステッ
プa4では、キャラクタ列画像からキャラクタが抽出さ
れ、前記仮想座標軸上での抽出座標がキャラクタ抽出座
標メモリ7に記憶される。
ステップa5では、上部閾値座標が検出される。第5図
は、上部閾値座標検出時のフローチャート、第6図は、
上部閾値座標検出時に作成されるヒストグラムの一例が
示されている。第5図および第6図を参照して、上部閾
値座標検出の方法を説明する。
ステップb1では、絶対差距離(上部基本ライン座標と
各キャラクタの上部抽出座標との距離)が計算される。
ステップb2では、絶対差距離をもとに、第6図のような
ヒストグラムが作成され、ヒストグラムメモリ8に記憶
される。ステップb3では、ヒストグラムにできた2つの
山部(上部基本ラインl2の近い所に存在するキャラクタ
上部抽出座標によってできた山部22および上部基本ライ
ンl2から遠い所に存在するキャラクタ上部抽出座標によ
ってできた山部23)の間にある谷部21が検出される。ス
テップb4では、ヒストグラム上の谷部座標と上部基本ラ
インl2の座標とから、上部閾値座標が求められ、上部閾
値座標メモリ9に記憶される。上部閾値座標を求める手
法としては、たとえばその一例を述べると、谷部座標と
上部基本ラインl2の座標とを減算し、その差であるオフ
セット画素数ΔA(第6図参照)を求め、このオフセッ
ト画素数ΔAを、上部基本ラインl2の座標に加算し、こ
れによって上部閾値座標を求めることができる。この上
部閾値座標は、後述の上部閾値ラインl8の座標である。
このことは、次に述べる下部閾値座標に関しても同様で
ある。
こうして、上部閾値座標は、ラインl8で示される値に
定められ、このラインl8は上部および下部の基本ライン
l2,1に平行な後述の上部閾値ラインとして定められ
る。
続いて第4図ステップa6では、下部閾値座標がステッ
プa5と同様な方法で検出され、下部閾値座標メモリ10に
記憶される。
ステップa7からステップa11では、キャラクタ群の判
定が行なわれる。第7図は、仮想x−y座標軸とキャラ
クタとキャラクタ判別時に使用する基準ラインとキャラ
クタ抽出ラインとの相対的位置関係を示す図である。第
7図を参照して、ステップa7からステップa11の動作を
説明する。
ステップa7では、記号群の判定が行なわれる。まず、
上部基本ラインl2および下部基本ライン1から中心ラ
インl3が求められ、中心ライン座標が中心ライン座標メ
モリ11に記憶される。第7図(1)のように、中心ライ
ンl3のy座標の値より上部抽出ラインl4のy座標の値が
小さい場合、すなわち中心ラインl3より上部抽出ライン
l4が下に存在する場合は、「.」あるいは「,」と判定
される。(以下同様に、ラインの上下判定には、仮想座
標軸のy座標を用いる。)中心ラインl3より下部抽出ラ
インl5が上に存在する場合は、「’」あるいは「”」と
判定される。
記号「・」あるいは「−」の判定には、上部基本ライ
ンl2と下部基本ライン1の幅の1/4を閾値として記号
用上部閾値ラインl6および記号用下部閾値ラインl7を検
出する。上部抽出ラインl4が記号用上部閾値ラインl6よ
り下、および下部抽出ラインl5が記号用下部閾値ライン
l7より上に存在する場合、記号「・」あるいは記号
「−」と判定される。以上のように記号であると判定さ
れると、キャラクタ群フラグメモリ12の対応する部分に
記号群フラグがたてられる。
ステップa8では、上部突出キャラクタ群の判定が行な
われる。ステップa7で、記号群と判定されなかったキャ
ラクタについて、第7図(2)に示すように、上部抽出
ラインl4が上部閾値ラインl8より上および下部抽出ライ
ンl5が下部閾値ラインl9より上に存在する場合、上部突
出キャラクタであると判定され、キャラクタ群フラグメ
モリ12の対応する部分に、上部突出キャラクタ群フラグ
がたてられる。
ステップa9では、下部突出キャラクタ群の判定が行な
われる。ステップa7およびステップa8で、記号群または
上部突出キャラクタ群のどちらにも判定されなかったキ
ャラクタについて、第7図(3)に示すように、上部抽
出ラインl4が上部閾値ラインl8より下、および下部抽出
ラインl5が下部閾値ラインl9より下に存在する場合、下
部突出キャラクタであると判定され、キャラクタ群フラ
グメモリ12の対応する部分に、下部突出キャラクタ群フ
ラグがたてられる。ステップa10では、中間キャラクタ
群の判定が行なわれる。ステップa7、ステップa8および
ステップa9で、記号群、上部突出キャラクタ群または下
部突出キャラクタのいずれにも判定されなかったキャラ
クタについて、第7図(4)に示すように上部抽出ライ
ンl4が上部閾値ラインl8より下および下部抽出ラインl5
が下部閾値ラインl9より上に存在する場合、中間キャラ
クタ群であると判定され、キャラクタ群フラグメモリ12
の対応する部分に中間キャラクタ群フラグがたてられ
る。
ステップa11では、その他のキャラクタ群の判定が行
なわれる。ステップa7、ステップa8、ステップa9および
ステップa10において、どのキャラクタ群にも判定され
なかったキャラクタ(第7図(5)に示されるようなキ
ャラクタ)がその他のキャラクタと判定され、キャラク
タ群フラグメモリ12の対応する部分にその他のキャラク
タ群フラグがたてられる。
このように、ステップa7からステップa11によって、
読取られた画像から抽出されたキャラクタを、記号群、
上部突出キャラクタ群、下部突出キャラクタ群、中間キ
ャラクタ群およびその他のキャラクタ群の5群中1群に
限定することができる。また、記号の場合は、単に記号
群と判定するだけでなく、ある程度まで種類を判定する
ことも可能である。
効果 以上のように本発明によれば、読取られて画像メモリ
3に記憶されたキャラクタ列を構成する複数の各キャラ
クタの主要部分の上下方向の各占有範囲を示す上下の基
本ラインl2,1をそれぞれ定めるとともに、さらに各
キャラクタの上下の部分の抽出座標と上下の基本ライン
l2,1との絶対差距離に基づいて頻度を求めて、頻度
の大きい2つのグループ22,23間にある上下の閾値ライ
ンl8,l9を定め、このようにして上下の基本ラインl2,
1と上下の閾値ラインl8,l9とによって複数のキャラク
タ群に各キャラクタを分類するようにしたので、一般原
稿の文字フォントの変化にも動的に対応し、安定したキ
ャラクタ群の分類を正確に行うことができるようにな
る。
【図面の簡単な説明】
第1図は光学的読取り装置1の基本的構成を示すブロッ
ク図、第2図は基本ラインを説明する図、第3図は基本
ラインを用いて分類したキャラクタの具体例を示す図、
第4図は光学的読取り装置1の基本的動作を示すフロー
チャート、第5図は閾値座標検出時の動作を示すフロー
チャート、第6図は閾値座標検出時に作成するヒストグ
ラム、第7図は仮想座標軸とキャラクタとキャラクタ判
別時に使用する基準ラインとキャラクタ抽出ラインとの
相対的位置関係を示す図である。 1…光学的読取り装置、2…画像入力装置、3…画像メ
モリ、4…キャラクタ列画像メモリ、5…上部基本ライ
ン座標メモリ、6…下部基本ライン座標メモリ、7…キ
ャラクタ抽出座標メモリ、8…ヒストグラムメモリ、9
…上部閾値座標メモリ、10…下部閾値座標メモリ、11…
中心ライン座標メモリ、12…キャラクタ群フラグメモ
リ、13…制御部、1…下部基本ライン、l2…上部基本
ライン、l3…中心ライン、l4…上部抽出ライン、l5…下
部抽出ライン、l6…記号用上部閾値ライン、l7…記号用
下部閾値ライン、l8…上部閾値ライン、l9…下部閾値ラ
イン

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】一配列方向に沿って配列された複数のキャ
    ラクタから成るキャラクタ列を読取って画像メモリ3に
    記憶し、 画像メモリ3の記憶内容を読出して、そのキャラクタ列
    に含まれるキャラクタの主要部分の上下方向の各占有範
    囲を示す相互に平行な上部基本ラインl2と下部基本ライ
    ン1とをそれぞれ定め、 上部基本ラインl2と複数の各キャラクタの上部抽出座標
    との絶対差距離を求め、その各絶対差距離の頻度を求
    め、頻度の大きい2つのグループ22,23が存在すると
    き、上部および下部の基本ラインl2,1に垂直方向に
    沿うそれらのグループ22,23間の座標と上部基本ラインl
    2の座標とから、それらのグループ22,23間に上部基本ラ
    インl2に平行な上部閾値ラインl8を定め、 下部基本ライン1と複数の各キャラクタの下部抽出座
    標との絶対差距離を求め、その各絶対差距離の頻度を求
    め、頻度の大きい2つのグループが存在するとき、上部
    および下部の基本ライン1,l2に垂直方向に沿うそれら
    のグループ間の座標と下部基本ライン1の座標とか
    ら、それらのグループ間に下部基本ライン1に平行な
    下部閾値ラインl9を定め、 各キャラクタを、上部基本ラインl2と下部基本ライン
    1と上部閾値ラインl8と下部閾値ラインl9との各位置関
    係によって、複数のキャラクタ群に分類することを特徴
    とするキャラクタ画像処理方法。
JP62267227A 1987-10-21 1987-10-21 キャラクタ画像処理方法 Expired - Lifetime JPH083827B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP62267227A JPH083827B2 (ja) 1987-10-21 1987-10-21 キャラクタ画像処理方法
US07/785,249 US5272765A (en) 1987-10-21 1991-11-04 System for processing character images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62267227A JPH083827B2 (ja) 1987-10-21 1987-10-21 キャラクタ画像処理方法

Publications (2)

Publication Number Publication Date
JPH01108691A JPH01108691A (ja) 1989-04-25
JPH083827B2 true JPH083827B2 (ja) 1996-01-17

Family

ID=17441905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62267227A Expired - Lifetime JPH083827B2 (ja) 1987-10-21 1987-10-21 キャラクタ画像処理方法

Country Status (1)

Country Link
JP (1) JPH083827B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2788506B2 (ja) * 1989-10-11 1998-08-20 沖電気工業株式会社 文字認識装置
JP2918363B2 (ja) * 1991-09-17 1999-07-12 沖電気工業株式会社 文字分類方法及び文字認識装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55112687A (en) * 1979-02-22 1980-08-30 Nec Corp Character recognition system

Also Published As

Publication number Publication date
JPH01108691A (ja) 1989-04-25

Similar Documents

Publication Publication Date Title
JP3302147B2 (ja) 文書画像処理方法
JP3253356B2 (ja) 文書画像の領域識別方法
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
JPH083827B2 (ja) キャラクタ画像処理方法
JP7458600B2 (ja) 情報処理装置、及びプログラム
JP3607753B2 (ja) 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置
JPH011087A (ja) 行及び文字分離装置
JP3187895B2 (ja) 文字領域抽出方法
JP2786355B2 (ja) 文章画像の属性判別方法
JPS63304387A (ja) 文書読取装置
JP3019897B2 (ja) 行切出し方法
JP2003317107A (ja) 罫線抽出方法及び装置
US5272765A (en) System for processing character images
JP2581809B2 (ja) 文字切出し装置
JPH0916713A (ja) 画像領域分割方法
JPH0373916B2 (ja)
JP3275475B2 (ja) 文字配列が既知の対象文字列の認識装置
JP3100825B2 (ja) 線認識方法
JPS63200286A (ja) 行切出し方法
JPH04311283A (ja) 行方向判定装置
JPH10507014A (ja) 2進イメージにおけるランドスケープ・スキャンの自動決定
JPS61150086A (ja) 文字認識方法
JP2929710B2 (ja) 文字読み取り方法
JP2611660B2 (ja) 原稿の上下方向判別方法および装置
JPH01145787A (ja) 文字切り出し方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080117

Year of fee payment: 12