JPH028352B2 - - Google Patents

Info

Publication number
JPH028352B2
JPH028352B2 JP57216220A JP21622082A JPH028352B2 JP H028352 B2 JPH028352 B2 JP H028352B2 JP 57216220 A JP57216220 A JP 57216220A JP 21622082 A JP21622082 A JP 21622082A JP H028352 B2 JPH028352 B2 JP H028352B2
Authority
JP
Japan
Prior art keywords
pattern
midpoint
character
stroke
midpoint pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57216220A
Other languages
English (en)
Other versions
JPS59106078A (ja
Inventor
Masataka Yamamoto
Keiji Kobayashi
Fumio Yoda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP57216220A priority Critical patent/JPS59106078A/ja
Publication of JPS59106078A publication Critical patent/JPS59106078A/ja
Publication of JPH028352B2 publication Critical patent/JPH028352B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の属する分野〕 本発明は、漢字のように多くの直線線分(以
後、ストロークという)で構成される文字を認識
する文字認識装置に関するものである。
〔従来技術の構成及び動作〕
従来この種の文字認識装置として知られている
ものは、認識辞書を備え、この認識辞書に基準文
字のストロークの中点パターンである基準中点パ
ターンをそのままの形式をもつて格納するように
した構成とされていた。このため、上記認識辞書
のメモリ容量を非常に大きくする必要があつた。
第1図は、例えば文字「金」から抽出したストロ
ークの方向別のストロークの中点パターン1と、
これに対応する基準中点パターン2を示す図であ
る。第1図に示される基準中点パターン2は、基
準文字のストロークの中点の発生度数を正規化す
ることによつて作成され、また基準中点パターン
2の大きさは16×16であり、1点当りに0〜3の
4値を取り得るようにされている。そのため、1
文字の基準中点パターン2を記憶するのに必要な
認識辞書のメモリ容量は16×16×2ビツト×4種
=2048ビツト=256バイトとなり、例えば1000字
種では256キロバイトにも達することになる。こ
のように、上記従来の認識装置のメモリ容量が大
変に大きくなるために、周知の技術であるランレ
ングス法などを用いて上記基準中点パターン2を
圧縮して認識辞書に格納し、認識時にこれを復元
して用いる方式が知られている。
〔従来技術の欠点〕
従来の上記文字認識装置は以上のように構成さ
れているので、上述したように、認識辞書を備え
る文字認識装置では、認識辞書に基準文字のスト
ロークの中点パターンである基準中点パターン2
をそのままの形式をもつて格納するものであるか
ら、一般的に認識辞書のメモリ容量を非常に大き
くする必要があり、このため装置が大型化し、か
つ高価格となる欠点があつた。一方で、このよう
な欠点を解決するための一方式として、周知の技
術のランレングス法などを用いて基準中点パター
ン2を圧縮して認識辞書に格納し、認識時にこれ
を復元して用いる方式が知られているが、この種
の方式で基準中点パターン2を圧縮する方法を使
用する場合には、認識時における復元に多大の処
理時間を要することになるなどの新たな欠点が発
生し、この方式によるも、上記欠点の根本的な解
決にはなり得ないという問題点があつた。
〔本発明の目的〕
本発明は上記のような従来のものの欠点を除去
するためになされたもので、入力文字パターンか
ら細線化パターンを求める細線化手段と、前記細
線化パターンからストロークとその中点を抽出し
て入力文字のストロークの中点パターンを求める
ストローク中点パターン抽出手段と、複数の基準
文字のストロークの中点分布である基準中点パタ
ーンで構成した認識辞書と、前記入力文字のスト
ロークの中点パターンと前記基準中点パターンと
の類似度から入力文字を決定する決定手段とを具
備し、前記基準中点パターン内の値が零になる行
あるいは列情報を除去すべく、基準中点パターン
上の値が零でない行あるいは列情報のみを前記認
識辞書に格納するようにし、これにより認識辞書
のメモリ容量を大幅に減少させるとともに、認識
時の復元時間の増加を抑制するようにした文字認
識装置を提供することを目的としている。
〔本発明の実施例の構成〕
以下、本発明の一実施例を図について説明す
る。第2図は本発明の一実施例である文字認識装
置を示す構成図である。第1図において、3は帳
票、4は帳票3上に記録された文字を走査する走
査手段、5は入力文字パターンから細線化パター
ンを求める細線化手段、6は細線化パターンから
ストロークとその中点を抽出して入力文字のスト
ロークの中点パターンを求めるストローク中点パ
ターン抽出手段、7は複数の基準文字のストロー
クの中点分布である基準中点パターンで構成した
認識辞書、8は入力文字のストロークの中点パタ
ーンと上記基準中点パターンとの類似度から入力
文字を決定する決定手段である。
第3図は第2図の文字認識装置に用いられる基
準中点パターンの圧縮方法を示す説明図である。
第3図において、2aは第1図に示す基準中点パ
ターン2の一部(水平ストローク)、9は水平投
影情報、10は垂直投影情報である。ここでは、
説明を簡単にするために、第3図における左上部
を原点としたX軸とY軸を導入して表示してあ
る。
第4図は第2図の文字認識装置における認識辞
書に格納された基準中点パターンの形式を示す図
である。第4図において、上から順番に行情報か
列情報かを示す行列識別子11、水平投影情報9
及び基準中点パターン2の第6列から第10列まで
の情報がそれぞれ示されている。
〔本発明の実施例の動作〕
次に、本発明の一実施例である文字認識装置の
動作を、上記第1図ないし第4図を用いて説明す
る。まず、第2図に示す帳票3上に記録された文
字は、走査手段4により走査されて1文字ごとの
文字パターンに変換され、細線化手段5で細線化
パターンに変換される。次いで、この細線化パタ
ーンからストローク中点パターン抽出手段6にお
いて、例えば第1図に示すストロークの方向別の
ストロークの中点パターン1を抽出する。このス
トロークの中点パターン1は細線化パターンか
ら、その端点、分岐点及び屈折点などの特徴点を
抽出してこれらを結んでいる基本線分を求め、こ
の基本線分から端点以外の特徴点に連結している
方向がほぼ等しい基本線分を結合することによつ
てストロークを抽出した後、これらのストローク
の中点を求めることにより得られる。このような
抽出方法の詳細については、本出願人が先に出願
した特願昭56−89203号に開示されている。認識
辞書7には、第3図に示す基準中点パターン2の
水平投影情報9あるいは垂直投影情報10と、こ
れら各投影情報9,10の値が有意(値1)であ
る基準中点パターン2の行あるいは列情報が格納
されている。また、決定手段8では、ストローク
中点パターン抽出手段6で得られた入力文字のス
トロークの中点パターン1と、認識辞書7に圧縮
されて格納されている基準中点パターン2とから
類似度を求め、この類似度が最大となる文字を認
識結果として入力文字を決定する。ここで、類似
度は、入力文字のストロークの中点の位置におけ
る基準中点パターン2上の値を加算することによ
つて周知の技術から求められ得る。
さて、第3図に示す基準中点パターン2の一部
2aは、同図面の開示により容易に理解できるよ
うに、基準中点パターン2の値が零となる領域が
大半を占めているので、これらの領域を除けば認
識辞書7のメモリ容量が低減するであろうことは
容易に想像され得る。しかるに、上記した従来技
術で説明したように、ランレングス法などを用い
て基準中点パターン2を圧縮して認識辞書7に格
納すると、認識時にこれを復元するのに多大の処
理時間を必要とすることになる。実際に、本発明
に適用される類似度計算方法では、入力文字のス
トロークの中点位置の基準中点パターン2の値が
分かれば充分であり、基準中点パターン2全体は
必要としないため、従来技術での基準中点パター
ン2の圧縮、復元技術は特に不利となる。そこ
で、本発明では圧縮率はそれ程高くないが、復元
処理を簡単にするために、基準中点パターン2内
の値が零以外となる行あるいは列情報のみを認識
辞書7に格納する方式を用いている。ここで、行
あるいは列情報かは基準中点パターン2の内容に
依存する。例えば、第3図に示される基準中点パ
ターン2では、行情報とすれば10行となり、列情
報とすれば5列となるので列情報を認識辞書7に
格納する。同時に、格納した列番号を示す水平投
影情報9と、行情報か列情報かを示す情報も必要
となる。この場合における認識辞書7のメモリ容
量は、第4図に示すように(5列×16×2ビツト
+16+1)=177ビツトとなり、上記した従来の文
字認識装置で、基準中点パターン2をそのままの
形式をもつて格納した場合のメモリ容量である16
×16×2ビツト=512ビツトと比較して約1/3に減
少している。基準中点パターン2は文字によつて
その内容が異なり、相当に複雑な形のものも存在
するが、教育漢字の範囲内では平均して約1/2程
度になることが計算機シミユレーシヨンによつて
確認されており、これにより達成される効果は著
しく大である。また、第3図及び第4図に示され
ように、例えば第6列の〇印で囲んだ位置P(X
=7、Y=6)における基準中点パターン2上の
値も、以下に述べるように簡単なアルゴリズムに
より求め得る。
(1) 行列識別子11を調べ、列情報が格納されて
いる場合には、XとYの値を交換する。この結
果、P(X=7、Y=6)はP(X=6、Y=
7)となる。
(2) 水平(垂直)投影情報9(10)内のY=7
の位置の値が有意(値1)か否かを調べ、有意
でなければ基準中点パターン2上の値が零と判
断する。上記したように大半の位置では基準中
点パターン2上の値が零であるから、この段階
で処理は終了となり、復元に要する平均処理時
間は満足し得る程短かいものとなる。この例で
は、第4図に△印で示すように有意となり、下
記の処理を実行する。
(3) 水平(垂直)投影情報9(10)を左側から
調べて、Y=7の位置の有意なる値(値1)が
何番目の有意な値かを求める。この例では、第
3図及び第4図に示すように2番目となり、こ
の2番目の列(行)情報に位置Pの値が格納さ
れていることが判明する。
(4) 最後に、この列(行)情報内のX=6番目の
値を求めれば、これが元の位置P(X=7、Y
=6)の基準中点パターン2の値となる。
上述したように、本発明では上記した行列識別
子11を用いることにより統一したアルゴリズム
で、かつ短時間に簡単に任意の位置における基準
中点パターン2上の対応した位置の値を求めるこ
とができる。
〔本発明の他の実施例〕
なお、上記実施例ではストロークを方向別に分
けたストロークの中点パターンの場合について説
明したが、本発明はこれに限定されることなく、
ストロークを長さ別に分けたストロークの中点パ
ターンの場合にも充分に適用が可能であり、上記
実施例と同様の効果を奏する。
〔本発明の効果〕
以上のように、本発明に係る文字認識装置によ
れば、複数の基準文字のストロークの中点分布で
ある基準中点パターンの水平あるいは垂直投影情
報と、これに対応した基準中点パターンの行ある
いは列情報のうち、前記投影情報が有意となる行
あるいは列情報のみを認識辞書に格納し、決定手
段では前記認識辞書から前記基準中点パターンを
復元し、入力文字のストロークの中点パターンと
基準中点パターンとから類似度を算出するように
構成したので、認識辞書のメモリ容量を大幅に削
減することができる上に、類似度の算出時間もわ
ずかの増加に抑制し得ることが可能となり、この
結果、極めて小型で低価格の文字認識装置を構成
することができるという優れた効果を奏するもの
である。
【図面の簡単な説明】
第1図は、例えば文字「金」から抽出したスト
ロークの方向別のストロークの中点パターンと、
これに対応する基準中点パターンを示す図、第2
図は本発明の一実施例である文字認識装置を示す
構成図、第3図は第2図の文字認識装置に用いら
れる基準中点パターンの圧縮方法を示す説明図、
第4図は第2図の文字認識装置に格納された基準
中点パターンの形式を示す図である。 1……ストロークの中点パターン、2……基準
中点パターン、3……帳票、4……走査手段、5
……細線化手段、6……ストローク中点パターン
抽出手段、7……認識辞書、8……決定手段、9
……水平投影情報、10……垂直投影情報、11
……行列識別子。なお、図中、同一符号は同一、
又は相当部分を示す。

Claims (1)

    【特許請求の範囲】
  1. 1 帳票などに記録された文字を認識する文字認
    識装置において、入力文字パターンから細線化パ
    ターンを求める細線化手段と、前記細線化パター
    ンから直線線分(ストローク)とその中点を抽出
    して入力文字のストロークの中点パターンを求め
    るストローク中点パターン抽出手段と、複数の基
    準文字のストロークの中点分布である基準中点パ
    ターンで構成した認識辞書と、前記入力文字のス
    トロークの中点パターンと前記基準中点パターン
    との類似度から入力文字を決定する決定手段とを
    具備し、前記認識辞書には前記基準中点パターン
    の水平あるいは垂直投影情報と、これに対応した
    基準中点パターンの行あるいは列情報のうち、前
    記投影情報が有意となる行あるいは列情報のみを
    格納し、前記決定手段では前記認識辞書から前記
    基準中点パターンを復元し、前記入力文字のスト
    ロークの中点パターンと基準中点パターンとから
    類似度を算出することを特徴とする文字認識装
    置。
JP57216220A 1982-12-09 1982-12-09 文字認識装置 Granted JPS59106078A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57216220A JPS59106078A (ja) 1982-12-09 1982-12-09 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57216220A JPS59106078A (ja) 1982-12-09 1982-12-09 文字認識装置

Publications (2)

Publication Number Publication Date
JPS59106078A JPS59106078A (ja) 1984-06-19
JPH028352B2 true JPH028352B2 (ja) 1990-02-23

Family

ID=16685154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57216220A Granted JPS59106078A (ja) 1982-12-09 1982-12-09 文字認識装置

Country Status (1)

Country Link
JP (1) JPS59106078A (ja)

Also Published As

Publication number Publication date
JPS59106078A (ja) 1984-06-19

Similar Documents

Publication Publication Date Title
US6016361A (en) Method and apparatus for compressing binary data using pattern matching encoding
JPH10143604A (ja) パタン抽出装置
JPH028352B2 (ja)
JPH0351894A (ja) ベクトルフオントによる文字パターン発生機能を備えた情報処理装置
JP2788506B2 (ja) 文字認識装置
JPH04255080A (ja) 画像入力装置
KR100259804B1 (ko) 도표형태의문서인식방법
JPS62221788A (ja) 光学文字読取装置
JP2650903B2 (ja) 文字認識装置における標準パターン記憶方法及び装置
JP3104355B2 (ja) 特徴抽出装置
JPH0246988B2 (ja)
JPH0245230B2 (ja)
JPS6334682A (ja) 文字認識装置
JP2917396B2 (ja) 文字認識方式
JPS62125485A (ja) 文字認識方式
JPS61105685A (ja) 文字追跡符号化方法
JP3483416B2 (ja) 文書画像構成要素抽出方法および装置
JPS60120479A (ja) 交差点屈折点抽出装置
JPS60142481A (ja) 文字認識装置
JPS62154079A (ja) 文字認識方式
JPS62114080A (ja) 文字認識方式
JPH0517598B2 (ja)
JPH03145278A (ja) 画像情報の符号化方法
JPS59200382A (ja) 文字認識方式
JPH029390B2 (ja)