JPS59106083A - 単語読取り装置 - Google Patents

単語読取り装置

Info

Publication number
JPS59106083A
JPS59106083A JP57216218A JP21621882A JPS59106083A JP S59106083 A JPS59106083 A JP S59106083A JP 57216218 A JP57216218 A JP 57216218A JP 21621882 A JP21621882 A JP 21621882A JP S59106083 A JPS59106083 A JP S59106083A
Authority
JP
Japan
Prior art keywords
character
characters
word
similarity
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57216218A
Other languages
English (en)
Other versions
JPH031714B2 (ja
Inventor
Masataka Yamamoto
山本 勝敬
Hajime Nanbu
南部 元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP57216218A priority Critical patent/JPS59106083A/ja
Publication of JPS59106083A publication Critical patent/JPS59106083A/ja
Publication of JPH031714B2 publication Critical patent/JPH031714B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の属する分野] 本発明は、単語を構成する文字を1文字ごとに認識し、
その結果から単語を読み取る単語読取り装置に関するも
のである。
〔従来技術の構成及び動作〕
従来この種の単語読取り装置として知られているものは
、認識辞書を用いて単語を構成する文字を1文字ごとに
認識し、その結果から単語を読み取るこきができるよう
に構成されている。そして、上記単語読取り装置では、
文字を認識するための認識辞書に含まれる認識対象文字
(以後、内字という〕のみからなる単語は読み取り可能
であるが、認識辞書に含まれない認識対象文字以外の文
字(以後、外字という〕を含む単語は、特殊の場合を除
いては読み取ることができない構成とされている。
例えば、「消費」と「消滅」の2個の単語を読み取る場
合に、文字「消」が外字のためにgg識することができ
なくとも、各文字「費」と「滅」が内字で認識が可能で
あるならば、上記2個の単語を読み取ることは可能であ
る。しかるに、文字「費」あるいは文字「滅」が外字で
、文字「消」が内字の場合には、上記2個の単語を読み
取ることは不可能となる。これは実際に、各文字「消」
と「費」は教育漢字に含まれるが、文字「滅」は含まれ
ないため、約1000字程度の文字のみを内字として含
む認識辞書を有する単語読取り装置では、上記2個の単
語を読み取ることは不可能となる。もちろん、内字の文
字数を増加さ笹れは読み取りを可能となし得るが、一般
に内字を1文字増加させるためには、認識辞書の記憶容
量を数十バイトから数百バイトに増加させる必要があっ
た。
〔従来技術の欠点〕
従来の上記単語読取り装置は以上のように構成されてい
るので、上述したように、一般に内字で構成される単語
しか認識することができず、ま、たその内字の文字数を
増加させようとすると、必然的に認識辞書の記憶容量を
増加させなければならなくなり、このため、装置が大形
化して高価格になるなどの欠点があった。
【本発明の目的〕
本発明は上記のような従来のものの欠点を除去するため
になされたもので、内字の基準パターンを格納した認識
辞書き、外字を含む単語を格納する単語辞書と、外字に
対して、この外字と字・影の類似した内字を定めた類似
文字テーブルと、入力文字パターンと前記認識辞書内の
基準パターンとから1文字ごとの類似度を算出する類似
度算出手段とを具備し、外字を含む単語に対しては、前
記類似文字テーブル内の内字の類似度を用いて単語単位
の類似度を求めるようにしてなる構成を崩し、外字を含
む単語をも容易に読み取ることができるようにした単語
読取り装置を提供することを目的以下、本発明の一実施
例を図について説明する。
第1図は本発明の一実施例である単語読取り装置を示す
構成図である。第1図において、1は帳票、2は帳票1
上に記録された単語を走査する走査手段、4は内字の基
準パターンを格納した認識辞書、3は入力文字パターン
と上記認識辞書4内の基準パターンLから1文字ごとの
類似度を算出する類似度算出手段、6は外字を含む単語
を格納する単語辞書、7は外字に対して、この外字と字
形の類似した内字を定めた類似文字テーブル、5は上記
単語辞書6を参照し、単語単位の類似度を決める単語決
定手段である。
第2図は第1図の単語読取り装置における単語辞書の一
部内容の一例を示す図である。第2図に示す単語辞書6
は、各文字の文字コード8の組み合わせによって表現さ
れている。この例では、文字コード8にJ I 8  
C6229で定められた区点番号を付けてあり、上記J
 I S  C6229によって、漢字の文字コードと
して1601〜8394 tでの区点帯号が定められて
いる。第2図中の記号nは外字であることを示す外字文
字番号9であり、レリえは8401以上の値としである
。この結果、8401以上ならば外字であり、8394
以下ならは内字であることを判断できる。ここでは、文
字「滅」を外字、その他の文字「消」及び「費」は内字
としである。
第3図は第1図の単語読取り装置における類似文字テー
ブルの一部内容の一例を示す図である。
第3図に示す類似文字テーブル7は、上記の外字文字番
号9.当該外字の文字コードである外字文字コード1o
及び当該外字と字形の類似した内字の文字コードである
類似内字文字コード11から構成されている。単語辞書
6内の文字コードが8401以上の場合には、これを外
字文字番号9と判断し、類似文字テーブル7の対応する
外字文字番号9の位置に定められた類似内字文字コード
11の文字の類似度を使用する。
第4図は第1図の単語読取り装置における類似度算出手
段で、久方文字パターンと、それに対する内字の各文字
との類似度を算出して得た値の順序に並べた候補文字の
一例を示す図である0第4図には、例えば文字「滅」の
文字パターン12と、これに対する内字の各文字との類
似度を算出し、この値が大きいものから順次に並べた候
補文字13として、文字「減」から文字「浅」までの6
文字が示されている。第4図中の候補文字13の下に付
けられた()内の数値は各候補文字13との類低度の値
14を示しており、例えば文字「減」と次に、本発明の
一実施例である単語読取り装置の動作を、上記第1図な
いし第4図を用いて説明する。まず、第1図に示す帳票
1上に記録された単語は、走査手段2により走査されて
1文字ごとの文字パターンに変換され、類似度算出手段
3に送られる。この類似度算出手段3は、第4図に示す
入力文字パターン12と認識辞書4内の基準パターンと
から1文字ごとの類似度を算出し、この類似度の大きい
文字のみを候補文字13として、上記類似度と共に単語
決定手段5に送る。ここで、当然のことながら類似度は
内字に対してしか算出されないので、上記単語決定手段
5に送られる文字は内字のみである。単語決定手段5は
紀2図に示す単語辞書6の内容を参照し、単語単位の類
似度を決める。この類似度は、例えば各文字ごとの類似
度の平均値を取るものとする。もし、単語辞書6内の単
語に外字が含まれている場合には、第3図に示す類似文
字テーブル7の内容を参照し、当該外字に類似した字形
の内字を調べ、この内字の類似度を用いて単語単位の類
似度を求める。そして、その類似度が最大となる単語を
読み取り結果とするものである。
したがって、例えば入力文字として単語「消滅」を読み
取る場合、内字である文字「消」の類似度が0.9であ
ったとすると、単語「消滅」に対する平均類似度は、第
4図に示されるように外字の文字「滅」の代わりに類似
内字の文字「減」の類似度0.8を用いて、(0,9+
 0.8 )/2 = 0.85となる。
また、単語「消費」に対する平均類似度は、外字の文字
「滅」の文字「費」に対する類似度が0.55未満と小
さいことから、(0,9+ 0.55 )/2 # 0
.73未満となる。この結果から、外字を含む単語「消
滅」も、上記したように平均類似度が大きくなるので正
しく読み取ることが可能となる。
ところで、本発明の主要な構成要件をなす上記類似文字
テーブル7は、入力文字の対象となる外字パターンと認
識辞書4に格納されている内字の基準パターン七の類似
度を類似度算出手段3で算出し、その算出された類似度
の値が平均的に最大となる文字を選ぶことによって簡単
に作成することができる。また、類似文字テーブル7は
具体的には記憶装置に格納されるので、第2図及び第3
図に示す外字文字番号9は適当な算術演算を行なうこと
によって記憶装置の番地に変換される。この結果、類似
文字テーブル7の記憶容量は外字の1文字に対して4バ
イトになり、認識辞書4に内字として基準パターンを格
納する場合における8ピ憶容量の数十〜数百バイトに比
較して大幅な記憶容量の削減が可能となるものである。
【本発明の他の実施例〕
なお、上記実施例では単語単位の類似度、を各文字の平
均類似度とする場合について説明したが、本発明はこれ
に限定されることなく、類似度の大小による1−位から
単語単位の類似度を定義しても良い。
また、上記実施例では入力文字を漢字2文字の場合につ
いて説明したが、漢字以外の文字とか、あるいは3文字
以上で構成される単語についても適用可能であり、この
場合にも上記実施例と同様の効果を奏する。
〔本発明の効果〕
以上のように、本発明に係る単語読取り装置によれば、
認識辞書に含まれない外字を含む単語に対して、その外
字と字形の類似した内字を定めた類似文字テーブルを備
え、その内字の類似度を使用して単語単位の類似度を求
めるようにしてなる構成としたので、外字から構成され
る単語をも、上記類似文字テーブルの格納される記憶装
置の記憶容量をわずかに増加させるだけで、極めて容易
に読み取ることが可能となる特長を有する。時に、本発
明の単語読取り装置では、例えば住所2氏名などの発生
頻度に比較して文字の複類が非常に多い文字種類で構成
される単語を読み取る場合に適用して、顕著な高性能を
発揮するという優れた効果を奏するものである。
【図面の簡単な説明】
第1図は本発明の一実施例である単語読取り装置を示す
構成図、第2図は第1図の単語読取り装置における単語
辞書の一部内容の一例を示す図、第3図は第1図の単語
読取り装置における類似文字テーブルの一部内容の一例
を示す図、第4図は第1図の単語読取り装置における類
似度算出手段で、入力文字パターンと、それに対する内
字の各文字との類似度を算出して得た値の順序に並べた
候補文字の一例を示す図である。 1・・・・・・・・・帳票、2・・・・・・・・・走査
手段、3−・・・・類似度算出手段、4・・・・・・・
・・認識辞書、5・・・・・・・−・単語決定手段、6
・・・・・・・・・単語辞書、7・・・・・・・・・類
似文字テーブル、8・・・・・・・・・文字コード、9
・・・・・・・−・外字文字番号、10・・−・・・・
・外字文字コード、11・・−・・・・・類似内字文字
コード、12・・・・・・・・・文字パターン、13−
・・・・・・−・候補文字、14・・・・・・・・・類
似度の値。 なお、図中、同一符号は同一、又は相当部分を示す。 代 理 人   葛  野  信  −第1図  67 第2図

Claims (1)

    【特許請求の範囲】
  1. 用紙などに配録された単語を認識して読み取る単語読取
    り装置において、認識対象文字の基準パターンを格納し
    た認識辞書と、認識対象文字以外の文字を含む単語を格
    納する単語辞書と、前記認識対象文字以外の文字に対し
    て、該文字と字形の類似した認識対象文字を定めた類似
    文字テーブルと、入力文字パターンと前記認識辞書内の
    基準パターンとから1文字ごとの類似度を算出する類似
    度算出手段とを具備し、算出された文字ごとの類似度か
    ら単語ごとの類似度を求めて単語をW talcする際
    に、前記認識対象文字以外の文字を含む単語については
    、前記類似文字テーブル内の認識対象文字の類似度を用
    いて単語の類似度を計算することを特徴とする単語読取
    り装置。
JP57216218A 1982-12-09 1982-12-09 単語読取り装置 Granted JPS59106083A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57216218A JPS59106083A (ja) 1982-12-09 1982-12-09 単語読取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57216218A JPS59106083A (ja) 1982-12-09 1982-12-09 単語読取り装置

Publications (2)

Publication Number Publication Date
JPS59106083A true JPS59106083A (ja) 1984-06-19
JPH031714B2 JPH031714B2 (ja) 1991-01-11

Family

ID=16685122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57216218A Granted JPS59106083A (ja) 1982-12-09 1982-12-09 単語読取り装置

Country Status (1)

Country Link
JP (1) JPS59106083A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6005973A (en) * 1993-12-01 1999-12-21 Motorola, Inc. Combined dictionary based and likely character string method of handwriting recognition

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5953986A (ja) * 1982-09-20 1984-03-28 Toshiba Corp 文字認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5953986A (ja) * 1982-09-20 1984-03-28 Toshiba Corp 文字認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6005973A (en) * 1993-12-01 1999-12-21 Motorola, Inc. Combined dictionary based and likely character string method of handwriting recognition

Also Published As

Publication number Publication date
JPH031714B2 (ja) 1991-01-11

Similar Documents

Publication Publication Date Title
US9047655B2 (en) Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
KR920005022A (ko) 지문대조방법
KR870011552A (ko) 문서 등록 방식
JPS59106083A (ja) 単語読取り装置
Saiga et al. An OCR system for business cards
JPS56149676A (en) Pattern recognizer
JPH0247788B2 (ja)
JP2784004B2 (ja) 文字認識装置
JP2615834B2 (ja) 単語読取装置
JP2829002B2 (ja) 文字認識装置
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JPH01106287A (ja) 単語読取装置
JPS6074094A (ja) 文字認識装置
JPS6111886A (ja) 文字認識方式
JPH0475557B2 (ja)
KR920006874A (ko) 소정의 포맷을 갖는 문서의 인식방법
JP2623292B2 (ja) 辞書データの作成方法
JPH0542529Y2 (ja)
JPS6118080A (ja) 文字認識装置
KR930013958A (ko) 휴대용 컴퓨터의 외부 키보드와 마우스 인식방법
JPH0496882A (ja) 全角/半角判定方法
JPH04218885A (ja) 光学的文字読取装置における文字認識方法
JPH03175592A (ja) オンライン文字認識装置
JPS59157776A (ja) パタ−ン認識方式
JPH0516605B2 (ja)