JPH0340079A - 文字読取装置における文字認識後処理方法 - Google Patents

文字読取装置における文字認識後処理方法

Info

Publication number
JPH0340079A
JPH0340079A JP1173057A JP17305789A JPH0340079A JP H0340079 A JPH0340079 A JP H0340079A JP 1173057 A JP1173057 A JP 1173057A JP 17305789 A JP17305789 A JP 17305789A JP H0340079 A JPH0340079 A JP H0340079A
Authority
JP
Japan
Prior art keywords
word
character
information
words
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1173057A
Other languages
English (en)
Inventor
Akizo Kadota
門田 彰三
Toshihiro Hananoi
花野井 歳弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1173057A priority Critical patent/JPH0340079A/ja
Publication of JPH0340079A publication Critical patent/JPH0340079A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文字読取装置の文字認識後処理方法にかかり、
特に文字読取装置内の文字認識装置により読み取られた
認識結果に対して、単語辞書とのマツチングを行うこと
により、認識精度を向上させる文字認識後処理方法に関
するものである。
〔従来の技術〕
従来から文字読取装置の文字認識精度を向上させる方法
として、単語辞書とのマツチングを行う文字認識後処理
方法が用いられている。例えば、特開昭60−2174
90号公報に開示された発明では、文字認識結果の列中
から複数の仮想単語を選択し、辞書単語との類似度を求
め、最も高い類似度の単語を検出することで認識精度を
向上させている。
〔発明が解決しようとするIK題〕
上記した従来技術においては、単語単体での認識しか期
待できない。文字読取装置のインテリジェント化にとも
ない、住所を仮名で認識して漢字に変換したり、逆に漢
字で認識して仮名で出力したり、あるいは住所を認識し
て郵便番号を付加したくなるかもしれない。又、一般に
帳票上に書かれた情報には、互いに関連のあるものが多
い。たとえば、住所欄の他に、郵便番号や電話番号が記
入されたり、振り仮名がふられたりする。これらの情報
を利用すれば、さらに認識精度を向上させることができ
るはずである。ちなみに、特開昭63−138478号
公報には、郵便番号を使い、住所のチエツクを行なう発
明が開示されている。
従来の単語照合技術は、最も良く合った単語を一つ又は
複数候補出力するのみで、上記した様な高度な情報処理
に使用することはできない。しいてやろうと思えば、第
9図(a)、 (b)に示すように、文字読取装置を構
成する文字認識装置22と単語照合装置23と単語辞書
24の他に、コード変換用辞書26やコード変換装置2
7又はチエツク用辞書29や郵便番号チエツク装置z8
をあらかじめ作っておかなければならない。これらの辞
書26.29には、第9図(a)、 (b)から明らか
なように、単語辞書中の単語と同一の単語を入れておか
なければならず、メモリの無駄である。又、コード変換
するには、変換用辞書26において単語照合結果と一致
する単語− をサーチする必要がある。尚、第9図(a)、 (b)
において、21は帳票を示している。
本発明は、上記した従来技術の問題点に鑑みなされたも
ので、メモリの無駄をなくし、かつ高精度の認識を行な
うことが可能な文字読取装置における文字認識処理方法
を提供することにある。
〔課題を解決するための手段〕
本発明の文字読取装置における文字認識後処理方法は、
帳票上に記入された文字列を読み取り候補文字を出力す
る文字認識手段と、複数の単語を格納している単語辞書
と、上記認識手段から出力された候補文字の組合せと単
語辞書に格納されている単語とを照合して、類似度の高
い単語を求める単語照合手段とを含んでいる文字読取装
置に適用されるものであり、特しこ上記単語辞書に格納
されている単語毎に、該単語に固有なコード情報を付加
し、単語照合手段によって候補文字の組合せから類似度
の高い単語が求められた場合、上記コード情報を併せて
出力し、上記コード情報に基づいて必要な情報を取り出
すことを特徴としている。
 − コード情報としては、(1)上記単語に関連する単語、
あるいは単語群。
(2)上記単語に関連する単語あるいは単語群の格納さ
れているアドレス又はポインタ。
(3)上記単語に関連する単語あるいは単語群がデータ
ベース中に格納されている場合は、それらにアクセス可
能なキーワード又はレコード番号等が考えられる。
〔作 用〕
本発明によれば、単に単Hn照合により最も一致する単
語を出力するのみでなく、その単語に固有な情報が得ら
れるため、文字読取装置のインテリジェント化に対応で
き、かつ精度のよい認識結果を得ることができる。また
、単語とともに、あるいは単語のかわりに、得られた固
有な情報を出力することも可能であり、認識結果から他
の情報に変換する手間を最小限にすることが可能である
〔実施例〕
以下添付の図面に示す実施例により、更に詳細に本発明
について説明する。
第1図は本発明の文字読取装置の一実施例を示すブロッ
ク図である。第1図において、1は帳票、2は文字認識
装置、3は後処理装置、4は単語辞書である。文字認識
装置2は、帳票1上に記入された文字を読み取り、文字
毎に複数の候補文字を後処理装置3へ出力する。帳票1
には、第1図に示すように、郵便番号(256)と住所
(小田原布)が記入されているものと仮定して以下話を
進める。
文字認識装置2において、郵便番号は、数字であるため
、認識精度が高く、はぼまちがいなく認識され、候補文
字は1文字ずつ出力される。住所は、漢字で記入されて
いるため一般に、認識精度が良くなく、多くの候補文字
が出力される。第2図に示すように、「小」に対してr
大」、「小」、r山」の3候補が出力され、「田」に対
して「田」、1日」の2候補が出力され、「原」に対し
ては「原」の1候補が、「市」に対して「布」、「市」
の2候補が出力されたと仮定する。
後処理装置3は、これらの候補文字を文字認識装置2か
ら入力して、一番類似度の大きい単語を候補単語として
出力する。即ち、後処理装置3は、小田原布に対応して
得られた複数の候補文字を組み合わせて得られる単語と
単語辞書4中の単語とを照合して一致するものを求める
第1候補として「大田原布」が得られ、第2候補として
「小田原布」が得られたと仮定する。
単語辞@4は、第3図に示す様な構成を有している。第
3図において、6はアドレス表であり、候補にあがった
単語の先頭文字(例えば、「小」)で始まる複数の単語
の単語表7における先頭アドレスを求めることができる
。アドレス表6において、Nは「小」で始まる単語数を
示し、Plは「小」で始まる単語の単語表7における先
頭アドレスを示している。また、第3図において、8は
コード情報であり、単語表7中の単語とコード情報8は
それぞれ1対1に対応づけられている。即ち、単語表7
は、先頭文字でソートされており、同一先頭文字で始ま
る単語はグループ化されている。各グループの先頭は、
アドレス表6で求めることができる。また、第2図の場
合コード情報87 には郵便番号が格納されている。
帳票1の第2フイールドが読み取られ、単語照合され、
前記した様に候補単語として「大田原布」と「小田原布
」が得られたとすると、コード情報8に基づいてそれぞ
れの付随情報として郵便番号r324Jとr256Jも
出力される。第1フイールドでr256Jと読まれてい
れば、郵便番号でチエツクして「大田原布」を排除して
「小田原布」を選択することができる。
第4図は単語辞書4の他の例を示す図である。
第4図においては、コード情報8としてポインタPIが
格納され、ポインタP、が郵便番号辞書9に格納されて
いる郵便番号を指示する。
第5図は単語辞書4の他の例を示す図である。
第5図においては、単語表7に単語対応にポインタPが
設けられ、ポインタPは他のデータベース10に格納さ
れている郵便番号、県名、その読み方のデータ格納先を
指示する。尚、この場合、第3図に示すアドレス表6は
付加しなくても良い。
上記実施例では、文字読取装置内で郵便番号の8− チエツクを行なったが、チエツクを上位装置にまかせる
ことも可能である。その場合には、候補単語とコード情
報がペアで出力される。上位装置では、コード情報をチ
エツクに使用したり、そのままデータとして出力するこ
とが可能である。
第6図は、郵便番号のかわりに読みをコードデータにし
た場合を示す。この場合もふりがなチエツクなどのチエ
ツクに利用することが可能であるが、漢字から仮名への
変換あるいは、仮名から漢字への変換に利用することも
可能である。
第7図は、コード情報8として文字読取装置外部のデー
タベース11のレコード番号riを出力する場合を示す
。データベース11は郵便番号、読み、県名など多数の
情報から構成されているものとする。単語と付随してデ
ータベース11のレコード番号rJが出力されると、デ
ータベース11をアクセスして必要な情報を得ることが
できる。第7図の例では、郵便番号とふりがなでチエツ
クして県名を出力したり、郵便番号でチエツクして読み
を出力する等の複雑な処理をすることも可能である。
なお、コード情報8として、レコード番J4r r +
 +7)外にデータベースをアクセスできるキーワード
を用いても良い。
第8図は単語辞書4の他の例を示す図である。
第8図に示すように、コード情報8は、辞書12のポイ
ンタP2の他にポインタP2の示す関連単語群の単語数
Mを格納している。したがって、単語照合により最も類
似度の高い単語が得られるとその単語に関連する複数の
単語群を出方することが可能になる。複数の単語群の出
現頻度がわかっている場合には、出現頻度順に並べるか
、あるいは第8図に示すように出現頻度情報13を格納
してあれば、出現頻度順に並べかえて出力することが可
能である。また、帳票1上の他のフィールドに読みが記
入されていれば、その読みと一致する単語が上記単語群
の中に含まれているか否かにより、チエツクに利用する
ことも可能である。
〔発明の効果〕
以上の説明から明らかな様に、本発明によれば、単に単
語照合により最も一致する単語を出方する0 のみでなく、その単語に固有な情報、あるいは固有な情
報の格納されている辞書のポインタを出力することによ
り、他のフィールドに書かれた情報と比較してより精度
のよい認識結果を得ることができる。また単語とともに
、あるいは単語のかわりに、得られた固有な情報を出力
することも可能であり、文字読取装置のインテリジェン
ト化に対応可能になるとともに、認識結果から他の情報
に変換する手間を最小限にすることが可能である。
【図面の簡単な説明】
第1図は本発明の文字読取装置の一実施例を示すブロッ
ク図、第2図は帳票への記入文字とその候補文字を示す
図、第3図から第6図は第1図に示す単語辞書の構成例
を示す図、第7図及び第8図は第1図に示す単語辞書と
データベース等との組合せの例を示す図、第9図(a)
、 (b)は従来技術による文字読取装置の改良例を示
すブロック図である。 1・・・帳票、2・・・文字認識装置、3・・・後処理
装置、4・・・単語辞書、5・・・照合結果、6・・・
アドレス表、7・・・単語表、 8・・・コード情報、 9・ 郵便番号辞書、 10゜ 11・・データベース、 12・・・辞書、 13・・出現頻度 情報。

Claims (1)

  1. 【特許請求の範囲】 1、帳票上に記入された文字列を読み取り候補文字を出
    力する文字認識手段と、複数の単語を格納している単語
    辞書と、上記認識手段から出力された候補文字の組合せ
    と単語辞書に格納されている単語とを照合して、類似度
    の高い単語を求める単語照合手段とを含んでいる文字読
    取装置において、 上記単語辞書に格納されている単語毎に、該単語に固有
    なコード情報を付加し、単語照合手段によって候補文字
    の組合せから類似度の高い単語が求められた場合、上記
    コード情報を併せて出力し、上記コード情報に基づいて
    必要な情報を取り出すことを特徴とする文字認識装置に
    おける文字認識後処理方法。
JP1173057A 1989-07-06 1989-07-06 文字読取装置における文字認識後処理方法 Pending JPH0340079A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1173057A JPH0340079A (ja) 1989-07-06 1989-07-06 文字読取装置における文字認識後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1173057A JPH0340079A (ja) 1989-07-06 1989-07-06 文字読取装置における文字認識後処理方法

Publications (1)

Publication Number Publication Date
JPH0340079A true JPH0340079A (ja) 1991-02-20

Family

ID=15953420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1173057A Pending JPH0340079A (ja) 1989-07-06 1989-07-06 文字読取装置における文字認識後処理方法

Country Status (1)

Country Link
JP (1) JPH0340079A (ja)

Similar Documents

Publication Publication Date Title
US4903206A (en) Spelling error correcting system
JP2737173B2 (ja) 記号列照合装置とその制御方法
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
JPH0340079A (ja) 文字読取装置における文字認識後処理方法
JPH0441388B2 (ja)
JP2588261B2 (ja) Ocrによる住所データベース検索装置
JP2839515B2 (ja) 文字読取システム
JPS63138479A (ja) 文字認識装置
JP3722231B2 (ja) コンパクトにエンコードされて記憶されたストリングの組を有する製品
JPS60147888A (ja) 文字認識後処理方法及びその装置
JP2570784B2 (ja) 文書リーダ後処理装置
JPS63268082A (ja) パタ−ン認識装置
JPH05258100A (ja) 文字認識装置
JPS63157266A (ja) 単語辞書構成方式
JP2680311B2 (ja) 文字認識方式
JPS59188783A (ja) 文字判定処理方式
JPH0589292A (ja) 文字列認識装置
JPS6049481A (ja) 単語認識装置
JPS62256075A (ja) 辞書検索方式
JPH04349564A (ja) かな漢字変換方法およびかな漢字変換装置
JPS6121581A (ja) 文字認識装置
JPH0583957B2 (ja)
JPS59178588A (ja) 文字認識装置
JPS6174087A (ja) 単語読み取り装置
JPH01106287A (ja) 単語読取装置