JPH0340079A

JPH0340079A - 文字読取装置における文字認識後処理方法

Info

Publication number: JPH0340079A
Application number: JP1173057A
Authority: JP
Inventors: Akizo Kadota; 門田　彰三; Toshihiro Hananoi; 花野井　歳弘
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-07-06
Filing date: 1989-07-06
Publication date: 1991-02-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は文字読取装置の文字認識後処理方法にかかり、
特に文字読取装置内の文字認識装置により読み取られた
認識結果に対して、単語辞書とのマツチングを行うこと
により、認識精度を向上させる文字認識後処理方法に関
するものである。

〔従来の技術〕

従来から文字読取装置の文字認識精度を向上させる方法
として、単語辞書とのマツチングを行う文字認識後処理
方法が用いられている。例えば、特開昭６０−２１７４
９０号公報に開示された発明では、文字認識結果の列中
から複数の仮想単語を選択し、辞書単語との類似度を求
め、最も高い類似度の単語を検出することで認識精度を
向上させている。

〔発明が解決しようとするＩＫ題〕

上記した従来技術においては、単語単体での認識しか期
待できない。文字読取装置のインテリジェント化にとも
ない、住所を仮名で認識して漢字に変換したり、逆に漢
字で認識して仮名で出力したり、あるいは住所を認識し
て郵便番号を付加したくなるかもしれない。又、一般に
帳票上に書かれた情報には、互いに関連のあるものが多
い。たとえば、住所欄の他に、郵便番号や電話番号が記
入されたり、振り仮名がふられたりする。これらの情報
を利用すれば、さらに認識精度を向上させることができ
るはずである。ちなみに、特開昭６３−１３８４７８号
公報には、郵便番号を使い、住所のチエツクを行なう発
明が開示されている。

従来の単語照合技術は、最も良く合った単語を一つ又は
複数候補出力するのみで、上記した様な高度な情報処理
に使用することはできない。しいてやろうと思えば、第
９図（ａ）、　（ｂ）に示すように、文字読取装置を構
成する文字認識装置２２と単語照合装置２３と単語辞書
２４の他に、コード変換用辞書２６やコード変換装置２
７又はチエツク用辞書２９や郵便番号チエツク装置ｚ８
をあらかじめ作っておかなければならない。これらの辞
書２６．２９には、第９図（ａ）、　（ｂ）から明らか
なように、単語辞書中の単語と同一の単語を入れておか
なければならず、メモリの無駄である。又、コード変換
するには、変換用辞書２６において単語照合結果と一致
する単語− をサーチする必要がある。尚、第９図（ａ）、　（ｂ）
において、２１は帳票を示している。

本発明は、上記した従来技術の問題点に鑑みなされたも
ので、メモリの無駄をなくし、かつ高精度の認識を行な
うことが可能な文字読取装置における文字認識処理方法
を提供することにある。

〔課題を解決するための手段〕

本発明の文字読取装置における文字認識後処理方法は、
帳票上に記入された文字列を読み取り候補文字を出力す
る文字認識手段と、複数の単語を格納している単語辞書
と、上記認識手段から出力された候補文字の組合せと単
語辞書に格納されている単語とを照合して、類似度の高
い単語を求める単語照合手段とを含んでいる文字読取装
置に適用されるものであり、特しこ上記単語辞書に格納
されている単語毎に、該単語に固有なコード情報を付加
し、単語照合手段によって候補文字の組合せから類似度
の高い単語が求められた場合、上記コード情報を併せて
出力し、上記コード情報に基づいて必要な情報を取り出
すことを特徴としている。

　− コード情報としては、（１）上記単語に関連する単語、
あるいは単語群。

（２）上記単語に関連する単語あるいは単語群の格納さ
れているアドレス又はポインタ。

（３）上記単語に関連する単語あるいは単語群がデータ
ベース中に格納されている場合は、それらにアクセス可
能なキーワード又はレコード番号等が考えられる。

〔作　用〕

本発明によれば、単に単Ｈｎ照合により最も一致する単
語を出力するのみでなく、その単語に固有な情報が得ら
れるため、文字読取装置のインテリジェント化に対応で
き、かつ精度のよい認識結果を得ることができる。また
、単語とともに、あるいは単語のかわりに、得られた固
有な情報を出力することも可能であり、認識結果から他
の情報に変換する手間を最小限にすることが可能である
。

〔実施例〕

以下添付の図面に示す実施例により、更に詳細に本発明
について説明する。

第１図は本発明の文字読取装置の一実施例を示すブロッ
ク図である。第１図において、１は帳票、２は文字認識
装置、３は後処理装置、４は単語辞書である。文字認識
装置２は、帳票１上に記入された文字を読み取り、文字
毎に複数の候補文字を後処理装置３へ出力する。帳票１
には、第１図に示すように、郵便番号（２５６）と住所
（小田原布）が記入されているものと仮定して以下話を
進める。

文字認識装置２において、郵便番号は、数字であるため
、認識精度が高く、はぼまちがいなく認識され、候補文
字は１文字ずつ出力される。住所は、漢字で記入されて
いるため一般に、認識精度が良くなく、多くの候補文字
が出力される。第２図に示すように、「小」に対してｒ
大」、「小」、ｒ山」の３候補が出力され、「田」に対
して「田」、１日」の２候補が出力され、「原」に対し
ては「原」の１候補が、「市」に対して「布」、「市」
の２候補が出力されたと仮定する。

後処理装置３は、これらの候補文字を文字認識装置２か
ら入力して、一番類似度の大きい単語を候補単語として
出力する。即ち、後処理装置３は、小田原布に対応して
得られた複数の候補文字を組み合わせて得られる単語と
単語辞書４中の単語とを照合して一致するものを求める
。

第１候補として「大田原布」が得られ、第２候補として
「小田原布」が得られたと仮定する。

単語辞＠４は、第３図に示す様な構成を有している。第
３図において、６はアドレス表であり、候補にあがった
単語の先頭文字（例えば、「小」）で始まる複数の単語
の単語表７における先頭アドレスを求めることができる
。アドレス表６において、Ｎは「小」で始まる単語数を
示し、Ｐｌは「小」で始まる単語の単語表７における先
頭アドレスを示している。また、第３図において、８は
コード情報であり、単語表７中の単語とコード情報８は
それぞれ１対１に対応づけられている。即ち、単語表７
は、先頭文字でソートされており、同一先頭文字で始ま
る単語はグループ化されている。各グループの先頭は、
アドレス表６で求めることができる。また、第２図の場
合コード情報８７には郵便番号が格納されている。

帳票１の第２フイールドが読み取られ、単語照合され、
前記した様に候補単語として「大田原布」と「小田原布
」が得られたとすると、コード情報８に基づいてそれぞ
れの付随情報として郵便番号ｒ３２４Ｊとｒ２５６Ｊも
出力される。第１フイールドでｒ２５６Ｊと読まれてい
れば、郵便番号でチエツクして「大田原布」を排除して
「小田原布」を選択することができる。

第４図は単語辞書４の他の例を示す図である。

第４図においては、コード情報８としてポインタＰＩが
格納され、ポインタＰ、が郵便番号辞書９に格納されて
いる郵便番号を指示する。

第５図は単語辞書４の他の例を示す図である。

第５図においては、単語表７に単語対応にポインタＰが
設けられ、ポインタＰは他のデータベース１０に格納さ
れている郵便番号、県名、その読み方のデータ格納先を
指示する。尚、この場合、第３図に示すアドレス表６は
付加しなくても良い。

上記実施例では、文字読取装置内で郵便番号の８− チエツクを行なったが、チエツクを上位装置にまかせる
ことも可能である。その場合には、候補単語とコード情
報がペアで出力される。上位装置では、コード情報をチ
エツクに使用したり、そのままデータとして出力するこ
とが可能である。

第６図は、郵便番号のかわりに読みをコードデータにし
た場合を示す。この場合もふりがなチエツクなどのチエ
ツクに利用することが可能であるが、漢字から仮名への
変換あるいは、仮名から漢字への変換に利用することも
可能である。

第７図は、コード情報８として文字読取装置外部のデー
タベース１１のレコード番号ｒｉを出力する場合を示す
。データベース１１は郵便番号、読み、県名など多数の
情報から構成されているものとする。単語と付随してデ
ータベース１１のレコード番号ｒＪが出力されると、デ
ータベース１１をアクセスして必要な情報を得ることが
できる。第７図の例では、郵便番号とふりがなでチエツ
クして県名を出力したり、郵便番号でチエツクして読み
を出力する等の複雑な処理をすることも可能である。

なお、コード情報８として、レコード番Ｊ４ｒ　ｒ　＋
　＋７）外にデータベースをアクセスできるキーワード
を用いても良い。

第８図は単語辞書４の他の例を示す図である。

第８図に示すように、コード情報８は、辞書１２のポイ
ンタＰ２の他にポインタＰ２の示す関連単語群の単語数
Ｍを格納している。したがって、単語照合により最も類
似度の高い単語が得られるとその単語に関連する複数の
単語群を出方することが可能になる。複数の単語群の出
現頻度がわかっている場合には、出現頻度順に並べるか
、あるいは第８図に示すように出現頻度情報１３を格納
してあれば、出現頻度順に並べかえて出力することが可
能である。また、帳票１上の他のフィールドに読みが記
入されていれば、その読みと一致する単語が上記単語群
の中に含まれているか否かにより、チエツクに利用する
ことも可能である。

〔発明の効果〕

以上の説明から明らかな様に、本発明によれば、単に単
語照合により最も一致する単語を出方する０のみでなく、その単語に固有な情報、あるいは固有な情
報の格納されている辞書のポインタを出力することによ
り、他のフィールドに書かれた情報と比較してより精度
のよい認識結果を得ることができる。また単語とともに
、あるいは単語のかわりに、得られた固有な情報を出力
することも可能であり、文字読取装置のインテリジェン
ト化に対応可能になるとともに、認識結果から他の情報
に変換する手間を最小限にすることが可能である。

【図面の簡単な説明】

第１図は本発明の文字読取装置の一実施例を示すブロッ
ク図、第２図は帳票への記入文字とその候補文字を示す
図、第３図から第６図は第１図に示す単語辞書の構成例
を示す図、第７図及び第８図は第１図に示す単語辞書と
データベース等との組合せの例を示す図、第９図（ａ）
、　（ｂ）は従来技術による文字読取装置の改良例を示
すブロック図である。１・・・帳票、２・・・文字認識装置、３・・・後処理
装置、４・・・単語辞書、５・・・照合結果、６・・・
アドレス表、７・・・単語表、８・・・コード情報、９・郵便番号辞書、１０゜１１・・データベース、１２・・・辞書、１３・・出現頻度情報。

Claims

【特許請求の範囲】１、帳票上に記入された文字列を読み取り候補文字を出
力する文字認識手段と、複数の単語を格納している単語
辞書と、上記認識手段から出力された候補文字の組合せ
と単語辞書に格納されている単語とを照合して、類似度
の高い単語を求める単語照合手段とを含んでいる文字読
取装置において、上記単語辞書に格納されている単語毎に、該単語に固有
なコード情報を付加し、単語照合手段によって候補文字
の組合せから類似度の高い単語が求められた場合、上記
コード情報を併せて出力し、上記コード情報に基づいて
必要な情報を取り出すことを特徴とする文字認識装置に
おける文字認識後処理方法。