JPH01217584A

JPH01217584A - 文字認識後処理方式

Info

Publication number: JPH01217584A
Application number: JP63042004A
Authority: JP
Inventors: Akizo Kadota; 門田　彰三
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-02-26
Filing date: 1988-02-26
Publication date: 1989-08-31

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は１文字認識後処理方式に関し、特に文字認識装
置によＶ読み取らｎた認識結果に対し℃単語辞書との照
合を行うことにより、認識相変を向上させることが可能
な文字認識後処理方式に関するものである。

〔従来の技術〕

従来より、ＯＣＲの認識相変を向上させる方法として、
単語辞書との照合を利用することが考えられ１いるが、
単語単位に処理が行われるため帳票上に単語単位にフィ
ールド分けをし、単語単位に記入する必要があった。こ
れは帳票記入者に負担をＲわ丁ことにより、従来帳票が
使えなくなるなどの不都合がある。

なお、この種の技術としては、刊開昭６０−２１７４９
０号がある、〔発明が解決しようとする課題〕一方、明確に単語に分割できない場合でも単語照合を行
なわせしめる方式が報告されているが、これらの方式で
は、住所のように、県名、車名。

町名のように階層化さｎ−ｔいる単語の場合１階層性を
利用しておらず、十分な精度が得られない欠点がある。

本発明の目的は、このような従来の問題点を解決し、た
とえ入力文字が単語単位に分割され℃いなくても、単語
照合を行１「い、単語間の階層性を利用して、最も信頼
性の高い単語列を抽出することができる文字認識後処理
方式を提供することにある。

〔課題を解決するための手段〕

上記目的は、単語の抽出を、フィールドの先頭でのみ行
うのでなく、各カラムで単語を抽出し。

前後の単語との接続関係を真べることにより、達成され
る。すなわち、あるカラムで抽出された単語が１前後の
単語とオーバーラッグセずに、かつ過不足なく接ながる
こと、？よび、前後の単語に階層関係がある時には、上
下関係を満たしていることを調べることにより、達成さ
れる。

〔作用〕

本発明の文字認識後処理は以下のように動作する。まず
、帳票上に記入された階１台構造を有する読取文字の各
々を認識し１候補文字を抽出シフ、候補文字テーブルを
作成する。

矢に、候補文字の各カラムを先頭とする単語が単語辞−
計中に保持された単語と一致するか否かを調べ、一致す
れば、該カラムの候補単語として登録する。

上記単語候補と、丁でに抽出さ扛た前（後）の単語との
接続関係を訓べる。接続関係を満たすか否かは（１）前
（恢）の単語と過不足なく接続するか、（２）前（後）
の単語の上下関係を満足しているかによ！ｌｌ調べる。

上記条件を満足し１いる時には、整合度テーブルに、候
補単語と、候補単語の類似度を格納する。

整合度テーブルに格納される単語列は、各カラムで複数
の単語候補が抽出される可能性があるため、複数の単語
列になることがある。その時には。

各単語の類似度の和を、単語列の類似度とし、類似度の
最も大きいものを選択することにより、単語照合結果を
一つの単語列に限定することができる。

（実施例〕以下、添付の回置に示す実施例にエフ、更に詳細に本発
明について説明する。

県１図は、本発明の一笑施例を示す。１は文字の記入さ
れた帳票、２は帳票に記入さｎた文字を左室変換し、認
識し、カラム毎に候補文字を出力する文字認識装置、５
を工上記候補文字と単語辞書４と照合する後処理装置、
５は照合結果である。

ら９２図は、後処理装置５ＶＣおける後処理の手順を示
すフローチャートである。

ステップ１におい１１文文字認識後処理も出力された候
補文字から候補文字テーブルを作成する。

Ｔクオ、この候補文字の中に潜在候補を加えてもか１ま
わない。潜在候補とは、認識結果の第１候補から類推し
て得られる候補で、あらかじめ、カテゴリ毎にメモリ中
に格納されているものとする。正解が候補文字に含まれ
てい１ｒい時でも、潜在候補を追加すると、その中に正
解が含まれる確率を増千丁ことができる。なお、潜在候
補は認識候補が一つじかＴ仁い時でも求めることができ
、したかっ−認識装置２が、複数の候補を出力し得ない
ものであっても本発明を実施することができる。

帳票上のフィールドにＮ個の文字が記入され℃いるとす
ると、フィールドの最後のカラムから先頭のカラムに回
けて以下の処理をくりかえす。

ステップ２においては、カラムエを先頭とする単語の抽
出を行なう。単語抽出の一方法を以下に説明する。

第５図は、単語辞書の構成を示す図である。単語辞書は
、アドレス表８よび単語表から構成されている。アドレ
ス表は単語の格納さｎているアドレスを指し示すテーブ
ルであり、単語の先頭文字コード、あるいは次文字コー
ドをキーとして使用する。

単語表は、同一文字コードで始まる単語が連続して格納
され又？す、アドレス表はこの単語群の先頭を指してい
る。次文字コードをキーとする時は、次文字ポインタが
先頭の単語のアドレスヲ示し、この単語の次の単語は５
単語表中の次文字ポインタにより求める。すなわちアド
レスＰｉＣ％ける単語の次文字ポインタがΔＰ″′Ｃあ
れば、矢の単語はＰ十ΔＰのアドレスに格納され又いる
。ΔＰが０になるまでチエインして行くことによりすべ
ての単語を求めることができる。

第４図は、候補表の１部を示す。この例では、「中央区
」を認識した時の候補例である。カラムエには、「中」
、「上」、「申」、「牛」が候補として上がっている。

カラムエから始まる単語は上記候補文字のどれかで始ま
る単語である。これらの漢字で始まる単語をアドレス表
を用いて求める。「中」から始まる単語は、中央区、中
富良野町、中用町、中頓別町・・・・・・勢多数あるが
、この中で、上記候補文字との類似度を求め類似度の大
きいもののみを求める。な？単語間に階層構造がある時
には、上位単語を示すポインタあるいはフラグがあらか
じめ付けられている。ここでは説明をわかジやすくする
ため、中央区（東京都）の様１ｃ。

０　円に上位単語を表示することにする。

同様にし１．「上」、「申」、「牛」から始まる単語で
、類似度の大きいものだけを選択すると。

中京区（京都市）上京区（京都市）中央区（東京都）中央区（札幌市）中野区（東京都）中原区（横共布）が得らｎる。な８カラムエの候補中に正解コードが含ま
れていない可能性があるため１次文字（上記の例の場合
、工＋１カラム）を便って候補単語を求める。次文字は
「夫」、「京」、「央」である。これらの漢字が２番目
に来る単語をすべて選ひ出し、類似度の大きいものを候
補単語に追加する。

ステップ３にだい″′Ｃ後続する単語との接続関係を調
べる。カラムエにおい′ｃ？Ｌ個の単語候補が得られ、
カラムエ＋１までに、整合光にはｍ列の単語列が得られ
ているものとする。ｎ個の単語候補それぞれについ（、
ｍ列の単語列との接続可能性を調べる。接続できるのは
、（１）過不足なく接続し１いること、（２）上下関係
を満たし１いること。

０２条件を満たさなけｎばならない。第５図の例では（
１）の条件を満たすのは、「京僑（中央区）」。

１東村（勢多郡）」のみである。（２）の条件を満たす
単語は、「中央区（東京都）」のみである。

「中央区（東京都）」を整合光に登録する。

他の候補単語は接続し得Ｔ「いが、第５カラムから始ま
る単語とし”（、’Ｐｉ了り整合光に登録して８く。接
続し得ない単語も登録しｌ′ｊ６＜のは、下位階層の単
語に正解が含まれ−いないために、整合光に登録されて
いない可能性があるからであ木。

な８、下位の階層のうち、上位接続されなかったものは
、フラグから上位単語を類１［トすることが可能である
。「束材」の上位は１勢多郡］であるが、この単語は、
カラムエかも始まる候補文字と類似性が少ないため、リ
ジェクトすることにする。

カラムエでの整合光は第５図（船の様になる。

ステップ２．５をすべ℃のカラムについて行なう。

ステップ４は、最適連結単語の抽出である。

第６南に示す様な整合光が得らｌｒＬ′″Ｃいるものと
する、それぞれの単語の類似度もテーブル中に書込んで
ある。

そ扛ぞれの単語列の類似度を以下の様に定義する。単語
列の類似度は、連結する単語の類似度を加えたもの。途
中で連結する単語が存在しない場合には、存在しないカ
ラム数誉Ａ（Ａは任意の値。

たとえは１０）を加えるものとする。

以上の定義に従うと。

東京都中央区京橋　　　６束材　　７１中区　　　　　６６中町　　　　　７２京都市中京区　　　　３５京都市上京区　　　　３６中央区　　　　５２になる。この中で連結性の一番艮いものを選ぶと「東京
都中央区京橋」が得られる。

〔発明の効果〕

不発明によ′ｒＬは５階層構造のあるテークを単語毎に
フィールド分けすることな（単語照合できるため、１隈
票作成に目白度が得られ、かつ記入者に精神的負担ｔ　
ｔａ　ｂせることなく自由に記入できるメリットがある
。

なお、記入内容は必ずしも県、市、町の順に書かなくと
も、例えば、最上位階層を省略したジ。

厳１位階層を使用しなく又も、何ら問題なく単語照合を
することができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図。第２図は第１図に示す後処理装置５り手順を示す説明図
、第５図は単語辞書４の構成を示す説明図。第４１は候補テーブルの１部を示す説明図、第５図は整
合光と候補単語の接続を示す説明図、第６図は歪合表に
工び類似度を示ｆ説明図である。１・・・帳票、　　　　　　２・・・文字認識装置、６
・・・後処理装置、　　　４・・・単語辞書。５・・・照合結果。芙　１　図属　２　図葛　３　図第４　記第５　図

Claims

【特許請求の範囲】

１、帳票上に書かれた文字を認識する文字認識手段と、
単語群を保持する単語辞書と、上記文字認識手段により
認識された文字が単語辞書中に保持されている単語と一
致するか否かを照合する単語照合手段とを具備する文字
認識後処理方式において、上記文字認識手段から出力さ
れた候補文字列を格納する候補文字テーブルと、各カラ
ムから始まる単語を上記単語辞書から選択的に取り出し
上記候補文字との類似度を求める手段と、該単語のうち
類似度の大きいものから複数個の単語候補を取り出し、
類似度とともに整合度テーブルに書き込む手段と、該整
合度テーブルにすでに格納されている単語との接続関係
を求める手段と、整合度テーブル中最もうまく整合した
単語を抽出し、単語照合結果として出力することを特徴
とする文字認識後処理方式。