JPH01217584A - 文字認識後処理方式 - Google Patents
文字認識後処理方式Info
- Publication number
- JPH01217584A JPH01217584A JP63042004A JP4200488A JPH01217584A JP H01217584 A JPH01217584 A JP H01217584A JP 63042004 A JP63042004 A JP 63042004A JP 4200488 A JP4200488 A JP 4200488A JP H01217584 A JPH01217584 A JP H01217584A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- character recognition
- candidate
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は1文字認識後処理方式に関し、特に文字認識装
置によV読み取らnた認識結果に対し℃単語辞書との照
合を行うことにより、認識相変を向上させることが可能
な文字認識後処理方式に関するものである。
置によV読み取らnた認識結果に対し℃単語辞書との照
合を行うことにより、認識相変を向上させることが可能
な文字認識後処理方式に関するものである。
従来より、OCRの認識相変を向上させる方法として、
単語辞書との照合を利用することが考えられ1いるが、
単語単位に処理が行われるため帳票上に単語単位にフィ
ールド分けをし、単語単位に記入する必要があった。こ
れは帳票記入者に負担をRわ丁ことにより、従来帳票が
使えなくなるなどの不都合がある。
単語辞書との照合を利用することが考えられ1いるが、
単語単位に処理が行われるため帳票上に単語単位にフィ
ールド分けをし、単語単位に記入する必要があった。こ
れは帳票記入者に負担をRわ丁ことにより、従来帳票が
使えなくなるなどの不都合がある。
なお、この種の技術としては、刊開昭60−21749
0号がある、 〔発明が解決しようとする課題〕 一方、明確に単語に分割できない場合でも単語照合を行
なわせしめる方式が報告されているが、これらの方式で
は、住所のように、県名、車名。
0号がある、 〔発明が解決しようとする課題〕 一方、明確に単語に分割できない場合でも単語照合を行
なわせしめる方式が報告されているが、これらの方式で
は、住所のように、県名、車名。
町名のように階層化さn−tいる単語の場合1階層性を
利用しておらず、十分な精度が得られない欠点がある。
利用しておらず、十分な精度が得られない欠点がある。
本発明の目的は、このような従来の問題点を解決し、た
とえ入力文字が単語単位に分割され℃いなくても、単語
照合を行1「い、単語間の階層性を利用して、最も信頼
性の高い単語列を抽出することができる文字認識後処理
方式を提供することにある。
とえ入力文字が単語単位に分割され℃いなくても、単語
照合を行1「い、単語間の階層性を利用して、最も信頼
性の高い単語列を抽出することができる文字認識後処理
方式を提供することにある。
上記目的は、単語の抽出を、フィールドの先頭でのみ行
うのでなく、各カラムで単語を抽出し。
うのでなく、各カラムで単語を抽出し。
前後の単語との接続関係を真べることにより、達成され
る。すなわち、あるカラムで抽出された単語が1前後の
単語とオーバーラッグセずに、かつ過不足なく接ながる
こと、?よび、前後の単語に階層関係がある時には、上
下関係を満たしていることを調べることにより、達成さ
れる。
る。すなわち、あるカラムで抽出された単語が1前後の
単語とオーバーラッグセずに、かつ過不足なく接ながる
こと、?よび、前後の単語に階層関係がある時には、上
下関係を満たしていることを調べることにより、達成さ
れる。
本発明の文字認識後処理は以下のように動作する。まず
、帳票上に記入された階1台構造を有する読取文字の各
々を認識し1候補文字を抽出シフ、候補文字テーブルを
作成する。
、帳票上に記入された階1台構造を有する読取文字の各
々を認識し1候補文字を抽出シフ、候補文字テーブルを
作成する。
矢に、候補文字の各カラムを先頭とする単語が単語辞−
計中に保持された単語と一致するか否かを調べ、一致す
れば、該カラムの候補単語として登録する。
計中に保持された単語と一致するか否かを調べ、一致す
れば、該カラムの候補単語として登録する。
上記単語候補と、丁でに抽出さ扛た前(後)の単語との
接続関係を訓べる。接続関係を満たすか否かは(1)前
(恢)の単語と過不足なく接続するか、(2)前(後)
の単語の上下関係を満足しているかによ!ll調べる。
接続関係を訓べる。接続関係を満たすか否かは(1)前
(恢)の単語と過不足なく接続するか、(2)前(後)
の単語の上下関係を満足しているかによ!ll調べる。
上記条件を満足し1いる時には、整合度テーブルに、候
補単語と、候補単語の類似度を格納する。
補単語と、候補単語の類似度を格納する。
整合度テーブルに格納される単語列は、各カラムで複数
の単語候補が抽出される可能性があるため、複数の単語
列になることがある。その時には。
の単語候補が抽出される可能性があるため、複数の単語
列になることがある。その時には。
各単語の類似度の和を、単語列の類似度とし、類似度の
最も大きいものを選択することにより、単語照合結果を
一つの単語列に限定することができる。
最も大きいものを選択することにより、単語照合結果を
一つの単語列に限定することができる。
(実施例〕
以下、添付の回置に示す実施例にエフ、更に詳細に本発
明について説明する。
明について説明する。
県1図は、本発明の一笑施例を示す。1は文字の記入さ
れた帳票、2は帳票に記入さnた文字を左室変換し、認
識し、カラム毎に候補文字を出力する文字認識装置、5
を工上記候補文字と単語辞書4と照合する後処理装置、
5は照合結果である。
れた帳票、2は帳票に記入さnた文字を左室変換し、認
識し、カラム毎に候補文字を出力する文字認識装置、5
を工上記候補文字と単語辞書4と照合する後処理装置、
5は照合結果である。
ら92図は、後処理装置5VCおける後処理の手順を示
すフローチャートである。
すフローチャートである。
ステップ1におい11文文字認識後処理も出力された候
補文字から候補文字テーブルを作成する。
補文字から候補文字テーブルを作成する。
Tクオ、この候補文字の中に潜在候補を加えてもか1ま
わない。潜在候補とは、認識結果の第1候補から類推し
て得られる候補で、あらかじめ、カテゴリ毎にメモリ中
に格納されているものとする。正解が候補文字に含まれ
てい1rい時でも、潜在候補を追加すると、その中に正
解が含まれる確率を増千丁ことができる。なお、潜在候
補は認識候補が一つじかT仁い時でも求めることができ
、したかっ−認識装置2が、複数の候補を出力し得ない
ものであっても本発明を実施することができる。
わない。潜在候補とは、認識結果の第1候補から類推し
て得られる候補で、あらかじめ、カテゴリ毎にメモリ中
に格納されているものとする。正解が候補文字に含まれ
てい1rい時でも、潜在候補を追加すると、その中に正
解が含まれる確率を増千丁ことができる。なお、潜在候
補は認識候補が一つじかT仁い時でも求めることができ
、したかっ−認識装置2が、複数の候補を出力し得ない
ものであっても本発明を実施することができる。
帳票上のフィールドにN個の文字が記入され℃いるとす
ると、フィールドの最後のカラムから先頭のカラムに回
けて以下の処理をくりかえす。
ると、フィールドの最後のカラムから先頭のカラムに回
けて以下の処理をくりかえす。
ステップ2においては、カラムエを先頭とする単語の抽
出を行なう。単語抽出の一方法を以下に説明する。
出を行なう。単語抽出の一方法を以下に説明する。
第5図は、単語辞書の構成を示す図である。単語辞書は
、アドレス表8よび単語表から構成されている。アドレ
ス表は単語の格納さnているアドレスを指し示すテーブ
ルであり、単語の先頭文字コード、あるいは次文字コー
ドをキーとして使用する。
、アドレス表8よび単語表から構成されている。アドレ
ス表は単語の格納さnているアドレスを指し示すテーブ
ルであり、単語の先頭文字コード、あるいは次文字コー
ドをキーとして使用する。
単語表は、同一文字コードで始まる単語が連続して格納
され又?す、アドレス表はこの単語群の先頭を指してい
る。次文字コードをキーとする時は、次文字ポインタが
先頭の単語のアドレスヲ示し、この単語の次の単語は5
単語表中の次文字ポインタにより求める。すなわちアド
レスPiC%ける単語の次文字ポインタがΔP″′Cあ
れば、矢の単語はP十ΔPのアドレスに格納され又いる
。ΔPが0になるまでチエインして行くことによりすべ
ての単語を求めることができる。
され又?す、アドレス表はこの単語群の先頭を指してい
る。次文字コードをキーとする時は、次文字ポインタが
先頭の単語のアドレスヲ示し、この単語の次の単語は5
単語表中の次文字ポインタにより求める。すなわちアド
レスPiC%ける単語の次文字ポインタがΔP″′Cあ
れば、矢の単語はP十ΔPのアドレスに格納され又いる
。ΔPが0になるまでチエインして行くことによりすべ
ての単語を求めることができる。
第4図は、候補表の1部を示す。この例では、「中央区
」を認識した時の候補例である。カラムエには、「中」
、「上」、「申」、「牛」が候補として上がっている。
」を認識した時の候補例である。カラムエには、「中」
、「上」、「申」、「牛」が候補として上がっている。
カラムエから始まる単語は上記候補文字のどれかで始ま
る単語である。これらの漢字で始まる単語をアドレス表
を用いて求める。「中」から始まる単語は、中央区、中
富良野町、中用町、中頓別町・・・・・・勢多数あるが
、この中で、上記候補文字との類似度を求め類似度の大
きいもののみを求める。な?単語間に階層構造がある時
には、上位単語を示すポインタあるいはフラグがあらか
じめ付けられている。ここでは説明をわかジやすくする
ため、中央区(東京都)の様1c。
る単語である。これらの漢字で始まる単語をアドレス表
を用いて求める。「中」から始まる単語は、中央区、中
富良野町、中用町、中頓別町・・・・・・勢多数あるが
、この中で、上記候補文字との類似度を求め類似度の大
きいもののみを求める。な?単語間に階層構造がある時
には、上位単語を示すポインタあるいはフラグがあらか
じめ付けられている。ここでは説明をわかジやすくする
ため、中央区(東京都)の様1c。
0 円に上位単語を表示することにする。
同様にし1.「上」、「申」、「牛」から始まる単語で
、類似度の大きいものだけを選択すると。
、類似度の大きいものだけを選択すると。
中京区(京都市)
上京区(京都市)
中央区(東京都)
中央区(札幌市)
中野区(東京都)
中原区(横共布)
が得らnる。な8カラムエの候補中に正解コードが含ま
れていない可能性があるため1次文字(上記の例の場合
、工+1カラム)を便って候補単語を求める。次文字は
「夫」、「京」、「央」である。これらの漢字が2番目
に来る単語をすべて選ひ出し、類似度の大きいものを候
補単語に追加する。
れていない可能性があるため1次文字(上記の例の場合
、工+1カラム)を便って候補単語を求める。次文字は
「夫」、「京」、「央」である。これらの漢字が2番目
に来る単語をすべて選ひ出し、類似度の大きいものを候
補単語に追加する。
ステップ3にだい″′C後続する単語との接続関係を調
べる。カラムエにおい′c?L個の単語候補が得られ、
カラムエ+1までに、整合光にはm列の単語列が得られ
ているものとする。n個の単語候補それぞれについ(、
m列の単語列との接続可能性を調べる。接続できるのは
、(1)過不足なく接続し1いること、(2)上下関係
を満たし1いること。
べる。カラムエにおい′c?L個の単語候補が得られ、
カラムエ+1までに、整合光にはm列の単語列が得られ
ているものとする。n個の単語候補それぞれについ(、
m列の単語列との接続可能性を調べる。接続できるのは
、(1)過不足なく接続し1いること、(2)上下関係
を満たし1いること。
02条件を満たさなけnばならない。第5図の例では(
1)の条件を満たすのは、「京僑(中央区)」。
1)の条件を満たすのは、「京僑(中央区)」。
1東村(勢多郡)」のみである。(2)の条件を満たす
単語は、「中央区(東京都)」のみである。
単語は、「中央区(東京都)」のみである。
「中央区(東京都)」を整合光に登録する。
他の候補単語は接続し得T「いが、第5カラムから始ま
る単語とし”(、’Pi了り整合光に登録して8く。接
続し得ない単語も登録しl′j6<のは、下位階層の単
語に正解が含まれ−いないために、整合光に登録されて
いない可能性があるからであ木。
る単語とし”(、’Pi了り整合光に登録して8く。接
続し得ない単語も登録しl′j6<のは、下位階層の単
語に正解が含まれ−いないために、整合光に登録されて
いない可能性があるからであ木。
な8、下位の階層のうち、上位接続されなかったものは
、フラグから上位単語を類1[トすることが可能である
。「束材」の上位は1勢多郡]であるが、この単語は、
カラムエかも始まる候補文字と類似性が少ないため、リ
ジェクトすることにする。
、フラグから上位単語を類1[トすることが可能である
。「束材」の上位は1勢多郡]であるが、この単語は、
カラムエかも始まる候補文字と類似性が少ないため、リ
ジェクトすることにする。
カラムエでの整合光は第5図(船の様になる。
ステップ2.5をすべ℃のカラムについて行なう。
ステップ4は、最適連結単語の抽出である。
第6南に示す様な整合光が得らlrL′″Cいるものと
する、それぞれの単語の類似度もテーブル中に書込んで
ある。
する、それぞれの単語の類似度もテーブル中に書込んで
ある。
そ扛ぞれの単語列の類似度を以下の様に定義する。単語
列の類似度は、連結する単語の類似度を加えたもの。途
中で連結する単語が存在しない場合には、存在しないカ
ラム数誉A(Aは任意の値。
列の類似度は、連結する単語の類似度を加えたもの。途
中で連結する単語が存在しない場合には、存在しないカ
ラム数誉A(Aは任意の値。
たとえは10)を加えるものとする。
以上の定義に従うと。
東京都中央区京橋 6
束材 71
中区 66
中町 72
京都市中京区 35
京都市上京区 36
中央区 52
になる。この中で連結性の一番艮いものを選ぶと「東京
都中央区京橋」 が得られる。
都中央区京橋」 が得られる。
不発明によ′rLは5階層構造のあるテークを単語毎に
フィールド分けすることな(単語照合できるため、1隈
票作成に目白度が得られ、かつ記入者に精神的負担t
ta bせることなく自由に記入できるメリットがある
。
フィールド分けすることな(単語照合できるため、1隈
票作成に目白度が得られ、かつ記入者に精神的負担t
ta bせることなく自由に記入できるメリットがある
。
なお、記入内容は必ずしも県、市、町の順に書かなくと
も、例えば、最上位階層を省略したジ。
も、例えば、最上位階層を省略したジ。
厳1位階層を使用しなく又も、何ら問題なく単語照合を
することができる。
することができる。
第1図は本発明の一実施例を示すブロック図。
第2図は第1図に示す後処理装置5り手順を示す説明図
、第5図は単語辞書4の構成を示す説明図。 第41は候補テーブルの1部を示す説明図、第5図は整
合光と候補単語の接続を示す説明図、第6図は歪合表に
工び類似度を示f説明図である。 1・・・帳票、 2・・・文字認識装置、6
・・・後処理装置、 4・・・単語辞書。 5・・・照合結果。 芙 1 図 属 2 図 葛 3 図 第4 記 第5 図
、第5図は単語辞書4の構成を示す説明図。 第41は候補テーブルの1部を示す説明図、第5図は整
合光と候補単語の接続を示す説明図、第6図は歪合表に
工び類似度を示f説明図である。 1・・・帳票、 2・・・文字認識装置、6
・・・後処理装置、 4・・・単語辞書。 5・・・照合結果。 芙 1 図 属 2 図 葛 3 図 第4 記 第5 図
Claims (1)
- 1、帳票上に書かれた文字を認識する文字認識手段と、
単語群を保持する単語辞書と、上記文字認識手段により
認識された文字が単語辞書中に保持されている単語と一
致するか否かを照合する単語照合手段とを具備する文字
認識後処理方式において、上記文字認識手段から出力さ
れた候補文字列を格納する候補文字テーブルと、各カラ
ムから始まる単語を上記単語辞書から選択的に取り出し
上記候補文字との類似度を求める手段と、該単語のうち
類似度の大きいものから複数個の単語候補を取り出し、
類似度とともに整合度テーブルに書き込む手段と、該整
合度テーブルにすでに格納されている単語との接続関係
を求める手段と、整合度テーブル中最もうまく整合した
単語を抽出し、単語照合結果として出力することを特徴
とする文字認識後処理方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63042004A JPH01217584A (ja) | 1988-02-26 | 1988-02-26 | 文字認識後処理方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63042004A JPH01217584A (ja) | 1988-02-26 | 1988-02-26 | 文字認識後処理方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH01217584A true JPH01217584A (ja) | 1989-08-31 |
Family
ID=12624048
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63042004A Pending JPH01217584A (ja) | 1988-02-26 | 1988-02-26 | 文字認識後処理方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH01217584A (ja) |
-
1988
- 1988-02-26 JP JP63042004A patent/JPH01217584A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11055327B2 (en) | Unstructured data parsing for structured information | |
| US10963717B1 (en) | Auto-correction of pattern defined strings | |
| CN110866402B (zh) | 一种命名实体识别的方法、装置、存储介质及电子设备 | |
| CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
| US8725497B2 (en) | System and method for detecting and correcting mismatched Chinese character | |
| CN114663886B (zh) | 文本识别方法、模型的训练方法及装置 | |
| RU2768233C1 (ru) | Нечеткий поиск с использованием форм слов для работы с большими данными | |
| US8411958B2 (en) | Apparatus and method for handwriting recognition | |
| CN101796509A (zh) | 准备显示文档用于分析的设备 | |
| CN115618019A (zh) | 知识图谱构建方法、装置及终端设备 | |
| CN109002454A (zh) | 一种确定目标单词的拼读分区的方法和电子设备 | |
| CN109635125B (zh) | 一种词汇图谱搭建方法及电子设备 | |
| CN114548080A (zh) | 一种基于分词增强的中文错字校正方法及系统 | |
| JP2019159814A (ja) | 情報処理装置、情報処理方法及びプログラム | |
| JPH01217584A (ja) | 文字認識後処理方式 | |
| WO2014171519A1 (ja) | 誤記検出装置及び記録媒体 | |
| CN113704478A (zh) | 文本要素提取方法、装置、电子设备及介质 | |
| JPH0454270B2 (ja) | ||
| JP3045886B2 (ja) | 手書き入力機能付き文字処理装置 | |
| JPH0477857A (ja) | 不適切表現検出装置 | |
| JPH0529950B2 (ja) | ||
| JP2880387B2 (ja) | Ocr住所処理装置 | |
| CN117475440A (zh) | 自动识别药品说明书错误的方法和系统、设备及介质 | |
| JPH0340434B2 (ja) | ||
| JPS6128134A (ja) | 記号列照合装置とその制御方式 |