JPS5839378A - 文字認識後処理方式 - Google Patents

文字認識後処理方式

Info

Publication number
JPS5839378A
JPS5839378A JP56136144A JP13614481A JPS5839378A JP S5839378 A JPS5839378 A JP S5839378A JP 56136144 A JP56136144 A JP 56136144A JP 13614481 A JP13614481 A JP 13614481A JP S5839378 A JPS5839378 A JP S5839378A
Authority
JP
Japan
Prior art keywords
character
matching
word
recognition
register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP56136144A
Other languages
English (en)
Other versions
JPH0119195B2 (ja
Inventor
Hideaki Sugawara
菅原 秀明
Eiichiro Yamamoto
山本 栄一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56136144A priority Critical patent/JPS5839378A/ja
Publication of JPS5839378A publication Critical patent/JPS5839378A/ja
Publication of JPH0119195B2 publication Critical patent/JPH0119195B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は文字認識後処理方式に関するものであって、特
に文字読取手段によ少入力された入力文字を文字辞書(
例えば漢字辞書)と文字認識処理を行ったのち認識結果
に対しその順位に応じて重みづけを行なって単語辞書と
のマツチングを行なうことにより、入力単語を正確に認
識できるよう忙した文字g繊後処理方弐に関するもので
ある。
従来の文字認識方式では、例えば第1図に示す如く、I
I鐵部lにおりて入力文字の特徴抽出を行ないこれをフ
ァイルと比較してもっともM繊順位の高いものを出力レ
ジスタ2に出方し、その後、文字w1w&後処理として
この出力レジスタ2に出力された3ケの文字が都道府県
基を示すものであるとあらかじめわかっている場合にけ
、これらの出力された文字を都道府県辞書3と順次マツ
チング回路4にて比較を行ない入力文字を正確に認識す
るようkしている。
すなわち、第1図において、都道府県基の記入領斌に3
個の文字の記入されたデータ入力用紙(図示省略)を例
えばOCR(図示省略)で読取り、これにより得られ九
データにもとづき認識部1ではそれぞれに対する特徴抽
出にもとづき認錬順位のもっとも高い「宮」、「埼」、
「県」を出力レジスタ2に出力し、これらをマツチング
回路4において都道府県辞書3にセットされている都道
府県基と順次比較してその一致度のもっとも高い都道府
県基を読取出力として出力する本のである。
しかるにこのような後処理方式では、第1図に示す如く
、認識部1から「宮」、「埼」、「県」と出力され九こ
とにもとづき都道府県基とマツチングを行なったとき、
「宮崎系」と「宮城県」の2つが同−優先順位で存在す
ることになシ、自動的にこのいずれか一方を選択するこ
とができなかった。
そのために、第2図に示す如く、認識部で入力文字を認
識するとき複数順位の候補文字を出力することが提案さ
れえ、認識部で3*字の都遍府県名を認識したとき第1
番目の文字について#i第2図に示す如く、第1順位が
「科」、第2顔位が「秩」、第3)@位が「秋」、第4
順位が「材」、第5順位が「林」であシ、第2番目の文
字については第1順位〜第5順位が「田」、「内」、「
口」、「円」、「由」であシ、第3番目の文字について
は第1順位〜第5願位が「具」、「県」、「目」、「且
」、「旦」の場合に、これらの各候補文字を都道府県基
と順次比較する。すなわち都道府県辞書3からgt番目
に「北海道」を読出し、その第1番目の文字「北」を前
記「科、秩、秋、材、林」と比較してマツチングをとる
。そして第2番目の文字「海」と前記「田、内、口、円
、由」と比較し、第3番目の文字「道」を前記「具、県
、目、且、旦」と比較しそれぞれ一致をとるがいずれも
不一致である1次に第2番目の単語「青森県」と同様な
マツチングを行なうが、第3番目の文字「県」が前記「
具、県、目、且、旦」と照合したとき第2願位の「県」
で一致が得られる。そして第3番目の単語「秋田系」と
マツチングを行なうとき、第1番目の文字「秋」と「科
、秩、秋、材、林」と照合して一致が得られ、同様に第
2番目の文字「田」と「田、内、口、円、由」と照合し
て一致が得られ、第3番目の文字「#」と「具、県、目
、且、旦」と照合してこれまた一致が得られる。
かくして「秋田系」ではすべての文字が候補文字の1つ
と一致が得られるので、この”Rryチ/グ度合のもっ
ともよい「秋田系」を読取文字として出力する。
しかしながらこのような複数順位の候補文字を単純に比
較する場合には、第3図に示す如き例では読取出力を1
つに確定できないことがある。すなわち、1g1書目の
文字に対しては第1誉目〜第5番目の認識順位が「宮、
官、富、呂、宙」であり、第2番目の文字に対しては同
じ< M#J&)−位が「埼、崎、峠、城、地」であシ
、第3#目の文字に対しては同じく「県、具、目、且、
旦」であり、これを文字マトリクス・レジスタ5から各
順位毎に3文字ずつ順位レジスタ6に出力して都道府県
辞書3の単語とマツチング回路4にて照合したとき、「
宮崎系」と「宮城県」とが同一のマツチング度合となり
区分することができない場合が存在する。
したがって本発明はこのような問題を改善するために認
識部からの候補出力に対し、その順位毎に重みを付与し
て単語辞書とのマツチングを求め、もっとも上位順位で
マツチングのとれた単語を求めるようKした文字認識後
処理方式を提供することを目的とするものである。そし
てこのために本発明における文字認識後処理方式では、
読取文字を認識する文字認識手段と単語が保持されてい
る単語保持手段と前記文字W識字段にて認識された文字
が単語保持手段に保持された単語と一致することを検出
するマツチング手段を具備する文字認識後処理方式にお
いて、文字認識手段から複数順位の認識文字候補を出力
させ、マツチング手段において単語保持手段に保持され
た単語と前記複数順位の認識文字候補とマツチングを行
なうとともに、前記認識文字候補の1つの文字と前記単
語の1つの文字がマツチングしたときはそのutl&顔
位に応じた重みを付与して出力する蔦み付与出力手段を
設けて認識順位に応じたマツチング順位度が得られるよ
うにすることKよシ、マツチング順位度のもつとも高い
単語を選択出力するようにしたことを特徴とする。
以下本発明の一実施例を第4図にもとづき説明する。
第4図において他図と同符号部は同一部分を示し、7は
マツチング回路、8は単語辞書、9Fiマツチング結果
出力レジスタ、10Fi結果判定回路、11は出力レジ
スタである。
マツチング回路7は単語辞書8から読出した単語を認識
部1から文字マトリクス・レジスタ5に出力された第1
顔位〜第5iWs位までの認識候補文字とを照合してマ
ツチング度行なうとともにマツチングした文字が存在す
る場合その認識順位に応じて、例えば第1順位の認識候
補文字と一致したとき「0」、第2順位の認識候補文字
と一致したとき「1」、第3順位の認識候補文字と一致
したとき「2」、第4順位のものと一致したとき「3」
、第6順位のものと一致したとき「4」、第1JIa位
〜第5順位のいずれのものとも一致しないとき「5」を
出力する。
単語辞書8は後処理に必要な、例えば都道府県名用の単
語集とか、各部道府県毎の例えば秋田県内の郡市町村名
のような分類された複数の単語集がファイルされている
ものであシ、マツチング回路7からの単語毎の制御信号
C8により分類別に、しかも一定の順序にしたがって所
定の分類の単語が順次出力されるものである。
マツチング結果出力レジスタ9は文字マトリクス・レジ
スタ5にセットされた候補文字と単語辞@8から出力さ
れた単語との一致度を単語対応に保持するレジスタであ
る。
結果判定回路10はマツチング回路7にて行なわれたマ
ツチングの結果、そのもっともマツチング度合の大きな
単語を選択出力するものである。
次に第4図の動作に、ついて説明する。
(1)認識部1から出力された認識候補文字はその認識
順位にしたがって文字マ) IJクス争レジスタ5に出
力される。例えばfI1番目の文字に対しては第1順位
〜第5順位までの「科、秩、秋、材、林」が出力され、
第2番目の文字に対しては「田、内、口、円、由」が出
力され、第3番目の文字に対しては「具、県、目、且、
旦」が出力される。
そして前記認識部1の出力が都道府県名であることがあ
らかじめわかっているので、単語辞41′8から都道府
県名用の単語集ファイル部が順次読出される。この場合
、マツチング回路7から出力される単語毎の制御信号C
,によ)先ず「北海道」が続出される。そしてマツチン
グ回路7からの順序制御信号C1−・により順位レジス
タ6に先ず「科田具」がセットされ「北海道」と比較さ
れるが、このとき第4番目に文字がないということでの
み一致するが他は一致しない0次にマツチング回路7か
ら順序制御信号Cs−1によシ順位レジスタ6に第2順
位の「秩内県」がセットされ、同様に「北海道」と照合
される。このようにしてマツチング回路7からの順序制
御信号Cl−2〜C1−4により順位レジスタ6に第3
順位の「秋口目」、第4順位の[材円且J%票5%位の
「林由旦」が順次セットされ「北海道」とのマツチング
が行なわれるが、これらは文字同志では不一致であ夛、
その結果第4誉目の文字が存在しないということで一致
するのみなので1マツチング結果出力レジスタ90区分
1の(4)Kは「0」が記入され、区分1の(1)〜(
3)には「5」が記入される。
(2)  このようにして第1番目の単@「北海道」と
の照合が終るとマツチング回路7は制御信号C!を出力
し、第2番目の単語「青蛛県」を出力ばせる。それから
順序制御信号C1−・〜C1/%−4を出力して順位レ
ジスタ6に第1)V4位「科田具」〜第5顔位「林由旦
」を順次セットして前記「背森県」とマツチングする。
このとき第2顔位の「秩内県」における「県」と第4番
目の文字がないという2つの点で一致するので、マツチ
ング回路7はiツチング結果出力レジスタ90区分2の
(4)に「0」、(3)に「1」、(2)と(1) 4
Cそれぞれ「5」が記入されることになる。
(3)次いでマッチング回路7Fi制御信号Cmにより
第3番目の単語「秋田系」を出力させ、それから前記(
11、(21と同様にして順位レジスタ6に「科田具」
〜「林由旦JfJ@次セットしてこの「秋田系jとの照
合を行なう。この場合には、第1M位の「科田具」にお
ける「田」、第2顔位における「秩内県」の「県」、第
3順位の「秋口目」における「秋」と第4番目の文字が
ないということでそれぞれ一致が得られるので、マツチ
ング結果出力レジスタ9の区分3の(2)、(4)には
roJが、(3)には「1」が、(1)には「2」がそ
れぞれge人されることになる。
(4)  このようにしてすべての都道府県名との照合
が終了したとき、結果判定回路10Fiこのマツチング
結果出力レジスタ9の各区分の合計点のもっとも小さい
区分を求めてそのマツチング度合のもっとも大きいもの
として選択出力することになる。
したがってこの場合には区分3が合計点3のために最小
であり、かくしてfs3番目の都道府県名の「秋田系」
を最終的な読取出力として出方レジスタIIK出力する
。このようにして後処理によ)[秋田系」を正確に取出
すことができる。
なお、t7J5図に示す如く、結果判定回路10’ K
第1人力レジスタ12、第2人力レジスタ13および比
較制御部14を設け、第1人力レジスタ12//cマツ
チング回路7からの個々の区分のマツチング状態を入力
してこれを先に入力されている第2人力レジスタ13に
保持されている区分のものとのマツチング状態と比較し
て、新らしく伝達された第1人力レジスタ12のマツチ
ング度が大きいとき(第4図の状態では合計点の小さい
とき)にこれを第2人力レジスタ13に記入し、小さい
ときにはそのまま第1人力レジスタ12に次の単語に対
するマツチング度を入力するように構成すれば、第4図
におけるマツチング結果出力レジスタ9Fi不必要とな
り、単語辞書から読出される被照合単語数が大きい場合
で吃、簡単な構成で対処することがで舞る。
かくして、本発明によれば、第6図に示す如く、文字マ
トリクス・レジスタ5に第1願位〜第5順位として「宮
埼県」〜「宙地旦」と出方された場合でも、マツチング
回路7において都道府県静置スタの区分9−0に合計点
が「1」として61″人されるが「宮城系」に対しては
同じく区分9−xaK合計点か「3」として記入される
ことになり、これよシ「宮崎県」が後処理結果として出
力されることになる。
本発明を一般的に説明すれば、μ8図に示す如く、入力
単語f Lt yllg 、・・・L%(鴨文字で単語
を構成するものとする)とし、Llに対する認識候補を
Lt(11eLt(L +++ L>(y (mR候補
とL”r第1 JQi位〜第5顔位までf採用するとき
)とする。また重みを第1願位〜第5願位に対してWi
ll〜Vdb+とし第6ノ1位以下のものに対して■・
)とし、Wlll(Wd・・・(′V@ilとしてかつ
W幻〜wi+はぼ線的な変化をもつものとする。そして
単113辞曹に登録されている標準単一(北海道とか育
森県に和尚するもの) 81,811・ 8%と入力単
語LxeL−・・Lnとの相違度りを各文字ごとの相違
度の和として表現する。各文字Ll 、Ls・・および
Lsごとの相違度は、例えばslを考えたとき認識候補
L 1(41でマツチングが得られたときその相違f 
d(Sx、LりはN4+となる。もしもマツチングする
認11!餘補がなければ相違度はW荀となる。したがっ
て単語の相違度りは、 D−、L’  d(sイ、Ll) 11 となり、このDが最小となる単語辞書の単語を正しいも
のとして判断することにする。
なお上紀貌明では候補文字を第5順位まで選択した例に
ついて説明したがこれに限定されるものでもない、そし
て順位の高いものを小さな数の貰みづけした例について
説明したが、逆の場合でも同様である。
以上説明の如く、本発明によれば候補文字に対しその候
補順位に応じ友重みづけを行なって単語単位にこの重み
の合計を求めることにょシ明確な後処理を行なうことが
できる。
【図面の簡単な説明】
紺1図〜第3図は従来の後処理蔽明図、第4図は本発明
の一実施例構成図、第5図はその結果判定回路の他の実
施例、第6図〜第8図は本発明の詳細な説明図である。 図中、1はg繊部、2は出力レジスタ、3は都道府県辞
書、4はマツチング回路、sFi文字マトリクス、レジ
2り、6は順位レジスタ、7はマツチング回路、8il
t単語辞書、9iiマツチング結果出力レジスタ、10
は結果判定回路、11は出力レジスタをそれぞれ示す。 特許出願人  富士通株式会社 代理人弁理士  山 谷晧榮

Claims (1)

    【特許請求の範囲】
  1. (1)読取文字をI!識する文字*m手段と単語が保持
    されている単語保持手段と前記文字認識手段にてlW識
    され九文字が単語保持手段に保持された単語と一致する
    ことを検出するマツチング手段を具備すゐ文字認識後処
    理方式において、文字認識手段から被数順位のgw&文
    字候補を出力させ、マツチング手段において単語保持手
    段に保持された単語と前記複数順位のm識文字候補とマ
    ツチングを行なうとともに、前記認識文字候補の1つの
    文字と前記単語の1つの文字がマツチングしたときはそ
    の認識順位に応じた重みを付与して出力する重み付与出
    力手段を設けて認am位に応じたマツチング順位置が得
    られるようKする仁とにより、マツチング順位置のもっ
    とも高い単語を選択出力するようKしたことを特徴とす
    る文字認識後処理方式。
JP56136144A 1981-09-01 1981-09-01 文字認識後処理方式 Granted JPS5839378A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56136144A JPS5839378A (ja) 1981-09-01 1981-09-01 文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56136144A JPS5839378A (ja) 1981-09-01 1981-09-01 文字認識後処理方式

Publications (2)

Publication Number Publication Date
JPS5839378A true JPS5839378A (ja) 1983-03-08
JPH0119195B2 JPH0119195B2 (ja) 1989-04-10

Family

ID=15168329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56136144A Granted JPS5839378A (ja) 1981-09-01 1981-09-01 文字認識後処理方式

Country Status (1)

Country Link
JP (1) JPS5839378A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5839377A (ja) * 1981-09-02 1983-03-08 Toshiba Corp 文字認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5839377A (ja) * 1981-09-02 1983-03-08 Toshiba Corp 文字認識装置

Also Published As

Publication number Publication date
JPH0119195B2 (ja) 1989-04-10

Similar Documents

Publication Publication Date Title
US20050171949A1 (en) Method and system for mapping strings for comparison
US5377281A (en) Knowledge-based character recognition
Theeramunkong et al. Non-dictionary-based Thai word segmentation using decision trees
CN118093789A (zh) 医学文本纠错系统、医学查询提示文本展示方法及设备
Goldsmith Linguistica: An automatic morphological analyzer
US20030126138A1 (en) Computer-implemented column mapping system and method
CN109558591A (zh) 中文事件检测方法及装置
JPS5839378A (ja) 文字認識後処理方式
JPH09282418A (ja) 認識方式複合化装置および方法
Das An alternate approach for question answering system in Bengali language using classification techniques
JPH0226268B2 (ja)
JPS62251986A (ja) 誤読文字訂正処理装置
JP3109476B2 (ja) 候補数制御機能付き文字認識装置及び方法
JPH0576675B2 (ja)
JPH0795337B2 (ja) 単語認識方式
CN115329883A (zh) 一种语义相似度处理方法、装置、系统以及存储介质
JPS6252912B2 (ja)
Meknavin et al. Progress of combining trigram and winnow in Thai OCR error correction
JPS6162986A (ja) 認識順位決定方式
JP2746899B2 (ja) 文字認識装置
JPS63268082A (ja) パタ−ン認識装置
JPH0340434B2 (ja)
Kozareva et al. Using language resource independent detection for spanish named entity recognition
JP2880387B2 (ja) Ocr住所処理装置
JPS6116383A (ja) 単語読取方式