JPS5839378A

JPS5839378A - 文字認識後処理方式

Info

Publication number: JPS5839378A
Application number: JP56136144A
Authority: JP
Inventors: Hideaki Sugawara; 菅原　秀明; Eiichiro Yamamoto; 山本　栄一郎
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-09-01
Filing date: 1981-09-01
Publication date: 1983-03-08
Also published as: JPH0119195B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は文字認識後処理方式に関するものであって、特
に文字読取手段によ少入力された入力文字を文字辞書（
例えば漢字辞書）と文字認識処理を行ったのち認識結果
に対しその順位に応じて重みづけを行なって単語辞書と
のマツチングを行なうことにより、入力単語を正確に認
識できるよう忙した文字ｇ繊後処理方弐に関するもので
ある。

従来の文字認識方式では、例えば第１図に示す如く、Ｉ
Ｉ鐵部ｌにおりて入力文字の特徴抽出を行ないこれをフ
ァイルと比較してもっともＭ繊順位の高いものを出力レ
ジスタ２に出方し、その後、文字ｗ１ｗ＆後処理として
この出力レジスタ２に出力された３ケの文字が都道府県
基を示すものであるとあらかじめわかっている場合にけ
、これらの出力された文字を都道府県辞書３と順次マツ
チング回路４にて比較を行ない入力文字を正確に認識す
るようｋしている。

すなわち、第１図において、都道府県基の記入領斌に３
個の文字の記入されたデータ入力用紙（図示省略）を例
えばＯＣＲ（図示省略）で読取り、これにより得られ九
データにもとづき認識部１ではそれぞれに対する特徴抽
出にもとづき認錬順位のもっとも高い「宮」、「埼」、
「県」を出力レジスタ２に出力し、これらをマツチング
回路４において都道府県辞書３にセットされている都道
府県基と順次比較してその一致度のもっとも高い都道府
県基を読取出力として出力する本のである。

しかるにこのような後処理方式では、第１図に示す如く
、認識部１から「宮」、「埼」、「県」と出力され九こ
とにもとづき都道府県基とマツチングを行なったとき、
「宮崎系」と「宮城県」の２つが同−優先順位で存在す
ることになシ、自動的にこのいずれか一方を選択するこ
とができなかった。

そのために、第２図に示す如く、認識部で入力文字を認
識するとき複数順位の候補文字を出力することが提案さ
れえ、認識部で３＊字の都遍府県名を認識したとき第１
番目の文字について＃ｉ第２図に示す如く、第１順位が
「科」、第２顔位が「秩」、第３）＠位が「秋」、第４
順位が「材」、第５順位が「林」であシ、第２番目の文
字については第１順位〜第５順位が「田」、「内」、「
口」、「円」、「由」であシ、第３番目の文字について
は第１順位〜第５願位が「具」、「県」、「目」、「且
」、「旦」の場合に、これらの各候補文字を都道府県基
と順次比較する。すなわち都道府県辞書３からｇｔ番目
に「北海道」を読出し、その第１番目の文字「北」を前
記「科、秩、秋、材、林」と比較してマツチングをとる
。そして第２番目の文字「海」と前記「田、内、口、円
、由」と比較し、第３番目の文字「道」を前記「具、県
、目、且、旦」と比較しそれぞれ一致をとるがいずれも
不一致である１次に第２番目の単語「青森県」と同様な
マツチングを行なうが、第３番目の文字「県」が前記「
具、県、目、且、旦」と照合したとき第２願位の「県」
で一致が得られる。そして第３番目の単語「秋田系」と
マツチングを行なうとき、第１番目の文字「秋」と「科
、秩、秋、材、林」と照合して一致が得られ、同様に第
２番目の文字「田」と「田、内、口、円、由」と照合し
て一致が得られ、第３番目の文字「＃」と「具、県、目
、且、旦」と照合してこれまた一致が得られる。

かくして「秋田系」ではすべての文字が候補文字の１つ
と一致が得られるので、この”Ｒｒｙチ／グ度合のもっ
ともよい「秋田系」を読取文字として出力する。

しかしながらこのような複数順位の候補文字を単純に比
較する場合には、第３図に示す如き例では読取出力を１
つに確定できないことがある。すなわち、１ｇ１書目の
文字に対しては第１誉目〜第５番目の認識順位が「宮、
官、富、呂、宙」であり、第２番目の文字に対しては同
じ＜　Ｍ＃Ｊ＆）−位が「埼、崎、峠、城、地」であシ
、第３＃目の文字に対しては同じく「県、具、目、且、
旦」であり、これを文字マトリクス・レジスタ５から各
順位毎に３文字ずつ順位レジスタ６に出力して都道府県
辞書３の単語とマツチング回路４にて照合したとき、「
宮崎系」と「宮城県」とが同一のマツチング度合となり
区分することができない場合が存在する。

したがって本発明はこのような問題を改善するために認
識部からの候補出力に対し、その順位毎に重みを付与し
て単語辞書とのマツチングを求め、もっとも上位順位で
マツチングのとれた単語を求めるようＫした文字認識後
処理方式を提供することを目的とするものである。そし
てこのために本発明における文字認識後処理方式では、
読取文字を認識する文字認識手段と単語が保持されてい
る単語保持手段と前記文字Ｗ識字段にて認識された文字
が単語保持手段に保持された単語と一致することを検出
するマツチング手段を具備する文字認識後処理方式にお
いて、文字認識手段から複数順位の認識文字候補を出力
させ、マツチング手段において単語保持手段に保持され
た単語と前記複数順位の認識文字候補とマツチングを行
なうとともに、前記認識文字候補の１つの文字と前記単
語の１つの文字がマツチングしたときはそのｕｔｌ＆顔
位に応じた重みを付与して出力する蔦み付与出力手段を
設けて認識順位に応じたマツチング順位度が得られるよ
うにすることＫよシ、マツチング順位度のもつとも高い
単語を選択出力するようにしたことを特徴とする。

以下本発明の一実施例を第４図にもとづき説明する。

第４図において他図と同符号部は同一部分を示し、７は
マツチング回路、８は単語辞書、９Ｆｉマツチング結果
出力レジスタ、１０Ｆｉ結果判定回路、１１は出力レジ
スタである。

マツチング回路７は単語辞書８から読出した単語を認識
部１から文字マトリクス・レジスタ５に出力された第１
顔位〜第５ｉＷｓ位までの認識候補文字とを照合してマ
ツチング度行なうとともにマツチングした文字が存在す
る場合その認識順位に応じて、例えば第１順位の認識候
補文字と一致したとき「０」、第２順位の認識候補文字
と一致したとき「１」、第３順位の認識候補文字と一致
したとき「２」、第４順位のものと一致したとき「３」
、第６順位のものと一致したとき「４」、第１ＪＩａ位
〜第５順位のいずれのものとも一致しないとき「５」を
出力する。

単語辞書８は後処理に必要な、例えば都道府県名用の単
語集とか、各部道府県毎の例えば秋田県内の郡市町村名
のような分類された複数の単語集がファイルされている
ものであシ、マツチング回路７からの単語毎の制御信号
Ｃ８により分類別に、しかも一定の順序にしたがって所
定の分類の単語が順次出力されるものである。

マツチング結果出力レジスタ９は文字マトリクス・レジ
スタ５にセットされた候補文字と単語辞＠８から出力さ
れた単語との一致度を単語対応に保持するレジスタであ
る。

結果判定回路１０はマツチング回路７にて行なわれたマ
ツチングの結果、そのもっともマツチング度合の大きな
単語を選択出力するものである。

次に第４図の動作に、ついて説明する。

（１）認識部１から出力された認識候補文字はその認識
順位にしたがって文字マ）　ＩＪクス争レジスタ５に出
力される。例えばｆＩ１番目の文字に対しては第１順位
〜第５順位までの「科、秩、秋、材、林」が出力され、
第２番目の文字に対しては「田、内、口、円、由」が出
力され、第３番目の文字に対しては「具、県、目、且、
旦」が出力される。

そして前記認識部１の出力が都道府県名であることがあ
らかじめわかっているので、単語辞４１′８から都道府
県名用の単語集ファイル部が順次読出される。この場合
、マツチング回路７から出力される単語毎の制御信号Ｃ
，によ）先ず「北海道」が続出される。そしてマツチン
グ回路７からの順序制御信号Ｃ１−・により順位レジス
タ６に先ず「科田具」がセットされ「北海道」と比較さ
れるが、このとき第４番目に文字がないということでの
み一致するが他は一致しない０次にマツチング回路７か
ら順序制御信号Ｃｓ−１によシ順位レジスタ６に第２順
位の「秩内県」がセットされ、同様に「北海道」と照合
される。このようにしてマツチング回路７からの順序制
御信号Ｃｌ−２〜Ｃ１−４により順位レジスタ６に第３
順位の「秋口目」、第４順位の［材円且Ｊ％票５％位の
「林由旦」が順次セットされ「北海道」とのマツチング
が行なわれるが、これらは文字同志では不一致であ夛、
その結果第４誉目の文字が存在しないということで一致
するのみなので１マツチング結果出力レジスタ９０区分
１の（４）Ｋは「０」が記入され、区分１の（１）〜（
３）には「５」が記入される。

（２）　　このようにして第１番目の単＠「北海道」と
の照合が終るとマツチング回路７は制御信号Ｃ！を出力
し、第２番目の単語「青蛛県」を出力ばせる。それから
順序制御信号Ｃ１−・〜Ｃ１／％−４を出力して順位レ
ジスタ６に第１）Ｖ４位「科田具」〜第５顔位「林由旦
」を順次セットして前記「背森県」とマツチングする。

このとき第２顔位の「秩内県」における「県」と第４番
目の文字がないという２つの点で一致するので、マツチ
ング回路７はｉツチング結果出力レジスタ９０区分２の
（４）に「０」、（３）に「１」、（２）と（１）　４
Ｃそれぞれ「５」が記入されることになる。

（３）次いでマッチング回路７Ｆｉ制御信号Ｃｍにより
第３番目の単語「秋田系」を出力させ、それから前記（
１１、（２１と同様にして順位レジスタ６に「科田具」
〜「林由旦ＪｆＪ＠次セットしてこの「秋田系ｊとの照
合を行なう。この場合には、第１Ｍ位の「科田具」にお
ける「田」、第２顔位における「秩内県」の「県」、第
３順位の「秋口目」における「秋」と第４番目の文字が
ないということでそれぞれ一致が得られるので、マツチ
ング結果出力レジスタ９の区分３の（２）、（４）には
ｒｏＪが、（３）には「１」が、（１）には「２」がそ
れぞれｇｅ人されることになる。

（４）　　このようにしてすべての都道府県名との照合
が終了したとき、結果判定回路１０Ｆｉこのマツチング
結果出力レジスタ９の各区分の合計点のもっとも小さい
区分を求めてそのマツチング度合のもっとも大きいもの
として選択出力することになる。

したがってこの場合には区分３が合計点３のために最小
であり、かくしてｆｓ３番目の都道府県名の「秋田系」
を最終的な読取出力として出方レジスタＩＩＫ出力する
。このようにして後処理によ）［秋田系」を正確に取出
すことができる。

なお、ｔ７Ｊ５図に示す如く、結果判定回路１０’　Ｋ
第１人力レジスタ１２、第２人力レジスタ１３および比
較制御部１４を設け、第１人力レジスタ１２／／ｃマツ
チング回路７からの個々の区分のマツチング状態を入力
してこれを先に入力されている第２人力レジスタ１３に
保持されている区分のものとのマツチング状態と比較し
て、新らしく伝達された第１人力レジスタ１２のマツチ
ング度が大きいとき（第４図の状態では合計点の小さい
とき）にこれを第２人力レジスタ１３に記入し、小さい
ときにはそのまま第１人力レジスタ１２に次の単語に対
するマツチング度を入力するように構成すれば、第４図
におけるマツチング結果出力レジスタ９Ｆｉ不必要とな
り、単語辞書から読出される被照合単語数が大きい場合
で吃、簡単な構成で対処することがで舞る。

かくして、本発明によれば、第６図に示す如く、文字マ
トリクス・レジスタ５に第１願位〜第５順位として「宮
埼県」〜「宙地旦」と出方された場合でも、マツチング
回路７において都道府県静置スタの区分９−０に合計点
が「１」として６１″人されるが「宮城系」に対しては
同じく区分９−ｘａＫ合計点か「３」として記入される
ことになり、これよシ「宮崎県」が後処理結果として出
力されることになる。

本発明を一般的に説明すれば、μ８図に示す如く、入力
単語ｆ　Ｌｔ　ｙｌｌｇ　、・・・Ｌ％（鴨文字で単語
を構成するものとする）とし、Ｌｌに対する認識候補を
Ｌｔ（１１ｅＬｔ（Ｌ　＋＋＋　Ｌ＞（ｙ　（ｍＲ候補
とＬ”ｒ第１　ＪＱｉ位〜第５顔位までｆ採用するとき
）とする。また重みを第１願位〜第５願位に対してＷｉ
ｌｌ〜Ｖｄｂ＋とし第６ノ１位以下のものに対して■・
）とし、Ｗｌｌｌ（Ｗｄ・・・（′Ｖ＠ｉｌとしてかつ
Ｗ幻〜ｗｉ＋はぼ線的な変化をもつものとする。そして
単１１３辞曹に登録されている標準単一（北海道とか育
森県に和尚するもの）　８１，８１１・　８％と入力単
語ＬｘｅＬ−・・Ｌｎとの相違度りを各文字ごとの相違
度の和として表現する。各文字Ｌｌ　、Ｌｓ・・および
Ｌｓごとの相違度は、例えばｓｌを考えたとき認識候補
Ｌ　１（４１でマツチングが得られたときその相違ｆ　
ｄ（Ｓｘ、ＬりはＮ４＋となる。もしもマツチングする
認１１！餘補がなければ相違度はＷ荀となる。したがっ
て単語の相違度りは、Ｄ−、Ｌ’　　ｄ（ｓイ、Ｌｌ）１１となり、このＤが最小となる単語辞書の単語を正しいも
のとして判断することにする。

なお上紀貌明では候補文字を第５順位まで選択した例に
ついて説明したがこれに限定されるものでもない、そし
て順位の高いものを小さな数の貰みづけした例について
説明したが、逆の場合でも同様である。

以上説明の如く、本発明によれば候補文字に対しその候
補順位に応じ友重みづけを行なって単語単位にこの重み
の合計を求めることにょシ明確な後処理を行なうことが
できる。

【図面の簡単な説明】

紺１図〜第３図は従来の後処理蔽明図、第４図は本発明
の一実施例構成図、第５図はその結果判定回路の他の実
施例、第６図〜第８図は本発明の詳細な説明図である。図中、１はｇ繊部、２は出力レジスタ、３は都道府県辞
書、４はマツチング回路、ｓＦｉ文字マトリクス、レジ
２り、６は順位レジスタ、７はマツチング回路、８ｉｌ
ｔ単語辞書、９ｉｉマツチング結果出力レジスタ、１０
は結果判定回路、１１は出力レジスタをそれぞれ示す。特許出願人　　富士通株式会社代理人弁理士　　山　谷晧榮

Claims

【特許請求の範囲】

（１）読取文字をＩ！識する文字＊ｍ手段と単語が保持
されている単語保持手段と前記文字認識手段にてｌＷ識
され九文字が単語保持手段に保持された単語と一致する
ことを検出するマツチング手段を具備すゐ文字認識後処
理方式において、文字認識手段から被数順位のｇｗ＆文
字候補を出力させ、マツチング手段において単語保持手
段に保持された単語と前記複数順位のｍ識文字候補とマ
ツチングを行なうとともに、前記認識文字候補の１つの
文字と前記単語の１つの文字がマツチングしたときはそ
の認識順位に応じた重みを付与して出力する重み付与出
力手段を設けて認ａｍ位に応じたマツチング順位置が得
られるようＫする仁とにより、マツチング順位置のもっ
とも高い単語を選択出力するようＫしたことを特徴とす
る文字認識後処理方式。