JPS62284480A

JPS62284480A - 文字認識後処理方式

Info

Publication number: JPS62284480A
Application number: JP61126792A
Authority: JP
Inventors: Jiichi Igarashi; 五十嵐　治一
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-05-31
Filing date: 1986-05-31
Publication date: 1987-12-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】３、発明の詳細な説明［技術分野］本発明は、ＯＣＲ文字認識装置等における後処理方式に
関する。

［従来技術］ＯＣＲ文字認識装置等においては、一般に誤認識と判定
された文字について、更に後処理を施こすことによって
認識精度を高めている。近年、この文字認識の後処理と
して言語の文法知識が利用することが考えられてきてい
る。その代表的なものとして、誤認識された対象文字を
含む文章に対して形態素解析を施こし、品詞間のチェッ
ク等を行う方式がある０例えば、情報処理学会第２８回
（昭和５９年前期）全国大会予稿集４Ｍ−９１，２４３
〜１２４４頁「形態素、解析による文字認識の多義判定
実験」には１句読点またはスペースを境界として解析文
字列を切り出し、該解析文字列中の各候補文字を組合せ
ていくつかの候補文字列を作成し、各候補文字列につい
てそれぞれ形態素解析を行い、日本語としての尤度を評
価することが記載されている。しかし、これはすべての
候補文字の組み合せについて実施する必要があるので、
計算時間が増大する足点がある。また、昭和５７年度電
子通信学会総合全国大会予稿集５−２６３１２７８頁「
言語構造の文字認識への応用」には。

尤度評価値として文節数と累積類似値を用いることが記
載されているが、これもすべての可能な形態素の分割解
析を施こして最尤評価を行うので、計算時間の増大がさ
けられない。

［目　的〕本発明の目的は、言語の知識を利用して文字認識の後処
理を行うにあたり、その処理時間の短縮を図ることにあ
る。

［構　成コ本発明は、誤認識された文字を含む文字列に対して単語
切り出しを行い、単語間の品詞接続チェックを行うにあ
たり、候補文字の候補順位にしたがって、まず最高位の
候補文字を選択して単語を切り出し、最大の評価値を持
つ単語を選択して当該候補文字を最終文字と決定する。

接続または切り出せる単語がなければ、次順位の候補文
字を選択する。また、すべての候補文字について接続ま
たは切り出せる単語がなければ、バックトラックに起こ
して直前の単語切り出し位置に戻り、処理をやり直す。

以下１本発明の一実施例について図面により説明する。

第１図は本発明の一実施例のブロック図を示す。

入力文に対し、文字認識部１において各文字ごとの候補
文字とその類似度が計算される。この類似度をもとにし
て誤認識文字検出部２において誤認識文字の検出が行わ
れ、認識文字列と共に誤認識の候補文字が後処理部３へ
送られる。後処理部３は送られてきた文字列に対し単語
辞書１０、品詞分類表１１．用言活用表１２、接続重み
行列表１３等を参照して単語切り出し、単語間の品詞接
続チェックを行い、最大評価値を持つ単語を選択して最
終文字を決定する。

単語辞書１０は、第２図に示すように、各単語ごとに、
読み（単語の読みをひらがな化したもの）、表記（出力
されるかな、漢字の表記）、品詞、頻度ランク及岱その
他の情報を含んでいる。本実施例では、読みはカナ表記
で６文字とし１表記も読みに対応して６文字とする。

品詞分類表１１と用言活用表１２は、接続重み行列表１
３を検索する際の行、列の番号を示したテーブルである
６品詞分類表１１は活用語尾を持たない品詞に対応し、
第３図のようなレコード構成をとる。用言活用表１２は
活用語尾を有する品詞に対応し、第３図（ロ）のような
レコード構成をとる。ニーで、活用語尾櫨には動詞、形
容詞なとの語幹に続く語尾が記されており、この語尾が
入力文字にマツチして初めて評価の対象となる。

接続重み行列表１３は第４図に示すように、行方向が受
はコード、列方向がか一すコードをとるマトリクスであ
り、各交点位置が接続の重みを表わしている。この接続
重み行列表１３が検索されるまでの処理手順は、単語辞
書１０を検索して、該当単語の品詞で品詞分類表１１あ
るいは用言活用表１２で受け、かＮりを見つけ（用言の
場合は。

このとき活用語尾と後続文字列のマツチングを行う）、
接続重み行列表１３で接続チェックを行う流れとなる。

第５図は本発明の中心をなす後処理部３の処理フローチ
ャートを示したものである。以下、第５図にもとづいて
後処理部３の処理を詳述する。

認識された文字列からユニット（句点、読点で囲まれた
文字列）を切り出しくステップ１０１）、その先頭から
６文字分読み込む（ステップ１０２）。

ユニット内に誤認識文字を含む場合には、まず第１位候
補文字を選択しくステップ１０３）、単語辞書１０内を
検索することにより単語を切り出す（ステップ１０４）
、この切り出した単語の品詞で品詞分類表１１あるいは
用言活用表１２を検索し、活用語に対して入力文字列と
活用語尾についてマツチングをとった後（ステップ１０
５）、接続重み行列表１３により直前単語との接続チェ
ックを行う（ステップ１０６）。この接続チェックをす
べての候補単語について行う。そして、接続が可と判定
された単語について、接続重み、読みの長さ、使用頻度
等にもとづいて評価値を計算しくステップ１０７）、最
優先単語を選択する（ステップ１０８）。なお、ステッ
プ１０７では、計算した評価値、単語情報、現在の６文
字読込み位置を示すポインタ等をメモリにストアしてお
く。

次にユニットの終りかどうか判定しくステップ１０９）
、終りなら次のユニットの処理へ進み（ステップ１１０
）、終りでなければポインタを次に進めてステップ１０
２に戻る。

もし、ステップ１０６で、すべての候補単語が棄却され
た場合には、読み込んだ６文字中に誤認識文字があるか
どうか判定する（ステップ１１２）。

そして、誤認識文字がなかったときは、現在の６文字読
み込み位置を示すポインタ、ならびにメモリに蓄えられ
ている評価値、単語情報等をゼロクリアしくステップ１
１５）、直前のポインタ位置に戻す（ステップ１１６）
。次に、そのポインタ位置に対応してメモリに蓄えられ
ていた単語の中で、最も評価値の大きいものをゼロクリ
アしくステップ１１７）１次優先単語を選択する（ステ
ップ１１８）。

一方、ステップ１１２で誤認識文字が存在すると判定さ
れると、次位候補文字を選択して候補文字の入れ替えを
行い（ステップ１１３）、すべての候補文字について処
理が終っていた場合はステップ１５へ進むが、そうでな
ければステップ１０４から再実行する（ステップ１１４
）。

次に、入力文がｒ車でほこをはこぶ」とした場合につい
て説明する。

文字認識部１で文字認識が行われ、その類似度計算から
誤認識文字検出部２において、誤認識文字が「は」と検
出され、その候補文字が第１位から順に「ぬ」、「は」
、「な」であったとする。

後処理部３において、ステップ１０１でユニットとして
ｒ車ではこをはこぶ」が切り出され、ステップ１０２で
「車ではこをは」が読み込まれる。

ステップ１０３で１位候補文字「ぬ」が選択され、ｒ車
でぬこをは」についてステップ１０４以下の処理が行わ
れる。ステップ１０４〜１０６の処理結果、候補単語と
して「車」が切り出される。

候補単語が１つの場合はステップ１０７〜１１１を経て
ステップ１０２に戻る。この時、ポインタは「で」の位
置を指している。従って、ステップ１０２では「ではこ
をはこ」が読み込まれ、ステップ１０３で「ぬ」が選択
され、「でぬこをはこ」がステップ０４〜１０６で処理
される。その結果、「で」が切り出され、ステップ１０
７〜１１１を経て再びステップ１０２に戻ってくる。

しかして、次の６文字「ぬこをはこぶ」からは単語が切
り出せないので、ステップ１０６からステップ１１２へ
処理が移る。この場合、ステップ１１３により「ぬ」が
次位候補文字「は」に入れ替えられ、「はこをはこぶ」
についてステップ１０４以下の処理が行われる。この結
果、「はこ」（名詞）と「は」　（助詞）とが切り出さ
れるが。

ステップ１０７の評価値計算により、ステップ１０８で
は最優先単語として［はこ」が選択される。

以下、同様にしてステップ１１１でポインタが進められ
、ユニットの終りまで後処理が実行されていく。そして
、もし途中でバックトラック（ステップ１１５〜１１７
の処理）が起きなければ、第３位候補文字「た」を代入
した文字列は解析対象となることはない。したがって、
正解文字が候補文字中の上位にくるような認識率の高い
ＯＣＲ文字認識等に対して特に処理の高速化が達成され
る。

［効　果コ以上の説明から明らかな如く、本発明によれば、局所的
に最も尤度の高い単語を優先して最終文字と決定してい
るので、最少の処理で済み、処理の高速化がもたらされ
る。特に、候補順位を単語の評価値より優先して探索を
行っているので、認識率の高いＯＣＲ文字認識の後処理
に優れている。

【図面の簡単な説明】

第１図は本発明の一実施例の全体構成図、第２図は単語
辞書の一例を示す図、第３図は品詞分類表、用言活用表
の一例を示す図、。第４図は接続重み行列表の一例を示
す図、第５図は第１図におけ、る後処理部の処理フロー
を示す図である。１・・・文字認識部、　２・・誤認識文字検出部、３・
・・後処理部、　１ｏ・・・単語辞書、１１・・・品詞
分類表、　　１２・・・用言活用表。１３・・・接続重み行列表。第１図第３図・り匣コ＝止ヨ］］コ第２図第４図

Claims

【特許請求の範囲】

（１）認識された文字列に対して単語切り出しを行い、
該単語間の品詞接続チェックを行うことにより誤認識文
字位置の最終文字を決定する文字認識後処理方式におい
て、まず誤認識文字位置の候補文字の第１位候補文字を
優先して選択して単語を切り出し、その最大の評価値を
持つ単語を選択し、接続または切り出せる単語がない場
合、次位候補文字を選択することを特徴とする文字認識
後処理方式。
（２）すべての候補文字について接続または切り出せる
単語がない場合、直前の単語切り出し位置に戻って処理
をやり直すことを特徴とする特許請求の範囲第１項記載
の文字認識後処理方式。