JPS62284480A - 文字認識後処理方式 - Google Patents
文字認識後処理方式Info
- Publication number
- JPS62284480A JPS62284480A JP61126792A JP12679286A JPS62284480A JP S62284480 A JPS62284480 A JP S62284480A JP 61126792 A JP61126792 A JP 61126792A JP 12679286 A JP12679286 A JP 12679286A JP S62284480 A JPS62284480 A JP S62284480A
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- candidate
- words
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
3、発明の詳細な説明
[技術分野]
本発明は、OCR文字認識装置等における後処理方式に
関する。
関する。
[従来技術]
OCR文字認識装置等においては、一般に誤認識と判定
された文字について、更に後処理を施こすことによって
認識精度を高めている。近年、この文字認識の後処理と
して言語の文法知識が利用することが考えられてきてい
る。その代表的なものとして、誤認識された対象文字を
含む文章に対して形態素解析を施こし、品詞間のチェッ
ク等を行う方式がある0例えば、情報処理学会第28回
(昭和59年前期)全国大会予稿集4M−91,243
〜1244頁「形態素、解析による文字認識の多義判定
実験」には1句読点またはスペースを境界として解析文
字列を切り出し、該解析文字列中の各候補文字を組合せ
ていくつかの候補文字列を作成し、各候補文字列につい
てそれぞれ形態素解析を行い、日本語としての尤度を評
価することが記載されている。しかし、これはすべての
候補文字の組み合せについて実施する必要があるので、
計算時間が増大する足点がある。また、昭和57年度電
子通信学会総合全国大会予稿集5−2631278頁「
言語構造の文字認識への応用」には。
された文字について、更に後処理を施こすことによって
認識精度を高めている。近年、この文字認識の後処理と
して言語の文法知識が利用することが考えられてきてい
る。その代表的なものとして、誤認識された対象文字を
含む文章に対して形態素解析を施こし、品詞間のチェッ
ク等を行う方式がある0例えば、情報処理学会第28回
(昭和59年前期)全国大会予稿集4M−91,243
〜1244頁「形態素、解析による文字認識の多義判定
実験」には1句読点またはスペースを境界として解析文
字列を切り出し、該解析文字列中の各候補文字を組合せ
ていくつかの候補文字列を作成し、各候補文字列につい
てそれぞれ形態素解析を行い、日本語としての尤度を評
価することが記載されている。しかし、これはすべての
候補文字の組み合せについて実施する必要があるので、
計算時間が増大する足点がある。また、昭和57年度電
子通信学会総合全国大会予稿集5−2631278頁「
言語構造の文字認識への応用」には。
尤度評価値として文節数と累積類似値を用いることが記
載されているが、これもすべての可能な形態素の分割解
析を施こして最尤評価を行うので、計算時間の増大がさ
けられない。
載されているが、これもすべての可能な形態素の分割解
析を施こして最尤評価を行うので、計算時間の増大がさ
けられない。
[目 的〕
本発明の目的は、言語の知識を利用して文字認識の後処
理を行うにあたり、その処理時間の短縮を図ることにあ
る。
理を行うにあたり、その処理時間の短縮を図ることにあ
る。
[構 成コ
本発明は、誤認識された文字を含む文字列に対して単語
切り出しを行い、単語間の品詞接続チェックを行うにあ
たり、候補文字の候補順位にしたがって、まず最高位の
候補文字を選択して単語を切り出し、最大の評価値を持
つ単語を選択して当該候補文字を最終文字と決定する。
切り出しを行い、単語間の品詞接続チェックを行うにあ
たり、候補文字の候補順位にしたがって、まず最高位の
候補文字を選択して単語を切り出し、最大の評価値を持
つ単語を選択して当該候補文字を最終文字と決定する。
接続または切り出せる単語がなければ、次順位の候補文
字を選択する。また、すべての候補文字について接続ま
たは切り出せる単語がなければ、バックトラックに起こ
して直前の単語切り出し位置に戻り、処理をやり直す。
字を選択する。また、すべての候補文字について接続ま
たは切り出せる単語がなければ、バックトラックに起こ
して直前の単語切り出し位置に戻り、処理をやり直す。
以下1本発明の一実施例について図面により説明する。
第1図は本発明の一実施例のブロック図を示す。
入力文に対し、文字認識部1において各文字ごとの候補
文字とその類似度が計算される。この類似度をもとにし
て誤認識文字検出部2において誤認識文字の検出が行わ
れ、認識文字列と共に誤認識の候補文字が後処理部3へ
送られる。後処理部3は送られてきた文字列に対し単語
辞書10、品詞分類表11.用言活用表12、接続重み
行列表13等を参照して単語切り出し、単語間の品詞接
続チェックを行い、最大評価値を持つ単語を選択して最
終文字を決定する。
文字とその類似度が計算される。この類似度をもとにし
て誤認識文字検出部2において誤認識文字の検出が行わ
れ、認識文字列と共に誤認識の候補文字が後処理部3へ
送られる。後処理部3は送られてきた文字列に対し単語
辞書10、品詞分類表11.用言活用表12、接続重み
行列表13等を参照して単語切り出し、単語間の品詞接
続チェックを行い、最大評価値を持つ単語を選択して最
終文字を決定する。
単語辞書10は、第2図に示すように、各単語ごとに、
読み(単語の読みをひらがな化したもの)、表記(出力
されるかな、漢字の表記)、品詞、頻度ランク及岱その
他の情報を含んでいる。本実施例では、読みはカナ表記
で6文字とし1表記も読みに対応して6文字とする。
読み(単語の読みをひらがな化したもの)、表記(出力
されるかな、漢字の表記)、品詞、頻度ランク及岱その
他の情報を含んでいる。本実施例では、読みはカナ表記
で6文字とし1表記も読みに対応して6文字とする。
品詞分類表11と用言活用表12は、接続重み行列表1
3を検索する際の行、列の番号を示したテーブルである
6品詞分類表11は活用語尾を持たない品詞に対応し、
第3図のようなレコード構成をとる。用言活用表12は
活用語尾を有する品詞に対応し、第3図(ロ)のような
レコード構成をとる。ニーで、活用語尾櫨には動詞、形
容詞なとの語幹に続く語尾が記されており、この語尾が
入力文字にマツチして初めて評価の対象となる。
3を検索する際の行、列の番号を示したテーブルである
6品詞分類表11は活用語尾を持たない品詞に対応し、
第3図のようなレコード構成をとる。用言活用表12は
活用語尾を有する品詞に対応し、第3図(ロ)のような
レコード構成をとる。ニーで、活用語尾櫨には動詞、形
容詞なとの語幹に続く語尾が記されており、この語尾が
入力文字にマツチして初めて評価の対象となる。
接続重み行列表13は第4図に示すように、行方向が受
はコード、列方向がか一すコードをとるマトリクスであ
り、各交点位置が接続の重みを表わしている。この接続
重み行列表13が検索されるまでの処理手順は、単語辞
書10を検索して、該当単語の品詞で品詞分類表11あ
るいは用言活用表12で受け、かNりを見つけ(用言の
場合は。
はコード、列方向がか一すコードをとるマトリクスであ
り、各交点位置が接続の重みを表わしている。この接続
重み行列表13が検索されるまでの処理手順は、単語辞
書10を検索して、該当単語の品詞で品詞分類表11あ
るいは用言活用表12で受け、かNりを見つけ(用言の
場合は。
このとき活用語尾と後続文字列のマツチングを行う)、
接続重み行列表13で接続チェックを行う流れとなる。
接続重み行列表13で接続チェックを行う流れとなる。
第5図は本発明の中心をなす後処理部3の処理フローチ
ャートを示したものである。以下、第5図にもとづいて
後処理部3の処理を詳述する。
ャートを示したものである。以下、第5図にもとづいて
後処理部3の処理を詳述する。
認識された文字列からユニット(句点、読点で囲まれた
文字列)を切り出しくステップ101)、その先頭から
6文字分読み込む(ステップ102)。
文字列)を切り出しくステップ101)、その先頭から
6文字分読み込む(ステップ102)。
ユニット内に誤認識文字を含む場合には、まず第1位候
補文字を選択しくステップ103)、単語辞書10内を
検索することにより単語を切り出す(ステップ104)
、この切り出した単語の品詞で品詞分類表11あるいは
用言活用表12を検索し、活用語に対して入力文字列と
活用語尾についてマツチングをとった後(ステップ10
5)、接続重み行列表13により直前単語との接続チェ
ックを行う(ステップ106)。この接続チェックをす
べての候補単語について行う。そして、接続が可と判定
された単語について、接続重み、読みの長さ、使用頻度
等にもとづいて評価値を計算しくステップ107)、最
優先単語を選択する(ステップ108)。なお、ステッ
プ107では、計算した評価値、単語情報、現在の6文
字読込み位置を示すポインタ等をメモリにストアしてお
く。
補文字を選択しくステップ103)、単語辞書10内を
検索することにより単語を切り出す(ステップ104)
、この切り出した単語の品詞で品詞分類表11あるいは
用言活用表12を検索し、活用語に対して入力文字列と
活用語尾についてマツチングをとった後(ステップ10
5)、接続重み行列表13により直前単語との接続チェ
ックを行う(ステップ106)。この接続チェックをす
べての候補単語について行う。そして、接続が可と判定
された単語について、接続重み、読みの長さ、使用頻度
等にもとづいて評価値を計算しくステップ107)、最
優先単語を選択する(ステップ108)。なお、ステッ
プ107では、計算した評価値、単語情報、現在の6文
字読込み位置を示すポインタ等をメモリにストアしてお
く。
次にユニットの終りかどうか判定しくステップ109)
、終りなら次のユニットの処理へ進み(ステップ110
)、終りでなければポインタを次に進めてステップ10
2に戻る。
、終りなら次のユニットの処理へ進み(ステップ110
)、終りでなければポインタを次に進めてステップ10
2に戻る。
もし、ステップ106で、すべての候補単語が棄却され
た場合には、読み込んだ6文字中に誤認識文字があるか
どうか判定する(ステップ112)。
た場合には、読み込んだ6文字中に誤認識文字があるか
どうか判定する(ステップ112)。
そして、誤認識文字がなかったときは、現在の6文字読
み込み位置を示すポインタ、ならびにメモリに蓄えられ
ている評価値、単語情報等をゼロクリアしくステップ1
15)、直前のポインタ位置に戻す(ステップ116)
。次に、そのポインタ位置に対応してメモリに蓄えられ
ていた単語の中で、最も評価値の大きいものをゼロクリ
アしくステップ117)1次優先単語を選択する(ステ
ップ118)。
み込み位置を示すポインタ、ならびにメモリに蓄えられ
ている評価値、単語情報等をゼロクリアしくステップ1
15)、直前のポインタ位置に戻す(ステップ116)
。次に、そのポインタ位置に対応してメモリに蓄えられ
ていた単語の中で、最も評価値の大きいものをゼロクリ
アしくステップ117)1次優先単語を選択する(ステ
ップ118)。
一方、ステップ112で誤認識文字が存在すると判定さ
れると、次位候補文字を選択して候補文字の入れ替えを
行い(ステップ113)、すべての候補文字について処
理が終っていた場合はステップ15へ進むが、そうでな
ければステップ104から再実行する(ステップ114
)。
れると、次位候補文字を選択して候補文字の入れ替えを
行い(ステップ113)、すべての候補文字について処
理が終っていた場合はステップ15へ進むが、そうでな
ければステップ104から再実行する(ステップ114
)。
次に、入力文がr車でほこをはこぶ」とした場合につい
て説明する。
て説明する。
文字認識部1で文字認識が行われ、その類似度計算から
誤認識文字検出部2において、誤認識文字が「は」と検
出され、その候補文字が第1位から順に「ぬ」、「は」
、「な」であったとする。
誤認識文字検出部2において、誤認識文字が「は」と検
出され、その候補文字が第1位から順に「ぬ」、「は」
、「な」であったとする。
後処理部3において、ステップ101でユニットとして
r車ではこをはこぶ」が切り出され、ステップ102で
「車ではこをは」が読み込まれる。
r車ではこをはこぶ」が切り出され、ステップ102で
「車ではこをは」が読み込まれる。
ステップ103で1位候補文字「ぬ」が選択され、r車
でぬこをは」についてステップ104以下の処理が行わ
れる。ステップ104〜106の処理結果、候補単語と
して「車」が切り出される。
でぬこをは」についてステップ104以下の処理が行わ
れる。ステップ104〜106の処理結果、候補単語と
して「車」が切り出される。
候補単語が1つの場合はステップ107〜111を経て
ステップ102に戻る。この時、ポインタは「で」の位
置を指している。従って、ステップ102では「ではこ
をはこ」が読み込まれ、ステップ103で「ぬ」が選択
され、「でぬこをはこ」がステップ04〜106で処理
される。その結果、「で」が切り出され、ステップ10
7〜111を経て再びステップ102に戻ってくる。
ステップ102に戻る。この時、ポインタは「で」の位
置を指している。従って、ステップ102では「ではこ
をはこ」が読み込まれ、ステップ103で「ぬ」が選択
され、「でぬこをはこ」がステップ04〜106で処理
される。その結果、「で」が切り出され、ステップ10
7〜111を経て再びステップ102に戻ってくる。
しかして、次の6文字「ぬこをはこぶ」からは単語が切
り出せないので、ステップ106からステップ112へ
処理が移る。この場合、ステップ113により「ぬ」が
次位候補文字「は」に入れ替えられ、「はこをはこぶ」
についてステップ104以下の処理が行われる。この結
果、「はこ」(名詞)と「は」 (助詞)とが切り出さ
れるが。
り出せないので、ステップ106からステップ112へ
処理が移る。この場合、ステップ113により「ぬ」が
次位候補文字「は」に入れ替えられ、「はこをはこぶ」
についてステップ104以下の処理が行われる。この結
果、「はこ」(名詞)と「は」 (助詞)とが切り出さ
れるが。
ステップ107の評価値計算により、ステップ108で
は最優先単語として[はこ」が選択される。
は最優先単語として[はこ」が選択される。
以下、同様にしてステップ111でポインタが進められ
、ユニットの終りまで後処理が実行されていく。そして
、もし途中でバックトラック(ステップ115〜117
の処理)が起きなければ、第3位候補文字「た」を代入
した文字列は解析対象となることはない。したがって、
正解文字が候補文字中の上位にくるような認識率の高い
OCR文字認識等に対して特に処理の高速化が達成され
る。
、ユニットの終りまで後処理が実行されていく。そして
、もし途中でバックトラック(ステップ115〜117
の処理)が起きなければ、第3位候補文字「た」を代入
した文字列は解析対象となることはない。したがって、
正解文字が候補文字中の上位にくるような認識率の高い
OCR文字認識等に対して特に処理の高速化が達成され
る。
[効 果コ
以上の説明から明らかな如く、本発明によれば、局所的
に最も尤度の高い単語を優先して最終文字と決定してい
るので、最少の処理で済み、処理の高速化がもたらされ
る。特に、候補順位を単語の評価値より優先して探索を
行っているので、認識率の高いOCR文字認識の後処理
に優れている。
に最も尤度の高い単語を優先して最終文字と決定してい
るので、最少の処理で済み、処理の高速化がもたらされ
る。特に、候補順位を単語の評価値より優先して探索を
行っているので、認識率の高いOCR文字認識の後処理
に優れている。
第1図は本発明の一実施例の全体構成図、第2図は単語
辞書の一例を示す図、第3図は品詞分類表、用言活用表
の一例を示す図、。第4図は接続重み行列表の一例を示
す図、第5図は第1図におけ、る後処理部の処理フロー
を示す図である。 1・・・文字認識部、 2・・誤認識文字検出部、3・
・・後処理部、 1o・・・単語辞書、11・・・品詞
分類表、 12・・・用言活用表。 13・・・接続重み行列表。 第1図 第3図 ・り匣コ=止ヨ]]コ 第2図 第4図
辞書の一例を示す図、第3図は品詞分類表、用言活用表
の一例を示す図、。第4図は接続重み行列表の一例を示
す図、第5図は第1図におけ、る後処理部の処理フロー
を示す図である。 1・・・文字認識部、 2・・誤認識文字検出部、3・
・・後処理部、 1o・・・単語辞書、11・・・品詞
分類表、 12・・・用言活用表。 13・・・接続重み行列表。 第1図 第3図 ・り匣コ=止ヨ]]コ 第2図 第4図
Claims (2)
- (1)認識された文字列に対して単語切り出しを行い、
該単語間の品詞接続チェックを行うことにより誤認識文
字位置の最終文字を決定する文字認識後処理方式におい
て、まず誤認識文字位置の候補文字の第1位候補文字を
優先して選択して単語を切り出し、その最大の評価値を
持つ単語を選択し、接続または切り出せる単語がない場
合、次位候補文字を選択することを特徴とする文字認識
後処理方式。 - (2)すべての候補文字について接続または切り出せる
単語がない場合、直前の単語切り出し位置に戻って処理
をやり直すことを特徴とする特許請求の範囲第1項記載
の文字認識後処理方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61126792A JPS62284480A (ja) | 1986-05-31 | 1986-05-31 | 文字認識後処理方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61126792A JPS62284480A (ja) | 1986-05-31 | 1986-05-31 | 文字認識後処理方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS62284480A true JPS62284480A (ja) | 1987-12-10 |
Family
ID=14944059
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61126792A Pending JPS62284480A (ja) | 1986-05-31 | 1986-05-31 | 文字認識後処理方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS62284480A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5155077A (en) * | 1991-09-03 | 1992-10-13 | Ford Motor Company | Catalyst for purification of lean-burn engine exhaust gas |
-
1986
- 1986-05-31 JP JP61126792A patent/JPS62284480A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5155077A (en) * | 1991-09-03 | 1992-10-13 | Ford Motor Company | Catalyst for purification of lean-burn engine exhaust gas |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TW448381B (en) | Automatic segmentation of a text | |
| EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
| US20110106814A1 (en) | Search device, search index creating device, and search system | |
| Srihari et al. | Combining statistical and syntactic methods in recognizing handwritten sentences | |
| JP2004133565A (ja) | インターネットを利用した文字認識の後処理装置 | |
| Chao et al. | Automatic spelling correction for ASR corpus in traditional chinese language using seq2seq models | |
| JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
| Uchimoto et al. | Morphological analysis of a large spontaneous speech corpus in Japanese | |
| JPS62284480A (ja) | 文字認識後処理方式 | |
| JPS6118072A (ja) | 辞書デ−タの自動登録方式 | |
| KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
| JPS62285189A (ja) | 文字認識後処理方式 | |
| JPS62284481A (ja) | 文字認識後処理方式 | |
| JPH06149872A (ja) | 文章入力装置 | |
| JP3001334B2 (ja) | 認識用言語処理装置 | |
| JP2997151B2 (ja) | 漢字変換装置 | |
| Za'bah et al. | WORD SEGMENTATION OF OUTPUT RESPONSE FOR SIGN LANGUAGE DEVICES | |
| JP3084864B2 (ja) | 文章入力装置 | |
| JPS62247480A (ja) | 文字認識後処理方式 | |
| JPH0262659A (ja) | 日本文訂正候補文字抽出装置 | |
| JPH0869467A (ja) | 日本語文書処理装置 | |
| JPS62293386A (ja) | 文字認識後処理方式 | |
| JPS62285190A (ja) | 未知語処理方法 | |
| JPS6132167A (ja) | カナ漢字変換処理装置 | |
| JP2001022752A (ja) | 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体 |