JPH0540853A - 文字認識結果の後処理方式 - Google Patents
文字認識結果の後処理方式Info
- Publication number
- JPH0540853A JPH0540853A JP3196508A JP19650891A JPH0540853A JP H0540853 A JPH0540853 A JP H0540853A JP 3196508 A JP3196508 A JP 3196508A JP 19650891 A JP19650891 A JP 19650891A JP H0540853 A JPH0540853 A JP H0540853A
- Authority
- JP
- Japan
- Prior art keywords
- word
- candidate
- words
- character
- certainty factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012805 post-processing Methods 0.000 title claims description 12
- 238000000034 method Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 文字認識結果が誤りであっても、文法的に正
しい単語に修正する。 【構成】 ステップ1において文字認識を行い、候補文
字とその候補文字と元の文字パターンとの類似度を表す
距離を計算する。ステップ2において候補文字を組合わ
せて候補単語を作成し、かつ、前記距離から候補単語の
確信度を算出する。ステップ3において候補単語の確信
度の最大値が所定のしきい値以下の単語に対し、文法辞
書4と品詞辞書5の内容を参照し、その単語に近接する
候補単語の確信度の最大値が所定のしきい値よりも大き
い単語との文法的関係を利用して、その単語を文法的に
正しい単語に修正する。
しい単語に修正する。 【構成】 ステップ1において文字認識を行い、候補文
字とその候補文字と元の文字パターンとの類似度を表す
距離を計算する。ステップ2において候補文字を組合わ
せて候補単語を作成し、かつ、前記距離から候補単語の
確信度を算出する。ステップ3において候補単語の確信
度の最大値が所定のしきい値以下の単語に対し、文法辞
書4と品詞辞書5の内容を参照し、その単語に近接する
候補単語の確信度の最大値が所定のしきい値よりも大き
い単語との文法的関係を利用して、その単語を文法的に
正しい単語に修正する。
Description
【0001】
【産業上の利用分野】本発明は、光学的に読取った文字
を認識して出力する装置に関し、特に文字認識結果に誤
りが存在した場合に、これを自動的に修正して出力する
文字認識結果の後処理方式に関するものである。
を認識して出力する装置に関し、特に文字認識結果に誤
りが存在した場合に、これを自動的に修正して出力する
文字認識結果の後処理方式に関するものである。
【0002】
【従来の技術】従来、この分野の技術としては、例え
ば、特開平2−267670に示されるものがあった。
上記文献に開示された技術は、単語中に認識不能文字
(リジェクト文字)が存在した場合、このリジェクト文
字の前後の文字、前後の文字配列及び位置に基づいて文
字テーブルから自動的に候補文字を呼出し、これをリジ
ェクト文字に置き換えた単語について検索を行うことに
より文字認識結果の修正を行うものであった。
ば、特開平2−267670に示されるものがあった。
上記文献に開示された技術は、単語中に認識不能文字
(リジェクト文字)が存在した場合、このリジェクト文
字の前後の文字、前後の文字配列及び位置に基づいて文
字テーブルから自動的に候補文字を呼出し、これをリジ
ェクト文字に置き換えた単語について検索を行うことに
より文字認識結果の修正を行うものであった。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の技術は、文字単位に修正を行う方法であり、単語間
の関係を規定する文法を利用していないため、修正結果
が意味的に通じず、文法的に誤りであるような単語への
修正を行う可能性があるという問題点があった。本発明
は、前記問題点を解決して、文字認識の結果が誤ってい
ても、文法的に正しい単語に修正することのできる文字
認識結果の後処理方式を提供することを目的とする。
来の技術は、文字単位に修正を行う方法であり、単語間
の関係を規定する文法を利用していないため、修正結果
が意味的に通じず、文法的に誤りであるような単語への
修正を行う可能性があるという問題点があった。本発明
は、前記問題点を解決して、文字認識の結果が誤ってい
ても、文法的に正しい単語に修正することのできる文字
認識結果の後処理方式を提供することを目的とする。
【0004】
【課題を解決するための手段】前記問題点を解決するた
めに、本発明は、文字認識結果の各単語に対する候補単
語の作成と確信度の算出を行い、その確信度の最大値が
所定のしきい値よりも小さい単語に対し、その単語に近
接する候補単語の確信度の最大値が所定のしきい値より
も大きい単語との文法的関係を利用して、その単語を文
法的に正しい単語に修正するものである。本発明におい
て、確信度とは候補単語が正しいものと確信される度合
である。
めに、本発明は、文字認識結果の各単語に対する候補単
語の作成と確信度の算出を行い、その確信度の最大値が
所定のしきい値よりも小さい単語に対し、その単語に近
接する候補単語の確信度の最大値が所定のしきい値より
も大きい単語との文法的関係を利用して、その単語を文
法的に正しい単語に修正するものである。本発明におい
て、確信度とは候補単語が正しいものと確信される度合
である。
【0005】
【作用】本発明によれば、以上のように文字認識結果の
後処理方式を構成したので、文字認識結果の各単語に対
する候補単語の作成と確信度の算出を行い、その確信度
の最大値が所定のしきい値よりも小さい単語に対し、そ
の単語に近接する候補単語の確信度の最大値が所定のし
きい値よりも大きい単語との文法的関係を利用して、そ
の単語を文法的に正しい単語に修正する。したがって、
文字認識の結果が誤りであっても、文法的に正しい単語
に修正することができる。
後処理方式を構成したので、文字認識結果の各単語に対
する候補単語の作成と確信度の算出を行い、その確信度
の最大値が所定のしきい値よりも小さい単語に対し、そ
の単語に近接する候補単語の確信度の最大値が所定のし
きい値よりも大きい単語との文法的関係を利用して、そ
の単語を文法的に正しい単語に修正する。したがって、
文字認識の結果が誤りであっても、文法的に正しい単語
に修正することができる。
【0006】
【実施例】以下、本発明の実施例について図面を参照し
ながら詳細に説明する。図1は本発明の実施例に係る文
字認識結果の後処理方式を示す流れ図、図2は本発明の
実施例に係る文字認識結果の後処理方式を実施する文字
認識装置を示すブロック図、図3は本発明の実施例にお
ける候補単語と確信度の一例を示す図、図4は本発明の
実施例における候補単語の選定処理の説明図である。
ながら詳細に説明する。図1は本発明の実施例に係る文
字認識結果の後処理方式を示す流れ図、図2は本発明の
実施例に係る文字認識結果の後処理方式を実施する文字
認識装置を示すブロック図、図3は本発明の実施例にお
ける候補単語と確信度の一例を示す図、図4は本発明の
実施例における候補単語の選定処理の説明図である。
【0007】図2において、11は装置全体を制御する
CPU、12は単語に対する品詞を与える品詞情報を記
載している品詞辞書、13は品詞間の関係を与える情報
を記載している文法辞書、14は文書上の単語を読取る
文書読取り手段、15は読取った文字を認識して候補文
字とその距離を出力する文字認識手段、16は認識結果
である候補文字とその距離を記憶する文字認識結果記憶
手段、17は候補文字を組合わせて候補単語を作成する
候補単語作成手段、18は候補文字の距離からその確信
度を計算する確信度算出手段、19は候補単語の選定を
行う時に品詞辞書12と文法辞書13を検索する辞書検
索手段、20は辞書の内容に基づいて候補単語の選定を
行う出力単語決定手段、21は出力単語を表示・出力す
る結果表示・出力手段である。
CPU、12は単語に対する品詞を与える品詞情報を記
載している品詞辞書、13は品詞間の関係を与える情報
を記載している文法辞書、14は文書上の単語を読取る
文書読取り手段、15は読取った文字を認識して候補文
字とその距離を出力する文字認識手段、16は認識結果
である候補文字とその距離を記憶する文字認識結果記憶
手段、17は候補文字を組合わせて候補単語を作成する
候補単語作成手段、18は候補文字の距離からその確信
度を計算する確信度算出手段、19は候補単語の選定を
行う時に品詞辞書12と文法辞書13を検索する辞書検
索手段、20は辞書の内容に基づいて候補単語の選定を
行う出力単語決定手段、21は出力単語を表示・出力す
る結果表示・出力手段である。
【0008】以下、図1〜図4を参照しながら本発明の
実施例に係る文字認識結果の後処理方式の処理動作を説
明する。 (1)文字認識(ステップ1) 文書読取り手段14により文書上の単語を読取り、文字
認識手段15により、読取った単語の各文字の認識とそ
の距離の計算を行い、認識結果記憶手段16に記憶す
る。ここで、距離とは各候補文字と元の文字パターンと
の類似度を表すもので、その数値が小さいほどその候補
文字と元の文字パターンとが似ていることになる。
実施例に係る文字認識結果の後処理方式の処理動作を説
明する。 (1)文字認識(ステップ1) 文書読取り手段14により文書上の単語を読取り、文字
認識手段15により、読取った単語の各文字の認識とそ
の距離の計算を行い、認識結果記憶手段16に記憶す
る。ここで、距離とは各候補文字と元の文字パターンと
の類似度を表すもので、その数値が小さいほどその候補
文字と元の文字パターンとが似ていることになる。
【0009】(2)候補単語作成/確信度算出(ステッ
プ2) 候補単語作成手段17により、認識結果記憶手段16に
記憶されている候補文字を組合わせて候補単語を作成す
る。また、確信度算出手段18により、候補文字の距離
を基にその確信度を計算する。ここで、確信度は候補単
語が正しいものと確信される度合いのことで、本実施例
においては、「候補単語の確信度」=「候補単語の距離
の逆数/1つの入力単語に対する各候補単語の距離の逆
数の総和」により計算した。
プ2) 候補単語作成手段17により、認識結果記憶手段16に
記憶されている候補文字を組合わせて候補単語を作成す
る。また、確信度算出手段18により、候補文字の距離
を基にその確信度を計算する。ここで、確信度は候補単
語が正しいものと確信される度合いのことで、本実施例
においては、「候補単語の確信度」=「候補単語の距離
の逆数/1つの入力単語に対する各候補単語の距離の逆
数の総和」により計算した。
【0010】図3は英文“I am a boy.”に
対する算出結果の一例であり、各文字パターンに対する
候補単語と確信度が与えられている。同図において、単
語“I”に対する候補単語“I”の確信度は100%で
あり、また単語“am”に対する候補単語“an”の確
信度は60%、候補単語“am”に対する確信度は40
%である。単語“a”、“boy”、“.”に対しても
同様に候補単語と確信度が与えられている。
対する算出結果の一例であり、各文字パターンに対する
候補単語と確信度が与えられている。同図において、単
語“I”に対する候補単語“I”の確信度は100%で
あり、また単語“am”に対する候補単語“an”の確
信度は60%、候補単語“am”に対する確信度は40
%である。単語“a”、“boy”、“.”に対しても
同様に候補単語と確信度が与えられている。
【0011】(3)後処理修正(ステップ3) 候補単語の確信度が100%である場合は、出力単語決
定手段20は候補単語をそのまま選定する。図3におい
ては、“I”及び“boy”がこれに該当する。次に、
各単語に対する確信度の最大値がしきい値よりも低い単
語に対して、その単語に近接する確信度の最大値がしき
い値よりも高い単語の文法的特徴を利用して候補単語の
選定を行う。このとき、辞書検索手段19により品詞辞
書12と文法辞書13の検索を行い、その内容を参照す
る。
定手段20は候補単語をそのまま選定する。図3におい
ては、“I”及び“boy”がこれに該当する。次に、
各単語に対する確信度の最大値がしきい値よりも低い単
語に対して、その単語に近接する確信度の最大値がしき
い値よりも高い単語の文法的特徴を利用して候補単語の
選定を行う。このとき、辞書検索手段19により品詞辞
書12と文法辞書13の検索を行い、その内容を参照す
る。
【0012】図4は図3の算出結果に対する実施例であ
り、確信度のしきい値を90%とすると、単語“a
m”、“a”、及び“.”に対する候補単語の確信度の
最大値がしきい値よりも低い。しかしながら、文末
の“.”に対しては文法的にピリオドであることが適当
であるため、等しい確信度を持つ候補単
語“.”、“,”、のうち“.”が選ばれ、修正結果と
して出力される。また、単語“a”に対しては次の単語
が確信度100%の“boy”であり、その品詞は名詞
である。単語“a”に対する候補単語“a”は冠詞であ
り、その他の候補単語に対しては品詞が与えられない。
そして、名詞の前には冠詞がくるのが適当であるので、
候補単語“a”が結果として選ばれる。また、その前の
単語“am”に対しては、冠詞が2つ連続して出現する
ことが文法的に許されないため、動詞の“am”が選ば
れる。このように、前後の単語との文法的関係を利用す
ることにより、たとえ確信度は低くとも、文法的に誤り
ではない単語に修正することができる。
り、確信度のしきい値を90%とすると、単語“a
m”、“a”、及び“.”に対する候補単語の確信度の
最大値がしきい値よりも低い。しかしながら、文末
の“.”に対しては文法的にピリオドであることが適当
であるため、等しい確信度を持つ候補単
語“.”、“,”、のうち“.”が選ばれ、修正結果と
して出力される。また、単語“a”に対しては次の単語
が確信度100%の“boy”であり、その品詞は名詞
である。単語“a”に対する候補単語“a”は冠詞であ
り、その他の候補単語に対しては品詞が与えられない。
そして、名詞の前には冠詞がくるのが適当であるので、
候補単語“a”が結果として選ばれる。また、その前の
単語“am”に対しては、冠詞が2つ連続して出現する
ことが文法的に許されないため、動詞の“am”が選ば
れる。このように、前後の単語との文法的関係を利用す
ることにより、たとえ確信度は低くとも、文法的に誤り
ではない単語に修正することができる。
【0013】以上、本発明の実施例を英単語の場合につ
いて説明したが、利用する文法的知識を他の言語やプロ
グラム言語の文法に変更することにより、本方式は他の
言語についても実施することが可能である。また、本発
明は上記実施例に限定されるものではなく、本発明の趣
旨に基づき種々の変形が可能であり、それらを本発明の
範囲から排除するものではない。
いて説明したが、利用する文法的知識を他の言語やプロ
グラム言語の文法に変更することにより、本方式は他の
言語についても実施することが可能である。また、本発
明は上記実施例に限定されるものではなく、本発明の趣
旨に基づき種々の変形が可能であり、それらを本発明の
範囲から排除するものではない。
【0014】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、単語の文法的特徴を利用しているので、文字認
識の結果が誤っていても文法的に正しい単語に修正する
ことができる。
よれば、単語の文法的特徴を利用しているので、文字認
識の結果が誤っていても文法的に正しい単語に修正する
ことができる。
【図1】本発明の実施例に係る文字認識結果の後処理方
式を示す流れ図である。
式を示す流れ図である。
【図2】本発明の実施例に係る文字認識結果の後処理方
式を実施する文字認識装置を示すブロック図である。
式を実施する文字認識装置を示すブロック図である。
【図3】本発明の実施例における候補単語と確信度の一
例を示す図である。
例を示す図である。
【図4】本発明の実施例における候補単語の選定処理の
説明図である。
説明図である。
1 文字認識 2 候補単語作成/確信度算出 3 後処理修正 4 文法辞書 5 品詞辞書
Claims (1)
- 【請求項1】 (a)文字認識結果の各単語に対する候
補単語の作成と確信度の算出を行い、 (b)該確信度の最大値が所定のしきい値よりも小さい
単語に対し、その単語に近接する候補単語の確信度の最
大値が所定のしきい値よりも大きい単語との文法的関係
を利用して、その単語を文法的に正しい単語に修正する
ことを特徴とする文字認識結果の後処理方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3196508A JPH0540853A (ja) | 1991-08-06 | 1991-08-06 | 文字認識結果の後処理方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3196508A JPH0540853A (ja) | 1991-08-06 | 1991-08-06 | 文字認識結果の後処理方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0540853A true JPH0540853A (ja) | 1993-02-19 |
Family
ID=16358923
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3196508A Withdrawn JPH0540853A (ja) | 1991-08-06 | 1991-08-06 | 文字認識結果の後処理方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0540853A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103870800B (zh) * | 2012-12-18 | 2018-12-25 | 富士施乐株式会社 | 信息处理设备和信息处理方法 |
| US10817756B2 (en) | 2018-06-13 | 2020-10-27 | Fuji Xerox Co., Ltd. | Information processing apparatus and non-transitory computer readable medium |
| US11258925B2 (en) | 2020-03-24 | 2022-02-22 | Fujifilm Business Innovation Corp. | Information processing apparatus for displaying the correction of an image and non-transitory computer readable medium |
-
1991
- 1991-08-06 JP JP3196508A patent/JPH0540853A/ja not_active Withdrawn
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103870800B (zh) * | 2012-12-18 | 2018-12-25 | 富士施乐株式会社 | 信息处理设备和信息处理方法 |
| US10817756B2 (en) | 2018-06-13 | 2020-10-27 | Fuji Xerox Co., Ltd. | Information processing apparatus and non-transitory computer readable medium |
| US11258925B2 (en) | 2020-03-24 | 2022-02-22 | Fujifilm Business Innovation Corp. | Information processing apparatus for displaying the correction of an image and non-transitory computer readable medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5610812A (en) | Contextual tagger utilizing deterministic finite state transducer | |
| US5784489A (en) | Apparatus and method for syntactic signal analysis | |
| WO2007097176A1 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
| JPH07325828A (ja) | 文法チェックシステム | |
| JPH07325824A (ja) | 文法チェックシステム | |
| JPH11194793A (ja) | 音声ワープロ | |
| JPH0540853A (ja) | 文字認識結果の後処理方式 | |
| JP3071745B2 (ja) | 文字認識結果の後処理方法 | |
| JP2870375B2 (ja) | 文章訂正装置 | |
| JP2908460B2 (ja) | 誤認識修正方法及び装置 | |
| JP2918380B2 (ja) | 文字認識結果の後処理方法 | |
| JPH0540854A (ja) | 文字認識結果の後処理方法 | |
| JP2838850B2 (ja) | 仮名漢字変換装置 | |
| JPH04252390A (ja) | 文字認識結果の後処理方法 | |
| JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
| JPH09120296A (ja) | 音声認識装置および方法、辞書作成装置および方法、情報記憶媒体 | |
| JP2002297585A (ja) | 英文名詞句の区分方法,英文構文情報生成方法および装置 | |
| JP3344793B2 (ja) | かな漢字変換装置 | |
| JPH0415960B2 (ja) | ||
| JPS5899829A (ja) | 誤り文字検出・修正支援装置 | |
| JPS62212871A (ja) | 文章読み上げ校正装置 | |
| JPH0769710B2 (ja) | 自然言語解析方法 | |
| JPH0458381A (ja) | 光学的文字読取装置 | |
| KR20000032270A (ko) | 음성 타이핑 시스템의 음성 인식 방법 | |
| JPH01281561A (ja) | 日本文訂正候補文字抽出方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 19981112 |