JPH0256085A - 文字認識の後処理方法 - Google Patents
文字認識の後処理方法Info
- Publication number
- JPH0256085A JPH0256085A JP63206530A JP20653088A JPH0256085A JP H0256085 A JPH0256085 A JP H0256085A JP 63206530 A JP63206530 A JP 63206530A JP 20653088 A JP20653088 A JP 20653088A JP H0256085 A JPH0256085 A JP H0256085A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character string
- processing
- knowledge
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は9文字認識の後処理方法に関する。
一般に文字認識装置においては、入力画像上の文字イメ
ージから抽出した特徴パターンと予め辞書に登録されて
いる標準特徴パターンとの比較照合により1文字を認識
している。
ージから抽出した特徴パターンと予め辞書に登録されて
いる標準特徴パターンとの比較照合により1文字を認識
している。
しかし、このような1文字単位の文字認識では、漢字の
ように類似文字の多い場合に、一つの文字に対し複数の
候補が見つかることが多いので、最終的に妥当な候補文
字を決定するための後処理が必要である。
ように類似文字の多い場合に、一つの文字に対し複数の
候補が見つかることが多いので、最終的に妥当な候補文
字を決定するための後処理が必要である。
従来、このような後処理として、住所のみ、氏名のみ、
あるいは書籍名のみ、というような単一の意味カテゴリ
ーの文字列を対象とし、単語知識を用いた知識処理によ
り1文字単位の文字認識の結果を修正する方法が検討さ
れている。これは。
あるいは書籍名のみ、というような単一の意味カテゴリ
ーの文字列を対象とし、単語知識を用いた知識処理によ
り1文字単位の文字認識の結果を修正する方法が検討さ
れている。これは。
予め設定された枠内に文字を記入する場合など、文書内
の文字列の位置とその属する意味カテゴリーが分かって
いる場合には有効であるが、対象とする文書内に、複数
の意味カテゴリーに属する文字列があり、それぞれの文
書内の位置が曖昧な場合には対応できない。
の文字列の位置とその属する意味カテゴリーが分かって
いる場合には有効であるが、対象とする文書内に、複数
の意味カテゴリーに属する文字列があり、それぞれの文
書内の位置が曖昧な場合には対応できない。
さて1名刺における住所と電話番号のように。
同じ大きさの文字で続けて印刷された2以上の異った意
味カテゴリーに属する文字列は、一つの文学列ブロック
として切り出される。このような文字列ブロックは、意
味カテゴリー別に分割して処理し、出力すべきであるが
、従来の後処理方法によれば一つのブロックはまとめて
処理されてしまう。
味カテゴリーに属する文字列は、一つの文学列ブロック
として切り出される。このような文字列ブロックは、意
味カテゴリー別に分割して処理し、出力すべきであるが
、従来の後処理方法によれば一つのブロックはまとめて
処理されてしまう。
本発明の目的は、2以上の異なった意味カテゴリーに属
する文字列のブロックを意味カテゴリー別に分割して処
理し出力する、文字認識の後処理方法を提供することに
ある。
する文字列のブロックを意味カテゴリー別に分割して処
理し出力する、文字認識の後処理方法を提供することに
ある。
本発明は、入力画像から切り出された文字列のブロック
に対する1文字単位の文字認識の結果を、意味カテゴリ
ー別の単語知識を用いた知識処理によって修正するが、
ある意味カテゴリーの知識処理の結果1文字列中の一部
文字列が未処理となったときに、その未処理文字列に対
し別の意味カテゴリーの知識処理を行い、意味カテゴリ
ー別に知識処理の結果を出すことを特徴とするものであ
る。
に対する1文字単位の文字認識の結果を、意味カテゴリ
ー別の単語知識を用いた知識処理によって修正するが、
ある意味カテゴリーの知識処理の結果1文字列中の一部
文字列が未処理となったときに、その未処理文字列に対
し別の意味カテゴリーの知識処理を行い、意味カテゴリ
ー別に知識処理の結果を出すことを特徴とするものであ
る。
入力画像より切り出された文字列ブロックに、2以上の
異なった意味カテゴリーに属する文字列が含まれている
場合、このブロックの文字列は意味カテゴリー別に2以
上の部分に分割され、それぞれの意味カテゴリーによる
知識処理がなされて結果が出力されることになる。
異なった意味カテゴリーに属する文字列が含まれている
場合、このブロックの文字列は意味カテゴリー別に2以
上の部分に分割され、それぞれの意味カテゴリーによる
知識処理がなされて結果が出力されることになる。
以下、図面を用い本発明の詳細な説明する。
まず、第2図に示す名刺画像21を例に、本発明の一実
施例における処理の内容について説明する。
施例における処理の内容について説明する。
この名刺画像21から文字列ブロックの切り出しを行う
と、第3図に示す矩形領域31〜35が文字列ブロック
■〜■として切り出される。この文字列ブロックの切り
出しは1例えば名刺画像内の黒画素の外接矩形を統合す
る方法によって行われるが、他の方法によってもよい。
と、第3図に示す矩形領域31〜35が文字列ブロック
■〜■として切り出される。この文字列ブロックの切り
出しは1例えば名刺画像内の黒画素の外接矩形を統合す
る方法によって行われるが、他の方法によってもよい。
このようにして得られた名文字列ブロックの内容は不明
であるが、対象画像が横書きの名刺画像であることが予
め指定されていれば、画像内における各意味カテゴリー
の文字列の相対的位置関係や配列順序などはある程度特
定されるので、切り出された各文字列ブロックの画像内
の相対的位置や文字サイズ(文字列ブロックの高さなど
)により、その意味カテゴリーの候補を推定可能である
。
であるが、対象画像が横書きの名刺画像であることが予
め指定されていれば、画像内における各意味カテゴリー
の文字列の相対的位置関係や配列順序などはある程度特
定されるので、切り出された各文字列ブロックの画像内
の相対的位置や文字サイズ(文字列ブロックの高さなど
)により、その意味カテゴリーの候補を推定可能である
。
すなわち、文字列ブロックのは企業名らしい、文字列ブ
ロック■は肩書らしい、というように意味カテゴリーを
推定できる。
ロック■は肩書らしい、というように意味カテゴリーを
推定できる。
次に、各文字列ブロック内の文字を切り出し。
その特徴パターンと文字辞書に登録されている標準特徴
パターンとの比較照合により1文字単位の文字認識を行
い、候補文字を決定する。各文字の候補文字数は予め設
定しておくことが可能であるが、例えば第1位候補から
の距離差と、予め設定された閾値との比較などによって
候補文字数を決定してもよい。
パターンとの比較照合により1文字単位の文字認識を行
い、候補文字を決定する。各文字の候補文字数は予め設
定しておくことが可能であるが、例えば第1位候補から
の距離差と、予め設定された閾値との比較などによって
候補文字数を決定してもよい。
文字列ブロック■についての1文字単位の文字認識の結
果は、例えば第4図に示すようになる。
果は、例えば第4図に示すようになる。
ここで、文字列ブロック■は住所の文字列と電話番号の
文字列からなるブロックであるが、これは両者が同じ大
きさの文字で続けて印刷されているので一つのブロック
として切り出される。このようなブロックは1名刺画像
などでは頻繁に発生するが、ブロック内の文字列を意味
カテゴリー別に分割することが望ましい。
文字列からなるブロックであるが、これは両者が同じ大
きさの文字で続けて印刷されているので一つのブロック
として切り出される。このようなブロックは1名刺画像
などでは頻繁に発生するが、ブロック内の文字列を意味
カテゴリー別に分割することが望ましい。
さて、以上の1文字単位の文字認識によって得られた各
文字列ブロックの候補文字列について、その先頭から意
味カテゴリー別の単語の知識辞書との比較照合による知
識処理で修正を行う。このときに、上記のように、文字
列ブロックの相対的位置などによって推定した意味カテ
ゴリーの知識辞書を用いる。ただし、複数の意味カテゴ
リーについて知識処理を順次行い、最も確からしい処理
結果が得られた意味カテゴリーの結果を選んでもよい。
文字列ブロックの候補文字列について、その先頭から意
味カテゴリー別の単語の知識辞書との比較照合による知
識処理で修正を行う。このときに、上記のように、文字
列ブロックの相対的位置などによって推定した意味カテ
ゴリーの知識辞書を用いる。ただし、複数の意味カテゴ
リーについて知識処理を順次行い、最も確からしい処理
結果が得られた意味カテゴリーの結果を選んでもよい。
文字列ブロック■を例にすると、その推定される意味カ
テゴリーである住所の知識辞書と候補文字列との比較照
合により、例えば「〒223横浜市港北区新栄町」の部
分が処理結果として得られ。
テゴリーである住所の知識辞書と候補文字列との比較照
合により、例えば「〒223横浜市港北区新栄町」の部
分が処理結果として得られ。
それに続く文字列の部分は知識辞書との一致がとれず未
処理となったとする。
処理となったとする。
この未処理となった文字列の文字数をカウントし、その
文字数を予め設定されている閾値と比較することにより
「未処理文字列の部分は別の意味カテゴリーの文字列が
含まれている」か否かを判断する。この例では未処理文
字列は16文字であって、別の意味カテゴリーの文字列
が含まれると推定するに充分な長さである。
文字数を予め設定されている閾値と比較することにより
「未処理文字列の部分は別の意味カテゴリーの文字列が
含まれている」か否かを判断する。この例では未処理文
字列は16文字であって、別の意味カテゴリーの文字列
が含まれると推定するに充分な長さである。
そこで1文字列ブロック■の名刺画像内の相対的位置や
、既に処理された文字列の意味カテゴリ。
、既に処理された文字列の意味カテゴリ。
−の出現情報(例えば会社名1氏名はすでに見つかって
いるので、もう出現しないなど)、文字列の長さにより
、未処理文字列の属する意味カテゴリーを推定する。こ
の例では、その意味カテゴリーは「電話番号」または「
住所の付属」である可能性が高いと判断されるので、ま
ず電話番号情報であることを示すキーワードを文字列中
から検索する。
いるので、もう出現しないなど)、文字列の長さにより
、未処理文字列の属する意味カテゴリーを推定する。こ
の例では、その意味カテゴリーは「電話番号」または「
住所の付属」である可能性が高いと判断されるので、ま
ず電話番号情報であることを示すキーワードを文字列中
から検索する。
この例では[電話jというキーワードが発見されるので
、「電話」の文字以降は電話番号を示す文字列であると
して処理する。そして、第5図に示すように、文字列ブ
ロック■の処理結果として。
、「電話」の文字以降は電話番号を示す文字列であると
して処理する。そして、第5図に示すように、文字列ブ
ロック■の処理結果として。
その文字列を「電話」の部分で前後に分割し、それぞれ
の部分の処理結果文字列をその意味カテゴリーのラベル
を付加して出力する(結果メモ、りに書き込む、)。
の部分の処理結果文字列をその意味カテゴリーのラベル
を付加して出力する(結果メモ、りに書き込む、)。
なお、「電話」以降の文字列の一部が未処理文字列とし
て残り、その文字数が多い場合は、その未処理文字列に
ついて同様の知識処理を繰り返す。
て残り、その文字数が多い場合は、その未処理文字列に
ついて同様の知識処理を繰り返す。
ここで説明した例は住所と電話番号が一つの文字列ブロ
ック中に含まれた場合であったが、他の組合せの場合も
同様な手順によって処理される。
ック中に含まれた場合であったが、他の組合せの場合も
同様な手順によって処理される。
このよう・に本実施例においては、文字列ブロックの文
字認識結果について、ひとつの意味カテゴリーの知識処
理を行い、それで未処理文字列が残った場合、その文字
数と意味カテゴリーの可能性などから、別の意味カテゴ
リーの文字列がブロック内に残っていると判断すると、
未処理文字列について別の意味カテゴリーの知識処理を
行うという操作を繰り返し、各意味カテゴリー別の知識
処理の結果を出力する。
字認識結果について、ひとつの意味カテゴリーの知識処
理を行い、それで未処理文字列が残った場合、その文字
数と意味カテゴリーの可能性などから、別の意味カテゴ
リーの文字列がブロック内に残っていると判断すると、
未処理文字列について別の意味カテゴリーの知識処理を
行うという操作を繰り返し、各意味カテゴリー別の知識
処理の結果を出力する。
以上説明した処理を行う文字認識の後処理装置の一例を
第1図により説明する。
第1図により説明する。
第1図において、処理対象の原稿(名刺、文書)はスキ
ャナー1により光学的に読み取られ、2値画像としてイ
メージメモリ2に格納される。この入力画像より文字列
ブロック切り出し部3により文字列ブロックが切出され
、そのイメージがブロックイメージメモリ4に格納され
る。この時、各文字列ブロックの相対位置などの意味カ
テゴリー推定のための情報も抽出される。なお、横書き
名刺であるというような原稿についての情報は予め指定
される。
ャナー1により光学的に読み取られ、2値画像としてイ
メージメモリ2に格納される。この入力画像より文字列
ブロック切り出し部3により文字列ブロックが切出され
、そのイメージがブロックイメージメモリ4に格納され
る。この時、各文字列ブロックの相対位置などの意味カ
テゴリー推定のための情報も抽出される。なお、横書き
名刺であるというような原稿についての情報は予め指定
される。
この各文字列ブロックのイメージに対し、切り出し、照
合部5によって文字切り出し、特徴パターン抽出、文字
辞書6との比較照合による1文字単位の文字認識が行わ
れる。・ このような各文字列ブロック毎の1文字単位の文字認識
により得られた候補文字列について、上述のような後処
理が行われる。
合部5によって文字切り出し、特徴パターン抽出、文字
辞書6との比較照合による1文字単位の文字認識が行わ
れる。・ このような各文字列ブロック毎の1文字単位の文字認識
により得られた候補文字列について、上述のような後処
理が行われる。
すなわち、後処理・知識辞書照合部7において。
各文字列ブロック毎にその候補文字列と、意味カテゴリ
ー別の単語の知識辞書8との比較照合による知識処理が
行われる。このときの意味カテゴリーは上述のように推
定される。そして、知識処理の結果を意味カテゴリーの
ラベルとともに別カテゴリー文字列存在判定部9へ出力
する。
ー別の単語の知識辞書8との比較照合による知識処理が
行われる。このときの意味カテゴリーは上述のように推
定される。そして、知識処理の結果を意味カテゴリーの
ラベルとともに別カテゴリー文字列存在判定部9へ出力
する。
この別カテゴリー文字列存在判定部9においては、後処
理・知識辞書照合部7から送られてきた処理結果と1文
字単位の文字認識による候補文字列とを比較し、未処理
の文字列の部分に別カテゴリーの文字列が含まれている
か否かを上述のように文字数などによって判断する。別
カテゴリーの文字列が含まれていると判断した場合、未
処理部分の候補文字列について後処理・知識辞書照合部
7に別の意味カテゴリーの知・識処理を行わせ、処理済
みの文字列部分についてはその処理結果の文字列を意味
カテゴリーのラベルとともに結果メモリ10に書き込む
。
理・知識辞書照合部7から送られてきた処理結果と1文
字単位の文字認識による候補文字列とを比較し、未処理
の文字列の部分に別カテゴリーの文字列が含まれている
か否かを上述のように文字数などによって判断する。別
カテゴリーの文字列が含まれていると判断した場合、未
処理部分の候補文字列について後処理・知識辞書照合部
7に別の意味カテゴリーの知・識処理を行わせ、処理済
みの文字列部分についてはその処理結果の文字列を意味
カテゴリーのラベルとともに結果メモリ10に書き込む
。
11は以上の処理の流れを制御する制御部である。
なお、本発明は音声認識の修正処理にも応用可能である
。
。
以上の説明から明らかなように、本発明によれば、入力
画像から切り出された文字列ブロック中に2以上の異な
った意味カテゴリーの文字列が含まれている場合、文字
列ブロックを意味カテゴリー別に分割して知識処理を行
い、処理結果を出力することが可能になる。
画像から切り出された文字列ブロック中に2以上の異な
った意味カテゴリーの文字列が含まれている場合、文字
列ブロックを意味カテゴリー別に分割して知識処理を行
い、処理結果を出力することが可能になる。
第1図は本発明を実施した文字認識装置の一例を示す概
略ブロック図、第2図ないし第5図は本発明の一実施例
における処理説明のための図であって、第2図は名刺画
像の一例を示す図、第3図は第2図は名刺画像の文字列
ブ・ロック切り出し結果を示す図、第4図は第3図中の
文字列ブロック■に対する1文字単位の文字認識の結果
を示す図、第5図は第3図中の文字列ブロック■に対す
る知識処理の結果を示す図である。 1・・・スキャナー 2・・・イメージメモリ、3・
・・文字列ブロック切り出し部、 4・・・ブロックイメージメモリ、 5・・・文字切り出し・認識部、 6・・・文字辞書、
7・・・後処理・知識辞書照合部、 8・・・知識辞書
、9・・・別カテゴリー文字列存在判定部、10・・・
結果メモリ。 −tx r− ′pζp
略ブロック図、第2図ないし第5図は本発明の一実施例
における処理説明のための図であって、第2図は名刺画
像の一例を示す図、第3図は第2図は名刺画像の文字列
ブ・ロック切り出し結果を示す図、第4図は第3図中の
文字列ブロック■に対する1文字単位の文字認識の結果
を示す図、第5図は第3図中の文字列ブロック■に対す
る知識処理の結果を示す図である。 1・・・スキャナー 2・・・イメージメモリ、3・
・・文字列ブロック切り出し部、 4・・・ブロックイメージメモリ、 5・・・文字切り出し・認識部、 6・・・文字辞書、
7・・・後処理・知識辞書照合部、 8・・・知識辞書
、9・・・別カテゴリー文字列存在判定部、10・・・
結果メモリ。 −tx r− ′pζp
Claims (1)
- (1)入力画像から切り出された文字列のブロックに対
する1文字単位の文字認識の結果を、意味カテゴリー別
の単語知識を用いた知識処理によって修正する文字認識
の後処理方法において、ある意味カテゴリーの知識処理
の結果、文字列中の一部文字列が未処理となったときに
、その未処理文字列に対し別の意味カテゴリーの知識処
理を行い、意味カテゴリー別に知識処理の結果を出力す
ることを特徴とする文字認識の後処理方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63206530A JP2746345B2 (ja) | 1988-08-20 | 1988-08-20 | 文字認識の後処理方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63206530A JP2746345B2 (ja) | 1988-08-20 | 1988-08-20 | 文字認識の後処理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0256085A true JPH0256085A (ja) | 1990-02-26 |
| JP2746345B2 JP2746345B2 (ja) | 1998-05-06 |
Family
ID=16524893
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63206530A Expired - Fee Related JP2746345B2 (ja) | 1988-08-20 | 1988-08-20 | 文字認識の後処理方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2746345B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011221886A (ja) * | 2010-04-13 | 2011-11-04 | Fujitsu Frontech Ltd | 帳票認識プログラム、帳票認識装置、および帳票認識方法 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63138479A (ja) * | 1986-11-29 | 1988-06-10 | Toshiba Corp | 文字認識装置 |
-
1988
- 1988-08-20 JP JP63206530A patent/JP2746345B2/ja not_active Expired - Fee Related
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63138479A (ja) * | 1986-11-29 | 1988-06-10 | Toshiba Corp | 文字認識装置 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011221886A (ja) * | 2010-04-13 | 2011-11-04 | Fujitsu Frontech Ltd | 帳票認識プログラム、帳票認識装置、および帳票認識方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2746345B2 (ja) | 1998-05-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11386897B2 (en) | Method and system for extraction of key-terms and synonyms for the key-terms | |
| CN115203474A (zh) | 一种数据库自动分类提取技术 | |
| CN113449731A (zh) | 信息处理装置 | |
| Saiga et al. | An OCR system for business cards | |
| US20220067107A1 (en) | Multi-section sequential document modeling for multi-page document processing | |
| JPH0256085A (ja) | 文字認識の後処理方法 | |
| JP2751865B2 (ja) | 文字列認識装置 | |
| JP2001022883A (ja) | 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体 | |
| JPH06215184A (ja) | 抽出領域のラベリング装置 | |
| JPH0256086A (ja) | 文字認識の後処理方法 | |
| JPS592191A (ja) | 手書き日本語文の認識処理方式 | |
| JPH11328315A (ja) | 文字認識装置 | |
| JP3360030B2 (ja) | 文字認識装置および文字認識方法および文字認識方法をプログラムの形で記録した記録媒体 | |
| JP2640472B2 (ja) | 文字認識方法 | |
| JP2618018B2 (ja) | 文字認識装置 | |
| JP2985813B2 (ja) | 文字列認識装置および知識データベース学習方法 | |
| JPS60138689A (ja) | 文字認識方法 | |
| JP3151866B2 (ja) | 英文字認識方法 | |
| JP3428504B2 (ja) | 文字認識装置 | |
| CN112668468A (zh) | 一种拍照评测的方法及装置 | |
| KR920006874A (ko) | 소정의 포맷을 갖는 문서의 인식방법 | |
| JPS6330991A (ja) | 文字認識装置 | |
| JPS6111886A (ja) | 文字認識方式 | |
| JP3116453B2 (ja) | 英文字認識装置 | |
| JP2972443B2 (ja) | 文字認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |