JPH05108887A - パターン切出しおよび認識方法とそのシステム - Google Patents
パターン切出しおよび認識方法とそのシステムInfo
- Publication number
- JPH05108887A JPH05108887A JP4095186A JP9518692A JPH05108887A JP H05108887 A JPH05108887 A JP H05108887A JP 4095186 A JP4095186 A JP 4095186A JP 9518692 A JP9518692 A JP 9518692A JP H05108887 A JPH05108887 A JP H05108887A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- unit
- character
- recognition
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 自然な筆記条件で書かれた文字で、入力され
た1単位映像パターンが1カテゴリを表わすパターンの
一部分であると判断された場合に、複数の部分パターン
を組み合せて1文字とし、該組み合せた文字について文
字認識を行うことが可能なパターン切出しおよび認識方
法とそのシステムを提供すること。 【構成】 1文字単位の文字枠を有しない帳票を入力
し、切出し部により、電気的信号に変換された2次元映
像パターンから文字を含む1単位映像パターンを切出
し、該パターンを認識部に送り、認識部において入力さ
れた前記単位映像パターンをパターン辞書内の各パター
ンと比較して認識する如く構成されたパターン切出しお
よび認識装置において、前記認識部では、入力された1
単位映像パターンが1カテゴリを表わすパターンの一部
分であると判断した場合には、複数の部分パターンを組
み合せて1文字とし、該組み合せた文字について文字認
識を行うことを特徴とするパターン切出しおよび認識方
法。
た1単位映像パターンが1カテゴリを表わすパターンの
一部分であると判断された場合に、複数の部分パターン
を組み合せて1文字とし、該組み合せた文字について文
字認識を行うことが可能なパターン切出しおよび認識方
法とそのシステムを提供すること。 【構成】 1文字単位の文字枠を有しない帳票を入力
し、切出し部により、電気的信号に変換された2次元映
像パターンから文字を含む1単位映像パターンを切出
し、該パターンを認識部に送り、認識部において入力さ
れた前記単位映像パターンをパターン辞書内の各パター
ンと比較して認識する如く構成されたパターン切出しお
よび認識装置において、前記認識部では、入力された1
単位映像パターンが1カテゴリを表わすパターンの一部
分であると判断した場合には、複数の部分パターンを組
み合せて1文字とし、該組み合せた文字について文字認
識を行うことを特徴とするパターン切出しおよび認識方
法。
Description
【0001】
【産業上の利用分野】本発明は光学文字読取り装置(以
下、「OCR」という)におけるパターン切出しおよび認
識方法とそのシステムに関し、特に自然な筆記条件で書
かれた帳票上等のパターンを切出し、それを認識するに
好適なパターン切出しおよび認識方法とそのシステムに
関する。
下、「OCR」という)におけるパターン切出しおよび認
識方法とそのシステムに関し、特に自然な筆記条件で書
かれた帳票上等のパターンを切出し、それを認識するに
好適なパターン切出しおよび認識方法とそのシステムに
関する。
【0002】
【従来の技術】従来、上記OCRに読込ませる文字は、
図1(a)に示す如く、文字毎に設定された文字枠11内
に正しく筆記する必要があった。その場合、多少の枠か
らのはみ出しは許容されるが、その程度は、図1(b)に
示す如く、上下方向については1.0〜1.5mm程度、左
右方向については隣の枠に入らない程度であった。とこ
ろで、OCRを更に普及させるためには、上述の如く、
OCR独特な文字枠内に文字,数字等を筆記させること
なく、図2(a)または(b)に示す如く、文字枠にあまり
こだわらず、通常、我々が筆記しているような、自然な
筆記条件を可能にすることが必要である。図1と図2を
比較すれば明らかな如く、従来の文字枠は、寸法が大き
いとともに、文字枠間ギャップ5が0.5〜1.0mmであ
るのに対して、条件の緩和された文字枠は、図2中の1
2,13に示される如く、寸法が小さくなるとともに、
文字枠間ギャップ6,7が0mmとなっている。
図1(a)に示す如く、文字毎に設定された文字枠11内
に正しく筆記する必要があった。その場合、多少の枠か
らのはみ出しは許容されるが、その程度は、図1(b)に
示す如く、上下方向については1.0〜1.5mm程度、左
右方向については隣の枠に入らない程度であった。とこ
ろで、OCRを更に普及させるためには、上述の如く、
OCR独特な文字枠内に文字,数字等を筆記させること
なく、図2(a)または(b)に示す如く、文字枠にあまり
こだわらず、通常、我々が筆記しているような、自然な
筆記条件を可能にすることが必要である。図1と図2を
比較すれば明らかな如く、従来の文字枠は、寸法が大き
いとともに、文字枠間ギャップ5が0.5〜1.0mmであ
るのに対して、条件の緩和された文字枠は、図2中の1
2,13に示される如く、寸法が小さくなるとともに、
文字枠間ギャップ6,7が0mmとなっている。
【0003】
【発明が解決しようとする課題】この結果として、文字
の、枠12,13からのはみ出しが大きくなり、また、
文字相互が縦方向にオーバラップしたり、あるいは、文
字相互が接触し易くなるという問題が生ずることにな
る。更に、文字パターン成分が分離しているような場
合、例えば、図2(a)または(b)における数字「5」等で
は、その成分の大部分が隣の枠に入ることがあり、文字
読取り上、困難な問題を惹き起こしている。このような
場合、従来の技術では、文字を正しく切出したり、正し
く読取ることができなかった。本発明は上記事情に鑑み
てなされたもので、その目的とするところは、従来の技
術における上述の如き問題を解消し、文字枠から大きく
はみ出したり、隣接文字と接触しているような、自然な
筆記条件で書かれた文字について、特に、入力された1
単位映像パターンが1カテゴリを表わすパターンの一部
分であると判断された場合に、複数の部分パターンを組
み合せて1文字とし、該組み合せた文字について文字認
識を行うことが可能なパターン切出しおよび認識方法と
そのシステムを提供することにある。
の、枠12,13からのはみ出しが大きくなり、また、
文字相互が縦方向にオーバラップしたり、あるいは、文
字相互が接触し易くなるという問題が生ずることにな
る。更に、文字パターン成分が分離しているような場
合、例えば、図2(a)または(b)における数字「5」等で
は、その成分の大部分が隣の枠に入ることがあり、文字
読取り上、困難な問題を惹き起こしている。このような
場合、従来の技術では、文字を正しく切出したり、正し
く読取ることができなかった。本発明は上記事情に鑑み
てなされたもので、その目的とするところは、従来の技
術における上述の如き問題を解消し、文字枠から大きく
はみ出したり、隣接文字と接触しているような、自然な
筆記条件で書かれた文字について、特に、入力された1
単位映像パターンが1カテゴリを表わすパターンの一部
分であると判断された場合に、複数の部分パターンを組
み合せて1文字とし、該組み合せた文字について文字認
識を行うことが可能なパターン切出しおよび認識方法と
そのシステムを提供することにある。
【0004】
【課題を解決するための手段】本発明の上述の目的は、
1文字単位の文字枠を有しない帳票を入力し、切出し部
により、電気的信号に変換された2次元映像パターンか
ら文字を含む1単位映像パターンを切出し、該パターン
を認識部に送り、認識部において入力された前記単位映
像パターンをパターン辞書内の各パターンと比較して認
識する如く構成されたパターン切出しおよび認識装置に
おいて、前記認識部では、入力された1単位映像パター
ンが1カテゴリを表わすパターンの一部分であると判断
した場合には、複数の部分パターンを組み合せて1文字
とし、該組み合せた文字について文字認識を行うことを
特徴とするパターン切出しおよび認識方法とそのシステ
ムによって達成される。
1文字単位の文字枠を有しない帳票を入力し、切出し部
により、電気的信号に変換された2次元映像パターンか
ら文字を含む1単位映像パターンを切出し、該パターン
を認識部に送り、認識部において入力された前記単位映
像パターンをパターン辞書内の各パターンと比較して認
識する如く構成されたパターン切出しおよび認識装置に
おいて、前記認識部では、入力された1単位映像パター
ンが1カテゴリを表わすパターンの一部分であると判断
した場合には、複数の部分パターンを組み合せて1文字
とし、該組み合せた文字について文字認識を行うことを
特徴とするパターン切出しおよび認識方法とそのシステ
ムによって達成される。
【0005】
【作用】本発明に係るパターン切出しおよび認識方法に
おいては、文字読取り装置におけるパターン切出し処理
部において、切出したパターンが完全(「正常」と同義)な
パターンでなく、1つの文字の一部分(部分パターン)で
あると判断された場合には、それらの部分パターンを組
み合せて1つの文字の情報として出力するようにし、ま
た、結果として複数の判断が可能な場合には、複数の仮
説を作成して認識処理部に送り、認識処理部において、
それらの仮説についての総合的な判断を行って、曖昧性
を解消する点にある。なお、本発明に係るパターン切出
しおよび認識システムにおいては、上述の動作を実行す
るために、パターン辞書として、完全なパターンに加え
て、少なくとも完全なパターンの一部分を示すパターン
(部分パターン)を含む如く構成したものを備えているこ
とがその特徴である。
おいては、文字読取り装置におけるパターン切出し処理
部において、切出したパターンが完全(「正常」と同義)な
パターンでなく、1つの文字の一部分(部分パターン)で
あると判断された場合には、それらの部分パターンを組
み合せて1つの文字の情報として出力するようにし、ま
た、結果として複数の判断が可能な場合には、複数の仮
説を作成して認識処理部に送り、認識処理部において、
それらの仮説についての総合的な判断を行って、曖昧性
を解消する点にある。なお、本発明に係るパターン切出
しおよび認識システムにおいては、上述の動作を実行す
るために、パターン辞書として、完全なパターンに加え
て、少なくとも完全なパターンの一部分を示すパターン
(部分パターン)を含む如く構成したものを備えているこ
とがその特徴である。
【0006】
【実施例】以下、本発明の原理について若干の説明を行
った後、実施例を図面に基づいて詳細に説明する。本発
明の原理は、次の2点にある。すなわち、 (1)パターンの切出しにおいて、曖昧性が生じた場合に
は、切出し部は、無理に判断をすることなく、複数の仮
説を立てて、各々の仮説による部分パターンを含む単位
パターンを認識部に送る。 (2)認識部では、上述の単位パターンの識別を行い、総
合的な判断から切出しの妥当性のチェックを行い、曖昧
性を解消する。 以下、これについて、より具体的に説明する。図3は、
隣接文字パターンの種々の状態を示す図である。図3
(a)では、パターン31と32とが、縦方向にオーバラ
ップしている。この場合には、連続した黒領域をパター
ン成分として切出すことができる。連続した黒領域をパ
ターン成分として抽出する方法は、従来から良く知られ
ており、枠内に正しく文字が書かれている場合は勿論の
こと、単純にオーバラップしている場合でも、黒領域に
沿って枠外にはみ出している部分まで抽出できるので、
単位パターンを、正しく切出すことができる。なお、こ
れについては、例えば、A.Rosenfeld et.al.,“Sequ
ential Operations in Digital PictureProcessin
g”(J.ACM,vol.14,No.4,Oct.,1966,pp.471-494)
の記載を参考にすることができる。
った後、実施例を図面に基づいて詳細に説明する。本発
明の原理は、次の2点にある。すなわち、 (1)パターンの切出しにおいて、曖昧性が生じた場合に
は、切出し部は、無理に判断をすることなく、複数の仮
説を立てて、各々の仮説による部分パターンを含む単位
パターンを認識部に送る。 (2)認識部では、上述の単位パターンの識別を行い、総
合的な判断から切出しの妥当性のチェックを行い、曖昧
性を解消する。 以下、これについて、より具体的に説明する。図3は、
隣接文字パターンの種々の状態を示す図である。図3
(a)では、パターン31と32とが、縦方向にオーバラ
ップしている。この場合には、連続した黒領域をパター
ン成分として切出すことができる。連続した黒領域をパ
ターン成分として抽出する方法は、従来から良く知られ
ており、枠内に正しく文字が書かれている場合は勿論の
こと、単純にオーバラップしている場合でも、黒領域に
沿って枠外にはみ出している部分まで抽出できるので、
単位パターンを、正しく切出すことができる。なお、こ
れについては、例えば、A.Rosenfeld et.al.,“Sequ
ential Operations in Digital PictureProcessin
g”(J.ACM,vol.14,No.4,Oct.,1966,pp.471-494)
の記載を参考にすることができる。
【0007】次に、図3(b)では、パターンが部分33
と34に分離していて、分離した成分34の大部分が隣
接の枠に入っている。パターン34が枠21に属するの
か、枠22に属するのか不明な場合は、双方を「あり得
るケース」として多重の仮説を作る。そして、双方のケ
ースを別個に認識部に送って、その認識結果から、どち
らの仮説が正しかったかを決定する。図3(c)は、分離
文字パターンが接触しているケース、図3(d)は、分離
パターン相互で接触しているケースである。図3(c)の
場合は、分離パターンが数字「5」のみであるのに対し
て、図3(d)の場合は、数字「5」と「7」の両方が分離パ
ターンであり、それらが接触している。図3(e)は、完
全なパターン相互が接触したケースである。つまり、分
離していないパターンであるが、隣接パターンが接触し
ている場合である。図3(b)〜(e)のケースに対する認
識方法を、以下、図4〜図7に基づいて説明する。図4
は、切出し部が複数の仮説を立てた場合の動作説明図で
あり、図3(b)に示した如き、分離したパターン成分3
4が、隣接枠に入っている場合の認識方法を説明してい
る。
と34に分離していて、分離した成分34の大部分が隣
接の枠に入っている。パターン34が枠21に属するの
か、枠22に属するのか不明な場合は、双方を「あり得
るケース」として多重の仮説を作る。そして、双方のケ
ースを別個に認識部に送って、その認識結果から、どち
らの仮説が正しかったかを決定する。図3(c)は、分離
文字パターンが接触しているケース、図3(d)は、分離
パターン相互で接触しているケースである。図3(c)の
場合は、分離パターンが数字「5」のみであるのに対し
て、図3(d)の場合は、数字「5」と「7」の両方が分離パ
ターンであり、それらが接触している。図3(e)は、完
全なパターン相互が接触したケースである。つまり、分
離していないパターンであるが、隣接パターンが接触し
ている場合である。図3(b)〜(e)のケースに対する認
識方法を、以下、図4〜図7に基づいて説明する。図4
は、切出し部が複数の仮説を立てた場合の動作説明図で
あり、図3(b)に示した如き、分離したパターン成分3
4が、隣接枠に入っている場合の認識方法を説明してい
る。
【0008】図4において、51,53は切出し部が出
力した2つの仮説、また、200は認識部、100はパ
ターン辞書、101〜104は該パターン辞書100内
の部分辞書を示している。認識部200は上述の2つの
仮説51,53を入力して文字認識を行い、それぞれに
対する認識結果52,54を出力する。すなわち、第1
の仮説51に対する認識結果は(SP.5)と(RJ.6)で
ある。ここで、(SP.5)は、「5のサブパターン」を意
味しており、部分辞書101を参照して認識されたも
の、また、(RJ.6)は、「リジェクト(不読)であるが、
候補は6である」を意味している。更に、第2の仮説5
3に対する認識結果は、(AC.5)と(AC.6)であり、
いずれも、数字「5」あるいは「6」として受容したことを
意味している。従って、第2の仮説が妥当であり、認識
結果は、数字「5」,「6」となる。なお、上述のパターン
辞書100に設けられる部分辞書101〜103は、本
発明において新たに設けられたものであり、従来は、正
常なパターンの辞書104のみが設けられていたもので
ある。
力した2つの仮説、また、200は認識部、100はパ
ターン辞書、101〜104は該パターン辞書100内
の部分辞書を示している。認識部200は上述の2つの
仮説51,53を入力して文字認識を行い、それぞれに
対する認識結果52,54を出力する。すなわち、第1
の仮説51に対する認識結果は(SP.5)と(RJ.6)で
ある。ここで、(SP.5)は、「5のサブパターン」を意
味しており、部分辞書101を参照して認識されたも
の、また、(RJ.6)は、「リジェクト(不読)であるが、
候補は6である」を意味している。更に、第2の仮説5
3に対する認識結果は、(AC.5)と(AC.6)であり、
いずれも、数字「5」あるいは「6」として受容したことを
意味している。従って、第2の仮説が妥当であり、認識
結果は、数字「5」,「6」となる。なお、上述のパターン
辞書100に設けられる部分辞書101〜103は、本
発明において新たに設けられたものであり、従来は、正
常なパターンの辞書104のみが設けられていたもので
ある。
【0009】上述の部分辞書101は、部分パターン格
納している辞書であり、部分辞書102は、部分パター
ンと他の文字とが接触したパターンを格納している辞
書、部分辞書103は、接触文字パターンを格納してい
る辞書である。次に、図3(c)に示した如き、分離パタ
ーン成分が隣接文字に接触している場合の認識方法を、
図5に基づいて説明する。この場合、図5に示す如く、
切出し結果は55のようになり、認識結果56は(SP.
5)と(SC.5,6)となる。ここで、(SC.5,6)は
数字「5」の部分パターンと数字6が接触したものである
ことを意味しており、前述の部分辞書102を参照して
認識されたものである。この結果から、読取り文字は、
数字の「5」と「6」であることが判断できる。次に、図3
(d)に示した如き、分離パターン成分相互で接触してい
る場合の認識方法を、図6に基づいて説明する。この場
合には、図6(a)に示す如く、2つの仮説57,59が
立ち、認識結果58,60が得られる。また、この場合
には、図6(b)に示す如く、特にサブパターン61、す
なわち、図3(d)の38を単独で認識して、その結果と
して認識結果62の(SS.5,7)が得られる。
納している辞書であり、部分辞書102は、部分パター
ンと他の文字とが接触したパターンを格納している辞
書、部分辞書103は、接触文字パターンを格納してい
る辞書である。次に、図3(c)に示した如き、分離パタ
ーン成分が隣接文字に接触している場合の認識方法を、
図5に基づいて説明する。この場合、図5に示す如く、
切出し結果は55のようになり、認識結果56は(SP.
5)と(SC.5,6)となる。ここで、(SC.5,6)は
数字「5」の部分パターンと数字6が接触したものである
ことを意味しており、前述の部分辞書102を参照して
認識されたものである。この結果から、読取り文字は、
数字の「5」と「6」であることが判断できる。次に、図3
(d)に示した如き、分離パターン成分相互で接触してい
る場合の認識方法を、図6に基づいて説明する。この場
合には、図6(a)に示す如く、2つの仮説57,59が
立ち、認識結果58,60が得られる。また、この場合
には、図6(b)に示す如く、特にサブパターン61、す
なわち、図3(d)の38を単独で認識して、その結果と
して認識結果62の(SS.5,7)が得られる。
【0010】上述の仮説57は、サブパターン38が右
側に付加されたものと仮定した場合であり、仮説59
は、サブパターン38が左側に付加されたものと仮定し
た場合である。また、認識結果58の(SP.5)と(R
J.?)は、「5のサブパターン」と「リジェクト(全く不
明)」であり、同様に、認識結果60の(RJ.?)と(S
P.7)は、「リジェクト(全く不明)」と「7のサブパター
ン」である。また、認識結果62の(SS.5,7)は「数
字5のサブパターンと数字7のサブパターンの接触した
パターン」であることを 意味している。これらは、部分
パターンと他の文字とが接触したパターンの部分辞書1
02を参照して得られるものである。これらの結果を総
合することにより、答は数字「5」と「7」であると判断さ
れることになる。次に、図3(e)に示した如き、完全な
パターン相互が接触している場合の認識方法を、図7に
基づいて説明する。この場合には、図7に示す如く、無
理に分割せずに、全体を認識部に送り、部分辞書103
を参照して同じものを探し、認識する。ここでは、その
結果として(CC.5,6)が得られているが、これは 数
字「5」と「6」が接触したものであることを意味してい
る。
側に付加されたものと仮定した場合であり、仮説59
は、サブパターン38が左側に付加されたものと仮定し
た場合である。また、認識結果58の(SP.5)と(R
J.?)は、「5のサブパターン」と「リジェクト(全く不
明)」であり、同様に、認識結果60の(RJ.?)と(S
P.7)は、「リジェクト(全く不明)」と「7のサブパター
ン」である。また、認識結果62の(SS.5,7)は「数
字5のサブパターンと数字7のサブパターンの接触した
パターン」であることを 意味している。これらは、部分
パターンと他の文字とが接触したパターンの部分辞書1
02を参照して得られるものである。これらの結果を総
合することにより、答は数字「5」と「7」であると判断さ
れることになる。次に、図3(e)に示した如き、完全な
パターン相互が接触している場合の認識方法を、図7に
基づいて説明する。この場合には、図7に示す如く、無
理に分割せずに、全体を認識部に送り、部分辞書103
を参照して同じものを探し、認識する。ここでは、その
結果として(CC.5,6)が得られているが、これは 数
字「5」と「6」が接触したものであることを意味してい
る。
【0011】以上、説明した如く、本発明においては、
認識結果を総合して最終的な答を出すことが特徴であ
る。なお、実際には、例えば、以下の如き規則に従って
処理することにより、実現される。図3(a)〜(e)に対
して行った処理を整理すると、以下のようになる。 (a) (AC.5)(AC.6) → (AC.5)(AC.6) (b) (SP.5)(RJ.6) (AC.5)(AC.6) → (AC.5)(AC.6) (c) (SP.5)(SC.5,6) → (AC.5)(AC.6) (d) (SP.5)(RJ.?) (RJ.?)(SP.7) (SS.5,7) → (AC.5)(AC.7) (e) (CC.5,6) → (AC.5)(AC.6) 上の各式の左辺の仮説毎の認識結果コードは、右辺の如
き認識結果コードに書換えがなされる。これらを一般化
したものを、書換え規則(Rewriting Rules)と呼ぶこ
とにする。
認識結果を総合して最終的な答を出すことが特徴であ
る。なお、実際には、例えば、以下の如き規則に従って
処理することにより、実現される。図3(a)〜(e)に対
して行った処理を整理すると、以下のようになる。 (a) (AC.5)(AC.6) → (AC.5)(AC.6) (b) (SP.5)(RJ.6) (AC.5)(AC.6) → (AC.5)(AC.6) (c) (SP.5)(SC.5,6) → (AC.5)(AC.6) (d) (SP.5)(RJ.?) (RJ.?)(SP.7) (SS.5,7) → (AC.5)(AC.7) (e) (CC.5,6) → (AC.5)(AC.6) 上の各式の左辺の仮説毎の認識結果コードは、右辺の如
き認識結果コードに書換えがなされる。これらを一般化
したものを、書換え規則(Rewriting Rules)と呼ぶこ
とにする。
【0012】本実施例に示す切出し方法では、書換え規
則が以下のようになる。
則が以下のようになる。
【外1】 規則R1は、7頁に示した(a)と(b)に対応するもの
で、a,bをアクセプト(認識)していない場所があって
も、他に1つでもアクセプトした場所があれば、認識で
きたことにするというものである。
で、a,bをアクセプト(認識)していない場所があって
も、他に1つでもアクセプトした場所があれば、認識で
きたことにするというものである。
【0013】規則R2は、同(c)に対応するもので、a
のサブパターンが認識される一方、aのサブパターンと
bのパターンとの接触が認識された場合には、aとbが
認識できたことにするというものである。規則R3は、
同(d)に対応するもので、aのサブパターンが認識さ
れ、アクセプト以外の例えばリジェクトで任意の値の候
補が与えられる一方、bのサブパターンが認識され、ア
クセプト以外の任意の値の候補が与えれた場合には、分
離されているサブパターンのみを認識してみることを指
示するものである。また、規則R4も、同(d)に対応す
るものであり、規則R3によって処理されたサブパター
ンのみの認識結果を含めて、総合的に認識する場合を示
している。すなわち、aのサブパターンと認識できない
パターン,bのサブパターンと認識できないパターンお
よびaのサブパターンとbのサブパターンとの接触した
パターンの3つが認識された場合には、総合的認識によ
り、aアクセプト,bアクセプトとなるというものであ
る。規則R5は、同(e)に対応するもので、aとbの接
触したパターンは、aアクセプト,bアクセプトとなる
というものである。
のサブパターンが認識される一方、aのサブパターンと
bのパターンとの接触が認識された場合には、aとbが
認識できたことにするというものである。規則R3は、
同(d)に対応するもので、aのサブパターンが認識さ
れ、アクセプト以外の例えばリジェクトで任意の値の候
補が与えられる一方、bのサブパターンが認識され、ア
クセプト以外の任意の値の候補が与えれた場合には、分
離されているサブパターンのみを認識してみることを指
示するものである。また、規則R4も、同(d)に対応す
るものであり、規則R3によって処理されたサブパター
ンのみの認識結果を含めて、総合的に認識する場合を示
している。すなわち、aのサブパターンと認識できない
パターン,bのサブパターンと認識できないパターンお
よびaのサブパターンとbのサブパターンとの接触した
パターンの3つが認識された場合には、総合的認識によ
り、aアクセプト,bアクセプトとなるというものであ
る。規則R5は、同(e)に対応するもので、aとbの接
触したパターンは、aアクセプト,bアクセプトとなる
というものである。
【0014】図8に、本発明の一実施例である文字読取
り装置のブロック図を示す。本実施例に示す文字読取り
装置は、パターン観測部800,パターン切出し部90
0,帳票フォーマット辞書950,パターン認識部20
0,パターン辞書100,認識結果最終判定部400お
よび認識結果書換え規則辞書300から構成されてい
る。以下、本装置の動作を説明する。読取りの対象であ
る帳票75には、図2に示した如き、自然な筆記条件で
文字が記入されている。帳票75がパターン観測部80
0に入力され、光電変換および前処理(2値化,帳票ス
キュー補正)を受けると、2次元映像パターンが電気的
信号としてパターン切出し部900に送出される。パタ
ーン切出し部900では、帳票フォーマット辞書950
からの枠位置パラメータを参照して、1枚の帳票の映像
から1文字に該当すると判断されるパターンを1組ずつ
切出して、パターン認識部200に送出する。パターン
認識部200では、入力された1文字分のパターンと、
図4にその内容を例示したパターン辞書100に記憶さ
れている各パターンとを比較照合し、認識結果を認識結
果最終判定部400に送出する。
り装置のブロック図を示す。本実施例に示す文字読取り
装置は、パターン観測部800,パターン切出し部90
0,帳票フォーマット辞書950,パターン認識部20
0,パターン辞書100,認識結果最終判定部400お
よび認識結果書換え規則辞書300から構成されてい
る。以下、本装置の動作を説明する。読取りの対象であ
る帳票75には、図2に示した如き、自然な筆記条件で
文字が記入されている。帳票75がパターン観測部80
0に入力され、光電変換および前処理(2値化,帳票ス
キュー補正)を受けると、2次元映像パターンが電気的
信号としてパターン切出し部900に送出される。パタ
ーン切出し部900では、帳票フォーマット辞書950
からの枠位置パラメータを参照して、1枚の帳票の映像
から1文字に該当すると判断されるパターンを1組ずつ
切出して、パターン認識部200に送出する。パターン
認識部200では、入力された1文字分のパターンと、
図4にその内容を例示したパターン辞書100に記憶さ
れている各パターンとを比較照合し、認識結果を認識結
果最終判定部400に送出する。
【0015】なお、パターン認識部200での処理に
は、前述の如く、サブパターンや接触した2文字分のパ
ターンをも含んでいることは言うまでもない。また、本
実施例においては、パターン認識部200からの認識結
果の出力は、入力されたパターン毎に認識結果を記号化
して、認識結果最終判定部400に送出する。認識結果
最終判定部400は、受取った認識結果に対して、前述
の認識結果書換え辞書300中の各書換え規則を、適用
できる書換え規則がなくなるまで順次適用して、書換え
処理を行う。すなわち、前述の書換え規則R1〜R5の
条件の中から、上述の記号化された認識結果がこれに合
致するものを選択・適用し、その結果を採用する。上述
のパターン切出し部900以降の処理を、以下、更に詳
細に説明する。図9に、上述の切出し処理および認識処
理のフローチャートと、これに対応するデータの内容を
例示する。ステップ 701では、帳票1枚分の映像パター
ン711から、1行分の映像パターン712を切出す。
ステップ 702では、黒地パターンの連続性を利用して、
黒地毎のぱターン成分を抽出し、横方向に関して順序付
けを行った後、成分リスト713を作成する。
は、前述の如く、サブパターンや接触した2文字分のパ
ターンをも含んでいることは言うまでもない。また、本
実施例においては、パターン認識部200からの認識結
果の出力は、入力されたパターン毎に認識結果を記号化
して、認識結果最終判定部400に送出する。認識結果
最終判定部400は、受取った認識結果に対して、前述
の認識結果書換え辞書300中の各書換え規則を、適用
できる書換え規則がなくなるまで順次適用して、書換え
処理を行う。すなわち、前述の書換え規則R1〜R5の
条件の中から、上述の記号化された認識結果がこれに合
致するものを選択・適用し、その結果を採用する。上述
のパターン切出し部900以降の処理を、以下、更に詳
細に説明する。図9に、上述の切出し処理および認識処
理のフローチャートと、これに対応するデータの内容を
例示する。ステップ 701では、帳票1枚分の映像パター
ン711から、1行分の映像パターン712を切出す。
ステップ 702では、黒地パターンの連続性を利用して、
黒地毎のぱターン成分を抽出し、横方向に関して順序付
けを行った後、成分リスト713を作成する。
【0016】更に、各成分の属性を計算し、成分属性リ
スト714を作成する。なお、ここで、成分の属性と
は、各成分の上下端,左右端の座標,輪郭総長等であ
る。次に、ステップ 703では、上で作成した成分属性リ
スト714と、帳票フォーマット辞書950の情報か
ら、文字間の境界の仮説を立て、文字リスト715を作
成する。この文字リスト715は、各文字パターンが、
どの成分から構成されているかを示すもので、図9で
は、第1の仮説では順序1,2,3でそれぞれ1つの文
字、4と5を合せて1つの文字と仮定し、第2の仮説で
は、順序1と2を合せて1つの文字、3だけで1つの文
字、4と5を合せて1つの文字と仮定する例を示してい
る。以上は、パターン切出し部900の処理である。ス
テップ 704は、パターン認識部200の処理である。ス
テップ 704では、上述の成分リスト713,成分属性リ
スト714および文字リスト715を入力して、文字リ
スト715に示される成分を集めてパターン整合を行
い、その結果を結果リスト716に書込む。
スト714を作成する。なお、ここで、成分の属性と
は、各成分の上下端,左右端の座標,輪郭総長等であ
る。次に、ステップ 703では、上で作成した成分属性リ
スト714と、帳票フォーマット辞書950の情報か
ら、文字間の境界の仮説を立て、文字リスト715を作
成する。この文字リスト715は、各文字パターンが、
どの成分から構成されているかを示すもので、図9で
は、第1の仮説では順序1,2,3でそれぞれ1つの文
字、4と5を合せて1つの文字と仮定し、第2の仮説で
は、順序1と2を合せて1つの文字、3だけで1つの文
字、4と5を合せて1つの文字と仮定する例を示してい
る。以上は、パターン切出し部900の処理である。ス
テップ 704は、パターン認識部200の処理である。ス
テップ 704では、上述の成分リスト713,成分属性リ
スト714および文字リスト715を入力して、文字リ
スト715に示される成分を集めてパターン整合を行
い、その結果を結果リスト716に書込む。
【0017】整合結果を表わす結果コードは、前述の
(SP.a),(SC.a,b),(SS.a,b),(CC.a,
b),(AC.a),(RJ.a)等の記号形式をとる。これら
の意味は、前述の通り、それぞれ、「カテゴリaのサブ
パターン」,「カテゴリaのサブパターンとカテゴリbの
接触したもの」,「カテゴリaとカテゴリbのサブパター
ンが 相互に接触したもの」,「カテゴリaとカテゴリbが
相互に接触したもの」,「カテゴリaのパターン」,「候補は
aであるがリジェクト」である。ステップ 705は、認識
結果最終判定部400の処理である。ここでは、上述の
結果リスト716に対して、書換え規則辞書300内の
すべての規則を参照し、適用できる規則がなくなるまで
順次適用し、最終的に得られた結果に応じた処理を行
う。また、ステップ 706では、帳票75上のすべての行
についての処理が終了したか否かを判断し、終了してい
なければステップ 701に戻って、終了するまで上述の処
理を繰り返し行う。
(SP.a),(SC.a,b),(SS.a,b),(CC.a,
b),(AC.a),(RJ.a)等の記号形式をとる。これら
の意味は、前述の通り、それぞれ、「カテゴリaのサブ
パターン」,「カテゴリaのサブパターンとカテゴリbの
接触したもの」,「カテゴリaとカテゴリbのサブパター
ンが 相互に接触したもの」,「カテゴリaとカテゴリbが
相互に接触したもの」,「カテゴリaのパターン」,「候補は
aであるがリジェクト」である。ステップ 705は、認識
結果最終判定部400の処理である。ここでは、上述の
結果リスト716に対して、書換え規則辞書300内の
すべての規則を参照し、適用できる規則がなくなるまで
順次適用し、最終的に得られた結果に応じた処理を行
う。また、ステップ 706では、帳票75上のすべての行
についての処理が終了したか否かを判断し、終了してい
なければステップ 701に戻って、終了するまで上述の処
理を繰り返し行う。
【0018】上記実施例によれば、前記認識部で、例え
ば、入力された1単位映像パターンが1カテゴリを表わ
すパターンの一部分であると判断した場合には、複数の
部分パターンを組み合せて1文字とし、該組み合せた文
字について文字認識を行うことが可能になり、文字読取
り装置における、自然な筆記条件で書かれた文字の読取
り精度が向上するという効果が得られる。なお、上記実
施例は本発明の一例を示すものであり、本発明はこれに
限定されるべきものではないことは言うまでもないこと
である。
ば、入力された1単位映像パターンが1カテゴリを表わ
すパターンの一部分であると判断した場合には、複数の
部分パターンを組み合せて1文字とし、該組み合せた文
字について文字認識を行うことが可能になり、文字読取
り装置における、自然な筆記条件で書かれた文字の読取
り精度が向上するという効果が得られる。なお、上記実
施例は本発明の一例を示すものであり、本発明はこれに
限定されるべきものではないことは言うまでもないこと
である。
【0019】
【発明の効果】以上、詳細に述べた如く、本発明によれ
ば、文字枠から大きくはみ出したり、隣接文字と接触し
ているような、自然な筆記条件で書かれた文字につき、
特に、入力された1単位映像パターンが1カテゴリを表
わすパターンの一部分であると判断された場合に、複数
の部分パターンを組み合せて1文字とし、該組み合せた
文字について文字認識を行うことが可能なパターン切出
しおよび認識方法とそのシステムを実現できるという顕
著な効果を奏するものである。
ば、文字枠から大きくはみ出したり、隣接文字と接触し
ているような、自然な筆記条件で書かれた文字につき、
特に、入力された1単位映像パターンが1カテゴリを表
わすパターンの一部分であると判断された場合に、複数
の部分パターンを組み合せて1文字とし、該組み合せた
文字について文字認識を行うことが可能なパターン切出
しおよび認識方法とそのシステムを実現できるという顕
著な効果を奏するものである。
【0020】
【図1】従来のOCR用帳票の文字枠と筆記文字の例を
示す図である。
示す図である。
【図2】筆記条件を緩和した場合の、従来のOCR用帳
票の文字枠と筆記文字の例を示す図である。
票の文字枠と筆記文字の例を示す図である。
【図3】隣接文字パターンの種々の状態を例示する図で
ある。
ある。
【図4】本発明の原理を説明する図(その1)である。
【図5】本発明の原理を説明する図(その2)である。
【図6】本発明の原理を説明する図(その3)である。
【図7】本発明の原理を説明する図(その4)である。
【図8】本発明の一実施例である文字読取り装置のブロ
ック図である。
ック図である。
【図9】実施例に係る文字読取り装置における、切出し
処理および認識処理のフローチャートとこれに対応する
データの内容を例示する図である。
処理および認識処理のフローチャートとこれに対応する
データの内容を例示する図である。
75:読取り対象である帳票、100:パターン辞書、
101〜103:部分辞書、104:正常パターン辞
書、200:パターン認識部、300:認識結果書換え
規則辞書、400:認識結果最終判定部、800:パタ
ーン観測部、900:パターン切出し部、950:帳票
フォーマット辞書。
101〜103:部分辞書、104:正常パターン辞
書、200:パターン認識部、300:認識結果書換え
規則辞書、400:認識結果最終判定部、800:パタ
ーン観測部、900:パターン切出し部、950:帳票
フォーマット辞書。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 門田 彰三 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内 (72)発明者 栗野 清道 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内
Claims (4)
- 【請求項1】 1文字単位の文字枠を有しない帳票を入
力し、切出し部により、電気的信号に変換された2次元
映像パターンから文字を含む1単位映像パターンを切出
し、該パターンを認識部に送り、認識部において入力さ
れた前記単位映像パターンをパターン辞書内の各パター
ンと比較して認識する如く構成されたパターン切出しお
よび認識装置において、前記認識部では、入力された1
単位映像パターンが1カテゴリを表わすパターンの一部
分であると判断した場合には、複数の部分パターンを組
み合せて1文字とし、該組み合せた文字について文字認
識を行うことを特徴とするパターン切出しおよび認識方
法。 - 【請求項2】 前記切出し部による切出しにおいて、区
切りに曖昧性がある場合には、パターン間の境界に複数
の仮説を作成して前記認識部に送り、該認識部は、前記
各仮説に対応する部分パターンについて組み合せ・認識
処理を行い、単一の仮説を選択することを特徴とする請
求項1記載のパターン切出しおよび認識方法。 - 【請求項3】 1文字単位の文字枠を有しない帳票を入
力し、切出し部により、電気的信号に変換された2次元
映像パターンから文字を含む1単位映像パターンを切出
し、該パターンを認識部に送り、認識部において入力さ
れた前記単位映像パターンをパターン辞書内の各パター
ンと比較して認識する如く構成されたパターン切出しお
よび認識装置において、前記パターン辞書を、完全なパ
ターンに加えて、少なくとも完全なパターンの一部分を
示すパターン(部分パターン)を含む如く構成し、前記認
識部では、入力された1単位映像パターンが前記部分パ
ターンであると判断した場合には、認識結果であるカテ
ゴリ名を示す信号の組み合せにより、複数の部分パター
ンを組み合せた文字を出力することを特徴とするパター
ン切出しおよび認識システム。 - 【請求項4】 前記切出し部による切出しにおいて、区
切りに曖昧性がある場合には、パターン間の境界に複数
の仮説を作成して前記認識部に送り、該認識部は、前記
各仮説に対応する部分パターンについて組み合せ・認識
処理を行い、単一の仮説を選択することを特徴とする請
求項3記載のパターン切出しおよび認識システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4095186A JPH0792818B2 (ja) | 1992-04-15 | 1992-04-15 | パターン切出しおよび認識方法とそのシステム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4095186A JPH0792818B2 (ja) | 1992-04-15 | 1992-04-15 | パターン切出しおよび認識方法とそのシステム |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57208300A Division JPS5998283A (ja) | 1982-11-27 | 1982-11-27 | パターン切出しおよび認識方法、ならびにそのシステム |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6192419A Division JPH0792819B2 (ja) | 1994-08-16 | 1994-08-16 | パターン切出しおよび認識方法とそのシステム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH05108887A true JPH05108887A (ja) | 1993-04-30 |
| JPH0792818B2 JPH0792818B2 (ja) | 1995-10-09 |
Family
ID=14130726
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4095186A Expired - Lifetime JPH0792818B2 (ja) | 1992-04-15 | 1992-04-15 | パターン切出しおよび認識方法とそのシステム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0792818B2 (ja) |
-
1992
- 1992-04-15 JP JP4095186A patent/JPH0792818B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0792818B2 (ja) | 1995-10-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH055146B2 (ja) | ||
| EP0063454B1 (en) | Method for recognizing machine encoded characters | |
| US6006240A (en) | Cell identification in table analysis | |
| US5774580A (en) | Document image processing method and system having function of determining body text region reading order | |
| JPH0467234B2 (ja) | ||
| JPS6077279A (ja) | 文字イメ−ジ切出し方法 | |
| JPS62254282A (ja) | 重畳するパタ−ンを分離する方法及び装置 | |
| JP2000029983A (ja) | 文書読取装置 | |
| JPH07230525A (ja) | 罫線認識方法及び表処理方法 | |
| JPH05108887A (ja) | パターン切出しおよび認識方法とそのシステム | |
| Hanmandlu et al. | Segmentation of handwritten Hindi text: A structural approach | |
| JPH0773273A (ja) | パターン切出しおよび認識方法とそのシステム | |
| JP2675303B2 (ja) | 文字認識方法 | |
| JP2550012B2 (ja) | パタ−ン切り出し及び認識方法 | |
| JPH0728935A (ja) | 文書画像処理装置 | |
| JP3345246B2 (ja) | 文字認識装置及び文字認識方法 | |
| JPH0452783A (ja) | 図面読取装置 | |
| JPS61220081A (ja) | パタ−ン切り出し及び認識方式 | |
| JP3199033B2 (ja) | 光学式文字読取方法、及び光学式文字読取装置 | |
| JP4580520B2 (ja) | 文字認識方法および文字認識装置 | |
| JPS6111886A (ja) | 文字認識方式 | |
| Hashemi et al. | The effects of image enhancement in OCR systems: a prototype | |
| JPH02166583A (ja) | 文字認識装置 | |
| JP3030814B2 (ja) | ノイズ成分除去方法及びノイズ成分除去プログラムを記録した記録媒体 | |
| JPH0256683A (ja) | 図面認識方式 |