JPH0773273A - Pattern cutting and recognition method and its system - Google Patents
Pattern cutting and recognition method and its systemInfo
- Publication number
- JPH0773273A JPH0773273A JP6192419A JP19241994A JPH0773273A JP H0773273 A JPH0773273 A JP H0773273A JP 6192419 A JP6192419 A JP 6192419A JP 19241994 A JP19241994 A JP 19241994A JP H0773273 A JPH0773273 A JP H0773273A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- character
- recognition
- list
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 自然な筆記条件で書かれた文字で、入力され
た1単位映像パターンが1カテゴリを表わすパターンの
一部分であると判断された場合に、複数の部分パターン
を組み合せて1文字とし、該組み合せた文字について文
字認識を行うことが可能なパターン切出しおよび認識方
法とそのシステムを提供すること。
【構成】 1文字単位の文字枠を有しない帳票を入力
し、切出し部により、電気的信号に変換された2次元映
像パターンの1文字行分に対応する領域を対象とした処
理で切出したパターンが、完全(「正常」と同義)なパター
ンでなく、1つの文字の一部分(部分パターン)であると
判断された場合には、それらの部分パターンを組み合せ
て1つの文字の情報として出力するようにし、また、結
果として複数の判断が可能な場合には、複数の仮説を作
成して認識処理部に送り、認識処理部において、それら
の仮説についての総合的な判断を行って曖昧性を解消す
ることを特徴とするパターン切出しおよび認識方法。
(57) [Abstract] [Purpose] A combination of a plurality of partial patterns when it is determined that the input 1 unit video pattern is a part of the pattern representing one category and is a character written under natural writing conditions. To provide a pattern cutting and recognizing method and system capable of recognizing the combined character as one character. [Structure] A pattern obtained by inputting a form that does not have a character frame in units of one character and performing a process on a region corresponding to one character line of a two-dimensional video pattern converted into an electrical signal by a cutting unit. Is not a complete (synonymous with “normal”) pattern but a part of one character (partial pattern), combine those partial patterns and output as information of one character. If multiple judgments are possible as a result, multiple hypotheses are created and sent to the recognition processing unit, and the recognition processing unit makes a comprehensive judgment on those hypotheses to resolve the ambiguity. A pattern cutting and recognizing method characterized by:
Description
【0001】[0001]
【産業上の利用分野】本発明は光学文字読取り装置(以
下、「OCR」という)におけるパターン切出しおよび認
識方法とそのシステムに関し、特に自然な筆記条件で書
かれた帳票上等のパターンを切出し、それを認識するに
好適なパターン切出しおよび認識方法とそのシステムに
関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a pattern cutting and recognizing method in an optical character reader (hereinafter referred to as "OCR") and its system, and particularly to cutting a pattern on a form written under natural writing conditions, BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a pattern cutting and recognition method suitable for recognizing it and a system thereof.
【0002】[0002]
【従来の技術】従来、上記OCRに読込ませる文字は、
図1(a)に示す如く、文字毎に設定された文字枠11内
に正しく筆記する必要があった。その場合、多少の枠か
らのはみ出しは許容されるが、その程度は、図1(b)に
示す如く、上下方向については1.0〜1.5mm程度、左
右方向については隣の枠に入らない程度であった。とこ
ろで、OCRを更に普及させるためには、上述の如く、
OCR独特な文字枠内に文字,数字等を筆記させること
なく、図2(a)または(b)に示す如く、文字枠にあまり
こだわらず、通常、我々が筆記しているような、自然な
筆記条件を可能にすることが必要である。図1と図2を
比較すれば明らかな如く、従来の文字枠は、寸法が大き
いとともに、文字枠間ギャップ5が0.5〜1.0mmであ
るのに対して、条件の緩和された文字枠は、図2中の1
2,13に示される如く、寸法が小さくなるとともに、
文字枠間ギャップ6,7が0mmとなっている。2. Description of the Related Art Conventionally, the characters read by the OCR are:
As shown in FIG. 1A, it was necessary to write correctly in the character frame 11 set for each character. In that case, some protrusion from the frame is allowed, but as shown in Fig. 1 (b), the extent is about 1.0 to 1.5 mm in the vertical direction, and the adjacent frame in the horizontal direction. There was not much. By the way, in order to further spread OCR, as described above,
As shown in Fig. 2 (a) or (b), the characters and numbers are not written in the OCR unique character frame, and the character frame is not so particularized, and it is natural to write as usual. It is necessary to enable writing conditions. As is clear from a comparison between FIG. 1 and FIG. 2, the conventional character frame has a large size and the inter-character frame gap 5 is 0.5 to 1.0 mm. The frame is 1 in FIG.
As shown in Nos. 2 and 13, as the dimensions decrease,
The gaps 6 and 7 between the character frames are 0 mm.
【0003】[0003]
【発明が解決しようとする課題】この結果として、文字
の、枠12,13からのはみ出しが大きくなり、また、
文字相互が縦方向にオーバラップしたり、あるいは、文
字相互が接触し易くなるという問題が生ずることにな
る。更に、文字パターン成分が分離しているような場
合、例えば、図2(a)または(b)における数字「5」等で
は、その成分の大部分が隣の枠に入ることがあり、文字
読取り上、困難な問題を惹き起こしている。このような
場合、従来の技術では、文字を正しく切出したり、正し
く読取ることができなかった。本発明は上記事情に鑑み
てなされたもので、その目的とするところは、従来の技
術における上述の如き問題を解消し、文字枠から大きく
はみ出したり、隣接文字と接触しているような、自然な
筆記条件で書かれた文字について、特に、入力された1
単位映像パターンが1カテゴリを表わすパターンの一部
分であると判断された場合に、複数の部分パターンを組
み合せて1文字とし、該組み合せた文字について文字認
識を行うことが可能なパターン切出しおよび認識方法と
そのシステムを提供することにある。As a result of this, the amount of characters protruding from the frames 12 and 13 becomes large, and
There arises a problem that the characters overlap each other in the vertical direction or the characters easily contact each other. Further, when the character pattern components are separated, for example, in the case of the number "5" in FIG. 2 (a) or (b), most of the components may be in the adjacent frame, and the character reading Moreover, it causes difficult problems. In such a case, the conventional technology has not been able to correctly cut out characters or read them correctly. The present invention has been made in view of the above circumstances, and an object of the present invention is to solve the above-described problems in the related art, to largely protrude from a character frame, or to be in contact with an adjacent character. About the characters written under different writing conditions, especially the entered 1
A pattern cutout and recognition method capable of combining a plurality of partial patterns into one character when the unit image pattern is determined to be a part of a pattern representing one category and performing character recognition on the combined character. To provide that system.
【0004】[0004]
【課題を解決するための手段】本発明の上述の目的は、
1文字単位の文字枠を有しない帳票を入力し、切出し部
により、電気的信号に変換された2次元映像パターンか
ら文字を含む1つ以上のパターンを切出し、該パターン
を認識部に送り、認識部において前記パターンをパター
ン辞書内の各パターンと比較して認識する如く構成され
たパターン切出しおよび認識方法であって、前記切出し
部では、前記2次元映像パターンの1文字行分に対応す
る領域を対象として処理を行い、連続した黒画素の領域
をパターン成分として抽出し、該パターン成分の横方向
に関する順序付けを行った後、該パターン成分を要素と
する文字成分リストを作成し、更に、該文字成分リスト
の各部分の属性を計算して成分属性リストを作成し、該
成分属性リストを参照して各文字を構成する1単位ある
いは複数のパターン成分の組み合せの仮説を立て、該組
み合せの仮説を文字リストとして記憶し、前記認識部で
は、前記文字リストを入力し、該文字リストから認識す
べきパターン成分の組み合せを構成して、前記パターン
辞書内の各パターンと照合することにより認識処理を行
い、最終判定部により、1文字行分の認識結果の総合判
定を行うことを特徴とするパターン切出しおよび認識方
法とそのシステムによって達成される。The above objects of the present invention are as follows:
Input a form that does not have a character frame for each character, cut out one or more patterns including characters from the two-dimensional image pattern converted into an electrical signal by the cutout unit, send the pattern to the recognition unit, and recognize the pattern. A pattern cutout and recognition method configured to recognize the pattern by comparing each pattern with each pattern in a pattern dictionary, wherein the cutout unit creates an area corresponding to one character line of the two-dimensional video pattern. After processing as a target, a region of consecutive black pixels is extracted as a pattern component, the pattern components are ordered in the horizontal direction, and then a character component list having the pattern component as an element is created. A component attribute list is created by calculating the attributes of each part of the component list, and one unit or a plurality of patterns forming each character by referring to the component attribute list. A hypothesis of a combination of components is established, the hypothesis of the combination is stored as a character list, and the recognition unit inputs the character list, constructs a combination of pattern components to be recognized from the character list, and forms the pattern dictionary. The pattern cutout and recognition method and its system are characterized in that the recognition process is performed by matching each pattern in the above, and the final judgment unit makes a comprehensive judgment of the recognition result for one character line.
【0005】[0005]
【作用】本発明に係るパターン切出しおよび認識方法に
おいては、文字読取り装置におけるパターン切出し処理
部において、1文字行分に対応する領域を対象とした処
理で切出したパターン(単位映像パターン)が、完全(「正
常」と同義)なパターンでなく、1つの文字の一部分(部
分パターン)であると判断された場合には、それらの部
分パターンを組み合せて1つの文字の情報として出力す
るようにし、また、結果として複数の判断が可能な場合
には、複数の仮説を作成して認識処理部に送り、認識処
理部において、それらの仮説についての総合的な判断を
行って、曖昧性を解消する点にある。なお、本発明に係
るパターン切出しおよび認識システムにおいては、上述
の動作を実行するために、パターン辞書として、完全な
パターンに加えて、少なくとも完全なパターンの一部分
を示すパターン(部分パターン)を含む如く構成したもの
を備えていることがその特徴である。In the pattern cutout and recognition method according to the present invention, in the pattern cutout processing unit of the character reading device, the pattern (unit video pattern) cut out by the process for the area corresponding to one character line is completely If it is judged that it is not a pattern (synonymous with “normal”) but a part of one character (partial pattern), those partial patterns are combined and output as information of one character. As a result, when multiple judgments are possible, multiple hypotheses are created and sent to the recognition processing unit, and the recognition processing unit makes a comprehensive judgment on those hypotheses to eliminate ambiguity. It is in. In the pattern cutout and recognition system according to the present invention, in order to execute the above-mentioned operation, in addition to the complete pattern, the pattern dictionary includes a pattern (partial pattern) indicating at least a part of the complete pattern. The feature is that it has the configured one.
【0006】[0006]
【実施例】以下、本発明の原理について若干の説明を行
った後、実施例を図面に基づいて詳細に説明する。本発
明の原理は、次の2点にある。すなわち、 (1)パターンの切出しにおいて、曖昧性が生じた場合に
は、切出し部は、無理に判断をすることなく、複数の仮
説を立てて、各々の仮説による部分パターンを含む単位
パターンを認識部に送る。 (2)認識部では、上述の単位パターンの識別を行い、総
合的な判断から切出しの妥当性のチェックを行い、曖昧
性を解消する。 以下、これについて、より具体的に説明する。DESCRIPTION OF THE PREFERRED EMBODIMENTS The principle of the present invention will be described below, and then embodiments will be described in detail with reference to the drawings. The principle of the present invention lies in the following two points. That is, (1) When ambiguity occurs in the cutout of a pattern, the cutout unit makes a plurality of hypotheses and recognizes a unit pattern including a partial pattern according to each hypothesis without forcibly making a judgment. Send to the department. (2) The recognition unit discriminates the unit pattern described above, and checks the validity of the cutout from a comprehensive judgment to eliminate the ambiguity. Hereinafter, this will be described more specifically.
【0007】図3は、隣接文字パターンの種々の状態を
示す図である。図3(a)では、パターン31と32と
が、縦方向にオーバラップしている。この場合には、連
続した黒領域をパターン成分として切出すことができ
る。連続した黒領域をパターン成分として抽出する方法
は、従来から良く知られており、枠内に正しく文字が書
かれている場合は勿論のこと、単純にオーバラップして
いる場合でも、黒領域に沿って枠外にはみ出している部
分まで抽出できるので、単位パターンを、正しく切出す
ことができる。なお、これについては、例えば、A.Ro
senfeld et.al.,“Sequential Operations in Digit
al PictureProcessing”(J.ACM,vol.14,No.4,
Oct.,1966,pp.471-494)の記載を参考にすることができ
る。FIG. 3 is a diagram showing various states of adjacent character patterns. In FIG. 3A, the patterns 31 and 32 overlap in the vertical direction. In this case, a continuous black area can be cut out as a pattern component. The method of extracting a continuous black area as a pattern component is well known in the art, and not only when the characters are correctly written in the frame, but also when the text is simply overlapped, the black area is extracted. Since it is possible to extract even the portion that extends outside the frame along the line, the unit pattern can be cut out correctly. Regarding this, for example, A.Ro
senfeld et.al., “Sequential Operations in Digit
al Picture Processing ”(J. ACM, vol.14, No.4,
Oct., 1966, pp.471-494) can be referred to.
【0008】次に、図3(b)では、パターンが部分33
と34に分離していて、分離した成分34の大部分が隣
接の枠に入っている。パターン34が枠21に属するの
か、枠22に属するのか不明な場合は、双方を「あり得
るケース」として多重の仮説を作る。そして、双方のケ
ースを別個に認識部に送って、その認識結果から、どち
らの仮説が正しかったかを決定する。図3(c)は、分離
文字パターンが接触しているケース、図3(d)は、分離
パターン相互で接触しているケースである。図3(c)の
場合は、分離パターンが数字「5」のみであるのに対し
て、図3(d)の場合は、数字「5」と「7」の両方が分離パ
ターンであり、それらが接触している。Next, in FIG. 3 (b), the pattern is a portion 33.
And 34, and most of the separated components 34 are contained in adjacent frames. If it is unknown whether the pattern 34 belongs to the frame 21 or the frame 22, it is assumed that both are “possible cases” and a multiple hypothesis is created. Then, both cases are sent to the recognition section separately, and which hypothesis is correct is determined from the recognition result. 3C is a case where the separated character patterns are in contact with each other, and FIG. 3D is a case where the separated patterns are in contact with each other. In the case of FIG. 3C, the separation pattern is only the number “5”, whereas in the case of FIG. 3D, both the numbers “5” and “7” are the separation patterns and Are in contact.
【0009】図3(e)は、完全なパターン相互が接触し
たケースである。つまり、分離していないパターンであ
るが、隣接パターンが接触している場合である。図3
(b)〜(e)のケースに対する認識方法を、以下、図4〜
図7に基づいて説明する。図4は、切出し部が複数の仮
説を立てた場合の動作説明図であり、図3(b)に示した
如き、分離したパターン成分34が、隣接枠に入ってい
る場合の認識方法を説明している。図4において、5
1,53は切出し部が出力した2つの仮説、また、20
0は認識部、100はパターン辞書、101〜104は
該パターン辞書100内の部分辞書を示している。FIG. 3 (e) shows a case where perfect patterns are in contact with each other. That is, the patterns are not separated, but the adjacent patterns are in contact with each other. Figure 3
The recognition method for the cases (b) to (e) will be described below with reference to FIGS.
It will be described with reference to FIG. FIG. 4 is an operation explanatory diagram when the cutout unit makes a plurality of hypotheses, and describes a recognition method when the separated pattern component 34 is included in the adjacent frame as shown in FIG. 3B. is doing. In FIG. 4, 5
1,53 are two hypotheses output by the clipping unit, and 20
Reference numeral 0 is a recognition unit, 100 is a pattern dictionary, and 101 to 104 are partial dictionaries in the pattern dictionary 100.
【0010】認識部200は上述の2つの仮説51,5
3を入力して文字認識を行い、それぞれに対する認識結
果52,54を出力する。すなわち、第1の仮説51に
対する認識結果は(SP.5)と(RJ.6)である。ここ
で、(SP.5)は、「5のサブパターン」を意味してお
り、部分辞書101を参照して認識されたもの、また、
(RJ.6)は、「リジェクト(不読)であるが、候補は6で
ある」を意味している。更に、第2の仮説53に対する
認識結果は、(AC.5)と(AC.6)であり、いずれも、
数字「5」あるいは「6」として受容したことを意味してい
る。従って、第2の仮説が妥当であり、認識結果は、数
字「5」,「6」となる。The recognition unit 200 uses the above-mentioned two hypotheses 51, 5
3 is input to perform character recognition, and recognition results 52 and 54 for each are output. That is, the recognition results for the first hypothesis 51 are (SP.5) and (RJ.6). Here, (SP.5) means "5 sub patterns", which is recognized by referring to the partial dictionary 101, and
(RJ.6) means “reject (unread), but candidate is 6”. Furthermore, the recognition results for the second hypothesis 53 are (AC.5) and (AC.6), both of which are
It means acceptance as the number "5" or "6". Therefore, the second hypothesis is valid, and the recognition results are the numbers “5” and “6”.
【0011】なお、上述のパターン辞書100に設けら
れる部分辞書101〜103は、本発明において新たに
設けられたものであり、従来は、正常なパターンの辞書
104のみが設けられていたものである。上述の部分辞
書101は、部分パターン格納している辞書であり、部
分辞書102は、部分パターンと他の文字とが接触した
パターンを格納している辞書、部分辞書103は、接触
文字パターンを格納している辞書である。次に、図3
(c)に示した如き、分離パターン成分が隣接文字に接触
している場合の認識方法を、図5に基づいて説明する。The partial dictionaries 101 to 103 provided in the above-mentioned pattern dictionary 100 are newly provided in the present invention, and conventionally, only the dictionary 104 having a normal pattern is provided. . The above-mentioned partial dictionary 101 is a dictionary that stores partial patterns, the partial dictionary 102 stores a dictionary that stores patterns in which partial patterns come into contact with other characters, and the partial dictionary 103 stores contact character patterns. This is a dictionary. Next, FIG.
A recognition method when the separated pattern component is in contact with an adjacent character as shown in (c) will be described with reference to FIG.
【0012】この場合、図5に示す如く、切出し結果は
55のようになり、認識結果56は(SP.5)と(SC.
5,6)となる。ここで、(SC.5,6)は 数字「5」の
部分パターンと数字6が接触したものであることを意味
しており、前述の部分辞書102を参照して認識された
ものである。この結果から、読取り文字は、数字の「5」
と「6」であることが判断できる。次に、図3(d)に示し
た如き、分離パターン成分相互で接触している場合の認
識方法を、図6に基づいて説明する。この場合には、図
6(a)に示す如く、2つの仮説57,59が立ち、認識
結果58,60が得られる。また、この場合には、図6
(b)に示す如く、特にサブパターン61、すなわち、図
3(d)の38を単独で認識して、その結果として認識結
果62の(SS.5,7)が得られる。In this case, as shown in FIG. 5, the cutout result is 55, and the recognition result 56 is (SP.5) and (SC.
5, 6). Here, (SC.5, 6) means that the partial pattern of the numeral "5" and the numeral 6 are in contact with each other, and is recognized by referring to the above-mentioned partial dictionary 102. From this result, the read character is the number "5".
And "6" can be determined. Next, a recognition method when the separated pattern components are in contact with each other as shown in FIG. 3D will be described with reference to FIG. In this case, as shown in FIG. 6A, two hypotheses 57 and 59 stand and recognition results 58 and 60 are obtained. Further, in this case, FIG.
As shown in (b), in particular, the sub-pattern 61, that is, 38 in FIG. 3 (d) is recognized alone, and as a result, the recognition result 62 (SS.5, 7) is obtained.
【0013】上述の仮説57は、サブパターン38が右
側に付加されたものと仮定した場合であり、仮説59
は、サブパターン38が左側に付加されたものと仮定し
た場合である。また、認識結果58の(SP.5)と(R
J.?)は、「5のサブパターン」と「リジェクト(全く不
明)」であり、同様に、認識結果60の(RJ.?)と(S
P.7)は、「リジェクト(全く不明)」と「7のサブパター
ン」である。また、認識結果62の(SS.5,7)は「数
字5のサブパターンと数字7のサブパターンの接触した
パターン」であることを 意味している。これらは、部分
パターンと他の文字とが接触したパターンの部分辞書1
02を参照して得られるものである。これらの結果を総
合することにより、答は数字「5」と「7」であると判断さ
れることになる。The above-mentioned hypothesis 57 is a hypothesis 59 when the sub-pattern 38 is assumed to be added to the right side.
Is a case where the sub-pattern 38 is assumed to be added on the left side. In addition, recognition results 58 (SP.5) and (R
J.? ) Is “5 sub-pattern” and “reject (totally unknown)”, and similarly, (RJ.?) And (S
P.7) is "reject (totally unknown)" and "7 sub-pattern". Further, (SS.5, 7) of the recognition result 62 means "a pattern in which the sub-pattern of the numeral 5 and the sub-pattern of the numeral 7 are in contact". These are partial dictionaries 1 of patterns in which partial patterns and other characters are in contact.
No. 02 is obtained. By summing up these results, the answer is judged to be the numbers "5" and "7".
【0014】次に、図3(e)に示した如き、完全なパタ
ーン相互が接触している場合の認識方法を、図7に基づ
いて説明する。この場合には、図7に示す如く、無理に
分割せずに、全体を認識部に送り、部分辞書103を参
照して同じものを探し、認識する。ここでは、その結果
として(CC.5,6)が得られているが、これは 数字
「5」と「6」が接触したものであることを意味している。
以上、説明した如く、本発明においては、認識結果を総
合して最終的な答を出すことが特徴である。なお、実際
には、例えば、以下の如き規則に従って処理することに
より、実現される。Next, a recognition method in the case where perfect patterns are in contact with each other as shown in FIG. 3E will be described with reference to FIG. In this case, as shown in FIG. 7, the whole is sent to the recognition unit without being forcibly divided, the same is searched for and recognized by referring to the partial dictionary 103. Here, as a result, (CC.5, 6) is obtained, which means that the numbers "5" and "6" are in contact with each other.
As described above, the present invention is characterized in that the recognition results are combined to give the final answer. Actually, for example, it is realized by processing according to the following rules.
【0015】図3(a)〜(e)に対して行った処理を整理
すると、以下のようになる。 (a) (AC.5)(AC.6) → (AC.5)(AC.6) (b) (SP.5)(RJ.6) (AC.5)(AC.6) → (AC.5)(AC.6) (c) (SP.5)(SC.5,6) → (AC.5)(AC.6) (d) (SP.5)(RJ.?) (RJ.?)(SP.7) (SS.5,7) → (AC.5)(AC.7) (e) (CC.5,6) → (AC.5)(AC.6) 上の各式の左辺の仮説毎の認識結果コードは、右辺の如
き認識結果コードに書換えがなされる。これらを一般化
したものを、書換え規則(Rewriting Rules)と呼ぶこ
とにする。The processes performed on FIGS. 3A to 3E are summarized as follows. (a) (AC.5) (AC.6) → (AC.5) (AC.6) (b) (SP.5) (RJ.6) (AC.5) (AC.6) → (AC .5) (AC.6) (c) (SP.5) (SC.5,6) → (AC.5) (AC.6) (d) (SP.5) (RJ.?) (RJ. ?) (SP.7) (SS.5,7) → (AC.5) (AC.7) (e) (CC.5,6) → (AC.5) (AC.6) The recognition result code for each hypothesis on the left side of is rewritten to the recognition result code on the right side. A generalization of these will be called Rewriting Rules.
【0016】本実施例に示す切出し方法では、書換え規
則が以下のようになる。In the cutout method shown in this embodiment, the rewriting rule is as follows.
【外1】 規則R1は、8頁に示した(a)と(b)に対応するもの
で、a,bをアクセプト(認識)していない場所があって
も、他に1つでもアクセプトした場所があれば、認識で
きたことにするというものである。[Outer 1] Rule R1 corresponds to (a) and (b) shown on page 8. Even if there is a place that does not accept (recognize) a and b, there is another place that accepts. That is to say that it was recognized.
【0017】規則R2は、同(c)に対応するもので、a
のサブパターンが認識される一方、aのサブパターンと
bのパターンとの接触が認識された場合には、aとbが
認識できたことにするというものである。規則R3は、
同(d)に対応するもので、aのサブパターンが認識さ
れ、アクセプト以外の例えばリジェクトで任意の値の候
補が与えられる一方、bのサブパターンが認識され、ア
クセプト以外の任意の値の候補が与えれた場合には、分
離されているサブパターンのみを認識してみることを指
示するものである。また、規則R4も、同(d)に対応す
るものであり、規則R3によって処理されたサブパター
ンのみの認識結果を含めて、総合的に認識する場合を示
している。すなわち、aのサブパターンと認識できない
パターン,bのサブパターンと認識できないパターンお
よびaのサブパターンとbのサブパターンとの接触した
パターンの3つが認識された場合には、総合的認識によ
り、aアクセプト,bアクセプトとなるというものであ
る。Rule R2 corresponds to the same (c), and
When the contact between the sub-pattern of a and the pattern of b is recognized while the sub-pattern of 1 is recognized, it means that a and b can be recognized. Rule R3 is
It corresponds to the same (d), and a sub-pattern of a is recognized and a candidate of an arbitrary value other than accept is given, for example, while a sub-pattern of b is recognized and a candidate of an arbitrary value other than accept is given. Is given, it indicates that only subpatterns that are separated are to be recognized. Further, the rule R4 also corresponds to the same (d), and shows the case of comprehensive recognition including the recognition result of only the sub-pattern processed by the rule R3. That is, when three patterns, that is, a pattern that cannot be recognized as the sub-pattern of a, a pattern that cannot be recognized as the sub-pattern of b, and a pattern in which the sub-pattern of a and the sub-pattern of b are in contact, are recognized by comprehensive recognition, a Accept and b accept.
【0018】規則R5は、同(e)に対応するもので、a
とbの接触したパターンは、aアクセプト,bアクセプ
トとなるというものである。図8に、本発明の一実施例
である文字読取り装置のブロック図を示す。本実施例に
示す文字読取り装置は、パターン観測部800,パター
ン切出し部900,帳票フォーマット辞書950,パタ
ーン認識部200,パターン辞書100,認識結果最終
判定部400および認識結果書換え規則辞書300から
構成されている。以下、本装置の動作を説明する。読取
りの対象である帳票75には、図2に示した如き、自然
な筆記条件で文字が記入されている。帳票75がパター
ン観測部800に入力され、光電変換および前処理(2
値化,帳票スキュー補正)を受けると、2次元映像パタ
ーンが電気的信号としてパターン切出し部900に送出
される。Rule R5 corresponds to the same (e), and
The pattern in which b and b are in contact is a accept and b accept. FIG. 8 shows a block diagram of a character reading apparatus which is an embodiment of the present invention. The character reading device according to the present embodiment includes a pattern observation unit 800, a pattern cutout unit 900, a form format dictionary 950, a pattern recognition unit 200, a pattern dictionary 100, a recognition result final determination unit 400, and a recognition result rewriting rule dictionary 300. ing. The operation of this device will be described below. On the form 75 to be read, characters are written under natural writing conditions as shown in FIG. The form 75 is input to the pattern observation unit 800, and photoelectric conversion and preprocessing (2
When the two-dimensional video pattern is subjected to binarization and form skew correction), the two-dimensional video pattern is sent to the pattern cutout unit 900 as an electric signal.
【0019】パターン切出し部900では、帳票フォー
マット辞書950からの枠位置パラメータを参照して、
1枚の帳票の映像から1文字に該当すると判断されるパ
ターンを1組ずつ切出して、パターン認識部200に送
出する。パターン認識部200では、入力された1文字
分のパターンと、図4にその内容を例示したパターン辞
書100に記憶されている各パターンとを比較照合し、
認識結果を認識結果最終判定部400に送出する。な
お、パターン認識部200での処理には、前述の如く、
サブパターンや接触した2文字分のパターンをも含んで
いることは言うまでもない。また、本実施例において
は、パターン認識部200からの認識結果の出力は、入
力されたパターン毎に認識結果を記号化して、認識結果
最終判定部400に送出する。認識結果最終判定部40
0は、受取った認識結果に対して、前述の認識結果書換
え辞書300中の各書換え規則を、適用できる書換え規
則がなくなるまで順次適用して、書換え処理を行う。The pattern cutout unit 900 refers to the frame position parameters from the form format dictionary 950,
Patterns judged to correspond to one character are cut out one by one from the image of one form and sent to the pattern recognition unit 200. The pattern recognition unit 200 compares and collates the input pattern for one character with each pattern stored in the pattern dictionary 100 whose contents are illustrated in FIG.
The recognition result is sent to the recognition result final determination unit 400. Note that the processing in the pattern recognition unit 200 is as described above.
It goes without saying that it also includes sub-patterns and patterns of two characters that have come into contact with each other. Further, in the present embodiment, the recognition result output from the pattern recognition unit 200 is symbolized for each input pattern and sent to the recognition result final determination unit 400. Recognition result final determination unit 40
0 applies the respective rewriting rules in the recognition result rewriting dictionary 300 to the received recognition result in order until there is no applicable rewriting rule, and performs the rewriting process.
【0020】すなわち、前述の書換え規則R1〜R5の
条件の中から、上述の記号化された認識結果がこれに合
致するものを選択・適用し、その結果を採用する。上述
のパターン切出し部900以降の処理を、以下、更に詳
細に説明する。図9に、上述の切出し処理および認識処
理のフローチャートと、これに対応するデータの内容を
例示する。ステップ 701では、帳票1枚分の映像パター
ン711から、1行分の映像パターン712を切出す。
ステップ 702では、黒地パターンの連続性を利用して、
黒地毎のぱターン成分を抽出し、横方向に関して順序付
けを行った後、成分リスト713を作成する。更に、各
成分の属性を計算し、成分属性リスト714を作成す
る。なお、ここで、成分の属性とは、各成分の上下端,
左右端の座標,輪郭総長等である。That is, from the conditions of the above-mentioned rewriting rules R1 to R5, the one in which the above-mentioned symbolized recognition result matches this is selected and applied, and the result is adopted. The process of the pattern cutout unit 900 and subsequent processes will be described in more detail below. FIG. 9 exemplifies a flowchart of the above-described cutout processing and recognition processing and the content of data corresponding to this. In step 701, the video pattern 712 for one line is cut out from the video pattern 711 for one form.
In step 702, the continuity of the black background pattern is used to
After extracting the pattern component for each black background and performing ordering in the horizontal direction, a component list 713 is created. Furthermore, the attribute of each component is calculated, and the component attribute list 714 is created. Here, the attribute of a component means the upper and lower ends of each component,
The coordinates of the left and right edges, the total length of the contour, etc.
【0021】次に、ステップ 703では、上で作成した成
分属性リスト714と、帳票フォーマット辞書950の
情報から、文字間の境界の仮説を立て、文字リスト71
5を作成する。この文字リスト715は、各文字パター
ンが、どの成分から構成されているかを示すもので、図
9では、第1の仮説では順序1,2,3でそれぞれ1つの
文字、4と5を合せて1つの文字と仮定し、第2の仮説
では、順序1と2を合せて1つの文字、3だけで1つの
文字、4と5を合せて1つの文字と仮定する例を示して
いる。以上は、パターン切出し部900の処理である。
ステップ 704は、パターン認識部200の処理である。
ステップ 704では、上述の成分リスト713,成分属性
リスト714および文字リスト715を入力して、文字
リスト715に示される成分を集めてパターン整合を行
い、その結果を結果リスト716に書込む。Next, in step 703, a hypothesis of a boundary between characters is set from the component attribute list 714 created above and the information in the form format dictionary 950, and the character list 71 is created.
Create 5. This character list 715 shows which component each character pattern is composed of. In FIG. 9, in the first hypothesis, one character, 4 and 5 are combined in order 1, 2, and 3, respectively. The second hypothesis shows an example in which the characters 1 and 2 are combined into one character, the character 3 alone is combined with one character, and the strings 4 and 5 are combined into one character. The above is the processing of the pattern cutout unit 900.
Step 704 is processing of the pattern recognition unit 200.
In step 704, the component list 713, the component attribute list 714, and the character list 715 described above are input, the components shown in the character list 715 are collected and pattern matching is performed, and the result is written in the result list 716.
【0022】整合結果を表わす結果コードは、前述の
(SP.a),(SC.a,b),(SS.a,b),(CC.a,
b),(AC.a),(RJ.a)等の記号形式をとる。これら
の意味は、前述の通り、それぞれ、「カテゴリaのサブ
パターン」,「カテゴリaのサブパターンとカテゴリbの
接触したもの」,「カテゴリaとカテゴリbのサブパター
ンが 相互に接触したもの」,「カテゴリaとカテゴリbが
相互に接触したもの」,「カテゴリaのパターン」,「候補は
aであるがリジェクト」である。ステップ 705は、認識
結果最終判定部400の処理である。ここでは、上述の
結果リスト716に対して、書換え規則辞書300内の
すべての規則を参照し、適用できる規則がなくなるまで
順次適用し、最終的に得られた結果に応じた処理を行
う。The result code representing the matching result is the above-mentioned result code.
(SP.a), (SC.a, b), (SS.a, b), (CC.a,
b), (AC.a), (RJ.a), etc. The meanings of these are, as described above, “sub-pattern of category a”, “sub-pattern of category a and sub-pattern of category b”, and “sub-pattern of sub-categories a and b contact each other”, respectively. , “Category a and category b are in contact with each other”, “category a pattern”, and “candidate a is rejected”. Step 705 is processing of the recognition result final determination unit 400. Here, with respect to the above-mentioned result list 716, all rules in the rewriting rule dictionary 300 are referred to, they are sequentially applied until there are no applicable rules, and processing according to the finally obtained result is performed.
【0023】また、ステップ 706では、帳票75上のす
べての行についての処理が終了したか否かを判断し、終
了していなければステップ 701に戻って、終了するまで
上述の処理を繰り返し行う。上記実施例によれば、前記
認識部で、例えば、入力された1単位映像パターンが1
カテゴリを表わすパターンの一部分であると判断した場
合には、複数の部分パターンを組み合せて1文字とし、
該組み合せた文字について文字認識を行うことが可能に
なり、文字読取り装置における、自然な筆記条件で書か
れた文字の読取り精度が向上するという効果が得られ
る。なお、上記実施例は本発明の一例を示すものであ
り、本発明はこれに限定されるべきものではないことは
言うまでもないことである。In step 706, it is determined whether or not the processing has been completed for all the lines on the form 75. If not completed, the procedure returns to step 701 and the above-described processing is repeated until the processing is completed. According to the above-described embodiment, for example, the input 1 unit image pattern is 1 in the recognition unit.
If it is determined that the pattern is a part of a pattern that represents a category, multiple partial patterns are combined into one character,
It is possible to perform character recognition on the combined characters, and it is possible to obtain the effect of improving the reading accuracy of characters written under natural writing conditions in the character reading device. It is needless to say that the above embodiment shows one example of the present invention, and the present invention should not be limited to this.
【0024】[0024]
【発明の効果】以上、詳細に述べた如く、本発明によれ
ば、文字枠から大きくはみ出したり、隣接文字と接触し
ているような、自然な筆記条件で書かれた文字につき、
特に、入力された1単位映像パターンが1カテゴリを表
わすパターンの一部分であると判断された場合に、複数
の部分パターンを組み合せて1文字とし、該組み合せた
文字について文字認識を行うことが可能なパターン切出
しおよび認識方法とそのシステムを実現できるという顕
著な効果を奏するものである。As described above in detail, according to the present invention, a character written under natural writing conditions, such as a large protrusion from a character frame or a contact with an adjacent character,
In particular, when it is determined that the input 1-unit video pattern is a part of the pattern representing one category, it is possible to combine a plurality of partial patterns into one character and perform character recognition on the combined character. It has a remarkable effect that a pattern cutting and recognition method and its system can be realized.
【図1】従来のOCR用帳票の文字枠と筆記文字の例を
示す図である。FIG. 1 is a diagram showing an example of a character frame and a handwritten character of a conventional OCR form.
【図2】筆記条件を緩和した場合の、従来のOCR用帳
票の文字枠と筆記文字の例を示す図である。FIG. 2 is a diagram showing an example of a character frame and a handwritten character of a conventional OCR form when a writing condition is relaxed.
【図3】隣接文字パターンの種々の状態を例示する図で
ある。FIG. 3 is a diagram illustrating various states of adjacent character patterns.
【図4】本発明の原理を説明する図(その1)である。FIG. 4 is a diagram (No. 1) for explaining the principle of the present invention.
【図5】本発明の原理を説明する図(その2)である。FIG. 5 is a diagram (part 2) explaining the principle of the present invention.
【図6】本発明の原理を説明する図(その3)である。FIG. 6 is a diagram (part 3) explaining the principle of the present invention.
【図7】本発明の原理を説明する図(その4)である。FIG. 7 is a diagram (part 4) explaining the principle of the present invention.
【図8】本発明の一実施例である文字読取り装置のブロ
ック図である。FIG. 8 is a block diagram of a character reading device according to an embodiment of the present invention.
【図9】実施例に係る文字読取り装置における、切出し
処理および認識処理のフローチャートとこれに対応する
データの内容を例示する図である。FIG. 9 is a diagram exemplifying a flowchart of cutout processing and recognition processing and a content of data corresponding to the processing in the character reading device according to the embodiment.
75 読取り対象である帳票 100 パターン辞書 101〜103 部分辞書 104 正常パターン辞書 200 パターン認識部 300 認識結果書換え規則辞書 400 認識結果最終判定部 800 パターン観測部 900 パターン切出し部 950 帳票フォーマット辞書 75 Documents to be read 100 Pattern dictionary 101 to 103 Partial dictionary 104 Normal pattern dictionary 200 Pattern recognition unit 300 Recognition result rewriting rule dictionary 400 Recognition result final determination unit 800 Pattern observation unit 900 Pattern cutout unit 950 Form format dictionary
フロントページの続き (72)発明者 門田 彰三 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内 (72)発明者 栗野 清道 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内Front page continuation (72) Inventor Shozo Kadota 2880, Kozu, Odawara-shi, Kanagawa Hitachi Ltd., Odawara Plant (72) Inventor, Kiyomichi Kurino 2880, Kozu, Odawara, Kanagawa Ltd.
Claims (6)
力し、切出し部により、電気的信号に変換された2次元
映像パターンから文字を含む1つ以上のパターンを切出
し、該パターンを認識部に送り、認識部において前記パ
ターンをパターン辞書内の各パターンと比較して認識す
る如く構成されたパターン切出しおよび認識方法であっ
て、前記切出し部では、前記2次元映像パターンの1文
字行分に対応する領域を対象として処理を行い、連続し
た黒画素の領域をパターン成分として抽出し、該パター
ン成分の横方向に関する順序付けを行った後、該パター
ン成分を要素とする文字成分リストを作成し、更に、該
文字成分リストの各部分の属性を計算して成分属性リス
トを作成し、該成分属性リストを参照して各文字を構成
する1単位あるいは複数のパターン成分の組み合せの仮
説を立て、該組み合せの仮説を文字リストとして記憶
し、前記認識部では、前記文字リストを入力し、該文字
リストから認識すべきパターン成分の組み合せを構成し
て、前記パターン辞書内の各パターンと照合することに
より認識処理を行い、最終判定部により、1文字行分の
認識結果の総合判定を行うことを特徴とするパターン切
出しおよび認識方法。1. A form that does not have a character frame for each character is input, and one or more patterns including characters are cut out from a two-dimensional video pattern converted into an electrical signal by a cutout unit, and the pattern is recognized. A pattern cutting and recognizing method, which is configured so that the pattern is recognized by comparing the pattern with each pattern in a pattern dictionary in the recognizing unit, and the recognizing unit includes a character line portion of the two-dimensional video pattern. The region corresponding to is processed, the region of consecutive black pixels is extracted as a pattern component, the pattern components are ordered in the horizontal direction, and then a character component list having the pattern component as an element is created. Furthermore, the attribute of each part of the character component list is calculated to create a component attribute list, and the component attribute list is referred to for the unit of each character or A hypothesis of a combination of a plurality of pattern components is established, the hypothesis of the combination is stored as a character list, the recognition unit inputs the character list, and a combination of pattern components to be recognized from the character list is configured. A pattern cutout and recognition method, wherein recognition processing is performed by matching each pattern in the pattern dictionary, and a final determination unit makes a comprehensive determination of the recognition result for one character line.
字を構成するパターン成分の組み合せについて曖昧性が
存在する場合には複数の仮説を作成して、該複数の仮説
を前記文字リストに記憶することを特徴とする請求項1
記載のパターン切出しおよび認識方法。2. In the cutout by the cutout unit, if there is ambiguity about a combination of pattern components forming a character, a plurality of hypotheses are created and the plurality of hypotheses are stored in the character list. Claim 1 characterized by
Described pattern cutting and recognition method.
ストから読出して、各仮説に対応するパターン成分の組
み合せの認識処理を行うことを特徴とする請求項2記載
のパターン切出しおよび認識方法。3. The pattern cutout and recognition method according to claim 2, wherein the recognition unit reads the plurality of hypotheses from a character list and performs recognition processing of a combination of pattern components corresponding to the respective hypotheses. .
応する認識結果を入力して、総合的判定を行って単一の
仮説を選択することを特徴とする請求項3記載のパター
ン切出しおよび認識方法。4. The pattern cutout according to claim 3, wherein the final judgment unit inputs recognition results corresponding to the plurality of hypotheses, performs a comprehensive judgment, and selects a single hypothesis. And recognition method.
力し、切出し部により、電気的信号に変換された2次元
映像パターンから文字を含む1単位映像パターンを切出
し、該パターンを認識部に送り、認識部において前記パ
ターンをパターン辞書内の各パターンと比較して認識す
る如く構成されたパターン切出しおよび認識システムで
あって、前記切出し部では、前記2次元映像パターンを
対象として処理を行い、連続した黒画素の領域をパター
ン成分として抽出し、該パターン成分の横方向に関する
順序付けを行った後、該パターン成分を要素とする文字
成分リストを作成し、該文字成分リストの各部分の属性
を計算して成分属性リストを作成し、該成分属性リスト
を参照して各文字を構成する1単位あるいは複数のパタ
ーン成分の組み合せの仮説を1つ以上立て、該組み合せ
の仮説を文字リストとして記憶し、認識部では、前記文
字成分リストと文字リストを入力し、該文字リストから
認識すべきパターン成分の組み合せを構成して、前記パ
ターン辞書内の各パターンと照合することにより認識処
理を行い、最終判定部により、1文字行分の認識結果の
総合判定を行って単一の仮説を選択することを特徴とす
るパターン切出しおよび認識システム。5. A form that does not have a character frame for each character is input, and a cutout unit cuts out a one-unit video pattern containing characters from a two-dimensional video pattern converted into an electrical signal, and the pattern recognition unit recognizes the pattern. A pattern cutout and recognition system configured to recognize the pattern by comparing it with each pattern in a pattern dictionary in a recognition section, wherein the cutout section performs processing on the two-dimensional video pattern. , A region of consecutive black pixels is extracted as a pattern component, the pattern components are ordered in the horizontal direction, and then a character component list having the pattern component as an element is created, and the attribute of each part of the character component list is created. To create a component attribute list and refer to the component attribute list to combine one unit or a plurality of pattern components forming each character One or more hypotheses are stored, the hypotheses of the combination are stored as a character list, and the recognition unit inputs the character component list and the character list to form a combination of pattern components to be recognized from the character list, Recognition processing is performed by matching each pattern in the pattern dictionary, and a final determination unit makes a comprehensive determination of the recognition result of one character line and selects a single hypothesis. Recognition system.
ンを構成する完全パターンとともに、文字パターンの一
部分を構成する部分パターンおよび1つの文字パターン
と他の文字パターンの接触した接触パターンを記憶する
ことを特徴とする請求項5記載のパターン切出しおよび
認識システム。6. The pattern dictionary stores a complete pattern forming one character pattern, a partial pattern forming a part of the character pattern, and a contact pattern in which one character pattern is in contact with another character pattern. The pattern cutting and recognizing system according to claim 5.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6192419A JPH0792819B2 (en) | 1994-08-16 | 1994-08-16 | Pattern cutting and recognition method and its system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6192419A JPH0792819B2 (en) | 1994-08-16 | 1994-08-16 | Pattern cutting and recognition method and its system |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4095186A Division JPH0792818B2 (en) | 1992-04-15 | 1992-04-15 | Pattern cutting and recognition method and its system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0773273A true JPH0773273A (en) | 1995-03-17 |
| JPH0792819B2 JPH0792819B2 (en) | 1995-10-09 |
Family
ID=16291009
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6192419A Expired - Lifetime JPH0792819B2 (en) | 1994-08-16 | 1994-08-16 | Pattern cutting and recognition method and its system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0792819B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008084105A (en) * | 2006-09-28 | 2008-04-10 | Oki Electric Ind Co Ltd | Character cutting method and character recognition device |
-
1994
- 1994-08-16 JP JP6192419A patent/JPH0792819B2/en not_active Expired - Lifetime
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008084105A (en) * | 2006-09-28 | 2008-04-10 | Oki Electric Ind Co Ltd | Character cutting method and character recognition device |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0792819B2 (en) | 1995-10-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH055146B2 (en) | ||
| US6006240A (en) | Cell identification in table analysis | |
| KR100311633B1 (en) | Title extraction apparatus and method from document image | |
| JPH0467234B2 (en) | ||
| JPH0773273A (en) | Pattern cutting and recognition method and its system | |
| JPH07230525A (en) | Ruled line recognition method and table processing method | |
| Hanmandlu et al. | Segmentation of handwritten Hindi text: A structural approach | |
| JP2675303B2 (en) | Character recognition method | |
| US5894525A (en) | Method and system for simultaneously recognizing contextually related input fields for a mutually consistent interpretation | |
| JP2917427B2 (en) | Drawing reader | |
| JP2550012B2 (en) | Pattern cutting and recognition method | |
| JPH05108887A (en) | Pattern cutting and recognition method and its system | |
| JP3817442B2 (en) | Image recognition apparatus, image recognition method, program for realizing image recognition method, and recording medium for the program | |
| JPH0728935A (en) | Document image processor | |
| KR102909119B1 (en) | Handwriting analysis system | |
| JP3345246B2 (en) | Character recognition device and character recognition method | |
| JP2894111B2 (en) | Comprehensive judgment method of recognition result in optical type character recognition device | |
| JPS61220081A (en) | Segmentation and recognition system for pattern | |
| JP3199033B2 (en) | Optical character reading method and optical character reading device | |
| JPH02166583A (en) | Character recognizing device | |
| JP3030814B2 (en) | Noise component removal method and recording medium recording noise component removal program | |
| CN121564742A (en) | Content extraction method and system for processing page crossing table in PDF | |
| JP2727755B2 (en) | Character string recognition method and apparatus | |
| Hashemi et al. | The effects of image enhancement in OCR systems: a prototype | |
| JPH0271379A (en) | Picture processor |