JPH08202822A - Character cutting device and character cutting method - Google Patents
Character cutting device and character cutting methodInfo
- Publication number
- JPH08202822A JPH08202822A JP7010851A JP1085195A JPH08202822A JP H08202822 A JPH08202822 A JP H08202822A JP 7010851 A JP7010851 A JP 7010851A JP 1085195 A JP1085195 A JP 1085195A JP H08202822 A JPH08202822 A JP H08202822A
- Authority
- JP
- Japan
- Prior art keywords
- character
- line
- pattern
- separation
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】
【目的】 本発明は文字切り出し装置、及び文字切り出
し方法に関し、続き線が抽出できなくても、変化点を抽
出して確実に文字の切り出しができるようにすることを
目的とする。
【構成】 A図の装置イには、パターンの輪郭探索によ
り傾きの変化点を抽出する変化点抽出部10、抽出した
変化点を基に文字の分離点を決定する分離点決定部1
1、文字の分離点を基に文字の分離を行う文字分離部1
2等を設けた。B図の装置ロには、続き線が2本以上抽
出された場合は続き線でなく文字上に書かれた訂正線で
あると判定して訂正線の抽出を行う続け字抽出部23、
続き線抽出部4で求めた続き線の位置情報を基に、文字
間の空白部を折れ線で探索し、パターンの最下部まで折
れ線が到達したら、そのパターンを分離可能と判定する
文字分離線決定部5等を設けた。
(57) [Abstract] [Object] The present invention relates to a character clipping device and a character clipping method, and an object thereof is to reliably extract a character by extracting a change point even if a continuation line cannot be extracted. And [Constitution] In the device A shown in FIG. A, a change point extraction unit 10 for extracting a change point of inclination by a pattern contour search, and a separation point determination unit 1 for determining a character separation point based on the extracted change point.
1. Character separation unit 1 that separates characters based on character separation points
2 and so on. In the device B of FIG. B, when two or more continuation lines are extracted, the continuation character extracting unit 23 that determines that the correction line is not the continuation line but the correction line written on the character and extracts the correction line,
Based on the position information of the continuation line obtained by the continuation line extraction unit 4, a blank line between characters is searched for with a polygonal line, and when the polygonal line reaches the bottom of the pattern, it is determined that the pattern can be separated. Part 5 and the like are provided.
Description
【0001】[0001]
【産業上の利用分野】本発明は、OCRの手書き文字認
識装置等に利用される文字切り出し装置、及び文字切り
出し方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character slicing device and a character slicing method used in an OCR handwritten character recognition device or the like.
【0002】近年、手書き文字の入力周辺機器として、
手書き文字認識装置を有するOCRの需要が急増してい
る。個々の文字の高い認識率を実現する為には、文字認
識の前段階である文字切り出し処理がその正確さの点で
重要になる。In recent years, as a peripheral device for inputting handwritten characters,
The demand for OCRs with handwriting recognition devices is increasing rapidly. In order to realize a high recognition rate of individual characters, the character segmentation process, which is the previous stage of character recognition, is important in terms of its accuracy.
【0003】これまで、帳票等の文書に対して一文字ず
つ分離されて書かれていれば、かなりの率で文字の認識
ができたが、少しでも互いに接触している文字、または
続け字が入ると著しく認識率が低下する。このような事
情から、前記続き文字を一文字ずつ正確に認識する方法
が手書き文字認識装置において求められており、特に、
文字切り出し装置における文字切り出し処理の精度向上
が求められている。Up to now, if the characters such as a form were separated and written one by one, the characters could be recognized at a considerable rate, but characters that are in contact with each other or continuous characters are included. And the recognition rate drops significantly. Under such circumstances, a method for accurately recognizing the continuation characters one by one is demanded in the handwritten character recognition device.
It is required to improve the accuracy of the character cutting process in the character cutting device.
【0004】なお、本発明は、手書き文字の認識だけで
なく、印刷文字の認識、図面認識における文字切り出し
等、広い意味での文字切り出し処理に適応可能な技術で
ある。The present invention is a technique applicable not only to handwritten character recognition but also to character cutting processing in a broad sense such as recognition of printed characters and character cutting in drawing recognition.
【0005】[0005]
【従来の技術】図18〜図25は従来例を示した図であ
り、図18〜図25中、1は文字切り出し装置、2は連
結パターン抽出部、3は横長パターン抽出部、4は続き
線抽出部、5は文字分離線決定部、6はゼロ判定部、7
は文字分離部を示す。18 to 25 are views showing a conventional example. In FIGS. 18 to 25, 1 is a character slicing device, 2 is a connected pattern extraction unit, 3 is a horizontally long pattern extraction unit, and 4 is a continuation. Line extraction unit, 5 is a character separation line determination unit, 6 is a zero determination unit, 7
Indicates a character separation part.
【0006】 §1:文字切り出し装置の構成の説明・・・図18参照 図18は従来の文字切り出し装置構成図である。従来、
文字認識装置において文字認識を行う場合、文字認識の
前段階の処理として、手書き文字の切り出し処理を行う
必要があった。そのため、文字切り出し装置が使用され
ていた。§1: Description of Configuration of Character Extraction Device--See FIG. 18 FIG. 18 is a configuration diagram of a conventional character extraction device. Conventionally,
When character recognition is performed in the character recognition device, it is necessary to perform a process of cutting out handwritten characters as a process before the character recognition. Therefore, the character slicing device was used.
【0007】図示のように文字切り出し装置1には、連
結パターン抽出部2、横長パターン抽出部3、続き線抽
出部4、文字分離線決定部5、ゼロ判定部6、文字分離
部7が設けてある。前記各部の機能は次の通りである。As shown in the figure, the character slicing device 1 is provided with a concatenated pattern extraction unit 2, a horizontally long pattern extraction unit 3, a continuous line extraction unit 4, a character separation line determination unit 5, a zero determination unit 6, and a character separation unit 7. There is. The function of each part is as follows.
【0008】(1) :連結パターン抽出部2は、入力パタ
ーンから連結パターンを抽出するものである。すなわ
ち、文字切り出しを行う場合、先ず、文字が配置されて
いる位置の相対的な関係に依存することなく、各文字パ
ターンを安定にピックアップするために、連結パターン
抽出部2では、例えば、8連結で繋がっているパターン
をラベリング処理で抽出する。(1): The connection pattern extraction unit 2 extracts a connection pattern from an input pattern. That is, when performing character cutting, first, in order to stably pick up each character pattern without depending on the relative relationship of the positions where the characters are arranged, the connected pattern extraction unit 2 may, for example, connect 8 characters. The patterns connected by are extracted by the labeling process.
【0009】(2) :横長パターン抽出部3は、続き文字
の候補として、前記ラベリング処理で得られた連結パタ
ーン毎に、外接矩形の縦横の比率を算出し、或る一定以
上の横長の比率を持つパターンを抽出するものである。(2): The horizontal pattern extracting unit 3 calculates the vertical / horizontal ratio of the circumscribed rectangle for each concatenated pattern obtained by the labeling process as a candidate for the continuous character, and the horizontal ratio of a certain level or more. The pattern that has is extracted.
【0010】(3) :続き線抽出部4は、水平、或いは斜
めの文字と文字の繋がっている部分の続き線を見つける
ことによって、前記抽出された連結パターンが続き文字
であるか否かを判断し、水平続き線、或いは斜め続き線
を抽出するものである。(3): The continuation line extraction unit 4 finds out whether or not the extracted connection pattern is a continuation character by finding a continuation line of a portion where characters are connected horizontally or diagonally. Judgment is made and a horizontal continuation line or a diagonal continuation line is extracted.
【0011】(4) :文字分離線決定部5は、前記抽出さ
れた続き線を基に、輪郭探索を用いて、文字数、及び一
文字毎の文字の存在する領域を求め、文字と文字の間に
垂直分離線、或いは斜め分離線等の文字分離線を引くも
のである。(4): The character separation line determination unit 5 obtains the number of characters and the area where each character is present by using contour search based on the extracted continuation line, and determines the space between characters. A character separation line such as a vertical separation line or a diagonal separation line is drawn on the.
【0012】(5) :ゼロ判定部6は、前記文字分離線で
分離された1文字毎の文字領域について、1文字毎に、
数字のゼロ(0)であるか否かを判定するものである。 (6) :文字分離部7は、前記数字のゼロ(0)と判定さ
れた文字については、左右に出ている不必要な続き線を
消去し、数字のゼロ以外の文字は、前記文字分離線で分
離するものである。(5): The zero determining unit 6 determines, for each character, for each character area separated by the character separation line.
It is to determine whether the number is zero (0). (6): The character separation unit 7 erases unnecessary continuation lines appearing on the left and right for the character determined to be the number zero (0), and the characters other than zero are separated by the character It is separated by a separation line.
【0013】 §2:文字切り出し方法の概要説明・・・図18参照 前記構成の文字切り出し装置による文字切り出し方法は
次の通りである。連結パターン抽出部2では入力パター
ンを入力すると、前記入力パターンの連結情報に基づい
て、入力パターンから画素と画素とが繋がっている連結
パターンを抽出する。§2: Outline of character cutout method ... See FIG. 18. The character cutout method by the character cutout device configured as described above is as follows. When the input pattern is input, the connection pattern extraction unit 2 extracts a connection pattern in which pixels are connected from the input pattern based on the connection information of the input pattern.
【0014】次に、横長パターン抽出部3では、前記抽
出された連結パターンの内、複数の文字が繋がっている
続き文字の候補として、横に長いパターンだけを抽出す
る。そして、続き線抽出部4では、水平、或いは斜めの
文字と文字の繋がっている部分の続き線を見つけること
によって、前記抽出された連結パターンが続き文字であ
るか否かを判断し、水平、或いは斜め続き線を抽出す
る。Next, the horizontally long pattern extraction unit 3 extracts only horizontally long patterns from the extracted connected patterns as candidates for a continuous character in which a plurality of characters are connected. Then, the continuation line extraction unit 4 determines whether or not the extracted connection pattern is a continuation character by finding a continuation line of a portion where characters are connected horizontally or diagonally, and horizontal, Alternatively, the diagonal continuation line is extracted.
【0015】その後、文字分離線決定部5では、前記抽
出された続き線を基にパターンの輪郭探索を用いて、文
字数、及び一文字毎の文字の存在する領域を求め、文字
と文字の間に垂直分離線、或いは斜め分離線等の文字分
離線を決定する。Thereafter, the character separation line determining unit 5 uses the contour search of the pattern based on the extracted continuation line to obtain the number of characters and the area where each character exists, and the area between the characters is determined. Character separation lines such as vertical separation lines or diagonal separation lines are determined.
【0016】前記文字分離線が決定すると、ゼロ判定部
6では、前記文字分離線で分離された1文字毎の文字領
域について、1文字毎に、数字のゼロ(0)であるか否
かを判定する。When the character separation line is determined, the zero determination unit 6 determines whether or not the character area of each character separated by the character separation line is a numeral zero (0) for each character. judge.
【0017】この処理が終了すると、文字分離部7で
は、前記数字のゼロ(0)と判定された文字について
は、左右に出ている不必要な続き線を消去し、数字のゼ
ロ以外の文字は、前記文字分離線で分離する。このよう
にして文字の切り出しを行う。以下、前記各部の詳細な
処理を説明する。When this process is completed, the character separation unit 7 erases unnecessary continuation lines appearing on the left and right of the character determined to be the numeral zero (0), and the character other than the numeral zero. Are separated by the character separation line. In this way, the characters are cut out. Hereinafter, detailed processing of each unit will be described.
【0018】§3:連結パターン抽出部、横長パターン
抽出部、及び続き線抽出部の詳細な処理説明・・・図1
9参照 図19は連結パターン抽出部、横長パターン抽出部、続
き線抽出部の処理説明図である。§3: Detailed processing description of the connection pattern extraction unit, the horizontally long pattern extraction unit, and the continuous line extraction unit ... FIG.
Refer to FIG. 9. FIG. 19 is a process explanatory diagram of the connection pattern extraction unit, the horizontally long pattern extraction unit, and the continuous line extraction unit.
【0019】(1) :通常、自由に書かれた文字列、例え
ば、数字の文字列から続き文字を抽出、分離する際、文
字に関しては、単独の文字と続き文字が混在しており、
文字の大きさとか、続けて書かれている文字数にも、特
に規定がない。そのため、入力された文字パターンに関
して極端な傾き補正を行い、雑音を除去し、かすれの穴
埋め等の前処理を行った後の2値画像を文字切り出しの
対象とする。(1): Usually, when a continuous character is extracted and separated from a freely written character string, for example, a numerical character string, regarding the character, a single character and a continuous character are mixed,
There are no particular restrictions on the size of characters or the number of characters that are written in succession. Therefore, extreme inclination correction is performed on the input character pattern, noise is removed, and a binary image after preprocessing such as fill-in of faintness is targeted for character extraction.
【0020】文字と文字が続けて書かれていると、横線
で文字同士が繋がっていることが多いことに着目して、
その横方向の続き線(以下「水平続き線」と記す)、或
いは斜め方向の続き線(以下「斜め続き線」と記す)を
抽出することにより、続き文字を判別し、文字の分離を
行うようにしている。Paying attention to the fact that when characters are written in succession, the characters are often connected by horizontal lines.
By extracting the horizontal continuation line (hereinafter referred to as "horizontal continuation line") or the diagonal continuation line (hereinafter referred to as "diagonal continuation line"), the continuation character is determined and the characters are separated. I am trying.
【0021】(2) :文字切り出しを行う場合、先ず、文
字が配置されている位置の相対的な関係に依存すること
なく、各文字パターンを安定にピックアップするため
に、連結パターン抽出部2では、例えば、8連結で繋が
っているパターンをラベリング処理により抽出する。(2): When character extraction is performed, first, in order to stably pick up each character pattern without depending on the relative relationship of the positions where characters are arranged, the connection pattern extraction unit 2 , For example, patterns connected by 8 connections are extracted by the labeling process.
【0022】具体的には、8連結のウインドウパターン
で文字パターンを走査して、該ウインドウで走査できた
画素に、所定の論理に基づいて、同じラベルを与える。
以下、これらのラベルを判別して、続き文字の分離を行
う。Specifically, the character pattern is scanned with an 8-connected window pattern, and the same label is given to the pixels which can be scanned with the window based on a predetermined logic.
Hereinafter, these labels are discriminated and the subsequent characters are separated.
【0023】また、該ラベリング処理で得られた連結パ
ターンのサイズが、後で必要となるので、連結パターン
を矩形近似して得られる矩形の角の座標を、該ラベリン
グの処理で算出しておくようにする。Since the size of the concatenated pattern obtained by the labeling process is required later, the coordinates of the corners of the rectangle obtained by approximating the concatenated pattern with a rectangle are calculated by the labeling process. To do so.
【0024】前記ラベリング処理については、例えば
「画像処理の基本技法(技法入門編)、(Image Proces
sing on Personal Computer )、第1部画像処理の基
礎、第3章、画像処理の基本アルゴリズム、2)連結成
分処理,ラベリング,長谷川純一,興水大和,中山
晶,横中茂樹著,技術評論社,昭和61年8月10日
刊」に詳しい。Regarding the labeling process, for example, "Basic Techniques of Image Processing (Introduction to Techniques)", (Image Proces
sing on Personal Computer), Part 1 Basics of Image Processing, Chapter 3, Basic Algorithm of Image Processing, 2) Connected Component Processing, Labeling, Junichi Hasegawa, Yamato Komizu, Akira Nakayama, Shigeki Yokonaka, Technical Review , August 10, 1986 ”.
【0025】(3) :次の横長パターン抽出部3では、続
き文字の候補として、前記ラベリング処理で得られた連
結パターン毎に、外接矩形の縦横の比率を算出し、或る
一定の値以上の横長の比率を持つパターンを抽出する。(3): In the next horizontally long pattern extraction unit 3, the vertical and horizontal ratios of the circumscribing rectangle are calculated for each concatenated pattern obtained by the labeling process as a candidate for the continuous character, and a certain value or more is calculated. The pattern with the horizontal ratio of is extracted.
【0026】また、この処理では、例えば、連結パター
ンを矩形近似して抽出した文字領域の平均サイズを算出
し、この算出した平均サイズと比較することにより、前
記続き文字の候補パターンを抽出する。Further, in this processing, for example, the average size of the extracted character region is calculated by approximating the concatenated pattern to a rectangle, and is compared with the calculated average size to extract the candidate pattern of the subsequent character.
【0027】(4) :続き線抽出部4では、水平続き線、
及び斜め続き線の抽出を行うが、水平続き線抽出処理で
は、初めに、(パターン面積)/(外接矩形の面積)を
算出し、その値に従って、抽出する直線の長さを決定す
る。(4): In the continuous line extracting unit 4, the horizontal continuous line,
The diagonal continuous line is extracted. In the horizontal continuous line extraction processing, first, (pattern area) / (area of circumscribed rectangle) is calculated, and the length of the straight line to be extracted is determined according to the value.
【0028】前記の値が、大きい時には、図19のA図
に示したように長い直線を抽出し、前記値が小さい時
には、図19のB図に示したように短い直線を抽出す
る。抽出する直線の長さを一定としない理由を以下に説
明する。When the value is large, a long straight line is extracted as shown in FIG. 19A, and when the value is small, a short straight line is extracted as shown in FIG. 19B. The reason why the length of the extracted straight line is not constant will be described below.
【0029】(5) :図19のA図、B図に示したよう
に、前記(パターン面積)/(外接矩形の面積)=大の
場合、図19のA図に示したように短い直線を抽出す
ると文字部分にも多数の直線が抽出されるため、続き部
分に限って直線を抽出するには、図19のA図で示し
たように比較的長い直線の抽出を行う必要がある。(5): As shown in FIGS. 19A and 19B, when (pattern area) / (circumscribed rectangle area) = large, a short straight line as shown in FIG. 19A Is extracted, a large number of straight lines are also extracted in the character portion. Therefore, in order to extract a straight line only in the continuous portion, it is necessary to extract a relatively long straight line as shown in FIG.
【0030】これに対して、前記(パターン面積)/
(外接矩形の面積)=小の場合には、図19のB図に
示したように長い直線を抽出しようとしても直線が抽出
されない場合が存在するため、図19のB図に示した
ように、短い直線を抽出して、それらを統合することに
より、長い続き線を求める方法が必要となるためであ
る。On the other hand, the above (pattern area) /
When (area of circumscribing rectangle) = small, there is a case where a straight line is not extracted even if an attempt is made to extract a long straight line as shown in FIG. 19B. Therefore, as shown in FIG. 19B, This is because a method for obtaining a long continuous line is required by extracting short straight lines and integrating them.
【0031】(6) :次に、横方向の投影を行って直線の
抽出を行う。この時、投影値に周囲の行の投影値を足し
合わせたものをその行の投影値とする、所謂隣接投影の
方法を用いる。この隣接投影の方法を用いることによ
り、斜めに繋がっている続き線を検出することができ
る。(6): Next, horizontal projection is performed to extract straight lines. At this time, a so-called adjacent projection method is used in which the projection value of the surrounding row is added to the projection value to obtain the projection value of the row. By using this adjacent projection method, it is possible to detect a continuous line that is diagonally connected.
【0032】図19のC図は、前記隣接投影を行う際の
投影範囲を説明する図である。前記隣接投影を行う際の
投影範囲は、前記抽出する直線の長さに従って、文字パ
ターンを縦方向に分割を行い、その分割された範囲内で
隣接投影の処理を行う。FIG. 19C is a diagram for explaining the projection range when performing the adjacent projection. In the projection range when performing the adjacent projection, the character pattern is vertically divided according to the length of the extracted straight line, and the adjacent projection is performed within the divided range.
【0033】そして、該投影値が或る一定値以上である
と、その部分に直線があると認識し、抽出された直線の
存在する範囲を図19のD図に示したように、矩形近似
して、矩形直線を形成する。When the projection value is a certain value or more, it is recognized that there is a straight line, and the range in which the extracted straight line exists is approximated to a rectangle as shown in FIG. 19D. Then, a rectangular straight line is formed.
【0034】その後、図19のD図に示したように、接
触、または近隣の矩形直線を統合して長い直線を抽出
し、その中で一番長い直線を水平続き線とする。この水
平続き線も、矩形近似を行った矩形直線を用いる。After that, as shown in FIG. 19D, the contact or neighboring rectangular straight lines are integrated to extract a long straight line, and the longest straight line among them is set as a horizontal continuation line. This horizontal continuation line also uses a rectangular straight line subjected to rectangular approximation.
【0035】前記のようにして水平続き線が抽出された
ら、続き文字を判別して文字の分離を行うが、続き線が
斜めの場合、前記水平続き線抽出処理では水平続き線が
抽出できないことがある。このような場合、前記水平続
き線抽出処理に加えて、斜め方向に隣接投影を行うこと
により斜め続き線抽出処理を行う。When the horizontal continuation line is extracted as described above, the continuation character is discriminated and the characters are separated. However, when the continuation line is oblique, the horizontal continuation line extraction processing cannot extract the horizontal continuation line. There is. In such a case, in addition to the horizontal continuation line extraction processing, the diagonal continuation line extraction processing is performed by performing adjacent projection in an oblique direction.
【0036】§4:続き線抽出部による斜め続き線抽出
処理の詳細な説明・・・図20〜図22参照 図20は続き線抽出部の処理説明図(その1)であり、
A図は斜めの投影値算出方法説明図、B図は斜めの隣接
投影法説明図である。図21は続き線抽出部の処理説明
図(その2)であり、A図は原画像の説明図、B図は直
線抽出(傾き45度)の説明図、C図は斜め投影値の算
出の説明図である。図22は続き線抽出部の処理説明図
(その3)であり、A図はパターンの分割、B図は抽出
された矩形直線、C図は統合して抽出した長い直線を示
す。§4: Detailed description of diagonal continuation line extraction processing by the continuation line extraction unit ... See FIGS. 20 to 22. FIG. 20 is a process explanatory diagram (No. 1) of the continuation line extraction unit.
FIG. A is an explanatory diagram of a method for calculating a diagonal projection value, and FIG. B is an explanatory diagram for an oblique adjacent projection method. FIG. 21 is a process explanatory diagram (No. 2) of the continuous line extraction unit, FIG. A is an explanatory diagram of an original image, B is an explanatory diagram of straight line extraction (inclination of 45 degrees), and C is an oblique projection value calculation. FIG. FIG. 22 is a process explanatory diagram (part 3) of the continuous line extraction unit, in which FIG. A shows pattern division, FIG. B shows an extracted rectangular straight line, and FIG. C shows an integratedly extracted long straight line.
【0037】前記のように、続き線抽出部4の水平続き
線抽出処理で水平続き線の抽出ができなかった場合、以
下に説明する斜め方向の隣接投影法の処理を行うことに
より、斜め続き線を抽出する。As described above, when the horizontal continuation line extraction processing of the continuation line extraction unit 4 fails to extract the horizontal continuation line, the diagonal continuation projection method described below is performed to obtain an oblique continuation line. Extract the line.
【0038】(1) :斜め方向の隣接投影法説明・・・図
20、図21参照 斜め方向の隣接投影法は、或る一定の斜め方向に投影を
行い、注目している斜め線の投影値に、その周囲の投影
値を足し合わせた結果を、斜め線の投影値とする方法で
ある。図20のA図は、n×nの領域を、45度の角度
で斜めに投影を行った場合の投影値の算出方法を示して
いる。(1): Adjacent projection method in diagonal direction. See FIGS. 20 and 21. The adjacent projection method in diagonal direction projects in a certain diagonal direction, and projects the diagonal line of interest. In this method, the projection value of the diagonal line is the result of adding the projection values of its surroundings to the value. FIG. 20A shows a method of calculating a projection value when an n × n area is obliquely projected at an angle of 45 degrees.
【0039】この例では、縦方向の投影値をP1(i)
(i=1〜n)、横方向の投影値をP2(j)(j=1
〜n)とし、P1(n)=P2(1)とする。また、以
下に説明する式で、I(x,y)を画素値としている。
この場合、前記投影値P1(i)、及びP2(j)の算
出式は、次の通りである。In this example, the projection value in the vertical direction is P1 (i).
(I = 1 to n), and the projection value in the horizontal direction is P2 (j) (j = 1
˜n) and P1 (n) = P2 (1). In addition, I (x, y) is a pixel value in the formula described below.
In this case, the formulas for calculating the projection values P1 (i) and P2 (j) are as follows.
【0040】[0040]
【数1】 [Equation 1]
【0041】斜め投影値の算出は、図20のB図に示し
たように、i番目の投影値をP(i)とすると、斜め隣
接投影値P(i)は、次の式で表現できる。なお、zは
足し合わせる周囲の投影値の数を示す。As shown in FIG. 20B, the calculation of the oblique projection value can be expressed by the following equation, assuming that the i-th projection value is P (i). . Note that z represents the number of projection values in the surroundings to be added.
【0042】先ず、図の左上の領域の場合は、P(i)
=p1(i−z)+p1(i−z+1)+・・・+p1
(i)+・・・+p1(i+z)となる。また、右上の
領域の場合は、P(j)=p2(j−z)+p2(j−
z+1)+・・・+p2(j)+・・・+p2(j+
z)となる。First, in the case of the upper left area of the figure, P (i)
= P1 (i-z) + p1 (i-z + 1) + ... + p1
(I) + ... + p1 (i + z). In the case of the upper right area, P (j) = p2 (jz) + p2 (j-
z + 1) + ... + p2 (j) + ... + p2 (j +
z).
【0043】ここで、i=zの場合は、P(i)=p1
(i−z)+p1(i−z+1)+・・・+p1(i)
・・・+p1(z)となる。なお、図20のB図の場
合、斜めの隣接投影値は、P(i)=p(i−1)+p
(i)+p(i+1)である。When i = z, P (i) = p1
(I-z) + p1 (i-z + 1) + ... + p1 (i)
... + p1 (z). Note that in the case of FIG. 20B, the diagonal adjacent projection value is P (i) = p (i-1) + p
(I) + p (i + 1).
【0044】具体例を図21について説明する。例え
ば、図21のA図に示したような原画像があるとする。
この図では、各画素を四角印で示してある。直線抽出を
行う場合、図21のB図に示したように、X−Y座標で
傾きが45度の場合は、X方向に1進んだら、Y方向に
1進む。同様に、45度以外の場合にも、XとYとの整
数比を算出し、その比に従って、投影値を算出する。A specific example will be described with reference to FIG. For example, assume that there is an original image as shown in FIG.
In this figure, each pixel is shown by a square mark. In the case of performing the straight line extraction, as shown in FIG. 21B, when the inclination is 45 degrees in the XY coordinates, the process advances by 1 in the X direction and then by 1 in the Y direction. Similarly, when the angle is other than 45 degrees, the integer ratio of X and Y is calculated, and the projection value is calculated according to the ratio.
【0045】例えば、前記の式において、z=1、閾値
=10とすると、図21のA図の場合、10番目が直線
として抽出される。また、図21のC図では、X方向の
増加数と、Y方向の増加数の比は、1対2となってい
る。For example, if z = 1 and the threshold value = 10 in the above equation, in the case of FIG. 21A, the 10th line is extracted as a straight line. Further, in FIG. 21C, the ratio of the increase number in the X direction and the increase number in the Y direction is 1: 2.
【0046】(2) :斜め隣接投影値算出から、斜め続き
線の検出までの具体例による処理説明・・・図22参照 斜め隣接投影値算出処理では、図22のA図のように、
パターンを横複数に分割し、それぞれの分割範囲内で、
斜めの隣接投影を行う。この場合、隣接投影値と分割長
との比が、或る一定値以上になった行に直線が存在する
ものとする。(2): Explanation of the process from the calculation of the diagonal adjacent projection values to the detection of the diagonal continuation line ... See FIG. 22. In the diagonal adjacent projection value calculation process, as shown in FIG.
Divide the pattern into horizontal multiples, and within each division range,
Perform diagonal adjacent projection. In this case, it is assumed that a straight line exists in a row in which the ratio between the adjacent projection value and the division length is a certain fixed value or more.
【0047】斜め直線抽出処理では、図22のB図に示
したように、抽出された直線の存在する範囲を矩形近似
して矩形直線を抽出する。その後、斜め直線統合処理を
行い、図22のC図に示したように、接触、または近隣
の矩形直線を統合することにより、長い直線を抽出し、
統合された直線の中で最も長い直線を斜め続き線とす
る。そして、前記斜め続き線を矩形近似して出力する。In the oblique straight line extraction processing, as shown in FIG. 22B, a rectangular straight line is extracted by approximating the range in which the extracted straight line exists to a rectangle. Then, diagonal straight line integration processing is performed, and as shown in FIG. 22C, a long straight line is extracted by integrating contact or neighboring rectangular straight lines,
The longest straight line among the integrated straight lines is the diagonal continuation line. Then, the diagonal continuation line is approximated to a rectangle and output.
【0048】 §5:文字分離決定部の処理説明・・・図23参照 図23は文字分離線決定部の処理説明図であり、A図は
パターンの傾き算出、B図はパターンの傾き算出、C図
は文字分離線決定の説明図である。§5: Process Description of Character Separation Determining Unit ... See FIG. 23. FIG. 23 is a process explanatory diagram of the character separation line determining unit. FIG. A is a pattern inclination calculation, B is a pattern inclination calculation, and FIG. FIG. C is an explanatory diagram of determining character separation lines.
【0049】文字分離線決定部5では、続き線抽出部4
で抽出した続き線を基に文字分離線を決定する。この処
理では、水平続き線が抽出された場合は、矩形近似され
た水平続き線の下辺を端から辿っていき、パターンと交
差したところを輪郭探索の開始点として輪郭探索を行
う。In the character separation line determination unit 5, the continuation line extraction unit 4
The character separation line is determined based on the continuation line extracted in. In this process, when a horizontal continuation line is extracted, the lower side of the horizontal continuation line approximated to the rectangle is traced from the end, and the contour search is performed with the intersection with the pattern as the starting point of the contour search.
【0050】そして、再び下辺と交差したら、探索を終
了し、再びパターンと交差するまで、下辺を辿り、同様
の処理を繰り返す。最終的に探索を行った回数を文字数
とし、探索の開始点から終了点までを、一文字が存在し
ている領域とする。探索終了点と開始点との間で、且つ
縦方向の線密度が1である部分を、文字と文字を分離す
る垂直分離線とする。Then, when the lower side is crossed again, the search is ended, and the lower side is traced until the pattern crosses the pattern again, and the same processing is repeated. The number of times the search is finally performed is defined as the number of characters, and the area from the start point to the end point of the search is the area where one character exists. A portion between the search end point and the start point and having a vertical line density of 1 is defined as a vertical separation line for separating characters.
【0051】また、縦方向の線密度1の部分が無い場合
には、斜め線で文字分離を行う。この場合、分離線の傾
きは、パターンの傾きを用いる。パターンの傾きの算出
は、例えば、以下に説明する式を用いて算出するが、こ
の処理の詳細は、例えば、次の文献を参照されたい。If there is no portion having a line density of 1 in the vertical direction, character separation is performed by diagonal lines. In this case, the inclination of the separation line uses the inclination of the pattern. The inclination of the pattern is calculated, for example, using the formula described below. For details of this process, refer to the following document, for example.
【0052】「F.Kimura, M.Shridhar and Z.Chen "Imp
rovement of Lexicon Directed Algorithm Recognition
of Unconstrained Handwritten Words" Proceeding of
Second International Conference on Document Analy
sis and Recognition,Tsukuba Science City, Japan 19
93,IEEE Computer Society Press, P.18〜 P.22」。"F. Kimura, M. Shridhar and Z. Chen" Imp
rovement of Lexicon Directed Algorithm Recognition
of Unconstrained Handwritten Words "Proceeding of
Second International Conference on Document Analy
sis and Recognition, Tsukuba Science City, Japan 19
93, IEEE Computer Society Press, P.18-P.22 ”.
【0053】前記のように、一文字領域間で、前記の傾
きに従って、線密度を求め、線密度1のところで前記の
傾きを持つ分離線(斜め分離線)を引く。前記パターン
の傾きを算出する場合、例えば、図23のA図、B図に
示したように、隣接画素n1、n2、n3の方向が図示
矢印方向にあるものとする。このような隣接画素n1、
n2、n3に対し、n1の総数をN1、n2の総数をN
2、n3の総数をN3とし、パターンの傾き角をθとす
ると、tanθ=(N1+N2+N3)/(N3−N
1)の式が成立する。As described above, the line density is obtained between the character regions according to the inclination, and the separation line (oblique separation line) having the inclination is drawn at the line density 1. When the inclination of the pattern is calculated, for example, as shown in FIGS. 23A and 23B, it is assumed that the directions of the adjacent pixels n1, n2, and n3 are in the arrow directions shown. Such an adjacent pixel n1,
For n2 and n3, the total number of n1 is N1 and the total number of n2 is N
When the total number of 2 and n3 is N3 and the inclination angle of the pattern is θ, tan θ = (N1 + N2 + N3) / (N3-N
The formula of 1) is established.
【0054】すなわち、図23のC図に示したように、
水平軸に対する斜め分離線の角度θは、tanθ=(N
1+N2+N3)/(N3−N1)の式で与えられる。 §6:ゼロ判定部の詳細な処理説明・・・図24参照 図24はゼロ判定部の処理説明図であり、A図は線密度
の算出処理、B図は線密度の算出処理を示す。That is, as shown in FIG. 23C,
The angle θ of the oblique separating line with respect to the horizontal axis is tan θ = (N
1 + N2 + N3) / (N3-N1). §6: Detailed process description of zero determination unit ... See FIG. 24. FIG. 24 is a process explanatory diagram of the zero determination unit. FIG. A shows linear density calculation processing, and FIG. B shows linear density calculation processing.
【0055】ゼロ判定部6は、続き線(水平続き線、及
び斜め続き線)と、分離線(垂直分離線、斜め分離線)
に囲まれた一文字領域内において、図24に示したよう
に、続き線とパターンに囲まれた空白部分から、複数方
向放射状に線密度を算出し、全ての方向について線密度
が1であれば、ループ構造をしたゼロであると判定す
る。The zero decision unit 6 has a continuation line (horizontal continuation line and diagonal continuation line) and a separation line (vertical separation line, oblique separation line).
As shown in FIG. 24, the line density is calculated in a radial direction in a plurality of directions from the blank portion surrounded by the continuation line and the pattern, and if the line density is 1 in all directions, as shown in FIG. , It is determined that the loop structure is zero.
【0056】 §7:文字分離部の詳細な処理説明・・・図25参照 図25は文字分離部の処理説明図である。文字分離部7
では、ゼロ判定部6でゼロであると判定された文字に関
しては、左右に出ている不必要な続き線の消去を行い、
それ以外の文字は文字分離線で分離する。§7: Detailed Process Description of Character Separation Unit--See FIG. 25 FIG. 25 is a process explanatory diagram of the character separation unit. Character separation part 7
Then, for the character that is determined to be zero by the zero determination unit 6, unnecessary continuation lines appearing on the left and right are deleted,
Other characters are separated by a character separation line.
【0057】この場合、分離線から線の傾きが急激に変
化する部分までを消去範囲とする。図25のA図に示し
たように、一定範囲内に傾きの変化が殆ど無い場合は、
続き線の消去は行わない。すなわち、a部分は傾きに急
激な変化がないため消去しない部分であり、b部分は傾
きに急激な変化がある所まで消去する部分である。In this case, the erasing range is from the separation line to the portion where the slope of the line changes abruptly. As shown in FIG. 25A, when there is almost no change in inclination within a certain range,
The continuation line is not erased. That is, the portion a is a portion which is not erased because there is no abrupt change in the inclination, and the portion b is a portion which is erased to a portion where the inclination is abruptly changed.
【0058】また、ゼロと判定されたパターンの内部
に、図25のB図に示したように、ループがあった場
合、後の認識処理において、誤認識等の悪影響を少なく
するために、内部の線の消去も行う。ゼロでないと判定
された文字に関しては、分離線で他の文字と分離を行
い、水平続き線の消去は行わない。If there is a loop inside the pattern determined to be zero as shown in FIG. 25B, in order to reduce the adverse effects such as erroneous recognition in the subsequent recognition processing, It also erases the line. For characters determined to be non-zero, the separating line separates them from other characters, and the horizontal continuation line is not erased.
【0059】[0059]
【発明が解決しようとする課題】前記のような従来のも
のにおいては、次のような課題があった。 (1) :帳票等の文書に対して1文字ずつ分離して書かれ
た文字についてはかなりの高い認識率で文字認識を行う
ことができた。しかし、接触文字や、続け字が入ると文
字と文字の分離ができない場合が多くなり、文字の認識
率が低下する。SUMMARY OF THE INVENTION The above-mentioned conventional device has the following problems. (1): It was possible to perform character recognition with a considerably high recognition rate for characters written separately in documents such as forms. However, when a contact character or a continuous character is entered, the character cannot be separated from each other in many cases, and the recognition rate of the character decreases.
【0060】(2) :続き線のある数字のゼロの続け字の
場合は正確に文字の分離処理を行うことができる。しか
し、続き線があっても数字のゼロでない場合は、正確に
文字と文字の分離線を見つけることができないことが多
かった。このような場合、所定の位置で強制分離を行う
ことで文字と文字を分離していた。(2): In the case of a continuous character of zeros in a continuous line, it is possible to accurately perform character separation processing. However, if there was a continuation line and the number was not zero, it was often not possible to find the exact line between the characters. In such a case, the characters are separated from each other by performing the forced separation at a predetermined position.
【0061】そのため、前記強制分離を行ったことによ
り、余分な「ヒゲ」が残ってしまい認識処理が困難にな
る等の悪影響が発生していた。 (3) :従来の装置では斜め続き線を抽出する際に、或る
一定の角度を持った方向に投影処理を行い続き線を抽出
していた。この処理では、始めの角度設定を誤ると精度
よく続き線が抽出できない。Therefore, due to the forced separation, an extra "whisker" remains, and the recognition process becomes difficult, and other adverse effects occur. (3): In the conventional apparatus, when extracting a diagonal continuation line, projection processing is performed in a direction having a certain angle to extract the continuation line. In this process, if the initial angle is set incorrectly, the subsequent line cannot be extracted accurately.
【0062】(4) :続け字を分離する場合、2文字を直
線で分離できるかどうかを見ているため、文字間の空白
が少しでも複雑な形状になると対処できなかった。ま
た、文字の訂正線を間違えて続き線として抽出すること
があった。(4): When separating consecutive characters, since it is checked whether two characters can be separated by a straight line, it cannot be dealt with if the space between the characters becomes a complicated shape. Moreover, the correction line of a character may be mistakenly extracted as a continuation line.
【0063】本発明は、このような従来の課題を解決
し、数字のゼロを含まない文字の場合であっても、常に
正確に文字と文字の分離が行えるようにして高精度の認
識処理を可能とすることを目的とする。The present invention solves such a conventional problem, and enables highly accurate recognition processing by always accurately separating characters from each other even in the case of a character that does not include the number zero. The purpose is to enable.
【0064】また、本発明は、文字の訂正線の抽出を行
うことにより続き線の抽出精度を向上させると共に、変
化点の抽出処理を高精度で実現し、文字の分離精度を向
上させることを目的とする。Further, according to the present invention, it is possible to improve the extraction accuracy of the continuation line by extracting the correction line of the character and to realize the extraction processing of the change point with high accuracy to improve the accuracy of character separation. To aim.
【0065】[0065]
【課題を解決するための手段】図1は本発明の原理説明
図であり、A図は文字切り出し装置イ、B図は文字切り
出し装置ロを示す。本発明は前記の目的を達成するた
め、文字切り出し装置を次のように構成した。FIG. 1 is a diagram for explaining the principle of the present invention. FIG. 1A shows a character slicing device a and FIG. B shows a character slicing device b. In order to achieve the above-mentioned object, the present invention has a character cutting device configured as follows.
【0066】(1) :図1のA図に示した文字切り出し装
置イにおいて、入力パターンの連結情報に基づいて、入
力パターンから連結パターンを抽出する連結パターン抽
出部2と、連結パターン抽出部が抽出した連結パターン
の内、複数の文字が繋がっている続き文字の候補とし
て、横に長い横長パターンだけを抽出する横長パターン
抽出部3と、横長パターン抽出部が抽出した横長パター
ンから文字と文字を繋いでいる続き線を見つけることに
よって、前記抽出された連結パターンが続き文字である
か否かを判断し、文字の続き線を抽出する続き線抽出部
4と、続き線抽出部で続き線が抽出できなかった場合
に、パターンの輪郭探索を行ってパターン輪郭の傾きの
変化点を抽出し、前記変化点を文字と文字の分離点候補
とする変化点抽出部10と、変化点抽出部が抽出した変
化点を基に、それぞれの分離点候補で分離した場合の分
離後の文字の大きさを求め、前記文字の大きさの比較に
より文字の分離点を決定する分離点決定部11と、分離
点決定部で決定した文字の分離点で文字を分離する文字
分離部12を設けた。(1): In the character slicing device B shown in FIG. 1A, the connection pattern extracting unit 2 for extracting the connection pattern from the input pattern and the connection pattern extracting unit on the basis of the connection information of the input pattern. Among the extracted concatenated patterns, a horizontal pattern extracting unit 3 that extracts only a horizontally long horizontal pattern as a candidate for a continuous character in which a plurality of characters are connected, and characters and characters are extracted from the horizontal pattern extracted by the horizontal pattern extracting unit. It is determined whether or not the extracted connection pattern is a continuation character by finding the continuation line that is connected, and the continuation line extraction unit 4 for extracting the continuation line of the character and the continuation line extraction unit If the extraction is not possible, the pattern contour search is performed to extract a change point of the inclination of the pattern contour, and the change point extraction unit 10 that makes the change point a character and character separation point candidate. Based on the change points extracted by the change point extraction unit, the size of the character after separation when the separation point candidates are separated is obtained, and the character separation point is determined by comparing the character sizes. A separation point determination unit 11 and a character separation unit 12 that separates characters at the character separation points determined by the separation point determination unit are provided.
【0067】(2) :図1のB図に示した文字切り出し装
置ロにおいて、入力パターンの連結情報に基づいて、入
力パターンから連結パターンを抽出する連結パターン抽
出部2と、連結パターン抽出部が抽出した連結パターン
の内、複数の文字が繋がっている続き文字の候補として
横に長い横長パターンだけを抽出する横長パターン抽出
処理、及び前記横長パターンから文字と文字を繋いでい
る続き線を抽出して、文字上に書かれた訂正線を抽出す
る訂正線抽出処理を行う続け字抽出部23と、続け字抽
出部が抽出した横長パターンから文字と文字を繋いでい
る続き線を見つけることによって、前記抽出された連結
パターンが続き文字であるか否かを判断し、文字の続き
線を抽出する続き線抽出部4と、続き線抽出部4で続き
線が抽出された場合、その続き線の位置情報を基に、文
字分離線を決定する文字分離線決定部5と、文字分離線
決定部が決定した文字分離線で分けられた一文字毎の文
字領域について、一文字毎に、数字のゼロであるか否か
を判定するゼロ判定部6と、数字のゼロと判定された文
字について、文字領域を残し不必要な続き部分を消去す
る文字分離部7と、続き線抽出部4で続き線が抽出でき
なかった場合、及び前記ゼロ判定部で数字のゼロと判定
されなかった場合に、パターンの輪郭探索を行ってパタ
ーン輪郭の傾きの変化点を抽出し、前記変化点を文字と
文字の分離点候補とする変化点抽出部10と、変化点抽
出部が抽出した変化点を基に、それぞれの分離点候補で
分離した場合の分離後の文字の大きさを求め、前記文字
の大きさの比較により文字の分離点を決定する分離点決
定部11と、分離点決定部11で決定した文字の分離点
で文字を分離し、文字領域を残し不必要な続き部分を消
去する文字分離部12を設けた。(2): In the character slicing device B shown in FIG. 1B, the connection pattern extracting unit 2 for extracting the connection pattern from the input pattern and the connection pattern extracting unit on the basis of the connection information of the input pattern. Of the extracted concatenated patterns, horizontal pattern extraction processing that extracts only horizontally long horizontal patterns as candidates for continuous characters in which multiple characters are connected, and continuous lines that connect characters from the horizontal patterns are extracted. Then, by detecting the continuous character extracting unit 23 that performs the correction line extracting process for extracting the correction line written on the character, and the continuous line connecting the characters from the horizontally long pattern extracted by the continuous character extracting unit, When the continuation line is extracted by the continuation line extraction unit 4 that determines whether the extracted connection pattern is a continuation character and extracts the continuation line of the character. , The character separation line determination unit 5 that determines the character separation line based on the position information of the continuation line, and the character area of each character divided by the character separation line determined by the character separation line determination unit , A zero determination unit 6 for determining whether it is a numeral zero, a character separation unit 7 for leaving a character area and erasing an unnecessary continuation portion for a character determined to be a numeral zero, and a continuation line extraction unit When the continuation line cannot be extracted in step 4 and when the zero determining unit does not determine that the number is zero, a pattern contour search is performed to extract a change point of the inclination of the pattern contour, and the change point is determined. Based on the change point extraction unit 10 as a character and character separation point candidate, and the change point extracted by the change point extraction unit, the size of the separated character when separated by each separation point candidate is obtained, By comparing the size of the characters, A separation point determining unit 11 to a constant, a character separated by the separation point of the character determined in the separation point determining unit 11, provided with the character segmentation unit 12 to erase the unnecessary continuation portion leaving the character region.
【0068】[0068]
【作用】前記構成に基づく本発明の作用を、図1に基づ
いて説明する。 (1) :前記文字切り出し装置イでは、先ず、連結パター
ン抽出部2が、入力パターンの連結情報に基づいて、入
力パターンから、画素と画素とが繋がっている連結パタ
ーンを抽出する。The operation of the present invention based on the above construction will be described with reference to FIG. (1): In the character slicing device B, first, the connection pattern extraction unit 2 extracts a connection pattern in which pixels are connected from the input pattern based on the connection information of the input pattern.
【0069】次に、横長パターン抽出部3では、前記抽
出された連結パターンの内、複数の文字が繋がっている
続き文字の候補として、横に長い横長パターンだけを抽
出する。そして、続き線抽出部4では、文字と文字を繋
いでいる続き線を見つけることによって、前記抽出され
た連結パターンが続き文字であるか否かを判断し、水
平、或いは斜め続き線を抽出する。Next, the horizontally long pattern extraction unit 3 extracts only horizontally long horizontally long patterns from the extracted connected patterns as candidates for a continuous character in which a plurality of characters are connected. Then, the continuation line extraction unit 4 determines whether or not the extracted connection pattern is a continuation character by finding a continuation line connecting characters to extract a horizontal or diagonal continuation line. .
【0070】その後、続き線が抽出できた場合は、別の
処理部(図示省略)により前記続き線を基に文字分離点
を決定して文字の分離を行う。しかし、続き線が抽出で
きなかった場合には、変化点抽出部10でパターンの輪
郭探索を行ってパターン輪郭の傾きの変化点を抽出し、
前記変化点を文字と文字の分離点候補とする。After that, when the continuation line can be extracted, another processing unit (not shown) determines a character separation point based on the continuation line to separate the characters. However, when the continuation line cannot be extracted, the change point extraction unit 10 searches for the contour of the pattern to extract the change point of the inclination of the pattern contour,
The change point is defined as a character-to-character separation point candidate.
【0071】その後、分離点決定部11は、変化点抽出
部10が抽出した変化点を基に、それぞれの分離点候補
で分離した場合の分離後の文字の大きさを求め、前記文
字の大きさの比較により文字の分離点を決定する。次
に、文字分離部12は、分離点決定部11で決定した文
字分離点で文字を分離する。Thereafter, the separation point determination unit 11 obtains the size of the character after the separation when the separation point candidates are separated on the basis of the change point extracted by the change point extraction unit 10, and the size of the character. The character separation point is determined by comparing the character sizes. Next, the character separation unit 12 separates the characters at the character separation points determined by the separation point determination unit 11.
【0072】(2) :文字切り出し装置ロでは、連結パタ
ーン抽出部2が、先ず、入力パターンの連結情報に基づ
いて、入力パターンから、画素と画素とが繋がっている
連結パターンを抽出する。(2): In the character slicing device B, the connection pattern extraction unit 2 first extracts a connection pattern in which pixels are connected from the input pattern based on the connection information of the input pattern.
【0073】次に、続け字抽出部23は、連結パターン
抽出部2が抽出した連結パターンの内、複数の文字が繋
がっている続け字候補として横に長い横長パターンだけ
を抽出する。この時、続け字抽出部23は、前記横長パ
ターンから文字と文字を繋いでいる続き線を抽出するこ
とで、文字上に書かれた訂正線を抽出する。Next, the continuous character extracting unit 23 extracts only horizontally long horizontal patterns as continuous character candidates in which a plurality of characters are connected, among the connected patterns extracted by the connected pattern extracting unit 2. At this time, the continuous character extracting unit 23 extracts a correction line written on the character by extracting a continuous line connecting the characters from the horizontal pattern.
【0074】その後、続き線抽出部4は、続け字抽出部
23で抽出した横長パターンから文字と文字を繋いでい
る続き線を見つけることによって、前記抽出された連結
パターンが続き文字であるか否かを判断し、文字の続き
線を抽出する。After that, the continuation line extraction unit 4 finds a continuation line connecting characters from the horizontally long pattern extracted by the continuation character extraction unit 23 to determine whether the extracted connection pattern is a continuation character. Then, the continuation line of the character is extracted.
【0075】そして、続き線抽出部4で続き線が抽出さ
れた場合、文字分離線決定部5は、その続き線の位置情
報を基に文字分離線を決定する。続いてゼロ判定部6
は、文字分離線決定部5が決定した文字分離線で分けら
れた一文字毎の文字領域について、一文字毎に数字のゼ
ロであるか否かを判定する。その結果、ゼロと判定され
た場合は、文字分離部7は数字のゼロと判定された文字
について、文字領域を残し不必要な続き部分を消去す
る。Then, when the continuation line is extracted by the continuation line extraction unit 4, the character separation line determination unit 5 determines the character separation line based on the position information of the continuation line. Then, the zero determination unit 6
Determines whether or not the number is zero for each character in the character area for each character divided by the character separation line determined by the character separation line determination unit 5. As a result, when it is determined that the number is zero, the character separating unit 7 leaves a character area and erases an unnecessary continuous portion of the character that is determined to be zero.
【0076】しかし、続き線抽出部4で続き線が抽出で
きなかった場合、及びゼロ判定部6で数字のゼロと判定
されなかった場合は、変化点抽出部10は、パターンの
輪郭探索を行ってパターン輪郭の傾きの変化点を抽出
し、前記変化点を文字と文字の分離点候補とする。However, when the continuation line extraction unit 4 cannot extract the continuation line and when the zero determination unit 6 does not determine that the number is zero, the change point extraction unit 10 searches for the contour of the pattern. Then, the change point of the inclination of the pattern contour is extracted, and the change point is used as a character and character separation point candidate.
【0077】次に分離点決定部11は、変化点抽出部1
0が抽出した変化点を基に、それぞれの分離点候補で分
離した場合の分離後の文字の大きさを求め、前記文字の
大きさの比較により文字の分離点を決定する。Next, the separation point determination unit 11 is connected to the change point extraction unit 1
Based on the change points extracted by 0, the size of the character after the separation when the separation point candidates are separated is obtained, and the character separation point is determined by comparing the sizes of the characters.
【0078】そして、文字分離部12は、分離点決定部
11で決定した文字の分離点で文字を分離し、文字領域
を残し不必要な続き部分を消去する。以上の処理により
文字の切り出しを行う。Then, the character separation unit 12 separates the characters at the character separation points determined by the separation point determination unit 11, leaving a character area and erasing unnecessary continuation portions. Characters are cut out by the above processing.
【0079】(3) :前記A図に示した文字切り出し装置
イにおいては、更に次のような作用がある。 a)前記変化点抽出部10の処理において、注目パター
ンの縦の長さ、他のパターンの平均サイズ等より仮の探
索開始基準線を決定した後、仮の探索開始基準線の周辺
部分において線密度1の部分を探索して正式の探索開始
基準線を求め、探索開始基準線から探索開始点を決定し
てパターンの輪郭探索を行う。(3): The character slicing device B shown in FIG. A has the following effects. a) In the processing of the change point extraction unit 10, after determining a tentative search start reference line based on the vertical length of the pattern of interest, the average size of other patterns, etc., a line is formed around the tentative search start reference line. The formal search start reference line is obtained by searching the portion of density 1, the search start point is determined from the search start reference line, and the contour search of the pattern is performed.
【0080】b)変化点抽出部10の処理において、パ
ターンの輪郭探索を行う場合の探索開始点を、線密度1
の部分のパターンの上端、下端の2点とする。 c)変化点抽出部10の処理において、パターンの輪郭
探索を開始する探索開始点を決定した後、前記探索開始
点からそれぞれパターンの左右方向に輪郭探索を行うこ
とにより、パターンの傾きの変化点を抽出する。B) In the processing of the change point extraction section 10, the line density 1 is set as the search start point when the contour search of the pattern is performed.
There are two points, the upper end and the lower end of the pattern of the part. c) In the process of the change point extraction unit 10, after the search start point for starting the contour search of the pattern is determined, the contour search is performed in the left and right directions of the pattern from the search start point to obtain the change point of the inclination of the pattern. To extract.
【0081】d)変化点抽出部10の処理において、パ
ターンの輪郭探索を行ってパターンの輪郭の傾きの変化
点を抽出する際、パターン上の探索開始点と輪郭上の或
る点とを結ぶ直線と、検出された輪郭との重なりを算出
し、前記算出した重なりの度合いにより、探索開始点か
ら輪郭上の或る点までが直線であるか否かを判断するこ
とで変化点の抽出を行う。D) In the processing of the change point extraction unit 10, when the contour search of the pattern is performed to extract the change point of the inclination of the pattern contour, the search start point on the pattern is connected to a certain point on the contour. The change point is extracted by calculating the overlap between the straight line and the detected contour, and determining whether or not the search start point to a certain point on the contour is a straight line based on the calculated degree of overlap. To do.
【0082】e)変化点抽出部10の処理において、パ
ターンの輪郭探索を行ってパターンの輪郭の傾きの変化
点を抽出する際、パターン上の探索開始点と輪郭上の或
る点とを結ぶ直線と、輪郭との重なりを算出し、前記重
なりの変化量から輪郭の傾きの変化点を抽出する。E) In the process of the change point extraction section 10, when the contour of the pattern is searched to extract the change point of the inclination of the contour of the pattern, the search start point on the pattern is connected to a certain point on the contour. The overlap between the straight line and the contour is calculated, and the change point of the inclination of the contour is extracted from the change amount of the overlap.
【0083】f)分離点決定部11の処理において、パ
ターンの上下2点の変化点間の距離が、或る一定のしき
い値以下であれば、前記2点を変化点として選択し、前
記距離が或る一定のしきい値を超えていた場合は、探索
開始点に近い方の1点を変化点として選択する。F) In the processing of the separation point determination unit 11, if the distance between the change points of the upper and lower two points of the pattern is less than a certain threshold value, the two points are selected as the change points, When the distance exceeds a certain threshold value, one point closer to the search start point is selected as the change point.
【0084】g)前記f)の処理において、上下2点間
の距離のしきい値を、周囲の投影値を足し合わせた結果
を注目行、または列の投影値とする隣接投影法によって
抽出された線分の太さの平均値を基準にして設定する。G) In the process of f), the threshold value of the distance between the upper and lower two points is extracted by the adjacent projection method in which the projection value of the target row or column is the result of adding the projection values of the surroundings. Set based on the average thickness of the line segments.
【0085】h)前記f)の処理において、上下2点間
の距離のしきい値を、注目パターンの高さを基準にして
設定する。 i)文字分離部12の処理において、分離点決定部11
で決定した文字の分離点で文字を分離する際、分離点と
分離点とを結ぶ直線とその両隣の画素を消去する。H) In the processing of f), the threshold value of the distance between the upper and lower points is set with reference to the height of the pattern of interest. i) In the processing of the character separation unit 12, the separation point determination unit 11
When a character is separated at the character separation point determined in step 1, the line connecting the separation points and the pixels on both sides thereof are erased.
【0086】j)分離点決定部11の処理において、変
化点抽出部10が抽出した変化点を基に、それぞれの分
離点候補で分離したと仮定し、ラベリング、輪郭探索、
投影法等により、分離後の文字の大きさを求めることに
より、分離点を決定する。J) In the processing of the separation point determination unit 11, it is assumed that the separation points are separated by respective separation point candidates based on the change points extracted by the change point extraction unit 10, and labeling, contour search,
The separation point is determined by obtaining the size of the character after separation by a projection method or the like.
【0087】k)分離点決定部11の処理において、変
化点抽出部10が抽出した変化点を基に、それぞれの分
離点候補で分離したと仮定し、分離後の文字の大きさを
求め、前記分離後の大きさが均等になるように分離点を
決定する。K) In the processing of the separation point determination unit 11, it is assumed that the respective separation point candidates are separated based on the change points extracted by the change point extraction unit 10, and the size of the character after the separation is obtained, Separation points are determined so that the sizes after separation are equal.
【0088】(4) :前記B図に示した文字切り出し装置
ロにおいては、更に次のような作用がある。 a)続け字抽出部23の処理において、続け字候補から
続け字を抽出する際に、水平方向の投影処理を行って続
き線が2本抽出されたら前記2本の続き線を訂正線と判
断し、その文字を訂正文字として扱う。(4): The character slicing device B shown in FIG. a) In the processing of the continuous character extracting unit 23, when extracting the continuous characters from the continuous character candidates, if two continuous lines are extracted by performing the projection process in the horizontal direction, the two continuous lines are determined as correction lines. However, the character is treated as a correction character.
【0089】b)続き線抽出部4の処理において、続け
字抽出部23の処理で抽出した横長パターンから文字と
文字を繋いでいる続き線を抽出する際、複数の傾きに対
して続き線の抽出処理を行う。B) In the processing of the continuation line extraction unit 4, when extracting the continuation line connecting characters from the horizontally long pattern extracted in the processing of the continuation character extraction unit 23, the continuation line is extracted for a plurality of slopes. Perform extraction processing.
【0090】c)文字分離線決定部5の処理において、
続き線抽出部4で続き線が抽出され、その続き線の位置
情報を基に文字分離線を決定する際、2文字を折れ線で
分離できるか否かにより分離可否を決定する。C) In the processing of the character separation line determination section 5,
When the continuation line is extracted by the continuation line extraction unit 4 and the character separation line is determined based on the position information of the continuation line, whether or not the character can be separated is determined by whether or not the two characters can be separated by the polygonal line.
【0091】d)変化点抽出部10の処理において、文
字と文字の接触した点として変化点を抽出する際、始め
に縦方向に線密度1となる輪郭線上の点を見つけ、次に
変化点の探索開始点を輪郭線上に複数設定し、各点から
前記複数の変化点候補を算出する。D) In the process of the change point extraction unit 10, when extracting change points as points where characters touch each other, first find a point on the contour line having a line density of 1 in the vertical direction, and then change points. A plurality of search start points are set on the contour line, and the plurality of change point candidates are calculated from each point.
【0092】e)前記d)の処理において、変化点の探
索開始点を輪郭線上に複数設定する際、パターンに対す
る探索範囲を限定して探索開始点を見つける。 f)前記d)の処理において、複数の変化点候補を算出
する際、パターンに対する探索範囲を限定して変化点候
補を算出する。E) In the process of d), when a plurality of search start points for changing points are set on the contour line, the search range for the pattern is limited to find the search start points. f) In the process of d), when calculating a plurality of change point candidates, the change range candidates are calculated by limiting the search range for the pattern.
【0093】g)前記e)の処理において、探索開始点
の探索範囲を限定する際、パターンの高さの定数倍を探
索範囲とする。 h)前記e)の処理において、探索開始点の探索範囲を
限定する際、その文字が属する文字列の平均文字サイズ
の定数倍を探索範囲とする。G) In the process of e), when the search range of the search start point is limited, a constant multiple of the height of the pattern is set as the search range. h) When the search range of the search start point is limited in the process of e), the search range is set to a constant multiple of the average character size of the character string to which the character belongs.
【0094】i)前記f)の処理において、変化点の探
索範囲を限定する際、パターンの高さの定数倍を探索範
囲とする。 j)前記f)の処理において、変化点の探索範囲を限定
する際、その文字が属する文字列の平均文字サイズの定
数倍を探索範囲とする。I) In the process of the above-mentioned f), when the search range of the changing point is limited, a constant multiple of the height of the pattern is set as the search range. j) In the process of f), when limiting the search range of the change point, the search range is set to a constant multiple of the average character size of the character string to which the character belongs.
【0095】k)文字分離部7、12の処理において、
続け字の分離に伴って生じる文字のヒゲを除去すると共
に、その際、パターンの上側の輪郭線と続き線の位置情
報から文字内に含まれるヒゲ部分を除去する。K) In the processing of the character separation units 7 and 12,
The whiskers of the characters that occur when the continuous characters are separated are removed, and at the same time, the whiskers included in the characters are removed from the position information of the upper contour line and the continuation line of the pattern.
【0096】(5) :以上のようにすれば、数字のゼロを
含まない文字の場合であっても、常に正確に文字と文字
の分離が行えるようにして高精度の認識処理を可能とす
ることができる。(5): As described above, even in the case of a character that does not include the number zero, high-accuracy recognition processing can be performed by always allowing accurate character separation. be able to.
【0097】また、文字の訂正線の抽出を行うことによ
り続き線の抽出精度を向上させると共に、変化点の抽出
処理を高精度で実現し、文字の分離精度を向上させるこ
とが可能になる。Further, by extracting the correction line of the character, it is possible to improve the extraction accuracy of the continuation line, realize the change point extraction processing with high accuracy, and improve the character separation accuracy.
【0098】[0098]
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図2〜図17は、本発明の実施例を示した図であ
り、図2〜図17中、図1、図18〜図25と同じもの
は、同一符号で示してある。また、14は探索開始基準
線決定部、15は探索開始点決定部、16は輪郭探索
部、17は変化点抽出処理部、19は分離点候補抽出
部、20は大きさ比較部、21は分離線決定部を示す。Embodiments of the present invention will be described below with reference to the drawings. 2 to 17 are diagrams showing an embodiment of the present invention. In FIGS. 2 to 17, the same parts as those in FIGS. 1 and 18 to 25 are designated by the same reference numerals. Further, 14 is a search start reference line determination unit, 15 is a search start point determination unit, 16 is a contour search unit, 17 is a change point extraction processing unit, 19 is a separation point candidate extraction unit, 20 is a size comparison unit, and 21 is The separation line determination part is shown.
【0099】(実施例1の説明) §1:文字切り出し装置基本構成の説明・・・図2参照 図2は実施例1の文字切り出し装置基本構成図である。
図示のように、文字切り出し装置1は、連結パターン抽
出部2、横長パターン抽出部3、続き線抽出部4、文字
分離線決定部5、ゼロ判定部6、文字分離部7、変化点
抽出部10、分離点決定部11、文字分離部12で構成
する。(Explanation of Embodiment 1) §1: Description of basic configuration of character slicing device--see FIG. 2 FIG. 2 is a basic configuration diagram of the character slicing device of the first embodiment.
As illustrated, the character slicing device 1 includes a connection pattern extraction unit 2, a horizontally long pattern extraction unit 3, a continuous line extraction unit 4, a character separation line determination unit 5, a zero determination unit 6, a character separation unit 7, and a change point extraction unit. 10, a separation point determination unit 11, and a character separation unit 12.
【0100】前記各部の内、変化点抽出部10、分離点
決定部11、文字分離部12以外の構成は前記従来例の
構成と同じである。前記各部の機能は次の通りである。 (1) :連結パターン抽出部2は、入力パターンから連結
パターンを抽出するものである。すなわち、文字切り出
しを行う場合、先ず、文字が配置されている位置の相対
的な関係に依存することなく、各文字パターンを安定に
ピックアップするために、連結パターン抽出部2では、
例えば、8連結で繋がっているパターンをラベリング処
理で抽出する。Of the above-mentioned units, the configuration other than the change point extraction unit 10, the separation point determination unit 11, and the character separation unit 12 is the same as that of the conventional example. The function of each part is as follows. (1): The connection pattern extraction unit 2 extracts a connection pattern from the input pattern. That is, when performing character segmentation, first, in order to stably pick up each character pattern without depending on the relative relationship of the positions where the characters are arranged, the connected pattern extraction unit 2
For example, a pattern connected by eight connections is extracted by the labeling process.
【0101】(2) :横長パターン抽出部3は、続き文字
の候補として、前記ラベリング処理で得られた連結パタ
ーン毎に、外接矩形の縦横の比率を算出し、或る一定以
上の横長の比率を持つパターンを抽出するものである。(2): The horizontally long pattern extraction unit 3 calculates the vertical / horizontal ratio of the circumscribed rectangle for each concatenated pattern obtained by the labeling process as a candidate for the continuous character, and the horizontal / horizontal ratio above a certain level. The pattern that has is extracted.
【0102】(3) :続き線抽出部4は、水平、或いは斜
めの文字と文字の繋がっている部分の続き線を見つける
ことによって、前記抽出された連結パターンが続き文字
であるか否かを判断し、水平続き線、或いは斜め続き線
を抽出するものである。(3): The continuation line extraction unit 4 finds whether or not the extracted connection pattern is a continuation character by finding a continuation line of a portion where characters are connected horizontally or diagonally. Judgment is made and a horizontal continuation line or a diagonal continuation line is extracted.
【0103】(4) :文字分離線決定部5は、前記抽出さ
れた続き線を基に、輪郭探索を用いて、文字数、及び一
文字毎の文字の存在する領域を求め、文字と文字の間に
垂直分離線、或いは斜め分離線等の文字分離線を引くも
のである。(4): The character separation line determination unit 5 obtains the number of characters and the area in which each character exists by using contour search based on the extracted continuation line, and determines the space between characters. A character separation line such as a vertical separation line or a diagonal separation line is drawn on the.
【0104】なお、この文字分離線決定部5は、続き線
抽出部4で水平続き線、或いは斜め続き線が抽出された
場合(続き線有りの場合)にのみ文字分離線の決定処理
を行うものである。The character separation line determination unit 5 determines the character separation line only when the continuation line extraction unit 4 extracts a horizontal continuation line or an oblique continuation line (when there is a continuation line). It is a thing.
【0105】(5) :ゼロ判定部6は、前記文字分離線で
分離された1文字毎の文字領域について、1文字毎に、
数字のゼロ(0)であるか否かを判定するものである。 (6) :文字分離部7は、前記数字のゼロ(0)と判定さ
れた文字については、左右に出ている不必要な続き線や
ヒゲ等を消去し、前記文字分離線で分離することにより
文字の分離を行うものである。(5): The zero determining unit 6 determines, for each character, for each character area separated by the character separation line.
It is to determine whether the number is zero (0). (6): The character separation unit 7 erases unnecessary continuation lines and whiskers appearing on the left and right of the character determined to be zero (0) of the numeral, and separates by the character separation line. Is used to separate characters.
【0106】(7) :変化点抽出部10は、続き線抽出部
4の処理で続き線(水平続き線、或いは斜め続き線)が
抽出できなかった場合(続き線無しの場合)に、処理対
象としているパターンに対して、傾きの変化点の抽出を
行うものである。(7): If the continuation line extraction unit 4 cannot extract a continuation line (horizontal continuation line or diagonal continuation line) by the processing of the continuation line extraction unit 4 (when there is no continuation line), the processing is performed. The change point of the inclination is extracted from the target pattern.
【0107】(8) :分離点決定部11は、変化点抽出部
10で抽出した変化点を基に、文字の分離点を決定する
ものである。 (9) :文字分離部12は、分離点決定部11で決定した
文字の分離点を基に、文字の分離を行うものである。(8): The separation point determination unit 11 determines the character separation point based on the change points extracted by the change point extraction unit 10. (9): The character separation unit 12 performs character separation based on the character separation points determined by the separation point determination unit 11.
【0108】§2:実施例1の文字切り出し装置構成の
説明・・・図3参照 図3は実施例1の文字切り出し装置構成図である。図示
のように、文字切り出し装置は、連結パターン抽出部
2、横長パターン抽出部3、続き線抽出部4、文字分離
線決定部5、ゼロ判定部6、文字分離部7、変化点抽出
部10、分離点決定部11、文字分離部12で構成す
る。§2: Description of Configuration of Character Extraction Device of First Embodiment--See FIG. 3 FIG. 3 is a configuration diagram of the character extraction device of the first embodiment. As shown in the figure, the character slicing device includes a connected pattern extraction unit 2, a horizontally long pattern extraction unit 3, a continuous line extraction unit 4, a character separation line determination unit 5, a zero determination unit 6, a character separation unit 7, and a change point extraction unit 10. , A separation point determination unit 11 and a character separation unit 12.
【0109】そして、前記変化点抽出部10は、探索開
始基準線決定部14、探索開始点決定部15、輪郭探索
部16、変化点抽出処理部17で構成し、前記分離点決
定部11は、分離点候補抽出部19、大きさ比較部2
0、分離線決定部21で構成する。前記各部の機能等は
次の通りである。The change point extraction unit 10 is composed of a search start reference line determination unit 14, a search start point determination unit 15, a contour search unit 16, and a change point extraction processing unit 17, and the separation point determination unit 11 is , Separation point candidate extraction unit 19, size comparison unit 2
0, separating line determining unit 21. Functions and the like of the above-mentioned respective parts are as follows.
【0110】(1) :探索開始基準線決定部14は、続き
線が抽出されなかった場合に、続き文字、接触文字等の
変化点の探索を行うための探索開始の基準線の決定を行
うものである。(1): When the continuation line is not extracted, the search start reference line determination unit 14 determines the search start reference line for searching for a change point such as a continuation character or a touch character. It is a thing.
【0111】(2) :探索開始点決定部15は、前記探索
開始基準線決定部14が決定した探索開始の基準線を基
に、探索開始点を決定するものである。 (3) :輪郭探索部16は、前記探索開始点決定部15が
決定した探索開始点から順番にパターンの輪郭を探索す
るものである。(2): The search start point determination unit 15 determines the search start point based on the search start reference line determined by the search start reference line determination unit 14. (3): The contour search unit 16 sequentially searches the contours of the pattern from the search start point determined by the search start point determination unit 15.
【0112】(4) :変化点抽出処理部17は、前記輪郭
探索により得られた情報から変化点の抽出を行うもので
ある。 (5) :分離点候補抽出部19は、前記変化点抽出処理部
17が抽出した変化点を基に、文字と文字を分離するた
めの分離点候補を抽出するものである。(4): The change point extraction processing section 17 extracts change points from the information obtained by the contour search. (5): The separation point candidate extraction unit 19 extracts a separation point candidate for separating characters from each other based on the change points extracted by the change point extraction processing unit 17.
【0113】(6) :大きさ比較部20は、前記分離点候
補抽出部19が抽出した分離点候補を基に、文字の分離
を行った場合の分離文字の外接矩形を求めてその大きさ
を比較するものである。(6): Based on the separation point candidates extracted by the separation point candidate extraction section 19, the size comparison section 20 obtains a circumscribed rectangle of the separated characters when the characters are separated, and the size thereof is determined. To compare.
【0114】(7) :分離線決定部21は、大きさ比較部
20での大きさの比較結果により、文字と文字の分離線
を決定するものである。 §3:文字切り出し方法の説明・・・図2、図3参照 以下、図2、図3に基づいて文字切り出し方法を説明す
る。文字切り出し処理において、続き線が抽出される場
合は、連結パターン抽出部2、横長パターン抽出部3、
続き線抽出部4、文字分離線決定部5、ゼロ判定部6、
文字分離部7により前記従来例と同じようにして文字切
り出し処理を行う。(7): The separation line determination unit 21 determines the character and the character separation line based on the size comparison result of the size comparison unit 20. §3: Description of character cutout method ... See FIGS. 2 and 3. Hereinafter, the character cutout method will be described with reference to FIGS. In the character cutting process, when a continuous line is extracted, the connected pattern extraction unit 2, the horizontally long pattern extraction unit 3,
Continuation line extraction unit 4, character separation line determination unit 5, zero determination unit 6,
The character separating unit 7 performs character cutting processing in the same manner as in the conventional example.
【0115】また、続き線が抽出されない場合は、前記
続き線抽出部4での続き線抽出処理終了後、変化点抽出
部10、分離点決定部11、文字分離部12により文字
切り出し処理を行う。When the continuation line is not extracted, after the continuation line extraction processing in the continuation line extraction unit 4 is completed, the change point extraction unit 10, the separation point determination unit 11, and the character separation unit 12 perform character cutting processing. .
【0116】前記構成の文字切り出し装置では、自由に
書かれた文字列から、続き文字を抽出し、分離する処理
を行う。文字に関しては、字の大きさや、続けて書かれ
た文字数に規定はないものとする。入力パターンに関し
ては、極端な傾きは傾きの補正を行い、雑音を除去し、
かすれた部分の穴埋め等の前処理後の2値画像を用い
る。In the character slicing device having the above-mentioned structure, a process is performed for extracting and separating consecutive characters from a freely written character string. Regarding characters, there is no regulation on the size of the characters or the number of characters written consecutively. Regarding the input pattern, if the slope is extreme, the slope is corrected to remove noise,
A binary image after pre-processing such as filling in a faint portion is used.
【0117】先ず、文字が配列される位置の相対的な関
係に依存することなく、各パターンを安定にピックアッ
プするために、連結パターン抽出部2では、例えば、8
連結で繋がっているパターンをラベリングにより抽出す
る。以下、これらを判別して続け字、接触文字の分離を
行う。また、前記ラベリングで得られた部分パターンを
矩形近似して得られる矩形の角の座標をラベリング処理
中に算出しておく。First, in order to stably pick up each pattern without depending on the relative relationship of the positions where the characters are arranged, the connected pattern extraction unit 2 uses, for example, 8
The connected patterns are extracted by labeling. Hereinafter, these are discriminated and the continuous characters and contact characters are separated. Also, the coordinates of the corners of the rectangle obtained by approximating the partial pattern obtained by the labeling to the rectangle are calculated during the labeling process.
【0118】横長パターン抽出部3では、続き文字、接
触文字の候補として、前記ラベリングで得られた部分パ
ターン毎に、外接矩形の縦横比を算出し、或る一定の値
以上の横長パターンを抽出する。The horizontal pattern extraction unit 3 calculates the aspect ratio of the circumscribed rectangle for each of the partial patterns obtained by the labeling as candidates for the continuous character and the contact character, and extracts the horizontal pattern having a certain value or more. To do.
【0119】続き線抽出部4では、横方向の隣接投影
(或る行の投影値に周囲の行の投影値を足し合わせたも
のをその行の投影値とする)によって直線を抽出し、そ
の中で一定以上の長さのものを続き線として抽出する。The continuation line extraction unit 4 extracts a straight line by laterally adjacent projection (the projection value of a certain row is added to the projection values of surrounding rows to obtain the projection value of that row), and the line is extracted. A line with a certain length or more is extracted as a continuous line.
【0120】前記処理により続き線が抽出された場合
(水平続き線、或いは斜め続き線有りの場合)は、文字
分離線決定部5、ゼロ判定部6、及び文字分離部7によ
る数字のゼロの続け字分離処理を行い、続き線が抽出さ
れない場合(水平続き線、及び斜め続き線無しの場合)
は、変化点抽出部10、分離点決定部11、及び文字分
離部12による接触文字の分離処理を行う。When the continuation line is extracted by the above processing (when there is a horizontal continuation line or an oblique continuation line), the character separation line determination unit 5, the zero determination unit 6, and the character separation unit 7 detect the zero of the number. When continuous character separation processing is performed and continuous lines are not extracted (when there is no horizontal continuous line or diagonal continuous line)
Performs the contact character separation processing by the change point extraction unit 10, the separation point determination unit 11, and the character separation unit 12.
【0121】前記続き線抽出部4の処理で続き線が抽出
されなかった場合は、変化点抽出部10が処理対象とし
ているパターンに対して、変化点の抽出を行い、分離点
決定部11が前記変化点を基に文字の分離点を決定した
後、文字分離部12が文字の分離を行う。When the continuation line is not extracted in the processing of the continuation line extraction unit 4, the change point extraction unit 10 extracts the change point from the pattern to be processed, and the separation point determination unit 11 After determining the character separation points based on the change points, the character separation unit 12 separates the characters.
【0122】この場合、先ず、探索開始基準線決定部1
4は、続き線が抽出されなかった場合に続き文字、接触
文字等の変化点の探索を行うための探索開始の基準線の
決定を行う。次に、探索開始点決定部15は、前記探索
開始基準線決定部14が決定した探索開始の基準線を基
に探索開始点を決定する。In this case, first, the search start reference line determination unit 1
Reference numeral 4 determines a reference line for starting a search for searching for a change point of a continuous character, a touched character or the like when a continuous line is not extracted. Next, the search start point determination unit 15 determines the search start point based on the search start reference line determined by the search start reference line determination unit 14.
【0123】探索開始点が決定すると、輪郭探索部16
は、探索開始点から順番にパターンの輪郭を探索する。
そして、変化点抽出処理部17は、前記輪郭探索により
得られた情報から変化点の抽出を行う。When the search start point is determined, the contour search unit 16
Search the contour of the pattern in order from the search start point.
Then, the change point extraction processing unit 17 extracts a change point from the information obtained by the contour search.
【0124】その後、分離点候補抽出部19は、前記変
化点抽出処理部17が抽出した変化点を基に、文字と文
字を分離するための分離点候補を抽出し、大きさ比較部
20は、前記分離点候補抽出部19が抽出した分離点候
補を基に、文字の分離を行った場合(仮の分離を行った
場合)の分離文字の外接矩形を求めてその大きさを比較
する。Thereafter, the separation point candidate extraction section 19 extracts the separation point candidates for separating the characters from each other based on the change points extracted by the change point extraction processing section 17, and the size comparison section 20 Based on the separation point candidates extracted by the separation point candidate extraction unit 19, the circumscribed rectangles of the separated characters when the characters are separated (when the temporary separation is performed) are calculated and their sizes are compared.
【0125】前記処理が終了すると、分離線決定部21
は、大きさ比較部20での大きさの比較結果により、文
字と文字の分離線を決定する。このようにして文字の分
離線が決定すると、文字分離部12は、文字の分離を行
う。以下、前記各部の処理を具体例に基づいて説明す
る。When the above processing is completed, the separation line determining section 21
Determines the character and character separation line according to the size comparison result of the size comparison unit 20. When the character separation line is determined in this manner, the character separation unit 12 separates the characters. Hereinafter, the processing of each unit will be described based on a specific example.
【0126】§4:続き線が抽出されなかった場合の処
理説明・・・図4〜図6参照 図4は実施例1の処理説明図1であり、A図は輪郭探索
開始点、B図は輪郭探索の説明図、C図は傾き変化点検
出処理を示した図である。図5は実施例1の処理説明図
2であり、A図は文字パターンの傾き変化点、B図は文
字分離後の文字外接矩形(その1)、C図は文字分離後
の文字外接矩形(その2)である。図6は実施例1の処
理説明図3であり、A図は分離点決定、B図は文字分
離、C図は文字分離説明図である。§4: Process description when no continuation line is extracted--see FIGS. 4 to 6 FIG. 4 is a process description diagram 1 of the first embodiment. FIG. 4A is a contour search start point, and FIG. Is an explanatory diagram of the contour search, and FIG. C is a diagram showing the inclination change point detection processing. FIG. 5 is a process explanatory diagram 2 of the first embodiment. FIG. 5A is a change point of inclination of a character pattern, FIG. 5B is a character circumscribing rectangle after character separation (part 1), and FIG. Part 2). FIG. 6 is a process explanatory diagram 3 of the first embodiment, FIG. 6A is a separation point determination, B is a character separation, and C is a character separation explanatory diagram.
【0127】以下、図4〜図6に基づいて、続き線が抽
出されなかった場合の処理を説明する。なお、この処理
は変化点抽出部10、分離点決定部11、文字分離部1
2の各処理である。また、処理対象のパターンは、例え
ば、数字の2、3の続け字であったとする。Hereinafter, the processing when the continuation line is not extracted will be described with reference to FIGS. Note that this processing is performed by the change point extraction unit 10, the separation point determination unit 11, and the character separation unit 1.
2 is each processing. Further, it is assumed that the pattern to be processed is, for example, consecutive numbers 2 and 3.
【0128】(1) :変化点抽出部の処理説明 先ず、続き線抽出部4の処理で続き線が抽出されなかっ
た場合、変化点抽出部10では変化点の抽出処理を行
う。この場合、先ず、探索開始基準線決定部14は、注
目パターンの縦の長さ、或いは他のパターンの平均サイ
ズより、仮の1文字の横幅を算出し、それに伴いだいた
いの探索開始基準線L1を決定する(図4のA図参
照)。(1): Description of Process of Change Point Extraction Unit First, when the continuation line is not extracted by the process of the continuation line extraction unit 4, the change point extraction unit 10 performs change point extraction processing. In this case, first, the search start reference line determination unit 14 calculates the temporary width of one character from the vertical length of the pattern of interest or the average size of other patterns, and along with that, the search start reference line L1 is roughly calculated. Is determined (see FIG. 4A).
【0129】そして、探索開始基準線決定部14は、前
記探索開始基準線L1を基にその周辺部分において縦方
向に線密度を算出し、線密度1の部分を正式な探索開始
基準線L2とする。Then, the search start reference line determining section 14 calculates the line density in the vertical direction in the peripheral portion based on the search start reference line L1 and defines the portion having the line density 1 as the formal search start reference line L2. To do.
【0130】その後、探索開始点決定部15は、前記探
索開始基準線L2の上端、下端を探索開始点(点1、点
2)として決定する(図4のA図参照)。この場合、輪
郭の探索開始点は、パターンの上下両側を探索するた
め、探索開始点も上下2点(点1、点2)を設定する。After that, the search start point determining unit 15 determines the upper end and the lower end of the search start reference line L2 as the search start points (point 1 and point 2) (see FIG. 4A). In this case, since the contour search start point searches both upper and lower sides of the pattern, the upper and lower search start points are also set (point 1 and point 2).
【0131】次に、輪郭探索部16は、前記処理で求め
た探索開始点(点1、点2)からそれぞれパターンの左
右方向に輪郭探索を行い(図4のB図に示した点線矢印
参照)、輪郭のXY座標を内部のメモリに記憶してお
く。Next, the contour search unit 16 performs contour search in the left and right directions of the pattern from the search start points (point 1 and point 2) obtained in the above processing (see the dotted arrow in FIG. 4B). ), The XY coordinates of the contour are stored in the internal memory.
【0132】そして、前記変化点抽出処理部17は、前
記輪郭探索で得られた輪郭のXY座標を基に、輪郭の傾
きの変化する点を検出して変化点の抽出を行う(図4の
C図参照)。この処理は次のようにして行う。Then, the change point extraction processing section 17 detects a change point of the inclination of the contour based on the XY coordinates of the contour obtained by the contour search and extracts the change point (see FIG. 4). (See Figure C). This process is performed as follows.
【0133】すなわち、既に検出した輪郭の座標値を用
いて、探索開始点(例えば、点1)と、該探索開始点か
ら離れて行く輪郭上の各点P1、P2、P3、P4、P
5、P6、P7・・・とを順番に直線で結ぶ。That is, by using the coordinate values of the contours already detected, the search start point (for example, point 1) and the points P1, P2, P3, P4, P on the contours distant from the search start point.
5, P6, P7, ... are sequentially connected by a straight line.
【0134】例えば、点1とP1を結ぶ直線、点1とP
2を結ぶ直線、点1とP3を結ぶ直線、点1とP4を結
ぶ直線、点1とP5を結ぶ直線、点1とP6を結ぶ直
線、点1とP7を結ぶ直線・・・のように順番に2点間
を直線で結ぶ。For example, a straight line connecting points 1 and P1, points 1 and P
A straight line connecting points 2, a straight line connecting points 1 and P3, a straight line connecting points 1 and P4, a straight line connecting points 1 and P5, a straight line connecting points 1 and P6, a straight line connecting points 1 and P7 ... Connect a straight line between the two points.
【0135】この場合、点1から或る点P5までのパタ
ーンの輪郭が直線であったとすると、点1とP1を結ぶ
直線、点1とP2を結ぶ直線、点1とP3を結ぶ直線、
点1とP4を結ぶ直線、点1とP5を結ぶ直線は全てパ
ターンの輪郭と重なる。In this case, if the contour of the pattern from point 1 to a certain point P5 is a straight line, a straight line connecting points 1 and P1, a straight line connecting points 1 and P2, a straight line connecting points 1 and P3,
The straight line connecting the points 1 and P4 and the straight line connecting the points 1 and P5 all overlap the contour of the pattern.
【0136】しかし、点P6以降のように、途中に傾き
の変化する点があった場合には、探索開始点と点P6以
降の各点を結んだ直線はパターンの輪郭と重ならない。
すなわち、点P5以降にパターンの傾きがあると、点1
と点P5以降の各点を結ぶ直線は、輪郭上から外れる。
従って、点1とP6を結ぶ直線、点1とP7を結ぶ直線
・・・は、いずれもパターンの輪郭と重ならない。However, if there is a point whose slope changes in the middle, such as after the point P6, the straight line connecting the search start point and each point after the point P6 does not overlap the contour of the pattern.
That is, if there is a pattern inclination after the point P5, the point 1
And the straight line connecting the points P5 and subsequent points deviates from the contour.
Therefore, the straight line connecting the points 1 and P6, the straight line connecting the points 1 and P7, ... Do not overlap with the contour of the pattern.
【0137】前記の処理を行うことにより、2点間の輪
郭と2点間を結ぶ直線との重なりの割合が少なくなった
時に、傾きの変化のある点を過ぎたとして、直前の点を
変化点として決定する。この例では点P5が変化点とな
る。By performing the above processing, when the ratio of the overlap between the contour between two points and the straight line connecting the two points decreases, it is assumed that the point having the change in inclination has passed and the immediately preceding point is changed. Determine as a point. In this example, the point P5 is the change point.
【0138】(2) :分離点決定部の処理説明 分離点決定部11は、前記変化点抽出部10で抽出した
変化点を基に次のようにして分離点の決定処理を行う。
先ず、分離点候補抽出部19は、前記の処理で検出され
た変化点で仮想的に分離を行い分離点候補を抽出する。(2): Description of Processing of Separation Point Determining Section The separation point determining section 11 performs the separation point determining processing based on the change points extracted by the change point extracting section 10 as follows.
First, the separation point candidate extraction unit 19 virtually separates the change points detected in the above process to extract the separation point candidates.
【0139】その後、大きさ比較部20は、ラベリング
処理によって分離後の文字の外接矩形の大きさを算出
し、それぞれの大きさがなるべく均等になるように前記
外接矩形の大きさを比較する。次に、分離線決定部21
は、外接矩形の大きさが均等になるようにして分離線を
決定する。具体的には次のようにして処理を行う。Thereafter, the size comparison unit 20 calculates the size of the circumscribed rectangles of the separated characters by the labeling process, and compares the sizes of the circumscribed rectangles so that the respective sizes are as uniform as possible. Next, the separation line determination unit 21
Determines the separating line so that the circumscribed rectangles have the same size. Specifically, the processing is performed as follows.
【0140】例えば、図5のA図のように、変化点とし
て、、、、の各点が抽出されたとする。この場
合、変化点として、を採用し各分離後の外接矩形を
求めると図5のB図の外接矩形が得られる。また、変化
点として、を採用し各分離後の外接矩形を求めると
図5のC図の外接矩形が得られる。For example, as shown in FIG. 5A, it is assumed that points ,,,, are extracted as change points. In this case, when the circumscribing rectangle after each separation is obtained by using as the change point, the circumscribing rectangle of FIG. 5B is obtained. Further, when the circumscribed rectangle after each separation is obtained by adopting as the change point, the circumscribed rectangle of FIG. 5C is obtained.
【0141】そこで、前記各外接矩形の大きさを比較す
ると、、で分離した場合の方が、点、点で分離
した場合に比べて分離後の文字の外接矩形の大きさが均
等である。このため、分離点を点、点と決定する。
前記の変化点、のように、上下の変化点が近くにあ
る場合は、上下の変化点同士を結んだ直線で文字の分離
を行うように分離線を決定する。Therefore, when the sizes of the circumscribed rectangles are compared, the size of the circumscribed rectangle of the character after separation is more uniform in the case of separating by and than in the case of separating by points. Therefore, the separation point is determined to be a point or a point.
When the upper and lower change points are close to each other like the above-mentioned change point, the separation line is determined so that the characters are separated by a straight line connecting the upper and lower change points.
【0142】しかし、図6のA図において、変化点P
5、P6のように、探索開始点(点1、点2)と変化点
間の距離が一定のしきい値以上異なっていた場合(点1
−P6間の距離と点2−P5間の距離が異なる)には、
探索開始点(●印で示した点1、点2)に近い方の変化
点である点P5を選択し、前記点P5の位置で垂直にパ
ターンを分離するように仮想的な変化点Q5を作る。そ
して、前記点P5、Q5を結ぶ線を分離線として決定す
る。However, in FIG. 6A, the change point P
5 and P6, when the distance between the search start point (point 1, point 2) and the change point is different by a certain threshold value or more (point 1
-The distance between P6 and the distance between point 2-P5 are different)
A point P5, which is a change point closer to the search start point (points 1 and 2 indicated by ●), is selected, and a virtual change point Q5 is set so as to vertically separate the pattern at the point P5. create. Then, the line connecting the points P5 and Q5 is determined as the separation line.
【0143】具体的な変化点の距離のしきい値を決定す
るのは、処理の一番始めに行う隣接投影によって抽出さ
れた線分の太さである。抽出された線分の太さの平均値
を算出し、その値を文字ストロークの太さの平均値と見
なし、上下2点の変化点の距離が平均太さより長い場合
は、仮想的に変化点を作り、平均太さ以下であれば、上
下2点の変化点間で分離を行うように文字の分離線を決
定する。It is the thickness of the line segment extracted by the adjacent projection performed at the beginning of the processing that determines the concrete threshold value of the distance of the change point. Calculate the average thickness of the extracted line segments and regard that value as the average thickness of the character strokes. If the distance between the upper and lower change points is longer than the average thickness, the change point is virtually If the average thickness is less than or equal to the average thickness, the character separation line is determined so as to be separated between the upper and lower change points.
【0144】 (3) :文字分離部の処理説明・・・図6参照 文字分離部12では、前記の処理で決定した文字の分離
線で分離を行う。この処理では、図6のB図のように、
2点、間で分離を行う場合、1ドットラインで消し
込みを行うと、8連結で繋がってしまう部分が出てく
る。(3): Description of processing of character separation unit ... See FIG. 6 In the character separation unit 12, the character separation line determined by the above processing is used for separation. In this process, as shown in FIG. 6B,
In the case of separating between two points, when erasing with one dot line, there will be a part that is connected by eight connections.
【0145】そのため、図6のC図に示したように、消
し込み画素の両側を同時に消し込み(黒印は画素消
去)、8連結で繋がることを防ぐ。 §5:フローチャートによる変化点抽出部の処理説明・
・・図7参照 図7は変化点抽出部の処理フローチャートである。以
下、図7に基づいて変化点抽出部の処理を説明する。な
お、S1〜S8は各処理ステップを示す。Therefore, as shown in FIG. 6C, both sides of the erased pixel are erased at the same time (black marks are pixel erased) to prevent connection by eight connections. §5: Explanation of the processing of the change point extraction unit by a flow chart
.. Refer to FIG. 7. FIG. 7 is a processing flowchart of the change point extraction unit. Hereinafter, the processing of the change point extraction unit will be described with reference to FIG. Note that S1 to S8 indicate processing steps.
【0146】先ず、探索開始基準線決定部14は、パタ
ーンの縦横比から文字数を概算し、だいたいの探索開始
基準線L1を決定する(S1)。その後、前記探索開始
基準線L1を基にその周辺部分において縦方向に線密度
を算出し、線密度1の部分を正式な探索開始基準線L2
として決定する(S2)。First, the search start reference line determination section 14 roughly estimates the number of characters from the aspect ratio of the pattern and determines the search start reference line L1 (S1). Then, the linear density is calculated in the vertical direction in the peripheral portion based on the search start reference line L1, and the portion having the linear density 1 is officially searched for as the reference line L2.
(S2).
【0147】次に、探索開始点決定部15は、前記探索
開始基準線L2の上端、下端を探索開始点(点1、点
2)として決定する(S3)。その後、輪郭探索部16
は、前記処理で求めた探索開始点(点1、点2)からそ
れぞれパターンの左右方向に輪郭探索を行い、輪郭のX
Y座標を内部のメモリに記憶しておく(S4)。Next, the search start point determination unit 15 determines the upper end and the lower end of the search start reference line L2 as the search start points (point 1 and point 2) (S3). Then, the contour search unit 16
Performs contour search in the horizontal direction of the pattern from the search start points (point 1 and point 2) obtained in the above process,
The Y coordinate is stored in the internal memory (S4).
【0148】そして、前記変化点抽出処理部17は、前
記輪郭探索で得られた輪郭のXY座標を基に、輪郭の傾
きの変化する点を検出して変化点の抽出を行う。この処
理では、前記探索開始点と注目地点との間の輪郭線と2
点間の間に引いた直線との重なりを算出する(S5)。Then, the changing point extraction processing section 17 detects a changing point of the inclination of the contour based on the XY coordinates of the contour obtained by the contour searching, and extracts the changing point. In this process, the contour line between the search start point and the point of interest and 2
The overlap with the straight line drawn between the points is calculated (S5).
【0149】その結果、算出された重なりが一定しきい
値以下でなければ(2点間の直線と輪郭が略重なった場
合)前記S5の処理を行うが、算出された重なりが一定
しきい値以下となった場合(2点間の直線と輪郭が重な
らなくなった場合)には、変化点を検出する(S7)。As a result, if the calculated overlap is not less than the fixed threshold value (when the straight line between the two points and the contour are substantially overlapped), the process of S5 is performed, but the calculated overlap is the fixed threshold value. In the case of the following (when the straight line between the two points and the contour no longer overlap), the change point is detected (S7).
【0150】前記変化点が抽出された場合、探索開始点
に一番近い変化点を文字の分離候補点とする(S8)。 §6:フローチャートによる分離点決定部、及び文字分
離部の処理説明・・・図8参照 図8は分離点決定部、及び文字分離部の処理フローチャ
ートである、以下、図8に基づいて分離点決定部、及び
文字分離部の処理を説明する。なお、S11〜S20は
各処理ステップを示す。When the change point is extracted, the change point closest to the search start point is set as the character separation candidate point (S8). §6: Explanation of processing of separation point determination unit and character separation unit by flow chart ... See FIG. 8. FIG. 8 is a processing flowchart of the separation point determination unit and character separation unit. The processing of the determining unit and the character separating unit will be described. Note that S11 to S20 indicate processing steps.
【0151】分離点候補抽出部19は、変化点抽出部1
0で抽出した変化点で仮想的に分離を行い、分離点候補
を抽出する。この場合、先ず、分離点候補抽出部19
は、分離候補点と同じ側(左、または右)にあるもう1
つの変化点との距離を算出する(S11)。Separation point candidate extraction section 19 includes change point extraction section 1
Virtual separation is performed at the change points extracted at 0, and separation point candidates are extracted. In this case, first, the separation point candidate extraction unit 19
Is another one on the same side (left or right) as the separation candidate point
The distance from one change point is calculated (S11).
【0152】そして、文字線分の平均太さを基準に算出
したしきい値が前記算出距離より大きいか否かを判断す
る(S12)。その結果、文字線分の平均太さを基準に
算出したしきい値>算出距離であれば、分離候補点から
垂直に分離するように分離点候補を抽出する(S19)
が、それ以外の場合は2候補点を結んだ線で文字分離を
行うように分離点候補を抽出する(S13)。Then, it is determined whether or not the threshold value calculated based on the average thickness of the character line segment is larger than the calculated distance (S12). As a result, if the threshold calculated based on the average thickness of the character line segment> the calculated distance, the separation point candidate is extracted so as to be vertically separated from the separation candidate point (S19).
However, in other cases, the separation point candidates are extracted so that the characters are separated by the line connecting the two candidate points (S13).
【0153】そして、前記S13、S19の処理終了
後、大きさ比較部20は、前記分離点候補で仮想的に分
離した場合の分離後の文字の外接矩形を算出し(S1
4)、左右の文字の大きさを比較する(S15)。After the processing of S13 and S19 is completed, the size comparison unit 20 calculates the circumscribed rectangle of the separated character when the separation point candidate is virtually separated (S1).
4) The sizes of the left and right characters are compared (S15).
【0154】次に、分離線決定部21は、前記文字の大
きさ比較の結果により外接矩形の大きさが均等になるよ
うにして分離線を決定する。この場合、左右の文字の大
きさが異なっていたら、分離線として決定しない(S2
0)が、左右の文字の大きさが略等しい場合は、前記分
離候補点を分離点として決定する(S16)。そして、
前記分離点として決定した上下2点の変化点間で分離を
行うように文字の分離線を決定する。Next, the separation line determination unit 21 determines the separation line so that the sizes of the circumscribed rectangles are equal according to the result of the character size comparison. In this case, if the sizes of the left and right characters are different, it is not determined as a separation line (S2
0), but when the sizes of the left and right characters are substantially equal, the separation candidate point is determined as the separation point (S16). And
A character separation line is determined so as to separate the upper and lower change points determined as the separation points.
【0155】文字分離部12は、前記処理で分離点2点
間を結ぶ文字の分離線(直線)が決定すると、前記分離
線で文字の分離を行う(S17)。その後、分離線(直
線)の両側の画素も消去する(S18)。When the character separating line (straight line) connecting the two separating points is determined in the above processing, the character separating unit 12 separates the characters by the separating line (S17). Then, the pixels on both sides of the separation line (straight line) are also erased (S18).
【0156】§7:処理結果の説明・・・図9参照 図9は実施例1の処理結果説明図である。前記文字切り
出し装置により処理した結果は図示のとおりである。§7: Description of Processing Results--See FIG. 9 FIG. 9 is an explanatory diagram of processing results according to the first embodiment. The result of processing by the character cutting device is as shown in the figure.
【0157】図9において、例1〜例13はそれぞれ前
記実施例1の文字切り出し装置により分離して切り出し
た文字パターンの例である。例えば、例1は数字の2と
数字の4の続け字を分離した例であり、2と4が良好に
分離されている。また、例2は英字のBと英字のEの続
け字を分離した例であり、良好に分離されている。In FIG. 9, Examples 1 to 13 are examples of the character patterns separated and cut out by the character cutting device of the first embodiment. For example, Example 1 is an example in which the consecutive numbers 2 and 4 are separated, and 2 and 4 are well separated. In addition, Example 2 is an example in which the continuation of the letter B and the letter E is separated, which is well separated.
【0158】(実施例2の説明) §1:文字切り出し装置構成の説明・・・図10参照 図10は実施例2の文字切り出し装置構成図である。図
示のように、文字切り出し装置には、連結パターン抽出
部2、続け字抽出部23、続き線抽出部4、文字分離線
決定部5、ゼロ判定部6、文字分離部7、変化点抽出部
10、分離点決定部11、文字分離部12が設けてあ
る。(Explanation of Second Embodiment) §1: Description of Character Slicing Device Configuration--See FIG. 10 FIG. 10 is a configuration diagram of a character slicing device according to the second embodiment. As shown in the figure, the character cutting device includes a connection pattern extraction unit 2, a continuous character extraction unit 23, a continuous line extraction unit 4, a character separation line determination unit 5, a zero determination unit 6, a character separation unit 7, and a change point extraction unit. 10, a separation point determination unit 11 and a character separation unit 12 are provided.
【0159】なお、前記構成の内、連結パターン抽出部
2、ゼロ判定部6、文字分離部12は実施例1と同じで
ある。前記各部の機能は次の通りである。 (1) :連結パターン抽出部2は、入力パターンから連結
パターンを抽出するものである。すなわち、文字切り出
しを行う場合、先ず、文字が配置されている位置の相対
的な関係に依存することなく、各文字パターンを安定に
ピックアップするために、連結パターン抽出部2では、
例えば、8連結で繋がっているパターンをラベリング処
理で抽出する。The connection pattern extraction unit 2, the zero determination unit 6, and the character separation unit 12 in the above configuration are the same as those in the first embodiment. The function of each part is as follows. (1): The connection pattern extraction unit 2 extracts a connection pattern from the input pattern. That is, when performing character segmentation, first, in order to stably pick up each character pattern without depending on the relative relationship of the positions where the characters are arranged, the connected pattern extraction unit 2
For example, a pattern connected by eight connections is extracted by the labeling process.
【0160】(2) :続け字抽出部23は、横長パターン
抽出処理と訂正線抽出処理を行うものである。前記横長
パターン抽出処理では、実施例1と同様に、続き文字の
候補として、前記ラベリング処理で得られた連結パター
ン毎に、外接矩形の縦横の比率を算出し、或る一定以上
の横長の比率を持つパターンを抽出する。(2): The continuous character extracting section 23 performs a horizontally long pattern extracting process and a correction line extracting process. In the horizontal pattern extraction process, as in the first embodiment, the vertical / horizontal ratio of the circumscribed rectangle is calculated for each concatenated pattern obtained in the labeling process as a candidate for the continuous character, and the horizontal / horizontal ratio of a certain value or more Extract patterns with.
【0161】また、前記訂正線抽出処理では、続き線が
2本以上抽出された場合は文字上に書かれた訂正線であ
ると判定して訂正線の抽出処理を行う。すなわち、続け
字抽出部23では、続け字候補に対して水平方向の投影
処理を行う。投影値がパターンの横幅に対して定まる一
定のしきい値を超える部分があれば、それをパターン間
の続き線と見なして抽出する。この時、続き線が2本以
上抽出されたものについては、文字上に書かれた訂正線
を抽出したものとして以降の続け字分離処理から除外す
る。In the correction line extraction process, when two or more continuous lines are extracted, it is determined that the correction line is a correction line written on a character, and the correction line extraction process is performed. That is, the continuous character extracting unit 23 performs the projection process in the horizontal direction on the continuous character candidates. If there is a portion where the projection value exceeds a certain threshold value determined by the width of the pattern, it is extracted as a continuous line between the patterns. At this time, if two or more continuous lines are extracted, it is assumed that the correction line written on the character has been extracted and is excluded from the subsequent continuous character separation processing.
【0162】(3) :続き線抽出部4は、水平、或いは斜
めの文字と文字の繋がっている部分の続き線を見つける
ことによって、前記抽出された連結パターンが続き文字
であるか否かを判断し、水平、或いは斜め続き線を抽出
するものである。(3): The continuation line extraction unit 4 finds whether or not the extracted connection pattern is a continuation character by finding a continuation line of a portion where characters are connected horizontally or diagonally. Judgment is made and a horizontal or diagonal continuation line is extracted.
【0163】この場合、複数の角度方向に対してパター
ンの投影処理を行う。そして、投影値の中に所定のしき
い値以上をとったものがあれば、それを続き線として改
めて抽出する。In this case, pattern projection processing is performed in a plurality of angular directions. Then, if there is a projection value that exceeds a predetermined threshold value, it is extracted again as a continuous line.
【0164】(4) :文字分離線決定部5は、前記抽出さ
れた続き線を基に、輪郭探索を用いて、文字数、及び一
文字毎の文字の存在する領域を求め、文字と文字の間に
垂直分離線、或いは斜め分離線等の文字分離線を引くも
のである。(4): The character separation line determination unit 5 obtains the number of characters and the area where each character exists by using contour search based on the extracted continuation line, and determines the space between characters. A character separation line such as a vertical separation line or a diagonal separation line is drawn on the.
【0165】この場合、続き線抽出部4で求めた続き線
の位置情報を基に、文字間の空白部を折れ線で探索す
る。そして、パターンの最下部まで折れ線が到達した
ら、そのパターンを分離可能と判定するものである。In this case, based on the position information of the continuation line obtained by the continuation line extraction unit 4, a blank portion between characters is searched for with a broken line. When the polygonal line reaches the bottom of the pattern, it is determined that the pattern can be separated.
【0166】(5) :ゼロ判定部6は、前記文字分離線で
分離された1文字毎の文字領域について、1文字毎に、
数字のゼロ(0)であるか否かを判定するものである。 (6) :文字分離部7は、前記数字のゼロ(0)と判定さ
れた文字については、左右に出ている不必要な続き線を
消去し、数字のゼロ以外の文字は、前記文字分離線で分
離するものである。また、続け字より抽出された続き線
より上部の画像だけを用いて、続け字の分離に伴って生
じる文字中の不要な「ヒゲ」部分を除去するものであ
る。(5): The zero determining section 6 determines, for each character, for each character area separated by the character separation line.
It is to determine whether the number is zero (0). (6): The character separation unit 7 erases unnecessary continuation lines appearing on the left and right for the character determined to be the number zero (0), and the characters other than zero are separated by the character It is separated by a separation line. In addition, only the image above the continuation line extracted from the continuous character is used to remove the unnecessary "whisker" portion in the character that occurs when the continuous character is separated.
【0167】(7) :変化点抽出部10は、続き線抽出部
4の処理で続き線(水平続き線、或いは斜め続き線)が
抽出できなかった場合(続き線無しの場合)に処理対象
としているパターンに対して変化点の検出を行うもので
ある。(7): The change point extraction unit 10 is the processing target when the continuation line (horizontal continuation line or diagonal continuation line) cannot be extracted by the processing of the continuation line extraction unit 4 (when there is no continuation line). The change point is detected for the pattern.
【0168】(8) :分離点決定部11は、変化点抽出部
10で抽出した変化点を基に文字の分離点を決定するも
のである。 (9) :文字分離部12は、分離点決定部11で決定した
文字の分離点を基に、文字の分離を行うものである。(8): The separation point determination unit 11 determines the character separation point based on the change points extracted by the change point extraction unit 10. (9): The character separation unit 12 performs character separation based on the character separation points determined by the separation point determination unit 11.
【0169】 §2:訂正線判定処理の説明・・・図11参照 図11は訂正線判定処理説明図であり、A図は通常の続
け字の例、B図、C図は訂正文字の例である。以下、図
11に基づいて続け字抽出部23が行う訂正線抽出処理
を説明する。§2: Description of correction line determination process ... See FIG. 11. FIG. 11 is an explanatory diagram of the correction line determination process. FIG. 11A is an example of a normal continuation character, and FIGS. Is. The correction line extraction process performed by the continuous character extracting unit 23 will be described below with reference to FIG.
【0170】前記のように、続け字抽出部23では、続
け字候補に対して水平方向の投影処理を行い、その投影
値がパターンの横幅に対して定まる一定のしきい値を超
える部分があれば、それをパターン間の続き線と見なし
て抽出する。As described above, the continuous character extracting section 23 performs horizontal projection processing on continuous character candidates, and there is a portion where the projected value exceeds a certain threshold value determined by the width of the pattern. For example, it is extracted as a continuous line between patterns.
【0171】前記のように、続き線を抽出する場合、続
け字内の続き線(A図参照)の外に、間違えて訂正線
(B図、C図参照)を抽出することがある。訂正線は殆
どの場合、2本以上書かれるので、続き線の抽出処理に
おいて2本以上の続き線が抽出されたら訂正線であると
判断する。そして、前記訂正線を抽出した文字は訂正文
字であるとして続け字処理から除外する。As described above, when extracting a continuation line, a correction line (see FIGS. B and C) may be mistakenly extracted outside the continuation line (see FIG. A) in the continuation character. In most cases, two or more correction lines are written. Therefore, if two or more continuation lines are extracted in the continuation line extraction processing, it is determined that they are correction lines. Then, the character from which the correction line is extracted is regarded as a corrected character and is excluded from the continuous character processing.
【0172】具体的には、A図のように1本の続き線が
抽出されたら続け字の続き線であると判断するが、B
図、C図のように2本の続き線が抽出されたら、続き線
ではなく訂正線であると判断する。そして、B図、C図
の文字は訂正文字であると判断し、以降の処理から除外
する。Specifically, when one continuous line is extracted as shown in FIG. A, it is determined that it is a continuous line of continuous characters, but B
When the two continuation lines are extracted as shown in FIGS. 7C and 7C, it is determined that they are not continuation lines but correction lines. Then, it is determined that the characters in FIGS. B and C are corrected characters, and they are excluded from the subsequent processing.
【0173】 §3:続き線抽出処理の説明・・・図12、図13参照 図12は実施例2の続き線抽出処理説明図であり、A図
は続き線が抽出される場合の例、B図は続き線が抽出さ
れない場合の例、C図は投影方向の変化を示した図であ
る。また、図13は斜め投影値算出方法説明図である。§3: Description of Continuation Line Extraction Processing ... Refer to FIGS. 12 and 13. FIG. 12 is an explanatory diagram of continuation line extraction processing according to the second embodiment. FIG. FIG. B is an example in which a continuous line is not extracted, and FIG. C is a diagram showing changes in the projection direction. Further, FIG. 13 is an explanatory diagram of a method for calculating a diagonal projection value.
【0174】前記のように、続き線抽出部4は水平、或
いは斜めの文字と文字の繋がっている部分の続き線を見
つけることによって、前記抽出された連結パターンが続
き文字であるか否かを判断し、水平、或いは斜め続き線
を抽出する。As described above, the continuation line extraction unit 4 finds whether or not the extracted connection pattern is a continuation character by finding a continuation line of a part where characters are connected horizontally or diagonally. Judgment is made and a horizontal or diagonal continuation line is extracted.
【0175】この場合、図12のC図に示したように、
複数の角度方向に対してパターンの斜め投影処理を行
う。そして、投影値の中に所定のしきい値以上をとった
ものがあれば、それを続き線として改めて抽出する。In this case, as shown in FIG. 12C,
The pattern is obliquely projected in a plurality of angular directions. Then, if there is a projection value that exceeds a predetermined threshold value, it is extracted again as a continuous line.
【0176】前記続き線抽出部4は、続け字の候補文字
に対して、それが続け字かどうかを判断するために、文
字と文字を繋ぐ続き線であるかどうか、すなわち、文字
内に長い直線状成分が有るかどうかを評価する。具体的
には、或る角度方向に文字を構成する黒画素の投影をと
っていく。The continuation line extraction unit 4 determines whether or not a continuation character candidate character is a continuation line connecting characters in order to determine whether or not it is a continuation character. Evaluate whether there is a linear component. Specifically, black pixels forming a character are projected in a certain angle direction.
【0177】続き線が存在すれば、投影値が大きくなる
ので、投影値が所定のしきい値を超えたかどうかによ
り、続き線の有無を評価する。その際、一方だけでな
く、複数の方向に対して投影処理を行うことにより、続
き線の傾きによらない処理が可能となる。If there is a continuous line, the projection value becomes large. Therefore, the presence or absence of a continuous line is evaluated depending on whether the projection value exceeds a predetermined threshold value. At this time, projection processing is performed not only in one direction but also in a plurality of directions, so that processing that does not depend on the inclination of the continuation line becomes possible.
【0178】図12のA図は投影方向と続き線の傾きが
一致し、続き線が抽出される場合の例である。また、図
12のB図は、投影方向と続き線の傾きが異なるために
続き線が抽出されない例である。このように、複数の方
向の投影を評価することにより、正確な続き線の抽出が
可能になる。FIG. 12A is an example of the case where the projection direction and the slope of the continuation line match and the continuation line is extracted. Further, FIG. 12B is an example in which the continuation line is not extracted because the projection direction and the inclination of the continuation line are different. Thus, by evaluating the projections in a plurality of directions, it is possible to accurately extract the continuation line.
【0179】前記のように続き線抽出部4では、複数の
角度に対してパターンの斜め投影を取り、投影値が或る
しきい値を超えたものがあれば、それを続き線として抽
出する。この場合に用いる斜め方向の隣接投影法を図1
3に示す。As described above, the continuation line extraction unit 4 takes an oblique projection of a pattern for a plurality of angles, and if there is a projection value exceeding a certain threshold value, it is extracted as a continuation line. . The diagonal adjacent projection method used in this case is shown in FIG.
3 shows.
【0180】この斜め方向の隣接投影法は、或る一定の
斜め方向に投影を行い、注目している斜め線の投影値
に、その周囲の投影値を足し合わせた結果をその斜め線
の投影値とする。斜め線の角度は、(Y方向の変化量)
/(X方向の変化量)の値が整数分の1となるような値
とする。In this diagonal direction adjacent projection method, projection is performed in a certain fixed diagonal direction, and the projection value of the diagonal line is obtained by adding the projection values of the diagonal line of interest to the projection values of its surroundings. The value. The angle of the diagonal line is (the amount of change in the Y direction)
The value of / (change amount in the X direction) is set to a value that is a fraction of an integer.
【0181】図13では、n×nの領域を(Y方向の変
化量)/(X方向の変化量)の値が1/2となるような
角度で斜めに投影を行った場合の斜め投影値の算出方法
を示してある。In FIG. 13, an oblique projection when an n × n region is obliquely projected at an angle such that the value of (change amount in Y direction) / (change amount in X direction) is 1/2 The calculation method of the value is shown.
【0182】この例では、縦方向の投影値をp1(i)
(i=1〜n)、横方向の投影値をp2(j)(j=1
〜n)とし、p1(n)=p2(1)とする。この場
合、前記投影値p1(i)、p2(j)の算出式は次の
通りである。In this example, the projection value in the vertical direction is p1 (i).
(I = 1 to n), the projection value in the horizontal direction is p2 (j) (j = 1
˜n) and p1 (n) = p2 (1). In this case, the formulas for calculating the projection values p1 (i) and p2 (j) are as follows.
【0183】[0183]
【数2】 [Equation 2]
【0184】なお、前記算出式において、I(x,y)
は画素値である。斜め隣接投影値の算出は、水平の場合
と同様に、注目している投影値の周囲の投影値を足し合
わせた結果の値を隣接投影値とする。In the above calculation formula, I (x, y)
Is a pixel value. The calculation of the diagonally adjacent projection values is performed by adding the projection values around the projection value of interest to the adjacent projection value, as in the case of the horizontal projection value.
【0185】 §4:文字分離線決定部の処理説明・・・図14参照 図14は文字分離線決定部の処理説明図であり、A図は
折れ線による分離判定処理、B図は従来の手法による分
離判定結果、C図は実施例2の手法による分離判定結果
を示す。§4: Process Description of Character Separation Line Determining Unit ... See FIG. 14 FIG. 14 is a process explanatory diagram of the character separation line determining unit, FIG. The separation determination result according to Example 1 and FIG. 6C show the separation determination result according to the method of Example 2.
【0186】文字分離線決定部5は、続き線抽出部4の
処理で抽出された続き線を基に、輪郭探索を用いて文字
数、及び一文字毎の文字の存在する領域を求め、文字と
文字の間に垂直分離線、或いは斜め分離線等の文字分離
線を引くものである。この場合、続き線抽出部4で求め
た続き線の位置情報を基に、文字間の空白部を折れ線で
探索する。The character separation line determination unit 5 obtains the number of characters and the area where each character exists by using contour search based on the continuous line extracted by the processing of the continuous line extraction unit 4, A character separation line such as a vertical separation line or a diagonal separation line is drawn between the two. In this case, based on the position information of the continuation line obtained by the continuation line extraction unit 4, a blank part between characters is searched for with a polygonal line.
【0187】この処理では、例えば、図14のA図に示
したように、続き線領域下部を開始点として、文字と文
字の空白領域を縦方向に黒画素が見つかるまで垂直に探
索する(線番号1)。次に、前記開始点と黒画素の中点
のY座標に対して、水平方向に左右の黒画素を見つける
(線番号2)。In this process, for example, as shown in FIG. 14A, a character and a blank area of the character are vertically searched vertically until a black pixel is found, starting from the lower part of the continuous line area (line). Number 1). Next, the left and right black pixels are found in the horizontal direction with respect to the Y coordinate of the midpoint of the start point and the black pixel (line number 2).
【0188】更に、左右の黒画素の中点を開始点とし
て、縦方向に黒画素が見つかるまで垂直に探索する(線
番号3)。以下同様の手法により処理を繰り返すことに
より、探索位置がパターンの最下部まで到達すれば、そ
のパターンを分離可能と判定する。Further, starting from the middle point of the left and right black pixels, a vertical search is performed until a black pixel is found in the vertical direction (line number 3). If the search position reaches the bottom of the pattern by repeating the process in the same manner, it is determined that the pattern can be separated.
【0189】なお、従来方法では直線による分離判定で
あるため、分離不可能となっていたもの(B図参照)が
実施例2の手法を用いることにより、折れ線により正し
く分離判定ができるようになった(C図参照)。Since the conventional method uses the straight line for the separation determination, it is impossible to separate the separation (see FIG. B), but by using the method of the second embodiment, the separation can be correctly determined by the broken line. (See Figure C).
【0190】 §5:変化点抽出部の処理説明・・・図15参照 図15は変化点抽出部の処理説明図であり、A図は実施
例1の変化点処理、B図は実施例2の変化点処理を示
す。なお、比較のため実施例1と実施例2の処理を図示
してある。また、以下の説明では、「変化点」は輪郭線
上で曲率の変化する点であり、「接触点」は文字と文字
が接触した点のことをいう。§5: Process Description of Change Point Extraction Unit--See FIG. 15 FIG. 15 is a process explanatory diagram of the change point extraction unit. FIG. A is the change point process of the first embodiment, and FIG. The change point processing of is shown. For comparison, the processes of Example 1 and Example 2 are shown. Further, in the following description, the “change point” is a point where the curvature changes on the contour line, and the “contact point” is a point where characters are in contact with each other.
【0191】続き線抽出部4の処理で続き線が抽出され
なかった場合、及びゼロ判定部6の処理で数字のゼロと
判定されなかった場合に、変化点抽出部10では変化点
の抽出処理を行う。When the continuation line is not extracted by the process of the continuation line extraction unit 4 and when it is not determined that the number is zero by the process of the zero determination unit 6, the change point extraction unit 10 performs the extraction process of the change point. I do.
【0192】この変化点抽出処理では、図15のB図に
示したように、処理対象のパターンに対し、縦方向の線
密度が1となる点を指定範囲内の輪郭線上から見つけ
る。次に前記指定範囲をn等分し、n等分された各点を
探索開始点として、それぞれ左右方向に変化点の探索を
行い、極率の大きく変化する点があれば、それを変化点
として抽出する。In this change point extraction processing, as shown in FIG. 15B, a point having a linear density of 1 in the vertical direction is found on the contour line within the specified range for the pattern to be processed. Next, the specified range is divided into n equal parts, and each point divided into n equal parts is used as a search start point to search for a change point in the left and right directions. To extract.
【0193】図15のA図に示したように、実施例1で
は、変化点が最大でも左右1つずつ抽出されるだけであ
った(図5参照)。そのため、抽出された変化点の中に
文字と文字の接触した点(接触点)が含まれない場合が
あった。As shown in FIG. 15A, in the first embodiment, only one change point is extracted at the left and one at the maximum (see FIG. 5). Therefore, in some cases, the extracted change points do not include a point at which characters are in contact with each other (contact point).
【0194】しかし、実施例2では、図15のB図に示
したように、複数の探索開始点を基に変化点を抽出する
ため、より多くの変化点が抽出され、接触点が抽出され
る確率が上がる。However, in the second embodiment, as shown in FIG. 15B, the change points are extracted based on a plurality of search start points, so that more change points are extracted and contact points are extracted. Increase the probability of
【0195】認識する際には、各変化点で続け字を分離
したパターンに対して認識処理を行い、その評価値の高
かった変化点の地点で分離するので、接触点が変化点に
含まれている必要がある。なお、前記以外の処理は、実
施例1と同じである。At the time of recognition, a recognition process is performed on a pattern in which consecutive characters are separated at each change point and the pattern is separated at the change point having a high evaluation value, so that the contact point is included in the change points. Need to be. The processing other than the above is the same as that of the first embodiment.
【0196】§6:探索範囲(探索開始点、変化点)の
限定の説明・・・図16参照 図16は探索範囲の限定の説明図である。前記のよう
に、変化点抽出部10では処理対象のパターンに対し、
縦方向の線密度が1となる点を指定範囲内の輪郭線上か
ら見つける。この場合の指定範囲は、以下に説明する探
索範囲(探索開始点、変化点)の限定処理により行う。§6: Description of Limitation of Search Range (Search Start Point, Change Point)-See FIG. 16 FIG. 16 is an explanatory diagram of limitation of the search range. As described above, in the change point extraction unit 10, for the pattern to be processed,
A point having a line density of 1 in the vertical direction is found on the contour line within the specified range. The designated range in this case is determined by the process of limiting the search range (search start point, change point) described below.
【0197】一般的に前記接触点は続け字の中心付近に
存在し易く、端に行くに従ってその存在確率が減少す
る。そこで、予め、探索開始点、及び変化点の探索範囲
を限定することにより、探索処理の高速化を図ると同時
に、端の方に位置する接触点らしさの低い変化点の抽出
を減らすことで、認識処理に掛かる時間の増加を防ぐこ
とが可能になる。Generally, the contact point is likely to exist near the center of the continuous character, and its existence probability decreases toward the end. Therefore, by limiting the search start point and the search range of the change point in advance, the search process can be speeded up, and at the same time, the extraction of the change point having a low contact point likelihood closer to the edge can be reduced. It is possible to prevent an increase in the time required for the recognition processing.
【0198】探索範囲の限定処理では、続け字の高さ、
若しくは続け字が属する文字列の平均文字サイズを基
に、探索開始点、及び変化点の探索範囲を限定する。例
えば、実施例1では、文字の全範囲を探索範囲としてい
たために、文字の端に位置する変化点までも抽出してし
まう。しかし、実施例2の処理では、前記のように探索
範囲を限定することで、不要な変化点の抽出を防ぐこと
ができる。In the process of limiting the search range, the height of consecutive characters,
Alternatively, the search range of the search start point and the change point is limited based on the average character size of the character string to which the continuous character belongs. For example, in the first embodiment, since the entire range of the character is set as the search range, the change point located at the end of the character is also extracted. However, in the processing of the second embodiment, unnecessary change points can be prevented from being extracted by limiting the search range as described above.
【0199】具体的には次の通りである。 :第1の探索範囲限定処理は、図16のA図に示した
ように、続け字の高さを基に探索開始点、及び探索範囲
を限定する処理である。例えば、図示のように、続け字
の高さをht、探索範囲をW、しきい値をAとした場
合、W=ht×Aとして探索範囲を求める。Specifically, it is as follows. : As shown in FIG. 16A, the first search range limiting process is a process of limiting the search start point and the search range based on the height of the continuous character. For example, as shown in the figure, when the height of the continuous character is ht, the search range is W, and the threshold value is A, the search range is obtained as W = ht × A.
【0200】:第2の探索範囲限定処理は、図16の
B図、C図に示したように、続け字が属する文字列の平
均文字サイズを基に探索開始点、及び変化点の探索範囲
を限定する処理である。The second search range limiting process is, as shown in FIGS. 16B and 16C, the search range of the search start point and the change point based on the average character size of the character string to which the continuous character belongs. Is a process for limiting
【0201】例えば、図16のB図に示したような文字
列があった場合、前記文字列の平均サイズを求める。そ
して、前記図16のC図に示したように、前記平均サイ
ズから文字の高さhtを求める。この時、該平均サイズ
の続け字の高さをht、探索範囲をW、しきい値をAと
した場合、W=ht×Aとして探索範囲を求める。For example, when there is a character string as shown in FIG. 16B, the average size of the character string is calculated. Then, as shown in FIG. 16C, the character height ht is obtained from the average size. At this time, when the height of the continuous character of the average size is ht, the search range is W, and the threshold value is A, the search range is obtained as W = ht × A.
【0202】ところで、実施例1では、図16のD図に
示したように、文字の全範囲を探索範囲Wとしていたた
めに、文字の端に位置する変化点(例えば、数字の2の
下端)までも抽出していた。By the way, in the first embodiment, as shown in FIG. 16D, since the entire range of the character is set as the search range W, the change point (for example, the lower end of the numeral 2) located at the end of the character. ) Was also extracted.
【0203】しかし、実施例2の処理では探索範囲Wを
限定しているので、図16のE図に示したように、不要
な変化点の抽出を防ぐことができる(例えば、数字の2
の下端を変化点として抽出しない)。However, since the search range W is limited in the processing of the second embodiment, extraction of unnecessary change points can be prevented as shown in FIG. 16E (for example, numeral 2).
The lower end of is not extracted as a change point).
【0204】 §7:ひげ消し処理等の説明・・・図17参照 図17はひげ消し処理説明図である。文字分離部7、1
2では、続け字を分離する際に生じる文字のヒゲ等を除
去するが、この処理では続け字の上部の画像のみをメモ
リに格納して処理を行う。§7: Description of Beard Removal Processing, Etc. See FIG. 17 FIG. 17 is an explanatory diagram of the beard removal processing. Character separator 7,1
In 2, the whiskers and the like of the characters generated when separating the continuous characters are removed. In this process, only the upper image of the continuous characters is stored in the memory for processing.
【0205】すなわち、続け字中に含まれる文字のヒゲ
部分、及び文字と文字を繋ぐ続き線を除去するために、
パターンの上端から続き線の下部までの画像を基に消し
込み処理を行う。具体的には、パターンの上側の輪郭線
と続き線下部に含まれる文字線分の内、下側に位置する
ものを除去する。That is, in order to remove the beard part of the characters contained in the continuation characters and the continuation line connecting the characters,
The erase process is performed based on the image from the upper end of the pattern to the lower part of the continuation line. Specifically, of the character line segments included in the upper contour line of the pattern and the lower part of the continuation line, the lower one is removed.
【0206】例えば、図17のA図に示したような数字
のゼロの続け字があったとする。この場合、図17のB
図に示したように画像の上側部分のみをメモリに格納
し、ひげ消し等の処理を行う。このようにすれば、パタ
ーン全体をメモリに格納して処理するのに比べてメモリ
容量が少なくて済む。For example, it is assumed that there is a continuous character of zeros as shown in FIG. In this case, B in FIG.
As shown in the figure, only the upper part of the image is stored in the memory, and processing such as beard removal is performed. By doing so, the memory capacity can be reduced as compared with the case where the entire pattern is stored in the memory and processed.
【0207】(他の実施例)以上実施例について説明し
たが、本発明は次のようにしても実施可能である。 (1) :手書き文字認識装置に限らず、印刷文字認識装
置、図面認識装置等、各種の認識装置の文字切り出し処
理に適用可能である。(Other Embodiments) The embodiments have been described above, but the present invention can also be implemented as follows. (1): Not limited to the handwritten character recognition device, it can be applied to the character cutting process of various recognition devices such as a print character recognition device and a drawing recognition device.
【0208】(2) :切り出し対象文字は、数字のゼロに
限らず、ゼロ以外の全数字、英字、その他の各種文字に
ついて全て適用可能である。(2): The character to be cut out is not limited to the number zero, but all numbers other than zero, letters, and other various characters can be applied.
【0209】[0209]
【発明の効果】以上説明したように、本発明によれば次
のような効果がある。 (1) :水平続き線、或いは斜め続き線が抽出されない場
合、従来の文字切り出し装置では文字の切り出しが不可
能であったが、本発明では、変化点抽出部の処理で文字
線分の傾きの変化点を抽出して文字を分離するので、続
き線が抽出されない場合でも文字の切り出しが確実にで
きる。As described above, the present invention has the following effects. (1): When a horizontal continuation line or a diagonal continuation line is not extracted, it is impossible to cut out a character with the conventional character cutting device, but in the present invention, the inclination of the character line segment is processed by the change point extraction unit. Since the change point of is extracted and the character is separated, it is possible to reliably cut out the character even when the continuation line is not extracted.
【0210】従って、文字と文字の接触点を正確に見つ
けられるので、文字認識への悪影響を減らすことができ
る・・・(請求項1〜4対応の効果)。 (2) :文字と文字が連続して書かれた続け字から、文字
同士が接触した続け字まで同一アルコリズムで文字切り
出し処理が確実にできる。また、従来の処理では、二重
線で訂正された文字が誤って続け字処理される場合があ
った。しかし、本発明では、続き線と訂正線を区別する
ことができるので、より正確な続け字の分離処理ができ
る・・・(請求項2、4対応の効果)。Therefore, since the contact point between characters can be accurately found, the adverse effect on character recognition can be reduced (effects corresponding to claims 1 to 4). (2): It is possible to reliably cut out characters with the same algorithm from continuous characters in which characters are continuously written to continuous characters in which characters are in contact with each other. Further, in the conventional processing, a character corrected by a double line may be erroneously processed as a continuous character. However, in the present invention, since the continuation line and the correction line can be distinguished, more accurate continuation character separation processing can be performed (effects corresponding to claims 2 and 4).
【0211】(3) :縦方向線密度が1の部分から輪郭探
索を行うことで、確実に文字と文字の繋がりを見つける
ことができる・・・(請求項5対応の効果)。 (4) :パターン輪郭の探索開始点をパターンの上側、下
側の2点とすることで、上側左右2点、下側左右2点の
合計4点の傾きの変化点を見つけることができるため、
接触点が左右どちらかにずれていた場合であっても、正
解の分離点を含む候補点を正確に抽出することができる
・・・(請求項6対応の効果)。(3): By performing the contour search from the portion where the line density in the vertical direction is 1, the connection between characters can be surely found (the effect corresponding to claim 5). (4): Since the starting points of the pattern contour search are the upper and lower two points of the pattern, a total of four inclination change points can be found, that is, the upper left and right two points and the lower left and right two points. ,
Even if the contact point is shifted to the left or right, the candidate point including the correct separation point can be accurately extracted (effect corresponding to claim 6).
【0212】(5) :探索開始点からそれぞれ左右に輪郭
探索を行い、傾きの変化点を抽出することによって、垂
直に文字を分離するだけでなく、分離線が斜めであって
も、正確に分離することができる・・・(請求項7対応
の効果)。(5): By performing contour search to the left and right from the search start point and extracting the change points of the inclination, not only the characters are vertically separated, but even if the separation line is diagonal, It can be separated (effect corresponding to claim 7).
【0213】(6) :輪郭探索の開始点と輪郭上の或る点
とを結ぶ直線と、検出された輪郭、または輪郭とその近
隣の画素との重なりの度合いにより、探索開始点から或
る点までの輪郭が直線となっているか否かを判断する処
理により、パターンに多少の凹凸がある場合であって
も、輪郭の傾きの変化点を正確に抽出することが可能で
ある・・・(請求項8対応の効果)。(6): Depending on the degree of overlap between the detected contour, or the contour and the neighboring pixels, the straight line connecting the contour search start point and a certain point on the contour. By the process of determining whether the contour up to the point is a straight line, it is possible to accurately extract the change point of the inclination of the contour even if the pattern has some irregularities ... (Effect of claim 8).
【0214】(7) :輪郭探索の開始点と輪郭上の或る点
とを結ぶ直線と、検出された輪郭、または輪郭とその近
隣の画素との重なりを算出し、或る点の位置を動かした
時に、その変化量の変化により、弧を描いている輪郭の
傾きの急激な変化点を正確に抽出することができる・・
・(請求項9対応の効果)。(7): The straight line connecting the starting point of contour search and a certain point on the contour and the detected contour or the overlap between the contour and its neighboring pixels are calculated, and the position of the certain point is calculated. When you move it, you can accurately extract the point where the slope of the contour that drew the arc changes sharply due to the change in the amount of change.
-(Effect of claim 9).
【0215】(8) :上下2点の変化点間の距離が或る一
定のしきい値以下であれば、2点を変化点として選択
し、しきい値以上であれば、探索開始点に近い1点を選
択することにより、T字型の変化点部分であっても正確
に抽出することができる・・・(請求項10対応の効
果)。(8): If the distance between the upper and lower change points is less than a certain threshold value, two points are selected as the change points, and if the distance is greater than the threshold value, the search start point is selected. By selecting a close point, even a T-shaped change point portion can be accurately extracted ... (Effect corresponding to claim 10).
【0216】(9) :上下2点の変化点間の距離の基準
を、周囲の足し合わせた結果を注目行、または列の投影
値とする隣接投影法によって抽出された線分の太さの平
均値を基準にして設定することにより、文字を構成する
線の太さが変化しても対応することが可能である・・
(請求項11対応の効果)。(9): The thickness of the line segment extracted by the adjacent projection method in which the result of the addition of the surroundings as the reference of the distance between the upper and lower change points is used as the projection value of the target row or column. By setting it based on the average value, it is possible to deal with changes in the thickness of the lines that make up the characters.
(Effect of claim 11).
【0217】(10):文字の高さは接続文字数に関係な
く、文字の大きさによって略一定であるため、上下2点
の変化点間距離の基準を、注目パターンの高さを基に算
出した値とすることで、接続文字数に影響されず、しき
い値を求めることが可能である・・・(請求項12対応
の効果)。(10): Since the height of a character is almost constant depending on the size of the character, regardless of the number of connected characters, the reference for the distance between the change points of the upper and lower two points is calculated based on the height of the pattern of interest. With this value, the threshold value can be obtained without being influenced by the number of connected characters (effect corresponding to claim 12).
【0218】(11):分離点と分離点とを結ぶ直線と、そ
の両隣の画素を消去することにより、8連結で画素が繋
がり、文字と文字が分離されないことを防ぐことができ
る・・・(請求項13対応の効果)。(11): By eliminating the straight line connecting the separation points and the pixels on both sides of the straight line, it is possible to prevent the pixels from being connected by 8 connections and the characters from being separated from each other. (Effect of claim 13).
【0219】(12):分離点候補で分離したと仮定し、ラ
ベリング、輪郭探索、または投影処理によって分離後の
文字の大きさを求めることにより、分離位置だけでは求
められない分離後の文字の大きさを算出することが可能
である・・・(請求項14対応の効果)。(12): It is assumed that the characters have been separated by the separation point candidate, and the size of the character after separation is obtained by labeling, contour search, or projection processing. It is possible to calculate the size ... (Effect of claim 14).
【0220】(13):算出された分離後の大きさが均等に
なるように分離点を決定することで、複数の分離点候補
から分離点を決定することが可能である・・・(請求項
15対応の効果)。(13): Separation points can be determined from a plurality of separation point candidates by deciding the separation points so that the calculated sizes after separation are equal. (Effect of Item 15).
【0221】(14):従来の処理では、二重線で訂正され
た文字が誤って続け字処理される場合があった。しか
し、本発明では、続き線と訂正線を区別することができ
るので、より正確な続け字抽出処理ができる・・・(請
求項16対応の効果)。(14): In the conventional processing, a character corrected by a double line may be erroneously processed continuously. However, in the present invention, since the continuation line and the correction line can be distinguished, more accurate continuation character extraction processing can be performed (effect corresponding to claim 16).
【0222】(15):続け字候補文字から続き線を抽出す
る際に、一方向の投影処理しか行わない場合、その方向
と続き線の傾きの方向がずれた場合は、正確に続き線を
抽出することができなかった。しかし、本発明によれ
ば、複数方向に対して投影処理を行うので、続き線の傾
きによらず、正確な続き線の抽出が可能となる・・・
(請求項17対応の効果)。(15): When extracting the continuation line from the continuation character candidate character, if only the projection process in one direction is performed, and if that direction and the inclination direction of the continuation line are deviated, the continuation line is accurately Could not be extracted. However, according to the present invention, since projection processing is performed in a plurality of directions, it is possible to accurately extract a continuous line regardless of the inclination of the continuous line ...
(Effect of claim 17).
【0223】(16):続け字の分離可否を判定する際に、
文字間に直線が引けるかどうかで判断すると、接触した
文字間の空白領域が複雑になった場合、分離不可能とす
るしかなかった。(16): When judging whether or not continuous characters can be separated,
Judging whether or not a straight line can be drawn between the characters, if the blank area between the touched characters becomes complicated, there is no choice but to make them inseparable.
【0224】しかし、本発明によれば、接触した文字間
に折れ線がひけるか否かで判定を行うため、従来の処理
で不可能と間違って判定されていた続け字を正確に分離
判定することができる・・・(請求項18対応の効
果)。However, according to the present invention, since it is determined whether or not a polygonal line is drawn between the touched characters, it is possible to accurately separate and determine continuous characters that were erroneously determined to be impossible by the conventional processing. It is possible ... (effect corresponding to claim 18).
【0225】(17):変化点抽出処理において、文字と文
字の接触した点が抽出されていないと、続け字を正確に
分離することができない、しかし、本発明によれば、変
化点の探索を複数の開始点から行うことで、より広範囲
に変化点の抽出を行うことができる・・・(請求項19
対応の効果)。(17): In the change point extraction processing, the consecutive characters cannot be accurately separated unless the points where the characters touch each other are extracted. However, according to the present invention, the search for the change points is performed. By performing the process from a plurality of starting points, the change points can be extracted in a wider range (claim 19).
Corresponding effect).
【0226】(18):文字と文字の接触した点は続け字の
中心近傍に位置し易く、端に行くに従って存在確率が減
少する。続け字全体を探索範囲として開始点を設定する
と、開始点の数が増えてしまう。本発明によれば、接触
点の存在確率の低い領域は変化点探索の際の開始点範囲
から除外されるので、設定される開始点の数を少なくす
ることができる。その結果処理の高速化が可能になる・
・・(請求項20対応の効果)。(18): The point where characters touch each other is likely to be located near the center of successive characters, and the probability of existence decreases toward the ends. If the starting point is set with the entire continuous character set as the search range, the number of starting points will increase. According to the present invention, a region having a low contact point existence probability is excluded from the starting point range when changing points are searched, so that the number of set starting points can be reduced. As a result, the processing speed can be increased.
.. (Effect of claim 20).
【0227】(19):変化点を抽出した場合、文字と文字
の接触点以外にも変化点が抽出される。各変化点に対す
る認識処理を行って切り出しを評価する場合、変化点が
多いほど認識処理に時間がかかる。(19): When the change points are extracted, the change points are extracted in addition to the contact points between the characters. When the recognition processing is performed for each change point and the cutout is evaluated, the recognition processing takes longer as the number of change points increases.
【0228】本発明によれば、接触点の存在確率の低い
領域は探索範囲から除外されるので、候補として抽出さ
れる変化点の数が減少し、処理の高速化が可能である。
また同時に探索時間も短縮することができる・・・(請
求項21対応の効果)。According to the present invention, since the region having a low contact point existence probability is excluded from the search range, the number of change points extracted as candidates is reduced, and the processing speed can be increased.
At the same time, the search time can be shortened (effect corresponding to claim 21).
【0229】(20):変化点の探索開始範囲を決定する際
に、文字枠の高さといった固定値を用いると文字サイズ
が変動した場合に処理結果が安定しない。本発明によれ
ば、注目パターンの文字サイズに応じた探索開始範囲を
設定することができる・・・(請求項22対応の効
果)。(20): When a fixed value such as the height of the character frame is used in determining the search start range of the change point, the processing result is not stable when the character size changes. According to the present invention, it is possible to set the search start range according to the character size of the pattern of interest (effect corresponding to claim 22).
【0230】(21):変化点の探索開始範囲を決定する際
に、文字の高さといった固定値を用いると、文字サイズ
が変動した場合に処理結果が安定しない。本発明によれ
ば、文字列全体の文字サイズの傾向、例えば、横長の文
字が多い、などに応じて探索範囲を設定することが可能
である・・・(請求項23対応の効果)。(21): When a fixed value such as the height of the character is used when determining the search start range of the change point, the processing result is not stable when the character size changes. According to the present invention, it is possible to set the search range according to the tendency of the character size of the entire character string, for example, the number of horizontally long characters is large (the effect corresponding to claim 23).
【0231】(22):変化点の探索範囲を決定する際に、
文字の高さといった固定値を用いると文字サイズが変動
した場合に処理結果が安定しない。本発明によれば、文
字サイズに応じた探索範囲を設定することができる・・
・(請求項24対応の効果)。(22): When determining the change point search range,
If a fixed value such as character height is used, the processing result will not be stable if the character size changes. According to the present invention, the search range can be set according to the character size ...
-(Effect of claim 24).
【0232】(23):変化点の探索範囲を文字の高さとい
った固定値を用いると文字サイズが変動した場合に処理
結果が安定しない。本発明によれば、文字列全体の文字
サイズの傾向、例えば、横長の文字が多い、などに応じ
て探索範囲を設定することが可能である・・・(請求項
25対応の効果)。(23): If a fixed value such as the height of the character is used as the search range of the change point, the processing result is not stable when the character size changes. According to the present invention, the search range can be set according to the tendency of the character size of the entire character string, for example, the number of horizontally long characters is large (the effect of claim 25).
【0233】(24):ハードウェアのメモリ容量が限定さ
れている場合、1文字を全てメモリに取り込むことがで
きない場合がある。このような場合、本発明によれば、
文字の部分画像だけで処理を行うことができ、小容量の
メモリで処理が可能である・・・(請求項26対応の効
果)。(24): If the memory capacity of the hardware is limited, it may not be possible to capture all one character in the memory. In such a case, according to the present invention,
The processing can be performed only with the partial image of the character, and the processing can be performed with a small-capacity memory ... (Effect corresponding to claim 26).
【図1】本発明の原理説明図である。FIG. 1 is a diagram illustrating the principle of the present invention.
【図2】実施例1の文字切り出し装置基本構成図であ
る。FIG. 2 is a basic configuration diagram of a character cutting device according to the first embodiment.
【図3】実施例1の文字切り出し装置構成図である。FIG. 3 is a configuration diagram of a character cutting device according to the first embodiment.
【図4】実施例1の処理説明図1である。FIG. 4 is a process explanatory diagram 1 of the first embodiment.
【図5】実施例1の処理説明図2である。FIG. 5 is a process explanatory diagram 2 of the first embodiment.
【図6】実施例1の処理説明図3である。FIG. 6 is a process explanatory diagram 3 of the first embodiment.
【図7】実施例1における変化点抽出部の処理フローチ
ャートである。FIG. 7 is a processing flowchart of a change point extraction unit according to the first embodiment.
【図8】実施例1における分離点決定部、及び文字分離
部の処理フローチャートである。FIG. 8 is a processing flowchart of a separation point determination unit and a character separation unit according to the first embodiment.
【図9】実施例1の処理結果説明図である。FIG. 9 is an explanatory diagram of a processing result of the first embodiment.
【図10】実施例2の文字切り出し装置構成図である。FIG. 10 is a configuration diagram of a character cutting device according to a second embodiment.
【図11】実施例2における訂正線判定処理説明図であ
る。FIG. 11 is an explanatory diagram of a correction line determination process according to the second embodiment.
【図12】実施例2の続き線抽出処理説明図である。FIG. 12 is an explanatory diagram of a continuous line extraction process according to the second embodiment.
【図13】実施例2における斜め投影値算出方法説明図
である。FIG. 13 is an explanatory diagram of a diagonal projection value calculation method according to the second embodiment.
【図14】実施例2における文字分離線決定部の処理説
明図である。FIG. 14 is a process explanatory diagram of a character separation line determination unit according to the second embodiment.
【図15】実施例2における変化点抽出部の処理説明図
である。FIG. 15 is an explanatory diagram of processing of a change point extraction unit according to the second embodiment.
【図16】実施例2における探索範囲の限定の説明図で
ある。FIG. 16 is an explanatory diagram of limitation of a search range according to the second embodiment.
【図17】実施例2におけるヒゲ消し処理説明図であ
る。FIG. 17 is an explanatory diagram of a beard erasing process according to the second embodiment.
【図18】従来の文字切り出し装置構成図である。FIG. 18 is a configuration diagram of a conventional character cutting device.
【図19】従来の連結パターン抽出部、横長パターン抽
出部、続き線抽出部の処理説明図である。FIG. 19 is a process explanatory diagram of a conventional connected pattern extraction unit, a horizontally long pattern extraction unit, and a continuous line extraction unit.
【図20】従来の続き線抽出部の処理説明図(その1)
である。FIG. 20 is an explanatory diagram of the processing of the conventional continuous line extracting unit (No. 1).
Is.
【図21】従来の続き線抽出部の処理説明図(その2)
である。FIG. 21 is an explanatory diagram of a process of a conventional continuous line extracting unit (part 2).
Is.
【図22】従来の続き線抽出部の処理説明図(その3)
である。FIG. 22 is an explanatory diagram of the processing of the conventional continuous line extracting unit (Part 3).
Is.
【図23】従来の文字分離線決定部の処理説明図であ
る。FIG. 23 is an explanatory diagram of processing of a conventional character separation line determination unit.
【図24】従来のゼロ判定部の処理説明図である。FIG. 24 is an explanatory diagram of processing of a conventional zero determination unit.
【図25】従来の文字分離部の処理説明図である。FIG. 25 is an explanatory diagram of processing of a conventional character separating unit.
2 連結パターン抽出部 3 横長パターン抽出部 4 続き線抽出部 5 文字分離線決定部 6 ゼロ判定部 7 文字分離部 10 変化点抽出部 11 分離点決定部 12 文字分離部 23 続け字抽出部 2 Connected pattern extraction unit 3 Horizontal pattern extraction unit 4 Continuation line extraction unit 5 Character separation line determination unit 6 Zero determination unit 7 Character separation unit 10 Change point extraction unit 11 Separation point determination unit 12 Character separation unit 23 Continuation character extraction unit
Claims (26)
し装置において、 入力パターンの連結情報に基づいて、入力パターンから
連結パターンを抽出する連結パターン抽出部と、 前記連結パターン抽出部が抽出した連結パターンの内、
複数の文字が繋がっている続き文字の候補として、横に
長い横長パターンだけを抽出する横長パターン抽出部
と、 前記横長パターン抽出部が抽出した横長パターンから文
字と文字を繋いでいる続き線を見つけることによって、
前記抽出された連結パターンが続き文字であるか否かを
判断し、文字の続き線を抽出する続き線抽出部と、 前記続き線抽出部で続き線が抽出できなかった場合に、
パターンの輪郭探索を行ってパターン輪郭の傾きの変化
点を抽出し、前記変化点を文字と文字の分離点候補とす
る変化点抽出部と、 前記変化点抽出部が抽出した変化点を基に、それぞれの
分離点候補で分離した場合の分離後の文字の大きさを求
め、前記文字の大きさの比較により文字の分離点を決定
する分離点決定部と、 前記分離点決定部で決定した文字の分離点で文字を分離
する文字分離部を設けたことを特徴とする文字切り出し
装置。1. A character slicing device for recognizing characters, wherein a connection pattern extraction unit extracts a connection pattern from an input pattern based on connection information of the input pattern, and a connection pattern extracted by the connection pattern extraction unit. Of the pattern
As a continuation character candidate in which a plurality of characters are connected, a horizontal pattern extraction unit that extracts only a horizontally long horizontal pattern and a continuous line that connects characters from the horizontal pattern extracted by the horizontal pattern extraction unit are found. By
It is determined whether or not the extracted connection pattern is a continuation character, and a continuation line extraction unit that extracts a continuation line of a character, and if the continuation line cannot be extracted by the continuation line extraction unit,
Based on the change points extracted by the change point extraction unit for performing pattern contour search to extract the change points of the inclination of the pattern contour, and the change points as character and character separation point candidates. , The size of the character after separation when separated by each separation point candidate is determined, and the separation point determination unit that determines the separation point of the character by comparing the sizes of the characters, and the separation point determination unit. A character slicing device having a character separation section for separating characters at character separation points.
し装置において、 入力パターンの連結情報に基づいて、入力パターンから
連結パターンを抽出する連結パターン抽出部と、 前記連結パターン抽出部が抽出した連結パターンの内、
複数の文字が繋がっている続き文字の候補として横に長
い横長パターンだけを抽出する横長パターン抽出処理、
及び前記横長パターンから文字と文字を繋いでいる続き
線を抽出して、文字上に書かれた訂正線を抽出する訂正
線抽出処理を行う続け字抽出部と、 前記続け字抽出部が抽出した横長パターンから文字と文
字を繋いでいる続き線を見つけることによって、前記抽
出された連結パターンが続き文字であるか否かを判断
し、文字の続き線を抽出する続き線抽出部と、 前記続き線抽出部で続き線が抽出された場合、その続き
線の位置情報を基に、文字分離線を決定する文字分離線
決定部と、 前記文字分離線決定部が決定した文字分離線で分けられ
た一文字毎の文字領域について、一文字毎に、数字のゼ
ロであるか否かを判定するゼロ判定部と、 前記数字のゼロと判定された文字について、文字領域を
残し不必要な続き部分を消去する文字分離部と、 前記続き線抽出部で続き線が抽出できなかった場合、及
び前記ゼロ判定部で数字のゼロと判定されなかった場合
に、パターンの輪郭探索を行ってパターン輪郭の傾きの
変化点を抽出し、前記変化点を文字と文字の分離点候補
とする変化点抽出部と、 前記変化点抽出部が抽出した変化点を基に、それぞれの
分離点候補で分離した場合の分離後の文字の大きさを求
め、前記文字の大きさの比較により文字の分離点を決定
する分離点決定部と、 前記分離点決定部で決定した文字の分離点で文字を分離
し、文字領域を残し不必要な続き部分を消去する文字分
離部を設けたことを特徴とする文字切り出し装置。2. A character slicing device for recognizing characters, wherein a connection pattern extraction unit extracts a connection pattern from an input pattern based on connection information of the input pattern; and a connection pattern extracted by the connection pattern extraction unit. Of the pattern
Horizontal pattern extraction processing that extracts only horizontally long horizontal patterns as candidates for continuous characters in which multiple characters are connected,
And a continuation character extraction unit that performs a correction line extraction process that extracts a continuation line connecting the characters from the horizontal pattern and extracts a correction line written on the character, and the continuation character extraction unit extracts the correction line extraction process. A continuation line extracting unit that determines whether or not the extracted connection pattern is a continuation character by finding a continuation line connecting characters from a horizontal pattern, and a continuation line extraction unit that extracts a continuation line of a character, and the continuation When the continuation line is extracted by the line extraction unit, based on the position information of the continuation line, the character separation line determination unit that determines the character separation line and the character separation line determined by the character separation line determination unit are separated. For the character area of each character, for each character, a zero determination unit that determines whether it is a numeral zero, and for the character that is determined to be zero of the numeral, leave a character area and erase unnecessary continuation parts. Character separation part to When the continuation line cannot be extracted by the continuation line extraction unit, and when the zero determination unit does not determine that the number is zero, the contour of the pattern is searched to extract a change point of the inclination of the pattern contour, A change point extraction unit that uses the change point as a character and a character separation point candidate, and the size of the character after separation when separated by each of the separation point candidates based on the change points extracted by the change point extraction unit. And a separation point determination unit that determines the separation point of the character by comparing the size of the character, and separates the character at the separation point of the character determined by the separation point determination unit, leaving a character region and unnecessary continuation. A character slicing device having a character separating section for erasing a part.
し方法において、 入力パターンの連結情報に基づいて、入力パターンから
連結パターンを抽出する連結パターン抽出処理と、 前記連結パターン抽出部が抽出した連結パターンの内、
複数の文字が繋がっている続き文字の候補として、横に
長い横長パターンだけを抽出する横長パターン抽出処理
と、 前記横長パターン抽出部が抽出した横長パターンから文
字と文字を繋いでいる続き線を見つけることによって、
前記抽出された連結パターンが続き文字であるか否かを
判断し、文字の続き線を抽出する続き線抽出処理と、 前記続き線抽出処理で続き線が抽出できなかった場合
に、パターンの輪郭探索を行ってパターン輪郭の傾きの
変化点を抽出し、前記変化点を文字と文字の分離点候補
とする変化点抽出処理と、 前記変化点抽出処理で抽出した変化点を基に、それぞれ
の分離点候補で分離した場合の分離後の文字の大きさを
求め、前記文字の大きさの比較により文字の分離点を決
定する分離点決定処理と、 前記分離点決定処理で決定した文字の分離点で文字を分
離する文字分離処理とを有することを特徴とした文字切
り出し方法。3. A character segmentation method for performing character recognition processing, comprising: a connection pattern extraction process of extracting a connection pattern from an input pattern based on connection information of the input pattern; and a connection pattern extracted by the connection pattern extraction unit. Of the pattern
A horizontal pattern extraction process that extracts only a horizontally long horizontal pattern as a candidate for a continuous character in which a plurality of characters are connected, and a continuous line that connects characters from the horizontal pattern extracted by the horizontal pattern extraction unit is found. By
A judgment is made as to whether or not the extracted connection pattern is a continuation character, and a continuation line extraction process for extracting a continuation line of the character, and a contour of the pattern when the continuation line cannot be extracted by the continuation line extraction process. A change point of the inclination of the pattern contour is extracted by performing a search, a change point extraction process in which the change point is a character and a character separation point candidate, and a change point extracted in the change point extraction process is used. Separation point determination processing for determining the size of the character after separation when separating with the separation point candidate, and character separation determined by comparing the character sizes, and character separation determined by the separation point determination processing A character segmentation method for separating characters at points.
し方法において、 入力パターンの連結情報に基づいて、入力パターンから
連結パターンを抽出する連結パターン抽出処理と、 前記連結パターン抽出部が抽出した連結パターンの内、
複数の文字が繋がっている続け字候補として横に長い横
長パターンだけを抽出する横長パターン抽出処理、及び
前記横長パターンから文字と文字を繋いでいる続き線を
抽出することで、文字上に書かれた訂正線を抽出する訂
正線抽出処理からなる続け字抽出処理と、 前記続け字抽出処理で抽出した横長パターンから文字と
文字を繋いでいる続き線を見つけることによって、前記
抽出された連結パターンが続き文字であるか否かを判断
し、文字の続き線を抽出する続き線抽出処理と、 前記続き線抽出処理で続き線が抽出された場合、その続
き線の位置情報を基に、文字分離線を決定する文字分離
線決定処理と、 前記文字分離線決定処理で決定した文字分離線で分けら
れた一文字毎の文字領域について、一文字毎に、数字の
ゼロであるか否かを判定するゼロ判定処理と、 前記数字のゼロと判定された文字について、文字領域を
残し不必要な続き部分を消去する第1の文字分離処理
と、 前記続き線抽出処理で続き線が抽出できなかった場合、
及び前記ゼロ判定処理で数字のゼロと判定されなかった
場合に、パターンの輪郭探索を行ってパターン輪郭の傾
きの変化点を抽出し、前記変化点を文字と文字の分離点
候補とする変化点抽出処理と、 前記変化点抽出処理で抽出した変化点を基に、それぞれ
の分離点候補で分離した場合の分離後の文字の大きさを
求め、前記文字の大きさの比較により文字の分離点を決
定する分離点決定処理と、 前記分離点決定処理で決定した文字の分離点で文字を分
離し、文字領域を残し不必要な続き部分を消去する第2
の文字分離処理を有することを特徴とした文字切り出し
方法。4. A character segmentation method for performing character recognition processing, comprising: a connection pattern extraction process for extracting a connection pattern from an input pattern based on connection information of the input pattern; and a connection pattern extracted by the connection pattern extraction unit. Of the pattern
A horizontal pattern extraction process that extracts only a horizontally long horizontal pattern as a continuous character candidate in which a plurality of characters are connected, and a continuous line that connects characters from the horizontal pattern is extracted to write on the character. The continuous character extraction process consisting of the correction line extraction process for extracting the corrected line, and by finding the continuous line connecting the characters from the horizontal pattern extracted by the continuous character extraction process, the extracted connection pattern is If a continuation line is extracted in the continuation line extraction process of determining whether or not the continuation character is a continuation character and extracting the continuation line of the character, and if the continuation line is extracted by the continuation line extraction process, the character segment is extracted based on the position information of the continuation line. Character separation line determination processing for determining the separation line, for the character area for each character divided by the character separation line determined in the character separation line determination processing, for each character, whether the number is zero or not A zero determination process that determines the number, a first character separation process that leaves a character area and erases unnecessary continuation parts of the character that is determined to be zero, and a continuation line cannot be extracted by the continuation line extraction process. If
And, when it is not determined that the number is zero in the zero determination process, the change point of the inclination of the pattern outline is extracted by performing the contour search of the pattern, and the change point is a separation point candidate of the character and the character. Extraction process, based on the change point extracted in the change point extraction process, to determine the size of the character after separation when separated by each separation point candidate, the character separation point by comparing the size of the character And a separation point determining process for determining the character separation, and character separation at the character separation point determined by the separation point determining process, leaving a character region and erasing unnecessary continuation parts.
A character segmentation method characterized by having the character separation process described in 1.
より仮の探索開始基準線を決定した後、前記仮の探索開
始基準線の周辺部分において線密度1の部分を探索して
正式の探索開始基準線を求め、前記探索開始基準線から
探索開始点を決定してパターンの輪郭探索を行うことを
特徴とした請求項3記載の文字切り出し方法。5. In the change point extraction processing, after a temporary search start reference line is determined from the vertical length of the pattern of interest, the average size of other patterns, etc. 4. The character segmentation method according to claim 3, wherein a formal search start reference line is obtained by searching a portion having a line density of 1, and a search start point is determined from the search start reference line to perform contour search of the pattern. .
1の部分のパターンの上端、下端の2点とすることを特
徴とした請求項3記載の文字切り出し方法。6. The change point extraction process according to claim 3, wherein the search start points when the contour search of the pattern is performed are two points of the upper end and the lower end of the pattern in the portion having the linear density of 1. Character cutting method.
後、前記探索開始点からそれぞれパターンの左右方向に
輪郭探索を行うことにより、パターンの傾きの変化点を
抽出することを特徴とした請求項3記載の文字切り出し
方法。7. The change of the inclination of the pattern by determining the search start point for starting the contour search of the pattern in the change point extraction processing and then performing the contour search in the left and right directions of the pattern from the search start point, respectively. The character cutting method according to claim 3, wherein points are extracted.
化点を抽出する際、パターン上の探索開始点と輪郭上の
或る点とを結ぶ直線と、検出された輪郭との重なりを算
出し、前記算出した重なりの度合いにより、探索開始点
から輪郭上の或る点までが直線であるか否かを判断する
ことで変化点の抽出を行うことを特徴とした請求項3記
載の文字切り出し方法。8. In the change point extraction processing, when a contour search of a pattern is performed to extract a change point of the inclination of the pattern contour, a straight line connecting a search start point on the pattern and a certain point on the contour is formed. , Calculating an overlap with the detected contour, and extracting a change point by determining whether or not a point from the search start point to a certain point on the contour is a straight line based on the calculated degree of overlap. The character cutting method according to claim 3, wherein.
化点を抽出する際、パターン上の探索開始点と輪郭上の
或る点とを結ぶ直線と、輪郭との重なりを算出し、前記
重なりの変化量から輪郭の傾きの変化点を抽出すること
を特徴とした請求項3記載の文字切り出し方法。9. A straight line connecting a search start point on a pattern and a certain point on the contour when the contour of the pattern is searched to extract a change point of the inclination of the contour of the pattern in the change point extraction processing. The character cutting method according to claim 3, wherein the overlap with the contour is calculated, and the change point of the inclination of the contour is extracted from the change amount of the overlap.
きい値以下であれば、前記2点を変化点として選択し、
前記距離が或る一定のしきい値を超えていた場合は、探
索開始点に近い方の1点を変化点として選択することを
特徴とした請求項3記載の文字切り出し方法。10. In the separation point determination process, if the distance between the change points of the upper and lower two points of the pattern is less than or equal to a certain threshold value, the two points are selected as the change points,
The character cutting method according to claim 3, wherein when the distance exceeds a certain threshold value, one point closer to the search start point is selected as a change point.
周囲の投影値を足し合わせた結果を注目行、または列の
投影値とする隣接投影法によって抽出された線分の太さ
の平均値を基準にして設定することを特徴とした請求項
10記載の文字切り出し方法。11. A threshold value of a distance between the upper and lower two points,
11. The method according to claim 10, wherein the result obtained by adding up the projection values of the surroundings is used as the projection value of the target row or column, and the average value of the thicknesses of the line segments extracted by the adjacent projection method is set as a reference. Character cutting method.
注目パターンの高さを基準にして設定することを特徴と
した請求項10記載の文字切り出し方法。12. A threshold value of the distance between the upper and lower two points,
The character cutting method according to claim 10, wherein the height is set based on the height of the pattern of interest.
する際、分離点と分離点とを結ぶ直線とその両隣の画素
を消去することを特徴とした請求項3記載の文字切り出
し方法。13. In the character separation process, when a character is separated at a character separation point determined by the separation point determination unit, a straight line connecting the separation points and pixels on both sides thereof are erased. 4. The character cutting method according to claim 3.
分離点候補で分離したと仮定し、ラベリング、輪郭探
索、投影法等により、分離後の文字の大きさを求めるこ
とにより、分離点を決定することを特徴とした請求項3
記載の文字切り出し方法。14. In the separation point determination process, it is assumed that the separation points are separated by respective separation point candidates based on the change points extracted by the change point extraction unit, and after separation by labeling, contour search, projection method, or the like. 4. The separation point is determined by determining the size of the character of "."
How to cut out the described characters.
分離点候補で分離したと仮定し、分離後の文字の大きさ
を求め、前記分離後の大きさが均等になるように分離点
を決定することを特徴とした請求項3記載の文字切り出
し方法。15. In the separation point determination process, it is assumed that each separation point candidate is separated based on the change point extracted by the change point extraction unit, the size of the character after separation is obtained, and the separation is performed. The character cutting method according to claim 3, wherein the separation points are determined so that the subsequent sizes are equal.
処理を行って続き線が2本抽出されたら前記2本の続き
線を訂正線と判断し、その文字を訂正文字として扱うこ
とを特徴とした請求項4記載の文字切り出し方法。16. The continuous character extracting process, when extracting a continuous character from a continuous character candidate, performs horizontal projection processing to extract two continuous lines, and the two continuous lines are referred to as correction lines. The character segmentation method according to claim 4, wherein the character is judged and the character is treated as a corrected character.
文字を繋いでいる続き線を抽出する際、複数の傾きに対
して続き線の抽出処理を行うことを特徴とした請求項4
記載の文字切り出し方法。17. In the continuation line extracting process, when extracting a continuation line connecting characters from the horizontally elongated pattern extracted in the continuation character extracting process, the continuation line extracting process is performed for a plurality of slopes. Claim 4 characterized by the above.
How to cut out the described characters.
置情報を基に文字分離線を決定する際、2文字を折れ線
で分離できるか否かにより分離可否を決定することを特
徴とした請求項4記載の文字切り出し方法。18. In the character separation line determination process, the continuation line extraction unit extracts a continuation line, and when the character separation line is determined based on position information of the continuation line, is it possible to separate two characters by a polygonal line? The character cutout method according to claim 4, wherein whether or not the character can be separated is determined depending on whether or not the character is separated.
めに縦方向に線密度1となる輪郭線上の点を見つけ、次
に変化点の探索開始点を輪郭線上に複数設定し、各点か
ら前記複数の変化点候補を算出することを特徴とした請
求項4記載の文字切り出し方法。19. In the change point extraction process, when extracting a change point as a point of contact between characters, first, a point on the contour line having a line density of 1 is found in the vertical direction, and then a change point is searched for. The character cutout method according to claim 4, wherein a plurality of start points are set on the contour line, and the plurality of change point candidates are calculated from each point.
複数設定する際、 パターンに対する探索範囲を限定して探索開始点を見つ
けることを特徴とした請求項19記載の文字切り出し方
法。20. The character cutting method according to claim 19, wherein when a plurality of search start points of the change points are set on the contour line, the search start point is found by limiting the search range for the pattern.
パターンに対する探索範囲を限定して変化点候補を算出
することを特徴とした請求項19記載の文字切り出し方
法。21. When calculating the plurality of change point candidates,
20. The character cutout method according to claim 19, wherein a change point candidate is calculated by limiting a search range for the pattern.
際、パターンの高さの定数倍を探索範囲とすることを特
徴とした請求項20記載の文字切り出し方法。22. The character cutting method according to claim 20, wherein when the search range of the search start point is limited, a constant multiple of the height of the pattern is set as the search range.
際、その文字が属する文字列の平均文字サイズの定数倍
を探索範囲とすることを特徴とした請求項20記載の文
字切り出し方法。23. The character cutting method according to claim 20, wherein, when limiting the search range of the search start point, a constant multiple of the average character size of the character string to which the character belongs is set as the search range.
パターンの高さの定数倍を探索範囲とすることを特徴と
した請求項21記載の文字切り出し方法。24. When limiting the search range of the change point,
22. The character cutting method according to claim 21, wherein the search range is set to a constant multiple of the height of the pattern.
その文字が属する文字列の平均文字サイズの定数倍を探
索範囲とすることを特徴とした請求項21記載の文字切
り出し方法。25. When limiting the search range of the change point,
22. The character cutting method according to claim 21, wherein the search range is a constant multiple of the average character size of the character string to which the character belongs.
て、 続き線を囲む矩形の中の画像のみを用いて、続け字の分
離に伴って生じる文字のヒゲを除去すると共に、その
際、パターンの上側の輪郭線と続き線の位置情報から文
字内に含まれるヒゲ部分を除去することを特徴とした請
求項4記載の文字切り出し方法。26. In the first and second character separation processes, while using only an image in a rectangle surrounding a continuation line to remove a beard of a character caused by separation of continuation characters, The character cutting method according to claim 4, wherein a beard portion included in the character is removed from position information of the contour line and the continuation line on the upper side of the pattern.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP01085195A JP3343305B2 (en) | 1995-01-26 | 1995-01-26 | Character extraction device and character extraction method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP01085195A JP3343305B2 (en) | 1995-01-26 | 1995-01-26 | Character extraction device and character extraction method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH08202822A true JPH08202822A (en) | 1996-08-09 |
| JP3343305B2 JP3343305B2 (en) | 2002-11-11 |
Family
ID=11761865
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP01085195A Expired - Fee Related JP3343305B2 (en) | 1995-01-26 | 1995-01-26 | Character extraction device and character extraction method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3343305B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007058304A (en) * | 2005-08-22 | 2007-03-08 | Toshiba Corp | Character recognition device and character recognition method |
| WO2025164999A1 (en) * | 2024-01-29 | 2025-08-07 | 삼성전자 주식회사 | Electronic device and character recognition method using same |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107341429B (en) * | 2016-04-28 | 2020-09-01 | 富士通株式会社 | Segmentation method, segmenting device and electronic device for handwritten glue string |
-
1995
- 1995-01-26 JP JP01085195A patent/JP3343305B2/en not_active Expired - Fee Related
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007058304A (en) * | 2005-08-22 | 2007-03-08 | Toshiba Corp | Character recognition device and character recognition method |
| WO2025164999A1 (en) * | 2024-01-29 | 2025-08-07 | 삼성전자 주식회사 | Electronic device and character recognition method using same |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3343305B2 (en) | 2002-11-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Lehal et al. | A Gurmukhi script recognition system | |
| US5410611A (en) | Method for identifying word bounding boxes in text | |
| JPH06309498A (en) | Image extraction method | |
| EP2553626A2 (en) | Segmentation of textual lines in an image that include western characters and hieroglyphic characters | |
| JP3411472B2 (en) | Pattern extraction device | |
| US20060078204A1 (en) | Image processing apparatus and method generating binary image from a multilevel image | |
| JPH0950527A (en) | Frame extraction device and rectangle extraction device | |
| JP3798179B2 (en) | Pattern extraction device and character segmentation device | |
| JPH08202822A (en) | Character cutting device and character cutting method | |
| Shakunthala et al. | Enhanced text line segmentation and skew estimation for handwritten Kannada document | |
| JP3188580B2 (en) | Character extraction circuit and character extraction method | |
| Nguyen et al. | Enhanced character segmentation for format-free Japanese text recognition | |
| JP2917427B2 (en) | Drawing reader | |
| JP4878057B2 (en) | Character recognition method, program, and recording medium | |
| JPH06180771A (en) | English letter recognizing device | |
| JP3077929B2 (en) | Character extraction method | |
| JP3344062B2 (en) | Katakana handwritten character extraction circuit | |
| JP3428504B2 (en) | Character recognition device | |
| KR100248384B1 (en) | Individual character extraction method in multilingual document recognition and its recognition system | |
| JP3190794B2 (en) | Character segmentation device | |
| JP2963474B2 (en) | Similar character identification method | |
| JPH10214308A (en) | Character identification method | |
| JPH08293002A (en) | Character recognition device and character recognition method | |
| JPH08272909A (en) | Character recognition method and character recognition device | |
| JPH0573718A (en) | Area attribute identification method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020813 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080823 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090823 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090823 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100823 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110823 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120823 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120823 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130823 Year of fee payment: 11 |
|
| LAPS | Cancellation because of no payment of annual fees |