JPH04343192A - Character segmenting method of character recognizing device - Google Patents

Character segmenting method of character recognizing device

Info

Publication number
JPH04343192A
JPH04343192A JP3143884A JP14388491A JPH04343192A JP H04343192 A JPH04343192 A JP H04343192A JP 3143884 A JP3143884 A JP 3143884A JP 14388491 A JP14388491 A JP 14388491A JP H04343192 A JPH04343192 A JP H04343192A
Authority
JP
Japan
Prior art keywords
character
circumscribed rectangle
line
width
circumscribed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3143884A
Other languages
Japanese (ja)
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3143884A priority Critical patent/JPH04343192A/en
Publication of JPH04343192A publication Critical patent/JPH04343192A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】[Detailed description of the invention]

【0001】0001

【産業の利用分野】本発明は、文字認識装置の文字切り
出し方法に係り、特に黒画素連結の外接矩形を用いて文
字切り出しを行なう文字切り出し方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character segmentation method for a character recognition device, and more particularly to a character segmentation method for segmenting characters using a circumscribed rectangle connected to black pixels.

【0002】0002

【従来の技術】文字切り出しにおいては、隣接した文字
の接触を考慮する必要がある。この接触文字の切り出し
に関しては、黒画素連結の外接矩形を抽出し、接近した
ものを統合した後、予め設定された文字幅の1.5倍を
越える幅の外接矩形については、その中心位置より一定
の範囲内で行と垂直方向の射影が最小値となる位置で分
離する方法が、特開昭61−117670号公報に記載
されている。
2. Description of the Related Art When cutting out characters, it is necessary to consider contact between adjacent characters. To cut out this touching character, after extracting the circumscribed rectangles of connected black pixels and integrating those that are close to each other, if the circumscribed rectangle has a width exceeding 1.5 times the preset character width, it will be removed from its center position. JP-A-61-117670 describes a method of separating at a position where the projection in the direction perpendicular to the row has a minimum value within a certain range.

【0003】0003

【発明が解決しようとする課題】黒画素連結の外接矩形
を持ち用いて文字を切り出す方法は、1文字が必ず白画
素に囲まれていることを前提としているため、隣接の2
文字が接触していると、2文字が一つの外接矩形として
抽出される。実際の印刷原稿や、コピー原稿では、この
ような接触文字が少なからず出現する。また、スキュー
が大きいと接触文字が増加する。
[Problem to be Solved by the Invention] The method of cutting out characters by using a circumscribed rectangle connected with black pixels assumes that each character is always surrounded by white pixels.
If the characters are in contact, the two characters are extracted as one circumscribed rectangle. In actual printed manuscripts and copied manuscripts, many such touching characters appear. Furthermore, when the skew is large, the number of touching characters increases.

【0004】そこで、上記従来方法では、予め設定した
文字幅の1.5倍を越える幅の外接矩形を接触文字と判
定し、接触文字の分離を行なっている。しかし、このよ
うな方法では、一般的な日本語文書において十分な切り
出し精度を達成できない場合が少なくない。
Therefore, in the conventional method described above, a circumscribed rectangle with a width exceeding 1.5 times the preset character width is determined to be a touching character, and the touching characters are separated. However, with this method, it is often not possible to achieve sufficient extraction accuracy for general Japanese documents.

【0005】すなわち、日本語文書は、大きさや形状の
差異の大きい漢字とひらがな・カタカナが混じっている
うえに、文字サイズが可変であったり、不定ピッチであ
ったりするため、接触文字を判別するための基準となる
文字幅を固定したのでは、対応できないからである。
[0005] In other words, Japanese documents contain a mixture of kanji, hiragana, and katakana, which have large differences in size and shape, and also have variable character sizes and irregular pitches, making it difficult to identify contact characters. This is because fixing the character width, which is the standard for this, would not be possible.

【0006】よって本発明の目的は、文字サイズや文字
ピッチが変動した場合にも接触文字を確実に切り出すこ
とが可能な文字切り出し方法を提供することにある。本
発明の他の目的は、マルチサイズ・不定ピッチの日本語
文書に対して、接触文字も含め文字の切り出し精度が優
れた文字切り出し方法を提供することにある。本発明の
もう一つの目的は、文書のスキューに強い文字切り出し
方法を提供することにある。
SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to provide a character cutting method that can reliably cut out touching characters even when the character size or character pitch changes. Another object of the present invention is to provide a method for cutting out characters, including touching characters, with excellent cutting accuracy for multi-sized Japanese documents with irregular pitches. Another object of the present invention is to provide a character extraction method that is resistant to document skew.

【0007】[0007]

【課題を解決するための手段】請求項1の発明は、文書
画像上の黒画素の連結を追跡してその外接矩形を抽出し
、抽出した外接矩形の統合により行を切り出し、各行毎
に外接矩形を用いて文字を切り出す文字切り出し方法に
おいて、各行毎に、外接矩形のサイズ情報に基づいて標
準文字幅を算出し、この標準文字幅と各外接矩形の幅と
を比較することにより接触文字に対応する外接矩形を検
出し、検出した外接矩形に対しては、行と垂直の方向の
射影を求めて、射影値が所定値以下となる位置で当該外
接矩形を分割することを特徴とするものである。
[Means for Solving the Problem] The invention of claim 1 traces the connection of black pixels on a document image, extracts its circumscribed rectangle, cuts out lines by integrating the extracted circumscribed rectangles, and circumscribes each line. In the character cutting method that cuts out characters using rectangles, the standard character width is calculated for each line based on the size information of the circumscribing rectangle, and by comparing this standard character width with the width of each circumscribing rectangle, it is possible to cut out characters into contact characters. A method characterized by detecting a corresponding circumscribed rectangle, obtaining a projection of the detected circumscribed rectangle in a direction perpendicular to the row, and dividing the circumscribed rectangle at positions where the projection value is equal to or less than a predetermined value. It is.

【0008】請求項2の発明は、文書画像の黒画素の連
結を追跡してその外接矩形を抽出し、抽出した外接矩形
の統合により行を切り出し、各行毎に単独の外接矩形及
び複数の外接矩形の組み合わせよりなる文字パターン候
補を生成して文字認識を行ない、各文字パターン候補を
その認識結果の評価によって最終的に文字パターンとし
て切り出すか否かを判定する文字切り出し方法において
、各行毎に、外接矩形のサイズ情報に基づいて標準文字
幅を算出し、この標準文字幅と各外接矩形の幅とを比較
することにより接触文字に対応する外接矩形を検出し、
検出した外接矩形に対しては、行と垂直の方向の射影を
求めて、射影値が所定値以下となる位置で当該外接矩形
を分割する処理を行ない、当該処理後の外接矩形を文字
パターン候補の生成に用いることを特徴とするものであ
る。
The invention of claim 2 traces the connection of black pixels of a document image, extracts its circumscribed rectangle, cuts out lines by integrating the extracted circumscribed rectangles, and extracts a single circumscribed rectangle and a plurality of circumscribed rectangles for each line. In a character extraction method that generates character pattern candidates consisting of a combination of rectangles, performs character recognition, and determines whether each character pattern candidate should be finally extracted as a character pattern by evaluating the recognition results, for each line, A standard character width is calculated based on the size information of the circumscribed rectangle, and a circumscribed rectangle corresponding to the touching character is detected by comparing this standard character width with the width of each circumscribed rectangle.
For the detected circumscribed rectangle, the projection in the direction perpendicular to the line is obtained, the circumscribed rectangle is divided at positions where the projection value is less than or equal to a predetermined value, and the circumscribed rectangle after this processing is used as a character pattern candidate. It is characterized by being used to generate.

【0009】請求項3の発明は、請求項1または2の発
明の文字切り出し方法において、各行中の外接矩形の高
さの最大値に基づいて標準文字幅を算出することを特徴
とするものである。
The invention of claim 3 is characterized in that in the character cutting method of the invention of claim 1 or 2, a standard character width is calculated based on the maximum height of a circumscribed rectangle in each line. be.

【0010】0010

【作用】請求項1の発明によれば、接触文字の外接矩形
の判定基準に用いるための標準文字幅を、文書の文字サ
イズに適応させることができるため、マルチサイズの日
本語文書などにおいても接触文字を確実に切り出すこと
ができる。また、行毎に標準文字幅を算出するため、行
毎に文字サイズが変動する文書にも対応できる。
[Operation] According to the invention of claim 1, the standard character width used as a criterion for determining the circumscribed rectangle of touching characters can be adapted to the character size of the document, so that even multi-sized Japanese documents can be used. Touch characters can be cut out reliably. In addition, since the standard character width is calculated for each line, it is possible to handle documents in which the font size varies from line to line.

【0011】請求項2の発明によれば、文字認識結果を
文字切り出しにフィードバックするため、本質的にマル
チサイズ・不定ピッチの日本語文書などに対する文字切
り出し精度が優れているうえに、各行の文字サイズに適
応化された標準文字幅を用いて接触文字の外接矩形を検
出し、その分離を行なうことにより、接触文字の切り出
し精度が一層向上する。
According to the invention of claim 2, since the character recognition result is fed back to the character extraction, the accuracy of character extraction for Japanese documents of essentially multi-size and irregular pitch is excellent, and the characters in each line are By detecting the circumscribed rectangle of the touching character using a standard character width adapted to the size and separating it, the accuracy of cutting out the touching character is further improved.

【0012】請求項3の発明によれば、外接矩形の幅な
どと違って、文書のスキューによる影響が少ない外接矩
形の高さの最大値を標準文字幅の算出に用いるため、ス
キューに左右されることなく、接触文字の高精度の切り
出しが可能である。
According to the third aspect of the present invention, the maximum height of the circumscribing rectangle, which is less affected by the skew of the document, unlike the width of the circumscribing rectangle, is used to calculate the standard character width. It is possible to cut out touching characters with high precision without any trouble.

【0013】[0013]

【実施例】本発明の一実施例について、その装置構成を
図1に、処理フローを図2にそれぞれ示し、処理の流れ
に沿って説明する。
[Embodiment] An embodiment of the present invention will be explained along with the apparatus configuration shown in FIG. 1 and the processing flow shown in FIG. 2, respectively.

【0014】スキャナなどの2値画像入力装置11によ
り文書(あるいは帳票)の画像を読み取り、その2値イ
メージデータをイメージメモリ12に格納する(ステッ
プ51)。このイメージデータの全体あるいは一部領域
毎に、外接矩形抽出部13において黒画素の連結を追跡
し、連結成分を包含する外接矩形を抽出し、その座標な
どのデータを外接矩形メモリ14に格納し、このデータ
を参照し行切り出し部15において、行方向及び行と垂
直な方向の距離が小さい外接矩形を統合して行の範囲を
抽出し、1行単位にイメージをイメージメモリ12より
切り出して行画像メモリ16に格納する(ステップ52
)。
An image of a document (or form) is read by a binary image input device 11 such as a scanner, and the binary image data is stored in the image memory 12 (step 51). For each entire or partial area of this image data, a circumscribed rectangle extraction unit 13 traces connections of black pixels, extracts a circumscribed rectangle that includes the connected components, and stores data such as its coordinates in a circumscribed rectangle memory 14. Referring to this data, the line cutting unit 15 extracts the range of lines by integrating circumscribed rectangles with small distances in the line direction and in the direction perpendicular to the lines, cuts out the image line by line from the image memory 12, and extracts the line from the image memory 12. Store in image memory 16 (step 52
).

【0015】黒画素連結の追跡による矩形抽出では、黒
画素連結の成分が外接矩形として抽出されるため、極端
に小さなものが含まれ、抽出された外接矩形をそのまま
用いて文字パターンの候補を生成すると処理効率が悪い
。そこで、文字パターン候補生成の前処理として、文字
塊切り出し部17で、外接矩形の座標値や間隔などを参
照して、同一の文字あるいは文字の部分に属すると見做
し得るような接近した外接矩形を統合する処理を行ない
、この統合処理後の矩形を文字塊として切り出し、その
座標などのデータを文字塊メモリ18に格納する(ステ
ップ53)。文字塊は、文字パターンそのものである場
合と、文字パターンの一部である場合とがある。
[0015] In rectangle extraction by tracing black pixel connections, components of black pixel connections are extracted as circumscribed rectangles, so extremely small items are included, and character pattern candidates are generated using the extracted circumscribed rectangles as they are. This results in poor processing efficiency. Therefore, as a pre-processing for character pattern candidate generation, the character chunk cutting unit 17 refers to the coordinate values and spacing of the circumscribed rectangles, and extracts close circumscribed rectangles that can be considered to belong to the same character or character part. A process of integrating the rectangles is performed, the rectangle after the integration process is cut out as a character block, and data such as its coordinates are stored in the character block memory 18 (step 53). A character block may be a character pattern itself or a part of a character pattern.

【0016】この統合処理は、例えば次のように行なわ
れる。行の高さの3分の2よりも幅の大きな外接矩形を
全角矩形とし、隣合う全角矩形の間隔の最小値の半分の
値を最小文字間隔として求める。また、外接矩形の幅の
最大値を最大文字幅として求める。そして、抽出された
外接矩形の中で、間隔が最小文字間隔以下のものを統合
する。ただし、統合後の幅が最大文字幅を越えないよう
にする。
This integration process is performed, for example, as follows. A circumscribed rectangle with a width greater than two-thirds of the height of a line is defined as a full-width rectangle, and a value half the minimum value of the distance between adjacent full-width rectangles is determined as the minimum character spacing. Also, the maximum value of the width of the circumscribed rectangle is determined as the maximum character width. Then, among the extracted circumscribed rectangles, those whose spacing is less than or equal to the minimum character spacing are integrated. However, make sure that the width after merging does not exceed the maximum character width.

【0017】標準文字幅算出部19において、文字塊メ
モリ18のデータを参照し、1行中の文字塊の高さの最
大値を検出し、この値を、または、この値に補正係数を
乗じるなどして補正した値を、当該行の標準文字幅とし
て標準文字幅メモリ20に格納する(ステップ54)。 なお、幅とは行方向のサイズを、高さとは行と垂直な方
向のサイズを、それぞれ意味する。
The standard character width calculation unit 19 refers to the data in the character block memory 18, detects the maximum height of character blocks in one line, and multiplies this value or this value by a correction coefficient. The corrected value is stored in the standard character width memory 20 as the standard character width for the line (step 54). Note that width means the size in the row direction, and height means the size in the direction perpendicular to the rows.

【0018】接触文字判別部21において、文字塊メモ
リ18を参照し、1行中の文字塊の幅と、標準文字幅メ
モリ20に得られた当該行の標準文字幅の2倍値とを比
較し、標準文字幅の2倍値を越える幅を持つ文字塊を接
触文字の文字塊として検出し、そのイメージを行画像メ
モリ16より切り出し接触文字画像メモリ22に格納す
る(ステップ55)。そして、このイメージに対して、
接触文字分離部23は行に垂直な方向の射影をとり、射
影値(黒画素のヒストグラム)が所定の閾値以下の位置
で、当該接触文字の文字塊を分割し、文字塊メモリ18
の対応データを修正する(ステップ56,57)。図3
は、接触した「日」と「本」の分離の様子を示している
In the touching character discrimination section 21, the character block memory 18 is referred to, and the width of the character block in one line is compared with the double value of the standard character width of the line obtained in the standard character width memory 20. Then, a character block having a width exceeding twice the standard character width is detected as a character block of contact characters, and its image is cut out from line image memory 16 and stored in contact character image memory 22 (step 55). And for this image,
The touching character separation unit 23 takes a projection in the direction perpendicular to the line, divides the character block of the touching character at a position where the projection value (histogram of black pixels) is below a predetermined threshold value, and stores the character block in the character block memory 18.
Corresponding data is corrected (steps 56, 57). Figure 3
shows the separation of ``day'' and ``book'' that came into contact.

【0019】文字パターン生成部17において、文字塊
メモリ18を参照し、行頭から行末へ(左から右へ)向
かって、文字塊を組み合わせて文字パターンの候補を生
成し、生成した各文字パターン候補を構成している文字
塊の組み合わせ情報と、そのイメージを文字パターンメ
モリ25に格納する(ステップ58)。ただし、組み合
わせ後のパターン幅が最大文字幅を越えないようにする
The character pattern generation unit 17 refers to the character block memory 18 and generates character pattern candidates by combining character blocks from the beginning of the line to the end of the line (from left to right), and each generated character pattern candidate The combination information of the character blocks constituting the character block and its image are stored in the character pattern memory 25 (step 58). However, make sure that the pattern width after combination does not exceed the maximum character width.

【0020】認識部22において、全ての文字パターン
候補に対し、特徴量を抽出して認識辞書の標準特徴量と
のマッチングを行ない認識果候補を求め、その文字コー
ドと距離及び総輪郭数を選択部27に送る(ステップ5
9)。
[0020] The recognition unit 22 extracts feature quantities for all character pattern candidates, performs matching with standard feature quantities in the recognition dictionary, obtains recognition result candidates, and selects the character code, distance, and total number of contours. Send to Department 27 (Step 5
9).

【0021】選択部27において、文字パターン候補の
文字認識結果の評価により、切り出すべき文字パターン
を確定する(ステップ60)。すなわち、文字パターン
メモリ25内の文字塊組み合わせ情報を参照することに
より、他の文字パターン候補と文字塊の重複がある文字
パターン候補について、その認識結果候補の距離を総輪
郭数で除した評価値を計算する。この評価値は、小さい
ぼと文字としての確からしさが高い。そして、文字塊が
重複した複数の文字パターン候補より、それぞれの評価
値に基づいて一つの文字パターン候補を文字パターンと
して確定し、その認識結果データを出力する。例えば、
文字塊の重複は、文字の部分パターンと、その統合パタ
ーンとの間で起こるので、各部分パターンの評価値の最
大値が統合パターンの評価値以上である場合に、統合パ
ターンである文字パターン候補を文字パターンとして切
り出し、逆の場合に部分パターンたる文字パターン候補
をそれぞれ文字パターンとして切り出す。文字塊の重複
がない文字パターン候補は、このような評価が不要であ
るので、そのまま文字パターンとして確定し、その認識
結果データを出力する。
The selection unit 27 determines the character pattern to be cut out by evaluating the character recognition results of the character pattern candidates (step 60). That is, by referring to the character block combination information in the character pattern memory 25, an evaluation value is calculated by dividing the distance of the recognition result candidate by the total number of contours for a character pattern candidate whose character blocks overlap with other character pattern candidates. Calculate. This evaluation value has a high probability of being a small bullet character. Then, one character pattern candidate is determined as a character pattern from among a plurality of character pattern candidates with overlapping character blocks based on the respective evaluation values, and the recognition result data is output. for example,
Overlapping of character blocks occurs between a character partial pattern and its integrated pattern, so if the maximum evaluation value of each partial pattern is greater than or equal to the evaluation value of the integrated pattern, a character pattern candidate that is an integrated pattern is cut out as a character pattern, and in the opposite case, each character pattern candidate that is a partial pattern is cut out as a character pattern. Character pattern candidates with no overlapping character blocks do not require such evaluation, so they are determined as character patterns as they are, and the recognition result data is output.

【0022】[0022]

【発明の効果】請求項1の発明によれば、マルチサイズ
の日本語文書などにおいても接触文字を確実に切り出す
ことができ、また、行毎に文字サイズが変動する文書に
も対応できる。
According to the invention as claimed in claim 1, it is possible to reliably cut out touching characters even in multi-sized Japanese documents, and it is also possible to cope with documents in which the character size varies from line to line.

【0023】請求項2の発明によれば、マルチサイズ・
不定ピッチの日本語文書などに対し、接触文字も含めた
文字切り出しを高精度に行なうことができる。
According to the invention of claim 2, the multi-size
Characters, including touching characters, can be extracted with high precision from Japanese documents with irregular pitches.

【0024】請求項3の発明によれば、スキューに左右
されない、接触文字の高精度切り出しが可能である。
According to the third aspect of the invention, it is possible to cut out touching characters with high precision without being affected by skew.

【図面の簡単な説明】[Brief explanation of drawings]

【図1】本発明の一実施例の装置構成を示すブロック図
である。
FIG. 1 is a block diagram showing the configuration of an apparatus according to an embodiment of the present invention.

【図2】本発明の一実施例の処理内容を示すフロー図で
ある。
FIG. 2 is a flow diagram showing the processing contents of an embodiment of the present invention.

【図3】接触文字分離の説明図である。FIG. 3 is an explanatory diagram of touching character separation.

【符号の説明】[Explanation of symbols]

11  2値画像入力装置             
 12  イメージメモリ 13  外接矩形抽出部              
  14  外接矩形メモリ 15  行切り出し部               
   16  行画像メモリ 17  文字塊切り出し部             
 18  文字塊メモリ 19  標準文字幅算出部             
 20  標準文字幅メモリ 21  接触文字判別部              
  22  接触文字画像メモリ 23  説職文字分離部              
  24  文字パターン生成部 25  文字パターンメモリ            
26  認識部27  選択部
11 Binary image input device
12 Image memory 13 Circumscribed rectangle extraction section
14 Circumscribed rectangle memory 15 Line cutting section
16 line image memory 17 character block extraction section
18 Character block memory 19 Standard character width calculation unit
20 Standard character width memory 21 Touch character discrimination section
22 Contact character image memory 23 Exhortation character separation section
24 Character pattern generation unit 25 Character pattern memory
26 Recognition section 27 Selection section

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】  文書画像上の黒画素の連結を追跡して
その外接矩形を抽出し、抽出した外接矩形の統合により
行を切り出し、各行毎に外接矩形を用いて文字を切り出
す文字切り出し方法において、各行毎に、外接矩形のサ
イズ情報に基づいて標準文字幅を算出し、この標準文字
幅と各外接矩形の幅とを比較することにより接触文字に
対応する外接矩形を検出し、検出した外接矩形に対して
は、行と垂直の方向の射影を求めて、射影値が所定値以
下となる位置で当該外接矩形を分割することを特徴とす
る文字切り出し方法。
Claim 1: A character extraction method that traces the connection of black pixels on a document image, extracts its circumscribed rectangle, extracts lines by integrating the extracted circumscribed rectangles, and extracts characters using the circumscribed rectangle for each line. , for each line, calculate the standard character width based on the size information of the circumscribed rectangle, detect the circumscribed rectangle corresponding to the touching character by comparing this standard character width with the width of each circumscribed rectangle, and calculate the detected circumscribed rectangle. For a rectangle, a character cutting method is characterized in that a projection in a direction perpendicular to a line is obtained and the circumscribed rectangle is divided at positions where the projection value is less than or equal to a predetermined value.
【請求項2】  文書画像上の黒画素の連結を追跡して
その外接矩形を抽出し、抽出した外接矩形の統合により
行を切り出し、各行毎に単独の外接矩形及び複数の外接
矩形の組み合わせよりなる文字パターン候補を生成して
文字認識を行ない、各文字パターン候補をその認識結果
の評価によって最終的に文字パターンとして切り出すか
否かを判定する文字切り出し方法において、各行毎に、
外接矩形のサイズ情報に基づいて標準文字幅を算出し、
この標準文字幅と各外接矩形の幅とを比較することによ
り接触文字に対応する外接矩形を検出し、検出した外接
矩形に対しては、行と垂直の方向の射影を求めて、射影
値が所定値以下となる位置で当該外接矩形を分割する処
理を行ない、当該処理後の外接矩形を文字パターン候補
の生成に用いることを特徴とする文字切り出し方法。
2. Track the connection of black pixels on a document image to extract its circumscribed rectangle, cut out lines by integrating the extracted circumscribed rectangles, and extract each line from a single circumscribed rectangle or a combination of multiple circumscribed rectangles. In a character extraction method that generates character pattern candidates, performs character recognition, and evaluates the recognition results to determine whether or not to finally extract each character pattern candidate as a character pattern, for each line,
Calculate the standard character width based on the size information of the circumscribed rectangle,
By comparing this standard character width with the width of each circumscribed rectangle, the circumscribed rectangle corresponding to the touching character is detected. For the detected circumscribed rectangle, the projection value is determined by calculating the projection in the direction perpendicular to the line. 1. A character cutting method characterized by performing a process of dividing the circumscribed rectangle at a position where the value is equal to or less than a predetermined value, and using the circumscribed rectangle after the process to generate a character pattern candidate.
【請求項3】  各行中の外接矩形の高さの最大値に基
づいて標準文字幅を算出することを特徴とする請求項1
または2記載の文字切り出し方法。
Claim 3: Claim 1, wherein the standard character width is calculated based on the maximum height of a circumscribed rectangle in each line.
Or the character cutting method described in 2.
JP3143884A 1991-05-20 1991-05-20 Character segmenting method of character recognizing device Pending JPH04343192A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3143884A JPH04343192A (en) 1991-05-20 1991-05-20 Character segmenting method of character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3143884A JPH04343192A (en) 1991-05-20 1991-05-20 Character segmenting method of character recognizing device

Publications (1)

Publication Number Publication Date
JPH04343192A true JPH04343192A (en) 1992-11-30

Family

ID=15349267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3143884A Pending JPH04343192A (en) 1991-05-20 1991-05-20 Character segmenting method of character recognizing device

Country Status (1)

Country Link
JP (1) JPH04343192A (en)

Similar Documents

Publication Publication Date Title
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US5410611A (en) Method for identifying word bounding boxes in text
Antonacopoulos Page segmentation using the description of the background
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP3345224B2 (en) Pattern extraction device, pattern re-recognition table creation device, and pattern recognition device
US8548246B2 (en) Method and system for preprocessing an image for optical character recognition
JPH05242292A (en) Separating method
JPH01253077A (en) Detection of string
KR100383858B1 (en) Character extracting method and device
JPH0410087A (en) Base line extracting method
JPH04343192A (en) Character segmenting method of character recognizing device
JPH0713994A (en) Character recognition device
JP4136257B2 (en) Character recognition device, character recognition method, and storage medium
JP3457094B2 (en) Character recognition device and character recognition method
Gayashan et al. Old sinhala newspaper article segmentation for content recognition using image processing
JP2728086B2 (en) Character extraction method
JP3157530B2 (en) Character extraction method
JPH0652358A (en) Character recognizing method
JP3428504B2 (en) Character recognition device
JP3220226B2 (en) Character string direction determination method
JPH04260980A (en) Device for recognizing graphic
JP2728085B2 (en) Character extraction method
JP2867382B2 (en) Font determination method in character recognition device
JPH07319998A (en) Character cutting method
JP2851102B2 (en) Character extraction method