JPH0327488A - Character recognizing device - Google Patents

Character recognizing device

Info

Publication number
JPH0327488A
JPH0327488A JP1160937A JP16093789A JPH0327488A JP H0327488 A JPH0327488 A JP H0327488A JP 1160937 A JP1160937 A JP 1160937A JP 16093789 A JP16093789 A JP 16093789A JP H0327488 A JPH0327488 A JP H0327488A
Authority
JP
Japan
Prior art keywords
character
coordinate
coordinates
value
input character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1160937A
Other languages
Japanese (ja)
Other versions
JP2827288B2 (en
Inventor
Toru Ishikawa
石河 融
Hiroshi Yoshida
浩史 吉田
Koichi Higuchi
浩一 樋口
Yoshiyuki Yamashita
山下 義征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP1160937A priority Critical patent/JP2827288B2/en
Publication of JPH0327488A publication Critical patent/JPH0327488A/en
Application granted granted Critical
Publication of JP2827288B2 publication Critical patent/JP2827288B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PURPOSE:To read even a business form in which characters of different character styles are mixed at high speed and at high precision by detecting an italic character by extracting feature point coordinate, and deciding the character style, and selecting a dictionary mask for collation based on a decided result. CONSTITUTION:An input character pattern is represented by X-Y coordinates system by giving X-coordinate and Y-coordinate to the picture element of the picture data of the input character pattern segmented by every one character. Then, the maximum and the minimum calculation values alphaX+betaY are detected by using X and Y coordinates and a specified values of alpha and beta, and the X and Y coordinates of the picture element of the input character pattern to give these maximum and minimum values are detected. Geometrical feature quantity is calculated based on the detected X and Y coordinates. The character style is decided based on the calculated feature quantity. A recognition diction ary mask corresponding to the decided character style is selected. The collation of the input character pattern is executed by using the selected dictionary mask, and an input character is identified. Thus, the business form containing plural character styles can be read at high speed.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、複数の字体の文字を含む帳票でも高速にかつ
精度よく読取ることのできる文字認識装置に関するもの
である。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a character recognition device that can read documents containing characters in a plurality of fonts at high speed and with high accuracy.

(従来の技術) 従来、文字認識装置においては、例えば、特公昭60−
38756号公報に開示されるものがあり、以下の構成
要素(a)〜(f)を具備して構成される。
(Prior Art) Conventionally, in character recognition devices, for example,
There is one disclosed in Japanese Patent No. 38756, which is configured with the following components (a) to (f).

(a)文字図形を光電変換して量子化することにより黒
ビット及び白ビットで表わされるディジタル信号の原パ
ターンを作成する。
(a) By photoelectrically converting and quantizing character figures, an original pattern of a digital signal represented by black bits and white bits is created.

(b)次に、該原パターンの線幅を算出する。(b) Next, calculate the line width of the original pattern.

(c)次に、前記原パターンを複数の方向に走査を行っ
て各走査列毎の黒ビットの連続個数を検出し、当該黒ビ
ットと連続個数を検出し、当該黒ビット連続個数と前記
線幅とに基づいて前記複数の走査方向毎に対応した複数
のサブパターンを抽出する。
(c) Next, the original pattern is scanned in a plurality of directions to detect the number of consecutive black bits for each scanning line, and the number of consecutive black bits and the number of consecutive black bits are detected, and the number of consecutive black bits and the line A plurality of sub-patterns corresponding to each of the plurality of scanning directions are extracted based on the width.

(d)次に、前記原パターンの文字枠内領域をサブパタ
ーンについて(NXM)個の領域(N,’Mは定数)に
分割し、該分割された領域内についてセルを単位として
黒点を計数した結果と各サブパターンの線幅とを基に特
徴量を計算する。
(d) Next, the region within the character frame of the original pattern is divided into (NXM) regions (N, 'M are constants) for the subpattern, and black points are counted in units of cells within the divided region. The feature amount is calculated based on the result and the line width of each sub-pattern.

(e)次に、該特徴量を文字の大きさで正視化して特徴
マトリクスを作成する。
(e) Next, a feature matrix is created by normalizing the feature amount using the character size.

(f)そして、該特徴マトリクスを予め用意した文字図
形パターンの標準文字マスクと照合して文字図形を認識
する。
(f) Then, the feature matrix is compared with a standard character mask of a character/figure pattern prepared in advance to recognize the character/figure.

このような文字認識装置において、複数の字体を含む帳
票、例えば第9図に示すような氏名や地名などを強調す
るため特定の単語だけイタリック体で印字されているよ
うな英文を認識する場合、予め認識対象となる全ての字
体の標準文字マスクを辞書マスクとして用意しておき、
前記全ての辞書マスクと入力文字図形を照合し、認識を
行う、という方法が広く用いられている。
When such a character recognition device recognizes a form that includes multiple fonts, for example, English text in which only specific words are printed in italics to emphasize names or place names, as shown in Figure 9, Prepare standard character masks for all fonts to be recognized as dictionary masks in advance,
A widely used method is to perform recognition by comparing all of the dictionary masks with input character figures.

(発明が解決しようとする課題) しかしながら、上記従来の方法では、辞書マトリクスの
数が字体の数に比例して大きくなり従って照合回数が増
大し、認識速度が大幅に低下し、更には認識精度の低下
を招くという問題点があった。
(Problems to be Solved by the Invention) However, in the conventional method described above, the number of dictionary matrices increases in proportion to the number of fonts, and the number of matching increases, resulting in a significant reduction in recognition speed, and furthermore, recognition accuracy. There was a problem in that it caused a decrease in .

本発明はこれらの問題点を解決するためのもので、高速
に複数の字体を含む帳票を読取ることができ、更には高
精度の読取り可能とする文字認識装置を提供することを
目的とする。
The present invention has been made to solve these problems, and an object of the present invention is to provide a character recognition device that can read forms containing a plurality of fonts at high speed and with high accuracy.

(発明が解決するための手段) 本発明は前記問題点を解決するために、媒体上の特徴抽
出対象を光電変換し量子化された画像データを得、該画
像データより1文字づつの文字パターンを切り出し、当
該切り出された入力文字パターンの字体の判定を行ない
、判定結果に基づいて認識辞書マスクの選択を行ない、
選択された辞書マスクを用いて入力文字パターンの照合
を行ない、文字を認識する文字認識装置において、1文
字づつ切り出された入力文字パターンの画像データの画
素にX座標を付与するX座標発生手段と、1文字づつ切
り出された入力文字パターンの画像データの画素にY座
標を付与するY座標発生手段と、X,Y座標と少なくと
も2組の特定のα値及びβ値とを用いて所定の画素値を
有する入力文字パターンの画素に関する最大及び最小の
計算値αX+βYを検出し、これら最大及び最小計算値
を与える入力文字パターンの画素のX,Y座標を検出す
る座標検出手段と、検出されたX,Y座標に基づき幾何
学的な特徴量を算出する特徴量算出手段とを有し、該特
徴量算出手段により算出された特徴量に基づいて字体の
判定を行なう字体判定部と、 判定された字体に対応する認識辞書マスクを選択する辞
書部と、 選択された辞書マスクを用いて入力文字パターンの照合
を行ない、文字を識別する識別部とを具備することに特
徴がある。
(Means for Solving the Invention) In order to solve the above-mentioned problems, the present invention photoelectrically converts the feature extraction target on the medium to obtain quantized image data, and from the image data, character patterns are created one by one. , determine the font of the extracted input character pattern, select a recognition dictionary mask based on the determination result,
In a character recognition device that recognizes characters by collating an input character pattern using a selected dictionary mask, , a Y-coordinate generation means for assigning a Y-coordinate to a pixel of image data of an input character pattern cut out one character at a time; coordinate detection means for detecting the maximum and minimum calculated values αX+βY for pixels of the input character pattern having values, and detecting the X, Y coordinates of the pixels of the input character pattern that give these maximum and minimum calculated values; , a feature amount calculation means for calculating a geometric feature amount based on the Y coordinate, and a font determination unit that determines the font based on the feature amount calculated by the feature amount calculation means; The present invention is characterized in that it includes a dictionary section that selects a recognition dictionary mask corresponding to a font, and an identification section that uses the selected dictionary mask to compare input character patterns and identify characters.

(作用) 以上のような構成を有する本発明によれば、1文字づつ
切り出された入力文字パターンの画像データの画素にX
座標及びY座標を付与して入力文字パターンをX−Y座
標系で表現する。そしてX,Y座標と少なくとも2組の
特定のα値及びβ値とを用いて所定の画素値を有する入
力文字パターンの画素に関する最大及び最小の計算値α
X十βYを検出し、これら最大及び最小計算値を与える
入力文字パターンの画素のX,Y座標を検出する。検出
されたX,Y座標に基づき幾何学的な特徴量を算出する
。算出された特徴量に基づいて字体の判定を行なう。判
定された字体に対応する認識辞書マスクが選択される。
(Operation) According to the present invention having the above configuration, X is applied to pixels of image data of an input character pattern cut out character by character.
The input character pattern is expressed in the X-Y coordinate system by assigning coordinates and Y coordinates. Then, using the X, Y coordinates and at least two specific sets of α and β values, calculate maximum and minimum values α for pixels of the input character pattern having a predetermined pixel value.
X and βY are detected, and the X and Y coordinates of the pixels of the input character pattern that give these maximum and minimum calculated values are detected. Geometric features are calculated based on the detected X and Y coordinates. The font is determined based on the calculated feature amount. A recognition dictionary mask corresponding to the determined font is selected.

選択された辞書マスクを用いて入力文字パターンの照合
を行ない、入力文字は識別される。
The input character pattern is matched using the selected dictionary mask, and the input character is identified.

したがって、本発明は前記問題点を解決でき、高速に複
数の字体を含む帳票を読取ることができ、更には高精度
の読取り可能とする文字認識装置を提供できる。
Therefore, the present invention can solve the above-mentioned problems, and can provide a character recognition device that can read forms containing a plurality of fonts at high speed and can also read documents with high accuracy.

(実施例) 以下、本発明の一実施例を図面に基づいて説明する。(Example) Hereinafter, one embodiment of the present invention will be described based on the drawings.

第1図は本発明の一実施例を示すブロック図である。同
図において、lOは文字認識装置、11は光電変換部、
12はラインバッファ、l3は文字切り出し部、l4は
パターンレジスタ、15は字体判定部、l6は辞書部、
l7は識別部、l8は出力端子である。
FIG. 1 is a block diagram showing one embodiment of the present invention. In the figure, IO is a character recognition device, 11 is a photoelectric conversion unit,
12 is a line buffer, l3 is a character cutting section, l4 is a pattern register, 15 is a font determining section, l6 is a dictionary section,
17 is an identification section, and 18 is an output terminal.

なお、出力端子18は、例えばコンピュータ等の外部機
器のデータ入力端子等に接続されるものであり、文字認
識の終了した文字名(例えばJISの文字コード)を出
力するものである。
The output terminal 18 is connected to, for example, a data input terminal of an external device such as a computer, and is used to output a character name (for example, a JIS character code) for which character recognition has been completed.

第2図(a)は文字行領域における2値画像データを示
す図、第2図(b)は2値画像データによる周辺分布を
示す図、第2図(c)は入力文字パターンの特徴値Fを
示す図、第2図(d)は入力文字パターンに対する認識
結果を示す図である。
Figure 2 (a) is a diagram showing binary image data in the character line area, Figure 2 (b) is a diagram showing the peripheral distribution of binary image data, and Figure 2 (c) is a diagram showing the characteristic values of the input character pattern. FIG. 2(d) is a diagram showing recognition results for input character patterns.

第3図は第1図の字体判定部15を示すブロック図であ
る。同図において、30はX座標発生手段、32はY座
標発生手段、34. 36は座標検出手段であり、座標
検出手段34はx+y計算手段34l、最大値検出手段
342、最大値座標保存手段343、最小値検出手段3
44及び最小値座標保存手段345を備え、また最小値
検出手段36はX−Y計算手段36l、最大値検出手段
362、最大値座標保存手段363、最小値検出手段3
64、最小値座標保存手段365を備える。38は特徴
算出手段である。
FIG. 3 is a block diagram showing the font determining section 15 of FIG. 1. In the figure, 30 is an X coordinate generating means, 32 is a Y coordinate generating means, 34. 36 is a coordinate detection means, and the coordinate detection means 34 includes an x+y calculation means 34l, a maximum value detection means 342, a maximum value coordinate storage means 343, and a minimum value detection means 3.
44 and minimum value coordinate storage means 345, and the minimum value detection means 36 includes an X-Y calculation means 36l, a maximum value detection means 362, a maximum value coordinate storage means 363, and a minimum value detection means 3.
64, minimum value coordinate storage means 365 is provided. 38 is a feature calculation means.

第4図は本実施例における最大値座標検出手段の動作を
示すフローチャートである。
FIG. 4 is a flowchart showing the operation of the maximum value coordinate detection means in this embodiment.

第5図は本実施例における最小値座標検出手段の動作を
示すフローチャートである。
FIG. 5 is a flowchart showing the operation of the minimum value coordinate detection means in this embodiment.

第6図は第1図の辞書l6の構成を示すブロック図であ
る。同図において、60は辞書選択部、61は第1の辞
書マトリクス、62は第2の辞書マトリクスである。
FIG. 6 is a block diagram showing the configuration of dictionary l6 in FIG. 1. In the figure, 60 is a dictionary selection section, 61 is a first dictionary matrix, and 62 is a second dictionary matrix.

第7図は本実施例の特徴点座標検出の原理的説明図であ
る。第7図(a)はローマン自体の標準タイブ、第7図
(b)はローマン自体のイタリックタイプである。
FIG. 7 is a diagram explaining the principle of feature point coordinate detection in this embodiment. FIG. 7(a) shows Roman's standard type, and FIG. 7(b) shows Roman's italic type.

第8図はローマン自体の標準タイプとローマン自体のイ
タリックタイプの標準文字パターンとその文字の辞書マ
トリクスの説明図である。
FIG. 8 is an explanatory diagram of standard character patterns of Roman's standard type and Roman's italic type, and a dictionary matrix of the characters.

第9図は本実施例に用いる文字が記載された帳票を示す
図である。
FIG. 9 is a diagram showing a form in which characters used in this embodiment are written.

第lO図(a)は入力書式テーブルの例を示す図、第l
O図(b)は入力書式テーブルを説明する図である。
Figure lO(a) is a diagram showing an example of an input format table,
Figure O (b) is a diagram illustrating the input format table.

以下、第1図から第lO図を用いて本実施例を詳細に説
明する。
Hereinafter, this embodiment will be explained in detail using FIGS. 1 to 10.

先ず、認識対象文字の入力文字パターンを得ることにつ
き説明する。第1図の光電変換部l1は、文字、図形等
(以下、文字と称する)が記載された帳票等の媒体から
の光信号(第1図中Sで示す)より文字行領域を検出し
、該文字行領域を光電変換し、文字線部を画素値「1」
の黒ビット及び背景部を画素値rOJの白ビットとして
各画素毎に2値のディジタル信号で表現した行画像デー
夕を得、ラインバッファ12に格納する。ここで、文字
行領域とは帳票上における文字が記載される1行分の領
域のことである。
First, obtaining an input character pattern of characters to be recognized will be explained. The photoelectric conversion unit l1 in FIG. 1 detects a character line area from an optical signal (indicated by S in FIG. 1) from a medium such as a form on which characters, figures, etc. (hereinafter referred to as characters) are written, The character line area is photoelectrically converted, and the character line part is set to a pixel value of "1".
The row image data expressed by a binary digital signal for each pixel is obtained by using the black bit and the background part as the white bit of the pixel value rOJ, and is stored in the line buffer 12. Here, the character line area is an area for one line in which characters are written on a form.

そして、ラインバツファl2は入力文字パターンの行画
像データにおける各画素の信号をこの領域の2次元座標
通りに再現できる形式で記憶し、128X4096画素
の大きさを持っているものである。
The line buffer l2 stores the signals of each pixel in the line image data of the input character pattern in a format that can reproduce the two-dimensional coordinates of this area, and has a size of 128×4096 pixels.

次に、文字切り出し部l3はラインバツファ12から行
画像データを読み込み、縦方向に走査を行ない黒点の分
布を作成する。黒点の分布のOから1以上に変化する点
より1以上からOに変化する点までを1つの文字予定領
域とし、パターンレジスタ14に入力文字パターンとし
て格納する。
Next, the character cutting section l3 reads the line image data from the line buffer 12, performs scanning in the vertical direction, and creates a distribution of black dots. The area from the point where the distribution of black dots changes from O to 1 or more to the point where it changes from 1 or more to O is defined as one character expected area, and is stored in the pattern register 14 as an input character pattern.

パターンレジスタl4は入力文字パターンの文字とて領
域における各画素の信号をこの領域の2次元座標とおり
に再現できる形式で記憶し、l28×128画素の大き
さを持っているものである。
The pattern register 14 stores the signals of each pixel in the character area of the input character pattern in a format that can reproduce the two-dimensional coordinates of this area, and has a size of 128×128 pixels.

パターンレジスタ14に格納されている入力パターンは
識別部l7及び字体判定部15に出力される。
The input pattern stored in the pattern register 14 is output to the identification section 17 and the font determination section 15.

次に、第1図の字体判定部l5における字体制御信号を
出力することにつき説明する。
Next, the output of the font control signal in the font determining section l5 of FIG. 1 will be explained.

字体判定部15はパターンレジスタl4から読み込む入
力文字パターンの字体を判定し、辞書部l6に字体判定
信号を出力する。なお、第3図におけるMはパターンレ
ジスタl4から読み込む、認識対象となる入力文字パタ
ーンを含む量子化画像データを示す。字体判定部15は
画像データMの画素にX座標を付与するためのX座標発
生手段30と、画像データMの画素にY座標を付与する
ためのY座標発生手段32と、前記X,Y座標と少なく
とも2組の特定のα値及びβ値とを用いて入力文字パタ
ーンの画素に関する最大及び最小の計算値αX十βYを
検出し、これら最大及び最小計算値を与えるパターンの
画素のX,Y座標をそれぞれ特徴点座標として出力する
ための座標検出手段34. 36と、入力文字パターン
の字体判定を行なうための幾何学的特徴量を特徴点座標
に基づき算出する特徴量算出手段38を備えている。
The font determining section 15 determines the font of the input character pattern read from the pattern register l4, and outputs a font determining signal to the dictionary section l6. Note that M in FIG. 3 indicates quantized image data containing an input character pattern to be recognized, which is read from the pattern register l4. The font determining unit 15 includes an X coordinate generating means 30 for assigning an X coordinate to a pixel of the image data M, a Y coordinate generating means 32 for assigning a Y coordinate to a pixel of the image data M, and the X, Y coordinates. and at least two sets of specific α and β values to detect the maximum and minimum calculated values αX + βY for the pixels of the input character pattern, and calculate the Coordinate detection means 34 for outputting coordinates as feature point coordinates. 36, and feature amount calculating means 38 for calculating a geometric feature amount for determining the font of an input character pattern based on the feature point coordinates.

また、座標検出手段34は、計算値aX+βYを1l 12 算出する計算手段341と、最大計算値を検出するため
の最大値検出手段342と、最大計算値を与える画素の
X,Y座標を保存するための最大値座標保存手段343
と、再承知計算値を検出するための最小値検出手段34
4と、最小計算値を与える画素のX,Y座標を保存する
ための最小値座標保存手段345とを備えている。座標
検出手段36もまたこの座標検出手段362と最大値座
標保存手段363と再承知検出手段364と最小値座標
保存手段365とを備えている。
Further, the coordinate detection means 34 includes a calculation means 341 for calculating the calculated value aX+βY, a maximum value detection means 342 for detecting the maximum calculated value, and a storage for storing the X and Y coordinates of the pixel giving the maximum calculated value. Maximum value coordinate storage means 343 for
and a minimum value detection means 34 for detecting the re-acceptance calculated value.
4, and minimum value coordinate storage means 345 for storing the X, Y coordinates of the pixel that gives the minimum calculated value. The coordinate detection means 36 also includes a coordinate detection means 362, a maximum value coordinate storage means 363, a reacknowledgement detection means 364, and a minimum value coordinate storage means 365.

本実施例では、(α=β=1)及び(α=1.β=−1
)の2組のα及びβ値をX+Y及びX−Yに関する最大
及び最小計算値を与える画素の座標により、傾きを検出
し、辞書選択のための信号を辞書部l6へ出力するので
2個の座標検出手段34. 36を備える構成となって
いる。座標検出手段34にあっては計算値X+Yに関す
る、及び座標検出手段36にあっては計算値X−Yに関
する、最大及び最小計算値を与える画素の座標を検出す
る。
In this example, (α=β=1) and (α=1.β=-1
), the inclination is detected using the pixel coordinates that give the maximum and minimum calculated values for X+Y and X-Y, and a signal for dictionary selection is output to the dictionary section l6, so two Coordinate detection means 34. 36. The coordinate detecting means 34 detects the coordinates of the pixel giving the maximum and minimum calculated values regarding the calculated value X+Y, and the coordinate detecting means 36 regarding the calculated value X-Y.

以下に第1図の字体判定部15について第4図及び第5
図を用いて詳細に説明する。
The font determination unit 15 in FIG. 1 will be explained below in FIGS. 4 and 5.
This will be explained in detail using figures.

[座標検出手段34に着目した説明] (x+yの最大
値及び最小値検出方法の説明) 第1図のパターンレジスタl4より読み込まれる(ステ
ップ401)入力文字パターンは、画素毎に最大値検出
手段342及び最小値検出手段344に入力される。こ
れと共に、X座標発生手段30及びY座標発生手段32
は、画像データMの出力と同期させてこのデータMのそ
れぞれの画素毎に対応付けたX,Y座標を発生する。そ
の結果、これら発生手段30. 32によって画像デー
タMにX,Y座標の付与が行なわれる。そして出力され
たX,Y座標は計算手段34l、最大値座標保存手段3
43及び最小値座標保存手段345に入力される(ステ
ップ402)。計算手段341はX,Y座標を入力する
と、これらX,Y座標から計算値X+Yを算出し、算出
した計算値を最大値検出手段342及び最小値検出手段
344に対し出力する(ステップ403)。
[Explanation focusing on the coordinate detection means 34] (Explanation of the maximum value and minimum value detection method of x+y) The input character pattern read from the pattern register l4 in FIG. and is input to the minimum value detection means 344. Along with this, the X coordinate generating means 30 and the Y coordinate generating means 32
generates X and Y coordinates associated with each pixel of the data M in synchronization with the output of the image data M. As a result, these generating means 30. 32, X and Y coordinates are assigned to the image data M. The output X, Y coordinates are calculated by the calculation means 34l and the maximum value coordinate storage means 3.
43 and the minimum value coordinate storage means 345 (step 402). When the calculation means 341 receives the X and Y coordinates, it calculates a calculated value X+Y from these X and Y coordinates, and outputs the calculated value to the maximum value detection means 342 and the minimum value detection means 344 (step 403).

このステップ402〜403によって、最大値検出千段
342は画像デークM及び計算値を、最小値検出手段3
44は画像データM及び計算値を、最大値座標保存手段
343はX,Y座標を、最小値座標保存手段345はX
,Y座標を、それぞれl画素毎に入力する。そして、座
標検出手段が後述のステップ404,405,405あ
るいは407の判断を1画素毎に繰り返し行ない、その
判断結果に応じた動作を行なう。
Through these steps 402 and 403, the maximum value detection stage 342 transfers the image data M and the calculated value to the minimum value detection means 3.
44 stores image data M and calculated values, maximum value coordinate storage means 343 stores X and Y coordinates, and minimum value coordinate storage means 345 stores X and Y coordinates.
, Y coordinates are input for each l pixel. Then, the coordinate detection means repeatedly performs the determination in steps 404, 405, 405, or 407, which will be described later, for each pixel, and performs an operation according to the determination result.

特にステップ404では、最大値検出手段342及び最
小値検出手段344は入力された画像データMの画素が
入力文字パターンM2の画素であるか否かを判断する。
In particular, in step 404, the maximum value detection means 342 and the minimum value detection means 344 determine whether the pixels of the input image data M are the pixels of the input character pattern M2.

この判断は、入力された画素の画素値が入力文字パター
ンM2を意味する所定の画素値(この実施例では画素値
「1」)であるか否かを判断することによって行なう。
This determination is made by determining whether the pixel value of the input pixel is a predetermined pixel value (pixel value "1" in this embodiment) indicating the input character pattern M2.

所定の画素値を有するときには、最大値検出手段342
はステップ404の次に比較値及び計算値の比較をステ
ップ405で、及び最小値検出手段344はステップ4
04の次に比較値及び計算値の比較をステップ501で
行なう。
When it has a predetermined pixel value, the maximum value detection means 342
In step 404, the comparison value and the calculated value are compared in step 405, and the minimum value detection means 344 is in step 4.
After step 04, the comparison value and the calculated value are compared in step 501.

ここでステップ405において ■計算値が比較値よりも大きいとき 最大値検出手段342は先に格納されている比較値に換
えて、比較値よりも大きい計算値を新たな比較値として
格納し(比較値の書き換え)、これと共にセットパルス
を最大値座標保存手段343に対し出力する。セットパ
ルスを入力した最大値座標保存手段343は格納されて
いるX,Y座標に換えて、比較値よりも大きな計算値を
与える画素のX,Y座標を新たに格納する(X,Y座標
の書換え)(ステップ406)。
Here, in step 405, ■ When the calculated value is larger than the comparison value, the maximum value detection means 342 replaces the previously stored comparison value and stores the calculated value larger than the comparison value as a new comparison value (comparison (value rewriting), and together with this, a set pulse is output to the maximum value coordinate storage means 343. The maximum value coordinate storage means 343 to which the set pulse has been input stores the X, Y coordinates of the pixel that gives a calculated value larger than the comparison value, instead of the stored X, Y coordinates. rewriting) (step 406).

■計算値が比較値よりも小さいかあるいは比較値と等し
いとき 最大値検出手段342は先に格納されている比較値を書
換えずにそのまま格納する共に、最大値座標保存手段3
43は格納されているX,Y座標を書換えない。
■When the calculated value is smaller than or equal to the comparison value, the maximum value detection means 342 stores the previously stored comparison value without rewriting it, and the maximum value coordinate storage means 3
43 does not rewrite the stored X, Y coordinates.

最大値検出手段342は上記■及び■のいずれの場合も
ステップ405の次にステップ407の判断を行なう。
The maximum value detection means 342 performs the determination in step 407 following step 405 in both cases (1) and (2) above.

l 5 1 6 なお、最大値検出手段342に格納される比較値の初期
値としては、例えば計算値αとして取り得る値よりも小
さな値を用いれば良い。例えばα=β=1であり画像デ
ータMをβ行m列の画素の分割した(従ってO≦X≦m
−1,及びO≦Y≦忍一1となる)場合には、例えば−
1を比較値の初期値とすることができる。あるいは一番
最初に入力された計算値αX+βYを用いるようにして
も良い。
l 5 1 6 Note that as the initial value of the comparison value stored in the maximum value detection means 342, for example, a value smaller than the value that can be taken as the calculated value α may be used. For example, α=β=1, and the image data M is divided into pixels of β rows and m columns (therefore, O≦X≦m
−1, and O≦Y≦Shinichi 1), for example, −
1 can be set as the initial value of the comparison value. Alternatively, the first input calculation value αX+βY may be used.

また最大値検出手段342が比較値及びX,Y座標の書
換えを計算値αX十βYが比較値よりも大きいとき及び
計算値が比較値と等しいときに行なうようにし、これと
ともに計算値が比較値よりも小さいとき比較値及びX,
Y座標の書換えを行なわないようにしても良い。
Further, the maximum value detection means 342 rewrites the comparison value and the X, Y coordinates when the calculated value αX + βY is larger than the comparison value and when the calculated value is equal to the comparison value. When it is smaller than the comparison value and X,
The Y coordinate may not be rewritten.

また最大値座標保存手段343のX,Y座標としては任
意好適な数値を用いて良い。
Furthermore, any suitable numerical values may be used as the X and Y coordinates of the maximum value coordinate storage means 343.

ここでステップ501において ■計算値が比較値よりも小さいとき 最小値検出手段344は先に格納されている比較値に換
えて比較値よりも小さい計算値を比較値として新たに格
納する(比較値の書き換え)と共に、最小値座標保存手
段345に対しセットパルスを出力する。最小値座標保
存手段345はセットパルスを入力すると、格納されて
いるX,Y座標を比較値よりも小さな計算値を与える画
素のX, Y座標に書換える(x,y座標の書換え)(
ステップ406)。
Here, in step 501, ■ When the calculated value is smaller than the comparison value, the minimum value detection means 344 replaces the previously stored comparison value with a new calculation value smaller than the comparison value and stores it as a comparison value (comparison value (rewriting), and outputs a set pulse to the minimum value coordinate storage means 345. When the minimum value coordinate storage means 345 receives a set pulse, it rewrites the stored X, Y coordinates to the X, Y coordinates of a pixel that gives a calculated value smaller than the comparison value (rewriting the x, y coordinates).
Step 406).

■計算値が比較値よりも小さいかあるいは比較値と等し
いとき 最小値検出手段344は先に格納されている比較値を書
換えずにそのまま格納する共に、最小値座標保存手段3
45は格納されているX,Y座標を書換えない。
■When the calculated value is smaller than or equal to the comparison value, the minimum value detection means 344 stores the previously stored comparison value without rewriting it, and the minimum value coordinate storage means 344 stores the previously stored comparison value as it is without rewriting it.
45 does not rewrite the stored X, Y coordinates.

最小値検出手段344は上記■及び■のいずれかの場合
にはステップ501の次にステップ407の判断を行な
う。
The minimum value detecting means 344 performs the determination in step 407 after step 501 in either of the cases (1) and (2) above.

尚、最小値検出手段344に格納される比較値の初期値
としては、例えば計算値αX+βYとして取り得る値よ
りも大きな値を用いれば良い。例えばα=β=1であり
、画像データMをβ行m列の画素に分割した(従って0
≦X≦m−1,及びO≦Y≦12−1となる)場合には
、例えばm+n一1を比較値の初期値とすることができ
る。あるいは比較値の初期値として最小値検出手段34
4に一番最初に入力された計算値αX+βYを用いるよ
うにしても良い。
Note that as the initial value of the comparison value stored in the minimum value detection means 344, for example, a value larger than the value that can be taken as the calculated value αX+βY may be used. For example, α = β = 1, and the image data M is divided into β rows and m columns of pixels (therefore, 0
≦X≦m−1 and O≦Y≦12−1), for example, m+n−1 can be set as the initial value of the comparison value. Alternatively, the minimum value detection means 34 is used as the initial value of the comparison value.
The calculated value αX+βY inputted first in step 4 may be used.

また最小値検出手段344は計算値が比較値よりも小さ
いとき及び計算値が比較値と等しいとき比較値及びX,
Y座標の書換えを行ない、これと共に計算値が比較値よ
りも大きいとき比較値及びX,T座標の書換えを行なわ
ないようにしても良い。
Further, the minimum value detection means 344 detects the comparison value and X, when the calculated value is smaller than the comparison value and when the calculated value is equal to the comparison value.
The Y coordinate may be rewritten, and at the same time, when the calculated value is larger than the comparison value, the comparison value and the X and T coordinates may not be rewritten.

また最小値座標保存手段345のX,Y座標として任意
好適な数値を用いて良い。
Furthermore, any suitable numerical values may be used as the X and Y coordinates of the minimum value coordinate storage means 345.

さらにステップ407において ■画像データMの走査が終了しないとき座標検出手段3
4は、画像データMの走査が終了せず、従ってデータM
の全ての画素につき処理が終了していなければ、画像デ
ータMの残りの画素につきステップ404, 405,
 501あるいは407の判断を行ない、その判断結果
に応じて動作する。
Furthermore, in step 407, ■ If the scanning of the image data M is not completed, the coordinate detection means 3
4, the scanning of the image data M is not completed, and therefore the data M
If processing has not been completed for all pixels of image data M, steps 404, 405,
It makes the judgment 501 or 407 and operates according to the judgment result.

■画像データMの走査が終了したとき 最大値検出手段342及び最小値検出手段344は画像
デークMの走査が終了しデータMのすべての画素につき
処理が終了すると、X,Y座標の出力信号を最大値座標
保存手段343及び最小値座標保存手段345に対して
出力する。この出力信号を入力した座標保存手段343
, 345は、格納しているX,Y座標を特徴点座標と
して出力する。これ共に検出手段342, 344は比
較値の初期化を行なう(ステップ408)。
■When the scanning of the image data M is completed, the maximum value detection means 342 and the minimum value detection means 344 output the output signals of It is output to the maximum value coordinate storage means 343 and the minimum value coordinate storage means 345. Coordinate storage means 343 into which this output signal is input
, 345 outputs the stored X, Y coordinates as feature point coordinates. In both cases, the detection means 342 and 344 initialize the comparison values (step 408).

全ての画素につき処理を終了した時点で、最大値座標保
存手段343及び最小値座標保存手段345に格納され
ているX,Y座標が最大及び最小計算値を与える画素の
X,Y座標すなわち特徴点座標となる。
When processing is completed for all pixels, the X, Y coordinates of the pixel whose X, Y coordinates stored in the maximum value coordinate storage means 343 and the minimum value coordinate storage means 345 give the maximum and minimum calculated values, that is, the feature point It becomes the coordinates.

座標検出手段34にあってはα=β=1としたので、全
処理終了時点で例えば第7図に示す入力文字パターンM
2の特徴点BRの座標が最大値座標保存l 9 2 0 手段343に格納されており、また特徴点TLの座標が
最小座標保存手段345に格納されている。
In the coordinate detection means 34, α=β=1, so at the end of all processing, the input character pattern M shown in FIG.
The coordinates of the second feature point BR are stored in the maximum value coordinate storage means 343, and the coordinates of the feature point TL are stored in the minimum coordinate storage means 345.

[座標検出手段36に着目した説明]  (X−Yの最
大値・最小値検出方法の説明) 座標検出手段36は、上述した座標検出手段34の動作
と並行して座標検出手段34と同様の動作を行なうので
、この検出手段36の動作説明を省略する。
[Explanation focusing on the coordinate detection means 36] (Explanation of X-Y maximum value/minimum value detection method) The coordinate detection means 36 performs the same operation as the coordinate detection means 34 in parallel with the operation of the coordinate detection means 34 described above. Since the detection means 36 operates in the following manner, a description of the operation of the detection means 36 will be omitted.

座標検出手段36にあっては、α=1及びβ=一lとし
たので、全ての画素につき処理を終了した時点で、例え
ば第7図に示す入力文字パターンM2の特徴点TRの座
標が最大値座標保存手段363に格納されており、また
特徴点BLの座標が最小値座標保存手段365に格納さ
れている。
In the coordinate detection means 36, since α=1 and β=1l, when processing is completed for all pixels, for example, the coordinates of the feature point TR of the input character pattern M2 shown in FIG. The coordinates of the feature point BL are stored in the value coordinate storage means 363, and the coordinates of the feature point BL are stored in the minimum value coordinate storage means 365.

入力文字パターンの特徴点をTL, BL, TR及び
BRの座標を用い、特徴値Fを下記の式(1)により算
出する。
Using the coordinates of TL, BL, TR, and BR for the feature points of the input character pattern, the feature value F is calculated using the following equation (1).

なお、式(1)において特徴点TL, BL, TR,
 BRのX座標をTLX, BLX, TRX , B
RXとして表わす。
Note that in equation (1), the feature points TL, BL, TR,
The X coordinate of BR is TLX, BLX, TRX, B
Expressed as RX.

F=k (I2(TLX−BLX)+m(TRX−BR
X)} ・・・式(1)式(1)中、k,β,mは任意
の定数である。
F=k (I2(TLX-BLX)+m(TRX-BR
X)}...Equation (1) In Equation (1), k, β, and m are arbitrary constants.

式(1)により算出されるFの下記の式(2)による条
件により、字体を判定し、辞書部l6に字体判定信号N
を出力する。
The font is determined according to the condition of the following formula (2) of F calculated by the formula (1), and the font determination signal N is sent to the dictionary section l6.
Output.

式(2)中、CIl C2は、固定閾値であり、任意に
変えることができる。
In equation (2), CIl C2 is a fixed threshold value and can be changed arbitrarily.

なお、本実施例では、出力する字体判定信号Nは、rl
l,r2J,r3Jの3種であるが、字体判定信号Nは
3種以外のものとなっても何ら差し支えない。
In addition, in this embodiment, the font determination signal N to be output is rl
There are three types, l, r2J, and r3J, but there is no problem even if the font determination signal N is other than the three types.

次に、入力文字パターンを識別し、結果を出力すること
について説明する。
Next, identifying an input character pattern and outputting the result will be described.

第1図の字体判定部15により出力された字体判定信号
Nは、辞書部l6へ出力され、字体判定信号Nに対応す
る辞書を選択する。
The font determination signal N output by the font determination section 15 in FIG. 1 is output to the dictionary section l6, and a dictionary corresponding to the font determination signal N is selected.

第6図の辞書部l6は、辞書選択部60、第1の辞書マ
トリクス61及び第2の辞書マトリクス62を備える。
The dictionary section l6 in FIG. 6 includes a dictionary selection section 60, a first dictionary matrix 61, and a second dictionary matrix 62.

本実施例では、辞書マトリクスは2つであるが、これは
3つ以上でも何ら差し支えない。
In this embodiment, there are two dictionary matrices, but there may be no problem with three or more dictionary matrices.

辞書選択部60は、字体判定部15から出力される字体
判定信号N=1,N=2,又はN=3に対応してそれぞ
れ第1の辞書マトリクス61,第2の辞書マトリクス6
2、又は第1,第2の辞書マトリクス61. 62を選
択し、選択した辞書マトリクスを識別部l7に対して出
力する。
The dictionary selection unit 60 selects a first dictionary matrix 61 and a second dictionary matrix 6 in response to the font determination signal N=1, N=2, or N=3 output from the font determination unit 15, respectively.
2, or the first and second dictionary matrices 61. 62 and outputs the selected dictionary matrix to the identification unit l7.

次に、識別部l7について説明する。Next, the identification section l7 will be explained.

識別部l7は、この入力文字パターンについて特徴抽出
処理及び入力文字パターンの認識を行なう。この特徴抽
出の方法は、従来公知の種々の方法を用いることができ
るが、本実施例の場合、以下に説明するような方法で行
なう。
The identification unit 17 performs feature extraction processing and recognition of the input character pattern for this input character pattern. Although various conventionally known methods can be used for this feature extraction method, in the case of this embodiment, the method described below is used.

先ず、入力文字パターンについて外接する方形枠を検出
し、これを文字枠とする。更に当該入力文字パターンに
ついて線幅Wを算出する。この線幅算出は、例えば下記
に示すような周知の近似式(3)を用いて行なうことが
できる。
First, a rectangular frame circumscribing the input character pattern is detected and used as a character frame. Furthermore, the line width W is calculated for the input character pattern. This line width calculation can be performed using, for example, the well-known approximation formula (3) shown below.

Vl=1/{1−(Q/A))     ・・・式(3
)ただし、式(3)において、Qは入力文字パターンを
構成する各点をこれらの点が(2X2)個づつの範囲で
見られる窓で分けたとき、この窓内の全ての点が黒ビッ
トとなる窓の個数であり、またAは文字枠内の黒ビット
の個数である。
Vl=1/{1-(Q/A))...Formula (3
) However, in equation (3), when Q is divided into a window in which each point constituting the input character pattern can be seen in a range of (2×2) points, all points within this window are black bits. is the number of windows, and A is the number of black bits in the character frame.

更に、この入力文字パターンを複数の方向に走査を行な
って各走査列毎の黒ビットの連続個数を検出し、この黒
ビット連続個数と上述の線幅とに基づいて上述の複数の
方向毎に対応したサブパターンをそれぞれ抽出する。そ
して、この入力文字パターンの文字枠内領域をサブパタ
ーンについて(NXM)個の領域(M,Nは定数)に分
割し、更に、各領域内の文字線長を表わす特徴量を、文
字を分割した領域毎に計算し、この特徴量を文字枠の大
きさで正視化して特徴マトリクスを得る。
Furthermore, this input character pattern is scanned in multiple directions to detect the number of consecutive black bits in each scanning line, and based on this number of consecutive black bits and the above-mentioned line width, the input character pattern is scanned in multiple directions. Extract each corresponding subpattern. Then, the region within the character frame of this input character pattern is divided into (N The feature values are calculated for each area, and the feature values are normalized using the size of the character frame to obtain a feature matrix.

本実施例では、特徴量を、(Δχ十ΔY)/2なる値で
除することによって正視化する。ここで、ΔXは文字枠
の水平方向長さ、ΔYは垂直方向長さである。
In this embodiment, the feature amount is divided by a value of (Δχ + ΔY)/2 for normal viewing. Here, ΔX is the horizontal length of the character frame, and ΔY is the vertical length.

識別部l7は、このようにして抽出した特徴マト2 3 2 4 リクスと、辞書部16より出力される、辞書選択後の辞
書マトリクスとの照合を行ない、最も類似度が大きな値
を示した辞書マトリクスに対応する文字名(JISコー
ド等)を出力端子l8を介して外部装置に出力する。
The identification unit 17 compares the feature matrix 2 3 2 4 extracted in this way with the dictionary matrix after dictionary selection output from the dictionary unit 16, and selects a dictionary that shows the largest value of similarity. The character name (JIS code, etc.) corresponding to the matrix is output to an external device via the output terminal l8.

なお、本実施例の場合上述した類似度は、以下に示す式
(4)に基づいて求めている。
In the case of this embodiment, the above-mentioned similarity is calculated based on equation (4) shown below.

但し、式(4)において、Rは類似度、f,は入力文字
・パターン、g1は辞書内に格納させてある辞書マトリ
クスをそれぞれ示し、また、i =1. 2, 3,・
・・,NXMである。
However, in equation (4), R is the degree of similarity, f is the input character/pattern, g1 is the dictionary matrix stored in the dictionary, and i = 1. 2, 3,・
..., NXM.

次に、本実施例において第1図に沿って具体的に説明す
る。
Next, the present embodiment will be specifically explained with reference to FIG. 1.

先ず、文字が記された、例えば第9図に示すような帳票
は画像データSとして光電変換部11に入力される。光
電変換部1lでは帳票の各文字領域を検出し、行単位で
光電変換し、2値のディジタル画像データに変換し、ラ
インバッファl2に格納する。前記行領域の検出は、本
実施例では予め光電変換部11に設定されている第10
図(a)に示す入力書式テーブルを参照して順次行なう
ものとする。
First, a form with characters written on it, for example as shown in FIG. 9, is input as image data S to the photoelectric conversion section 11. The photoelectric conversion unit 1l detects each character area of the form, photoelectrically converts it line by line, converts it into binary digital image data, and stores it in the line buffer l2. In this embodiment, the detection of the row area is performed using the 10th line area set in advance in the photoelectric conversion unit 11.
It is assumed that the steps are performed sequentially with reference to the input format table shown in FIG.

前記入力書式テーブルには第10図(b)に示すように
第1行目の行領域の帳票の上端及び左端からの距離行領
域の大きさ、行ピッチ及び行数が記録されている。
As shown in FIG. 10(b), the input format table records the distance of the first line area from the top and left edges of the form, the size of the line area, the line pitch, and the number of lines.

第2図(a)及び第2図(b)に示すように、ラインバ
ッファl2から読み込まれた2値のディジタル信号であ
る行画像データは、文字切り出し部13黒点の分布のO
から1以上に変化する点より1以上からOへ変化する点
までを、文字予定領域として行画像データから検出し、
128 Xl28画素の入力文字パターンを抽出する。
As shown in FIGS. 2(a) and 2(b), the line image data, which is a binary digital signal read from the line buffer l2, has a distribution of black points in the character cutout portion 13.
Detecting from the line image data from the point where the character changes from 1 or more to the point where the character changes from 1 or more to O as the expected character area,
128 Xl Extracts an input character pattern of 28 pixels.

この入力文字パターンは、一文字毎にパターンレジスタ
l4に格納される。
This input character pattern is stored character by character in the pattern register l4.

パターンレジスタl4から入力文字パターンを読み込ん
だ字体判定部l5は、入力文字パターンの128 X1
2g画素に、X座標及びY座標をそれぞれ付与し、入力
文字パターンの画素に関する最大及び最小の計算値αX
+βYを検出し、これら最大及び最小計算値を与える特
徴点座標を抽出する。
The font determining unit l5 that reads the input character pattern from the pattern register l4 determines the 128 X1 of the input character pattern.
Assign an X coordinate and a Y coordinate to each 2g pixel, and calculate the maximum and minimum calculated values αX for the pixels of the input character pattern.
+βY is detected, and feature point coordinates that give these maximum and minimum calculated values are extracted.

本実施例では、特徴点を検出するためのα及びβは(α
=1,β=1)と(α=1,β=−1)の2組とし、前
記計算値による特徴点座標は第7図(a)では、TL=
 (0, O) , BL= (0, 4?) ,TR
= (42, O) ’+ BR= (42. 47)
 、第7図(b)では、TL= (8, O) , B
L= (0. 47) , TR=(42, O) ,
 BR= (35. 47)である。前記特徴点座標に
より式(1)を用いて特徴値Fを算出する。
In this example, α and β for detecting feature points are (α
= 1, β = 1) and (α = 1, β = -1), and the feature point coordinates based on the calculated values are TL =
(0, O), BL= (0, 4?), TR
= (42, O) '+ BR= (42. 47)
, In Fig. 7(b), TL= (8, O) , B
L= (0.47), TR=(42, O),
BR=(35.47). A feature value F is calculated using equation (1) based on the feature point coordinates.

このとき、本実施例では定数k, j2, mはそれぞ
れ(k=局,氾=1,m=1)であり、また固定しきい
値C,=5.0 , C2=3、0である。前記条件に
より算出される特徴値は、第7図(a)ではF=0であ
り、第7図(b)ではF=7.5である。
At this time, in this embodiment, the constants k, j2, and m are respectively (k=station, flood=1, m=1), and the fixed threshold values C,=5.0, C2=3, 0. . The characteristic value calculated under the above conditions is F=0 in FIG. 7(a), and F=7.5 in FIG. 7(b).

従って、式(2)により、第9図の帳票が入力された場
合、第2図(C)に示す値Fが算出され、F>C,の入
力文字パターンについては字体判定信号N=lがF<C
2の入力文字パターンは字体判定信号N=2が、辞書部
l6の辞書選択部60に出力される。本実施例では、M
,Y,N,A,M,E,I,Sに対してはN=2を出力
し、第1の辞書マトリクス6lを選択する。
Therefore, according to equation (2), when the form shown in Figure 9 is input, the value F shown in Figure 2 (C) is calculated, and for the input character pattern where F>C, the font judgment signal N = l F<C
For input character pattern No. 2, a font determination signal N=2 is output to the dictionary selection section 60 of the dictionary section l6. In this example, M
, Y, N, A, M, E, I, and S, N=2 is output and the first dictionary matrix 6l is selected.

識別部17は、パターンレジスタl4から読み込まれる
入力文字パターンの水平、垂直、右斜め、左斜めの4方
向について サブパターンを線幅に抽出し、それぞれの
サブパターンを、文字枠内領域についてNXMに分割す
る。本実施例では5×5である。各領域において、文字
線長を表わす特徴量を計算し、特徴マトリクスを得る。
The identification unit 17 extracts sub-patterns into line widths in four directions (horizontal, vertical, diagonal right, and diagonal left) of the input character pattern read from the pattern register l4, and converts each sub-pattern into NXM for the area within the character frame. To divide. In this embodiment, it is 5×5. In each region, a feature amount representing the character line length is calculated to obtain a feature matrix.

この特徴マトリクスと、第8図(a)及び第8図(b)
に示すような、字体判定され選択された辞書マトリクス
との照合を行ない、最も類似度が大きい値を示した辞書
マトリクスに対応する文字名(jIsコード等)を出力
端子l8を介して図示していない外部装置に出力する。
This feature matrix and FIGS. 8(a) and 8(b)
The character name (jIs code, etc.) corresponding to the dictionary matrix that shows the largest similarity value is shown through the output terminal l8 by comparing it with the dictionary matrix that has been selected after font determination, as shown in FIG. Output to an external device that is not available.

(発明の効果) 以上説明したように、本発明によれば、帳票上の各文字
の文字線を有する各画素に対してαX+2 7 2 8 βY及びαX−βYの最大及び最小の計算値を算出し、
特徴点座標を抽出することにより、イタリック体等の斜
体文字を検出し、入力文字パターンの字体の判定を行な
って判定結果に基づき照合するための辞書マスクを選択
している。したがって、辞書マスクは選択された辞書マ
スクとのみ照合を行なうため、照合に要する時間が短く
なり、字体の異なる文字が混在する帳票も高速に精度よ
く読み取ることの可能な文字認識装置を実現できる。
(Effects of the Invention) As explained above, according to the present invention, the maximum and minimum calculated values of αX+2 7 2 8 βY and αX-βY are calculated for each pixel having a character line of each character on a form. death,
By extracting feature point coordinates, italicized characters such as italics are detected, the font of the input character pattern is determined, and a dictionary mask for comparison is selected based on the determination result. Therefore, since the dictionary mask is compared only with the selected dictionary mask, the time required for the comparison is shortened, and it is possible to realize a character recognition device that can read documents containing a mixture of characters with different fonts at high speed and with high accuracy.

【図面の簡単な説明】[Brief explanation of drawings]

第l図は本発明の一実施例を示すブロック図、第2図(
a)は文字行領域における2値画像データを示す図、第
2図(b)は2値画像データによる周辺分布を示す図、
第2図(c)は入力文字パターンの特徴値Fを示す図、
第2図(d)は入力文字パターンに対する認識結果を示
す図、第3図は第1図の字体判定部l5を示すブロック
図、第4図は本実施例における最大値座標検出手段の動
作を示すフローチャート、第5図は本実施例における最
小値座標検出手段の動作を示すフローチャート、第6図
は第1図の辞書l6の構成を示すブロック図、第7図(
a)はローマン自体の標準タイプの入力文字パターンと
特徴点座標を示す図、第7図(b)はローマン自体のイ
タリックタイプの入力文字パターンと特徴点座標を示す
図、第8図はローマン自体の標準タイプとローマン自体
のイタリックタイプの標準文字パターンとその文字の辞
書マトリクスの説明図、第9図は本実施例に用いる文字
が記載された帳票を示す図、第lO図(a)は入力書式
テーブルの例を示す図、第lO図(b)は入力書式テー
ブルを説明する図である。 10・ 1l・ 12・ l3・ l4・ l5・ l6・ 文字認識装置、 光電変換部、 ラインバッファ、 文字切り出し部、 パターンレジスタ、 字体判定部、 辞書部、 17・・・識別部、 l8・・・出力端子。
Figure 1 is a block diagram showing one embodiment of the present invention, Figure 2 (
a) is a diagram showing binary image data in a character line area, FIG. 2(b) is a diagram showing peripheral distribution by binary image data,
FIG. 2(c) is a diagram showing the feature value F of the input character pattern,
FIG. 2(d) is a diagram showing the recognition result for the input character pattern, FIG. 3 is a block diagram showing the font determining unit l5 of FIG. 1, and FIG. 4 is a diagram showing the operation of the maximum value coordinate detection means in this embodiment. 5 is a flowchart showing the operation of the minimum value coordinate detection means in this embodiment, FIG. 6 is a block diagram showing the configuration of the dictionary l6 in FIG. 1, and FIG.
a) is a diagram showing the standard type input character pattern and minutiae coordinates of Roman itself, Figure 7 (b) is a diagram showing the italic type input character pattern and minutiae coordinates of Roman itself, and Figure 8 is Roman itself. An explanatory diagram of the standard character pattern of the standard type and the italic type of Roman itself and the dictionary matrix of the characters, Figure 9 is a diagram showing the form in which the characters used in this example are written, and Figure 1O (a) is the input FIG. 10(b), which is a diagram showing an example of a format table, is a diagram illustrating an input format table. 10, 1l, 12, l3, l4, l5, l6, character recognition device, photoelectric conversion unit, line buffer, character extraction unit, pattern register, font determination unit, dictionary unit, 17... identification unit, l8... Output terminal.

Claims (3)

【特許請求の範囲】[Claims] (1)媒体上の特徴抽出対象を光電変換し量子化された
画像データを得、該画像データより1文字づつの文字パ
ターンを切り出し、当該切り出された入力文字パターン
の字体の判定を行ない、判定結果に基づいて認識辞書マ
スクの選択を行ない、選択された辞書マスクを用いて入
力文字パターンの照合を行ない、文字を認識する文字認
識装置において、 1文字づつ切り出された前記入力文字パターンの画像デ
ータの画素にX座標を付与するX座標発生手段と、 1文字づつ切り出された前記入力文字パターンの画像デ
ータの画素にY座標を付与するY座標発生手段と、 前記X、Y座標と少なくとも2組の特定のα値及びβ値
とを用いて所定の画素値を有する前記入力文字パターン
の画素に関する最大及び最小の計算値αX+βYを検出
し、これら最大及び最小計算値を与える前記入力文字パ
ターンの画素のX、Y座標を検出する座標検出手段と、 検出されたX、Y座標に基づき幾何学的な特徴量を算出
する特徴量算出手段とを有し、該特徴量算出手段により
算出された特徴量に基づいて字体の判定を行なう字体判
定部と、 判定された字体に対応する認識辞書マスクを選択する辞
書部と、 選択された辞書マスクを用いて入力文字パターンの照合
を行ない、文字を識別する識別部とを具備することを特
徴とする文字認識装置。
(1) Obtain quantized image data by photoelectrically converting the feature extraction target on the medium, cut out a character pattern one character at a time from the image data, judge the font of the cut out input character pattern, and make a judgment. A recognition dictionary mask is selected based on the result, the input character pattern is collated using the selected dictionary mask, and the image data of the input character pattern is extracted one character at a time in a character recognition device that recognizes characters. X coordinate generation means for assigning an X coordinate to a pixel of the input character pattern; Y coordinate generation means for assigning a Y coordinate to a pixel of the image data of the input character pattern cut out character by character; and at least two sets of the X and Y coordinates. Detect maximum and minimum calculated values αX+βY for pixels of the input character pattern having a predetermined pixel value using specific α and β values of the pixels of the input character pattern that give these maximum and minimum calculated values. a coordinate detection means for detecting the X, Y coordinates of the object; and a feature amount calculation means for calculating geometric feature amounts based on the detected X, Y coordinates, and the features calculated by the feature amount calculation means. A font determination unit that determines the font based on the amount, a dictionary unit that selects a recognition dictionary mask corresponding to the determined font, and a character identification unit that uses the selected dictionary mask to match input character patterns and identify characters. 1. A character recognition device comprising: an identification unit.
(2)前記座標検出手段において、α=β=1及びα=
1、β=−1の2組の前記α値及びβ値とを用いて所定
の画素値を有する前記入力文字パターンの画素に関する
最大及び最小の計算値X+Y及びX−Yを検出し、これ
ら最大及び最小計算値を与える前記入力文字パターンの
画素のX、Y座標を検出する請求項1記載の文字認識装
置。
(2) In the coordinate detection means, α=β=1 and α=
1. Detect the maximum and minimum calculated values X+Y and X−Y regarding the pixels of the input character pattern having a predetermined pixel value using the two sets of α and β values with β=−1, and calculate the maximum and 2. The character recognition device according to claim 1, further comprising detecting the X and Y coordinates of pixels of the input character pattern that give the minimum calculated value.
(3)前記特徴量算出手段において、前記検出された座
標におけるX+Yの最大値のX座標をTRX、最小値の
X座標をBLX、X−Yの最大値のX座標をBRX、最
小値のx座標をTLXとし、特徴量FはF=k{l(T
LX−BLX)+m(TRX−BRX)}(但し、k、
l、mは任意の定数である) により算出される請求項2記載の文字認識装置。
(3) In the feature quantity calculation means, the X coordinate of the maximum value of X+Y in the detected coordinates is TRX, the X coordinate of the minimum value is BLX, the X coordinate of the maximum value of X-Y is BRX, and the minimum value x The coordinates are TLX, and the feature amount F is F=k{l(T
LX-BLX)+m(TRX-BRX)} (however, k,
3. The character recognition device according to claim 2, wherein l and m are arbitrary constants.
JP1160937A 1989-06-26 1989-06-26 Character recognition device Expired - Lifetime JP2827288B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1160937A JP2827288B2 (en) 1989-06-26 1989-06-26 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1160937A JP2827288B2 (en) 1989-06-26 1989-06-26 Character recognition device

Publications (2)

Publication Number Publication Date
JPH0327488A true JPH0327488A (en) 1991-02-05
JP2827288B2 JP2827288B2 (en) 1998-11-25

Family

ID=15725461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1160937A Expired - Lifetime JP2827288B2 (en) 1989-06-26 1989-06-26 Character recognition device

Country Status (1)

Country Link
JP (1) JP2827288B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598102A (en) * 2020-05-28 2020-08-28 北京轨道交通路网管理有限公司 Method and device for detecting superimposed characters

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598102A (en) * 2020-05-28 2020-08-28 北京轨道交通路网管理有限公司 Method and device for detecting superimposed characters
CN111598102B (en) * 2020-05-28 2023-08-22 北京轨道交通路网管理有限公司 Method and device for detecting superimposed characters

Also Published As

Publication number Publication date
JP2827288B2 (en) 1998-11-25

Similar Documents

Publication Publication Date Title
US4933984A (en) Document analysis system
CA1160347A (en) Method for recognizing a machine encoded character
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
JP3139521B2 (en) Automatic language determination device
US5696841A (en) Image processing method and apparatus for extracting vertically and horizontally written text
US5394484A (en) Image recognition apparatus
US5235653A (en) Document analysis system
EP1010128B1 (en) Method for performing character recognition on a pixel matrix
JPH0327488A (en) Character recognizing device
JPH0333990A (en) Optical character recognition device and method using mask processing
JP2626084B2 (en) Character recognition device
JP2582611B2 (en) How to create a multi-font dictionary
JP2902097B2 (en) Information processing device and character recognition device
JP3083609B2 (en) Information processing apparatus and character recognition apparatus using the same
JP2918363B2 (en) Character classification method and character recognition device
JP2993533B2 (en) Information processing device and character recognition device
JP2708604B2 (en) Character recognition method
JP2616995B2 (en) Character recognition device
JPS6343788B2 (en)
JP2867382B2 (en) Font determination method in character recognition device
JPH11120291A (en) Pattern recognition system
JPH03222082A (en) Character recognizing device
JP3345469B2 (en) Word spacing calculation method, word spacing calculation device, character reading method, character reading device
JP2962525B2 (en) Text block recognition method
JP2972443B2 (en) Character recognition device