JPS6336037B2 - - Google Patents

Info

Publication number
JPS6336037B2
JPS6336037B2 JP54020435A JP2043579A JPS6336037B2 JP S6336037 B2 JPS6336037 B2 JP S6336037B2 JP 54020435 A JP54020435 A JP 54020435A JP 2043579 A JP2043579 A JP 2043579A JP S6336037 B2 JPS6336037 B2 JP S6336037B2
Authority
JP
Japan
Prior art keywords
category
end position
characters
quantization
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54020435A
Other languages
Japanese (ja)
Other versions
JPS55112687A (en
Inventor
Yukio Hoshino
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP2043579A priority Critical patent/JPS55112687A/en
Publication of JPS55112687A publication Critical patent/JPS55112687A/en
Publication of JPS6336037B2 publication Critical patent/JPS6336037B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は、ある文字の前後の文字情報や、ある
文字を含む行の平均的な文字情報を利用して判定
する機能を持たせた文字認識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a character recognition device having a function of making a determination using character information before and after a certain character or average character information of a line including a certain character.

文字を認識する場合、活字に対しては、入力文
字を2値のメツシユパターンに量子化して、各メ
ツシユに適当なウエイトを持たせたり、あるいは
認識に必要なメツシユだけを選んで構成された標
準パターンとを重ね合わせて類似度あるいは相違
度を求めてカテゴリー名を判定する手法が一般に
行われている。
When recognizing characters, for printed text, the input characters are quantized into a binary mesh pattern and each mesh is given an appropriate weight, or only the meshes necessary for recognition are selected. A commonly used method is to determine the category name by superimposing standard patterns and determining the degree of similarity or dissimilarity.

ところが、印字文字の大きさとか字形が規定す
ることができない場合は、困難な問題がある。そ
の1つには英大文字と英小文字の区別の問題で、
(C、c)、(O、o)、(P、p)、(S、s)、(
U、
u)、(V、v)、(W、w)、(X、x)、(Z、z

の区別がその例である。また、英小文字と数字で
は、Qの小文字のqと、数字の9、が形が似てい
るため区別が困難な場合がある。
However, a difficult problem arises when the size and shape of printed characters cannot be specified. One of them is the issue of distinguishing between uppercase and lowercase letters.
(C, c), (O, o), (P, p), (S, s), (
U,
u), (V, v), (W, w), (X, x), (Z, z
)
An example is the distinction between Furthermore, when it comes to lowercase letters and numbers, the lowercase letter q in Q and the number 9 are similar in shape, so it may be difficult to distinguish them.

本発明の目的は、英大文字、小文字、数字から
なる文字列中に含まれる特定文字を認識する場合
に、前後の文字の予め定められたカテゴリーの文
字の高さとか位置等の情報を参照することにより
判定を可能とした文字認識方式を提供することに
ある。
The purpose of the present invention is to refer to information such as the height and position of characters in predetermined categories of the preceding and following characters when recognizing a specific character included in a character string consisting of uppercase letters, lowercase letters, and numbers. The object of the present invention is to provide a character recognition method that enables determination based on the above.

本発明は帳票中の文字を2値の量子化パターン
に量子化し、1文字毎の量子化パターンに分離す
る量子化分離手段と、前記量子化パターンPiの上
端位置Ti及び下端位置Biを検出する上下端位置検
出手段と、前記量子化パターンPiを予め用意され
た標準パターンと照合してカテゴリー名Ciを決定
するカテゴリ判定手段と、前記カテゴリー名Ci
前記上端位置Ti及び前記下端位置Biを組にして、
文字順に記憶するバツフアーと、前記カテゴリー
名Ciが予め定められたカテゴリー集合SAに属する
場合の高さの平均α、及び前記カテゴリー名Ci
予め定められたカテゴリー集合Saに属する場合の
高さ平均βとを求める平均高さ検出手段と、前記
バツフアー内のカテゴリー名Ciが予め定められた
カテゴリー集合SPに属する時、前記カテゴリーCi
の最も近くに検出されるカリゴリー集合SBに属す
るカテゴリーCoの最上端位置To及び最下端位置
Boと、前記カテゴリー名Ci、前記最上端位置Ti
び最下端位置Biと、前記高さα及びβとを用い
て、前記カテゴリー名Ciを認定するか変更する突
出判定手段とによつて構成されたことを特徴とす
る文字認識方式である。また本発明は帳票中の文
字を2値の量子化パターンに量子化し、1文字毎
の量子化パターンに分離する量子化分離手段と、
前記量子化パターンPiの上端位置Ti及び下端位置
Biを検出する上下端位置検出手段と、前記量子化
パターンPiを予め用意された標準パターンと照合
してカテゴリー名Ciを決定するカテゴリ判定手段
と、前記カテゴリー名Ci前記上端位置Ti及び前記
下端位置Biを組にして、文字順に記憶するバツフ
アーと、前記カテゴリー名Ciが予め定められたカ
テゴリ集合SAに属する場合の高さの平均α、及
び前記カテゴリー名Ciが予め定められたカテゴリ
集合Saに属する場合の高さの平均βとを求める平
均高さ検出手段と、前記バツフア内のカテゴリー
名Ciが予め定められたカテゴリー集合Scに属する
時に、前記上端位置Ti前記下端位置Bi前記高さ平
均α及びβとの比較によつて、カテゴリー名Ci
認定または変更する大小判定手段と、前記バツフ
ア内のカテゴリ名Ciが予め定められたカテゴリー
集合SPに属する時前記カテゴリCiの最も近くに検
出されるカテゴリー集合SBに属するカテゴリCo
の最上端位置To及び最下端位置Boと、前記カテ
ゴリー名Ci前記最上端位置Ti及び最下端位置Bi
と、前記高さ平均α及びβとを用いて、前記カテ
ゴリー名Ciを認定するか変更する突出判定手段と
によつて構成されたことを特徴とする文字認識方
式である。
The present invention provides a quantization separation means for quantizing characters in a form into binary quantization patterns and separating them into quantization patterns for each character, and an upper end position T i and a lower end position B i of the quantization pattern P i . upper and lower end position detection means for detecting the upper and lower end positions; category determination means for determining a category name C i by comparing the quantization pattern P i with a standard pattern prepared in advance ;
The upper end position T i and the lower end position B i are set as a set,
Buffers to be stored in alphabetical order, average height α when the category name C i belongs to a predetermined category set S A , and average height α when the category name C i belongs to a predetermined category set S a . an average height detection means for calculating a height average β; and when a category name C i in the buffer belongs to a predetermined category set S P , the category C i
The uppermost position T o and the lowermost position of the category C o belonging to the caligorie set S B detected closest to
B o , the category name C i , the top end position T i and the bottom end position B i , and the heights α and β, using protrusion determining means for recognizing or changing the category name C i ; This is a character recognition method characterized by being constructed by. The present invention also provides quantization separation means for quantizing characters in a form into binary quantization patterns and separating them into quantization patterns for each character;
Upper end position T i and lower end position of the quantization pattern P i
upper and lower end position detection means for detecting B i ; category determining means for determining a category name C i by comparing the quantization pattern P i with a standard pattern prepared in advance; i and the lower end position B i are stored as a set in alphabetical order, the average height α when the category name C i belongs to a predetermined category set S A , and the category name C i average height detection means for determining the average height β when belonging to a predetermined category set S a ; a size determining means for certifying or changing a category name C i by comparing the position T i with the lower end position B i and the height average α and β; and a category name C i in the buffer that is a predetermined category. A category C o belonging to the category set S B that is detected closest to the category C i when belonging to the set S P
the top end position T o and the bottom end position B o , and the category name C i , the top end position T i and the bottom end position B i
and a prominence determining means for recognizing or changing the category name C i using the height averages α and β.

第1図は、本発明の文字認識方式の1実施例を
示すブロツク図である。
FIG. 1 is a block diagram showing one embodiment of the character recognition system of the present invention.

第1図の91は、帳票上の印字された文字を走
査して黒部分を“1”、紙の白地部分を“0”の
ように2値パターンに変換し、1文字づつ分離す
る量子化分離回路である。92は、1文字づつに
分離された量子化パターンの最上位にある“1”
の高さ位置を最上端Tとし、最下位にある“1”
の高さ位置を最下端Bとして検出して、レジスタ
95の一部にセツトする文字の最上端最下端検出
回路である。座標は、上部から順に0、1、2、
3…と与えられるとする。この実現手段は、例え
ば特公昭43−126により可能である。93は、標
準パターン記憶装置に記憶された標準パターンの
各々を量子化パターンと重ね合わせて相違度(類
似度でも良い)を求めて最も相違度の小さい標準
パターンの名前を判定カテゴリー名としてレジス
タ95に出力するカテゴリ判定回路である。この
実現手段は、一例として特開昭50−156322号公報
によつても可能である。マルチプレクサ5では、
カテゴリ判定回路が動作している間は信号線90
7上の信号によつて、レジスタ95の内容を通す
ようになつており、レジスタ95に、カテゴリ判
定回路による判定カテゴリが設定されると、アド
レスカウンタ8で指定されるバツフア6の番地
に、レジスタ95の内容が、信号線905上の書
き込み信号により書き込まれる。帳票上の1行が
走査される前に、バツフア6及びアドレスカウン
タ8は、制御部9からの信号901S(信号90
1から送られる信号を示す。以下、信号線lmn上
の信号を、lmnSで表わす)によつてリセツトさ
れており、マルチプレクサ7は、アドレスカウン
タ8の内容を通すように制御される。1文字が認
識される度に、アドレスカウンタ8の内容が信号
902Sによつて1づつ増加され、入力の量子化
パターンの最上端、最下端、判定カテゴリ名が、
バツフア6の異る番地に1行分遂次記憶される。
91 in Figure 1 is a quantization method that scans the characters printed on a form, converts them into a binary pattern such as "1" for black parts and "0" for white parts of the paper, and separates each character one by one. It is a separate circuit. 92 is “1” at the top of the quantization pattern separated into individual characters.
The height position of is the top end T, and “1” is at the bottom.
This is a character uppermost and lowermost end detection circuit which detects the height position of B as the lowest end B and sets it in a part of the register 95. The coordinates are 0, 1, 2, starting from the top.
Suppose that 3... is given. This realization means is possible, for example, in Japanese Patent Publication No. 43-126. A register 93 superimposes each of the standard patterns stored in the standard pattern storage device with the quantized pattern to determine the degree of dissimilarity (or similarity), and stores the name of the standard pattern with the smallest degree of dissimilarity as the judgment category name in the register 95. This is a category judgment circuit that outputs This implementation means can also be achieved by, for example, Japanese Patent Laid-Open No. 156322/1983. In multiplexer 5,
While the category judgment circuit is operating, the signal line 90
The contents of the register 95 are passed through according to the signal on the register 95, and when the category judged by the category judgment circuit is set in the register 95, the register 95 is passed through at the address of the buffer 6 specified by the address counter 8. The contents of 95 are written by a write signal on signal line 905. Before one line on the form is scanned, the buffer 6 and address counter 8 receive a signal 901S (signal 90
1 shows the signal sent from 1. The signal on the signal line lmn is hereinafter referred to as lmnS), and the multiplexer 7 is controlled to pass the contents of the address counter 8. Every time one character is recognized, the contents of the address counter 8 are incremented by 1 by the signal 902S, and the top end, bottom end, and judgment category name of the input quantization pattern are
One line is sequentially stored at different addresses in the buffer 6.

第2図は本願の動作を具体的に示すための図で
ある。第2図aは、Susan opened the box
quicklyという文章を量子化分離回路91で量子
化した場合の各文字の上端位置、下端位置を示す
ためのものである。上から0、1、2、…20…40
…60…80…99というように、0〜99の100個のメ
ツシユに分けられる。例えば、最初のSは、上端
位置Tは20、下端位置Bは60の40メツシユの間に
入つていて、openのpの文字は上端位置Tは40、
下端位置Bは80になつている。
FIG. 2 is a diagram specifically showing the operation of the present application. Figure 2 a shows Susan opened the box.
This is to show the upper and lower end positions of each character when the sentence "quickly" is quantized by the quantization separation circuit 91. 0, 1, 2,…20…40 from top
...It is divided into 100 meshes numbered 0 to 99, such as 60...80...99. For example, the first S is between 40 meshes with the top position T at 20 and the bottom position B at 60, and the character P in open is at the top position T at 40,
The lower end position B is 80.

このような量子化された入力文字列は上下端位
置検出回路92によつて、各文字の上端位置Ti
(iはi番目の文字を表わす)、下端位置Biが求め
られ、カテゴリ判定回路93によつて、各文字の
カテゴリCiが認識されて出力される。このカテゴ
リ判定回路は、Sとs、Uとuのように形が同じ
で大きさのみ異るカテゴリの時には大文字と小文
字の区別は出来ないもので、判定出力として、大
文字がなされるものとする。第2図bは、aの入
力文字列に対応したレジスタ6の内容を示す。単
純化するため、Ti、Biは、15、20、40、60、80の
いずれかにした。quicklyのqは、英字小文字の
qと、数字9とが判定不可として併記されてい
る。
Such a quantized input character string is detected by the upper and lower end position detection circuit 92 to determine the upper end position T i of each character.
(i represents the i-th character), the lower end position B i is determined, and the category determination circuit 93 recognizes and outputs the category C i of each character. This category judgment circuit cannot distinguish between uppercase and lowercase letters when the categories are the same in shape but differ in size, such as S and s, or U and u, so uppercase letters are output as the judgment output. . FIG. 2b shows the contents of the register 6 corresponding to the input character string a. For simplicity, T i and B i were set to 15, 20, 40, 60, or 80. The q in "quick" is written with the lowercase alphabetic letter q and the number 9, which cannot be determined.

バツフア6には、1行分貯えられると、マルチ
プレクサ10において信号線904上の信号によ
つて、レジスタ12、及び13が選ばれ、アドレ
スカウンタ8は、信号901Sによつて、クリア
される。検索回路14は、レジスタ12のカテゴ
リー名部によつて指定されるメモリ141の内容
(1または0)が読み出され、内容が“1”の時、
検索信号“1”と、レジスタ12の内容である最
上端及び最下端位置とが、平均値計算回路16に
入力される。メモリ141では、大文字
ABCDEFGHIJKLMNQRTY、小文字
bdghklpqy、数字1.2.3.4.5.6.7.8.9.に対応するアド
レスの内容が1となつている。平均値計算回路1
6では、判定カテゴリがこれらのカテゴリー名
(以下、カテゴリ集合SAと呼ぶ。すなわちこのカ
テゴリ集合SAには、英数字の中で、縦方向の文
字幅が大きい文字が含まれる。)の時に量子化パ
ターンの高さ(上端と下端の表)を加え合わせ
る。そしてバツフア6の内容を読み出し終つた
ら、検索回路14からの出力信号“1”の和で、
高さの和を割つて平均を求めて、カテゴリー集合
SAの文字の高さαとする。
When buffer 6 stores data for one row, registers 12 and 13 are selected in multiplexer 10 by a signal on signal line 904, and address counter 8 is cleared by signal 901S. The search circuit 14 reads out the content (1 or 0) of the memory 141 specified by the category name part of the register 12, and when the content is "1",
The search signal “1” and the contents of the register 12, that is, the uppermost and lowermost positions, are input to the average value calculation circuit 16. In memory 141, uppercase letters
ABCDEFGHIJKLMNQRTY, lowercase
bdghklpqy, the content of the address corresponding to the number 1.2.3.4.5.6.7.8.9. is 1. Average value calculation circuit 1
6, when the judgment category is these category names (hereinafter referred to as category set S A. In other words, this category set S A includes characters with the largest vertical character width among alphanumeric characters). Add the heights of the quantization pattern (top and bottom tables). After reading out the contents of the buffer 6, the sum of the output signals "1" from the search circuit 14 is
Divide the sum of heights to find the average and set the category.
Let the height of the character S A be α.

第2図bのレジスタ6のカテゴリCiのうちで、
レジスタ14から“1”を出力させるものは、第
2図cに示すように左から順にq、d、h、b、
q、k、l、yの7文字である。これらの高さ
は、全て、Bi−Ti=40であるから、カテゴリ集
合SAの文字の高さ平均αも40となる。
Among the categories C i of register 6 in Figure 2b,
The registers 14 that output "1" are q, d, h, b, in order from the left as shown in FIG.
There are 7 characters: q, k, l, and y. Since all these heights are Bi-Ti=40, the average height α of the characters in the category set S A is also 40.

レジスタ13、検索回路15、メモリ151、
平均値計算回路17は、レジスタ12、検索回路
14、メモリ141、平均値計算回路16に夫々
対応する。但し、メモリ151には、小文字の
a、e、m、n、r、(以下、カテゴリ集合Sa
呼ぶ。すなわちこのカテゴリ集合Saには、英字の
中で縦方向の文字幅か小さい文字が含まれる。)
に対応するアドレスの内容が“1”となつている
ので、平均値計算回路17では、カテゴリー集合
Saの文字の高さβを求めることになる。
register 13, search circuit 15, memory 151,
The average value calculation circuit 17 corresponds to the register 12, the search circuit 14, the memory 141, and the average value calculation circuit 16, respectively. However, the memory 151 stores lowercase letters a, e, m, n, r, (hereinafter referred to as category set S a . In other words, this category set S a contains letters with the smallest vertical character width among alphabetic characters. (includes)
Since the content of the address corresponding to is "1", the average value calculation circuit 17 calculates the category set.
We will find the height β of the character S a .

第2図bのレジスタ6のカテゴリCiのうちで、
レジスタ15から“1”を出力させるものは、第
2図dに示すように、左からa、n、e、n、
e、eの6文字である。これらの高さは、全て、
Bi−Ti=20であるから、カテゴリ集合Saの文字の
高さ平均βも20となる。(大文字のPと小文字の
p)あるいは、(小文字のqと、数字の9)等は
形も大きさも殆んど同一であるがこれらの文字の
最下端Bが、近くに並んでいる特定のカテゴリ集
合の文字、例えば大文字A、B、C、D、E、
F、G…Y、Z、小文字のabcdeh、i、k、l、
m、n、o、r、s、t、u、v、w、x、zの
うちの1つの文字の最下端よりも下方につきでて
いないなら(この条件を満たす文字の集合をカテ
ゴリ集合SBと呼ぶ)、大文字のP、つきでていれ
ば小文字のpと判定することが出来る。具体的に
は、アドレスカウンタ8は、リセツトされて、バ
ツフア6から読み出しを開始する。制御信号90
4は、今度はレジスタ30に読み出された情報を
送るようにマルチプレクサ10を制御する。レジ
スタ30のカテゴリー部の内容がメモリ310に
登録された大文字P、数字9等カテゴリ集合SP
(形、大きさが同じ他の英数字があり、それらと
は文字の位置のみが異なつている英数字の集合)
のカテゴリであれば、検索回路31から信号
“1”が信号線32に出力される。信号線32は
制御部9に接続されており、制御部9は、アドレ
スカウンタ8の内容を、アドレスカウンタ50及
び60にセツトする。アドレスカウンタ50は、
信号51Sによつて1つづつ増加するようになつ
ており、アドレスカウンタ60は信号61Sによ
つて1つづつ減少するようになつている。アドレ
スカウンタ50,60のオーバフローは信号52
S,62Sを通じて制御部9がチエツクする。ア
ドレスカウンタ50の内容が1つ増加した後、マ
ルチプレクサ7では、信号53Sをバツフア6の
アドレスとし、アドレスカウンタ60の内容が1
つ減少した後、マルチプレクサ7では信号63S
をバツフア6のアドレスとするように、且つ、信
号53Sと63Sとは交互に発生される。アドレ
スカウンタ50と60とは交互に選ばれるように
制御信号903が発生される。
Among the categories C i of register 6 in Figure 2b,
As shown in FIG. 2d, the registers 15 output "1" from the left: a, n, e, n,
There are 6 characters: e and e. All these heights are
Since B i −T i =20, the average height β of the characters in the category set S a is also 20. (uppercase P and lowercase p) or (lowercase q and number 9), etc., are almost the same in shape and size, but the bottom B of these letters is the same as the specific Letters from category sets, such as uppercase letters A, B, C, D, E,
F, G...Y, Z, lowercase letters abcdeh, i, k, l,
If one of the characters m, n, o, r, s, t, u, v, w, x, z does not appear below the bottom edge (the set of characters that meet this condition is defined as a category set S B ), an uppercase P, and a lowercase P if it appears. Specifically, the address counter 8 is reset and starts reading from the buffer 6. control signal 90
4 controls multiplexer 10 to send the read information to register 30 in turn. The contents of the category section of the register 30 are registered in the memory 310 as a category set S P such as the capital letter P and the number 9.
(A set of alphanumeric characters that have the same shape and size as other alphanumeric characters, but differ only in the position of the characters)
, the search circuit 31 outputs a signal “1” to the signal line 32. The signal line 32 is connected to the control section 9, and the control section 9 sets the contents of the address counter 8 to the address counters 50 and 60. The address counter 50 is
The address counter 60 is incremented by one by the signal 51S, and the address counter 60 is decremented by one by the signal 61S. Overflow of the address counters 50, 60 is signal 52
The control unit 9 checks through S and 62S. After the content of the address counter 50 increases by one, the multiplexer 7 sets the signal 53S to the address of the buffer 6, and the content of the address counter 60 increases by one.
After the signal 63S has been decreased by
is the address of the buffer 6, and the signals 53S and 63S are generated alternately. A control signal 903 is generated so that address counters 50 and 60 are selected alternately.

マルチプレクサ10では、制御信号904によ
つて、バツフア6から読まれたデータは、レジス
タ40にセツトされる。レジスタ40のカテゴリ
ー部の内容がメモリ410に登録された前述した
A、B…YZ、abcdeh、i、k、l、m、n、
o、r、s、t、u、v、w、x、zといつたカ
テゴリー集合SBの内のものであるかを、検索回路
41がチエツクし、登録されたものであれば、信
号線42に“1”を出力する。アドレスカウンタ
50と60は交互に選ばれるので、信号線42に
“1”が出力されたということは、メモリ410
に登録されたカテゴリーの文字のうち、レジスタ
30にセツトされているカテゴリ名の文字の最近
辺にある文字が検索されたことを示している。検
索回路41から信号線42に“1”が出力される
と、突出し判定回路34では、レジスタ40の、
最下端位置Bo、レジスタ30のカテゴリー名Ci
下端位置Bi大文字の大きさを示すα、特定小文字
の大きさを示すβの情報及び0.2、0.3、0.4等の定
数を用いて、判定する。具体的には、 カリゴリ名Pで、Bi−Bo>0.3αまたはBi−Bo
>0.4βなら小文字p カテゴリ名9で、Bi−Bo>0.3αまたはBi−Bo
>0.4βなら小文字q カテゴリ名Pで、Bi−Bo<0.2αまたはBi−Bo
<0.3βなら大文字P カテゴリ名9で、Bi−Bo<0.2αまたはBi−Bo
<0.3βなら数字9 のような計算によつて実現される。但し、ここで
は、最上端位置を使用していないが必要に応じて
使うことはできる。
In multiplexer 10, the data read from buffer 6 is set in register 40 by control signal 904. The contents of the category section of the register 40 are registered in the memory 410.
The search circuit 41 checks whether it is in the category set S B such as o, r, s, t, u, v, w, x, z, and if it is registered, the signal line is Outputs “1” to 42. Since the address counters 50 and 60 are selected alternately, the fact that "1" is output to the signal line 42 means that the memory 410
This indicates that among the characters of the categories registered in , the characters closest to the characters of the category name set in the register 30 have been retrieved. When “1” is output from the search circuit 41 to the signal line 42, the protrusion determination circuit 34 selects the register 40.
Determination is made using the lowest position B o , the category name C i of the register 30, the lowest position B i , α indicating the size of uppercase letters, β indicating the size of specific lowercase letters, and constants such as 0.2, 0.3, 0.4, etc. do. Specifically, in the caligori name P, B i −B o >0.3α or B i −B o
If >0.4β then lowercase p Category name 9, B i −B o >0.3α or B i −B o
If >0.4β, lowercase q Category name P, B i −B o <0.2α or B i −B o
If <0.3β then capital P Category name 9, B i −B o <0.2α or B i −B o
If <0.3β, it can be realized by calculation like number 9. However, although the topmost position is not used here, it can be used if necessary.

第2図の場合には、第2図eに示すように、先
ず、OPenedのPが検索回路31から“1”を出
力させる。この“1”がトリガーとなつて、第2
図fのように次の文字eが、検索回路41から
“1”を出力させる。カテゴリPの下端位置Bi
80、カテゴリーeの下端位置Boは60であるから、
突出回路34において、 Bi−Bo=80−60=20>0.3×40=12 従つて、カテゴリPは小文字となる。次に
quicklyのqが英字のqか数字の9か分らないま
まであるが、このqまたは9が検索回路31から
“1”を引き出し、次の文字のuが検索回路41
から“1”を引き出す。カテゴリqまたは9の下
端位置Biは80、カテゴリーuの下端位置Boは60
であるから Bi−Bo=80−60=20>0.3×40=12 となつて、カテゴリーは小文字のqとなる。この
ようにして、小文字pとqとが、第2図fのよう
に突出判定回路34から出力される。上端位置
Ti、下端位置Biも一緒に出力される。
In the case of FIG. 2, as shown in FIG. 2e, first, P of OPened causes the search circuit 31 to output "1". This “1” becomes the trigger, and the second
As shown in FIG. f, the next character e causes the search circuit 41 to output "1". The bottom position B i of category P is
80, since the bottom position B o of category e is 60,
In the salient circuit 34, B i −B o =80−60=20>0.3×40=12 Therefore, category P is a lowercase letter. next
I still don't know whether the q in quickly is the alphabetic letter q or the number 9, but this q or 9 pulls out "1" from the search circuit 31, and the next letter u pulls out the number 9 from the search circuit 41.
Pull out “1” from. The bottom position B i of category q or 9 is 80, and the bottom position B o of category u is 60.
Therefore, B i −B o = 80 − 60 = 20 > 0.3 × 40 = 12, and the category is lowercase q. In this way, the lowercase letters p and q are output from the protrusion determining circuit 34 as shown in FIG. 2f. Top position
T i and the lower end position B i are also output.

以上のような動作によつて、大文字のPか、小
文字のpか、あるいは数字の9か、小文字のqか
判定されて、信号線35に、最上端Ti最下端Bi
共に送り出される。制御部9は、これらの情報
を、信号線906に出力し、更にアドレスカウン
タ8によつて指定されるバツフア6のアドレスに
マルチプレクサ8を経て書き込む。
Through the above operations, it is determined whether it is an uppercase letter P, a lowercase letter p, the number 9, or a lowercase letter q, and the result is sent to the signal line 35 together with the top end T i and the bottom end B i . The control section 9 outputs this information to the signal line 906 and further writes it to the address of the buffer 6 specified by the address counter 8 via the multiplexer 8.

以上のような手段によつて従来困難であつたマ
ルチフオント活字の英字の大文字Pと小文字pの
判定、及び英字Qと小文字qと数字9との判定が
可能である。
By the means described above, it is possible to determine the uppercase letter P and the lowercase letter P, as well as the alphabetical letter Q, the lowercase letter q, and the number 9, in multi-font type, which has been difficult in the past.

ところで、郵便物の宛名のように単に入力帳票
を仕分けるだけであれば英字と数字の区別はとも
かく、大文字と小文字の区別は不必要である。し
かし、読んだ結果を人に送つたりする場合には大
文字と小文字の区別が必要である。そのためには
アドレスカウンタ8をリセツトさせそして、制御
信号904Sによつてマルチプレクサ10におい
て、レジスタ20に、バツフア6からのデータを
セツトする。メモリ210では、カテゴリ集合Sc
として、大文字のC、O、S、U、V、W、X、
及びZに対応する番地に“1”が記憶されてお
り、検索回路21ではレジスタ20の内容が、こ
れらカテゴリ集合SC(すなわち、大文字と小文字
の形が同一の文字の集合)に含まれる時に、信号
線22に信号“1”が送られる。大小判定回路2
4では、信号線22に信号“1”が表われた時、
レジスタ20のカテゴリCi最上端Ti及び最下端
Bi、平均値計算回路16及び17の高さα及びβ
とが入力され、これらのTi、Bi、α、β、及びそ
の他の定数0.8、0.9、1.2、1.3によつて、カテゴ
リCiが大文字か小文字かを判定する。具体的に
は、 |Ti−Bi|0.8αまたは|Ti−Bi|1.2βなら
小文字に変更する |Ti−Bi|0.9αまたは|Ti−Bi|1.3βなら
大文字のまゝとする のような判定をして、信号線26に、確認または
変更後のカテゴリー名Ci最上端位置Ti、最下端位
置Biを制御部9に送る。制御部9は、この結果を
信号線906に送り出し、制御信号907Sによ
つて、マルチプレクサ5を通過させ、アドレスカ
ウンタ8によつて示されるバツフア6のアドレス
に信号線905上の書き込み信号に従つて、書き
込む。このような動作を、バツフア6の内容が全
てレジスタ20を通過する迄、続ける。その結果
COSUVWXZのように大文字と小文字とが同じ
形のカテゴリが大小の区別をつけられてバツフア
6に入力される。
By the way, if input forms are simply to be sorted, such as the address of mail, there is no need to distinguish between uppercase and lowercase letters, regardless of the distinction between alphanumeric characters and numbers. However, when you send the read result to someone, it is necessary to distinguish between uppercase and lowercase letters. To do this, address counter 8 is reset, and data from buffer 6 is set in register 20 in multiplexer 10 by control signal 904S. In the memory 210, the category set S c
As, capital letters C, O, S, U, V, W, X,
"1" is stored in the addresses corresponding to and Z, and in the search circuit 21, when the contents of the register 20 are included in these category sets S , a signal “1” is sent to the signal line 22. Size judgment circuit 2
4, when the signal "1" appears on the signal line 22,
Category C i of register 20 Top end T i and bottom end
B i , heights α and β of average value calculation circuits 16 and 17
is input, and it is determined whether the category C i is an uppercase or lowercase letter based on these T i , B i , α, β, and other constants 0.8, 0.9, 1.2, and 1.3. Specifically, if |T i −B i |0.8α or |T i −B i |1.2β, change to lower case. If |T i −B i |0.9α or |T i −B i |1.3β, change to upper case. It makes a decision such as leaving it as is, and sends the confirmed or changed category name C i , top end position T i , and bottom end position B i to the control unit 9 via the signal line 26 . The control unit 9 sends this result to the signal line 906, passes it through the multiplexer 5 according to the control signal 907S, and writes the result to the address of the buffer 6 indicated by the address counter 8 according to the write signal on the signal line 905. , write. This operation is continued until the contents of the buffer 6 have all passed through the register 20. the result
Categories such as COSUVWXZ, in which uppercase and lowercase letters are the same, are input into the buffer 6 with a distinction between sizes.

第2図bのレジスタ6においては、まだS、
U、S、O、O、X、U、Cが大文字か小文字か
不明のままであつたが、これらが、第2図kのよ
うに検索回路21から“1”を引き出す。最初の
カテゴリーSでは、Ti=20、Bi=60であるが大小
判定回路24において |20−60|=40≧0.9α=0.9×40=36 従つて、大文字のSのまま出力する。このS以
外は、全てTi=40、Bi=60であるが、大小判定回
路24において |40−60|=20≦0.8α=0.8×40=32 従つて、全て小文字に変えられて出力される。
In register 6 of FIG. 2b, S,
Although it remains unclear whether U, S, O, O, X, U, and C are uppercase or lowercase letters, they extract "1" from the search circuit 21 as shown in FIG. 2k. In the first category S, T i =20 and B i =60, but in the size determination circuit 24, |20−60|=40≧0.9α=0.9×40=36 Therefore, the uppercase letter S is output as is. All letters other than S are T i = 40 and B i = 60, but in the size judgment circuit 24, |40−60|=20≦0.8α=0.8×40=32 Therefore, all letters are changed to lower case and output. be done.

これらの結果は、第2図iのように示される。
そして、最終的に、レジスタ6の内容は、第2図
jのように変えられて、認識が終了する。
These results are shown as in Figure 2i.
Finally, the contents of the register 6 are changed as shown in FIG. 2j, and the recognition is completed.

このような手段を、付加することによつて形が
同じで大きさのみが異るような大文字と小文字を
区別することが出来る。
By adding such means, it is possible to distinguish between uppercase and lowercase letters that have the same shape but differ only in size.

以上説明した文字認識方式は英数字の活字に
とゞまらず、その他の字種例えばカタカナの濁
点″とハ、半濁点゜とロとの区別にも適用出来る。
The character recognition method described above can be applied not only to alphanumeric characters, but also to distinguishing between katakana characters such as ``dakuten'' and ``ha'', and handakuten ゜ and ro.

また、手書文字の認識にも、同様の手段を構ず
ることによつてCとc、Wとw、等の区別、及び
大文字Pと小文字p、Qの小文字qと数字の9の
区別が可能である。
In addition, by using similar means to recognize handwritten characters, it is possible to distinguish between C and c, W and w, etc., and between uppercase P and lowercase p, lowercase q of Q, and the number 9. It is possible.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、本発明の文字認識方式の1実施例を
示すブロツク図である。第2図は本発明の動作を
説明するための図である。 図において、91は、量子化分離装置、92は
最上端、最下端検出回路、93はカテゴリ判定回
路、94は、標準パターンメモリ、5,7,10
はマルチプレクサ、6はバツフア、8,50、及
び60は、アドレスカウンタ、9は制御部、1
2,13,20,30及び40は、レジスタ、1
4,15,21,31及び41は検索回路、14
1,151,210,310及び410は、メモ
リー、16及び17は平均値計算回路、24は大
小判定回路、34は突出判定回路である。
FIG. 1 is a block diagram showing one embodiment of the character recognition system of the present invention. FIG. 2 is a diagram for explaining the operation of the present invention. In the figure, 91 is a quantization separation device, 92 is a top end/bottom end detection circuit, 93 is a category determination circuit, 94 is a standard pattern memory, 5, 7, 10
is a multiplexer, 6 is a buffer, 8, 50, and 60 are address counters, 9 is a control unit, 1
2, 13, 20, 30 and 40 are registers, 1
4, 15, 21, 31 and 41 are search circuits, 14
1, 151, 210, 310 and 410 are memories, 16 and 17 are average value calculation circuits, 24 is a magnitude determination circuit, and 34 is a protrusion determination circuit.

Claims (1)

【特許請求の範囲】 1 英数字を認識する文字認識装置であつて、帳
票中の文字を2値の量子化パターンに量子化し、
1文字毎の量子化パターンPiに分離する量子化分
離手段と、前記量子化パターンPiの上端位置Ti
び下端位置Biを検出する上下端位置検出手段と、
前記量子化パターンPiを予め用意された標準パタ
ーンと照合してカテゴリー名Ciを決定するカテゴ
リ判定手段と、前記カテゴリー名Ci、前記上端位
置Ti及び前記下端位置Biを組にして、文字順に記
憶するバツフアーと、前記カテゴリ名Ciが英数字
の中で縦方向の幅が大きい文字の集合であるカテ
ゴリー集合SAに属する場合の高さの平均α、及
び前記カテゴリー名Ciが英小文字の中で縦方向の
幅が小さい文字の集合であるカテゴリ集合Saに属
する場合の高さの平均βとを求める平均高さ検出
手段と、前記バツフアー内のカテゴリー名Ciが英
数字の中で形・大きさが同じもので位置のみが異
なる文字の集合であるカテゴリー集合SPに属する
時、前記カテゴリーCiの最も近くに検出される英
字の中で下端に突き出しのない文字の集合である
カテゴリー集合SBに属するカテゴリーCoの最上
端位置To及び、最下端位置Boと、前記カテゴリ
ー名Ci、前記最上端位置Ti及び、最下端位置Bi
と、前記高さ平均α及びβとを用いて、前記カテ
ゴリー名Ciを認定もしくは変更する突出判定手段
とによつて構成されたことを特徴とする文字認識
方式。 2 帳票中の文字を2値の量子化パターンに量子
化し、1文字毎の量子化パターンPiに分離する量
子化分離手段と、前記量子化パターンPiの上端位
置Ti及び下端位置Biを検出する上下端位置検出手
段と、前記量子化パターンPiを予め用意された標
準パターンと照合してカテゴリー名Ciを決定する
カテゴリ判定手段と、前記カテゴリー名Ci、前記
上端位置Ti及び前記下端位置Biを組にして、文字
順に記憶するバツフアーと、前記カテゴリー名Ci
が英数字の中で縦方向の幅が大きい文字の集合で
あるカテゴリー集合SAに属する場合の高さの平
均α、及び前記カテゴリー名Ciが英小文字の中で
縦方向の幅が小さい文字の集合であるカテゴリ集
合Saに属する場合の高さの平均βとを求める平均
高さ検出手段と、前記バツフアー内のカテゴリー
名Ciが英字の中で大文字と小文字の形が同一であ
る文字の集合であるカテゴリ集合Scに属する時
に、前記上端位置Ti、前記下端位置Bi、前記高さ
平均α及びβとの比較によつて、カテゴリー名Ci
を認定または変更する大小判定手段と、前記バツ
フアー内のカテゴリー名Ciが英数字の中で形・大
きさが同じで位置のみが異なる文字の集合である
カテゴリー集合Spに属する時、前記カテゴリーCi
の最も近くに検出される英字の中で下端に突き出
しのない文字の集合であるカテゴリー集合SBに属
するカテゴリーCoの最上端位置To及び、最下端
位置Boと、前記カテゴリー名Ci、前記最上端位置
Ti及び、最下端位置Biと、前記高さ平均α及びβ
とを用いて、前記カテゴリー名Ciを認定もしくは
変更する突出判定手段とによつて構成されたこと
を特徴とする文字認識方式。
[Claims] 1. A character recognition device that recognizes alphanumeric characters, which quantizes characters in a form into a binary quantization pattern,
quantization separation means for separating each character into quantization patterns P i ; upper and lower end position detection means for detecting the upper end position T i and lower end position B i of the quantization pattern P i;
Category determining means for determining a category name C i by comparing the quantized pattern P i with a standard pattern prepared in advance ; , the buffer to be stored in alphabetical order, the average height α when the category name C i belongs to the category set S A , which is a set of alphanumeric characters with the largest vertical width, and the category name C i average height detection means for calculating the average height β when belongs to a category set S a which is a set of letters with a small vertical width among lowercase English letters ; When belonging to the category set S P , which is a set of characters that have the same shape and size but differ only in position among numbers, the character that does not have a protrusion at the bottom among the alphabetic characters detected closest to the category C i . The uppermost position T o and the lowermost position B o of the category C o belonging to the category set S B which is a set of , the category name C i , the uppermost position T i and the lowermost position B i
and a prominence determining means for recognizing or changing the category name C i using the height averages α and β. 2. Quantization separation means for quantizing characters in a form into binary quantization patterns and separating them into quantization patterns P i for each character, and an upper end position T i and a lower end position B i of the quantization pattern P i upper and lower end position detection means for detecting the upper and lower end positions, category determining means for determining the category name C i by comparing the quantization pattern P i with a standard pattern prepared in advance, and the category name C i and the upper end position T i and the lower end position B i as a set, a buffer to be stored in alphabetical order, and the category name C i
The average height α when belongs to the category set S A , which is a set of characters with a large vertical width among alphanumeric characters, and the category name C i is a character with a small vertical width among lowercase alphabetic characters. and an average height detection means for calculating the average height β when belonging to a category set S a that is a set of , the category name C i is determined by comparison with the upper end position T i , the lower end position B i , and the height averages α and β .
size determination means for recognizing or changing the size of C i
The top end position T o and the bottom end position B o of the category C o belonging to the category set S B , which is a set of alphabetic characters detected closest to , the uppermost position
T i , the lowest end position B i , and the average height α and β
and a salient determination means for recognizing or changing the category name C i using the above character recognition method.
JP2043579A 1979-02-22 1979-02-22 Character recognition system Granted JPS55112687A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2043579A JPS55112687A (en) 1979-02-22 1979-02-22 Character recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2043579A JPS55112687A (en) 1979-02-22 1979-02-22 Character recognition system

Publications (2)

Publication Number Publication Date
JPS55112687A JPS55112687A (en) 1980-08-30
JPS6336037B2 true JPS6336037B2 (en) 1988-07-18

Family

ID=12026955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2043579A Granted JPS55112687A (en) 1979-02-22 1979-02-22 Character recognition system

Country Status (1)

Country Link
JP (1) JPS55112687A (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0731711B2 (en) * 1983-01-31 1995-04-10 株式会社東芝 Optical character reader
JP2697790B2 (en) * 1985-10-01 1998-01-14 ザ パランチール コーポレーション Character type determination method
JPS6453284A (en) * 1987-08-24 1989-03-01 Matsushita Electric Industrial Co Ltd Character recognizing device
JPS6459478A (en) * 1987-08-31 1989-03-07 Matsushita Electric Industrial Co Ltd Character recognizing device
JPH083827B2 (en) * 1987-10-21 1996-01-17 シャープ株式会社 Character image processing method
JPH01114991A (en) * 1987-10-29 1989-05-08 Fuji Electric Co Ltd Method for discriminating capital letter/small letter
JPH01171080A (en) * 1987-12-25 1989-07-06 Matsushita Electric Ind Co Ltd Recognizing device for error automatically correcting character
JP2788506B2 (en) * 1989-10-11 1998-08-20 沖電気工業株式会社 Character recognition device
JP2918363B2 (en) * 1991-09-17 1999-07-12 沖電気工業株式会社 Character classification method and character recognition device

Also Published As

Publication number Publication date
JPS55112687A (en) 1980-08-30

Similar Documents

Publication Publication Date Title
US6327373B1 (en) Mail address reading apparatus and mail sorting apparatus
JP3639126B2 (en) Address recognition device and address recognition method
KR100401685B1 (en) Recognition device and method of location information, and recording medium thereof
KR100524477B1 (en) Mail distribution information recognition method and device
US4524453A (en) Postal code distinguishing apparatus
JP3485020B2 (en) Character recognition method and apparatus, and storage medium
JPH11120293A (en) Character recognition / correction method
JPS6336037B2 (en)
JPH0430070B2 (en)
JP3232991B2 (en) Character reading method and address reading method
JP3201207B2 (en) Address reading apparatus and method
JPH06180771A (en) English letter recognizing device
JP2009163689A (en) Address recognition method and device, and postal address sorter
JP3162552B2 (en) Mail address recognition device and address recognition method
JPH1078997A (en) Character recognition apparatus and method, and recording medium recording the method
JPH06103402A (en) Business card recognition device
JPS59158482A (en) Character recognizing device
JP2991594B2 (en) Mail address reading device
JPH06274551A (en) Image filing equipment
JPH0562021A (en) Optical type character recognition (ocr) system for recognizing standard font and user assigned custom font
JPH0438026B2 (en)
JPH1196307A (en) Word recognition device
JPH04372089A (en) Character recognition method
JP2000181989A (en) Character recognition apparatus and method, and computer-readable recording medium recording the method as a program
JPH08243506A (en) Address reading device and method