JPH0981679A - Optical character reader - Google Patents
Optical character readerInfo
- Publication number
- JPH0981679A JPH0981679A JP7238827A JP23882795A JPH0981679A JP H0981679 A JPH0981679 A JP H0981679A JP 7238827 A JP7238827 A JP 7238827A JP 23882795 A JP23882795 A JP 23882795A JP H0981679 A JPH0981679 A JP H0981679A
- Authority
- JP
- Japan
- Prior art keywords
- character
- unit
- image
- photoelectric conversion
- character frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012015 optical character recognition Methods 0.000 title claims description 27
- 238000006243 chemical reaction Methods 0.000 claims abstract description 78
- 230000015654 memory Effects 0.000 claims abstract description 73
- 238000007781 pre-processing Methods 0.000 claims abstract description 55
- 230000007246 mechanism Effects 0.000 claims abstract description 50
- 230000003287 optical effect Effects 0.000 claims abstract description 42
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 31
- 238000000605 extraction Methods 0.000 description 26
- 230000003321 amplification Effects 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 239000000109 continuous material Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012840 feeding operation Methods 0.000 description 1
- 230000001678 irradiating effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、光学式文字読取装
置(以下、OCR(Optical Character Reader)と略
す。)における、帳票蛇行時の取得イメージに対する、
文字の切り出しのための文字位置の補正に関するもので
ある。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an image acquired when a form is meandering in an optical character reader (hereinafter abbreviated as OCR (Optical Character Reader)).
The present invention relates to correction of character positions for cutting out characters.
【0002】[0002]
【従来の技術】図2は、従来のOCRの構成概念図であ
る。図3(A),(B)は、図2中の機構部1及び光学
系2の構成例を示すOCRの給紙・読取機構概念図であ
り、特に同図(A)は平面図であり、同図(B)は側面
図である。以下、図2及び図3を参照しつつ、従来のO
CRの動作の説明をする。図3に示すように、図2中の
機構部1中のホッパ1−1上に、ホッパ基準面1−2に
沿って帳票束1−3がセットされている。読取りを開始
すると、まず吸入ローラ1−4が降りて、帳票2−2を
1枚給紙する。複数枚同時に給紙されそうになると、反
転ローラ1−6にて2枚目以降の帳票2−2はホッパ1
−1に戻されるため、必ず1枚ずつ給紙されていく。給
紙ローラ1−5、反転ローラ1−6を通過した帳票2−
2は、走行路途中にある駆動ローラ1−7、1−8、1
−9他のローラ類により、読取位置Rに向けて搬送され
ていく。読取位置Rに配置されたランプ2−1により帳
票2−2が照射され、ミラ2−4により帳票のイメージ
が反射され、図2中のレンズ2−3により集光され、光
電変換部3のCCDセンサ上に結像する。CCDセンサ
にて光電変換された帳票2−2のイメージは、イメージ
メモリ4に帳票2−2全面の多値情報(通常、8〜32
程度)として格納される。2. Description of the Related Art FIG. 2 is a conceptual diagram of a conventional OCR. 3A and 3B are conceptual diagrams of the OCR sheet feeding / reading mechanism showing an example of the configuration of the mechanical unit 1 and the optical system 2 in FIG. 2, and in particular, FIG. 3A is a plan view. The same figure (B) is a side view. Hereinafter, referring to FIG. 2 and FIG. 3, the conventional O
The operation of the CR will be described. As shown in FIG. 3, the form bundle 1-3 is set on the hopper 1-1 in the mechanism unit 1 in FIG. 2 along the hopper reference surface 1-2. When reading is started, first, the suction roller 1-4 descends to feed one form 2-2. When multiple sheets are about to be fed at the same time, the reversing roller 1-6 causes the second and subsequent sheets 2-2 to be fed to the hopper 1.
Since it is returned to -1, it is always fed one by one. Form 2-passed through paper feed roller 1-5 and reversing roller 1-6
Reference numeral 2 designates drive rollers 1-7, 1-8, 1 located on the way of the traveling path.
-9 It is conveyed toward the reading position R by other rollers. The form 2-2 is illuminated by the lamp 2-1 arranged at the reading position R, the image of the form is reflected by the mirror 2-4, is condensed by the lens 2-3 in FIG. The image is formed on the CCD sensor. The image of the form 2-2 photoelectrically converted by the CCD sensor is stored in the image memory 4 as multivalued information (usually 8 to 32) of the entire form 2-2.
It is stored as.
【0003】前処理部6では、イメージメモリ4の内容
を帳票フォーマット情報を元に、各読出フィールド毎に
切り出し、最終的には各文字単位のイメージとして切り
出して、特徴抽出部7へ送出する。特徴抽出部7では、
切り出したイメージの特徴量を算出し、識別部8では、
特徴量に基づいて、識別用辞書9を参照して、文字を識
別して、IF制御部10を通して、上位WS(ワークス
テーション)へ出力する。共通制御部11は、1枚の帳
票2−2の認識が終了すると、システムバス12を介し
て、機構制御部5に対して、次の帳票を給紙するよう指
示する。機構部1では、上述したと同様にして次の帳票
を光学系2に給紙・搬送する。従来装置には、図3中の
ホッパ基準面1−2の延長上に、帳票走行路の基準面が
あり、アライナ機構(帳票を基準面に押し付ける役目を
する機構のこと)により帳票2−2を帳票走行路の基準
面に沿わせて走行させ、傾きのない帳票イメージを取得
していた。近年、装置の小型・軽量化、及び読取対象と
する帳票連量の低下(40kg以下の薄い帳票への対応
他)が図られるようになり、アライナ機構の代わりに、
電位的に帳票の傾きを補正するようになった。このた
め、帳票走行路の基準面はなくなり、仮想的な走行路基
準面よりかなり離れたところに、図3に示すように帳票
走行路右端壁1−10ともいうべきもの(サイドフレー
ムと称することもある)が設けられるようになった。走
行路の基準面がなく、またアライナ機構がないというこ
とは、薄い帳票がアライナ機構で基準面に押し付けられ
て折れたり、しわがよったりすることを防止する半面、
吸入ローラ1−4、給紙ローラ1−5の部分で何等から
理由で、傾いて給紙された帳票2−2は傾いたまま走行
路内を搬送されていくことになるという問題点を有する
ことになった。The preprocessing unit 6 cuts out the contents of the image memory 4 for each read field based on the form format information, and finally cuts out as an image of each character unit, and sends it to the feature extraction unit 7. In the feature extraction unit 7,
The feature amount of the cut out image is calculated, and the identifying unit 8
The character is identified by referring to the identification dictionary 9 based on the characteristic amount, and is output to the upper WS (workstation) through the IF control unit 10. When the recognition of one form 2-2 is completed, the common control unit 11 instructs the mechanism control unit 5 via the system bus 12 to feed the next form. The mechanical unit 1 feeds and conveys the next form to the optical system 2 in the same manner as described above. In the conventional device, the reference plane of the form running path is provided on the extension of the hopper reference plane 1-2 in FIG. 3, and the form 2-2 is provided by an aligner mechanism (a mechanism that presses the form against the reference plane). Was running along the reference plane of the form running path, and a form image without inclination was acquired. In recent years, it has become possible to reduce the size and weight of the device, and to reduce the amount of forms to be read (for thin forms of 40 kg or less, etc.). Instead of the aligner mechanism,
The inclination of the form has been corrected in terms of electric potential. For this reason, the reference plane of the form traveling road disappears, and it should also be called the right end wall 1-10 of the form traveling road at a place considerably distant from the virtual traveling road reference plane (referred to as a side frame). There is also). The fact that there is no reference surface for the road and there is no aligner mechanism means that thin forms are prevented from being pressed against the reference surface by the aligner mechanism and breaking or wrinkling.
For some reason, the suction roller 1-4 and the paper feed roller 1-5 have a problem that the form 2-2 that is inclined and fed is conveyed in the traveling path while being inclined. is what happened.
【0004】図4(A),(B)は、イメージメモリ4
内における帳票のイメージの概念図である。図4に示す
ように、図2中のイメージメモリ4は帳票に対応して、
仮想的に平面構造を有している。アドレスとしては、横
方向X(X0〜Xn)、縦方向Y(Y0〜Yn)が設け
られている。実際は、この平面構造のメモリを複数枚
(階調数)重ねた多値情報メモリであるが、ここでは、
分かり易くするためにX,Yの平面構造で説明する。図
4(A)中のA1,B1,C1,D1は、帳票2−2の
4角、(X0,Y0)は、帳票の上辺と左辺を基準とし
た原点、(XA1,YA1),(XB1,YB1)は、
A1,B1の各アドレスである。図4(B)中のA2,
B2,C2,D2は、帳票2−2の4角、(X0,Y
0)は、帳票の上辺と左辺を基準とした原点、(XA
2,YA2),(XB2,YB2)は、A2,B2の各
アドレスである。図4(A)は、上辺Uの傾きα1、下
辺の傾きβ1とした時、α1=β1の場合を示す図であ
り、左上がりの傾きα1で読取位置Rに搬送されてきた
帳票2−2が下辺Dも上辺Uと同じ傾きα1で読取位置
Rを通過していった帳票のイメージを示している。この
場合は、上辺Uの読取フィールド(110と記入されて
いる)F1も下辺Dの読取フィールド(220と記入さ
れている)F2も、他のどの位置の読取フィールドも正
確に切り出せることが分かっている。FIGS. 4A and 4B show the image memory 4
It is a conceptual diagram of the image of the form in the. As shown in FIG. 4, the image memory 4 in FIG. 2 corresponds to the form,
It has a virtually planar structure. Addresses are provided in the horizontal direction X (X0 to Xn) and the vertical direction Y (Y0 to Yn). Actually, this is a multi-valued information memory in which a plurality of memories (the number of gradations) of this planar structure are stacked, but here,
For the sake of clarity, the description will be given with a plane structure of X and Y. In FIG. 4A, A1, B1, C1, and D1 are the four corners of the form 2-2, (X0, Y0) is the origin based on the upper and left sides of the form, (XA1, YA1), (XB1). , YB1) is
These are the addresses A1 and B1. A2 in FIG. 4 (B)
B2, C2, D2 are the four corners of the form 2-2, (X0, Y
0) is the origin based on the top and left sides of the form, (XA
2, YA2) and (XB2, YB2) are the addresses of A2 and B2. FIG. 4A is a diagram showing a case where α1 = β1 where the upper side U has a slope α1 and the lower side has a slope β1, and the form 2-2 that has been conveyed to the reading position R with a slope α1 rising to the left. The lower side D also shows the image of the form that has passed the reading position R with the same inclination α1 as the upper side U. In this case, it can be seen that the reading field F1 on the upper side U (marked with 110), the reading field F2 on the lower side D (marked with 220) F2, and the reading field at any other position can be accurately cut out. ing.
【0005】[0005]
【発明が解決しようとする課題】しかしながら、上記従
来のOCRでは、図4(B)に示すα2≠β2の場合に
示すように、左上がりの傾き(上辺の傾き=α2)で読
取位置に搬送されてきた帳票2−2が、読取中(読取位
置を通過中)に蛇行し、下辺Dにおいては、傾きβ2と
いう、上辺Uとは逆の傾向、右上がりの傾きで読取位置
を通過した場合、上辺Uの傾きα2のみを補正係数とし
て帳票内部を切り出すと、上辺Uの読取フィールド(1
10と記入されている)F1は正確に切り出せるが、下
辺Dの読取フィールド(220と記入されている)F2
を正確に切り出せないことがあった。つまり、図4
(B)においては、下辺Dに近い読取フィールドF2に
対し、上辺Uの傾きα2のみを補正係数として帳票内部
を切り出そうとしても、イメージの位置がずれてしま
い、正確に切り出せないという問題があった。この帳票
蛇行の傾向は、 ・装置量産時の機構部品の寸法精度、組立精度他のばら
つき ・帳票の大きさ、連量 ・環境条件(温度、湿度) に関係して発生するものであり、避けて通れない問題で
ある。However, in the above-mentioned conventional OCR, as shown in the case of α2 ≠ β2 shown in FIG. 4B, the sheet is conveyed to the reading position with an inclination to the left (upper side inclination = α2). When the received form 2-2 meanders during reading (passing through the reading position) and passes through the reading position with a slope β2 on the lower side D, which is the reverse tendency of the upper side U, and is an upward slope. , If the inside of the form is cut out using only the inclination α2 of the upper side U as the correction coefficient, the reading field (1
F1 (marked as 10) can be accurately cut out, but reading field F2 (marked as 220) on the lower side D
Sometimes it was not possible to cut out exactly. That is, FIG.
In (B), with respect to the reading field F2 close to the lower side D, even if an attempt is made to cut out the inside of the form using only the inclination α2 of the upper side U as a correction coefficient, the position of the image is displaced, and there is a problem that it cannot be accurately cut out. there were. This tendency of meandering of the form should be avoided because it is related to the dimensional accuracy, assembly accuracy, and other variations of mechanical parts during mass production of the device, the size of the form, and the amount of continuous material, and environmental conditions (temperature, humidity). It is a problem that cannot be passed.
【0006】[0006]
【課題を解決するための手段】第1の発明では、前記課
題を解決するために、OCRは、ドロップアウトカラー
で印刷された文字枠内に文字が記入又は印刷された帳票
を給紙・搬送する機構部と、所定の読取位置上にランプ
を配設して、そのランプにより前記搬送されてきた帳票
に照射して、光信号を得る光学系と、前記光学系より出
力される光信号を電気信号に変換して、前記文字枠内の
記入文字又は、印字文字のイメージを得る第1の光電変
換部とを備えている。そして、前記第1の光電変換部よ
り得られたイメージを格納する第1のイメージメモリ
と、前記光学系より出力される光信号から前記ドロッブ
アウトカラーが有する白レヘルに近い微小信号を増幅・
抽出して電気信号に変換して、前記文字枠のイメージを
得る第2の光電変換部と、前記第2の光電変換部より得
られたイメージを格納する第2のイメージメモリとを備
えている。さらに、前記帳票の上辺の基準ラインからの
傾きを測定し、その傾きと前記帳票の横に1つ又は複数
個の前記文字枠を含む領域である各フィールドの情報、
及び各フィールド内の各文字枠の情報を表す帳票フォー
マット情報とに基づいて、読取フィールド内の各文字パ
タンを切り出す第1の前処理部と、識別部により前記切
り出された文字が不読と判定されると、不読とされた文
字パタンの切り出し状況を調べて、その文字パタンの上
又は下が切り出し範囲の枠に接している場合には、切り
出し位置が不適当と判断し、その不読とされた読取フィ
ールド内の文字枠のアドレスを前記第2のイメージメモ
リに格納されたイメージから算出して、その文字枠のア
ドレスにしたがって、不読とされた文字パタンの再切り
出しをする第2の前処理部と、前記第1、及び第2の前
処理部により切り出された文字の認識をする識別部とを
備えている。第1の発明によれば、以上のように、OC
Rを構成したので、読取フィールド内の切り出し文字が
識別部より不読となったとき、第2のイメージメモリか
らその不読となった読取フィールドに含まれるべき文字
枠のアドレスを求めて、そのアドレスにしたがって、そ
の文字パタンの再切り出しをする。従って、前記課題を
解決できるのである。In the first invention, in order to solve the above-mentioned problems, the OCR feeds and conveys a form in which characters are written or printed in a character frame printed in dropout color. And the optical system that obtains an optical signal by irradiating the conveyed form by the lamp, and the optical signal output from the optical system. It is provided with a first photoelectric conversion unit for converting into an electric signal to obtain an image of a written character or a printed character in the character frame. Then, a first image memory that stores the image obtained by the first photoelectric conversion unit, and an optical signal output from the optical system that amplifies a minute signal that is close to the white leher included in the dropout color.
It is provided with a second photoelectric conversion unit for extracting and converting into an electric signal to obtain the image of the character frame, and a second image memory for storing the image obtained by the second photoelectric conversion unit. . Further, the inclination of the upper side of the form from the reference line is measured, and the inclination and the information of each field which is an area including one or more of the character frames beside the form,
And a first pre-processing unit that cuts out each character pattern in the reading field based on the form format information that represents the information of each character frame in each field, and the cut-out character is determined to be unreadable by the identification unit. Then, check the cutout status of the unreadable character pattern, and if the top or bottom of the character pattern touches the frame of the cutout range, the cutout position is judged to be inappropriate and the unread Secondly, the address of the character frame in the read field is calculated from the image stored in the second image memory, and the unreadable character pattern is re-cut out according to the address of the character frame. And a discriminating unit for recognizing the characters cut out by the first and second pre-processing units. According to the first invention, as described above, the OC
Since R is configured, when the cut-out character in the reading field becomes unreadable by the identification unit, the address of the character frame to be included in the reading field which becomes unreadable is obtained from the second image memory, and Re-cut out the character pattern according to the address. Therefore, the above problem can be solved.
【0007】[0007]
【発明の実施の形態】第1の実施形態 図1は、本発明の第1の実施形態のOCRの構成図であ
り、従来の図2中の要素と共通の要素には共通の符号を
付してある。本第1の実施形態のOCRが従来のOCR
と異なる点は、文字枠を読み取るための光電変換部3−
2と文字枠のイメージを格納するイメージメモリ4−2
とを設け、前処理部26を、帳票の上辺の基準ラインか
らの傾きを測定し、その傾きに基づいて、読取フィール
ドを傾き補正して、その読取フィールド内の文字パタン
を切り出す第1の前処理部と、識別部8より不読とされ
た読取フィールドについては、その読取フィールドに含
まれるべき文字枠のアドレスを算出して、そのアドレス
に基づいて、不読となった文字パタンの再切り出しをす
る第2の前処理部とで構成したことである。図1に示す
ように、このOCRでは、機構部1、光学系2、第1の
光電変換部3−1,第2の光電変換部3−2、第1のイ
メージメモリ4−1,第2のイメージメモリ4−2、機
構制御部5、前処理部26、特徴抽出部7、識別部8、
識別用辞書9、I/F制御部10、共通制御部11、及
びシステムバス12により構成されている。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS First Embodiment FIG. 1 is a block diagram of an OCR according to a first embodiment of the present invention, in which elements common to those shown in FIG. I am doing it. The OCR of the first embodiment is a conventional OCR
3 is different from the photoelectric conversion unit 3 for reading the character frame.
2 and an image memory 4-2 that stores the image of the character frame
And the preprocessing unit 26 measures the inclination of the upper side of the form from the reference line, corrects the inclination of the reading field based on the inclination, and cuts out the character pattern in the reading field. For the reading field that is unreadable by the processing unit and the identification unit 8, the address of the character frame that should be included in the reading field is calculated, and the unreadable character pattern is re-cut out based on the address. And a second pre-processing unit for As shown in FIG. 1, in this OCR, the mechanical unit 1, the optical system 2, the first photoelectric conversion unit 3-1, the second photoelectric conversion unit 3-2, the first image memory 4-1, and the second image memory 4-1 are used. Image memory 4-2, mechanism control unit 5, pre-processing unit 26, feature extraction unit 7, identification unit 8,
It is composed of an identification dictionary 9, an I / F controller 10, a common controller 11, and a system bus 12.
【0008】光学系2は、機構部1に対して、帳票2−
2の搬送方向に配設されている。光学系2の出力側は、
光電変換部3−1が接続されている。光電変換部3−1
の出力側は、イメージメモリ4−1が接続され、光電変
換部3−2の出力側は、イメージメモリ4−2が接続さ
れている。イメージメモリ4−1、及び4−2の出力側
は、前処理部26が接続され、前処理部26の出力側
は、特徴抽出部7が接続されている。特徴抽出部7の出
力側は、識別部8が接続されている。識別部8の入出力
側は、文字の特徴量を格納する識別用辞書9が接続され
ている。識別部8の出力側は、I/F制御部10が接続
されている。I/F制御部10の出力側は、上位WSが
接続されている。イメージメモリ4−1,4−2、機構
制御部5、前処理部26、特徴抽出部7、識別部8、I
/F制御部10、及び共通制御部11は、システムバス
12が接続されている。機構部1は、帳票走行路の基準
面、及びアライナ機構を有さず、ホッパにセットされた
帳票束より1枚の帳票2−2を給紙・搬送するものであ
り、光学系2は、読取位置でランプ2−2により帳票2
−2上のイメージを照射して、レンズ2−3を介して光
電変換部3−1のCCDセンサ上に結像するものであ
る。光電変換部3−1は、CCDセンサにて帳票2−2
上のイメージを光電変換して、さらに増幅・A/D変換
して、通常の記入文字、印字文字を読み取るものであ
る。光電変換部3−2は、光電変換部3−1中に配設さ
れたCCDセンサにて光電変換された電気信号を、増幅
・A/D変換して、ドロップアウトカラーで印字された
文字枠を読取るものである。The optical system 2 has a form 2-for the mechanical unit 1.
2 are arranged in the transport direction. The output side of the optical system 2 is
The photoelectric conversion unit 3-1 is connected. Photoelectric conversion unit 3-1
The image memory 4-1 is connected to the output side of, and the image memory 4-2 is connected to the output side of the photoelectric conversion unit 3-2. The preprocessor 26 is connected to the output sides of the image memories 4-1 and 4-2, and the feature extraction unit 7 is connected to the output side of the preprocessor 26. An identification unit 8 is connected to the output side of the feature extraction unit 7. The input / output side of the identification unit 8 is connected to an identification dictionary 9 that stores character feature amounts. An I / F control unit 10 is connected to the output side of the identification unit 8. An upper WS is connected to the output side of the I / F control unit 10. Image memories 4-1, 4-2, mechanism control unit 5, preprocessing unit 26, feature extraction unit 7, identification unit 8, I
The system bus 12 is connected to the / F control unit 10 and the common control unit 11. The mechanical unit 1 does not have a reference surface of a form traveling path and an aligner mechanism, and feeds and conveys one form 2-2 from a form bundle set in a hopper, and the optical system 2 Form 2 by the lamp 2-2 at the reading position
-2 is irradiated and an image is formed on the CCD sensor of the photoelectric conversion unit 3-1 through the lens 2-3. The photoelectric conversion unit 3-1 uses a CCD sensor to form 2-2.
The above image is photoelectrically converted and further amplified and A / D converted to read ordinary written characters and printed characters. The photoelectric conversion unit 3-2 amplifies and A / D converts the electric signal photoelectrically converted by the CCD sensor disposed in the photoelectric conversion unit 3-1, and is a character frame printed in dropout color. Is to be read.
【0009】イメージメモリ4−1は、光電変換部3−
1で得た帳票2−2の通常のイメージを格納するメモリ
であり、イメージメモリ4−2は、光電変換部3−2で
得た帳票2−2のドロッブアウトカラーで印刷された文
字枠のイメージを格納するメモリである。前処理部26
は、第1の前処理部で文字の切り出しを行い、第2の前
処理部で、不読となった読取フィールドの再切り出しを
するものである。特徴抽出部7は、切り出した文字の特
徴量を抽出し、識別部8は、文字を識別するものであ
る。識別用辞書9は、文字を識別するために文字の特徴
データを格納する辞書である。機構制御部5は、機構部
1の給紙動作の制御を行い、I/F制御部10は、認識
部8より認識した文字の知識処理などする上位WSとイ
ンタフェースを取るためのものであり、共通制御部11
は、機構制御部5、前処理部26、特徴抽出部7、識別
部8、I/F制御部10の動作制御を行うものである。The image memory 4-1 includes a photoelectric conversion unit 3-
1 is a memory for storing a normal image of the form 2-2 obtained in 1 and the image memory 4-2 is a character frame printed in the drop-out color of the form 2-2 obtained in the photoelectric conversion unit 3-2. Is a memory for storing the image of. Preprocessing unit 26
In the first preprocessing unit, characters are cut out, and the second preprocessing unit recuts unreadable reading fields. The feature extraction unit 7 extracts the feature amount of the cut out character, and the identification unit 8 identifies the character. The identification dictionary 9 is a dictionary that stores character feature data for identifying characters. The mechanism control unit 5 controls the paper feeding operation of the mechanism unit 1, and the I / F control unit 10 is for interfacing with a higher-level WS that performs knowledge processing of characters recognized by the recognition unit 8. Common control unit 11
Is for controlling the operation of the mechanism control unit 5, the preprocessing unit 26, the feature extraction unit 7, the identification unit 8, and the I / F control unit 10.
【0010】図5は、図1中の光電変換部の構成の例を
示す図である。図5に示すように、光電変換部3−1
は、CCDセンサ及び光電変換部13、増幅回路14−
1、A/D変換回路15−1より構成され、光電変換部
3−2は、増幅回路14−2、A/D変換回路15−2
より構成されている。CCDセンサ及び光電変換部13
の出力側は、増幅回路14−1及び14−2が接続され
ている。増幅回路14−1の出力側は、A/D変換回路
15−1が接続されている。増幅回路14−2の出力側
は、A/D変換回路15−2が接続されている。CCD
センサ及び光電変換部13は、レンズ2−3より集光さ
れた光を入力し、電気信号に変換するものであり、増幅
回路14−1及び14−2は、電気信号を増幅するもの
である。A/D変換回路15−1は、増幅回路14−1
より出力される電気信号をドロップアウトカラーが有す
る信号レベルよりも少し小さい基準電圧と黒レベルに近
い基準電圧間をディジタル信号に変換するものである。
A/D変換回路15−2は、増幅回路14−2より出力
される電気信号をドロップアウトカラーが有する信号レ
ベルよりも少し小さい基準電圧と白レベルの基準電圧と
の間をディジタル信号に変換するものである。FIG. 5 is a diagram showing an example of the configuration of the photoelectric conversion unit in FIG. As shown in FIG. 5, the photoelectric conversion unit 3-1
Is a CCD sensor and photoelectric conversion unit 13, an amplifier circuit 14-
1, the A / D conversion circuit 15-1, and the photoelectric conversion unit 3-2 includes an amplification circuit 14-2 and an A / D conversion circuit 15-2.
It is composed of CCD sensor and photoelectric conversion unit 13
The output side of is connected to the amplifier circuits 14-1 and 14-2. The A / D conversion circuit 15-1 is connected to the output side of the amplification circuit 14-1. The output side of the amplifier circuit 14-2 is connected to the A / D conversion circuit 15-2. CCD
The sensor and photoelectric conversion unit 13 inputs the light condensed by the lens 2-3 and converts it into an electric signal, and the amplifier circuits 14-1 and 14-2 amplify the electric signal. . The A / D conversion circuit 15-1 includes an amplifier circuit 14-1.
The electrical signal output from the dropout color is converted into a digital signal between a reference voltage slightly lower than the signal level of the dropout color and a reference voltage near the black level.
The A / D conversion circuit 15-2 converts the electric signal output from the amplification circuit 14-2 into a digital signal between a reference voltage slightly lower than the signal level of the dropout color and a white level reference voltage. It is a thing.
【0011】図6は、帳票の文字枠の例を示す図であ
る。図6に示すように、帳票には、記入用文字枠が予め
印刷されており、この記入用文字枠内に文字が記入され
るようになっている。記入用文字枠には、1文字毎に独
立した文字枠の記入用文字枠FR1、各文字枠が縦横く
っついた表の形をした記入用文字枠(表形式)FR2、
複数の文字を1つの文字枠内に記入する印字用文字枠F
R3などがある。これらの文字枠は、白レベルに近いド
ロップアウトカラーで印刷されており、記入や印字時の
目安とする枠である。以下、これらの図を参照しつつ、
図1のOCRの動作(a)〜(j)の説明をする。FIG. 6 is a diagram showing an example of a character frame of a form. As shown in FIG. 6, an entry character frame is printed in advance on the form, and characters are to be entered in the entry character frame. The writing character box has a writing character frame FR1 which is an independent character frame for each character, a writing character frame (tabular form) FR2 in the form of a table in which each character frame is vertically and horizontally attached,
Character frame F for printing that writes multiple characters in one character frame
There is R3 etc. These character frames are printed in a dropout color close to the white level, and are used as a guide when writing or printing. Below, referring to these figures,
The operations (a) to (j) of the OCR of FIG. 1 will be described.
【0012】(a) 機構部1 機構部1では、機構制御部5の制御の下で、ホッパにセ
ットされた帳票束から吸入ローラ、及び給紙ローラによ
り帳票2−2を給紙して、搬送ローラによって、光学系
2の方向に搬送する。 (b) 光学系2 搬送ローラによって搬送されてきた帳票2−2は、読取
位置Rでランプ2−1に照射され、帳票2−2上のイメ
ージはレンズ2−3により集光されて、図5中の光電変
換部3−1のCCDセンサ13上に結像する。 (c) 光電変換部3−1 図7(A),(B)は、光電変換部の動作概念図であ
り、特に同図(A)は、帳票2−2の一部を示す図であ
り、同図(B)は、読取位置Rにおける、同図(A)の
図5中の増幅回路14−1,14−2の出力信号を示す
図である。図7(A)中のF1〜F6は縦の文字枠部F
Rを示し、C1〜C4は、記入文字部CHを表してい
る。本例では、3個の文字枠FR内に110の記入文字
CHが記入されている。光電変換部3−1中の増幅回路
14−1では、図5中のCCDセンサ及び光電変換部1
3より得られた電気信号を図7(B)に示すように増幅
(例えば、0〜5V)する。A/D変換部15−1で
は、まず、増幅回路14−1で増幅された信号をドロッ
プアウトカラーが有するレベルよりも少し小さいレベル
に設定された(+)の基準電圧(例えば、4.5V)
C、及び黒レベルに近い(−)の基準電圧(例えば、
0.5V)B2と比較して、(+)の基準電圧Cと
(−)の基準電圧B2間の電圧にレベル変換する。そし
て、(+)の基準電圧Cと(−)の基準電圧B2との間
をN(例えば、Nは8〜32)段階に別けてディジタル
値に変換して、イメージメモリ4−1に書き込む。この
結果、文字枠は白色と処理されて、記入文字C1〜C4
だけが識別される。(A) Mechanism Unit 1 In the mechanism unit 1, under the control of the mechanism control unit 5, the form 2-2 is fed from the form bundle set in the hopper by the suction roller and the paper feed roller, It is conveyed in the direction of the optical system 2 by the conveying roller. (B) Optical system 2 The form 2-2 conveyed by the conveying rollers is irradiated on the lamp 2-1 at the reading position R, and the image on the form 2-2 is condensed by the lens 2-3, An image is formed on the CCD sensor 13 of the photoelectric conversion unit 3-1 in FIG. (C) Photoelectric conversion unit 3-1 FIGS. 7A and 7B are operation conceptual diagrams of the photoelectric conversion unit, and in particular, FIG. 7A is a diagram showing a part of the form 2-2. 5B is a diagram showing output signals of the amplifier circuits 14-1 and 14-2 in FIG. 5A of FIG. 5A at the reading position R. F1 to F6 in FIG. 7A are vertical character frame portions F
R is shown and C1 to C4 represent the written character portion CH. In this example, 110 entry characters CH are entered in the three character boxes FR. In the amplifier circuit 14-1 in the photoelectric conversion unit 3-1, the CCD sensor and the photoelectric conversion unit 1 in FIG.
The electric signal obtained from No. 3 is amplified (for example, 0 to 5 V) as shown in FIG. In the A / D conversion unit 15-1, first, the signal amplified by the amplifier circuit 14-1 is set to a level (+) which is slightly lower than the level of the dropout color (for example, 4.5V). )
C, and a reference voltage (-) close to the black level (for example,
0.5V) B2, and level conversion is performed to a voltage between the (+) reference voltage C and the (−) reference voltage B2. Then, the area between the (+) reference voltage C and the (-) reference voltage B2 is converted into a digital value in N (for example, N is 8 to 32) stages, and written into the image memory 4-1. As a result, the character frame is processed as white, and the entered characters C1 to C4
Only are identified.
【0013】(d) 光電変換部3−2 光電変換部3−2中の増幅回路14−2では、図5中の
CCDセンサ及び光電変換部13より得られた電気信号
を図7(B)に示すように増幅(例えば、0〜5V)す
る。これは、ドロップアウトカラーで印刷された薄い線
は、光電変換波形においても、白レベルW1からすこし
しか下がらないからである。A/D変換部15−2で
は、まず、増幅回路14−2で増幅された信号を白レベ
ルの(+)の基準電圧W1、及びドロップアウトカラー
が有するレベルよりも少し小さいレベルに設定された
(−)の基準電圧Cと比較して、(+)の基準電圧W1
と(−)の基準電圧C間の電圧にレベル変換する。そし
て、(+)の基準電圧W1と(−)の基準電圧Cとの間
をN(例えば、Nは8〜32)段階に別けてディジタル
値に変換して、イメージメモリ4−2に書き込む。この
結果、イメージメモリ4−2には、記入文字とドロップ
アウトカラーのような薄い文字や文字枠の信号が混じ
る。(D) Photoelectric conversion section 3-2 In the amplifier circuit 14-2 in the photoelectric conversion section 3-2, the electric signals obtained from the CCD sensor and the photoelectric conversion section 13 in FIG. Amplification (for example, 0 to 5 V) is performed as shown in FIG. This is because the thin line printed in the dropout color slightly drops from the white level W1 even in the photoelectric conversion waveform. In the A / D converter 15-2, first, the signal amplified by the amplifier circuit 14-2 is set to a level slightly lower than the level of the white level (+) reference voltage W1 and the dropout color. Compared with the (−) reference voltage C, the (+) reference voltage W1
The level is converted into a voltage between the reference voltage C of (-). Then, the interval between the (+) reference voltage W1 and the (-) reference voltage C is converted into digital values in N (for example, N is 8 to 32) steps and written into the image memory 4-2. As a result, in the image memory 4-2, the characters to be written are mixed with light characters such as dropout colors and signals of character frames.
【0014】(e) イメージメモリ4−1,4−2 図8(A),(B)は、イメージメモリ4−1,4−2
に格納された帳票の一部のイメージの例を示す図であ
る。図8(A)に示すように、イメージメモリ4−1に
は、文字枠は白レベルとして扱われて、文字枠の情報は
入らない。一方、図8(B)に示すように、イメージメ
モリ4−2には、文字枠及び記入文字の情報が入ってい
る。 (f) 前処理部26 図9は、第1の実施形態の前処理部26の動作説明図で
あり、イメージメモリ4−1に格納されたイメージの一
例を示している。本例では、左上の文字枠内に110の
文字が記入されており、右下の文字枠内に220の記入
文字が記入されている。A3,B3,C3,D3は帳票
2−2の4角を示し、A3,B3のアドレスは、(XA
3,YA3)、(XB3,YB3)となっている。(X
0,Y0)は、帳票の左辺及び右辺を基準辺とした原
点、(X0〜Xn)は横方向X、(Y0〜Yn)は縦方
向Yを示す。まず、第1の前処理部では、帳票2−2の
基準辺が上辺Uと左辺Lであれば、イメージメモリ4−
1の上端(帳票2−2以外の領域は黒レベルとなってい
る)からの白レベルへの変化点のアドレスを横方向に順
次検出して、帳票の上辺Uを検出する。(E) Image memories 4-1 and 4-2 FIGS. 8A and 8B are image memories 4-1 and 4-2.
It is a figure which shows the example of a part of image of the form stored in. As shown in FIG. 8A, the character frame is treated as a white level in the image memory 4-1 and the character frame information is not stored therein. On the other hand, as shown in FIG. 8B, the image memory 4-2 contains information on character frames and written characters. (F) Pre-Processing Unit 26 FIG. 9 is an operation explanatory diagram of the pre-processing unit 26 of the first embodiment, and shows an example of an image stored in the image memory 4-1. In this example, 110 characters are entered in the upper left character box, and 220 characters are entered in the lower right character box. A3, B3, C3, D3 indicate the four corners of the form 2-2, and the addresses of A3, B3 are (XA
3, YA3) and (XB3, YB3). (X
0, Y0) is the origin with the left and right sides of the form as reference sides, (X0 to Xn) is the horizontal direction X, and (Y0 to Yn) is the vertical direction Y. First, in the first preprocessing unit, if the reference side of the form 2-2 is the upper side U and the left side L, the image memory 4-
The address of the change point from the upper end of 1 (the area other than the form 2-2 is at the black level) to the white level is sequentially detected in the horizontal direction to detect the upper side U of the form.
【0015】そして、帳票の左上角の点A3のアドレス
(XA3,YA3)と帳票の右上角の点B3のアドレス
(XB3,YB3)より、例えば、次式(1)のように
して帳票のイメージの上辺の傾きα3を算出する。 tanα3=(YB3−YA3)/(XB3−XA3) ・・・(1) まず、図9中の1行目の読取フィールドRF1を切り出
すには、帳票2−2の文字枠の大きさ、位置などを表す
帳票フォーマット情報(この帳票フォーマット情報はシ
ステムで固定的に決めておき、それを検索することによ
る得ることもできるし、帳票IDを読み出して、その帳
票IDより得ることもできる)より、上辺Uから読取フ
ィールドRF1の中央のラインまでの寸法Y1の点から
傾きα3で縦方向に1行目の切り出し範囲S1を設定す
る。次に、その1行目の切り出し範囲S1内で読取フィ
ールドRF1の横方向の範囲を設定して、読取フィール
ドRF1に含まれる各文字を切り出していき、特徴抽出
部7に出力する。次に、2行目の読取フィールドRF2
を切り出すには、フォーマット情報より、上辺Uからの
寸法Y2の点から、上辺の傾きα3で横方向に、2行目
の切り出し範囲S2を設定する。そして、その2行目の
切り出し範囲S2内で読取フィールドRF2の横方向の
範囲を設定して、読取フィールドRF2に含まれる各文
字を切り出していき、特徴抽出部7に出力する。Then, from the address (XA3, YA3) of the point A3 at the upper left corner of the form and the address (XB3, YB3) of the point B3 at the upper right corner of the form, for example, the image of the form can be expressed by the following equation (1). The slope α3 of the upper side is calculated. tan α3 = (YB3-YA3) / (XB3-XA3) (1) First, in order to cut out the reading field RF1 on the first line in FIG. 9, the size and position of the character frame of the form 2-2, etc. From the form format information (which can be obtained by fixedly determining the form format information in the system and searching it, or by reading the form ID and obtaining the form ID from the form ID) A cutout range S1 of the first row is set in the vertical direction from the point of the dimension Y1 from U to the center line of the reading field RF1 with an inclination α3. Next, the horizontal range of the read field RF1 is set within the cut-out range S1 of the first line, and each character included in the read field RF1 is cut out and output to the feature extraction unit 7. Next, the reading field RF2 in the second row
In order to cut out, the cut-out range S2 of the second line is set in the horizontal direction from the point of the dimension Y2 from the upper side U with the inclination α3 of the upper side according to the format information. Then, the horizontal range of the read field RF2 is set within the cut-out range S2 of the second row, and each character included in the read field RF2 is cut out and output to the feature extraction unit 7.
【0016】これらの各切り出し文字は、特徴抽出部7
で特徴抽出された後、識別部8で文字認識される。読取
フィールドRF1については、上辺Uの傾きα3に基づ
いて、切り出し文字が補正されているので、図9に示す
ように、読取フィルードRF1内の各切り出し文字内
に、記入文字である110がそれぞれ収まっているた
め、識別部8により正しく文字が識別される。図10
(A),(B)は、読取フィールドRF2の切り出しイ
メージの例を示す図であり、特に同図(A)は、帳票上
の読取りフィールドRF2に対応するイメージであり、
同図(B)は、実際に切り出された読取フィールドRF
2の切り出し文字のイメージである。図9及び図10
(B)に示すように、2番目の読取フィールドRF2に
ついては、記入文字、220のイメージの上が切れた形
でしか切り出せない。これは、帳票2−2が蛇行走行し
たため、帳票2−2の上辺Uの傾きα3(左上がり)で
も、下辺Dの傾きβ3は、α3とは逆の傾き(右下が
り)になっているためである。Each of these cut-out characters is a feature extraction unit 7
After the features are extracted in step S1, the identification unit 8 recognizes characters. In the reading field RF1, since the cut-out character is corrected based on the inclination α3 of the upper side U, as shown in FIG. 9, each of the cut-out characters in the read field RF1 contains the written character 110. Therefore, the identifying unit 8 correctly identifies the character. FIG.
(A), (B) is a diagram showing an example of a cutout image of the reading field RF2, in particular (A) is an image corresponding to the reading field RF2 on the form,
FIG. 2B shows the read field RF actually cut out.
It is an image of the cutout character of 2. 9 and 10
As shown in (B), the second reading field RF2 can be cut out only in the form in which the upper part of the image of the written character 220 is cut off. This is because the form 2-2 travels in a meandering manner, and even if the inclination α3 (upper left) of the upper side U of the form 2-2, the inclination β3 of the lower side D is the reverse (downward right) of α3. Is.
【0017】このような場合、 ・読取りフィールドのある文字の読取結果が、認識部8
により不読(リジェクト)で、 ・その文字の切り出しイメージは、切り出し範囲の枠に
上または下に接している(切り出し範囲が不適当なた
め、イメージが不当に切り出されている)時は、以下に
説明する第2の前処理部により、イメージメモリ4−2
内の文字枠を正確に切り出して、そのアドレスを検出
し、再度、正確な文字の切り出しを行っていく。このよ
うに、読取り結果が不読(リジェクト)の時にのみ、こ
の処理を行うのは、装置全体の処理速度をできるだけ速
い状態にしておくためである。図1の構成ですべての文
字枠を検出しながら処理をすると、処理速度が大幅に遅
くなる。第2の前処理部では、第2の読取フィールドR
F2に含まれるべき文字枠をイメージメモリ4−2を上
から順に横方向に検索して、最初に黒点が現れる文字枠
のアドレス(X10' ,Y10' )を検出する。これよ
り文字枠が右下がり(左端の文字枠が検出される)であ
るか左下がり(右端の文字枠が検出される)であるか判
断される。本例では、左端の文字枠が最初に検出され、
右下がりになっていると判断される。In such a case, the reading result of the character having the reading field is the recognition unit 8
It is unreadable (rejected) due to: ・ When the cutout image of the character touches the upper or lower part of the frame of the cutout range (the image is cut out improperly because the cutout range is inappropriate), Image memory 4-2 by the second preprocessing unit described in
The character frame inside is accurately cut out, its address is detected, and the correct character is cut out again. As described above, this processing is performed only when the read result is unreadable (reject) because the processing speed of the entire apparatus is kept as high as possible. If the processing is performed while detecting all the character frames in the configuration of FIG. 1, the processing speed will be significantly slowed down. In the second preprocessing section, the second read field R
The character frame to be included in F2 is searched laterally from the image memory 4-2 in order from the top, and the address (X10 ', Y10') of the character frame in which the black dot first appears is detected. From this, it is determined whether the character frame is descending to the right (the character frame at the left end is detected) or is descending to the left (the character frame at the right end is detected). In this example, the leftmost character frame is detected first,
It is judged that it is falling to the right.
【0018】第2の読取フィールドRF2に含まれるべ
き文字枠の中で、文字枠が右下がりであれば、Xアドレ
スが最大となる黒点のアドレス(X20' ,Y20' )
を検出し、文字枠が右上がりであれば、Xアドレスが最
小となる黒点のアドレス(X20' ,Y20' )を検出
する。読取フィールドRF2の概略傾きβ3' を次式
(2)より算出する。 tanβ3' =(Y20' −Y10')/ ( X20' −X10') ・・・(2) 傾きβ3' の傾き補正をかけて、以下のようにして、読
取フィールドRF2に含まれるべき文字枠のアドレスを
正確に算出する。図11(A)〜(C)は、文字枠検索
の例を示す図である。Among the character frames to be included in the second reading field RF2, if the character frame is in the lower right direction, the address of the black dot (X20 ', Y20') that maximizes the X address.
If the character frame is rising to the right, the address (X20 ', Y20') of the black dot that minimizes the X address is detected. The approximate inclination β3 ′ of the reading field RF2 is calculated by the following equation (2). tan β3 ′ = (Y20′−Y10 ′) / (X20′−X10 ′) (2) The inclination correction of the inclination β3 ′ is performed, and the character frame to be included in the reading field RF2 is obtained as follows. Calculate the address accurately. 11A to 11C are diagrams showing an example of character box search.
【0019】図11(A)に示すように、β3' の傾き
補正をかけて、イメージメモリ4−2から通常の切り出
し範囲よりも若干広めに、上下に設定して、文字枠検索
エリアARの切り出しを行う。図11(A)中の(X'
,Y' )は図9中の原点(X0,Y0)を中心とし
て、(X,Y)をβ3' 回転した座標軸を表している。
そして、帳票フォーマット情報から得られる文字枠の幅
W、文字枠のピッチP、文字枠の高さHから、文字枠検
索エリアARをX1〜X2(各文字枠を含む)の範囲の
X' 方向の各アドレスに対するY' 方向の黒点数を計数
し、投影してみると、図11(B)に示す投影データが
得られる。図11(B)に示すように、文字枠の部分に
黒点が集中しているので、文字枠の幅W、文字枠のピッ
チPの情報との合致・判断より、その部分の文字枠の
X'方向の正確なアドレスが特定できる。文字枠検索エ
リアARを、Y1〜Y2の範囲でY' 方向の各アドレス
に対するX' 方向の黒点数を計数してみると、図11
(C)に示す投影データが得られる。図11(C)に示
すように、文字枠の部分に黒点が集中しているので、文
字枠の高さHの情報との合致・判断より、その部分の文
字枠のY' 方向の正確なアドレスが特定できる。As shown in FIG. 11 (A), the inclination of β3 'is corrected, and the upper and lower portions are set slightly wider than the normal cut-out range from the image memory 4-2 to set the character frame search area AR. Cut out. (X 'in FIG. 11 (A)
, Y ') represents a coordinate axis obtained by rotating (X, Y) by β3' around the origin (X0, Y0) in FIG.
Then, based on the width W of the character frame, the pitch P of the character frame, and the height H of the character frame obtained from the form format information, the character frame search area AR is in the range X1 to X2 (including each character frame) in the X ′ direction. When the number of black spots in the Y'direction for each address is counted and projected, the projection data shown in FIG. 11B is obtained. As shown in FIG. 11B, since the black dots are concentrated in the character frame portion, the X of the character frame of that portion is determined based on the matching / judgment with the information of the width W of the character frame and the pitch P of the character frame. The exact address in the'direction can be specified. When the number of black dots in the X ′ direction for each address in the Y ′ direction in the character frame search area AR is counted in the range of Y1 to Y2, FIG.
The projection data shown in (C) is obtained. As shown in FIG. 11C, since the black dots are concentrated on the character frame portion, it is possible to determine the exact value in the Y ′ direction of the character frame of that portion from the matching / judgment with the information of the height H of the character frame. The address can be specified.
【0020】傾きβ3' 、X' 方向のアドレス、及び
Y' 方向のアドレスから文字枠の正確なXアドレス及び
Yアドレスが求める。そして、不読となった文字の文字
枠のアドレスにしたがって、その文字を再度切り出し
て、特徴抽出部7に出力する。さらに、これ以降に読取
フィールドが有れば、次式(3)で示される傾きβ3
で、その以降の読取フィールドの傾き補正を行う。そし
て、読取フィールドRF2の正確な傾きβ3を、例え
ば、次式(3)により算出する。 tanβ3=(Y20−Y10)/(X20−X10) ・・・(3) ここで、(X10,Y10)は、読取フィールドRF2
の左端の文字枠の左上の点のアドレス(ここでは、先頭
の記入文字「2」が記入される文字枠のアドレス)、
(X20,Y20)は、読取フィールドRF2の右端の
文字枠の左上の点のアドレス(ここでは、最後の記入文
字「1」が記入される文字枠のアドレス)である。ま
た、黒点の分布により文字枠のアドレスを求めて、その
アドレスによって算出した式(3)に示す傾きは、黒点
の位置によって算出した式(2)に示す傾きよりも、よ
り正確な値となる。さらに、以降の読取フィールドの切
り出し文字が不読となり、その文字パタンが切り出し範
囲に接している場合には、上述したと同様にして、その
文字パタンの再切り出しを行うとともに、その不読とな
った読取フィールドの傾きにしたがって、以降の読取フ
ィールドを傾き補正して文字パタンを切り出してゆく。Accurate X and Y addresses of the character frame are obtained from the inclination β3 ', the address in the X'direction, and the address in the Y'direction. Then, according to the address of the character frame of the unreadable character, the character is cut out again and output to the feature extraction unit 7. Furthermore, if there is a read field after this, the slope β3 expressed by the following equation (3)
Then, the inclination of the subsequent reading field is corrected. Then, the accurate inclination β3 of the reading field RF2 is calculated, for example, by the following equation (3). tan β3 = (Y20−Y10) / (X20−X10) (3) where (X10, Y10) is the read field RF2.
The address of the upper left point of the leftmost character box (here, the address of the character box where the first entry character "2" is entered),
(X20, Y20) is the address of the upper left point of the character box at the right end of the reading field RF2 (here, the address of the character box in which the last entry character "1" is entered). Further, the slope of the formula (3) calculated from the address of the character frame obtained from the distribution of the black dots is more accurate than the slope of the formula (2) calculated from the position of the black dots. . Furthermore, if the cut-out character in the subsequent reading field becomes unreadable and the character pattern is in contact with the cut-out range, re-cut out that character pattern and make it unreadable as described above. According to the inclination of the read field, the inclination of the subsequent read fields is corrected and the character pattern is cut out.
【0021】(g) 特徴抽出部7 特徴抽出部7では、前処理部26から転送されてきた1
文字分のイメージに対して、各種の特徴を抽出する。 (h) 識別部8 識別部8では、特徴抽出部7から転送されてきた1文字
分の特徴データを用いて、識別用辞書9を参照し、候補
文字を選択する。第1の前処理部により切り出された読
取りフィールドRF2につしては、切り出し文字の上ま
たは下(本例では、上)がかけているので、切り出した
文字は不読(リジェクト)となるが、第2の前処理部に
より再度切り出された読取フィールドRF2について
は、各切り出された領域に、文字が完全に含まれ、文字
の方向も正しく設定されているので、識別部8でリジェ
クトされずに、候補文字が選択される。候補文字は、I
/F制御部10を経て、上位WS(ワークステーショ
ン)に転送され、何等かの知識処理(単語照合、文脈処
理、妥当性チェックなど)後に、ある文字符号に決定さ
れる。(G) Feature Extracting Unit 7 In the feature extracting unit 7, the 1
Various features are extracted from the character image. (H) Discrimination Unit 8 The discrimination unit 8 refers to the discrimination dictionary 9 using the characteristic data for one character transferred from the characteristic extraction unit 7, and selects a candidate character. In the reading field RF2 cut out by the first preprocessing unit, since the cut-out character is over or under (in this example, over), the cut-out character is unreadable (reject). As for the read field RF2 cut out again by the second pre-processing unit, each cut-out area completely contains characters and the direction of the characters is set correctly, so that the identification unit 8 does not reject it. Then, the candidate character is selected. The candidate character is I
It is transferred to the upper WS (workstation) through the / F control unit 10, and after some knowledge processing (word matching, context processing, validity check, etc.), it is determined to be a certain character code.
【0022】(i) 共通制御部11 共通部制御部11では、識別部8で識別結果が不読(リ
ジェクト)の場合には、システームバス12を通して、
前処理部26に通知する。また、1枚の帳票について識
別が終了すると、機構制御部5に次の帳票を給紙するよ
うに指示する。 (j) 機構制御部5 機構制御部5では、共通制御部11からの指示にしたが
って、機構部1に次の帳票をホッパ上にセットされた帳
票束から給紙するように指示する。以上説明したよう
に、第1の実施形態によれば、読取結果が不読となり、
その文字パタンが切り出し範囲に接していると、その文
字パタンの文字枠のアドレスを求めて、文字パタンを再
度切り出すようしたので、帳票が読取位置で蛇行するこ
とが原因の切り出し不良や不読や誤読が発生することの
ない、優れたOCRの実現が期待できる。(I) Common Control Unit 11 In the common unit control unit 11, if the identification result of the identification unit 8 is unreadable (reject), the
Notify the preprocessing unit 26. When the identification of one sheet is completed, the mechanism control unit 5 is instructed to feed the next sheet. (J) Mechanism Control Unit 5 The mechanism control unit 5 instructs the mechanism unit 1 to feed the next form from the form bundle set on the hopper in accordance with the instruction from the common control unit 11. As described above, according to the first embodiment, the reading result becomes unreadable,
When the character pattern is in contact with the cutout range, the address of the character frame of the character pattern is obtained and the character pattern is cut out again.Therefore, cutout or unreadness caused by the form meandering at the reading position It is expected that excellent OCR will be realized without misreading.
【0023】第2の実施形態 図12は、本発明の第2の実施形態のOCRの構成図で
あり、図1中の要素と共通の要素には共通の符号を付し
てある。本第2の実施形態のOCRが第1の実施形態の
OCRと異なる点は、帳票を縦方向に複数にブロック領
域に分割して、各ブロック領域毎の帳票の傾きを求め
て、その傾きによって、ブロック領域毎に読取フィール
ドの傾き補正を行うようにしたことである。図12に示
すように、このOCRでは、機構部1、光学系2、光電
変換部3−1,3−2、イメージメモリ4−1,4−
2、機構制御部5、前処理部36、特徴抽出部7、識別
部8、識別用辞書9、I/F制御部10、共通制御部1
1、及びシステムバス12により構成されている。光学
系2は、機構部1に対して、帳票2−2の搬送方向に配
設されている。光学系2の出力側は、光電変換部3−
1、及び3−2が接続されている。光電変換部3−1の
出力側は、イメージメモリ4−1が接続され、光電変換
部3−2の出力側は、イメージメモリ4−2が接続され
ている。 Second Embodiment FIG. 12 is a block diagram of an OCR according to a second embodiment of the present invention. Elements common to those in FIG. 1 are designated by common reference numerals. The difference between the OCR of the second embodiment and the OCR of the first embodiment is that the form is vertically divided into a plurality of block areas, the inclination of the form is calculated for each block area, and the inclination is determined by the inclination. That is, the inclination of the read field is corrected for each block area. As shown in FIG. 12, in this OCR, the mechanical unit 1, the optical system 2, the photoelectric conversion units 3-1, 3-2, and the image memories 4-1, 4- are used.
2, mechanism control unit 5, pre-processing unit 36, feature extraction unit 7, identification unit 8, identification dictionary 9, I / F control unit 10, common control unit 1
1 and the system bus 12. The optical system 2 is arranged with respect to the mechanism unit 1 in the conveyance direction of the form 2-2. The output side of the optical system 2 has a photoelectric conversion unit 3-
1 and 3-2 are connected. The image memory 4-1 is connected to the output side of the photoelectric conversion unit 3-1, and the image memory 4-2 is connected to the output side of the photoelectric conversion unit 3-2.
【0024】イメージメモリ4−1、及び4−2の出力
側は、前処理部36が接続され、前処理部26の出力側
は、特徴抽出部7が接続されている。特徴抽出部7の出
力側は、識別部8が接続されている。識別部8の入出力
側は、文字の特徴量を格納する識別用辞書9が接続され
ている。識別部8の出力側は、I/F制御部10が接続
されている。I/F制御部10の出力側は、上位WSが
接続されている。イメージメモリ4−1,4−2、機構
制御部5、前処理部36、特徴抽出部7、識別部8、I
/F制御部10、及び共通制御部11は、システムバス
12により接続されている。以下、図12の動作(a)
〜(l)の説明をする。The preprocessor 36 is connected to the output sides of the image memories 4-1 and 4-2, and the feature extractor 7 is connected to the output side of the preprocessor 26. An identification unit 8 is connected to the output side of the feature extraction unit 7. The input / output side of the identification unit 8 is connected to an identification dictionary 9 that stores character feature amounts. An I / F control unit 10 is connected to the output side of the identification unit 8. An upper WS is connected to the output side of the I / F control unit 10. Image memories 4-1, 4-2, mechanism control unit 5, preprocessing unit 36, feature extraction unit 7, identification unit 8, I
The / F control unit 10 and the common control unit 11 are connected by the system bus 12. Hereinafter, the operation (a) of FIG.
~ (L) will be described.
【0025】(a) 機構部1 機構部1は、第1の実施形態の機構部1と同様に動作す
る。 (b) 光学系2 光学系2は、第1の実施形態の光学系2と同様に動作す
る。 (c) 光電変換部3−1 光電変換部3−1は、第1の実施形態の光電変換部3−
1と同様に動作する。 (d) 光電変換部3−2 光電変換部3−2は、第1の実施形態の光電変換部3−
2と同様に動作する。 (e) イメージメモリ4−1 イメージメモリ4−1には、第1の実施形態と同様に、
記入文字のイメージが格納される。 (g) イメージメモリ4−2 イメージメモリ4−2には、第1の実施形態と同様に、
文字枠及び記入文字のイメージが格納される。(A) Mechanism Unit 1 The mechanism unit 1 operates in the same manner as the mechanism unit 1 of the first embodiment. (B) Optical system 2 The optical system 2 operates similarly to the optical system 2 of the first embodiment. (C) Photoelectric conversion unit 3-1 The photoelectric conversion unit 3-1 is the photoelectric conversion unit 3- of the first embodiment.
It operates in the same manner as 1. (D) Photoelectric conversion unit 3-2 The photoelectric conversion unit 3-2 is the photoelectric conversion unit 3- of the first embodiment.
It operates in the same way as 2. (E) Image Memory 4-1 In the image memory 4-1, the same as in the first embodiment,
The image of the written character is stored. (G) Image memory 4-2 In the image memory 4-2, as in the first embodiment,
An image of the character frame and the entered character is stored.
【0026】(h) 前処理部36 図13は、第2の実施形態の前処理部36の動作説明図
であり、イメージメモリ4−2に格納されたイメージの
一例を示している。図13中のA4,B4,C4,D4
は帳票2−2の4角を示し、A4,B4のアドレスは、
(XA4,YA4)、(XB4,YB3)となってい
る。(X0,Y0)は、帳票の左辺及び右辺を基準辺と
した原点、(X0〜Xn)は横方向X、(Y0〜Yn)
は縦方向Yを示す。図13に示すように、帳票の上辺の
傾きα4と帳票の下辺の傾きはβ4であり、α4≠β4
とする。これは、この帳票は蛇行しながら読み取ってい
たことが分かる。本帳票の読取りに際しては、まずこの
帳票の縦方向の寸法を検出する必要がある。これは、帳
票2−2の帳票IDを読取り、その帳票フォマット情報
より、帳票の縦方向の寸法を知ることができるし、また
実際のイメージ4−1の中の帳票2−2のイメージよ
り、縦方向の寸法を測定する。(H) Pre-Processing Unit 36 FIG. 13 is an operation explanatory view of the pre-processing unit 36 of the second embodiment, and shows an example of the image stored in the image memory 4-2. A4, B4, C4, D4 in FIG.
Indicates the four corners of form 2-2, and the addresses of A4 and B4 are
(XA4, YA4) and (XB4, YB3). (X0, Y0) is the origin with the left and right sides of the form as reference sides, (X0 to Xn) is the horizontal direction X, (Y0 to Yn).
Indicates the vertical direction Y. As shown in FIG. 13, the slope α4 of the upper side of the form and the slope α4 of the lower side of the form are β4, and α4 ≠ β4
And This shows that this form was being read while meandering. When reading this form, it is first necessary to detect the vertical dimension of this form. This is because it is possible to read the form ID of the form 2-2, know the vertical dimension of the form from the form format information, and from the image of the form 2-2 in the actual image 4-1. Measure the vertical dimension.
【0027】本実施形態では、この帳票の縦方向の寸法
=400mmとする。まず、帳票を上辺Uから100m
m(この100mmは固定ではなく、任意に設定するも
のである。)4つのブロック領域に分ける。 第1のブロック領域A1:上辺〜100mm 第2のブロック領域A2:100mm〜200mm 第3のブロック領域A3:200mm〜300mm 第4のブロック領域A4:300mm〜400mm(下
辺) 第1のブロック領域A1については、上辺の傾きα4を
帳票傾き補正データとして用いながら切り出しを行な
う。第2のブロック領域A2については、上辺から10
0mmに一番近くて、できるだけ横に連続した読取フィ
ールド(例えば、図13中のL200行)に対して、第
1の実施形態の第2の前処理部の処理と同様にして、そ
の文字枠を検出していき、そのイメージメモリ4−2内
のアドレス情報より、その位置における帳票2−2の傾
き度合いを算出する。そして、算出した傾き補正データ
を用いながら、第2のブロック領域A2内の読取りフィ
ールドに対して、文字の切り出しを行う。In this embodiment, the vertical dimension of this form is 400 mm. First, the form is 100m from the upper side U
m (This 100 mm is not fixed but is set arbitrarily.) Divide into four block areas. First block area A1: upper side to 100 mm Second block area A2: 100 mm to 200 mm Third block area A3: 200 mm to 300 mm Fourth block area A4: 300 mm to 400 mm (lower side) First block area A1 Cuts out while using the upper side inclination α4 as form inclination correction data. For the second block area A2, 10 from the upper side
For a read field that is closest to 0 mm and is as continuous as possible in the horizontal direction (for example, line L200 in FIG. 13), in the same manner as the process of the second preprocessing unit of the first embodiment, the character frame Is detected, the degree of inclination of the form 2-2 at that position is calculated from the address information in the image memory 4-2. Then, using the calculated inclination correction data, characters are cut out in the reading field in the second block area A2.
【0028】第3のブロック領域A3については、上辺
から200mmに一番近くて、できるだけ横に連続した
読取フィールド(例えば、図13中のL200行付近)
に対して、第1の実施形態の第2の前処理部の処理と同
様にして、その文字枠を検出していき、そのイメージメ
モリ4−2内のアドレス情報よりその位置における帳票
の傾き度合いを算出する。そして、算出した傾き補正デ
ータを用いながら、第3のブロック領域A3内の読取フ
ィールドに対して、文字の切り出しを行う。第4のブロ
ック領域については、上辺から300mmに一番近く
て、できるだけ横に連続した読取フィールド(例えば、
図13中のL300行付近)に対して、第1の実施形態
の第2の前処理部の処理と同様にして、その文字枠を検
出していき、そのイメージメモリ4−2内のアドレス情
報よりその位置における帳票2−2の傾き度合いを算出
する。For the third block area A3, the read field is closest to 200 mm from the upper side and is as continuous as possible laterally (for example, near the L200 line in FIG. 13).
On the other hand, similarly to the processing of the second preprocessing unit of the first embodiment, the character frame is detected, and the degree of inclination of the form at that position is determined from the address information in the image memory 4-2. To calculate. Then, while using the calculated inclination correction data, characters are cut out in the reading field in the third block area A3. For the fourth block area, the read field that is closest to 300 mm from the upper side and is as continuous as possible in the horizontal reading field (for example,
13) (near line L300 in FIG. 13), the character frame is detected similarly to the processing of the second preprocessing unit of the first embodiment, and the address information in the image memory 4-2 is detected. Then, the degree of inclination of the form 2-2 at that position is calculated.
【0029】そして、算出した傾き補正データを用いな
がら、第4のブロック領域A4内の読取フィールドに対
して、文字切り出しを行う。このように、各100mm
の距離をあけて、文字枠のアドレスを検出していくの
は、全体の処理速度をできるだけ速い状態にしておくた
めである。もし、全ての文字枠のアドレスを検出しなが
ら読取りを行うと、処理速度が大幅に遅くなる。また、
一般的な機構では、100mmの間に帳票の傾きが大き
く変化することがないので、この程度の間隔(100m
m程度のこと)で、常に帳票の傾きを検出・追従するこ
とで、十分な性能を得ることができる。Then, using the calculated inclination correction data, character cutting is performed on the read field in the fourth block area A4. In this way, each 100 mm
The reason why the address of the character frame is detected while keeping the distance is is to keep the overall processing speed as fast as possible. If reading is performed while detecting the addresses of all the character frames, the processing speed will be significantly slowed down. Also,
With a general mechanism, the inclination of the form does not change significantly within 100 mm, so this interval (100 m
(about m), sufficient performance can be obtained by always detecting and following the inclination of the form.
【0030】(i) 特徴抽出部7 特徴抽出部7では、前処理部36で切り出された各文字
の特徴を抽出する。 (j) 認識部8 識別部8では、特徴抽出部7から転送されてきた1文字
分の特徴データを用いて、識別用辞書9を参照し、候補
文字を選択する。候補文字は、I/F制御部10を経
て、上位WS(ワークステーション)に転送され、何等
かの知識処理(単語照合、文脈処理、妥当性チェックな
ど)後に、ある文字符号に決定される。 (k) 共通制御部11 共通部制御部11では、識別部8で識別結果が不読(リ
ジェクト)の場合には、システームバス12を通して、
前処理部26に通知する。また、1枚の帳票について識
別が終了すると、機構制御部5に次の帳票を給紙するよ
うに指示する。 (l) 機構制御部5 機構制御部5では、共通制御部11からの指示にしたが
って、機構部1に次の帳票をホッパ上にセットされた帳
票束から給紙するように指示する。 以上説明したように、第2の実施形態によれば、複数の
ブロック領域毎に読取フィールドの傾きを求めて、読取
フィールドの傾き補正をするので、第1の実施形態と同
様の利点がある。(I) Feature Extracting Unit 7 The feature extracting unit 7 extracts the features of each character cut out by the preprocessing unit 36. (J) Recognition Unit 8 The identification unit 8 uses the feature data for one character transferred from the feature extraction unit 7 to refer to the identification dictionary 9 to select a candidate character. The candidate character is transferred to the upper WS (workstation) via the I / F control unit 10 and, after some knowledge processing (word matching, context processing, validity check, etc.), is determined as a certain character code. (K) Common Control Unit 11 In the common unit control unit 11, if the identification result of the identification unit 8 is unreadable (reject), the
Notify the preprocessing unit 26. When the identification of one sheet is completed, the mechanism control unit 5 is instructed to feed the next sheet. (L) Mechanism Control Unit 5 In accordance with the instruction from the common control unit 11, the mechanism control unit 5 instructs the mechanism unit 1 to feed the next form from the form bundle set on the hopper. As described above, according to the second embodiment, the inclination of the reading field is obtained for each of the plurality of block areas, and the inclination of the reading field is corrected. Therefore, there is the same advantage as the first embodiment.
【0031】第3の実施形態 図14は、本発明の第3の実施形態のOCRの構成図で
あり、図1中の要素と共通の要素には共通の符号を付し
てある。本第3の実施形態のOCRが第1の実施形態の
OCRと異なる点は、各読取フィールドについて、その
読取フィールドの全ての文字枠のアドレスを算出する文
字枠処理部41設け、前処理部46は、各文字枠のアド
レスにしたがって、その文字枠内の文字パタンを切り出
すようにしたことである。図14に示すように、このO
CRでは、機構部1、光学系2、第1の光電変換部3−
1,第2の光電変換部3−2、第1のイメージメモリ4
−1,第2のイメージメモリ4−2、機構制御部5、文
字処理部41、前処理部46、特徴抽出部7、識別部
8、識別用辞書9、I/F制御部10、共通制御部1
1、及びシステムバス12により構成されている。 Third Embodiment FIG. 14 is a block diagram of an OCR according to a third embodiment of the present invention. Elements common to those in FIG. 1 are designated by common reference numerals. The OCR of the third embodiment is different from the OCR of the first embodiment in that for each reading field, the character box processing unit 41 that calculates the addresses of all the character frames of the reading field is provided, and the preprocessing unit 46. That is, the character pattern in the character frame is cut out according to the address of each character frame. As shown in FIG.
In CR, the mechanism unit 1, the optical system 2, and the first photoelectric conversion unit 3-
1, second photoelectric conversion unit 3-2, first image memory 4
-1, second image memory 4-2, mechanism control unit 5, character processing unit 41, preprocessing unit 46, feature extraction unit 7, identification unit 8, identification dictionary 9, I / F control unit 10, common control Part 1
1 and the system bus 12.
【0032】光学系2は、機構部1に対して、帳票2−
2の搬送方向に配設されている。光学系2の出力側は、
光電変換部3−1が接続されている。光電変換部3−1
の出力側は、イメージメモリ4−1が接続され、光電変
換部3−2の出力側は、イメージメモリ4−2が接続さ
れている。イメージメモリ4−1の出力側は、前処理部
46が接続され、前処理部26の出力側は、特徴抽出部
7が接続されている。イメージメモリ4−2の出力側
は、文字枠処理部41が接続され、文字枠処理部41の
出力側は、前処理部46が接続されている。特徴抽出部
7の出力側は、識別部8が接続されている。識別部8の
入出力側は、文字の特徴量を格納する識別用辞書9が接
続されている。識別部8の出力側は、I/F制御部10
が接続されている。I/F制御部10の出力側は、上位
WSが接続されている。イメージメモリ4−1,4−
2、機構制御部5、文字枠処理部41、前処理部46、
特徴抽出部7、識別部8、I/F制御部10、及び共通
制御部11は、システムバス12が接続されている。以
下、図14の動作(a)〜(l)の説明をする。The optical system 2 has a form 2-for the mechanical unit 1.
2 are arranged in the transport direction. The output side of the optical system 2 is
The photoelectric conversion unit 3-1 is connected. Photoelectric conversion unit 3-1
The image memory 4-1 is connected to the output side of, and the image memory 4-2 is connected to the output side of the photoelectric conversion unit 3-2. The output side of the image memory 4-1 is connected to the preprocessing section 46, and the output side of the preprocessing section 26 is connected to the feature extraction section 7. The character frame processing unit 41 is connected to the output side of the image memory 4-2, and the preprocessing unit 46 is connected to the output side of the character frame processing unit 41. An identification unit 8 is connected to the output side of the feature extraction unit 7. The input / output side of the identification unit 8 is connected to an identification dictionary 9 that stores character feature amounts. The output side of the identification unit 8 has an I / F control unit 10
Is connected. An upper WS is connected to the output side of the I / F control unit 10. Image memory 4-1, 4-
2, mechanism control unit 5, character box processing unit 41, pre-processing unit 46,
A system bus 12 is connected to the feature extraction unit 7, the identification unit 8, the I / F control unit 10, and the common control unit 11. The operations (a) to (l) of FIG. 14 will be described below.
【0033】(a) 機構部1 機構部1は、第1の実施形態の機構部1と同様に動作す
る。 (b) 光学系2 光学系2は、第1の実施形態の光学系2と同様に動作す
る。 (c) 光電変換部3−1 光電変換部3−1は、第1の実施形態の光電変換部3−
1と同様に動作する。 (d) 光電変換部3−2 光電変換部3−2は、第1の実施形態の光電変換部3−
2と同様に動作する。 (e) イメージメモリ4−1 イメージメモリ4−1には、第1の実施形態と同様に、
記入文字のイメージが格納される。 (f) イメージメモリ4−2 イメージメモリ4−2には、第1の実施形態と同様に、
文字枠及び記入文字のイメージが格納される。(A) Mechanism Section 1 The mechanism section 1 operates in the same manner as the mechanism section 1 of the first embodiment. (B) Optical system 2 The optical system 2 operates similarly to the optical system 2 of the first embodiment. (C) Photoelectric conversion unit 3-1 The photoelectric conversion unit 3-1 is the photoelectric conversion unit 3- of the first embodiment.
It operates in the same manner as 1. (D) Photoelectric conversion unit 3-2 The photoelectric conversion unit 3-2 is the photoelectric conversion unit 3- of the first embodiment.
It operates in the same way as 2. (E) Image Memory 4-1 In the image memory 4-1, the same as in the first embodiment,
The image of the written character is stored. (F) Image memory 4-2 In the image memory 4-2, as in the first embodiment,
An image of the character frame and the entered character is stored.
【0034】(g) 文字枠処理部41 図15は、第3の実施形態の文字枠処理部41の動作説
明図であり、イメージメモリ4−2に格納されたイメー
ジの一例を示している。A5,B5,C5,D5は帳票
の4角であり、(X0,Y0)は、帳票の上辺及び左辺
を基準とした原点、A5,B5のアドレスは(XA5,
YA5),(XB5,YB5)となっている。図15に
示すように、帳票の上辺の傾きα5と帳票の下辺の傾き
はβ5であり、α5≠β5とする。これは、この帳票は
蛇行しながら読み取っていたことが分かる。まず、文字
枠処理部41では、上辺の傾きα5を算出し、この上辺
の傾きα5から、1行目の文字枠の各アドレスを第1の
実施形態の第2の前処理部の処理と同様にして算出し
て、前処理部46に渡す。次に、2行目の文字枠の各ア
ドレスを第1の実施形態の第2の前処理部の処理と同様
にして算出して、前処理部46に渡す。以下、同様にし
て、3行目、4行目、…、7行目、最終行の各行につい
て、その文字枠の各アドレスを第1の実施形態の第2の
前処理部の処理と同様にして算出して、前処理部46に
渡す。このように、毎行、文字枠のアドレスを算出して
いるので、帳票の途中で蛇行走行のために、帳票のイメ
ージが曲がっていても、常に追従していくことになる。
例えば、図15に示すように、4行目から5行目、6行
目と、上辺Uの傾きα5に対して、大きく逆方向に蛇行
していても、確実に追随・制御していける。(G) Character Box Processing Unit 41 FIG. 15 is an operation explanatory diagram of the character frame processing unit 41 of the third embodiment, and shows an example of an image stored in the image memory 4-2. A5, B5, C5 and D5 are the four corners of the form, (X0, Y0) is the origin based on the upper and left sides of the form, and the addresses of A5 and B5 are (XA5,
YA5), (XB5, YB5). As shown in FIG. 15, the inclination α5 of the upper side of the form and the inclination α5 of the lower side of the form are β5, and α5 ≠ β5. This shows that this form was being read while meandering. First, in the character box processing unit 41, the inclination α5 of the upper side is calculated, and from the inclination α5 of the upper side, each address of the character frame in the first line is processed in the same manner as the processing of the second preprocessing unit of the first embodiment. Is calculated and passed to the preprocessing unit 46. Next, each address of the character frame on the second line is calculated in the same way as the process of the second preprocessing unit of the first embodiment, and is passed to the preprocessing unit 46. Hereinafter, similarly, for each of the third line, the fourth line, ..., The seventh line, and the last line, each address of the character frame is set to be the same as the process of the second preprocessing unit of the first embodiment. Calculated and passed to the preprocessing unit 46. In this way, since the address of the character frame is calculated for each line, even if the image of the form is bent, it will always follow because of meandering running in the middle of the form.
For example, as shown in FIG. 15, even if the vehicle is meandering largely in the opposite direction with respect to the fourth line to the fifth line and the sixth line and the inclination α5 of the upper side U, it is possible to reliably follow and control.
【0035】(h) 前処理部46 前処理部46では、文字枠処理部41から出力された各
文字枠のアドレスにしたがって、その文字枠内の文字パ
タンを切り出し、文字パタンを特徴抽出部7に渡す。 (i) 特徴抽出部7 特徴抽出部7では、前処理部36で切り出された各文字
の特徴を抽出する。 (j) 認識部8 識別部8では、特徴抽出部7から転送されてきた1文字
分の特徴データを用いて、識別用辞書9を参照し、候補
文字を選択する。候補文字は、I/F制御部10を経
て、上位WS(ワークステーション)に転送され、何等
かの知識処理(単語照合、文脈処理、妥当性チェックな
ど)後に、ある文字符号に決定される。(H) Pre-Processing Unit 46 In the pre-processing unit 46, the character pattern within the character frame is cut out according to the address of each character frame output from the character frame processing unit 41, and the character pattern is extracted by the feature extraction unit 7 Pass to. (I) Feature Extraction Unit 7 The feature extraction unit 7 extracts the features of each character cut out by the preprocessing unit 36. (J) Recognition Unit 8 The identification unit 8 uses the feature data for one character transferred from the feature extraction unit 7 to refer to the identification dictionary 9 to select a candidate character. The candidate character is transferred to the upper WS (workstation) via the I / F control unit 10 and, after some knowledge processing (word matching, context processing, validity check, etc.), is determined as a certain character code.
【0036】(k) 共通制御部11 共通部制御部11では、識別部8で識別結果が不読(リ
ジェクト)の場合には、システームバス12を通して、
前処理部26に通知する。また、1枚の帳票について識
別が終了すると、機構制御部5に次の帳票を給紙するよ
うに指示する。 (l) 機構制御部5 機構制御部5では、共通制御部11からの指示にしたが
って、機構部1に次の帳票をホッパ上にセットされた帳
票束から給紙するように指示する。 以上説明したように、第3の実施形態によれば、第1の
実施形態と同様の利点がある上に、文字枠処理部41を
設けたので、文字枠のアドレスの算出と文字の切り出し
とが別々に行われるので、速度的には十分な性能を得る
ことができる。なお、本発明は、上記実施形態に限定さ
れず種々の変形が可能である。その変形例としては、例
えば、次のようなものがある。(K) Common Control Section 11 In the common section control section 11, if the identification result of the identification section 8 is unreadable (reject), the
Notify the preprocessing unit 26. When the identification of one sheet is completed, the mechanism control unit 5 is instructed to feed the next sheet. (L) Mechanism Control Unit 5 In accordance with the instruction from the common control unit 11, the mechanism control unit 5 instructs the mechanism unit 1 to feed the next form from the form bundle set on the hopper. As described above, according to the third embodiment, in addition to the same advantages as the first embodiment, the character box processing unit 41 is provided. Is performed separately, it is possible to obtain sufficient performance in terms of speed. Note that the present invention is not limited to the above embodiment, and various modifications are possible. For example, there are the following modifications.
【0037】(1) 第1の実施形態において、不読と
なった文字枠のアドレスを求めて、その文字を再切り出
ししてもよいし、不読となった読取フィールドの文字枠
のアドレスは、左端の文字枠と右端の文字枠についての
み算出して、式(3)に示す傾きを求め、その傾きで傾
き補正して、不読となった文字を切り出ししてもよい、
(2) 第2の実施形態で分割するブロック領域は、そ
の帳票のフィールドの数などにより適宜決定すればよ
く、また、そのブロック領域のサイズは、1つの帳票内
で異なっていても勿論構わない。(1) In the first embodiment, the address of a character box that has become unreadable may be obtained and the character may be cut out again. , The leftmost character frame and the rightmost character frame are calculated to obtain the inclination shown in Expression (3), the inclination is corrected with the inclination, and the unreadable character may be cut out.
(2) The block area to be divided in the second embodiment may be appropriately determined according to the number of fields of the form, and the size of the block area may be different in one form. .
【0038】[0038]
【発明の効果】以上詳細に説明したように、第1〜第3
の発明によれば、不読となった文字パタンをその文字枠
のアドレスを算出して、文字パタンの再切り出しをす
る、複数のブロック領域に分割して、各ブロック領域の
傾きを求めて、読出フィールドを傾き補正する、又は各
文字枠のアドレスを求めて、文字を切り出すようにした
ので、帳票が蛇行することが原因の切り出し不良による
不読や誤読が発生することがなくなる。As described in detail above, the first to third embodiments
According to the invention, the unreadable character pattern is divided into a plurality of block areas in which the address of the character frame is calculated and the character pattern is re-cut out, and the inclination of each block area is obtained. Since the characters are cut out by correcting the inclination of the read field or by obtaining the address of each character frame, no misreading or misreading due to a cutout failure due to the meandering of the form does not occur.
【図1】本発明の第1の実施形態のOCRの構成図であ
る。FIG. 1 is a configuration diagram of an OCR according to a first embodiment of the present invention.
【図2】従来のOCRの構成図である。FIG. 2 is a configuration diagram of a conventional OCR.
【図3】OCRの給紙・読取機構概念図である。FIG. 3 is a conceptual diagram of an OCR sheet feeding / reading mechanism.
【図4】イメージメモリ4内における帳票のイメージを
示す図である。FIG. 4 is a diagram showing an image of a form in the image memory 4.
【図5】図1中の光電変換部の構成の例を示す図であ
る。5 is a diagram showing an example of a configuration of a photoelectric conversion unit in FIG.
【図6】文字枠の例を示す図である。FIG. 6 is a diagram showing an example of a character frame.
【図7】光電変換部の動作概念図である。FIG. 7 is an operation conceptual diagram of a photoelectric conversion unit.
【図8】イメージメモリ4−1,4−2に格納されたイ
メージの例を示す図である。FIG. 8 is a diagram showing an example of images stored in image memories 4-1 and 4-2.
【図9】第1の実施形態の前処理部26の動作説明図で
ある。FIG. 9 is an operation explanatory diagram of the preprocessing unit 26 of the first embodiment.
【図10】読取フィールドRF2の切り出しイメージを
示す図である。FIG. 10 is a diagram showing a cutout image of a reading field RF2.
【図11】文字枠検索の例を示す図である。FIG. 11 is a diagram illustrating an example of character box search.
【図12】本発明の第2の実施形態のOCRの構成図で
ある。FIG. 12 is a configuration diagram of an OCR according to a second embodiment of the present invention.
【図13】第2の実施形態の前処理部36の動作説明図
である。FIG. 13 is an operation explanatory diagram of the preprocessing unit 36 according to the second embodiment.
【図14】本発明の第3の実施形態のOCRの構成図で
ある。FIG. 14 is a configuration diagram of an OCR according to a third embodiment of the present invention.
【図15】第3の実施形態の文字枠処理部41の動作説
明図である。FIG. 15 is an operation explanatory diagram of the character box processing unit 41 according to the third embodiment.
1 機構部 2 光学系 3−1,3−2 光電変換部 4−1,4−2 イメージメモリ 5 機構制御部 26,36,46 前処理部 7 特徴抽出部 8 識別部 9 識別用辞書 10 I/F制御部 11 共通制御部 41 文字枠処理部 DESCRIPTION OF SYMBOLS 1 Mechanism part 2 Optical system 3-1 and 3-2 Photoelectric conversion part 4-1 and 4-2 Image memory 5 Mechanism control part 26,36,46 Pre-processing part 7 Feature extraction part 8 Identification part 9 Identification dictionary 10 I / F control unit 11 common control unit 41 character box processing unit
Claims (3)
枠内に文字が記入又は印刷された帳票を給紙・搬送する
機構部と、 ランプを配設して、そのランプにより前記搬送されてき
た帳票に照射して、光信号を得る光学系と、 前記光学系より出力される光信号を電気信号に変換し
て、前記文字枠内の記入文字又は印字文字のイメージを
得る第1の光電変換部と、 前記第1の光電変換部より得られたイメージを格納する
第1のイメージメモリと、 前記光学系より出力される光信号から前記ドロッブアウ
トカラーが有する白レヘルに近い微小信号を増幅・抽出
して電気信号に変換して、前記文字枠のイメージを得る
第2の光電変換部と、 前記第2の光電変換部より得られたイメージを格納する
第2のイメージメモリと、 前記帳票の上辺の基準ラインからの傾きを測定し、その
傾きと前記帳票の横に1つ又は複数個の前記文字枠を含
む領域である各フィールドの情報、及び各フィールド内
の各文字枠の情報を表す帳票フォーマット情報とに基づ
いて、読取フィールド内の各文字パタンを切り出す第1
の前処理部と、 識別部により前記切り出された文字が不読と判定される
と、不読とされた文字パタンの切り出し状況を調べて、
その文字パタンの上又は下が切り出し範囲の枠に接して
いる場合には、切り出し位置が不適当と判断し、その不
読とされた文字の読取フィールド内の文字枠のアドレス
を前記第2のイメージメモリに格納されたイメージから
算出して、その文字枠のアドレスにしたがって、不読と
された文字パタンの再切り出しをする第2の前処理部
と、 前記第1、及び第2の前処理部により切り出された文字
の認識をする識別部とを、 備えたことを特徴とする光学式文字読取装置。1. A mechanism unit for feeding and transporting a form in which characters are written or printed in a character frame printed in dropout color, and a lamp is provided, and the form conveyed by the lamp is provided. And a first photoelectric conversion unit that obtains an image of a written character or a printed character in the character frame by converting the optical signal output from the optical system into an electric signal, A first image memory that stores an image obtained by the first photoelectric conversion unit; and an optical signal output from the optical system that amplifies a minute signal that is close to a white leher included in the dropout color. A second photoelectric conversion unit that obtains an image of the character frame by extracting and converting into an electric signal; a second image memory that stores the image obtained by the second photoelectric conversion unit; Upper standard lie Information of each field that is an area including one or a plurality of the character frames beside the form and the form, and form format information indicating the information of each character frame in each field First, cut out each character pattern in the reading field based on
When the cut-out character is determined to be unreadable by the pre-processing unit and the identifying unit, the cutting-out status of the unread character pattern is checked,
When the upper or lower part of the character pattern is in contact with the frame of the cutout range, it is determined that the cutout position is inappropriate, and the address of the character frame in the reading field of the unread character is set to the second value. A second pre-processing unit, which calculates from an image stored in an image memory and re-cuts out unreadable character patterns according to the address of the character frame; and the first and second pre-processing An optical character reading device, comprising: an identification unit for recognizing characters cut out by the unit.
枠内に文字が記入又は印刷された帳票を給紙・搬送する
機構部と、 ランプを配設して、そのランプにより前記搬送されてき
た帳票に照射して、光信号を得る光学系と、 前記光学系より出力される光信号を電気信号に変換し
て、前記文字枠内の記入文字又は印字文字のイメージを
得る第1の光電変換部と、 前記第1の光電変換部より得られたイメージを格納する
第1のイメージメモリと、 前記光学系より出力される光信号から前記ドロッブアウ
トカラーが有する白レヘルに近い微小信号を増幅・抽出
して電気信号に変換して、前記文字枠のイメージを得る
第2の光電変換部と、 前記第2の光電変換部より得られたイメージを格納する
第2のイメージメモリと、 前記帳票を複数のブロック領域に分割して、上端のブロ
ック領域については、前記帳票の上辺の基準ラインから
の傾きを測定し、それ以外のブロック領域については、
前記帳票の横に1つ又は複数個の前記文字枠を含む領域
である各フィールドの情報、及び各フィールド内の各文
字枠の情報を表す帳票フォーマット情報に基づいて、前
記第2のイメージメモリのイメージから各ブロック領域
に含まれる1つのフィールドに含まれる文字枠のアドレ
スを算出して、その文字枠のアドレスから、各ブロック
領域の傾きを測定し、その測定した各ブロック領域の傾
きに基づき、各ブロック領域内の読取フィールドを傾き
補正して、その読取フィールド内の文字パタンを切り出
す前処理部と、 前記前処理部により切り出された文字の認識をする識別
部とを、 備えたことを特徴とする光学式文字読取装置。2. A mechanism part for feeding and conveying a form in which characters are written or printed in a character frame printed in dropout color, and a lamp is provided, and the form conveyed by the lamp is provided. And a first photoelectric conversion unit that obtains an image of a written character or a printed character in the character frame by converting the optical signal output from the optical system into an electric signal, A first image memory that stores an image obtained by the first photoelectric conversion unit; and an optical signal output from the optical system that amplifies a minute signal that is close to a white leher included in the dropout color. A second photoelectric conversion unit for extracting and converting into an electric signal to obtain the image of the character frame; a second image memory for storing the image obtained by the second photoelectric conversion unit; and the form. Multiple blocks Divide into areas, for the top block area, measure the inclination from the reference line of the top side of the form, for the other block areas,
Based on the information of each field that is an area including one or a plurality of the character frames beside the form and the form format information that represents the information of each character frame in each field, the second image memory The address of the character frame included in one field included in each block area is calculated from the image, the inclination of each block area is measured from the address of the character frame, and based on the measured inclination of each block area, The reading field in each block area is tilt-corrected to cut out a character pattern in the reading field, and a preprocessing section for recognizing the characters cut out by the preprocessing section are provided. An optical character reader.
枠内に文字が記入又は印刷された帳票を給紙・搬送する
機構部と、 ランプを配設して、そのランプにより前記搬送されてき
た帳票に照射して、光信号を得る光学系と、 前記光学系より出力される光信号を電気信号に変換し
て、前記文字枠内の記入文字又は印字文字のイメージを
得る第1の光電変換部と、 前記第1の光電変換部より得られたイメージを格納する
第1のイメージメモリと、 前記光学系より出力される光信号から前記ドロッブアウ
トカラーが有する白レヘルに近い微小信号を増幅・抽出
して電気信号に変換して、前記文字枠のイメージを得る
第2の光電変換部と、 前記第2の光電変換部より得られたイメージを格納する
第2のイメージメモリと、 各文字枠の情報を表す帳票フォーマット情報に基づい
て、前記第2のイメージメモリのイメージから全ての文
字枠について、そのアドレスを算出する文字枠処理部
と、 前記文字枠のアドレスにしたがって、文字枠内の文字パ
タンを切り出す前処理部と、 前記前処理部により切り出された文字の認識をする識別
部とを、 備えたことを特徴とする光学式文字読取装置。3. A mechanism unit for feeding and conveying a form in which characters are written or printed in a character frame printed in dropout color, and a lamp is provided, and the form conveyed by the lamp is conveyed. And a first photoelectric conversion unit that obtains an image of a written character or a printed character in the character frame by converting the optical signal output from the optical system into an electric signal, A first image memory that stores an image obtained by the first photoelectric conversion unit; and an optical signal output from the optical system that amplifies a minute signal that is close to a white leher included in the dropout color. A second photoelectric conversion unit for extracting and converting into an electric signal to obtain an image of the character frame, a second image memory for storing the image obtained by the second photoelectric conversion unit, and each character frame Form that represents information A character frame processing unit that calculates the addresses of all the character frames from the image of the second image memory based on the format information, and a pre-processing for cutting out the character pattern in the character frames according to the address of the character frame. An optical character reading device comprising: a unit; and an identification unit that recognizes the character cut out by the preprocessing unit.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7238827A JPH0981679A (en) | 1995-09-18 | 1995-09-18 | Optical character reader |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7238827A JPH0981679A (en) | 1995-09-18 | 1995-09-18 | Optical character reader |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0981679A true JPH0981679A (en) | 1997-03-28 |
Family
ID=17035867
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7238827A Withdrawn JPH0981679A (en) | 1995-09-18 | 1995-09-18 | Optical character reader |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0981679A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010009283A (en) * | 2008-06-26 | 2010-01-14 | Hitachi Omron Terminal Solutions Corp | Image reading device, image reading method and computer program for image reading |
-
1995
- 1995-09-18 JP JP7238827A patent/JPH0981679A/en not_active Withdrawn
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010009283A (en) * | 2008-06-26 | 2010-01-14 | Hitachi Omron Terminal Solutions Corp | Image reading device, image reading method and computer program for image reading |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4748317A (en) | Optical reader | |
| EP0308673A2 (en) | Image inclination detecting method and apparatus | |
| KR20100129133A (en) | Bar code processing device and bar code processing method | |
| JPH0981679A (en) | Optical character reader | |
| EP0144202B1 (en) | Optical reader | |
| JPH06318246A (en) | Paper sheets recognizing device | |
| JPH07249099A (en) | Form identification device | |
| JPH036552B2 (en) | ||
| JPH0728935A (en) | Document image processor | |
| JPH05174184A (en) | Optical character reader | |
| JPH051512B2 (en) | ||
| JPS59206987A (en) | Letter recognizing device | |
| JP3155869B2 (en) | Paper sheet processing apparatus and paper sheet processing method | |
| JPH08305921A (en) | Paper sheet recognition device | |
| JP2023131226A (en) | Information reading apparatus | |
| JPH0696273A (en) | Recognition field retrieving method in business form reader | |
| JPH0340430B2 (en) | ||
| JP2917394B2 (en) | Character recognition device and character segmentation method | |
| JPH1011532A (en) | Optical character reading method | |
| JPH04344582A (en) | Optical character reader | |
| JPH0221385A (en) | printer device | |
| JPH07271910A (en) | Character recognition device | |
| JPH05282487A (en) | Character recognizing device | |
| JPH0573717A (en) | Optical character reader | |
| JPS6375895A (en) | Automatic group division processing system for discrimination lobic |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20021203 |