JPH0340434B2 - - Google Patents
Info
- Publication number
- JPH0340434B2 JPH0340434B2 JP59229113A JP22911384A JPH0340434B2 JP H0340434 B2 JPH0340434 B2 JP H0340434B2 JP 59229113 A JP59229113 A JP 59229113A JP 22911384 A JP22911384 A JP 22911384A JP H0340434 B2 JPH0340434 B2 JP H0340434B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- characters
- candidate
- specific
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000012805 post-processing Methods 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 239000007787 solid Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000010893 paper waste Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は文字認識後処理方式、特にパターン認
識された候補文字に対して、候補文字中に特定の
文字があるか否かに着目することにより、文字列
の区切りを見つけ、切り出された文字列に対して
辞書と照合することにより後処理を行うようにし
た文字認識後処理方式に関するものである。[Detailed Description of the Invention] [Field of Industrial Application] The present invention relates to a character recognition post-processing method, in particular, to a pattern-recognized candidate character, focusing on whether or not there is a specific character among the candidate characters. This invention relates to a character recognition post-processing method in which post-processing is performed by finding a break in a character string and comparing the extracted character string with a dictionary.
第3図は従来方式による問題点を説明するため
の図を示す。
FIG. 3 shows a diagram for explaining problems with the conventional method.
従来、例えば光学的手段により漢字を認識する
文字認識装置において、認識率を上げるために、
例えば住所辞書というような特定の知識辞書と照
合を行う後処理が行われている。従来方式によれ
ば、例えば第3図に示すように、入力シート1に
住所を記入する場合、都道府県、市郡区、区町村
別に入力する文字列を、区切つて記入しなければ
後処理ができないという問題があつた。即ち、後
処理を行うためには、入力シート1において、予
め都道府県入力枠、市郡区入力枠、区町村入力枠
というように区分された入力枠を持つフオーマツ
ト用紙を使用する必要があつた。 Conventionally, in character recognition devices that recognize kanji using optical means, for example, in order to increase the recognition rate,
For example, post-processing is performed to check against a specific knowledge dictionary such as an address dictionary. According to the conventional method, as shown in Figure 3, when entering an address on the input sheet 1, post-processing is required unless the character strings are entered separately for each prefecture, city, town, and village. The problem was that I couldn't do it. That is, in order to perform post-processing, it was necessary to use a formatted paper that had input boxes divided in advance into prefecture input frames, city/town/ward input frames, and ward/town/village input frames on input sheet 1. .
そのため、入力枠の数が多くなり、用紙のフオ
ーマツテイングが難しくなると共に、記入しにく
く、記入した文字についても読みにくいという問
題があつた。 As a result, the number of input boxes increases, making it difficult to format the paper, making it difficult to fill in information, and making it difficult to read written characters.
本発明は上記問題点の解決を図り、べた書きさ
れた文字列、例えば住所の場合、都道府県、市郡
区などを区切らずに書かれた文字列に対して、認
識後処理を行い、認識率を向上させる文字認識後
処理方式を提供する。そのため、本発明の文字認
識後処理方式は、入力文字列の認識結果として各
文字に対して候補文字が出力され、それらの候補
文字に対して最終候補を選択する後処理を行う文
字認識装置における文字認識後処理方式におい
て、予め上記入力文字列の区切りとなる特定文字
を登録し記憶する特定文字登録部と、上記特定文
字によつて区切られる文字列について当該特定文
字によつて定まるレベルに対応して意味ある用語
を記憶する辞書と、上記候補文字を検索し候補文
字中における上記特定文字の位置を見つける特定
文字検索部と、該特定文字検索部によつて得られ
た特定文字の位置情報に基づいて上記候補文字か
ら文字列を切り出す候補文字列抽出部と、該候補
文字列抽出部によつて切り出された文字列につい
て上記辞書と照合する辞書照合部とを備えたこと
を特徴としている。
The present invention aims to solve the above-mentioned problems, and performs post-recognition processing on character strings written in solid form, for example, in the case of addresses, character strings written without separating the prefecture, city, town, etc. To provide a character recognition post-processing method that improves the rate. Therefore, in the character recognition post-processing method of the present invention, candidate characters are output for each character as a result of recognition of an input character string, and a character recognition device that performs post-processing to select a final candidate for these candidate characters. In the character recognition post-processing method, there is a specific character registration section that registers and stores specific characters that delimit the input character string in advance, and a level determined by the specific characters for the character strings delimited by the specific characters. a dictionary that stores meaningful terms; a specific character search unit that searches the candidate characters to find the position of the specific character among the candidate characters; and position information of the specific character obtained by the specific character search unit. The present invention is characterized by comprising a candidate character string extraction section that extracts a character string from the candidate characters based on the above, and a dictionary matching section that compares the character string extracted by the candidate character string extraction section with the dictionary. .
本発明は、入力文字を認識した結果、候補文字
の中に特定の入力文字が存在することを利用し、
例えば住所の場合、県、市、郡、区、町などの予
め登録された特定の文字が候補文字の中に存在す
るかどうかを順次探していき、入力文字列をその
特定の文字位置で区切ることにより、べた書きさ
れた文字列について認識後処理を行い得るように
したものである。
The present invention utilizes the fact that a specific input character exists among candidate characters as a result of recognizing input characters,
For example, in the case of an address, it sequentially searches for the presence of specific pre-registered characters such as prefecture, city, county, ward, town, etc. in the candidate characters, and separates the input string at the specific character position. This makes it possible to perform post-recognition processing on solid character strings.
以下、図面を参照しつつ、実施例に従つて説明
する。
Hereinafter, embodiments will be described with reference to the drawings.
第1図は本発明の一実施例構成、第2図は本発
明の一実施例についての処理態様を説明するため
の図を示す。 FIG. 1 shows the configuration of an embodiment of the present invention, and FIG. 2 is a diagram for explaining the processing aspect of the embodiment of the present invention.
図中、1は入力シート、2は例えばOCR等の
文字入力部、3は入力文字についてパターン解析
し候補文字を選出する認識部、4は選出された候
補文字列が格納される候補メモリ、5は予め文字
列の区切りとなる特定文字が登録される特定文字
登録部、6は住所辞書、7は候補メモリ4におい
て特定文字を検索する特定文字検索部、8は特定
文字によつて区切られた候補文字列を切り出す候
補文字列抽出部、9は候補文字列抽出部8によつ
て切り出された候補文字列について住所辞書6と
照合する辞書照合部、10は辞書照合結果を出力
する結果出力部を表す。また、第2図において、
符号20は記入文字列を表している。 In the figure, 1 is an input sheet, 2 is a character input unit such as OCR, 3 is a recognition unit that analyzes patterns of input characters and selects candidate characters, 4 is a candidate memory in which the selected candidate character strings are stored, and 5 6 is an address dictionary, 7 is a specific character search unit that searches for specific characters in the candidate memory 4, and 8 is a specific character registration section in which specific characters that separate character strings are registered in advance. A candidate character string extraction unit extracts a candidate character string; 9 is a dictionary collation unit that collates the candidate character string extracted by the candidate character string extraction unit 8 with the address dictionary 6; 10 is a result output unit that outputs a dictionary collation result represents. Also, in Figure 2,
Reference numeral 20 represents an input character string.
本発明の場合、例えば第2図に示す記入文字列
20のように、住所を都道府県や市郡区などで区
切らずに、べた書きで入力シート1に記入できる
ようになつている。文字入力部2は、例えば
OCRなどによる光学的手段により入力シート1
を走査し、光の強弱情報を認識部3に伝達する。
認識部3は、入力情報について、例えば位相幾何
学的特徴を抽出したり、ストローク解析を行うな
どして入力文字についての候補文字を選出する
が、この認識処理については、種々の方式が周知
となつており、詳細な説明は省略する。 In the case of the present invention, addresses can be written in solid writing on the input sheet 1 without dividing them into prefectures, cities, towns, etc., for example, as shown in the input character string 20 shown in FIG. 2. The character input section 2 is, for example,
Input sheet 1 by optical means such as OCR
The light intensity information is transmitted to the recognition unit 3.
The recognition unit 3 selects candidate characters for the input characters by, for example, extracting topological features or performing stroke analysis on the input information, and various methods are well known for this recognition process. The detailed explanation will be omitted.
認識部3は、選出した各候補文字について、例
えば第2図に示すように、いわゆる相違度の小さ
い順に順位をつけて、第1位から第20位まで候補
メモリ4に格納する。言うまでもなく、第1位の
候補文字が、必ずしも正しい入力文字であるとは
限らない。 The recognition unit 3 ranks each of the selected candidate characters in descending order of so-called dissimilarity as shown in FIG. 2, and stores them in the candidate memory 4 from the 1st to the 20th rank. Needless to say, the first candidate character is not necessarily the correct input character.
ところで、入力文字列が住所である場合、住所
には通常「都、道、府、県、市、郡、区、町、
村」等の特定の文字が含まれることになる。特定
文字登録部5には、これらの特定文字が、入力文
字列中に現れる順番に従つたレベルに対応して、
予め登録され記憶される。住所の場合、例えば
「都、道、府、県」の各漢字が都道府県レベルと
して登録され、「市、郡、区」の各漢字が市郡区
レベルとして登録され、「区、町、村」の各漢字
が区町村レベルとして登録される。また、特定文
字登録部5には、各レベルまたは各特定文字に対
応して、そのレベル等に現れ得る文字列を記憶す
る辞書へのインデツクス情報が、設定されるよう
になつている。 By the way, when the input character string is an address, the address usually includes the following characters:
This will include specific characters such as "mura". The specific character registration section 5 stores the levels of these specific characters according to the order in which they appear in the input character string.
It is registered and stored in advance. In the case of an address, for example, the kanji for ``都, 道, ふ, 県'' are registered at the prefecture level, the kanji for ``city, county, ward'' are registered as the city/town/ward level, and the kanji for ``ku, town, village'' are registered at the city/town/ward level. ” are registered at the ward, town, and village level. Further, in the specific character registration section 5, index information for a dictionary storing character strings that can appear at that level, etc. is set corresponding to each level or each specific character.
特定文字検索部7は、候補メモリ4に候補文字
列が格納されると、特定文字登録部5を参照し、
各レベルに対応する特定文字をキーにして、候補
文字中にそのキーとなる特定文字が出現するかど
うかを先頭から順次調べていく。第2図に示した
例の場合、第3文字目の第1順位の場所に、「都」
という文字が見つけられることになる。その結
果、第1文字目から第3文字目までが、都道府県
レベルの文字列であることがわかる。次は、第4
文字目から順次調べていくことにより、第6文字
目で「市」が出現するので、第4文字目から第6
文字目までの3文字が、市郡区レベルであると認
識される。同様にして、第7文字目から第10文字
目までが区町村レベルの単語であることが認識さ
れる。 When the candidate character string is stored in the candidate memory 4, the specific character search unit 7 refers to the specific character registration unit 5,
Using a specific character corresponding to each level as a key, whether or not the specific character serving as the key appears among the candidate characters is sequentially checked from the beginning. In the example shown in Figure 2, "Miyako" is placed in the first position of the third character.
You will find the characters. As a result, it can be seen that the first to third characters are character strings at the prefecture level. Next is the 4th
By checking sequentially from the 6th character, "city" will appear in the 6th character, so from the 4th character to the 6th character.
The first three characters are recognized as being at the city/town/ward level. Similarly, it is recognized that the 7th to 10th characters are words at the ward, town, and village level.
なお、これらの特定文字は、必ず候補順位の第
1位に現れなければならないわけではなく、例え
ば第3文字目または第4文字目等の特定文字が現
れやすい場所について、候補順位の高いほうから
順に検索結果が選択されるようになつている。 Note that these specific characters do not necessarily have to appear first in the candidate ranking; for example, for locations where specific characters are likely to appear, such as the third or fourth character, the candidates are ranked first, starting with the highest candidate ranking. Search results are selected in order.
特定文字検索部7によつて、特定文字の位置が
検出されると、候補文字列抽出部8は、候補メモ
リ4に記憶されている候補文字列から、その特定
文字が現れるまでの部分候補文字列を切り出し、
辞書照合部9に通知する。 When the specific character search unit 7 detects the position of the specific character, the candidate character string extraction unit 8 extracts partial candidate characters from the candidate character string stored in the candidate memory 4 until the specific character appears. Cut out the columns,
The dictionary checking unit 9 is notified.
辞書照合部9は、通知された文字列が例えば都
道府県レベルであるとき、住所辞書6の辞書A部
に登録されている各単語と、通知された部分候補
文字列における候補順位に従つた文字の組合わせ
とが、一致するか否かを順次調べていく。これに
より、第2図図示の例の場合、都道府県レベルで
は単語が「東京都」であることがわかる。なお、
住所辞書6との照合において2以上の一致する単
語がある場合、候補順位のポイント計算により、
候補順位のより高い方の文字の組合わせのものが
選出されるようになつている。 When the notified character string is, for example, at the prefecture level, the dictionary matching unit 9 compares each word registered in the dictionary A part of the address dictionary 6 with the characters according to the candidate ranking in the notified partial candidate character string. It is sequentially checked to see if the combinations match. As a result, in the case of the example shown in FIG. 2, it can be seen that the word is "Tokyo" at the prefecture level. In addition,
If there are two or more matching words in the comparison with the address dictionary 6, by calculating the candidate ranking points,
The character combination with the higher candidate ranking is selected.
同様に、第2図図示の例において市郡区レベル
では、第4文字目から第6文字目までの部分候補
文字列について、住所辞書6の辞書B部との照合
により、「町田市」が照合結果として得られる。
さらに区町村レベルでは、第7文字目ないし第10
文字目までの部分候補文字列により、「真光寺町」
が照合結果として得られる。 Similarly, at the city/town/ward level in the example shown in FIG. Obtained as a matching result.
Furthermore, at the ward/town/village level, the 7th to 10th letters
"Shinkoji Town" is determined by the partial candidate character string up to the first character.
is obtained as the matching result.
照合結果は、結果出力部10に通知され、結果
出力部10は、必要に応じて入力者への確認を行
つて、最終的な認識結果を確定し、予め定められ
た機器への出力処理等を実行する。 The verification results are notified to the result output unit 10, and the result output unit 10 confirms with the inputter as necessary, determines the final recognition result, and outputs it to a predetermined device, etc. Execute.
以上、住所の文字入力を例に説明したが、本発
明は、例えば会社における所属等の入力におい
て、「部」や「課」などを特定文字とするという
ように、文字列の区切りに通常よく現れる文字が
あるものについて同様に適用することができる。
また、手書き文字に限らず、活字による印刷文字
の認識等にも適用できる。 The above explanation has been given using the character input of an address as an example, but the present invention is generally useful for separating character strings, for example, when inputting affiliation in a company, "department" or "section" is used as a specific character. The same can be applied to anything that has characters that appear.
Furthermore, the present invention is applicable not only to handwritten characters but also to recognition of printed characters.
以上説明した如く、本発明によれば、べた書き
された入力文字列を、後処理可能な単語単位に区
切ることができるので、複数の候補から最も妥当
な最終的候補を選出する後処理を行うことがで
き、認識率を向上させることができる。入力文字
列について、べた書きが可能であることから、記
入にあたつて書き易く、記入された文字列は読み
易い。また、用紙の無駄を少なくすることができ
る。入力者は特定文字を意識する必要はなく、入
力者に負担を与えることはない。
As explained above, according to the present invention, a solid input character string can be divided into word units that can be post-processed, so post-processing is performed to select the most appropriate final candidate from a plurality of candidates. It is possible to improve the recognition rate. Since the input character string can be written in solid form, it is easy to write and the entered character string is easy to read. Additionally, paper waste can be reduced. The inputter does not need to be aware of specific characters, and there is no burden on the inputter.
第1図は本発明の一実施例構成、第2図は本発
明の一実施例についての処理態様を説明するため
の図、第3図は従来方式による問題点を説明する
ための図を示す。
図中、1は入力シート、2は文字入力部、3は
認識部、4は候補メモリ、5は特定文字登録部、
6は住所辞書、7は特定文字検索部、8は候補文
字列抽出部、9は辞書照合部、10は結果出力
部、20は記入文字列を表す。
Fig. 1 shows the configuration of an embodiment of the present invention, Fig. 2 is a diagram for explaining the processing mode of an embodiment of the present invention, and Fig. 3 is a diagram for explaining problems with the conventional method. . In the figure, 1 is an input sheet, 2 is a character input section, 3 is a recognition section, 4 is a candidate memory, 5 is a specific character registration section,
6 is an address dictionary, 7 is a specific character search section, 8 is a candidate character string extraction section, 9 is a dictionary collation section, 10 is a result output section, and 20 is an input character string.
Claims (1)
候補文字が出力され、それらの候補文字に対して
最終候補を選択する後処理を行う文字認識装置に
おける文字認識後処理方式において、予め上記入
力文字列の区切りとなる特定文字を登録し記憶す
る特定文字登録部と、上記特定文字によつて区切
られる文字列について当該特定文字によつて定ま
るレベルに対応して意味ある用語を記憶する辞書
と、上記候補文字を検索し候補文字中における上
記特定文字の位置を見つける特定文字検索部と、
該特定文字検索部によつて得られた特定文字の位
置情報に基づいて上記候補文字から文字列を切り
出す候補文字列抽出部と、該候補文字列抽出部に
よつて切り出された文字列について上記辞書と照
合する辞書照合部とを備えたことを特徴とする文
字認識後処理方式。1 In a character recognition post-processing method in a character recognition device that outputs candidate characters for each character as a recognition result of an input character string, and performs post-processing to select the final candidate for those candidate characters, the above input characters are a specific character registration unit that registers and stores specific characters that delimit columns; a dictionary that stores meaningful terms corresponding to levels determined by the specific characters for character strings delimited by the specific characters; a specific character search unit that searches the candidate characters and locates the position of the specific character among the candidate characters;
A candidate character string extraction unit that extracts a character string from the candidate characters based on the position information of the specific character obtained by the specific character search unit, and the above-mentioned character string extracted by the candidate character string extraction unit. A character recognition post-processing method characterized by comprising a dictionary collation unit that collates with a dictionary.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59229113A JPS61107486A (en) | 1984-10-31 | 1984-10-31 | Character recognition post-processing system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59229113A JPS61107486A (en) | 1984-10-31 | 1984-10-31 | Character recognition post-processing system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS61107486A JPS61107486A (en) | 1986-05-26 |
| JPH0340434B2 true JPH0340434B2 (en) | 1991-06-18 |
Family
ID=16886946
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59229113A Granted JPS61107486A (en) | 1984-10-31 | 1984-10-31 | Character recognition post-processing system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS61107486A (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02101596A (en) * | 1988-10-11 | 1990-04-13 | Fujitsu Ltd | Character recognizing device |
| JPH02268388A (en) * | 1989-04-10 | 1990-11-02 | Hitachi Ltd | Character recognizing method |
| JPH0554021A (en) * | 1991-05-10 | 1993-03-05 | Hitachi Ltd | Information processing equipment |
-
1984
- 1984-10-31 JP JP59229113A patent/JPS61107486A/en active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS61107486A (en) | 1986-05-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Kherallah et al. | Online Arabic handwriting recognition competition | |
| JPH0340434B2 (en) | ||
| Ma et al. | A new database for online handwritten Mongolian word recognition | |
| JP2825072B2 (en) | String recognition device | |
| JPS6239793B2 (en) | ||
| JPS5842904B2 (en) | Handwritten kana/kanji character recognition device | |
| JPS62251986A (en) | Misread character correction processor | |
| JPS61161588A (en) | Character recognition post-processing method | |
| JPH0256086A (en) | Post-processing method for character recognition | |
| JP2006031099A (en) | Computer-executable program for causing a computer to perform character recognition | |
| JP2560959B2 (en) | Post-processing method for character recognition | |
| JP3007697B2 (en) | Word matching device and word matching method | |
| JP2890241B2 (en) | Optical character recognition device | |
| JPS63268083A (en) | Word recognizing device | |
| KR100356503B1 (en) | Device for recognizing learning character | |
| JPH11120294A (en) | Character recognition device and medium | |
| JP3151866B2 (en) | English character recognition method | |
| JP3245415B2 (en) | Character recognition method | |
| JP2839515B2 (en) | Character reading system | |
| JPH0438026B2 (en) | ||
| KR930012140B1 (en) | Recogntion method of on-line writing down character using stroke automata | |
| KR970049822A (en) | Cursive Multi-Character Recognition Method | |
| Biadsy | Online Arabic Handwriting Recognition Using Hidden Markov Models | |
| KR950033945A (en) | Pre-registration method, character recognition method and character recognition device | |
| JPS6121581A (en) | Character recognizer |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |