JPH028348B2 - - Google Patents

Info

Publication number
JPH028348B2
JPH028348B2 JP59028471A JP2847184A JPH028348B2 JP H028348 B2 JPH028348 B2 JP H028348B2 JP 59028471 A JP59028471 A JP 59028471A JP 2847184 A JP2847184 A JP 2847184A JP H028348 B2 JPH028348 B2 JP H028348B2
Authority
JP
Japan
Prior art keywords
recognition
input
unit
recognition target
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59028471A
Other languages
English (en)
Other versions
JPS60173688A (ja
Inventor
Kunio Sakai
Yoshitaka Okazawa
Tooru Yoshimura
Kenichi Maeda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP59028471A priority Critical patent/JPS60173688A/ja
Publication of JPS60173688A publication Critical patent/JPS60173688A/ja
Publication of JPH028348B2 publication Critical patent/JPH028348B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は入力パターンの検切できなかつた認識
対象部分および検切された認識対象単位の中で認
識できなかつたものを含めて上記入力パターンを
効果的に認識することのできる実用性の高いパタ
ーン処理装置に関する。
〔発明の技術的背景とその問題点〕
近年、計算機等への簡単な情報入力手段とし
て、活字や手書き文字に対する文字認識、入力音
声に対する音声認識等に関する技術が種々研究さ
れ、その一部が実用化されてきている。この種の
パターン認識処理は、基本的には入力パターンを
個々の認識対象単位、例えば文字や音素等に検切
して認識辞書との間でそれぞれ照合して行われ
る。しかし、例えば白紙に記入された手書き文字
に対する認識を行なう場合、その文字列を形成す
る複数の文字が相互に繋がつたり重なり合つてい
ると、各文字の検切が困難となり、結局認識辞書
との照合を行なう以前にその認識ができなくなる
と云う不具合があつた。そこで従来では、予め用
紙に文字記入位置を規制する為の枠を設ける等し
て上述した検切処理における不具合を防ぐように
している。この為、パターン認識技術の利用・応
用範囲が規制され、しかも用紙における文字記入
位置に制約を課することになるので、その利用者
にかなりの負担をかけると云う問題があつた。ま
た手書き文字にあつては個々の文字の変形が著し
く、その認識ができないことも多く生じた。この
為、前記計算機等への情報入力手段としては、未
だに不十分であつた。
〔発明の目的〕
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、文字枠等の認識
対象に対する制約条件を軽減してそのパターン認
識の実用性を高め得るパターン処理装置を提供す
ることにある。
〔発明の概要〕
本発明は、検切できなかつた入力パターンの認
識対象部分に第1のポインタを付すと共に、前記
入力パターンから検切の抽出された認識対象単位
の中で認識結果が求められなかつたものに第2の
ポインタを付し、これらのポインタが付された部
分については、後処理として他の認識対象単位に
ついて得られた認識結果や前記入力パターンに関
する知識情報を利用してその認識対象部分が持つ
情報を推定するようにしたものである。例えば、
入力パターンに対する一部の認識情報からその入
力パターンの意味する内容を知識として利用し、
上記入力パターン中の検切できない部分や認識不
能な部分の内容を推定して前記入力パターンの全
体の内容を認識するようにしたものである。特に
入力パターンから認識対象単位が検切抽出されな
かつた認識対象部分については、認識部における
辞書照合処理に供することなく後処理部による推
定処理に供し、そこから検切抽出される可能性の
ある認識対象単位とこれらの認識対象単位につい
ての認識結果とをそれぞれ推定して入力パターン
の全体の内容を認識するようにしたことを特徴と
するものである。
〔発明の効果〕
かくして本発明によれば、認識対象となる入力
パターンが比較的自由に表現されているが為に、
従来の認識処理装置では認識できなかつた入力パ
ターンについても、これを効果的に認識すること
が可能となる。つまり、入力パターンの検切不能
な部分があつても、或いは認識不能な認識対象単
位が生じても、これらの部分を上述したように他
の部分の認識結果や入力パターンに関する知識情
報を利用して推定するので、上記入力パターンを
効果的に、しかも短時間に効率的にすることが可
能となる。従つて、文字記入枠等の認識対象(入
力パターン)への制約条件を大幅に緩和すること
ができ、またパターン認識装置の応用分野を広め
得る等、実用上絶大なる効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき
説明する。尚、ここではパターン認識の一つとし
て手書きされた文字列からなる住所の認識を例に
説明する。
第1図は実施例装置の概略構成図で、1は文字
画像の入力部、2は文字の認識部、3は後処理
部、4は認識辞書である。入力部1は例えば
CCDスキヤナにより住所が手書きされた書状郵
便物等の画像を観測し、その入力画像を検切処理
して認識対象単位である個々の文字(文字画像)
を検出するものである。上記検切処理は、例えば
第2図に示すように入力画像5中の記載文字6を
表わす黒点の分布状況を分析して、例えば上記黒
点の横方向の射影パターン6aからその文字列の
検切を行ない、しかる後上記文字列の前記黒点の
縦方向の射影パターン6bから該文字列の各文字
をそれぞれ認識対象単位として検切することによ
り行われる。このとき、例えば1つの文字画像と
して切出された領域の長さから、その文字画像に
は複数の文字が含まれていると判断される場合に
は、その領域(認識対象部分)に検切不能記号
(*とする)が第1のポインタとして付される。
この第1のポインタが付された文字画像について
は、後述するように次の認識部2における認識処
理が施されない。しかして認識部2では、前記入
力部1から得られた前記第1のポインタが付され
ていない認識対象単位(文字画像)に対して正規
化処理、ボケ操作を施して、その雑音成分を除去
し、認識辞書4に予め登録された認識単位の標準
パターンとの間で照合処理を行ない、その認識結
果を判定している。この際、認識不能と判定され
た文字画像については認識不能記号(?とする)
が第2のポインタとして付される。このような第
2のポインタ(?)が付された文字画像の情報お
よび前記第1のポインタが付された文字画像の情
報が、上記認識部2で求められた文字画像の認識
結果と共に後処理部3へ送られる。この後処理部
3では、前記認識部2で求められた各文字画像の
認識結果とその文字画像の入力文字列における相
対位置情報を1つの知識情報とし、また認識対象
の内容(ここでは住所)を別の知識情報とし、こ
れらの知識情報を用いて前記第1または第2のポ
インタが付された文字画像の内容(情報)を推定
している。このような後処理部3による入力パタ
ーンの検切・認識不能部分に対する推定結果を得
て、前記入力画像(入力パターン)の全体に対す
る認識結果が求められている。
ところで上記後処理部3における入力パターン
の検切・認識不能部分に対する知識情報を利用し
た推定処理は、例えば第3図に示すようにオート
マトンを利用して実現される。即ち、検切・認識
処理された入力文字列についてその状態を初期状
態から次々に遷移していき、終了の状態に到達で
きたとき、そこに至るまでの遷移経路から不定記
号(*と?)の部分を決定(推定)するものであ
る。一例として、入力文字列が「品?区*延」と
して与えられた場合について第3図を参照して説
明する。まず、初期状態11にいるときに入力文
字“品”が入力されると、状態15に遷移する。
次に“?”が入力されると不定記号であることか
ら状態22に遷移し、次の入力“区”で状態17
へ遷移する。この時点で、入力文字列が住所を示
すものであるとの前提と、そこまでの文字列情報
が区表示を示しているとの知識情報から前記
“?”の部分が“川”であると推定(判定)でき
る。次に“*”が入力されると、そのオートマト
ンは状態17から状態24へ移る。そして次の入
力“延”で終了の状態19に達する。この場合、
上記入力“*”は検切不能部分を示しており、従
つてこの検切不能部分が複数の文字からなる可能
性がある。従つて、この検切不能部分を1つの文
字に特定することができず、前述した知識情報か
ら上記“*”の候補として例えば“中”、“東中”、
“西中”の3つが推定される。かくして前記入力
文字列「品?区*延」は「品川区中延」、「品川区
東中延」、「品川区西延」の3つに候補に変換(認
識;推定)されることになる。これらの3つの候
補については、これをデイスプレイに表示して、
そのオペレータによりキーボード或いはライトペ
ンを用いる等して選択指示すればよい。尚、入力
用紙の記載文字自体に、或いはその認識結果に誤
りがあつて、住所を表記する単語として用いられ
ない文字が後処理部3に入力されてきた場合に
は、例えば初期状態11で“品”、“東”以外の文
字が入力された場合には、判別不能状態20とし
て処理される。つまり認識処理からリジエクトさ
れる。
尚、この後処理部3は、予め住所を登録した知
識辞書を作成しておけば、例えば第4図に示すよ
うなソフトウエアによつても実現することが可能
である。即ち、前記の不定記号(*と?)の役割
を考慮しながら前記入力文字列と知識辞書の内容
と一致判定処理を行なうようにすればよい。
即ち先ず、初期設定では知識辞書および入力文
字列のポインタを各々先頭に位置付け、補正保存
フラグをオフとし補正保存スタツクをクリアす
る。しかる後、辞書の先頭文字が“$”であつた
ときには前記辞書中の次の文字と入力文字とが一
致するまで入力文字列のポインタを進める。この
“$”記号は文字数が0以上の任意の文字列を表
すものである。従つて、例えば辞書の一項目を
「$品川区中延」と作成しておくことにより、入
力文字列において「品川区」の前に「東京都」や
「都内」と云う住所表示の上位区分を示す文字が
記載されている場合であつても、また上記上位区
分表記が省略されて「品川区」から記載されてい
てもその一致をとることが可能となる。
ところで入力文字列および辞書のポインタの示
す文字の照合処理は、第5図に示すサブルーチン
処理によつて実現される。即ち、入力文字が
“?”或いは“*”であれば、辞書および入力文
字列のポインタが示す文字を補正部分として補正
保存スタツクに保存し、補正保存フラグをオンと
する。またその他の文字のときは、上記入力文字
列および辞書のポインタが示す文字を照合して一
致する辞書項目を抽出するようにすればよい。
しかして、前記“$”記号が無いとき、或いは
“$”記号に対する処理ルーチンAが終了した後
は入力文字列ポインタの示す文字に応じてその処
理を進める。まず入力文字が“*”の場合には、
次の入力文字と辞書ポインタの示す文字とが一致
するまで辞書ポインタを進め、一致すれば次の文
字に対する処理に移る(ルーチンB)。また入力
文字が“?”の場合には、前述した補正部分の保
存処理を行なつて次の文字の処理へ移る(ルーチ
ンC)。そして入力文字がその他の文字である場
合には、そのまま照合処理を行ない、一致する項
目があればそこまでの補正処理が正しかつたとし
て補正保存スタツクをクリアし、補正保存フラグ
をオフとして次の文字の処理へ移る。(ルーチン
D)。一致する項目が無ければ補正保存フラグを
参照し、そのフラグがオンとなつていれば補正保
存スタツクを利用して後戻り照合を行なう(ルー
チンE)。この後戻り照合の結果、一致する項目
があれば現在ポインタが示している文字までの一
致がとれたとして補正保存フラグとスタツクとを
それぞれクリアして次の文字の処理へ移る。尚、
これら一連の処理の途中で一致する辞書項目が無
くなつたときには、前記“*”および“?”につ
いて補正できなかつたとして排除処理Fを行な
い、その後処理を終了する。このような一連の後
処理によつて、その一部の認識文字の情報から前
記用紙に記載されている文字列全体の情報、即ち
住所を推定することが可能となる。
以上説明したように、本発明によれば、入力パ
ターンの文字同士が繋がつている為に検切ができ
なかつたり、また所謂くせ字やくずし字があつて
その認識できない場合であつても、これらを含め
て前記入力パターン全体を効果的に認識すること
ができるようになる。従つて、書状郵便物等の書
式に対する融通性をかなり許容することができ
る。また、このようなパターン処理を行なうこと
により、従来パターン認識の技術を利用できなか
つた分野においても、パターン認識の技術を効果
的に応用することが可能となり、種々の認識装置
を実用化することが可能となる。従つて、その実
用的利点は絶大である。
尚、本発明は上述した実施例に限定されるもの
ではない。例えば、認識結果から類似した文字と
判断される複数の文字を“?”と共に後処理部3
へ与えたり、或いは文字の繋がり部分の長さと、
1文字毎に検切できた部分の長さの比から推定で
きる文字数を前記“*”と共に後処理部3へ与え
ることによつて、その認識候補が複数となる場合
であつても、1つの住所あるいは単語への特定を
可能とすることもできる。またここでは手書き文
字列からなる住所の認識処理について説明した
が、連続発声された音声の認識や、他のカテゴリ
のパターン認識処理にも適用可能である。要する
に本発明は、その要旨を変更しない範囲で種々変
形して実施することが可能である。
【図面の簡単な説明】
図は本発明の一実施例を示すもので、第1図は
実施例装置の概略構成図、第2図は検切処理を説
明する為の図、第3図はオートマトンを適用した
後処理部の構成図、第4図は知識辞書を利用した
後処理部の処理ルーチンを示す図、第5図は照合
処理ルーチンを図である。 1……入力部、2……認識部、3……後処理
部、4……認識辞書。

Claims (1)

  1. 【特許請求の範囲】 1 入力パターンを検切処理して所定の認識対象
    単位を抽出すると共に、認識対象単位の検切がで
    きなかつた認識対象部分に第1のポインタを付す
    入力部と、この入力部にて検切抽出された認識対
    象単位をそれぞれ認識辞書と照合してその認識結
    果を求めると共に、認識結果が求められなかつた
    認識対象単位に第2のポインタを付す認識部と、
    この認識部にて求められた上記認識対象単位につ
    いての認識結果を前記入力パターンに関する知識
    情報とを利用して前記第2のポインタが付された
    認識対象単位についての認識結果を推定すると共
    に、前記第1のポインタが付された認識対象部分
    について、当該認識対象部分から検切抽出される
    可能性のある認識対象単位とその認識対象単位に
    対する認識結果とをそれぞれ推定する後処理部と
    を具備し、 前記第1のポインタが付された認識対象部分に
    ついては前記認識部による辞書照合を行うことな
    く前記後処理部による推定処理に直接供してその
    認識結果を求めることを特徴とするパターン処理
    装置。 2 後処理部は、入力パターンについて既に認識
    結果を得た認識対象単位の認識結果の情報と、そ
    の認識対象単位の前記入力パターン中での相対位
    置に関する情報とを該入力パターンに関する知識
    情報の1つとして利用するものである特許請求の
    範囲第1項に記載のパターン処理装置。
JP59028471A 1984-02-20 1984-02-20 パタ−ン処理装置 Granted JPS60173688A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59028471A JPS60173688A (ja) 1984-02-20 1984-02-20 パタ−ン処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59028471A JPS60173688A (ja) 1984-02-20 1984-02-20 パタ−ン処理装置

Publications (2)

Publication Number Publication Date
JPS60173688A JPS60173688A (ja) 1985-09-07
JPH028348B2 true JPH028348B2 (ja) 1990-02-23

Family

ID=12249562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59028471A Granted JPS60173688A (ja) 1984-02-20 1984-02-20 パタ−ン処理装置

Country Status (1)

Country Link
JP (1) JPS60173688A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0638841U (ja) * 1992-08-18 1994-05-24 和司 平岡 まないた乾燥器

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0752449B2 (ja) * 1986-06-09 1995-06-05 富士通株式会社 手書き入力辞書検索装置
US5073949A (en) * 1989-03-16 1991-12-17 Kabushiki Kaisha Toshiba Personal verification apparatus
US5146102A (en) * 1990-02-22 1992-09-08 Kabushiki Kaisha Toshiba Fingerprint image input apparatus including a cylindrical lens

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5725074A (en) * 1980-07-21 1982-02-09 Fujitsu Ltd Character recognition post-processing system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0638841U (ja) * 1992-08-18 1994-05-24 和司 平岡 まないた乾燥器

Also Published As

Publication number Publication date
JPS60173688A (ja) 1985-09-07

Similar Documents

Publication Publication Date Title
Khorsheed Offline recognition of omnifont Arabic text using the HMM ToolKit (HTK)
CN109919147A (zh) 服装吊牌图像中文本识别的方法
US20030004991A1 (en) Correlating handwritten annotations to a document
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
JPH028348B2 (ja)
Reul et al. Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Classification: A Case Study on Daniel Sander's Wörterbuch der Deutschen Sprache
Chamchong et al. A combined method of segmentation for connected handwritten on palm leaf manuscripts
Kumar et al. Line based robust script identification for indianlanguages
Hull et al. Visual global context: Word image matching in a methodology for degraded text recognition
Kim et al. A segmentation and recognition strategy for handwritten phrases
JPH10124615A (ja) 文字認識方法
AlKhateeb et al. Interactive knowledge discovery for baseline estimation and word segmentation in handwritten Arabic text
CN113052179B (zh) 多音字处理方法、装置、电子设备及存储介质
JP3537570B2 (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
Sturgeon Unsupervised Extraction of Training Data for Pre-Modern Chinese OCR.
Bouressace et al. A self-organizing feature map for Arabic word extraction
JPS6198487A (ja) 辞書選択方式
JP2746345B2 (ja) 文字認識の後処理方法
JP3151866B2 (ja) 英文字認識方法
JP2891368B2 (ja) 文字認識結果の後処理方法
Emon et al. Recognition (OCR) Techniques
JP2963474B2 (ja) 類似文字識別方法
JPH0576666B2 (ja)
Bumbu et al. Automation of PostOCR error correction in the digitization of historical texts
JPS60217487A (ja) 文字認識装置