JPH028348B2

JPH028348B2 -

Info

Publication number: JPH028348B2
Application number: JP59028471A
Authority: JP
Inventors: Kunio Sakai; Yoshitaka Okazawa; Tooru Yoshimura; Kenichi Maeda
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1984-02-20
Filing date: 1984-02-20
Publication date: 1990-02-23
Also published as: JPS60173688A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は入力パターンの検切できなかつた認識
対象部分および検切された認識対象単位の中で認
識できなかつたものを含めて上記入力パターンを
効果的に認識することのできる実用性の高いパタ
ーン処理装置に関する。

〔発明の技術的背景とその問題点〕

近年、計算機等への簡単な情報入力手段とし
て、活字や手書き文字に対する文字認識、入力音
声に対する音声認識等に関する技術が種々研究さ
れ、その一部が実用化されてきている。この種の
パターン認識処理は、基本的には入力パターンを
個々の認識対象単位、例えば文字や音素等に検切
して認識辞書との間でそれぞれ照合して行われ
る。しかし、例えば白紙に記入された手書き文字
に対する認識を行なう場合、その文字列を形成す
る複数の文字が相互に繋がつたり重なり合つてい
ると、各文字の検切が困難となり、結局認識辞書
との照合を行なう以前にその認識ができなくなる
と云う不具合があつた。そこで従来では、予め用
紙に文字記入位置を規制する為の枠を設ける等し
て上述した検切処理における不具合を防ぐように
している。この為、パターン認識技術の利用・応
用範囲が規制され、しかも用紙における文字記入
位置に制約を課することになるので、その利用者
にかなりの負担をかけると云う問題があつた。ま
た手書き文字にあつては個々の文字の変形が著し
く、その認識ができないことも多く生じた。この
為、前記計算機等への情報入力手段としては、未
だに不十分であつた。

〔発明の目的〕

本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、文字枠等の認識
対象に対する制約条件を軽減してそのパターン認
識の実用性を高め得るパターン処理装置を提供す
ることにある。

〔発明の概要〕

本発明は、検切できなかつた入力パターンの認
識対象部分に第１のポインタを付すと共に、前記
入力パターンから検切の抽出された認識対象単位
の中で認識結果が求められなかつたものに第２の
ポインタを付し、これらのポインタが付された部
分については、後処理として他の認識対象単位に
ついて得られた認識結果や前記入力パターンに関
する知識情報を利用してその認識対象部分が持つ
情報を推定するようにしたものである。例えば、
入力パターンに対する一部の認識情報からその入
力パターンの意味する内容を知識として利用し、
上記入力パターン中の検切できない部分や認識不
能な部分の内容を推定して前記入力パターンの全
体の内容を認識するようにしたものである。特に
入力パターンから認識対象単位が検切抽出されな
かつた認識対象部分については、認識部における
辞書照合処理に供することなく後処理部による推
定処理に供し、そこから検切抽出される可能性の
ある認識対象単位とこれらの認識対象単位につい
ての認識結果とをそれぞれ推定して入力パターン
の全体の内容を認識するようにしたことを特徴と
するものである。

〔発明の効果〕

かくして本発明によれば、認識対象となる入力
パターンが比較的自由に表現されているが為に、
従来の認識処理装置では認識できなかつた入力パ
ターンについても、これを効果的に認識すること
が可能となる。つまり、入力パターンの検切不能
な部分があつても、或いは認識不能な認識対象単
位が生じても、これらの部分を上述したように他
の部分の認識結果や入力パターンに関する知識情
報を利用して推定するので、上記入力パターンを
効果的に、しかも短時間に効率的にすることが可
能となる。従つて、文字記入枠等の認識対象（入
力パターン）への制約条件を大幅に緩和すること
ができ、またパターン認識装置の応用分野を広め
得る等、実用上絶大なる効果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例につき
説明する。尚、ここではパターン認識の一つとし
て手書きされた文字列からなる住所の認識を例に
説明する。

第１図は実施例装置の概略構成図で、１は文字
画像の入力部、２は文字の認識部、３は後処理
部、４は認識辞書である。入力部１は例えば
CCDスキヤナにより住所が手書きされた書状郵
便物等の画像を観測し、その入力画像を検切処理
して認識対象単位である個々の文字（文字画像）
を検出するものである。上記検切処理は、例えば
第２図に示すように入力画像５中の記載文字６を
表わす黒点の分布状況を分析して、例えば上記黒
点の横方向の射影パターン６ａからその文字列の
検切を行ない、しかる後上記文字列の前記黒点の
縦方向の射影パターン６ｂから該文字列の各文字
をそれぞれ認識対象単位として検切することによ
り行われる。このとき、例えば１つの文字画像と
して切出された領域の長さから、その文字画像に
は複数の文字が含まれていると判断される場合に
は、その領域（認識対象部分）に検切不能記号
（＊とする）が第１のポインタとして付される。
この第１のポインタが付された文字画像について
は、後述するように次の認識部２における認識処
理が施されない。しかして認識部２では、前記入
力部１から得られた前記第１のポインタが付され
ていない認識対象単位（文字画像）に対して正規
化処理、ボケ操作を施して、その雑音成分を除去
し、認識辞書４に予め登録された認識単位の標準
パターンとの間で照合処理を行ない、その認識結
果を判定している。この際、認識不能と判定され
た文字画像については認識不能記号（？とする）
が第２のポインタとして付される。このような第
２のポインタ（？）が付された文字画像の情報お
よび前記第１のポインタが付された文字画像の情
報が、上記認識部２で求められた文字画像の認識
結果と共に後処理部３へ送られる。この後処理部
３では、前記認識部２で求められた各文字画像の
認識結果とその文字画像の入力文字列における相
対位置情報を１つの知識情報とし、また認識対象
の内容（ここでは住所）を別の知識情報とし、こ
れらの知識情報を用いて前記第１または第２のポ
インタが付された文字画像の内容（情報）を推定
している。このような後処理部３による入力パタ
ーンの検切・認識不能部分に対する推定結果を得
て、前記入力画像（入力パターン）の全体に対す
る認識結果が求められている。

ところで上記後処理部３における入力パターン
の検切・認識不能部分に対する知識情報を利用し
た推定処理は、例えば第３図に示すようにオート
マトンを利用して実現される。即ち、検切・認識
処理された入力文字列についてその状態を初期状
態から次々に遷移していき、終了の状態に到達で
きたとき、そこに至るまでの遷移経路から不定記
号（＊と？）の部分を決定（推定）するものであ
る。一例として、入力文字列が「品？区＊延」と
して与えられた場合について第３図を参照して説
明する。まず、初期状態１１にいるときに入力文
字“品”が入力されると、状態１５に遷移する。
次に“？”が入力されると不定記号であることか
ら状態２２に遷移し、次の入力“区”で状態１７
へ遷移する。この時点で、入力文字列が住所を示
すものであるとの前提と、そこまでの文字列情報
が区表示を示しているとの知識情報から前記
“？”の部分が“川”であると推定（判定）でき
る。次に“＊”が入力されると、そのオートマト
ンは状態１７から状態２４へ移る。そして次の入
力“延”で終了の状態１９に達する。この場合、
上記入力“＊”は検切不能部分を示しており、従
つてこの検切不能部分が複数の文字からなる可能
性がある。従つて、この検切不能部分を１つの文
字に特定することができず、前述した知識情報か
ら上記“＊”の候補として例えば“中”、“東中”、
“西中”の３つが推定される。かくして前記入力
文字列「品？区＊延」は「品川区中延」、「品川区
東中延」、「品川区西延」の３つに候補に変換（認
識；推定）されることになる。これらの３つの候
補については、これをデイスプレイに表示して、
そのオペレータによりキーボード或いはライトペ
ンを用いる等して選択指示すればよい。尚、入力
用紙の記載文字自体に、或いはその認識結果に誤
りがあつて、住所を表記する単語として用いられ
ない文字が後処理部３に入力されてきた場合に
は、例えば初期状態１１で“品”、“東”以外の文
字が入力された場合には、判別不能状態２０とし
て処理される。つまり認識処理からリジエクトさ
れる。

尚、この後処理部３は、予め住所を登録した知
識辞書を作成しておけば、例えば第４図に示すよ
うなソフトウエアによつても実現することが可能
である。即ち、前記の不定記号（＊と？）の役割
を考慮しながら前記入力文字列と知識辞書の内容
と一致判定処理を行なうようにすればよい。

即ち先ず、初期設定では知識辞書および入力文
字列のポインタを各々先頭に位置付け、補正保存
フラグをオフとし補正保存スタツクをクリアす
る。しかる後、辞書の先頭文字が“＄”であつた
ときには前記辞書中の次の文字と入力文字とが一
致するまで入力文字列のポインタを進める。この
“＄”記号は文字数が０以上の任意の文字列を表
すものである。従つて、例えば辞書の一項目を
「＄品川区中延」と作成しておくことにより、入
力文字列において「品川区」の前に「東京都」や
「都内」と云う住所表示の上位区分を示す文字が
記載されている場合であつても、また上記上位区
分表記が省略されて「品川区」から記載されてい
てもその一致をとることが可能となる。

ところで入力文字列および辞書のポインタの示
す文字の照合処理は、第５図に示すサブルーチン
処理によつて実現される。即ち、入力文字が
“？”或いは“＊”であれば、辞書および入力文
字列のポインタが示す文字を補正部分として補正
保存スタツクに保存し、補正保存フラグをオンと
する。またその他の文字のときは、上記入力文字
列および辞書のポインタが示す文字を照合して一
致する辞書項目を抽出するようにすればよい。

しかして、前記“＄”記号が無いとき、或いは
“＄”記号に対する処理ルーチンＡが終了した後
は入力文字列ポインタの示す文字に応じてその処
理を進める。まず入力文字が“＊”の場合には、
次の入力文字と辞書ポインタの示す文字とが一致
するまで辞書ポインタを進め、一致すれば次の文
字に対する処理に移る（ルーチンＢ）。また入力
文字が“？”の場合には、前述した補正部分の保
存処理を行なつて次の文字の処理へ移る（ルーチ
ンＣ）。そして入力文字がその他の文字である場
合には、そのまま照合処理を行ない、一致する項
目があればそこまでの補正処理が正しかつたとし
て補正保存スタツクをクリアし、補正保存フラグ
をオフとして次の文字の処理へ移る。（ルーチン
Ｄ）。一致する項目が無ければ補正保存フラグを
参照し、そのフラグがオンとなつていれば補正保
存スタツクを利用して後戻り照合を行なう（ルー
チンＥ）。この後戻り照合の結果、一致する項目
があれば現在ポインタが示している文字までの一
致がとれたとして補正保存フラグとスタツクとを
それぞれクリアして次の文字の処理へ移る。尚、
これら一連の処理の途中で一致する辞書項目が無
くなつたときには、前記“＊”および“？”につ
いて補正できなかつたとして排除処理Ｆを行な
い、その後処理を終了する。このような一連の後
処理によつて、その一部の認識文字の情報から前
記用紙に記載されている文字列全体の情報、即ち
住所を推定することが可能となる。

以上説明したように、本発明によれば、入力パ
ターンの文字同士が繋がつている為に検切ができ
なかつたり、また所謂くせ字やくずし字があつて
その認識できない場合であつても、これらを含め
て前記入力パターン全体を効果的に認識すること
ができるようになる。従つて、書状郵便物等の書
式に対する融通性をかなり許容することができ
る。また、このようなパターン処理を行なうこと
により、従来パターン認識の技術を利用できなか
つた分野においても、パターン認識の技術を効果
的に応用することが可能となり、種々の認識装置
を実用化することが可能となる。従つて、その実
用的利点は絶大である。

尚、本発明は上述した実施例に限定されるもの
ではない。例えば、認識結果から類似した文字と
判断される複数の文字を“？”と共に後処理部３
へ与えたり、或いは文字の繋がり部分の長さと、
１文字毎に検切できた部分の長さの比から推定で
きる文字数を前記“＊”と共に後処理部３へ与え
ることによつて、その認識候補が複数となる場合
であつても、１つの住所あるいは単語への特定を
可能とすることもできる。またここでは手書き文
字列からなる住所の認識処理について説明した
が、連続発声された音声の認識や、他のカテゴリ
のパターン認識処理にも適用可能である。要する
に本発明は、その要旨を変更しない範囲で種々変
形して実施することが可能である。

【図面の簡単な説明】

図は本発明の一実施例を示すもので、第１図は
実施例装置の概略構成図、第２図は検切処理を説
明する為の図、第３図はオートマトンを適用した
後処理部の構成図、第４図は知識辞書を利用した
後処理部の処理ルーチンを示す図、第５図は照合
処理ルーチンを図である。１……入力部、２……認識部、３……後処理
部、４……認識辞書。

Claims

【特許請求の範囲】１入力パターンを検切処理して所定の認識対象
単位を抽出すると共に、認識対象単位の検切がで
きなかつた認識対象部分に第１のポインタを付す
入力部と、この入力部にて検切抽出された認識対
象単位をそれぞれ認識辞書と照合してその認識結
果を求めると共に、認識結果が求められなかつた
認識対象単位に第２のポインタを付す認識部と、
この認識部にて求められた上記認識対象単位につ
いての認識結果を前記入力パターンに関する知識
情報とを利用して前記第２のポインタが付された
認識対象単位についての認識結果を推定すると共
に、前記第１のポインタが付された認識対象部分
について、当該認識対象部分から検切抽出される
可能性のある認識対象単位とその認識対象単位に
対する認識結果とをそれぞれ推定する後処理部と
を具備し、前記第１のポインタが付された認識対象部分に
ついては前記認識部による辞書照合を行うことな
く前記後処理部による推定処理に直接供してその
認識結果を求めることを特徴とするパターン処理
装置。２後処理部は、入力パターンについて既に認識
結果を得た認識対象単位の認識結果の情報と、そ
の認識対象単位の前記入力パターン中での相対位
置に関する情報とを該入力パターンに関する知識
情報の１つとして利用するものである特許請求の
範囲第１項に記載のパターン処理装置。