JPS5847064B2

JPS5847064B2 - 文字読取方式

Info

Publication number: JPS5847064B2
Application number: JP53082512A
Authority: JP
Inventors: 俊二森; 泰一斉藤; 展之大津
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1978-07-08
Filing date: 1978-07-08
Publication date: 1983-10-20
Also published as: US4288779A; JPS5510618A

Description

【発明の詳細な説明】この発明は、文字の切り出しを行わずに文字認識を連続
的に行えるようにした文字読取方式に関するものである
。

文字認識技術については非常に多くの方法が提案されて
いる。

しかし、それらは共通に一つの処理を必要とする。

それは行上に連続的に書かれ、または印字された文字を
一つ一つ文字毎に切り出してくる処理である。

すなわち、一文字をとり込んだという前提で後の全ての
処理が行われる。

この一つの文字が切り出されるという事は、現在のＯＣ
Ｒ技術にとっては非常に大きな必要条件であり、実際そ
のため、手書きＯＣＲではＯＣＲ用紙には必ず文字枠が
印刷されており、その内に文字を書くことが指定されて
いる。

一方、印刷文字では、文字間隔を取るために１０文字／
インチが必ず指定される。

しかしながら実際上の問題としては、この条件はかなり
きついものである。

特に印字文字については、１２文字／インチは非常によ
く使用されるものであり、この場合には文字間隔が白地
で取れるという事を期待することはできない。

この様な理由で、この発明では文字の切り出しを行わず
に文字を認識する方法を提案するものである。

この発明を説明する前にさらに従来技術について簡単に
説明する。

上述したような切り出しの前処理を行わない唯一の方法
として、従来考えられているものは、各文字カテゴリー
の標準マスクを用意して、それらと一定の文字枠内に入
ってくる入力文字とを連続的に相関を取る方式である。

しかし、この方式では平面の相関をいちいちその移動毎
に計算して求めなければならず、しかも各文字カテゴリ
ー毎にそれを行うのであり、計算量と要求される速度を
考慮すると、かなり大損りなものとならざるを得ない。

しかも、入力文字は印字文字としても、大きさ、同一文
字カテゴリーに属する文字でも、例えばフォントによる
形の変動などがあり、これらの変動を吸収するためには
、文字カテゴリー毎に多くの二次元の標準マスクを必要
とし、かつそれらと整合を取る必要がある。

このような理由で上述の考え方には実際上は多くの難問
がある。

そこで、上述の単純な相関法を排除し特徴抽出の立場に
立ったとしても、なお、文字を必ずしも正しく切り出し
ていないということのために問題がある。

例えは、いちいち線を追跡したりなどして精密に特徴を
取っていくということでは、切り出しが必要である相関
法に欠点があるという同じ意味でうまくいかない。

したがって、特徴抽出はできるだけ単純なものでなげれ
ばならず、しかも加法的であることが望ましいのである
。

こＳで加法的であるとは、文字が移動していって所定の
枠内に入る文字パターンが変っていくわけであるが、そ
の変化毎にいちいち全面を見て改めて特徴を取るという
のではなく、その時刻までの特徴に関するある結果が有
効に利用される事、もう少し詳しく云うと、文字パター
ンの消滅と出現部分だけが、既存のものに加法的に結合
されて、文字パターン全体の特徴が得られるという事が
望ましいのである。

具体的にこの要求を満たすために、この発明で取り上げ
られる特徴は局所的特徴か、または文字が行方向に移動
していくのであるから列方向における大域的な特徴であ
る。

そして加法的であるという事から、それらの特徴頻度（
ヒストグラム）が考えられる。

かくして、まず最初にこれらの特徴のヒストグラムベク
トル（以下特徴ベクトルと云う）が与えられる。

ｆｌ、・°゛・曲゛、ｆｎは各特徴の頻度を表わす。

さて、この様にして得られた特徴ベクトルｆは必ずしも
文字の識別に良いものであるとは限らない。

そこでこれを識別の立場でできるだけ良いものに組み直
す必要がある。

これには多変量解析の手法を用いることにより、学習デ
ータを与えてやれは自動的に求めることができるのであ
る。

すなわちこれは特徴ベクトルｆのある線形変換行列Ａを
与えることであり、とのＡは全文字カテゴリーのデータ
集合（ｆｉ）から求めることができる。

−万、各文字カテゴリー毎のデータ集合（ｆｉ）。

から、新しく変換された特徴軸における標準文字パター
ンが求められ、これが各文字カテゴリーのマスクとなる
。

かくして、入力文字は各移動位置毎に特徴ヒストグラム
が加法的に求められ、特徴ベクトルが得られ、これが新
しい特徴軸に変換されて、この新しい特徴軸で各文字カ
テゴリー毎のマスクと整合が取られ、あるしきい値以上
の整合度が得られたマスクの文字カテゴリーが入力文字
のカテゴリーとされる。

上記の原理に基づくこの発明の一実施例について、以下
図面を参照して説明する。

第１図は読取るべき文字「Ａ、Ｂ、ＣＪと読取枠の作用
をするラインセンサ１との関係を示している。

ラインセンサ１は、列方向に一列に並んだ多数の素子１
ａ〜１ｎからなり、各素子は例えば光電変換素子からな
り、入力信号を光電変換する。

ラインセンサ１は第１図の矢印の行方向に走査される。

文字Ｉ−Ａ、Ｂ、ＣＪは行方向に並べて書かれたタイプ
印字、または手書き文字とする。

簡単のため、前処理部は簡略したものを考えることにす
る。

すなわち、ラインセンサ１から得られたビデオ信号は、
一定のしきい値で二値化されるものとする。

すなわち、黒を１″′、白をＮ０１１のように二値化
する。

これを第２図に示す。第２図において、ラインセンサ１
の各素子１ａ〜１ｎのアナログ情報は二値化回路２によ
って所定のしきい値以上、以下によって１”またはｎ
Ｏｔｔにディジタル化される。

二値化回路２の出力は順次ｎビットのバッファシフトレ
ジスタ（以下ＢＳＲという）３に記憶される。

４は特徴抽出用バッファシフトレジスタ（以下ＦＢＳＲ
といつ）で、４個のＢＳＲ４ａ＞４ｂｔ
４ｃからなるｎ×３ビツトのものである。

その動作について説明すると、一部分のサン７リングが
ラインセンサ１により終了すると、Ｂ５Ｒ３は一杯にな
る。

その段階でその一部分の情報がｎ行３列のＦＢＳＲ４に
同時に転送される。

この時、既に存在していたＦＢＳＲ４の一番上のＢＳＲ
Ｊａ内の情報は消滅するので、事前にすぐ下の行のＢＳ
Ｒ４ｂにシフトされる必要がある。

この事はＦＢＳＲ４の真中のＢＳＲ４ｂについても同様
でＢＳＲＪａから転送される前に、それまで記憶してい
た情報をＢＳＲ４ｃに転送しなげればならない。

この様にＦＢＳＲ４は、まず列方向にシフト可能なレジ
スタ群でなければならない。

カくシテ、一番最初の状況を除いて、このＦＢＳＲ４に
は、近接する３列の文字パターン情報が常に貯えられて
いることになる。

次に、特徴抽出（局所的、大域的）について説明する。

第２図のように情報を取り込んだところで、次に特徴を
抽出するｍに入る。

特徴抽出は大きく２種類に分けられる。

すなわち、局所的と列方向の大域的とである６局所的な特徴としては種々のものが考えられるが、と五
では系統的で効果的であることがわかっているｎ次の自
己相関系列のうち、３次までを３×３のマスクで実現し
たものを使用する。

このようなマスク系列の一例を第３図に示す。

第３図には應１〜涜２５までの２５枚のマスクが示され
ており、各マスクは３×３の９個所のうち、どこがｌ
？１であるかを示してあり、＊印のところは１″でも０
″でもよいことを示している。

したがって、・／Ｉ６１のマスクについて云えば、中心
力１９１７１でさえあれば、このマスクの出力は常に１
′”ということになる。

そして、贋１のマスクは１次マスク、／ｉ６．２〜應５
は２次マスク、屑６〜Ａ２５は３次マスクを示している
。

さて、ＦＢＳＲ４に貯えられたｎ行３列のパターンから
上述のマスクにより整合をとり、各マスクのヒストグラ
ムを求めるのであるが、このための回路を第４図に示す
。

第４図において、上方に示す３×３の枠は、第２図のＦ
ＢＳＲ４の最右端の３×３の部分に相当し、枠内は＃０
〜＃８までのアドレスが付しである。

各アドレス＃０〜＃８における１″または０”の値はノ
リツブフロップＦＦ、とアンドゲートＡＮＤで構成
される回路の各フリップフロップＦＦ、の入力に加えら
れる。

したがって、第３図のマスクのパターンと照合すれば容
易に理解できるように所定の組合せの出力からどのマス
クと整合がとれたかが判別される。

例えば、第３図の／１６１８のマスクを例にとると、こ
の場合にはアドレス＃Ｏ１＃３、＃５が”１１１の場合
であるから、＃０と＃３を入力とするアンドゲートから
の出力と、＃０と＃５を入力とするアンドゲートからの
出力とを入力とするアンドゲートからの出力が涜１８の
出力ということになる。

かくして、２５次元の１″、ＮＯＩ＋型要素もつ局所
特徴ベクトルが現われることになる。

一方、第２甲のＦＢＳＲ４の最右端から情報を取り出す
には、ＦＢＳＲ４０行方向にシフトさせなげればならな
い。

また、情報が失われないように、これは元（最左端）に
戻す必要があり、そのためＦＢＳＲ４は二次元シフトレ
ジスタで、かつ巡回型である。

次に、このようにして得られたマスクの整合結果からヒ
ストグラムを作り特徴ベクトルを得る必要がある。

これを第５図に示す。第５図はラインセンサ１の各列毎
のヒストグラムレジスタ５を示すもので、この例の場合
には、１文字を走査する走査長はラインセンサ１の幅の
２０倍、すなわら、一文字の走査にラインセンサ１は２
０回入力があるものとしているまた、行の数は２５ある
ものとする。

したがって各２５ビツトのメモリ５８．１〜５１−２５
１５２．１〜５□、２５．・・・・パ・・・５２０−１
〜５□ｏ、２５０５００個が配列されており、行方向に
シフトレジスタを構成している。

第１列目のメモリ５０．□〜５□、２．には、第４図の
／１６１〜／％２５の各マスクの出力（マスクと同様應
１〜Ａ２５で表わす）が入力される。

そして、ラインセンサ１がその幅だけ走査方向にシフト
スる毎にラインセンサ１から出力が出てメモリ５４．１
〜５１．２５に記憶され、それまでの記憶は次段のメモ
リ５□、□〜５２．２５に転送される。

このようにして、ラインセンサ１の移動に伴って常にそ
れまでの２０列分の記憶がヒストグラムレジスタ５に記
憶されることになる。

したがって、ヒストグラムレジスタ５の内容と第１図の
文字との対応をみると、ある時点では丁度文字ＩＡＪに
対応しているときもあるし、あるときは文字ｒＡＪと文
字ｒＢＪが半分ずつ対応しているときもあるというよう
に、ラインセンサ１の動きに応じてその内容を変えてい
くことになる。

第６図はヒストグラム累積器６の一例を示すもので、６
□〜６２５は８ビツトのアップダウンカウンタでありそ
の各加算端子７□〜７□５には第５図のヒストグラムレ
ジスタ５の第１列目の各メモリ５□、□〜５１−２５の
出力がそれぞれ加えられ、また各減算端子８□〜８２５
には同じく第２０列目の各メモリ５２ｏ、□〜５２０．
２５の出力層（１）〜應（２５）が加えられている。

したがって、ヒストグラム累積器６の内容はラインセン
サ１が１列分次に移動すると新しくその列の出力が加算
され、１番古い列の情報が減算されることになり、常に
第５図のヒストグラムレジスタ５の各行における１”ま
たはｅ＠Ｏｐｔの数の合計をカウントすることになる
。

かくして、局所的特徴がヒストグラム累積器６に得られ
る。

以上は局所的なｎ次元（上記の例ではｎ＝２５）
特徴ベクトルの作り方について述べたのであるが、この
ｎ次元特徴ベクトルの用い方については後述することに
し、次に大域的特徴の抽出について説明する。

列方向における大域的な特徴として１．こ工では次の２
種類をとり上げる。

一つはランレングスと呼ばれるもので、２値画偉の符号
化によく使用されるものであって、連続する黒または白
の長さを測るものである。

もう一つはモーメントである（なお、モーメントについ
ては、とＳでは使用しないのでその説明は省略する）。

ランレングスを検出する具体的回路を第７図に示す。

第７図ａは“１″のランレングス、第１図すはＯｊｊの
ランレングスの検出に用いられる。

まず、初期状態として、第７図ａ、ｂのフリップ７０ツ
ブＦ１□〜Ｆ１３）ＦＯＩ〜Ｆ０３はすべてセットされ
ているものとする。

はじめにシフトレジスタＳＲの最右端が“１″である場
合の″１？１のランレングスの検出について説明スル
。

この場合には、第７図ａにおいて、カウンタＣ１１に′
″１１１１バカれ以外はフリップフロップＦ１□、Ｆ□
２ｔＦ１３のＱ出力によりカウンタＣ□２．Ｃ□３の前
のゲートがインヒビジョンされてカウントされない。

この様に′１゛が続く限りその数がカウンタＣ□１にカ
ウントされる。

第７図すにおいては同様にしてカウンタＣ６１゜Ｃｏ２
．・・・・・・・・・もその前のゲートがインヒビジョ
ンされカウントされない。

そこで、シフトレジスタＳＲの最右端が「・・・・・・
・・・０１」となる時がきて最初のｎ、５１０ラン
が切れた時、ケー１−Ｇ、がオンとなり、フリップフロ
ップＦ１□のに入力はｌ”となり、フリップフロップＦ
１□はトグルしてＱ出力は″１″→″０パとなる。

したがってカウンタＣ１□のカウントが終ると同時にカ
ウンタＣ□２の前のゲートのインヒビジョンは解ける。

しかし、この時、ノリツブフロップＦ１□のＱ出力は１
クロツク遅れているので、これはフリップフロップＦ□
２２Ｆ□３をトグルしない。

そこでシフトレジスタＳＲが、そのま、Ｎ０９９の
ランが続けばそれは第７図すのカウンタＣｏ１にカウン
トされるが、「・・・・・・・・・ＯＩＪがシフトレジ
スタＳＲに現れて“Ｏ”のランが切れればゲートＧｏが
オンしてノリツブフロップＦ。

□はトグルし、ＦｏｌのＱ出力は１″→″０″となり、
次のカウンタＣ６２の前のゲートのインヒビジョンを解
＜。

一方、このまＳ第２の１″′のシンが続けば、第７図ａ
のカウンタＣ□２にそれはカウントされる。

なお、Ｊ入力がＮＯ＋１であればに入力の入力にかか
わらず各ノリツブフロップはセットされることはないこ
とに注意する。

すなわち、一旦６０″になればそれはそのま工の状態を
に入力の入力のいかんに力へわらず保持する。

さて、再び第２の“１”のランが切れて「・・−・・・
・・・ＯＩＪがシフトレジスタＳＲに現われると、今度
はゲー）Ｇ、のインヒビジョンは解かれているので、ゲ
ートＧ１２はオンとなり、フリップフロップＦ１２はト
グルしてカウンタＣ□２のカウントは終る。

このようにして、カウンタＣ□□には最初の１”のラン
レングス、カウンタＣ□２には第２の、カウンタＣ□３
には第３のそれらがカウントされる。

同様にカウンタＣ８１には最初の０′″のランレングス
、カウンタＣ８２には第２の、カウンタＣ□３には第３
のそれらがカウントされることになる。

このようにしてジンレングスはに次のベクトルにより表
現されることになる。

このようにして、二つの特徴ベクトル、すなわち、ｎ次
元の局所的特徴ベクトルとに次元（実際には高々８）の
ランレングスベクトルが得られる。

重要な事はこれらは全て第１図のＦＢＳＲ４に示される
ような３Ｘｎの領域内だけで求まるということである。

なお、ランレングスベクトルの場合も局所的特徴ベクト
ルと同様にしてヒストグラムを求めることができるが、
こ工では説明を省略した。

次に、上述のようにして得られた局所的特徴ベクトルと
大域的特徴ベクトルを判別分析に都合がよいように線形
統合してｍ次元ベクトルに変換する手段について説明す
る。

こ〜でも、局所的特徴ベクトルすなわちｎ次元のヒスト
グラムｆを新しい特徴軸に変換することについて説明す
る。

この変換はにＡなる行列を乗じてｍ次元ベクトルｇを得
ることである。

すなわちを行うことである。

これには乗算と加算とを必要とする。

今、簡単のために、ｎ−２５、■−１０とすると、行列
への各係数はそれぞれ８ビツトで、ａ１□、ａ１２、・
・・・・・・・・ａｌｏ−２５となる。

この行列Ａは２５次元を１０次元に縮約するものとする
。

このような特徴軸変換とその後の整合とをとる回路の一
例のブロック図を第８図に示す。

第８図において、６は第６図で説明したヒストグラム累
積器であり、１０は行列Ａの係数設定器で、８ビットレ
ジスタ１０□〜１０，５ｏからなる。

これらは固定メモリでよい。

ヒストグラム累積器６と係数設定器１００両出力は演算
器１１に入力され、こ五で、乗算、加算が実行されて新
しい特徴軸でのｇ（例えば１０次元）が演算器１１から
得られる。

次に、この１０次元（一般にはｎより少ないｍ次元）ベ
クトルｇとマスクとの整合が実行される。

これはベクトルｇと、マスクｇ＊ｉとの距離を求めるこ
とであるが、と二では例として差の絶対値という単純な
ものをとる。

すなわち、こ＼で、ｉはアルファベット２６文字と数字
１０文字の計３６文字の数を示している。

第８図ではマスク群１２として、８ビツトレジスタを用
い、３６群の各群についてカテゴリーを１０種として計
３６０個のマスクを用意しである。

一方、１３は演算部で、こ亙で前述した演算が行われる
。

そうして、これらの演算結果が４ビツトで３０ケのレジ
スタ群からなるメモリ１４に貯えられ、これらが並列的
に最小値検出器１５によって比較され、最小値を与える
文字のカテゴリーが入力された文字の答えとして出力さ
れる。

１６は制御部を示す。

なお、こ工で１問題になるのは、行列Ａをいかにうまく
求めるかであるが、これは多変量解析の手法を適用する
ことにより、学習文字データから自動的に構成すること
ができる。

多変量解析そのものについては、既に知られていること
なので、これ以上の説明は省略する。

上述の整合は、ラインセンサ１（第１図）の移動毎（１
行ステップ毎）に行われたものであり、この意味でほと
んど連続的に整合結果が得られることになる。

すなわち、上述した例では各文字バラインセンサ１が２
０回走査方向にラインセンサ１の幅だけ動いて１文字が
走査されたことになるから、各回毎に第８図の最小値検
出器１５から答が出される。

この状態を文字とラインセンサ１および答との関係で示
すと第９図のようになる。

第９図において、ラインセンサ１の幅で各文字ｒＡＪ
ｒＢＪを切ったのを点線で示す。

各文字の走査の始めのうちは何の文字だかわからず、答
は？であるが、走査が進むにつれて答がはっきりしｒＡ
ＪまたはｒＢＪの文字であることが判別される。

そして、この答は連続的であり、ラインセンサ１の動き
につれて出るものであって、従来の文字の切り出しによ
るもののように、１文字分に対して１つの答というので
はなく、ラインセンサ１の幅で１文字分の幅を割った数
だけの答が出ることになり、すべて連続的に実行される
。

なお、上記実施例では、パターン例として文字を対象に
したが、この発明はこれに限定されるものでなく、この
発明で云う文字とは広義の意味で用いたものであって他
のパターンも含むものである。

以上詳細に説明したように、この発明は一定の読取枠で
文字列入力を連続的に走査し、これから局所的特徴また
は大域的な特徴を作り、その出現頻度からｎ次元特徴ベ
クトルを作り、これを次いで線形統合してｍ次元ベクト
ルを作り、このｍ次元ベクトルとあらかじめカテゴリー
毎に構成されたマスクとを連続的に整合をとって文字を
読取るようにしたので、従来のように文字の切り出しが
全く不要となり、しかも連続して文字読出しができる利
点を有する。

【図面の簡単な説明】

第１図はこの発明の詳細な説明するための文字列とライ
ンセンサとの関係を示す図、第２図は同じくラインセン
サとＢＳＲ，ＦＢＳＲとの関係を示す図、第３図は局所
的特徴を見出すために用いられるマスクのパターン例を
示す図、第４図は第２図のＦＢＳＲの第３図のマスクと
の整合をとる回路例を示す図、第５図はヒストグラムレ
ジスタの一例を示す図、第６図はヒストグラム累積器の
一例を示す図、第７図はランレングスを測定する回路の
一例を示す図、第８図は特徴軸変換とその後の整合をと
る回路の一例を示すブロック図、第９図は文字とライン
センサおよび答との関係を示す説明図である。図中、１はラインセンサ、２は２値化回路、３はＢ５Ｒ
１４はＦＢＳＲ１５はヒストグラムレジスタ、６はヒス
トグラム累積器、９はカウンタ、１０は係数設定器、１
１は演算器、１２はマスク群、１３は演算部、１４はメ
モリ、１５は最小値検出器、１６は制御部である。

Claims

【特許請求の範囲】

１文字列入力を一定の読取枠で連続的に走査し、前記
読取枠内における局所的または行方向に移動していく文
字列方向における大域的な特徴の出現頻度からｎ次元特
徴ベクトルを作り、このｎ次元特徴ベクトルを判別分析
の手法により線形統合してｍ次元ベクトルを作り、一方
、あらかじめ文字カテゴリー毎に構成されたマスクを用
意しておき、このマスクと前記ｍ次元ベクトルとを連続
的に整合をとることにより文字の切り出し無しに文字を
認識することを特徴とする文字読取方式。