JPH04502526A - 像認識 - Google Patents

像認識

Info

Publication number
JPH04502526A
JPH04502526A JP1509636A JP50963689A JPH04502526A JP H04502526 A JPH04502526 A JP H04502526A JP 1509636 A JP1509636 A JP 1509636A JP 50963689 A JP50963689 A JP 50963689A JP H04502526 A JPH04502526 A JP H04502526A
Authority
JP
Japan
Prior art keywords
image
bitmap
pixel
discriminator
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1509636A
Other languages
English (en)
Inventor
イザリントン,ハリー ジェームス
ジョスリン、ポール カーター
ニューマン、ロジャー キース
バクスター、ピーター
リッドストーン、スティーブン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JPH04502526A publication Critical patent/JPH04502526A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 像認識 技術分野 本発明は、画素のビットマツプとして二元系に表されたテキスト文字のような2 次元像の認識方法及び装置に関する。
背景技術 現在までに種々の文字認識システムが開発され提案されており、主に2種のタイ プがある。
1、テンプレート(マスク)マツチングまたはマトリクスマツチング:この方法 では、文字像は一連の記憶保持された像原型と比較され、その−成性を確認して 文字を認識する。この技術は、種々の異なる字体を記憶するためのコンピュータ 記憶容量の大容量化を余儀なくされ、字体は公知でなければならず、通常用いら れる程度の文字でなければならない、また認識の誤りに対して学習機能が伴われ ていない。
十分な一致性が期待できない場合には a)歪除去のための事前の処理や b)どの程度原型テンプレートに一致するかを調べるための事後の処理 が必要となるため装置コストが上昇する結果となる。
2、位相幾何学上(局在性)の解析または形状(姿)解析:この方法では、文字 像の形状または姿に対してアルゴリズム上の整合性が試みられる。この技術は字 体の高度な独立性が保たれ、学習機能も具備されている。しかし、日常的な印刷 物は歪んだ文字や破壊された文字(像)が存在しており、そのような歪により文 字の輪郭は悪影響を受けるので、かかる文字を認識する場合に問題が依然存在す る。
位相幾何学上の解析を行うに際してソフトウェア手段が優越的な地位を占めてい る。しかし、装置コストを低減するために認識速度は低下する傾向がある。即ち 、認識速度は認識コンピュータシステムの処理実行時間に依存するので、処理速 度を高めようとすればコンピュータシステムがより強力になる必要があり、それ で装置コストが上昇するのである。
いわゆるNタラプル類別器に基づく技術が開発されてきた。
この類別器は、東洋合同コンピュータ会議1959において「機械によるパター ン認識と読み込み」という表題で225頁から232頁にブレドソー、ブロウニ ング両氏により初めて刊行物に記載されており、また1979年アレクサンダー 、ストンハム両氏による「ランダムアクセスメモリを用いたパターンU識のため のガイド」という表題にて「コンピュータとディジタル技術」の第2巻第1章2 9頁がら4o頁にも記載されている。Nタラプル方法は基本的にはシステムに送 られた情報と該システムにて既に学習された情報とを比較する手段であり、その ことにより該システムはもっとも可能性の高い決定を行うことができる。この手 法はパターンや形状の認識を行い得る能力を有し、多種の字体の認識をも行い得 る。また(1!識されるべき)字体が事前に決定されている必要はない。しかし 様々な字体範囲に対して適切な学習が必要であり、文字認識のために字体に歪が あっても字体内の文字の様々な歪に対しても適切な学習が必要とされる。 英国 公報0B−A−1298701号や0B−A−1431438号はこのようなN タラプル技術について記載している。これらに記載されているシステムは、従来 のパターン認識システムよりもU識結果においては改良されているが、しかし、 高価な高速ハードウェアによるものや(依然として高価ではあるが)低価格であ っても低速のソフトウェアによるものである。
発明の要約 本発明における第1の観点によれば、像認識装置はビットマツプ状に規定された 多数の像を別々の画素群に分けるための第1の同期状態機器と、類別のため各々 の該画素群の振り分けを受ける第2の同期状態機器とを有している。
振り分は状態機器にある各々の画素群は類別されるべき像に対応することを意味 している。
本発明者らは印刷品質に様々な相違があっても世界中の刊行物に対して適応可能 なNタラプル方法の独特な長所に着目した。
本発明者らは、さらに、従来のNタラプル方法の適用の際に当面した問題点が設 計上の観点から克服され得ると判断した。
このような問題点とは認識速度と装置コストとの相互性に起因するものであり、 即ち処理が低速なこと、高価な装置、ということである。
本発明の重要な特徴とは、中心となる認識機能技術を最大限に実行するために本 発明者らは同期状態機器を用いることによる独自の重要な利点を発見したことに ある。パターン認識のためのNタラプル方法に基づく改良技術を利用したときに このような観点から特に著しい利点が得られるのである。
中心となる認識機能技術は、振り分けと類別とによって、構成される。
(a)振り分け:走査された情報を互いに別個独立した像に分割することであり 、即ち、形状抽出処理である。 振り分は処理は登録処理と結合される。登録処 理とは個々の振り分けられた像の相関関係を登録するために位置情報を提供する 処理である。そのことにより、認識された文字群がデータの流れの中に組み込ま れ適当なフォーマットとなる。
(b)類別:像を予め規定されたクラスに分類する処理である。
この類別処理は、以下の2つの場合の処理を行う手段を有する。すなわち、 (i)類別器が正確な判定をできず拒絶エラーをした場合である。この場合には 、類別器はその結果を分類しなければならな(i i)類別器が誤った判定を下 し置換エラーをした場合である。この場合には、類別器は文脈環の他の情報から そのエラーを認識しなければならない。
分割処理と類別処理については、IBMの研究・開発ジャーナル(IBM Jo urnal of Re5earch and Development)、2 7巻、No、4,388ぺ〜ジから398ページまでに記載されている。
同期状態機器では、処理の各段階がシステムクロックの制御のもと、同期してお こなわれる。このようにして、中断ルーチン、ポーリングルーチン、ハンドシェ ーキングルーチン(初期接続手順ルーチン)等の各段階の処理で使用される非同 期装置で発生するような時間のズレや遅れを防止できる。
Nタラプルパターン認識法による像認識に、この同期状態機器を応用する際には 、ハードウェアを搭載しておこなうことが考えられる。このようにすれば、 ( ソフトウェアでおこなうのに比べ)ずっと高速に像認識を行うことができる。そ して、その値段も、ソフトウェア関連品とあわせても十分安価にすることができ る。
本発明における第2の観点によれば、各デジタル画素群により表される像を認識 する方法は、各画素群をNタラプル類別器に送る工程を有する。ここで、Nタラ プル類別器は、多数の弁別器を有し、各弁別器は、一定のクラス群の各クラスを 認識するためのものである。そして、こめ方法においては、各画素群は、一定の 順序で弁別器に送られる。そして、弁別器からの出力が認識条件を満たすとすぐ に、画素群の類別器への移送が停止する。
本発明の第三の観点によれば、各デジタル画素群より表されている像を認識する 装置は、多数の弁別器を有するNタラプル類別器を有する。ここで、各弁別器は 、特定のクラス群のうちの各クラスを認識するものであって、画素群が送られて くるものである。そして、この認識装置は、各画素群を弁別器へ一定の順序で送 るように構成されている。この認識装置は、さらに、弁別器の出力をモニターし 、かかる出力が!!識条件を満たすやいなや画素群を類別器へ送るのを停止させ るための認識手段をも有する。
Nタラプル類別器が、この認識処理と相互に作用し、かつ、文字が十分に認識で きるようになるとすぐその作用が停止するように操作可能であることは、本出願 人が最初に認識したものである。
一例として、この方法は、各弁別器の出力をしきい値と比較する工程を有する。
ここで、しぎい値をこえた時に認識条件が満たされたことになる。この典型とし ては:(i)あるしきい値°A°があり、これより上で像は識別(認識)される 。
(i i)あるしきい値°B゛があり、これより下では像はすぐには識別されな い。
(iii)’A’ と゛ Boとの間の領域では、像は、−のクラス群、たとえ ば、下の場合(lower case)であるO、es cのクラス群に属する ものとして認識される。なお、特定の像が認識されるよう、さらに別の処理が要 求される。
(iv)弁別器の出力された”候補(スコア)”がBより小さい場合には、この ことは、類別器が完全に処理を終えたことを意味する。この場合には、候補のラ ンク付けが検査される。そして、もし、弁別器の最大出力値とその次の出力値と の差が一定の基準を満たす場合には、認識条件が満たされていることになる。そ して、文字が、 (最高位ランクにあるスコアとして)認識される。
別の例としては、弁別器で表されたクラスの現れる頻度順に各画素群が弁別器に 送られるようにすることができる。たとえば、像が、英語のテキストから始まる テキスト文字を有する場合には、画素群は、(英語の中で最も頻繁に使われる字 である)母音の文字を表す弁別器に、最初に送られる。そして、その債、他のク ラス群のうち、現れる頻度が多い順に、対応する弁別器に送られていくことにな る。
さらに、各画素群が送られる一つのまたは複数の弁別器としては、すでに検出し た像の文脈内におけるその像を規定する画素群の位置との関係で選ぶことができ るような構成にすることができる。たとえば、テキストにおいては、もし、フル ストップが検出されていた場合には、次の文字は、上の場合(uppercas e)であると予想され、したがって、次の画素群は、uppercase文字を 規定するクラス群に最初に送られるのである。
類別器と認識処理との間の相互作用を行わせるという思想は、また、本発明の第 4の観点としての、各画素群により表された像を認識する認識方法にも使用され ている。この方法は、各画素群を、多数の弁別器を有するNタラプル類別器に送 る工程を有している。ここで、各弁別器は、特定のクラス群の各クラスナ肥識す るためのものである。そして、この方法によると、弁別器のどの出力も認識条件 を満たしていなくても、−の画素群が−のクラス群内の像を須定していると、判 断される。そして。
この方法は、さらに、−の画素群の一部をNタラプル補助類別器に送る工程を有 する。ここで、Nタラプル補助類別器は、補助弁別器を多数有しており、各補助 弁別器は、その−のクラス群の各部分を認識するためのものである。
英語の場合には、o、e、c等の字は、相類似する形であるため、類別器は、こ れらを十分に識別できない。しかし、もし、これらの字のそれぞれの右半分を比 較した場合には、これらはまったく異なる。したがって、補助類別器を右半分の みに操作するだけで、これらの特定の字を互いに区別することができる。
本発明の第5の観点においては、各デジタル画素群によりあられされた像を認識 する装置は、多数の弁別器を有するNタラプル類別器を有する。ここで、各弁別 器は、特定のクラス群の各クラスなi!−するものであって、各画素群が送られ るものである。さらに、この装置は、弁別器の出力をモニターするための認識手 段と補助Nタラプル類別器とを有する。この補助Nタラプル類別器は、多数の補 助弁別器を有し、この各補助弁別器は、各像群の部分を規定する特定のクラス群 の各クラスを認識するものである。ここで、この認識手段が、弁別器出力が認識 条件を満たさないものの−のクラス群内にある像を規定するものであると判断し た場合には、−の画素群の一部を補助類別器に送るのである。
これらのすべての場合において、この方法は、好ましくは、さらに、その画素群 であられされる像の認識されたクラスを規定するデータを格納する工程を有する 。この日内のため、この装置は、好ましくは、さらに、格納手段を有する。
典型的には、処理時間を短縮するため、各画素群は、類別器中の2以上の弁別器 からなる複数の弁別器群に同時に送られる。
そして、この際、適切であれば、補助類別器にも送られる。
本願明細書で述べるビットマツプとは、一般に、1ビツトのデータバス幅を有す るものである。ここで、像処理は、増加的にメモリーシステムをアクセスする必 要がある。また、このアクセス作業は、デデイケーテツド論理回路を用いて画素 ごとにアドレス付与可能な作業であるため、かかるアクセス作業は、1ビツトの データバス幅を有するメモリー(ビットマツプ)により効率的に行われる。
このようなわけで、商業ベースの低価格のメモリー装置と商業ベースの低価格の マイクロプロセッサ装置とを使用するべく、本発明者は、このメモリー装置は、 以下のような二重ポートを有するような構成にすることができ、かつ、その方が 望ましいことを1!識した。ここで、 (1)第一ポートは、特別のマイクロプロセッサバス、たとえば、8ビツトワイ ドデータバスに適するように設計された従来型のメモリーアクセス用ポートであ る。
(2)第二ポートは、1ビツトのデータバス幅を有し、2軸上において正及び負 の方向への置換を行うことができる増加型のアドレスシステムを有している。こ れは、二次元アレイ内に格納されている個々の画素をアクセスするためのもので ある。
従来のNタラプル類別と、上述その類別に対する改良内容との双方において重要 なことは、類別器に文字等の単独の像を規定するものとして知られる正確に分割 された画素群を送ることができるということである。印刷されたテキストの場合 には、個々の文字は、隣の文字とどれも等距離に離されているわけではないため 、この分割の様子は複雑である。たとえば、均整がとれた状態で互いに離れてい る文字群は、さまざまな量の間隔を有しているため、文字の対のfo″′のよう な一定の文字群は重なり合ってしまう、このような問題は、既にふれたIBMジ ャーナルにも提起されている。
本発明の第6の観点からは、ビットマツプ状に表された像を分割する方法は、第 −及び第二の互いに直交する方向における像の最大値を決定するためにそのビッ トマツプを走査する工程と、第一の方向の各走査線についてそれに直交する第二 方向における像の最外縁部の画素の座標を記録する工程と、像を規定するために 、前回決定された最大値で規定される層形内であってかつ前回決定された最外縁 部画素座標内にある画素のみを選択する工程とを有する。
本発明の第7の観点からは、ビットマツプ状に表された像を分割するための装置 は、第−及び第二の互いに直交する方向における像の最大値を決定するためにそ のビットマツプを走査して、第一方向の各走査線についてそれに直交する第二方 向における像の最外縁部の画素の座標を記録する走査手段と、像を規定するため に、前回決定された最大値で規定される層形内であってかつ前回決定された最外 縁部画素座標内にある画素のみを選択する手段とを有する。
これらの方法および装置は、互いに重なりあい、および、均整がとれて互いに離 されている複数の像を処理するためのものである。互いに接触している複数の文 字に対しては、像ブロックから成るーの画素群が、画素ブロック内の文字の境界 線の判断に基づいてサブブロックに分割される。 (なお、ここで、この画素ブ ロックには、2以上の文字画素群が含まれている。)この判断はたとえば、 ( テキストのヒストグラム分析により得られる)文字外形比の知識に基づいておこ なわれる。この各サブブロックは、その後、別々に類別処理に送られる。
典型として、テキストの1ページの場合には、ビットマツプの走査は、水平方向 に間隔をおいて延びる一連の垂直走査線によっておこなわれる。そして、このこ とからテキストのそのページのヒストグラム分析から推論されるライン間隔の知 識に基づいてゆがみが補正できることになる。
好ましくは、この選択工程は、第二方向に延びており、かつ直交する第一方向に おいて間隔をおいて配された一連の線上1ビツトマツプの走査を行う工程を有す る。ここで、各走査線は、各最外縁部画素の座欅間の距離に対応する長さを持っ ている。
従来のいくつかの分割方法は、黒画素の位置決めをする工程と、その画素のすぐ となりを検査して付近の一つの黒画素の位置決めをする工程と、その工程を繰り 返す工程とからなる。この方法では、同じ画素が何度も検査されるという重複し た動作を行うことになり、したがって、この分割処理は、比較的時間がかかって しまっていた。
本発明の第8の観点によれば、ビットマツプ状にあられされた像を分割する方法 が、 a)−の像を形成している形状を検査するため、ビットマツプを走査する工程と 、 b)検出された形状を規定するビットマツプ中の画素の位置を記録する工程と、 b)工程でその位置が記録された画素がa)工程で無視されるようにしながらこ れらa)およびb)工程を繰り返して他の像の位置決めをする工程とを有する。
本発明の第9の観点によれば、ビットマツプ状にあられされた像を分割する装置 は、−の像を形成している形状を検査するため、ビットマツプを走査する手段と 、検出された形状を規定するビットマツプ中の画素の位置を記録するメモリーと を有し、メモリーにその位置が記録されていないビットマツプ中の画素だけに走 査手段が応答するようにしたものである。
典型としては、このb)工程は、像を規定するビットマツプと境界線を共にする 第二ビットマツプを提供する工程と、走査工程中に検出された形状に対応するも のとして見つかった画素を第二ビットマツプ中に記録する工程とを有する。
走査工程中には、望ましくない背景ノイズとして機能する分離された黒画素を無 視するための手段が設けられているのが、好ましい、この黒い分離画素とは、そ のまわりの(8つの)隣接画素が全部白い画素である。
本発明の適用される像とは、文章中の字(数字およびアルファベット文字)やア ラビア文字やそれ以外のさまざまの文字や、その他のさまざまな二次元的な形状 ・パターン(たとえばビデオカメラ運搬ロボットのマニピュレータにより形成さ れるもの等〕を含む。
また、像を規定するビットマツプは、CCDアレイ、ビデオスキャニング、その 後のデジタル処理等さまざまな従来技術により作成できる。
また、とくに効果の高い方法や装置は、本発明の第1から第9の観点を組み合わ せることによって提供できるものである。
図面の簡単な説明 本発明による文字認識システムの一例を、添付図面を参照して以下説明する。こ こで、 第1図は、システム全体を示す。
第2図は、認識システムの構成を示す。
第3図は、コンピュータ制御システムの動作を説明する流れ図である。
第4図は、像処理回路のブロック図である。
第5図は、メモリーシステムを示す。
第6図は、スキャンサーチ回路のブロック図である。
第7図は、分割シヌテムを示す図である。
第8A図から第8D図は、抽出処理を示す。
第9図は、抽出形状のデータコンディションを示す。
第10A図から第10B図は、スケーリングと規格化の処理を示す。
第11図は、可変ヌケーシングシステムの例(ブロック図)を示す。
第12図は、スケーリングテーブルの例を示す。
第13A図から第13B図は、Nタラプルマツピングの例を示す。
第14図は、類別システムを示す。
第15図は、類別システムの動作を示す流れ図である。
第16図は、結合転換処理を示す。
発明の開示 第1図はOCR(光学式文字読取装置)を示す、光学式文学読取装置は印刷され た帳票上の文字、記号を画像として読み取り、コンピュータ工業規格で定められ るデータに変換するためのものである。
ビデオスキャナ(1)は原稿を走査し、原稿上の文字等の配列を行毎に読み取り 、白または黒の画素イメージデータを表すデジタルビデオデータを生成する。ス キャナ用ビデオインターフェース(2)は、スキャナー(1)からのビデオデー タを次段で行うデータ処理に適した形式としたうえで認識装置(3)へ送る。認 識装置(3)からの出力(4)は、アスキー(ASCII:情報変換用米国漂準 コード)のようなコンピュータ工業規格に適合した文字データに符号化されたも のである。
スキャナ(1)は市販されている通常の光学的スキャナを用いることができる。
原稿取扱い機能に関しては、給紙型又は載置型のいずれかの機能を有していれば よく、又解像度並びにベージあたりの走査時間も通常の範囲のものであればよい 。汎用スキャナは一般に300 d p i (dots per 1nch) の解像度を有しており、この値は文字読み取りの目的からすれば十分である。
又、汎用スキャナの走査時間はA4の大きさの原稿に対して3秒以下であり、こ の走査時間では1秒で1000文字の高速文字読み取りが可能となる。スキャナ 用ビデオインターフェース(2)はシリアル又はパラレル形式にいずれであって もよく、たとえば5C3I(小型コンピュータ用システムインターフェース)を −例としてあげることができる。
スキャナ(1)は2例えばA4の幅全体にCOD (電荷結合素子)からなる光 電素子を配列した形のページスキャナであってもよい。このCOD配列は、アナ ログイメージデータ読み取り回路、しきい値回路、デジタル変換タイミング回路 、スキャン制御回路及びインターフェース回路からなる制御システムに接続され 、走査した原稿から読み取ったビットイメージデータを表すデジタルビデオデー タを出力する。
第2図は、認識装置(3)の全体構成を示した図である。この認識装置は分割及 び分類機能を有しており、走査イメージを各文字に対応する個別のイメージに分 割し、個々の分割した文字イメージの関連性を記憶し、更に文字イメージを予め 定義した文字分類に分類する。
スキャナ(1)からのビデオデータはビデオインターフェース(5)を介して認 識装置(3)に入力される。ビデオインターフェース(5)はスキャナ用ビデオ インターフェース(2)に適合するものであればどのようなものであっても差し 支えない。ビデオデータはイメージ前処理回路(6)に入力し、ビデオデータを 1ビット幅のデータバスを有するイメージビットマツプ(7)に随時読みだし可 能に書き込む。
イメージビットマツプ〔7)は、シャドウビットマツプ(8)と連動して動作し 、イメージビットマツプ(7)と一対一の関係にある画素位置を有している。シ ャドウビットマツプ(8)を用いるのは、同じ画素の重複した処理を回避するた めである。
かかる重複処理は、従来の分割処理で行われていた。
スキャンサーチ回路(9)は、ページの左上部から開始してイメージビットマツ プ(7)を縦方向にラスタースキャンを行うためのものである。これは、未処理 の黒画素をサーチすることにより、即ち、シャドウビットマツプ(8)に存在し ない黒い画素をサーチすることにより本来的に存在する文字をひろいだすための 処理である。同期分割システム(10)を用いて基礎となる黒画素と関連づけて 文字の形状を抽出する。抽出された文字の形状は規格化ランダム化システム機能 システム(11)に入力される。このシステム(11)により、文字の形状の大 きさの規格化が行われ、ランダムなNタラプルに変換される。
Nタラプルに変換された文字形状は、バッファ用の同期型分類システム(12) に入力される。この分類システム(12)は、入力された状態の各文字を照合( 分類)する。文字の照合結果は次段における処理を行うためにコンピュータ制御 システム(13)に送られる。また、コンピュータシステム(13)は、認識装 置(3)の特定の動作を制御する。このコンピュータ制御システム(13)には 、汎用マイクロプロセッサが用いられており、ソフトウェアで制御され、その動 作モードを第3図に示す。
システムインターフェース(14)を介して文字データの出力がホストシステム に送られる。
第2図に示されている認識装置(3)の構成を第3図乃至第6図を参照して詳細 に説明する。
スキャナ(19)が、受は取ったビデオデータは、ビデオインターフェース(5 )を介してイメージ前処理回路(6)に送られ、コンピュータ制御システム(1 3)が駆動を開始する(第3図;ステップ101及び102)。
イメージ前処理回路(6)の詳細は第4図に示されている。
ビデオデータはコントロール論理回路(15)に送られる。OCRの性能及びス キャナ(1)の解像度に応じて、例えば400dpiから200dpiにビデオ データを圧縮するようにしてもよい。データ圧縮が必要な場合には、コントロー ル論理回路(15)から水平圧縮回路(16)と垂直圧縮回路(17)とから構 成される圧縮回路にビデオデータがおくられる。これら2つの圧縮回路の圧縮比 は例えば、2:1である。データ圧縮は白を基準に行い文字のビットイメージの 分離度を向上するために行われる。回路(18)において、圧縮ビデオデータを イメージビットマツプ(7)に書き込むときに、電子的に白の境界を圧縮ビデオ データに加算して、ビットマツプの次の走査に用いる境界条件を決定する。同時 に、1ビット幅のデータバスを有するシャドウビット(8)を白にクリアする( 第3図;ステップ103)。この処理はビデオデータを完全に受け取るまで若し くは、イメージビットマツプが満パイになるまで継続される。イメージビットマ ツプの空白部分は白として書き込まれる。もし、走査ビデオデータが、イメージ ビットマツプ(7)の容量を越えるような場合には、一つのデータの転送動作以 上のタイミングでビデオデータを認識装置(3)に記憶する必要がある。この動 作はコンピュータ制御システム(13)により制御される。ビットマツプのセッ トアツプが完了すると(第3図;ステップ104)、コンピュータ制御システム (13)は。
ビットマツプポインタを走査開始位置にセットする(第3図;ステップ105) 。
イメージビットマツプ7及びシャドウビットマツプ(8)用に用いられる汎用メ モリ装置は汎用マイクロプロセッサに適合するようにされており、このメモリ装 置は特定のマイクロプロセッサの基準に適合するようにデータバスが配列されて いる。
通常用いられるデータ幅は、8.16若しくは32ビツトである。本願において は、メモリ装置は形状の処理及びメモリに記憶されているイメージデータの処理 を行うために用いられる。
処理されるデータは、白又は黒の画素(画素を二値化したもの)として存在し、 単一の画素値の二次元的配列として記憶しており、これをビットマツプと称する 。イメージデータ処理として、ビットメモリ装置を画素単位でアドレスを増加さ せながらアクセスすることが行われる。この処理は1ビツトのデータ幅を有する ビットマツプが最も効率的に動作するように構成されている。なぜなら、従来行 われていたソフトウェア制御によるマルチピットゲ4タバスを介したマイクロプ ロセッサのメモリへのアクセスと比較すると、組み合わせ論理及びシーケンシャ ルな論理の結合を用いてより高速な処理速度を達成できるからである。
第5図はメモリ装置の詳細な構成を示すものであり、図示の構成は汎用、低価格 のマイクロプロセッサ及びメモリ装置を用いてデュアルポートシステムを構築す るよう設計されたものである。マイクロプロセッサのインターフェース(18) を表す第一のポートは、従来のメモリアクセスポートであり、例えば、8ビツト 幅のデータバスを用いたマイクロプロセッサのデータバスに適合するように設計 されている。イメージ処理インターフェース(20)を表す第二のポートは1ビ ツト幅のデータバスを有する構成のものであり、そのアドレスシステムはアドレ スをインクリメントしてメモリ平面の二輪における正方向及び負方向の移動を行 わせる。メモリ平面の二輪上の移動は、以下に説明する分離処理において必要と なる。
アクセス裁定回路(21)は、マイクロプロセッサインターフェースとイメージ 処理インターフェースの両方からの同時メモリアクセスを禁止するためのもので ある。マイクロプロセッサインターフェース(19)はメモリが準備状態になる まで待機する。アクセス裁定論理により一方のアドレスセットとデータドライバ のみがいずれかの時間で駆動されるようになっており、アクセスの衝突を防止し ている。信号M/Sは、アドレスマルチプレックス回路(22)及びライトマル チプレックス回路(23)内のいずれか一方のドライバを動作可能にするための 信号である。アドレスマルチプレックス回路(22)は、選択スイッチとして機 能し、この選択スイッチによりインターフェースはある時刻でメモリをアクセス する権利を有し、メモリアクセスに必要なアドレスの選択が可能となる。ライト マルチプレックス回路(23)もアドレスマルチプレックス回路(22)と同様 に機能する。
メモリ上のデータは、マイクロプロセッサへの転送が、通常のマイクロコンピュ ータのメモリに採用されている8ビツト(1バイト)フォーマットに従い行われ るよう配列されている。
メモリアレイ(24)の各バイトは、イメージビットマツプ(7)の4ビツトと シャドウビットマツプ(8)の4ビツトからなる。1/8ライトデコーダ(25 )はイメージ処理インターフェース(20)を動作可能にするために必要なもの であり、一度に1画素の処理を行い、1バイト8ビツト中の1ビツトを選択的に 書き込む。同様の機能がイメージ処理インターフェース(20)からメモリへの リードアクセスを行う場合にも必要となる。これはインターフェースが1バイト 中の特定の1ビツトを選択できるようにするために必要であり、これを1/8ビ ツト選択回路(26)と呼ぶ。
ビット選択インターフェースのイメージ処理機能によりビット単位でメモリへの ビットの書き込みが可能である場合には、8ビツトデータドライバ(27)は通 常のもののように複雑な構成とはならない。このように8ビツトデータドライバ (27)を簡略化するのは以下の理由による。
(a)1ビツト幅のメモリ装置を用いることにより1ビツト単位でメモリからの 読み出し及びメモリへの書き込みが可能となること。即ち、8ビツト幅のメモリ 装置を用いれば、1ビツトの書き込み動作を行うために必要な読み取り及び再書 き込み動作は不要となる。
アドレスレジスタ(28)はオフセットアドレス加算器(28)と共にメモリア レイ(24)のアドレス制御を行う。アドレスレジスタ(28)は走査画像ビデ オデータの座標に対応する画素位置の座標情報を保持する。オフセットアドレス 加算器(29)は、結合論理に基づき構成された二値並列型加算回路であり、メ モリアレイ(24)内にある画素にアドレスを与えることができるように正及び 負のX及びY方向オフセットを取扱うことができる。アドレスを与えられた画素 は、 (a)アドレスレジスタ(29)に記憶されている水平座標の右又は左と することができるか、又は(b)アドレスレジスタ(28)に記憶されている垂 直座標の上又は下とすることができる。左又は上方向の負の値はX及びYアドレ スを二つの相補的二値数として取扱うことにより処理が可能である。イメージ処 理インターフェース(20)から与えられたX、Yアドレスはメモリアレイ(2 9)の制御的領域(256x258画素)にアドレスを与えればよい。与えられ たアドレスが使われるのは、文字分割化のためであり、分割化のために必要なの は、各文字形状のための十分なメモリ空間だけだからである。
アドレスレジスタ(28)は、メモリシステムの動作上の側面とは違った種々の 機能を遂行す゛る。第一に、イメージビットマツプ(7)をセットアツプした状 態で、アドレスレジスタ(28)は、ビットマツプのXYII標からビットマツ プのアドレスをカウントし、座標アドレスに対応して画素データの記憶内容を白 又は黒とする。この動作のためにオフセットアドレス加算器(29)におけるX Yオフセット値をゼロにセットする。
第二に、分割処理の過程で、分割される文字形状の基礎座標をアドレスレジスタ (28)に入力し、分割のために必要なXとYの正及び負の移動をオフセット加 算器(28)により制御する0分割化処理と同時に、シャドウビットマツプ(8 )からの読み取り及び書き込みが行われる。シャドウビットマツプ(8)は、は じめにゼロ(全部が白)にクリアされ、走査イメージビデオデータは未処理状態 にされる。シャドウビットマツプ(8)への書き込みは分割処理中にイメージビ ットマツプ(7)が走査されたときに行われる。即ち、文字を分割するためにイ メージビットマツプ(7)中のデータが読み取られ、同じ画素がシャドウビット マツプ(8)に書き込まれる。従って、文字形状のコピーがシャドウビットマツ プ(8)に存在しており、これをもって文字形状が分割化されたことを意味する 。以前に分割した文字形状を無視して、シャドウビットマツプにおける対応する 画素が、ゼロ(白画素)のイメージビットマツプの画素(即ち、前回は画素でな かった)を走査することにより、イメージビットマツプ(7)の走査がおこなわ れる。これは、二人力論理ゲートにより遂行される。シャドウビットマツプ(8 )の利点は、必要な場合に画素データの再検査を行える余地が残されていること にある。
メモリ(24)からマイクロプロセッサインターフェース(18)のデータ通路 中に存在する送受信器(双方向送信器及び受信器)30はマイクロプロセッサに 接続された他のデータ回路からメモリを分離している。
第3図において、次のステップ106でスキャンサーチルーチンを開始する。イ メージビットマツプ(7)は、図6に詳細が示されたスキャンサーチ回路(8) により処理される。この処理は、以下に説明する分割化システム(10)と共に 行われる。
スキャン処理では、イメージビットマツプ(7)に対して垂直ラスタースキャン が行われる。ラスタースキャンは(走査原稿上のテキストラインに対して)左上 部から開始され、この位置はイメージ前処理回路(6)によって適用される白の 境界に対して容易に決定される。ラスタースキャンは、垂直下方に向けて行われ 、左から右へ移動し、未処理の新たな画素をスキャンするまで継続して行われる 。この新たな画素とは、シャドウビットマツプ(8)において存在しない黒の画 素を示す、垂直スキャンによりスキャンして把えた文字の最初の新画素(黒)は その文字の最上部左端の黒画素であり、そのXY位置はその文字の「境界座標」 として以下説明される。
垂直ラスタースキャンにより(走査された原稿上)の文書の傾線を処理すること が可能となる。これは文書の行交間に従って順に各文字が表れるためである。文 書の行交間の範囲と各文字の垂直座標がわかれば、行単位で文書を再構成するこ とができる。垂直方向の行交間は、スキャン処理で得られる文字の位置情報をも とに容易に決定することができる。
イメージビットマツプ(7)の垂直ラスタースキャンの進行と同時に画素単位で シャドウビットマツプ(8)が走査される。
シャドウマツプの画素の論理二値データの0″ (白)又は”1″ (黒)は、 現在アクセスされているイメージマツプの画素が以前アクセスされたかどうかを 表している。即ち、シャドウマツプの二値データが0″であれば新画素を表すこ ととなる。
2つのビットマツプ間における画素の2値状態の比較は新画素選択回路(31) による2人力倫理ゲート回路により行われる。
新たなる形状の画素を見いだすと、その画素の基礎座標が基礎座標レジスタ(3 2)にロードされ、メツセージがコンピュータ制御システム(13)に送られる (第3図;ステップ107)。コンピュータ制御システム(13)は以下に説明 する分割処理を直ちに開始し、文字形状を抽出する(第3図ニステップ108) 、文字形状が決定されると(第3図ニステップ108)、シャドウマツプは見出 された文字に関して処理が完了するため、ラスタースキャンを継続することが可 能となる。スキャンサーチ処理はイメージビットマツプ(7)の終点に達するま で継続される(第3図ニステップ110)。
シャドウビットマツプ(8)を用いることにより次のような利点が得られる。
(a)イメージビットマツプ(7)を変更しないですむ、この点は特にイメージ データの再検査が必要となる場合に有益である。イメージデータの再検査は(i )イメージビットマツプを全体的に再スキャンするか、あるいは(i i)シャ ドウットマップ(8)の適当な領域をゼロ(白)にクリアして選択された領域の 再スキャンをし、パターンの再発見をするようにするかのいずれかの方法で行わ れる。
(b)イメージビットマツプ(7)内のパターンは量。
位置及び大きさに関して未知数である。シャドウビットマツプ(8)は既に抽出 されたパターンに対応する以前に処理された画素グループの再処理が行われない ようにしている。
分割処理は第3図のステップ108においてコンピュータ制御システム(13) により開始させる。
前述のように、分割システム(10)は、状態機器(33)(第7図)を用い結 合転換処理(34)を用いて状態機器の条件及びシーケンスを定義する。
同期状態機器は、シンテムクロークの制御下で機器の各段が同時にステップオン されるものである。従って、各段の処理に関連して゛設けられている非同期機器 で生ずる、例えば、割り込みルーチン、ポーリングルーチン、初期接続手順等に 起因した時間のずれを回避する。
第16図は結合転換処理(34)を使用した場合を説明する図である。結合転換 処理(34)では各段で行われるべき条件付き決定ができ、結合論理アレイとし て動作し、条件を設定し状態レジスタの次の状態を決定する。結合転換処理(3 4)への入力は条件つきであり、且つ、次段へ帰還する。状態の合計数は、次の 状態の帰還路におけるビット数を決定する。結合転換処理(34)は、FROM (プログラマブルリードオンリーメモリ)、PAL(プログラマブルアレイロジ ック)等の不揮発性メモリに常駐するか、あるいは機器のパワーアップに応じて イニシャライズされる揮発性RAM (ランダムアクセスメモリ)に常駐するよ うにする。
結合転換処理は、分割システム用の論理ゲートに比べると実行と変更が容易であ る。分割システム(10)の詳細を第7図に示す。イメージビットマツプ(7) とシャドウビットマツプ(8)と結合して動作する状態機器(33)により文字 形状の抽出が行われる。この処理は文字の形状の基礎画素からスタートする。初 期状態では、イメージビットマツプ(7)のXYアドレスは基礎座標を示してい る。 文字の形状を抽出し、その境界条件を決定するための技術について、第8 A図に示されている”fo”の文字について説明する0図示されている文字は腫 なり合フているが、これは分割処理が重なりている文字に対処するものだからで ある6文字の重なり状況は第8B図に明瞭に示されており、同図には囲い込み矩 形(各文字を完全に含むためのもの)が示されており、他方の文字の一部が各矩 形に入り込んでいるのがわかる0文字”f”の範囲を決定するために、文字の輪 部を相互サーチする技術が用いられる。即ち、文字の黒画素と周囲の白画素間の 境界を見つけ出す。基礎座標に対応する黒画素から始めて、境界の外側に至るま でのサーチを行い、開始画素(即ち、境界座elりに戻った時点でサーチを終了 する。
このサーチは2つの測定、即ち、大きさと形状の輪部を測定しながら行われる。
最初の測定ではピーク検出レジスタシステムを用いる。これは、エックスヵーシ ミンレジスタ(35)として説明されており、形状の最大水平範囲(右端)及び 垂直範囲(最上部及び最下部)を記録するためのものである。左端の状態は基礎 座標の(Y軸上の)X値に対応する。従って、エックスカーシコンレジスタ(3 5)の最終値は文字形状に対する囲み込み矩形の大きさを表すことになる。第2 の測定では、1対のランダムアクセスメモリ(38) 、(37)を用いて、垂 直座標によりアドレス付与された形状の各ライン(1つの画素幅)の左端と右端 の水平W1素を記録する。図80において、左と右の画素はそれぞれ”L″とR ”で示されており1文字形状の左側と右側の輪部を表している。ビットマツプメ モリを囲い込み矩形に対して左方から右方へ、且つ、下方へラスクスキャンを行 うことにより、ビットマツプメモリから文字が抽出されることになる。これは、 左右輪部の座標値と囲い込み矩形の座標を抽出制御回路(3日)に転送すること により行われる。このスキャンにより重なり合っている文字に起因して生ずる( 囲い込み矩形内の)不適画素を除去する効果がある。最終的に抽出された形状は 図8Dに示した形となり、隣接する文字″o″の不適画素が除去されている。
第9図に示されているように、当該文字の囲い込み矩形の上部左端座標を配列座 標とする。この配列座標は配列座標レジスタ(38)にロードされている。
抽出した形状は、次々に規格化及びランダム化システム処理部(11)にメツセ ージがコンピュータコントロールシステム(13)に送られるのと同時に送られ る(第3図;ステップ108)。このメツセージには抽出した形状の大きさの限 界及び配列座標が含まれている。
配列座標は文字の位置を表す基準点であり、(認識された文字の)文章並びにペ ージを再構成〔再分解)するために利用される。
コンピュータ制御システム(13)により、下記の条件に基づいて囲い込み矩形 についての評価がなされる。
) (a) 過小 (b) 過大 (c) 114った文字外観比C幅に対する高さの比)もしくa)もしくは(b )が適用されれば、類別操作が中断され(図3のステップ112)、抽出された 一部の画素(画素グループ)により構成される文字が特定できないもの、例えば 認識不能文字として分類される。また、もしくC)が適用されれば、認識不能な 画素グループのブロックが、該画素グループブロック内での文字境界を考慮する ことで一連のサブブロックに分割され、さらに各サブブロックは別々に類別器へ 出力される(第3図;ステップ113)。
抽出された(分割された)字形は類別操作を行う前に、例えば32X32の画素 からなる標準囲い込み矩形に整合する大きさに規格化する必要がある。抽出され た字形は任意の大きさく画素において)を有しているので、最初は、例えば面積 を4:1.18:1.64:1の比で縮小しながら規格化することが可能である 。この場合、縮小された字形は所望の大きさの規格化された字形よりも小さくな るが、ルックアップテーブルを用いた手法により所望の大きさに規格化すること ができる。第10A図はこの手法を示したものである。初期のスケーリング(縮 小)は固定スケーリングシステム(40)により達成され、また大きさの”規格 化”は可変スケーリングシステム(41)により達成される。
第11図に可変スケーリングシステム(41)の具体例が示されている。このシ ステムはメモリーのサイクル時間に整合した周波数のクロックによりて駆動され る水平、′垂直カウンター(42)及び(43)を有している。水平、垂直カウ ンター(42)及び(43)はスケーリング期間ゼロがらすべての桁が1に(フ ルハウス)までカウントする一対のカウンターからなフている。また、スケーリ ング操作期間その内容が不変で、ビットマツプメモリー内で(予め)字形の実際 の大きさに設定された5ビツトレジスタからなる水平及び垂直サイズレジスタ( 44)、 (45)が与えられている。サイズレジスタの保持値はスケーリング 操作を受けるべき字形の大きさよりも実際は小さいものである。例えば、000 11の2進数からなる(十進数で3)サイズレジスタの保持値は、スケーリング システムに対して、その字形が特定の方向、すなわち水平が垂直方向に4つの画 素の大きさを有したものであることを示している。各カウンター並びにレジスタ (42)−(45)に接続した水平並びに垂直スケーリングメモリ(46)、  (47)は同一のものであり、 ROM (リードオンリーメモリ)も使用可能 であるが、便宜上1024X5ビツトのスタティックRAM (ランダムアクセ スメモリ)からなっている。RAMの場合では、電力投入時にスケールテーブル が書き込まれるが、ROMではスケールテーブルが焼き付けられたように記録さ れている。各1゜24x5ビツトスケーリングメモリは10ビツトアドレスを有 しており、このアドレスは各々5ビツトからなる適当なカウンターとサイズレジ スタ(42)、 (44)並びに(43)、(45)からなる。カウンターの5 ビツトはスケーリング操作が行われたときにゼロからカウントアツプが行われる が、サイズレジスターの5ビツトは一定のままであり、これにより第12図のス ケールテーブルから一連の画素番号が発生可能となる。
これらはスケーリング操作を受けている字形を保持しているビットマツプメモリ によって画素ピックアップアドレスとして利用されている。 スケーリングメモ リに送られた任意の特定アドレスに対して、5ビツトのデータ語がデータ出力端 子で得られることになっている。これらは修飾したX及びyアドレス、X及びy はビットマツプメモリに記録された字形の水平、垂直画素座標に対応している、 として参照される。二つのグループの修飾アドレスはビットマツプメモリ用の1 0ビツトアドレスとして利用されており、画素を繰り返しビットマツプからピッ クアップすることで、スケーリングメモリによって画素毎に調節された一連のア ドレスを発生されるという効果が得られる。
画素の繰り返し限度はサイズレジスタ内の値により定義される字形の大きさの関 数である。もしサイズレジスタが11111である場合は、ビットマツプ内の字 形の大きさは既に最大値に達しており、 (スケーリングテーブルによって作成 された)特定の一連の修飾アドレスがその軸に対するカウンターからの出力と同 一のカウント値になる。
スケーリングテーブル(第12図)の登録内容、例えば水平方向の番号のリスト に関して、サイズ=31に対しては、重複した画素アドレス値がないことが分か る。サイズ=31に対するシーフェンスそれ自体はOから31までの2値のカウ ント値である。スケーリングテーブルが11111 (十進数で31)よりも小 さい他のすべての大きさの字形に対して効果を失う場合、字形は輻及び高さが3 2X32の字形に拡大される。第2図のスケーリングテーブルについて更に説明 する。
出力メモリ(48)は1024X1の画素の記録容量を持つスタティックRAM からなる。スケーリング操作期間、この出力メモリ(48)のために、2つのカ ウンター、すなわち水平、垂直カウンターによりゼロからフルビット(フルハウ ス)までの10ビツトアドレスが利用されている。各画素は黒白値を特定の位置 に書き込みつつ一度アドレス処理を施され、上述した修飾されたアドレスによっ てアドレス処理を施されたビットマツプ内に記録された画素から引き出される。
再び第10A図に戻って、スケーリングテーブルの動作に関連した可変スケーリ ングアルゴリズムは以下のように表すことが可能である。すなわち、ある与えら れた軸上1の可変スケーリング操作はその軸上の中間ブロック(第10/1it )の最大の大きさに依存している。 Nを中間ブロック内の最大(画素)可動変 位とすれば、テーブルのNY軸″(サイズS)は(N−1)に等しい。テーブル の”X軸” (P)は最終の画素ブロックに対する画素番号CP)であり、例え ば32X32の規格化された画素ブロックに対してPはOから31まで進む。中 間ブロック内での画素番号MはX″及びIIYNのテーブル座標により選ばれた テーブル値である。第10B図で示されるように、第12図のスケーリングテー ブルに関連して、もし中間ブロック内のある軸上の最大(iil素)可動変位が 25であれば、サイズSは(N−1)、すなわち24となり、最終の画素ブロッ クPの画素状態(黒か白か)はテーブル中の画素番号(位置)より決定される。
第10B図で示される例では、最終画素位置P=10の画素状態(黒か白か)は 中間画素位置M=7での画素状態となる。同様に、P=24では、画素状態は中 間画素位置M=19の画素状態となる。
スケーリング処理を受けた”規格化された”字形はランダム化処理部へ送られる (第10A図)。ランダム化処理を通して、他のルックアップテーブルを用いる ことで疑似ランダム化されたN−タラプル(N−集合)が作成される。この場合 、規格化された(32X32)画素グループのブロックは以下のようにして一連 のN−タラプルにマツプ化されねばならない。すなわち、 (a)画素のグルー プ化はランダムに行われること、 (b)画素が二つ以上のN−タラプル内では 現れず、しかもだだ−回しか出現しないように画素の選択が行われること、 ( C)画素ブロック(32X32)は完全にマツプ化されていなければならない。
例えば、各画素は一部のN−タラプル内で出現しなければならない。
ランダムN−タラプルに対するこの要求はN−タラプル技術に関する参照論文で 取り扱われている。
図13Aは128個の分離された8−タラプルにマツプ化された32X32の画 素ブロックを表している。8−タラプルを作成するために選ばれた画素間の関係 は初期の段階ではランダムではあるが、ひとたびこのランダム選択が行われたな らば、不変な状態を維持することになる。画素の位置を所定の8−タラプル内の 所定のビット番号に対応させマツプ化するためにルックアップテーブルを設ける ことが可能である。例えば第13A図で示されるように、32X32の画素ブロ ックの座標を0.0の座標がマツプの左上端位置に対応するように設定すると、 図で示されるマツプ化処理により、第13B図で示される(一部の)テーブルが 得られることになる。このようなテーブルを構成することで、各8−タツプル内 の各ビットを画素ブロック内の特定の画素位置に対応することができる。このよ うに位置決めされた画素の黒白状態に対応するためのビット値は111111及 び”O”である。
(第10図に関連した)上述の記載は、固定スケーリング処理、可変スケーリン グ(規格化)処理及びランダム化処理が一連の分離された処理であることを意味 するものではなく、単に理解を分かりやすくするためになされたものである。規 格化及びランダム化処理(11)は、 (上述した)3つの処理が単一で一体化 した処理であるかの如く互いに重なりあった一連の動作として行われるものであ っても良い。
ルックアップテーブルは便宜上(a)不揮発性メモリ(例えばFROM、PAL 等)か、もしくは装置の電力投入時にソフトウェア−によって初期化される揮発 性メモリ(例えばRAM)内に設けられている。
すなわち、結合転換処理に関して前述したのと同じ手法をルックアップテーブル に対して行うことができる。
この手法の付加的な利点として、橿原の無い複写行為に対して設計上の保護が与 えられているPALをベースとした処理プロセスとして、様々な領域が最終的に 実行されることが可能である。これは、FROMをベースとする処理プロセスに 比べて、PALをベースとした処理は技術者に複写行為を起こさせることが難し いからである。
最終操作として、n−タップルパッフ1−の入力が類別システム(12)へ送信 され、′終了”メツセージがコンピュータ制御システム(13)に送られる(第 3図ニステップ114)。
コンピュータ制御システム(13)は、類別プロセスが進行 。
しているかどうか、前述した理由により類別プロセスが中断されたかどうか、ま た類別プロセスのサブルーチンへ進んだかどうかについて判定する。
類別(通常のルーチン)は第3図のステップ115でコンピュータ制御システム (13)により開始される。前述した類別システム(12)は同期状態機械から なっている。分割システムのための同期状態機械に関してすでに述べた方法と類 似した方法がここでも用いられている。すなわち、状態機械の状態とシーフェン スを定義するために結合転換処理が利用されている。
ランダムn−タラプル類別器はN−タラプル技術に関する参照論文で述べられて いる。”類別器”は認識すべきパターンもしくは分類の範囲に関して予め試験さ れており、もし未知のパターンが入力された場合は、ある分類リスト、例えば試 験用の資料に対する”最類似”候補のランク付けされたリストを用いて照らし合 わすことで結果が出力されている。N−タンブル法(技術)は、本質的には未知 のパターンと類別器によりすでに学習された範囲のパターンとを比較する手段か らなり、類別器による最類似パターンの判定が可能となっている。この場合、最 高のランクにある(候補)が(通常は)所望のパターンを表すものとして選ばれ る。本発明の実施例では、この選択操作はまた以下の点に依存している。
(a)それ以上であれば文字の特定(分類)が可能ないくつかのしきい値Aに関 連した候補 (b)それ以下であれば文字の特定が不可能ないくつかのし、きい値Bに関連し た候補 (C)候補間のランク付け、例えば最上のランクにある候補の組と次に高いラン クの候補の組(複数の組)間の相対的な区別 第14図は類別システム(12)をより詳細に示したものである。また、類別シ ステムの動作モードは第15図に示されている。
類別システムはn−タラプルカウンター(60)と(組)グループカウンター( 51)からなっている。これらのカウンターは前述したスケーリングシステムを 駆動したものと同じシステムクロックによ7て駆動されている。n−タラプル並 びにグループカウンター(50)、(51)は各々7ビツトカウンターと3ビツ トカウンターからなり、互いに結合することで10ビツトカウンターとなってい る。このカウンターは、認定(レスポンス)演算処理期間中ゼロからフルビット (フルハウス)までカウントしている。初期段階では、カウンターはゼロに設定 されている(第15図;ステップ200)、n−タラプルカウンター(50)か らの出力はn−タラプルメモリ(49)のためのアドレスとして使用される番号 からなっている。このメモリに記憶されている128のn−タラプルを連続的に アドレスするために7ビツトが利用されている。
n−タラプルメモリ(49)は規格化並びにランダム化システム処理(11)か ら前もってロードされ、ビットマツプメモリ(7)から抽出された規格化された 字形を表すビットからなるランダムn−タラプルパターン有することになる。n −タラプルメモリ(49)は128の8ビツト値の記憶容量を有したスタティッ クRAMからなり、これらの8ビツト値により認定すべき(例えばn=8)字形 を形成するn−タラプルが構成されている。
n−タラプルはインクリメントn−タラプルカウンター(50)により連続的に アドレスが付されており、これらのn−タラプルの8ビツト値が、弁別メモリ( 53)により利用される19ビツトアドレスを形成するために、n−タラプルカ ウンター(50)の7ビツト出力とグループカウンター(51)からの4ビツト 出力とに組み合わせられるべきアドレスとして弁別メモリ(53)に送られる。
この場合、以下のことに注意すべきである。
弁別メモリは、前述した試験用データを用いて作られた候補を用いて予めロード されていると仮定されている。これはN=タップルをベースとした認識システム の動作に関した論文で言及されている。
弁別メモリ(53)は、平行的認定弁別動作の目的から8ビツト幅のデータバス メモリシステムとして構成されたダイナミックRAM素子からなるRAMである 。
認定演算期間、弁別メモリ(53)から読み取られた値は単一のビット認定(レ スポンス)値として解釈される(第15図のステップ202)。これらの単一ビ ット認定(レスポンス)値は、可能な限りの文字認識を達成するために試験され ているすべての組の全認定(レスポンス)値を得るために総和をとる必要がある 。これらの総和を得るためには、−集まりの8ビツトカウンターもしくはインク リメンタ−(64)を弁別器のデータ出力端子へ、n−タラプルの特定の値に対 応する特定の弁別データビットが論理″1′′であるならばこれらのカウンター もしくはインクリメンタ−が1つずつ増加、またはカウントアツプするように接 続されている。もし弁別器が論理″0″を与えたならば、アップカウンターはそ れを無視し、現在の値を維持する。各グループの始まり、例えばn−タラプルカ ウンター内の値が1111111の2値数(十進数で31)からゼロに変わり、 グループカウンターが1増えた場合、すべてのインクリメンタ−(54)はゼロ にクリアーされる(第15図;ステップ201)、これによってインクリメンタ −(54)が初期化され、次のグループを構成する8つのサブクラスのための認 定総和値を形成のために待機する。
n−タラプルカウンターがゼロから十進数で31までのカウンター動作を行う前 に、レスポンスインクリメンタ−(54)で発生した8ビツト値を読み込み(第 15図;ステップ204)、さらにそれらをレスポンスメモリ(56)で記憶さ れているレスポンステーブル内へ書き込むためにクラスカウンター(55)が利 用されている。レスポンスメモリ(5θ)は認識(分類)操作のための組数に対 応する様に構成されたスタティックRAMからなっている。
類別処理の終了時に(第15図;ステップ206)、あるメッセージがコンピュ ータ制御システム(13)に送信され、分類データを与える(第3図;ステップ 116)。その後、コンピュータ制御システム(13)は初期の後処理(第1段 階)を行い、分割ルーチン、例えば第3図のステップ108に戻る、を行う(第 3図;ステップ117)。
一連の分割・類別操作はすべての文字が分類されるまで、例えば画像ビットマツ プ(7)内のすべてのパターンが抽出され、分割され、規格化され、さらに分類 されるまで続けられる。類別操作の”終了”に達したときに(第3図ニステップ 118)、コンピュータ制御システム(13)は後処理(第2段階)を継続して いる。
初期の後処理(第1段階)は、句読点、既知の曖昧な文字、(既知の認定値に基 づく)無意味な文字、無効な組等の項目をチェックし、さらに文字を特定する。
最終の後処理(第二段階)では、文字データを下記(I)の分類エラーを含む” フォーマット”に再構成している。
(1)類別器による正確な判定を不可能にする、拒絶エラー(II)類別器が誤 った判定を下す、置換エラー(1)の場合は、文字を表した全画素グループを次 に設けられた表示器の為に認識ユニットから出力するように構成することが、既 知の演算手段を用いて可能になる。この方法は人力(人の介入)を許容している 。これを達成するために、第1段階の後処理による出力が”形状バッファー”メ モリにロードされる。
各パターンの配列を正確なものにするために、各々が分類されたどきに、第1段 階の後処理用のソフトウェア−により先に入力された画像マツプ位置データを有 した各処理結果を”タッグ(tag) ”に配列しなければならない(図のステ ップ107゜109)。この情報は次の認識操作に利用され、第二段階の後処理 に対して上述したように、ページを再分解し、認識された文字の正確な配列を確 かめるために利用される。
第1段階の後処理からの結果が、ある組の文字が十分に鮮明でないというもので あった場合、コンピュータ制御システム(13)は、例えば先に認定されたサブ クラスとこれを照らし合わせることで、この文字の再類別操作の必要性を判定す る。
弁別メモリ(53)がアクセスされるその順番は、前述したような特定の形態に より決められている。例えば、英語の文章の場合、アクセスされた最初の組(ク ラス)は母音であっても良い。この場合は、コンピュータ制御システム(13) は各認定値を所定の認識基準と比較し、これらの基準が満足されることで類別操 作を終了する。
後処理プロセスにより他の処理が行われ、誤り率が改善され、特定の便宜が与え るもれる。例えば、 (a)処理の乱雑さに起因する誤差を最小にする。
(b)アルファベット文字と数字との混同に起因する誤差を最少にする。
(c)1つの画像内での選択フィールドを定義し、処理のみ行われるフィールド を選択する。
(d)選択されたフィールドをアルファ文字、数字もしくはその混成として定義 することを可能にする。
(e) i!議されていない、もしくは識別しにくいパターンの画素グループに 付加的な条件付けを適用する。
(f)辞書及び/もしくは文脈訂正技術を用いて誤差を低減する。
(g)分類されたパターンが所定の字体に整合したことを確認する。
配列座漂 32X32M終字形川スケーリングデープルの例サイズ+ 0 1 2 3 4  5 6 7 8 91011121314158 000011112223 3]349 0000111222]33&44+0 0 0 0 1 1 1  2 2 2 3 3 3 4 4 4 5It 0 0 0 1 1 1 2  2 3 3 3 4 為 45512 0 0 0 1 1 2 2 2 3  3 4 1i k 5 5 613 0 0 0 1 1 2 2 3 3  3 & A 5 5 6 614 0 0 0 1 1 2 2 3 3 4  1!+ 5 5 6 6 717 0 0 1 1 2 2 3 3 & 5  5 6 6 7 7 8+s o o t t 2 z 3 4 4 55 6  7 7 8 B22 0 0 1 2 2 3 4 5 5 6 7 7 8  9 +0 1023 0 0 1 2 3 3 4 5 6 6 7 II  9 9 to lI24 0 0 1 2 3 3 4 5 6 7 7 8  9 10 10 lI25 0 0 1 2 3 k 4 5 6 7 8 8  9 1o II +227 0 0 1 2 3 4 5 6 7 7 8  9 10 II 12 1328 0 0 1 2 3 4 5 6 7 8  9 9 10 II 12 1329 001234567891011121 31/+30 0012]+15678910111213+431 0 1  2 3 4 5 6 7 8 9101112131/+I5条件入力 制御出 力 ネrlt正書のfff’J’J FF用文のJ是と1:!書(特!l’r法第1 84条の8) 平成3年3月7日 特詐庁長官 植松 載置 ■、特許出願の表示 PC’l”/GB80101043 2、発明の名称 1象I!識 3、特許出願人 住 所 −fギリス国、 ナリー ジ−ニー71ビーニー、ゴダルミング、 グロースバナー ロード、′タラーナ”(番地なし) 氏 名 イ)7+リントン、バリー ジェームス国 籍 −イギリス国 (ほか2名) 4、代理人 住 所 (郵便番vg 110) 東Jit都台東区台東4丁目14番7号北川ビル6階 平成2年12Jill1日 6、添付書面の目録 補正書のI11訳文 [2コ補正した請求の範囲の翻訳文 〔13)ビットマツプ状に表された複数の像を振り分ける方法であって、第1第 2の互いに直交する方向における像の最大値を決定するためビットマツプ上を走 査する工程及び該第2の方向における各々の走査線について該第2方向における 像の最外縁部の画素の座標を記録する工程と、前回決定された範囲により規定さ れた矩形内かつ前回決定された最外縁部の画素座標内にある画素のみを選択して 像を規定する工程とを有することを特徴とする方法。
(14)前記ビットマツプ上の走査は一連の水平方向に距離を隔てた鉛直方向の 走査線により行われることを特徴とする請求項13記載の方法。
(15)前記選択工程においては、第2の直交する方向に沿って延在し第1の直 交方向とは離れている一連のライン方向にビットマツプ上を走査する工程を有し ており、各々のラインはそれぞれの最外延部の画素座標間の距離に対応した長さ を有していることを特徴とする請求項13乃至14記載の方法。
(16)第1第2の互いに直交する方向における像の最大値を決定するためビッ トマツプ上を走査し、該第1の方向における各々の走査線について該第2方向に おける像の最外縁部の画素の座標を記録するための走査手段と、前回決定された 範囲により規定された矩形内かつ前回決定された最外縁部の画素座標内にある画 素のみを選択して像を規定するための選択手段とを有することを特徴とするビッ トマツプ状に表された複数の像を分ける装置。
(17)ビットマツプ状に表された複数の像を分ける方法であって、 a〕像を形成している形状を検出するためビットマツプ上を走査する工程と、 b)検出された形状を規定しているビットマツプの画素の位置を記録する工程を 有し、 他の像の位置を記録するために該工程a)とb)とを繰り返し行いつつも、画素 の位置が既に工程b)にて記録済みのときはその画素を工程a)において無視す ることを特徴とする方法。
(18)前記工程b)は、像を規定する該ビットマツプと境界線を共にしている 第2のビットマツプを提供する工程と、前記走査工程において探査された画素を 該第2のビットマツプに記録して検出された形状と対応させることを特徴とする 請求項17記載の方法。
国際調査報告 °″′″′″″owl Aeall″−−” PCT/GB 89101043 W釘止IIl1wl^−一一桐細−N・PCTノG1189101043国際調 査報告 GB 8901043 S^ 31055

Claims (19)

    【特許請求の範囲】
  1. (1)ビットマップ状に規定された多数の像を別々の画素群に分けるための第1 の同期状態機器と、類別のため各々の該画素群の振り分けを受ける第2の同期状 態機器とを有する像認識装置。
  2. (2)各々のディジタル画素群によって表された複数の像を認識する装置であっ て、Nタップルの類別器と、識別手段とを有し、該Nタップルの類別器は多数の 弁別器を有しており、該弁別器の各々は該画素群が送られている所定のクラス群 のうちのそれぞれのクラスを認識するように構成され、該装置は各々の画素群を 所定の順序にて弁別器に送るように構成されており、該認識手段は該弁別器から の出力をモニターしまたある弁別器からの出力が認識条件を満たすとすぐに該画 素群を該類別器に送ることをとりやめるように構成されていることを特徴とする 像認識装置。
  3. (3)請求項1と請求項2とによる装置。
  4. (4)各々のディジタル画素群によって表された複数の像を認識するため、多数 の弁別器を有するNタップルの類別器に各々の画素群を送る工程を有し、該弁別 器の各々は所定のクラス群のうちのそれぞれのクラスを認識する像認識方法にお いて、各々の画素群を所定の順序にて弁別器に送る工程と、ある弁別器からの出 力が認識条件を満たすとすぐに該画素群を該類別器に送ることをとりやめる工程 とを有することを特徴とする像認識方法。
  5. (5)各々の弁別器からの出力をしきい値と比較する工程を有し、該しきい値を 越えたときに該認識条件が満たされたことを特徴とする請求項4記載の像認識方 法。
  6. (6)該弁別器によって表されたクラスの存在する回数順に各々の画素群が弁別 器に送られることを特徴とする請求項4記載の像認識方法。
  7. (7)各々の画素群が送られる弁別器または複数の弁別器は、前回検出された複 数の像を規定している画素群の場所に基づいて選択されることを特徴とする請求 項4記載の像認識方法。
  8. (8)各々のディジタル画素群によって表された複数の像を認識するため、多数 の弁別器を有するNタップルの類別器に各々の画素群を送る工程を有し、該弁別 器の各々は所定のクラス群のうちのそれぞれのクラスを認識する像認識方法にお いて、該弁別器からの出力が認識条件を満たしておらず該画素群がクラス群内の 像を規定していると判断された場合には、更に該画素群の一部を多数の補助弁別 器を有したNタップルの補助類別器に送る工程を有し、該補助弁別器のそれぞれ は該クラス群のそれぞれの部分を認識することを特徴とする像認識装置。
  9. (9)該画素群によって表された像の認識されたクラスを規定しているデータを 記憶する工程を更に有することを特徴とする請求項8記載の像認識方法。
  10. (10)各々の画素群が該類別器の2個またはそれ以上の弁別器群に同時に送ら れ、また必要なら補助類別器にも送られることを特徴とする請求項8または9の いずれかに記載の像認識方法。
  11. (11)各々のディジタル画素群によって表された複数の像を認識する像認識装 置であって、Nタップルの類別器と、識別手段と、Nタップルの補助類別器とを 有し、該Nタップルの類別器は多数の弁別器を有しており、該弁別器の各々は該 画素群が送られている所定のクラス群のうちのそれぞれのクラスを認識するよう に構成され、該認識手段は該弁別器からの出力をモニターするように構成され、 該Nタップルの補助類別器は、多数の補助弁別器を有し、各々の補助弁別器はそ れぞれの画像群の一部を規定する所定のクラス群のそれぞれのクラスを認識する よう構成され、該弁別器からの出力が認識条件を満たしておらず該弁別器からの 出力がクラス群内の像を規定していると判断された場合には、該認識手段は該画 素群の一部を補助類別器に送るよう構成された像認識装置。
  12. (12)該画素群により表された像の認識されたクラスを意味するデータを記憶 する手段を更に有することを特徴とする請求項11記載の像認識装置。
  13. (13)ビットマップ状に表された複数の像を分ける方法であって、第1第2の 互いに直交する方向における像の最大値を決定するためビットマップ上を走査す る工程及び該第1の方向における各々の走査線について該直交する第2方向にお ける像の最外縁部の画素の座標を記録する工程と、前回決定された範囲により規 定された矩形内かつ前回決定された最外縁部の画素座標内にある画素のみを選択 して像を規定する工程とを有することを特徴とする方法。
  14. (14)前記ビットマップ上の走査は一連の水平方向に距離を隔てた鉛直方向の 走査線により行われ、このことによりテキストのページの度数分布から導かれた ラインスペースまたはピッチに関する知識に基いて歪みを補償する能力を具備せ しめることを特徴とする請求項13記載の方法。
  15. (15)前記選択工程は、第2の直交する方向に沿って延在し第1の直交方向と は離れている一連のライン方向にビットマップ上を走査する工程を有しており、 各々のラインはそれぞれの最外延部の画素座標間の距離に対応した長さを有して いることを特徴とする請求項13乃至14記載の方法。
  16. (16)第1第2の互いに直交する方向における像の最大値を決定するためビッ トマップ上を走査し、該第1の方向における各々の走査線について該直交する第 2方向における像の最外縁部の画素の座標を記録し、前回決定された範囲により 規定された矩形内かつ前回決定された最外縁部の画素座標内にある画素のみを選 択して像を規定することを特徴とするビットマップ状に表された複数の像を分け る装置。
  17. (17)ビットマップ状に表された複数の像の振り分け方法であって、 a)像を形成している形状を検出するためビットマップ上を走査する工程と、 b)検出された形状を規定しているビットマップの画素の位置を記録する工程を 有し、 他の像の位置を記録するために該工程a)とb)とを繰り返し行いつつも、画素 の位置が既に工程b)にて記録済みのときはその面素を工程a)において無視す ることを特徴とする方法。
  18. (18)前記工程b)は、像を規定する該ビットマップと境界線を共にしている 第2のビットマップを提供する工程と、前記走査工程において探査された画素を 該第2のビットマップに記録して検出された形状と対応させることを特徴とする 請求項18記載の方法。
  19. (19)ビットマップ上に表された像を分割するための装置であって、像に対応 している形状を検出するためにビットマップ上を走査する走査手段と、該検出さ れた形状を規定するビットマップ上の画素の位置を記録するための記憶手段とを 有し、該記憶手段に位置が記録されていなかったビットマップの画素に対しての み該走査手段が感応することを特徴とする装置。
JP1509636A 1988-09-07 1989-09-06 像認識 Pending JPH04502526A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB888821024A GB8821024D0 (en) 1988-09-07 1988-09-07 Image recognition
GB8821024.0 1988-09-07

Publications (1)

Publication Number Publication Date
JPH04502526A true JPH04502526A (ja) 1992-05-07

Family

ID=10643220

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1509636A Pending JPH04502526A (ja) 1988-09-07 1989-09-06 像認識

Country Status (4)

Country Link
EP (1) EP0433359A1 (ja)
JP (1) JPH04502526A (ja)
GB (1) GB8821024D0 (ja)
WO (1) WO1990003012A2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003215755A1 (en) 2002-03-22 2003-10-08 British Telecommunications Public Limited Company Comparing patterns
US7546236B2 (en) 2002-03-22 2009-06-09 British Telecommunications Public Limited Company Anomaly recognition method for data streams
GB0229625D0 (en) 2002-12-19 2003-01-22 British Telecomm Searching images
GB0328326D0 (en) 2003-12-05 2004-01-07 British Telecomm Image processing
EP1789910B1 (en) 2004-09-17 2008-08-13 British Telecommunications Public Limited Company Analysis of patterns
EP1732030A1 (en) 2005-06-10 2006-12-13 BRITISH TELECOMMUNICATIONS public limited company Comparison of patterns
WO2007012798A1 (en) 2005-07-28 2007-02-01 British Telecommunications Public Limited Company Image analysis
EP1798961A1 (en) 2005-12-19 2007-06-20 BRITISH TELECOMMUNICATIONS public limited company Method for focus control
BE1020588A5 (fr) * 2011-08-11 2014-01-07 Iris Sa Procede de reconnaissance de formes, produit de programme d'ordinateur et terminal mobile.

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4104616A (en) * 1976-01-28 1978-08-01 Sumitomo Electric Industries, Ltd. Hand operated optical character recognition system
DE3026055C2 (de) * 1980-07-09 1984-01-12 Computer Gesellschaft Konstanz Mbh, 7750 Konstanz Schaltungsanordnung zur maschinellen Zeichererkennung
SE448922B (sv) * 1980-10-21 1987-03-23 Ibm Svenska Ab Metod for behandling av videodata vid ett optiskt teckenidentifieringssystem jemte en anordning for teckenidentifiering i en optisk dokumentlesare

Also Published As

Publication number Publication date
GB8821024D0 (en) 1988-10-05
WO1990003012A3 (en) 1990-07-26
EP0433359A1 (en) 1991-06-26
WO1990003012A2 (en) 1990-03-22

Similar Documents

Publication Publication Date Title
US5539841A (en) Method for comparing image sections to determine similarity therebetween
KR100390264B1 (ko) 폼처리중자동페이지등록및자동영역검출을위한시스템및방법
US5410611A (en) Method for identifying word bounding boxes in text
US5335290A (en) Segmentation of text, picture and lines of a document image
US5761344A (en) Image pre-processor for character recognition system
US5854854A (en) Skew detection and correction of a document image representation
US5201011A (en) Method and apparatus for image hand markup detection using morphological techniques
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
EP2178028A2 (en) Representing documents with runlength histograms
CN110503054B (zh) 文本图像的处理方法及装置
JP3727974B2 (ja) 画像処理装置及び方法
JPH0850633A (ja) 文字認識装置
JPH0863583A (ja) ドキュメント格納検索装置及び方法
Ma et al. Adaptive Hindi OCR using generalized Hausdorff image comparison
CN108052936B (zh) 一种盲文图像自动倾斜校正方法及系统
JPH04502526A (ja) 像認識
JPS62254282A (ja) 重畳するパタ−ンを分離する方法及び装置
US5835625A (en) Method and apparatus for optical character recognition utilizing proportional nonpredominant color analysis
EP1010128B1 (en) Method for performing character recognition on a pixel matrix
US6259814B1 (en) Image recognition through localized interpretation
JPS60116078A (ja) 文字認識装置
CN107886808B (zh) 一种盲文方辅助标注方法及系统
EP0692768A2 (en) Full text storage and retrieval in image at OCR and code speed
Li An implementation of ocr system based on skeleton matching
Saraga et al. Optical character recognition