JPH076206A

JPH076206A - 自動文字分類装置

Info

Publication number: JPH076206A
Application number: JP6070296A
Authority: JP
Inventors: A Lawrence Spitz; ローレンススピッツエイ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1993-04-19
Filing date: 1994-04-08
Publication date: 1995-01-10
Also published as: EP0621555A2; EP0621555A3; US5375176A

Abstract

(57)【要約】【目的】ヨーロッパスクリプトタイプ文書の文字の文
字タイプ区分を決定することであるある。【構成】本発明の自動抽象文字コーディング装置は、
大体のスクリプトタイプがヨーロッパスクリプトタイプ
であると知られているとき、あるいはヨーロッパスクリ
プトタイプであると決定されたとき、文書のテキストイ
メージから抽象コード化文字を自動的に生成する。。関
連構成要素生成手段はテキストイメージを構成する画素
から関連構成要素を生成する。空間的特徴決定手段は１
つまたはそれ以上の一直線に並んだ関連構成要素を取り
囲む文字セルを生成する。文字タイプ分類手段は文字セ
ルを複数の抽象文字コードの１つへ変換する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自動文書認識方法およ
び装置、より詳細には文書の文字セルを抽象文字コード
とワードトークンへ自動的に変換する装置に関するもの
である。

【０００２】

【従来の技術】光学式文字認識や、光学式文字認識を使
用して、走査したイメージデータをディジタルコンピュ
ータにおいて使用するのに適したテキストデータに変換
することはよく知られている。さらに、走査したイメー
ジデータをテキストデータに変換する方法や、その変換
方法によって生じるエラーの種類もよく知られている。
しかし、適切なエラー修正方法の選択は文書の言語によ
って大きく左右される。従来は、文書に使用されている
言語があらかじめ知られていると想定して、光学式文字
認識方法や、光学式文字認識装置におけるエラー修正方
法が提供されてきた。複数の言語について文字認識方法
とエラー訂正方法を使用して、光学式文字認識装置を具
体化することができる。

【０００３】しかし、これまでは、光学式文字認識装置
に文書の言語を自動的に決定させることは不可能であっ
た。それどころか、各文書を光学式文字認識装置に与え
るときに、文書の個々の言語について一定の指示を光学
式文字認識装置に与えなければならない。これは、オペ
レータが文書の言語およびスクリプトに関するデータを
光学式文字認識装置に入力するか、または文書の言語を
指示する特殊な標識を文書に付けることによって果たさ
れてきた。

【０００４】

【発明が解決しようとする課題】以上のことから、本発
明の第１の目的は、自動的に言語およびスクリプトを認
識する能力を備えた光学式文字認識装置を提供すること
である。

【０００５】本発明の第２の目的は、ヨーロッパスクリ
プトタイプ文書の文字の文字タイプ区分を決定すること
である。

【０００６】本発明の第３の目的は、文字タイプ区分に
基づいてワードトークンを生成することである。

【０００７】

【課題を解決するための手段】本発明の装置の第１実施
例において、文書のテキスト部分のスクリプトタイプが
ヨーロッパスクリプトタイプであると決定されたら、各
文字セル内のテキスト部分の１つまたはそれ以上の関連
構成要素が、実際の文字から文字セル内の関連構成要素
の大体の特徴の抽象文字表現へ変換される。それまで
に、複数の文字セルは関連構成要素間の間隔の幅に基づ
いてワードにまとめられている。テキスト部分のすべて
の文字セルが適切にコード化されると、ワードトークン
が出力される。

【０００８】それまでに文書のテキスト部分が相当する
ディジタルデータ信号へ変換されていない場合には、文
書が走査され、すべての非テキスト情報が除去される。
そのあと、得られたテキストイメージはスキュー、その
他の走査人工産物について修正される（もし必要なら
ば）。文書のイメージが走査され、クリーンアップされ
ると、イメージが、位置およびイメージ濃度をもつ画素
のビットマップから複数の関連構成要素へ変換される。
関連構成要素が生成された後、各関連構成要素について
境界ボックスが生成される。必要ならば、決定された文
字パターンの分布に基づいて、文書のテキストの個々の
スクリプトタイプが決定される。個々のスクリプトタイ
プが決定された後、どの関連構成要素がどの行の一部で
あるかを決定し、各行のワード間およびワード内の文字
間隔を決定し、そして関連構成要素を文字セル内に置く
ために（もし必要ならば）、テキスト部分が垂直方向お
よび水平方向に拡張される。

【０００９】

【実施例】図１に示すように、通常の光学式文字認識装
置は、電荷結合素子（ＣＣＤ）または同種の素子を含む
スキャナ１１０を備えている。スキャナ１１０は、たと
えば図２に示した未知の言語のヨーロッパスクリプトタ
イプ文字列を含むイメージ１０２をもつ文書１００を走
査し、原文書１００のイメージ１０２を構成する複数の
画素の位置およびイメージ濃度を表すディジタルデータ
信号を出力する。このディジタルデータ信号はメモリ１
１２へ送られ、そこに一時的または無期限に保存され
る。ディジタルデータ信号は、メモリ１１２から出力さ
れると、汎用ディジタルコンピュータ１１４へ入力され
る。コンピュータ１１４へ入力された後、ディジタルデ
ータ信号は、最初に、イメージ１０２のすべての非テキ
スト部分を除去し、テキスト部分１０４を残すことによ
ってクリーンアップされる。さらに、ディジタルデータ
信号内のすべてのスキャナ人工産物、たとえばスキュー
または同種の物が修正される。次に、クリーンアップさ
れたディジタルデータ信号はメモリ１１２に再び保存さ
れるか、コンピュータ１１４のメモリに保存される。代
わりに、スキャナによって一部の前処理たとえばスキャ
ナ人工産物の除去を実施することができる。

【００１０】図１に示すように、本発明の汎用ディジタ
ルコンピュータ１１４は、制御プログラムを保存するメ
モリ２２と、メモリ１１２からディジタルデータ信号を
入力し、イメージ１０２のテキスト部分１０４の決定さ
れたワードトークンを表す信号を出力する入出力手段２
４を含んでいる。汎用ディジタルコンピュータ１１４
は、さらに、ディジタルデータ信号を保存するイメージ
メモリ２６、ディジタルデータ信号から関連構成要素を
生成する関連構成要素生成手段２８、テキスト部分の行
のワードおよび文字セルの座標と、各文字セル内の各関
連構成要素の位置を決定する空間的特徴決定手段３０、
文字セルを抽象文字コードへ変換する文字タイプ分類手
段３２、およびトークンのリスト（各トークンは１つま
たはそれ以上のコード化文字を含んでいる）に基づい
て、テキスト部分の言語を決定する言語決定手段３４を
含んでいる。制御プログラムを保存するメモリ２２は、
ＲＯＭ２２ａまたはＲＡＭ２２ｂのどちらかでもよい。

【００１１】本発明の好ましい実施例においては、分類
手段３２は、現在文字セル内の関連構成要素の数を決定
する関連構成要素計数手段３２０、現在文字セル内の少
なくとも１つの関連構成要素のトップ位置を捜し出すト
ップ位置探索手段３２２、現在文字セル内の少なくとも
１つの関連構成要素のボトム位置を捜し出すボトム位置
探索手段３２４、現在文字セルの少なくとも１つの関連
構成要素の高さと幅を決定する関連構成要素サイズ決定
手段３２６、現在文字セルに対応する行のベースライン
およびｘ−ライン位置の少なくとも一方を保存する行位
置記憶手段３２８、および関連構成要素のトップ位置、
関連構成要素のボトム位置、および関連構成要素のハイ
トの少なくとも１つと、ベースライン位置、ｘ−ライン
位置、および関連構成要素の幅の少なくとも１つとを比
較する比較手段３３０を含んでいる。関連構成要素生成
手段２８、空間的特徴決定手段３０、分類手段３２、お
よび言語決定手段３４の各機能および対応する手段を独
立した手段によって具体化することができること、そし
てそれらの構造が上に述べた本発明の好ましい実施例と
同じであることはもちろん理解されるであろう。

【００１２】動作中、スキャナ１１０に図１に示したイ
メージ１０２をもつ文書１００が挿入され、走査され、
直列または並列ディジタルデータ信号が生成される。デ
ィジタルデータ信号は複数の信号部分から成り、各信号
部分は原イメージ１０２の対応する画素を表している。
イメージ１０２の各画素はイメージ１０２内の位置とイ
メージ濃度を有している。従って、ディジタルデータ信
号の各信号部分は、対応する画素の位置とイメージ濃度
を表すデータを含んでいる。

【００１３】そのあと、スキャナ１１０が出力したディ
ジタルデータ信号はメモリ１１２に保存される。メモリ
１１２はＲＡＭ、フラッシュメモリ、ディスクメモリ、
または同種の装置であってもよい。メモリ１１２の形式
に関係なく、ディジタルデータ信号は、各信号部分内の
位置およびイメージ濃度データに応じて、メモリ１１２
内に保存される。中間メモリ１１２に入力する代わり
に、ディジタルデータ信号を汎用コンピュータ１１４へ
直接に入力してもよいことはもちろん理解されるであろ
う。代案として、メモリ１１２を汎用ディジタルコンピ
ュータ１１４に組み入れることもできる。いずれにせ
よ、メモリ１１２はイメージ１０２を長期間保存するた
め使用されることは理解されるであろう。

【００１４】オペレータによるスキャナ１１０への文書
の入力が終了したら、あるいは装置が別のやり方でテキ
スト部分１０４を表すディジタルデータ信号をテキスト
データへ変換すべきであると決定すると、イメージ１０
２を表すディジタルデータ信号がメモリ１１２から汎用
ディジタルコンピュータ１１４へ出力される。汎用ディ
ジタルコンピュータ１１４の代わりに、専用コンピュー
タまたはハードワイヤード論理回路を使用できることは
もちろん理解されるであろう。

【００１５】メモリ１１２に保存されたディジタルデー
タ信号は汎用コンピュータ１１４へ出力され、そこで入
出力手段２４によってイメージメモリ２６へ入力され
る。本発明の第１の好ましい実施例においては、テキス
ト部分１０４の大体のスクリプトタイプがヨーロッパス
クリプトタイプであると想定している。本発明の第２の
好ましい実施例においては、テキスト部分１０４の大体
のスクリプトタイプがヨーロッパスクリプトタイプであ
ると知られていない場合には、米国特許出願第 PAL-003
号に記載されている大体のスクリプトタイプを決定する
方法および装置を本発明に組み合わせできることはもち
ろん理解されるであろう。

【００１６】ディジタルデータ信号がイメージメモリ２
６に完全に保存されたら、ディジタルデータ信号は関連
構成要素生成手段２８にとって使用可能になる。関連構
成要素生成手段２８は、イメージ１０２を表すディジタ
ルデータ信号を複数の関連構成要素へ変換する。従っ
て、各関連構成要素が１つまたはそれ以上の信号部分よ
り成っている。各関連構成要素は、一定の最小イメージ
濃度を有し、連続する通路を作っている原イメージ１０
２の画素に対応する信号部分より成っている。各スクリ
プト文字は、一般に、“Fuji”の“F ”のように１つの
関連構成要素、または“Fuji”の“ｊ”または“ｊ”の
ように１つより多い関連構成要素に対応している。

【００１７】関連構成要素生成手段２８によってイメー
ジ１０２に対応するディジタルデータ信号から複数の関
連構成要素が生成されると、イメージ１０２に対応する
ディジタルデータ信号と、関連構成要素生成手段２８に
よって生成された関連構成要素のリストがイメージメモ
リ２６に保存され、かつ空間的特徴決定手段３０へ出力
される。

【００１８】空間的特徴決定手段３０は、行の位置、ワ
ード間隔、および文字セルなど、テキスト部分の空間的
特徴を決定する。各文字セルは、隣接するスペースの間
の行内に垂直方向に並んだ関連構成要素を有する。たと
えば、“Fuji”の文字“ｊ”や“ｊ”はそれぞれ２つの
独立した関連構成要素でできている。空間的特徴決定手
段３０は、ある行の垂直方向に並んだすべての関連構成
要素をまとめて１つの文字セルにする。テキスト部分１
０４の関連構成要素のリストからテキスト部分１０４の
空間的特徴を決定する１つの方法および装置が米国特許
出願第 PAL 92-002 号に開示されている。

【００１９】次に、関連構成要素のリストと文字セルが
空間的特徴決定手段３０によって文字タイプ分類手段３
２へ出力される。文字タイプ分類手段３２は、文字セル
内の関連構成要素の数および位置に基づいて、文字セル
内の関連構成要素（１つまたはそれ以上）を複数の抽象
文字コードの１つへ変換する。図５に、抽象文字コード
の好ましいリストと各抽象文字コードに対応する文字を
示す。図５に示すように、好ましい実施例においては、
１３の異なる抽象文字コードが使用されている。各抽象
文字コードは、文字セル内の独立した関連構成要素の
数、各文字セルの独立した関連構成要素間の相対的位
置、および文字セル内の関連構成要素の位置に基づい
て、１つまたはそれ以上の文字を表す。

【００２０】図８に、上に述べたスクリプト決定装置の
動作の簡単なフローチャートを示す。ステップＳ１００
において、装置は動作を開始し、ステップＳ１１０にお
いて、文書を走査し、ディジタルデータ信号を生成す
る。次にステップＳ１２０において、ディジタルデータ
信号に必要な前処理アルゴリズムを適用することによ
り、ディジタルデータ信号をクリーンアップする。ステ
ップＳ１３０において、データデータ信号の関連構成要
素を識別し、ステップＳ１４０において、文字セルを決
定する。ステップＳ１５０において、各文字セルの文字
タイプ区分を決定する。ステップＳ１６０において、ワ
ード間およびワード内の間隔に基づいて、文字コードを
まとめてトークンを作る。ステップＳ１７０において、
トークンを使用してテキスト部分１４０の個々の言語を
決定する。ステップＳ１８０において、最後に文書１０
０のイメージ１０２のテキスト部分１０４をテキスト文
書に変換するため、１つまたはそれ以上の決定した言
語、文字セルのリスト、関連構成要素のリスト、および
コード化文字のリストをＯＣＲ装置へ出力する。

【００２１】図６に、図５に示したコーディングを実行
するための判断トリーを示す。図６に示すように、１つ
の関連構成要素をもつ文字セルのための７つの抽象文字
コード、２つの関連構成要素をもつ文字セルのための５
つの抽象文字コード、および３つの関連構成要素をもつ
文字セルのための１つの抽象文字コードがある。

【００２２】本発明の好ましい実施例は、図６に示した
判断トリーを実行する。ステップＳ３００において、文
字タイプ分類手段３２は最初に、現在文字セル内の関連
構成要素の数を決定する。本発明の好ましい実施例にお
いては、分類手段３２は１セルづつテキスト部分１０４
の各文字セルに作用する。

【００２３】分類手段３２がステップＳ３００におい
て、文字セルが１つの関連構成要素のみを持っていると
決定すれば、分類手段３２は、ステップＳ３１０におい
て、関連構成要素のトップ位置が現在行のｘ−ライン位
置より上にあり、かつボトム位置がベースラインのより
上にあるかどうかを決定する。位置が下に正で、右に正
であるように、行の位置と関連構成要素の位置が、一番
上の位置またはその近くにあり、かつ一番左の位置また
はその近くにある基準位置から測定されることは理解さ
れるであろう。

【００２４】本発明は、統計に基づいているので、非常
に頑強であり、かなり不完全に印刷された、または走査
された、またはその両方の文書にも耐えることができ
る。すなわち、ディジタルデータ信号またはディジタル
データ信号から生成した関連構成要素は、文書のあらゆ
る文字を完璧に表現する必要がない。それどころか、本
発明は、１つの関連構成要素文字を２つまたはそれ以上
の関連構成要素に分割したり、２つまたはそれ以上の個
別の関連構成要素を１つの関連構成要素に併合したり、
あるいは行上の関連構成要素を置き違えるなど、普通の
走査エラーにも耐えることができる。

【００２５】ステップＳ３１０が肯定的であれば、分類
手段３２は、ステップＳ３２０において文字セルを省略
符号“ ’ ”へ変換する。しかし、ステップＳ３１０
が否定的であれば、分類手段３２はステップＳ３３０へ
進む。ステップＳ３３０において、分類手段３２は、関
連構成要素のトップ位置がｘ−ライン位置より上にあ
り、かつ文字のボトムがベースライン位置またはその下
にあるかどうかを決定する。もしステップＳ３３０が肯
定的であれば、分類手段３２は、ステップＳ３４０Ｉお
いて文字セルを“Ａ”へ変換する。“Ａ”は、図５に示
すように、すべての大文字、すべての数字、アセンダー
をもつ小文字、および垂直方向に向いたすべての句読点
を表す。

【００２６】ステップＳ３３０が否定的であれば、分類
手段３２はステップＳ３５０へ進む。ステップＳ３５０
において、分類手段３２は、関連構成要素のトップがｘ
−ライン位置より下にあり、かつ関連構成要素のボトム
がベースラインより上にあるかどうかを決定する。ステ
ップＳ３５０が肯定的であれば、分類手段３２は、ステ
ップＳ３６０において文字セルを“−”へ変換する。

【００２７】ステップＳ３５０が否定的であれば、分類
手段３２はステップＳ３７０へ進む。ステップＳ３７０
において、分類手段３２は、関連構成要素のトップ位置
がｘ−ライン位置より下にあり、かつ関連構成要素のボ
トム位置がベースラインより下にあるかどうかを決定す
る。ステップＳ３７０が肯定的であれば、分類手段３２
は、ステップＳ３８０において文字セルを“，”へ変換
する。ステップＳ３７０が否定的であれば、分類手段３
２はステップＳ３９０へ進む。ステップＳ３９０におい
て、分類手段３２は、関連構成要素のトップ位置がｘ−
ライン位置より下にあるかどうかを決定する。ステップ
Ｓ３９０が肯定的であれば、分類手段３２は、ステップ
Ｓ４００において文字セルを“．”へ変換する。

【００２８】ステップＳ３９０が否定的であれば、分類
手段３２はステップＳ４１０へ進む。ステップＳ４１０
において、分類手段３２は、関連構成要素のボトム位置
がベースラインより下にあるかどうかを決定する。ステ
ップＳ４１０が肯定的であれば、分類手段３２は、ステ
ップＳ４２０において文字セルを“ｇ”へ変換する。
“ｇ”符号は、図５に示すように、デセンダーをもつす
べての小文字を表す。

【００２９】ステップＳ４１０が否定的であれば、分類
手段３２はステップＳ４３０へ進む。ステップＳ４３０
において、分類手段３２は、関連構成要素がアセンダー
またはデセンダーのいずれも持たない小文字であると想
定して、関連構成要素を“ｘ”へ変換する。次に、ステ
ップＳ４３０の後、またはステップＳ３２０，Ｓ３４
０，Ｓ３６０，Ｓ３８０，Ｓ４００，およびＳ４２０の
後、分類手段３２は次の文字セルを現在文字セルとして
選択し、ステップＳ３００へ戻る。

【００３０】しかし、ステップＳ３００において、分類
手段３２が、現在文字セルの中に２つの関連構成要素が
存在していると決定すれば、分類手段３２はステップＳ
４４０へ進む。ステップＳ４４０において、分類手段３
２は、上の関連構成要素の高さが上の関連構成要素の幅
の３倍以上であるかどうかを決定する。関連構成要素の
高さは単にそのトップ位置とボトム位置との差であり、
関連構成要素の幅はその一番右の位置と一番左の位置と
の差である。ステップＳ４４０が肯定的であれば、分類
手段３２はステップＳ４５０へ進む。ステップＳ４５０
において、分類手段３２は文字セルを“！”へ変換す
る。

【００３１】ステップＳ４４０が否定的であれば、分類
手段３２はステップＳ４６０へ進む。ステップＳ４６０
において、分類手段３２は、上の関連構成要素がｘ−ラ
イン位置より上にあり、かつ下の関連構成要素のボトム
位置がベースライン位置より下にあるかどうかを決定す
る。ステップＳ４６０が肯定的であれば、分類手段３２
は、ステップＳ４７０において文字セルを“ｊ”へ変換
する。“ｊ”は、ｘ−ライン位置より上に延びている独
立した関連構成要素と、ベースライン位置より下に延び
ている独立した関連構成要素を持つすべての小文字を表
す。

【００３２】ステップＳ４６０が否定的であれば、分類
手段３２はステップＳ４８０へ進む。ステップＳ４８０
において、分類手段３２は、上の関連構成要素のトップ
部分がｘ−ライン位置より上にあり、かつボトム部分が
ベースライン位置より下にないかどうかを決定する。ス
テップＳ４８０が肯定的であれば、分類手段３２は、ス
テップＳ４９０において文字セルを“ｉ”へ変換する。
“ｉ”は、図５に示すように、ｘ−ライン位置より上に
延びている独立した関連構成要素と、ベースライン位置
より下に延びていない独立した関連構成要素を持つすべ
ての小文字を表す。

【００３３】ステップＳ４８０が否定的であれば、分類
手段３２はステップＳ５００へ進む。ステップＳ５００
において、分類手段３２は、上および下の関連構成要素
が共に、幅が高さの３倍以上あるかどうかを決定する。
ステップＳ５００が肯定的であれば、分類手段３２は、
ステップＳ５１０において文字セルを“＝”へ変換す
る。ステップＳ５００が否定的であれば、分類手段３２
は、文字セルが“：”へ変換されるべきであると想定
し、ステップＳ５２０において、文字セルをそのように
変換する。ステップＳ５２０の後、およびステップＳ４
５０，Ｓ４７０，Ｓ４９０，Ｓ５１０の後、分類手段３
２は次の文字セルを現在文字セルとして選択し、ステッ
プ３００へ進む。

【００３４】しかし、分類手段３２が、ステップ３００
において、文字セル内に３つの関連構成要素が存在して
いると決定すれば、分類手段３２はステップＳ５３０へ
進む。ステップＳ５３０において、分類手段３２は、文
字セルがウムラウト符号をもつ大文字または小文字を表
していると想定し、従って、図５に示すように、文字セ
ルを“Ｕ”へ変換する。次に、分類手段３２は次の文字
セルを現在文字セルとして選択し、ステップＳ３００へ
進む。しかし、次の文字セルが存在しなければ、分類手
段３２はテキスト部分１０４の分類を停止し、文字セル
の代わりに、抽象文字コードのリストをイメージメモリ
２６へ出力する。

【００３５】１つまたはそれ以上のコード化文字のワー
ドトークンのリストは、ヨーロッパ言語決定手段３４へ
提供され、言語決定手段３４はそのワードトークンのリ
ストを入力し、テキスト部分１０４の個々のヨーロッパ
言語を決定する。このようなヨーロッパ言語決定手段が
米国特許出願第 PAL 92-001 号に開示されている。

【図面の簡単な説明】

【図１】光学式文字認識装置のブロック図である。

【図２】原文書を示す図である。

【図３】ヨーロッパスクリプトタイプのテキスト部分を
含む原文書の走査版である。

【図４】図２に示した文書の１つまたはそれ以上の関連
構成要素の各組に対する文字セルを示す図である。

【図５】文字タイプ区分のコード文字と実際の対応する
スクリプト文字を示す図である。

【図６】文字タイプ区分の判断トリーを示す図である。

【図７】図５の文字タイプ区分へ変換された図２のテキ
スト部分を示す図である。

【図８】本発明の装置の動作を示すフローチャートであ
る。

【符号の説明】

２２メモリ２４入出力手段２６イメージメモリ２８関連構成要素生成手段３０空間的特徴決定手段３２文字タイプ分類手段３４言語決定手段１００文書１０２イメージ１０４テキスト部分１１０スキャナ１１２メモリ１１４汎用ディジタルコンピュータ３２０関連構成要素計数手段３２２トップ位置探索手段３２４ボトム位置探索手段３２６関連構成要素サイズ決定手段３２８行位置記憶手段３３０比較手段

Claims

【特許請求の範囲】

【請求項１】文書のイメージのテキスト部分から複数
の抽象コード化文字を生成する自動文字分類装置であっ
て、各信号部分が複数の画素の１つに対応している、複数の
信号部分から成るテキスト部分を表すディジタルデータ
信号を入力する入力手段、複数の信号部分から複数の関連構成要素を生成する関連
構成要素生成手段、テキスト部分の空間的特徴を決定し、複数の信号部分か
ら各文字セルが少なくとも１つの関連構成要素を含んで
いる複数の文字セルを生成する空間的特徴決定手段、お
よび複数の文字セルのそれぞれを複数の抽象コード化文
字の１つへ変換する分類手段、から成ることを特徴とす
る装置。