JPH076206A - 自動文字分類装置 - Google Patents
自動文字分類装置Info
- Publication number
- JPH076206A JPH076206A JP6070296A JP7029694A JPH076206A JP H076206 A JPH076206 A JP H076206A JP 6070296 A JP6070296 A JP 6070296A JP 7029694 A JP7029694 A JP 7029694A JP H076206 A JPH076206 A JP H076206A
- Authority
- JP
- Japan
- Prior art keywords
- character
- document
- cell
- data signal
- digital data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 ヨーロッパスクリプトタイプ文書の文字の文
字タイプ区分を決定することであるある。 【構成】 本発明の自動抽象文字コーディング装置は、
大体のスクリプトタイプがヨーロッパスクリプトタイプ
であると知られているとき、あるいはヨーロッパスクリ
プトタイプであると決定されたとき、文書のテキストイ
メージから抽象コード化文字を自動的に生成する。。関
連構成要素生成手段はテキストイメージを構成する画素
から関連構成要素を生成する。空間的特徴決定手段は1
つまたはそれ以上の一直線に並んだ関連構成要素を取り
囲む文字セルを生成する。文字タイプ分類手段は文字セ
ルを複数の抽象文字コードの1つへ変換する。
字タイプ区分を決定することであるある。 【構成】 本発明の自動抽象文字コーディング装置は、
大体のスクリプトタイプがヨーロッパスクリプトタイプ
であると知られているとき、あるいはヨーロッパスクリ
プトタイプであると決定されたとき、文書のテキストイ
メージから抽象コード化文字を自動的に生成する。。関
連構成要素生成手段はテキストイメージを構成する画素
から関連構成要素を生成する。空間的特徴決定手段は1
つまたはそれ以上の一直線に並んだ関連構成要素を取り
囲む文字セルを生成する。文字タイプ分類手段は文字セ
ルを複数の抽象文字コードの1つへ変換する。
Description
【0001】
【産業上の利用分野】本発明は、自動文書認識方法およ
び装置、より詳細には文書の文字セルを抽象文字コード
とワードトークンへ自動的に変換する装置に関するもの
である。
び装置、より詳細には文書の文字セルを抽象文字コード
とワードトークンへ自動的に変換する装置に関するもの
である。
【0002】
【従来の技術】光学式文字認識や、光学式文字認識を使
用して、走査したイメージデータをディジタルコンピュ
ータにおいて使用するのに適したテキストデータに変換
することはよく知られている。さらに、走査したイメー
ジデータをテキストデータに変換する方法や、その変換
方法によって生じるエラーの種類もよく知られている。
しかし、適切なエラー修正方法の選択は文書の言語によ
って大きく左右される。従来は、文書に使用されている
言語があらかじめ知られていると想定して、光学式文字
認識方法や、光学式文字認識装置におけるエラー修正方
法が提供されてきた。複数の言語について文字認識方法
とエラー訂正方法を使用して、光学式文字認識装置を具
体化することができる。
用して、走査したイメージデータをディジタルコンピュ
ータにおいて使用するのに適したテキストデータに変換
することはよく知られている。さらに、走査したイメー
ジデータをテキストデータに変換する方法や、その変換
方法によって生じるエラーの種類もよく知られている。
しかし、適切なエラー修正方法の選択は文書の言語によ
って大きく左右される。従来は、文書に使用されている
言語があらかじめ知られていると想定して、光学式文字
認識方法や、光学式文字認識装置におけるエラー修正方
法が提供されてきた。複数の言語について文字認識方法
とエラー訂正方法を使用して、光学式文字認識装置を具
体化することができる。
【0003】しかし、これまでは、光学式文字認識装置
に文書の言語を自動的に決定させることは不可能であっ
た。それどころか、各文書を光学式文字認識装置に与え
るときに、文書の個々の言語について一定の指示を光学
式文字認識装置に与えなければならない。これは、オペ
レータが文書の言語およびスクリプトに関するデータを
光学式文字認識装置に入力するか、または文書の言語を
指示する特殊な標識を文書に付けることによって果たさ
れてきた。
に文書の言語を自動的に決定させることは不可能であっ
た。それどころか、各文書を光学式文字認識装置に与え
るときに、文書の個々の言語について一定の指示を光学
式文字認識装置に与えなければならない。これは、オペ
レータが文書の言語およびスクリプトに関するデータを
光学式文字認識装置に入力するか、または文書の言語を
指示する特殊な標識を文書に付けることによって果たさ
れてきた。
【0004】
【発明が解決しようとする課題】以上のことから、本発
明の第1の目的は、自動的に言語およびスクリプトを認
識する能力を備えた光学式文字認識装置を提供すること
である。
明の第1の目的は、自動的に言語およびスクリプトを認
識する能力を備えた光学式文字認識装置を提供すること
である。
【0005】本発明の第2の目的は、ヨーロッパスクリ
プトタイプ文書の文字の文字タイプ区分を決定すること
である。
プトタイプ文書の文字の文字タイプ区分を決定すること
である。
【0006】本発明の第3の目的は、文字タイプ区分に
基づいてワードトークンを生成することである。
基づいてワードトークンを生成することである。
【0007】
【課題を解決するための手段】本発明の装置の第1実施
例において、文書のテキスト部分のスクリプトタイプが
ヨーロッパスクリプトタイプであると決定されたら、各
文字セル内のテキスト部分の1つまたはそれ以上の関連
構成要素が、実際の文字から文字セル内の関連構成要素
の大体の特徴の抽象文字表現へ変換される。それまで
に、複数の文字セルは関連構成要素間の間隔の幅に基づ
いてワードにまとめられている。テキスト部分のすべて
の文字セルが適切にコード化されると、ワードトークン
が出力される。
例において、文書のテキスト部分のスクリプトタイプが
ヨーロッパスクリプトタイプであると決定されたら、各
文字セル内のテキスト部分の1つまたはそれ以上の関連
構成要素が、実際の文字から文字セル内の関連構成要素
の大体の特徴の抽象文字表現へ変換される。それまで
に、複数の文字セルは関連構成要素間の間隔の幅に基づ
いてワードにまとめられている。テキスト部分のすべて
の文字セルが適切にコード化されると、ワードトークン
が出力される。
【0008】それまでに文書のテキスト部分が相当する
ディジタルデータ信号へ変換されていない場合には、文
書が走査され、すべての非テキスト情報が除去される。
そのあと、得られたテキストイメージはスキュー、その
他の走査人工産物について修正される(もし必要なら
ば)。文書のイメージが走査され、クリーンアップされ
ると、イメージが、位置およびイメージ濃度をもつ画素
のビットマップから複数の関連構成要素へ変換される。
関連構成要素が生成された後、各関連構成要素について
境界ボックスが生成される。必要ならば、決定された文
字パターンの分布に基づいて、文書のテキストの個々の
スクリプトタイプが決定される。個々のスクリプトタイ
プが決定された後、どの関連構成要素がどの行の一部で
あるかを決定し、各行のワード間およびワード内の文字
間隔を決定し、そして関連構成要素を文字セル内に置く
ために(もし必要ならば)、テキスト部分が垂直方向お
よび水平方向に拡張される。
ディジタルデータ信号へ変換されていない場合には、文
書が走査され、すべての非テキスト情報が除去される。
そのあと、得られたテキストイメージはスキュー、その
他の走査人工産物について修正される(もし必要なら
ば)。文書のイメージが走査され、クリーンアップされ
ると、イメージが、位置およびイメージ濃度をもつ画素
のビットマップから複数の関連構成要素へ変換される。
関連構成要素が生成された後、各関連構成要素について
境界ボックスが生成される。必要ならば、決定された文
字パターンの分布に基づいて、文書のテキストの個々の
スクリプトタイプが決定される。個々のスクリプトタイ
プが決定された後、どの関連構成要素がどの行の一部で
あるかを決定し、各行のワード間およびワード内の文字
間隔を決定し、そして関連構成要素を文字セル内に置く
ために(もし必要ならば)、テキスト部分が垂直方向お
よび水平方向に拡張される。
【0009】
【実施例】図1に示すように、通常の光学式文字認識装
置は、電荷結合素子(CCD)または同種の素子を含む
スキャナ110を備えている。スキャナ110は、たと
えば図2に示した未知の言語のヨーロッパスクリプトタ
イプ文字列を含むイメージ102をもつ文書100を走
査し、原文書100のイメージ102を構成する複数の
画素の位置およびイメージ濃度を表すディジタルデータ
信号を出力する。このディジタルデータ信号はメモリ1
12へ送られ、そこに一時的または無期限に保存され
る。ディジタルデータ信号は、メモリ112から出力さ
れると、汎用ディジタルコンピュータ114へ入力され
る。コンピュータ114へ入力された後、ディジタルデ
ータ信号は、最初に、イメージ102のすべての非テキ
スト部分を除去し、テキスト部分104を残すことによ
ってクリーンアップされる。さらに、ディジタルデータ
信号内のすべてのスキャナ人工産物、たとえばスキュー
または同種の物が修正される。次に、クリーンアップさ
れたディジタルデータ信号はメモリ112に再び保存さ
れるか、コンピュータ114のメモリに保存される。代
わりに、スキャナによって一部の前処理たとえばスキャ
ナ人工産物の除去を実施することができる。
置は、電荷結合素子(CCD)または同種の素子を含む
スキャナ110を備えている。スキャナ110は、たと
えば図2に示した未知の言語のヨーロッパスクリプトタ
イプ文字列を含むイメージ102をもつ文書100を走
査し、原文書100のイメージ102を構成する複数の
画素の位置およびイメージ濃度を表すディジタルデータ
信号を出力する。このディジタルデータ信号はメモリ1
12へ送られ、そこに一時的または無期限に保存され
る。ディジタルデータ信号は、メモリ112から出力さ
れると、汎用ディジタルコンピュータ114へ入力され
る。コンピュータ114へ入力された後、ディジタルデ
ータ信号は、最初に、イメージ102のすべての非テキ
スト部分を除去し、テキスト部分104を残すことによ
ってクリーンアップされる。さらに、ディジタルデータ
信号内のすべてのスキャナ人工産物、たとえばスキュー
または同種の物が修正される。次に、クリーンアップさ
れたディジタルデータ信号はメモリ112に再び保存さ
れるか、コンピュータ114のメモリに保存される。代
わりに、スキャナによって一部の前処理たとえばスキャ
ナ人工産物の除去を実施することができる。
【0010】図1に示すように、本発明の汎用ディジタ
ルコンピュータ114は、制御プログラムを保存するメ
モリ22と、メモリ112からディジタルデータ信号を
入力し、イメージ102のテキスト部分104の決定さ
れたワードトークンを表す信号を出力する入出力手段2
4を含んでいる。汎用ディジタルコンピュータ114
は、さらに、ディジタルデータ信号を保存するイメージ
メモリ26、ディジタルデータ信号から関連構成要素を
生成する関連構成要素生成手段28、テキスト部分の行
のワードおよび文字セルの座標と、各文字セル内の各関
連構成要素の位置を決定する空間的特徴決定手段30、
文字セルを抽象文字コードへ変換する文字タイプ分類手
段32、およびトークンのリスト(各トークンは1つま
たはそれ以上のコード化文字を含んでいる)に基づい
て、テキスト部分の言語を決定する言語決定手段34を
含んでいる。制御プログラムを保存するメモリ22は、
ROM22aまたはRAM22bのどちらかでもよい。
ルコンピュータ114は、制御プログラムを保存するメ
モリ22と、メモリ112からディジタルデータ信号を
入力し、イメージ102のテキスト部分104の決定さ
れたワードトークンを表す信号を出力する入出力手段2
4を含んでいる。汎用ディジタルコンピュータ114
は、さらに、ディジタルデータ信号を保存するイメージ
メモリ26、ディジタルデータ信号から関連構成要素を
生成する関連構成要素生成手段28、テキスト部分の行
のワードおよび文字セルの座標と、各文字セル内の各関
連構成要素の位置を決定する空間的特徴決定手段30、
文字セルを抽象文字コードへ変換する文字タイプ分類手
段32、およびトークンのリスト(各トークンは1つま
たはそれ以上のコード化文字を含んでいる)に基づい
て、テキスト部分の言語を決定する言語決定手段34を
含んでいる。制御プログラムを保存するメモリ22は、
ROM22aまたはRAM22bのどちらかでもよい。
【0011】本発明の好ましい実施例においては、分類
手段32は、現在文字セル内の関連構成要素の数を決定
する関連構成要素計数手段320、現在文字セル内の少
なくとも1つの関連構成要素のトップ位置を捜し出すト
ップ位置探索手段322、現在文字セル内の少なくとも
1つの関連構成要素のボトム位置を捜し出すボトム位置
探索手段324、現在文字セルの少なくとも1つの関連
構成要素の高さと幅を決定する関連構成要素サイズ決定
手段326、現在文字セルに対応する行のベースライン
およびx−ライン位置の少なくとも一方を保存する行位
置記憶手段328、および関連構成要素のトップ位置、
関連構成要素のボトム位置、および関連構成要素のハイ
トの少なくとも1つと、ベースライン位置、x−ライン
位置、および関連構成要素の幅の少なくとも1つとを比
較する比較手段330を含んでいる。関連構成要素生成
手段28、空間的特徴決定手段30、分類手段32、お
よび言語決定手段34の各機能および対応する手段を独
立した手段によって具体化することができること、そし
てそれらの構造が上に述べた本発明の好ましい実施例と
同じであることはもちろん理解されるであろう。
手段32は、現在文字セル内の関連構成要素の数を決定
する関連構成要素計数手段320、現在文字セル内の少
なくとも1つの関連構成要素のトップ位置を捜し出すト
ップ位置探索手段322、現在文字セル内の少なくとも
1つの関連構成要素のボトム位置を捜し出すボトム位置
探索手段324、現在文字セルの少なくとも1つの関連
構成要素の高さと幅を決定する関連構成要素サイズ決定
手段326、現在文字セルに対応する行のベースライン
およびx−ライン位置の少なくとも一方を保存する行位
置記憶手段328、および関連構成要素のトップ位置、
関連構成要素のボトム位置、および関連構成要素のハイ
トの少なくとも1つと、ベースライン位置、x−ライン
位置、および関連構成要素の幅の少なくとも1つとを比
較する比較手段330を含んでいる。関連構成要素生成
手段28、空間的特徴決定手段30、分類手段32、お
よび言語決定手段34の各機能および対応する手段を独
立した手段によって具体化することができること、そし
てそれらの構造が上に述べた本発明の好ましい実施例と
同じであることはもちろん理解されるであろう。
【0012】動作中、スキャナ110に図1に示したイ
メージ102をもつ文書100が挿入され、走査され、
直列または並列ディジタルデータ信号が生成される。デ
ィジタルデータ信号は複数の信号部分から成り、各信号
部分は原イメージ102の対応する画素を表している。
イメージ102の各画素はイメージ102内の位置とイ
メージ濃度を有している。従って、ディジタルデータ信
号の各信号部分は、対応する画素の位置とイメージ濃度
を表すデータを含んでいる。
メージ102をもつ文書100が挿入され、走査され、
直列または並列ディジタルデータ信号が生成される。デ
ィジタルデータ信号は複数の信号部分から成り、各信号
部分は原イメージ102の対応する画素を表している。
イメージ102の各画素はイメージ102内の位置とイ
メージ濃度を有している。従って、ディジタルデータ信
号の各信号部分は、対応する画素の位置とイメージ濃度
を表すデータを含んでいる。
【0013】そのあと、スキャナ110が出力したディ
ジタルデータ信号はメモリ112に保存される。メモリ
112はRAM、フラッシュメモリ、ディスクメモリ、
または同種の装置であってもよい。メモリ112の形式
に関係なく、ディジタルデータ信号は、各信号部分内の
位置およびイメージ濃度データに応じて、メモリ112
内に保存される。中間メモリ112に入力する代わり
に、ディジタルデータ信号を汎用コンピュータ114へ
直接に入力してもよいことはもちろん理解されるであろ
う。代案として、メモリ112を汎用ディジタルコンピ
ュータ114に組み入れることもできる。いずれにせ
よ、メモリ112はイメージ102を長期間保存するた
め使用されることは理解されるであろう。
ジタルデータ信号はメモリ112に保存される。メモリ
112はRAM、フラッシュメモリ、ディスクメモリ、
または同種の装置であってもよい。メモリ112の形式
に関係なく、ディジタルデータ信号は、各信号部分内の
位置およびイメージ濃度データに応じて、メモリ112
内に保存される。中間メモリ112に入力する代わり
に、ディジタルデータ信号を汎用コンピュータ114へ
直接に入力してもよいことはもちろん理解されるであろ
う。代案として、メモリ112を汎用ディジタルコンピ
ュータ114に組み入れることもできる。いずれにせ
よ、メモリ112はイメージ102を長期間保存するた
め使用されることは理解されるであろう。
【0014】オペレータによるスキャナ110への文書
の入力が終了したら、あるいは装置が別のやり方でテキ
スト部分104を表すディジタルデータ信号をテキスト
データへ変換すべきであると決定すると、イメージ10
2を表すディジタルデータ信号がメモリ112から汎用
ディジタルコンピュータ114へ出力される。汎用ディ
ジタルコンピュータ114の代わりに、専用コンピュー
タまたはハードワイヤード論理回路を使用できることは
もちろん理解されるであろう。
の入力が終了したら、あるいは装置が別のやり方でテキ
スト部分104を表すディジタルデータ信号をテキスト
データへ変換すべきであると決定すると、イメージ10
2を表すディジタルデータ信号がメモリ112から汎用
ディジタルコンピュータ114へ出力される。汎用ディ
ジタルコンピュータ114の代わりに、専用コンピュー
タまたはハードワイヤード論理回路を使用できることは
もちろん理解されるであろう。
【0015】メモリ112に保存されたディジタルデー
タ信号は汎用コンピュータ114へ出力され、そこで入
出力手段24によってイメージメモリ26へ入力され
る。本発明の第1の好ましい実施例においては、テキス
ト部分104の大体のスクリプトタイプがヨーロッパス
クリプトタイプであると想定している。本発明の第2の
好ましい実施例においては、テキスト部分104の大体
のスクリプトタイプがヨーロッパスクリプトタイプであ
ると知られていない場合には、米国特許出願第 PAL-003
号に記載されている大体のスクリプトタイプを決定する
方法および装置を本発明に組み合わせできることはもち
ろん理解されるであろう。
タ信号は汎用コンピュータ114へ出力され、そこで入
出力手段24によってイメージメモリ26へ入力され
る。本発明の第1の好ましい実施例においては、テキス
ト部分104の大体のスクリプトタイプがヨーロッパス
クリプトタイプであると想定している。本発明の第2の
好ましい実施例においては、テキスト部分104の大体
のスクリプトタイプがヨーロッパスクリプトタイプであ
ると知られていない場合には、米国特許出願第 PAL-003
号に記載されている大体のスクリプトタイプを決定する
方法および装置を本発明に組み合わせできることはもち
ろん理解されるであろう。
【0016】ディジタルデータ信号がイメージメモリ2
6に完全に保存されたら、ディジタルデータ信号は関連
構成要素生成手段28にとって使用可能になる。関連構
成要素生成手段28は、イメージ102を表すディジタ
ルデータ信号を複数の関連構成要素へ変換する。従っ
て、各関連構成要素が1つまたはそれ以上の信号部分よ
り成っている。各関連構成要素は、一定の最小イメージ
濃度を有し、連続する通路を作っている原イメージ10
2の画素に対応する信号部分より成っている。各スクリ
プト文字は、一般に、“Fuji”の“F ”のように1つの
関連構成要素、または“Fuji”の“j”または“j”の
ように1つより多い関連構成要素に対応している。
6に完全に保存されたら、ディジタルデータ信号は関連
構成要素生成手段28にとって使用可能になる。関連構
成要素生成手段28は、イメージ102を表すディジタ
ルデータ信号を複数の関連構成要素へ変換する。従っ
て、各関連構成要素が1つまたはそれ以上の信号部分よ
り成っている。各関連構成要素は、一定の最小イメージ
濃度を有し、連続する通路を作っている原イメージ10
2の画素に対応する信号部分より成っている。各スクリ
プト文字は、一般に、“Fuji”の“F ”のように1つの
関連構成要素、または“Fuji”の“j”または“j”の
ように1つより多い関連構成要素に対応している。
【0017】関連構成要素生成手段28によってイメー
ジ102に対応するディジタルデータ信号から複数の関
連構成要素が生成されると、イメージ102に対応する
ディジタルデータ信号と、関連構成要素生成手段28に
よって生成された関連構成要素のリストがイメージメモ
リ26に保存され、かつ空間的特徴決定手段30へ出力
される。
ジ102に対応するディジタルデータ信号から複数の関
連構成要素が生成されると、イメージ102に対応する
ディジタルデータ信号と、関連構成要素生成手段28に
よって生成された関連構成要素のリストがイメージメモ
リ26に保存され、かつ空間的特徴決定手段30へ出力
される。
【0018】空間的特徴決定手段30は、行の位置、ワ
ード間隔、および文字セルなど、テキスト部分の空間的
特徴を決定する。各文字セルは、隣接するスペースの間
の行内に垂直方向に並んだ関連構成要素を有する。たと
えば、“Fuji”の文字“j”や“j”はそれぞれ2つの
独立した関連構成要素でできている。空間的特徴決定手
段30は、ある行の垂直方向に並んだすべての関連構成
要素をまとめて1つの文字セルにする。テキスト部分1
04の関連構成要素のリストからテキスト部分104の
空間的特徴を決定する1つの方法および装置が米国特許
出願第 PAL 92-002 号に開示されている。
ード間隔、および文字セルなど、テキスト部分の空間的
特徴を決定する。各文字セルは、隣接するスペースの間
の行内に垂直方向に並んだ関連構成要素を有する。たと
えば、“Fuji”の文字“j”や“j”はそれぞれ2つの
独立した関連構成要素でできている。空間的特徴決定手
段30は、ある行の垂直方向に並んだすべての関連構成
要素をまとめて1つの文字セルにする。テキスト部分1
04の関連構成要素のリストからテキスト部分104の
空間的特徴を決定する1つの方法および装置が米国特許
出願第 PAL 92-002 号に開示されている。
【0019】次に、関連構成要素のリストと文字セルが
空間的特徴決定手段30によって文字タイプ分類手段3
2へ出力される。文字タイプ分類手段32は、文字セル
内の関連構成要素の数および位置に基づいて、文字セル
内の関連構成要素(1つまたはそれ以上)を複数の抽象
文字コードの1つへ変換する。図5に、抽象文字コード
の好ましいリストと各抽象文字コードに対応する文字を
示す。図5に示すように、好ましい実施例においては、
13の異なる抽象文字コードが使用されている。各抽象
文字コードは、文字セル内の独立した関連構成要素の
数、各文字セルの独立した関連構成要素間の相対的位
置、および文字セル内の関連構成要素の位置に基づい
て、1つまたはそれ以上の文字を表す。
空間的特徴決定手段30によって文字タイプ分類手段3
2へ出力される。文字タイプ分類手段32は、文字セル
内の関連構成要素の数および位置に基づいて、文字セル
内の関連構成要素(1つまたはそれ以上)を複数の抽象
文字コードの1つへ変換する。図5に、抽象文字コード
の好ましいリストと各抽象文字コードに対応する文字を
示す。図5に示すように、好ましい実施例においては、
13の異なる抽象文字コードが使用されている。各抽象
文字コードは、文字セル内の独立した関連構成要素の
数、各文字セルの独立した関連構成要素間の相対的位
置、および文字セル内の関連構成要素の位置に基づい
て、1つまたはそれ以上の文字を表す。
【0020】図8に、上に述べたスクリプト決定装置の
動作の簡単なフローチャートを示す。ステップS100
において、装置は動作を開始し、ステップS110にお
いて、文書を走査し、ディジタルデータ信号を生成す
る。次にステップS120において、ディジタルデータ
信号に必要な前処理アルゴリズムを適用することによ
り、ディジタルデータ信号をクリーンアップする。ステ
ップS130において、データデータ信号の関連構成要
素を識別し、ステップS140において、文字セルを決
定する。ステップS150において、各文字セルの文字
タイプ区分を決定する。ステップS160において、ワ
ード間およびワード内の間隔に基づいて、文字コードを
まとめてトークンを作る。ステップS170において、
トークンを使用してテキスト部分140の個々の言語を
決定する。ステップS180において、最後に文書10
0のイメージ102のテキスト部分104をテキスト文
書に変換するため、1つまたはそれ以上の決定した言
語、文字セルのリスト、関連構成要素のリスト、および
コード化文字のリストをOCR装置へ出力する。
動作の簡単なフローチャートを示す。ステップS100
において、装置は動作を開始し、ステップS110にお
いて、文書を走査し、ディジタルデータ信号を生成す
る。次にステップS120において、ディジタルデータ
信号に必要な前処理アルゴリズムを適用することによ
り、ディジタルデータ信号をクリーンアップする。ステ
ップS130において、データデータ信号の関連構成要
素を識別し、ステップS140において、文字セルを決
定する。ステップS150において、各文字セルの文字
タイプ区分を決定する。ステップS160において、ワ
ード間およびワード内の間隔に基づいて、文字コードを
まとめてトークンを作る。ステップS170において、
トークンを使用してテキスト部分140の個々の言語を
決定する。ステップS180において、最後に文書10
0のイメージ102のテキスト部分104をテキスト文
書に変換するため、1つまたはそれ以上の決定した言
語、文字セルのリスト、関連構成要素のリスト、および
コード化文字のリストをOCR装置へ出力する。
【0021】図6に、図5に示したコーディングを実行
するための判断トリーを示す。図6に示すように、1つ
の関連構成要素をもつ文字セルのための7つの抽象文字
コード、2つの関連構成要素をもつ文字セルのための5
つの抽象文字コード、および3つの関連構成要素をもつ
文字セルのための1つの抽象文字コードがある。
するための判断トリーを示す。図6に示すように、1つ
の関連構成要素をもつ文字セルのための7つの抽象文字
コード、2つの関連構成要素をもつ文字セルのための5
つの抽象文字コード、および3つの関連構成要素をもつ
文字セルのための1つの抽象文字コードがある。
【0022】本発明の好ましい実施例は、図6に示した
判断トリーを実行する。ステップS300において、文
字タイプ分類手段32は最初に、現在文字セル内の関連
構成要素の数を決定する。本発明の好ましい実施例にお
いては、分類手段32は1セルづつテキスト部分104
の各文字セルに作用する。
判断トリーを実行する。ステップS300において、文
字タイプ分類手段32は最初に、現在文字セル内の関連
構成要素の数を決定する。本発明の好ましい実施例にお
いては、分類手段32は1セルづつテキスト部分104
の各文字セルに作用する。
【0023】分類手段32がステップS300におい
て、文字セルが1つの関連構成要素のみを持っていると
決定すれば、分類手段32は、ステップS310におい
て、関連構成要素のトップ位置が現在行のx−ライン位
置より上にあり、かつボトム位置がベースラインのより
上にあるかどうかを決定する。位置が下に正で、右に正
であるように、行の位置と関連構成要素の位置が、一番
上の位置またはその近くにあり、かつ一番左の位置また
はその近くにある基準位置から測定されることは理解さ
れるであろう。
て、文字セルが1つの関連構成要素のみを持っていると
決定すれば、分類手段32は、ステップS310におい
て、関連構成要素のトップ位置が現在行のx−ライン位
置より上にあり、かつボトム位置がベースラインのより
上にあるかどうかを決定する。位置が下に正で、右に正
であるように、行の位置と関連構成要素の位置が、一番
上の位置またはその近くにあり、かつ一番左の位置また
はその近くにある基準位置から測定されることは理解さ
れるであろう。
【0024】本発明は、統計に基づいているので、非常
に頑強であり、かなり不完全に印刷された、または走査
された、またはその両方の文書にも耐えることができ
る。すなわち、ディジタルデータ信号またはディジタル
データ信号から生成した関連構成要素は、文書のあらゆ
る文字を完璧に表現する必要がない。それどころか、本
発明は、1つの関連構成要素文字を2つまたはそれ以上
の関連構成要素に分割したり、2つまたはそれ以上の個
別の関連構成要素を1つの関連構成要素に併合したり、
あるいは行上の関連構成要素を置き違えるなど、普通の
走査エラーにも耐えることができる。
に頑強であり、かなり不完全に印刷された、または走査
された、またはその両方の文書にも耐えることができ
る。すなわち、ディジタルデータ信号またはディジタル
データ信号から生成した関連構成要素は、文書のあらゆ
る文字を完璧に表現する必要がない。それどころか、本
発明は、1つの関連構成要素文字を2つまたはそれ以上
の関連構成要素に分割したり、2つまたはそれ以上の個
別の関連構成要素を1つの関連構成要素に併合したり、
あるいは行上の関連構成要素を置き違えるなど、普通の
走査エラーにも耐えることができる。
【0025】ステップS310が肯定的であれば、分類
手段32は、ステップS320において文字セルを省略
符号“ ’ ”へ変換する。しかし、ステップS310
が否定的であれば、分類手段32はステップS330へ
進む。ステップS330において、分類手段32は、関
連構成要素のトップ位置がx−ライン位置より上にあ
り、かつ文字のボトムがベースライン位置またはその下
にあるかどうかを決定する。もしステップS330が肯
定的であれば、分類手段32は、ステップS340Iお
いて文字セルを“A”へ変換する。“A”は、図5に示
すように、すべての大文字、すべての数字、アセンダー
をもつ小文字、および垂直方向に向いたすべての句読点
を表す。
手段32は、ステップS320において文字セルを省略
符号“ ’ ”へ変換する。しかし、ステップS310
が否定的であれば、分類手段32はステップS330へ
進む。ステップS330において、分類手段32は、関
連構成要素のトップ位置がx−ライン位置より上にあ
り、かつ文字のボトムがベースライン位置またはその下
にあるかどうかを決定する。もしステップS330が肯
定的であれば、分類手段32は、ステップS340Iお
いて文字セルを“A”へ変換する。“A”は、図5に示
すように、すべての大文字、すべての数字、アセンダー
をもつ小文字、および垂直方向に向いたすべての句読点
を表す。
【0026】ステップS330が否定的であれば、分類
手段32はステップS350へ進む。ステップS350
において、分類手段32は、関連構成要素のトップがx
−ライン位置より下にあり、かつ関連構成要素のボトム
がベースラインより上にあるかどうかを決定する。ステ
ップS350が肯定的であれば、分類手段32は、ステ
ップS360において文字セルを“−”へ変換する。
手段32はステップS350へ進む。ステップS350
において、分類手段32は、関連構成要素のトップがx
−ライン位置より下にあり、かつ関連構成要素のボトム
がベースラインより上にあるかどうかを決定する。ステ
ップS350が肯定的であれば、分類手段32は、ステ
ップS360において文字セルを“−”へ変換する。
【0027】ステップS350が否定的であれば、分類
手段32はステップS370へ進む。ステップS370
において、分類手段32は、関連構成要素のトップ位置
がx−ライン位置より下にあり、かつ関連構成要素のボ
トム位置がベースラインより下にあるかどうかを決定す
る。ステップS370が肯定的であれば、分類手段32
は、ステップS380において文字セルを“,”へ変換
する。ステップS370が否定的であれば、分類手段3
2はステップS390へ進む。ステップS390におい
て、分類手段32は、関連構成要素のトップ位置がx−
ライン位置より下にあるかどうかを決定する。ステップ
S390が肯定的であれば、分類手段32は、ステップ
S400において文字セルを“.”へ変換する。
手段32はステップS370へ進む。ステップS370
において、分類手段32は、関連構成要素のトップ位置
がx−ライン位置より下にあり、かつ関連構成要素のボ
トム位置がベースラインより下にあるかどうかを決定す
る。ステップS370が肯定的であれば、分類手段32
は、ステップS380において文字セルを“,”へ変換
する。ステップS370が否定的であれば、分類手段3
2はステップS390へ進む。ステップS390におい
て、分類手段32は、関連構成要素のトップ位置がx−
ライン位置より下にあるかどうかを決定する。ステップ
S390が肯定的であれば、分類手段32は、ステップ
S400において文字セルを“.”へ変換する。
【0028】ステップS390が否定的であれば、分類
手段32はステップS410へ進む。ステップS410
において、分類手段32は、関連構成要素のボトム位置
がベースラインより下にあるかどうかを決定する。ステ
ップS410が肯定的であれば、分類手段32は、ステ
ップS420において文字セルを“g”へ変換する。
“g”符号は、図5に示すように、デセンダーをもつす
べての小文字を表す。
手段32はステップS410へ進む。ステップS410
において、分類手段32は、関連構成要素のボトム位置
がベースラインより下にあるかどうかを決定する。ステ
ップS410が肯定的であれば、分類手段32は、ステ
ップS420において文字セルを“g”へ変換する。
“g”符号は、図5に示すように、デセンダーをもつす
べての小文字を表す。
【0029】ステップS410が否定的であれば、分類
手段32はステップS430へ進む。ステップS430
において、分類手段32は、関連構成要素がアセンダー
またはデセンダーのいずれも持たない小文字であると想
定して、関連構成要素を“x”へ変換する。次に、ステ
ップS430の後、またはステップS320,S34
0,S360,S380,S400,およびS420の
後、分類手段32は次の文字セルを現在文字セルとして
選択し、ステップS300へ戻る。
手段32はステップS430へ進む。ステップS430
において、分類手段32は、関連構成要素がアセンダー
またはデセンダーのいずれも持たない小文字であると想
定して、関連構成要素を“x”へ変換する。次に、ステ
ップS430の後、またはステップS320,S34
0,S360,S380,S400,およびS420の
後、分類手段32は次の文字セルを現在文字セルとして
選択し、ステップS300へ戻る。
【0030】しかし、ステップS300において、分類
手段32が、現在文字セルの中に2つの関連構成要素が
存在していると決定すれば、分類手段32はステップS
440へ進む。ステップS440において、分類手段3
2は、上の関連構成要素の高さが上の関連構成要素の幅
の3倍以上であるかどうかを決定する。関連構成要素の
高さは単にそのトップ位置とボトム位置との差であり、
関連構成要素の幅はその一番右の位置と一番左の位置と
の差である。ステップS440が肯定的であれば、分類
手段32はステップS450へ進む。ステップS450
において、分類手段32は文字セルを“!”へ変換す
る。
手段32が、現在文字セルの中に2つの関連構成要素が
存在していると決定すれば、分類手段32はステップS
440へ進む。ステップS440において、分類手段3
2は、上の関連構成要素の高さが上の関連構成要素の幅
の3倍以上であるかどうかを決定する。関連構成要素の
高さは単にそのトップ位置とボトム位置との差であり、
関連構成要素の幅はその一番右の位置と一番左の位置と
の差である。ステップS440が肯定的であれば、分類
手段32はステップS450へ進む。ステップS450
において、分類手段32は文字セルを“!”へ変換す
る。
【0031】ステップS440が否定的であれば、分類
手段32はステップS460へ進む。ステップS460
において、分類手段32は、上の関連構成要素がx−ラ
イン位置より上にあり、かつ下の関連構成要素のボトム
位置がベースライン位置より下にあるかどうかを決定す
る。ステップS460が肯定的であれば、分類手段32
は、ステップS470において文字セルを“j”へ変換
する。“j”は、x−ライン位置より上に延びている独
立した関連構成要素と、ベースライン位置より下に延び
ている独立した関連構成要素を持つすべての小文字を表
す。
手段32はステップS460へ進む。ステップS460
において、分類手段32は、上の関連構成要素がx−ラ
イン位置より上にあり、かつ下の関連構成要素のボトム
位置がベースライン位置より下にあるかどうかを決定す
る。ステップS460が肯定的であれば、分類手段32
は、ステップS470において文字セルを“j”へ変換
する。“j”は、x−ライン位置より上に延びている独
立した関連構成要素と、ベースライン位置より下に延び
ている独立した関連構成要素を持つすべての小文字を表
す。
【0032】ステップS460が否定的であれば、分類
手段32はステップS480へ進む。ステップS480
において、分類手段32は、上の関連構成要素のトップ
部分がx−ライン位置より上にあり、かつボトム部分が
ベースライン位置より下にないかどうかを決定する。ス
テップS480が肯定的であれば、分類手段32は、ス
テップS490において文字セルを“i”へ変換する。
“i”は、図5に示すように、x−ライン位置より上に
延びている独立した関連構成要素と、ベースライン位置
より下に延びていない独立した関連構成要素を持つすべ
ての小文字を表す。
手段32はステップS480へ進む。ステップS480
において、分類手段32は、上の関連構成要素のトップ
部分がx−ライン位置より上にあり、かつボトム部分が
ベースライン位置より下にないかどうかを決定する。ス
テップS480が肯定的であれば、分類手段32は、ス
テップS490において文字セルを“i”へ変換する。
“i”は、図5に示すように、x−ライン位置より上に
延びている独立した関連構成要素と、ベースライン位置
より下に延びていない独立した関連構成要素を持つすべ
ての小文字を表す。
【0033】ステップS480が否定的であれば、分類
手段32はステップS500へ進む。ステップS500
において、分類手段32は、上および下の関連構成要素
が共に、幅が高さの3倍以上あるかどうかを決定する。
ステップS500が肯定的であれば、分類手段32は、
ステップS510において文字セルを“=”へ変換す
る。ステップS500が否定的であれば、分類手段32
は、文字セルが“:”へ変換されるべきであると想定
し、ステップS520において、文字セルをそのように
変換する。ステップS520の後、およびステップS4
50,S470,S490,S510の後、分類手段3
2は次の文字セルを現在文字セルとして選択し、ステッ
プ300へ進む。
手段32はステップS500へ進む。ステップS500
において、分類手段32は、上および下の関連構成要素
が共に、幅が高さの3倍以上あるかどうかを決定する。
ステップS500が肯定的であれば、分類手段32は、
ステップS510において文字セルを“=”へ変換す
る。ステップS500が否定的であれば、分類手段32
は、文字セルが“:”へ変換されるべきであると想定
し、ステップS520において、文字セルをそのように
変換する。ステップS520の後、およびステップS4
50,S470,S490,S510の後、分類手段3
2は次の文字セルを現在文字セルとして選択し、ステッ
プ300へ進む。
【0034】しかし、分類手段32が、ステップ300
において、文字セル内に3つの関連構成要素が存在して
いると決定すれば、分類手段32はステップS530へ
進む。ステップS530において、分類手段32は、文
字セルがウムラウト符号をもつ大文字または小文字を表
していると想定し、従って、図5に示すように、文字セ
ルを“U”へ変換する。次に、分類手段32は次の文字
セルを現在文字セルとして選択し、ステップS300へ
進む。しかし、次の文字セルが存在しなければ、分類手
段32はテキスト部分104の分類を停止し、文字セル
の代わりに、抽象文字コードのリストをイメージメモリ
26へ出力する。
において、文字セル内に3つの関連構成要素が存在して
いると決定すれば、分類手段32はステップS530へ
進む。ステップS530において、分類手段32は、文
字セルがウムラウト符号をもつ大文字または小文字を表
していると想定し、従って、図5に示すように、文字セ
ルを“U”へ変換する。次に、分類手段32は次の文字
セルを現在文字セルとして選択し、ステップS300へ
進む。しかし、次の文字セルが存在しなければ、分類手
段32はテキスト部分104の分類を停止し、文字セル
の代わりに、抽象文字コードのリストをイメージメモリ
26へ出力する。
【0035】1つまたはそれ以上のコード化文字のワー
ドトークンのリストは、ヨーロッパ言語決定手段34へ
提供され、言語決定手段34はそのワードトークンのリ
ストを入力し、テキスト部分104の個々のヨーロッパ
言語を決定する。このようなヨーロッパ言語決定手段が
米国特許出願第 PAL 92-001 号に開示されている。
ドトークンのリストは、ヨーロッパ言語決定手段34へ
提供され、言語決定手段34はそのワードトークンのリ
ストを入力し、テキスト部分104の個々のヨーロッパ
言語を決定する。このようなヨーロッパ言語決定手段が
米国特許出願第 PAL 92-001 号に開示されている。
【図1】光学式文字認識装置のブロック図である。
【図2】原文書を示す図である。
【図3】ヨーロッパスクリプトタイプのテキスト部分を
含む原文書の走査版である。
含む原文書の走査版である。
【図4】図2に示した文書の1つまたはそれ以上の関連
構成要素の各組に対する文字セルを示す図である。
構成要素の各組に対する文字セルを示す図である。
【図5】文字タイプ区分のコード文字と実際の対応する
スクリプト文字を示す図である。
スクリプト文字を示す図である。
【図6】文字タイプ区分の判断トリーを示す図である。
【図7】図5の文字タイプ区分へ変換された図2のテキ
スト部分を示す図である。
スト部分を示す図である。
【図8】本発明の装置の動作を示すフローチャートであ
る。
る。
22 メモリ 24 入出力手段 26 イメージメモリ 28 関連構成要素生成手段 30 空間的特徴決定手段 32 文字タイプ分類手段 34 言語決定手段 100 文書 102 イメージ 104 テキスト部分 110 スキャナ 112 メモリ 114 汎用ディジタルコンピュータ 320 関連構成要素計数手段 322 トップ位置探索手段 324 ボトム位置探索手段 326 関連構成要素サイズ決定手段 328 行位置記憶手段 330 比較手段
Claims (1)
- 【請求項1】 文書のイメージのテキスト部分から複数
の抽象コード化文字を生成する自動文字分類装置であっ
て、 各信号部分が複数の画素の1つに対応している、複数の
信号部分から成るテキスト部分を表すディジタルデータ
信号を入力する入力手段、 複数の信号部分から複数の関連構成要素を生成する関連
構成要素生成手段、 テキスト部分の空間的特徴を決定し、複数の信号部分か
ら各文字セルが少なくとも1つの関連構成要素を含んで
いる複数の文字セルを生成する空間的特徴決定手段、お
よび複数の文字セルのそれぞれを複数の抽象コード化文
字の1つへ変換する分類手段、から成ることを特徴とす
る装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/047540 | 1993-04-19 | ||
| US08/047,540 US5375176A (en) | 1993-04-19 | 1993-04-19 | Method and apparatus for automatic character type classification of European script documents |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH076206A true JPH076206A (ja) | 1995-01-10 |
Family
ID=21949562
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6070296A Pending JPH076206A (ja) | 1993-04-19 | 1994-04-08 | 自動文字分類装置 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US5375176A (ja) |
| EP (1) | EP0621555A3 (ja) |
| JP (1) | JPH076206A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005063419A (ja) * | 2003-07-31 | 2005-03-10 | Ricoh Co Ltd | 言語識別装置、プログラム及び記録媒体 |
| JP2011233160A (ja) * | 2007-07-10 | 2011-11-17 | Sharp Corp | 画像データの特徴を特定する方法 |
Families Citing this family (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3647518B2 (ja) * | 1994-10-06 | 2005-05-11 | ゼロックス コーポレイション | コード化したワードトークンを使用して文書画像をハイライトで強調する装置 |
| JP2973944B2 (ja) * | 1996-06-26 | 1999-11-08 | 富士ゼロックス株式会社 | 文書処理装置および文書処理方法 |
| US5909510A (en) * | 1997-05-19 | 1999-06-01 | Xerox Corporation | Method and apparatus for document classification from degraded images |
| US6005986A (en) * | 1997-12-03 | 1999-12-21 | The United States Of America As Represented By The National Security Agency | Method of identifying the script of a document irrespective of orientation |
| US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
| US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
| US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
| US6252988B1 (en) * | 1998-07-09 | 2001-06-26 | Lucent Technologies Inc. | Method and apparatus for character recognition using stop words |
| US6363381B1 (en) * | 1998-11-03 | 2002-03-26 | Ricoh Co., Ltd. | Compressed document matching |
| US7230745B1 (en) | 2002-04-08 | 2007-06-12 | Captaris, Inc. | Document transmission and routing with recipient control, such as facsimile document transmission and routing |
| US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
| US8395795B2 (en) | 2007-09-09 | 2013-03-12 | Xpedite Systems, Llc | Systems and methods for communicating documents |
| US7804823B2 (en) * | 2007-09-09 | 2010-09-28 | Xpedite Systems, Llc | Systems and methods for communicating documents via an autonomous multiple-function peripheral device |
| US10003701B2 (en) | 2008-01-30 | 2018-06-19 | Xpedite Systems, Llc | Systems and methods for generating and communicating enhanced portable document format files |
| TW201001303A (en) * | 2008-06-27 | 2010-01-01 | Univ Nat Taiwan Science Tech | System and method for recognizing document immediately |
| US8160365B2 (en) * | 2008-06-30 | 2012-04-17 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
| US9007604B2 (en) | 2010-06-30 | 2015-04-14 | Xpedite Systems, Llc | System, method, and apparatus for an interactive virtual fax machine |
| US8719083B2 (en) | 2010-12-06 | 2014-05-06 | Xpedite Systems, Inc. | On net faxing |
| KR101210201B1 (ko) * | 2011-10-04 | 2012-12-07 | 주식회사 소머스 | 소셜 네트워크 서비스를 이용한 인터랙티브 다국어 광고 시스템 및 그 구동 방법 |
| US9734132B1 (en) * | 2011-12-20 | 2017-08-15 | Amazon Technologies, Inc. | Alignment and reflow of displayed character images |
| CN113468958B (zh) * | 2021-05-26 | 2022-11-18 | 河南格通智能科技有限公司 | 一种接触网支柱号牌识别方法 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5837779A (ja) * | 1981-08-31 | 1983-03-05 | Ricoh Co Ltd | 文書処理装置 |
| US4907283A (en) * | 1987-03-13 | 1990-03-06 | Canon Kabushiki Kaisha | Image processing apparatus |
| JP2667435B2 (ja) * | 1987-05-01 | 1997-10-27 | 株式会社リコー | 領域抽出方法 |
| US5131053A (en) * | 1988-08-10 | 1992-07-14 | Caere Corporation | Optical character recognition method and apparatus |
-
1993
- 1993-04-19 US US08/047,540 patent/US5375176A/en not_active Expired - Lifetime
-
1994
- 1994-04-08 JP JP6070296A patent/JPH076206A/ja active Pending
- 1994-04-18 EP EP94302735A patent/EP0621555A3/en not_active Withdrawn
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005063419A (ja) * | 2003-07-31 | 2005-03-10 | Ricoh Co Ltd | 言語識別装置、プログラム及び記録媒体 |
| JP2011233160A (ja) * | 2007-07-10 | 2011-11-17 | Sharp Corp | 画像データの特徴を特定する方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0621555A2 (en) | 1994-10-26 |
| EP0621555A3 (en) | 1995-05-17 |
| US5375176A (en) | 1994-12-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH076206A (ja) | 自動文字分類装置 | |
| US5438628A (en) | Method for matching text images and documents using character shape codes | |
| US4926492A (en) | Optical character reading apparatus and method | |
| US5377280A (en) | Method and apparatus for automatic language determination of European script documents | |
| EP0621541B1 (en) | Method and apparatus for automatic language determination | |
| JP4181310B2 (ja) | 数式認識装置および数式認識方法 | |
| EP0621552B1 (en) | Method and apparatus for automatic character script determination | |
| US6466694B2 (en) | Document image processing device and method thereof | |
| US7039235B1 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
| JP4553241B2 (ja) | 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 | |
| US7321688B2 (en) | Image processor for character recognition | |
| US8041113B2 (en) | Image processing device, image processing method, and computer program product | |
| US9014479B2 (en) | Method and system for text-image orientation | |
| US8483499B2 (en) | Image processing apparatus, image processing method, computer-readable medium and computer data signal | |
| EP0582490A2 (en) | Converting bitmap data into page definition language commands | |
| JPH0713995A (ja) | 自動テキスト特徴決定装置 | |
| JPH08166970A (ja) | コード化したワードトークンを使用して文書画像をハイライトで強調する方法 | |
| US8306325B2 (en) | Text character identification system and method thereof | |
| JPH04225485A (ja) | バーコードを認識する方法 | |
| JPH05500129A (ja) | 光学式文字認識のための行ごとのセグメント化及びしきい値設定 | |
| US8600175B2 (en) | Apparatus and method of processing image including character string | |
| KR100315428B1 (ko) | 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법 | |
| JPH08237404A (ja) | 光学文字認識モードの選択方法 | |
| JPH03268181A (ja) | 文書読み取り装置 | |
| JPH07271829A (ja) | 文字形状コードを用いたテキスト画像と原稿とのマッチング方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20020826 |