JPH07200732A - ワードオブジェクト抽出方法及びラスタ化イメージ内のノイズ除去方法 - Google Patents
ワードオブジェクト抽出方法及びラスタ化イメージ内のノイズ除去方法Info
- Publication number
- JPH07200732A JPH07200732A JP6333099A JP33309994A JPH07200732A JP H07200732 A JPH07200732 A JP H07200732A JP 6333099 A JP6333099 A JP 6333099A JP 33309994 A JP33309994 A JP 33309994A JP H07200732 A JPH07200732 A JP H07200732A
- Authority
- JP
- Japan
- Prior art keywords
- image
- word
- text
- words
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 イメージデータの配列内に現れたテキストあ
るいはキャラクターストリングの境界をその形状から決
める際に、ストリングを構成する1つあるいは複数のキ
ャラクターを個々に検出あるいは識別しなくても良い方
法を提供する。 【構成】 テキスト行の境界を先ず決めるためにワード
内の結合した要素を検出し、結合した要素をテキスト行
に分離する。さらに、行内の要素の間の関係から連結し
た要素の隣接するセットをさらに結合し、テキスト行内
にワードあるいは意味の解釈できるユニットを形成す
る。
るいはキャラクターストリングの境界をその形状から決
める際に、ストリングを構成する1つあるいは複数のキ
ャラクターを個々に検出あるいは識別しなくても良い方
法を提供する。 【構成】 テキスト行の境界を先ず決めるためにワード
内の結合した要素を検出し、結合した要素をテキスト行
に分離する。さらに、行内の要素の間の関係から連結し
た要素の隣接するセットをさらに結合し、テキスト行内
にワードあるいは意味の解釈できるユニットを形成す
る。
Description
【0001】
【産業上の利用分野】本発明は、イメージデータの配列
内に現れたテキストあるいはキャラクター(文字)スト
リングの境界をその形状から決める方法であって、この
ストリングを構成する1つあるいは複数のキャラクター
を個々に検出及び/又は識別しなくても良い方法に関す
るものである。
内に現れたテキストあるいはキャラクター(文字)スト
リングの境界をその形状から決める方法であって、この
ストリングを構成する1つあるいは複数のキャラクター
を個々に検出及び/又は識別しなくても良い方法に関す
るものである。
【0002】
【従来の技術】電子的にエンコードされた文書(電子文
書)内のテキストは、2つの互いに異なったフォーマッ
トのいずれかであることが多い。第1のフォーマットで
は、テキストがビットマップになっており、この場合、
テキストはイメージデータあるいは画素の配列としての
み定義され、これと同様に表現された隣接したイメージ
と基本的に区別できない。このフォーマットは、テキス
トは文章の内容だけをベースとしたコンピュータの処理
対象には殆どならない。第2のフォーマットは、以下に
おいてキャラクターコードフォーマットと呼ぶが、この
テキストはキャラクターコード(例えばアスキーコー
ド)のストリング(列)として表現される。このキャラ
クターコードフォーマットにおいては、テキストのイメ
ージあるいはビットマップは不要である。
書)内のテキストは、2つの互いに異なったフォーマッ
トのいずれかであることが多い。第1のフォーマットで
は、テキストがビットマップになっており、この場合、
テキストはイメージデータあるいは画素の配列としての
み定義され、これと同様に表現された隣接したイメージ
と基本的に区別できない。このフォーマットは、テキス
トは文章の内容だけをベースとしたコンピュータの処理
対象には殆どならない。第2のフォーマットは、以下に
おいてキャラクターコードフォーマットと呼ぶが、この
テキストはキャラクターコード(例えばアスキーコー
ド)のストリング(列)として表現される。このキャラ
クターコードフォーマットにおいては、テキストのイメ
ージあるいはビットマップは不要である。
【0003】光学式文字認識プロセス(OCR)による
ビットマップからキャラクターコードへの変換は、時間
と処理に係る手間を考えると非常に高価である。個々の
キャラクターのビットマップを、それに隣接するものか
ら区別し、その外観を解析し、さらに、意思決定プロセ
スによって予めセットされたキャラクター群の中のある
キャラクターとして識別しなければならない。ミヤタケ
らに付与された米国特許第4,956,869号にはカ
ンタワーライン(等高線、濃度の等しい線)をトレース
するさらに効率的な方法が示唆されている。
ビットマップからキャラクターコードへの変換は、時間
と処理に係る手間を考えると非常に高価である。個々の
キャラクターのビットマップを、それに隣接するものか
ら区別し、その外観を解析し、さらに、意思決定プロセ
スによって予めセットされたキャラクター群の中のある
キャラクターとして識別しなければならない。ミヤタケ
らに付与された米国特許第4,956,869号にはカ
ンタワーライン(等高線、濃度の等しい線)をトレース
するさらに効率的な方法が示唆されている。
【0004】
【発明が解決しようとする課題】しかしながら、あるオ
リジナル(原稿)をスキャンして電子文書を抽出すると
きに、その複製物のイメージ品質やノイズによって、ビ
ットマップの実際の外観が不確定はものになる。ビット
マップの外観が劣化するのは、品質の悪いオリジナル文
章、スキャニングのエラー、あるいはイメージのデジタ
ル再生に影響を与える同種のファクターが原因である。
従って、キャラクターを識別するための決定プロセスに
は、それに関する固有の不確実さが存在する。これに関
し特に問題となることは、テキスト内のキャラクターが
不鮮明となったり、あるいは結合し易いことである。大
抵のキャラクター識別プロセスでは、あるキャラクター
が連結した画素の1つの独立したセットであることを仮
定することから始める。入力されたイメージの品質が原
因でこの仮定が成り立たないと、キャラクターの識別も
失敗することになる。キャラクターの検出を改善するた
めに幾つかの試みがなされている。マノンに付与された
米国特許第4,926,490、シェランジに付与され
た米国特許第4,558,461、グレイ等に付与され
た米国特許第3,295,105がある。
リジナル(原稿)をスキャンして電子文書を抽出すると
きに、その複製物のイメージ品質やノイズによって、ビ
ットマップの実際の外観が不確定はものになる。ビット
マップの外観が劣化するのは、品質の悪いオリジナル文
章、スキャニングのエラー、あるいはイメージのデジタ
ル再生に影響を与える同種のファクターが原因である。
従って、キャラクターを識別するための決定プロセスに
は、それに関する固有の不確実さが存在する。これに関
し特に問題となることは、テキスト内のキャラクターが
不鮮明となったり、あるいは結合し易いことである。大
抵のキャラクター識別プロセスでは、あるキャラクター
が連結した画素の1つの独立したセットであることを仮
定することから始める。入力されたイメージの品質が原
因でこの仮定が成り立たないと、キャラクターの識別も
失敗することになる。キャラクターの検出を改善するた
めに幾つかの試みがなされている。マノンに付与された
米国特許第4,926,490、シェランジに付与され
た米国特許第4,558,461、グレイ等に付与され
た米国特許第3,295,105がある。
【0005】OCR法は様々なやり方でイメージを分割
するようにしている。例えば、シェランジに付与された
米国特許第4,558,461およびペッパーズらに付
与された米国特許第4,809,344がある。
するようにしている。例えば、シェランジに付与された
米国特許第4,558,461およびペッパーズらに付
与された米国特許第4,809,344がある。
【0006】OCR法では辞書の単語と照合することに
よって信頼性を向上している。例えば、ヒシノに付与さ
れた米国特許第4,010,445に開示されている。
富士通科学技術ジャーナル26,3、ページ224〜2
33(1990年10月)の「F6365日本語文書リ
ーダー」は、ブロック抽出、スキュー調整、ブロック分
割、隣接するキャラクターの区分、ライン抽出、および
辞書によるチェックおよび比較を行いパターンマッチン
グによってキャラクター認識をする各ステップを示して
いる。
よって信頼性を向上している。例えば、ヒシノに付与さ
れた米国特許第4,010,445に開示されている。
富士通科学技術ジャーナル26,3、ページ224〜2
33(1990年10月)の「F6365日本語文書リ
ーダー」は、ブロック抽出、スキュー調整、ブロック分
割、隣接するキャラクターの区分、ライン抽出、および
辞書によるチェックおよび比較を行いパターンマッチン
グによってキャラクター認識をする各ステップを示して
いる。
【0007】単語やキャラクターのストリングを形成す
る複数のキャラクターのセットを識別するには、例えば
米国特許第2,905,927にあるような読みかたを
することが望ましいであろう。
る複数のキャラクターのセットを識別するには、例えば
米国特許第2,905,927にあるような読みかたを
することが望ましいであろう。
【0008】認識するための基本的なユニットとしてワ
ード全体を用いることは、サインを認識する際に考えら
れており、フリシュコプに付与された米国特許第3,1
33,266に示唆されている。しかし、分割されたキ
ャラクターを保持するという考えはない。
ード全体を用いることは、サインを認識する際に考えら
れており、フリシュコプに付与された米国特許第3,1
33,266に示唆されている。しかし、分割されたキ
ャラクターを保持するという考えはない。
【0009】
【課題を解決するための手段】本発明によれば、あるイ
メージを規定するラスタライズ(ラスタ化)されたデー
タの中から少なくとも1つのワードオブジェクト(ワー
ドとみられる対象)を抽出する方法を提供できる。この
方法は以下のステップを備えている。まず、(a)その
イメージの中から結合した要素を見つけ、(b)そのイ
メージ内の連結した要素のグループ毎に境界を識別し、
(c)上記のステップ(b)で識別された境界を用いて
テキスト行を探し出し、さらに、(d)上記のステップ
(c)で探し出したテキスト行内の連結した要素のグル
ープの隣接したものを、それらの隣接したグループの境
界の間の関係を基に結合し、イメージをワードオブジェ
クトに分割する。
メージを規定するラスタライズ(ラスタ化)されたデー
タの中から少なくとも1つのワードオブジェクト(ワー
ドとみられる対象)を抽出する方法を提供できる。この
方法は以下のステップを備えている。まず、(a)その
イメージの中から結合した要素を見つけ、(b)そのイ
メージ内の連結した要素のグループ毎に境界を識別し、
(c)上記のステップ(b)で識別された境界を用いて
テキスト行を探し出し、さらに、(d)上記のステップ
(c)で探し出したテキスト行内の連結した要素のグル
ープの隣接したものを、それらの隣接したグループの境
界の間の関係を基に結合し、イメージをワードオブジェ
クトに分割する。
【0010】本発明によると、さらに、文字による情報
を主に含んだあるイメージ情報を規定するラスタライズ
されたデータの中のノイズを除去する方法を提供でき
る。この方法は以下のステップを備えている。まず、
(a)そのイメージの中から結合した要素を見つけ、
(b)そのイメージ内の連結した要素のグループ毎に境
界を識別し、(c)上記のステップ(b)で識別された
境界を用いてテキスト行を探し出し、(d)上記のステ
ップ(c)で探し出したテキスト行内の連結した要素の
グループの隣接したものを、それらの隣接したグループ
の境界の間の関係を基に結合して、ワードオブジェクト
の境界を画定し、さらに、(e)ワードオブジェクトの
境界内に入らなかった連結した要素のグループの全てを
ノイズとすることによって、これらをイメージから除去
可能とする。
を主に含んだあるイメージ情報を規定するラスタライズ
されたデータの中のノイズを除去する方法を提供でき
る。この方法は以下のステップを備えている。まず、
(a)そのイメージの中から結合した要素を見つけ、
(b)そのイメージ内の連結した要素のグループ毎に境
界を識別し、(c)上記のステップ(b)で識別された
境界を用いてテキスト行を探し出し、(d)上記のステ
ップ(c)で探し出したテキスト行内の連結した要素の
グループの隣接したものを、それらの隣接したグループ
の境界の間の関係を基に結合して、ワードオブジェクト
の境界を画定し、さらに、(e)ワードオブジェクトの
境界内に入らなかった連結した要素のグループの全てを
ノイズとすることによって、これらをイメージから除去
可能とする。
【0011】本発明はOCR技術を用いた分割方法に固
有の問題を防止することであり、そのためにワード(単
語)およびテキストストリングの基本的な特性を活用し
ている。特に、イメージを誘導したり、あるいは、その
イメージの作るプロセスに固有のシグナル対ノイズ比は
1つのキャラクターに対しては相対的に低いが、大きな
キャラクターストリングと対比するとそれは相対的に大
きくなる。さらに、ワード(語)とワードの間のスペー
スは、文字と文字との間のスペースより大きい傾向があ
り、従って、キャラクターストリングの分離および識別
を、個々のキャラクターの識別と比較できるほどまで改
善できる。OCR法は、しかしながら、正しい識別を行
う前段階としてキャラクターの形態について幾つかの正
しい判断が要求され、その中には、アセンダー、デセン
ダー、カーブなどといったキャラクター(文字)の部分
的な識別も含まれ、これらは全て間違い易いものであ
る。本発明は、さらに、信頼性の高いワードの識別およ
び認識を可能とするものである。本発明に基づいて複数
のワードの境界を識別するには、最初にそのイメージ内
のテキストあるいはシンボルラインの特性を決定する必
要がある。続いて、その境界内の区分されたワードが、
相互に、あるいは公知のワードと対比される。従って、
対比を行うまでワードに関するは前提はなく、これによ
って後続の処理における比較の間違いや、間違った決定
の原因となる無効なキャラクターを基礎とした前提によ
る影響を除くことができる。
有の問題を防止することであり、そのためにワード(単
語)およびテキストストリングの基本的な特性を活用し
ている。特に、イメージを誘導したり、あるいは、その
イメージの作るプロセスに固有のシグナル対ノイズ比は
1つのキャラクターに対しては相対的に低いが、大きな
キャラクターストリングと対比するとそれは相対的に大
きくなる。さらに、ワード(語)とワードの間のスペー
スは、文字と文字との間のスペースより大きい傾向があ
り、従って、キャラクターストリングの分離および識別
を、個々のキャラクターの識別と比較できるほどまで改
善できる。OCR法は、しかしながら、正しい識別を行
う前段階としてキャラクターの形態について幾つかの正
しい判断が要求され、その中には、アセンダー、デセン
ダー、カーブなどといったキャラクター(文字)の部分
的な識別も含まれ、これらは全て間違い易いものであ
る。本発明は、さらに、信頼性の高いワードの識別およ
び認識を可能とするものである。本発明に基づいて複数
のワードの境界を識別するには、最初にそのイメージ内
のテキストあるいはシンボルラインの特性を決定する必
要がある。続いて、その境界内の区分されたワードが、
相互に、あるいは公知のワードと対比される。従って、
対比を行うまでワードに関するは前提はなく、これによ
って後続の処理における比較の間違いや、間違った決定
の原因となる無効なキャラクターを基礎とした前提によ
る影響を除くことができる。
【0012】コンピュータ処理されたテキストの潜在的
な用法を思案すると、少なくともあるケースにおいて
は、ワードのそれぞれの文字を導くことが処理上の要求
として課せられないことが決定された。従って、例え
ば、あるテキストイメージのキーワードサーチをする
際、OCR技術を介してそれぞれのワードのそれぞれの
文字をコンバート(変換)するのではなく、1つあるい
はそれ以上のキーワードがあるか否かを、欠陥があるか
もしれないキャラクターコードから連続して決定する際
に、コンピューターは、何かを生成するのではなく、そ
のキーワードを表す形状とテキストイメージ内の複数の
ワードの形状とを比較し、その形状からキーワードが存
在するか評価する。このようなシステムで出力すると、
ユーザーが容認できる程度の精度でキーワードの存在を
示す何らかの表示を表せるものである。さらに、ここで
説明する新しい方法はキャラクターを認識するために設
計された幾つかの方法より処理スピードが早いと考えら
れる。またさらに、本発明はイメージ編集システムにも
適用でき、従って、本発明は説明している実施例に限定
されるものではない。
な用法を思案すると、少なくともあるケースにおいて
は、ワードのそれぞれの文字を導くことが処理上の要求
として課せられないことが決定された。従って、例え
ば、あるテキストイメージのキーワードサーチをする
際、OCR技術を介してそれぞれのワードのそれぞれの
文字をコンバート(変換)するのではなく、1つあるい
はそれ以上のキーワードがあるか否かを、欠陥があるか
もしれないキャラクターコードから連続して決定する際
に、コンピューターは、何かを生成するのではなく、そ
のキーワードを表す形状とテキストイメージ内の複数の
ワードの形状とを比較し、その形状からキーワードが存
在するか評価する。このようなシステムで出力すると、
ユーザーが容認できる程度の精度でキーワードの存在を
示す何らかの表示を表せるものである。さらに、ここで
説明する新しい方法はキャラクターを認識するために設
計された幾つかの方法より処理スピードが早いと考えら
れる。またさらに、本発明はイメージ編集システムにも
適用でき、従って、本発明は説明している実施例に限定
されるものではない。
【0013】OCR法によって文字が正しく決定できな
い確率は比較的に低いと思われるが、プロダクト(積)
ルールを適用するとその頻度はワード全てに対し倍加し
て蓄積される。従って、OCRを用いて複数のワードを
キャラクターコードのストリングに変換すると、これら
のワードをサーチし、あるいは認識する以前にかなりの
エラーが発生するであろう。本発明はワードレベルにイ
メージデータを分割したものを用いて、通過するテキス
トを読んだり抽出する際に人間が用いているのと同様の
方法で連続したワードの認識を可能としている。さら
に、説明してあるワードの形状を認識するプロセスは幾
つかの効果を備えている。第1に、ビットマップイメー
ジデータは回復できないような状態で失われることはな
く、また、そのビットマップの合理的表示は残るので、
ユーザーは必要であればワードを決定するために再生さ
れたビットマップを確認できる。第2に、ワード全体を
用いることによって、それぞれの文字がワードの流れを
持ってそのワードを他のワードと比較する助けとなる。
あるワード内に形の崩れた文字があっても、これはワー
ドの形状の全体を識別するには殆ど影響を与えず、その
単語を表す2つの対比されたワードのイメージ同士が一
致する確率を若干減らすだけである。3番目として、小
さいワードは、本発明において最も間違って認識されや
すいのであるが、これが持っている情報は一般に少ない
ことである。従って、エラーが最も起こりやすいワード
は、情報を含んだ文章の中で最も重要でないワードとな
る。さらに、OCR法の能力と比較すると、OCR法は
キャラクターを多く持っているワードに対し間違った結
果となり易いのに対し、本発明は一般にもっと骨の折れ
るワードを識別する能力がある。
い確率は比較的に低いと思われるが、プロダクト(積)
ルールを適用するとその頻度はワード全てに対し倍加し
て蓄積される。従って、OCRを用いて複数のワードを
キャラクターコードのストリングに変換すると、これら
のワードをサーチし、あるいは認識する以前にかなりの
エラーが発生するであろう。本発明はワードレベルにイ
メージデータを分割したものを用いて、通過するテキス
トを読んだり抽出する際に人間が用いているのと同様の
方法で連続したワードの認識を可能としている。さら
に、説明してあるワードの形状を認識するプロセスは幾
つかの効果を備えている。第1に、ビットマップイメー
ジデータは回復できないような状態で失われることはな
く、また、そのビットマップの合理的表示は残るので、
ユーザーは必要であればワードを決定するために再生さ
れたビットマップを確認できる。第2に、ワード全体を
用いることによって、それぞれの文字がワードの流れを
持ってそのワードを他のワードと比較する助けとなる。
あるワード内に形の崩れた文字があっても、これはワー
ドの形状の全体を識別するには殆ど影響を与えず、その
単語を表す2つの対比されたワードのイメージ同士が一
致する確率を若干減らすだけである。3番目として、小
さいワードは、本発明において最も間違って認識されや
すいのであるが、これが持っている情報は一般に少ない
ことである。従って、エラーが最も起こりやすいワード
は、情報を含んだ文章の中で最も重要でないワードとな
る。さらに、OCR法の能力と比較すると、OCR法は
キャラクターを多く持っているワードに対し間違った結
果となり易いのに対し、本発明は一般にもっと骨の折れ
るワードを識別する能力がある。
【0014】OCR法は、ビットマップから代表するキ
ャラクターコードに変換し、これによってビットマップ
の情報を含んだ内容を失うことがある。概ね、このプロ
セスは、キャラクターコードからオリジナルのビットマ
ップを得るような可逆的なものではない。しかしなが
ら、形状を基にしてワードを識別すると、本発明の1つ
に従って説明してあるように、認識するプロセスまでビ
ットマップの情報を持っていることができ、これによっ
てビットマップを再構築することができる。
ャラクターコードに変換し、これによってビットマップ
の情報を含んだ内容を失うことがある。概ね、このプロ
セスは、キャラクターコードからオリジナルのビットマ
ップを得るような可逆的なものではない。しかしなが
ら、形状を基にしてワードを識別すると、本発明の1つ
に従って説明してあるように、認識するプロセスまでビ
ットマップの情報を持っていることができ、これによっ
てビットマップを再構築することができる。
【0015】
【実施例】以下において、図面を参照するが、図面に示
されているものは本発明の望ましい実施例を示すための
ものであり、同等のものに限定するためではない。図1
は、一般化された処理システムの概要を示してあり、本
発明を有効に活用できる多くの状況をこれでカバーでき
る。一般に、ソースとなるイメージは、スキャナー、フ
ァクシミリ装置、あるいは記録システムなどのソースイ
メージ抽出システム2から抽出される。このソースイメ
ージはコンピュータ処理装置4に送られるが、処理装置
4は幾つかの公知の装置のいずれでも良く、ここで述べ
るような発明に係る装置でも良い。ユーザーインタフェ
ース(U/I)6に入力されたコマンドに応答して、処
理装置4は出力装置8に出力を行うが、この出力装置も
プリンター、ディスプレイ、ファクシミリ装置あるいは
他の記録装置であっても良い。基本的には、図1の上部
に示したように、入力文書がシステムに入れられ、そこ
から出力文書が回収される。
されているものは本発明の望ましい実施例を示すための
ものであり、同等のものに限定するためではない。図1
は、一般化された処理システムの概要を示してあり、本
発明を有効に活用できる多くの状況をこれでカバーでき
る。一般に、ソースとなるイメージは、スキャナー、フ
ァクシミリ装置、あるいは記録システムなどのソースイ
メージ抽出システム2から抽出される。このソースイメ
ージはコンピュータ処理装置4に送られるが、処理装置
4は幾つかの公知の装置のいずれでも良く、ここで述べ
るような発明に係る装置でも良い。ユーザーインタフェ
ース(U/I)6に入力されたコマンドに応答して、処
理装置4は出力装置8に出力を行うが、この出力装置も
プリンター、ディスプレイ、ファクシミリ装置あるいは
他の記録装置であっても良い。基本的には、図1の上部
に示したように、入力文書がシステムに入れられ、そこ
から出力文書が回収される。
【0016】以下において、イメージとはイメージビッ
トマップとして記述されたものを言い、ここではイメー
ジとは複数のラスタライズ(ラスタ化)された(走査線
に分解された)イメージシグナル(画像信号)として表
される。これらの信号は画素(ピクセル)と通常呼ばれ
ており、文書上で対応したマークやアクティブなポジシ
ョンを表現するときは一般に黒色で現され、これらによ
って文書やマークが作成される。これらの構成は、本発
明を記述するために用いられているが、白黒や2値のイ
メージなどに範囲が限定されるものではない。むしろ、
本発明はイメージを表す技術の広い範囲にわたって概ね
適用できるものである。さらに、ワードの境界を定める
本発明は、イメージ編集システムにも適用でき、従っ
て、本発明は、以下に述べる実施例に完全に限定される
ものではない。
トマップとして記述されたものを言い、ここではイメー
ジとは複数のラスタライズ(ラスタ化)された(走査線
に分解された)イメージシグナル(画像信号)として表
される。これらの信号は画素(ピクセル)と通常呼ばれ
ており、文書上で対応したマークやアクティブなポジシ
ョンを表現するときは一般に黒色で現され、これらによ
って文書やマークが作成される。これらの構成は、本発
明を記述するために用いられているが、白黒や2値のイ
メージなどに範囲が限定されるものではない。むしろ、
本発明はイメージを表す技術の広い範囲にわたって概ね
適用できるものである。さらに、ワードの境界を定める
本発明は、イメージ編集システムにも適用でき、従っ
て、本発明は、以下に述べる実施例に完全に限定される
ものではない。
【0017】図2に、本発明の実施例であるワード(単
語)をその形状について決定、分割および比較するシス
テムを示してある。本システムのそれぞれの要素は多く
の装置であっても良く、あるいは、単に1つの装置内に
おいて1つのプログラムであっても良い。入力ビットマ
ップ10によって始まるが、このソースは決められたも
のではなく、また、本発明の一部をなすものでもない。
ビットマップは最初に分割システム(セグメンテイショ
ンシステム)12に送られ、そこで複数のワード、キャ
ラクターストリング、あるいは他の複数のキャラクター
からなる意味のあるユニットの境界が決定される。最初
に、イメージビットマップはデスキューワー(スキュー
戻し器)14を通り、このデスキューワーはイメージ内
のテキストの配置の角度を決定し、その配向を修正す
る。このデスキュー操作によって作られたデスキューさ
れたイメージを用いて、ワードボクサー(ワード囲い
器)16において複数のワードオブジェクト(例えば、
ワードあるいはキャラクターストリング)の境界が決め
られ、ワードの境界に沿って、そのイメージ内のテキス
トのラインの境界も識別される。単語分離器(ワードセ
グメンター)18において、イメージビットマップに対
しワードの境界を用いて、そのイメージ内のそれぞれの
ワードグループが読みだす順番に分離され、これらが1
つのユニットとしてその後取り扱われる。ここで「ワー
ド(単語)」、「シンボルストリング(記号列)」ある
いは「キャラクターストリング(文字列)」とは連結し
たアルファベットあるいは句読点などの要素、あるいは
さらに広い範囲、サインやシンボルといったこれらが集
まると意味あるユニットとして単一のユニットを形成す
るものである。このような解釈可能なユニットは、イメ
ージの中で特徴付けられており、そのユニット自体を構
成する隣接する要素、サインあるいはシンボルを分離す
る隙間より大きな隙間によって区別されている。この点
で本発明は異なった適用が可能であり、例えば、文章や
単語の編集システムにおいて、イメージを連続して処理
(操作)するため、独立した単語の形状を使用できる。
従って、本発明は単語認識関係だけに限定されるもので
はない。
語)をその形状について決定、分割および比較するシス
テムを示してある。本システムのそれぞれの要素は多く
の装置であっても良く、あるいは、単に1つの装置内に
おいて1つのプログラムであっても良い。入力ビットマ
ップ10によって始まるが、このソースは決められたも
のではなく、また、本発明の一部をなすものでもない。
ビットマップは最初に分割システム(セグメンテイショ
ンシステム)12に送られ、そこで複数のワード、キャ
ラクターストリング、あるいは他の複数のキャラクター
からなる意味のあるユニットの境界が決定される。最初
に、イメージビットマップはデスキューワー(スキュー
戻し器)14を通り、このデスキューワーはイメージ内
のテキストの配置の角度を決定し、その配向を修正す
る。このデスキュー操作によって作られたデスキューさ
れたイメージを用いて、ワードボクサー(ワード囲い
器)16において複数のワードオブジェクト(例えば、
ワードあるいはキャラクターストリング)の境界が決め
られ、ワードの境界に沿って、そのイメージ内のテキス
トのラインの境界も識別される。単語分離器(ワードセ
グメンター)18において、イメージビットマップに対
しワードの境界を用いて、そのイメージ内のそれぞれの
ワードグループが読みだす順番に分離され、これらが1
つのユニットとしてその後取り扱われる。ここで「ワー
ド(単語)」、「シンボルストリング(記号列)」ある
いは「キャラクターストリング(文字列)」とは連結し
たアルファベットあるいは句読点などの要素、あるいは
さらに広い範囲、サインやシンボルといったこれらが集
まると意味あるユニットとして単一のユニットを形成す
るものである。このような解釈可能なユニットは、イメ
ージの中で特徴付けられており、そのユニット自体を構
成する隣接する要素、サインあるいはシンボルを分離す
る隙間より大きな隙間によって区別されている。この点
で本発明は異なった適用が可能であり、例えば、文章や
単語の編集システムにおいて、イメージを連続して処理
(操作)するため、独立した単語の形状を使用できる。
従って、本発明は単語認識関係だけに限定されるもので
はない。
【0018】次に、形状比較器24がそのイメージ内の
個々のワードを現すワードの形状を、辞書26からの既
知あるいは既に識別されたワードの形状と対比する。他
の例として、形状比較器24をイメージ10から決定さ
れた2つあるいはそれ以上のワードの形状を比較するた
めに用いても良い。望ましい実施例において、コンパレ
ーター24は比較されるワード形状同士の間の類似度を
特徴付けるためにハウスドロフ(Hausdorff)
距離を変数として用いている。さらに重要なことは、ワ
ードの形状比較器24は、認識されていないキャラクタ
ーのストリングからのワード形状を、既知のワード形状
と比較するだけに限定されないことである。単純な文に
おいては、コンパレーター24は、1つのワード形状を
他のワード形状と比較する単なる装置であり、ワード突
合せ指示出力によって表される2つの形状の間の類似度
を相対的に示す。
個々のワードを現すワードの形状を、辞書26からの既
知あるいは既に識別されたワードの形状と対比する。他
の例として、形状比較器24をイメージ10から決定さ
れた2つあるいはそれ以上のワードの形状を比較するた
めに用いても良い。望ましい実施例において、コンパレ
ーター24は比較されるワード形状同士の間の類似度を
特徴付けるためにハウスドロフ(Hausdorff)
距離を変数として用いている。さらに重要なことは、ワ
ードの形状比較器24は、認識されていないキャラクタ
ーのストリングからのワード形状を、既知のワード形状
と比較するだけに限定されないことである。単純な文に
おいては、コンパレーター24は、1つのワード形状を
他のワード形状と比較する単なる装置であり、ワード突
合せ指示出力によって表される2つの形状の間の類似度
を相対的に示す。
【0019】ワード形状を決定し、比較する方法あるい
は装置の概略を示すために、各々の工程をここで詳しく
説明する。本発明の処理をさらに説明するために、図3
にサンプルイメージを示してあり、これは公衆の資産と
なったものから取ってあり、その中には文章が何行か含
まれている。図3は、テキスト(文章)のページ上にイ
メージが現れるようすの概略を説明し、図4、5および
6は、そのページのスキャンされたイメージの一部を示
してあり、ここではビットマップのイメージを拡大して
示してあり、そこには公知のOCR技術における問題が
示されている。図3を見ると、例えば、このテキストイ
メージの2行目のワード50のイメージは「formation
」であり、4行目のワード54のイメージは「automob
ile」であり、幾つかの文字が繋がって見える。
は装置の概略を示すために、各々の工程をここで詳しく
説明する。本発明の処理をさらに説明するために、図3
にサンプルイメージを示してあり、これは公衆の資産と
なったものから取ってあり、その中には文章が何行か含
まれている。図3は、テキスト(文章)のページ上にイ
メージが現れるようすの概略を説明し、図4、5および
6は、そのページのスキャンされたイメージの一部を示
してあり、ここではビットマップのイメージを拡大して
示してあり、そこには公知のOCR技術における問題が
示されている。図3を見ると、例えば、このテキストイ
メージの2行目のワード50のイメージは「formation
」であり、4行目のワード54のイメージは「automob
ile」であり、幾つかの文字が繋がって見える。
【0020】さらに、数多くの公知の微小角度のイメー
ジの回転する方法、あるいはスキューの修正方法を、こ
のイメージのデスキューされた表示を得るために用いる
ことができる。
ジの回転する方法、あるいはスキューの修正方法を、こ
のイメージのデスキューされた表示を得るために用いる
ことができる。
【0021】次のプロセスのステップにおいて、ワード
ボクサー16がデスキュー(傾きが除去)されたイメー
ジに対し、図7および図8に示すフローチャートに記載
されたプロセスステップに従った操作をする。ワードボ
クサーで実施されるプロセスステップの以下の説明は、
プログラム可能なコンピューターにおいて実行される操
作を用いて説明してあるが、本発明をこの実施例に限定
しているのではない。ステップ80が開始すると、ワー
ドボクサーは先ず図3の入力イメージを読み、このイメ
ージは必要であればデスキューワー14でデスキューさ
れている。この機能は、例えば、ハードディスクあるい
は同様のストレージ(記憶)装置といったメモリーに収
納されたイメージに単にアクセスするものであり、さら
に、そのイメージをそのイメージのために割り当てられ
たメモリーの場所にコピーし、さらに、必要であれば、
そのイメージにポインターをアサイン(割り当て)す
る。
ボクサー16がデスキュー(傾きが除去)されたイメー
ジに対し、図7および図8に示すフローチャートに記載
されたプロセスステップに従った操作をする。ワードボ
クサーで実施されるプロセスステップの以下の説明は、
プログラム可能なコンピューターにおいて実行される操
作を用いて説明してあるが、本発明をこの実施例に限定
しているのではない。ステップ80が開始すると、ワー
ドボクサーは先ず図3の入力イメージを読み、このイメ
ージは必要であればデスキューワー14でデスキューさ
れている。この機能は、例えば、ハードディスクあるい
は同様のストレージ(記憶)装置といったメモリーに収
納されたイメージに単にアクセスするものであり、さら
に、そのイメージをそのイメージのために割り当てられ
たメモリーの場所にコピーし、さらに、必要であれば、
そのイメージにポインターをアサイン(割り当て)す
る。
【0022】イメージが抽出(検索)されると、ステッ
プ82はそのイメージの中の連結した要素を見つける。
このプロセスはストアーされた2値イメージの中から黒
色の画素を見つけるだけである。黒色の画素が見つかる
と、対話形(相互作用)プロセスが継続して隣接する黒
色の画素、さらにそれらに隣接する黒色の画素を次々と
見つけ、連結した画素の範囲が決まるまで、継続して行
う。さらに詳しく説明すると、8隣接定義(eight-neigh
bor connection definition)が用いられる。すなわち、
1つの画素が他の画素に対し8つのコンパス(範囲)方
向の一つに隣接すれば、それらは隣接していると考えら
れ、同じ連結要素となる。さらに、そのイメージ内の全
ての黒色の画素が他の黒色の画素と適切に関係付けら
れ、連結した要素が形成されるまでこのプロセスは繰り
返される。図4に示すように、連結した画素が関係付け
られると、角形のボックスあるいは境界58が識別さ
れ、これは連結した画素の最大の範囲を反映したものと
なり、角形のボックスはそのイメージのx−y座標に沿
って配向される。
プ82はそのイメージの中の連結した要素を見つける。
このプロセスはストアーされた2値イメージの中から黒
色の画素を見つけるだけである。黒色の画素が見つかる
と、対話形(相互作用)プロセスが継続して隣接する黒
色の画素、さらにそれらに隣接する黒色の画素を次々と
見つけ、連結した画素の範囲が決まるまで、継続して行
う。さらに詳しく説明すると、8隣接定義(eight-neigh
bor connection definition)が用いられる。すなわち、
1つの画素が他の画素に対し8つのコンパス(範囲)方
向の一つに隣接すれば、それらは隣接していると考えら
れ、同じ連結要素となる。さらに、そのイメージ内の全
ての黒色の画素が他の黒色の画素と適切に関係付けら
れ、連結した要素が形成されるまでこのプロセスは繰り
返される。図4に示すように、連結した画素が関係付け
られると、角形のボックスあるいは境界58が識別さ
れ、これは連結した画素の最大の範囲を反映したものと
なり、角形のボックスはそのイメージのx−y座標に沿
って配向される。
【0023】他の実施例において、オリジナルイメージ
(原画像)の複写(コピー)が膨張(ディレイション)
操作を用いて作られ、ワードの文字やシンボルを表す複
数の黒い画素が互いに連結すると共に、そのイメージ内
の隣接するワードが連結するようにはイメージをそれほ
ど膨張させない。次に、膨張させたイメージを用いて、
個々のワードを形成する連結した要素を見つけることが
できる。残念ながら、この方法の欠点は膨張操作を行う
スピードが膨張させる値の関数であり、かなりの処理時
間を必要とすることである。さらに、1つの膨張用のし
きい値を用いると(すなわち、全体のイメージに対し同
じだけ膨張させると)、包括的でありすぎて、関係のな
いシンボルのストリング同士の間に望ましくない連結が
発生する原因となる。望ましくは、イメージの一部に適
用される膨張の度合いは、連結した要素のスペーシング
の特性を関数としてライン毎に決めるべきである。
(原画像)の複写(コピー)が膨張(ディレイション)
操作を用いて作られ、ワードの文字やシンボルを表す複
数の黒い画素が互いに連結すると共に、そのイメージ内
の隣接するワードが連結するようにはイメージをそれほ
ど膨張させない。次に、膨張させたイメージを用いて、
個々のワードを形成する連結した要素を見つけることが
できる。残念ながら、この方法の欠点は膨張操作を行う
スピードが膨張させる値の関数であり、かなりの処理時
間を必要とすることである。さらに、1つの膨張用のし
きい値を用いると(すなわち、全体のイメージに対し同
じだけ膨張させると)、包括的でありすぎて、関係のな
いシンボルのストリング同士の間に望ましくない連結が
発生する原因となる。望ましくは、イメージの一部に適
用される膨張の度合いは、連結した要素のスペーシング
の特性を関数としてライン毎に決めるべきである。
【0024】イメージ内の全ての連結した要素のグルー
プの周りに領域を示すボックス(バウンディングボック
ス)が規定されると、図4にイメージの一部を用いて示
してあるように、連結した要素のボックスあるいは境界
の識別されたセットの中から、ワードボクサーはバッド
(悪い)ボックス(図示されていないが)を見つけ出す
(解析する)。バッドボックスは、以下のように特徴付
けられる。(a)背の高いボックスであって、その高さ
が全イメージの高さより約20パーセント以上高く、そ
のイメージ内のほぼ90パーセンチル(百分位数)の高
さより大きなボックス、あるいは(b)短いボックスで
あって、90パーセンチルの高さのほぼ1/3より下の
高さのボックス。分析が終わると、残ったボックスは次
に、ドキュメントの垂直あるいはy軸(y軸はデスキュ
ーされたテキスト行の方向に対し垂直な軸と考えられ
る)に投影されヒストグラムを形成し、これによってボ
ックスの境界の数がy軸に沿ったポジションの関数とし
て反映され、図3のイメージ全てに対し図9に示したよ
うになる。望ましい実施例においては、y軸に投影され
たヒストグラムデータに対し、テキストラインの位置を
決定する前にガウシンアン分布に従ったスムージング
(平滑化)を行っても良い。次に、ヒストグラムの結果
から、暫定的なラインあるいは行の境界がイメージのy
軸に沿ったポジションとして識別され、このラインはヒ
ストグラムにある谷にあたる。例えば、図9に示してあ
るように、複数の谷あるいは最低点120は、隣接する
ピークあるいは最高点122同士の間に識別され、さら
に、谷120によってライン間のスペースの位置が判
り、これらを図5に参照番号62として示してある。こ
の操作はステップ88によって行われる。最後に、暫定
(予備)的なテキストラインあるいは行(row)が決
まると、連結した要素のボックス全てを規定された行に
割り当てる機能が動作する。
プの周りに領域を示すボックス(バウンディングボック
ス)が規定されると、図4にイメージの一部を用いて示
してあるように、連結した要素のボックスあるいは境界
の識別されたセットの中から、ワードボクサーはバッド
(悪い)ボックス(図示されていないが)を見つけ出す
(解析する)。バッドボックスは、以下のように特徴付
けられる。(a)背の高いボックスであって、その高さ
が全イメージの高さより約20パーセント以上高く、そ
のイメージ内のほぼ90パーセンチル(百分位数)の高
さより大きなボックス、あるいは(b)短いボックスで
あって、90パーセンチルの高さのほぼ1/3より下の
高さのボックス。分析が終わると、残ったボックスは次
に、ドキュメントの垂直あるいはy軸(y軸はデスキュ
ーされたテキスト行の方向に対し垂直な軸と考えられ
る)に投影されヒストグラムを形成し、これによってボ
ックスの境界の数がy軸に沿ったポジションの関数とし
て反映され、図3のイメージ全てに対し図9に示したよ
うになる。望ましい実施例においては、y軸に投影され
たヒストグラムデータに対し、テキストラインの位置を
決定する前にガウシンアン分布に従ったスムージング
(平滑化)を行っても良い。次に、ヒストグラムの結果
から、暫定的なラインあるいは行の境界がイメージのy
軸に沿ったポジションとして識別され、このラインはヒ
ストグラムにある谷にあたる。例えば、図9に示してあ
るように、複数の谷あるいは最低点120は、隣接する
ピークあるいは最高点122同士の間に識別され、さら
に、谷120によってライン間のスペースの位置が判
り、これらを図5に参照番号62として示してある。こ
の操作はステップ88によって行われる。最後に、暫定
(予備)的なテキストラインあるいは行(row)が決
まると、連結した要素のボックス全てを規定された行に
割り当てる機能が動作する。
【0025】テキストラインあるいは行62の位置が暫
定的に決まると、連結した要素のバウンディングボック
スであって2つの行に横たわったものを、先ず特定の行
に割り当てる手順が行われる。フローチャートのステッ
プ92、94、および96にあるように、この手順にお
いては前のステップであるステップ88で識別された暫
定的なテキストラインが正しいかのチェックがさらに行
われる。先ず最初に、追って説明するように、テキスト
行の分離が失敗ではないことを確認する機能が動作す
る。一般に、連結した要素に着目すると、あるテキスト
行の中の投影された部分は、それらがy軸方向にひどく
重なっていないかぎりx方向に投影された部分がそれほ
ど重なることはない。ステップ92において識別された
ように、投影した部分が重なっていると、その識別され
た行は2つあるいはそれ以上の別れた行である可能性が
高く、y方向に投影されたグラフ内にさらに最低点を見
つけて分離しなければならない。また、テキストイメー
ジ内の例えば、「i」の上のドットやワードの下線とい
った連結した要素の小さなグループの回りのバウンディ
ングボックスは無視し、テキスト行をさらに分離するよ
うな間違ってトリガーを引き起こさないようにしなけれ
ばならない。
定的に決まると、連結した要素のバウンディングボック
スであって2つの行に横たわったものを、先ず特定の行
に割り当てる手順が行われる。フローチャートのステッ
プ92、94、および96にあるように、この手順にお
いては前のステップであるステップ88で識別された暫
定的なテキストラインが正しいかのチェックがさらに行
われる。先ず最初に、追って説明するように、テキスト
行の分離が失敗ではないことを確認する機能が動作す
る。一般に、連結した要素に着目すると、あるテキスト
行の中の投影された部分は、それらがy軸方向にひどく
重なっていないかぎりx方向に投影された部分がそれほ
ど重なることはない。ステップ92において識別された
ように、投影した部分が重なっていると、その識別され
た行は2つあるいはそれ以上の別れた行である可能性が
高く、y方向に投影されたグラフ内にさらに最低点を見
つけて分離しなければならない。また、テキストイメー
ジ内の例えば、「i」の上のドットやワードの下線とい
った連結した要素の小さなグループの回りのバウンディ
ングボックスは無視し、テキスト行をさらに分離するよ
うな間違ってトリガーを引き起こさないようにしなけれ
ばならない。
【0026】2番目に、ステップ96にあるように、x
軸方向にそって互いに重なった残りのボックスを、この
マージ(併合)された要素を囲う境界をもった1つのボ
ックスにマージする。一般に、このマージプロセスでは
1つの行の中の複数のボックスを見渡し、x方向に重な
り、さらに、y方向にも最小限ある程度かさなったボッ
クスを識別する。このy方向の最小限の重なりは、約5
0パーセント程度が良い。例えば、スキャンしたイメー
ジが「fort」というワードを含んでいた場合、スキ
ャンによって、「f」のボックスの右端が「o」ボック
スの左端と重なることがあり、従って、x 軸に沿って重
なったボックスの要素をマージすると、「f」と「o」
のボックスがマージされることになる。この手順におい
て、サイズのテストも行われ、所定のサイズより小さな
ボックスはマージされない。続いて、この小さなボック
スはイメージ内のノイズとして識別され削除されること
ができる。
軸方向にそって互いに重なった残りのボックスを、この
マージ(併合)された要素を囲う境界をもった1つのボ
ックスにマージする。一般に、このマージプロセスでは
1つの行の中の複数のボックスを見渡し、x方向に重な
り、さらに、y方向にも最小限ある程度かさなったボッ
クスを識別する。このy方向の最小限の重なりは、約5
0パーセント程度が良い。例えば、スキャンしたイメー
ジが「fort」というワードを含んでいた場合、スキ
ャンによって、「f」のボックスの右端が「o」ボック
スの左端と重なることがあり、従って、x 軸に沿って重
なったボックスの要素をマージすると、「f」と「o」
のボックスがマージされることになる。この手順におい
て、サイズのテストも行われ、所定のサイズより小さな
ボックスはマージされない。続いて、この小さなボック
スはイメージ内のノイズとして識別され削除されること
ができる。
【0027】3番目に、テキスト行が正確に検出される
と、この行内の残りのボックスは連結した要素であり、
これらの内のあるものはワードあるいは意味を解釈でき
る同様のエレメントを形成するためにさらに繋げる必要
がある。さらに隣接する要素を結合することにより、ス
キャンされたイメージ内のワードを形成するために、ス
テップ98においてテキスト行内の隣接する要素間の分
離距離のヒストグラム化を継続して行う。一般的なテキ
スト行の分布の結果を図10に示してあり、破線のカー
ブが行のヒストグラムデータを示し、実線のカーブはそ
れを滑らかにしたものである。期待通り、得られたカー
ブは2値モデルの分布を概ね示し、ピーク130および
132の第1のセットはキャラクター間のスペーシング
分離距離の分布を表しており、これに対し、第2のピー
クは幅が広く、頻度も低く、隣接するワード間のセパレ
ーションを反映している。さらに、ある条件下では、単
一モデルの分布も現れる。2値(bi−model)モ
デル分布の2つの最大値が規定され、これら2値モデル
の分布の2つの最大値は、ステップ100において、分
離用のしきい値を先ず識別するのにも用いられ、さらに
続いて、ワード間のセパレーション(分離)とキャラク
ター間のセパレーションを区別するために用いられる。
と、この行内の残りのボックスは連結した要素であり、
これらの内のあるものはワードあるいは意味を解釈でき
る同様のエレメントを形成するためにさらに繋げる必要
がある。さらに隣接する要素を結合することにより、ス
キャンされたイメージ内のワードを形成するために、ス
テップ98においてテキスト行内の隣接する要素間の分
離距離のヒストグラム化を継続して行う。一般的なテキ
スト行の分布の結果を図10に示してあり、破線のカー
ブが行のヒストグラムデータを示し、実線のカーブはそ
れを滑らかにしたものである。期待通り、得られたカー
ブは2値モデルの分布を概ね示し、ピーク130および
132の第1のセットはキャラクター間のスペーシング
分離距離の分布を表しており、これに対し、第2のピー
クは幅が広く、頻度も低く、隣接するワード間のセパレ
ーションを反映している。さらに、ある条件下では、単
一モデルの分布も現れる。2値(bi−model)モ
デル分布の2つの最大値が規定され、これら2値モデル
の分布の2つの最大値は、ステップ100において、分
離用のしきい値を先ず識別するのにも用いられ、さらに
続いて、ワード間のセパレーション(分離)とキャラク
ター間のセパレーションを区別するために用いられる。
【0028】この分離用のしきい値を用いて、次に、テ
キスト行内の隣接するボックスのうち、x方向のセパレ
ーションが分離を示すしきい値より小さなものをマージ
するために、図8のステップ102の手順がコールされ
る。この手順では、単純に、それぞれの行にある連結し
た要素のセットで隣接したものの中で、分離を示すしき
い値より短い距離だけ分離されているものが全てマージ
される。ワード内の隣接するキャラクターをマージする
と、その結果得られたボックス構造は、各々のテキスト
行内のワードの境界を反映しており、例えば、図6では
複数のワードの周りの複数のボックス66で示してあ
る。この時点で、小さなマージされなかったボックスを
イメージ内のノイズと認識し、それを除くオプション操
作を実施しても良い。続いて、読む順番(上から下、お
よびそれぞれのテキスト行の左から右)に並べられたボ
ックスのリストがステップ104で作成される。このボ
ックスリスト内の配列それぞれが、入力されたイメージ
内のそれぞれ1つのワード、ピクチャー、句読点、ある
いは意味を解釈できる同等のユニットのバウンディング
ボックス66を規定している。
キスト行内の隣接するボックスのうち、x方向のセパレ
ーションが分離を示すしきい値より小さなものをマージ
するために、図8のステップ102の手順がコールされ
る。この手順では、単純に、それぞれの行にある連結し
た要素のセットで隣接したものの中で、分離を示すしき
い値より短い距離だけ分離されているものが全てマージ
される。ワード内の隣接するキャラクターをマージする
と、その結果得られたボックス構造は、各々のテキスト
行内のワードの境界を反映しており、例えば、図6では
複数のワードの周りの複数のボックス66で示してあ
る。この時点で、小さなマージされなかったボックスを
イメージ内のノイズと認識し、それを除くオプション操
作を実施しても良い。続いて、読む順番(上から下、お
よびそれぞれのテキスト行の左から右)に並べられたボ
ックスのリストがステップ104で作成される。このボ
ックスリスト内の配列それぞれが、入力されたイメージ
内のそれぞれ1つのワード、ピクチャー、句読点、ある
いは意味を解釈できる同等のユニットのバウンディング
ボックス66を規定している。
【0029】図2に戻って、例えば、イメージ内のワー
ドの境界を表すボックスリストがワードボクサー16に
よって作成されると、このリストおよびビットマップイ
メージはワード分割器(segmenter)18に送
られる。一般に、分割器(セグメンター)18は、一つ
のイメージ処理装置であり、入力されたイメージ10の
ビットマップをボックスリスト内に規定されたワードの
境界に従って一連のより小さなビットマップイメージに
分割できるものである。ワードセグメンター18からの
出力はビットマップイメージの一連の流れ(シリーズ)
であり、それぞれのイメージは、ワードボクサー16に
よって識別されたワードあるいは意味を解釈できる同等
のユニットを表すビットマップを備えている。好ましい
実施例において、ワードセグメンター18は、ワードボ
ックスによって囲われた入力イメージのそれぞれの部分
に対して、分離されたビットマップを実際に発生するも
のでない。むしろ、セグメンターは単に窓開けの操作を
したり、あるいはビットマップのある部分を選択するこ
とによって、特定のボックスの境界内であるとして規定
されたそのイメージのその部分へのアクセスを許可して
いる。先に説明したように、ワードセグメンター18の
出力はワードコンパレーター24に送られ、そこでワー
ドは他のビットマップイメージと比較され、セグメンタ
ー18から出力されたイメージあるいは辞書22から供
給されたワードとの間に合致する部分があるか否かが判
断される。
ドの境界を表すボックスリストがワードボクサー16に
よって作成されると、このリストおよびビットマップイ
メージはワード分割器(segmenter)18に送
られる。一般に、分割器(セグメンター)18は、一つ
のイメージ処理装置であり、入力されたイメージ10の
ビットマップをボックスリスト内に規定されたワードの
境界に従って一連のより小さなビットマップイメージに
分割できるものである。ワードセグメンター18からの
出力はビットマップイメージの一連の流れ(シリーズ)
であり、それぞれのイメージは、ワードボクサー16に
よって識別されたワードあるいは意味を解釈できる同等
のユニットを表すビットマップを備えている。好ましい
実施例において、ワードセグメンター18は、ワードボ
ックスによって囲われた入力イメージのそれぞれの部分
に対して、分離されたビットマップを実際に発生するも
のでない。むしろ、セグメンターは単に窓開けの操作を
したり、あるいはビットマップのある部分を選択するこ
とによって、特定のボックスの境界内であるとして規定
されたそのイメージのその部分へのアクセスを許可して
いる。先に説明したように、ワードセグメンター18の
出力はワードコンパレーター24に送られ、そこでワー
ドは他のビットマップイメージと比較され、セグメンタ
ー18から出力されたイメージあるいは辞書22から供
給されたワードとの間に合致する部分があるか否かが判
断される。
【0030】ワードイメージを比較するための1つの好
ましい方法としてハウスドロフ距離を計る技術が使用さ
れており、これは1991年6月のヒュッテンロッチャ
ーらによる「ハウスドロフ距離を用いたイメージの比
較」(TR91−1211)、および1992年12月
の「ハウスドロフ距離を用いたイメージを比較するため
の多重解像技術」(TR92−1321)に記載に関連
しており、いずれもカーネル大学のコンピューターサイ
エンス学部から出版されている。
ましい方法としてハウスドロフ距離を計る技術が使用さ
れており、これは1991年6月のヒュッテンロッチャ
ーらによる「ハウスドロフ距離を用いたイメージの比
較」(TR91−1211)、および1992年12月
の「ハウスドロフ距離を用いたイメージを比較するため
の多重解像技術」(TR92−1321)に記載に関連
しており、いずれもカーネル大学のコンピューターサイ
エンス学部から出版されている。
【0031】一般に、ボックス化されたワードイメージ
同士を比較する方法として、特定のボックスへ識別され
た連結された要素を比較するため2段階プロセスが用い
られる。以下で採用しているように、比較される2つの
イメージをボックス1およびボックス2とする。これら
の分割されたイメージ部分(イメージセクション)は、
同一のイメージの2つのセクションであっても良く、異
なったイメージの2つのセクションも良く、あるいはあ
るイメージの1つのセクションと、入力されたキャラク
ターストリングあるいはワードから電子的に作成された
1つのセクションであっても良い。図2においては「辞
書」として表されているが、ブロック26の一般的な目
的は、他のイメージセクション(ボックス1)と比較す
るためのイメージセクション(ボックス2)を提供する
ことである。ボックス1およびボックス2のセクション
を識別すると、それぞれにあるイメージは「モデル」と
呼ばれ、さらに、このモデルを膨張したものが作られ以
下でこれを「イメージ」と呼ぶ。コンパレータ24で用
いられている比較技術の概略は、先ず、モデル1内の画
素、すなわち、ボックス1で囲われたセクション内のオ
リジナルの画素を、ボックス2で表された画素の膨張さ
れた表現のイメージ2内の画素と比較し、この比較から
第1の距離が見いだされる。同様に、このプロセスが逆
転され、モデル2内の画素であるボックス2で囲われた
セクションのオリジナルの画素と、ボックス1で代表さ
れた画素の膨張された表現のイメージ1内の画素が比較
され、第2の距離がこの比較から見いだされる。続い
て、この2つの距離が数値的に処理され、ボックス1お
よびボックス2で囲われたこれら2つのイメージセクシ
ョンの類似性の度合いが決定される。
同士を比較する方法として、特定のボックスへ識別され
た連結された要素を比較するため2段階プロセスが用い
られる。以下で採用しているように、比較される2つの
イメージをボックス1およびボックス2とする。これら
の分割されたイメージ部分(イメージセクション)は、
同一のイメージの2つのセクションであっても良く、異
なったイメージの2つのセクションも良く、あるいはあ
るイメージの1つのセクションと、入力されたキャラク
ターストリングあるいはワードから電子的に作成された
1つのセクションであっても良い。図2においては「辞
書」として表されているが、ブロック26の一般的な目
的は、他のイメージセクション(ボックス1)と比較す
るためのイメージセクション(ボックス2)を提供する
ことである。ボックス1およびボックス2のセクション
を識別すると、それぞれにあるイメージは「モデル」と
呼ばれ、さらに、このモデルを膨張したものが作られ以
下でこれを「イメージ」と呼ぶ。コンパレータ24で用
いられている比較技術の概略は、先ず、モデル1内の画
素、すなわち、ボックス1で囲われたセクション内のオ
リジナルの画素を、ボックス2で表された画素の膨張さ
れた表現のイメージ2内の画素と比較し、この比較から
第1の距離が見いだされる。同様に、このプロセスが逆
転され、モデル2内の画素であるボックス2で囲われた
セクションのオリジナルの画素と、ボックス1で代表さ
れた画素の膨張された表現のイメージ1内の画素が比較
され、第2の距離がこの比較から見いだされる。続い
て、この2つの距離が数値的に処理され、ボックス1お
よびボックス2で囲われたこれら2つのイメージセクシ
ョンの類似性の度合いが決定される。
【0032】上記の比較を行うプロセスの概略を図11
に示してある。最初にワードコンパレータ24は、ワー
ドイメージの「辞書」26に規定された、あるワードイ
メージ(ボックス2)の境界内の画素をコピーする。こ
れらの画素は以下でモデル2とされる。ワードコンパレ
ータは次にメモリーのモデル2のコピーをとり、これを
膨張してイメージ2(膨張されたイメージ)をステップ
200で作成する。すなわち、モデル2の「オン」ある
いは黒色の画素全てに対し、これらの周囲に隣接するも
のをオンあるいは黒くする。隣合ったものの正確な数は
膨張半径(ディレイションラディウス)として規定され
ており、予め決められている。例として、好ましい膨張
半径が画素1.0個であると隣接した4つがオンにな
り、半径を画素1.4個とすると隣接する近傍の画素8
つが全てオンになる。さらに、膨張半径を大きくする
と、同一ではないワード同士を間違って合致すると見な
す可能性が大きくなる。
に示してある。最初にワードコンパレータ24は、ワー
ドイメージの「辞書」26に規定された、あるワードイ
メージ(ボックス2)の境界内の画素をコピーする。こ
れらの画素は以下でモデル2とされる。ワードコンパレ
ータは次にメモリーのモデル2のコピーをとり、これを
膨張してイメージ2(膨張されたイメージ)をステップ
200で作成する。すなわち、モデル2の「オン」ある
いは黒色の画素全てに対し、これらの周囲に隣接するも
のをオンあるいは黒くする。隣合ったものの正確な数は
膨張半径(ディレイションラディウス)として規定され
ており、予め決められている。例として、好ましい膨張
半径が画素1.0個であると隣接した4つがオンにな
り、半径を画素1.4個とすると隣接する近傍の画素8
つが全てオンになる。さらに、膨張半径を大きくする
と、同一ではないワード同士を間違って合致すると見な
す可能性が大きくなる。
【0033】次に、ステップ202において、入力イメ
ージ10全体のコピーが上述したように膨張され、ボッ
クスリスト内に規定された全てのボックスの膨張された
境界内の画素は、この膨張された入力イメージから複写
される。これらの画素のセットは、個々の膨張された
「ワード」を表し、以下においてこれらをイメージ1
(入力イメージの膨張された部分)とし、これに対し、
入力イメージのオリジナルで膨張されていないワードセ
グメントを以下においてモデル1とする。ボックス2の
イメージと同様に、それぞれのイメージ内のワードを表
す画素は太って見え、対応するモデルよりさらに詰まっ
た状態となる。続いて、プログラムはボックスサイズ同
士を比較し、合致するであろうボックスあるいはイメー
ジセクション(すなわち、入力イメージおよび「辞書」
イメージの両方において同じワードが入っていると思わ
れるボックス)のクラス分けを作成する。ある入力イメ
ージのある部分を公知のあるいは「辞書」のワードセグ
メントと比較する場合を説明しているが、本発明は同
じ、あるいは異なるイメージ内のワードセグメントを比
較でき、本発明の動作を説明するために示した例に限定
的に解釈されてはならない。
ージ10全体のコピーが上述したように膨張され、ボッ
クスリスト内に規定された全てのボックスの膨張された
境界内の画素は、この膨張された入力イメージから複写
される。これらの画素のセットは、個々の膨張された
「ワード」を表し、以下においてこれらをイメージ1
(入力イメージの膨張された部分)とし、これに対し、
入力イメージのオリジナルで膨張されていないワードセ
グメントを以下においてモデル1とする。ボックス2の
イメージと同様に、それぞれのイメージ内のワードを表
す画素は太って見え、対応するモデルよりさらに詰まっ
た状態となる。続いて、プログラムはボックスサイズ同
士を比較し、合致するであろうボックスあるいはイメー
ジセクション(すなわち、入力イメージおよび「辞書」
イメージの両方において同じワードが入っていると思わ
れるボックス)のクラス分けを作成する。ある入力イメ
ージのある部分を公知のあるいは「辞書」のワードセグ
メントと比較する場合を説明しているが、本発明は同
じ、あるいは異なるイメージ内のワードセグメントを比
較でき、本発明の動作を説明するために示した例に限定
的に解釈されてはならない。
【0034】入力イメージと「辞書」に対しこれらの関
連する膨張されたイメージが作成されると、1対の入力
(ボックス1)および辞書(ボックス2)のイメージ
が、比較のためにステップ204において選択される。
次に、コンパレータ24は、ステップ206において、
これら2つのボックスは「十分に」寸法が近いか否かを
決定するためのテストをする。すなわち、これらのボッ
クスがそれぞれの長さおよび高さが所定の範囲内である
か否かである。所定の範囲内でなければ、ステップ20
8でより多くのボックス(イメージセクション)が利用
できることが決定されるとステップ204において、新
しいイメージのペアー(入力および辞書)が比較するた
めに選ばる。そうでない場合は、選択された入力および
辞書の一対のペアーの境界を示すボックスはほぼ同じサ
イズであると想定され、一対のワードボックスのそれぞ
れに対し、以下のようなプロセスを用いてそれらが合致
しているか否かを見るためにさらに比較を行う。
連する膨張されたイメージが作成されると、1対の入力
(ボックス1)および辞書(ボックス2)のイメージ
が、比較のためにステップ204において選択される。
次に、コンパレータ24は、ステップ206において、
これら2つのボックスは「十分に」寸法が近いか否かを
決定するためのテストをする。すなわち、これらのボッ
クスがそれぞれの長さおよび高さが所定の範囲内である
か否かである。所定の範囲内でなければ、ステップ20
8でより多くのボックス(イメージセクション)が利用
できることが決定されるとステップ204において、新
しいイメージのペアー(入力および辞書)が比較するた
めに選ばる。そうでない場合は、選択された入力および
辞書の一対のペアーの境界を示すボックスはほぼ同じサ
イズであると想定され、一対のワードボックスのそれぞ
れに対し、以下のようなプロセスを用いてそれらが合致
しているか否かを見るためにさらに比較を行う。
【0035】1)モデル1がイメージ2に重ね合わされ
る。 2)黒いイメージ2のポイントに合致する黒いモデル1
のポイントの数を計数し、次に黒いモデル1のポイント
の全数で割る(ステップ214) 3)合致した黒い画素のパーセンテージが所定のしきい
値のパーセンテージより上であれば、これらのボックス
は第1の検証(事例)では合致していると決定される
(ステップ216) 4)モデル2がイメージ1に重ね合わされる。 5)これら2つのイメージセクションは上記のステップ
2と同じく再び比較され、合致した黒い画素の第2のパ
ーセンテージを決定する(ステップ220) 6)この第2のパーセンテージが所定のしきい値のパー
センテージより上であれば、これらのボックスは第2の
検証で合致していると判断される(ステップ222)。
さらに、 7)両方の検証においてこれらのイメージセクションが
一致している場合は、これらは同じワードであると考え
られ、さらに、図2のコンパレータ24からワードが合
致した表示が出力される。(ステップ224)
る。 2)黒いイメージ2のポイントに合致する黒いモデル1
のポイントの数を計数し、次に黒いモデル1のポイント
の全数で割る(ステップ214) 3)合致した黒い画素のパーセンテージが所定のしきい
値のパーセンテージより上であれば、これらのボックス
は第1の検証(事例)では合致していると決定される
(ステップ216) 4)モデル2がイメージ1に重ね合わされる。 5)これら2つのイメージセクションは上記のステップ
2と同じく再び比較され、合致した黒い画素の第2のパ
ーセンテージを決定する(ステップ220) 6)この第2のパーセンテージが所定のしきい値のパー
センテージより上であれば、これらのボックスは第2の
検証で合致していると判断される(ステップ222)。
さらに、 7)両方の検証においてこれらのイメージセクションが
一致している場合は、これらは同じワードであると考え
られ、さらに、図2のコンパレータ24からワードが合
致した表示が出力される。(ステップ224)
【0036】繰り返すと、本発明は、イメージデータの
配列内に現れたテキストあるいはキャラクターストリン
グの境界をその形状から決める方法あるいは装置であっ
て、このストリングを構成する1つあるいは複数のキャ
ラクターを個々に検出あるいは識別しなくても良い方法
に関するものである。この方法では、ワード内の連結さ
れた要素を検出し、まずテキストラインの境界を決め、
そして、テキスト行内の連結された要素を分離するもの
である。続いて、その行内の要素間の関係(すなわち、
重なり、キャラクター間のスペーシング、およびワード
間のスペーシング)に基づき連結した要素の隣合ったセ
ットを繋げて、ワードあるいは意味の解釈できる同様の
ユニットにする。
配列内に現れたテキストあるいはキャラクターストリン
グの境界をその形状から決める方法あるいは装置であっ
て、このストリングを構成する1つあるいは複数のキャ
ラクターを個々に検出あるいは識別しなくても良い方法
に関するものである。この方法では、ワード内の連結さ
れた要素を検出し、まずテキストラインの境界を決め、
そして、テキスト行内の連結された要素を分離するもの
である。続いて、その行内の要素間の関係(すなわち、
重なり、キャラクター間のスペーシング、およびワード
間のスペーシング)に基づき連結した要素の隣合ったセ
ットを繋げて、ワードあるいは意味の解釈できる同様の
ユニットにする。
【0037】この発明は好ましい実施例を参照して説明
してあるように、コンピュータシステムにおいて使用で
きるように設計されたソフトウェア手段として説明して
あり、所定の指示を実行する1つあるいはそれ以上のマ
イクロプロセッサーあるいは計算能力のある処理装置を
用いて、これらに対しイメージデータの処理に関して上
記にて説明したような操作を行えるようにしている。さ
らに、本発明は、ここで説明した処理を行えるように設
計された特定のハードウェアを用いても実現できる。さ
らに、本発明は、大きなワード認識システムの一部とし
て説明してある。しかし、先に記載したように、本発明
はテキストあるいはイメージの編集、あるいはそれに係
わるシステムにも用いることが可能である。現実的に
は、断続的なワードオブジェクトを分離したり、あるい
は関係のないマークを除くことが必要ないずれのシステ
ムにも本発明を用いることができる。最後に、本発明は
テキスト形式のイメージを元に説明してある。しかし、
テキスト形式でないイメージを部分を含んだイメージに
対しても同様に適用することもできる。
してあるように、コンピュータシステムにおいて使用で
きるように設計されたソフトウェア手段として説明して
あり、所定の指示を実行する1つあるいはそれ以上のマ
イクロプロセッサーあるいは計算能力のある処理装置を
用いて、これらに対しイメージデータの処理に関して上
記にて説明したような操作を行えるようにしている。さ
らに、本発明は、ここで説明した処理を行えるように設
計された特定のハードウェアを用いても実現できる。さ
らに、本発明は、大きなワード認識システムの一部とし
て説明してある。しかし、先に記載したように、本発明
はテキストあるいはイメージの編集、あるいはそれに係
わるシステムにも用いることが可能である。現実的に
は、断続的なワードオブジェクトを分離したり、あるい
は関係のないマークを除くことが必要ないずれのシステ
ムにも本発明を用いることができる。最後に、本発明は
テキスト形式のイメージを元に説明してある。しかし、
テキスト形式でないイメージを部分を含んだイメージに
対しても同様に適用することもできる。
【図1】本発明を使用できるイメージ処理システムの概
略のシステムダイヤグラムである。
略のシステムダイヤグラムである。
【図2】新規のワードイメージの認識システムの実施例
を構成するシステム要素の組み合わせを示すブロックグ
ラムである。
を構成するシステム要素の組み合わせを示すブロックグ
ラムである。
【図3】新規のプロセスを説明するために例としたテキ
ストを抽出したイメージサンプルを示す図である。
ストを抽出したイメージサンプルを示す図である。
【図4】本発明のプロセスの途中の段階の、例としたテ
キストをスキャンしたイメージの一部を示す図である。
キストをスキャンしたイメージの一部を示す図である。
【図5】本発明のプロセスの途中の段階の、例としたテ
キストをスキャンしたイメージの一部を示す図である。
キストをスキャンしたイメージの一部を示す図である。
【図6】本発明のプロセスの途中の段階の、例としたテ
キストをスキャンしたイメージの一部を示す図である。
キストをスキャンしたイメージの一部を示す図である。
【図7】あるイメージ内のワードの境界を決めるための
プロセスを示すフローチャートである。
プロセスを示すフローチャートである。
【図8】あるイメージ内のワードの境界を決めるための
プロセスを示すフローチャートである。
プロセスを示すフローチャートである。
【図9】図7のステップ87で求められたヒストグラム
データを示すグラフである。
データを示すグラフである。
【図10】図8のステップ98で求められたヒストグラ
ムデータを示すグラフである。
ムデータを示すグラフである。
【図11】この発明により規定されたワードの境界内の
イメージを対比するためのプロセスの概略を示すフロー
チャートである。
イメージを対比するためのプロセスの概略を示すフロー
チャートである。
2・・ソース 4・・イメージ処理 6・・ユーザーインタフェース 8・・出力先 10・・入力イメージ 14・・デスキューワー 16・・ワードボクサー 18・・ワードセグメンター 24・・ワード比較器 26・・ワードイメージの「辞書」
Claims (2)
- 【請求項1】 あるイメージを規定するラスタ化された
データの中から少なくとも1つのワードオブジェクトを
抽出する方法であって、 (a)前記イメージの中から結合した要素を見つけ、 (b)前記イメージ内の連結した要素のグループ毎に境
界を識別し、 (c)前記ステップ(b)で識別された前記境界を用い
てテキスト行を探し出し、さらに、 (d)前記ステップ(c)で探し出した前記テキスト行
内の連結した要素のグループの隣接したものを、それら
の隣接したグループの境界の間の関係を基に結合し、イ
メージをワードオブジェクトに分割する、 ことを含むワードオブジェクト抽出方法。 - 【請求項2】 テキスト情報を主に含んだあるイメージ
を規定するラスタ化されたデータの中のノイズを除去す
る方法であって、 (a)前記イメージの中から結合した要素を見つけ、 (b)前記イメージ内の連結した要素のグループ毎に境
界を識別し、 (c)前記ステップ(b)で識別された境界を用いてテ
キスト行を探し出し、 (d)前記ステップ(c)で探し出した前記テキスト行
内の連結した要素のグループの隣接したものを、それら
の隣接したグループの境界の間の関係を基に結合して、
イメージをワードオブジェクトの境界を画定し、さら
に、 (e)ワードオブジェクトの前記境界内に入らなかった
連結した要素のグループの全てをノイズとすることによ
って、これらをイメージから除去可能とする、 ことを含むラスタ化イメージ内のノイズ除去方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US169949 | 1988-03-18 | ||
| US08/169,949 US5410611A (en) | 1993-12-17 | 1993-12-17 | Method for identifying word bounding boxes in text |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH07200732A true JPH07200732A (ja) | 1995-08-04 |
Family
ID=22617878
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6333099A Ceased JPH07200732A (ja) | 1993-12-17 | 1994-12-14 | ワードオブジェクト抽出方法及びラスタ化イメージ内のノイズ除去方法 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US5410611A (ja) |
| JP (1) | JPH07200732A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012133595A (ja) * | 2010-12-21 | 2012-07-12 | Fujitsu Ltd | 画像処理装置、画像処理方法および画像処理プログラム |
| CN112686223A (zh) * | 2021-03-12 | 2021-04-20 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
Families Citing this family (70)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2933801B2 (ja) * | 1993-06-11 | 1999-08-16 | 富士通株式会社 | 文字の切り出し方法及びその装置 |
| US5710916A (en) * | 1994-05-24 | 1998-01-20 | Panasonic Technologies, Inc. | Method and apparatus for similarity matching of handwritten data objects |
| DE69525401T2 (de) * | 1994-09-12 | 2002-11-21 | Adobe Systems, Inc. | Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind |
| CA2154952A1 (en) * | 1994-09-12 | 1996-03-13 | Robert M. Ayers | Method and apparatus for identifying words described in a page description language file |
| JP3375766B2 (ja) * | 1994-12-27 | 2003-02-10 | 松下電器産業株式会社 | 文字認識装置 |
| US5999647A (en) * | 1995-04-21 | 1999-12-07 | Matsushita Electric Industrial Co., Ltd. | Character extraction apparatus for extracting character data from a text image |
| US5889884A (en) * | 1995-05-23 | 1999-03-30 | Minolta Co., Ltd. | Image forming apparatus capable of recognizing top and bottom of document image |
| US5764799A (en) * | 1995-06-26 | 1998-06-09 | Research Foundation Of State Of State Of New York | OCR method and apparatus using image equivalents |
| US5850476A (en) * | 1995-12-14 | 1998-12-15 | Xerox Corporation | Automatic method of identifying drop words in a document image without performing character recognition |
| US5848191A (en) * | 1995-12-14 | 1998-12-08 | Xerox Corporation | Automatic method of generating thematic summaries from a document image without performing character recognition |
| US5892842A (en) * | 1995-12-14 | 1999-04-06 | Xerox Corporation | Automatic method of identifying sentence boundaries in a document image |
| US5956468A (en) * | 1996-07-12 | 1999-09-21 | Seiko Epson Corporation | Document segmentation system |
| US6094484A (en) * | 1996-10-16 | 2000-07-25 | Convey Corporation | Isomorphic pattern recognition |
| US6275610B1 (en) | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
| AU4915097A (en) * | 1996-10-16 | 1998-05-11 | Convey Corporation | Isomorphic pattern recoginition |
| US6549680B1 (en) * | 1998-06-23 | 2003-04-15 | Xerox Corporation | Method and apparatus for deskewing and despeckling of images |
| US7254823B2 (en) * | 1998-08-21 | 2007-08-07 | United Video Properties, Inc. | Apparatus and method for constrained selection of favorite channels |
| JP3204259B2 (ja) * | 1999-10-06 | 2001-09-04 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置 |
| US6868524B1 (en) * | 1999-10-22 | 2005-03-15 | Microsoft Corporation | Method and apparatus for text layout across a region |
| US6904182B1 (en) * | 2000-04-19 | 2005-06-07 | Microsoft Corporation | Whiteboard imaging system |
| US8682077B1 (en) | 2000-11-28 | 2014-03-25 | Hand Held Products, Inc. | Method for omnidirectional processing of 2D images including recognizable characters |
| US6912308B2 (en) * | 2000-12-01 | 2005-06-28 | Targus Communications Corp. | Apparatus and method for automatic form recognition and pagination |
| US7020338B1 (en) * | 2002-04-08 | 2006-03-28 | The United States Of America As Represented By The National Security Agency | Method of identifying script of line of text |
| US7400748B2 (en) * | 2003-12-16 | 2008-07-15 | Xerox Corporation | Method for assisting visually impaired users of a scanning device |
| JP2005301664A (ja) * | 2004-04-12 | 2005-10-27 | Fuji Xerox Co Ltd | 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム |
| TWI284288B (en) * | 2004-06-04 | 2007-07-21 | Benq Corp | Text region recognition method, storage medium and system |
| JP4477468B2 (ja) * | 2004-10-15 | 2010-06-09 | 富士通株式会社 | 組み立て図面の装置部品イメージ検索装置 |
| WO2007024216A1 (en) * | 2005-08-23 | 2007-03-01 | The Mazer Corporation | Test scoring system and method |
| JP2007116469A (ja) * | 2005-10-20 | 2007-05-10 | Ricoh Co Ltd | 媒体処理方法、複写装置、及びデータファイリング装置 |
| CN101354746B (zh) * | 2007-07-23 | 2011-08-31 | 夏普株式会社 | 文字图像抽出装置及文字图像抽出方法 |
| US7711192B1 (en) * | 2007-08-23 | 2010-05-04 | Kaspersky Lab, Zao | System and method for identifying text-based SPAM in images using grey-scale transformation |
| US7706613B2 (en) * | 2007-08-23 | 2010-04-27 | Kaspersky Lab, Zao | System and method for identifying text-based SPAM in rasterized images |
| US8009928B1 (en) * | 2008-01-23 | 2011-08-30 | A9.Com, Inc. | Method and system for detecting and recognizing text in images |
| KR101015663B1 (ko) * | 2008-06-24 | 2011-02-22 | 삼성전자주식회사 | 문자인식장치에서의 문자인식방법 및 그 장치 |
| US8620080B2 (en) * | 2008-09-26 | 2013-12-31 | Sharp Laboratories Of America, Inc. | Methods and systems for locating text in a digital image |
| US9003531B2 (en) * | 2009-10-01 | 2015-04-07 | Kaspersky Lab Zao | Comprehensive password management arrangment facilitating security |
| US8218875B2 (en) * | 2010-06-12 | 2012-07-10 | Hussein Khalid Al-Omari | Method and system for preprocessing an image for optical character recognition |
| US9158983B2 (en) | 2010-07-08 | 2015-10-13 | E-Image Data Corporation | Microform word search method and apparatus |
| WO2012009333A2 (en) | 2010-07-12 | 2012-01-19 | Google Inc. | System and method of determining building numbers |
| US8208726B2 (en) | 2010-07-22 | 2012-06-26 | Hewlett-Packard Development Company, L.P. | Method and system for optical character recognition using image clustering |
| US8731296B2 (en) * | 2011-04-21 | 2014-05-20 | Seiko Epson Corporation | Contact text detection in scanned images |
| US9245051B2 (en) * | 2011-09-20 | 2016-01-26 | Nokia Technologies Oy | Method and apparatus for conducting a search based on available data modes |
| US8798995B1 (en) * | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
| US8788930B2 (en) * | 2012-03-07 | 2014-07-22 | Ricoh Co., Ltd. | Automatic identification of fields and labels in forms |
| US20140044303A1 (en) * | 2012-08-10 | 2014-02-13 | Lexmark International, Inc. | Method of Securely Scanning a Payment Card |
| US9256592B1 (en) * | 2012-11-07 | 2016-02-09 | Amazon Technologies, Inc. | System for detecting and correcting broken words |
| JP6116531B2 (ja) * | 2014-08-08 | 2017-04-19 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
| CN105446952B (zh) * | 2014-08-20 | 2019-03-19 | 国际商业机器公司 | 用于处理语义片段的方法和系统 |
| JP6208094B2 (ja) * | 2014-08-26 | 2017-10-04 | 株式会社東芝 | 情報処理装置、情報処理システム、情報処理方法及びそのプログラム |
| JP6548920B2 (ja) | 2015-03-09 | 2019-07-24 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
| US10395133B1 (en) * | 2015-05-08 | 2019-08-27 | Open Text Corporation | Image box filtering for optical character recognition |
| US9678642B2 (en) * | 2015-05-29 | 2017-06-13 | Lexmark International, Inc. | Methods of content-based image area selection |
| JP2017021695A (ja) | 2015-07-14 | 2017-01-26 | 株式会社東芝 | 情報処理装置および情報処理方法 |
| US10121232B1 (en) * | 2015-12-23 | 2018-11-06 | Evernote Corporation | Visual quality of photographs with handwritten content |
| WO2020194004A1 (en) | 2019-03-28 | 2020-10-01 | The Nielsen Company (Us), Llc | Methods and apparatus to detect a text region of interest in a digital image using machine-based analysis |
| US11410446B2 (en) | 2019-11-22 | 2022-08-09 | Nielsen Consumer Llc | Methods, systems, apparatus and articles of manufacture for receipt decoding |
| CN111325195B (zh) * | 2020-02-17 | 2024-01-26 | 支付宝(杭州)信息技术有限公司 | 文本识别方法、装置及电子设备 |
| US11810380B2 (en) | 2020-06-30 | 2023-11-07 | Nielsen Consumer Llc | Methods and apparatus to decode documents based on images using artificial intelligence |
| CA3124868A1 (en) | 2020-07-17 | 2022-01-17 | Nielsen Consumer Llc | Methods, systems, articles of manufacture and apparatus to categorize image text |
| US11657629B2 (en) * | 2020-10-22 | 2023-05-23 | Paypal, Inc. | Content extraction based on graph modeling |
| US11822216B2 (en) | 2021-06-11 | 2023-11-21 | Nielsen Consumer Llc | Methods, systems, apparatus, and articles of manufacture for document scanning |
| US12327425B2 (en) | 2021-06-24 | 2025-06-10 | Nielsen Consumer Llc | Methods, systems, articles of manufacture, and apparatus for decoding purchase data using an image |
| US12229741B2 (en) | 2021-06-24 | 2025-02-18 | Nielsen Consumer Llc | Methods, systems, articles of manufacture, and apparatus for decoding purchase data using an image |
| US11625930B2 (en) | 2021-06-30 | 2023-04-11 | Nielsen Consumer Llc | Methods, systems, articles of manufacture and apparatus to decode receipts based on neural graph architecture |
| US12175782B2 (en) | 2021-07-12 | 2024-12-24 | Nielsen Consumer Llc | Methods, systems, articles of manufacture and apparatus to label text on images |
| US12288405B2 (en) | 2021-12-22 | 2025-04-29 | Nielsen Consumer Llc | Methods, systems, articles of manufacture and apparatus to extract region of interest text from receipts |
| US12229805B2 (en) | 2021-12-30 | 2025-02-18 | Nielsen Consumer Llc | Methods, systems, articles of manufacture, and apparatus for processing an image using visual and textual information |
| US12315283B2 (en) | 2022-01-14 | 2025-05-27 | Nielsen Consumer Llc | Methods, systems, articles of manufacture, and apparatus for decoding images |
| US12322195B2 (en) | 2022-07-06 | 2025-06-03 | Nielsen Consumer Llc | Methods, systems, articles of manufacture, and apparatus to determine related content in a document |
| US12548360B2 (en) | 2022-09-15 | 2026-02-10 | Nielsen Consumer Llc | Methods, systems, articles of manufacture, and apparatus to tag segments in a document |
Family Cites Families (34)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US2905927A (en) * | 1956-11-14 | 1959-09-22 | Stanley F Reed | Method and apparatus for recognizing words |
| US3133266A (en) * | 1960-06-14 | 1964-05-12 | Bell Telephone Labor Inc | Automatic recognition of handwriting |
| US3295105A (en) * | 1964-08-27 | 1966-12-27 | Sylvania Electric Prod | Scan control and normalization for a character recognition system |
| JPS5729745B2 (ja) * | 1974-09-25 | 1982-06-24 | ||
| US4155072A (en) * | 1976-12-17 | 1979-05-15 | Ricoh Company, Ltd. | Character recognition apparatus |
| US4326190A (en) * | 1978-08-30 | 1982-04-20 | Borland David L | Boundary trace slope feature detection system |
| DE3107655A1 (de) * | 1981-02-27 | 1982-09-16 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zum auffinden und abgrenzen von textbereichen auf einer vorlage, die text-, graphik- und/oder bildbereiche enthalten kann |
| US4400828A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Word recognizer |
| US4495644A (en) * | 1981-04-27 | 1985-01-22 | Quest Automation Public Limited Company | Apparatus for signature verification |
| US4558461A (en) * | 1983-06-17 | 1985-12-10 | Litton Systems, Inc. | Text line bounding system |
| US4864628A (en) * | 1983-08-26 | 1989-09-05 | Texas Instruments Incorporated | Method of optical character recognition |
| US4701960A (en) * | 1983-10-28 | 1987-10-20 | Texas Instruments Incorporated | Signature verification |
| US4731857A (en) * | 1984-06-29 | 1988-03-15 | International Business Machines Corporation | Recognition system for run-on handwritten characters |
| US4764972A (en) * | 1985-05-23 | 1988-08-16 | Nec Corporation | Continuous characters recognition system |
| US4918740A (en) * | 1985-10-01 | 1990-04-17 | Palantir Corporation | Processing means for use in an optical character recognition system |
| JPS63158678A (ja) * | 1986-12-23 | 1988-07-01 | Sharp Corp | 単語間スペ−ス検出方法 |
| JP3014097B2 (ja) * | 1987-02-20 | 2000-02-28 | 株式会社日立製作所 | 輪郭追跡方法及びシステム |
| US4827529A (en) * | 1987-04-14 | 1989-05-02 | Nippon Sheet Glass Co., Ltd. | Lines and characters separation apparatus |
| JPS63268081A (ja) * | 1987-04-17 | 1988-11-04 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | 文書の文字を認識する方法及び装置 |
| US4949281A (en) * | 1987-04-23 | 1990-08-14 | H. Berthold Ag | Method and apparatus for generating and producing two-dimensional graphic object by polynominal parametric curves |
| US4809344A (en) * | 1987-05-11 | 1989-02-28 | Nippon Sheet Glass Co., Ltd. | Apparatus for preprocessing of character recognition |
| JPH01112388A (ja) * | 1987-10-26 | 1989-05-01 | Ricoh Co Ltd | 文字認識処理方法 |
| JP2619429B2 (ja) * | 1987-11-05 | 1997-06-11 | グローリー工業株式会社 | 接触文字の分離方法 |
| JPH01183793A (ja) * | 1988-01-18 | 1989-07-21 | Toshiba Corp | 文字認識装置 |
| JP2727549B2 (ja) * | 1988-01-29 | 1998-03-11 | 日本電気株式会社 | 最適画質選択装置 |
| US4998285A (en) * | 1988-03-11 | 1991-03-05 | Kabushiki Kaisha Toshiba | Character recognition apparatus |
| JP2822189B2 (ja) * | 1988-05-19 | 1998-11-11 | ソニー株式会社 | 文字認識装置及び方法 |
| US4949392A (en) * | 1988-05-20 | 1990-08-14 | Eastman Kodak Company | Document recognition and automatic indexing for optical character recognition |
| US5214719A (en) * | 1989-02-28 | 1993-05-25 | Phoenix Imaging | Computer-based system and method for character recognition |
| JPH0816918B2 (ja) * | 1989-04-18 | 1996-02-21 | シャープ株式会社 | 行抽出方法 |
| JPH02306386A (ja) * | 1989-05-20 | 1990-12-19 | Toshiba Corp | 文字認識装置 |
| US5216725A (en) * | 1990-10-31 | 1993-06-01 | Environmental Research Institute Of Michigan | Apparatus and method for separating handwritten characters by line and word |
| US5142589A (en) * | 1990-12-21 | 1992-08-25 | Environmental Research Institute Of Michigan | Method for repairing images for optical character recognition performing different repair operations based on measured image characteristics |
| US5303313A (en) * | 1991-12-16 | 1994-04-12 | Cartesian Products, Inc. | Method and apparatus for compression of images |
-
1993
- 1993-12-17 US US08/169,949 patent/US5410611A/en not_active Expired - Fee Related
-
1994
- 1994-12-14 JP JP6333099A patent/JPH07200732A/ja not_active Ceased
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012133595A (ja) * | 2010-12-21 | 2012-07-12 | Fujitsu Ltd | 画像処理装置、画像処理方法および画像処理プログラム |
| CN112686223A (zh) * | 2021-03-12 | 2021-04-20 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
| CN112686223B (zh) * | 2021-03-12 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| US5410611A (en) | 1995-04-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH07200732A (ja) | ワードオブジェクト抽出方法及びラスタ化イメージ内のノイズ除去方法 | |
| US5539841A (en) | Method for comparing image sections to determine similarity therebetween | |
| JP3343864B2 (ja) | 語体の分離方法 | |
| US5390259A (en) | Methods and apparatus for selecting semantically significant images in a document image without decoding image content | |
| JP3278471B2 (ja) | 領域分割方法 | |
| US5570435A (en) | Segmentation of text styles | |
| US5384863A (en) | Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding | |
| Antonacopoulos et al. | A robust braille recognition system | |
| JP3345224B2 (ja) | パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置 | |
| JP3452774B2 (ja) | 文字認識方法 | |
| EP2553626A2 (en) | Segmentation of textual lines in an image that include western characters and hieroglyphic characters | |
| Ma et al. | Adaptive Hindi OCR using generalized Hausdorff image comparison | |
| JPH01253077A (ja) | 文字列検出方法 | |
| KR102627591B1 (ko) | 문서로부터 정보를 추출하기 위한 장치의 동작 방법 및 그 장치 | |
| US6947596B2 (en) | Character recognition method, program and recording medium | |
| CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
| Rahiman et al. | A detailed study and analysis of ocr research in south indian scripts | |
| Kumar et al. | Line based robust script identification for indianlanguages | |
| US11710331B2 (en) | Systems and methods for separating ligature characters in digitized document images | |
| JPH0991385A (ja) | 文字認識辞書追加方法及びこれを用いた端末ocr装置 | |
| JPH0728935A (ja) | 文書画像処理装置 | |
| Hajdu et al. | Recognizing typeset documents using Walsh transformation | |
| Puri et al. | Sentence detection and extraction in machine printed imaged document using matching technique | |
| JPH0652358A (ja) | 文字認識方法 | |
| JP3151866B2 (ja) | 英文字認識方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20031118 |
|
| A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20060627 |