JPH09134372A - 文書検索方法及び装置 - Google Patents
文書検索方法及び装置Info
- Publication number
- JPH09134372A JPH09134372A JP8219939A JP21993996A JPH09134372A JP H09134372 A JPH09134372 A JP H09134372A JP 8219939 A JP8219939 A JP 8219939A JP 21993996 A JP21993996 A JP 21993996A JP H09134372 A JPH09134372 A JP H09134372A
- Authority
- JP
- Japan
- Prior art keywords
- document
- descriptor
- character
- target
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Abstract
テムで、文書の記述子を比較し目的文書に全体または部
分的に一致する文書を検索する。 【解決手段】 1つのイメージ内の隣接画素を調べるこ
とにより1個の囲みボックスが発見される。1個の囲み
ボックスと関連する特殊ラベルは、その囲みボックスか
ら測定した距離値により異なる。一つのシステムにおい
て、その距離値は、1つの囲みボックスと隣接囲みボッ
クス間のスペースであり、前記ラベルはワード長パター
ンを近似的に反映している。ワード長が存在しない他の
システムにおいては、距離値は画素濃度であり、ラベル
は濃厚文字パターン及び希薄文字パターンを近似的に反
映している。この文書管理システムまたはこの文書管理
システムの照合部分のみを複写機の一部とすることがで
きる。この複写機はサンプル頁が入力されると、一致文
書を検索して印刷する。
Description
野に関し、より詳細には、目的文書をその文書の内容例
を用いて検索する文書管理システムに関する。
ルチアクセス冗長ハッシングによる画像のマッチングと
検索”(1994年4月1日に出願し、現在審査中の出願番号
08/222,281)(以後、ハルと簡略して参照する)は、目
的文書中のサンプルページを入力とする文書管理システ
ムから、その目的文書を検索する新しい方法を開示して
いる。そのシステムにおいて、各保存文書から記述子を
抽出し、記述子データベースに保存している。目的文書
を検索するために必要とされるのは、サンプルページ1
頁または1頁の一部のみである。
ムに提示されると、該サンプルページから記述子が抽出
され、前記記述子データベース中の記述子と一致照合さ
れる。記述子は各々の保存文書とサンプルページから多
数抽出されるので冗長である。ハルの説明によれば、多
数の記述子が目的文書とサンプルページ間で一致し得る
が、しかし、エラーは探索にとって致命的なもではな
い。そのシステムにおいて、文書は記述子の一致に基づ
く得票を蓄積し、最も高い得票数の文書を目的文書とし
て戻す。ハルにより開示された記述子の中、図形記述子
はページ中の図形の主特徴をテキスト記述子は文字パタ
ーンまたはワード長の記述に当てられる。
文書管理システムは、ページ画像用記述子を形成するた
めに、文書またはサンプルページのディジタル化画像よ
り文字を認識する光学的文字認識システムを用いてお
り、高価な計算操作を要するので、テキストより記述子
を発生させるより効率的な方法が要求される。
理システムを提供する。その1つの実施例においては、
複数文書のページを走査し文書管理システムの記憶装置
に保管し、サンプルページを検索プロセスの一部として
走査して、ほとんど計算することなく前記ページから抽
出可能な記述子によって記述する。特殊な実施例におい
ては、各々の結合成分の周囲を囲むボックスを形成し、
ボックス間の間隔を測定する。ボックス間の間隔のヒス
トグラムを検出し、閾値を決定する。その閾値より小さ
い間隔は、文字間の間隔と見なし、閾値より大きい間隔
はワード間の間隔と見なす。それらの間隔パターンを記
述子に翻訳する。他の実施例の場合、例えば、日本語の
テキストまたは異なる濃度のアルファベットの2文字を
用いる他のテキストの場合、文字間のスペースはあまり
なく、ボックス間のスペースの代わりに、囲みボックス
の画素濃度のヒストグラムを用いる。文字の裂目をアド
レスするために、オーバラップする囲みボックスを1つ
の囲みボックスに結合する。必要に応じ言語検出前置プ
ロセッサを使用し、文書の言語を検出することができ、
しかるべき記述子の抽出に適用できる。文字スペースが
文書の場合、文字間のスペースを用いて囲みボックスを
さらに定義することができる。
システムの照合部を、複写機に結合することも可能であ
る。かような実施例の場合、ユーザはサンプルページを
複写機に入力すると、複写機が目的文書を検索して印刷
する。
文書を、参照文書と大文書として交代使用する。音声文
書記述子は、1ワード当りの音素パターンまたは1ワー
ド当たりの文字パターンの何れかを用いることができ
る。前者の場合、音韻識別子を使用し、その音韻識別子
はワード間の無声間隔を識別できる。後者の場合、音声
認識装置を用いて音声をテキストに変換し、そのテキス
トに基づき記述子を発生させる。
一致文書を保存した文書データベースを含む文書検索シ
ステムにおいて、前記照合一致文書が目的文書であるか
あるいは前記目的文書と共通する複数の要素を有する文
書であり、前記目的文書を用いて前記照合一致文書を特
定する方法において、該方法が前記文書検索システムに
前記目的文書のイメージを入力するステップと、前記目
的文書イメージ中の文字の境界を検出するステップと、
前記文字境界の1サンプルについて文字間の間隔を測定
し、文字間隔の分布を知るステップと、前記文字間隔の
分布における閾(しきい)値で、ワード間スペースとワ
ード内スペースと関連する文字間間隔値の少なくとも近
似区分である閾値を決定するステップと、文字間の間隔
を前記閾値に基づくワード間またはワード内間隔として
ラベリングするステップと、前記ワード間及びワード内
ラベルのパターンに基づき、前記目的文書の記述子を作
成するステップと、前記目的文書のために作成した前記
記述子を使用し、前記文書データベース内の複数文書用
記述子のインデックスを探索するステップと、前記文書
データベース内の少なくとも1つの文書を、その少なく
とも1つの文書が前記目的文書と共通の記述子を非一致
文書より多く有している場合に、一致文書として確認す
るステップとよりなる目的文書を用いて一致文書を特定
することを特徴としたものである。
て、前記サンプルが全ての文字間スペースよりなること
を特徴としたものである。
て、文字の境界と文字間のスペースが測定誤差を含んで
いることを特徴としたものである。
て、前記閾値を決定する前記ステップが、文字間のスペ
ース値のヒストグラムを形成し、前記ヒストグラムにお
いて、最も頻度の高い文字間スペースに関連する最高ピ
ークを確定し、前記ヒストグラムにおいて、最も頻度の
高い文字間スペースに関連する最低ピークを確定し、前
記最高ピークと前記最低ピーク間の最小ヒストグラム値
を確定し、前記最小ヒストグラム値を閾値として確定す
ることによりなることを特徴としたものである。
致文書を文書データベースから検索する文書検索装置に
おいて、前記目的文書のイメージ内容に基づき、前記目
的文書内の文字の境界を検出する文字検出手段と、前記
文字検出手段と結合し、前記文字境界の少なくとも1つ
のはっきりとした特徴に基づき、前記文字境界をクラス
別に判別する判別手段と、前記文字検出手段と結合し、
文字境界の等級表示を受信し、該等級表示パターンに基
づき目標文書用記述子を生成する記述子発生手段と、前
記記述子発生手段に前記目的文書の前記記述子を受信す
るために結合し、前記目的文書と共通の記述子を有する
一致文書の可能性のある文書のデータベースを探索する
探索手段と、前記探索手段に結合して一致の可能性のあ
る1セットの文書を受信し、少なくとも1つの一致文書
を一致の可能性のある前記文書の中から選定する評価手
段と、前記評価手段と結合している前記目的文書が入力
され、検索要求の結果として少なくとも1つの一致文書
またはその表示を出力する出力手段を具備したことを特
徴としたものである。
て、前記のはっきりとした特徴が文字境界間のスペース
であることを特徴としたものである。
て、前記のはっきりとした特徴が各文字境界内の画素濃
度であることを特徴としたものである。
て、前記目的文書の前記文字が日本語文字であることを
特徴としたものである。
て、前記判別手段が文字の境界を2つの等級のいずれか
に判別することを特徴としたものである。
いて、前記2つの等級がある閾値より小さいスペースを
持つ文字境界域と該閾値より大きいスペースを持つ文字
境界域であることを特徴としたものである。
いて、前記2つの等級がある閾値より低い画素濃度を持
つ文字境界域と該閾値より高い画素濃度を持つ文字境界
域であることを特徴としたものである。
いて、前記目的文書を紙文書として入力することを特徴
としたものである。
いて、前記目的文書を前記目的文書の電子画像として入
力することを特徴としたものである。
文書データベースを含む文書検索システムにおいて、前
記照合文書が目的文書であるかあるいは前記目的文書と
共通する複数の要素を有する文書であり、前記目的文書
を用いて前記照合文書を特定する方法において、該方法
が前記文書検索システムに前記目的文書のイメージを入
力するステップと、前記目的文書イメージ中の文字の境
界を検出するステップと、前記文字境界を複数含むサン
プルについて、各文字境界毎に測量値(メトリック)を
測定し、該測量値の分布を知るステップと、前記測量値
の分布を複数の範囲に分割し、各範囲に文字境界の1つ
の等級と関連づけるステップと、各文字境界を前記文字
境界毎の前記測量値に基づく等級表示でラベル処理する
ステップと、前記等級表示パターンに基づき、前記目的
文書用記述子を生成するステップと、前記目的文書のた
めに作成した前記記述子を使用し、前記文書データベー
ス内の複数文書用記述子のインデックスを探索するステ
ップと、前記文書データベース内の少なくとも1つの文
書を、前記目的文書と共通の記述子を非一致文書より多
く有している場合に、一致文書として確認するステップ
とよりなる目的文書を用いて一致文書を特定することを
特徴としたものである。
おいて、前記測量値が1つの文字境界と隣接するもう1
つの文字境界の間のスペースであることを特徴としたも
のである。
おいて、前記測量値が前記文字境界内の画素濃度である
ことを特徴としたものである。
おいて、前記測量値の複数の範囲が前記測量値の閾値に
よって分割された2つの範囲であることを特徴としたも
のである。
容から導出する参照文書用のデータベースと、1つの参
照記述子がワード長パターンの少なくとも一部を記述
し、前記参照記述子により記述された前記ワード長パタ
ーンが、前記特定参照文書中に発見された時に、前記特
定参照記述子と前記特定参照文書を前記記述子データベ
ース内で結合する記述子データベースと、前記文書デー
タベースの前記参照文書に照合する入力文書の内容を入
力する手段と、前記入力手段と結合し、前記入力文書か
ら前記入力文書中のワード長パターンの少なくとも一部
分を記述する少なくとも1つの入力記述子を派生させる
記述子派生手段と、前記記述子派生手段に結合し、前記
入力記述子と一致する参照記述子と関連する参照文書の
表示を出力する出力手段によりなる入力文書を文書デー
タベース中の参照文書と照合することを特徴としたもの
である。
おいて、前記入力文書と目的文書の形式が、ASCII文
書,音声文書,ページ記述言語文書またはワード処理フ
ォーマット文書であることを特徴としたものである。
おいて、前記ワード長がワード当りの音素数またはワー
ド当りの文字数であることを特徴としたものである。
容から導出する参照文書用のデータベースと、1つの参
照記述子が文字濃度パターンの少なくとも一部を記述
し、前記参照記述子により記述された前記文字濃度パタ
ーンが前記特定参照文書中に発見された時に、前記特定
参照記述子と前記特定参照文書を前記記述子データベー
ス内で結合する記述子データベースと、前記文書データ
ベースの前記参照文書に照合する入力文書の内容を入力
する入力手段と、前記入力手段と結合し、前記入力文書
から前記入力文書中の文字濃度パターンの少なくとも一
部分を記述する少なくとも1つの入力記述子を派生させ
る記述子派生手段と、前記記述子派生手段に結合し、前
記入力記述子と一致する参照記述子と関連する参照文書
の表示を出力する出力手段よりなる入力文書を文書デー
タベース中の参照文書と照合することを特徴としたもの
である。
おいて、前記入力文書と目的文書の形式が、ASCII文
書,音声文書,ページ記述言語文書またはワード処理フ
ォーマット文書であることを特徴としたものである。
データベースを含む文書検索システムにおいて、前記照
合文書が目的文書であるかあるいは前記目的文書と共通
する複数の要素を有する文書であり、前記目的文書を用
いて前記照合文書を特定する方法において、該方法が前
記文書検索システムに前記目的文書のイメージを入力す
るステップと、前記目的文書イメージ中の特徴を複数の
特徴等級に従って検出するステップと、前記複数の特徴
等級の各等級毎に検出した特徴に基づき前記目的文書記
述子を生成するステップと、各特徴等級毎に前記目的文
書のために作成した前記記述子を使用し、前記文書デー
タベース内の複数文書用記述子のインデックスを探索す
るステップと、前記文書データベース内の少なくとも1
つの文書を、前記目的文書と共通の記述子を非一致文書
より多く有している場合に、一致文書として確認するス
テップとよりなる目的文書を用いて一致文書を特定する
ことを特徴としたものである。
おいて、前記複数の特徴等級がワード長パターンを記述
する文字間スペースの特徴等級とある閾値より大きかま
たは小さい文字濃度パターンを少なくとも記述している
文字画素濃度の特徴等級を含んでいることを特徴とした
ものである。
おいて、前記複数の特徴等級がワード長パターンを記述
するワード長の特徴等級とワード当りの音素数のパター
ンを記述する音素ワード長の特徴等級を含んでいること
を特徴としたものである。
おいて、前記複数の特徴等級がワード長パターンを記述
する文字間スペースの特徴等級と、ある閾値と比較した
文字濃度パターンを少なくとも記述している文字画素濃
度の特徴等級と、ワード当りの音素数のパターンを記述
する音素ワード長の特徴等級を含んでいることを特徴と
したものである。
実施例を最初に図示説明する。最初の実施例の場合、1
つの文書を他の文書と区別するためにスペースを使用し
ている。第2の実施例の場合は、文書を区別するために
文字濃度(密度)用い、参照文書及び/または目的文書
が音声及び/またはテキスト形式である何れかの実施例
を選択する。一般的には、これらの2つのシステムは、
同様に作動し共に同等に使用される。
ようにするためには、先ず文書のデータベースを生成し
なければならない。データベースを生成するために、文
書を入力する。文書が紙に記録したものだけであれば、
文書を走査し電子的にデジタル表示する。文書がすでに
電子形式になっている場合は、走査ステップは不必要と
なる。各文書につき1セットの記述子を作成する。1つ
の記述子は、文書の一部に対する1つのメトリックス
(測量値)・パターンである。例えば、その測量値が文
字間隔であり、2値のうち1つ(例えば、1=単語間間
隔,0=単語内間隔)をとる場合、文書のある部分また
は全体に対し1ビットを発生させることができる。代案
として、前記ビットパターンを1列の語長に圧縮する。
このビットパターンまたは語長パターンを記述子として
使用する。
子が取出され、それらの記述子がエラーを含み得ること
である。しかしながら、十分な記述子が採取されていれ
ば、エラーはハルの説明のようにフィルタで除去でき
る。これらの記述子をインデックスに保管し、該当文書
を文書データベースに保存する。
部または一部をシステムに入力する。これに一致する文
書は、前記目的文書と共通の記述子を一番多く有する文
書である。もちろん、最も有力な候補だけでなく、複数
の一致文書を検出するように文書一致に対する要求条件
を緩めることができる。これらの複数の一致文書をユー
ザに提示し、正しい文書を手動で選択してもらえばよ
い。
用記述子と同様にして得る。目的文書の記述子を同じ方
法で獲得するので、文字の境界の決定するプロセスは正
確ではなく、矛盾するものでなければよい。測量値の測
定プロセスについても同様である。かように、幾つかの
ワード内スペースをワード内スペースとしてラベルを付
けると、データベース内でも目的文書と同様のラベルが
生じるので、記述子はラベル処理がワード内スペースの
正確なラベル付でない場合でも一致することが期待でき
る。
図であり、該システムは、入力文書14用取入れプロセ
ッサ12,文書データベース16,記述子データベース
18,目的文書のサンプルページ22を処理してサンプ
ルページ22と一致する目的文書24を出力する照合プ
ロセッサ20を含んでいる。取入れプロセッサ12と照
合プロセッサ20のいずれも一個の高速記述子発生器4
0を有している。取入れプロセッサ12は、入力文書1
4のような複数の入力文書を受け入れて文書データベー
ス16内に保存し、その間に各入力文書用記述子を発生
し記述子データベース18に保存する。
2を受取り、付属の記述子発生器40を使用し前記サン
プルページ用記述子を発生する。もちろん、幾つかの実
施例においては、記述子発生器を1つだけにし、取入れ
プロセッサ12と照合プロセッサ20の両方で共用す
る。照合プロセッサ20は、記述子を記述子データベー
ス18に照合し、サンプルページ22と共通する記述子
を有する前記文書データベース16内の文書を識別する
一致点を返送するために記述子データベース18に接続
してある。照合プロセッサ20は、記述子データベース
から得た文書識別子に基づき文書を検索するために、文
書データベース16にも接続してある。この照合プロセ
ッサ20は、一致文書(目的文書24)を提示する出力
を有している。幾つかの実施例においては、この出力装
置を目的文書を印字する複写機の形式にしている。照合
プロセッサ20は、対話式装置を装備しユーザが複数の
近似一致文書(候補文書)の中から選択できるようにし
てもよい。
る。図2は、ワードスペース(または近似値)に基づき
記述子を発生する記述子発生器40Aのブロック図で、
図3は、画素濃度に基づき記述子を発生する記述子発生
器40Bのブロック図である。
は、セグメンター(区分器)102,ボックス識別子1
04,ヒストグラム発生器106,ラベラー(ラベル付
け器)108A及び記述子ライタ(書込み器)110A
よりなる。セグメンター102は、イメージファイル1
12を入力とし、セグメント化したイメージを出力す
る。ボックス識別子104は、セグメント化イメージ1
14を入力とし、ボックス位置を出力する。ヒストグラ
ム発生器106は、ボックス位置116を入力とし、ボ
ックス間の間隔のヒストグラム118Aを出力する。ラ
ベラー108Aは、ボックス位置116とヒストグラム
118Aを入力として用い、1セットのワードパターン
120を生成する。記述子ライタ110Aは、前記ワー
ドパターンを入力とし、イメージファイル112用の1
セットの記述子122を出力する。
の入力文書14またはサンプルページ22のイメージに
相当する。セグメンター102は、イメージファイル1
12を分析し、そのイメージのどの領域がテキスト,数
字,特殊ラインまたは空白スペースであるかを決定す
る。これにより、記述子発生器40の下流側要素の仕事
範囲を入力イメージ112のテキスト領域に限定するこ
とができる。もちろん、ハルの示すように、イメージの
図形領域を使用して記述子を生成してもよい。入力イメ
ージ112のテキスト領域をセグメント化イメージ11
4として保存する。もちろん、記憶装置の条件及び制限
によって、セグメント化イメージ114を入力イメージ
112のテキスト領域に限定でき、あるいは、セグメン
ト化イメージ114をイメージファイル112用記憶装
置中の位置を示すポインタだけを付けて表示することも
可能である。
存し、ボックス識別子104で文字の回りに囲みボック
スを配置してテキストを処理する。図4は、かような1
つのテキスト領域を示し、図5は文字の回りをボックス
で囲んだ前記テキスト領域の小区分(拡大図)を示す。
囲みボックスは矩形であり、連続黒画素の領域を囲んで
いる。閾値寸法を越える領域だけを考慮する。即ち、
“i”の文字の点(402)とピリオード(406)は
無視する。囲みボックスと文字の実際の境界の間に生じ
るこれらの相違いは、入力文書と目的文書のいずれにも
ある相違で、エラーをもたらすものではない。不完全な
複写による文字の中断があると、文字囲みボックス40
8のように、囲みボックスから破断部を排除てしまう。
これらの相違エラーを生じさせても、目的文書と一致文
書間の記述子数は、目的文書と不一致文書間の共通記述
子よりも多い。
104は囲みボックス位置116がほぼ水平に整列する
ように追加試験を行う。即ち、テキスト領域の内のテキ
ストの行を識別し、次に、テキストの各行の基線を識別
し、その基線を囲みボックスを配置するためのガイドと
して用いる。囲みボックスが決定されれば、イメージ上
の囲みボックスの位置を表示し、ボックス位置116と
して保存する。ヒストグラム発生器106は、これらの
ボックス位置を読込みボックス間の間隔を計算する。も
し、ボックス間スペースの分布を測定してヒストグラム
を立ち上げれば、2つのピークが形成されるはずであ
る。図6に図形表示した図2のヒストグラム118Aに
その一例を示す。これは、図4に示したテキスト領域に
対する遂次文字囲みボックス間の画素間隔をグラフに表
示したものもある。ヒストグラム118Aは、2つのピ
ークを有している。1つ約5個の画素のスペースに対す
るピークで、もう1つは約25個の画素のスペースに対
するピークである。2つのピーク間の最小値は、約16
個の画素に生じている。かように、このデータでは、1
6個の画素より小さいスペースが多分ワード内スペース
で、16個の画素より大きいスペースが多分ワード間ス
ペースである。
し、各ボックス間のスペースにワード間スペースまたは
ワード内スペースのラベルを取付ける。厳格に云えば、
ラベルは囲みボックスそのものにではなく、囲みボック
ス間のスペースに付けられる。しかしながら、テキスト
の各行の最後の囲みボックスを除いて、囲みボックスと
スペースは1対1に対応しているので、スペース用ラベ
ルは囲みボックスと容易に関連付けられる。後者の場
合、スペース用ラベルがスペースの左側の囲みボックス
と連携てしいれば、各囲みボックスはワード終端文字ま
たは非ワード終端文字のいずれかを囲むものとして特徴
付けることができる。どちらの方法でも、ラベルの主要
パターンは同じである。
sentence appears here.”とすると、スペースのパタ
ーンは、“S-----S-----S-----S-----S”となる。ここ
で、‘-’はワード内スペースで‘S’はワード間スペー
スである。文章の終わりの‘.’は囲みボックスの対象
とはならず、従って、考慮されず、各行の最後に続くワ
ード間スペースを推定する。もし、‘-’と‘S’のラベ
ルを非ワード終端文字及びワード終端文字に各々書き添
えると、同じパターンが現れる。‘-’を‘0’で、
‘S’を‘1’とする2値で表現すると、前記パターン
は、“100000100000010000001000”となる。この2値パ
ターンは、ランレングス符号化によって正確にワード長
パターンである“16874”にまで圧縮することができ
る。
ペースが存在せず、閾値より小さいワード間スペースが
存在しない場合の囲みボックスの位置を想定したもので
ある。もし、前記パターンが異なっても、テキストが入
力され、そのテキストが照合に使用された場合は、いず
れも、同じパターンとなる。
の閾値を固定することが望ましい。閾値を時間の前に、
例えば、16画素に固定すると、各スペースは測定され
た状態でラベル処理されるので、ヒストグラムを作成す
る必要がなくなる。但し、閾値を固定するのが常に望ま
しいわけではない。目標文書が異なるスケールで提出さ
れるかあるいは異なる分解能で走査される場合は、ボッ
クス間スペースの分布の最小値における画素数が変化す
るので、現在使用中の特定イメージにつき時間毎に計算
しなければならない。
20が生成されると、記述子ライタ110Aによって記
述子122に書込まれる。ある特殊な実施例の場合、1
つの記述子はある設定数のワード長のハッシュ連鎖であ
る。これらの記述子は、図1の上記の記述のように使用
する。
である。この記述子発生器40Bは、前記記述子発生器
40Aと類似であるが、ボックス間スペースに基づくの
ではなく、画素濃度に基づき記述子を発生する点におい
て異なる。記述子発生器40Aの場合のように、記述子
発生器40Bは、セグメンター(区分器)102とボッ
クス識別子104を有しており、イメージファイル11
2を処理し、セグメント化したイメージ114とボック
ス位置を発生する。記述子発生器40Bは、記述子発生
器40A中の要素と同じ機能を果たす幾つかの要素を含
んでいる。即ち、ヒストグラム118Bを発生するヒス
トグラム発生器106B,ワードパターンの代わりに濃
度パターンを発生するラベラー(ラベル付け器)108
B及びワードパターンでなく濃度パターンに基づく記述
子を書込む記述子ライタ(書込み器)110Bを具備す
る。
生器40Aに無い要素を有している。即ち、ボックス位
置を精密にするリファイナ124(オプション)と、セ
グメント化イメージを受け取るために接続され、リファ
イナ124(使用している場合)またはボックス位置1
16を受け取るために接続された画素濃度カウンタ12
6と、画素濃度記憶装置128を具備している。記述子
発生器40Bにおいて、ラベラー108Bは、ボックス
位置116と画素濃度128とヒストグラム118Bを
受取るように接続されている。記述子発生器40Aの場
合のように、固定閾値を用いると、ヒストグラム118
Bは不用となる。但し、記述子発生器40Aとは対照的
に、記述子発生器40Bの動作は閾値がスペースではな
く画素濃度なので、スケール及び使用分解能とは無関係
である。
ファイル112を読取り、テキストと他の領域に区分す
る。セグメント化されたイメージ114は、ボックス識
別子104により読み込まれボックス位置のリストが作
成される。入力ファイル112またはセグメント化イメ
ージ114に含まれているであろうイメージの一例を図
7に、ボックス位置116により示された通りに囲みボ
ックスを付けて示す。図7には、日本語文字のイメージ
を示しているが、可変画素濃度の文字を持つ非日本語テ
キストをこの装置で処理することが可能である。日本語
文字の場合、画素の濃度分布は、2つのピークを持つべ
きであり、一つは日本の漢字を現し、もう一つは仮名文
字を現す。漢字は中国語の表意文字に起源を持ち字画が
多く、一方、仮名文字は音節文字で字画が少ない。
連続しない字画から構成されることが多く、一個の文字
を複数の囲みボックスで囲むことが有り得る。図8に、
一個の囲み日本語文字を例示する。図8(A)は、囲み
ボックス発生前の文字を、図8(B)はその文字の結合
されていない3つの構成部分に重ねた2個の囲みボック
ス704と706を示している。要素として認められる
だけの十分な画素を有さない字画は囲み込まない。
なり合っている複数の囲みボックスを、同一文字の複数
の構成要素を囲んでいるものと仮定して結合することに
より、囲みボックス処理を精密にする。このリファイナ
124は、全ての互いに重なり合っているボックス同士
を各々1つの矩形に囲い直す。かのようにして、図8
(C)に示すように、囲みボックス710が囲みボック
ス704と706(図8(B))にとって代わる。リフ
ァイナ124を使用するか否かに係わりなく、画素濃度
カウンタ126は各囲みボックス中の画素数を計数し、
黒画素数を計数する。白画素を計数しても同じ効果が得
られるし、文字が黒でない場合でも、どん”な色または
複数の色であっても、計数値はその文字を構成する画素
数であることは明らかである。次に、各囲みボックス中
の黒画素数をそのボックス中の画素総数で割った値を画
素濃度(標準化濃度)とする。
法であると想定または強制的に同一寸法にできるように
すれば、前記の標準化ステップの必要性は無くなる。名
ボックスの画素濃度値を画素濃度記憶装置128に保存
し、ヒストグラム118Bを発生すめるために、ヒスト
グラム発生器106Bにより使用される。図9にヒスト
グラム118Bのグラフの一例を示す。図9において、
ヒストグラムは標準化していない画素濃度の分布を示し
ている。濃度値の高い漢字は、250から450黒画素
範囲に集中しており、252画素の閾値がピーク群をよ
く分離している。もちろん、漢字もあるものはこの閾値
より低く、あるものはこの閾値より高い。しかしなが
ら、測定値に矛盾がない限り、文書は、入力時、目標文
書とし同一の記述子を有する。
またはラベラー108Bのいずれかにより計算される。
閾値の1つの計算法が、N.Otsuの“グレイ・レベル・ヒ
ストグラムからの閾値の選出方法”(IEEE会報システム
−人とサイバネティックス,第9巻,♯1,1979年
1月、63−66頁)に示されている。いずれの場合で
も、ラベラー108Bは、画素濃度値128(標準化を
要する場合は、ボックス位置116)を読む際にこの閾
値を用いて名文字に2つのラベルのうち1つを貼付け
る。2つのラベルは、漢字/仮名、高濃度/低濃度また
は1/0の何れであってもよい。どの場合でも、連続す
る囲みボックスの指定ラベル群は、パターンを形成し、
濃度パターン130として保存される。図2の記述子発
生器40Aで、ワードパターンが使用とされるように、
濃度パターン130も記述子ライタ110Bにより記述
子122を作成するために使用される。
つき記述してきた。図10と図11は、前述の各装置を
使用して実行し得る例示文書検索プロセスを示すフロー
チャートである。図10は、文書データベースに複数の
文書を保存し、1つの目的文書と一致する文書を、該目
的文書より提供された例文により検索するプロセスを記
述したフローチャートである。
及び検索システムに入力する。ステップS2では、各入
力文書用記述子を作成する。記述子の基盤としてテキス
トが用いられている場合は、ワード・スペースで記述子
を決定する。音声の場合(図12及び図13参照)は、
音素パターンまたはワード長または両方を使用する。ワ
ード長は、音声認識により先ず音声をテキストに変換し
て測定する。ステップS3においては、前記文書の入力
と記述子の作成に引き続き、文書をデータベースに保存
し、記述子を記述子データベースに、文書データベース
に保存した文書と連係させて保存する。
文書毎に実行するループの開始点である。ステップS4
では、目的文書を入力する。前に説明したように、この
入力は、目的文全体である必要はもちろんなく、また、
目的文書の全1頁である必要もない。次に、ステップS
5で、入力目的文書用の記述子を作成する。このステッ
プは、ステップS2と類似である。入力文書が音声であ
る場合は、記述子は、前述の通り、音素パターン及びワ
ード・パターンのいずれ基づいて作成してもよい。次
に、ステップS6で、目的文書から作成した記述子を記
述子データベース中でインデックスとして使用し、一致
文書の可能性のある文書のリストを作成する。ステップ
S7では、一致文書を文書データベースから検索する。
さらに、検索すべき目的文書がある場合は、前記プロセ
スをステップS4から繰り返し、検索目的文書がない場
合には、プロセスを終了する。
と図形である文書より記述子を作成するプロセスを記述
したフローチャートである。この説明は、入力文書が、
文書データベースに最初に入力された文書または目的文
書の一部である場合に関する。ステップS10では、記
述子を作成する文書のイメージを記述子発生器へ入力す
る。この入力イメージをテキスト領域と非テキスト領域
にセグメント化する(S11)。記述子発生器がテキス
トの各セグメントを分析し、テキスト領域中の文字を囲
む囲みボックスを検出する(S12)。囲みボックスを
識別すると、記述子発生器は、ボックス間スペースのヒ
ストグラムを生成する(S13)。このヒストグラムか
ら記述子発生器は、ヒストグラムの二つのピーク間の閾
値を決定する(S14)。記述子発生器は、さらに、テ
キスト領域または少なくともボックス間のスペース・パ
ターンを再検討し、ステップS14で決定した閾値より
小さいかまたは大きいかによって各ボックス間スペース
をラベル処理する(S15)。記述子発生器は続いてポ
ックス間スペースの連から記述子を作成する(S1
6)。
ーンから記述子を発生させるプロセスにも適用する。相
違しているのは、ステップS13において、作成するヒ
ストグラムが画素のヒストグラムである点である。ヒス
トグラムを作成後、ステップS14,S15及びS16
のプロセスを、ヒストグラムがボックス間スペースのヒ
ストグラムである前述の実施例と同じ方法で実行する。
作成する記述子発生器のブロック図である。これらの音
声文書は、参照文書または目的文書の何れかとして用い
ることができる。音声文書は、例えば、有名な演説,講
義,患者に関する医師の見解,発音等のものがあるが、
どんな音声でも使用できる。
生成する記述子発生器40Cのブロック図である。この
記述子発生器40Cは、音素認識装置802,スペース
認識装置804,ラベラ108C及び記述子ライタ11
0Cを含んでいる。音素認識装置802は、入力音声文
書806を読込み、音素パターン808を生成する。音
素パターン808は、音声を表現し、どの音が出ており
どこに無声が生じているかを示す。音素パターン808
は、スペース認識装置804に送られる。このスペース
認識装置804は、認識された音素パターン中の無声音
素の位置を分離し、ラベラー108Cに渡す。ラベラー
108Cと記述子ライタ110Cは、記述子発生器40
A及び40B内で互いに対応して作動する。
パターン及びワードである。例えば、音声ファイル80
6が音声語句〈ザ ラージ カー〉を含んでいる場合、
音素認識装置802がその語句を11個の音素として認
識し、その特定の11音素を同定する。“スペース”認
識装置804は、音素が2個の有声音素,1個の無声音
素,4個の有声音素,1個の無声音素及び4個の有声音
素であることを認識する。ラベラー108Cは、無声音
素を“スペース”としてラベル処理し、2−S−4−S
−3のパターンが生成され、記述子ライタ110Cがこ
れを〈2−4−3〉として書き込む。
が音素に基づく記述子である場合でも、テキスト文書を
目的文書として用いることができる。その目的文書のテ
キストを、音素発生器を介して供給する。音素発生器
は、テキストから音素(音韻)を生成し、その音素を用
いて記述子を生成する。もちろん、英語のように複雑な
言語の場合,自動音素発生器は誤りを犯す。しかしなが
ら、記述子は冗長度をもっており、誤があっても正しい
文書が発見される。入力文書と参照文書の両方とも音声
によるもので、音素パターンで記述されている場合、同
一の音素発生器が参照文書と入力文書の両方に使用され
ていればエラーの影響はさらに少なくなる。つまり、両
方に共通な誤りは、文書の発見を難しくするものではな
い。参照文書がテキストで、入力文書が音声である場
合、または、各々のある組合わせの場合においても同じ
ことが云える。音素は音声の単位であるから、図12に
示した実施例は特殊な言語に特有なものではない。
文書用の記述子を生成する記述子発生器40Dのブロッ
ク図である。この記述子発生器40Dは、音素認識装置
902を有しており、前記記述子生成器40Cの場合と
同様、この音素認識装置902で音声文書/ファイルを
読むが、但し、音素の代わりに音声ワードのテキスト9
06を出力する。テキスト906をスペース・ラベラ9
04で処理し、テキスト中の各スペースの位置をマーク
して、図2を参照し先に説明したようにして、ワードパ
ターン120を生成する。図2に付き説明した通り、記
述子ライタ110Aがこのワードパターン120を用い
て記述子122を作成する。図12を参照し記述した例
のように、音声ファイル806が音声語句〈ザ ラージ
カー〉を含んでいる場合、音素認識装置802がその
語句を〈ザ ラージカー〉と云うテキストとして認識
し、スペース・ラベラー904がそのワードパターン
“---S-----S---”を出力し、記述子〈3−5−3〉が
得られる。
合するプロセスを示すフローチャートである。図14に
示したプロセスは、図10に示したプロセスと類似して
いるが、図10のプロセスが音声とテキストによる入力
文書及び目的文書の組合わせをすべて処理するのに反
し、図14(図15)のプロセスは音声音節のみを取扱
う。もちろん、テキスト音節を音素パターンの“準音
声”に変換し、文書を“同様音”の一致に基づき突き合
わせることは可能であるが、ワード当りの音素数のみを
記述子の生成に使用しているので、“同様音”の突合わ
せは不必要である。事実、必要なのは、簡単な参照テー
ブルとして使用できる各ワード毎の音素数を含む単語の
辞書だけである。
を入力し(S1′)、各音節毎に記述子を作成し(S
2′)、作成した記述子を音節との関連を付けて保存す
る(S3′)。1つの音節を照合検索するために、目的
音節を入力し(S4′)、記述子を生成し(S5′)、
生成した記述子をステップ(S3′)で生成したデータ
ベース中の記述子と照合し(S6′)、一致する音節を
検索する(S7′)。さらに検索する音節がある場合
は、ステップ(S4′)から(S7′)までのプロセス
を繰り返す。
音声テキスト記述子の両方を使用する。音声テキスト記
述子は、前述のワード長記述子と本質的に同じであり、
音節の音声認識の結果得られたテキストから生成する。
図15に示すように、参照音節を入力し(S20)、音
素記述子を生成し(S21)、同時に、テキスト記述子
を生成する(S22)。これらのステップは平行して実
行できるが、しかし、必要性はない。次に、音素記述子
を保存し(S23)、テキスト記述子を保存し(S2
4)、音節を記述子との関連を付けて保存する(S2
4)。
入力し(S26)、音素記述子を生成し(S27)、テ
キスト記述子を生成する(S28)。これらのステップ
は順次または平行して実行できる。次に、音素記述子を
保存してある音素記述子と照合し(S29)、テキスト
記述子を保存してあるテキスト記述子と照合し(S2
9)、一致の程度に従ってランク付した2種類の音節リ
ストを作成する。この2種類のリストを1つのランキン
グ表に統合する(S31)。パターンマッチングの技術
において、別々に生成したランキング表を1つに合同す
ることはよく知られている。例えば、T.k.Ho,J.J.Hull,
S.N.Srihariの“多重分類システムにおける決定の組合
わせ”IEEE会報〈パターン分析及び記械知能〉、第16
巻、第1分冊、1994年1月、66−75頁)に記述され
ている。これまで述べてきた実施例は、本発明を説明す
るためであり、限定するためではない。
この開示を検討すれば明らかになろう。さらに、例え
ば、文字に関係する計量値の分布が2個より多いピーク
値を有する場合、その分布を2つより多い値域に分割で
き、その場合に、ラベラーが各文字を2値より多いラベ
ルを用いてラベル処理を行う。また、テキスト文書をAS
CIIファイル、後書(Postscript)ファイルのような頁
記述言語ファイル、“ワードパーフェクト”または“マ
イクロソフト”ファイルのようなワード処理ファイル等
の種々の形式で保存することができる。従って、本発明
の範囲は、前記の説明によって決められるのではなく、
添付されたクレイムと対応する全範囲を参照し決定され
るべきである。
文書のページを走査し文書管理システムの記憶装置に保
管し、サンプルページを検索プロセスの一部として走査
して、ほとんど計算することなく前記ページから抽出可
能な記述子によって記述する。特殊な実施例において
は、各々の結合成分の周囲を囲むボックスを形成し、ボ
ックス間の間隔を測定する。ボックス間の間隔のヒスト
グラムを検出し、閾値を決定する。その閾値より小さい
間隔は、文字間の間隔と見なし、閾値より大きい間隔は
ワード間の間隔と見なす。それらの間隔パターンを記述
子に翻訳する。他の実施例の場合、例えば、日本語のテ
キストまたは異なる濃度のアルファベットの2文字を用
いる他のテキストの場合、文字間のスペースはあまりな
く、ボックス間のスペースの代わりに、囲みボックスの
画素濃度のヒストグラムを用いる。文字の裂目をアドレ
スするために、オーバラップする囲みボックスを1つの
囲みボックスに結合する。必要に応じ言語検出前置プロ
セッサを使用し、文書の言語を検出することができ、し
かるべき記述子の抽出に適用できる。文字スペースが文
書の場合、文字間のスペースを用いて囲みボックスをさ
らに定義することができる。
管理システムまたは前記文書管理システムの照合部を、
複写機に結合することも可能である。かような実施例の
場合、ユーザはサンプルページを複写機に入力すると、
複写機が目的文書を検索して印刷する。
声とテキストの文書を、参照文書と大文書として交代使
用する。音声文書記述子は、1ワード当りの音素パター
ンまたは1ワード当たりの文字パターンの何れかを用い
ることができる。前者の場合、音韻識別子を使用し、そ
の音韻識別子はワード間の無声間隔を識別できる。後者
の場合、音声認識装置を用いて音声をテキストに変換
し、そのテキストに基づき記述子を発生させる。
である。
生させる記述子発生装置のブロック図である。
発生装置のブロック図である。
る。
ある。
る。
ある。図8(B)は図8(A)に示した日本文字のイメ
ージを日本文字用に発生させた囲みボックスで囲んだ図
である。図8(C)は図8(A)と図8(B)に示した
日本文字のイメージを1個の囲みボックスで全文字を囲
んだ図である。
ある。
を例示検索するプロセスを示すフローチャートである。
フローチャートである。
素数に基づく記述子の発生装置の一実施例を示す図であ
る。
字数に基づく記述子の発生装置の一実施例を示す図であ
る。
例示検索するプロセスのフローチャートである。
例示音節の検索プロセスのフローチャートである。
4…入力文書、16…文書データベース、18…記述子
データベース、20…照合プロセッサ、24…目的文書
(一致文書)、40…高速記述子発生器、102…セグ
メンター、104…ボックス識別子、106,106B
…ヒストグラム発生器、108A,108B…ラベラ
ー、110A,110B…記述子ライタ、112…イメ
ージファイル、114…セグメント化イメージ、116
…ボックス位置、118A,118B…ヒストグラム、
120…ワードパターン、122…記述子、124…リ
ファイナ、126…画素濃度カウンタ、128…画素濃
度、130…濃度パターン。
Claims (26)
- 【請求項1】照合一致文書を保存した文書データベース
を含む文書検索システムにおいて、前記照合一致文書が
目的文書であるかあるいは前記目的文書と共通する複数
の要素を有する文書であり、前記目的文書を用いて前記
照合一致文書を特定する方法において、該方法が前記文
書検索システムに前記目的文書のイメージを入力するス
テップと、前記目的文書イメージ中の文字の境界を検出
するステップと、前記文字境界の1サンプルについて文
字間の間隔を測定し、文字間隔の分布を知るステップ
と、前記文字間隔の分布における閾値で、ワード間スペ
ースとワード内スペースと関連する文字間間隔値の少な
くとも近似区分である閾値を決定するステップと、文字
間の間隔を前記閾値に基づくワード間またはワード内間
隔としてラベリングするステップと、前記ワード間及び
ワード内ラベルのパターンに基づき、前記目的文書の記
述子を作成するステップと、前記目的文書のために作成
した前記記述子を使用し、前記文書データベース内の複
数文書用記述子のインデックスを探索するステップと、
前記文書データベース内の少なくとも1つの文書を、そ
の少なくとも1つの文書が前記目的文書と共通の記述子
を非一致文書より多く有している場合に、一致文書とし
て確認するステップとよりなる目的文書を用いて一致文
書を特定することを特徴とする文書検索方法。 - 【請求項2】 前記サンプルが全ての文字間スペースよ
りなることを特徴とする請求項1に記載の文書検索方
法。 - 【請求項3】 前記文字の境界と文字間のスペースが測
定誤差を含んでいることを特徴とする請求項1に記載の
文書検索方法。 - 【請求項4】 前記閾値を決定する前記ステップが、文
字間のスペース値のヒストグラムを形成し、前記ヒスト
グラムにおいて、最も頻度の高い文字間スペースに関連
する最高ピークを確定し、前記ヒストグラムにおいて、
最も頻度の高い文字間スペースに関連する最低ピークを
確定し、前記最高ピークと前記最低ピーク間の最小ヒス
トグラム値を確定し、前記最小ヒストグラム値を閾値と
して確定することによりなることを特徴とする請求項1
に記載の文書検索方法。 - 【請求項5】 目的文書を入力し、一致文書を文書デー
タベースから検索する文書検索装置において、前記目的
文書のイメージ内容に基づき、前記目的文書内の文字の
境界を検出する文字検出手段と、前記文字検出手段と結
合し、前記文字境界の少なくとも1つのはっきりとした
特徴に基づき、前記文字境界をクラス別に判別する判別
手段と、前記文字検出手段と結合し、文字境界の等級表
示を受信し、該等級表示パターンに基づき目標文書用記
述子を生成する記述子発生手段と、前記記述子発生手段
に前記目的文書の前記記述子を受信するために結合し、
前記目的文書と共通の記述子を有する一致文書の可能性
のある文書のデータベースを探索する探索手段と、前記
探索手段に結合して一致の可能性のある1セットの文書
を受信し、少なくとも1つの一致文書を一致の可能性の
ある前記文書の中から選定する評価手段と、前記評価手
段と結合している前記目的文書が入力され、検索要求の
結果として少なくとも1つの一致文書またはその表示を
出力する出力手段を具備したことを特徴とする文書検索
装置。 - 【請求項6】 前記のはっきりとした特徴が文字境界間
のスペースであることを特徴とする請求項5に記載の文
書検索装置。 - 【請求項7】 前記のはっきりとした特徴が各文字境界
内の画素濃度であることを特徴とする請求項5に記載の
文書検索装置。 - 【請求項8】 前記目的文書の前記文字が日本語文字で
あることを特徴とする請求項5に記載の文書検索装置。 - 【請求項9】 前記判別手段が文字の境界を2つの等級
のいずれかに判別することを特徴とする請求項5に記載
の文書検索装置。 - 【請求項10】 前記2つの等級がある閾値より小さい
スペースを持つ文字境界域と該閾値より大きいスペース
を持つ文字境界域であることを特徴とする請求項9に記
載の文書検索装置。 - 【請求項11】 前記2つの等級がある閾値より低い画
素濃度を持つ文字境界域と該閾値より高い画素濃度を持
つ文字境界域であることを特徴とする請求項9に記載の
文書検索装置。 - 【請求項12】 前記目的文書を紙文書として入力する
ことを特徴とする請求項5に記載の文書検索装置。 - 【請求項13】 前記目的文書を前記目的文書の電子画
像として入力することを特徴とする請求項5に記載の文
書検索装置。 - 【請求項14】 照合文書を保存した文書データベース
を含む文書検索システムにおいて、前記照合文書が目的
文書であるかあるいは前記目的文書と共通する複数の要
素を有する文書であり、前記目的文書を用いて前記照合
文書を特定する方法において、該方法が前記文書検索シ
ステムに前記目的文書のイメージを入力するステップ
と、前記目的文書イメージ中の文字の境界を検出するス
テップと、前記文字境界を複数含むサンプルについて、
各文字境界毎に測量値(メトリック)を測定し、該測量
値の分布を知るステップと、前記測量値の分布を複数の
範囲に分割し、各範囲に文字境界の1つの等級と関連づ
けるステップと、各文字境界を前記文字境界毎の前記測
量値に基づく等級表示でラベル処理するステップと、前
記等級表示パターンに基づき、前記目的文書用記述子を
生成するステップと、前記目的文書のために作成した前
記記述子を使用し、前記文書データベース内の複数文書
用記述子のインデックスを探索するステップと、前記文
書データベース内の少なくとも1つの文書を、前記目的
文書と共通の記述子を非一致文書より多く有している場
合に、一致文書として確認するステップとよりなる目的
文書を用いて一致文書を特定することを特徴とする文書
検索方法。 - 【請求項15】 前記測量値が1つの文字境界と隣接す
るもう1つの文字境界の間のスペースであることを特徴
とする請求項14に記載の文書検索方法。 - 【請求項16】 前記測量値が前記文字境界内の画素濃
度であることを特徴とする請求項14に記載の文書検索
方法。 - 【請求項17】 前記測量値の複数の範囲が前記測量値
の閾値によって分割された2つの範囲であることを特徴
とする請求項14に記載の文書検索方法。 - 【請求項18】 参照記述子をその内容から導出する参
照文書用のデータベースと、1つの参照記述子がワード
長パターンの少なくとも一部を記述し、前記参照記述子
により記述された前記ワード長パターンが、前記特定参
照文書中に発見された時に、前記特定参照記述子と前記
特定参照文書を前記記述子データベース内で結合する記
述子データベースと、前記文書データベースの前記参照
文書に照合する入力文書の内容を入力する手段と、前記
入力手段と結合し、前記入力文書から前記入力文書中の
ワード長パターンの少なくとも一部分を記述する少なく
とも1つの入力記述子を派生させる記述子派生手段と、
前記記述子派生手段に結合し、前記入力記述子と一致す
る参照記述子と関連する参照文書の表示を出力する出力
手段によりなる入力文書を文書データベース中の参照文
書と照合することを特徴とする文書検索装置。 - 【請求項19】 前記入力文書と目的文書の形式が、AS
CII文書,音声文書,ページ記述言語文書またはワード
処理フォーマット文書であることを特徴とする請求項1
8に記載の文書検索装置。 - 【請求項20】 前記ワード長がワード当りの音素数ま
たはワード当りの文字数であることを特徴とする請求項
18に記載の文書検索装置。 - 【請求項21】 参照記述子をその内容から導出する参
照文書用のデータベースと、1つの参照記述子が文字濃
度パターンの少なくとも一部を記述し、前記参照記述子
により記述された前記文字濃度パターンが前記特定参照
文書中に発見された時に、前記特定参照記述子と前記特
定参照文書を前記記述子データベース内で結合する記述
子データベースと、前記文書データベースの前記参照文
書に照合する入力文書の内容を入力する入力手段と、前
記入力手段と結合し、前記入力文書から前記入力文書中
の文字濃度パターンの少なくとも一部分を記述する少な
くとも1つの入力記述子を派生させる記述子派生手段
と、前記記述子派生手段に結合し、前記入力記述子と一
致する参照記述子と関連する参照文書の表示を出力する
出力手段よりなる入力文書を文書データベース中の参照
文書と照合することを特徴とする文書検索装置。 - 【請求項22】 前記入力文書と目的文書の形式が、AS
CII文書,音声文書,ページ記述言語文書またはワード
処理フォーマット文書であることを特徴とする請求20
に記載の文書検索装置。 - 【請求項23】 照合文書を保存したデータベースを含
む文書検索システムにおいて、前記照合文書が目的文書
であるかあるいは前記目的文書と共通する複数の要素を
有する文書であり、前記目的文書を用いて前記照合文書
を特定する方法において、該方法が前記文書検索システ
ムに前記目的文書のイメージを入力するステップと、前
記目的文書イメージ中の特徴を複数の特徴等級に従って
検出するステップと、前記複数の特徴等級の各等級毎に
検出した特徴に基づき前記目的文書記述子を生成するス
テップと、各特徴等級毎に前記目的文書のために作成し
た前記記述子を使用し、前記文書データベース内の複数
文書用記述子のインデックスを探索するステップと、前
記文書データベース内の少なくとも1つの文書を、前記
目的文書と共通の記述子を非一致文書より多く有してい
る場合に、一致文書として確認するステップとよりなる
目的文書を用いて一致文書を特定することを特徴とする
文書検索方法。 - 【請求項24】 前記複数の特徴等級がワード長パター
ンを記述する文字間スペースの特徴等級とある閾値より
大きかまたは小さい文字濃度パターンを少なくとも記述
している文字画素濃度の特徴等級を含んでいることを特
徴とする請求項23に記載の文書検索方法。 - 【請求項25】 前記複数の特徴等級がワード長パター
ンを記述するワード長の特徴等級とワード当りの音素数
のパターンを記述する音素ワード長の特徴等級を含んで
いることを特徴とする請求項23に記載の文書検索方
法。 - 【請求項26】 前記複数の特徴等級がワード長パター
ンを記述する文字間スペースの特徴等級と、ある閾値と
比較した文字濃度パターンを少なくとも記述している文
字画素濃度の特徴等級と、ワード当りの音素数のパター
ンを記述する音素ワード長の特徴等級を含んでいること
を特徴とする請求項23に記載の文書検索方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/523,731 | 1995-09-05 | ||
| US08/523,731 US5867597A (en) | 1995-09-05 | 1995-09-05 | High-speed retrieval by example |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH09134372A true JPH09134372A (ja) | 1997-05-20 |
| JP3664550B2 JP3664550B2 (ja) | 2005-06-29 |
Family
ID=24086232
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP21993996A Expired - Lifetime JP3664550B2 (ja) | 1995-09-05 | 1996-08-21 | 文書検索方法及び装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US5867597A (ja) |
| JP (1) | JP3664550B2 (ja) |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005251169A (ja) * | 2004-01-15 | 2005-09-15 | Microsoft Corp | イメージに基づくドキュメントのインデックス作成および読み込み |
| JP2009020889A (ja) * | 2007-07-11 | 2009-01-29 | Ricoh Co Ltd | 電子書類を検索する方法及びシステム |
| JP2009020890A (ja) * | 2007-07-11 | 2009-01-29 | Ricoh Co Ltd | 電子書類を認識及び追跡する方法及びシステム |
| JP2009022009A (ja) * | 2007-07-11 | 2009-01-29 | Ricoh Co Ltd | 書類セキュリティ又は注釈のためのインビジブルジャンクション特徴の認識 |
| JP2009020888A (ja) * | 2007-07-11 | 2009-01-29 | Ricoh Co Ltd | インビジブルジャンクションを生成する方法及びシステム |
| JP2009043242A (ja) * | 2007-07-11 | 2009-02-26 | Ricoh Co Ltd | グラフィカルユーザインターフェースを生成する方法及びシステム |
| JP2010097609A (ja) * | 2008-10-15 | 2010-04-30 | Xerox Corp | ランレングスヒストグラムを用いて文書の表現を生成する方法及び装置 |
| US8452780B2 (en) | 2006-01-06 | 2013-05-28 | Ricoh Co., Ltd. | Dynamic presentation of targeted information in a mixed media reality recognition system |
| US8612475B2 (en) | 2011-07-27 | 2013-12-17 | Ricoh Co., Ltd. | Generating a discussion group in a social network based on metadata |
| US10192279B1 (en) | 2007-07-11 | 2019-01-29 | Ricoh Co., Ltd. | Indexed document modification sharing with mixed media reality |
| KR102051130B1 (ko) * | 2018-06-14 | 2019-12-02 | 연세대학교 산학협력단 | 이웃 정보에 기반한 이미지의 문서 영역 분리 방법 및 장치 |
Families Citing this family (83)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
| US6704118B1 (en) | 1996-11-21 | 2004-03-09 | Ricoh Company, Ltd. | Method and system for automatically and transparently archiving documents and document meta data |
| US5978477A (en) * | 1996-11-21 | 1999-11-02 | Ricoh Company Limited | Automatic and transparent document archiving |
| US7170629B2 (en) * | 1998-11-13 | 2007-01-30 | Ricoh Company, Ltd. | Automatic and transparent document archiving |
| US7602518B2 (en) * | 1996-11-21 | 2009-10-13 | Ricoh Company, Ltd. | Automatic and transparent document archiving |
| US6285788B1 (en) * | 1997-06-13 | 2001-09-04 | Sharp Laboratories Of America, Inc. | Method for fast return of abstracted images from a digital image database |
| JP3836261B2 (ja) * | 1998-08-10 | 2006-10-25 | 株式会社リコー | ファイルシステム |
| US6363381B1 (en) * | 1998-11-03 | 2002-03-26 | Ricoh Co., Ltd. | Compressed document matching |
| US6684368B1 (en) | 1998-11-13 | 2004-01-27 | Ricoh Company, Ltd. | Method for specifying delivery information for electronic documents |
| FR2786600B1 (fr) * | 1998-11-16 | 2001-04-20 | France Telecom | Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale |
| US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
| US7099898B1 (en) | 1999-08-12 | 2006-08-29 | International Business Machines Corporation | Data access system |
| US6870950B2 (en) * | 2001-03-15 | 2005-03-22 | Agere Systems Inc. | Method for detecting defects in a material and a system for accomplishing the same |
| JP2002342355A (ja) * | 2001-05-16 | 2002-11-29 | Ricoh Co Ltd | 新聞発行日確認方法 |
| US7151864B2 (en) * | 2002-09-18 | 2006-12-19 | Hewlett-Packard Development Company, L.P. | Information research initiated from a scanned image media |
| US7707039B2 (en) * | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
| US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
| US7812860B2 (en) * | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
| US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
| US20060136629A1 (en) * | 2004-08-18 | 2006-06-22 | King Martin T | Scanner having connected and unconnected operational behaviors |
| US20060041484A1 (en) * | 2004-04-01 | 2006-02-23 | King Martin T | Methods and systems for initiating application processes by data capture from rendered documents |
| US20060053097A1 (en) * | 2004-04-01 | 2006-03-09 | King Martin T | Searching and accessing documents on private networks for use with captures from rendered documents |
| US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
| US8081849B2 (en) * | 2004-12-03 | 2011-12-20 | Google Inc. | Portable scanning and memory device |
| US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
| US9008447B2 (en) * | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
| US20070300142A1 (en) * | 2005-04-01 | 2007-12-27 | King Martin T | Contextual dynamic advertising based upon captured rendered text |
| US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
| US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
| US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
| US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
| US20080313172A1 (en) * | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
| US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
| US8713418B2 (en) * | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
| US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
| US8874504B2 (en) * | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
| US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
| US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
| US7729538B2 (en) * | 2004-08-26 | 2010-06-01 | Microsoft Corporation | Spatial recognition and grouping of text and graphics |
| US7574048B2 (en) * | 2004-09-03 | 2009-08-11 | Microsoft Corporation | Freeform digital ink annotation recognition |
| US9405751B2 (en) | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
| US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
| US8825682B2 (en) | 2006-07-31 | 2014-09-02 | Ricoh Co., Ltd. | Architecture for mixed media reality retrieval of locations and registration of images |
| US9171202B2 (en) | 2005-08-23 | 2015-10-27 | Ricoh Co., Ltd. | Data organization and access for mixed media document system |
| US8600989B2 (en) | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
| US8369655B2 (en) | 2006-07-31 | 2013-02-05 | Ricoh Co., Ltd. | Mixed media reality recognition using multiple specialized indexes |
| US8949287B2 (en) | 2005-08-23 | 2015-02-03 | Ricoh Co., Ltd. | Embedding hot spots in imaged documents |
| US9384619B2 (en) | 2006-07-31 | 2016-07-05 | Ricoh Co., Ltd. | Searching media content for objects specified using identifiers |
| US8332401B2 (en) * | 2004-10-01 | 2012-12-11 | Ricoh Co., Ltd | Method and system for position-based image matching in a mixed media environment |
| US8176054B2 (en) | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
| US8856108B2 (en) | 2006-07-31 | 2014-10-07 | Ricoh Co., Ltd. | Combining results of image retrieval processes |
| US8521737B2 (en) | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
| US7702673B2 (en) | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
| US8335789B2 (en) * | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
| US7812986B2 (en) | 2005-08-23 | 2010-10-12 | Ricoh Co. Ltd. | System and methods for use of voice mail and email in a mixed media environment |
| US8868555B2 (en) | 2006-07-31 | 2014-10-21 | Ricoh Co., Ltd. | Computation of a recongnizability score (quality predictor) for image retrieval |
| US8385589B2 (en) * | 2008-05-15 | 2013-02-26 | Berna Erol | Web-based content detection in images, extraction and recognition |
| US8510283B2 (en) | 2006-07-31 | 2013-08-13 | Ricoh Co., Ltd. | Automatic adaption of an image recognition system to image capture devices |
| US8838591B2 (en) | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
| JP4455358B2 (ja) * | 2005-01-31 | 2010-04-21 | キヤノン株式会社 | 画像処理装置およびその方法 |
| US7570816B2 (en) * | 2005-03-31 | 2009-08-04 | Microsoft Corporation | Systems and methods for detecting text |
| TWI319153B (en) * | 2005-05-04 | 2010-01-01 | Newsoft Technology Corp | System, method and medium of automatic document classification |
| US7526129B2 (en) * | 2005-06-23 | 2009-04-28 | Microsoft Corporation | Lifting ink annotations from paper |
| US9176984B2 (en) | 2006-07-31 | 2015-11-03 | Ricoh Co., Ltd | Mixed media reality retrieval of differentially-weighted links |
| US8489987B2 (en) | 2006-07-31 | 2013-07-16 | Ricoh Co., Ltd. | Monitoring and analyzing creation and usage of visual content using image and hotspot interaction |
| US9020966B2 (en) | 2006-07-31 | 2015-04-28 | Ricoh Co., Ltd. | Client device for interacting with a mixed media reality recognition system |
| US8676810B2 (en) | 2006-07-31 | 2014-03-18 | Ricoh Co., Ltd. | Multiple index mixed media reality recognition using unequal priority indexes |
| US9063952B2 (en) | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
| US8201076B2 (en) | 2006-07-31 | 2012-06-12 | Ricoh Co., Ltd. | Capturing symbolic information from documents upon printing |
| EP2067119A2 (en) * | 2006-09-08 | 2009-06-10 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
| US20100278453A1 (en) * | 2006-09-15 | 2010-11-04 | King Martin T | Capture and display of annotations in paper and electronic documents |
| US20110145068A1 (en) * | 2007-09-17 | 2011-06-16 | King Martin T | Associating rendered advertisements with digital content |
| WO2010096191A2 (en) * | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Automatically capturing information, such as capturing information using a document-aware device |
| US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
| EP2406767A4 (en) * | 2009-03-12 | 2016-03-16 | Google Inc | AUTOMATIC CONTENT SUPPLY ASSOCIATED WITH CAPTURED INFORMATION, TYPE INFORMATION CAPTURED IN REAL TIME |
| US8385660B2 (en) | 2009-06-24 | 2013-02-26 | Ricoh Co., Ltd. | Mixed media reality indexing and retrieval for repeated content |
| US9081799B2 (en) * | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
| US9323784B2 (en) * | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
| US8831350B2 (en) * | 2011-08-29 | 2014-09-09 | Dst Technologies, Inc. | Generation of document fingerprints for identification of electronic document types |
| US9111140B2 (en) | 2012-01-10 | 2015-08-18 | Dst Technologies, Inc. | Identification and separation of form and feature elements from handwritten and other user supplied elements |
| US9495614B1 (en) * | 2015-02-27 | 2016-11-15 | Google Inc. | Verifying labels for images using image recognition |
| US9411547B1 (en) | 2015-07-28 | 2016-08-09 | Dst Technologies, Inc. | Compensation for print shift in standardized forms to facilitate extraction of data therefrom |
| US11741732B2 (en) * | 2021-12-22 | 2023-08-29 | International Business Machines Corporation | Techniques for detecting text |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4949392A (en) * | 1988-05-20 | 1990-08-14 | Eastman Kodak Company | Document recognition and automatic indexing for optical character recognition |
| CA2078423C (en) * | 1991-11-19 | 1997-01-14 | Per-Kristian Halvorsen | Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information |
| US5384864A (en) * | 1993-04-19 | 1995-01-24 | Xerox Corporation | Method and apparatus for automatic determination of text line, word and character cell spatial features |
| US5465353A (en) * | 1994-04-01 | 1995-11-07 | Ricoh Company, Ltd. | Image matching and retrieval by multi-access redundant hashing |
-
1995
- 1995-09-05 US US08/523,731 patent/US5867597A/en not_active Expired - Lifetime
-
1996
- 1996-08-21 JP JP21993996A patent/JP3664550B2/ja not_active Expired - Lifetime
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005251169A (ja) * | 2004-01-15 | 2005-09-15 | Microsoft Corp | イメージに基づくドキュメントのインデックス作成および読み込み |
| US8452780B2 (en) | 2006-01-06 | 2013-05-28 | Ricoh Co., Ltd. | Dynamic presentation of targeted information in a mixed media reality recognition system |
| JP2009020889A (ja) * | 2007-07-11 | 2009-01-29 | Ricoh Co Ltd | 電子書類を検索する方法及びシステム |
| JP2009020890A (ja) * | 2007-07-11 | 2009-01-29 | Ricoh Co Ltd | 電子書類を認識及び追跡する方法及びシステム |
| JP2009022009A (ja) * | 2007-07-11 | 2009-01-29 | Ricoh Co Ltd | 書類セキュリティ又は注釈のためのインビジブルジャンクション特徴の認識 |
| JP2009020888A (ja) * | 2007-07-11 | 2009-01-29 | Ricoh Co Ltd | インビジブルジャンクションを生成する方法及びシステム |
| JP2009043242A (ja) * | 2007-07-11 | 2009-02-26 | Ricoh Co Ltd | グラフィカルユーザインターフェースを生成する方法及びシステム |
| US10192279B1 (en) | 2007-07-11 | 2019-01-29 | Ricoh Co., Ltd. | Indexed document modification sharing with mixed media reality |
| JP2010097609A (ja) * | 2008-10-15 | 2010-04-30 | Xerox Corp | ランレングスヒストグラムを用いて文書の表現を生成する方法及び装置 |
| US8612475B2 (en) | 2011-07-27 | 2013-12-17 | Ricoh Co., Ltd. | Generating a discussion group in a social network based on metadata |
| KR102051130B1 (ko) * | 2018-06-14 | 2019-12-02 | 연세대학교 산학협력단 | 이웃 정보에 기반한 이미지의 문서 영역 분리 방법 및 장치 |
Also Published As
| Publication number | Publication date |
|---|---|
| US5867597A (en) | 1999-02-02 |
| JP3664550B2 (ja) | 2005-06-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3664550B2 (ja) | 文書検索方法及び装置 | |
| KR100292098B1 (ko) | 문자 인식 장치 및 방법 | |
| Mao et al. | Document structure analysis algorithms: a literature survey | |
| US5669007A (en) | Method and system for analyzing the logical structure of a document | |
| JP3292388B2 (ja) | 文書画像の復号なしに文書を要約するための方法と装置 | |
| JP3289968B2 (ja) | 電子的文書処理のための装置および方法 | |
| US7756871B2 (en) | Article extraction | |
| US5265242A (en) | Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates | |
| US6950555B2 (en) | Holistic-analytical recognition of handwritten text | |
| US8270721B2 (en) | Method and system for acquiring data from machine-readable documents | |
| US20030097384A1 (en) | Method for identifying and using table structures | |
| Lu et al. | Information retrieval in document image databases | |
| EP0544433A2 (en) | Method and apparatus for document image processing | |
| Lovegrove et al. | Document analysis of PDF files: methods, results and implications | |
| KR20010093764A (ko) | 어근 모델에 근거한 초서체 한자 주석의 검색법 | |
| Roy et al. | Keyword spotting in doctor's handwriting on medical prescriptions | |
| US7668814B2 (en) | Document management system | |
| CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
| JP2007122403A (ja) | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム | |
| JP2004171316A (ja) | Ocr装置及び文書検索システム及び文書検索プログラム | |
| JPH08263587A (ja) | 文書入力方法および文書入力装置 | |
| JP3469375B2 (ja) | 認識結果の確信度決定方法及び文字認識装置 | |
| JP3767180B2 (ja) | 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 | |
| Puri et al. | Sentence detection and extraction in machine printed imaged document using matching technique | |
| Kornfield et al. | Further explorations in text alignment with handwritten documents |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050105 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050225 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050329 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050329 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080408 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090408 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100408 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100408 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110408 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120408 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130408 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140408 Year of fee payment: 9 |
|
| EXPY | Cancellation because of completion of term |