JPH0362169A - 文書検索方法及び文書検索装置 - Google Patents
文書検索方法及び文書検索装置Info
- Publication number
- JPH0362169A JPH0362169A JP1196560A JP19656089A JPH0362169A JP H0362169 A JPH0362169 A JP H0362169A JP 1196560 A JP1196560 A JP 1196560A JP 19656089 A JP19656089 A JP 19656089A JP H0362169 A JPH0362169 A JP H0362169A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- elements
- file
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000004891 communication Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 22
- 239000000470 constituent Substances 0.000 abstract description 11
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 70
- 238000005516 engineering process Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 19
- 230000003287 optical effect Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000011982 device technology Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000003702 image correction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000004246 zinc acetate Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
(産業上の利用分野]
本発明は、大量のデータの検索方法、特に、文書データ
の検索方法に関する。産業の各方面において文書データ
の検索が必要とされ1例えば原子力発電所等においては
、その各種設備の高信頼性を維持して運用するために、
また、その設備、機器の設計、改良のために多種多様な
情報の蓄積、管理が必要とされる。従って、光ディスク
などの大容量記憶装置を応用した大量文書のファイリン
グが求められており、この蓄積された大量の文書を検索
する必要がある。 r従来の技術] 従来の装置は、ヒタチレビュー36の213頁(1,9
87年) (S、 Ito et al、。 “I−I I T F I T、E 650 0pt
ical DiskFiljng System、
HI TACHIREVIEW 36,213 (
,1987))に記載のように文書画像を一貫単位で光
ディスク等の記憶装置に格納していた。従って、文書中
の写真や図表、テキストは一貫単位で検索し表示されて
いた。そのため、文書画像中のテキストに対する検索は
できなかった。また、図表や写真を個別に検索すること
もできなかった。
の検索方法に関する。産業の各方面において文書データ
の検索が必要とされ1例えば原子力発電所等においては
、その各種設備の高信頼性を維持して運用するために、
また、その設備、機器の設計、改良のために多種多様な
情報の蓄積、管理が必要とされる。従って、光ディスク
などの大容量記憶装置を応用した大量文書のファイリン
グが求められており、この蓄積された大量の文書を検索
する必要がある。 r従来の技術] 従来の装置は、ヒタチレビュー36の213頁(1,9
87年) (S、 Ito et al、。 “I−I I T F I T、E 650 0pt
ical DiskFiljng System、
HI TACHIREVIEW 36,213 (
,1987))に記載のように文書画像を一貫単位で光
ディスク等の記憶装置に格納していた。従って、文書中
の写真や図表、テキストは一貫単位で検索し表示されて
いた。そのため、文書画像中のテキストに対する検索は
できなかった。また、図表や写真を個別に検索すること
もできなかった。
文書情報の中でも価値の高い情報は、技術報告書、技術
資料、技術雑誌であり、これらの文書では、写真、イラ
ストレーション、図表むどが混在しており、また、カラ
ー情報が重要である。従って、これら異種媒体の混在し
た文書、即ちマルチメディア文書を光ディスクに効率的
に蓄積し、かつ、検索に重要な情報抽出を行ない、文書
の内容を利用した検索方法が必要である。ところが、上
記従来技術は、文書画像をページ単位で蓄積、管理する
ため、写真、イラストレーション、図表などが混在した
文書を個別に取扱うことができず、これらの情報を効率
的に蓄積、管理することに問題があった。また、カラー
写真を含む文書を効率的に蓄積することが考慮されてい
なかった。 本発明の目的は、カラー写真などを含むマルチメディア
文書画像を情報システムに効率よく入力。 蓄積し、それらの文書の意味的な内容から所望の文書を
容易に検索することにある。
資料、技術雑誌であり、これらの文書では、写真、イラ
ストレーション、図表むどが混在しており、また、カラ
ー情報が重要である。従って、これら異種媒体の混在し
た文書、即ちマルチメディア文書を光ディスクに効率的
に蓄積し、かつ、検索に重要な情報抽出を行ない、文書
の内容を利用した検索方法が必要である。ところが、上
記従来技術は、文書画像をページ単位で蓄積、管理する
ため、写真、イラストレーション、図表などが混在した
文書を個別に取扱うことができず、これらの情報を効率
的に蓄積、管理することに問題があった。また、カラー
写真を含む文書を効率的に蓄積することが考慮されてい
なかった。 本発明の目的は、カラー写真などを含むマルチメディア
文書画像を情報システムに効率よく入力。 蓄積し、それらの文書の意味的な内容から所望の文書を
容易に検索することにある。
上記目的を達成するために、カラースキャナで読み取っ
たカラー文書画像から、カラー情報を分離抽出し、更に
構成要素に分解して意味的構造を抽出し、構造化された
マルチメディア情報の検索を知識を援用した推論により
実行するものである。
たカラー文書画像から、カラー情報を分離抽出し、更に
構成要素に分解して意味的構造を抽出し、構造化された
マルチメディア情報の検索を知識を援用した推論により
実行するものである。
【作用1
カラー文書画像から、カラー情報を分離抽出し、更に構
成要素に分解して意味的構造を抽出する手段では、カラ
ー文書画像からカラー地領域、テキスト領域、および非
テキスト領域を分離抽出し、テキストについては文字認
識を行って、文書を構造的に分解すると同時に、文書の
論理構造などの意味的構造を抽出する。これによって、
文書画像をその構成要素に分解するとともに、それら構
成要素の関係を抽出することができる。さらに、構造化
されたマルチメディア情報の検索を知識を援用した推論
により実行する手段においては、文書検索システムの利
用者のあいまい、又は、抽象的な検索要求から関連性を
辿ることによって、所望の文書を検索する。 r実施例】 以下1本発明の一実施例を第1図により説明する。マル
チメディアファイル100は、印刷文書を構造化して格
納するファイルである。当該印刷文書はカラースキャナ
等の画像入力装置を用いて撮像され、画像データとなる
。この画像データ1こは、カラー写真、テキスト、図表
等の各種メディアが画像として存在している。この画像
データに対して、マルチメディア構造化処理部105で
文書画像を構成要素に分解するとともに、構成要素間の
関係を抽出する。従って、マルチメディアファイル10
0は、書誌事項を格納するIF誌ソファイル110レイ
アウト構造および論理構造の情報を有するテキストデー
タからなる構造化テキストファイル111、分離した図
並びに表よりなる図表ファイル112、カラー写真なら
びにモノクロ写真からなる中間調画像ファイル113、
より構成される。 文書検索のための登録及び更新を行う登録・更新部10
1は、書誌インデックス抽出部114、意味抽出部11
5、テキスト内容分析部116、テキスト・図表関連抽
出部1.17、図表インデックス抽出部118のそれぞ
れからなる。この内、書誌ファイル110よりa誌事項
を検索のためのインデックス情報とするのが書誌インデ
ックス抽出部114である。また、意味抽出部115で
は、主に構造化テキストファイル111の内容を用い。 文章の意味を抽出し、その結果を意味ネットワークとし
て意味ネットワークファイル120出力する。さらに、
テキスト内容分析部116では、テキストデータに対し
て形態素解析、構文解析を行い、その結果をテキスト内
容ファイル121に出力する。さらに、テキスト・図表
関連抽出部117では、テキスト中において、図表を参
照している個所を抽出し、テキストの当該個所と図表と
をリンクする情報を付加し、テキスト・図表関連ファイ
ル122に出力する。また、図表インデックス抽出部1
18では、図表中に含まれる文字列を切り出すとともに
、図や表の縦軸、横軸の構造を抽出し、図表の主要項目
である軸の文字パターンや項目の文字パターンを抽出し
、これらの主要な文字列に対して文字認識を行い、その
結果を図表インデックスファイル123に格納する。こ
れらの登録、更新処理は、検索対話部108を介して、
登録・更新項目入力部107においてインタラクティブ
に行うこともできる。 検索用ファイル102は、書誌インデックスファイル1
19、意味ネットワークファイル120、テキスト内容
ファイル121、テキスト・図表関連ファイル122、
図表インデックスファイル123、概念ネットワークフ
ァイル124からなる。この内、概念ネットワークファ
イル124は、検索対話108を介して登録・更新項目
入力部107によってインタラクティブに作成するもの
であり、概念をWIN化してネットワーク状に表現した
ものである。その他のファイル119゜120.121
,122,123は登録・更新部101の出力結果を格
納したファイルである。 検索部103は、書誌検索部125、意味検索部126
、テキスト検索部127、テキスト・図表関連検索部1
28、図表検索部129、連想検索部130より構成さ
れ、それぞれ、検索対話部108を介して入力された検
索条件を検索条件解釈部10’9において解釈し、検索
条件に合致する文書を探索する。この時、それぞれの検
索部125.126,127,128,129゜139
は、単独で検索を実行することもできるし、複数を組合
せて検索することもできる。ここで、書誌検索部125
は、指定の書誌事項を有する文書を探索する。また、意
味検索部126は、意味ネットワークファイル120を
用いて、検索条件として与えられた意味と類似する意味
を有する文書を探索する。さらに、テキスト検索部12
7では、テキスト内容ファイル121を利用して指定の
単語や構文と合致する文書を探索する。また、テキスト
・図表関連検索部128では、テキストの指定された個
所に関連する図表を検索すること及び指定された図表に
関連するテキストの章や節等の該当個所を検索する。ま
た、図表検索部129では、図表インデックスファイル
123を用い、指定した検索条件により、例えば、図の
横軸の名称を指定することにより、その検索条件を満た
す図表を探索する。さらに、連想検索部130では、概
念ネットワークファイル124を用い、類似の概念を有
する文書を探索する。これにより、知識を援用した推論
による検索が可能となる。検索部103の処理結果は、
検索結果ファイル104に格納され、デイスプレィ装置
よりなる結果表示部106において、その結果が表示さ
れる。第6図は検索用ファイル102に格納される情報
の一部を説明する図である。検索のための情報は、文書
構造に関する情報と、特に検索に供される検索属性情報
とに大別している。この内、文書構造に関する検索のた
めの情報は、一部はマルチメディアファイル100の内
容と重複するが。 これら重複部分は共有させてもよいし、検索の高速化の
ために別途設けることもできる。検索に用いる文書構造
の情報は、レイアウト構造に関する情報600と論理構
造に関する情報601に分類でき、その内、レイアウト
構造に関する情報600では、分離した要素に関する情
報602と。 その要素の属性603とがある。要素に関する情報60
2としてはテキスト604と非テキスト608があり、
テキスト604では、カラム605、行606、単語や
文字607といった情報が検索のために用いられる。ま
た、非テキスト608に関するものとしては、図609
、表610、写真611といった情報がある。これらの
情報、即ち、要素がどのメディアに属するものかという
情報とともに、要素自体の属性情報603があるが、こ
の属性情報としては、要素の位置612、カラー613
.フォント614がある。一方、論理構造に関する情報
601としては、書誌事項620があり、この例として
は、UDC621、タイトル622、著者名623、抄
録624、キーワード625がある。また、本文である
かどうかの情11626も重要であり、さらに、章62
71節628、パラグラフ629が検索のために用いら
れる。また、参考文献リスト630を対象とする検索も
でき、このリストにある参考文#631自体も検索に利
用できる。更に、脚注632、ノンプル633、柱63
4といった情報も検索に用いることができる。一方、検
索に用いる特別の属性としては、要素に関する情報64
0と関連性に関する情報641がある。要素に関する情
報640としては、テキスト642の書誌情報643は
勿論のことであり1章、節の名称644、テキスト中の
強調部分645としては、イタリック646やボールド
647といった書体に関する情報や、文字のカラー情報
648、アンダラインの有無649がある。また1図表
、写真に関する情報650としては、キャプション65
1、図表中の文字652、表、グラフの構造653があ
る。また、関連性に関する情報641として、本文と図
表との関係654や本文と参照文献655との関係65
5がある。本発明は、これらの情報を自動的に抽出する
こと及びこれらの情報を検索に用いることができるため
、検索のためのインデックスを登録するとうぃう煩雑な
作業が不要になるとともに、多様な検索が可能である。 第2図は、本発明の一実施例である文書検索システムの
構成図である。計算機やワークステーションからなる検
索ステーション200ならびに201は、検索対話を行
うものであり、検索条件を入力するとともに検索結果の
表示を行う。また、検索結果はフルカラープリンタなど
の出力装置202により結果を紙211の形でプリント
アウトすることができる。この文書検索システムはロー
カルエリアネットワーク等の通信路207を介して、計
算機を結合した分散システムの構成である。これにより
、検索、登録、更新やマルチメディア構造化といった処
理が並行して行うことができ、効率のよいシステムとな
る。このシステムにおいて、大量の印刷文書210は、
予め、カラー或いはモノクロイメージスキャナ等の画像
入力装置206によって計算機に入力される。ここで、
203は登録ステーションであり、ワークステーション
で構成されており、画像入力装置206の制御を行うと
ともに、高速演算装置205と協調して文書画像の構造
化処理を行う。ファイルサーバ204は、同じく、ワー
クステーションから構成されており、大容量ファイルサ
ーバとしての役割を果たしており、光ディスク装@20
8゜209を制御している。 第3図は、文書検索システムの処理の手順の一例を示す
ブロック図である。カラースキャナによって撮像された
文書画像データ300は、カラー領域抽出部302によ
り、文書中のカラー領域を分離抽出される。そして、写
真領域分離抽出部302において、濃淡を有する写真の
部分を分離する。この写真部分に対しては、ガンマ補正
等の画像補正を画像補正部318によって行い、中間調
画像としてマルチメディアファイル310に格納する。 一方、写真部を分離された画像データに対して、2値化
処理部303において2値化処理を行い、濃淡画像を2
値画像に変換する。そして、書誌領域抽出部304にお
いて、タイトル、著者名等の書誌事項を画像パターンの
まま抽出し1項目認識部309において文字パターンの
認識を行い、書誌事項をコードデータとしてマルチメデ
ィアファイル310に格納する。一方、書誌事項を分離
した文書画像データに対しては、囲み記事を305にお
いて抽出すると共に、文字のみよりなるテキスト領域と
線図形や面図形から構成される図表などの非テキスト領
域とを206において分離し、さらに非テキスト領域は
構造化してマルチメディアファイル310に格納される
。テキスト領域はレイアウト構造や論理構造を油出する
テキスト構造化処理を307において行い、文字認識部
308と協調して構造化テキスト情報を抽出し。 マルチメディアファイル310に格納する。次いで、こ
のマルチメディアファイル310に対して、図表検索属
性登録部311では、図表から重要な文字列を、図表の
構造化をもとにして抽出し、検索用ファイル314に格
納する。一方、参照関係登録部312では、テキストと
図表の参照関係を抽出し、同じく検索用ファイル314
に格納する。 また、テキスト分析部313では、テキストに対して意
味情報を抽出し、同じく検索用ファイル314に格納す
る。この検索用ファイル314を用いて、315,31
6,317で示した図表検索、関連検索、意味検索を行
う。本実施例によれば、印刷文書をイメージスキャナで
撮像し採取した文書画像データから自動的に検索に用い
る情報を抽出することができる効果がある。また、検索
用のファイルをマルチメディアファイルとは別に設けて
いるため、検索の効率化、高速化の効果がある。 第4図は、本発明の一実施例を示す文書検索システムの
説明図である。大量の文IF400は予め当該システム
に格納するが、この文書はテキスト、写真、図表といっ
たメディアが混在しており、マルチメディア文書と呼ぶ
、一般に、文書中には階層的に情報が含まれており、論
理構造と割り付は構造を有している。第15図は、文書
の割り付は構造の説明図であり、ページ1500には1
例えば、二つのフレーム1501.1508がある。 さらに、このフレーム1501には、ブロック1052
.1503,1504が含まれテいる。 また、フレーム1508には、ブロック1505゜15
06.1507が含まれている。これは、ブロックはテ
キストであったり、図表、写真であったりする。第14
図は1文書の論理構造と割り付は構造の対応を説明する
図であり、文書は論理構造1400及び割り付は構造1
401を持っているが、この割り付は構造としては、先
ず、一つの文書が複数のページからなり、表紙頁142
0、前見返し頁1421.UDC7レーム1422、表
題フレーム1423、著者名フレーム1424゜要約フ
レーム1425、本文フレーム1426、後見返し頁1
427、裏表紙頁1428がある。 また1本文フレーム1426には、左枠フレーム142
9、右枠フレーム143oがあり、例えば。 この左枠フレーム1429には、ブロック1431.1
432.1433.1434が含まれているという構造
を有している。これらブロックの単数または複数個が論
理構造の要素に対応することになり、例えば、テキスト
1416はブロック1431とブロック1433に対応
している。 また1図表1417はブロック1433と対応している
。論理構造1400は、表紙14o2、前見返し140
3、論文1404、後見返し14o5、裏表紙1406
からなり、論文1404は、更に、UDC1407、表
題1408、著者名1409、要約14. l 01章
1411、参考文#1413からなる。更に、章141
1は、節1414.1415がらなり、節1414はテ
キスト1416、図表1417からなる。本発明は、こ
れらの論理構造、割り付は構造を文書画像データから自
動的に抽出するものである。このため、対象とするマル
チメディア文書400を画像データとして本システムに
入力する。 ここで、カラー文書を扱うため、赤色画像401、緑色
画像402、青色画像403をカラースキャナで採取し
、カラー画像データ406を対象に文書の構造化を行う
。文書構造化部405は、論理構造抽出部407、カラ
ー画像分離圧縮部408、文字認識部409.意味情報
抽出部410からなり、文書のレイアウトの条件など文
書知!11404を用いて、文書を構造化する。構造化
した出力結果はマルチメディアファイル411に格納さ
れることになり、文書構造ファイル412.書誌ファイ
ル413、テキストファイル414、意味情報415、
写真ファイル416、図形ファイル417にそれぞれ格
納され、このマルチメディアファイル411を用いた検
索を内容検索部418で行う。本発明により、文書の論
理構造、割り付は構造が自動的に抽出される。また、構
成要素であるテキストは文字パターンからコードデータ
に文字認識によって変換されるため、データ量の削減が
可能となる。さらに、写真に対しては、写真にのみ適し
た圧縮符号化ができるため、文書画像の一ページ全体を
符号化するのに比べて、効率のよいデータ圧縮が可能で
ある。 第5図は、本発明の別の一実施例である文書検索システ
ムの構成図である。マルチメディア構造化部500は、
マルチメディア文書を構造化し、マルチメディアデータ
ベース管理部501を介して、データベースに格納する
。このデータベースは、要素間関係データベース502
、図形データベース503、画像データベース504、
テキストデータベース505、書誌データベース506
゜意味内容データベース507からなる。この内、要素
間関係データベース502では1文書の構成要素の関係
を格納している。また、図形データベース503は、図
形情報を1例えば、線ベクトルとして格納している。ま
た、画像データベース504は、文書中の写真を画像デ
ータとして格納している。テキストデータベース505
は1文書中のテキストを文字コードとして格納している
。 図形サーチ部509では、指定した図形と類似の図形を
図形データベース503から探索する。また1画像サー
チ部511では、指定した画像と類似の特徴をもつ画像
を画像データベース504から探索する。さらに、文字
列サーチ511では、指定した文字列を有する文字列を
テキストデータベース505から探索する。本発明によ
れば、これらの図形、画像、文字列は1紙に印刷された
文書の中から探索することができる。 また、これらのサーチ部509,510,511は単独
で、或いは、複数で実行することができるため、所望の
文書を、従来の文字列検索だけで探索するのではなく、
文書に含まれる図形1画像等を探索することによって求
めることが可能である。 推論検索部512は意味内容データベース507、知識
ベース508とを利用して、推論を行いながら所望の文
書を探索する。この知識ベース508は、知識ベース管
理部513によって、登録、更新がなされる。第7・図
はマルチメディアデータベース管理部501の検索用イ
ンタフェースの構成を示す。ここでは、検索対話部70
1、メディア再構成部703、推論検索部700.知識
ベース管理部702、知識ベース704からなり、知識
ベース704を用いてマンマシン性のよい検索インタフ
ェースが可能である。 第8図は、印刷された文書を電子的に流し読みすること
ができる印刷文書ブラウジングシステムの説明図である
。印刷文書821に対して文書構造化部820によって
1文書を構造化するとともにインデックスを自動的に付
加する6文書構造化部820の結果は、検索用ファイル
803に格納される。検索画面800は、マルチウィン
ドウ形式になっており、書誌事項ウィンドウ811、テ
キストウィンドウ812、図表ウィンドウ810、など
が複数個表示される。813,814は他のウィンドウ
を示す、ブラウザ部802は、検索用ファイル803に
アクセスし、検索画面に文書情報を表示するとともに利
用者との対話を利用して順次文書の要素に対して流し読
みを行うことができる。 第9図は、意味検索を説明する図である0画面は複数の
ウィンドウ902,903が表示できる。 ここで、900,901は画面を示している0画面90
0の中で、検索要求ウィンドウ902に、例えば、光デ
ィスクの技術に関する質問を行うと、技術名称表示ウィ
ンドウ903に、光デイスク技術に関連する技術が階層
的に表示される0例えば、光デイスク技術904を支え
る技術として、装置技術905と記憶媒体技術906が
あることがトリー状に表示される。また、さらに、V&
置核技術905支える詳細な技術を利用者が知りたい場
合は、利用者は装置技術905の表示個所に1例えば、
カーソルを合わせマウスをクリックすることによって1
次の画面901のウィンドウ910に装置技術925及
びその技術を支える技術として、光点形成技術927.
光点位置決め技術928、アクチュエータ929が表示
される。さらに、これら個々の技術の詳細説明文章をテ
キストウィンドウ911,912,913に表示するこ
ともできる0本実施例によれば、階層的な情報構造を有
する技術体系などをその意味構造を基1こして検索する
ことができ、従来の固定的な名称を探索するのではなく
、関連する技術名称とその内容を容易に検索できる効果
がある。 第10図は、論理構造と意味構造の説明図である。印刷
文書の画像データから論理構造を自動的に抽出した結果
を1060に示す0文書の名称1000は、この例では
、大容量光ディスクファイルであり、その構造は、要旨
1002.1緒言1003.2光デイスクの位置づけと
開発のねらい1004.等の章名称と節名称1005゜
1006.1007,1008,1009゜1010.
1011,1012,1013゜1014.1015,
1016.1017からなる。これらの章及び節名称を
分析することにより、意味構造1061を抽出する。先
ず、文書の名称1000である大容量光ディスクファイ
ルtoolを基にファイル1020を意味構造のルート
に設定する。そして、光ディスク1021とその属性1
062として大容量1022をリンクする。ここで、技
術名称の結ぶリンクとしては、論理構造の上下関係及び
、技術の属性として構成要素、目的、対象、などがある
、技術名称である光ディスク1021の下位には、位置
付け1023、開発の狙い1024、基本構成1025
、特徴1026などがあるが、これらは1例えば、2光
デイスクの位置づけと開発のねらい1004を基に、位
置付け1023と開発の狙い1024を抽出している。 また、3光デイスクフアイルの基本構成と特徴1005
から意味構造として基本構成1025、特徴1026を
抽出している。さらに、4光デイスクを支える主要技術
1006から、意味構造として主要技術1027を抽出
する。このように、論理構造における章や節の名称から
。 意味構造を抽出する本実施例によれば、意味構造を基に
した検索が可能であり、これにより情報構造を有する技
術名称を詳細に探索することが可能である。 第11図は、印刷文書の電子化文書への変換を説明する
図である。ここでは、印刷文書を対象としているが、勿
論1手書き文書についても可能であり、印刷文書に対象
を限定するものではない。 ここでは、この電子化文書のデイスプレィ画面を110
0に、電子化文書のファイル構成を1101に、また、
印刷文書の電子化文書への変換手順を1102に示す、
利用者はデスプレイ画面1100を介して、テキスト1
103゜1104及び図1105等を流し読みすること
ができ、特に、1120で示す図の参照個所に対して、
リンク情報が図1105に対して付加されており、11
20の個所から、参照している図を流し読みすることが
できる。また、同じように。 1122で示した個所に対しても、他のテキスト110
6とのリンクが取られており、この例では、文献(1)
1122を、即座にデイスプレィ画面に表示することが
できる。このようなリンク情報は、電子化文書のファイ
ル1101に格納されている、当該ファイル1101に
は、文献1107の下位に章1108、節1109、項
1110、文1111、単語1113が階層的に格納さ
れており5図表1112は、節1109や或いは文11
11とリンクされて保存されている。同じく文献111
4は、文1111や単語1113にリンクされて保存さ
れている。このような電子化文書のファイル1101は
、印刷文書から自動的に作成され、先ず対象とする印刷
文i11115をスキャナ人力1116して、次いで、
文書構造化1117を行い、検索属性抽出1118を行
い、それらの結果を当該ファイル1101に格納してい
る。第12図は、テキストと図表とのリンク情報を自動
的に付加する処理手順を説明する図である。テキストフ
ァイル並びに図表ファイルを1200で入力し、文字列
探索部1201により図表の参照個所を探索する。そし
て、図表参照文抽出部1202において、参照文字列を
取り出すとともにその位置を登録し、1203において
テキストと図表の関連付けを行う。 第13図は印刷文書を書式付き処理可能形式の文書ファ
イルへ自動的に変換する手順を説明する図である。実線
枠1300で示した処理が、印刷文書を書式付き処理可
能形式の文書ファイルへ変換する手順を、破線枠130
1で示した処理が、人手による文書作成の手順である。 印刷文書1302はスキャナ入力部1303によって画
像として入力され、メディア分離・構造抽出部1304
によって、論理構造、割り付は構造及び内容を自動的に
抽出し、論理構造1308、割り付は構造1309.内
容1310を有する書式付き処理可能形式の文書ファイ
ル1307に格納される。当該ファイルは、転送処理部
1311を介して、他のシステムに転送することができ
る。 方、人手による文書作成では、1305に示す文書編集
部で、論理構造及び内容を入力し、割り付は処理部13
06によってページのレイアウトが設定され、それぞれ
論理構造、割り付は構造、内容が当該ファイル1307
に格納される。本実施例によれば1人手により作成され
た文書ファイルと同一形式にファイルを印刷文書から自
動的に作成することができ、印刷文書を他システムに自
由に転送することができる。また、印刷された文書を電
子化し、再編集することができる効果もある。 第16図は第1図に129に示した図表検索を説明する
図である。この図表検索では、文献1600.1601
,1602等に記載されている図表を図表中に含まれる
主要な文字例をもとに探索することができる0例えば、
検索条件として図の縦軸の名称を指定することができ、
その名称を縦軸にもつ図表を検索して表示する。検索の
ために利用者に提供される画面1603において、16
06が検索条件の入力するウィンドウであり、この例で
は、縦軸が記憶容量を表しているという条件を入力して
いる。図表表示ウィンドウ1604.1605には、そ
れぞれ検索結果の図表が表示されることになる。縦軸1
607゜1608は、それぞれ記憶容量を示している。 このような図表検索を行うためには、図表から主要な文
字列を抽出する必要がある。第18図は、図表検索のた
めの自動登録の処理過程を示す図である。図表ファイル
1800から読み出された画像データは1表及びグラフ
に1802で分類し、図表の構造抽出部1803で図表
から縦軸、横軸、項目等の構造を抽出する。そして1文
字列抽出部1801では、縦軸、横軸、項目の文字列を
抽出し、単語抽出部1804で1文字認識を行い、検索
語登録部1805において、図表検索のためのインデッ
クスとして当該単語を図表の構造、例えば、横軸の名称
であることを合わせて登録する。 第17図は図表検索の別の実施例を示す図である。文書
画像データ1700に対して、図を分離した結果が17
01である。これに対して、キャプションの抽出を行っ
た結果が1702、図本体から文字列を抽出した結果が
1703である。これらは、それぞれキャプションファ
イル並びに図表インデックスファイルとして用いる。こ
れにより1図表のふくまれている文字列をもとにした検
索が可能であり、大量の文献の中から、所望の図表のみ
を効率良く検索することができる。
成要素に分解して意味的構造を抽出する手段では、カラ
ー文書画像からカラー地領域、テキスト領域、および非
テキスト領域を分離抽出し、テキストについては文字認
識を行って、文書を構造的に分解すると同時に、文書の
論理構造などの意味的構造を抽出する。これによって、
文書画像をその構成要素に分解するとともに、それら構
成要素の関係を抽出することができる。さらに、構造化
されたマルチメディア情報の検索を知識を援用した推論
により実行する手段においては、文書検索システムの利
用者のあいまい、又は、抽象的な検索要求から関連性を
辿ることによって、所望の文書を検索する。 r実施例】 以下1本発明の一実施例を第1図により説明する。マル
チメディアファイル100は、印刷文書を構造化して格
納するファイルである。当該印刷文書はカラースキャナ
等の画像入力装置を用いて撮像され、画像データとなる
。この画像データ1こは、カラー写真、テキスト、図表
等の各種メディアが画像として存在している。この画像
データに対して、マルチメディア構造化処理部105で
文書画像を構成要素に分解するとともに、構成要素間の
関係を抽出する。従って、マルチメディアファイル10
0は、書誌事項を格納するIF誌ソファイル110レイ
アウト構造および論理構造の情報を有するテキストデー
タからなる構造化テキストファイル111、分離した図
並びに表よりなる図表ファイル112、カラー写真なら
びにモノクロ写真からなる中間調画像ファイル113、
より構成される。 文書検索のための登録及び更新を行う登録・更新部10
1は、書誌インデックス抽出部114、意味抽出部11
5、テキスト内容分析部116、テキスト・図表関連抽
出部1.17、図表インデックス抽出部118のそれぞ
れからなる。この内、書誌ファイル110よりa誌事項
を検索のためのインデックス情報とするのが書誌インデ
ックス抽出部114である。また、意味抽出部115で
は、主に構造化テキストファイル111の内容を用い。 文章の意味を抽出し、その結果を意味ネットワークとし
て意味ネットワークファイル120出力する。さらに、
テキスト内容分析部116では、テキストデータに対し
て形態素解析、構文解析を行い、その結果をテキスト内
容ファイル121に出力する。さらに、テキスト・図表
関連抽出部117では、テキスト中において、図表を参
照している個所を抽出し、テキストの当該個所と図表と
をリンクする情報を付加し、テキスト・図表関連ファイ
ル122に出力する。また、図表インデックス抽出部1
18では、図表中に含まれる文字列を切り出すとともに
、図や表の縦軸、横軸の構造を抽出し、図表の主要項目
である軸の文字パターンや項目の文字パターンを抽出し
、これらの主要な文字列に対して文字認識を行い、その
結果を図表インデックスファイル123に格納する。こ
れらの登録、更新処理は、検索対話部108を介して、
登録・更新項目入力部107においてインタラクティブ
に行うこともできる。 検索用ファイル102は、書誌インデックスファイル1
19、意味ネットワークファイル120、テキスト内容
ファイル121、テキスト・図表関連ファイル122、
図表インデックスファイル123、概念ネットワークフ
ァイル124からなる。この内、概念ネットワークファ
イル124は、検索対話108を介して登録・更新項目
入力部107によってインタラクティブに作成するもの
であり、概念をWIN化してネットワーク状に表現した
ものである。その他のファイル119゜120.121
,122,123は登録・更新部101の出力結果を格
納したファイルである。 検索部103は、書誌検索部125、意味検索部126
、テキスト検索部127、テキスト・図表関連検索部1
28、図表検索部129、連想検索部130より構成さ
れ、それぞれ、検索対話部108を介して入力された検
索条件を検索条件解釈部10’9において解釈し、検索
条件に合致する文書を探索する。この時、それぞれの検
索部125.126,127,128,129゜139
は、単独で検索を実行することもできるし、複数を組合
せて検索することもできる。ここで、書誌検索部125
は、指定の書誌事項を有する文書を探索する。また、意
味検索部126は、意味ネットワークファイル120を
用いて、検索条件として与えられた意味と類似する意味
を有する文書を探索する。さらに、テキスト検索部12
7では、テキスト内容ファイル121を利用して指定の
単語や構文と合致する文書を探索する。また、テキスト
・図表関連検索部128では、テキストの指定された個
所に関連する図表を検索すること及び指定された図表に
関連するテキストの章や節等の該当個所を検索する。ま
た、図表検索部129では、図表インデックスファイル
123を用い、指定した検索条件により、例えば、図の
横軸の名称を指定することにより、その検索条件を満た
す図表を探索する。さらに、連想検索部130では、概
念ネットワークファイル124を用い、類似の概念を有
する文書を探索する。これにより、知識を援用した推論
による検索が可能となる。検索部103の処理結果は、
検索結果ファイル104に格納され、デイスプレィ装置
よりなる結果表示部106において、その結果が表示さ
れる。第6図は検索用ファイル102に格納される情報
の一部を説明する図である。検索のための情報は、文書
構造に関する情報と、特に検索に供される検索属性情報
とに大別している。この内、文書構造に関する検索のた
めの情報は、一部はマルチメディアファイル100の内
容と重複するが。 これら重複部分は共有させてもよいし、検索の高速化の
ために別途設けることもできる。検索に用いる文書構造
の情報は、レイアウト構造に関する情報600と論理構
造に関する情報601に分類でき、その内、レイアウト
構造に関する情報600では、分離した要素に関する情
報602と。 その要素の属性603とがある。要素に関する情報60
2としてはテキスト604と非テキスト608があり、
テキスト604では、カラム605、行606、単語や
文字607といった情報が検索のために用いられる。ま
た、非テキスト608に関するものとしては、図609
、表610、写真611といった情報がある。これらの
情報、即ち、要素がどのメディアに属するものかという
情報とともに、要素自体の属性情報603があるが、こ
の属性情報としては、要素の位置612、カラー613
.フォント614がある。一方、論理構造に関する情報
601としては、書誌事項620があり、この例として
は、UDC621、タイトル622、著者名623、抄
録624、キーワード625がある。また、本文である
かどうかの情11626も重要であり、さらに、章62
71節628、パラグラフ629が検索のために用いら
れる。また、参考文献リスト630を対象とする検索も
でき、このリストにある参考文#631自体も検索に利
用できる。更に、脚注632、ノンプル633、柱63
4といった情報も検索に用いることができる。一方、検
索に用いる特別の属性としては、要素に関する情報64
0と関連性に関する情報641がある。要素に関する情
報640としては、テキスト642の書誌情報643は
勿論のことであり1章、節の名称644、テキスト中の
強調部分645としては、イタリック646やボールド
647といった書体に関する情報や、文字のカラー情報
648、アンダラインの有無649がある。また1図表
、写真に関する情報650としては、キャプション65
1、図表中の文字652、表、グラフの構造653があ
る。また、関連性に関する情報641として、本文と図
表との関係654や本文と参照文献655との関係65
5がある。本発明は、これらの情報を自動的に抽出する
こと及びこれらの情報を検索に用いることができるため
、検索のためのインデックスを登録するとうぃう煩雑な
作業が不要になるとともに、多様な検索が可能である。 第2図は、本発明の一実施例である文書検索システムの
構成図である。計算機やワークステーションからなる検
索ステーション200ならびに201は、検索対話を行
うものであり、検索条件を入力するとともに検索結果の
表示を行う。また、検索結果はフルカラープリンタなど
の出力装置202により結果を紙211の形でプリント
アウトすることができる。この文書検索システムはロー
カルエリアネットワーク等の通信路207を介して、計
算機を結合した分散システムの構成である。これにより
、検索、登録、更新やマルチメディア構造化といった処
理が並行して行うことができ、効率のよいシステムとな
る。このシステムにおいて、大量の印刷文書210は、
予め、カラー或いはモノクロイメージスキャナ等の画像
入力装置206によって計算機に入力される。ここで、
203は登録ステーションであり、ワークステーション
で構成されており、画像入力装置206の制御を行うと
ともに、高速演算装置205と協調して文書画像の構造
化処理を行う。ファイルサーバ204は、同じく、ワー
クステーションから構成されており、大容量ファイルサ
ーバとしての役割を果たしており、光ディスク装@20
8゜209を制御している。 第3図は、文書検索システムの処理の手順の一例を示す
ブロック図である。カラースキャナによって撮像された
文書画像データ300は、カラー領域抽出部302によ
り、文書中のカラー領域を分離抽出される。そして、写
真領域分離抽出部302において、濃淡を有する写真の
部分を分離する。この写真部分に対しては、ガンマ補正
等の画像補正を画像補正部318によって行い、中間調
画像としてマルチメディアファイル310に格納する。 一方、写真部を分離された画像データに対して、2値化
処理部303において2値化処理を行い、濃淡画像を2
値画像に変換する。そして、書誌領域抽出部304にお
いて、タイトル、著者名等の書誌事項を画像パターンの
まま抽出し1項目認識部309において文字パターンの
認識を行い、書誌事項をコードデータとしてマルチメデ
ィアファイル310に格納する。一方、書誌事項を分離
した文書画像データに対しては、囲み記事を305にお
いて抽出すると共に、文字のみよりなるテキスト領域と
線図形や面図形から構成される図表などの非テキスト領
域とを206において分離し、さらに非テキスト領域は
構造化してマルチメディアファイル310に格納される
。テキスト領域はレイアウト構造や論理構造を油出する
テキスト構造化処理を307において行い、文字認識部
308と協調して構造化テキスト情報を抽出し。 マルチメディアファイル310に格納する。次いで、こ
のマルチメディアファイル310に対して、図表検索属
性登録部311では、図表から重要な文字列を、図表の
構造化をもとにして抽出し、検索用ファイル314に格
納する。一方、参照関係登録部312では、テキストと
図表の参照関係を抽出し、同じく検索用ファイル314
に格納する。 また、テキスト分析部313では、テキストに対して意
味情報を抽出し、同じく検索用ファイル314に格納す
る。この検索用ファイル314を用いて、315,31
6,317で示した図表検索、関連検索、意味検索を行
う。本実施例によれば、印刷文書をイメージスキャナで
撮像し採取した文書画像データから自動的に検索に用い
る情報を抽出することができる効果がある。また、検索
用のファイルをマルチメディアファイルとは別に設けて
いるため、検索の効率化、高速化の効果がある。 第4図は、本発明の一実施例を示す文書検索システムの
説明図である。大量の文IF400は予め当該システム
に格納するが、この文書はテキスト、写真、図表といっ
たメディアが混在しており、マルチメディア文書と呼ぶ
、一般に、文書中には階層的に情報が含まれており、論
理構造と割り付は構造を有している。第15図は、文書
の割り付は構造の説明図であり、ページ1500には1
例えば、二つのフレーム1501.1508がある。 さらに、このフレーム1501には、ブロック1052
.1503,1504が含まれテいる。 また、フレーム1508には、ブロック1505゜15
06.1507が含まれている。これは、ブロックはテ
キストであったり、図表、写真であったりする。第14
図は1文書の論理構造と割り付は構造の対応を説明する
図であり、文書は論理構造1400及び割り付は構造1
401を持っているが、この割り付は構造としては、先
ず、一つの文書が複数のページからなり、表紙頁142
0、前見返し頁1421.UDC7レーム1422、表
題フレーム1423、著者名フレーム1424゜要約フ
レーム1425、本文フレーム1426、後見返し頁1
427、裏表紙頁1428がある。 また1本文フレーム1426には、左枠フレーム142
9、右枠フレーム143oがあり、例えば。 この左枠フレーム1429には、ブロック1431.1
432.1433.1434が含まれているという構造
を有している。これらブロックの単数または複数個が論
理構造の要素に対応することになり、例えば、テキスト
1416はブロック1431とブロック1433に対応
している。 また1図表1417はブロック1433と対応している
。論理構造1400は、表紙14o2、前見返し140
3、論文1404、後見返し14o5、裏表紙1406
からなり、論文1404は、更に、UDC1407、表
題1408、著者名1409、要約14. l 01章
1411、参考文#1413からなる。更に、章141
1は、節1414.1415がらなり、節1414はテ
キスト1416、図表1417からなる。本発明は、こ
れらの論理構造、割り付は構造を文書画像データから自
動的に抽出するものである。このため、対象とするマル
チメディア文書400を画像データとして本システムに
入力する。 ここで、カラー文書を扱うため、赤色画像401、緑色
画像402、青色画像403をカラースキャナで採取し
、カラー画像データ406を対象に文書の構造化を行う
。文書構造化部405は、論理構造抽出部407、カラ
ー画像分離圧縮部408、文字認識部409.意味情報
抽出部410からなり、文書のレイアウトの条件など文
書知!11404を用いて、文書を構造化する。構造化
した出力結果はマルチメディアファイル411に格納さ
れることになり、文書構造ファイル412.書誌ファイ
ル413、テキストファイル414、意味情報415、
写真ファイル416、図形ファイル417にそれぞれ格
納され、このマルチメディアファイル411を用いた検
索を内容検索部418で行う。本発明により、文書の論
理構造、割り付は構造が自動的に抽出される。また、構
成要素であるテキストは文字パターンからコードデータ
に文字認識によって変換されるため、データ量の削減が
可能となる。さらに、写真に対しては、写真にのみ適し
た圧縮符号化ができるため、文書画像の一ページ全体を
符号化するのに比べて、効率のよいデータ圧縮が可能で
ある。 第5図は、本発明の別の一実施例である文書検索システ
ムの構成図である。マルチメディア構造化部500は、
マルチメディア文書を構造化し、マルチメディアデータ
ベース管理部501を介して、データベースに格納する
。このデータベースは、要素間関係データベース502
、図形データベース503、画像データベース504、
テキストデータベース505、書誌データベース506
゜意味内容データベース507からなる。この内、要素
間関係データベース502では1文書の構成要素の関係
を格納している。また、図形データベース503は、図
形情報を1例えば、線ベクトルとして格納している。ま
た、画像データベース504は、文書中の写真を画像デ
ータとして格納している。テキストデータベース505
は1文書中のテキストを文字コードとして格納している
。 図形サーチ部509では、指定した図形と類似の図形を
図形データベース503から探索する。また1画像サー
チ部511では、指定した画像と類似の特徴をもつ画像
を画像データベース504から探索する。さらに、文字
列サーチ511では、指定した文字列を有する文字列を
テキストデータベース505から探索する。本発明によ
れば、これらの図形、画像、文字列は1紙に印刷された
文書の中から探索することができる。 また、これらのサーチ部509,510,511は単独
で、或いは、複数で実行することができるため、所望の
文書を、従来の文字列検索だけで探索するのではなく、
文書に含まれる図形1画像等を探索することによって求
めることが可能である。 推論検索部512は意味内容データベース507、知識
ベース508とを利用して、推論を行いながら所望の文
書を探索する。この知識ベース508は、知識ベース管
理部513によって、登録、更新がなされる。第7・図
はマルチメディアデータベース管理部501の検索用イ
ンタフェースの構成を示す。ここでは、検索対話部70
1、メディア再構成部703、推論検索部700.知識
ベース管理部702、知識ベース704からなり、知識
ベース704を用いてマンマシン性のよい検索インタフ
ェースが可能である。 第8図は、印刷された文書を電子的に流し読みすること
ができる印刷文書ブラウジングシステムの説明図である
。印刷文書821に対して文書構造化部820によって
1文書を構造化するとともにインデックスを自動的に付
加する6文書構造化部820の結果は、検索用ファイル
803に格納される。検索画面800は、マルチウィン
ドウ形式になっており、書誌事項ウィンドウ811、テ
キストウィンドウ812、図表ウィンドウ810、など
が複数個表示される。813,814は他のウィンドウ
を示す、ブラウザ部802は、検索用ファイル803に
アクセスし、検索画面に文書情報を表示するとともに利
用者との対話を利用して順次文書の要素に対して流し読
みを行うことができる。 第9図は、意味検索を説明する図である0画面は複数の
ウィンドウ902,903が表示できる。 ここで、900,901は画面を示している0画面90
0の中で、検索要求ウィンドウ902に、例えば、光デ
ィスクの技術に関する質問を行うと、技術名称表示ウィ
ンドウ903に、光デイスク技術に関連する技術が階層
的に表示される0例えば、光デイスク技術904を支え
る技術として、装置技術905と記憶媒体技術906が
あることがトリー状に表示される。また、さらに、V&
置核技術905支える詳細な技術を利用者が知りたい場
合は、利用者は装置技術905の表示個所に1例えば、
カーソルを合わせマウスをクリックすることによって1
次の画面901のウィンドウ910に装置技術925及
びその技術を支える技術として、光点形成技術927.
光点位置決め技術928、アクチュエータ929が表示
される。さらに、これら個々の技術の詳細説明文章をテ
キストウィンドウ911,912,913に表示するこ
ともできる0本実施例によれば、階層的な情報構造を有
する技術体系などをその意味構造を基1こして検索する
ことができ、従来の固定的な名称を探索するのではなく
、関連する技術名称とその内容を容易に検索できる効果
がある。 第10図は、論理構造と意味構造の説明図である。印刷
文書の画像データから論理構造を自動的に抽出した結果
を1060に示す0文書の名称1000は、この例では
、大容量光ディスクファイルであり、その構造は、要旨
1002.1緒言1003.2光デイスクの位置づけと
開発のねらい1004.等の章名称と節名称1005゜
1006.1007,1008,1009゜1010.
1011,1012,1013゜1014.1015,
1016.1017からなる。これらの章及び節名称を
分析することにより、意味構造1061を抽出する。先
ず、文書の名称1000である大容量光ディスクファイ
ルtoolを基にファイル1020を意味構造のルート
に設定する。そして、光ディスク1021とその属性1
062として大容量1022をリンクする。ここで、技
術名称の結ぶリンクとしては、論理構造の上下関係及び
、技術の属性として構成要素、目的、対象、などがある
、技術名称である光ディスク1021の下位には、位置
付け1023、開発の狙い1024、基本構成1025
、特徴1026などがあるが、これらは1例えば、2光
デイスクの位置づけと開発のねらい1004を基に、位
置付け1023と開発の狙い1024を抽出している。 また、3光デイスクフアイルの基本構成と特徴1005
から意味構造として基本構成1025、特徴1026を
抽出している。さらに、4光デイスクを支える主要技術
1006から、意味構造として主要技術1027を抽出
する。このように、論理構造における章や節の名称から
。 意味構造を抽出する本実施例によれば、意味構造を基に
した検索が可能であり、これにより情報構造を有する技
術名称を詳細に探索することが可能である。 第11図は、印刷文書の電子化文書への変換を説明する
図である。ここでは、印刷文書を対象としているが、勿
論1手書き文書についても可能であり、印刷文書に対象
を限定するものではない。 ここでは、この電子化文書のデイスプレィ画面を110
0に、電子化文書のファイル構成を1101に、また、
印刷文書の電子化文書への変換手順を1102に示す、
利用者はデスプレイ画面1100を介して、テキスト1
103゜1104及び図1105等を流し読みすること
ができ、特に、1120で示す図の参照個所に対して、
リンク情報が図1105に対して付加されており、11
20の個所から、参照している図を流し読みすることが
できる。また、同じように。 1122で示した個所に対しても、他のテキスト110
6とのリンクが取られており、この例では、文献(1)
1122を、即座にデイスプレィ画面に表示することが
できる。このようなリンク情報は、電子化文書のファイ
ル1101に格納されている、当該ファイル1101に
は、文献1107の下位に章1108、節1109、項
1110、文1111、単語1113が階層的に格納さ
れており5図表1112は、節1109や或いは文11
11とリンクされて保存されている。同じく文献111
4は、文1111や単語1113にリンクされて保存さ
れている。このような電子化文書のファイル1101は
、印刷文書から自動的に作成され、先ず対象とする印刷
文i11115をスキャナ人力1116して、次いで、
文書構造化1117を行い、検索属性抽出1118を行
い、それらの結果を当該ファイル1101に格納してい
る。第12図は、テキストと図表とのリンク情報を自動
的に付加する処理手順を説明する図である。テキストフ
ァイル並びに図表ファイルを1200で入力し、文字列
探索部1201により図表の参照個所を探索する。そし
て、図表参照文抽出部1202において、参照文字列を
取り出すとともにその位置を登録し、1203において
テキストと図表の関連付けを行う。 第13図は印刷文書を書式付き処理可能形式の文書ファ
イルへ自動的に変換する手順を説明する図である。実線
枠1300で示した処理が、印刷文書を書式付き処理可
能形式の文書ファイルへ変換する手順を、破線枠130
1で示した処理が、人手による文書作成の手順である。 印刷文書1302はスキャナ入力部1303によって画
像として入力され、メディア分離・構造抽出部1304
によって、論理構造、割り付は構造及び内容を自動的に
抽出し、論理構造1308、割り付は構造1309.内
容1310を有する書式付き処理可能形式の文書ファイ
ル1307に格納される。当該ファイルは、転送処理部
1311を介して、他のシステムに転送することができ
る。 方、人手による文書作成では、1305に示す文書編集
部で、論理構造及び内容を入力し、割り付は処理部13
06によってページのレイアウトが設定され、それぞれ
論理構造、割り付は構造、内容が当該ファイル1307
に格納される。本実施例によれば1人手により作成され
た文書ファイルと同一形式にファイルを印刷文書から自
動的に作成することができ、印刷文書を他システムに自
由に転送することができる。また、印刷された文書を電
子化し、再編集することができる効果もある。 第16図は第1図に129に示した図表検索を説明する
図である。この図表検索では、文献1600.1601
,1602等に記載されている図表を図表中に含まれる
主要な文字例をもとに探索することができる0例えば、
検索条件として図の縦軸の名称を指定することができ、
その名称を縦軸にもつ図表を検索して表示する。検索の
ために利用者に提供される画面1603において、16
06が検索条件の入力するウィンドウであり、この例で
は、縦軸が記憶容量を表しているという条件を入力して
いる。図表表示ウィンドウ1604.1605には、そ
れぞれ検索結果の図表が表示されることになる。縦軸1
607゜1608は、それぞれ記憶容量を示している。 このような図表検索を行うためには、図表から主要な文
字列を抽出する必要がある。第18図は、図表検索のた
めの自動登録の処理過程を示す図である。図表ファイル
1800から読み出された画像データは1表及びグラフ
に1802で分類し、図表の構造抽出部1803で図表
から縦軸、横軸、項目等の構造を抽出する。そして1文
字列抽出部1801では、縦軸、横軸、項目の文字列を
抽出し、単語抽出部1804で1文字認識を行い、検索
語登録部1805において、図表検索のためのインデッ
クスとして当該単語を図表の構造、例えば、横軸の名称
であることを合わせて登録する。 第17図は図表検索の別の実施例を示す図である。文書
画像データ1700に対して、図を分離した結果が17
01である。これに対して、キャプションの抽出を行っ
た結果が1702、図本体から文字列を抽出した結果が
1703である。これらは、それぞれキャプションファ
イル並びに図表インデックスファイルとして用いる。こ
れにより1図表のふくまれている文字列をもとにした検
索が可能であり、大量の文献の中から、所望の図表のみ
を効率良く検索することができる。
本発明によれば、写真、図表、テキストなど各種メディ
アが混在した文書に対して、これを画像データとして検
索システムに入力し、各メディアに分離抽出し、それぞ
れのメディアに適した符号化を行い蓄積格納できるので
、文書データの圧縮ができ記憶装置を有効に利用できる
効果がある。 また、文書を要素に分離し、割り付は構造と論理構造を
抽出することができるので、印刷文書を事務文書体系の
ファイルに自動的に変換でき、印刷文書を電子化された
文書ファイルとして、自由に他のシステムに転送できる
効果もある。さらに。 テキストの意味を抽出し、その意味をもとに検索ができ
るので、意味のレベルで類似の意味をもつ文書を探索す
ることができる効果がある。また、文書に含まれる図表
を図表中の文字列をもとにして探索することができるの
で所望の図表のみを効率的に検索する効果もある。さら
に1図表やテキストなどの要素の参照関係を登録してい
るので。 参照個所を簡単な操作で流し読みしながら検索できる効
果もある。
アが混在した文書に対して、これを画像データとして検
索システムに入力し、各メディアに分離抽出し、それぞ
れのメディアに適した符号化を行い蓄積格納できるので
、文書データの圧縮ができ記憶装置を有効に利用できる
効果がある。 また、文書を要素に分離し、割り付は構造と論理構造を
抽出することができるので、印刷文書を事務文書体系の
ファイルに自動的に変換でき、印刷文書を電子化された
文書ファイルとして、自由に他のシステムに転送できる
効果もある。さらに。 テキストの意味を抽出し、その意味をもとに検索ができ
るので、意味のレベルで類似の意味をもつ文書を探索す
ることができる効果がある。また、文書に含まれる図表
を図表中の文字列をもとにして探索することができるの
で所望の図表のみを効率的に検索する効果もある。さら
に1図表やテキストなどの要素の参照関係を登録してい
るので。 参照個所を簡単な操作で流し読みしながら検索できる効
果もある。
第1図は本発明の一実施例の機能構成図、第2図は文書
検索システムの構成図、第3図は文書検索の処理手順を
示すブロック図、第4図は文書検索システムの説明図、
第5図は別の一実施例である文書検索システムの構成図
、第6図は検索用ファイルに格納された情報の説明図、
第7図は検索用インタフェースの構成図、第8図は印刷
文書ブラウジングシステムの説明図、第9図は意味検索
の説明図、第10図は論理構造と意味構造の説明図、第
11図は印刷文書の電子化文書への変換の説明図、第1
2図はリンク情報を付加する処理過程を示す図、第13
図は、書式付き処理可能形式の文書ファイルへの印刷文
書の自動変換手順を説明する図、第14図は文書の論理
構造と割り付は構造の対応を説明する図、第15図は文
書の割り付は構造の説明図、第16図は図表検索の説明
図、第17図は図表検索の別の実施例の説明図、第18
図は図表検索のための登録処理過程の説明図である。 符号の説明 ■oO・・・マルチメディアファイル、101・・・f
fi更新部、102・・・検索用ファイル、103・・
・検索部、105・・・マルチメディア構造化処理部、
200・・・検索ステーション、203・・・登録ステ
ーション、302・・・写真領域分離部、405・・・
文書構造化部、501・・・マルチメディアデータベー
ス管理部、800・・・検索画面、903・・・技術名
称表示ウィンドウ。
検索システムの構成図、第3図は文書検索の処理手順を
示すブロック図、第4図は文書検索システムの説明図、
第5図は別の一実施例である文書検索システムの構成図
、第6図は検索用ファイルに格納された情報の説明図、
第7図は検索用インタフェースの構成図、第8図は印刷
文書ブラウジングシステムの説明図、第9図は意味検索
の説明図、第10図は論理構造と意味構造の説明図、第
11図は印刷文書の電子化文書への変換の説明図、第1
2図はリンク情報を付加する処理過程を示す図、第13
図は、書式付き処理可能形式の文書ファイルへの印刷文
書の自動変換手順を説明する図、第14図は文書の論理
構造と割り付は構造の対応を説明する図、第15図は文
書の割り付は構造の説明図、第16図は図表検索の説明
図、第17図は図表検索の別の実施例の説明図、第18
図は図表検索のための登録処理過程の説明図である。 符号の説明 ■oO・・・マルチメディアファイル、101・・・f
fi更新部、102・・・検索用ファイル、103・・
・検索部、105・・・マルチメディア構造化処理部、
200・・・検索ステーション、203・・・登録ステ
ーション、302・・・写真領域分離部、405・・・
文書構造化部、501・・・マルチメディアデータベー
ス管理部、800・・・検索画面、903・・・技術名
称表示ウィンドウ。
Claims (1)
- 【特許請求の範囲】 1、記憶手段と処理手段と表示手段とよりなる情報検索
装置において文書を要素ごとに格納する手段と、要素か
ら抽出した検索のための属性情報を格納する手段とを設
けたことを特徴とする文書検索装置。 2、文書検索方法において、文書画像を入力することと
、入力された文書画像を要素に分離することと、入力さ
れた文書画像を構造化することと、上記分離した要素を
該要素の種類ごとに符号化することと、要素より検索属
性を抽出することと、要素間の関係を保持して要素を格
納することとを行なうことを特徴とする文書検索方法。 3、文書検索方法において、文書画像から図表を分離す
ることと、図表を構造化することと、構造に付与された
文字列を抽出することと、当該文字列を検索用ファイル
に格納することとを行なうことを特徴とする文書検索方
法。 4、文書検索装置において、文書中の文章を抽出する手
段と、文章から構造を抽出する手段と、構造に付与され
た文字列を符号化する手段と、当該文字列をもとに階層
構造を有する文書の意味情報を求める手段と、当該意味
情報を基に文書を探索する手段とを設けたことを特徴と
する文書検索装置。 5、文書検索方法において、文書要素間の参照関係を抽
出する手段と、当該参照関係を保存する手段と、表示装
置を介して会話的に参照関係をたどる手段と、参照され
た要素の内容を表示し流し読みする手段とを設けたこと
を特徴とする文書検索装置。 6、文書検索装置であって、文書画像を要素に分離する
装置と、文書画像から構造を抽出する装置と、分離した
要素と類似した要素を探索する装置とを設けたことを特
徴とする文書検索装置。 7、情報の通信および検索装置であって、文書画像を構
造化する手段と、文書要素符号に変換する手段と、当該
の符号化した文書要素を通信する手段とを設けたことを
特徴とする文書通信ならびに検索装置。 8、文書検索装置であって、文書画像の入力装置と、文
書画像の構造化装置と、文書の文字認識装置と、文書の
検索対話装置と、検索結果表示出力装置とを通信網を介
して相互に結合したことを特徴とする文書検索装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1196560A JPH0362169A (ja) | 1989-07-31 | 1989-07-31 | 文書検索方法及び文書検索装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1196560A JPH0362169A (ja) | 1989-07-31 | 1989-07-31 | 文書検索方法及び文書検索装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0362169A true JPH0362169A (ja) | 1991-03-18 |
Family
ID=16359765
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1196560A Pending JPH0362169A (ja) | 1989-07-31 | 1989-07-31 | 文書検索方法及び文書検索装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0362169A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06259421A (ja) * | 1992-07-03 | 1994-09-16 | Fuji Xerox Co Ltd | 文書処理装置 |
| US6169998B1 (en) | 1997-07-07 | 2001-01-02 | Ricoh Company, Ltd. | Method of and a system for generating multiple-degreed database for images |
| JP2007241474A (ja) * | 2006-03-06 | 2007-09-20 | Canon Inc | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61190653A (ja) * | 1985-02-20 | 1986-08-25 | Toshiba Corp | 文書処理装置 |
| JPS62229368A (ja) * | 1986-03-29 | 1987-10-08 | Toshiba Corp | 文書処理装置 |
| JPS62263575A (ja) * | 1986-05-12 | 1987-11-16 | Matsushita Electric Ind Co Ltd | 文書読み取り支援装置 |
| JPS63212986A (ja) * | 1987-02-28 | 1988-09-05 | 株式会社東芝 | 画像記録装置 |
| JPS6423364A (en) * | 1987-07-20 | 1989-01-26 | Mitsubishi Electric Corp | Document editing device |
| JPS6451567A (en) * | 1987-08-21 | 1989-02-27 | Matsushita Electric Industrial Co Ltd | Document editing device |
-
1989
- 1989-07-31 JP JP1196560A patent/JPH0362169A/ja active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61190653A (ja) * | 1985-02-20 | 1986-08-25 | Toshiba Corp | 文書処理装置 |
| JPS62229368A (ja) * | 1986-03-29 | 1987-10-08 | Toshiba Corp | 文書処理装置 |
| JPS62263575A (ja) * | 1986-05-12 | 1987-11-16 | Matsushita Electric Ind Co Ltd | 文書読み取り支援装置 |
| JPS63212986A (ja) * | 1987-02-28 | 1988-09-05 | 株式会社東芝 | 画像記録装置 |
| JPS6423364A (en) * | 1987-07-20 | 1989-01-26 | Mitsubishi Electric Corp | Document editing device |
| JPS6451567A (en) * | 1987-08-21 | 1989-02-27 | Matsushita Electric Industrial Co Ltd | Document editing device |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06259421A (ja) * | 1992-07-03 | 1994-09-16 | Fuji Xerox Co Ltd | 文書処理装置 |
| US6169998B1 (en) | 1997-07-07 | 2001-01-02 | Ricoh Company, Ltd. | Method of and a system for generating multiple-degreed database for images |
| JP2007241474A (ja) * | 2006-03-06 | 2007-09-20 | Canon Inc | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6772148B2 (en) | Classification of information sources using graphic structures | |
| US5956740A (en) | Document searching system for multilingual documents | |
| KR100372582B1 (ko) | 데이터처리방법 및 시스템 및 그 처리프로그램을 기록한계산기판독이 가능한 기록매체 | |
| US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
| US20010042083A1 (en) | User-defined search template for extracting information from documents | |
| CN106502991B (zh) | 出版物处理方法和装置 | |
| CN105868177A (zh) | 一种通用公式搜索方法 | |
| JPH11161682A (ja) | 情報検索装置、情報検索方法及び記録媒体 | |
| Ramel et al. | AGORA: the interactive document image analysis tool of the BVH project | |
| Yurtsever et al. | Figure search by text in large scale digital document collections | |
| Niyogi et al. | Use of document structure analysis to retrieve information from documents in digital libraries | |
| JPH07210577A (ja) | 情報アクセス装置 | |
| Myka et al. | Automatic hypertext conversion of paper document collections | |
| JPH0362169A (ja) | 文書検索方法及び文書検索装置 | |
| CN119887461A (zh) | 一种集成化的知识管理方法、装置、计算机设备及介质 | |
| Calabretto et al. | The philological workstation bambi (better access to manuscripts and browsing of images) | |
| JPH0581326A (ja) | データベース検索装置 | |
| Bjarnestam | Text-based hierarchical image classification and retrieval of stock photography | |
| KR20020006223A (ko) | 자동 색인 로봇 시스템 및 이를 이용한 처리 방법 | |
| Banyasz | Cross-lingual search in pre-processed archival facsimile documents | |
| US20040267550A1 (en) | Automated method for authoring and delivering product catalogs | |
| JP2560656B2 (ja) | 文書ファイリングシステム | |
| Hast et al. | Text-text extractor tool for handwritten document transcription and annotation | |
| JP2003223466A (ja) | 特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体 | |
| Banyasz et al. | Search in Archival Facsimile Documents for Digital History |