JPH06119331A - 構造化文書の文書部品管理装置 - Google Patents

構造化文書の文書部品管理装置

Info

Publication number
JPH06119331A
JPH06119331A JP4265018A JP26501892A JPH06119331A JP H06119331 A JPH06119331 A JP H06119331A JP 4265018 A JP4265018 A JP 4265018A JP 26501892 A JP26501892 A JP 26501892A JP H06119331 A JPH06119331 A JP H06119331A
Authority
JP
Japan
Prior art keywords
document
index
search
condition
parts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4265018A
Other languages
English (en)
Inventor
Hidenori Oka
秀宣 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP4265018A priority Critical patent/JPH06119331A/ja
Publication of JPH06119331A publication Critical patent/JPH06119331A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】文書処理装置とともに利用される構造化文書の
文書部品検索装置において、文書内の枠や見出しによる
検索を可能とする。 【構成】入力制御部11から検索条件として設定された
枠や見出しなどの文書部品と、インデックス生成部13
から得た文書部品の属性に関する情報を検索条件照合部
16で条件照合して、条件を満たす文書部品を検索する
ようにした。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、構造化文書を編集処
理する文書処理装置に関し、詳しくは文書処理装置とと
もに利用される構造化文書の文書部品検索装置に関す
る。
【0002】
【従来の技術】論理構造を持つ構造化文書の代表的なも
のとして、ODA(Office DocumentArchitecture ISO8
613-2)で規定された文書がある。この文書は共通論理
構造、共通割付け構造、特定論理構造、特定割付け構造
の4つの構造から構成されており、論理構造は章・節・
段落といった文書の構成部品の組み合わせで構成されて
いる。ここで、ODAの文書構造を図15に示す。図1
5の文書構造によれば、文書の特定論理構造は共通論理
構造に従った形式となる。したがって、文書処理装置で
文書を保存する際に特定論理構造を保存すると、その保
存の構造は共通論理構造に則った形式となる。
【0003】
【発明が解決しようとする課題】従来の構造化文書に対
応した文書処理装置では、文書の中から目的とする枠
(図表)や見出しなどを捜す場合は、最初にそれらを含
む文書を検索して、それから内部を捜すことになるた
め、オペレータの操作が煩雑になるという問題点があっ
た。
【0004】また、「第1章に***が書いてある文
書」というような条件で検索することはできなかった。
また、あえて全文検索を行っても余計なものまで拾って
しまうため、オペレータは目的とする文書を見つけ出す
のに手間がかかるという問題点があった。
【0005】この発明は、文書内の枠や見出しなどによ
る検索を可能とし、検索効率を向上した構造化文書の文
書部品管理装置を提供することを目的とする。
【0006】また、この発明は、枠や見出しなどの内部
情報を利用した検索を可能とし、かつ、目的とする文書
のみを検索することができる構造化文書の文書部品管理
装置を提供することを目的とする。
【0007】
【課題を解決するための手段】上記課題を解決するた
め、第1の発明に係わる構造化文書の文書部品管理装置
においては、検索対象となる文書部品を受け付ける文書
部品受付手段と、前記受け付けた文書部品を解析して論
理構造を特定する論理構造特定手段と、前記特定した論
理構造のインデックスを生成するインデックス生成手段
と、前記生成されたインデックスを1以上保持するイン
デックス保持手段と、検索すべき文書部品の条件を受け
付ける条件受付手段と、検索指示により、前記インデッ
クスを検索して得た文書部品の属性に関する情報と前記
受け付けた検索すべき文書部品の条件を照合して一致す
るかどうかを判断する条件照合手段と、検索結果を出力
する出力手段とを具えている。
【0008】また、第2の発明に係わる構造化文書の文
書部品管理装置では、上記装置構成に加えて、前記イン
デックスを検索して文書部品間の包含関係に関する情報
を抽出する包含関係抽出手段を具えている。
【0009】
【作用】第1の発明に係わる装置では、検索条件として
設定された枠や見出しなどの文書部品と、インデックス
を検索して得た文書部品の属性に関する情報を条件照合
して、条件を満たす文書部品を検索するようにしたの
で、文書内に存在する枠や見出しに対する検索が可能と
なる。
【0010】第2の発明に係わる装置では、文書部品間
の包含関係を抽出し、包含関係にある文書部品と、イン
デックスを検索して得た文書部品の属性に関する情報を
条件照合して、条件を満たす文書部品を検索するように
したので、枠や見出しなどの文書部品を利用した文書の
検索が可能となる。
【0011】
【実施例】以下、この発明に係わる構造化文書の文書部
品管理装置(この実施例では、単に文書部品管理装置と
いう)の実施例を図面を参照しながら説明する。
【0012】実施例1 図1は、実施例1における文書部品管理装置10の機能
的な構成を示すブロック図である。
【0013】入力制御部11は検索対象となる文書部品
や、検索すべき文書部品の条件を受け付ける。
【0014】論理構造特定部12は入力制御部11で受
け付けた文書部品を解析して論理構造を特定する。
【0015】インデックス生成部13は前記特定した論
理構造のインデックスを生成する。インデックスには、
各文書部品の属性(枠、見出しなど)に関する情報が登
録されている。
【0016】インデックス保持部14は前記生成された
インデックスを部品ごとのレコードで保持する。
【0017】文書保持部15は検索の対象となる文書デ
ータを保持している。
【0018】検索条件照合部16は前記インデックスか
ら得た文書部品の属性に関する情報と、前記受け付けた
検索すべき文書部品の条件を照合して、一致する文書部
品を検索する。また、検索条件照合部16は受け付けた
条件に応じて文書部品の内部部品も照合して検索する。
【0019】検索条件照合部16における検索条件の一
例を挙げると、 検索の対象(文書、枠、見出し) 検索対象そのものの属性を表すもの(文書名など) 登録時に付加する/される情報(キーワードなど) 登録した部品の内部を検索するかどうか の4つがある。オペレータはこれらの検索条件を全て、
あるいは適宜選択して入力制御部11から入力する。
【0020】表示制御部17は前記検索された文書部品
に関する情報を、例えばディスプレイ画面などに表示す
る。
【0021】図2は、図1に示した文書部品管理装置を
実現するためのハードウェア構成を示したもので、文書
処理装置としての機能を具えた例えばワークステーショ
ンやパソコンなどのブロック図を示している。
【0022】図において、表示装置1は、CRTなどの
ディスプレイ画面を具え、画面上にデータやリストなど
を表示する。表示装置1での表示は表示装置制御部2に
より制御されている。表示装置1及び表示装置制御部2
は、図1の表示制御部17の機能を実現している。
【0023】キーボード3は、コマンドや文字列などの
データ入力用の入力装置であり、画面上で指示選択を行
うためのマウス4が接続されている。キーボード3やマ
ウス4から入力された各種のデータや指示は、キーボー
ド/マウス制御部5を通じて中央処理装置9に送られ
る。これらキーボード3、マウス4及びキーボード/マ
ウス制御部5は、図1の入力制御部11の機能を実現し
ている。
【0024】ディスク装置6は、磁気ディスクなどの2
次記憶装置で構成され、文書データをファイル形式で格
納している。また、検索に必要とされる情報を保持する
インデックスもディスク装置6に格納されている。ディ
スク装置6でのデータの入出力はディスク装置制御部7
で制御されている。ディスク装置6は、図1のインデッ
クス保持部14、文書保持部15の機能を実現してい
る。
【0025】主記憶装置8は、RAMなどのメモリ装置
で構成されるバッファ記憶であり、各種の制御プログラ
ム、キーボード3及びマウス4から入力された各種のデ
ータや命令などを一時的に記憶する。
【0026】中央制御装置9は、プログラムに従って上
記各部を動作させ、システム全体を制御するとともに、
所定のデータに対して演算処理を行う。中央制御装置9
は、図1の論理構造特定部12、インデックス生成部1
3、検索条件照合部16の機能を実現している。
【0027】上記文書部品管理装置10で使用する共通
論理構造を図3〜図5に示す。図3の見出しの論理構
造、図4の本文中の枠の論理構造、並びに図5の入れ子
枠の論理構造は、図15の共通論理構造に対応してい
る。文書データはこれらの論理構造と凡例に示すルール
に従って作成されることになる。
【0028】次に、文書部品管理装置10による検索処
理の流れを図6のフローチャートにより説明する。
【0029】最初に、検索条件に基づいた初期化を行う
(ステップ101)。ここでは、マッチングのための前
処理などが行われる。この後、インデックス保持部14
から対象となる文書部品の属性に関する情報(以後のフ
ローチャートの説明では、検索データという)を得て
(ステップ102)、検索データが存在するかどうかを
判断する(ステップ103)。検索データが存在すると
きは、条件照合を行う(ステップ104)。ここでは、
インデックスから得た検索データと前記受け付けた検索
すべき文書部品の条件を照合して、一致する文書部品を
検索する。照合した結果は図示せぬメモリに記録してお
く。次に、検索条件に内部部品を検索する条件が設定さ
れているかどうかを判断する(ステップ105)。ここ
で、条件が設定されていない場合はステップ102に戻
り、条件が設定されている場合はインデックスのレコー
ドを参照して、内部部品を取り出す(ステップ10
6)。そして、内部部品が存在するかどうかを判断する
(ステップ107)。ここで、内部部品が存在しないと
きはステップ102に戻り、内部部品が存在するときは
条件照合を行う(ステップ108)。この条件照合の処
理内容はステップ104と同じである。ステップ108
が終了したときは再びステップ106に戻り、全ての内
部部品の条件照合が終了するまでステップ106〜ステ
ップ108の処理を繰り返す。
【0030】次に、上述した検索処理の具体例を説明す
る。
【0031】図7は、文書保持部15に登録されている
文書例を示したもので、ここでは、見出し1と表枠1を
含む文書A、見出し2と図形枠1を含む文書B、グラフ
枠1を含む文書Cの3つの文書が登録されているものと
する。ここに、図8に示すように、検索条件として「検
索の対象は枠、枠の種類はグラフ枠、文書の内部を検索
する」が与えられたとする。
【0032】文書Aについて条件照合を行うと、検索対
象が枠であるためマッチしない。次に、文書の内部を検
索するという条件が設定されているため、内部部品につ
いて条件照合を行う。文書Aには、見出し1と表枠1が
存在するため、これらについて条件照合を行う。見出し
1は検索の対象が合わないためマッチしない。また、表
枠1は枠の種類に関する条件が一致しないためマッチし
ない。
【0033】文書Bについて条件照合を行うと、上記文
書Aの場合と同様にマッチするものは見つからない。
【0034】文書Cについて条件照合を行うと、文書C
には内部部品としてグラフ枠1が存在する。これは検索
条件の全てを満足するため、マッチしたと判断される。
【0035】以上3つの文書で検索データが全て終了し
たため、検索を終了する。結果として文書Cの中に存在
するグラフ枠1が検索されたことになる。検索結果の表
示例を図9に示す。
【0036】このように、実施例1の文書部品管理装置
によれば、文書内部に存在する枠や見出しに対する検索
が可能となる。この場合、必要に応じて内部部品の検索
が行えるため、通常の検索の性能に影響を与えることは
ない。
【0037】実施例2 図10は、実施例2における文書部品管理装置20の機
能的な構成を示すブロック図である。
【0038】包含関係抽出部18は、インデックス保持
部14のインデックスを検索して文書部品間の包含関係
に関する情報を抽出する。ここでは、インデックスに記
録されている文書の論理的な構造情報をもとに、各文書
部品とそれらの間の包含関係を抽出する。
【0039】検索条件照合部19は、前記インデックス
から得た文書部品の属性に関する情報と、前記受け付け
た検索すべき文書部品の条件を照合して、一致する文書
部品を検索する。また、包含関係にある部品の条件が設
定されているときは、包含関係にある内部部品の属性に
関する情報と検索すべき文書部品の条件を照合して、一
致する文書部品を検索する。検索条件照合部19におけ
る検索条件の一例を挙げると、 検索の対象(文書、枠、見出し) 検索対象そのものの属性を表すもの(文書名など) 登録時に付加する/される情報(キーワードなど) 包含する部品による条件を指定する/しない 包含される側の検索の対象(文書、枠、見出し) 包含される側の検索対象そのものの属性を表すもの
(文書名など) の6つがある。オペレータはこれらの検索条件を全て、
あるいは適宜選択して入力制御部11から入力する。
【0040】図10において、その他の構成は図1の文
書部品管理装置10と同じであり、図1と同等部分を同
一符号で表している。また、文書部品管理装置20を実
現するためのハードウェア構成は図2に示したものと同
じである。さらに、文書部品管理装置20で使用する共
通論理構造は図3〜図5に示したものと同じであり、図
15の共通論理構造に対応している。
【0041】次に、文書部品管理装置20による検索処
理の流れを図11のフローチャートにより説明する。
【0042】最初に、検索条件に基づいた初期化を行う
(ステップ201)。ここでは、マッチングのための前
処理などが行われる。この後、インデックス保持部14
から検索データを得て(ステップ202)、検索データ
が存在するかどうかを判断する(ステップ203)。検
索データが存在するときは、対象に関する条件照合を行
い(ステップ204)、条件に照合したかどうかを判断
する(ステップ205)。ここでは、インデックスから
得た検索データと、前記受け付けた検索すべき文書部品
の条件を照合して、一致する文書部品を検索する。ステ
ップ205で条件に照合しないときはステップ202に
戻り、条件に照合したときは、検索条件に包含関係の条
件が設定されているかどうかを判断する(ステップ20
6)。ここで、条件が設定されていない場合はステップ
202に戻り、条件が設定されている場合はインデック
スのレコードを参照して、包含関係にある内部部品を取
り出す(ステップ207)。そして、内部部品が存在す
るかどうかを判断する(ステップ208)。ここで、内
部部品が存在しないときはステップ202に戻る。ま
た、内部部品が存在するときは条件照合を行い(ステッ
プ209)、条件に照合したかどうかを判断する(ステ
ップ210)。条件に照合しなかった場合、再びステッ
プ207に戻り処理を繰り返す。条件に照合した場合、
包含関係抽出部より包含関係にある検索データを図示せ
ぬメモリに記録し、ステップ202に戻る。全てのデー
タについて、以上の処理を繰り返す。
【0043】この条件照合の処理内容はステップ204
と同じである。ステップ209が終了したときは再びス
テップ207に戻り、全ての内部部品の条件照合が終了
するまでステップ207〜ステップ209の処理を繰り
返す。
【0044】次に、上述した検索処理の具体例を説明す
る。
【0045】図12は、文書保持部15に登録されてい
る文書例を示したもので、ここでは、見出し1と表枠1
を含む文書A、見出し2と図形枠1を含む文書B、グラ
フ枠1を含む文書Cの3つの文書が登録されているもの
とする。ここに、図13に示すように、検索条件として
「検索の対象は文書である。その文書は中に図形枠を含
むものとする」が与えられたとする。
【0046】文書Aについて条件照合を行うと、文書A
は文書であるため、図形枠を包含するかどうかを検索す
る。文書Aに含まれる見出し1及び表枠1はいずれも図
形枠でないためマッチしない。したがって、文書Aはマ
ッチしないと判断される。
【0047】文書Bについて条件照合を行うと、文書B
では、内部部品として図形枠1が存在する。これは検索
条件の全てを満足するため、文書Bはマッチしたと判断
される。
【0048】文書Cについて条件照合を行うと、文書C
に含まれるグラフ枠は図形枠でないためマッチしない。
したがって、文書Cはマッチしないと判断される。
【0049】以上3つの文書で検索データが全て終了し
たため、検索を終了する。結果として図形枠1を有する
文書Bが検索されたことになる。検索結果の表示例を図
14に示す。
【0050】このように、実施例2の文書部品管理装置
によれば、枠や見出しなどの文書部品を利用した文書の
検索が可能となる。
【0051】上述した実施例1及び2の文書部品管理装
置では、検索の実行時間を短縮するために、検索に必要
とされる情報をあらかじめインデックスとして保持する
ようにしているが、検索の度に、該当する文書から枠、
見出し等の部品情報を抽出するようにしてもよい。
【0052】
【発明の効果】以上説明したように、第1の発明に係わ
る構造化文書の文書部品管理装置においては、検索条件
として設定された枠や見出しなどの文書部品と、インデ
ックスを検索して得た文書部品の属性に関する情報とを
条件照合して、該当する文書部品を検索するようにした
ので、文書内に存在する枠や見出しに対する検索が可能
となり、検索時の作業効率を向上させることができる。
【0053】第2の発明に係わる構造化文書の文書部品
管理装置では、文書部品間の包含関係を抽出し、検索条
件として設定された枠や見出しなどの文書部品と、前記
包含関係にある文書部品の属性に関する情報とを条件照
合して、条件を満たす文書部品を検索するようにしたの
で、枠や見出しなどの文書内の内部情報を利用した文書
の検索が可能となり、オペレータは目的とする文書のみ
を検索することができる。
【図面の簡単な説明】
【図1】実施例1における文書部品管理装置の機能的な
構成を示すブロック図。
【図2】図1に示した文書部品管理装置を実現するため
のハードウェア構成を示す図。
【図3】見出しの論理構造を示す図。
【図4】本文中の枠の論理構造を示す図。
【図5】入れ子枠の論理構造を示す図。
【図6】実施例1の文書部品管理装置による検索処理の
流れを示すフローチャート。
【図7】文書保持部に登録されている文書例を示す図。
【図8】検索条件を示す図。
【図9】検索結果の表示例を示す図。
【図10】実施例2における文書部品管理装置の機能的
な構成を示すブロック図。
【図11】実施例2の文書部品管理装置による検索処理
の流れを示すフローチャート。
【図12】文書保持部に登録されている文書例を示す
図。
【図13】検索条件を示す図。
【図14】検索結果の表示例を示す図。
【図15】ODAの文書構造を示す図。
【符号の説明】
11…入力制御部、12…論理構造特定部、13…イン
デックス生成部、14…インデックス保持部、15…文
書保持部、16(19)…検索条件照合部、17…表示
制御部、18…包含関係抽出部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】検索対象となる文書部品を受け付ける文書
    部品受付手段と、 前記受け付けた文書部品を解析して論理構造を特定する
    論理構造特定手段と、 前記特定した論理構造のインデックスを生成するインデ
    ックス生成手段と、 前記生成されたインデックスを1以上保持するインデッ
    クス保持手段と、 検索すべき文書部品の条件を受け付ける条件受付手段
    と、 前記インデックスを参照して前記受け付けた検索すべき
    文書部品の条件に合う文書部品を検索する検索手段と、 検索結果を出力する出力手段と、 を有する構造化文書の文書部品検索装置。
  2. 【請求項2】前記インデックスを参照して文書部品間の
    包含関係に関する情報を抽出する包含関係抽出手段を設
    けた請求項1記載の構造化文書の文書部品検索装置。
JP4265018A 1992-10-02 1992-10-02 構造化文書の文書部品管理装置 Pending JPH06119331A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4265018A JPH06119331A (ja) 1992-10-02 1992-10-02 構造化文書の文書部品管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4265018A JPH06119331A (ja) 1992-10-02 1992-10-02 構造化文書の文書部品管理装置

Publications (1)

Publication Number Publication Date
JPH06119331A true JPH06119331A (ja) 1994-04-28

Family

ID=17411440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4265018A Pending JPH06119331A (ja) 1992-10-02 1992-10-02 構造化文書の文書部品管理装置

Country Status (1)

Country Link
JP (1) JPH06119331A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778400A (en) * 1995-03-02 1998-07-07 Fuji Xerox Co., Ltd. Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778400A (en) * 1995-03-02 1998-07-07 Fuji Xerox Co., Ltd. Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags

Similar Documents

Publication Publication Date Title
US9092417B2 (en) Systems and methods for extracting data from a document in an electronic format
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
JPH0293866A (ja) 要約生成方法および要約生成装置
JP2005182280A (ja) 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム
US20060080361A1 (en) Document information processing apparatus, document information processing method, and document information processing program
US11301441B2 (en) Information processing system and information processing method
JPH0628403A (ja) 文書検索装置
JPH06274541A (ja) 文献検索システム
KR102215613B1 (ko) 문서에 삽입된 텍스트를 구성하는 언어에 기반한 텍스트 검색을 가능하게 하는 전자 장치 및 그 동작 방법
CN118395970A (zh) 基于自然语言的单据处理方法、装置、计算机设备、存储介质
JPH06119331A (ja) 構造化文書の文書部品管理装置
JP3222193B2 (ja) 情報検索装置
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3328913B1 (ja) 多言語文献検索システム
JP2002245062A (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP3239845B2 (ja) 全文検索装置および方法
JP4283038B2 (ja) 文書登録装置、文書検索装置、プログラム及び記憶媒体
US20060048126A1 (en) Method and a system thereof for generating a homepage content file capable of dynamically linking with a plurality of on-demand knowledge bases
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH1145243A (ja) 索引作成支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2838972B2 (ja) 自動索引作成装置
JP2601139B2 (ja) 文字列検索装置
JPH10134065A (ja) 索引情報生成装置、索引情報生成方法および索引情報生 成用 プログラムを記憶した記憶媒体
JPH0765013A (ja) 文書検索装置