JP2000339347A - インデックス作成装置及びその方法、文書検索装置及びその方法、文書検索システム、データベース作成装置及びその方法、記憶媒体 - Google Patents

インデックス作成装置及びその方法、文書検索装置及びその方法、文書検索システム、データベース作成装置及びその方法、記憶媒体

Info

Publication number
JP2000339347A
JP2000339347A JP2000048525A JP2000048525A JP2000339347A JP 2000339347 A JP2000339347 A JP 2000339347A JP 2000048525 A JP2000048525 A JP 2000048525A JP 2000048525 A JP2000048525 A JP 2000048525A JP 2000339347 A JP2000339347 A JP 2000339347A
Authority
JP
Japan
Prior art keywords
search
index
unit
document
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000048525A
Other languages
English (en)
Other versions
JP2000339347A5 (ja
JP4463925B2 (ja
Inventor
Shiro Ito
史朗 伊藤
Noriko Otani
紀子 大谷
Kenichi Fujii
憲一 藤井
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000048525A priority Critical patent/JP4463925B2/ja
Publication of JP2000339347A publication Critical patent/JP2000339347A/ja
Publication of JP2000339347A5 publication Critical patent/JP2000339347A5/ja
Application granted granted Critical
Publication of JP4463925B2 publication Critical patent/JP4463925B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 構造と内容から構造化文書をセグメントに分
割し、与えられた検索キーを含むセグメントを検索結果
として提示することで、検索条件に適合した文書の部分
を検索結果とすること。 【解決手段】 文書を特定のタグによってセグメントに
分割し(S301)、イメージを含むセグメントについ
ては隣接セグメントとの関連度を算出して所定の関連度
を有する隣接セグメントと併合する(S302)。見出
しタグによって見出しを検出し、見出しの範囲に含まれ
るセグメントに見出し情報を付加する(S303)。セ
グメントを文書に分割してから、文書間の関連度に応じ
て文書を結合し、セグメントの見出し及びそれ以外の部
分のそれぞれに対してインデックスを作成する(S30
5)。検索は2つのインデックスに対して行い、インデ
ックスに対する検索結果に重み付けをつけて適合度を算
出し、この適合度によって判定した検索結果をセグメン
ト単位で出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書からインデッ
クスを作成するインデックス作成装置及びその方法、ま
た、入力された検索文字列を含む文書を検索する文書検
索装置及びその方法、文書検索システム、記憶媒体に関
するものである。
【0002】
【従来の技術】一般に、文書検索装置では、与えられた
検索キーを含む文書を検索結果として提示する。検索結
果には検索条件に対する適合度によってスコアが付けら
れ、スコアの高い文書が検索結果文書として提示され
る。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の装置では、WWW上の文書を対象とする検索におい
て検索結果文書の内容を閲覧する際、文書全体が表示さ
れるため、文書が長い場合や文書に複数の話題が含まれ
ている場合には、検索条件に適合する箇所を見つけるの
が困難であるという欠点があった。
【0004】WWW上の文書では、一文書に複数の情報
が盛り込まれている場合が多く、一覧できない長さの文
書も存在する。検索結果として得られた文書からほしい
情報を得るためには、検索条件に適合した部分を文書中
から探さなくてはならない。
【0005】そこで、検索結果文書に検索条件に適合し
ない情報が含まれていると、目的の情報が見つかりにく
い。
【0006】また、携帯端末など、表示画面の小さい機
器で結果を閲覧する場合には、特に一覧性が低いので、
欲しい情報のみを提示する必要がある。
【0007】本発明は、上記の問題に鑑みて成されたも
のであり、構造と内容からHTML文書をセグメントに
分割し、与えられた検索キーを含むセグメントを検索結
果として提示することで、検索条件に適合した文書の部
分を検索結果とする文書検索装置及び方法等を提供する
ことを目的とする。
【0008】また、本発明は、セグメントのように細か
い単位の検索から始めて、検索結果の数に応じて検索の
単位を大きくしていくことで、複数の検索単位を自動的
に使い分ける文書検索を実現した文書検索装置及び方法
等を提供することを目的とする。
【0009】また、本発明は、意図する検索結果を容易
に得ることができる文書検索装置及びその方法等を提供
することを目的とする。
【0010】
【課題を解決するための手段】上記課題を解決するため
に、本発明は、文書中に、当該文書を処理する装置がコ
マンドとして解釈可能な文字が含まれる被検索文書の検
索用インデックスを作成するインデックス作成装置であ
って、前記被検索文書を保持する被検索文書保持手段
と、該被検索文書保持手段に保持されている前記被検索
文書から、前記コマンドとして解釈可能な文字に応じて
第1次セグメントを抽出する文書分割手段と、前記第1
次セグメントをその関連性に応じて統合し、第2次セグ
メントとする結束性処理手段と、前記第2次セグメント
のそれぞれについて前記検索用インデックスを作成する
インデックス作成手段とを有することを特徴とするイン
デックス作成装置を提供する。
【0011】また、上記課題を解決するために、本発明
は、被検索文書の集合から、与えられたキーに関係する
文書を検索する文書検索装置であって、前記被検索文書
のそれぞれについて、検索用インデックス集合が複数与
えられており、前記キーを用いて前記複数のインデック
ス集合のそれぞれを検索し、それぞれの検索結果に所定
の重み付けをして合成した結果を基に、前記キーに対す
る前記被検索文書の関連度を決定する検索手段と、前記
関連度が所定の条件を満たす前記被検索文書を最終検索
結果として保持する最終検索結果保持手段とを有するこ
とを特徴とする文書検索装置を提供する。
【0012】また、上記課題を解決するために、本発明
は、文書中に、当該文書を処理する装置がコマンドとし
て解釈可能な文字が含まれる被検索文書の検索用インデ
ックスを生成するインデックス生成部と、被検索文書の
集合から、与えられたキーに関係する文書を検索する検
索部とから構成される文書検索システムであって、前記
インデックス生成部が、前記被検索文書を保持する被検
索文書保持手段と、該被検索文書保持手段に保持されて
いる前記被検索文書から前記文字に応じて第1次セグメ
ントを抽出する文書分割手段と、前記第1次セグメント
をその関連性に応じて統合し、第2次セグメントとする
結束性処理手段と、前記第2次セグメントのそれぞれ及
び前記見出しに関する情報に対して前記検索用インデッ
クス前記検索用インデックスを生成するインデックス生
成手段とから構成され、前記検索部が、前記キーを用い
て前記検索用インデックスを検索し、前記キーに対する
前記被検索文書の関連度を決定する検索手段と、前記関
連度が所定の条件を満たす前記被検索文書を最終検索結
果として保持する最終検索結果保持手段とから構成され
ることを特徴とする文書検索システムを提供する。
【0013】また、上記課題を解決するために、本発明
は、文書中に、当該文書を処理する方法がコマンドとし
て解釈可能な文字が含まれる被検索文書の検索用インデ
ックスを生成するインデックス作成方法であって、前記
被検索文書を記憶手段に保持する被検索文書保持ステッ
プと、前記記憶手段に保持されている前記被検索文書か
ら、前記コマンドとして解釈可能な文字に応じて第1次
セグメントを抽出する文書分割ステップと、前記第1次
セグメントをその関連性に応じて統合し、第2次セグメ
ントとする結束性処理ステップと、前記第2次セグメン
トのそれぞれについて前記検索用インデックスを生成す
るインデックス生成ステップとを有することを特徴とす
るインデックス作成方法を提供する。
【0014】また、上記課題を解決するために、本発明
は、文書中に、当該文書を処理する装置がコマンドとし
て解釈可能な文字が含まれる被検索文書の検索用インデ
ックスを生成するインデックス作成のプログラムコード
を格納した記憶媒体であって、前記被検索文書を保持す
る被検索文書保持工程のプログラムコードと、該被検索
文書保持工程により保持されている前記被検索文書か
ら、前記文字に応じて第1次セグメントを抽出する文書
分割工程のプログラムコードと、前記第1次セグメント
をその関連性に応じて統合し、第2次セグメントとする
結束性処理工程のプログラムコードと、前記第2次セグ
メントのそれぞれについて前記検索用インデックスを生
成するインデックス生成工程のプログラムコードとを有
することを特徴とする記憶媒体を提供する。
【0015】
【発明の実施の形態】(第1の実施形態)以下、添付の
図面を参照して本発明の好適な実施形態を詳細に説明す
る。
【0016】図1は、本実施形態のテキスト検索装置の
機能構成を示すブロック図である。
【0017】同図において、101は被検索文書を保持
する被検索文書保持部である。102は被検索文書保持
部101に保持されている被検索文書をHTMLのタグ
に従って分割するHTML文書分割部である。ここで
は、被検索文書であるHTML文書から本文(<BODY>)
と(</BODY>の間)を抜き出し、コメント(<!--...--
>)やメタダグ(<META...>)など、検索の対象とならな
い部分を除去した後に、予め定義された箇所で分割して
セグメントを生成する。
【0018】分割する箇所の例を図2に示す。セグメン
トは、セグメント番号(ID)、セグメントの内容をH
TMLで表現したテキスト(HTML)、HTMLから
タグを取ったテキスト(TEXT)、補助情報(INF
O)、イメージ情報(IMG)からなる。図3のHTM
L文書から生成したセグメントの例を図4に示す。但
し、図3の行頭の数字は、セグメント番号を表す。
【0019】103はHTML文書分割部102により
生成されたセグメントを保持する第1次セグメント保持
部である。104は第1次セグメント保持部103によ
り保持されているセグメントで、イメージ(<IMG...>)
と隣接するセグメントとの関連度を算出し、第2次セグ
メントを生成するイメージ処理部である。関連度はイメ
ージの位置(テキストの回り込みの有無)と前後の改行
・改段落の有無により決める。厳密に言えば、前後のセ
グメント全体について種別を判定するのではなく、前後
のセグメントを構成する行のうち、画像セグメントに隣
接した1行ずつの種別を検出して関連度を判別する。
【0020】関連度の規則の例を図5に示す。関連度が
Mの場合には、イメージのセグメントを隣接するセグメ
ントと統合する。関連度がA,B,Cの場合には、隣接
するセグメントのIMGにイメージのセグメントのID
と関連度に相当するスコアを付加する。なお、図5にお
いて、「改行(又は改段落)+テキスト」とは、 <IMG SRC=・・・・・> <BR>(又は<p>)(任意のテキスト) という構成を指す。
【0021】図3のHTML文書の例では、セグメント
7である<IMG SRC="line.gif">の前セグメント6の隣接
行がテキスト+改段落、後のセグメント8の隣接行がテ
キストなので関連度はXMとなる。そのため、セグメン
ト7は関連度がMのセグメント8に統合される。一方、
セグメント5である<IMG SRC="theme.gif" ALIGN=right
>は、セグメント4がその他、セグメント6の隣接行が
テキストであるから、図5の表(b)から関連度はXA
となり、関連度Aであるセグメント6のイメージ情報I
MGにID(セグメント5)とスコア(3)を付加す
る。イメージ処理後のセグメント6とセグメント8を図
6に示す。
【0022】105は、イメージ処理部104により生
成されたセグメントを保持する第2次セグメント保持部
である。106は第2次セグメント保持部105により
保持されているセグメントに対して、見出し(<Hn...
>...</Hn>)に関連する処理を行ない、第3次セグメン
トを生成する見出し処理部である。見出しに関する処理
は以下の手順で行なう。 1.見出しのセグメントをピックアップ。 2.初めに大きい見出し(<H1...>...</H1>)があれ
ば、全てのセグメントのINFOに見出しを追加する。 3.見出しの範囲を決定し、その範囲にあるセグメント
のINFOに見出しを追加する。見出しが複数ある場合
には、大きい見出しからセパレータ(例えば”/”とす
る)で区切って順に並べる。 4.見出しの範囲にあるセグメントのHTMLに一番小
さい見出しを追加する。 5.同じ見出しの範囲にあるイメージ(統合されていな
いもの)のセグメント番号とスコアをIMGに追加す
る。 6.見出しのセグメントを削除する。
【0023】すなわち、図3のHTML文書の例では、
見出し処理部106においてそれぞれ次のような処理が
行なわれる。 1.見出しタグ<Hn></Hn>を含むセグメント1,2,
4,9,10,12がピックアップされる。 2.全てのセグメントのINFOにタグ<H1>、</H1>で
挟まれた見出し“○×研究室のホームページ”を追加す
る。 3.セグメント2の範囲はセグメント3、セグメント4
の範囲はセグメント5,6,7,8、セグメント9の範
囲はセグメント10,11,12,13、セグメント1
0の範囲はセグメント11、セグメント12の範囲はセ
グメント13となる。見出しの範囲に入っているセグメ
ントのINFOに見出しを追加する。例えば、セグメン
ト8のINFOにはセグメント4の“研究テーマ”が追
加され、セグメント11のINFOにはセグメント9及
びセグメント10の“学会発表/1998年”が追加さ
れる。 4.例えば、セグメント8のHTMLには“<H2>研究テ
ーマ</H2>”が追加され、また、セグメント11のHT
MLには“<H3>1998年</H3>”が追加される。 5.セグメント8のIMGに“セグメント5,スコア
1”を追加する。 6.セグメント1,2,4,9,10,12を削除す
る。
【0024】見出し処理後のセグメント8とセグメント
11を図7に示す。
【0025】107は見出し処理部106により生成さ
れたセグメントを保持する第3次セグメント保持部であ
る。108は第3次セグメント保持部107により保持
されているセグメントのうち、サイズがある一定の閾値
以上のセグメントを語の出現状況から分割する結束性処
理部である。
【0026】ここではまず、句点や改行を目安に、処理
対象セグメントのTEXTを文に分割し、形態素解析に
より文中の語を抽出して、2文間の結束度を求める。文
uの中の語で文vにも出現する語の数をxとすると、文
uと文vの語彙的結束度は定数λを用いて以下の式で定
義される。
【0027】w(u,v)=exp{λx}
【0028】また、評価関数Eを定数α,βを用いて以
下のように定義する。
【0029】
【外1】
【0030】ここで、語彙的結束度を求める際の定数
λ、評価関数Eの定数α、βは正の値から適宜選択する
ことができ、例えばλ=5、α=β=1とすることがで
きる。評価関数はある文の組み合わせを行った場合の全
体の評価関数であり、この評価関数を用いて段落を関連
性の高い文(又は隣接する文の集合)に分割するkとが
できる。具体的には、初めは1文を1段落とし、隣接す
る1組の段落を併合した時の評価関数Eをそれぞれ求め
て、その時の評価関数が併合前よりも最も増加する段落
を併合する。評価関数が改善されなくなるまで、この操
作を繰り返し行なう。
【0031】ここで、あるセグメントのTEXTが、A
〜Eの5つの文から構成される場合を例にして、結束性
処理部の動作について詳しく説明する。 (1)文章を結合しない状態(A,B,C,D,E)で
の評価関数値E(E0とする)を求める。すなわち、評
価関数において、Pj={Sj}とした状態でのEを求
める。 (2)隣接した文を結合した場合のEを求める。すなわ
ち、文Aと文Bを結合した文書をA+Bと記載すると、
A+B,C,D,Eとした場合の評価関数値(E1とす
る)、A,B+C,D,Eとした場合の評価関数値(E
2とする)、A,B,C+D,Eとした場合の評価関数
値(E3とする)、A,B,C,D+Eとした場合の評
価関数値(E4とする)をそれぞれ求める。 (3)E1〜E4のうち、最も大きなもの(ここではE
2とする)がE0より大きければ(E2>E0なら
ば)、そのEが得られた状態に文書を結合する。つま
り、文Bと文Cを結合し、A,B+C,D,Eという構
成にする。 (4)再び、隣接した文(又は結合された文)を結合し
た場合の評価関数値を求める。すなわち、A+B+C,
D,Eとした場合の評価関数値(E5とする)、A,B
+C+D,Eとした場合の評価関数値(E6とする)、
A,B+C,D+Eとした場合の評価関数値(E7とす
る)をそれぞれ求める。 (5)E2に対し、増加が最も大きい評価関数値が得ら
れた構成(E7とする)にする。すなわち、文Dと文E
を結合し、A,B+C,D+Eという構成にする。 (6)さらに隣接した文(又は結合された文)を結合し
た場合の評価関数値を求める。すなわち、A+B+C,
D+Eとした場合の評価関数値(E8とする)、A,B
+C+D+Eとした場合の評価関数値(E9とする)を
それぞれ求める。 (7)併合前(この場合はE7)と比較し、最も増加が
大きい構成にする。変化がなければ、確定。この例の場
合、E8,E9ともE7と変化がないとすると、結果と
してE7が得られたA,B+C,D+Eという3つの文
(又は段落)に分割される。
【0032】このようにして分割された文(又は段落)
は、それぞれ、内容的に関連の強い文の集まりになる。
【0033】109は結束性処理部108により生成さ
れたセグメントを保持する被検索セグメント保持部であ
る。
【0034】110は被検索セグメント保持部109に
保持されている被検索セグメントに対して、検索を高速
に行なうためのインデックスを作成するインデックス作
成部である。インデックスは、各セグメントのTEXT
とINFOについて別々に作成される。111は被検索
セグメント保持部109に保持されている被検索セグメ
ントのTEXTに対して、インデックス作成部110に
より作成されたインデックスを保持するインデックス保
持部である。112は被検索セグメント保持部109に
保持されている被検索セグメントのINFOに対して、
インデックス作成部110により作成された補助インデ
ックスを保持する補助インデックス保持部である。11
3は検索を行なう文字列を保持する検索キー保持部であ
る。
【0035】114はインデックス保持部111に保持
されているインデックスを用いて、検索キー保持部11
3に保持されている検索文字列に一致する文字列を検索
する検索部である。検索結果は検索条件への適合度によ
りランキングされる。適合度には、検索キーの出現回数
や被検索テキストに対して検索キーの占める割合などが
用いられる。115は検索部114により生成されたラ
ンキング結果を保持するランキング結果保持部である。
【0036】116は補助インデックス保持部112に
保持されている補助インデックスを用いて、検索キー保
持部113に保持されている検索文字列に一致する文字
列を検索する補助検索部で得ある。検索部同様、検索結
果は検索条件への適合度によりランキングされる。11
7は、補助検索部116により生成された補助ランキン
グ結果を保持する補助ランキング結果保持部である。
【0037】118はランキング結果保持部115に保
持されているランキング結果と補助ランキング結果保持
部117に保持されている補助ランキング結果を統合
し、検索結果を作成するランキング結果統合部である。
ここでは、同一セグメントについて、ランキング結果の
スコアに補助ランキング結果のスコアのε倍(ε<1)
を足し合わせた値を算出し、この値を検索スコアとす
る。検索スコアが所定の値より高いセグメントが検索結
果となる。119はランキング結果統合部118により
作成された検索結果を保持する検索結果保持部である。
検索スコアは、検索後の結果の表示の際に、所定値以上
のスコアを有する場合にはそのイメージも同時に出力す
るなど、検索結果の重み付けや処理分岐の条件として用
いることができる。
【0038】図8は、本発明の実施形態に係るテキスト
検索装置のハードウェア構成を示す図である。同図にお
いて、201は後述する制御手順を実現するプログラム
を保持するROMである。202はRAMで、第1次セ
グメント保持部103、第2次セグメント保持部10
5、第3次セグメント部107、インデックス保持部1
11、補助インデックス保持部112、検索キー保持部
113、ランキング結果保持部115、補助ランキング
結果保持部117、検索結果保持部119と上記プログ
ラムの動作に必要な記憶領域とを提供する。203はR
OM201に保持れているプログラムに従って処理を行
なう中央処理装置である。204はディスク装置であ
り、被検索文書保持部101、被検索セグメント保持部
109を実現する。205はバスであり、上記の各構成
を接続し、各構成間におけるデータの授受を可能とす
る。
【0039】次に、本装置の動作を説明する。本実施形
態の処理は、インデックス作成フェーズと検索フェーズ
に大きく分かれる。以下、図9のフローチャートを参照
して本実施形態のテキスト検索装置におけるインデック
ス作成フェーズの手順を示す。
【0040】ステップS301では、HTML文書分割
部102により、被検索文書保持部101に保持されて
いる被検索文書から本文(<BODY>と</BODY>の間)を抜
き出し、コメント(<!--...-->)やメタタグ(<META...
>)など、検索の対象とならない部分を除去した後に、
図2に示す箇所で分割して第1次セグメントを生成す
る。そしてステップS302に移る。
【0041】ステップS302では、イメージ処理部1
04により、ステップS301において生成された第1
次セグメントで、イメージ(<IMG...>)と隣接するセグ
メントとの関連度を算出し、第2次セグメントを生成す
る。そしてステップS303に移る。
【0042】ステップS303では、見出し処理部10
6により、ステップS302において生成された第2次
セグメントで、見出し(<Hn>...</Hn>)に関する処理を
行ない、第3次セグメントを生成する。そしてステップ
S304に移る。
【0043】ステップS304では、結束性処理部10
8により、ステップS303において生成された第3次
セグメントのうち、サイズがある一定の閾値以上のセグ
メントを語の出現状況から分割し、被検索セグメントを
生成する。そしてステップS305に移る。
【0044】ステップS305では、インデックス作成
部110により、ステップS304において生成された
被検索セグメントに対して、検索を高速に行なうための
インデックスを作成する。そしてインデックス作成フェ
ーズを終了する。
【0045】次に、図10のフローチャートを参照し
て、本実施形態における検索フェーズの概要を説明す
る。
【0046】ステップS401では、検索部114によ
り、インデックス保持部111に保持されているインデ
ックスを用いて、検索キー保持部113に保持されてい
る検索文字列に一致する文字列を検索し、その検索結果
を検索条件への適合度によりランキングする。そしてス
テップS402に移る。
【0047】ステップS402では、補助検索部116
により、補助インデックス保持部112に保持されてい
るインデックスを用いて、検索キー保持部113に保持
されている検索文字列に一致する文字列を検索し、その
検索結果を検索条件への適合度によりランキングする。
そしてステップS403に移る。
【0048】ステップS403では、ランキング結果統
合部118により、ステップS401により生成された
ランキング結果とステップS402により生成された補
助ランキング結果を統合し、検索結果を作成する。そし
て検索フェーズを終了する。
【0049】以上に述べたように、構造と内容からHT
ML文書をセグメントに分割し、与えられた検索キーを
含むセグメントを検索結果として提示することで、検索
条件に適合した文書の部分を検索結果とするテキスト検
索装置を実現することができる。
【0050】(第2の実施形態)第1の実施形態におい
ては、インデックス作成フェーズの被検索セグメント生
成処理とインデックス作成処理、および検索フェーズを
同一装置で行なう場合について説明したが、これらの処
理を異なる装置で構成してもよい。例えば、本発明によ
る被検索セグメント生成処理だけを行なう装置、同じく
インデックス作成処理のみを行う装置及び検索処理のみ
を行う装置のいずれか1つであってもよいし、その組み
合わせから構成されるシステムであってもよい。
【0051】(被検索セグメント生成装置)図11は本
発明による被検索セグメント生成装置の基本的な機能構
成を示すブロック図である。
【0052】図11において、1101は被検索文書を
保持する被検索文書保持部である。1102は被検索文
書保持部1101に保持されている被検索文書をHTM
Lのタグに従って分割するHTML文書分割部である。
1103はHTML文書分割部1102により生成され
たセグメントを保持する第1次セグメント保持部であ
る。1104は第1次セグメント保持部1103により
保持されているセグメントで、イメージと隣接するセグ
メントとの関連度を算出し、第2次セグメントを生成す
るイメージ処理部である。
【0053】1105はイメージ処理部1104により
生成されたセグメントを保持する第2次セグメント保持
部である。1106は第2次セグメント保持部1105
により保持されているセグメントで、見出しに関する処
理を行ない、第3次セグメントを生成する見出し処理部
である。1107は見出し処理部1106により生成さ
れたセグメントを保持する第3次セグメント保持部であ
る、1108は第3次セグメント保持部1107により
保持されているセグメントのうち、サイズがある一定の
閾値以上のセグメントを語の出現状況から分割する結束
性処理部である。1109は結束性処理部1108によ
り生成されたセグメントを保持する被検索セグメント保
持部である。
【0054】被検索セグメント保持部1109に保持さ
れた被検索セグメントは、通信回線を通したり、可搬記
録媒体によって他の装置に移されて利用される。
【0055】(インデックス作成装置)また、図12は
本発明によるインデックス作成装置の構成を示すブロッ
ク図である。図12において、1201は図11に示す
装置で作成された被検索セグメントを保持する被検索セ
グメント保持部である。1202は被検索セグメント保
持部1201に保持されている被検索セグメントに対し
て、検索を高速に行なうためのインデックスを作成する
インデックス作成部である。1203は被検索セグメン
ト保持部1201に保持されている被検索セグメントの
TEXTに対して、インデックス作成部1202により
作成されたインデックスを保持するインデックス保持部
である。1204は、被検索セグメント保持部1201
に保持されている被検索セグメントのINFOに対し
て、インデックス作成部1202により作成された補助
インデックスを保持する補助インデックス保持部であ
る。
【0056】被検索セグメントのTEXT、INFOか
らインデックスを作成する方法としては、(1)形態素
解析または字種毎の変わり目で分割することによって得
られる単語をキーとして、各文書での出現回数を保持す
る方法、(2)(1)と同様のキーを用い、出現位置を
列挙する方法、(3)文字又はN文字の(Nは自然数)
文字列全てについて出現位置を列挙する方法等を用いる
ことができる。
【0057】インデックス保持部1203に保持された
インデックスと補助インディスク保持部1204に保持
された補助インディスクは、通信回線を通したり、可搬
記録媒体によって他の装置に移されて検索が行なわれ
る。
【0058】(第3の実施形態)第2の実施形態におい
ては、被検索セグメント生成処理とインデックス作成処
理とを個別の装置で実施する場合を説明したが、被検索
セグメント生成処理とインデックス作成処理を行なう装
置を構成してもよい。
【0059】(被検索セグメント生成及びインデックス
作成装置)図13は被検索セグメント生成処理及びイン
デックス作成処理を行う装置の基本的な機能構成を示す
ブロック図である。
【0060】図13において、1301は被検索文書を
保持する被検索文書保持部である。1302は、被検索
文書保持部1301に保持されている被検索文書をHT
MLのタグに従って分割するHTML文書分割部であ
る。1303はHTML文書分割部1302により生成
されたセグメントを保持する第1次セグメント保持部で
ある。1304は、第1次セグメント保持部1303に
より保持されているセグメントで、イメージと隣接する
セグメントとの関連度を算出し、第2次セグメントを生
成するイメージ処理部である。
【0061】1305はイメージ処理部1304により
生成されたセグメントを保持する第2次セグメント保持
部である。1306は第2次セグメント保持部1305
により保持されているセグメントで、見出しに関する処
理を行ない、第3次セグメントを生成する見出し処理部
である。1307は見出し処理部1306により生成さ
れたセグメントを保持する第3次セグメント保持部であ
る。1308は第3次セグメント保持部1307により
保持されているセグメントのうち、サイズがある一定の
閾値以上のセグメントを語の出現状況から分割する結束
性処理部である。1309は結束性処理部1308によ
り生成されたセグメントを保持する被検索セグメント保
持部である。
【0062】1310は被検索セグメント保持部130
9に保持されている被検索セグメントに対して、検索を
高速に行なうためのインデックスを作成するインデック
ス作成部である。1311は、被検索セグメント保持部
1309に保持されている被検索セグメントのTEXT
に対して、インデックス作成部1310により作成され
たインデックスを保持するインデックス保持部である。
1312は被検索セグメント保持部1309に保持され
ている被検索セグメントのINFOに対して、インデッ
クス作成部1310により作成された補助インデックス
を保持する補助インデックス保持部である。
【0063】インデックス保持部1311に保持された
インデックスと補助インデックス保持部1312に保持
された補助インデックスは、通信回線を通したり、可搬
記録媒体によって他の装置に移されて検索が行なわれ
る。
【0064】(第4の実施形態) (検索装置)図14は、上述の第2、第3実施形態に記
載された装置に提供されるインデックスと補助インデッ
クスを用いて検索を行なう検索装置の基本的な機能構成
を示すブロック図である。
【0065】図14において、1401は図12あるい
は図13に示す装置で作成されたインデックスを保持す
るインデックス保持部である。1402は図12あるは
図13に示す装置で作成されたインデックスを保持する
インデックス保持部である。1402は図12あるいは
図13に示す装置で作成された補助インデックスを保持
する補助インデックス保持部である。1403は検索を
行なう文字列を保持する検索キー保持部である。
【0066】1404はインデックス保持部1401に
保持されているインデックスを用いて、検索キー保持部
1403に保持されている検索文字列に一致する文字列
を検索する検索部である。1405は検索部1404に
より生成されたランキング結果を保持するランキング結
果保持部である。1406は補助インデックス保持部1
402に保持されている補助インデックスを用いて、検
索キー保持部1403に保持されている検索文字列に一
致する文字列を検索する補助検索部である。1407は
補助検索部1406により生成された補助ランキング結
果を保持する補助ランキング結果保持部である。140
8はランキング結果保持部1405に保持されているラ
ンキング結果と補助ランキング結果保持部1407に保
持されている補助ランキング結果を統合し、検索結果を
作成するランキング結果統合部である。1409はラン
キング結果統合部1408により作成された検索結果を
保持する検索結果保持部である。
【0067】インデックス保持部1401と補助インデ
ックス保持部1402には、上記実施形態の手順で作成
されたインデックスと補助インデックスが、通信回線或
は可搬記録媒体等を介して提供され、保持される。
【0068】上記実施形態では、HTML文書分割手
段、イメージ処理手段、見出し処理手段、結束性処理手
段により、順にセグメントを生成するよう説明している
が、これに限定されるものではない。例えば、HTML
文書分割手段のみでセグメントを生成する装置であって
もよい。
【0069】また、HTML文書分割手段とイメージ処
理手段でセグメントを生成する装置であってもよい。
【0070】また、HTML文書分割手段と見出し処理
手段でセグメントを生成する装置であってもよい。
【0071】また、HTML文書分割手段と結束性処理
手段でセグメントを生成する装置であってもよい。
【0072】また、HTML文書分割手段とイメージ処
理手段と見出し処理手段でセグメントを生成する装置で
あってもよい。
【0073】また、HTML文書分割手段とイメージ処
理手段と結束性処理手段でセグメントを生成する装置で
あってもよい。
【0074】また、HTML文書分割手段と見出し処理
手段と結束性処理手段でセグメントを生成する装置であ
ってもよい。
【0075】上記実施形態では、図2に示した箇所でH
TML文書を分割するよう説明しているが、これに限定
されるものではなく、他の箇所で分割するよう定義して
もよい。また、分割する箇所を自由に適宜できるように
してもよい。
【0076】上記実施形態では、図5に示した規則に基
づいてイメージと隣接するセグメントとの関連度を決定
するよう説明しているが、これに限定されるものではな
く、他の規則で関連度を定義してもよい。
【0077】また、関連度の規則を自由に定義できるよ
うにしてもよい。
【0078】上記実施形態では、イメージの位置と前後
の改行・改段落の有無により、イメージと隣接するセグ
メントとの関連度を決定するように説明しているが、こ
れに限定されるものではなく、他の要因により関連度を
決定してもよい。
【0079】上記実施形態では、形態素解析により語を
抽出するよう説明しているが、これに限定されるもので
はなく、文字種の違いによって切り出した文字列を語と
してもよい。
【0080】上記実施形態では、2文に出現する同一語
をもとに語彙的結束度を算出するよう説明しているが、
これに限定されるものではなく、既存の知識ベースを利
止して、同義語や類義語、上位語、下位語をも用いて語
彙的結束度を算出しても良い。例えば、2文に現れる同
一語、同義語、類義語、上位語、下位語の数をそれぞれ
x1,x2,x3,x4,x5とし、それらの重みをw1,w
2,w3,w4,w5とすると、語彙的結束度は以下のよう
に定義できる。
【0081】w(u,v)=exp{λ・(w1x1+w2x2+w3
x3+w4x4+w5x5)}
【0082】上記実施利では、語彙的結束度を指数関数
で求めるよう説明しているが、これに限定されるもので
はなく、他の非単調増加関数を用いてもよい。
【0083】上記実施形態では、文間の語彙的結束度と
段落長の要因を定式化し、評価関数を定義しているが、
これに限定されるものではなく、他の式を評価関数とし
ても良い。
【0084】上記実施形態では、出現する語により文間
結束度を求め、段落を決定する方法によりサイズの大き
いセグメントを分割するよう説明しているが、これに限
定されるものではなく、セグメントのTEXT全体の出
現単語の分布から段落を決定するなど、他の方法により
分割しても良い。
【0085】上記実施形態では、セグメントのTEXT
とINFOに対して別々にインデックスを作成し、TE
XTによるインデックスの検索結果にINFOによるイ
ンデックスの検索結果を加えるよう説明しているが、こ
れに限定されるものではなく、両者を混合して1つのイ
ンデックスを作成し、それに対する結果を検索結果とし
てもよい。
【0086】また、INFOのインデックスを作成せず
に、TEXTのみを検索対象としてもよい。
【0087】上記実施形態では、HTML文書分割部に
より、コメントやメタタグ等、検索の対象とならない部
分を除去して第1次セグメントを生成するよう説明して
いるが、これに限定されるものではなく、コメントやメ
タタグの情報を利用して、第1次セグメントを生成して
もよい。
【0088】上記実施形態では、処理対象をHTML文
書とし、HTMLの構造を利用してセグメントを生成す
るよう説明しているが、これに限定されるものではな
く、SGMLやXML等、他の構造化文書を対象とし
て、その構造情報を利用してセグメントを生成する装置
であってもよい。
【0089】上記実施形態においては、第1次セグメン
ト保持部103、第2次セグメント保持部105、第3
次セグメント保持部107、インデックス保持部11
1、補助インデックス保持部112、検索キー保持部1
13、ランキング結果保持部115、補助ランキング保
持部117、検索結果保持部119をRAMで、非検索
文書保持部101、被検索セグメント保持部109をデ
ィスク装置で実現する場合について説明したが、これに
限定されるものではなく、任意の記憶媒体を用いて実現
してもよい。
【0090】上記実施形態においては、各部を同一の計
算機上で構成する場合について説明したが、これに限定
されるものではなく、ネットワーク上に分散した計算機
や処理装置などに別れて各部を構成してもよい。
【0091】上記実施形態においては、プログラムをR
OMに保持する場合について説明したが、これに限定さ
れるものではなく、任意の記憶媒体を用いて実現しても
よい。また、同様の動作をする回路で実現してもよい。
【0092】なお、本発明は、複数の機器から構成され
るシステムに適用しても、一つの機器からなる装置に適
用してもよい。前述した実施形態の機能を実現するソフ
トウエアのプログラムコードを記録した記憶媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ(またはCPUやMPU)が記憶媒体に格
納されたプログラムコードを読み出し実行することによ
っても、達成されることは言うまでもない。この場合、
記憶媒体から読み出されたプログラムコード自体が前述
した実施形態の機能を実現することになり、そのプログ
ラムコードを記憶した記憶媒体は本発明を構成すること
になる。
【0093】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピーディスク,ハードディ
スク,光ディスク,光磁気ディスク,CD−ROM,C
D−R,磁気テープ,不揮発性のメモリカード,ROM
などを用いることができる。
【0094】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているOSなどが
実際の処理の一部または全部を行い、その処理によって
前述した実施形態の機能が実現される場合も含まれるこ
とは言うまでもない。
【0095】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。
【0096】以上説明したように、本発明によれば、検
索条件に適合した文書の部分を検索結果とするテキスト
検索を実現できるという効果が得られる。
【0097】(第5の実施の形態)図5は本発明の第5
の実施の形態に係るテキスト検索装置の構成を示す機能
ブロック図である。本発明の第5の実施の形態に係るテ
キスト検索装置は、被検索文書保持部1501、セグメ
ント生成部1502、セグメント保持部1503、オブ
ジェクト同定部1504、オブジェクト付被検索文書保
持部1505、インデックス作成部1506、セグメン
ト単位インデックス保持部1507、文書単位インデッ
クス保持部1508、検索単位切替部1509、検索キ
ー保持部1510、検索部1511、検索結果保持部1
512、提示結果生成部1513、結果提示部1514
を備える構成となっている。
【0098】上記各部の機能を詳述すると、被検索文書
保持部1501は、被検索文書を保持する。セグメント
生成部1502は、被検索文書保持部1501に保持さ
れている被検索文書を内容に従ってセグメントに分割す
る。検索対象がHTML(Hyper Text Ma
rkup Language:ハイパーテキスト記述言
語)文書の場合には、HTMLのタグからレイアウト上
での区切れ目を判断したり、出現言語の推移から話題が
転換している箇所を同定したりすることで、セグメント
を生成する。セグメント保持部1503は、セグメント
生成部1502により生成されたセグメントを保持す
る。
【0099】オブジェクト同定部1504は、被検索文
書保持部1501に保持されている被検索文書のオブジ
ェクトを同定する。オブジェクトとは、被検索文書に記
されている情報の対象のことである。オブジェクト名を
含む頻度、ファイル名、Webページの場合には、UR
L(Uniform Resource Locato
r:WWWサーバのアドレス)などからその文書がどの
オブジェクトに関する情報かを判断する。オブジェクト
付被検索文書保持部1505は、オブジェクト同定部1
504で同定されたオブジェクトを被検索文書と共に保
持する。
【0100】インデックス作成部1506は、セグメン
ト保持部1503に保持されたセグメント、及びオブジ
ェクト付被検索文書保持部1505に保持されたオブジ
ェクト付被検索文書から検索用インデックスを作成す
る。オブジェクト付被検索文書から作成したインデック
スには、各文書がどのオブジェクトの情報であるかが付
加情報として含まれている。セグメント単位インデック
ス保持部1507は、セグメント保持部1503に保持
されたセグメントからインデックス作成部1506によ
って作成された検索用インデックスを保持する。文書単
位インデックス保持部1508は、オブジェクト付被検
索文書保持部1505に保持されたオブジェクト付被検
索文書からインデックス作成部1506によって作成さ
れた検索用インデックスを保持する。
【0101】検索単位切替部1509は、提示結果生成
部1513からの情報を元に、セグメント単位インデッ
クス保持部1507に保持されたセグメント単位インデ
ックスと、文書単位インデックス保持部1508に保持
された文書単位インデックスのうち、適切な方を検索対
象のインデックスとして検索部1511に渡す。初回は
セグメント単位インデックスを選択し、それによる検索
結果数が閾値を越えたという情報が提示結果生成部15
13から伝達された場合には、検索単位切替部1509
は文書単位インデックスを検索対象として渡す。検索キ
ー保持部1510は、検索を行う文字列を保持する。検
索部1511は、検索単位切替部1509が検索対象と
して選択したインデックスを用いて、検索キー保持部1
510に保持されている検索文字列に一致する文字列を
検索する。検索結果保持部1512は、検索部1511
により生成された検索結果を保持する。
【0102】提示結果生成部1513は、検索結果保持
部1512に保持された検索結果の数をチェックし、検
索単位切替部1509に検索単位の切替を依頼したり、
表示する検索結果を生成したりする。セグメント単位の
インデックスの検索結果数がある閾値を越えた場合に
は、検索単位切替部1509に文書単位のインデックス
に切り替えるよう指令を出し、閾値を越えない場合に
は、セグメント単位の検索結果を提示結果とする。文書
単位のインデックスの検索結果数がある閾値を越えた場
合には、検索結果をオブジェクト毎にまとめて提示結果
を作成し、閾値を越えない場合には、文書単位の検索結
果を提示結果とする。結果提示部1514は、提示結果
生成部1513により生成された提示結果を表示する。
【0103】図16は本発明の第5の実施の形態に係る
テキスト検索装置のハードウエア構成を示すブロック図
である。本発明の第5の実施の形態に係るテキスト検索
装置は、ROM1601、RAM1602、中央処理装
置1603、ディスク装置1604、バス1605を備
える構成となっている。
【0104】上記各部の機能を詳述すると、ROM16
01は、後述する制御手順を実現するプログラムを保持
する。RAM1602は、上記図15の検索キー保持部
1510、検索結果保持部1512と上記プログラムの
動作に必要な記憶領域とを提供する。中央処理装置16
03は、ROM1601に保持されているプログラムに
従って処理を行う。ディスク装置1604は、上記図1
5の被検索文書保持部1501、セグメント保持部15
03、オブジェクト付被検索文書保持部1505、セグ
メント単位インデックス保持部1507、文書単位イン
デックス保持部1508を実現する。バス1605は、
上記ROM1601、RAM1602、中央処理装置1
603、ディスク装置1604を接続し、各構成間にお
けるデータの授受を可能とする。
【0105】図22は本発明のプログラム及び関連デー
タが記憶媒体から装置に供給される概念例を示す説明図
である。本発明のプログラム及び関連データは、フロッ
ピディスクやCD−ROM等の記憶媒体801を装置8
02に装備された記憶媒体ドライブ挿入口803に挿入
することで供給される。その後、本発明のプログラム及
び関連データを記憶媒体801から一旦ハードディスク
にインストールしハードディスクからRAMにロードす
るか、或いは、ハードディスクにインストールせずに直
接RAMにロードすることで、本発明のプログラム及び
関連データを実行することが可能となる。
【0106】図21は本発明のプログラム及び関連デー
タを記憶した記憶媒体の記憶内容の構成例を示す説明図
である。本発明の記憶媒体は、例えばボリューム情報7
01、ディレクトリ情報702、プログラム実行ファイ
ル703、プログラム関連データファイル704等の記
憶内容で構成される。本発明のプログラムは、後述する
図17〜図18のフローチャート等に基づきプログラム
コード化されたものである。
【0107】次に、上記の如く構成された本発明の第5
の実施の形態に係るテキスト検索装置の動作を図15、
図17、図18を参照しながら説明する。本発明の第5
の実施の形態の処理は、インデックス作成フェーズと検
索フェーズに大きく分かれる。以下、本発明の第1の実
施の形態に係るテキスト検索装置におけるインデックス
作成フェーズ、検索フェーズの手順を説明する。
【0108】「インデックス作成フェーズ」(図17) ステップS1701では、セグメント生成部1502
は、被検索文書保持部1501に保持されている被検索
文書を内容に従って分割してセグメントを生成する。こ
の後、ステップS1702に移る。ステップS1702
では、オブジェクト同定部1504は、被検索文書保持
部1501に保持されている被検索文書のオブジェクト
を同定する。ステップS1703では、インデックス作
成部1506は、セグメント保持部1503に保持され
たセグメント、及びオブジェクト付被検索文書保持部1
505に保持されたオブジェクト付被検索文書から検索
用インデックスを作成する。
【0109】以上によりインデックス作成フェーズを終
了する。
【0110】「検索フェーズ」(図18) ステップS1801では、検索部1511は、セグメン
ト単位インデックス保持部1507に保持されたセグメ
ント単位インデックスを用いてセグメント単位の検索を
行う。この後、ステップS1802に移る。ステップS
1802では、提示結果生成部1513は、セグメント
単位の検索結果数が閾値Nより多いか否かを判断し、セ
グメント単位の検索結果数が閾値Nより多い場合はステ
ップS1803に移り、セグメント単位の検索結果数が
閾値Nを越えなかった場合はステップS1806に移
る。
【0111】ステップS1803では、検索部1511
は、文書単位インデックス保持部1508に保持された
文書単位インデックスを用いて文書単位の検索を行う。
この後、ステップS1804に移る。ステップS180
4では、提示結果生成部1513は、文書単位の検索結
果数が閾値Nより多いか否かを判断し、文書単位の検索
結果数が閾値Nより多い場合はステップS1805に移
り、文書単位の検索結果数が閾値Nを越えなかった場合
はステップS1806に移る。
【0112】ステップS1805では、提示結果生成部
1513は、検索結果をオブジェクト毎にまとめて提示
結果を作成する。この後、ステップS1807に移る。
ステップS1806では、提示結果生成部1513は、
検索結果からそのまま提示結果を生成する。この後、ス
テップS1807に移る。ステップS1807では、結
果提示部1514は、提示結果生成部1513で生成さ
れた提示結果を表示する。以上により検索フェーズを終
了する。
【0113】以上説明したように、本発明の第5の実施
の形態によれば、細かい単位の検索から始めて、検索結
果の数に応じて検索の単位を大きくしていくことで、複
数の検索単位を自動的に使い分けるテキスト検索装置を
実現することができるという効果がある。
【0114】(第6の実施の形態)上述した本発明の第
5の実施の形態においては、インデックス作成フェーズ
と検索フェーズを同一装置で行う場合について説明した
が、これに限定されるものではない。例えば、インデッ
クス作成フェーズだけを行う装置であってもよい。本発
明の第6の実施の形態においては、上記のインデックス
作成フェーズだけを行う装置について説明する。
【0115】図19は本発明の第6の実施の形態に係る
インデックス作成装置の構成を示す機能ブロック図であ
る。本発明の第6の実施の形態に係るインデックス作成
装置は、被検索文書保持部1901、セグメント生成部
1902、セグメント保持部1903、オブジェクト同
定部1904、オブジェクト付被検索文書保持部190
5、インデックス作成部1906、セグメント単位イン
デックス保持部1907、文書単位インデックス保持部
1908を備える構成となっている。
【0116】上記各部の機能を詳述すると、被検索文書
保持部1901は、被検索文書を保持する。セグメント
生成部1902は、被検索文書保持部1901に保持さ
れている被検索文書を内容に従ってセグメントに分割す
る。セグメント保持部1903は、セグメント生成部1
902により生成されたセグメントを保持する。オブジ
ェクト同定部1904は、被検索文書保持部1901に
保持されている被検索文書のオブジェクトを同定する。
オブジェクト付被検索文書保持部1905は、オブジェ
クト同定部1904で同定されたオブジェクトを被検索
文書と共に保持する。
【0117】インデックス作成部1906は、セグメン
ト保持部1903に保持されたセグメント、及びオブジ
ェクト付被検索文書保持部1905に保持されたオブジ
ェクト付被検索文書から検索用インデックスを作成す
る。セグメント単位インデックス保持部1907は、セ
グメント保持部1903に保持されたセグメントからイ
ンデックス作成部1906によって作成された検索用イ
ンデックスを保持する。文書単位インデックス保持部1
908は、オブジェクト付被検索文書保持部1905に
保持されたオブジェクト付被検索文書からインデックス
作成部1906によって作成された検索用インデックス
を保持する。
【0118】本インデックス作成装置においては、上記
のセグメント単位インデックス保持部1907に保持さ
れたセグメント単位インデックスと、文書単位インデッ
クス保持部1908に保持された文書単位インデックス
は、通信回線或いは可搬記録媒体を介して他の装置(テ
キスト検索装置)に提供されて利用される。
【0119】以上説明したように、本発明の第6の実施
の形態によれば、テキスト検索に必要なセグメント単位
インデックス及び文書単位インデックスを作成し、作成
したセグメント単位インデックス及び文書単位インデッ
クスを外部装置(他のテキスト検索装置)に供給するこ
とで、外部装置(他のテキスト検索装置)で複数の検索
単位を自動的に使い分けることができるという効果があ
る。
【0120】(第7の実施の形態)本発明の第7の実施
の形態においては、上述した本発明の第6の実施の形態
に係るインデックス作成装置で作成されたインデックス
を用いて検索を行う装置について説明する。
【0121】図20は本発明の第7の実施の形態に係る
テキスト検索装置の構成を示す機能ブロック図である。
本発明の第7の実施の形態に係るテキスト検索装置は、
セグメント単位インデックス保持部2001、文書単位
インデックス保持部2002、検索単位切替部200
3、検索キー保持部2004、検索部2005、検索結
果保持部2006、提示結果生成部2007、結果提示
部2008を備える構成となっている。
【0122】上記各部の機能を詳述すると、セグメント
単位インデックス保持部2001は、上記第6の実施の
形態の図19に示したインデックス作成装置で作成され
たセグメント単位インデックスを保持する。文書単位イ
ンデックス保持部1508は、上記第6の実施の形態の
図19に示したインデックス作成装置で作成された文書
単位インデックスを保持する。検索単位切替部2003
は、提示結果生成部2007からの情報を元に、セグメ
ント単位インデックス保持部2001に保持されたセグ
メント単位インデックスと、文書単位インデックス保持
部2002に保持された文書単位インデックスのうち、
適切な方を検索対象のインデックスとして検索部200
5に渡す。検索キー保持部2004は、検索を行う文字
列を保持する。
【0123】検索部2005は、検索単位切替部200
3が検索対象として選択したインデックスを用いて、検
索キー保持部2004に保持されている検索文字列に一
致する文字列を検索する。検索結果保持部2006は、
検索部2005により生成された検索結果を保持する。
提示結果生成部2007は、検索結果保持部2006に
保持された検索結果の数をチェックし、検索単位切替部
2003に検索単位の切替を依頼したり、表示する検索
結果を生成したりする。結果提示部2008は、提示結
果生成部2007により生成された提示結果を表示す
る。
【0124】本テキスト検索装置においては、上記のセ
グメント単位インデックス保持部2001と文書単位イ
ンデックス保持部2002には、上記第6の実施の形態
に係るインデックス作成装置における手順で作成された
セグメント単位インデックスと文書単位インデックス
が、通信回線或いは可搬記録媒体等を介して提供され保
持される。
【0125】以上説明したように、本発明の第7の実施
の形態によれば、細かい単位の検索から始めて、検索結
果の数に応じて検索の単位を大きくしていくことで、複
数の検索単位を自動的に使い分けるテキスト検索装置を
実現することができるという効果がある。
【0126】上述した本発明の第5の実施の形態乃至第
7の実施の形態の他に、下記のような他の実施形態(変
形例)が考えられる。
【0127】(1)上記実施形態においては、セグメン
ト単位検索と文書単位検索の結果数の閾値を同じ数Nで
説明しているが、これに限定されるものではなく、異な
る閾値を設定してもよい。
【0128】(2)上記実施形態においては、セグメン
ト単位と文書単位のインデックスを切り替えて使用する
と説明しているが、これに限定されるものではなく、様
々な単位のインデックスを用意して、それらを切り替え
て使用するようにしてもよい。
【0129】(3)上記実施形態においては、文書のオ
ブジェクトのみを同定し、提示情報生成に利用するよう
説明しているが、これに限定されるものではなく、セグ
メントのオブジェクトも同定して、セグメント単位の検
索結果数に応じて、オブジェクトを用いた提示情報生成
を行ってもよい。
【0130】(4)上記実施形態においては、予め文書
のオブジェクトを同定し、文書単位の検索結果が閾値を
越える場合に提示情報生成に利用するよう説明している
が、これに限定されるものではなく、オブジェクト同定
を行わずに、複数の単位のインデックスを切り替えて検
索するだけでもよい。
【0131】(5)上記実施形態においては、検索単位
は必ず自動的に決まるよう説明しているが、これに限定
されるものではなく、ユーザが指定した検索単位で検索
できる機能を付加することもできる。
【0132】(6)上記実施形態においては、検索キー
保持部1510(2004)、検索結果保持部1512
(2006)をRAMで、被検索文書保持部1501
(1901)、セグメント保持部1503(190
3)、オブジェクト付被検索文書保持部1505(19
05)、セグメント単位インデックス保持部1507
(1907、2001)、文書単位インデックス保持部
1508(1908、2002)をディスク装置で実現
する場合について説明したが、これに限定されるもので
はなく、任意の記憶媒体を用いて実現してもよい。
【0133】(7)上記実施形態においては、各部を同
一の計算機上で構成する場合について説明したが、これ
に限定されるものではなく、ネットワーク上に分散した
計算機や処理処理などに分かれて各部を構成してもよ
い。
【0134】(8)上記実施形態においては、プログラ
ムをROMに保持する場合について説明したが、これに
限定されるものではなく、任意の記憶媒体を用いて実現
してもよい。また、同様の動作をする回路で実現しても
よい。
【0135】(9)上記実施形態においては、結果提示
部1514(2008)で提示結果を表示する場合につ
いて説明したが、これに限定されるものではなく、結果
提示部1514(2008)で提示結果を印刷出力する
ようにしてもよい。この場合は、上記図16の構成にプ
リンタを追加装備すればよい。
【0136】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器からなる装置に適用
してもよい。前述した実施形態の機能を実現するソフト
ウエアのプログラムコードを記憶した記憶媒体を、シス
テム或いは装置に供給し、そのシステム或いは装置のコ
ンピュータ(またはCPUやMPU)が記憶媒体に格納
されたプログラムコードを読み出し実行することによっ
ても、達成されることは言うまでもない。この場合、記
憶媒体から読み出されたプログラムコード自体が前述し
た実施形態の機能を実現することになり、そのプログラ
ムコードを記憶した記憶媒体は本発明を構成することに
なる。
【0137】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク、ハードディス
ク、光ディスク、光磁気ディスク、CD−ROM、CD
−R、磁気テープ、不揮発性のメモリカード、ROMな
どを用いることができる。
【0138】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOSなどが実
際の処理の一部または全部を行い、その処理によって前
述した実施形態の機能が実現される場合も含まれること
は言うまでもない。
【0139】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
CPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。
【0140】以上説明したように、セグメント単位イン
デックスと文書単位インデックスのうち適切な方を選択
し、選択したインデックスに基づき検索文字列に一致す
る文字列を検索し、検索結果を提示するため、細かい単
位の検索から始めて、検索結果の数に応じて検索の単位
を大きくしていくことで、複数の検索単位を自動的に使
い分ける文書検索を実現することができるという効果が
ある。
【0141】また、文書検索に必要なセグメント単位イ
ンデックス及び文書単位インデックスを作成し、作成し
たセグメント単位インデックス及び文書単位インデック
スを外部装置(文書検索装置)に供給することで、外部
装置(文書検索装置)で複数の検索単位を自動的に使い
分けることができるという効果がある。
【0142】また、文書検索方法を文書検索装置で実行
することにより、セグメント単位インデックスと文書単
位インデックスのうち適切な方を選択し、選択したイン
デックスに基づき検索文字列に一致する文字列を検索
し、検索結果を提示するため、細かい単位の検索から始
めて、検索結果の数に応じて検索の単位を大きくしてい
くことで、複数の検索単位を自動的に使い分ける文書検
索を実現することができるという効果がある。
【0143】また、インデックス作成方法をインデック
ス作成装置で実行することにより、文書検索に必要なセ
グメント単位インデックス及び文書単位インデックスを
作成し、作成したセグメント単位インデックス及び文書
単位インデックスを外部装置(文書検索装置)に供給す
ることで、外部装置(文書検索装置)で複数の検索単位
を自動的に使い分けることができるという効果がある。
【0144】また、記憶媒体から文書検索方法を読み出
して文書検索装置で実行することにより、セグメント単
位インデックスと文書単位インデックスのうち適切な方
を選択し、選択したインデックスに基づき検索文字列に
一致する文字列を検索し、検索結果を提示するため、細
かい単位の検索から始めて、検索結果の数に応じて検索
の単位を大きくしていくことで、複数の検索単位を自動
的に使い分ける文書検索を実現することができるという
効果がある。
【0145】また、記憶媒体からインデックス作成方法
を読み出してインデックス作成装置で実行することによ
り、文書検索に必要なセグメント単位インデックス及び
文書単位インデックスを作成し、作成したセグメント単
位インデックス及び文書単位インデックスを外部装置
(文書検索装置)に提供することで、外部装置(文書検
索装置)で複数の検索単位を自動的に使い分けることが
できるという効果がある。
【0146】(第8の実施形態)図23は本発明のテキ
スト検索装置の構成を示すブロック図である。
【0147】テキスト検索装置は、図23に示すよう
に、被検索文書を保持する被検索文書保持部2301
と、被検索文書保持部2301に保持されている被検索
文書をその内容に従ってページ単位で分割して検索対象
となるページを生成するページ生成部2302と、ペー
ジ生成部2302で生成されたページを保持するページ
保持部2304と、被検索文書をその内容に従ってセグ
メント単位で分割して検索対象となるセグメントを生成
するセグメント生成部2303と、セグメント生成部2
303で生成されたセグメントを保持するセグメント保
持部2305とを備える。ここで、例えば被検索文書が
HTML文書であるときには、特定の話題を構成する複
数のHTML文書群の内の一つのHTML文書ファイル
をページとして生成する。また、セグメントの生成にお
いては、HTMLのタグからレイアウト上での区切れ目
を判断したり、出現単語の推移から話題が転換している
箇所を同定したりすることにより、セグメントを生成す
る。
【0148】被検索文書保持部2301に保持されてい
る被検索文書、ページ保持部2304に保持されている
ページ、セグメント保持部2305に保持されているセ
グメントの各検索対象はインデックス作成部2306に
入力され、インデックス作成部2306は、入力された
各検索対象をそれぞれ表す文書単位インデックス、ペー
ジ単位インデックス、セグメント単位インデックスの各
検索用インデックスとして作成する。この作成された文
書単位インデックスは被検索文書とともに文書単位イン
デックス保持部2307に、ページ単位インデックスは
検索対象のページとともにページ単位インデックス保持
部2308に、セグメント単位インデックスは検索対象
のセグメントとともにセグメント単位インデックス保持
部2309にそれぞれ保持される。
【0149】文書単位インデックス保持部2307、ペ
ージ単位インデックス保持部2308、セグメント単位
インデックス保持部2309にそれぞれ保持された検索
対象は検索部2311に入力され、検索部2311は各
検索用インデックスがそれぞれ表す検索対象毎に、検索
キー保持部110に保持された検索文字列の検索を行
う。この検索により各検索用インデックスが表す検索対
象毎に得られた検索結果は検索結果保持部2312に保
持される。
【0150】検索結果保持部2312に保持された各検
索結果は表示結果生成部2313に入力され、表示結果
生成部2313は、表示単位指定部2315により指定
された表示単位に対応する検索対象の検索結果とともに
その表示単位を示す情報を表す表示情報を生成するとと
もに、表示単位を切り替えるための表示単位メニュー画
面情報を生成する。ここで、表示単位指定部115は、
検索結果の表示単位として文書単位、ページ単位、セグ
メント単位のいずれかを指定するための操作手段例えば
キーまたはマウスを有し、この操作手段の操作により表
示単位メニュー画面上で表示単位を指定することができ
る。表示結果生成部2313により生成された表示情報
は結果表示部2314に入力され、結果表示部2314
は入力された表示情報に基づき指定された表示単位に対
応する検索対象の検索結果およびその表示単位を示す情
報を表示するとともに、上記表示単位メニュー画面情報
に基づき表示単位メニュー画面を表示する。また、指定
された表示単位による検索結果の表示中に該指定された
表示単位と異なる他の表示単位が表示単位メニュー画面
上で指定されると、該指定された他の表示単位に対応す
る検索対象の検索結果の表示へ切り替えるように、他の
表示単位に対応する検索対象の検索結果およびその表示
単位を示す情報を表す表示情報が表示結果生成部231
3により生成され、この生成された表示情報が結果表示
部2314に表示される。
【0151】次に、本テキスト検索装置のハードウェア
構成について図24を参照しながら説明する。図24は
図23のテキスト検索装置のハードウェア構成を示すブ
ロック図である。
【0152】テキスト検索装置のハードウェア構成にお
いては、図24に示すように、ROM2401に格納さ
れているプログラムに従って対応する処理を実行する中
央処理装置2403と、中央処理装置2403の演算処
理の結果を一時的に保持するなどの作業領域を提供する
RAM2402と、ディスク装置2404とを備え、各
ブロックはバス2405を介して接続されている。ここ
で、ROM2401に格納されているプログラムには、
上述したページ生成部2402、セグメント生成部24
03、インデックス生成部2406、検索部2411、
表示結果生成部2413をそれぞれ構成するためのプロ
グラムモジュールが含まれている。また、結果表示部2
414は、CRTなどのディスプレイ(図示)により構
成され、表示単位指定部2415は、キーボード、マウ
ス(図示せず)などから構成される。
【0153】次に、本テキスト検索装置の処理動作につ
いて図25および図26を参照しながら説明する。図2
5は図23のテキスト検索装置におけるインデックス作
成処理の手順を示すフローチャート、図26は図23の
テキスト検索装置における検索処理の手順を示すフロー
チャートである。
【0154】テキスト検索装置におけるインデックス作
成処理では、ページのインデックス作成、セグメントの
インデックス作成、被検索文書のインデックス作成を並
行して行う。ページのインデックス作成では、図25
(a)に示すように、まずステップS2501において
被検索文書保持部2301に保持されている被検索文書
を読み出し、続くステップS2502で、ページ生成部
2302によりこの被検索文書をその内容に従ってペー
ジ単位で分割して検索対象となるページを生成し、生成
したページをページ保持部2304に保持する。
【0155】次いで、ステップS2503に進み、イン
デックス作成部2306により、ページ保持部2304
に保持されているページを読み出してページ単位インデ
ックスを作成する。そしてステップS2504で、この
ページ単位インデックスを検索対象のページとともにペ
ージ単位インデックス保持部2308に保存する。
【0156】セグメントのインデックス作成では、図2
5(b)に示すように、まずステップS2511におい
て被検索文書保持部2301に保持されている被検索文
書を読み出し、続くステップS2512で、セグメント
生成部2303によりこの被検索文書をその内容に従っ
てセグメント単位で分割して検索対象となるセグメント
を生成し、生成したセグメントをセグメント保持部23
05に保持する。
【0157】次いで、ステップS2513に進み、イン
デックス作成部2306により、セグメント保持部23
05に保持されているセグメントを読み出してセグメン
ト単位インデックスを作成する。そしてステップS25
14で、このセグメント単位インデックスを検索対象の
ページとともにセグメント単位インデックス保持部23
09に保存する。
【0158】被検索文書のインデックス作成では、図2
5(c)に示すように、まずステップS2521におい
て被検索文書保持部2301に保持されている被検索文
書を読み出し、続くステップS2522で、インデック
ス作成部2306により、文書単位インデックスを作成
する。そしてステップS2523で、この文書単位イン
デックスを被検索文書とともに文書単位インデックス保
持部2307に保存する。
【0159】このようにして各検索対象をそれぞれ表す
文書単位インデックス、ページ単位インデックス、セグ
メント単位インデックスの各検索用インデックスが作成
される。
【0160】なお、本説明では、ページのインデックス
作成、セグメントのインデックス作成、被検索文書のイ
ンデックス作成を並行して行う例を示したが、それぞれ
を順に行うようにしてもよい。
【0161】次いで、検索処理が行われる。この検索処
理では、図26に示すように、まずステップS2601
において文書単位インデックスを参照して文書単位での
検索を行う。すなわち、ここでは、検索キー保持部23
10に保持されている検索キーとなる文字列の検索を文
書単位インデックスが表す被検索文書に対して行い、そ
の検索結果を検索結果保持部2312に保存する。
【0162】次いで、ステップS2602に進み、ペー
ジ単位インデックスを参照してページ単位での検索を行
う。すなわち、検索キー保持部2310に保持されてい
る検索キーとなる文字列の検索をページ単位インデック
スが表すページに対して行い、その検索結果を検索結果
保持部2312に保存する。
【0163】続いてステップS2603に進み、セグメ
ント単位インデックスを参照してセグメント単位での検
索を行う。すなわち、検索キー保持部2310に保持さ
れている検索キーとなる文字列の検索をセグメント単位
インデックスが表すセグメントに対して行い、その検索
結果を検索結果保持部2312に保存する。
【0164】そして、ステップS2604においてユー
ザが本処理の終了を指定しているか否かの判定を行う。
ここで、ユーザが本処理の終了を指定しているときに
は、本処理を終了する。ユーザが本処理の終了を指定し
ていないときには、表示単位指定部2315を用いてユ
ーザが表示単位の指定を行っていると判断してステップ
S2605に進む。
【0165】ステップS2605では、表示単位として
文書単位を指定しているか否かの判定を行う。表示単位
として文書単位を指定していないときには、ステップS
2606に進み、表示単位としてページ単位を指定して
いるか否かの判定を行う。表示単位としてページ単位を
指定していないときには、ステップS2607に進み、
表示単位としてセグメント単位を指定しているか否かの
判定を行う。表示単位としてセグメント単位を指定して
いないときには、ユーザが表示単位を指定していないと
判断してステップS2611に進み、表示結果生成部2
313により、検索結果保持部2312からデフォルト
の表示単位の検索結果を読み出し、この検索結果とその
表示単位を示す情報とを含む表示結果を作成する。ここ
で、このデフォルトの表示単位としては、文書単位、ペ
ージ単位、セグメント単位のいずれの単位を設定しても
よい。
【0166】次いで、ステップS2612に進み、作成
された表示結果に含まれる検索結果(ここではデフォル
トの表示単位の検索結果)を結果表示部2314に表示
し、続くステップS413で、表示結果に含まれる表示
単位(ここではデフォルト)を結果表示部2314に表
示する。そして、ステップS2614に進み、他の表示
単位への切替のためのメニュー画面を検索結果の表示画
面上に表示する。このメニュー画面上でユーザが所望す
る表示単位を指定することができる。ここで、表示単位
が指定されると、上記ステップS2605,S260
6,S2607において指定された表示単位の判定が行
われる。
【0167】上記ステップS2605において表示単位
として文書単位を指定していると判定されたときには、
ステップS2608に進み、表示結果生成部2313に
より、検索結果保持部2312から文書単位の検索結果
を読み出し、この検索結果とその表示単位を示す情報と
を含む表示結果を作成する。次いで、ステップS261
2に進み、作成された表示結果に含まれる検索結果(こ
こでは文書単位の検索結果)を結果表示部2314に表
示し、続くステップS2613で、表示結果に含まれる
表示単位(ここでは文書単位)を結果表示部2314に
表示する。そして、ステップS2614に進み、他の表
示単位への切替のためのメニュー画面を検索結果の表示
画面上に表示する。
【0168】上記ステップS2606において表示単位
としてページ単位を指定していると判定されたときに
は、ステップS2609に進み、表示結果生成部231
3により、検索結果保持部2312からページ単位の検
索結果を読み出し、この検索結果とその表示単位を示す
情報とを含む表示結果を作成する。次いで、ステップS
2612に進み、作成された表示結果に含まれる検索結
果(ここではページ単位の検索結果)を結果表示部23
14に表示し、続くステップS2613で、表示結果に
含まれる表示単位(ここではページ単位)を結果表示部
2314に表示する。そして、ステップS2614に進
み、他の表示単位への切替のためのメニュー画面を検索
結果の表示画面上に表示する。
【0169】上記ステップS2607において表示単位
としてセグメント単位を指定していると判定されたとき
には、ステップS2610に進み、表示結果生成部23
13により、検索結果保持部2312からセグメント単
位の検索結果を読み出し、この検索結果とその表示単位
を示す情報とを含む表示結果を作成する。次いで、ステ
ップS2612に進み、作成された表示結果に含まれる
検索結果(ここではセグメント単位の検索結果)を結果
表示部2314に表示し、続くステップS2613で、
表示結果に含まれる表示単位(ここではセグメント単
位)を結果表示部2314に表示する。そして、ステッ
プS2614に進み、他の表示単位への切替のためのメ
ニュー画面を検索結果の表示画面上に表示する。
【0170】このように、本実施の形態では、複数の検
索単位で検索を行い、各検索単位での検索結果の表示を
ユーザの指定により切り替えるから、意図する検索結果
を容易に得ることができる。
【0171】(第9の実施形態)次に、本発明の第9の
実施形態について図27を参照しながら説明する。
【0172】図27は本発明のテキスト検索装置の実施
の第2形態の構成を示すブロック図である。
【0173】テキスト検索装置は、図27に示すよう
に、被検索文書を保持する被検索文書保持部2701
と、被検索文書保持部2701に保持されている被検索
文書をその内容に従ってページ単位で分割して検索対象
となるページを生成するページ生成部2702と、ペー
ジ生成部502で生成されたページを保持するページ保
持部2704と、被検索文書をその内容に従ってセグメ
ント単位で分割して検索対象となるセグメントを生成す
るセグメント生成部2703と、セグメント生成部27
03で生成されたセグメントを保持するセグメント保持
部2705とを備える。
【0174】被検索文書保持部2701に保持されてい
る被検索文書、ページ保持部2704に保持されている
ページ、セグメント保持部2705に保持されているセ
グメントの各検索対象はインデックス作成部2706に
入力され、インデックス作成部2706は、入力された
各検索対象をそれぞれ表す文書単位インデックス、ペー
ジ単位インデックス、セグメント単位インデックスの各
検索用インデックスとして作成する。この作成された文
書単位インデックスは被検索文書とともに文書単位イン
デックス保持部2707に、ページ単位インデックスは
検索対象のページとともにページ単位インデックス保持
部508に、セグメント単位インデックスは検索対象の
セグメントとともにセグメント単位インデックス保持部
2709にそれぞれ保持される。
【0175】文書単位インデックス保持部2707、ペ
ージ単位インデックス保持部2708、セグメント単位
インデックス保持部2709にそれぞれ保持された検索
対象は、検索単位切替部2711により切り替えられて
読み出される。具体的には、検索単位指定部27516
から指定された検索単位の検索対象が対応する保持部か
ら読み出され、読み出された検索対象は検索部512に
入力される。検索部2712は入力された検索対象に対
して、検索キー保持部2710に保持された検索文字列
の検索を行い、この検索結果は検索結果保持部2713
に保持される。ここで、検索単位指定部2716は、検
索対象の検索単位として文書単位、ページ単位、セグメ
ント単位のいずれかを指定するための操作手段例えばキ
ーまたはマウスを有し、この操作手段の操作により検索
単位メニュー画面上で検索単位を指定することができ
る。
【0176】検索結果保持部2713に保持された検索
結果は表示結果生成部2714に入力され、表示結果生
成部2714は、検索対象の検索結果とともにその検索
単位を示す情報を表す表示情報を生成するとともに、検
索単位を切り替えるための検索単位メニュー画面情報を
生成する。表示結果生成部2714により生成された表
示情報は結果表示部2715に入力され、結果表示部2
715は入力された表示情報に基づき指定された検索単
位に対応する検索対象の検索結果およびその検索単位を
示す情報を表示するとともに、上記検索単位メニュー画
面情報に基づき検索単位メニュー画面を表示する。ま
た、指定された検索単位による検索結果の表示中に該指
定された検索単位と異なる他の検索単位が検索単位メニ
ュー画面上で指定されると、該指定された他の検索単位
に対応する検索対象の検索を行い、その検索結果の表示
へ切り替えるように、他の表示単位の検索対象の検索結
果およびその検索単位を示す情報を表す表示情報が表示
結果生成部2714により生成され、この生成された表
示情報が結果表示部2715に表示される。
【0177】このように、本実施の形態では、検索単位
が指定される毎に、その検索単位の検索対象に対する検
索を行い、その検索結果を表示するから、ユーザが所望
する検索単位の検索を簡単に切り替えて行うことがで
き、意図する検索結果を容易に得ることができる。
【0178】(第10の実施形態)次に、本発明の第1
0の実施形態について図28および図29を参照しなが
ら説明する。図28は本発明のテキスト検索装置の第1
0の実施形態に検索対象を供給するデータベース作成装
置の構成を示すブロック図、図29は図28のデータベ
ース作成装置から供給される被検索対象を用いて検索を
行うテキスト検索装置の構成を示すブロック図である。
【0179】本実施の形態は、上述の実施の第8および
第9形態がインデックス作成処理と検索処理とを1つの
装置で行うように構成しているの対し、インデックス作
成処理を行うデータベース作成装置から供給された検索
対象に対して検索処理を行う点で異なる。
【0180】データベース作成装置は、図28に示すよ
うに、被検索文書を保持する被検索文書保持部2801
と、被検索文書保持部2801に保持されている被検索
文書をその内容に従ってページ単位で分割して検索対象
となるページを生成するページ生成部2802と、ペー
ジ生成部2802で生成されたページを保持するページ
保持部2804と、被検索文書をその内容に従ってセグ
メント単位で分割して検索対象となるセグメントを生成
するセグメント生成部2803と、セグメント生成部2
803で生成されたセグメントを保持するセグメント保
持部2805とを備える。
【0181】被検索文書保持部2801に保持されてい
る被検索文書、ページ保持部2804に保持されている
ページ、セグメント保持部2805に保持されているセ
グメントの各検索対象はインデックス作成部2806に
入力され、インデックス作成部2806は、入力された
各検索対象をそれぞれ表す文書単位インデックス、ペー
ジ単位インデックス、セグメント単位インデックスの各
検索用インデックスとして作成する。この作成された文
書単位インデックスは被検索文書とともに文書単位イン
デックス保持部2807に、ページ単位インデックスは
検索対象のページとともにページ単位インデックス保持
部2808に、セグメント単位インデックスは検索対象
のセグメントとともにセグメント単位インデックス保持
部2809にそれぞれ保持される。
【0182】文書単位インデックス保持部2807、ペ
ージ単位インデックス保持部2808、セグメント単位
インデックス保持部2809にそれぞれ保持された検索
対象は、通信ケーブル、可搬記憶媒体などを介してテキ
スト検索装置に供給される。
【0183】テキスト検索装置は、図29に示すよう
に、データベース作成装置から供給された文書単位イン
デックスおよび被検索文書を保持する文書単位インデッ
クス保持部2901と、ページ単位インデックスおよび
検索対象のページを保持するページ単位インデックス保
持部2902と、セグメント単位インデックスおよび検
索対象のセグメントを保持するセグメント単位インデッ
クス保持部2903とを備える。
【0184】文書単位インデックス保持部2901、ペ
ージ単位インデックス保持部2902、セグメント単位
インデックス保持部2903にそれぞれ保持された検索
対象は検索部2905に入力され、検索部2905は各
検索用インデックスがそれぞれ表す検索対象毎に、検索
キー保持部2904に保持された検索文字列の検索を行
う。この検索により各検索用インデックスが表す検索対
象毎に得られた検索結果は、検索結果保持部2906に
保持される。
【0185】検索結果保持部2906に保持された各検
索結果は表示結果生成部2907に入力され、表示結果
生成部2907は、表示単位指定部2909により指定
された表示単位に対応する検索対象の検索結果とともに
その表示単位を示す情報を表す表示情報を生成するとと
もに、表示単位を切り替えるための表示単位メニュー画
面情報を生成する。ここで、表示単位指定部709は、
検索結果の表示単位として文書単位、ページ単位、セグ
メント単位のいずれかを指定するための操作手段例えば
キーまたはマウスを有し、この操作手段の操作により表
示単位メニュー画面上で表示単位を指定することができ
る。
【0186】表示結果生成部2907により生成された
表示情報は結果表示部2908に入力され、結果表示部
2908は入力された表示情報に基づき指定された表示
単位に対応する検索対象の検索結果およびその表示単位
を示す情報を表示するとともに、上記表示単位メニュー
画面情報に基づき表示単位メニュー画面を表示する。ま
た、指定された表示単位による検索結果の表示中に該指
定された表示単位と異なる他の表示単位が表示単位メニ
ュー画面上で指定されると、該指定された他の表示単位
に対応する検索対象の検索結果の表示へ切り替えるよう
に、他の表示単位に対応する検索対象の検索結果および
その表示単位を示す情報を表す表示情報が表示結果生成
部2907により生成され、この生成された表示情報が
結果表示部2908に表示される。
【0187】なお、上記各実施の形態では、検索単位と
して文書単位、ページ単位、セグメント単位の例を説明
したが、これに限定されることはなく、他の検索単位を
設定してもよい。
【0188】また、上記各実施の形態では、各検索単位
毎にその検索用インデックスを作成しているが、検索単
位情報を付加した1つのインデックスを作成し、この検
索単位情報を利用してインデックスから対応する検索対
象を抽出るように構成することも可能である。
【0189】さらに、上記各実施の形態では、検索単位
の切替にメニュー画面を用いているが、そのユーザイン
タフェースを用いることも可能である。例えば、アイコ
ンなどを表示して切替を行うように構成することができ
る。
【0190】さらに、上記各実施の形態では、被検索文
書がHTML文書である場合にそのページ分割方法、セ
グメント分割方法について示したが、この分割方法に限
定されることはなく、任意の分割方式、例えば自然言語
処理に基づく分割方式を用いてもよい。また、被検索文
書が他の文書例えばワードプロセッサなどで作成された
文書に適用することもできる。
【0191】さらに、上記各実施の形態では、現在表示
されている検索結果の検索単位を示す情報を表示するよ
うに構成しているが、これに代えて、検索結果の表示形
態を変えることにより検索単位を表すように構成するこ
とも可能である。例えば、検索結果の表示色を変えるな
どにより検索単位を表すように構成することが可能であ
る。
【0192】さらに、上記実施の第1および第2形態で
は、各ブロックを同一の装置上で構成した例を示した
が、ネットワーク上に分散したコンピュータや処理装置
を用いて各部を構成することも可能である。
【0193】さらに、上記各実施の形態では、各ブロッ
クを構成するためのプログラムをROMに格納している
が、これに代えて他の記憶媒体に格納してもよい。例え
ば、ハードディスク装置などに上記プログラムを格納
し、このプログラムを読み出して実行するように構成す
ることもできる。また、CDROM、MO、FD、メモ
リカードなどの記憶媒体から上記プログラムを供給する
ように構成してよい。また、各ブロックに対応する処理
を実行するハードウェア回路で構成するようにしてもよ
い。
【図面の簡単な説明】
【図1】本発明の実施形態に係るテキスト検索装置の機
能構成を示すブロック図である。
【図2】本発明の実施形態におけるHTML文書の分割
箇所の例を示す図である。
【図3】本発明の実施形態における被検索文書の例を示
す図である。
【図4】本発明の実施形態における図3のHTML文書
から生成した第1次セグメントの例を示す図である。
【図5】本発明の実施形態におけるイメージと隣接する
セグメントとの関連度の規則の例を示す図である。
【図6】本発明の実施形態における図3のHTML文書
から生成した第2次セグメントの例を示す図である。
【図7】本発明の実施形態における図3のHTML文書
から生成した第3次セグメントの例を示す図である。
【図8】本発明の実施形態に係るテキスト検索装置のハ
ードウエア構成を示すブロック図である。
【図9】本発明の実施形態におけるインデックス作成フ
ェーズの概要を示すフローチャートである。
【図10】本発明の実施形態における検索フェーズの概
要を示すフローチャートである。
【図11】本発明の第2の実施形態の基本構成を示すブ
ロック図である。
【図12】本発明の第2の実施形態の基本構成を示すブ
ロック図である。
【図13】本発明の第3の実施形態の基本構成を示すブ
ロック図である。
【図14】本発明の第4の実施形態の基本構成を示すブ
ロック図である。
【図15】本発明の第5の実施の形態に係るテキスト検
索装置の構成を示す機能ブロック図である。
【図16】本発明の第5の実施の形態に係るテキスト検
索装置のハードウエア構成を示すブロック図である。
【図17】本発明の第5の実施の形態に係るインデック
ス作成フェーズの概要を示すフローチャートである。
【図18】本発明の第5の実施の形態に係る検索フェー
ズの概要を示すフローチャートである。
【図19】本発明の第6の実施の形態に係るインデック
ス作成装置の構成を示す機能ブロック図である。
【図20】本発明の第7の実施の形態に係るテキスト検
索装置の構成を示す機能ブロック図である。
【図21】本発明のプログラム及び関連データを記憶し
た記憶媒体の記憶内容の構成例を示す説明図である。
【図22】本発明のプログラム及び関連データが記憶媒
体から装置に供給される概念例を示す説明図である。
【図23】本発明のテキスト検索装置の構成を示すブロ
ック図である。
【図24】図23のテキスト検索装置のハードウェア構
成を示すブロック図である。
【図25】図23のテキスト検索装置におけるインデッ
クス作成処理の手順を示すフローチャートである。
【図26】図23のテキスト検索装置における検索処理
の手順を示すフローチャートである。
【図27】本発明のテキスト検索装置の第9の実施の形
態の構成を示すブロック図である。
【図28】本発明のテキスト検索装置の第10の実施の
形態に検索対象を供給するデータベース作成装置の構成
を示すブロック図である。
【図29】図28のデータベース作成装置から供給され
る被検索対象を用いて検索を行うテキスト検索装置の構
成を示すブロック図である。
【符号の説明】
101 被検索文書保持部 102 HTML文書分割部 103 第1次セグメント保持部 104 イメージ処理部 105 第2次セグメント保持部 106 見出し処理部 107 第3次セグメント保持部 108 結束性処理部 109 被検索セグメント保持部 110 インデックス作成部 111 インデックス保持部 112 補助インデックス保持部 113 検索キー保持部 114 検索部 115 ランキング結果保持部 116 補助検索部 117 補助ランキング結果保持部 118 ランキング結果統合部 119 検索結果保持部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上田 隆也 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内

Claims (89)

    【特許請求の範囲】
  1. 【請求項1】 文書中に、当該文書を処理する装置がコ
    マンドとして解釈可能な文字が含まれる被検索文書の検
    索用インデックスを作成するインデックス作成装置であ
    って、前記被検索文書を保持する被検索文書保持手段
    と、該被検索文書保持手段に保持されている前記被検索
    文書から、前記コマンドとして解釈可能な文字に応じて
    第1次セグメントを抽出する文書分割手段と、前記第1
    次セグメントをその関連性に応じて統合し、第2次セグ
    メントとする結束性処理手段と、前記第2次セグメント
    のそれぞれについて前記検索用インデックスを作成する
    インデックス作成手段と、を有することを特徴とするイ
    ンデックス作成装置。
  2. 【請求項2】 前記結束性処理手段が、前記被検索文書
    に画像データが含まれる場合、当該画像データと前後の
    文書との関連度を示す第1の関連度を判別し、この第1
    の関連度に応じて前記画像データと前及び/又は後ろの
    前記第1次セグメントを併合する併合処理を行う画像デ
    ータ処理部を有し、併合処理後の前記第1次セグメント
    を用いて前記第2次セグメントへの統合処理を行うこと
    を特徴とする請求項1記載のインデックス作成装置。
  3. 【請求項3】 前記結束性処理手段が、前記第1次セグ
    メントから前記被検索文書の見出しを含むセグメントを
    検出し、同じ見出しに含まれる前記第1次セグメントに
    対して前記見出しに関する情報を付加する見出し処理手
    段を有することを特徴とする請求項1記載のインデック
    ス作成装置。
  4. 【請求項4】 前記結束性処理手段が、前記第1次セグ
    メントを所定の文字で所定単位に分割し、前記所定単位
    相互の関連度を示す第2の関連度を検出して所定の前記
    第2の関連度を有する隣接する所定単位を併合して前記
    第2次セグメントとする分割併合手段を有することを特
    徴とする請求項1記載のインデックス作成装置。
  5. 【請求項5】 前記画像データ処理部が、前記画像デー
    タが併合された前記第1次セグメントに、併合された前
    記画像データ及び前記第1の関連度に関する情報を付加
    することを特徴とする請求項2記載のインデックス作成
    装置。
  6. 【請求項6】 前記インデックス作成手段が、前記第2
    次セグメントの前記見出し情報及び、前記第2次セグメ
    ントの前記見出しに関する情報以外の部分に対して別個
    に前記検索用インデックスを作成することを特徴とする
    請求項3記載のインデックス作成装置。
  7. 【請求項7】 被検索文書の集合から、与えられたキー
    に関係する文書を検索する文書検索装置であって、前記
    被検索文書のそれぞれについて、検索用インデックス集
    合が複数与えられており、前記キーを用いて前記複数の
    インデックス集合のそれぞれを検索し、それぞれの検索
    結果に所定の重み付けをして合成した結果を基に、前記
    キーに対する前記被検索文書の関連度を決定する検索手
    段と、前記関連度が所定の条件を満たす前記被検索文書
    を最終検索結果として保持する最終検索結果保持手段
    と、を有することを特徴とする文書検索装置。
  8. 【請求項8】 前記複数のインデックス集合が請求項6
    記載の検索用インデックスであり、前記被検索文書が前
    記第2次セグメントであることを特徴とする請求項7記
    載の文書検索装置。
  9. 【請求項9】 文書中に、当該文書を処理する装置がコ
    マンドとして解釈可能な文字が含まれる被検索文書の検
    索用インデックスを生成するインデックス生成部と、被
    検索文書の集合から、与えられたキーに関係する文書を
    検索する検索部とから構成される文書検索システムであ
    って、前記インデックス生成部が、前記被検索文書を保
    持する被検索文書保持手段と、該被検索文書保持手段に
    保持されている前記被検索文書から前記文字に応じて第
    1次セグメントを抽出する文書分割手段と、前記第1次
    セグメントをその関連性に応じて統合し、第2次セグメ
    ントとする結束性処理手段と、前記第2次セグメントの
    それぞれ及び前記見出しに関する情報に対して前記検索
    用インデックス前記検索用インデックスを生成するイン
    デックス生成手段とから構成され、前記検索部が、前記
    キーを用いて前記検索用インデックスを検索し、前記キ
    ーに対する前記被検索文書の関連度を決定する検索手段
    と、前記関連度が所定の条件を満たす前記被検索文書を
    最終検索結果として保持する最終検索結果保持手段とか
    ら構成されることを特徴とする文書検索システム。
  10. 【請求項10】 前記結束性処理手段が、前記被検索文
    書に画像データが含まれる場合、当該画像データと前後
    の文書との関連度を示す第1の関連度を判別し、この第
    1の関連度に応じて前記画像データと前及び/又は後ろ
    の前記第1次セグメントを併合する併合処理を行う画像
    データ処理部を有し、併合処理後の前記第1次セグメン
    トを用いて前記第2次セグメントへの統合処理を行うこ
    とを特徴とする請求項9記載の文書検索システム。
  11. 【請求項11】 前記結束性処理手段が、前記第1次セ
    グメントから前記被検索文書の見出しを含むセグメント
    を検出し、同じ見出しに含まれる前記第1次セグメント
    に対して前記見出しに関する情報を付加する見出し処理
    手段を有することを特徴とする請求項9記載の文書検索
    システム。
  12. 【請求項12】 前記結束性処理手段が、前記第1次セ
    グメントを所定の文字で所定単位に分割し、前記所定単
    位相互の関連度を示す第2の関連度を検出して所定の前
    記第2の関連度を有する隣接する所定単位を併合して前
    記第2次セグメントとする分割併合手段を有することを
    特徴とする請求項9記載の文書検索システム。
  13. 【請求項13】 前記画像データ処理部が、前記画像デ
    ータが併合された前記第1次セグメントに、併合された
    前記画像データ及び前記第1の関連度に関する情報を付
    加することを特徴とする請求項10記載の文書検索シス
    テム。
  14. 【請求項14】 前記結束性処理手段が、前記第1次セ
    グメントから前記被検索文書の見出しを含むセグメント
    を検出し、同じ見出しに含まれる前記第1次セグメント
    に対して前記見出しに関する情報を付加する見出し処理
    手段を有し、前記インデックス生成手段が、前記第2次
    セグメントの前記見出し情報及び、前記第2次セグメン
    トの前記見出しに関する情報以外の部分に対して個別の
    前記検索用インデックスを生成するとともに、前記検索
    部が、前記キーを用いて前記個別の検索用インデックス
    を検索し、それぞれの検索結果に所定の重み付けをして
    合成した結果を基に、前記キーに対する前記被検索文書
    の関連度を決定する検索手段と、前記関連度が所定の条
    件を満たす前記被検索文書を最終検索結果として保持す
    る最終検索結果保持手段とを有することを特徴とする請
    求項10記載の文書検索システム。
  15. 【請求項15】 文書中に、当該文書を処理する方法が
    コマンドとして解釈可能な文字が含まれる被検索文書の
    検索用インデックスを生成するインデックス作成方法で
    あって、前記被検索文書を記憶手段に保持する被検索文
    書保持ステップと、前記記憶手段に保持されている前記
    被検索文書から、前記コマンドとして解釈可能な文字に
    応じて第1次セグメントを抽出する文書分割ステップ
    と、前記第1次セグメントをその関連性に応じて統合
    し、第2次セグメントとする結束性処理ステップと、前
    記第2次セグメントのそれぞれについて前記検索用イン
    デックスを生成するインデックス生成ステップとを有す
    ることを特徴とするインデックス作成方法。
  16. 【請求項16】 前記結束性処理ステップが、前記被検
    索文書に画像データが含まれる場合、当該画像データと
    前後の文書との関連度を示す第1の関連度を判別し、こ
    の第1の関連度に応じて前記画像データと前及び/又は
    後ろの前記第1次セグメントを併合する併合処理を行う
    画像データ処理ステップを有し、併合処理後の前記第1
    次セグメントを用いて前記第2次セグメントへの統合処
    理を行うことを特徴とする請求項15記載のインデック
    ス作成方法。
  17. 【請求項17】 前記結束性処理ステップが、前記第1
    次セグメントから前記被検索文書の見出しを含むセグメ
    ントを検出し、同じ見出しに含まれる前記第1次セグメ
    ントに対して前記見出しに関する情報を付加する見出し
    処理ステップを有することを特徴とする請求項15記載
    のインデックス作成方法。
  18. 【請求項18】 前記結束性処理ステップが、前記第1
    次セグメントを所定の文字で所定単位に分割し、前記所
    定単位相互の関連度を示す第2の関連度を検出して所定
    の前記第2の関連度を有する隣接する所定単位を併合し
    て前記第2次セグメントとする分割併合ステップを有す
    ることを特徴とする請求項15記載のインデックス作成
    方法。
  19. 【請求項19】 前記画像データ処理ステップが、前記
    画像データが併合された前記第1次セグメントに、併合
    された前記画像データ及び前記第1の関連度に関する情
    報を付加することを特徴とする請求項16記載のインデ
    ックス作成方法。
  20. 【請求項20】 前記インデックス生成ステップが、前
    記第2次セグメントの前記見出し情報及び、前記第2次
    セグメントの前記見出しに関する情報以外の部分に対し
    て別個に前記検索用インデックスを生成することを特徴
    とする請求項17記載のインデックス作成方法。
  21. 【請求項21】 被検索文書の集合から、与えられたキ
    ーに関係する文書を検索する検索方法であって、前記被
    検索文書のそれぞれについて、検索用インデックス集合
    が複数与えられており、前記キーを用いて前記複数のイ
    ンデックス集合のそれぞれを検索し、それぞれの検索結
    果に所定の重み付けをして合成した結果を基に、前記キ
    ーに対する前記被検索文書の関連度を決定する検索ステ
    ップと、前記関連度が所定の条件を満たす前記被検索文
    書を最終検索結果として保持する最終検索結果保持ステ
    ップとを有することを特徴とする文書検索方法。
  22. 【請求項22】 前記複数のインデックス集合が請求項
    20記載の検索用インデックスであり、前記被検索文書
    が前記第2次セグメントであることを特徴とする請求項
    21記載の文書検索方法。
  23. 【請求項23】 文書中に、当該文書を処理する装置が
    コマンドとして解釈可能な文字が含まれる被検索文書の
    検索用インデックスを生成するインデックス作成のプロ
    グラムコードを格納した記憶媒体であって、前記被検索
    文書を保持する被検索文書保持工程のプログラムコード
    と、該被検索文書保持工程により保持されている前記被
    検索文書から、前記文字に応じて第1次セグメントを抽
    出する文書分割工程のプログラムコードと、前記第1次
    セグメントをその関連性に応じて統合し、第2次セグメ
    ントとする結束性処理工程のプログラムコードと、前記
    第2次セグメントのそれぞれについて前記検索用インデ
    ックスを生成するインデックス生成工程のプログラムコ
    ードとを有することを特徴とする記憶媒体。
  24. 【請求項24】 被検索文書の集合から、与えられたキ
    ーに関係する文書を検索する検索プログラムコードを格
    納した記憶媒体であって、前記被検索文書のそれぞれに
    ついて、検索用インデックス集合が複数与えられてお
    り、前記キーを用いて前記複数のインデックス集合のそ
    れぞれを検索し、それぞれの検索結果に所定の重み付け
    をして合成した結果を基に、前記キーに対する前記被検
    索文書の関連度を決定する検索工程のプログラムコード
    と、前記関連度が所定の条件を満たす前記被検索文書を
    最終検索結果として保持する最終検索結果保持工程のプ
    ログラムコードとを有することを特徴とする記憶媒体。
  25. 【請求項25】 文書中に、当該文書を処理する装置が
    コマンドとして解釈可能な文字が含まれる被検索文書の
    検索用インデックスを生成するインデックス生成処理
    と、被検索文書の集合から、与えられたキーに関係する
    文書を検索する検索処理とを行う検索システムのプログ
    ラムコードを格納した記憶媒体であって、前記インデッ
    クス生成処理を構成する、前記被検索文書を保持する被
    検索文書保持工程のプログラムコードと、該被検索文書
    保持工程によって保持されている前記被検索文書から、
    前記文字に応じて第1次セグメントを抽出する文書分割
    工程のプログラムコードと、前記第1次セグメントをそ
    の関連性に応じて統合し、第2次セグメントとする結束
    性処理工程のプログラムコードと、前記第2次セグメン
    トのそれぞれについて前記検索用インデックスを生成す
    るインデックス生成工程と、前記検索処理を構成する、
    前記キーを用いて前記検索用インデックスを検索し、前
    記キーに対する前記被検索文書の関連度を決定する検索
    工程のプログラムコードと、前記関連度が所定の条件を
    満たす前記被検索文書を最終検索結果として保持する最
    終検索結果保持工程のプログラムコードとを有すること
    を特徴とする記憶媒体。
  26. 【請求項26】 複数の文書から所望の文書を検索する
    文書検索装置であって、被検索文書を内容に基づきセグ
    メントに分割するセグメント生成手段と、被検索文書の
    オブジェクトを同定するオブジェクト同定手段と、前記
    セグメント生成手段で生成されたセグメント及び前記オ
    ブジェクト同定手段で同定されたオブジェクトが付加さ
    れたオブジェクト付被検索文書に基づき検索用インデッ
    クスを作成するインデックス作成手段と、該インデック
    ス作成手段で前記セグメントから作成されたセグメント
    単位インデックスと前記オブジェクト付被検索文書から
    作成された文書単位インデックスのうち適切な方を選択
    する検索単位切替手段と、該検索単位切替手段で選択さ
    れたインデックスに基づき検索文字列に一致する文字列
    を検索する検索手段とを有することを特徴とする文書検
    索装置。
  27. 【請求項27】 更に、前記検索手段で検索された検索
    結果の数を判定し前記検索単位切替手段に対する検索単
    位の切替指示や提示対象検索結果の生成を行う提示結果
    生成手段と、該提示結果生成手段で生成された提示結果
    を出力する結果提示手段とを有することを特徴とする請
    求項26記載の文書検索装置。
  28. 【請求項28】 更に、被検索文書を保持する被検索文
    書保持手段と、前記セグメント生成手段で生成されたセ
    グメントを保持するセグメント保持手段と、前記オブジ
    ェクト同定手段で同定されたオブジェクトを被検索文書
    と共に保持するオブジェクト付被検索文書保持手段と、
    前記セグメント保持手段に保持されたセグメントに基づ
    き前記インデックス作成手段で作成された検索用インデ
    ックスを保持するセグメント単位インデックス保持手段
    と、前記オブジェクト付被検索文書保持手段に保持され
    たオブジェクト付被検索文書に基づき前記インデックス
    作成手段で作成された検索用インデックスを保持する文
    書単位インデックス保持手段と、検索を行う文字列を保
    持する検索キー保持手段と、前記検索手段で検索された
    検索結果を保持する検索結果保持手段とを有することを
    特徴とする請求項26記載の文書検索装置。
  29. 【請求項29】 文書検索用のインデックスを作成する
    インデックス作成装置であって、被検索文書を内容に基
    づきセグメントに分割するセグメント生成手段と、被検
    索文書のオブジェクトを同定するオブジェクト同定手段
    と、前記セグメント生成手段で生成されたセグメント及
    び前記オブジェクト同定手段で同定されたオブジェクト
    が付加されたオブジェクト付被検索文書に基づき検索用
    インデックスを作成するインデックス作成手段とを有す
    ることを特徴とするインデックス作成装置。
  30. 【請求項30】 更に、被検索文書を保持する被検索文
    書保持手段と、前記セグメント生成手段で生成されたセ
    グメントを保持するセグメント保持手段と、前記オブジ
    ェクト同定手段で同定されたオブジェクトを被検索文書
    と共に保持するオブジェクト付被検索文書保持手段と、
    前記セグメント保持手段に保持されたセグメントに基づ
    き前記インデックス作成手段で作成された検索用インデ
    ックスを保持するセグメント単位インデックス保持手段
    と、前記オブジェクト付被検索文書保持手段に保持され
    たオブジェクト付被検索文書に基づき前記インデックス
    作成手段で作成された検索用インデックスを保持する文
    書単位インデックス保持手段とを有することを特徴とす
    る請求項29記載のインデックス作成装置。
  31. 【請求項31】 前記セグメント単位インデックス保持
    手段に保持された検索用インデックス及び前記文書単位
    インデックス保持手段に保持された検索用インデックス
    は、通信回線或いは可搬記録媒体を介して外部装置に供
    給可能であることを特徴とする請求項30記載のインデ
    ックス作成装置。
  32. 【請求項32】 複数の文書から所望の文書を検索する
    文書検索装置であって、セグメント単位インデックスと
    文書単位インデックスのうち適切な方を選択する検索単
    位切替手段と、該検索単位切替手段で選択されたインデ
    ックスに基づき検索文字列に一致する文字列を検索する
    検索手段と、を有することを特徴とする文書検索装置。
  33. 【請求項33】 更に、前記検索手段で検索された検索
    結果の数を判定し前記検索単位切替手段に対する検索単
    位の切替指示や提示対象検索結果の生成を行う提示結果
    生成手段と、該提示結果生成手段で生成された提示結果
    を出力する結果提示手段とを有することを特徴とする請
    求項32記載の文書検索装置。
  34. 【請求項34】 更に、外部装置から供給されたセグメ
    ント単位インデックスを保持するセグメント単位インデ
    ックス保持手段と、外部装置から供給された文書単位イ
    ンデックスを保持する文書単位インデックス保持手段
    と、検索を行う文字列を保持する検索キー保持手段と、
    前記検索手段で検索された検索結果を保持する検索結果
    保持手段とを有することを特徴とする請求項32記載の
    文書検索装置。
  35. 【請求項35】 前記提示結果生成手段は、セグメント
    単位インデックスの検索結果数が閾値を越えた場合は前
    記検索単位切替手段に文書単位インデックスに切替える
    よう指令し、セグメント単位インデックスの検索結果数
    が閾値を越えない場合はセグメント単位の検索結果を提
    示結果とし、文書単位インデックスの検索結果数が閾値
    を越えた場合は検索結果をオブジェクト毎にまとめて提
    示結果を生成し、文書単位インデックスの検索結果数が
    閾値を越えない場合は文書単位の検索結果を提示結果と
    することを特徴とする請求項27記載の文書検索装置。
  36. 【請求項36】 様々な単位のインデックスを用意して
    それらを切り替えて使用することが可能であることを特
    徴とする請求項26記載の文書検索装置。
  37. 【請求項37】 セグメントのオブジェクトも同定して
    セグメント単位の検索結果数に応じてオブジェクトを用
    いた提示情報の生成が可能であることを特徴とする請求
    項26記載の文書検索装置。
  38. 【請求項38】 オブジェクト同定を行わずに複数の単
    位のインデックスを切替えて検索することが可能である
    ことを特徴とする請求項26記載の文書検索装置。
  39. 【請求項39】 検索単位は外部入力で指定可能である
    ことを特徴とする請求項26記載の文書検索装置。
  40. 【請求項40】 前記各手段はネットワーク上の外部装
    置に分散可能であることを特徴とする請求項26記載の
    文書検索装置。
  41. 【請求項41】 前記各手段はネットワーク上の外部装
    置に分散可能であることを特徴とする請求項29記載の
    インデックス作成装置。
  42. 【請求項42】 複数の文書から所望の文書を検索する
    文書検索装置に適用される文書検索方法であって、被検
    索文書を内容に基づきセグメントに分割するセグメント
    生成ステップと、被検索文書のオブジェクトを同定する
    オブジェクト同定ステップと、前記セグメント生成ステ
    ップで生成されたセグメント及び前記オブジェクト同定
    ステップで同定されたオブジェクトが付加されたオブジ
    ェクト付被検索文書に基づき検索用インデックスを作成
    するインデックス作成ステップと、該インデックス作成
    ステップで前記セグメントから作成されたセグメント単
    位インデックスと前記オブジェクト付被検索文書から作
    成された文書単位インデックスのうち適切な方を選択す
    る検索単位切替ステップと、該検索単位切替ステップで
    選択されたインデックスに基づき検索文字列に一致する
    文字列を検索する検索ステップとを有することを特徴と
    する文書検索方法。
  43. 【請求項43】 更に、前記検索ステップで検索された
    検索結果の数を判定し前記検索単位切替ステップに対す
    る検索単位の切替指示や提示対象検索結果の生成を行う
    提示結果生成ステップと、該提示結果生成ステップで生
    成された提示結果を出力する結果提示ステップとを有す
    ることを特徴とする請求項42記載の文書検索方法。
  44. 【請求項44】 更に、被検索文書を保持する被検索文
    書保持ステップと、前記セグメント生成ステップで生成
    されたセグメントを保持するセグメント保持ステップ
    と、前記オブジェクト同定ステップで同定されたオブジ
    ェクトを被検索文書と共に保持するオブジェクト付被検
    索文書保持ステップと、前記セグメント保持ステップで
    保持されたセグメントに基づき前記インデックス作成ス
    テップで作成された検索用インデックスを保持するセグ
    メント単位インデックス保持ステップと、前記オブジェ
    クト付被検索文書保持ステップで保持されたオブジェク
    ト付被検索文書に基づき前記インデックス作成ステップ
    で作成された検索用インデックスを保持する文書単位イ
    ンデックス保持ステップと、検索を行う文字列を保持す
    る検索キー保持ステップと、前記検索ステップで検索さ
    れた検索結果を保持する検索結果保持ステップとを有す
    ることを特徴とする請求項42記載の文書検索方法。
  45. 【請求項45】 文書検索用のインデックスを作成する
    インデックス作成装置に適用されるインデックス作成方
    法であって、被検索文書を内容に基づきセグメントに分
    割するセグメント生成ステップと、被検索文書のオブジ
    ェクトを同定するオブジェクト同定ステップと、前記セ
    グメント生成ステップで生成されたセグメント及び前記
    オブジェクト同定ステップで同定されたオブジェクトが
    付加されたオブジェクト付被検索文書に基づき検索用イ
    ンデックスを作成するインデックス作成ステップとを有
    することを特徴とするインデックス作成方法。
  46. 【請求項46】 更に、被検索文書を保持する被検索文
    書保持ステップと、前記セグメント生成ステップで生成
    されたセグメントを保持するセグメント保持ステップ
    と、前記オブジェクト同定ステップで同定されたオブジ
    ェクトを被検索文書と共に保持するオブジェクト付被検
    索文書保持ステップと、前記セグメント保持ステップで
    保持されたセグメントに基づき前記インデックス作成ス
    テップで作成された検索用インデックスを保持するセグ
    メント単位インデックス保持ステップと、前記オブジェ
    クト付被検索文書保持ステップで保持されたオブジェク
    ト付被検索文書に基づき前記インデックス作成ステップ
    で作成された検索用インデックスを保持する文書単位イ
    ンデックス保持ステップとを有することを特徴とする請
    求項45記載のインデックス作成方法。
  47. 【請求項47】 前記セグメント単位インデックス保持
    ステップで保持された検索用インデックス及び前記文書
    単位インデックス保持ステップで保持された検索用イン
    デックスは、通信回線或いは可搬記録媒体を介して外部
    装置に供給可能であることを特徴とする請求項46記載
    のインデックス作成方法。
  48. 【請求項48】 複数の文書から所望の文書を検索する
    文書検索装置に適用される文書検索方法であって、セグ
    メント単位インデックスと文書単位インデックスのうち
    適切な方を選択する検索単位切替ステップと、該検索単
    位切替ステップで選択されたインデックスに基づき検索
    文字列に一致する文字列を検索する検索ステップとを有
    することを特徴とする文書検索方法。
  49. 【請求項49】 更に、前記検索ステップで検索された
    検索結果の数を判定し前記検索単位切替ステップに対す
    る検索単位の切替指示や提示対象検索結果の生成を行う
    提示結果生成ステップと、該提示結果生成ステップで生
    成された提示結果を出力する結果提示ステップとを有す
    ることを特徴とする請求項48記載の文書検索方法。
  50. 【請求項50】 更に、外部装置から供給されたセグメ
    ント単位インデックスを保持するセグメント単位インデ
    ックス保持ステップと、外部装置から供給された文書単
    位インデックスを保持する文書単位インデックス保持ス
    テップと、検索を行う文字列を保持する検索キー保持ス
    テップと、前記検索ステップで検索された検索結果を保
    持する検索結果保持ステップとを有することを特徴とす
    る請求項48記載の文書検索方法。
  51. 【請求項51】 前記提示結果生成ステップでは、セグ
    メント単位インデックスの検索結果数が閾値を越えた場
    合は前記検索単位切替ステップに文書単位インデックス
    に切替えるよう指令し、セグメント単位インデックスの
    検索結果数が閾値を越えない場合はセグメント単位の検
    索結果を提示結果とし、文書単位インデックスの検索結
    果数が閾値を越えた場合は検索結果をオブジェクト毎に
    まとめて提示結果を生成し、文書単位インデックスの検
    索結果数が閾値を越えない場合は文書単位の検索結果を
    提示結果とすることを特徴とする請求項43記載の文書
    検索方法。
  52. 【請求項52】 様々な単位のインデックスを用意して
    それらを切り替えて使用することが可能であることを特
    徴とする請求項42記載の文書検索方法。
  53. 【請求項53】 セグメントのオブジェクトも同定して
    セグメント単位の検索結果数に応じてオブジェクトを用
    いた提示情報の生成が可能であることを特徴とする請求
    項42記載の文書検索方法。
  54. 【請求項54】 オブジェクト同定を行わずに複数の単
    位のインデックスを切替えて検索することが可能である
    ことを特徴とする請求項42記載の文書検索方法。
  55. 【請求項55】 検索単位は外部入力で指定可能である
    ことを特徴とする請求項42記載の文書検索方法。
  56. 【請求項56】 前記各ステップはネットワーク上の外
    部装置に分散可能であることを特徴とする請求項42記
    載の文書検索方法。
  57. 【請求項57】 前記各ステップはネットワーク上の外
    部装置に分散可能であることを特徴とする請求項45記
    載のインデックス作成方法。
  58. 【請求項58】 複数の文書から所望の文書を検索する
    文書検索装置に適用される文書検索方法を実行するプロ
    グラムを記憶したコンピュータにより読み出し可能な記
    憶媒体であって、前記文書検索方法は、被検索文書を内
    容に基づきセグメントに分割するセグメント生成ステッ
    プと、被検索文書のオブジェクトを同定するオブジェク
    ト同定ステップと、前記セグメント生成ステップで生成
    されたセグメント及び前記オブジェクト同定ステップで
    同定されたオブジェクトが付加されたオブジェクト付被
    検索文書に基づき検索用インデックスを作成するインデ
    ックス作成ステップと、該インデックス作成ステップで
    前記セグメントから作成されたセグメント単位インデッ
    クスと前記オブジェクト付被検索文書から作成された文
    書単位インデックスのうち適切な方を選択する検索単位
    切替ステップと、該検索単位切替ステップで選択された
    インデックスに基づき検索文字列に一致する文字列を検
    索する検索ステップとを有することを特徴とする記憶媒
    体。
  59. 【請求項59】 更に、前記文書検索方法は、前記検索
    ステップで検索された検索結果の数を判定し前記検索単
    位切替ステップに対する検索単位の切替指示や提示対象
    検索結果の生成を行う提示結果生成ステップと、該提示
    結果生成ステップで生成された提示結果を出力する結果
    提示ステップとを有することを特徴とする請求項58記
    載の記憶媒体。
  60. 【請求項60】 更に、前記文書検索方法は、被検索文
    書を保持する被検索文書保持ステップと、前記セグメン
    ト生成ステップで生成されたセグメントを保持するセグ
    メント保持ステップと、前記オブジェクト同定ステップ
    で同定されたオブジェクトを被検索文書と共に保持する
    オブジェクト付被検索文書保持ステップと、前記セグメ
    ント保持ステップで保持されたセグメントに基づき前記
    インデックス作成ステップで作成された検索用インデッ
    クスを保持するセグメント単位インデックス保持ステッ
    プと、前記オブジェクト付被検索文書保持ステップで保
    持されたオブジェクト付被検索文書に基づき前記インデ
    ックス作成ステップで作成された検索用インデックスを
    保持する文書単位インデックス保持ステップと、検索を
    行う文字列を保持する検索キー保持ステップと、前記検
    索ステップで検索された検索結果を保持する検索結果保
    持ステップとを有することを特徴とする請求項58記載
    の記憶媒体。
  61. 【請求項61】 文書検索用インデックスを作成するイ
    ンデックス作成装置に適用されるインデックス作成方法
    を実行するプログラムを記憶したコンピュータにより読
    み出し可能な記憶媒体であって、前記インデックス作成
    方法は、被検索文書を内容に基づきセグメントに分割す
    るセグメント生成ステップと、被検索文書のオブジェク
    トを同定するオブジェクト同定ステップと、前記セグメ
    ント生成ステップで生成されたセグメント及び前記オブ
    ジェクト同定ステップで同定されたオブジェクトが付加
    されたオブジェクト付被検索文書に基づき検索用インデ
    ックスを作成するインデックス作成ステップとを有する
    ことを特徴とする記憶媒体。
  62. 【請求項62】 更に、前記インデックス作成方法は、
    被検索文書を保持する被検索文書保持ステップと、前記
    セグメント生成ステップで生成されたセグメントを保持
    するセグメント保持ステップと、前記オブジェクト同定
    ステップで同定されたオブジェクトを被検索文書と共に
    保持するオブジェクト付被検索文書保持ステップと、前
    記セグメント保持ステップで保持されたセグメントに基
    づき前記インデックス作成ステップで作成された検索用
    インデックスを保持するセグメント単位インデックス保
    持ステップと、前記オブジェクト付被検索文書保持ステ
    ップで保持されたオブジェクト付被検索文書に基づき前
    記インデックス作成ステップで作成された検索用インデ
    ックスを保持する文書単位インデックス保持ステップと
    を有することを特徴とする請求項61記載の記憶媒体。
  63. 【請求項63】 前記セグメント単位インデックス保持
    ステップで保持された検索用インデックス及び前記文書
    単位インデックス保持ステップで保持された検索用イン
    デックスは、通信回線或いは可搬記録媒体を介して外部
    装置に供給可能であることを特徴とする請求項62記載
    の記憶媒体。
  64. 【請求項64】 複数の文書から所望の文書を検索する
    文書検索装置に適用される文書検索方法を実行するプロ
    グラムを記憶したコンピュータにより読み出し可能な記
    憶媒体であって、前記文書検索方法は、セグメント単位
    インデックスと文書単位インデックスのうち適切な方を
    選択する検索単位切替ステップと、該検索単位切替ステ
    ップで選択されたインデックスに基づき検索文字列に一
    致する文字列を検索する検索ステップとを有することを
    特徴とする記憶媒体。
  65. 【請求項65】 更に、前記文書検索方法は、前記検索
    ステップで検索された検索結果の数を判定し前記検索単
    位切替ステップに対する検索単位の切替指示や提示対象
    検索結果の生成を行う提示結果生成ステップと、該提示
    結果生成ステップで生成された提示結果を出力する結果
    提示ステップとを有することを特徴とする請求項64記
    載の記憶媒体。
  66. 【請求項66】 更に、前記文書検索方法は、外部装置
    から供給されたセグメント単位インデックスを保持する
    セグメント単位インデックス保持ステップと、外部装置
    から供給された文書単位インデックスを保持する文書単
    位インデックス保持ステップと、検索を行う文字列を保
    持する検索キー保持ステップと、前記検索ステップで検
    索された検索結果を保持する検索結果保持ステップとを
    有することを特徴とする請求項64記載の記憶媒体。
  67. 【請求項67】 前記提示結果生成ステップでは、セグ
    メント単位インデックスの検索結果数が閾値を越えた場
    合は前記検索単位切替ステップに文書単位インデックス
    に切替えるよう指令し、セグメント単位インデックスの
    検索結果数が閾値を越えない場合はセグメント単位の検
    索結果を提示結果とし、文書単位インデックスの検索結
    果数が閾値を越えた場合は検索結果をオブジェクト毎に
    まとめて提示結果を生成し、文書単位インデックスの検
    索結果数が閾値を越えない場合は文書単位の検索結果を
    提示結果とすることを特徴とする請求項59記載の記憶
    媒体。
  68. 【請求項68】 様々な単位のインデックスを用意して
    それらを切り替えて使用することが可能であることを特
    徴とする請求項58記載の記憶媒体。
  69. 【請求項69】 セグメントのオブジェクトも同定して
    セグメント単位の検索結果数に応じてオブジェクトを用
    いた提示情報の生成が可能であることを特徴とする請求
    項58記載の記憶媒体。
  70. 【請求項70】 オブジェクト同定を行わずに複数の単
    位のインデックスを切替えて検索することが可能である
    ことを特徴とする請求項58記載の記憶媒体。
  71. 【請求項71】 検索単位は外部入力で指定可能である
    ことを特徴とする請求項58記載の記憶媒体。
  72. 【請求項72】 前記各ステップはネットワーク上の外
    部装置に分散可能であることを特徴とする請求項58記
    載の記憶媒体。
  73. 【請求項73】 入力された検索文字列を用いて被検索
    文書を検索し、その検索結果を表示手段に表示する文書
    検索装置において、前記被検索文書をその内容に従って
    複数の検索単位で分割して該被検索文書を含む複数の検
    索対象を生成する検索対象生成手段と、前記複数の検索
    対象をそれぞれ表す検索用インデックスを作成するイン
    デックス作成手段と、前記各検索用インデックスがそれ
    ぞれ表す検索対象に対して前記検索文字列の検索を行う
    検索手段と、前記各検索対象毎にその検索結果および検
    索対象を示す情報の前記表示手段への表示を切替可能に
    制御する表示制御手段と、を有することを特徴とする文
    書検索装置。
  74. 【請求項74】 前記検索結果の表示単位として前記検
    索単位を指定する表示単位指定手段を備え、前記表示制
    御手段は、前記指定された表示単位に対応する検索対象
    の検索結果とともにその表示単位を示す情報を前記表示
    手段に表示するように制御し、前記指定された表示単位
    による検索結果の表示中に該指定された表示単位と異な
    る他の表示単位が指定されると、該指定された他の表示
    単位に対応する検索対象の検索結果の表示へ切り替える
    ように制御することを特徴とする請求項73記載の文書
    検索装置。
  75. 【請求項75】 前記検索単位を指定する検索単位指定
    手段を備え、前記検索手段は、前記指定された検索単位
    に対応する検索対象に対して検索を行い、前記表示制御
    手段は、前記指定された検索単位に対応する検索対象の
    検索結果とともにその検索単位を示す情報を前記表示手
    段に表示するように制御し、前記指定された検索単位に
    よる検索結果の表示中に該指定された検索単位と異なる
    他の検索単位が指定されると、前記検索手段により前記
    他の検索単位での検索を行い、前記表示制御手段により
    前記他の検索単位での検索結果の表示制御を行うことを
    特徴とする請求項73記載の文書検索装置。
  76. 【請求項76】 前記検索対象生成手段は、前記被検索
    文書をその内容に従ってページ単位で分割して検索対象
    となるページを生成するページ生成手段と、前記被検索
    文書をその内容に従ってセグメント単位で分割して検索
    対象となるセグメントを生成するセグメント生成手段と
    を有し、前記インデックス作成手段は、前記被検索文
    書、前記ページ、前記セグメントの各検索対象をそれぞ
    れ表す文書単位インデックス、ページ単位インデック
    ス、セグメント単位インデックスを検索用インデックス
    として作成することを特徴とする請求項73記載の文書
    検索装置。
  77. 【請求項77】 入力された検索文字列を用いて被検索
    文書を検索し、その検索結果を表示手段に表示するテキ
    スト検索装置において、前記被検索文書をその内容に従
    ってページ単位で分割して検索対象となるページを生成
    するページ生成手段と、前記被検索文書をその内容に従
    ってセグメント単位で分割して検索対象となるセグメン
    トを生成するセグメント生成手段と、前記被検索文書、
    前記ページ、前記セグメントの各検索対象をそれぞれ表
    す文書単位インデックス、ページ単位インデックス、セ
    グメント単位インデックスを検索用インデックスとして
    作成するインデックス作成手段と、前記文書単位インデ
    ックス、ページ単位インデックス、セグメント単位イン
    デックスの各検索用インデックスを参照して各検索対象
    から前記検索文字列の検索を行う検索手段と、各検索用
    インデックスが表す検索対象毎に得られた検索結果を保
    持する検索結果保持手段と、前記検索結果の表示単位と
    して文書単位、ページ単位、セグメント単位のいずれか
    を指定する表示単位指定手段と、前記指定された表示単
    位に対応する検索対象の検索結果とともにその表示単位
    を示す情報を前記表示手段に表示するように制御し、前
    記指定された表示単位による検索結果の表示中に該指定
    された表示単位と異なる他の表示単位が指定されると、
    該指定された他の表示単位に対応する検索対象の検索結
    果の表示へ切り替えるように制御する表示制御手段とを
    備えることを特徴とする文書検索装置。
  78. 【請求項78】 入力された検索文字列を用いて被検索
    文書を検索し、その検索結果を表示手段に表示するテキ
    スト検索装置において、前記被検索文書をその内容に従
    ってページ単位で分割して検索対象となるページを生成
    するページ生成手段と、前記被検索文書をその内容に従
    ってセグメント単位で分割して検索対象となるセグメン
    トを生成するセグメント生成手段と、前記被検索文書、
    前記ページ、前記セグメントの各検索対象をそれぞれ表
    す文書単位インデックス、ページ単位インデックス、セ
    グメント単位インデックスを検索用インデックスとして
    作成するインデックス作成手段と、前記文書単位インデ
    ックス、ページ単位インデックス、セグメント単位イン
    デックスの各検索用インデックスを選択する選択手段
    と、前記選択された検索用インデックスが表す検索対象
    に対して前記検索文字列の検索を行う検索手段と、前記
    選択された検索用インデックスが表す検索対象から得ら
    れた検索結果を保持する検索結果保持手段と、前記選択
    された検索用インデックスの検索結果とともにその検索
    用インデックスを示す情報を前記表示手段に表示するよ
    うに制御し、前記選択された検索用インデックスを用い
    た検索結果の表示画面中に前記選択手段による検索用イ
    ンデックスの選択メニュー画面を表示するように制御す
    る表示制御手段とを備え、前記選択手段は、前記検索用
    インデックスの選択メニュー画面を用いて前記検索用イ
    ンデックスが選択されると、該選択された検索用インデ
    ックスを前記検索手段に渡すことを特徴とする文書検索
    装置。
  79. 【請求項79】 テキスト検索装置に被検索データベー
    スを供給するためのデータベース作成装置において、被
    検索文書をその内容に従って複数の検索単位で分割して
    該被検索文書を含む複数の検索対象を生成する検索対象
    生成手段と、前記複数の検索対象をそれぞれ表す検索用
    インデックスを作成するインデックス作成手段とを備
    え、前記各検索用インデックスとともに各検索用インデ
    ックスがそれぞれが表す検索対象を前記被検索データベ
    ースとして前記テキスト検索装置に供給することを特徴
    とするデータベース作成装置。
  80. 【請求項80】 前記検索対象生成手段は、前記被検索
    文書をその内容に従ってページ単位で分割して検索対象
    となるページを生成するページ生成手段と、前記被検索
    文書をその内容に従ってセグメント単位で分割し、検索
    対象となるセグメントを生成するセグメント生成手段と
    を有し、前記インデックス作成手段は、前記被検索文
    書、前記ページ、前記セグメントの各検索対象をそれぞ
    れ表す文書単位インデックス、ページ単位インデック
    ス、セグメント単位インデックスを検索用インデックス
    として作成することを特徴とする請求項79記載のデー
    タベース作成装置。
  81. 【請求項81】 前記データベース作成装置から供給さ
    れる前記各検索用インデックスおよび各検索用インデッ
    クスのそれぞれが表す検索対象を入力する文書検索装置
    であって、前記各検索用インデックスがそれぞれ表す検
    索対象に対して前記検索文字列の検索を行う検索手段
    と、前記各検索対象毎にその検索結果および検索対象を
    示す情報の表示手段への表示を切替可能に制御する表示
    制御手段とを備えることを特徴とする文書検索装置。
  82. 【請求項82】 前記検索結果の表示単位として前記検
    索単位を指定する表示単位指定手段を備え、前記表示制
    御手段は、前記指定された表示単位に対応する検索対象
    の検索結果とともにその表示単位を示す情報を前記表示
    手段に表示するように制御し、前記指定された表示単位
    による検索結果の表示中に該指定された表示単位と異な
    る他の表示単位が指定されると、該指定された他の表示
    単位に対応する検索対象の検索結果の表示へ切り替える
    ように制御することを特徴とする請求項81記載の文書
    検索装置。
  83. 【請求項83】 前記検索単位を指定する検索単位指定
    手段を備え、前記検索手段は、前記指定された検索単位
    に対応する検索対象に対して検索を行い、前記表示制御
    手段は、前記指定された検索単位に対応する検索対象の
    検索結果とともにその検索単位を示す情報を前記表示手
    段に表示するように制御し、前記指定された検索単位に
    よる検索結果の表示中に該指定された検索単位と異なる
    他の検索単位が指定されると、前記検索手段により前記
    他の検索単位での検索を行い、前記表示制御手段により
    前記他の検索単位での検索結果の表示制御を行うことを
    特徴とする請求項81記載の文書検索装置。
  84. 【請求項84】 入力された検索文字列を用いて被検索
    文書を検索し、その検索結果を表示手段に表示するテキ
    スト検索方法において、前記被検索文書をその内容に従
    ってページ単位で分割して検索対象となるページを生成
    する工程と、前記被検索文書をその内容に従ってセグメ
    ント単位で分割して検索対象となるセグメントを生成す
    る工程と、前記被検索文書、前記ページ、前記セグメン
    トの各検索対象をそれぞれ表す文書単位インデックス、
    ページ単位インデックス、セグメント単位インデックス
    を検索用インデックスとして作成する工程と、前記文書
    単位インデックス、ページ単位インデックス、セグメン
    ト単位インデックスの各検索用インデックスを参照して
    各検索対象から前記検索文字列の検索を行う工程と、各
    検索用インデックスが表す検索対象毎に得られた検索結
    果を保持手段に保持する工程と、前記検索結果の表示単
    位として文書単位、ページ単位、セグメント単位のいず
    れかを指定する工程と、前記指定された表示単位に対応
    する検索対象の検索結果とともにその表示単位を示す情
    報を前記表示手段に表示するように制御し、前記指定さ
    れた表示単位による検索結果の表示中に該指定された表
    示単位と異なる他の表示単位が指定されると、該指定さ
    れた他の表示単位に対応する検索対象の検索結果の表示
    へ切り替えるように制御する工程とを有することを特徴
    とする文書検索方法。
  85. 【請求項85】 入力された検索文字列を用いて被検索
    文書を検索し、その検索結果を表示手段に表示するテキ
    スト検索方法において、前記被検索文書をその内容に従
    ってページ単位で分割して検索対象となるページを生成
    する工程と、前記被検索文書をその内容に従ってセグメ
    ント単位で分割して検索対象となるセグメントを生成す
    る工程と、前記被検索文書、前記ページ、前記セグメン
    トの各検索対象をそれぞれ表す文書単位インデックス、
    ページ単位インデックス、セグメント単位インデックス
    を検索用インデックスとして作成する工程と、前記文書
    単位インデックス、ページ単位インデックス、セグメン
    ト単位インデックスの各検索用インデックスを選択する
    工程と、前記選択された検索用インデックスが表す検索
    対象に対して前記検索文字列の検索を行う工程と、前記
    選択された検索用インデックスが表す検索対象から得ら
    れた検索結果を保持手段に保持する工程と、前記選択さ
    れた検索用インデックスの検索結果とともにその検索用
    インデックスを示す情報を前記表示手段に表示するよう
    に制御し、前記選択された検索用インデックスを用いた
    検索結果の表示画面中に前記検索用インデックスの選択
    メニュー画面を表示するように制御する工程と、前記検
    索用インデックスの選択メニュー画面を用いて前記検索
    用インデックスが選択されると、該選択された検索用イ
    ンデックスが表す被検索対象の検索を行い、該検索結果
    の表示を行うように検索結果の表示を切り替える工程と
    を有することを特徴とする文書検索方法。
  86. 【請求項86】 テキスト検索装置に被検索データベー
    スを供給するためのデータベース作成方法において、前
    記被検索文書をその内容に従ってページ単位で分割して
    検索対象となるページを生成するページ生成工程と、前
    記被検索文書をその内容に従ってセグメント単位で分割
    して検索対象となるセグメントを生成するセグメント生
    成工程と、前記被検索文書、前記ページ、前記セグメン
    トの各検索対象をそれぞれ表す文書単位インデックス、
    ページ単位インデックス、セグメント単位インデックス
    を検索用インデックスとして作成するインデックス作成
    工程と、前記各検索用インデックスとともに各検索用イ
    ンデックスがそれぞれが表す検索対象を前記被検索デー
    タベースとして前記テキスト検索装置に供給するデータ
    ベース供給工程とを有することを特徴とするデータベー
    ス作成方法。
  87. 【請求項87】 入力された検索文字列を用いて被検索
    文書を検索し、その検索結果を表示手段に表示するテキ
    スト検索システムを構築するためのプログラムを格納し
    た記憶媒体において、前記プログラムは、前記被検索文
    書をその内容に従ってページ単位で分割して検索対象と
    なるページを生成するページ生成モジュールと、前記被
    検索文書をその内容に従ってセグメント単位で分割して
    検索対象となるセグメントを生成するセグメント生成モ
    ジュールと、前記被検索文書、前記ページ、前記セグメ
    ントの各検索対象をそれぞれ表す文書単位インデック
    ス、ページ単位インデックス、セグメント単位インデッ
    クスを検索用インデックスとして作成するインデックス
    作成モジュールと、前記文書単位インデックス、ページ
    単位インデックス、セグメント単位インデックスの各検
    索用インデックスを参照して各検索対象から前記検索文
    字列の検索を行う検索モジュールと、各検索用インデッ
    クスが表す検索対象毎に得られた検索結果を保持手段に
    保持する保持モジュールと、前記検索結果の表示単位と
    して文書単位、ページ単位、セグメント単位のいずれか
    を指定する表示単位指定モジュールと、前記指定された
    表示単位に対応する検索対象の検索結果とともにその表
    示単位を示す情報を前記表示手段に表示するように制御
    し、前記指定された表示単位による検索結果の表示中に
    該指定された表示単位と異なる他の表示単位が指定され
    ると、該指定された他の表示単位に対応する検索対象の
    検索結果の表示へ切り替えるように制御する表示制御モ
    ジュールとを有することを特徴とする記憶媒体。
  88. 【請求項88】 入力された検索文字列を用いて被検索
    文書を検索し、その検索結果を表示手段に表示するテキ
    スト検索システムを構築するためのプログラムを格納し
    た記憶媒体において、前記プログラムは、前記被検索文
    書をその内容に従ってページ単位で分割して検索対象と
    なるページを生成するページ生成モジュールと、前記被
    検索文書をその内容に従ってセグメント単位で分割して
    検索対象となるセグメントを生成するセグメント生成モ
    ジュールと、前記被検索文書、前記ページ、前記セグメ
    ントの各検索対象をそれぞれ表す文書単位インデック
    ス、ページ単位インデックス、セグメント単位インデッ
    クスを検索用インデックスとして作成するインデックス
    作成モジュールと、前記文書単位インデックス、ページ
    単位インデックス、セグメント単位インデックスの各検
    索用インデックスを選択するインデックス選択モジュー
    ルと、前記選択された検索用インデックスが表す検索対
    象に対して前記検索文字列の検索を行う検索モジュール
    と、前記選択された検索用インデックスが表す検索対象
    から得られた検索結果を保持手段に保持する保持モジュ
    ールと、前記選択された検索用インデックスの検索結果
    とともにその検索用インデックスを示す情報を前記表示
    手段に表示するように制御し、前記選択された検索用イ
    ンデックスを用いた検索結果の表示画面中に前記検索用
    インデックスの選択メニュー画面を表示するように制御
    する表示制御モジュールとを有し、前記検索用インデッ
    クスの選択メニュー画面を用いて前記検索用インデック
    スが選択されると、前記検索モジュールにより前記選択
    された検索用インデックスが表す被検索対象の検索を行
    い、前記表示制御モジュールにより前記選択された検索
    用インデックスが表す被検索対象の検索結果の表示を行
    うように検索結果の表示を切り替えることを特徴とする
    記憶媒体。
  89. 【請求項89】 文書検索装置に被検索データベースを
    供給するためのデータベース作成システムを構築するた
    めのプログラムを格納した記憶媒体において、前記プロ
    グラムは、前記被検索文書をその内容に従ってページ単
    位で分割して検索対象となるページを生成するページ生
    成モジュールと、前記被検索文書をその内容に従ってセ
    グメント単位で分割して検索対象となるセグメントを生
    成するセグメント生成モジュールと、前記被検索文書、
    前記ページ、前記セグメントの各検索対象をそれぞれ表
    す文書単位インデックス、ページ単位インデックス、セ
    グメント単位インデックスを検索用インデックスとして
    作成するインデックス作成モジュールと、前記各検索用
    インデックスとともに各検索用インデックスがそれぞれ
    が表す検索対象を前記被検索データベースとして前記テ
    キスト検索装置に供給するデータベース供給モジュール
    とを有することを特徴とする記憶媒体。
JP2000048525A 1999-03-02 2000-02-25 インデックス生成装置及びその方法、記憶媒体 Expired - Fee Related JP4463925B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000048525A JP4463925B2 (ja) 1999-03-02 2000-02-25 インデックス生成装置及びその方法、記憶媒体

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP5397899 1999-03-02
JP6717499 1999-03-12
JP7736899 1999-03-23
JP11-67174 1999-03-23
JP11-53978 1999-03-23
JP11-77368 1999-03-23
JP2000048525A JP4463925B2 (ja) 1999-03-02 2000-02-25 インデックス生成装置及びその方法、記憶媒体

Publications (3)

Publication Number Publication Date
JP2000339347A true JP2000339347A (ja) 2000-12-08
JP2000339347A5 JP2000339347A5 (ja) 2007-03-01
JP4463925B2 JP4463925B2 (ja) 2010-05-19

Family

ID=27462996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000048525A Expired - Fee Related JP4463925B2 (ja) 1999-03-02 2000-02-25 インデックス生成装置及びその方法、記憶媒体

Country Status (1)

Country Link
JP (1) JP4463925B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334103A (ja) * 2001-05-11 2002-11-22 Fujitsu Ltd 検索処理システム及び検索処理方法
JP2005227813A (ja) * 2004-02-10 2005-08-25 Just Syst Corp 文書検索装置、文書検索方法、および文書検索プログラム
JP2009032292A (ja) * 2008-11-10 2009-02-12 Nec Corp 文書検索装置、検索方法及びプログラム
JP2011146059A (ja) * 2005-03-04 2011-07-28 Chutnoon Inc 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法
US8001466B2 (en) 2005-06-17 2011-08-16 Ricoh Company, Ltd. Document processing apparatus and method
JP2012088800A (ja) * 2010-10-15 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> 検索装置、検索システム、検索方法及び検索プログラム
JP7698926B1 (ja) 2024-07-11 2025-06-26 パテント・インテグレーション株式会社 プログラム、方法、情報処理装置、システム
KR102882601B1 (ko) * 2024-11-12 2025-11-07 주식회사 테나아이 Pdf 문서에 포함된 텍스트, 이미지, 그리고 표를 활용한 llm 기반 질의응답 시스템 및 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334103A (ja) * 2001-05-11 2002-11-22 Fujitsu Ltd 検索処理システム及び検索処理方法
JP2005227813A (ja) * 2004-02-10 2005-08-25 Just Syst Corp 文書検索装置、文書検索方法、および文書検索プログラム
JP2011146059A (ja) * 2005-03-04 2011-07-28 Chutnoon Inc 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法
US8001466B2 (en) 2005-06-17 2011-08-16 Ricoh Company, Ltd. Document processing apparatus and method
JP2009032292A (ja) * 2008-11-10 2009-02-12 Nec Corp 文書検索装置、検索方法及びプログラム
JP2012088800A (ja) * 2010-10-15 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> 検索装置、検索システム、検索方法及び検索プログラム
JP7698926B1 (ja) 2024-07-11 2025-06-26 パテント・インテグレーション株式会社 プログラム、方法、情報処理装置、システム
JP2026011120A (ja) * 2024-07-11 2026-01-23 パテント・インテグレーション株式会社 プログラム、方法、情報処理装置、システム
KR102882601B1 (ko) * 2024-11-12 2025-11-07 주식회사 테나아이 Pdf 문서에 포함된 텍스트, 이미지, 그리고 표를 활용한 llm 기반 질의응답 시스템 및 방법

Also Published As

Publication number Publication date
JP4463925B2 (ja) 2010-05-19

Similar Documents

Publication Publication Date Title
US6381593B1 (en) Document information management system
JP3108015B2 (ja) ハイパーテキスト検索装置
US6631373B1 (en) Segmented document indexing and search
CA2266457C (en) System and method for search and retrieval of digital information
US6496820B1 (en) Method and search method for structured documents
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US20020083045A1 (en) Information retrieval processing apparatus and method, and recording medium recording information retrieval processing program
CN101809575A (zh) 检索辞典数据的标题字的电子设备及其制造方法和程序产品
JPH11161682A (ja) 情報検索装置、情報検索方法及び記録媒体
US20200278971A1 (en) Document retrieval apparatus and document retrieval method
JP2000339347A (ja) インデックス作成装置及びその方法、文書検索装置及びその方法、文書検索システム、データベース作成装置及びその方法、記憶媒体
JPH0844771A (ja) 情報検索装置
JP4649731B2 (ja) 文書要約システム及び文書要約方法
JP4286752B2 (ja) 検索支援サーバ及びコンピュータで読み取り可能な記録媒体
JP3237619B2 (ja) 文書表示装置および文書表示方法並びに文書表示プログラムを記録した記録媒体
JP3714723B2 (ja) 文書表示システム
JP7545061B2 (ja) 情報処理システム、情報処理方法、プログラム
JP2004070376A (ja) 文書表示装置および方法
JP2004348774A5 (ja)
JP4434629B2 (ja) 属性取得装置および属性取得方法
JPH08305726A (ja) 情報検索装置
JP2004030021A (ja) 文書処理装置および方法
JPH0535798A (ja) データベース検索装置
JPH06309368A (ja) 文書検索装置
JP4331078B2 (ja) 検索システム及び記録媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090818

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100118

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees