JPH11102374A

JPH11102374A - データベースの文書表示方法およびその装置

Info

Publication number: JPH11102374A
Application number: JP10110876A
Authority: JP
Inventors: A Evans David; エイ．エバンズデビッド
Original assignee: KURARITEC CORP
Current assignee: KURARITEC CORP
Priority date: 1997-07-25
Filing date: 1998-04-21
Publication date: 1999-04-13
Also published as: US6205443B1; US5907840A

Abstract

(57)【要約】【課題】データベース中の複数のドキュメントについ
てクエリーに対する相対的な類似性を判定すること。【解決手段】初めに、データベース内のドキュメント
は、一般にテキストのパラグラフに対応するパラグラフ
・サブドキュメントに分割される。さらにテキストの隣
接するパラグラフ上に重なるオーバーラッピング・サブ
ドキュメントを生成する。オーバーラップ・サブドキュ
メントの位置は元のパラグラフのサイズに依存する。こ
のサブドキュメントは、パラグラフ・サブドキュメント
がスコアリングされるときにスコアリングされる。パラ
グラフ・サブドキュメントおよびオーバーラッピング・
サブドキュメントの両方のスコアは、クエリーに対する
ドキュメントの関連性をランキングする際に使用され
る。両サブドキュメントのスコアを使用することは、ス
コアリングのアルゴリズムの有効性を改善する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はコンピュータ情報探
索および検索システムに関し、より詳細には、データベ
ース中のテキスト探索に関係する文書の解析を最適化す
る方法および装置に関する。

【０００２】

【従来の技術】データベースにおいて常に増加する大量
のテキスト（text）を探索することは、大規模なデータ
ベースのユーザにとって重大な問題となっている。全て
の所望の知的情報（intelligence information）におけ
る９０％を超えるものが、アクセス可能なデータベース
に属するドキュメント（document）から得ることができ
ると推定されている。この情報を有用なものとするため
に、ユーザは特定のクエリー（query ）に関連する特定
のドキュメントを探し出すことができなければならな
い。既存の情報検索システムは、効率の悪い手法を使用
して関連するドキュメントを返す。一般に、これらの既
存の情報検索システムは、ユーザのクエリーと密接に関
連したドキュメントを落としてしまう。

【０００３】例えば、従来の情報検索システムではブー
リアン・ロジックに基づくクエリー実行手法（Boolean
logic-based query execution techniques）が用いら
れ、ここでは論理（logic ）または近接（proximity ）
オペレータを介して複数のキーワードが互いに結びつけ
られる。論理オペレータは、検索の際、特定のターム
（term）を含むか、含まないかというように用いられ
る。近接オペレータは、ある数の範囲のワード（word）
において出現するキーワードの結合を単に強化するもの
である。

【０００４】ブーリアン検索は、キーワード結合が出現
する、データベースのドキュメントの探索に限定され
る。このようなシステムは、複数のキーワード結合のう
ちの１つを含む任意のドキュメントのリストを単に返す
ものである。重要なことは、ブール検索システムが、
（ブーリアン・ロジック結合がドキュメントの中に存在
するという事実以外に）返されたドキュメントがクエリ
ーに対してどのように類似しているかに関する数量的基
準を有していないということである。

【０００５】クエリーと個々のドキュメントとの間の類
似性に関する数量的基準を提供する能力は２つの点にお
いて重要となる。第１に、返されたドキュメントのセッ
トがいったい意味があるか否かをユーザが判定すること
ができなければならない。第２に、いくつかのキーワー
ド結合を含んでいるかもしれないがクエリーに対して密
接に関連していないものを含む検索結果のドキュメント
から、意味のあるドキュメントを区別することができな
ければならない。

【０００６】すなわち、ユーザは、クエリーに関連して
返されたドキュメントにランク付けすることができなけ
ればならない。ブーリアン型検索は、クエリーおよびデ
ータベース中のドキュメント間の類似性に関する数量的
基準を提供しないため、それらはデータベースのユーザ
に検索およびデータベース中のドキュメントに関する重
要な情報を提供することができない。

【０００７】ブーリアン型検索システムの欠点に応じ
て、ベクトル空間型検索システム（vector space-type
search system ）が開発された。ベクトル空間型検索シ
ステムにおいては、データベース中の各ドキュメント毎
にクエリーに関するスコアが計算される。一般に、クエ
リー「Ｑ」およびドキュメント「Ｄ」間の類似スコア
は、データベースから生成されるＴタームの直交する空
間にわたって、クエリーおよびドキュメントの共有され
た特徴および共通の要素をもたない特徴を評価すること
によって比較可能である。例えば、以下の式によって類
似スコアを計算することができる。ここで、Ｑ_iはクエ
リー中のタームであり、Ｄ_jはドキュメントの中のター
ムである。

【０００８】

【数１】

【０００９】このスコアリングの手法について、以下の
クエリーおよびドキュメントのサンプルセットで表すこ
とができる。

【００１０】

【表１】

【００１１】この表において、ターム列は、２つのドキ
ュメントＤ₁およびＤ₂に含まれた全てのタームの集合
をリスト化したものである。Ｄ₁およびＤ₂のスコア
は、それらのタームがドキュメント中に出現する頻度を
表すものである。Ｑ₁およびＱ ₂のスコアは、それらの
タームがクエリー中に出現する頻度を表すものである。
ドキュメントＤ₁に対するクエリーＱ₁の類似スコアは
以下の式で計算される。

【００１２】

【数２】

【００１３】また、ドキュメントＤ₂に対するクエリー
Ｑ₁の類似スコアを計算すると、Ｓ（Ｑ₁，Ｄ₂）＝
０．１２となる。上記の例から理解できるように、ドキ
ュメントＤ₁に対するクエリーＱ₁の類似スコアは、ド
キュメントＤ₂に対するクエリーＱ₁の類似スコアより
高い。その結果、類似スコアはクエリーに対するドキュ
メントの相対的基準を提供することになる。データベー
ス中の全てのドキュメントについてこのような相対的ス
コアを決定することができるため、ユーザはスコアに意
味がある場合を経験的に判定することができ、その結
果、それらのスコアによってランク付けされたドキュメ
ントから重要な情報を得ることができる。

【００１４】特定のドキュメントのランクおよびスコア
に基づいて重要な情報を得るためには、計算が実行され
るターム空間中のタームの数がドキュメント間で同等で
なければならい。上記の例において、各ドキュメントに
ついて計算されるスコアは、スコアが計算されるターム
の数に従って変化する。この例において、Ｄ₁に対する
Ｑ₁のスコアは０．３１であり、これはドキュメント・
データベースにおけるターム（グローバル・ターム空
間）の全てを使用することに基づくものである。クエリ
ーＱ₁およびＱ₂中のタームのみがターム空間として使
用される場合のスコアは０．４５である。このシンプル
な例は、ドキュメントが比較されるターム空間が同様の
サイズからなるものでなければならないことを示してい
る。

【００１５】一般に、クエリーおよびドキュメント間で
タームが同等に出現する場合に、調節されたサイズのド
キュメントをスコアリングすることは、大きなドキュメ
ントをスコアリングするより効果的である。実際のとこ
ろ、ドキュメントのサイズを調節することは、キーワー
ドのブーリアン結合に基づく検索の効果さえも向上させ
る。しかし、データベースは一般に、複数のドキュメン
トを同等なサイズで記憶するものではない。

【００１６】より一般的な事例としては、いかなるデー
タベースも１ページくらいまたはそれ以下というものか
ら千ページくらいまたはそれ以上というものまでにおよ
び得る複数のドキュメントを有するであろうということ
である。その結果、ドキュメント解析手法は、この広範
囲にわたるドキュメントのサイズについて調節を行うも
のでなければならない。従来のベクトル空間分析手法
は、ドキュメントのサイズについて調節を行うものでは
ない。なぜなら、それらは全てのドキュメントについて
操作を行うものであるからである。

【００１７】従来のベクトル空間分析に対する改良点
は、ドキュメントを一組の相互に排他的なサブドキュメ
ント（mutually exclusive subdocument）に任意に分割
すると共に、ドキュメントとしてサブドキュメントを分
析することによって、スコアリングのプロセスを正規化
することである。サブドキュメントのサイズは、単に、
サブドキュメント毎に相当数のワードを選択すると共
に、ドキュメントにおけるワードの絶対数をカウントし
てサブドキュメントの境界を生成することにより、この
改良された分析において調節される。

【００１８】また、サブドキュメントの境界は、ドキュ
メントを前処理して意味のないワード、例えば、「ａ
ｔ」，「ｔｈｅ」等を取り除き、そしてワードをカウン
トすることによって生成される。これらのサブドキュメ
ントのサイズは、定義によっては変化しないだろう。そ
の結果、ターム空間の相違によるスコアリングのエラー
は減少されることになる。

【００１９】

【発明が解決しようとする課題】上記方法でサブドキュ
メントを生成する場合、ワード数によってドキュメント
を任意に分割にすることに伴って様々なタイプのスコア
リングエラーが発生してしまうという問題がある。ドキ
ュメント中の隣接するテキストはしばしば同一のアイデ
アに関する情報を含むため、隣接するテキストから任意
に切り離してしまうとテキストの１つのセクション（se
ction ）におけるフレーズ（phrase）の文脈が失われて
しまう可能性がある。

【００２０】関連するテキストの領域を切り離してしま
うことを避けるために、ドキュメント中のパラグラフに
基づいてサブドキュメントを生成することも可能であ
る。これは、どの領域のテキストが関連し合っているの
かについてのドキュメントの著者の見解がパラグラフに
反映されていると考えられるからである。ところが、パ
ラグラフ毎にサイズが大きく異なっていることから、パ
ラグラフに基づいてサブドキュメントを生成することに
は問題が伴う。すなわち、上述したように、サブドキュ
メント毎のサイズのばらつきが各サブドキュメントのス
コアリングに影響を及ぼすことになってしまうからであ
る。

【００２１】本発明は上記に鑑みてなされたものであっ
て、データベース中のドキュメントを解析することを目
的とする。

【００２２】また、本発明は上記に鑑みてなされたもの
であって、特定のクエリーを基準として、データベース
中のドキュメントの類似性を判定することをさらなる目
的とする。

【００２３】また、本発明は上記に鑑みてなされたもの
であって、データベース中の複数のドキュメントについ
てクエリーに対する相対的な類似性を判定することをさ
らなる目的とする。

【００２４】また、本発明は上記に鑑みてなされたもの
であって、データベース中の広範囲わたるサイズを有す
る複数のドキュメントについてクエリーに対する相対的
な類似性を判定することをさらなる目的とする。

【００２５】さらに、本発明は上記に鑑みてなされたも
のであって、ドキュメント中の隣接するテキストの文脈
を失うことなく、データベース中の広範囲にわたるサイ
ズを有する複数のドキュメントについてクエリーに対す
る相対的な類似性を判定することをさらなる目的とす
る。

【００２６】

【課題を解決するための手段】本発明は、データベース
から情報を検索するための方法および装置に関するもの
である。最初に、データベース内のドキュメントは、一
般にテキスト中の複数のパラグラフに対応した相互に排
他的な複数のサブドキュメントに分割される（相互に排
他的な複数のサブドキュメントからなる第１のセットを
生成する）。本発明は、さらにテキスト中の隣接するパ
ラグラフ間にわたってオーバーラップする複数のサブド
キュメント（オーバーラッピング・サブドキュメント
（overlapping subdocument ））からなる第２のセット
を生成する。

【００２７】特に、オーバーラッピング・サブドキュメ
ントの領域は、元のパラグラフのサイズに依存する。複
数のオーバーラッピング・サブドキュメントからなる第
２のセットは、相互に排他的なサブドキュメントがスコ
アリングされる際にスコアリングされる。相互に排他的
なサブドキュメントおよびオーバーラッピング・サブド
キュメントの両方のスコアは、クエリーに対するドキュ
メントの関連性をランキングする際に使用される。サブ
ドキュメントの両方のセットのスコアを使用すること
は、スコアリングのアルゴリズムの有効性を改善するこ
とになる。

【００２８】すなわち、請求項１のデータベースの文書
表示方法は、データベース中の複数の文書について複数
のパラグラフ・サブドキュメントを生成する工程と、デ
ータベース中の複数の文書について複数のオーバーラッ
ピング・サブドキュメントを生成する工程と、パラグラ
フ・サブドキュメントおよびオーバーラッピング・サブ
ドキュメントのそれぞれについてスコアを生成し、サブ
ドキュメントを前記データベースのクエリーと関連付け
る工程と、前記スコアに基づいて、複数のサブドキュメ
ントをランク順にソートする工程と、最高ランクのサブ
ドキュメントが生成された文書のテキストを表示する工
程と、を含むものである。

【００２９】また、請求項２のデータベースの文書表示
方法は、請求項１に記載のデータベースの文書表示方法
において、さらに、前記複数の文書の１つにおいて少く
とも２つのパラグラフから前記オーバーラッピング・サ
ブドキュメントを生成する工程を含むものである。

【００３０】また、請求項３のデータベースの文書表示
方法は、請求項１に記載のデータベースの文書表示方法
において、さらに、前記複数の文書の１つにおいて１つ
のパラグラフから複数のサブドキュメントを生成する工
程を含むものである。

【００３１】また、請求項４のデータベースの文書表示
方法は、請求項１に記載のデータベースの文書表示方法
において、さらに、複数の文書のテキストを表示する工
程を含み、その際に表示順序がランク付けされたサブド
キュメントの順序に対応するように複数の文書のテキス
トを表示するものである。

【００３２】また、請求項５のデータベースの文書表示
装置は、データベースを少なくとも１つのファイル中に
記憶する記憶装置およびディスプレイ装置に接続された
コンピュータを備え、前記コンピュータが、データベー
スファイルのデータを検索し、かつ、データベース中の
複数の文書について複数のパラグラフ・サブドキュメン
トを生成し、前記コンピュータが、データベースファイ
ルのデータを検索し、かつ、データベース中の複数の文
書について複数のオーバーラッピング・サブドキュメン
トを生成し、前記コンピュータが、前記パラグラフ・サ
ブドキュメントおよびオーバーラッピング・サブドキュ
メントのそれぞれについてスコアを生成して、サブドキ
ュメントを前記データベースのクエリーと関連付け、前
記コンピュータが、前記スコアに基づいて、前記複数の
サブドキュメントをランク順にソートし、前記コンピュ
ータが、最高ランクのサブドキュメントが生成された文
書のテキストを前記ディスプレイ装置に表示するもので
ある。

【００３３】また、請求項６のデータベースの文書表示
装置は、請求項５に記載のデータベースの文書表示装置
において、前記コンピュータが、前記複数の文書の１つ
において少くとも２つのパラグラフから前記オーバーラ
ッピング・サブドキュメントを生成するものである。

【００３４】また、請求項７のデータベースの文書表示
装置は、請求項５に記載のデータベースの文書表示装置
において、前記コンピュータが、前記複数の文書の１つ
において１つのパラグラフから複数のサブドキュメント
を生成するものである。

【００３５】さらに、請求項８のデータベースの文書表
示装置は、請求項５に記載のデータベースの文書表示装
置において、前記コンピュータが、複数の文書のテキス
トを前記ディスプレイ装置に表示し、その際に表示順序
がランク付けされたサブドキュメントの順序に対応する
ように複数の文書のテキストを表示するものである。

【００３６】

【発明の実施の形態】以下、本発明に係るデータベース
の文書表示方法およびその装置の一実施の形態につい
て、添付の図面を参照しつつ詳細に説明する。

【００３７】図１は、データベースから情報を検索する
ために用いられるコンピュータ・システムのブロック図
である。コンピュータ２０は、中央処理装置（ＣＰＵ）
３０および主記憶装置４０を備えている。コンピュータ
２０は、インプット／アウトプット（Ｉ／Ｏ）システム
１０およびディスク記憶装置５０に接続されている。Ｉ
／Ｏシステム１０は、ディスプレイ５，キーボード７お
よびマウス９を備えている。一般に、ディスク記憶装置
５０は、コンピュータ・システムを操作するためのプロ
グラムを記憶すると共に、データベースのドキュメント
を記憶する。コンピュータ２０は、Ｉ／Ｏシステム１０
およびディスク記憶装置５０と対話する。

【００３８】コンピュータ２０は、ディスク記憶装置５
０から読み出されるサーチ・プログラム（検索プログラ
ム）を実行する。サーチ・プログラムは、クエリーに対
して最も関連するデータベースに記憶されたドキュメン
トまたはその一部のテキストをコンピュータに検索させ
る一連の命令を含んでいる。様々な方法により、クエリ
ーが生成され、コンピュータに送信される。クエリーは
キーボード７でタイプし、またはマウス９を操作するこ
とによって予め定義されたリストから選択して入力する
ことが可能なものである。また、サーチ・プログラムが
クエリーを自動的に生成することもできる。

【００３９】コンピュータ２０は、ディスク記憶装置５
０中のデータベースのドキュメントを検索すると共に、
それらの全てを解析してクエリーに対するそれらの関連
性を判定することによってクエリーに対し応答する。解
析プロセスにおいて、コンピュータ２０はディスク記憶
装置５０と対話し、各ドキュメントについて一連のサブ
ドキュメントを生成すると共に、各サブドキュメントに
ついてスコアを計算する。そして、コンピュータ２０
は、クエリー対して最も関連しているサブドキュメント
を選択する。つぎにコンピュータ２０は、この情報を用
いて最も関連しているサブドキュメントおよび／または
その関連ドキュメントのテキストを検索し、そのテキス
トをＩ／Ｏ装置１０に送信する。

【００４０】図２は、本発明の一般的な動作を示すフロ
ーチャートである。ステップＳ１００では、最初にキー
ボードか他の類似の装置を介してクエリーを生成する。
ステップＳ１１０においては、クエリーが解析される
（品詞および文法的関係が解析される：parse ）。解析
プロセスは、クエリー内の各ワードを単にリスト化する
ことと同じくらいシンプルなものであっても良い。ステ
ップＳ１１０ではより複雑なプロセスが用いられ、ここ
ではクエリーが名詞句に処理される。このプロセスは、
言語構造をセンテンス（sentence）中のワード列に割り
当てるものである。

【００４１】その結果、名詞句を含み、意味を有するタ
ームがリスト化される。この解析プロセスは、辞書（le
xicons），形態素解析（morphological analyzers ）ま
たは自然言語文法構造（natural language grammar str
uctures ）を使用するような技術において知られている
様々な手法によって実現可能なものである。図３は、名
詞句について解析されたテキストに関するリストの一例
である。図３のリストから明らかなように、『Ｔ』が付
加された句は名詞句であり、『Ｖ』が付加されたものは
動詞であり、『Ｘ』が付加されたものは数量等である。

【００４２】クエリーを処理することに加えて、図２の
ステップＳ１２０では、データベースを選択する。典型
的に、データベースの選択はクエリーに依存しない。デ
ータベースの選択は、通常、コンピュータシステムへの
ユーザ入力によるものである。しかし、データベースの
選択について、予め決定されたデータベースのリストに
基づく自動プロセスとすることも可能であり、そこでは
選択基準がクエリーに関連付けられることになる

【００４３】ステップＳ１２０で選択されるデータベー
スは前処理され、選択される前に転置（invert）されて
いる（転置ファイルが生成される）。データベースを転
置するためのプロセスは図４に示されている。転置プロ
セスにおける最初のステップであるステップＳ１３２に
おいては、データベースからドキュメントが選択され
る。ステップＳ１３４において、データベース中のドキ
ュメントはサブドキュメントに分割される。

【００４４】図４のプロセスにおいては、２種類のサブ
ドキュメントが生成される。パラグラフがあまりに短い
かあまりに長くない限り、第１のタイプのサブドキュメ
ントはパラグラフの切れ目にその境界が生成される。す
なわち、サブドキュメントはパラグラフに対応し、そう
いったサブドキュメントは、パラグラフがセンテンスま
たはワードの数についての第１の予め選択された閾値未
満であり、または、パラグラフがセンテンスまたはワー
ドの数についての第２の予め選択された閾値を超える場
合を除き、ドキュメント中に現れることになる。

【００４５】図５はこのサブドキュメント生成プロセス
の一例を示している。図５のドキュメントは５つのパラ
グラフから構成されている。パラグラフ２００および２
０５はそれぞれ１４センテンスを含み、パラグラフ２１
０は３センテンスを含み、さらに、パラグラフ２１５お
よび２２０はそれぞれ３０センテンスを含んでいる。サ
ブドキュメント２２５および２３０はパラグラフ２００
および２０５に対応する。なぜなら、それらが第１の予
め選択された８センテンスという閾値を超えるセンテン
スを含むと共に、第２の予め選択された２０センテンス
という閾値未満のセンテンスを含むからである。

【００４６】サブドキュメント２３５はパラグラフ２０
５および２１０間の境界から始まるが、パラグラフ２１
０が８未満のセンテンスしか含んでいないため、サブド
キュメント２３５はパラグラフ２１０および２１５間の
パラグラフの境界で終わることはない。むしろ、パラグ
ラフ２１０および２１５を組合せたものが調査され、そ
れらが２０センテンスより多くのセンテンスを含むか否
かが判定される。

【００４７】ここでは例として、デフォルトのパラグラ
フサイズが選択され（例えば、１２センテンス）、パラ
グラフ２１０の３センテンスにパラグラフ２１５の最初
の１２センテンスが加えられて、サブドキュメント２３
５を形成することにする。サブドキュメント２４０はパ
ラグラフ２１５の残りのセンテンスから形成される。パ
ラグラフ２２０が２０センテンスを超えるセンテンスを
含むため、サブドキュメント２４５および２５０はパラ
グラフ２２０から生成される。

【００４８】図５に示したプロセスにおいては、それぞ
れ１４，１４，１５，１８，１２および１８センテンス
を含む一連のサブドキュメント２２５，２３０，２３
５，２４０，２４５および２５０が生成される。ベクト
ル空間解析においてサブドキュメントをスコアリングす
るという目的のため、これらのサブドキュメントのサイ
ズは同等である。しかし、このサブドキュメント生成プ
ロセスでは、パラグラフの境界ではないところでドキュ
メント・テキストを分割してしまうことになる。

【００４９】図５の２６０および２７０で示されるこれ
らの人為的な切れ目は、ドキュメントの著者が１つにま
とめられるべきと考えていたテキストを切り離してしま
うことになる。スコアリング・プロセスにおいて著者の
考えを表現するために、オーバーラッピング・サブドキ
ュメントがこれらの人為的な切れ目に生成される。図５
において２６５および２７５で示されるオーバーラッピ
ング・サブドキュメントは、人為的なテキストの切れ目
の境界上に来るように配置され、デフォルトのパラグラ
フサイズと等しいサイズを有している。

【００５０】サブドキュメント生成プロセス（図４のス
テップＳ１３４）において、サブドキュメントの最小，
最大およびデフォルトサイズに関するパラメータは、上
述した例において与えられた数より大きくまたは小さく
することができる。通常、これらのパラメータは経験的
に決定されると共に、データベースのタイプに応じて変
化させることができる。例えば、これらのパラメータに
ついて、科学的データベースを処理する場合と文学デー
タベースを処理する場合とでは異なるように設定可能で
ある。

【００５１】図４へ戻り、サブドキュメントが生成され
ると、サブドキュメントの全てがステップＳ１３６およ
びステップＳ１３８において解析される（品詞および文
法的関係が解析される）。この例において、解析プロセ
スは、クエリーに対して用いられる名詞句解析プロセス
と同一である。サブドキュメントが解析されると、サブ
ドキュメントの名詞句およびその名詞句が出現するサブ
ドキュメントを含むターム・リストがステップＳ１４０
において生成される。

【００５２】各ドキュメントに対する全てのサブドキュ
メントはこのように処理され、タームおよびサブドキュ
メントのリストがアップデートされる。最終的に、デー
タベースの全てのドキュメントがステップＳ１３２〜１
４０に従って処理される。この転置プロセスの結果は、
データベースおよび関連サブドキュメントの全てのター
ム（この例においては特に名詞句）を特定するターム・
リストとなる。

【００５３】図２に戻り、転置データベースが選択さ
れ、かつ、クエリーが解析されると、データベースのサ
ブドキュメントに対し、ステップＳ１４５においてクエ
リーに対するスコア付けが行われる。図６はサブドキュ
メントにスコア付けするためのプロセスを示している。
図６のステップＳ３０５において、タームがクエリーか
ら選択される。ステップＳ３１０において、そのターム
が出現する全てのサブドキュメントが転置データベース
から返される。

【００５４】各サブドキュメントについて、クエリーの
タームおよびサブドキュメントについての類似スコアが
ステップＳ３２０において計算される。全てのサブドキ
ュメントに関するこれらの類似スコアが計算され、か
つ、全てのクエリーのタームにわたって合計される。各
サブドキュメントについての最終的なスコアは、ステッ
プＳ３３０において生成される。

【００５５】図２のステップＳ１４５において各サブド
キュメントがスコア付けされた後、各ドキュメントにつ
いての最高スコアのサブドキュメントに従い、ステップ
Ｓ１５０においてヒープ・ソート・プロセス（heap sor
t process ）を実行してデータベースのドキュメントを
ランク順に並び替える。最高スコアのサブドキュメント
は、パラグラフ型サブドキュメントおよびオーバーラッ
プ型サブドキュメントのいずれであっても良い。

【００５６】パラグラフはしばしば１つのトピックに限
定されるため、パラグラフに対応しているサブドキュメ
ントは一般に最高スコアのサブドキュメントである。し
かし、パラグラフ・テキストに人為的な切れ目が導入さ
れたとき、トピックは隣接するサブドキュメント間のテ
キストの橋渡しを行うことがある。これらのタイプの場
合においては、オーバーラップ・サブドキュメントが時
々最高スコアのサブドキュメントとなるであろう。これ
らの場合において、隣接するパラグラフ・サブドキュメ
ントにはオーバーラッピング・サブドキュメントと同じ
くらい高いスコアが付けられることはないだろう。

【００５７】なぜなら、パラグラフのテキストが切り離
されたときにトピックの文脈が失われてしまっているか
らである。その結果、ドキュメントをスコアリングする
際に、パラグラフ・サブドキュメントおよびオーバーラ
ッピング・サブドキュメントの組合せを用いることは最
も関連するドキュメントを選択するために有効である。
このスコアリング手法は、関連性のスコアリングを行う
際にサブドキュメントの任意の境界が用いられたときに
起こる検索意図の消失を避ける。ただし、ドキュメント
のサイズについてスコアリング・プロセスを正規化する
ことが条件である。

【００５８】図２に戻り、ステップＳ１５０においてド
キュメントがランク順に並び替えられると、ステップＳ
１６０において、コンピュータシステムは最高ランキン
グのドキュメントからのテキストを順番に表示する。表
示されるテキストは、通常最高ランキングのサブドキュ
メントのテキストからである。代替的な実施の形態にお
いて、表示されるテキストを全ドキュメントとすること
も可能である。さらなる実施の形態において、表示され
るテキストは、ドキュメント中のサブドキュメントのリ
スト（スコアによってランク付けされた）とすることも
可能である。

【００５９】この発明について、実施の形態に関連して
詳細に説明および図示したが、上記の記述または図解に
おいて、発明の精神または範囲から逸脱することなく、
形式または細目に関して変更可能であるということは当
業者によって理解されるであろう。

【００６０】

【発明の効果】以上説明したように、本発明のデータベ
ースの文書表示方法およびその装置によれば、データベ
ース中のドキュメントを解析することができ、また、特
定のクエリーを基準として、データベース中のドキュメ
ントの類似性を判定することができる。さらに、データ
ベース中の複数のドキュメントについてクエリーに対す
る相対的な類似性を判定することができる。

【図面の簡単な説明】

【図１】データベースの情報を検索するための本発明に
よるコンピュータ・システムの概略構成図である。

【図２】データベースの情報を検索するための本発明に
よるプロセスのフローチャートである。

【図３】名詞句によってテキストを解析した結果の説明
図である。

【図４】データベースを転置するための本発明によるプ
ロセスのフローチャートである。

【図５】データベースの情報検索に関係するサブドキュ
メントを生成するための本発明によるプロセスの説明図
である。

【図６】データベースをスコアリングするための本発明
によるプロセスのフローチャートである。

【符号の説明】５ディスプレイ７キーボード９マウス１０Ｉ／Ｏシステム２０コンピュータ３０中央処理装置４０主記憶装置２０ディスク記憶装置２００，２０５，２１０，２１５，２２０パラグラフ２２５，２３０，２３５，２４０，２４５，２５０サ
ブドキュメント２６０，２７０人為的な切れ目２６５，２７５オーバーラッピング・サブドキュメン
ト

Claims

【特許請求の範囲】

【請求項１】データベース中の複数の文書について複
数のパラグラフ・サブドキュメントを生成する工程と、データベース中の複数の文書について複数のオーバーラ
ッピング・サブドキュメントを生成する工程と、パラグラフ・サブドキュメントおよびオーバーラッピン
グ・サブドキュメントのそれぞれについてスコアを生成
し、サブドキュメントを前記データベースのクエリーと
関連付ける工程と、前記スコアに基づいて、複数のサブドキュメントをラン
ク順にソートする工程と、最高ランクのサブドキュメントが生成された文書のテキ
ストを表示する工程と、を含むことを特徴とするデータベースの文書表示方法。
【請求項２】さらに、前記複数の文書の１つにおいて
少くとも２つのパラグラフから前記オーバーラッピング
・サブドキュメントを生成する工程を含むことを特徴と
する請求項１に記載のデータベースの文書表示方法。
【請求項３】さらに、前記複数の文書の１つにおいて
１つのパラグラフから複数のサブドキュメントを生成す
る工程を含むことを特徴とする請求項１に記載のデータ
ベースの文書表示方法。
【請求項４】さらに、複数の文書のテキストを表示す
る工程を含み、その際に表示順序がランク付けされたサ
ブドキュメントの順序に対応するように複数の文書のテ
キストを表示することを特徴とする請求項１に記載のデ
ータベースの文書表示方法。
【請求項５】データベースを少なくとも１つのファイ
ル中に記憶する記憶装置およびディスプレイ装置に接続
されたコンピュータを備え、前記コンピュータは、データベースファイルのデータを
検索し、かつ、データベース中の複数の文書について複
数のパラグラフ・サブドキュメントを生成し、前記コンピュータは、データベースファイルのデータを
検索し、かつ、データベース中の複数の文書について複
数のオーバーラッピング・サブドキュメントを生成し、前記コンピュータは、前記パラグラフ・サブドキュメン
トおよびオーバーラッピング・サブドキュメントのそれ
ぞれについてスコアを生成して、サブドキュメントを前
記データベースのクエリーと関連付け、前記コンピュータは、前記スコアに基づいて、前記複数
のサブドキュメントをランク順にソートし、前記コンピュータは、最高ランクのサブドキュメントが
生成された文書のテキストを前記ディスプレイ装置に表
示することを特徴とするデータベースの文書表示装置。
【請求項６】前記コンピュータは、前記複数の文書の
１つにおいて少くとも２つのパラグラフから前記オーバ
ーラッピング・サブドキュメントを生成することを特徴
とする請求項５に記載のデータベースの文書表示装置。
【請求項７】前記コンピュータは、前記複数の文書の
１つにおいて１つのパラグラフから複数のサブドキュメ
ントを生成することを特徴とする請求項５に記載のデー
タベースの文書表示装置。
【請求項８】前記コンピュータは、複数の文書のテキ
ストを前記ディスプレイ装置に表示し、その際に表示順
序がランク付けされたサブドキュメントの順序に対応す
るように複数の文書のテキストを表示することを特徴と
する請求項５に記載のデータベースの文書表示装置。