JPH11102374A - データベースの文書表示方法およびその装置 - Google Patents

データベースの文書表示方法およびその装置

Info

Publication number
JPH11102374A
JPH11102374A JP10110876A JP11087698A JPH11102374A JP H11102374 A JPH11102374 A JP H11102374A JP 10110876 A JP10110876 A JP 10110876A JP 11087698 A JP11087698 A JP 11087698A JP H11102374 A JPH11102374 A JP H11102374A
Authority
JP
Japan
Prior art keywords
documents
document
sub
database
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10110876A
Other languages
English (en)
Inventor
A Evans David
エイ.エバンズ デビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KURARITEC CORP
Original Assignee
KURARITEC CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KURARITEC CORP filed Critical KURARITEC CORP
Publication of JPH11102374A publication Critical patent/JPH11102374A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 データベース中の複数のドキュメントについ
てクエリーに対する相対的な類似性を判定すること。 【解決手段】 初めに、データベース内のドキュメント
は、一般にテキストのパラグラフに対応するパラグラフ
・サブドキュメントに分割される。さらにテキストの隣
接するパラグラフ上に重なるオーバーラッピング・サブ
ドキュメントを生成する。オーバーラップ・サブドキュ
メントの位置は元のパラグラフのサイズに依存する。こ
のサブドキュメントは、パラグラフ・サブドキュメント
がスコアリングされるときにスコアリングされる。パラ
グラフ・サブドキュメントおよびオーバーラッピング・
サブドキュメントの両方のスコアは、クエリーに対する
ドキュメントの関連性をランキングする際に使用され
る。両サブドキュメントのスコアを使用することは、ス
コアリングのアルゴリズムの有効性を改善する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はコンピュータ情報探
索および検索システムに関し、より詳細には、データベ
ース中のテキスト探索に関係する文書の解析を最適化す
る方法および装置に関する。
【0002】
【従来の技術】データベースにおいて常に増加する大量
のテキスト(text)を探索することは、大規模なデータ
ベースのユーザにとって重大な問題となっている。全て
の所望の知的情報(intelligence information)におけ
る90%を超えるものが、アクセス可能なデータベース
に属するドキュメント(document)から得ることができ
ると推定されている。この情報を有用なものとするため
に、ユーザは特定のクエリー(query )に関連する特定
のドキュメントを探し出すことができなければならな
い。既存の情報検索システムは、効率の悪い手法を使用
して関連するドキュメントを返す。一般に、これらの既
存の情報検索システムは、ユーザのクエリーと密接に関
連したドキュメントを落としてしまう。
【0003】例えば、従来の情報検索システムではブー
リアン・ロジックに基づくクエリー実行手法(Boolean
logic-based query execution techniques)が用いら
れ、ここでは論理(logic )または近接(proximity )
オペレータを介して複数のキーワードが互いに結びつけ
られる。論理オペレータは、検索の際、特定のターム
(term)を含むか、含まないかというように用いられ
る。近接オペレータは、ある数の範囲のワード(word)
において出現するキーワードの結合を単に強化するもの
である。
【0004】ブーリアン検索は、キーワード結合が出現
する、データベースのドキュメントの探索に限定され
る。このようなシステムは、複数のキーワード結合のう
ちの1つを含む任意のドキュメントのリストを単に返す
ものである。重要なことは、ブール検索システムが、
(ブーリアン・ロジック結合がドキュメントの中に存在
するという事実以外に)返されたドキュメントがクエリ
ーに対してどのように類似しているかに関する数量的基
準を有していないということである。
【0005】クエリーと個々のドキュメントとの間の類
似性に関する数量的基準を提供する能力は2つの点にお
いて重要となる。第1に、返されたドキュメントのセッ
トがいったい意味があるか否かをユーザが判定すること
ができなければならない。第2に、いくつかのキーワー
ド結合を含んでいるかもしれないがクエリーに対して密
接に関連していないものを含む検索結果のドキュメント
から、意味のあるドキュメントを区別することができな
ければならない。
【0006】すなわち、ユーザは、クエリーに関連して
返されたドキュメントにランク付けすることができなけ
ればならない。ブーリアン型検索は、クエリーおよびデ
ータベース中のドキュメント間の類似性に関する数量的
基準を提供しないため、それらはデータベースのユーザ
に検索およびデータベース中のドキュメントに関する重
要な情報を提供することができない。
【0007】ブーリアン型検索システムの欠点に応じ
て、ベクトル空間型検索システム(vector space-type
search system )が開発された。ベクトル空間型検索シ
ステムにおいては、データベース中の各ドキュメント毎
にクエリーに関するスコアが計算される。一般に、クエ
リー「Q」およびドキュメント「D」間の類似スコア
は、データベースから生成されるTタームの直交する空
間にわたって、クエリーおよびドキュメントの共有され
た特徴および共通の要素をもたない特徴を評価すること
によって比較可能である。例えば、以下の式によって類
似スコアを計算することができる。ここで、Qi はクエ
リー中のタームであり、Dj はドキュメントの中のター
ムである。
【0008】
【数1】
【0009】このスコアリングの手法について、以下の
クエリーおよびドキュメントのサンプルセットで表すこ
とができる。
【0010】
【表1】
【0011】この表において、ターム列は、2つのドキ
ュメントD1 およびD2 に含まれた全てのタームの集合
をリスト化したものである。D1 およびD2 のスコア
は、それらのタームがドキュメント中に出現する頻度を
表すものである。Q1 およびQ 2 のスコアは、それらの
タームがクエリー中に出現する頻度を表すものである。
ドキュメントD1 に対するクエリーQ1 の類似スコアは
以下の式で計算される。
【0012】
【数2】
【0013】また、ドキュメントD2 に対するクエリー
1 の類似スコアを計算すると、S(Q1 ,D2 )=
0.12となる。上記の例から理解できるように、ドキ
ュメントD1 に対するクエリーQ1 の類似スコアは、ド
キュメントD2 に対するクエリーQ1 の類似スコアより
高い。その結果、類似スコアはクエリーに対するドキュ
メントの相対的基準を提供することになる。データベー
ス中の全てのドキュメントについてこのような相対的ス
コアを決定することができるため、ユーザはスコアに意
味がある場合を経験的に判定することができ、その結
果、それらのスコアによってランク付けされたドキュメ
ントから重要な情報を得ることができる。
【0014】特定のドキュメントのランクおよびスコア
に基づいて重要な情報を得るためには、計算が実行され
るターム空間中のタームの数がドキュメント間で同等で
なければならい。上記の例において、各ドキュメントに
ついて計算されるスコアは、スコアが計算されるターム
の数に従って変化する。この例において、D1 に対する
1 のスコアは0.31であり、これはドキュメント・
データベースにおけるターム(グローバル・ターム空
間)の全てを使用することに基づくものである。クエリ
ーQ1 およびQ2 中のタームのみがターム空間として使
用される場合のスコアは0.45である。このシンプル
な例は、ドキュメントが比較されるターム空間が同様の
サイズからなるものでなければならないことを示してい
る。
【0015】一般に、クエリーおよびドキュメント間で
タームが同等に出現する場合に、調節されたサイズのド
キュメントをスコアリングすることは、大きなドキュメ
ントをスコアリングするより効果的である。実際のとこ
ろ、ドキュメントのサイズを調節することは、キーワー
ドのブーリアン結合に基づく検索の効果さえも向上させ
る。しかし、データベースは一般に、複数のドキュメン
トを同等なサイズで記憶するものではない。
【0016】より一般的な事例としては、いかなるデー
タベースも1ページくらいまたはそれ以下というものか
ら千ページくらいまたはそれ以上というものまでにおよ
び得る複数のドキュメントを有するであろうということ
である。その結果、ドキュメント解析手法は、この広範
囲にわたるドキュメントのサイズについて調節を行うも
のでなければならない。従来のベクトル空間分析手法
は、ドキュメントのサイズについて調節を行うものでは
ない。なぜなら、それらは全てのドキュメントについて
操作を行うものであるからである。
【0017】従来のベクトル空間分析に対する改良点
は、ドキュメントを一組の相互に排他的なサブドキュメ
ント(mutually exclusive subdocument)に任意に分割
すると共に、ドキュメントとしてサブドキュメントを分
析することによって、スコアリングのプロセスを正規化
することである。サブドキュメントのサイズは、単に、
サブドキュメント毎に相当数のワードを選択すると共
に、ドキュメントにおけるワードの絶対数をカウントし
てサブドキュメントの境界を生成することにより、この
改良された分析において調節される。
【0018】また、サブドキュメントの境界は、ドキュ
メントを前処理して意味のないワード、例えば、「a
t」,「the」等を取り除き、そしてワードをカウン
トすることによって生成される。これらのサブドキュメ
ントのサイズは、定義によっては変化しないだろう。そ
の結果、ターム空間の相違によるスコアリングのエラー
は減少されることになる。
【0019】
【発明が解決しようとする課題】上記方法でサブドキュ
メントを生成する場合、ワード数によってドキュメント
を任意に分割にすることに伴って様々なタイプのスコア
リングエラーが発生してしまうという問題がある。ドキ
ュメント中の隣接するテキストはしばしば同一のアイデ
アに関する情報を含むため、隣接するテキストから任意
に切り離してしまうとテキストの1つのセクション(se
ction )におけるフレーズ(phrase)の文脈が失われて
しまう可能性がある。
【0020】関連するテキストの領域を切り離してしま
うことを避けるために、ドキュメント中のパラグラフに
基づいてサブドキュメントを生成することも可能であ
る。これは、どの領域のテキストが関連し合っているの
かについてのドキュメントの著者の見解がパラグラフに
反映されていると考えられるからである。ところが、パ
ラグラフ毎にサイズが大きく異なっていることから、パ
ラグラフに基づいてサブドキュメントを生成することに
は問題が伴う。すなわち、上述したように、サブドキュ
メント毎のサイズのばらつきが各サブドキュメントのス
コアリングに影響を及ぼすことになってしまうからであ
る。
【0021】本発明は上記に鑑みてなされたものであっ
て、データベース中のドキュメントを解析することを目
的とする。
【0022】また、本発明は上記に鑑みてなされたもの
であって、特定のクエリーを基準として、データベース
中のドキュメントの類似性を判定することをさらなる目
的とする。
【0023】また、本発明は上記に鑑みてなされたもの
であって、データベース中の複数のドキュメントについ
てクエリーに対する相対的な類似性を判定することをさ
らなる目的とする。
【0024】また、本発明は上記に鑑みてなされたもの
であって、データベース中の広範囲わたるサイズを有す
る複数のドキュメントについてクエリーに対する相対的
な類似性を判定することをさらなる目的とする。
【0025】さらに、本発明は上記に鑑みてなされたも
のであって、ドキュメント中の隣接するテキストの文脈
を失うことなく、データベース中の広範囲にわたるサイ
ズを有する複数のドキュメントについてクエリーに対す
る相対的な類似性を判定することをさらなる目的とす
る。
【0026】
【課題を解決するための手段】本発明は、データベース
から情報を検索するための方法および装置に関するもの
である。最初に、データベース内のドキュメントは、一
般にテキスト中の複数のパラグラフに対応した相互に排
他的な複数のサブドキュメントに分割される(相互に排
他的な複数のサブドキュメントからなる第1のセットを
生成する)。本発明は、さらにテキスト中の隣接するパ
ラグラフ間にわたってオーバーラップする複数のサブド
キュメント(オーバーラッピング・サブドキュメント
(overlapping subdocument ))からなる第2のセット
を生成する。
【0027】特に、オーバーラッピング・サブドキュメ
ントの領域は、元のパラグラフのサイズに依存する。複
数のオーバーラッピング・サブドキュメントからなる第
2のセットは、相互に排他的なサブドキュメントがスコ
アリングされる際にスコアリングされる。相互に排他的
なサブドキュメントおよびオーバーラッピング・サブド
キュメントの両方のスコアは、クエリーに対するドキュ
メントの関連性をランキングする際に使用される。サブ
ドキュメントの両方のセットのスコアを使用すること
は、スコアリングのアルゴリズムの有効性を改善するこ
とになる。
【0028】すなわち、請求項1のデータベースの文書
表示方法は、データベース中の複数の文書について複数
のパラグラフ・サブドキュメントを生成する工程と、デ
ータベース中の複数の文書について複数のオーバーラッ
ピング・サブドキュメントを生成する工程と、パラグラ
フ・サブドキュメントおよびオーバーラッピング・サブ
ドキュメントのそれぞれについてスコアを生成し、サブ
ドキュメントを前記データベースのクエリーと関連付け
る工程と、前記スコアに基づいて、複数のサブドキュメ
ントをランク順にソートする工程と、最高ランクのサブ
ドキュメントが生成された文書のテキストを表示する工
程と、を含むものである。
【0029】また、請求項2のデータベースの文書表示
方法は、請求項1に記載のデータベースの文書表示方法
において、さらに、前記複数の文書の1つにおいて少く
とも2つのパラグラフから前記オーバーラッピング・サ
ブドキュメントを生成する工程を含むものである。
【0030】また、請求項3のデータベースの文書表示
方法は、請求項1に記載のデータベースの文書表示方法
において、さらに、前記複数の文書の1つにおいて1つ
のパラグラフから複数のサブドキュメントを生成する工
程を含むものである。
【0031】また、請求項4のデータベースの文書表示
方法は、請求項1に記載のデータベースの文書表示方法
において、さらに、複数の文書のテキストを表示する工
程を含み、その際に表示順序がランク付けされたサブド
キュメントの順序に対応するように複数の文書のテキス
トを表示するものである。
【0032】また、請求項5のデータベースの文書表示
装置は、データベースを少なくとも1つのファイル中に
記憶する記憶装置およびディスプレイ装置に接続された
コンピュータを備え、前記コンピュータが、データベー
スファイルのデータを検索し、かつ、データベース中の
複数の文書について複数のパラグラフ・サブドキュメン
トを生成し、前記コンピュータが、データベースファイ
ルのデータを検索し、かつ、データベース中の複数の文
書について複数のオーバーラッピング・サブドキュメン
トを生成し、前記コンピュータが、前記パラグラフ・サ
ブドキュメントおよびオーバーラッピング・サブドキュ
メントのそれぞれについてスコアを生成して、サブドキ
ュメントを前記データベースのクエリーと関連付け、前
記コンピュータが、前記スコアに基づいて、前記複数の
サブドキュメントをランク順にソートし、前記コンピュ
ータが、最高ランクのサブドキュメントが生成された文
書のテキストを前記ディスプレイ装置に表示するもので
ある。
【0033】また、請求項6のデータベースの文書表示
装置は、請求項5に記載のデータベースの文書表示装置
において、前記コンピュータが、前記複数の文書の1つ
において少くとも2つのパラグラフから前記オーバーラ
ッピング・サブドキュメントを生成するものである。
【0034】また、請求項7のデータベースの文書表示
装置は、請求項5に記載のデータベースの文書表示装置
において、前記コンピュータが、前記複数の文書の1つ
において1つのパラグラフから複数のサブドキュメント
を生成するものである。
【0035】さらに、請求項8のデータベースの文書表
示装置は、請求項5に記載のデータベースの文書表示装
置において、前記コンピュータが、複数の文書のテキス
トを前記ディスプレイ装置に表示し、その際に表示順序
がランク付けされたサブドキュメントの順序に対応する
ように複数の文書のテキストを表示するものである。
【0036】
【発明の実施の形態】以下、本発明に係るデータベース
の文書表示方法およびその装置の一実施の形態につい
て、添付の図面を参照しつつ詳細に説明する。
【0037】図1は、データベースから情報を検索する
ために用いられるコンピュータ・システムのブロック図
である。コンピュータ20は、中央処理装置(CPU)
30および主記憶装置40を備えている。コンピュータ
20は、インプット/アウトプット(I/O)システム
10およびディスク記憶装置50に接続されている。I
/Oシステム10は、ディスプレイ5,キーボード7お
よびマウス9を備えている。一般に、ディスク記憶装置
50は、コンピュータ・システムを操作するためのプロ
グラムを記憶すると共に、データベースのドキュメント
を記憶する。コンピュータ20は、I/Oシステム10
およびディスク記憶装置50と対話する。
【0038】コンピュータ20は、ディスク記憶装置5
0から読み出されるサーチ・プログラム(検索プログラ
ム)を実行する。サーチ・プログラムは、クエリーに対
して最も関連するデータベースに記憶されたドキュメン
トまたはその一部のテキストをコンピュータに検索させ
る一連の命令を含んでいる。様々な方法により、クエリ
ーが生成され、コンピュータに送信される。クエリーは
キーボード7でタイプし、またはマウス9を操作するこ
とによって予め定義されたリストから選択して入力する
ことが可能なものである。また、サーチ・プログラムが
クエリーを自動的に生成することもできる。
【0039】コンピュータ20は、ディスク記憶装置5
0中のデータベースのドキュメントを検索すると共に、
それらの全てを解析してクエリーに対するそれらの関連
性を判定することによってクエリーに対し応答する。解
析プロセスにおいて、コンピュータ20はディスク記憶
装置50と対話し、各ドキュメントについて一連のサブ
ドキュメントを生成すると共に、各サブドキュメントに
ついてスコアを計算する。そして、コンピュータ20
は、クエリー対して最も関連しているサブドキュメント
を選択する。つぎにコンピュータ20は、この情報を用
いて最も関連しているサブドキュメントおよび/または
その関連ドキュメントのテキストを検索し、そのテキス
トをI/O装置10に送信する。
【0040】図2は、本発明の一般的な動作を示すフロ
ーチャートである。ステップS100では、最初にキー
ボードか他の類似の装置を介してクエリーを生成する。
ステップS110においては、クエリーが解析される
(品詞および文法的関係が解析される:parse )。解析
プロセスは、クエリー内の各ワードを単にリスト化する
ことと同じくらいシンプルなものであっても良い。ステ
ップS110ではより複雑なプロセスが用いられ、ここ
ではクエリーが名詞句に処理される。このプロセスは、
言語構造をセンテンス(sentence)中のワード列に割り
当てるものである。
【0041】その結果、名詞句を含み、意味を有するタ
ームがリスト化される。この解析プロセスは、辞書(le
xicons),形態素解析(morphological analyzers )ま
たは自然言語文法構造(natural language grammar str
uctures )を使用するような技術において知られている
様々な手法によって実現可能なものである。図3は、名
詞句について解析されたテキストに関するリストの一例
である。図3のリストから明らかなように、『T』が付
加された句は名詞句であり、『V』が付加されたものは
動詞であり、『X』が付加されたものは数量等である。
【0042】クエリーを処理することに加えて、図2の
ステップS120では、データベースを選択する。典型
的に、データベースの選択はクエリーに依存しない。デ
ータベースの選択は、通常、コンピュータシステムへの
ユーザ入力によるものである。しかし、データベースの
選択について、予め決定されたデータベースのリストに
基づく自動プロセスとすることも可能であり、そこでは
選択基準がクエリーに関連付けられることになる
【0043】ステップS120で選択されるデータベー
スは前処理され、選択される前に転置(invert)されて
いる(転置ファイルが生成される)。データベースを転
置するためのプロセスは図4に示されている。転置プロ
セスにおける最初のステップであるステップS132に
おいては、データベースからドキュメントが選択され
る。ステップS134において、データベース中のドキ
ュメントはサブドキュメントに分割される。
【0044】図4のプロセスにおいては、2種類のサブ
ドキュメントが生成される。パラグラフがあまりに短い
かあまりに長くない限り、第1のタイプのサブドキュメ
ントはパラグラフの切れ目にその境界が生成される。す
なわち、サブドキュメントはパラグラフに対応し、そう
いったサブドキュメントは、パラグラフがセンテンスま
たはワードの数についての第1の予め選択された閾値未
満であり、または、パラグラフがセンテンスまたはワー
ドの数についての第2の予め選択された閾値を超える場
合を除き、ドキュメント中に現れることになる。
【0045】図5はこのサブドキュメント生成プロセス
の一例を示している。図5のドキュメントは5つのパラ
グラフから構成されている。パラグラフ200および2
05はそれぞれ14センテンスを含み、パラグラフ21
0は3センテンスを含み、さらに、パラグラフ215お
よび220はそれぞれ30センテンスを含んでいる。サ
ブドキュメント225および230はパラグラフ200
および205に対応する。なぜなら、それらが第1の予
め選択された8センテンスという閾値を超えるセンテン
スを含むと共に、第2の予め選択された20センテンス
という閾値未満のセンテンスを含むからである。
【0046】サブドキュメント235はパラグラフ20
5および210間の境界から始まるが、パラグラフ21
0が8未満のセンテンスしか含んでいないため、サブド
キュメント235はパラグラフ210および215間の
パラグラフの境界で終わることはない。むしろ、パラグ
ラフ210および215を組合せたものが調査され、そ
れらが20センテンスより多くのセンテンスを含むか否
かが判定される。
【0047】ここでは例として、デフォルトのパラグラ
フサイズが選択され(例えば、12センテンス)、パラ
グラフ210の3センテンスにパラグラフ215の最初
の12センテンスが加えられて、サブドキュメント23
5を形成することにする。サブドキュメント240はパ
ラグラフ215の残りのセンテンスから形成される。パ
ラグラフ220が20センテンスを超えるセンテンスを
含むため、サブドキュメント245および250はパラ
グラフ220から生成される。
【0048】図5に示したプロセスにおいては、それぞ
れ14,14,15,18,12および18センテンス
を含む一連のサブドキュメント225,230,23
5,240,245および250が生成される。ベクト
ル空間解析においてサブドキュメントをスコアリングす
るという目的のため、これらのサブドキュメントのサイ
ズは同等である。しかし、このサブドキュメント生成プ
ロセスでは、パラグラフの境界ではないところでドキュ
メント・テキストを分割してしまうことになる。
【0049】図5の260および270で示されるこれ
らの人為的な切れ目は、ドキュメントの著者が1つにま
とめられるべきと考えていたテキストを切り離してしま
うことになる。スコアリング・プロセスにおいて著者の
考えを表現するために、オーバーラッピング・サブドキ
ュメントがこれらの人為的な切れ目に生成される。図5
において265および275で示されるオーバーラッピ
ング・サブドキュメントは、人為的なテキストの切れ目
の境界上に来るように配置され、デフォルトのパラグラ
フサイズと等しいサイズを有している。
【0050】サブドキュメント生成プロセス(図4のス
テップS134)において、サブドキュメントの最小,
最大およびデフォルトサイズに関するパラメータは、上
述した例において与えられた数より大きくまたは小さく
することができる。通常、これらのパラメータは経験的
に決定されると共に、データベースのタイプに応じて変
化させることができる。例えば、これらのパラメータに
ついて、科学的データベースを処理する場合と文学デー
タベースを処理する場合とでは異なるように設定可能で
ある。
【0051】図4へ戻り、サブドキュメントが生成され
ると、サブドキュメントの全てがステップS136およ
びステップS138において解析される(品詞および文
法的関係が解析される)。この例において、解析プロセ
スは、クエリーに対して用いられる名詞句解析プロセス
と同一である。サブドキュメントが解析されると、サブ
ドキュメントの名詞句およびその名詞句が出現するサブ
ドキュメントを含むターム・リストがステップS140
において生成される。
【0052】各ドキュメントに対する全てのサブドキュ
メントはこのように処理され、タームおよびサブドキュ
メントのリストがアップデートされる。最終的に、デー
タベースの全てのドキュメントがステップS132〜1
40に従って処理される。この転置プロセスの結果は、
データベースおよび関連サブドキュメントの全てのター
ム(この例においては特に名詞句)を特定するターム・
リストとなる。
【0053】図2に戻り、転置データベースが選択さ
れ、かつ、クエリーが解析されると、データベースのサ
ブドキュメントに対し、ステップS145においてクエ
リーに対するスコア付けが行われる。図6はサブドキュ
メントにスコア付けするためのプロセスを示している。
図6のステップS305において、タームがクエリーか
ら選択される。ステップS310において、そのターム
が出現する全てのサブドキュメントが転置データベース
から返される。
【0054】各サブドキュメントについて、クエリーの
タームおよびサブドキュメントについての類似スコアが
ステップS320において計算される。全てのサブドキ
ュメントに関するこれらの類似スコアが計算され、か
つ、全てのクエリーのタームにわたって合計される。各
サブドキュメントについての最終的なスコアは、ステッ
プS330において生成される。
【0055】図2のステップS145において各サブド
キュメントがスコア付けされた後、各ドキュメントにつ
いての最高スコアのサブドキュメントに従い、ステップ
S150においてヒープ・ソート・プロセス(heap sor
t process )を実行してデータベースのドキュメントを
ランク順に並び替える。最高スコアのサブドキュメント
は、パラグラフ型サブドキュメントおよびオーバーラッ
プ型サブドキュメントのいずれであっても良い。
【0056】パラグラフはしばしば1つのトピックに限
定されるため、パラグラフに対応しているサブドキュメ
ントは一般に最高スコアのサブドキュメントである。し
かし、パラグラフ・テキストに人為的な切れ目が導入さ
れたとき、トピックは隣接するサブドキュメント間のテ
キストの橋渡しを行うことがある。これらのタイプの場
合においては、オーバーラップ・サブドキュメントが時
々最高スコアのサブドキュメントとなるであろう。これ
らの場合において、隣接するパラグラフ・サブドキュメ
ントにはオーバーラッピング・サブドキュメントと同じ
くらい高いスコアが付けられることはないだろう。
【0057】なぜなら、パラグラフのテキストが切り離
されたときにトピックの文脈が失われてしまっているか
らである。その結果、ドキュメントをスコアリングする
際に、パラグラフ・サブドキュメントおよびオーバーラ
ッピング・サブドキュメントの組合せを用いることは最
も関連するドキュメントを選択するために有効である。
このスコアリング手法は、関連性のスコアリングを行う
際にサブドキュメントの任意の境界が用いられたときに
起こる検索意図の消失を避ける。ただし、ドキュメント
のサイズについてスコアリング・プロセスを正規化する
ことが条件である。
【0058】図2に戻り、ステップS150においてド
キュメントがランク順に並び替えられると、ステップS
160において、コンピュータシステムは最高ランキン
グのドキュメントからのテキストを順番に表示する。表
示されるテキストは、通常最高ランキングのサブドキュ
メントのテキストからである。代替的な実施の形態にお
いて、表示されるテキストを全ドキュメントとすること
も可能である。さらなる実施の形態において、表示され
るテキストは、ドキュメント中のサブドキュメントのリ
スト(スコアによってランク付けされた)とすることも
可能である。
【0059】この発明について、実施の形態に関連して
詳細に説明および図示したが、上記の記述または図解に
おいて、発明の精神または範囲から逸脱することなく、
形式または細目に関して変更可能であるということは当
業者によって理解されるであろう。
【0060】
【発明の効果】以上説明したように、本発明のデータベ
ースの文書表示方法およびその装置によれば、データベ
ース中のドキュメントを解析することができ、また、特
定のクエリーを基準として、データベース中のドキュメ
ントの類似性を判定することができる。さらに、データ
ベース中の複数のドキュメントについてクエリーに対す
る相対的な類似性を判定することができる。
【図面の簡単な説明】
【図1】データベースの情報を検索するための本発明に
よるコンピュータ・システムの概略構成図である。
【図2】データベースの情報を検索するための本発明に
よるプロセスのフローチャートである。
【図3】名詞句によってテキストを解析した結果の説明
図である。
【図4】データベースを転置するための本発明によるプ
ロセスのフローチャートである。
【図5】データベースの情報検索に関係するサブドキュ
メントを生成するための本発明によるプロセスの説明図
である。
【図6】データベースをスコアリングするための本発明
によるプロセスのフローチャートである。
【符号の説明】 5 ディスプレイ 7 キーボード 9 マウス 10 I/Oシステム 20 コンピュータ 30 中央処理装置 40 主記憶装置 20 ディスク記憶装置 200,205,210,215,220 パラグラフ 225,230,235,240,245,250 サ
ブドキュメント 260,270 人為的な切れ目 265,275 オーバーラッピング・サブドキュメン

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 データベース中の複数の文書について複
    数のパラグラフ・サブドキュメントを生成する工程と、 データベース中の複数の文書について複数のオーバーラ
    ッピング・サブドキュメントを生成する工程と、 パラグラフ・サブドキュメントおよびオーバーラッピン
    グ・サブドキュメントのそれぞれについてスコアを生成
    し、サブドキュメントを前記データベースのクエリーと
    関連付ける工程と、 前記スコアに基づいて、複数のサブドキュメントをラン
    ク順にソートする工程と、 最高ランクのサブドキュメントが生成された文書のテキ
    ストを表示する工程と、 を含むことを特徴とするデータベースの文書表示方法。
  2. 【請求項2】 さらに、前記複数の文書の1つにおいて
    少くとも2つのパラグラフから前記オーバーラッピング
    ・サブドキュメントを生成する工程を含むことを特徴と
    する請求項1に記載のデータベースの文書表示方法。
  3. 【請求項3】 さらに、前記複数の文書の1つにおいて
    1つのパラグラフから複数のサブドキュメントを生成す
    る工程を含むことを特徴とする請求項1に記載のデータ
    ベースの文書表示方法。
  4. 【請求項4】 さらに、複数の文書のテキストを表示す
    る工程を含み、その際に表示順序がランク付けされたサ
    ブドキュメントの順序に対応するように複数の文書のテ
    キストを表示することを特徴とする請求項1に記載のデ
    ータベースの文書表示方法。
  5. 【請求項5】 データベースを少なくとも1つのファイ
    ル中に記憶する記憶装置およびディスプレイ装置に接続
    されたコンピュータを備え、 前記コンピュータは、データベースファイルのデータを
    検索し、かつ、データベース中の複数の文書について複
    数のパラグラフ・サブドキュメントを生成し、 前記コンピュータは、データベースファイルのデータを
    検索し、かつ、データベース中の複数の文書について複
    数のオーバーラッピング・サブドキュメントを生成し、 前記コンピュータは、前記パラグラフ・サブドキュメン
    トおよびオーバーラッピング・サブドキュメントのそれ
    ぞれについてスコアを生成して、サブドキュメントを前
    記データベースのクエリーと関連付け、 前記コンピュータは、前記スコアに基づいて、前記複数
    のサブドキュメントをランク順にソートし、 前記コンピュータは、最高ランクのサブドキュメントが
    生成された文書のテキストを前記ディスプレイ装置に表
    示することを特徴とするデータベースの文書表示装置。
  6. 【請求項6】 前記コンピュータは、前記複数の文書の
    1つにおいて少くとも2つのパラグラフから前記オーバ
    ーラッピング・サブドキュメントを生成することを特徴
    とする請求項5に記載のデータベースの文書表示装置。
  7. 【請求項7】 前記コンピュータは、前記複数の文書の
    1つにおいて1つのパラグラフから複数のサブドキュメ
    ントを生成することを特徴とする請求項5に記載のデー
    タベースの文書表示装置。
  8. 【請求項8】 前記コンピュータは、複数の文書のテキ
    ストを前記ディスプレイ装置に表示し、その際に表示順
    序がランク付けされたサブドキュメントの順序に対応す
    るように複数の文書のテキストを表示することを特徴と
    する請求項5に記載のデータベースの文書表示装置。
JP10110876A 1997-07-25 1998-04-21 データベースの文書表示方法およびその装置 Pending JPH11102374A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/900019 1997-07-25
US08/900,019 US5907840A (en) 1997-07-25 1997-07-25 Overlapping subdocuments in a vector space search process

Publications (1)

Publication Number Publication Date
JPH11102374A true JPH11102374A (ja) 1999-04-13

Family

ID=25411860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10110876A Pending JPH11102374A (ja) 1997-07-25 1998-04-21 データベースの文書表示方法およびその装置

Country Status (2)

Country Link
US (2) US5907840A (ja)
JP (1) JPH11102374A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211664A (ja) * 2009-03-12 2010-09-24 Toshiba Corp 検索を支援する装置、方法およびプログラム

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5926808A (en) * 1997-07-25 1999-07-20 Claritech Corporation Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US6278990B1 (en) * 1997-07-25 2001-08-21 Claritech Corporation Sort system for text retrieval
US5907840A (en) * 1997-07-25 1999-05-25 Claritech Corporation Overlapping subdocuments in a vector space search process
US6598045B2 (en) * 1998-04-07 2003-07-22 Intel Corporation System and method for piecemeal relevance evaluation
US6256622B1 (en) * 1998-04-21 2001-07-03 Apple Computer, Inc. Logical division of files into multiple articles for search and retrieval
JP2000132553A (ja) * 1998-10-22 2000-05-12 Sharp Corp キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
US6473755B2 (en) * 1999-01-04 2002-10-29 Claritech Corporation Overlapping subdocuments in a vector space search process
JP3347088B2 (ja) * 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
JP4021583B2 (ja) * 1999-04-08 2007-12-12 富士通株式会社 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体
US6684221B1 (en) * 1999-05-06 2004-01-27 Oracle International Corporation Uniform hierarchical information classification and mapping system
AUPQ599700A0 (en) * 2000-03-03 2000-03-23 Super Internet Site System Pty Ltd On-line geographical directory
US6526440B1 (en) * 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US20040003028A1 (en) * 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
US6829605B2 (en) * 2001-05-24 2004-12-07 Microsoft Corporation Method and apparatus for deriving logical relations from linguistic relations with multiple relevance ranking strategies for information retrieval
US7426509B2 (en) * 2002-11-15 2008-09-16 Justsystems Evans Research, Inc. Method and apparatus for document filtering using ensemble filters
US20050068013A1 (en) * 2003-09-30 2005-03-31 Scoggins Robert L. Apparatus and methods for power regulation of electrical loads to provide reduction in power consumption with reversing contactors
US7356187B2 (en) * 2004-04-12 2008-04-08 Clairvoyance Corporation Method and apparatus for adjusting the model threshold of a support vector machine for text classification and filtering
US7613666B1 (en) 2004-04-23 2009-11-03 Microsoft Corporation Generating a class model from a business vocabulary to represent facts expressible in the business vocabulary
US7802231B2 (en) * 2004-04-30 2010-09-21 Microsoft Corporation Generating programmatic interfaces from natural language expressions of authorizations for provision of information
US7620935B2 (en) * 2004-04-30 2009-11-17 Microsoft Corporation Generating programmatic interfaces from natural language expressions of authorizations for request of information
US7613676B2 (en) * 2004-07-27 2009-11-03 Microsoft Corporation Generating a database model from natural language expressions of business rules
US8050907B2 (en) * 2004-07-30 2011-11-01 Microsoft Corporation Generating software components from business rules expressed in a natural language
US8065316B1 (en) 2004-09-30 2011-11-22 Google Inc. Systems and methods for providing search query refinements
US20070112898A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for probe-based clustering
US7925644B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
US20090287668A1 (en) * 2008-05-16 2009-11-19 Justsystems Evans Research, Inc. Methods and apparatus for interactive document clustering
US20090326924A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Projecting Semantic Information from a Language Independent Syntactic Model
US20090326925A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Projecting syntactic information using a bottom-up pattern matching algorithm
US10885089B2 (en) * 2015-08-21 2021-01-05 Cortical.Io Ag Methods and systems for identifying a level of similarity between a filtering criterion and a data item within a set of streamed documents
US12147459B2 (en) 2014-08-07 2024-11-19 Cortical.Io Ag Methods and systems for mapping data items to sparse distributed representations
US11379538B1 (en) 2016-05-19 2022-07-05 Artemis Intelligence Llc Systems and methods for automatically identifying unmet technical needs and/or technical problems
US10572221B2 (en) 2016-10-20 2020-02-25 Cortical.Io Ag Methods and systems for identifying a level of similarity between a plurality of data representations
US11392651B1 (en) 2017-04-14 2022-07-19 Artemis Intelligence Llc Systems and methods for automatically identifying unmet technical needs and/or technical problems
CN107577782B (zh) * 2017-09-14 2021-04-30 国家计算机网络与信息安全管理中心 一种基于异质数据的人物相似度刻画方法
US11762916B1 (en) 2020-08-17 2023-09-19 Artemis Intelligence Llc User interface for identifying unmet technical needs and/or technical problems
US11734332B2 (en) 2020-11-19 2023-08-22 Cortical.Io Ag Methods and systems for reuse of data item fingerprints in generation of semantic maps

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5724567A (en) * 1994-04-25 1998-03-03 Apple Computer, Inc. System for directing relevance-ranked data objects to computer users
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5907840A (en) * 1997-07-25 1999-05-25 Claritech Corporation Overlapping subdocuments in a vector space search process

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211664A (ja) * 2009-03-12 2010-09-24 Toshiba Corp 検索を支援する装置、方法およびプログラム

Also Published As

Publication number Publication date
US6205443B1 (en) 2001-03-20
US5907840A (en) 1999-05-25

Similar Documents

Publication Publication Date Title
JPH11102374A (ja) データベースの文書表示方法およびその装置
US6523030B1 (en) Sort system for merging database entries
US6876998B2 (en) Method for cross-linguistic document retrieval
US5724571A (en) Method and apparatus for generating query responses in a computer-based document retrieval system
US4972349A (en) Information retrieval system and method
US5926808A (en) Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US6678677B2 (en) Apparatus and method for information retrieval using self-appending semantic lattice
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
US6278990B1 (en) Sort system for text retrieval
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0844771A (ja) 情報検索装置
US6473755B2 (en) Overlapping subdocuments in a vector space search process
JPH0944523A (ja) 関連語提示装置
JP3856388B2 (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3894428B2 (ja) 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム
AU607963B2 (en) Information retrieval system and method
JP2000105769A (ja) 文書表示方法
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11126204A (ja) 速読支援方法、文書検索方法およびその装置
JPH09305626A (ja) 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法
JP7778743B2 (ja) 文書検索プログラム、文書検索装置および文書検索方法
JP4373478B2 (ja) 文書検索装置及び文書検索方法
JP2003162542A (ja) 情報検索装置及び特許情報検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080430

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080724

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080729

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081028