JPH11102374A - データベースの文書表示方法およびその装置 - Google Patents
データベースの文書表示方法およびその装置Info
- Publication number
- JPH11102374A JPH11102374A JP10110876A JP11087698A JPH11102374A JP H11102374 A JPH11102374 A JP H11102374A JP 10110876 A JP10110876 A JP 10110876A JP 11087698 A JP11087698 A JP 11087698A JP H11102374 A JPH11102374 A JP H11102374A
- Authority
- JP
- Japan
- Prior art keywords
- documents
- document
- sub
- database
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
てクエリーに対する相対的な類似性を判定すること。 【解決手段】 初めに、データベース内のドキュメント
は、一般にテキストのパラグラフに対応するパラグラフ
・サブドキュメントに分割される。さらにテキストの隣
接するパラグラフ上に重なるオーバーラッピング・サブ
ドキュメントを生成する。オーバーラップ・サブドキュ
メントの位置は元のパラグラフのサイズに依存する。こ
のサブドキュメントは、パラグラフ・サブドキュメント
がスコアリングされるときにスコアリングされる。パラ
グラフ・サブドキュメントおよびオーバーラッピング・
サブドキュメントの両方のスコアは、クエリーに対する
ドキュメントの関連性をランキングする際に使用され
る。両サブドキュメントのスコアを使用することは、ス
コアリングのアルゴリズムの有効性を改善する。
Description
索および検索システムに関し、より詳細には、データベ
ース中のテキスト探索に関係する文書の解析を最適化す
る方法および装置に関する。
のテキスト(text)を探索することは、大規模なデータ
ベースのユーザにとって重大な問題となっている。全て
の所望の知的情報(intelligence information)におけ
る90%を超えるものが、アクセス可能なデータベース
に属するドキュメント(document)から得ることができ
ると推定されている。この情報を有用なものとするため
に、ユーザは特定のクエリー(query )に関連する特定
のドキュメントを探し出すことができなければならな
い。既存の情報検索システムは、効率の悪い手法を使用
して関連するドキュメントを返す。一般に、これらの既
存の情報検索システムは、ユーザのクエリーと密接に関
連したドキュメントを落としてしまう。
リアン・ロジックに基づくクエリー実行手法(Boolean
logic-based query execution techniques)が用いら
れ、ここでは論理(logic )または近接(proximity )
オペレータを介して複数のキーワードが互いに結びつけ
られる。論理オペレータは、検索の際、特定のターム
(term)を含むか、含まないかというように用いられ
る。近接オペレータは、ある数の範囲のワード(word)
において出現するキーワードの結合を単に強化するもの
である。
する、データベースのドキュメントの探索に限定され
る。このようなシステムは、複数のキーワード結合のう
ちの1つを含む任意のドキュメントのリストを単に返す
ものである。重要なことは、ブール検索システムが、
(ブーリアン・ロジック結合がドキュメントの中に存在
するという事実以外に)返されたドキュメントがクエリ
ーに対してどのように類似しているかに関する数量的基
準を有していないということである。
似性に関する数量的基準を提供する能力は2つの点にお
いて重要となる。第1に、返されたドキュメントのセッ
トがいったい意味があるか否かをユーザが判定すること
ができなければならない。第2に、いくつかのキーワー
ド結合を含んでいるかもしれないがクエリーに対して密
接に関連していないものを含む検索結果のドキュメント
から、意味のあるドキュメントを区別することができな
ければならない。
返されたドキュメントにランク付けすることができなけ
ればならない。ブーリアン型検索は、クエリーおよびデ
ータベース中のドキュメント間の類似性に関する数量的
基準を提供しないため、それらはデータベースのユーザ
に検索およびデータベース中のドキュメントに関する重
要な情報を提供することができない。
て、ベクトル空間型検索システム(vector space-type
search system )が開発された。ベクトル空間型検索シ
ステムにおいては、データベース中の各ドキュメント毎
にクエリーに関するスコアが計算される。一般に、クエ
リー「Q」およびドキュメント「D」間の類似スコア
は、データベースから生成されるTタームの直交する空
間にわたって、クエリーおよびドキュメントの共有され
た特徴および共通の要素をもたない特徴を評価すること
によって比較可能である。例えば、以下の式によって類
似スコアを計算することができる。ここで、Qi はクエ
リー中のタームであり、Dj はドキュメントの中のター
ムである。
クエリーおよびドキュメントのサンプルセットで表すこ
とができる。
ュメントD1 およびD2 に含まれた全てのタームの集合
をリスト化したものである。D1 およびD2 のスコア
は、それらのタームがドキュメント中に出現する頻度を
表すものである。Q1 およびQ 2 のスコアは、それらの
タームがクエリー中に出現する頻度を表すものである。
ドキュメントD1 に対するクエリーQ1 の類似スコアは
以下の式で計算される。
Q1 の類似スコアを計算すると、S(Q1 ,D2 )=
0.12となる。上記の例から理解できるように、ドキ
ュメントD1 に対するクエリーQ1 の類似スコアは、ド
キュメントD2 に対するクエリーQ1 の類似スコアより
高い。その結果、類似スコアはクエリーに対するドキュ
メントの相対的基準を提供することになる。データベー
ス中の全てのドキュメントについてこのような相対的ス
コアを決定することができるため、ユーザはスコアに意
味がある場合を経験的に判定することができ、その結
果、それらのスコアによってランク付けされたドキュメ
ントから重要な情報を得ることができる。
に基づいて重要な情報を得るためには、計算が実行され
るターム空間中のタームの数がドキュメント間で同等で
なければならい。上記の例において、各ドキュメントに
ついて計算されるスコアは、スコアが計算されるターム
の数に従って変化する。この例において、D1 に対する
Q1 のスコアは0.31であり、これはドキュメント・
データベースにおけるターム(グローバル・ターム空
間)の全てを使用することに基づくものである。クエリ
ーQ1 およびQ2 中のタームのみがターム空間として使
用される場合のスコアは0.45である。このシンプル
な例は、ドキュメントが比較されるターム空間が同様の
サイズからなるものでなければならないことを示してい
る。
タームが同等に出現する場合に、調節されたサイズのド
キュメントをスコアリングすることは、大きなドキュメ
ントをスコアリングするより効果的である。実際のとこ
ろ、ドキュメントのサイズを調節することは、キーワー
ドのブーリアン結合に基づく検索の効果さえも向上させ
る。しかし、データベースは一般に、複数のドキュメン
トを同等なサイズで記憶するものではない。
タベースも1ページくらいまたはそれ以下というものか
ら千ページくらいまたはそれ以上というものまでにおよ
び得る複数のドキュメントを有するであろうということ
である。その結果、ドキュメント解析手法は、この広範
囲にわたるドキュメントのサイズについて調節を行うも
のでなければならない。従来のベクトル空間分析手法
は、ドキュメントのサイズについて調節を行うものでは
ない。なぜなら、それらは全てのドキュメントについて
操作を行うものであるからである。
は、ドキュメントを一組の相互に排他的なサブドキュメ
ント(mutually exclusive subdocument)に任意に分割
すると共に、ドキュメントとしてサブドキュメントを分
析することによって、スコアリングのプロセスを正規化
することである。サブドキュメントのサイズは、単に、
サブドキュメント毎に相当数のワードを選択すると共
に、ドキュメントにおけるワードの絶対数をカウントし
てサブドキュメントの境界を生成することにより、この
改良された分析において調節される。
メントを前処理して意味のないワード、例えば、「a
t」,「the」等を取り除き、そしてワードをカウン
トすることによって生成される。これらのサブドキュメ
ントのサイズは、定義によっては変化しないだろう。そ
の結果、ターム空間の相違によるスコアリングのエラー
は減少されることになる。
メントを生成する場合、ワード数によってドキュメント
を任意に分割にすることに伴って様々なタイプのスコア
リングエラーが発生してしまうという問題がある。ドキ
ュメント中の隣接するテキストはしばしば同一のアイデ
アに関する情報を含むため、隣接するテキストから任意
に切り離してしまうとテキストの1つのセクション(se
ction )におけるフレーズ(phrase)の文脈が失われて
しまう可能性がある。
うことを避けるために、ドキュメント中のパラグラフに
基づいてサブドキュメントを生成することも可能であ
る。これは、どの領域のテキストが関連し合っているの
かについてのドキュメントの著者の見解がパラグラフに
反映されていると考えられるからである。ところが、パ
ラグラフ毎にサイズが大きく異なっていることから、パ
ラグラフに基づいてサブドキュメントを生成することに
は問題が伴う。すなわち、上述したように、サブドキュ
メント毎のサイズのばらつきが各サブドキュメントのス
コアリングに影響を及ぼすことになってしまうからであ
る。
て、データベース中のドキュメントを解析することを目
的とする。
であって、特定のクエリーを基準として、データベース
中のドキュメントの類似性を判定することをさらなる目
的とする。
であって、データベース中の複数のドキュメントについ
てクエリーに対する相対的な類似性を判定することをさ
らなる目的とする。
であって、データベース中の広範囲わたるサイズを有す
る複数のドキュメントについてクエリーに対する相対的
な類似性を判定することをさらなる目的とする。
のであって、ドキュメント中の隣接するテキストの文脈
を失うことなく、データベース中の広範囲にわたるサイ
ズを有する複数のドキュメントについてクエリーに対す
る相対的な類似性を判定することをさらなる目的とす
る。
から情報を検索するための方法および装置に関するもの
である。最初に、データベース内のドキュメントは、一
般にテキスト中の複数のパラグラフに対応した相互に排
他的な複数のサブドキュメントに分割される(相互に排
他的な複数のサブドキュメントからなる第1のセットを
生成する)。本発明は、さらにテキスト中の隣接するパ
ラグラフ間にわたってオーバーラップする複数のサブド
キュメント(オーバーラッピング・サブドキュメント
(overlapping subdocument ))からなる第2のセット
を生成する。
ントの領域は、元のパラグラフのサイズに依存する。複
数のオーバーラッピング・サブドキュメントからなる第
2のセットは、相互に排他的なサブドキュメントがスコ
アリングされる際にスコアリングされる。相互に排他的
なサブドキュメントおよびオーバーラッピング・サブド
キュメントの両方のスコアは、クエリーに対するドキュ
メントの関連性をランキングする際に使用される。サブ
ドキュメントの両方のセットのスコアを使用すること
は、スコアリングのアルゴリズムの有効性を改善するこ
とになる。
表示方法は、データベース中の複数の文書について複数
のパラグラフ・サブドキュメントを生成する工程と、デ
ータベース中の複数の文書について複数のオーバーラッ
ピング・サブドキュメントを生成する工程と、パラグラ
フ・サブドキュメントおよびオーバーラッピング・サブ
ドキュメントのそれぞれについてスコアを生成し、サブ
ドキュメントを前記データベースのクエリーと関連付け
る工程と、前記スコアに基づいて、複数のサブドキュメ
ントをランク順にソートする工程と、最高ランクのサブ
ドキュメントが生成された文書のテキストを表示する工
程と、を含むものである。
方法は、請求項1に記載のデータベースの文書表示方法
において、さらに、前記複数の文書の1つにおいて少く
とも2つのパラグラフから前記オーバーラッピング・サ
ブドキュメントを生成する工程を含むものである。
方法は、請求項1に記載のデータベースの文書表示方法
において、さらに、前記複数の文書の1つにおいて1つ
のパラグラフから複数のサブドキュメントを生成する工
程を含むものである。
方法は、請求項1に記載のデータベースの文書表示方法
において、さらに、複数の文書のテキストを表示する工
程を含み、その際に表示順序がランク付けされたサブド
キュメントの順序に対応するように複数の文書のテキス
トを表示するものである。
装置は、データベースを少なくとも1つのファイル中に
記憶する記憶装置およびディスプレイ装置に接続された
コンピュータを備え、前記コンピュータが、データベー
スファイルのデータを検索し、かつ、データベース中の
複数の文書について複数のパラグラフ・サブドキュメン
トを生成し、前記コンピュータが、データベースファイ
ルのデータを検索し、かつ、データベース中の複数の文
書について複数のオーバーラッピング・サブドキュメン
トを生成し、前記コンピュータが、前記パラグラフ・サ
ブドキュメントおよびオーバーラッピング・サブドキュ
メントのそれぞれについてスコアを生成して、サブドキ
ュメントを前記データベースのクエリーと関連付け、前
記コンピュータが、前記スコアに基づいて、前記複数の
サブドキュメントをランク順にソートし、前記コンピュ
ータが、最高ランクのサブドキュメントが生成された文
書のテキストを前記ディスプレイ装置に表示するもので
ある。
装置は、請求項5に記載のデータベースの文書表示装置
において、前記コンピュータが、前記複数の文書の1つ
において少くとも2つのパラグラフから前記オーバーラ
ッピング・サブドキュメントを生成するものである。
装置は、請求項5に記載のデータベースの文書表示装置
において、前記コンピュータが、前記複数の文書の1つ
において1つのパラグラフから複数のサブドキュメント
を生成するものである。
示装置は、請求項5に記載のデータベースの文書表示装
置において、前記コンピュータが、複数の文書のテキス
トを前記ディスプレイ装置に表示し、その際に表示順序
がランク付けされたサブドキュメントの順序に対応する
ように複数の文書のテキストを表示するものである。
の文書表示方法およびその装置の一実施の形態につい
て、添付の図面を参照しつつ詳細に説明する。
ために用いられるコンピュータ・システムのブロック図
である。コンピュータ20は、中央処理装置(CPU)
30および主記憶装置40を備えている。コンピュータ
20は、インプット/アウトプット(I/O)システム
10およびディスク記憶装置50に接続されている。I
/Oシステム10は、ディスプレイ5,キーボード7お
よびマウス9を備えている。一般に、ディスク記憶装置
50は、コンピュータ・システムを操作するためのプロ
グラムを記憶すると共に、データベースのドキュメント
を記憶する。コンピュータ20は、I/Oシステム10
およびディスク記憶装置50と対話する。
0から読み出されるサーチ・プログラム(検索プログラ
ム)を実行する。サーチ・プログラムは、クエリーに対
して最も関連するデータベースに記憶されたドキュメン
トまたはその一部のテキストをコンピュータに検索させ
る一連の命令を含んでいる。様々な方法により、クエリ
ーが生成され、コンピュータに送信される。クエリーは
キーボード7でタイプし、またはマウス9を操作するこ
とによって予め定義されたリストから選択して入力する
ことが可能なものである。また、サーチ・プログラムが
クエリーを自動的に生成することもできる。
0中のデータベースのドキュメントを検索すると共に、
それらの全てを解析してクエリーに対するそれらの関連
性を判定することによってクエリーに対し応答する。解
析プロセスにおいて、コンピュータ20はディスク記憶
装置50と対話し、各ドキュメントについて一連のサブ
ドキュメントを生成すると共に、各サブドキュメントに
ついてスコアを計算する。そして、コンピュータ20
は、クエリー対して最も関連しているサブドキュメント
を選択する。つぎにコンピュータ20は、この情報を用
いて最も関連しているサブドキュメントおよび/または
その関連ドキュメントのテキストを検索し、そのテキス
トをI/O装置10に送信する。
ーチャートである。ステップS100では、最初にキー
ボードか他の類似の装置を介してクエリーを生成する。
ステップS110においては、クエリーが解析される
(品詞および文法的関係が解析される:parse )。解析
プロセスは、クエリー内の各ワードを単にリスト化する
ことと同じくらいシンプルなものであっても良い。ステ
ップS110ではより複雑なプロセスが用いられ、ここ
ではクエリーが名詞句に処理される。このプロセスは、
言語構造をセンテンス(sentence)中のワード列に割り
当てるものである。
ームがリスト化される。この解析プロセスは、辞書(le
xicons),形態素解析(morphological analyzers )ま
たは自然言語文法構造(natural language grammar str
uctures )を使用するような技術において知られている
様々な手法によって実現可能なものである。図3は、名
詞句について解析されたテキストに関するリストの一例
である。図3のリストから明らかなように、『T』が付
加された句は名詞句であり、『V』が付加されたものは
動詞であり、『X』が付加されたものは数量等である。
ステップS120では、データベースを選択する。典型
的に、データベースの選択はクエリーに依存しない。デ
ータベースの選択は、通常、コンピュータシステムへの
ユーザ入力によるものである。しかし、データベースの
選択について、予め決定されたデータベースのリストに
基づく自動プロセスとすることも可能であり、そこでは
選択基準がクエリーに関連付けられることになる
スは前処理され、選択される前に転置(invert)されて
いる(転置ファイルが生成される)。データベースを転
置するためのプロセスは図4に示されている。転置プロ
セスにおける最初のステップであるステップS132に
おいては、データベースからドキュメントが選択され
る。ステップS134において、データベース中のドキ
ュメントはサブドキュメントに分割される。
ドキュメントが生成される。パラグラフがあまりに短い
かあまりに長くない限り、第1のタイプのサブドキュメ
ントはパラグラフの切れ目にその境界が生成される。す
なわち、サブドキュメントはパラグラフに対応し、そう
いったサブドキュメントは、パラグラフがセンテンスま
たはワードの数についての第1の予め選択された閾値未
満であり、または、パラグラフがセンテンスまたはワー
ドの数についての第2の予め選択された閾値を超える場
合を除き、ドキュメント中に現れることになる。
の一例を示している。図5のドキュメントは5つのパラ
グラフから構成されている。パラグラフ200および2
05はそれぞれ14センテンスを含み、パラグラフ21
0は3センテンスを含み、さらに、パラグラフ215お
よび220はそれぞれ30センテンスを含んでいる。サ
ブドキュメント225および230はパラグラフ200
および205に対応する。なぜなら、それらが第1の予
め選択された8センテンスという閾値を超えるセンテン
スを含むと共に、第2の予め選択された20センテンス
という閾値未満のセンテンスを含むからである。
5および210間の境界から始まるが、パラグラフ21
0が8未満のセンテンスしか含んでいないため、サブド
キュメント235はパラグラフ210および215間の
パラグラフの境界で終わることはない。むしろ、パラグ
ラフ210および215を組合せたものが調査され、そ
れらが20センテンスより多くのセンテンスを含むか否
かが判定される。
フサイズが選択され(例えば、12センテンス)、パラ
グラフ210の3センテンスにパラグラフ215の最初
の12センテンスが加えられて、サブドキュメント23
5を形成することにする。サブドキュメント240はパ
ラグラフ215の残りのセンテンスから形成される。パ
ラグラフ220が20センテンスを超えるセンテンスを
含むため、サブドキュメント245および250はパラ
グラフ220から生成される。
れ14,14,15,18,12および18センテンス
を含む一連のサブドキュメント225,230,23
5,240,245および250が生成される。ベクト
ル空間解析においてサブドキュメントをスコアリングす
るという目的のため、これらのサブドキュメントのサイ
ズは同等である。しかし、このサブドキュメント生成プ
ロセスでは、パラグラフの境界ではないところでドキュ
メント・テキストを分割してしまうことになる。
らの人為的な切れ目は、ドキュメントの著者が1つにま
とめられるべきと考えていたテキストを切り離してしま
うことになる。スコアリング・プロセスにおいて著者の
考えを表現するために、オーバーラッピング・サブドキ
ュメントがこれらの人為的な切れ目に生成される。図5
において265および275で示されるオーバーラッピ
ング・サブドキュメントは、人為的なテキストの切れ目
の境界上に来るように配置され、デフォルトのパラグラ
フサイズと等しいサイズを有している。
テップS134)において、サブドキュメントの最小,
最大およびデフォルトサイズに関するパラメータは、上
述した例において与えられた数より大きくまたは小さく
することができる。通常、これらのパラメータは経験的
に決定されると共に、データベースのタイプに応じて変
化させることができる。例えば、これらのパラメータに
ついて、科学的データベースを処理する場合と文学デー
タベースを処理する場合とでは異なるように設定可能で
ある。
ると、サブドキュメントの全てがステップS136およ
びステップS138において解析される(品詞および文
法的関係が解析される)。この例において、解析プロセ
スは、クエリーに対して用いられる名詞句解析プロセス
と同一である。サブドキュメントが解析されると、サブ
ドキュメントの名詞句およびその名詞句が出現するサブ
ドキュメントを含むターム・リストがステップS140
において生成される。
メントはこのように処理され、タームおよびサブドキュ
メントのリストがアップデートされる。最終的に、デー
タベースの全てのドキュメントがステップS132〜1
40に従って処理される。この転置プロセスの結果は、
データベースおよび関連サブドキュメントの全てのター
ム(この例においては特に名詞句)を特定するターム・
リストとなる。
れ、かつ、クエリーが解析されると、データベースのサ
ブドキュメントに対し、ステップS145においてクエ
リーに対するスコア付けが行われる。図6はサブドキュ
メントにスコア付けするためのプロセスを示している。
図6のステップS305において、タームがクエリーか
ら選択される。ステップS310において、そのターム
が出現する全てのサブドキュメントが転置データベース
から返される。
タームおよびサブドキュメントについての類似スコアが
ステップS320において計算される。全てのサブドキ
ュメントに関するこれらの類似スコアが計算され、か
つ、全てのクエリーのタームにわたって合計される。各
サブドキュメントについての最終的なスコアは、ステッ
プS330において生成される。
キュメントがスコア付けされた後、各ドキュメントにつ
いての最高スコアのサブドキュメントに従い、ステップ
S150においてヒープ・ソート・プロセス(heap sor
t process )を実行してデータベースのドキュメントを
ランク順に並び替える。最高スコアのサブドキュメント
は、パラグラフ型サブドキュメントおよびオーバーラッ
プ型サブドキュメントのいずれであっても良い。
定されるため、パラグラフに対応しているサブドキュメ
ントは一般に最高スコアのサブドキュメントである。し
かし、パラグラフ・テキストに人為的な切れ目が導入さ
れたとき、トピックは隣接するサブドキュメント間のテ
キストの橋渡しを行うことがある。これらのタイプの場
合においては、オーバーラップ・サブドキュメントが時
々最高スコアのサブドキュメントとなるであろう。これ
らの場合において、隣接するパラグラフ・サブドキュメ
ントにはオーバーラッピング・サブドキュメントと同じ
くらい高いスコアが付けられることはないだろう。
されたときにトピックの文脈が失われてしまっているか
らである。その結果、ドキュメントをスコアリングする
際に、パラグラフ・サブドキュメントおよびオーバーラ
ッピング・サブドキュメントの組合せを用いることは最
も関連するドキュメントを選択するために有効である。
このスコアリング手法は、関連性のスコアリングを行う
際にサブドキュメントの任意の境界が用いられたときに
起こる検索意図の消失を避ける。ただし、ドキュメント
のサイズについてスコアリング・プロセスを正規化する
ことが条件である。
キュメントがランク順に並び替えられると、ステップS
160において、コンピュータシステムは最高ランキン
グのドキュメントからのテキストを順番に表示する。表
示されるテキストは、通常最高ランキングのサブドキュ
メントのテキストからである。代替的な実施の形態にお
いて、表示されるテキストを全ドキュメントとすること
も可能である。さらなる実施の形態において、表示され
るテキストは、ドキュメント中のサブドキュメントのリ
スト(スコアによってランク付けされた)とすることも
可能である。
詳細に説明および図示したが、上記の記述または図解に
おいて、発明の精神または範囲から逸脱することなく、
形式または細目に関して変更可能であるということは当
業者によって理解されるであろう。
ースの文書表示方法およびその装置によれば、データベ
ース中のドキュメントを解析することができ、また、特
定のクエリーを基準として、データベース中のドキュメ
ントの類似性を判定することができる。さらに、データ
ベース中の複数のドキュメントについてクエリーに対す
る相対的な類似性を判定することができる。
よるコンピュータ・システムの概略構成図である。
よるプロセスのフローチャートである。
図である。
ロセスのフローチャートである。
メントを生成するための本発明によるプロセスの説明図
である。
によるプロセスのフローチャートである。
ブドキュメント 260,270 人為的な切れ目 265,275 オーバーラッピング・サブドキュメン
ト
Claims (8)
- 【請求項1】 データベース中の複数の文書について複
数のパラグラフ・サブドキュメントを生成する工程と、 データベース中の複数の文書について複数のオーバーラ
ッピング・サブドキュメントを生成する工程と、 パラグラフ・サブドキュメントおよびオーバーラッピン
グ・サブドキュメントのそれぞれについてスコアを生成
し、サブドキュメントを前記データベースのクエリーと
関連付ける工程と、 前記スコアに基づいて、複数のサブドキュメントをラン
ク順にソートする工程と、 最高ランクのサブドキュメントが生成された文書のテキ
ストを表示する工程と、 を含むことを特徴とするデータベースの文書表示方法。 - 【請求項2】 さらに、前記複数の文書の1つにおいて
少くとも2つのパラグラフから前記オーバーラッピング
・サブドキュメントを生成する工程を含むことを特徴と
する請求項1に記載のデータベースの文書表示方法。 - 【請求項3】 さらに、前記複数の文書の1つにおいて
1つのパラグラフから複数のサブドキュメントを生成す
る工程を含むことを特徴とする請求項1に記載のデータ
ベースの文書表示方法。 - 【請求項4】 さらに、複数の文書のテキストを表示す
る工程を含み、その際に表示順序がランク付けされたサ
ブドキュメントの順序に対応するように複数の文書のテ
キストを表示することを特徴とする請求項1に記載のデ
ータベースの文書表示方法。 - 【請求項5】 データベースを少なくとも1つのファイ
ル中に記憶する記憶装置およびディスプレイ装置に接続
されたコンピュータを備え、 前記コンピュータは、データベースファイルのデータを
検索し、かつ、データベース中の複数の文書について複
数のパラグラフ・サブドキュメントを生成し、 前記コンピュータは、データベースファイルのデータを
検索し、かつ、データベース中の複数の文書について複
数のオーバーラッピング・サブドキュメントを生成し、 前記コンピュータは、前記パラグラフ・サブドキュメン
トおよびオーバーラッピング・サブドキュメントのそれ
ぞれについてスコアを生成して、サブドキュメントを前
記データベースのクエリーと関連付け、 前記コンピュータは、前記スコアに基づいて、前記複数
のサブドキュメントをランク順にソートし、 前記コンピュータは、最高ランクのサブドキュメントが
生成された文書のテキストを前記ディスプレイ装置に表
示することを特徴とするデータベースの文書表示装置。 - 【請求項6】 前記コンピュータは、前記複数の文書の
1つにおいて少くとも2つのパラグラフから前記オーバ
ーラッピング・サブドキュメントを生成することを特徴
とする請求項5に記載のデータベースの文書表示装置。 - 【請求項7】 前記コンピュータは、前記複数の文書の
1つにおいて1つのパラグラフから複数のサブドキュメ
ントを生成することを特徴とする請求項5に記載のデー
タベースの文書表示装置。 - 【請求項8】 前記コンピュータは、複数の文書のテキ
ストを前記ディスプレイ装置に表示し、その際に表示順
序がランク付けされたサブドキュメントの順序に対応す
るように複数の文書のテキストを表示することを特徴と
する請求項5に記載のデータベースの文書表示装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/900019 | 1997-07-25 | ||
| US08/900,019 US5907840A (en) | 1997-07-25 | 1997-07-25 | Overlapping subdocuments in a vector space search process |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11102374A true JPH11102374A (ja) | 1999-04-13 |
Family
ID=25411860
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10110876A Pending JPH11102374A (ja) | 1997-07-25 | 1998-04-21 | データベースの文書表示方法およびその装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (2) | US5907840A (ja) |
| JP (1) | JPH11102374A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010211664A (ja) * | 2009-03-12 | 2010-09-24 | Toshiba Corp | 検索を支援する装置、方法およびプログラム |
Families Citing this family (37)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
| US5926808A (en) * | 1997-07-25 | 1999-07-20 | Claritech Corporation | Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network |
| US6278990B1 (en) * | 1997-07-25 | 2001-08-21 | Claritech Corporation | Sort system for text retrieval |
| US5907840A (en) * | 1997-07-25 | 1999-05-25 | Claritech Corporation | Overlapping subdocuments in a vector space search process |
| US6598045B2 (en) * | 1998-04-07 | 2003-07-22 | Intel Corporation | System and method for piecemeal relevance evaluation |
| US6256622B1 (en) * | 1998-04-21 | 2001-07-03 | Apple Computer, Inc. | Logical division of files into multiple articles for search and retrieval |
| JP2000132553A (ja) * | 1998-10-22 | 2000-05-12 | Sharp Corp | キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| US6473755B2 (en) * | 1999-01-04 | 2002-10-29 | Claritech Corporation | Overlapping subdocuments in a vector space search process |
| JP3347088B2 (ja) * | 1999-02-12 | 2002-11-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 関連情報検索方法およびシステム |
| JP4021583B2 (ja) * | 1999-04-08 | 2007-12-12 | 富士通株式会社 | 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体 |
| US6684221B1 (en) * | 1999-05-06 | 2004-01-27 | Oracle International Corporation | Uniform hierarchical information classification and mapping system |
| AUPQ599700A0 (en) * | 2000-03-03 | 2000-03-23 | Super Internet Site System Pty Ltd | On-line geographical directory |
| US6526440B1 (en) * | 2001-01-30 | 2003-02-25 | Google, Inc. | Ranking search results by reranking the results based on local inter-connectivity |
| US20040003028A1 (en) * | 2002-05-08 | 2004-01-01 | David Emmett | Automatic display of web content to smaller display devices: improved summarization and navigation |
| US6829605B2 (en) * | 2001-05-24 | 2004-12-07 | Microsoft Corporation | Method and apparatus for deriving logical relations from linguistic relations with multiple relevance ranking strategies for information retrieval |
| US7426509B2 (en) * | 2002-11-15 | 2008-09-16 | Justsystems Evans Research, Inc. | Method and apparatus for document filtering using ensemble filters |
| US20050068013A1 (en) * | 2003-09-30 | 2005-03-31 | Scoggins Robert L. | Apparatus and methods for power regulation of electrical loads to provide reduction in power consumption with reversing contactors |
| US7356187B2 (en) * | 2004-04-12 | 2008-04-08 | Clairvoyance Corporation | Method and apparatus for adjusting the model threshold of a support vector machine for text classification and filtering |
| US7613666B1 (en) | 2004-04-23 | 2009-11-03 | Microsoft Corporation | Generating a class model from a business vocabulary to represent facts expressible in the business vocabulary |
| US7802231B2 (en) * | 2004-04-30 | 2010-09-21 | Microsoft Corporation | Generating programmatic interfaces from natural language expressions of authorizations for provision of information |
| US7620935B2 (en) * | 2004-04-30 | 2009-11-17 | Microsoft Corporation | Generating programmatic interfaces from natural language expressions of authorizations for request of information |
| US7613676B2 (en) * | 2004-07-27 | 2009-11-03 | Microsoft Corporation | Generating a database model from natural language expressions of business rules |
| US8050907B2 (en) * | 2004-07-30 | 2011-11-01 | Microsoft Corporation | Generating software components from business rules expressed in a natural language |
| US8065316B1 (en) | 2004-09-30 | 2011-11-22 | Google Inc. | Systems and methods for providing search query refinements |
| US20070112898A1 (en) * | 2005-11-15 | 2007-05-17 | Clairvoyance Corporation | Methods and apparatus for probe-based clustering |
| US7925644B2 (en) * | 2007-03-01 | 2011-04-12 | Microsoft Corporation | Efficient retrieval algorithm by query term discrimination |
| US20090287668A1 (en) * | 2008-05-16 | 2009-11-19 | Justsystems Evans Research, Inc. | Methods and apparatus for interactive document clustering |
| US20090326924A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Projecting Semantic Information from a Language Independent Syntactic Model |
| US20090326925A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Projecting syntactic information using a bottom-up pattern matching algorithm |
| US10885089B2 (en) * | 2015-08-21 | 2021-01-05 | Cortical.Io Ag | Methods and systems for identifying a level of similarity between a filtering criterion and a data item within a set of streamed documents |
| US12147459B2 (en) | 2014-08-07 | 2024-11-19 | Cortical.Io Ag | Methods and systems for mapping data items to sparse distributed representations |
| US11379538B1 (en) | 2016-05-19 | 2022-07-05 | Artemis Intelligence Llc | Systems and methods for automatically identifying unmet technical needs and/or technical problems |
| US10572221B2 (en) | 2016-10-20 | 2020-02-25 | Cortical.Io Ag | Methods and systems for identifying a level of similarity between a plurality of data representations |
| US11392651B1 (en) | 2017-04-14 | 2022-07-19 | Artemis Intelligence Llc | Systems and methods for automatically identifying unmet technical needs and/or technical problems |
| CN107577782B (zh) * | 2017-09-14 | 2021-04-30 | 国家计算机网络与信息安全管理中心 | 一种基于异质数据的人物相似度刻画方法 |
| US11762916B1 (en) | 2020-08-17 | 2023-09-19 | Artemis Intelligence Llc | User interface for identifying unmet technical needs and/or technical problems |
| US11734332B2 (en) | 2020-11-19 | 2023-08-22 | Cortical.Io Ag | Methods and systems for reuse of data item fingerprints in generation of semantic maps |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
| US5724567A (en) * | 1994-04-25 | 1998-03-03 | Apple Computer, Inc. | System for directing relevance-ranked data objects to computer users |
| US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
| US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
| US5907840A (en) * | 1997-07-25 | 1999-05-25 | Claritech Corporation | Overlapping subdocuments in a vector space search process |
-
1997
- 1997-07-25 US US08/900,019 patent/US5907840A/en not_active Expired - Fee Related
-
1998
- 1998-04-21 JP JP10110876A patent/JPH11102374A/ja active Pending
-
1999
- 1999-01-04 US US09/225,115 patent/US6205443B1/en not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010211664A (ja) * | 2009-03-12 | 2010-09-24 | Toshiba Corp | 検索を支援する装置、方法およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US6205443B1 (en) | 2001-03-20 |
| US5907840A (en) | 1999-05-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH11102374A (ja) | データベースの文書表示方法およびその装置 | |
| US6523030B1 (en) | Sort system for merging database entries | |
| US6876998B2 (en) | Method for cross-linguistic document retrieval | |
| US5724571A (en) | Method and apparatus for generating query responses in a computer-based document retrieval system | |
| US4972349A (en) | Information retrieval system and method | |
| US5926808A (en) | Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network | |
| US6678677B2 (en) | Apparatus and method for information retrieval using self-appending semantic lattice | |
| US5893094A (en) | Method and apparatus using run length encoding to evaluate a database | |
| US6278990B1 (en) | Sort system for text retrieval | |
| JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
| JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JPH0844771A (ja) | 情報検索装置 | |
| US6473755B2 (en) | Overlapping subdocuments in a vector space search process | |
| JPH0944523A (ja) | 関連語提示装置 | |
| JP3856388B2 (ja) | 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JP3894428B2 (ja) | 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム | |
| AU607963B2 (en) | Information retrieval system and method | |
| JP2000105769A (ja) | 文書表示方法 | |
| JPH07134720A (ja) | 文章作成システムにおける関連情報提示方法及び装置 | |
| JPH1145255A (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JPH11126204A (ja) | 速読支援方法、文書検索方法およびその装置 | |
| JPH09305626A (ja) | 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法 | |
| JP7778743B2 (ja) | 文書検索プログラム、文書検索装置および文書検索方法 | |
| JP4373478B2 (ja) | 文書検索装置及び文書検索方法 | |
| JP2003162542A (ja) | 情報検索装置及び特許情報検索装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050420 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080430 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080724 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080729 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081028 |