JPH09223161A - コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置 - Google Patents

コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置

Info

Publication number
JPH09223161A
JPH09223161A JP8195273A JP19527396A JPH09223161A JP H09223161 A JPH09223161 A JP H09223161A JP 8195273 A JP8195273 A JP 8195273A JP 19527396 A JP19527396 A JP 19527396A JP H09223161 A JPH09223161 A JP H09223161A
Authority
JP
Japan
Prior art keywords
hit
term
query
terms
passage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8195273A
Other languages
English (en)
Inventor
William A Woods
ウィリアム・エイ・ウッズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Microsystems Inc
Original Assignee
Sun Microsystems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Microsystems Inc filed Critical Sun Microsystems Inc
Publication of JPH09223161A publication Critical patent/JPH09223161A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 本発明は、文書検索システムへの問い合わせ
に対する応答を生成する方法および装置を提供する。 【解決手段】 このシステムは、検索中の情報を含む可
能性があるテキストの部分を見つけランク付けすること
によって、情報を求める特定の要求に応答する。システ
ムは、テキストの小さな関連パッセージ(ヒット・パッ
セージと呼ぶ)を見つけ、そのようなパッセージが探索
中の情報に対応する程度の推定に応じてそのようなパッ
セージをランク付けする。所定の1組の規則に応じてそ
れぞれの異なる程度に問い合わせ句と異なる句を検索
し、この差異の程度に基づいて検索された句にペナルテ
ィを課し、優先順位構成問い合わせヒット・リストをユ
ーザに提供することによって、探索中の情報の記述と、
適当な答えを構成することができるテキスト・パッセー
ジの内容との間に出現するパラフレーズ変形例に適応す
るように緩和ランク付け構成が提供される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索システム
への問い合わせに対する応答を生成する方法および装置
に関する。大規模な文書本体(データベース)から関連
する用語(問い合わせ用語)を探索する際、テキストの
小さな関連パッセージ(「ヒット」または「ヒット・パ
ッセージ」と呼ばれる)を見つけ、それが探索中の情報
をどの程度提供するかの推定値に応じてランク付けする
ことが望ましい。
【0002】
【従来の技術】文書データベースが非常に大規模なもの
である場合、生成されるヒット・パッセージの数が多す
ぎてユーザの助けとはならない。ユーザが、所望の情報
を見つけ、あるいは、探索中の情報はそのテキストの集
合にはないと合理的に結論できるまでに調べなければな
らないヒット・パッセージの数を最小限に抑える機構が
必要である。
【0003】この種の特定の「精細」情報アクセスは、
オンライン情報システムにとってますます重要になりつ
つあり、従来型の文書検索技法ではうまく対処されてい
ない。より多くの数の検索される文書を生成する傾向が
ある(小数の語からなる)小規模な問い合わせを使用す
る場合には、この問題はさらに深刻になる。
【0004】問い合わせと目標(ヒット)パッセージの
サイズが共に小規模であるとき、現行のシステムの1つ
の問題は、探索中の情報の記述と、適当な解答を構成す
るテキスト・パッセージの文脈との間で発生するパラフ
レーズ変形に有効に対処する問題である。リテラル探索
エンジンは、パラフレーズを返さず、したがって、重要
な関連情報を逃す可能性がある。パラフレーズを許容す
る探索エンジンでは、生成される応答が多すぎる可能性
があり、適切な階層ランキングがないことが多く、最小
限の有用性を有する問い合わせ応答がもたらされる。
【0005】現在の所うまく対処されていない他の問題
は、結果として得られるヒット・パッセージの有効なラ
ンク付けである。効率的な情報アクセスを向上させるに
は、問い合わせに対する応答における合致する文書位置
の高品質なランク付けが必要である。
【0006】従来型の情報検索(「文書検索」とも呼ば
れる)では、問い合わせが文書の集合と突き合わせて測
定され、1組の「検索された」文書が返される。有用な
変形例(「関連性ランク付け」と呼ばれる)は、通常、
文書中の問い合わせ用語の出現数と文書の集合全体中の
同じ用語の出現数とのある種の関数によって、検索した
文書を、問い合わせに対する推定関連性順にランク付け
するものである。
【0007】しかし、文書検索技法は、所望の情報が見
つかる可能性が高い、検索中の文書内の特定の位置また
はパッセージを識別しようとはしない。したがって、検
索中の文書が十分に大規模なものであり、探索中の情報
が特定のものであるとき、情報シーカに対してかなりの
残余作業が残る。所望の情報が実際に文書に存在する場
合、依然として、検索中の文書を走査し探索中の情報が
どこにあるかを調べる必要がある。この欠点に対処する
機構が必要である。
【0008】パッセージ検索に関する大部分の以前の情
報検索手順では、索引付け時にパッセージ粒度が選択さ
れ、このような単位が索引付けされ、次いで、小規模の
文書の場合と同様に検索され、あるいは個別の文の集合
が検索され組み合わされパッセージが生成される。Sa
lton等著”Approaches to Pass
age Retrieval in Full Tex
t Information Systems”,Pr
oceedings of the Sixteent
h Annual International AC
M SIGIRConference on Rese
arch and Development in I
nformation Retrieval (SIG
IR93)(引用によって本明細書に編入される)AC
M Press,1993,pp49−58、Call
an,J.P.著”Passage−Level Ev
idence in Document Retrie
val”,Proceedings of the S
eventeenth Annual Interna
tional ACM−SIGIR Conferen
ce on Research and Develo
pment in Information Retr
ieval (SIGIR93)(やはり引用によって
本明細書に編入される),Springer−Verl
ag,1994,pp302−310、Wilkins
on,R.著”Effective Retrieva
lof Structured Documents”
(Proceedings of the Seven
teenth, etc.,pp311−317にも記
載されている)を参照されたい。検索中のパッセージが
問い合わせ句に合致する程度に基づいて検索用のパッセ
ージを動的にサイズ付けするシステムを有すると有用で
ある。
【0009】
【発明が解決しようとする課題】最近、隠れマルコフ連
鎖法に基づきパッセージを動的に選択することができる
異なる手法が提案されている。Mittendorf等
著”Documentand Passage Ret
rieval Based on Hidden Ma
rkov Models”(Proceedings
of theSeventeenth, etc.,p
p318−327)を参照されたい。しかし、この手法
は、テキスト材料の語彙全体には対処せず、索引付け時
に文書の記述をクラスタに低減させる必要がある。テキ
スト・ベース全体を包含すると共に、そのようなクラス
タ化を必要としないシステムを有することが好ましい。
【0010】
【課題を解決するための手段】本発明は、テキスト内の
関連する特定の情報パッセージのより効率的で有用な位
置を用いて問い合わせに対する応答を生成する方法およ
び装置に関する。この方法は、問い合わせ中の用語にあ
る程度合致する(「(含意側)用語ヒット」)用語を含
むことなどによって、問い合わせに測定可能なある程度
に合致するテキスト内の小さな領域(「ヒット・パッセ
ージ」)を見つけ、それらの領域を、測定された合致度
によってランク付けする。このランク付け手順は、本明
細書では「緩和ランク付け」と呼ばれ、提示された問い
合わせと検索されるヒット・パッセージとの間の対応を
得るために問い合わせとの厳密な合致の要件を緩和しな
ければならない程度に基づいてヒット・パッセージをラ
ンク付けする。この緩和機構は、語順、語隣接、問い合
わせ用語の屈折形または派生形、見つかった用語の問い
合わせ用語からの意味上または推論上の距離を含め、事
前に定義された様々な「次元」(合致の密度の尺度)を
考慮する。
【0011】本発明のシステムは、問い合わせ中の用語
に意味論的に類似しているテキスト(文書データベー
ス)中の用語(語または句)の出現を見つけて、すべて
または大部分の問い合わせ用語、あるいはそれに類似し
ている用語を含むテキストの小さな領域を識別する。こ
のような小さな領域は、コンパクトネス、見つかった句
の問い合わせ用語との意味論的類似、実際に見つかった
(すなわち、テキストから見つかったある用語に合致し
た)問い合わせ用語の数、対応する問い合わせ用語の順
序と比べた見つかった用語の出現の相対順序の組合せに
よってランク付けされる。
【0012】識別された小さな領域を「ヒット・パッセ
ージ」と呼び、そのランクは、(問い合わせ中の対応す
る用語間の距離に対する)合致する用語を分離する分離
距離、ならびにヒット中の用語と問い合わせ中の対応す
る用語との間の「類似」距離に基づいてかなりの程度に
加重される。
【0013】前述の基準は加重され、見つかったパッセ
ージは、所定の手順に従ってすべての加重を組み合わせ
ることによって生成されたスコアに基づいてランク付け
される。ユーザには、文書内の「ウィンドウ」(見つか
った「ヒット・パッセージ」の周りの可変サイズ領域)
が、結果として得られるランク付けに応じた順序で提示
される。
【0014】緩和ランク付けの重要な利点は、従来型の
文書検索システムでは、検索演算子のそれぞれの異なる
組合せを使用する探索シーケンスによって見つける必要
があるヒットを、システムが自動的に生成し、ランク付
けすることである。したがって、情報シーカが結果に満
足せず、したがって、問い合わせを再形成する必要があ
る回数が大幅に減少され、問い合わせを形成するために
必要な作業量も著しく減少される。
【0015】他の利点は、本システムによって生成され
るランク付けが主として文書の集合のサイズの影響も構
成の影響も受けず、いくつかの集合の群全体にわたって
意味をなし、そのため、それぞれの異なる集合を探索す
ることによって生成された用語ヒット・リストをマージ
することができ、それぞれの異なる集合から得たランク
付けスコアが同一基準のものとなることである。このた
め、索引付け・検索プロセスを並列化し、分散すること
ができる。
【0016】また、本発明のシステムは、検索中の文書
内の関連する特定のパッセージを見つけるうえで従来型
のシステムよりも優れており、かつ緩和ランク付け手順
によって生成された情報と共にこのようなパッセージを
要約し表示し、その結果、ユーザは、そのパッセージが
なぜ検索されたかを知り、したがってヒット・パッセー
ジを調べるかどうかとどのように調べるかを判断するこ
とができる。
【0017】本発明は、2語ないし6語など、短い問い
合わせを扱う際に特に有効であることが証明されてい
る。従って、本発明の検索システムは、1語問い合わせ
または6つよりも多くの用語の問い合わせに基づく探索
向けの従来型の用語探索機構を使用し、かつ2語ないし
6語の問い合わせに基づく探索向けの本発明のシステム
を使用して、それぞれの異なる問い合わせを異なるよう
に処理することができる。
【0018】
【発明の実施の形態】使用される特定のタイプのランク
付けおよびペナルティ基準と、本発明を実施するのに適
したハードウェアおよびソフトウェアの構成を含め、全
体的な一般機能に関して本発明のシステムを説明する。
緩和ランク付け方法を実施する特定の方法、ならびに本
発明の実際の実施形態によって生成された探索結果の例
を提示する。
【0019】第1節:本発明の装置 図1は、本発明を実施するコンピュータ・システム10
を示す。システム10は、プロセッサ20と、オペレー
ティング・システム、アプリケーション、データ・ファ
イルを記憶するメモリ30と、キーボードおよびマウス
40と、ディスプレイおよびその他の出力装置(プリン
タなど)50とを含む、従来型のパーソナル・コンピュ
ータまたはワークステーションでよい。厳密な構成は重
大ではない。たとえば、メモリ30は、ネットワーク上
の分散メモリ、マルチプロセッサ中の共用メモリなどで
もよい。別法として同様に、出力装置50は、大容量記
憶装置でもよく、あるいは、記憶、または表示、または
その他のタイプの出力のために、テキスト・フォーマッ
トであるか、それともグラフィカル・フォーマットであ
るか、それともその他のフォーマットであるかにかかわ
らず、探索問い合わせから得られた出力ファイルを受け
取ることができる任意の装置でもよい。この応用例で
は、「表示」は一般に、これらの可能性のどれかを包含
するために使用される。
【0020】探索問い合わせなどシステムへの入力は、
キーボードおよびマウス40を介して行われる。また、
探索問い合わせは、メモリ30に記憶されプロセッサ2
0上で実行されるアプリケーションを実行する際に生成
することも、あるいは、ネットワークまたはその他の通
信チャネル上のリモート・ホストから受信することもで
きる。したがって、探索問い合わせの源は可変的なもの
であり、本発明は、探索の実行および結果の処理に関す
る。
【0021】メモリ30は、検索エンジン60を含め、
本発明の方法を実行する命令を含むソフトウェアを記憶
する。このソフトウェアは一般に、本発明を実施するの
に必要なすべてのプログラム命令またはモジュールを含
む。下記の議論で理解されるように、本発明の教示が与
えられた場合、本発明を実施するプログラムまたはプロ
グラム・モジュールを生成することは簡単である。
【0022】下記に詳しく説明するように、メモリ30
は、探索を実行すべきすべての文書を含む文書本体70
と、文書本体内のすべての用語、または指定されたある
サブセットの索引を備える用語出現索引80も記憶す
る。また、生成装置ストア85はメモリ30の一部であ
り、プロセッサ20は、結果をディスプレイ50へ転送
できるように最終的に(プロセッサ20に接続された)
出力バッファ90に出力する前に、問い合わせ応答時に
生成された情報を一時的に生成装置ストア85に記憶す
る。
【0023】出力バッファ90は、下記に詳しく論じる
ように、ユーザが定義し、あるいは事前に決定した最大
数のヒット・パッセージを記憶し、あるいは、問い合わ
せ応答によって生成されたヒットの総数がこの所定の最
大値を超えない場合はこの総数を記憶するように構成さ
れる。ヒット・パッセージ、すなわち、用語ヒットを含
む検索中のテキストの領域は、下記に説明する本発明の
方法によるランク順に記憶される(「用語ヒット」は、
本明細書では、何らかの点で問い合わせ用語に合致する
ものとして検索された個別の用語を指すために使用され
る)。
【0024】近接バッファ95もプロセッサ20に接続
され、「ウィンドウ」、すなわち、入力された問い合わ
せ用語に合致する用語が現在プロセッサによって探索さ
れている動的可変サイズの文書中の領域の位置およびサ
イズを目標文書上に記憶するためにプロセッサによって
使用される。ウィンドウは、目標文書内の開始位置に、
その開始位置からその文書のうちのどれだけの量をヒッ
ト・パッセージに含めるべきかを決定するサイズを加え
た値として指定することができる。ヒット・パッセージ
とは、そのようなウィンドウによってカバーされる文書
の部分であり、ヒット用語、すなわち合致する用語自体
を含む。
【0025】ヒット用語およびヒット・パッセージも近
接バッファ95に記憶され、ウィンドウ情報に相関付け
られる。
【0026】図2は、後に続く問い合わせ動作をサポー
トするために使用される用語出現索引80および用語/
概念関係ネットワーク110を生成するために索引付け
すべきテキスト材料の文書本体70に適用される索引付
け動作および分析動作を実行するにはプログラム・モジ
ュールをどのように構成すべきかを示す。
【0027】用語索引付けモジュール90は、用語出現
索引80、すなわち、本体70で出現するすべての用語
リストのレコードを、各用語が出現する文書とその用語
が出現する文書内の位置をリストするその用語用のレコ
ードと共に構成する。この動作は、情報検索における従
来型の動作である。
【0028】用語分析モジュール100は、本体70中
の各用語を分析し、用語/概念関係ネットワーク11
0、すなわち、本体70内で出現する用語および概念、
または問い合わせ内で出現する関連用語および概念の本
体特有の意味ネットワークを、後で用語をテキスト中の
用語に接続するために使用できるこれらの用語および概
念間の様々な形態学、分類学、意味論上の含意関係と共
に構築する。
【0029】用語/概念関係ネットワーク110を構築
する際には、一般的な英語または他の何らかの言語の
語、あるいはその両方に関する情報の汎用レキシコン1
90と、本体70の主ドメインに特有の用語に関する用
語および情報を含むドメイン特有専門レキシコン200
とで構成されたレキシコン180が使用される。これら
のレキシコンは、用語間の形態学的関係に関する情報
と、レキシコン内では明白に出現しない用語間の形態学
的関係を導くために用語分析モジュール100内の形態
学的分析ルーチンによって使用される語のシンタックス
部分などその他の情報とを含む。そのようなレキシコン
および形態学的分析の動作および使用法は、計算言用語
学における従来どおりのものである。
【0030】用語/概念関係ネットワーク110を構築
する際には、英語または他の何らかの自然言語、あるい
はその両方の一般的な語と概念との間に成立する分類学
的包摂関係(すなわち、より一般的な用語とより特定的
な用語との間の関係)の汎用分類法130と、本体70
の主ドメインに特有の包摂関係のドメイン特有の局限分
類法140も使用される。この動作は、英語または他の
何らかの自然言語、あるいはその両方の一般的な語と概
念との間に成立する意味論的含意関係(すなわち、ある
用語または概念と、その用語を含意または意味する他の
用語または概念との間の関係)の汎用含意データベース
160と、本体70の主ドメインに特有の意味論的含意
関係のドメイン特有の含意データベース170とで構成
された意味論的含意関係150の意味ネットワークも使
用する。そのような意味論的分類法および意味ネットワ
ークの動作および使用法は、知識表現技術分野における
従来どおりのものである。John Sowa(e
d.)”Principlesof Semantic
Networks: Explorationsin
the Representation of Kn
owledge,”San Mateo: Morga
n Kaufmann, 1991(引用によって本明
細書に組み込まれている)を参照されたい。
【0031】これらのモジュールはそれぞれ、下記に説
明するように本発明の好ましい実施形態によって使用さ
れる。ただし、本発明を実施するためにそれぞれの異な
る等価構成を使用することができる。
【0032】第2節:本発明の方法 図4は、本発明の方法の一般的な実施形態を示し、図5
および6は、本発明の好ましい実施形態に従って実行さ
れるステップを具体的に示す。
【0033】2A.基本モデル:ランク付けおよびペナ
ルティ手順 図4は、下記に論じる12個のランク付けおよびペナル
ティ手順に対応する。ボックス410で、ユーザによっ
て入力され、あるいはプロセッサ20上で実行中のプロ
セスによって要求された(1つないし多数の用語からな
る)探索問い合わせ句が入力される。ボックス420な
いし550は、文書本体から検索されたパッセージにペ
ナルティを課し、それをランク付けし、表示するために
実行されるステップを表し、下記にリストしたランク付
け手順1ないし12に関係付けられる。図4の円中の数
値は、対応するように番号付けされたランク付け基準を
示す。
【0034】この一般的な議論では、下記のリスト基準
/手順1ないし12の順序および図4のボックス430
ないし550の順序は、ランク付けまたはペナルティ割
り当ての必要な順序を示すものではなく、多数の異なる
順序が可能である。
【0035】下記に論じるペナルティおよびランク付け
基準(特に、手順1ないし7のペナルティおよびランク
付け基準)は、テキストの検索中のパッセージの融通性
のきくランク付けを可能にするので、本明細書では緩和
ランク付け基準と呼ばれる。
【0036】手順1:近接ランク付けペナルティ(図4
のボックス420および470) ヒット・パッセージ
は、問い合わせ用語に関する1つまたは複数の合致を含
むテキストの小さな領域として識別され、合致する用語
どうしがどれだけ近く、あるいは離れて出現するかに応
じてペナルティを課される。すなわち、見つかった用語
どうしが、問い合わせ句中のそれらの用語の近接度と比
べて離れれば離れるほど、ペナルティが高くなる。
【0037】1組の用語と、距離しきい値、すなわち合
致を数えられるようにこれらの用語の出現を見つける範
囲をユーザが指定する、「近接演算子」を使用する従来
型の情報検索技法と、本明細書の近接ペナルティが同じ
ものではないことに留意されたい。従来型の技法では、
結果として得られるヒットは、本発明とは異なり、用語
どうしがどれだけ近く出現するかではなく、いくつの用
語が出現するかによってランク付けされる。
【0038】手順2:置換ペナルティ(図4のボックス
480) ヒット・パッセージは、問い合わせ用語の順
序とそれらの用語の対応する用語ヒットの順序との間の
置換距離の尺度を使用して、それに関連する句が、問い
合わせ句中の対応する用語とは異なる順序で出現する程
度によってペナルティを課される。
【0039】手順3:形態学的変形ペナルティ(図4の
ボックス430) 問い合わせ用語は、目標テキスト中
の用語、すなわち問い合わせ用語の屈折形または派生形
と比較され、屈折変形または派生変形よりも正確な合致
が優先されるが、わずかしか優先されないように、小さ
なペナルティ因子によってランク付けされる。
【0040】手順4:分類学的局限化ペナルティ(図4
のボックス440) 問い合わせ用語は、図2の分類法
180など、用語および概念間の分類法リスト汎用性関
係に従ってより特定的なテキスト中の用語と比較され
る。問い合わせ中の用語および概念よりも特定的なテキ
スト中の用語および概念は自動的に検索され、問い合わ
せに対する正確な合致ではないためにペナルティでラン
ク付けすることができる。
【0041】手順5:意味論的含意ペナルティ(図4の
ボックス450) 問い合わせ用語に対する高度の「意
味論的」類似を有する用語を含み、あるいは、問い合わ
せ用語を論理的に伴うヒット・パッセージは、意味論的
類似がより低く、あるいは含意強度がより低いヒット・
パッセージよりも低いペナルティを課される。
【0042】手順6:欠落用語ペナルティ(図4のボッ
クス460) すべてではなく、いくつかの問い合わせ
用語に関する合致を含むヒット・パッセージを含み、ヒ
ット・パッセージから欠落している問い合わせ用語の数
に応じてそれらのヒット・パッセージにペナルティを課
す。このようにして、完全な合致が出現しないときには
自動的に、見つかったうちで最良の合致に関する情報が
ユーザに提示される。ヒット・パッセージはまた、欠落
している用語の重要性の判定に応じてランク付けされ
る。
【0043】手順7:重なり抑制(図4のボックス50
0) より良いランクを有する他のヒット・パッセージ
に重なる(すなわち、そのようなヒット・パッセージと
同じ、目標文書上の「ウィンドウ」の少なくとも一部を
占める)ヒット・パッセージは抑制され、すなわち破棄
される。他の重なるヒット・パッセージと同じランクを
有するヒット・パッセージは、見つかった文書の全体的
なランクに何も追加しないので、同様に抑制される。
【0044】手順8:位置順序付け(図4のボックス5
10) 等しい他のすべての因子、すなわち等しいラン
ク付けスコアを有するヒットは、一次的には、デフォル
トの好ましい文書順に順序付けされ、二次的には、所与
のヒット・パッセージが文書内で出現する位置に応じて
順序付けされる。
【0045】手順9:動的パッセージ・サイズ付けおよ
び内部境界ペナルティ(図4のボックス520) ヒッ
ト・パッセージは、ヒット領域を含む文の最小シーケン
スからなるテキストのパッセージによって識別され、あ
るいは、ヒット領域が文構造を有さないテキストの部分
(たとえば、図表)内にある場合は、ヒット領域を含む
最小コヒーレント領域によって識別される。ヒット・パ
ッセージを判定する際に特定的に使用された現問い合わ
せパッセージ内の用語は、可能なら、そのような識別が
表示されるときに強調表示される。所与のヒット・パッ
セージ内で文の終わり(ピリオドなど)またはパラグラ
フの境界が出現する場合、そのパッセージにはペナルテ
ィが課される。
【0046】手順10:合致の要約(図4のボックス5
30) ヒット・パッセージは、そのような各ヒット・
パッセージ中の合致しない問い合わせ用語の特定の識別
を含む、問い合わせ中の対応する用語に合致するヒット
・パッセージ中の用語のリストによって要約される。
【0047】手順11:リストのランク付け(図4のボ
ックス540) 問い合わせを処理する際、それぞれ、
合致の質を報告するランク付けスコア(全体的なペナル
ティ合計が低いほど、より高い質を示す)を有する、見
つかった用語ヒットのランク付きリストがユーザに提示
される。したがって、各ヒット・パッセージは、合致要
約と、ヒットを構成するテキストのパッセージの表示に
よって識別される。用語ヒットは、前述のランク付け因
子を組み合わせることによって決定される順序でリスト
され、普通ならランクが等しいヒット・パッセージは、
本体およびテキスト中のそれらの位置に応じて順序付け
される。すなわち、好ましい文書中のヒット・パッセー
ジが最初に提示され、文書内の前の方にあるヒット・パ
ッセージの方が、後の方にあるヒット・パッセージより
も前に提示される。
【0048】手順12:対話パッセージ・アクセス(図
4のボックス550) 結果リスト中の各用語ヒット
は、文書中の対応するヒット・パッセージの周りの文脈
内にこのヒット・パッセージを表示するために選択でき
る少なくとも1つのアクティブ・ボタンまたはハイパー
リンクを含む。ヒット・パッセージは、それが出現する
文脈内に表示されたときには強調表示され、合致をもた
らしたヒット・パッセージ中の用語はマーク付けされ
る。その場合、ユーザは文書内を自由に動き回り、強調
表示されたヒット・パッセージに自由に戻ることができ
る。
【0049】手順400は、ステップ420ないし55
0を実行した後、図4のボックス560に示したよう
に、他の問い合わせの処理を開始する準備が完了し、そ
れ以外の場合は、ボックス570のように停止する。
【0050】2B.基本方法:物理的近接および類似に
よるランク付け 本発明の基本方法は、すべての問い合わせ用語が密に出
現し、あるいは大部分の問い合わせ用語(または大部分
の問い合わせ用語に類似している用語)が密に出現する
索引付きテキストの領域を見つけることである。このよ
うなヒット・パッセージは、緩和ランク付け基準によっ
てグレード付けされ、このランク順にユーザに提供され
る。
【0051】たとえば、ユーザが(テキスト・エディタ
・アプリケーション用のオンライン・ユーザのマニュア
ルなどの)文書本体中の句”jump to end
offile”(ファイルの終わりにジャンプする)を
見つけるための問い合わせを行った場合、検索エンジン
によって返されるヒット・パッセージは、”move
the cursor to the end of
the inputbuffer”(カーソルを入力バ
ッファの終わりへ移動する)となる可能性がある。この
場合、検索中の用語”jump”(ジャンプ)は、密な
意味論的距離を有する語としての問い合わせ用語”mo
ve”(移動する)に対応し、介在する句”the c
ursor”(カーソル)は、検索中のパッセージのコ
ンパクトネスを最初の問い合わせ句に対して比較する基
準に基づいて小さなペナルティをもたらす。介在する語
を含まない他の検索中のパッセージはこのペナルティを
受けない。
【0052】この例では、句”input buffe
r”(入力バッファ)は、ある種の測定可能な含意関係
によって問い合わせ用語”file”(ファイル)に対
応する。上記で指摘したように、含意は、問い合わせ用
語がある程度、検索中の語を意味することを示す。この
場合、”input buffer”は、用語”fil
e”の仮想存在を含意するとみなすことができる。ある
用語は、それが別の用語によって意味される場合、その
別の用語を含意する。一般に、含意する側の用語は、含
意される側の用語よりも狭く、かつ特定的であるが、ほ
ぼ同義であることもある(したがって、”bird”
(鳥)は”animal”(動物)に含意し、”plu
mage”(羽衣)は”bird”に含意する)。
【0053】ヒット・パッージ”jump to en
d of file”には、ヒットの全長、欠落してい
る用語(もしあれば)の数、問い合わせの整列する語と
対応するヒット・パッセージとの間の意味論的類似また
は含意の強度に基づいて量的ランクが割り当てられる。
【0054】この方法は、問い合わせの各用語に関する
下記の情報を与えることができる用語出現索引(その生
成については上記の第1節で論じる)を使用する。 1.その用語を含む本体中の1組のすべての文書の列挙 2.所与の文書に関して、用語が出現する文書内の(た
とえば、バイト・オフセットとしての)位置 3.集合内で用語が出現する回数、その用語が出現する
文書の数、各文書内でその用語が出現する回数、集合中
の文書および語トークンの総数などの統計的情報 そのような索引の構築は、情報検索における従来型の動
作である。
【0055】この方法はさらに、用語のステムまたは形
態学的変体、意味論的に関係する語、より特定的な用
語、ある用語を含意する用語を得る機構(上記の第1節
でも論じる)を使用する。この類似距離は、問い合わせ
語を検索中の用語に突き合わせる際に割り当てるべき関
連するペナルティとして使用される。
【0056】たとえば、問い合わせ用語”chang
e”(変化)の場合、形態学的変体には”change
d”、”changing”、”interchang
e”が含まれる。意味論的に関係する語は”influ
ence”(影響する)であってよい。より特定的な語
には”alter”(修正する)および”damag
e”(損傷する)が含まれる。含意側の語は”mov
e”であってよい(何かを移動することは位置の変化を
伴うため)。下記の説明では、これらの関係する用語は
一般に、「類似用語」または「含意側用語」と呼ばれ、
数値ペナルティは、問い合わせ用語と含意側用語との間
の関連性の種類と、2つの用語間の類似距離に基づい
て、それぞれの類似用語または含意側用語に関連付けら
れる。
【0057】問い合わせ中の各用語ごとに「生成プログ
ラム」が構築される。生成プログラムとは、問い合わせ
用語またはそれに類似する用語が出現する文書中の位置
を列挙するメモリに記憶されているデータ構造またはデ
ータベースである。問い合わせ用語またはそれに類似す
る用語のこのような出現をその用語に関する「(含意
側)用語ヒット」と呼ぶ。
【0058】集合中の文書には、それらの文書が索引付
けされた順序や、より頻繁に使用され、あるいはより豊
富な情報を与え、あるいはより有用な文書が、それほど
有用ではない文書よりも先に来る順序付けなど、任意の
順序が割り当てられる。各問い合わせ用語ごとの生成プ
ログラムは、その用語に関する用語ヒットが出現する集
合中の第1の文書中のその問い合わせ用語に関する用語
ヒットの第1の出現を生成するように初期設定される。
【0059】基本的には、この方法は、問い合わせの用
語に関する用語ヒットを含む各文書内をウィンドウを移
動させ、ウィンドウが問い合わせ全体の合致を含むかど
うかを判定し、そのウィンドウからヒット・パッセージ
を抽出すべきかどうかを選択し、そうである場合、選択
したパッセージをランク付けすることによって進行す
る。
【0060】問い合わせウィンドウのサイズは、(一時
的に)固定された位置パラメータに、所定の因子に問い
合わせの長さを乗じた積として求められたウィンドウ・
サイズ・パラメータを加えた値によって求められる。こ
の2つのパラメータは、情報シーカまたは実行中のプロ
セスによって処理することも、あるいは所定の有用な値
に設定することもできる。
【0061】文書305上のウィンドウ300が図3に
示されており、ウィンドウ300は、n個の用語32
0.1ないし320.n(t1,t2,...,tn)
を含むヒット・パッセージ320を含むテキスト31
0.1ないし310.11の行を含む。ヒット・パッセ
ージ320は、開始位置330によってマーク付けされ
た始めと、終了位置340によってマーク付けされた終
わりとを有する。
【0062】ウィンドウ300は、文書305の本体の
それぞれの異なる部分を含むように本体上を移動するこ
とができる。たとえば、ウィンドウは、図のテキストに
対して下向きに移動する際、行310.1を省き、行3
10.12(この行が、310.11の下方の次の行に
なる)を含み、次いで行310.2を省き、行310.
13を含み、以下同様である。ウィンドウ構築の使用法
を下記に詳しく提示する。
【0063】他のパラメータ(ユーザまたはプロセスに
よって事前に決定され、あるいは設定される)は、緩和
のそれぞれの異なる次元(たとえば、近接、置換、形
態、分類、含意、削除)の加重を決定し、2つのパラメ
ータは、ヒット・パッセージが文境界またはパラグラフ
境界を含む場合に割り当てるべきペナルティを指定す
る。各パラメータは、情報シーカが処理できるようにす
ることも、あるいは所定の有用な値に設定することもで
きる。パッセージのランク付けは、正味ペナルティ、す
なわち、様々なソースからそのパッセージに割り当てら
れたペナルティの和によって決定される。
【0064】2C.ヒット・パッセージを所望のランク
順に生成する一般的な方法 下記の方法は、ヒット・パッセージを生成し、探索問い
合わせを最もうまく反映するランク付けでそれらのパッ
セージを順序付ける一般的な手順を与える。
【0065】それぞれ、語または句である、用語q1,
q2,...,qmの文を問い合わせqとし、語x1,
x2,...,xnのシーケンスを含むテキスト文書を
xとする。順序付けされた用語対(p,p’)に距離尺
度d=d(p,p’)を割り当てる用語類似距離関係が
使用され( pおよびp’は用語である)、dは用語間
の類似距離である。
【0066】類似距離零は、用語の同一または完全な同
義、あるいは問い合わせ用語pとテキスト用語p’との
合致にペナルティが割り当てられない何らかの他の環境
を表す。より大きな類似距離は、例えば、一方が他方よ
りも一般的であり、あるいは他方によって含意され、あ
るいは一方のある意味が部分的に、他方のある意味と同
義であり、あるいは用語が何らかの他の点で意味論的に
類似しているため、部分的にのみ同義であり、あるいは
その他の点で関係付けられた用語に対応する。
【0067】問い合わせqが与えられており、(1)問
い合わせの用語とテキストの用語とからなる各対が小さ
な類似距離を有し、(2)問い合わせ中の用語に整列す
るテキスト中の用語がテキスト内で互いに近接して出現
し、(3)テキスト中の用語ヒットが、それに対応する
問い合わせ用語が問い合わせ内で出現する順に出現する
場合に、そのような整列をより高くランク付けするよう
に、問い合わせ中の用語とテキスト中の用語の整列a=
(q1,xi1),(q2,xi2),...,(q
m,xim)を求めたい。
【0068】問い合わせ用語のあるサブセットのみに関
するテキスト対応を有する整列も、検討され、欠落して
いる用語の種類、またはその用語が問い合わせで果たす
役割、あるいはその両方によって決定されたペナルティ
を与えることによって、より多くの問い合わせ用語を含
む整列よりも悪くランク付けされる(より高いペナルテ
ィを課される)。
【0069】問い合わせ用語qi(単一の語と、語のシ
ーケンスを含む句のどちらか)が与えられた場合、用語
距離対(t1,d1),(t2,d2),...,(t
j,dj)のリストを距離値dj、すなわち問い合わせ
用語qiと潜在的なテキスト用語tjとの間の類似距離
の増加する順に返す関数呼び出しが行われるように類似
距離関数が構成される。この関数を「類似語」と呼ぶ。
【0070】テキスト・シーケンスx1,x
2,...,xnは、所与の用語tjに関する関数呼び
出し”term−index”が、(1)その用語が出
現するすべての文書、(2)テキスト内で用語tjに関
する合致が出現するすべての位置iを見つけるように、
事前に索引付けされる。tjが語w1,w2,...,
wpのシーケンスである場合、xi=w1,xi+1=
w2,...およびxi+p−1=wpである場合には
位置iでtjに関する合致が出現する。
【0071】問い合わせq中の各用語qiに関して、そ
の用語およびそれに類似する(含意側)用語に関する用
語−索引用語リストを組み合わせることによって、用語
qiに関する用語ヒット(厳密な合致または含意側の
「密なヒット」)のシーケンスが構築される。これらの
ヒットはそれぞれ、問い合わせ用語とそれに合致するテ
キスト用語との間の類似距離に対応する加重またはペナ
ルティ(あるいは用語の厳密な合致の場合は零)を有す
る。
【0072】一般に、所与の問い合わせqに関するヒッ
ト・パッセージを生成し返す方法は下記のとおりであ
る。
【0073】1.問い合わせ中の各有意用語に関する用
語ヒットの生成プログラムをセットアップする(”o
f”や”the”などある種の関数語は無意味であると
判断され、無視される)。このような生成プログラム
は、文書中の用語ヒットを生成し、その場合、用語ヒッ
トは、集合中の文書の順に出現し、文書内では、文書内
のその用語ヒットの位置の順に出現する。
【0074】2.問い合わせqに関する全体的なヒット
・パッセージは、問い合わせの用語によって生成される
第1の類似用語(t)の位置から開始することによって
順次、生成される。この用語ヒットを「語根」と呼ぶこ
とができる。したがって、第1のヒット・パッセージ
は、集合中の最初の文書中の最初の語、すなわち、問い
合わせ中の1つの用語に関する用語ヒットである。次い
で、この方法は、同じ文書中、および語根用語tの位置
からのしきい値近接距離(近接ホライズン)によって決
定されるウィンドウ内にある問い合わせ中の他の用語に
よって生成されるすべての用語を検査する。このウィン
ドウ内で出現する他の(非語根)生成プログラムから得
た用語ヒットの各組み合わせごとに、個別の用語ヒット
間の距離、各用語ヒットで使用された類似距離または合
致ペナルティ、ヒット・パッセージの領域に関するシン
タックス情報(ヒット・パッセージに含まれる文または
パラグラフの境界があるかどうかなど)、ウィンドウ内
に対応するヒットを有さない問い合わせ中の用語に対応
する適当なペナルティ(このペナルティは、欠落してい
る語の種類、あるいは問い合わせその語の役割または集
合中の頻度、あるいはその両方に依存する)から、この
組み合わせに関する正味ペナルティ・スコアが算出され
る。このようなヒット・パッセージには、文境界ペナル
ティおよびパラグラフ境界ペナルティに関するパラメー
タ設定に応じて、文境界またはパラグラフ境界を横切っ
たことに対するペナルティも割り当てられる。そのよう
な最良の組み合わせが選択され、その問い合わせに関す
るヒット・パッセージとして生成される。
【0075】3.語根用語(t)に関する生成プログラ
ムは、ヒット・パッセージを生成した後、その用語に関
する次の用語ヒットへ進み、問い合わせ中のすべての他
の用語に関する生成プログラムが、前の語根用語が最初
に選択されたときの値に復元される。次に、新しい語根
が選択され(現在生成されている用語ヒットのうちの最
初の用語ヒット)、プロセスが繰り返される。
【0076】4.問い合わせに関するヒット・パッセー
ジを生成するこのプロセスは、十分な数の零ペナルティ
・ヒット・パッセージが生成され(指定された限界によ
って決定される)、あるいは生成すべき用語ヒットがも
はやなくなるまで繰り返され、その後、見つかったすべ
てのヒット・パッセージがその全体的な正味ペナルティ
によってソートされる。より良いヒット・パッセージま
たは同じスコアを有する前にヒット・パッセージ内に含
まれ、あるいはそれに重なるヒット・パッセージは抑圧
され、最良の残留ヒット・パッセージ(指定された限
界)は、その全体的なペナルティ・スコアの順(最小の
ペナルティが最初)に情報シーカに提示される。別法と
して、ヒット・パッセージが生成されたときにそれを表
示ウィンドウに提供することができ、新しい各ヒット
は、それが見つかったときにディスプレイ内の適当なラ
ンク位置に挿入される。重なっている表示中のヒット・
パッセージを、新しくより良いヒット・パッセージで置
き換えることを回避するには、探索ウィンドウが重なり
の点を越えるまでヒット・パッセージをディスプレイへ
送るのを遅延させることができる。
【0077】5.提示される問い合わせヒット・リスト
中の各ヒット・パッセージは、そのペナルティ・スコ
ア、合致基準の要約(各問い合わせ用語ごとの対応する
用語ヒットのリストを含む)、ソース文書内のパッセー
ジの位置の識別(文書IDやパッセージの始めおよび終
わりのバイト・オフセットなど)、検索されたパッセー
ジのテキスト文字列と共に表示される。検索されたパッ
セージは、この合致中の最初の用語ヒットよりも前に位
置するソース文書中の最後の文境界またはセグメント境
界から開始し、最後の用語ヒットの後に続く最初の文境
界またはセグメント境界で終了することによって決定さ
れる。
【0078】6.表示された用語ヒット・リストを使用
して、検索されたパッセージが出現する文脈内のそれら
のパッセージのディスプレイにアクセスすることができ
る。これを行うには、パッセージが出現する文書上で表
示ウィンドウを開き、検索されたパッセージが表示ウィ
ンドウ内に見えるように表示ウィンドウ内にテキストを
位置決めし、可能なら、そのパッセージに位置調整され
た用語ヒットがユーザに見えるようにその用語ヒットに
マーク付けする。
【0079】従来型の文書検索とは異なり、本発明のシ
ステムは、単に文書自体を見つけるのではなく、文書内
の特有の情報パッセージを見つける。これは、情報検索
において「パッセージ検索」と呼ばれていたものに類似
しているが、本発明では、パッセージは、用語および位
置の汎用全テキスト索引を使用して問い合わせに応答し
て動的に構築され、パッセージのサイズおよび粒度は合
致において見つけられるものに応じて可変である。
【0080】2D.問い合わせおよび結果の例 下記の例は、周知のEmacsテキスト・エディタ用の
チュトリアル文書に索引付けする、出願人が使用したこ
の方法の実際の実施態様によって生成された簡略用語ヒ
ット・リストの一部である。このリストで、各ヒット用
語リストは、シーケンス番号と、ペナルティ・スコア
と、合致する用語のリストと、ヒットが出現した文書
と、下記のフォーマットの文書内のヒットの位置とを含
むデータ構造を備える。 ++++++++++++++++++++<hit sequence number> (hit <penalty score> <list of matching terms><file
where hit was found> <beginning position><end pos
ition>) <retrieved text passage>
【0081】これは、問い合わせ句”move to
end of file”、すなわち、所定の文書本体
内でのこの句の探索に関して生成された結果である。こ
の例の文書本体は、前述のようにEmacsテキスト・
エディタ文書の一部である。
【0082】結果として得られるヒット・リストの最初
の3用語リストを下記に示す。 ++++++++++++++++++++1 (hit 0.115("GO""TO""END""FILE")"/home/emacs-tutor
ial"5881 5898) M-> Go to end of file(ファイルの終わりへ進む) ++++++++++++++++++++2 (hit 0.115("MOVES""TO""END""FILE")"/home/emacs-tut
orial"4984 5012)which moves to the end of file .(ファイルの終わり
へ移動する) ++++++++++++++++++++3 (hit 2.849("DASHES"(MISSING TO)"ENDS""FILE")"/home
/emacs-tutorial"15624 15753)begins and ends with dashes, and contains the stri
ng "Emacs: TUTORIAL".Your copy of the Emacs tutori
al is called "TUTORIAL". Whatever file youfind, th
at file's name will appear in that precise spot.
(ダッシュで始まりダッシュで終わり、文字列”Ema
cs:TUTORIAL”を含む。Emacsのコピー
を”TUTORIAL”と呼ぶ。どんなファイルが見つ
かっても、そのファイルの名前はその厳密なスポットに
表示される)
【0083】上記のアンダーラインの部分は、入力問い
合わせ句”move to endof file”に
関する合致として見つかった実際に検索されたヒット・
パッセージである)。
【0084】上記の結果の関連するテキストの下記の抜
粋部分は、文脈中のそれぞれのヒット・パッセージの表
示を示す。ヒット領域(パッセージ)には下線が施さ
れ、見つかった用語ヒットはボールド体で表示されてい
る。
【0085】No.1.For hit 0.115("GO""TO""END""
FILE") M-a Move back to beginning of sentence(文の始めへ
戻る) M-e Move forward to end of sentence(文の終わりへ
進む) M-< Go to beginning of file(ファイルの始めへ進
む) M-> Go to end of file(ファイルの終わりへ進む) >> Try all of these commands now a few times for p
ractice. Since the last two will take you away fro
m this screen, you can come back here with M-v's a
nd C-v's. These are the most often used commands.
(次に、練習のためにすべてのこれらのコマンドを試し
てみる。最後の2つがこの画面を終了させるので、M−
vおよびC−vによってこの画面に戻ることができる。
これらは、最も頻繁に使用されるコマンドである。
【0086】No.2.For hit 0.155("MOVES""TO""EN
D""FILE") Two other simple cursor motion commands are: M-<(M
eta Less-Than), which moves to the beginning of th
e file, and M->(Meta Greater-than), whichmoves to
the end of the file. You probably don't need to tr
y them, sincefinding this spot again will be borin
g. On most terminals the "<" is above the comma an
d you must use the shift key to type it. On these
terminals you must use the shift key to type M-< a
lso; without the shift key,you would be typing M-c
omma.(2つの他の簡単なカーソル移動コマンドは、フ
ァイルの始めへ移送するM-<(Meta Less-than)とファイ
ルの終わりへ移動するM->(Meta Greater-than) であ
る。このスポットを再び見つけることは退屈なので、お
そらくこれらを試す必要はない。大部分の端末では、”
<”はコンマの上にあり、これを入力するにはシフト・
キーを使用しなければならない。このような端末では、
M−<を入力するときにもシフト・キーを使用しなけれ
ばならない。シフト・キーがない場合は、M−コンマを
入力する)
【0087】No.3.For hit 2.849("DASHES"(MISSI
NG TO)"ENDS""FILE") If you look near the bottom of the screen you will
see a line that begins and ends with dashes, and
contains the string "Emacs: TUTORIAL". Your copy o
f the Emacs tutorial is called "TUTORIAL". Whateve
r file you find, that file's name will appear in t
hat precise spot. (画面の1番下の近くを見る場合、
ダッシュで始まりダッシュで終わり、文字列”Emac
s:TUTORIAL”を含む行が表示される。Ema
csチュトリアルのコピーを”TUTORIAL”と呼
ぶ。どんなファイルが見つかっても、そのファイルの名
前はその厳密なスポットに表示される)
【0088】合致の低さの程度を示す適当なペナルティ
・スコアを用いて、良好な合致から連続的に可能性の低
くなる合致へ次第に緩和していく。この例では、2より
も大きなペナルティ・スコアは、合致が有用でない可能
性が高いことを示す。文脈がどのように語の意味を決定
するかの影響をシステムが受けず、したがって、この文
脈では、”dashes”が明らかに動詞ではなく複数
名詞である場合でも、システムが”dashes”を”
move”が局限化したものとして受け入れることに留
意されたい。これに対して、第1のヒットでは、mov
eはより特定的な用語”go”には正しく合致し、それ
に対して第2のヒットでは屈折形”moves”に正し
く合致する。
【0089】したがって、本発明の方法は、特定の情報
要求に対する答えを含むテキスト内のパッセージを見つ
け、探索中の情報を含むと推定される程度によってその
パッセージをランク付けする。
【0090】2E.ヒット・パッセージを所望のランク
順に生成する特定の方法 図5は、本発明の方法の上位フローチャートである。ボ
ックス510で、探索問い合わせが入力され、ボックス
520で、方法は問い合わせ(探索)用語に関する合致
を含む本体中の目標領域を識別する。これは下記の第2
F節で詳しく説明する手順に従って、図2に示した用語
索引付けモジュール90および100の出力を使用して
行われる。
【0091】ボックス530で、プロセッサ20は、図
6および下記の第2F節で詳しく説明する手順で問い合
わせヒットのソート済みリストを出力バッファに充填す
る。次いで、ランク付きヒット・リストがディスプレイ
50上に表示され、あるいは将来使用できるように大容
量記憶域中のファイルとして記憶することもできる。
【0092】ボックス550で、実際のヒットが、それ
に割り当てられたランクに従って表示され、あるいは記
憶される。ヒット用語が強調表示され、目標テキスト、
すなわちヒット・パッセージが見つかった文書にハイパ
ーリンクが提供される。
【0093】これによって所与の問い合わせの処理が完
了し、他の問い合わせがある場合、方法はボックス56
0からボックス510へ進み、そうでない場合はボック
ス570で終了する。
【0094】2F.目標領域を識別し問い合わせヒット
をソートする方法 本節では、図5のステップ520を実行する本発明の方
法を論じる。これを行うために下記の6つのステップが
実行される。問い合わせが行われると、前述のように、
索引モジュール90および100の結果を使用すること
によって文書が見つけられ、したがって、問い合わせ用
語に関する合致が見つかるはずである一連の文書がプロ
セッサに提供される。問い合わせ用語が出現するそのよ
うな各文書内で、プロセッサによって下記のステップ0
ないし6が実行される。この動作は、次の図6の議論で
より明らかになる。
【0095】0.最初、この文書に関する含意用語生成
プログラムによって生成された第1の含意側用語が近接
バッファにシードされ、動作パラメータ・ペナルティし
きい値が*maximum-penalty-threshold* 、すなわち問い
合わせヒットに関して受け入れられる最大ペナルティに
設定される(好ましい実施形態では、このパラメータは
50に設定される。このパラメータが、変更でき、かつ
ユーザによって制御できることは自明である)。
【0096】前述のように、近接バッファは、この方法
では、文書内を有効に移動して用語ヒットが見つかる文
書の領域を画定する「ウィンドウ」に対応する。近接バ
ッファは、所与のウィンドウ内のあらゆるもの、ならび
にウィンドウのサイズおよび文書中のウィンドウの位置
を識別する情報を記憶する。ウィンドウのサイズは、文
書中のウィンドウの開始位置と、近接ホライズン、すな
わち文書中のウィンドウの終わり、すなわち下記で論じ
る可変位置によって定義することができる。
【0097】1.近接ホライズンは、この問い合わせに
関して決定された近接ウィンドウ・サイズを加えること
によって近接バッファ中の第1のヒットの位置に基づい
て設定される。次いで、次のヒットが近接ホライズンを
越え、あるいは含意側用語ヒットがもはやなくなるまで
含意側用語ヒット生成プログラムを進行させることによ
って、すべての妥当な含意側用語ヒット、すなわち近接
ホライズン内で出現するすべての含意側用語ヒットの出
現で近接バッファが充填される。近接ホライズンを越え
る含意側用語ヒットが生成される場合には、後で生成で
きるように生成プログラム・ストアに残される。このよ
うな含意側用語ヒットは、下記の第2H節で説明する方
法によって生成される。
【0098】好ましい実施形態では、(a)パラメータ
*proporional−proximity*(た
とえば、100)が(ユーザまたはアプリケーションに
よって)設定された場合にはそのパラメータに問い合わ
せ中の用語の数を乗じた値に等しく、あるいは(b)p
roportional−proximityパラメー
タを設定しない場合には、バッファ中の第1のヒットの
位置から*proximity−threshold*
(たとえば、300)個の文字に等しい数の文字内の含
意側ヒットを選択するように設定される。これらのパラ
メータは、変更し、あるいは他の点で問い合わせに依存
させることができ、かつユーザと、実行中のアプリケー
ションまたはプロセスのどちらか、あるいはその両方に
よって制御することができる。
【0099】2.近接バッファの現内容から得ることが
でき、かつペナルティがペナルティしきい値よりも小さ
な、最良スコア問い合わせヒットが、下記の第2G節で
説明する方法によって見つけられる。そのような合致が
得られない場合は、ステップ6へ進む。
【0100】3.この問い合わせヒットのスコアが出力
バッファ中の最悪ヒットよりも低く、出力バッファがす
でに満杯である場合、このヒットは破棄され、方法は下
記のステップ6へ進む。この問い合わせヒットが、すで
に出力バッファにある他の問い合わせヒットに重なる場
合、前者のヒットがより良いスコアを有する場合には、
前者のヒットが後者のヒットで置き換えられ、あるいは
前者のヒットのスコアが後者のヒットのスコア以下であ
る場合には前者のヒットは破棄される。その他の場合、
この問い合わせヒットは、そのペナルティ・スコアに従
って出力バッファの適当なランクに挿入され、バッファ
がすでに満杯である場合はバッファ中の最悪バッファが
破棄される。出力バッファがまだ現在、満杯である場
合、パラメータpenalty−thresholdが
出力バッファ中の最悪問い合わせペナルティに設定され
る。
【0101】4.出力バッファが満杯であり、最後のヒ
ットが零ペナルティを有する場合、方法は停止し、ヒッ
トを生成し、出力バッファの内容を返す。
【0102】5.生成すべき含意側ヒットがもはやない
場合、方法は停止し、出力バッファの内容を返す。
【0103】6.その他の場合、近接バッファ中の第1
の用語ヒットが近接バッファから削除され、方法はステ
ップ1へ進む。
【0104】問い合わせヒットを識別しソートする方法
の前述の要約は、図6のフローチャートによって分類さ
れる。一般に、方法600は、問い合わせサイズに応じ
た固定サイズを有するウィンドウを文書上で移動し、
(第1の含意用語ヒットから)ウィンドウを文書上のあ
る点に固定するステップを含む。各ウィンドウ位置ごと
に、方法は問い合わせ語に関する合致を含むパッセージ
を探索する。そのような最良の合致は、所定の最大数の
完全合致が見つかり、あるいはすべての文書の探索が終
了するまで出力バッファに入れられる。
【0105】図6のボックス610で、方法は問い合わ
せ用語に関する合致を含む目標領域の識別を開始する。
【0106】ボックス620で、現文書に関する第1の
含意側用語ヒットが近接バッファにシードされ、ボック
ス630で、ペナルティしきい値が所定の最大値に設定
される。「含意側用語ヒット」は下記のように定義する
ことができる。問い合わせの各用語ごとに、用語/概念
関係ネットワークに、その問い合わせ用語を含意するこ
とができるある1組の用語がある。所与の問い合わせ用
語に関する合致は、その問い合わせ用語を厳密に含むこ
とも、あるいは、その問い合わせ用語を含意する何らか
の他の用語を含むこともできる。したがって、本明細書
では、どちらかのタイプの合致を含意側用語ヒットと呼
び、そのようなすべての問い合わせ用語に対する1組の
そのようなすべての含意側用語ヒットを「全体的な含意
側セット」と呼ぶことができる。
【0107】ボックス640で、前述のように、近接ホ
ライズンが設定され、すなわち、現目標パッセージに関
する次の含意側用語ヒットにウィンドウが位置決めされ
る(このボックスの第1のパスで、「次の」含意側用語
ヒットは第1の含意側用語ヒットである)。次いでボッ
クス650で、前述のステップ1で定義したすべての妥
当な含意側用語ヒットが近接バッファに充填される。
【0108】ボックス660で、方法は、現ペナルティ
しきい値よりも良い(すなわち、低い)ペナルティを有
する近接バッファ中の用語ヒットで構成できる問い合わ
せヒットがあるかどうかを判定する。第1のパスでは、
これは所定の最大ペナルティしきい値との比較である。
近接バッファ内の用語ヒットで構成できるそのような問
い合わせヒットがない場合、ボックス740で、近接バ
ッファ中の第1のヒットが削除され、ボックス640
で、近接ホライズンが、ウィンドウの始めを用いて近接
バッファ中の(新しい)第1の用語にリセットされる。
【0109】ボックス650で、近接バッファに再び、
(前述のステップ1で定義した)妥当な含意側用語ヒッ
トが充填され、この例では、近接ウィンドウが実際上、
ステップ650の前の反復に対して1含意側用語ヒット
だけ下向きに移動する。ボックス660で、現ペナルテ
ィしきい値よりも低いペナルティを有する近接バッファ
の(新しい)内容で構成できる問い合わせヒットがある
かどうかが再び判定され、プロセスが継続する。
【0110】この試験を満たす問い合わせヒットが見つ
かった場合、方法はボックス670へ進み、近接バッフ
ァ中の最良の問い合わせヒット(すなわち、最低ペナル
ティを有する問い合わせヒット)が「現」問い合わせヒ
ットとして指定される。近接バッファ中の最良スコア問
い合わせヒットは、前述の第2Aないし2C節で一般的
に説明したように決定され、好ましい実施形態によって
これを行う詳細な手順を下記の第2G節に記載する。
【0111】ボックス680で、現問い合わせヒットの
ペナルティが出力バッファ中の最悪ヒットよりも良い
(低い)かどうかが判定される(最良問い合わせヒット
は、ディスプレイに出力できるように記憶され、あるい
は探索手順の完了時にファイルに記憶される)。そうで
ない場合、ボックス730で、現問い合わせヒットが破
棄され、ボックス740で、近接バッファから第1の問
い合わせヒットが削除され、方法は前述のように、ボッ
クス640に戻り、より良い問い合わせヒットでもう1
度試せるようにウィンドウを再位置決めする。
【0112】ボックス680で、現問い合わせヒットが
出力バッファ中の最悪ヒットよりも良い場合、ボックス
690で、より低いスコアの重なりが抑圧される。これ
は、目標パッセージが現問い合わせヒットの目標パッセ
ージに重なる問い合わせヒットが現問い合わせヒットと
比較され、より低いスコア(より高いペナルティ)を有
する問い合わせヒットが破棄される。この2つの問い合
わせヒットが同じペナルティ・スコアを有する場合、第
1の問い合わせヒットが保持される。
【0113】ボックス700で、出力バッファが満杯で
ある場合、ボックス710で、プロセッサは出力バッフ
ァ中の最低スコア用語リストを破棄する。方法は次い
で、ステップ720へ進み、現問い合わせヒットが出力
バッファに挿入される。これは挿入ソートによって行わ
れ、すなわち、現問い合わせヒットのペナルティが出力
バッファ中の第1のヒットと比較され、そのペナルティ
の方が低い場合には、第1のヒットの上に挿入され、す
べての他のヒットは下向きに移動される。そうでない場
合、現ヒットのペナルティよりも低いペナルティが見つ
かるまで、現ヒット・ペナルティが出力バッファ中の次
のヒットのペナルティと比較され、見つかった時点で、
現ヒットが挿入され、他のヒットは下向きに移動され
る。これによって、出力バッファは常に、現ヒットの挿
入時にソートされる。
【0114】出力バッファ中の最低スコア・ヒットと比
較し上向きに移動する(実際には、対向する端部から移
動する)ことによる挿入や、探索が完了した後にソート
を行うことなど、他の変形例も可能である。他のソート
(ツリー・ソートなど)も適当である。しかし、挿入ソ
ートは、新しい現ヒット・ペナルティと、すでに記憶さ
れているペナルティを比較し、出力バッファを満杯にし
同時にソートする従来型の1つの方法である。
【0115】ボックス750で、最新の現問い合わせヒ
ットが追加された場合、方法は出力バッファが現在、満
杯であるかどうかを判定する。満杯である場合、ペナル
ティしきい値が出力バッファ中の最悪問い合わせのペナ
ルティしきい値に設定され(ボックス760)、いずれ
の場合も、ボックス770へ進む。この場合、出力バッ
ファ中の最後の問い合わせヒットが零ペナルティを有し
ていたかどうかが判定される。そうである場合、これ
は、出力バッファに零ペナルティ・ヒットが充填されて
いることを示し、それに続く探索点はなく、したがっ
て、ボックス790へ進み、出力バッファの内容が返さ
れる。ステップ540に戻り、前述のようにヒットの表
示、記憶などが行われる。出力バッファのサイズをユー
ザによって選択することも、あるいは実行中のプロセス
によって設定することもでき、したがって一般的に、こ
のサイズが可変であることに留意されたい。
【0116】ボックス770で、出力バッファ中の最後
の問い合わせヒットが零ペナルティを有さない場合、ボ
ックス780で、生成すべき含意側用語ヒットがもはや
ないかどうか、すなわち、索引からのすべての含意側用
語ヒットが終了したかどうかを判定する。生成すべきヒ
ットがもはやない場合、ボックス790へ進む。そうで
ない場合、ボックス740へ進み、近接バッファから第
1の含意側用語ヒットが削除され、近接ウィンドウが次
の含意側用語ヒットに再位置決めされる。次いで、再び
ボックス640へ進む。
【0117】図5の方法600が完了した後、出力バッ
ファに最良(最低ペナルティ)から最悪までのランク順
に問い合わせヒットが充填される。
【0118】2G.最良スコア問い合わせヒットを判定
する方法 下記は、最良のスコアを有する問い合わせヒット、すな
わち、最低の集計ペナルティまたは組合せペナルティを
形成するために、現近接バッファのどの含意側用語ヒッ
トどうしを使用できるかを判定する適切な方法である。
したがって、この方法は、文書上のウィンドウ内に位置
する用語ヒットを実際にスコア付けする手順を提供す
る。
【0119】A.問い合わせqの連続問い合わせ用語を
q1,q2,...,qmとし、現近接バッファ中の
(すなわち、近接バッファ中の第1の含意側用語ヒット
の近接ホライズン内)含意側用語ヒットのシーケンスを
x1,x2,...,xnとする。近接バッファ中の第
1の用語x1が1つの問い合わせ用語に整列し、各問い
合わせ用語が、それを含意する近接バッファ中の1つの
xijと、それが欠落していることを示すマーカのどち
らかと対になるように、問い合わせ中の用語と近接バッ
ファ中の含意側用語とのすべての可能な整列a=(q
1,xil),(q2,xi2),...,(qm,x
im)を探索する。このような整列は、そのような最良
ランクのヒット、すなわち、下記のランク付けアルゴリ
ズムによって割り当てられた最低ペナルティ・スコアを
有するヒットを見つけるために探索される。
【0120】B.各対(qj,xij)ごとに下記のペ
ナルティの和を求める。
【0121】1.形態学的変形例ペナルティ−−qjと
xijが同じ形態学的語根を有するが、同じ屈折形でも
同じ派生形でもない(すなわち、共に語根形であるとは
限らず、共に単数形であるとは限らず、共に三人称単数
形動詞であるとは限らない)場合、この2つのうちで語
根形ではないものに、関与する形態学的関係が屈折であ
るか、それとも派生であるかに応じてパラメータ*in
flection−penalty*または*deri
vation−penalty*によって決定される量
だけペナルティを課す。好ましい実施形態では、これら
のペナルティはそれぞれ、0.08および0.1であ
る。このランク付けペナルティ成分が、それぞれの異な
るペナルティを使用するように修正することも、あるい
はそれぞれの異なる種類の屈折関係または派生関係に対
するそれぞれの異なるペナルティを組み込むように修正
することもできることは自明である。
【0122】2.分類学的局限化ペナルティ−−包摂分
類法によればqj(の語根)がxij(の語根)よりも
一般的な用語である場合、整列に、パラメータ*des
cendants−penalty*によって決定され
る量だけペナルティを課す(好ましい実施形態では、こ
のパラメータは0.1である。このランク付けペナルテ
ィ成分が、それぞれの異なるペナルティを使用するよう
に修正することも、あるいはより一般的な用語とより特
定的な用語との間の意味論的距離の次元を組み込むよう
に修正することもできることは自明である)。
【0123】3.意味論的含意ペナルティ−−既知の含
意関係によればqj(の語根)がxij(の語根)によ
って意味論的に含意される場合、整列に、パラメータ*
entailments−penalty*によって決
定される量だけペナルティを課す(好ましい実施形態で
は、このパラメータは0.1である。このランク付けペ
ナルティ成分が、異なるペナルティを使用するように修
正することも、あるいは問い合わせ用語と含意側用語と
の間の含意強度の次元を組み込むように修正することも
できることは自明である)。
【0124】4.欠落用語ペナルティ−−qj(の語
根)が前述の関係(同じ形態論的語根、または語根間の
分類学的局限化関係、または語根間の意味論的含意関
係)では近接バッファ中のどのxij用語にも整列でき
ず、したがって、欠落しているとマーク付けされた場
合、その用語に、下記のように決定されるペナルティを
課す。その用語が下記の統語論的語クラスのうちの1つ
に存在する場合、(副詞、助詞、接続詞、頭文字、間投
詞、法助動詞、名前接頭辞、機能語、進行形、前置詞、
代名詞、句読点、タイトル)*missing−qua
lifier−penalty*によってペナルティを
課す。その用語が動詞であり、あるいは動詞である可能
性がある場合は、*missing−verb−pen
alty*によってペナルティを課す。その用語が下記
の統語論的語クラスのうちの1つに存在する場合には、
(形容詞、決定詞)*missing−adjecti
ve−penalty*によってペナルティを課す。そ
の他の場合は、*missing−term−pena
lty*によってペナルティを課す。
【0125】好ましい実施形態では、missing−
qualifier−penaltyは2であり、mi
ssing−verb−penaltyは5であり、m
issing−adjective−penaltyは
7.5であり、missing−term−penal
tyは10である。このランク付けペナルティ成分は、
それぞれの異なるペナルティまたはそれぞれの異なるペ
ナルティ範疇を使用するように修正することも、あるい
は、欠落している用語に対するペナルティを決定するた
めの用語頻度または語重要性あるいは統語論的役割の次
元を組み込むように修正することができる。
【0126】C.累算された前述のペナルティに、整列
全体に関して求められた下記のペナルティを加える。
【0127】5.近接ランク付けペナルティ−−テキス
ト中の連続含意側用語対の出現順の整列中のこの各連続
含意側用語対ごとに、単一の文字よりも大きな含意側用
語間のギャップに、含意側用語間の文字数よりも1だけ
少ない数にパラメータ*gap−penalty−fa
ctor*を乗じた値に等しい量だけペナルティを課
す。好ましい実施形態では、このパラメータは0.00
5である。このランク付けペナルティ成分が、異なるペ
ナルティ因子を使用するように修正することも、あるい
は、語カウントまたは文字カウント以外の他の近接尺度
を使用して語間のギャップを測定するように修正するこ
ともできることは自明である。
【0128】6.置換ペナルティ−−各連続問い合わせ
用語対ごとに、整列中の対応する含意側用語がテキスト
において同じ順序でない場合、このヒットに、パラメー
タ*out−of−order−penalty*に等
しい量だけペナルティを課す(好ましい実施形態では、
このパラメータは0.25である。このランク付けペナ
ルティ成分が、異なるペナルティ因子を使用するように
修正することも、あるいは、ヒット中の用語の順序が問
い合わせ中の用語の順序と異なる程度の様々な他の尺度
を使用するように修正することもできることは自明であ
る)。
【0129】7.内部境界ペナルティ−−整列の最初の
含意側ヒットから整列の最後の含意側ヒットまでの領域
によってカバーされるテキストの部分を、テキストのそ
の部分に含まれる各文境界またはパラグラフ境界に関し
て走査し、境界が文境界であるか、それともパラグラフ
境界であるかに応じて*cross−sentence
−penalty*または*cross−paragr
aph−penalty*に等しいペナルティを加え
る。好ましい実施形態では、これらのパラメータはそれ
ぞれ、0.1および50である。このランク付けペナル
ティ成分がそれぞれの異なるペナルティを使用するよう
に修正できることは自明である。
【0130】任意の点で、部分的に生成された整列のペ
ナルティ・スコアがすでに、生成できる何らかの他の整
列のスコアよりも悪く、あるいは、指定されたペナルテ
ィしきい値よりも悪いことを判定することができる場
合、悪い方の部分的整列をその点で破棄し、その後は検
討しないようにすることができる。そのような探索を実
行する多数の従来型の技法が、コンピュータ科学探索に
関する文献に記載されている。
【0131】D.ペナルティしきい値よりも良いペナル
ティがある場合には、最良(最小)総ペナルティを選択
する。これによって、用語のペナルティ・スコア付けが
完了し、したがって、最良スコア問い合わせヒットの現
近接バッファからの検索が完了する。
【0132】2H.含意側用語ヒットを生成する方法 この方法は、用語/概念関係ネットワーク110を使用
する。用語/概念関係ネットワーク110は、オフライ
ンで手動で構築することも、あるいは、手動で構築した
関係および形態学的規則の知識ベースを使用して、第1
節で説明し、さらに下記の第2I節で詳しく説明する方
法によって、索引付けプロセス中に自動的に構築するこ
ともできる。このネットワークでは、索引付けされた材
料の本体で出現し、あるいは問い合わせ用語で出現する
可能性がある所与の用語が表現され、この用語を、それ
が示すことができる1つまたは複数の概念に関連付ける
ことができる。これらの語および概念は、下記の形態学
的関係、分類学的関係、意味論的含意関係によって互い
に関係付けることができる。
【0133】1.用語xは、屈折用語または派生用語y
の語根形である。
【0134】2.用語または概念xは、用語または概念
yを分類学的に包摂する(すなわち、用語または概念x
は用語または概念yよりも一般的な用語または概念であ
る)。
【0135】3.用語または概念xは、用語または概念
yによって含意することができる。
【0136】一般に、これらの関係は、データ入力によ
ってオフラインで構築されたそのような関係(120、
150、180)の知識ベースで探さなければならな
い。しかし、ある種の形態学的関係は、テキスト内で出
会った語の屈折形および派生形に形態学的規則を適用す
ることによって自動的に導くことができる。そのような
形態学的規則は一般に、計算言語学における従来型のシ
ステムの一部である。
【0137】問い合わせq=q1,q2,...,qm
に関する含意側用語(「全体的な含意側セット」は、q
中の用語qiを含意する本体内で出現する1組のすべて
の用語である。この場合、下記のどれかが成立する場合
には、用語xは用語qiを含意する。
【0138】1.xまたはxの語根は、qiまたはqi
の語根に等しい。
【0139】2.xまたはxの語根は、qiまたはqi
の語根、あるいはxが示す概念を分類学的に包摂し、あ
るいは、xの語根は、qiまたはqiの語根、あるいは
qiまたはqiの語根が示す概念を分類学的に包摂す
る。
【0140】3.xまたはxの語根は、qiまたはqi
の語根、あるいはxが示す概念によって意味論的に含意
され、あるいは、xの語根は、qiまたはqiの語根、
あるいはqiまたはqiの語根が示す概念によって意味
論的に含意される。
【0141】問い合わせq=q1,q2,...,qm
に関する含意側用語ヒットは、q中の用語qiまたはq
中の用語qiが示す概念を含意する本体中のすべての用
語出現のシーケンスである。これらの含意側用語ヒット
は、それぞれ、(最初は、本体のすべての文書のデフォ
ルト順序によって決定され、次に文書内の用語出現の位
置によって決定される)本体中の含意側用語ヒットの出
現順に各含意側用語の出現を生成する、各含意側用語ご
との生成プログラムの集合を作成することによって本体
中のこれらの含意側用語ヒットの出現順に生成される。
任意の生成ステップで、生成に利用できる最初のヒット
を有する含意側用語生成プログラムを選択し、その用語
ヒットを生成することによって、次に生成される含意側
用語ヒットが生成される。次の生成ステップでは、異な
る含意側用語生成プログラムが、生成するために利用で
きる最初のヒットを有することができる。この含意側用
語ヒット生成プログラムを繰り返し呼び出して、あるフ
ァイル中のある用語出現から始まり、その語根用語出現
を越えたある近接ホライズンに達するまで継続する、本
体のウィンドウ内で出現するすべての含意側用語ヒット
を見つけることができる。
【0142】2I.用語/概念関係ネットワークの生成 索引付けされた材料中の各語または句に出会う、上記の
第1節で説明した索引付け時に(あるいは、別々のパス
中に)、本体が分析される際に構築される語および概念
ならびに語および概念間の関係の成長する用語/概念関
係ネットワーク110でその語または句が検索される。
その語又は句がまだ、この用語/概念関係ネットワーク
110に存在しない場合には、このネットワークに追加
される。
【0143】そのような各語または句に初めて出会う際
に、その語または句は、語および概念の関係(120、
150、180)からなる手動で構築された外部知識ベ
ースでも検索され、このような外部ネットワークで見つ
かった場合、この語または句によって含意されることが
知られており、あるいはこの語または句の派生形または
屈折形である外部ネットワーク中のすべての語および概
念が、それらの語および概念間の既知の関係と共に、成
長する用語/概念関係110ネットワークに追加され
る。そのような語または句が外部ネットワークで見つか
らない場合、その語または句は、形態学的規則によって
分析され、外部知識ベース(120、150、180)
において知られている語の屈折形または派生形であるか
どうかが判定され、そうである場合、その語根との形態
学的関係が用語/概念関係ネットワークに記録され、そ
の語根形は、本体で出現した場合と同様に扱われる(す
なわち、その語根形が外部ネットワークで検索され、す
べてのその含意、屈折、派生、関係が追加される)。
【0144】このプロセスの終わりには、本体で出現す
るすべての用語と、それらの用語によって含意され、あ
るいはそれらの用語に形態学的に関係するすべての概念
を、それらの用語および概念間のすべての既知の形態学
的関係、分類学的関係、含意関係と共に含む用語/概念
関係ネットワークが構築されている。
【0145】2J.問い合わせサイズ手順適応 一般に、短い問い合わせをうまく処理することができな
い従来型の検査方法に対して、本発明の方法は、トライ
アル・ランにおいて、2つまたは3つの語、あるいはお
そらく最大約6つの語からなる短い問い合わせを特に効
果的に処理することが証明されている。したがって、1
つまたはある数Nよりも多くの語を探索する際に従来型
の語探索技法を使用することによって本発明をさらに機
能強化することができる。数Nは、事前に設定し、ある
いは探索結果が成功したことに応答してユーザまたはプ
ロセスによって選択することができ、生成された結果に
応じて3ないし6以上でよい。そのようなシステムは、
従来型の技法と本発明の両方を最もうまく使用し、した
がって、その動作は、小数の語しか有さない問い合わせ
の特に困難な領域に制限される。
【0146】一般に、短い問い合わせをうまく処理する
ことができない従来型の検査方法に対して、本発明の方
法は、トライアル・ランにおいて、2つまたは3つの
語、あるいはおそらく最大約6つの語からなる短い問い
合わせを特に効果的に処理することが証明されている。
したがって、1つまたはある数Nよりも多くの語を探索
する際に従来型の語探索技法を使用することによって本
発明をさらに機能強化することができる。数Nは、事前
に設定し、あるいは探索結果が成功したことに応答して
ユーザまたはプロセスによって選択することができ、生
成された結果に応じて3ないし6以上でよい。そのよう
なシステムは、従来型の技法と本発明の両方を最もうま
く使用し、したがって、その動作は、小数の語しか有さ
ない問い合わせの特に困難な領域に制限される。
【0147】2J.文書検索応用例 このパッセージ検索技法を従来型の文書検索問題に応用
し、各文書が含む最良のパッセージ・スコアを各文書に
与えることによって文書を検索しランク付けすることが
できる。
【図面の簡単な説明】
【図1】 本発明のシステムのブロック図である。
【図2】 本発明の索引付け・分析システムの対話モジ
ュールの図である。
【図3】 本発明のシステムによって生成された例示的
な探索結果を示す図である。
【図4】 本発明による一般的な問い合わせ処理方法の
フローチャートである。
【図5】 本発明の方法のさらに詳しい好ましい実施形
態を示すフローチャートである。
【図6】 本発明の方法のさらに詳しい好ましい実施形
態を示すフローチャートである。
【符号の説明】
10 コンピュータ・システム 20 プロセッサ 30 メモリ 40 キーボードおよびマウス 50 出力装置 60 検索エンジン 70 文書本体 80 用語出現索引 85 生成プログラム・スコア 90 出力バッファ 95 近接バッファ 100 語分析モジュール 110 用語/概念関係ネットワーク 130 汎用分類法 140 局限分類法 150 意味論的含意関係 160 汎用含意データベース 170 ドメイン特有含意データベース 180 レキシコン 190 汎用レキシコン 200 ドメイン特有局限レキシコン

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 プロセッサに結合されたメモリに記憶さ
    れているデータベース中の文書の情報を見つける方法で
    あって、この方法が、前記プロセッサによって実行され
    るプログラム・ステップによって実施され、 (1)少なくとも1つの問い合わせ用語を含む探索問い
    合わせを受け取るステップと、 (2)前記少なくとも1つの問い合わせ用語に対応する
    少なくとも1つのヒット用語を含む少なくとも1つのヒ
    ット・パッセージを前記文書から生成するステップと、 (3)それぞれ、少なくとも第1の問い合わせ用語およ
    び第2の問い合わせ用語に対応する、少なくとも第1の
    ヒット用語および第2のヒット用語に関して、前記第1
    のヒット用語と第2のヒット用語との間の第1の距離お
    よび前記第1の問い合わせ用語と第2の問い合わせ用語
    との間の第2の距離を求めるステップと、 (4)前記第1の距離と前記第2の距離との比較に基づ
    く大きさを有する因子を生成するステップと、 (5)前記因子の大きさを組み込んだ前記ヒット・パッ
    セージに関するスコアを生成するステップとを含む方
    法。
  2. 【請求項2】 プロセッサに結合されたメモリに記憶さ
    れているデータベース中の文書の情報を見つける方法で
    あって、この方法が、前記プロセッサによって実行され
    るプログラム・ステップによって実施され、 (1)少なくとも第1の問い合わせ用語と第2の問い合
    わせ用語を第1の順序で含む探索問い合わせを受け取る
    ステップと、 (2)少なくとも、前記第1の問い合わせ用語に対応す
    る第1のヒット用語と、前記第2の問い合わせ用語に対
    応する第2のヒット用語とを含む、少なくとも1つのヒ
    ット・パッセージを前記文書から生成し、前記第1のヒ
    ット用語および第2のヒット用語が第2の順序であるス
    テップと、 (3)前記第1の距離と前記第2の距離との比較に基づ
    く大きさを有する因子を生成するステップと、 (4)前記因子の大きさを組み込んだ前記ヒット・パッ
    セージに関するスコアを生成するステップとを含む方
    法。
  3. 【請求項3】 さらに、 ステップ4の後に、最良スコアの前記ヒット・パッセー
    ジを判定するステップと、 少なくとも前記最良スコア・ヒット・パッセージを受け
    取るステップとを含む請求項2に記載の方法。
  4. 【請求項4】 さらに、 ステップ4の後に、最良スコアの前記ヒット・パッセー
    ジを判定するステップと、 少なくとも、前記最良スコアのヒット・パッセージを含
    む文書を受け取るステップとを含む請求項2に記載の方
    法。
  5. 【請求項5】 コンピュータ・システムのプロセッサに
    結合されたメモリに記憶されているデータベース中の文
    書の情報を見つける方法であって、コンピュータ・シス
    テムがさらに、前記プロセッサに結合された近接バッフ
    ァと出力バッファとを含み、この方法が、前記プロセッ
    サによって実行されるプログラム・ステップによって実
    施され、 (1)少なくとも1つの問い合わせ用語を含む探索問い
    合わせを受け取るステップと、 (2)前記データベース中の少なくとも1つの前記文書
    の少なくとも1つの目標領域を判定するステップと、 (3)ペナルティ式を所定の最大値に設定するステップ
    と、 (4)前記目標領域内の前記問い合わせ用語に対応する
    問い合わせヒットを判定し、前記各問い合わせヒットが
    それに対応する問い合わせ用語にどれだけ密に対応する
    かを反映するスコアを前記問い合わせヒットに関連付け
    るステップと、 (5)前記近接バッファに前記問い合わせヒットを記憶
    するステップと、 (6)前記近接バッファの最良スコアの問い合わせヒッ
    トを現問い合わせヒットとして指定するステップと、 (7)前記出力バッファが満杯である場合、最低スコア
    の問い合わせヒットを破棄するステップと、 (8)前記現問い合わせヒットを前記出力バッファに挿
    入するステップと、 (9)出力バッファが現在、満杯である場合、前記ペナ
    ルティしきい値を出力バッファ中の最低スコアの問い合
    わせヒットのスコアに設定するステップと、 (10)所定の基準が満たされた場合、ステップ13へ
    進み、そうでない場合は、ステップ11へ進むステップ
    と、 (11)生成すべき含意側用語がまだある場合、ステッ
    プ12へ進み、その他の場合は、ステップ13へ進むス
    テップと、 (12)前記文書に対して目標領域を再位置決めし、ス
    テップ4へ進むステップと、 (13)出力バッファの内容を返すステップとを含む方
    法。
  6. 【請求項6】 前記コンピュータ・システムのプロセッ
    サに結合されたメモリに記憶されているデータベース中
    の文書の情報を見つけるコンピュータ・システムにおい
    て、 複数の問い合わせ用語を含む探索問い合わせを受け取る
    ように構成された問い合わせモジュールと、 それぞれ、少なくとも1つの前記問い合わせ用語に対応
    する少なくとも1つのヒット用語を含む、パッセージを
    前記文書から検索するように構成された検索モジュール
    と、 前記問い合わせ用語の出現順と、前記パッセージに現れ
    前記問い合わせ用語に対応するヒット用語の出現順との
    比較に基づいて前記パッセージに関するスコアを生成す
    るように構成されたスコア付けモジュールとを含むコン
    ピュータ・システム。
  7. 【請求項7】 データベース中の文書のパッセージを検
    索しランク付けする探索システムであって、 少なくとも1つの問い合わせ用語を含む探索問い合わせ
    に応答して、それぞれ、少なくとも1つの前記問い合わ
    せ用語に対応する少なくとも1つのヒット用語を含む、
    パッセージを前記文書から検索するように構成された検
    索モジュールと、 前記問い合わせ用語の出現順と、前記パッセージに現れ
    前記問い合わせ用語に対応するヒット用語の出現順との
    比較に基づいて前記パッセージに関するスコアを生成す
    るように構成されたスコア付けモジュールとを含むコン
    ピュータ・システム。
  8. 【請求項8】 前記コンピュータ・システムのプロセッ
    サに結合されたメモリに記憶されているデータベース中
    の文書の情報を見つけるコンピュータ・システムにおい
    て、 複数の問い合わせ用語を含む探索問い合わせを受け取る
    ように構成された問い合わせモジュールと、 少なくとも2つの前記問い合わせ用語に対応する少なく
    とも2つの前記ヒット用語を含む少なくとも1つのパッ
    セージを前記文書から検索するように構成された検索モ
    ジュールと、 前記少なくとも2つの前記ヒット用語間の距離を組み込
    んだ大きさを有する因子に基づいて前記パッセージに関
    するスコアを生成するように構成されたスコア付けモジ
    ュールとを含むコンピュータ・システム。
  9. 【請求項9】 複数の問い合わせ用語を含む探索問い合
    わせに応答して、少なくとも2つの前記問い合わせ用語
    に対応する少なくとも2つの前記ヒット用語を含む少な
    くとも前記第1のパッセージを検索するように構成され
    た検索モジュールと、 前記少なくとも2つの前記ヒット用語間の距離を組み込
    んだ大きさを有する因子に基づいて前記パッセージに関
    するスコアを生成するように構成されたスコア付けモジ
    ュールとを含むコンピュータ・システム。
JP8195273A 1995-07-07 1996-07-08 コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置 Withdrawn JPH09223161A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/499268 1995-07-07
US08/499,268 US5724571A (en) 1995-07-07 1995-07-07 Method and apparatus for generating query responses in a computer-based document retrieval system

Publications (1)

Publication Number Publication Date
JPH09223161A true JPH09223161A (ja) 1997-08-26

Family

ID=23984565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8195273A Withdrawn JPH09223161A (ja) 1995-07-07 1996-07-08 コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置

Country Status (4)

Country Link
US (5) US5724571A (ja)
EP (1) EP0752676B1 (ja)
JP (1) JPH09223161A (ja)
DE (1) DE69624985T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016147624A1 (ja) * 2015-03-13 2016-09-22 日本電気株式会社 検索システム、検索方法および検索プログラム

Families Citing this family (472)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US6014655A (en) * 1996-03-13 2000-01-11 Hitachi, Ltd. Method of retrieving database
JP2833580B2 (ja) * 1996-04-19 1998-12-09 日本電気株式会社 全文インデックス作成装置および全文データベース検索装置
US5995921A (en) * 1996-04-23 1999-11-30 International Business Machines Corporation Natural language help interface
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US5826031A (en) * 1996-06-10 1998-10-20 Sun Microsystems, Inc. Method and system for prioritized downloading of embedded web objects
US5926812A (en) * 1996-06-20 1999-07-20 Mantra Technologies, Inc. Document extraction and comparison method with applications to automatic personalized database searching
US6581056B1 (en) * 1996-06-27 2003-06-17 Xerox Corporation Information retrieval system providing secondary content analysis on collections of information objects
US6745194B2 (en) 2000-08-07 2004-06-01 Alta Vista Company Technique for deleting duplicate records referenced in an index of a database
US5745890A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
GB9701866D0 (en) * 1997-01-30 1997-03-19 British Telecomm Information retrieval
US6415319B1 (en) * 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
JP3173411B2 (ja) * 1997-03-17 2001-06-04 富士ゼロックス株式会社 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
US6453334B1 (en) * 1997-06-16 2002-09-17 Streamtheory, Inc. Method and apparatus to allow remotely located computer programs and/or data to be accessed on a local computer in a secure, time-limited manner, with persistent caching
EP0884688A3 (en) * 1997-06-16 2005-06-22 Koninklijke Philips Electronics N.V. Sparse index search method
US5893093A (en) 1997-07-02 1999-04-06 The Sabre Group, Inc. Information search and retrieval with geographical coordinates
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5907840A (en) * 1997-07-25 1999-05-25 Claritech Corporation Overlapping subdocuments in a vector space search process
US5999925A (en) * 1997-07-25 1999-12-07 Claritech Corporation Information retrieval based on use of sub-documents
US5926808A (en) * 1997-07-25 1999-07-20 Claritech Corporation Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US6055528A (en) * 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
WO1999017224A1 (en) * 1997-09-29 1999-04-08 Fujun Bi A multi-element confidence matching system and the method therefor
AU9783098A (en) * 1997-10-06 1999-04-27 Nexprise, Inc. Trackpoint-based computer-implemented systems and methods for facilitating collaborative project development and communication
US6999959B1 (en) * 1997-10-10 2006-02-14 Nec Laboratories America, Inc. Meta search engine
JP4312954B2 (ja) * 1997-10-21 2009-08-12 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 情報管理システム
IL123129A (en) * 1998-01-30 2010-12-30 Aviv Refuah Www addressing
US6119124A (en) * 1998-03-26 2000-09-12 Digital Equipment Corporation Method for clustering closely resembling data objects
US6598045B2 (en) * 1998-04-07 2003-07-22 Intel Corporation System and method for piecemeal relevance evaluation
NO983175L (no) * 1998-07-10 2000-01-11 Fast Search & Transfer Asa Soekesystem for gjenfinning av data
WO2000013122A1 (en) * 1998-08-27 2000-03-09 Upshot Corporation A method and apparatus for network-based sales force management
US6847987B2 (en) * 1998-09-30 2005-01-25 International Business Machines Corporation System and method for extending client-server software to additional client platforms for servicing thin clients requests
US6363373B1 (en) * 1998-10-01 2002-03-26 Microsoft Corporation Method and apparatus for concept searching using a Boolean or keyword search engine
JP2000132553A (ja) * 1998-10-22 2000-05-12 Sharp Corp キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
US6480843B2 (en) 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6574632B2 (en) 1998-11-18 2003-06-03 Harris Corporation Multiple engine information retrieval and visualization system
US6411950B1 (en) * 1998-11-30 2002-06-25 Compaq Information Technologies Group, Lp Dynamic query expansion
US7653870B1 (en) * 1998-12-08 2010-01-26 Idearc Media Corp. System and method of dynamically generating index information
US6327593B1 (en) * 1998-12-23 2001-12-04 Unisys Corporation Automated system and method for capturing and managing user knowledge within a search system
US6370527B1 (en) * 1998-12-29 2002-04-09 At&T Corp. Method and apparatus for searching distributed networks using a plurality of search devices
US6473755B2 (en) * 1999-01-04 2002-10-29 Claritech Corporation Overlapping subdocuments in a vector space search process
US6868389B1 (en) 1999-01-19 2005-03-15 Jeffrey K. Wilkins Internet-enabled lead generation
US6609125B1 (en) * 1999-03-23 2003-08-19 The Chase Manhattan Bank Funds transfer repair system
US8572069B2 (en) * 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
WO2000058863A1 (en) 1999-03-31 2000-10-05 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6873982B1 (en) * 1999-07-16 2005-03-29 International Business Machines Corporation Ordering of database search results based on user feedback
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US6718363B1 (en) 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US7219073B1 (en) * 1999-08-03 2007-05-15 Brandnamestores.Com Method for extracting information utilizing a user-context-based search engine
US7013300B1 (en) * 1999-08-03 2006-03-14 Taylor David C Locating, filtering, matching macro-context from indexed database for searching context where micro-context relevant to textual input by user
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US6826574B1 (en) * 1999-08-27 2004-11-30 Gateway, Inc. Automatic profiler
US6845354B1 (en) * 1999-09-09 2005-01-18 Institute For Information Industry Information retrieval system with a neuro-fuzzy structure
US8051104B2 (en) 1999-09-22 2011-11-01 Google Inc. Editing a network of interconnected concepts
US8914361B2 (en) 1999-09-22 2014-12-16 Google Inc. Methods and systems for determining a meaning of a document to match the document to content
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
US6816857B1 (en) 1999-11-01 2004-11-09 Applied Semantics, Inc. Meaning-based advertising and document relevance determination
US6775665B1 (en) * 1999-09-30 2004-08-10 Ricoh Co., Ltd. System for treating saved queries as searchable documents in a document management system
US6260041B1 (en) * 1999-09-30 2001-07-10 Netcurrents, Inc. Apparatus and method of implementing fast internet real-time search technology (first)
US7107218B1 (en) * 1999-10-29 2006-09-12 British Telecommunications Public Limited Company Method and apparatus for processing queries
US20020069134A1 (en) * 1999-11-01 2002-06-06 Neal Solomon System, method and apparatus for aggregation of cooperative intelligent agents for procurement in a distributed network
US20030074301A1 (en) * 1999-11-01 2003-04-17 Neal Solomon System, method, and apparatus for an intelligent search agent to access data in a distributed network
US20020055903A1 (en) * 1999-11-01 2002-05-09 Neal Solomon System, method, and apparatus for a cooperative communications network
US20020046157A1 (en) * 1999-11-01 2002-04-18 Neal Solomon System, method and apparatus for demand-initiated intelligent negotiation agents in a distributed network
US20030233305A1 (en) * 1999-11-01 2003-12-18 Neal Solomon System, method and apparatus for information collaboration between intelligent agents in a distributed network
US6321265B1 (en) 1999-11-02 2001-11-20 Altavista Company System and method for enforcing politeness while scheduling downloads in a web crawler
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6704722B2 (en) * 1999-11-17 2004-03-09 Xerox Corporation Systems and methods for performing crawl searches and index searches
US6701310B1 (en) * 1999-11-22 2004-03-02 Nec Corporation Information search device and information search method using topic-centric query routing
WO2001052462A2 (en) * 2000-01-12 2001-07-19 Jupiter Media Metrix, Inc. System and method for estimating prevalence of digital content on the world-wide-web
US7676384B2 (en) * 2000-01-18 2010-03-09 Medigenesis, Inc. System and method for the automated presentation of system data to, and interaction with, a computer maintained database
US7099859B2 (en) * 2000-01-20 2006-08-29 International Business Machines Corporation System and method for integrating off-line ratings of businesses with search engines
US6542889B1 (en) * 2000-01-28 2003-04-01 International Business Machines Corporation Methods and apparatus for similarity text search based on conceptual indexing
US6868525B1 (en) * 2000-02-01 2005-03-15 Alberti Anemometer Llc Computer graphic display visualization system and method
US6829603B1 (en) * 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
DE60044423D1 (de) * 2000-02-03 2010-07-01 Hitachi Ltd Verfahren und Gerät zum Wiederauffinden und Ausgeben von Dokumenten und Speichermedium mit entspechendem Program
US7333983B2 (en) 2000-02-03 2008-02-19 Hitachi, Ltd. Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored
WO2001067225A2 (en) * 2000-03-06 2001-09-13 Kanisa Inc. A system and method for providing an intelligent multi-step dialog with a user
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7962326B2 (en) * 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US6859800B1 (en) 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
US20020123994A1 (en) * 2000-04-26 2002-09-05 Yves Schabes System for fulfilling an information need using extended matching techniques
US7120627B1 (en) * 2000-04-26 2006-10-10 Global Information Research And Technologies, Llc Method for detecting and fulfilling an information need corresponding to simple queries
US20040117352A1 (en) * 2000-04-28 2004-06-17 Global Information Research And Technologies Llc System for answering natural language questions
US6745181B1 (en) * 2000-05-02 2004-06-01 Iphrase.Com, Inc. Information access method
US8478732B1 (en) 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
US7127450B1 (en) * 2000-05-02 2006-10-24 International Business Machines Corporation Intelligent discard in information access system
US6711561B1 (en) * 2000-05-02 2004-03-23 Iphrase.Com, Inc. Prose feedback in information access system
US6704728B1 (en) 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US6912525B1 (en) * 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
NL1015151C2 (nl) * 2000-05-10 2001-12-10 Collexis B V Inrichting en werkwijze voor het catalogiseren van tekstuele informatie.
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
US7325201B2 (en) * 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
US7617184B2 (en) 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7035864B1 (en) * 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
AU2001264928A1 (en) * 2000-05-25 2001-12-03 Kanisa Inc. System and method for automatically classifying text
US7822735B2 (en) * 2000-05-29 2010-10-26 Saora Kabushiki Kaisha System and method for saving browsed data
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US7058516B2 (en) 2000-06-30 2006-06-06 Bioexpertise, Inc. Computer implemented searching using search criteria comprised of ratings prepared by leading practitioners in biomedical specialties
US20030120653A1 (en) * 2000-07-05 2003-06-26 Sean Brady Trainable internet search engine and methods of using
US20060161353A1 (en) * 2000-07-24 2006-07-20 Bioexpertise, Inc. Computer implemented searching using search criteria comprised of ratings prepared by leading practitioners in biomedical specialties
US6718323B2 (en) * 2000-08-09 2004-04-06 Hewlett-Packard Development Company, L.P. Automatic method for quantifying the relevance of intra-document search results
AU2000268162A1 (en) * 2000-08-23 2002-04-08 Intel Corporation A method and apparatus for concept-based searching across a network
NO313399B1 (no) * 2000-09-14 2002-09-23 Fast Search & Transfer Asa Fremgangsmate til soking og analyse av informasjon i datanettverk
US20020059220A1 (en) * 2000-10-16 2002-05-16 Little Edwin Colby Intelligent computerized search engine
US8831995B2 (en) 2000-11-06 2014-09-09 Numecent Holdings, Inc. Optimized server for streamed applications
US20020087883A1 (en) * 2000-11-06 2002-07-04 Curt Wohlgemuth Anti-piracy system for remotely served computer applications
US7062567B2 (en) 2000-11-06 2006-06-13 Endeavors Technology, Inc. Intelligent network streaming and execution system for conventionally coded applications
US20020083183A1 (en) * 2000-11-06 2002-06-27 Sanjay Pujare Conventionally coded application conversion system for streamed delivery and execution
US7233940B2 (en) * 2000-11-06 2007-06-19 Answers Corporation System for processing at least partially structured data
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
US7451196B1 (en) 2000-12-15 2008-11-11 Stream Theory, Inc. Method and system for executing a software application in a virtual environment
US20020078134A1 (en) * 2000-12-18 2002-06-20 Stone Alan E. Push-based web site content indexing
US6937986B2 (en) * 2000-12-28 2005-08-30 Comverse, Inc. Automatic dynamic speech recognition vocabulary based on external sources of information
US7254773B2 (en) * 2000-12-29 2007-08-07 International Business Machines Corporation Automated spell analysis
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US20020133392A1 (en) * 2001-02-22 2002-09-19 Angel Mark A. Distributed customer relationship management systems and methods
US7426505B2 (en) 2001-03-07 2008-09-16 International Business Machines Corporation Method for identifying word patterns in text
SE520533C2 (sv) * 2001-03-13 2003-07-22 Picsearch Ab Metod, datorprogram och system för indexering av digitaliserade enheter
US6775661B1 (en) * 2001-03-21 2004-08-10 Lycos, Inc. Querying databases using database pools
US20020143759A1 (en) * 2001-03-27 2002-10-03 Yu Allen Kai-Lang Computer searches with results prioritized using histories restricted by query context and user community
US20020147775A1 (en) * 2001-04-06 2002-10-10 Suda Aruna Rohra System and method for displaying information provided by a provider
US7136846B2 (en) 2001-04-06 2006-11-14 2005 Keel Company, Inc. Wireless information retrieval
US7120646B2 (en) * 2001-04-09 2006-10-10 Health Language, Inc. Method and system for interfacing with a multi-level data structure
US20020194161A1 (en) * 2001-04-12 2002-12-19 Mcnamee J. Paul Directed web crawler with machine learning
US6957206B2 (en) 2001-04-19 2005-10-18 Quantum Dynamics, Inc. Computer system and method with adaptive N-level structures for automated generation of program solutions based on rules input by subject matter experts
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US6892546B2 (en) 2001-05-03 2005-05-17 Emerson Retail Services, Inc. System for remote refrigeration monitoring and diagnostics
US6970881B1 (en) 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
US7627588B1 (en) 2001-05-07 2009-12-01 Ixreveal, Inc. System and method for concept based analysis of unstructured data
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7536413B1 (en) 2001-05-07 2009-05-19 Ixreveal, Inc. Concept-based categorization of unstructured objects
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US6999971B2 (en) * 2001-05-08 2006-02-14 Verity, Inc. Apparatus and method for parametric group processing
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
US6980984B1 (en) 2001-05-16 2005-12-27 Kanisa, Inc. Content provider systems and methods using structured data
US20020184317A1 (en) * 2001-05-29 2002-12-05 Sun Microsystems, Inc. System and method for searching, retrieving and displaying data from an email storage location
US6993532B1 (en) * 2001-05-30 2006-01-31 Microsoft Corporation Auto playlist generator
JP2004534324A (ja) * 2001-07-04 2004-11-11 コギズム・インターメディア・アーゲー 索引付きの拡張可能な対話的文書検索システム
US7136845B2 (en) * 2001-07-12 2006-11-14 Microsoft Corporation System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US6888548B1 (en) 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
AUPR796701A0 (en) * 2001-09-27 2001-10-25 Plugged In Communications Pty Ltd Database query system and method
AUPR796801A0 (en) * 2001-09-27 2001-10-25 Plugged In Communications Pty Ltd Computer user interface tool for navigation of data stored in directed graphs
US7257568B2 (en) * 2001-10-16 2007-08-14 Sizatola, Llc Process and system for matching products and markets
US6944609B2 (en) * 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
US7209876B2 (en) * 2001-11-13 2007-04-24 Groove Unlimited, Llc System and method for automated answering of natural language questions and queries
US6850933B2 (en) * 2001-11-15 2005-02-01 Microsoft Corporation System and method for optimizing queries using materialized views and fast view matching
US20030097378A1 (en) * 2001-11-20 2003-05-22 Khai Pham Method and system for removing text-based viruses
US7206778B2 (en) 2001-12-17 2007-04-17 Knova Software Inc. Text search ordered along one or more dimensions
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
US20030120630A1 (en) * 2001-12-20 2003-06-26 Daniel Tunkelang Method and system for similarity search and clustering
US20030120559A1 (en) * 2001-12-21 2003-06-26 Don Joel C. System and method of distributing public relations and marketing content
US7162480B2 (en) * 2001-12-26 2007-01-09 Sbc Technology Resources, Inc. Usage-based adaptable taxonomy
US7243092B2 (en) * 2001-12-28 2007-07-10 Sap Ag Taxonomy generation for electronic documents
US6978264B2 (en) * 2002-01-03 2005-12-20 Microsoft Corporation System and method for performing a search and a browse on a query
US7024624B2 (en) * 2002-01-07 2006-04-04 Kenneth James Hintz Lexicon-based new idea detector
US20030158725A1 (en) * 2002-02-15 2003-08-21 Sun Microsystems, Inc. Method and apparatus for identifying words with common stems
US7343372B2 (en) * 2002-02-22 2008-03-11 International Business Machines Corporation Direct navigation for information retrieval
US7271804B2 (en) 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
JP2003337699A (ja) * 2002-03-13 2003-11-28 Saora Inc 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
US20030177124A1 (en) * 2002-03-18 2003-09-18 Al Sauri System for searching secure servers
US20030220917A1 (en) * 2002-04-03 2003-11-27 Max Copperman Contextual search
US7120641B2 (en) * 2002-04-05 2006-10-10 Saora Kabushiki Kaisha Apparatus and method for extracting data
US20030195896A1 (en) * 2002-04-15 2003-10-16 Suda Aruna Rohra Method and apparatus for managing imported or exported data
US7035862B2 (en) * 2002-05-09 2006-04-25 Siemens Medical Solutions Health Services Corporation Method for processing information from an information repository
US20030217076A1 (en) * 2002-05-15 2003-11-20 Heptinstall Christian Elliot System and method for rapid generation of one or more autonomous websites
US7054859B2 (en) * 2002-06-13 2006-05-30 Hewlett-Packard Development Company, L.P. Apparatus and method for responding to search requests for stored documents
US6892198B2 (en) * 2002-06-14 2005-05-10 Entopia, Inc. System and method for personalized information retrieval based on user expertise
JP2004030021A (ja) * 2002-06-24 2004-01-29 Oki Electric Ind Co Ltd 文書処理装置および方法
US7188105B2 (en) * 2002-10-10 2007-03-06 International Business Machines Corporation Query abstraction high level parameters for reuse and trend analysis
US6889173B2 (en) 2002-10-31 2005-05-03 Emerson Retail Services Inc. System for monitoring optimal equipment operating parameters
US20050108256A1 (en) * 2002-12-06 2005-05-19 Attensity Corporation Visualization of integrated structured and unstructured data
US20040117366A1 (en) * 2002-12-12 2004-06-17 Ferrari Adam J. Method and system for interpreting multiple-term queries
US20050038781A1 (en) * 2002-12-12 2005-02-17 Endeca Technologies, Inc. Method and system for interpreting multiple-term queries
US20040133574A1 (en) * 2003-01-07 2004-07-08 Science Applications International Corporaton Vector space method for secure information sharing
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
US8495002B2 (en) * 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US7299221B2 (en) * 2003-05-08 2007-11-20 Oracle International Corporation Progressive relaxation of search criteria
US20070022110A1 (en) * 2003-05-19 2007-01-25 Saora Kabushiki Kaisha Method for processing information, apparatus therefor and program therefor
US20040260681A1 (en) * 2003-06-19 2004-12-23 Dvorak Joseph L. Method and system for selectively retrieving text strings
US7610313B2 (en) 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US7617203B2 (en) * 2003-08-01 2009-11-10 Yahoo! Inc Listings optimization using a plurality of data sources
US20050076015A1 (en) * 2003-10-02 2005-04-07 International Business Machines Corporation Dynamic query building based on the desired number of results
US7739102B2 (en) * 2003-10-08 2010-06-15 Bender Howard J Relationship analysis system and method for semantic disambiguation of natural language
US20050114306A1 (en) * 2003-11-20 2005-05-26 International Business Machines Corporation Integrated searching of multiple search sources
US20050144177A1 (en) * 2003-11-26 2005-06-30 Hodes Alan S. Patent analysis and formulation using ontologies
US20050234738A1 (en) * 2003-11-26 2005-10-20 Hodes Alan S Competitive product intelligence system and method, including patent analysis and formulation using one or more ontologies
US7523096B2 (en) 2003-12-03 2009-04-21 Google Inc. Methods and systems for personalized network searching
US7251659B1 (en) * 2003-12-04 2007-07-31 Sprint Communications Company L.P. Method and system for managing resource indexes in a networking environment
US7689536B1 (en) * 2003-12-18 2010-03-30 Google Inc. Methods and systems for detecting and extracting information
US7437353B2 (en) * 2003-12-31 2008-10-14 Google Inc. Systems and methods for unification of search results
US7690000B2 (en) * 2004-01-08 2010-03-30 Microsoft Corporation Metadata journal for information technology systems
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US7836083B2 (en) * 2004-02-20 2010-11-16 Factiva, Inc. Intelligent search and retrieval system and method
US7716216B1 (en) 2004-03-31 2010-05-11 Google Inc. Document ranking based on semantic distance between terms in a document
US7814155B2 (en) 2004-03-31 2010-10-12 Google Inc. Email conversation management system
US7269621B2 (en) 2004-03-31 2007-09-11 Google Inc. Method system and graphical user interface for dynamically updating transmission characteristics in a web mail reply
US9819624B2 (en) 2004-03-31 2017-11-14 Google Inc. Displaying conversations in a conversation-based email system
US7428528B1 (en) 2004-03-31 2008-09-23 Endeca Technologies, Inc. Integrated application for manipulating content in a hierarchical data-driven search and navigation system
US7912904B2 (en) 2004-03-31 2011-03-22 Google Inc. Email system with conversation-centric user interface
US7433864B2 (en) * 2004-04-08 2008-10-07 At&T Intellectual Property I, L.P. Compiling information obtained by combinatorial searching
US7412842B2 (en) 2004-04-27 2008-08-19 Emerson Climate Technologies, Inc. Compressor diagnostic and protection system
US20050278314A1 (en) * 2004-06-09 2005-12-15 Paul Buchheit Variable length snippet generation
US7761439B1 (en) 2004-06-30 2010-07-20 Google Inc. Systems and methods for performing a directory search
US7979501B1 (en) 2004-08-06 2011-07-12 Google Inc. Enhanced message display
US7698333B2 (en) 2004-07-22 2010-04-13 Factiva, Inc. Intelligent query system and method using phrase-code frequency-inverse phrase-code document frequency module
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7426507B1 (en) 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7584175B2 (en) * 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7199571B2 (en) * 2004-07-27 2007-04-03 Optisense Network, Inc. Probe apparatus for use in a separable connector, and systems including same
JP2006053745A (ja) * 2004-08-11 2006-02-23 Saora Inc データ処理方法及びその装置、及びそのプログラム
US7275377B2 (en) 2004-08-11 2007-10-02 Lawrence Kates Method and apparatus for monitoring refrigerant-cycle systems
US20060064322A1 (en) * 2004-08-27 2006-03-23 Desmond Mascarenhas Online education resource for patients with metabolic syndrome
US7953723B1 (en) * 2004-10-06 2011-05-31 Shopzilla, Inc. Federation for parallel searching
US7240162B2 (en) 2004-10-22 2007-07-03 Stream Theory, Inc. System and method for predictive streaming
US20060168294A1 (en) * 2004-11-13 2006-07-27 De Vries Jeff Hybrid local/remote streaming
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US7404151B2 (en) 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
EP1851959B1 (en) * 2005-02-21 2012-04-11 Computer Process Controls, Inc. Enterprise control and monitoring system
WO2006102621A2 (en) 2005-03-23 2006-09-28 Stream Theory, Inc. System and method for tracking changes to files in streaming applications
US20060218165A1 (en) * 2005-03-23 2006-09-28 Vries Jeffrey De Explicit overlay integration rules
US8024523B2 (en) 2007-11-07 2011-09-20 Endeavors Technologies, Inc. Opportunistic block transmission with time constraints
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US7546294B2 (en) * 2005-03-31 2009-06-09 Microsoft Corporation Automated relevance tuning
US9002725B1 (en) 2005-04-20 2015-04-07 Google Inc. System and method for targeting information based on message content
US7693829B1 (en) * 2005-04-25 2010-04-06 Google Inc. Search engine with fill-the-blanks capability
CN101366024B (zh) * 2005-05-16 2014-07-30 电子湾有限公司 用于处理数据搜索请求的方法和系统
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US7831545B1 (en) 2005-05-31 2010-11-09 Google Inc. Identifying the unifying subject of a set of facts
US7962462B1 (en) 2005-05-31 2011-06-14 Google Inc. Deriving and using document and site quality signals from search query streams
US8996514B1 (en) 2005-06-15 2015-03-31 Google Inc. Mobile to non-mobile document correlation
US20060287986A1 (en) * 2005-06-21 2006-12-21 W.W. Grainger, Inc. System and method for facilitating use of a selection guide
US20070005593A1 (en) * 2005-06-30 2007-01-04 Microsoft Corporation Attribute-based data retrieval and association
US8429167B2 (en) * 2005-08-08 2013-04-23 Google Inc. User-context-based search engine
US8027876B2 (en) 2005-08-08 2011-09-27 Yoogli, Inc. Online advertising valuation apparatus and method
US20070038608A1 (en) * 2005-08-10 2007-02-15 Anjun Chen Computer search system for improved web page ranking and presentation
US8321198B2 (en) * 2005-09-06 2012-11-27 Kabushiki Kaisha Square Enix Data extraction system, terminal, server, programs, and media for extracting data via a morphological analysis
WO2007038714A2 (en) * 2005-09-27 2007-04-05 Looksmart, Ltd. Collection and delivery of internet ads
US20070250501A1 (en) * 2005-09-27 2007-10-25 Grubb Michael L Search result delivery engine
US8010480B2 (en) * 2005-09-30 2011-08-30 Google Inc. Selecting high quality text within identified reviews for display in review snippets
US7788251B2 (en) * 2005-10-11 2010-08-31 Ixreveal, Inc. System, method and computer program product for concept-based searching and analysis
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US7747613B2 (en) * 2005-10-31 2010-06-29 Yahoo! Inc. Presentation of differences between multiple searches
US7747612B2 (en) * 2005-10-31 2010-06-29 Yahoo! Inc. Indication of exclusive items in a result set
US7747614B2 (en) * 2005-10-31 2010-06-29 Yahoo! Inc. Difference control for generating and displaying a difference result set from the result sets of a plurality of search engines
US20070244868A1 (en) * 2005-10-31 2007-10-18 Grubb Michael L Internet book marking and search results delivery
US8019752B2 (en) 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
US7805455B2 (en) * 2005-11-14 2010-09-28 Invention Machine Corporation System and method for problem analysis
US8145617B1 (en) 2005-11-18 2012-03-27 Google Inc. Generation of document snippets based on queries and search results
US7949714B1 (en) * 2005-12-05 2011-05-24 Google Inc. System and method for targeting advertisements or other information using user geographical information
US8601004B1 (en) 2005-12-06 2013-12-03 Google Inc. System and method for targeting information items based on popularities of the information items
US7676485B2 (en) * 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
US8065286B2 (en) 2006-01-23 2011-11-22 Chacha Search, Inc. Scalable search system using human searchers
US7962466B2 (en) * 2006-01-23 2011-06-14 Chacha Search, Inc Automated tool for human assisted mining and capturing of precise results
US8266130B2 (en) * 2006-01-23 2012-09-11 Chacha Search, Inc. Search tool providing optional use of human search guides
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US20070185870A1 (en) 2006-01-27 2007-08-09 Hogue Andrew W Data object visualization using graphs
US20070179940A1 (en) * 2006-01-27 2007-08-02 Robinson Eric M System and method for formulating data search queries
US7814099B2 (en) * 2006-01-31 2010-10-12 Louis S. Wang Method for ranking and sorting electronic documents in a search result list based on relevance
US20070208733A1 (en) * 2006-02-22 2007-09-06 Copernic Technologies, Inc. Query Correction Using Indexed Content on a Desktop Indexer Program
US8195683B2 (en) * 2006-02-28 2012-06-05 Ebay Inc. Expansion of database search queries
JP2007257369A (ja) * 2006-03-23 2007-10-04 Fujitsu Ltd 情報検索装置
US8725729B2 (en) * 2006-04-03 2014-05-13 Steven G. Lisa System, methods and applications for embedded internet searching and result display
US8555182B2 (en) * 2006-06-07 2013-10-08 Microsoft Corporation Interface for managing search term importance relationships
JP4251652B2 (ja) * 2006-06-09 2009-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索装置、検索プログラムおよび検索方法
US7849077B2 (en) * 2006-07-06 2010-12-07 Oracle International Corp. Document ranking with sub-query series
US8590325B2 (en) 2006-07-19 2013-11-26 Emerson Climate Technologies, Inc. Protection and diagnostic module for a refrigeration system
US9015197B2 (en) 2006-08-07 2015-04-21 Oracle International Corporation Dynamic repartitioning for changing a number of nodes or partitions in a distributed search system
US20080033943A1 (en) * 2006-08-07 2008-02-07 Bea Systems, Inc. Distributed index search
US20080216494A1 (en) 2006-09-07 2008-09-11 Pham Hung M Compressor data module
US7899822B2 (en) * 2006-09-08 2011-03-01 International Business Machines Corporation Automatically linking documents with relevant structured information
US8214210B1 (en) * 2006-09-19 2012-07-03 Oracle America, Inc. Lattice-based querying
WO2008039870A2 (en) * 2006-09-26 2008-04-03 Accoona Corp Apparatuses, methods and systems for an information comparator preview generator
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US8261345B2 (en) 2006-10-23 2012-09-04 Endeavors Technologies, Inc. Rule-based application access management
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US8645397B1 (en) * 2006-11-30 2014-02-04 At&T Intellectual Property Ii, L.P. Method and apparatus for propagating updates in databases
US8676802B2 (en) * 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US7860855B2 (en) * 2007-02-13 2010-12-28 Sap Ag Method and system for analyzing similarity of concept sets
US7925644B2 (en) 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US8239350B1 (en) 2007-05-08 2012-08-07 Google Inc. Date ambiguity resolution
US7752201B2 (en) * 2007-05-10 2010-07-06 Microsoft Corporation Recommendation of related electronic assets based on user search behavior
US8037042B2 (en) * 2007-05-10 2011-10-11 Microsoft Corporation Automated analysis of user search behavior
WO2008151465A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
US8122032B2 (en) 2007-07-20 2012-02-21 Google Inc. Identifying and linking similar passages in a digital text corpus
US9323827B2 (en) * 2007-07-20 2016-04-26 Google Inc. Identifying key terms related to similar passages
US20090037142A1 (en) 2007-07-30 2009-02-05 Lawrence Kates Portable method and apparatus for monitoring refrigerant-cycle systems
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US9418154B2 (en) * 2007-10-19 2016-08-16 Oracle International Corporation Push-model based index updating
US9594784B2 (en) * 2007-10-19 2017-03-14 Oracle International Corporation Push-model based index deletion
US9594794B2 (en) * 2007-10-19 2017-03-14 Oracle International Corporation Restoring records using a change transaction log
US8682859B2 (en) 2007-10-19 2014-03-25 Oracle International Corporation Transferring records between tables using a change transaction log
US9140728B2 (en) 2007-11-02 2015-09-22 Emerson Climate Technologies, Inc. Compressor sensor module
US8892738B2 (en) 2007-11-07 2014-11-18 Numecent Holdings, Inc. Deriving component statistics for a stream enabled application
US7856434B2 (en) * 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
WO2009078729A1 (en) * 2007-12-14 2009-06-25 Fast Search & Transfer As A method for improving search engine efficiency
US10176827B2 (en) 2008-01-15 2019-01-08 Verint Americas Inc. Active lab
US7917503B2 (en) * 2008-01-17 2011-03-29 Microsoft Corporation Specifying relevance ranking preferences utilizing search scopes
US9129036B2 (en) 2008-02-22 2015-09-08 Tigerlogic Corporation Systems and methods of identifying chunks within inter-related documents
US8359533B2 (en) 2008-02-22 2013-01-22 Tigerlogic Corporation Systems and methods of performing a text replacement within multiple documents
US8126880B2 (en) * 2008-02-22 2012-02-28 Tigerlogic Corporation Systems and methods of adaptively screening matching chunks within documents
US8001140B2 (en) * 2008-02-22 2011-08-16 Tigerlogic Corporation Systems and methods of refining a search query based on user-specified search keywords
US7937395B2 (en) * 2008-02-22 2011-05-03 Tigerlogic Corporation Systems and methods of displaying and re-using document chunks in a document development application
US8924374B2 (en) * 2008-02-22 2014-12-30 Tigerlogic Corporation Systems and methods of semantically annotating documents of different structures
US8078630B2 (en) 2008-02-22 2011-12-13 Tigerlogic Corporation Systems and methods of displaying document chunks in response to a search request
US7933896B2 (en) * 2008-02-22 2011-04-26 Tigerlogic Corporation Systems and methods of searching a document for relevant chunks in response to a search request
US8924421B2 (en) * 2008-02-22 2014-12-30 Tigerlogic Corporation Systems and methods of refining chunks identified within multiple documents
US8001162B2 (en) * 2008-02-22 2011-08-16 Tigerlogic Corporation Systems and methods of pipelining multiple document node streams through a query processor
US8145632B2 (en) 2008-02-22 2012-03-27 Tigerlogic Corporation Systems and methods of identifying chunks within multiple documents
US8229921B2 (en) * 2008-02-25 2012-07-24 Mitsubishi Electric Research Laboratories, Inc. Method for indexing for retrieving documents using particles
US8401842B1 (en) * 2008-03-11 2013-03-19 Emc Corporation Phrase matching for document classification
US7974974B2 (en) * 2008-03-20 2011-07-05 Microsoft Corporation Techniques to perform relative ranking for search results
US8688694B2 (en) * 2008-04-20 2014-04-01 Tigerlogic Corporation Systems and methods of identifying chunks from multiple syndicated content providers
US20090276426A1 (en) * 2008-05-02 2009-11-05 Researchanalytics Corporation Semantic Analytical Search and Database
US8275803B2 (en) * 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US20090313202A1 (en) * 2008-06-13 2009-12-17 Genady Grabarnik Systems and methods for automated search-based problem determination and resolution for complex systems
US8463770B1 (en) * 2008-07-09 2013-06-11 Amazon Technologies, Inc. System and method for conditioning search results
US8990106B2 (en) * 2008-08-22 2015-03-24 Realwire Limited Information categorisation systems, modules, and methods
RU2386167C1 (ru) * 2008-09-01 2010-04-10 Федеральное государственное унитарное предприятие "Курский научно-исследовательский институт" Министерства обороны Российской Федерации Устройство обработки информации для информационного поиска
US20100082662A1 (en) * 2008-09-25 2010-04-01 Microsoft Corporation Information Retrieval System User Interface
LT5673B (lt) 2008-11-11 2010-08-25 Vilniaus Gedimino technikos universitetas Elektroninės informacijos paieškos būdas ir sistema
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US10489434B2 (en) * 2008-12-12 2019-11-26 Verint Americas Inc. Leveraging concepts with information retrieval techniques and knowledge bases
KR101548907B1 (ko) * 2009-01-06 2015-09-02 삼성전자 주식회사 다중언어의 대화시스템 및 그 제어방법
KR20110134909A (ko) * 2009-03-13 2011-12-15 인벤션 머신 코포레이션 텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법
JP5257172B2 (ja) * 2009-03-16 2013-08-07 富士通株式会社 検索方法、検索プログラム及び検索装置
WO2010107327A1 (en) * 2009-03-20 2010-09-23 Syl Research Limited Natural language processing method and system
US8160074B1 (en) * 2009-03-31 2012-04-17 Extreme Networks, Inc. Optimal reading of forwarding database from hardware
US9009146B1 (en) * 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US9245243B2 (en) * 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
CA2761956C (en) 2009-05-29 2015-07-21 Emerson Retail Services, Inc. System and method for monitoring and evaluating equipment operating parameter modifications
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8635223B2 (en) 2009-07-28 2014-01-21 Fti Consulting, Inc. System and method for providing a classification suggestion for electronically stored information
US20110035375A1 (en) * 2009-08-06 2011-02-10 Ron Bekkerman Building user profiles for website personalization
WO2011028553A1 (en) 2009-08-24 2011-03-10 Fti Technology Llc Generating a reference set for use during document review
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US20110072023A1 (en) * 2009-09-21 2011-03-24 Yahoo! Inc. Detect, Index, and Retrieve Term-Group Attributes for Network Search
US8943094B2 (en) 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
CN102023989B (zh) * 2009-09-23 2012-10-10 阿里巴巴集团控股有限公司 一种信息检索方法及其系统
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US20120197910A1 (en) * 2009-10-11 2012-08-02 Patrick Sander Walsh Method and system for performing classified document research
US8620906B2 (en) * 2009-11-06 2013-12-31 Ebay Inc. Detecting competitive product reviews
US8452763B1 (en) 2009-11-19 2013-05-28 Google Inc. Extracting and scoring class-instance pairs
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8805079B2 (en) 2009-12-02 2014-08-12 Google Inc. Identifying matching canonical documents in response to a visual query and in accordance with geographic information
US8811742B2 (en) 2009-12-02 2014-08-19 Google Inc. Identifying matching canonical documents consistent with visual query structural information
US8244706B2 (en) * 2009-12-18 2012-08-14 International Business Machines Corporation Method and apparatus for semantic just-in-time-information-retrieval
US8452795B1 (en) * 2010-01-15 2013-05-28 Google Inc. Generating query suggestions using class-instance relationships
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US8538916B1 (en) 2010-04-09 2013-09-17 Google Inc. Extracting instance attributes from text
US8554542B2 (en) * 2010-05-05 2013-10-08 Xerox Corporation Textual entailment method for linking text of an abstract to text in the main body of a document
EP2400400A1 (en) * 2010-06-22 2011-12-28 Inbenta Professional Services, S.L. Semantic search engine using lexical functions and meaning-text criteria
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
EP2423830A1 (de) 2010-08-25 2012-02-29 Omikron Data Quality GmbH Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
US9122744B2 (en) 2010-10-11 2015-09-01 Next It Corporation System and method for providing distributed intelligent assistance
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
EP2681497A4 (en) 2011-02-28 2017-05-31 Emerson Electric Co. Residential solutions hvac monitoring and diagnosis
JP5699743B2 (ja) * 2011-03-30 2015-04-15 カシオ計算機株式会社 検索方法、検索装置、ならびに、コンピュータプログラム
CN102760127B (zh) * 2011-04-26 2017-11-03 北京百度网讯科技有限公司 基于扩展文本信息来确定资源类型的方法、装置及设备
US9026916B2 (en) * 2011-06-23 2015-05-05 International Business Machines Corporation User interface for managing questions and answers across multiple social media data sources
US8965882B1 (en) 2011-07-13 2015-02-24 Google Inc. Click or skip evaluation of synonym rules
US9037601B2 (en) 2011-07-27 2015-05-19 Google Inc. Conversation system and method for performing both conversation-based queries and message-based queries
US8965904B2 (en) * 2011-11-15 2015-02-24 Long Van Dinh Apparatus and method for information access, search, rank and retrieval
US8909627B1 (en) 2011-11-30 2014-12-09 Google Inc. Fake skip evaluation of synonym rules
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
US8965875B1 (en) 2012-01-03 2015-02-24 Google Inc. Removing substitution rules based on user interactions
US9152698B1 (en) 2012-01-03 2015-10-06 Google Inc. Substitute term identification based on over-represented terms identification
US8964338B2 (en) 2012-01-11 2015-02-24 Emerson Climate Technologies, Inc. System and method for compressor motor protection
US9141672B1 (en) 2012-01-25 2015-09-22 Google Inc. Click or skip evaluation of query term optionalization rule
US9223537B2 (en) 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
US8959103B1 (en) 2012-05-25 2015-02-17 Google Inc. Click or skip evaluation of reordering rules
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US8935246B2 (en) 2012-08-08 2015-01-13 Google Inc. Identifying textual terms in response to a visual query
US9536049B2 (en) 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
EP2897058B1 (en) * 2012-09-13 2019-11-20 Ntt Docomo, Inc. User inteface device, search method, and program
US9310439B2 (en) 2012-09-25 2016-04-12 Emerson Climate Technologies, Inc. Compressor having a control and diagnostic module
US9146966B1 (en) 2012-10-04 2015-09-29 Google Inc. Click or skip evaluation of proximity rules
US9551504B2 (en) 2013-03-15 2017-01-24 Emerson Electric Co. HVAC system remote monitoring and diagnosis
CA2904734C (en) 2013-03-15 2018-01-02 Emerson Electric Co. Hvac system remote monitoring and diagnosis
US9803902B2 (en) 2013-03-15 2017-10-31 Emerson Climate Technologies, Inc. System for refrigerant charge verification using two condenser coil temperatures
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US8965915B2 (en) 2013-03-17 2015-02-24 Alation, Inc. Assisted query formation, validation, and result previewing in a database having a complex schema
WO2014165731A1 (en) 2013-04-05 2014-10-09 Emerson Electric Co. Heat-pump system with refrigerant charge diagnostics
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US9501585B1 (en) 2013-06-13 2016-11-22 DataRPM Corporation Methods and system for providing real-time business intelligence using search-based analytics engine
JP6135331B2 (ja) * 2013-06-27 2017-05-31 カシオ計算機株式会社 電子機器、プログラム、および、検索システム、検索方法
US9460211B2 (en) * 2013-07-08 2016-10-04 Information Extraction Systems, Inc. Apparatus, system and method for a semantic editor and search engine
US8978036B2 (en) 2013-07-29 2015-03-10 Splunk Inc. Dynamic scheduling of tasks for collecting and processing data from external sources
US9792357B2 (en) * 2013-09-10 2017-10-17 Adobe Systems Incorporated Method and apparatus for consuming content via snippets
US9424297B2 (en) * 2013-10-09 2016-08-23 Sybase, Inc. Index building concurrent with table modifications and supporting long values
JP6167015B2 (ja) * 2013-10-30 2017-07-19 富士通株式会社 情報処理システム、管理プログラム、及びインデックス管理方法
US10928976B2 (en) 2013-12-31 2021-02-23 Verint Americas Inc. Virtual assistant acquisitions and training
US9959315B1 (en) * 2014-01-31 2018-05-01 Google Llc Context scoring adjustments for answer passages
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US20150317313A1 (en) * 2014-05-02 2015-11-05 Microsoft Corporation Searching locally defined entities
KR20150129134A (ko) * 2014-05-08 2015-11-19 한국전자통신연구원 질의 응답 시스템 및 그 방법
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US20160071517A1 (en) 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
US10372718B2 (en) 2014-11-03 2019-08-06 SavantX, Inc. Systems and methods for enterprise data search and analysis
US10915543B2 (en) 2014-11-03 2021-02-09 SavantX, Inc. Systems and methods for enterprise data search and analysis
US9613133B2 (en) 2014-11-07 2017-04-04 International Business Machines Corporation Context based passage retrieval and scoring in a question answering system
US20160203111A1 (en) * 2015-01-13 2016-07-14 Kobo Incorporated E-reading content item information aggregation and interface for presentation thereof
WO2016133529A1 (en) * 2015-02-20 2016-08-25 Hewlett-Packard Development Company, L.P. Citation explanations
US10866942B1 (en) * 2015-04-19 2020-12-15 Zeepabyte, Inc Cascaded indexing of multidimensional data
CN104978878A (zh) * 2015-06-26 2015-10-14 苏州点通教育科技有限公司 微课教学系统及方法
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
US9974742B2 (en) * 2016-02-01 2018-05-22 Heron Therapeutics, Inc. Emulsion formulations of an NK-1 receptor antagonist and uses thereof
CN109219811B (zh) 2016-05-23 2022-03-29 微软技术许可有限责任公司 相关段落检索系统
AU2017274558B2 (en) 2016-06-02 2021-11-11 Nuix North America Inc. Analyzing clusters of coded documents
CN106060388B (zh) * 2016-06-24 2019-09-27 广东紫旭科技有限公司 一种全自动微课录制控制方法和系统
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11328128B2 (en) 2017-02-28 2022-05-10 SavantX, Inc. System and method for analysis and navigation of data
WO2018160605A1 (en) 2017-02-28 2018-09-07 SavantX, Inc. System and method for analysis and navigation of data
US10467343B2 (en) * 2017-08-03 2019-11-05 International Business Machines Corporation Detecting problematic language in inclusion and exclusion criteria
US11587000B2 (en) * 2018-03-02 2023-02-21 Initlive Inc. Workforce response based event management methods and systems
US11568175B2 (en) 2018-09-07 2023-01-31 Verint Americas Inc. Dynamic intent classification based on environment variables
US11232264B2 (en) 2018-10-19 2022-01-25 Verint Americas Inc. Natural language processing with non-ontological hierarchy models
US11822588B2 (en) * 2018-10-24 2023-11-21 International Business Machines Corporation Supporting passage ranking in question answering (QA) system
US11196863B2 (en) 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations
US11487827B2 (en) * 2018-12-27 2022-11-01 International Business Machines Corporation Extended query performance prediction framework utilizing passage-level information
US11132358B2 (en) 2019-02-19 2021-09-28 International Business Machines Corporation Candidate name generation
US10936819B2 (en) 2019-02-19 2021-03-02 International Business Machines Corporation Query-directed discovery and alignment of collections of document passages for improving named entity disambiguation precision
US11226972B2 (en) 2019-02-19 2022-01-18 International Business Machines Corporation Ranking collections of document passages associated with an entity name by relevance to a query
US11954108B2 (en) * 2021-01-30 2024-04-09 Walmart Apollo, Llc Methods and apparatus for automatically ranking items in response to a search request
US11989221B2 (en) * 2021-09-20 2024-05-21 Walmart Apollo, Llc Systems and methods for removing non-conforming web text
US12387242B2 (en) * 2022-09-30 2025-08-12 Insight Direct Usa, Inc. Systems and methods for customer-personalized videos

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4495566A (en) * 1981-09-30 1985-01-22 System Development Corporation Method and means using digital data processing means for locating representations in a stored textual data base
US5062074A (en) * 1986-12-04 1991-10-29 Tnet, Inc. Information retrieval system and method
US4849898A (en) * 1988-05-18 1989-07-18 Management Information Technologies, Inc. Method and apparatus to identify the relation of meaning between words in text expressions
US4839853A (en) * 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
US4984178A (en) * 1989-02-21 1991-01-08 Texas Instruments Incorporated Chart parser for stochastic unification grammar
US5276616A (en) * 1989-10-16 1994-01-04 Sharp Kabushiki Kaisha Apparatus for automatically generating index
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
US5301109A (en) * 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
EP0510634B1 (en) * 1991-04-25 1999-07-07 Nippon Steel Corporation Data base retrieval system
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5428778A (en) * 1992-02-13 1995-06-27 Office Express Pty. Ltd. Selective dissemination of information
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5475588A (en) * 1993-06-18 1995-12-12 Mitsubishi Electric Research Laboratories, Inc. System for decreasing the time required to parse a sentence
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5706497A (en) * 1994-08-15 1998-01-06 Nec Research Institute, Inc. Document retrieval using fuzzy-logic inference
US5542078A (en) * 1994-09-29 1996-07-30 Ontos, Inc. Object oriented data store integration environment for integration of object oriented databases and non-object oriented data facilities
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5659746A (en) * 1994-12-30 1997-08-19 Aegis Star Corporation Method for storing and retrieving digital data transmissions
US5659732A (en) 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5822731A (en) * 1995-09-15 1998-10-13 Infonautics Corporation Adjusting a hidden Markov model tagger for sentence fragments
US5740425A (en) * 1995-09-26 1998-04-14 Povilus; David S. Data structure and method for publishing electronic and printed product catalogs
US5832496A (en) 1995-10-12 1998-11-03 Ncr Corporation System and method for performing intelligent analysis of a computer database
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US5832182A (en) 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
US5806065A (en) * 1996-05-06 1998-09-08 Microsoft Corporation Data system with distributed tree indexes and method for maintaining the indexes
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US5852820A (en) * 1996-08-09 1998-12-22 Digital Equipment Corporation Method for optimizing entries for searching an index
US5924090A (en) * 1997-05-01 1999-07-13 Northern Light Technology Llc Method and apparatus for searching a database of records
US5920856A (en) * 1997-06-09 1999-07-06 Xerox Corporation System for selecting multimedia databases over networks
US5983218A (en) * 1997-06-30 1999-11-09 Xerox Corporation Multimedia database for use over networks
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016147624A1 (ja) * 2015-03-13 2016-09-22 日本電気株式会社 検索システム、検索方法および検索プログラム
WO2016147621A1 (ja) * 2015-03-13 2016-09-22 日本電気株式会社 記事管理システム、記事管理方法および記事管理プログラム
JPWO2016147624A1 (ja) * 2015-03-13 2017-12-21 日本電気株式会社 検索システム、検索方法および検索プログラム
US10909154B2 (en) 2015-03-13 2021-02-02 Nec Corporation Search system, search method and search program

Also Published As

Publication number Publication date
US6182063B1 (en) 2001-01-30
DE69624985D1 (de) 2003-01-09
DE69624985T2 (de) 2003-09-18
US5724571A (en) 1998-03-03
US6594658B2 (en) 2003-07-15
US20010000356A1 (en) 2001-04-19
EP0752676A2 (en) 1997-01-08
EP0752676A3 (en) 1998-06-17
US6282538B1 (en) 2001-08-28
EP0752676B1 (en) 2002-11-27
US6101491A (en) 2000-08-08

Similar Documents

Publication Publication Date Title
JPH09223161A (ja) コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置
US8341159B2 (en) Creating taxonomies and training data for document categorization
CN103136352B (zh) 基于双层语义分析的全文检索系统
EP0597630B1 (en) Method for resolution of natural-language queries against full-text databases
KR100451978B1 (ko) 정보 검색 방법과 정보 검색 장치
Finkelstein et al. Placing search in context: The concept revisited
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
KR100666064B1 (ko) 인터랙티브 검색 쿼리 개선 시스템 및 방법
US6859800B1 (en) System for fulfilling an information need
CN1871597B (zh) 利用一套消歧技术处理文本的系统和方法
EP0965089B1 (en) Information retrieval utilizing semantic representation of text
Anagnostopoulos et al. Sampling search-engine results
US5940624A (en) Text management system
US20070106499A1 (en) Natural language search system
US20040117352A1 (en) System for answering natural language questions
NZ515293A (en) Document-classification system, method and software
JP2011118689A (ja) 検索方法及びシステム
Magnini et al. Comparing statistical and content-based techniques for answer validation on the web
KR20020072092A (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JPH06348757A (ja) 文書検索装置および方法
JP3249743B2 (ja) 文書検索システム
RU2266560C1 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
Pradhan et al. Building a foundation system for producing short answers to factual questions
Zheng et al. An improved focused crawler based on text keyword extraction

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20040902