JPH09223161A - コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置 - Google Patents
コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置Info
- Publication number
- JPH09223161A JPH09223161A JP8195273A JP19527396A JPH09223161A JP H09223161 A JPH09223161 A JP H09223161A JP 8195273 A JP8195273 A JP 8195273A JP 19527396 A JP19527396 A JP 19527396A JP H09223161 A JPH09223161 A JP H09223161A
- Authority
- JP
- Japan
- Prior art keywords
- hit
- term
- query
- terms
- passage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/912—Applications of a database
- Y10S707/917—Text
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 本発明は、文書検索システムへの問い合わせ
に対する応答を生成する方法および装置を提供する。 【解決手段】 このシステムは、検索中の情報を含む可
能性があるテキストの部分を見つけランク付けすること
によって、情報を求める特定の要求に応答する。システ
ムは、テキストの小さな関連パッセージ(ヒット・パッ
セージと呼ぶ)を見つけ、そのようなパッセージが探索
中の情報に対応する程度の推定に応じてそのようなパッ
セージをランク付けする。所定の1組の規則に応じてそ
れぞれの異なる程度に問い合わせ句と異なる句を検索
し、この差異の程度に基づいて検索された句にペナルテ
ィを課し、優先順位構成問い合わせヒット・リストをユ
ーザに提供することによって、探索中の情報の記述と、
適当な答えを構成することができるテキスト・パッセー
ジの内容との間に出現するパラフレーズ変形例に適応す
るように緩和ランク付け構成が提供される。
に対する応答を生成する方法および装置を提供する。 【解決手段】 このシステムは、検索中の情報を含む可
能性があるテキストの部分を見つけランク付けすること
によって、情報を求める特定の要求に応答する。システ
ムは、テキストの小さな関連パッセージ(ヒット・パッ
セージと呼ぶ)を見つけ、そのようなパッセージが探索
中の情報に対応する程度の推定に応じてそのようなパッ
セージをランク付けする。所定の1組の規則に応じてそ
れぞれの異なる程度に問い合わせ句と異なる句を検索
し、この差異の程度に基づいて検索された句にペナルテ
ィを課し、優先順位構成問い合わせヒット・リストをユ
ーザに提供することによって、探索中の情報の記述と、
適当な答えを構成することができるテキスト・パッセー
ジの内容との間に出現するパラフレーズ変形例に適応す
るように緩和ランク付け構成が提供される。
Description
【0001】
【発明の属する技術分野】本発明は、文書検索システム
への問い合わせに対する応答を生成する方法および装置
に関する。大規模な文書本体(データベース)から関連
する用語(問い合わせ用語)を探索する際、テキストの
小さな関連パッセージ(「ヒット」または「ヒット・パ
ッセージ」と呼ばれる)を見つけ、それが探索中の情報
をどの程度提供するかの推定値に応じてランク付けする
ことが望ましい。
への問い合わせに対する応答を生成する方法および装置
に関する。大規模な文書本体(データベース)から関連
する用語(問い合わせ用語)を探索する際、テキストの
小さな関連パッセージ(「ヒット」または「ヒット・パ
ッセージ」と呼ばれる)を見つけ、それが探索中の情報
をどの程度提供するかの推定値に応じてランク付けする
ことが望ましい。
【0002】
【従来の技術】文書データベースが非常に大規模なもの
である場合、生成されるヒット・パッセージの数が多す
ぎてユーザの助けとはならない。ユーザが、所望の情報
を見つけ、あるいは、探索中の情報はそのテキストの集
合にはないと合理的に結論できるまでに調べなければな
らないヒット・パッセージの数を最小限に抑える機構が
必要である。
である場合、生成されるヒット・パッセージの数が多す
ぎてユーザの助けとはならない。ユーザが、所望の情報
を見つけ、あるいは、探索中の情報はそのテキストの集
合にはないと合理的に結論できるまでに調べなければな
らないヒット・パッセージの数を最小限に抑える機構が
必要である。
【0003】この種の特定の「精細」情報アクセスは、
オンライン情報システムにとってますます重要になりつ
つあり、従来型の文書検索技法ではうまく対処されてい
ない。より多くの数の検索される文書を生成する傾向が
ある(小数の語からなる)小規模な問い合わせを使用す
る場合には、この問題はさらに深刻になる。
オンライン情報システムにとってますます重要になりつ
つあり、従来型の文書検索技法ではうまく対処されてい
ない。より多くの数の検索される文書を生成する傾向が
ある(小数の語からなる)小規模な問い合わせを使用す
る場合には、この問題はさらに深刻になる。
【0004】問い合わせと目標(ヒット)パッセージの
サイズが共に小規模であるとき、現行のシステムの1つ
の問題は、探索中の情報の記述と、適当な解答を構成す
るテキスト・パッセージの文脈との間で発生するパラフ
レーズ変形に有効に対処する問題である。リテラル探索
エンジンは、パラフレーズを返さず、したがって、重要
な関連情報を逃す可能性がある。パラフレーズを許容す
る探索エンジンでは、生成される応答が多すぎる可能性
があり、適切な階層ランキングがないことが多く、最小
限の有用性を有する問い合わせ応答がもたらされる。
サイズが共に小規模であるとき、現行のシステムの1つ
の問題は、探索中の情報の記述と、適当な解答を構成す
るテキスト・パッセージの文脈との間で発生するパラフ
レーズ変形に有効に対処する問題である。リテラル探索
エンジンは、パラフレーズを返さず、したがって、重要
な関連情報を逃す可能性がある。パラフレーズを許容す
る探索エンジンでは、生成される応答が多すぎる可能性
があり、適切な階層ランキングがないことが多く、最小
限の有用性を有する問い合わせ応答がもたらされる。
【0005】現在の所うまく対処されていない他の問題
は、結果として得られるヒット・パッセージの有効なラ
ンク付けである。効率的な情報アクセスを向上させるに
は、問い合わせに対する応答における合致する文書位置
の高品質なランク付けが必要である。
は、結果として得られるヒット・パッセージの有効なラ
ンク付けである。効率的な情報アクセスを向上させるに
は、問い合わせに対する応答における合致する文書位置
の高品質なランク付けが必要である。
【0006】従来型の情報検索(「文書検索」とも呼ば
れる)では、問い合わせが文書の集合と突き合わせて測
定され、1組の「検索された」文書が返される。有用な
変形例(「関連性ランク付け」と呼ばれる)は、通常、
文書中の問い合わせ用語の出現数と文書の集合全体中の
同じ用語の出現数とのある種の関数によって、検索した
文書を、問い合わせに対する推定関連性順にランク付け
するものである。
れる)では、問い合わせが文書の集合と突き合わせて測
定され、1組の「検索された」文書が返される。有用な
変形例(「関連性ランク付け」と呼ばれる)は、通常、
文書中の問い合わせ用語の出現数と文書の集合全体中の
同じ用語の出現数とのある種の関数によって、検索した
文書を、問い合わせに対する推定関連性順にランク付け
するものである。
【0007】しかし、文書検索技法は、所望の情報が見
つかる可能性が高い、検索中の文書内の特定の位置また
はパッセージを識別しようとはしない。したがって、検
索中の文書が十分に大規模なものであり、探索中の情報
が特定のものであるとき、情報シーカに対してかなりの
残余作業が残る。所望の情報が実際に文書に存在する場
合、依然として、検索中の文書を走査し探索中の情報が
どこにあるかを調べる必要がある。この欠点に対処する
機構が必要である。
つかる可能性が高い、検索中の文書内の特定の位置また
はパッセージを識別しようとはしない。したがって、検
索中の文書が十分に大規模なものであり、探索中の情報
が特定のものであるとき、情報シーカに対してかなりの
残余作業が残る。所望の情報が実際に文書に存在する場
合、依然として、検索中の文書を走査し探索中の情報が
どこにあるかを調べる必要がある。この欠点に対処する
機構が必要である。
【0008】パッセージ検索に関する大部分の以前の情
報検索手順では、索引付け時にパッセージ粒度が選択さ
れ、このような単位が索引付けされ、次いで、小規模の
文書の場合と同様に検索され、あるいは個別の文の集合
が検索され組み合わされパッセージが生成される。Sa
lton等著”Approaches to Pass
age Retrieval in Full Tex
t Information Systems”,Pr
oceedings of the Sixteent
h Annual International AC
M SIGIRConference on Rese
arch and Development in I
nformation Retrieval (SIG
IR93)(引用によって本明細書に編入される)AC
M Press,1993,pp49−58、Call
an,J.P.著”Passage−Level Ev
idence in Document Retrie
val”,Proceedings of the S
eventeenth Annual Interna
tional ACM−SIGIR Conferen
ce on Research and Develo
pment in Information Retr
ieval (SIGIR93)(やはり引用によって
本明細書に編入される),Springer−Verl
ag,1994,pp302−310、Wilkins
on,R.著”Effective Retrieva
lof Structured Documents”
(Proceedings of the Seven
teenth, etc.,pp311−317にも記
載されている)を参照されたい。検索中のパッセージが
問い合わせ句に合致する程度に基づいて検索用のパッセ
ージを動的にサイズ付けするシステムを有すると有用で
ある。
報検索手順では、索引付け時にパッセージ粒度が選択さ
れ、このような単位が索引付けされ、次いで、小規模の
文書の場合と同様に検索され、あるいは個別の文の集合
が検索され組み合わされパッセージが生成される。Sa
lton等著”Approaches to Pass
age Retrieval in Full Tex
t Information Systems”,Pr
oceedings of the Sixteent
h Annual International AC
M SIGIRConference on Rese
arch and Development in I
nformation Retrieval (SIG
IR93)(引用によって本明細書に編入される)AC
M Press,1993,pp49−58、Call
an,J.P.著”Passage−Level Ev
idence in Document Retrie
val”,Proceedings of the S
eventeenth Annual Interna
tional ACM−SIGIR Conferen
ce on Research and Develo
pment in Information Retr
ieval (SIGIR93)(やはり引用によって
本明細書に編入される),Springer−Verl
ag,1994,pp302−310、Wilkins
on,R.著”Effective Retrieva
lof Structured Documents”
(Proceedings of the Seven
teenth, etc.,pp311−317にも記
載されている)を参照されたい。検索中のパッセージが
問い合わせ句に合致する程度に基づいて検索用のパッセ
ージを動的にサイズ付けするシステムを有すると有用で
ある。
【0009】
【発明が解決しようとする課題】最近、隠れマルコフ連
鎖法に基づきパッセージを動的に選択することができる
異なる手法が提案されている。Mittendorf等
著”Documentand Passage Ret
rieval Based on Hidden Ma
rkov Models”(Proceedings
of theSeventeenth, etc.,p
p318−327)を参照されたい。しかし、この手法
は、テキスト材料の語彙全体には対処せず、索引付け時
に文書の記述をクラスタに低減させる必要がある。テキ
スト・ベース全体を包含すると共に、そのようなクラス
タ化を必要としないシステムを有することが好ましい。
鎖法に基づきパッセージを動的に選択することができる
異なる手法が提案されている。Mittendorf等
著”Documentand Passage Ret
rieval Based on Hidden Ma
rkov Models”(Proceedings
of theSeventeenth, etc.,p
p318−327)を参照されたい。しかし、この手法
は、テキスト材料の語彙全体には対処せず、索引付け時
に文書の記述をクラスタに低減させる必要がある。テキ
スト・ベース全体を包含すると共に、そのようなクラス
タ化を必要としないシステムを有することが好ましい。
【0010】
【課題を解決するための手段】本発明は、テキスト内の
関連する特定の情報パッセージのより効率的で有用な位
置を用いて問い合わせに対する応答を生成する方法およ
び装置に関する。この方法は、問い合わせ中の用語にあ
る程度合致する(「(含意側)用語ヒット」)用語を含
むことなどによって、問い合わせに測定可能なある程度
に合致するテキスト内の小さな領域(「ヒット・パッセ
ージ」)を見つけ、それらの領域を、測定された合致度
によってランク付けする。このランク付け手順は、本明
細書では「緩和ランク付け」と呼ばれ、提示された問い
合わせと検索されるヒット・パッセージとの間の対応を
得るために問い合わせとの厳密な合致の要件を緩和しな
ければならない程度に基づいてヒット・パッセージをラ
ンク付けする。この緩和機構は、語順、語隣接、問い合
わせ用語の屈折形または派生形、見つかった用語の問い
合わせ用語からの意味上または推論上の距離を含め、事
前に定義された様々な「次元」(合致の密度の尺度)を
考慮する。
関連する特定の情報パッセージのより効率的で有用な位
置を用いて問い合わせに対する応答を生成する方法およ
び装置に関する。この方法は、問い合わせ中の用語にあ
る程度合致する(「(含意側)用語ヒット」)用語を含
むことなどによって、問い合わせに測定可能なある程度
に合致するテキスト内の小さな領域(「ヒット・パッセ
ージ」)を見つけ、それらの領域を、測定された合致度
によってランク付けする。このランク付け手順は、本明
細書では「緩和ランク付け」と呼ばれ、提示された問い
合わせと検索されるヒット・パッセージとの間の対応を
得るために問い合わせとの厳密な合致の要件を緩和しな
ければならない程度に基づいてヒット・パッセージをラ
ンク付けする。この緩和機構は、語順、語隣接、問い合
わせ用語の屈折形または派生形、見つかった用語の問い
合わせ用語からの意味上または推論上の距離を含め、事
前に定義された様々な「次元」(合致の密度の尺度)を
考慮する。
【0011】本発明のシステムは、問い合わせ中の用語
に意味論的に類似しているテキスト(文書データベー
ス)中の用語(語または句)の出現を見つけて、すべて
または大部分の問い合わせ用語、あるいはそれに類似し
ている用語を含むテキストの小さな領域を識別する。こ
のような小さな領域は、コンパクトネス、見つかった句
の問い合わせ用語との意味論的類似、実際に見つかった
(すなわち、テキストから見つかったある用語に合致し
た)問い合わせ用語の数、対応する問い合わせ用語の順
序と比べた見つかった用語の出現の相対順序の組合せに
よってランク付けされる。
に意味論的に類似しているテキスト(文書データベー
ス)中の用語(語または句)の出現を見つけて、すべて
または大部分の問い合わせ用語、あるいはそれに類似し
ている用語を含むテキストの小さな領域を識別する。こ
のような小さな領域は、コンパクトネス、見つかった句
の問い合わせ用語との意味論的類似、実際に見つかった
(すなわち、テキストから見つかったある用語に合致し
た)問い合わせ用語の数、対応する問い合わせ用語の順
序と比べた見つかった用語の出現の相対順序の組合せに
よってランク付けされる。
【0012】識別された小さな領域を「ヒット・パッセ
ージ」と呼び、そのランクは、(問い合わせ中の対応す
る用語間の距離に対する)合致する用語を分離する分離
距離、ならびにヒット中の用語と問い合わせ中の対応す
る用語との間の「類似」距離に基づいてかなりの程度に
加重される。
ージ」と呼び、そのランクは、(問い合わせ中の対応す
る用語間の距離に対する)合致する用語を分離する分離
距離、ならびにヒット中の用語と問い合わせ中の対応す
る用語との間の「類似」距離に基づいてかなりの程度に
加重される。
【0013】前述の基準は加重され、見つかったパッセ
ージは、所定の手順に従ってすべての加重を組み合わせ
ることによって生成されたスコアに基づいてランク付け
される。ユーザには、文書内の「ウィンドウ」(見つか
った「ヒット・パッセージ」の周りの可変サイズ領域)
が、結果として得られるランク付けに応じた順序で提示
される。
ージは、所定の手順に従ってすべての加重を組み合わせ
ることによって生成されたスコアに基づいてランク付け
される。ユーザには、文書内の「ウィンドウ」(見つか
った「ヒット・パッセージ」の周りの可変サイズ領域)
が、結果として得られるランク付けに応じた順序で提示
される。
【0014】緩和ランク付けの重要な利点は、従来型の
文書検索システムでは、検索演算子のそれぞれの異なる
組合せを使用する探索シーケンスによって見つける必要
があるヒットを、システムが自動的に生成し、ランク付
けすることである。したがって、情報シーカが結果に満
足せず、したがって、問い合わせを再形成する必要があ
る回数が大幅に減少され、問い合わせを形成するために
必要な作業量も著しく減少される。
文書検索システムでは、検索演算子のそれぞれの異なる
組合せを使用する探索シーケンスによって見つける必要
があるヒットを、システムが自動的に生成し、ランク付
けすることである。したがって、情報シーカが結果に満
足せず、したがって、問い合わせを再形成する必要があ
る回数が大幅に減少され、問い合わせを形成するために
必要な作業量も著しく減少される。
【0015】他の利点は、本システムによって生成され
るランク付けが主として文書の集合のサイズの影響も構
成の影響も受けず、いくつかの集合の群全体にわたって
意味をなし、そのため、それぞれの異なる集合を探索す
ることによって生成された用語ヒット・リストをマージ
することができ、それぞれの異なる集合から得たランク
付けスコアが同一基準のものとなることである。このた
め、索引付け・検索プロセスを並列化し、分散すること
ができる。
るランク付けが主として文書の集合のサイズの影響も構
成の影響も受けず、いくつかの集合の群全体にわたって
意味をなし、そのため、それぞれの異なる集合を探索す
ることによって生成された用語ヒット・リストをマージ
することができ、それぞれの異なる集合から得たランク
付けスコアが同一基準のものとなることである。このた
め、索引付け・検索プロセスを並列化し、分散すること
ができる。
【0016】また、本発明のシステムは、検索中の文書
内の関連する特定のパッセージを見つけるうえで従来型
のシステムよりも優れており、かつ緩和ランク付け手順
によって生成された情報と共にこのようなパッセージを
要約し表示し、その結果、ユーザは、そのパッセージが
なぜ検索されたかを知り、したがってヒット・パッセー
ジを調べるかどうかとどのように調べるかを判断するこ
とができる。
内の関連する特定のパッセージを見つけるうえで従来型
のシステムよりも優れており、かつ緩和ランク付け手順
によって生成された情報と共にこのようなパッセージを
要約し表示し、その結果、ユーザは、そのパッセージが
なぜ検索されたかを知り、したがってヒット・パッセー
ジを調べるかどうかとどのように調べるかを判断するこ
とができる。
【0017】本発明は、2語ないし6語など、短い問い
合わせを扱う際に特に有効であることが証明されてい
る。従って、本発明の検索システムは、1語問い合わせ
または6つよりも多くの用語の問い合わせに基づく探索
向けの従来型の用語探索機構を使用し、かつ2語ないし
6語の問い合わせに基づく探索向けの本発明のシステム
を使用して、それぞれの異なる問い合わせを異なるよう
に処理することができる。
合わせを扱う際に特に有効であることが証明されてい
る。従って、本発明の検索システムは、1語問い合わせ
または6つよりも多くの用語の問い合わせに基づく探索
向けの従来型の用語探索機構を使用し、かつ2語ないし
6語の問い合わせに基づく探索向けの本発明のシステム
を使用して、それぞれの異なる問い合わせを異なるよう
に処理することができる。
【0018】
【発明の実施の形態】使用される特定のタイプのランク
付けおよびペナルティ基準と、本発明を実施するのに適
したハードウェアおよびソフトウェアの構成を含め、全
体的な一般機能に関して本発明のシステムを説明する。
緩和ランク付け方法を実施する特定の方法、ならびに本
発明の実際の実施形態によって生成された探索結果の例
を提示する。
付けおよびペナルティ基準と、本発明を実施するのに適
したハードウェアおよびソフトウェアの構成を含め、全
体的な一般機能に関して本発明のシステムを説明する。
緩和ランク付け方法を実施する特定の方法、ならびに本
発明の実際の実施形態によって生成された探索結果の例
を提示する。
【0019】第1節:本発明の装置 図1は、本発明を実施するコンピュータ・システム10
を示す。システム10は、プロセッサ20と、オペレー
ティング・システム、アプリケーション、データ・ファ
イルを記憶するメモリ30と、キーボードおよびマウス
40と、ディスプレイおよびその他の出力装置(プリン
タなど)50とを含む、従来型のパーソナル・コンピュ
ータまたはワークステーションでよい。厳密な構成は重
大ではない。たとえば、メモリ30は、ネットワーク上
の分散メモリ、マルチプロセッサ中の共用メモリなどで
もよい。別法として同様に、出力装置50は、大容量記
憶装置でもよく、あるいは、記憶、または表示、または
その他のタイプの出力のために、テキスト・フォーマッ
トであるか、それともグラフィカル・フォーマットであ
るか、それともその他のフォーマットであるかにかかわ
らず、探索問い合わせから得られた出力ファイルを受け
取ることができる任意の装置でもよい。この応用例で
は、「表示」は一般に、これらの可能性のどれかを包含
するために使用される。
を示す。システム10は、プロセッサ20と、オペレー
ティング・システム、アプリケーション、データ・ファ
イルを記憶するメモリ30と、キーボードおよびマウス
40と、ディスプレイおよびその他の出力装置(プリン
タなど)50とを含む、従来型のパーソナル・コンピュ
ータまたはワークステーションでよい。厳密な構成は重
大ではない。たとえば、メモリ30は、ネットワーク上
の分散メモリ、マルチプロセッサ中の共用メモリなどで
もよい。別法として同様に、出力装置50は、大容量記
憶装置でもよく、あるいは、記憶、または表示、または
その他のタイプの出力のために、テキスト・フォーマッ
トであるか、それともグラフィカル・フォーマットであ
るか、それともその他のフォーマットであるかにかかわ
らず、探索問い合わせから得られた出力ファイルを受け
取ることができる任意の装置でもよい。この応用例で
は、「表示」は一般に、これらの可能性のどれかを包含
するために使用される。
【0020】探索問い合わせなどシステムへの入力は、
キーボードおよびマウス40を介して行われる。また、
探索問い合わせは、メモリ30に記憶されプロセッサ2
0上で実行されるアプリケーションを実行する際に生成
することも、あるいは、ネットワークまたはその他の通
信チャネル上のリモート・ホストから受信することもで
きる。したがって、探索問い合わせの源は可変的なもの
であり、本発明は、探索の実行および結果の処理に関す
る。
キーボードおよびマウス40を介して行われる。また、
探索問い合わせは、メモリ30に記憶されプロセッサ2
0上で実行されるアプリケーションを実行する際に生成
することも、あるいは、ネットワークまたはその他の通
信チャネル上のリモート・ホストから受信することもで
きる。したがって、探索問い合わせの源は可変的なもの
であり、本発明は、探索の実行および結果の処理に関す
る。
【0021】メモリ30は、検索エンジン60を含め、
本発明の方法を実行する命令を含むソフトウェアを記憶
する。このソフトウェアは一般に、本発明を実施するの
に必要なすべてのプログラム命令またはモジュールを含
む。下記の議論で理解されるように、本発明の教示が与
えられた場合、本発明を実施するプログラムまたはプロ
グラム・モジュールを生成することは簡単である。
本発明の方法を実行する命令を含むソフトウェアを記憶
する。このソフトウェアは一般に、本発明を実施するの
に必要なすべてのプログラム命令またはモジュールを含
む。下記の議論で理解されるように、本発明の教示が与
えられた場合、本発明を実施するプログラムまたはプロ
グラム・モジュールを生成することは簡単である。
【0022】下記に詳しく説明するように、メモリ30
は、探索を実行すべきすべての文書を含む文書本体70
と、文書本体内のすべての用語、または指定されたある
サブセットの索引を備える用語出現索引80も記憶す
る。また、生成装置ストア85はメモリ30の一部であ
り、プロセッサ20は、結果をディスプレイ50へ転送
できるように最終的に(プロセッサ20に接続された)
出力バッファ90に出力する前に、問い合わせ応答時に
生成された情報を一時的に生成装置ストア85に記憶す
る。
は、探索を実行すべきすべての文書を含む文書本体70
と、文書本体内のすべての用語、または指定されたある
サブセットの索引を備える用語出現索引80も記憶す
る。また、生成装置ストア85はメモリ30の一部であ
り、プロセッサ20は、結果をディスプレイ50へ転送
できるように最終的に(プロセッサ20に接続された)
出力バッファ90に出力する前に、問い合わせ応答時に
生成された情報を一時的に生成装置ストア85に記憶す
る。
【0023】出力バッファ90は、下記に詳しく論じる
ように、ユーザが定義し、あるいは事前に決定した最大
数のヒット・パッセージを記憶し、あるいは、問い合わ
せ応答によって生成されたヒットの総数がこの所定の最
大値を超えない場合はこの総数を記憶するように構成さ
れる。ヒット・パッセージ、すなわち、用語ヒットを含
む検索中のテキストの領域は、下記に説明する本発明の
方法によるランク順に記憶される(「用語ヒット」は、
本明細書では、何らかの点で問い合わせ用語に合致する
ものとして検索された個別の用語を指すために使用され
る)。
ように、ユーザが定義し、あるいは事前に決定した最大
数のヒット・パッセージを記憶し、あるいは、問い合わ
せ応答によって生成されたヒットの総数がこの所定の最
大値を超えない場合はこの総数を記憶するように構成さ
れる。ヒット・パッセージ、すなわち、用語ヒットを含
む検索中のテキストの領域は、下記に説明する本発明の
方法によるランク順に記憶される(「用語ヒット」は、
本明細書では、何らかの点で問い合わせ用語に合致する
ものとして検索された個別の用語を指すために使用され
る)。
【0024】近接バッファ95もプロセッサ20に接続
され、「ウィンドウ」、すなわち、入力された問い合わ
せ用語に合致する用語が現在プロセッサによって探索さ
れている動的可変サイズの文書中の領域の位置およびサ
イズを目標文書上に記憶するためにプロセッサによって
使用される。ウィンドウは、目標文書内の開始位置に、
その開始位置からその文書のうちのどれだけの量をヒッ
ト・パッセージに含めるべきかを決定するサイズを加え
た値として指定することができる。ヒット・パッセージ
とは、そのようなウィンドウによってカバーされる文書
の部分であり、ヒット用語、すなわち合致する用語自体
を含む。
され、「ウィンドウ」、すなわち、入力された問い合わ
せ用語に合致する用語が現在プロセッサによって探索さ
れている動的可変サイズの文書中の領域の位置およびサ
イズを目標文書上に記憶するためにプロセッサによって
使用される。ウィンドウは、目標文書内の開始位置に、
その開始位置からその文書のうちのどれだけの量をヒッ
ト・パッセージに含めるべきかを決定するサイズを加え
た値として指定することができる。ヒット・パッセージ
とは、そのようなウィンドウによってカバーされる文書
の部分であり、ヒット用語、すなわち合致する用語自体
を含む。
【0025】ヒット用語およびヒット・パッセージも近
接バッファ95に記憶され、ウィンドウ情報に相関付け
られる。
接バッファ95に記憶され、ウィンドウ情報に相関付け
られる。
【0026】図2は、後に続く問い合わせ動作をサポー
トするために使用される用語出現索引80および用語/
概念関係ネットワーク110を生成するために索引付け
すべきテキスト材料の文書本体70に適用される索引付
け動作および分析動作を実行するにはプログラム・モジ
ュールをどのように構成すべきかを示す。
トするために使用される用語出現索引80および用語/
概念関係ネットワーク110を生成するために索引付け
すべきテキスト材料の文書本体70に適用される索引付
け動作および分析動作を実行するにはプログラム・モジ
ュールをどのように構成すべきかを示す。
【0027】用語索引付けモジュール90は、用語出現
索引80、すなわち、本体70で出現するすべての用語
リストのレコードを、各用語が出現する文書とその用語
が出現する文書内の位置をリストするその用語用のレコ
ードと共に構成する。この動作は、情報検索における従
来型の動作である。
索引80、すなわち、本体70で出現するすべての用語
リストのレコードを、各用語が出現する文書とその用語
が出現する文書内の位置をリストするその用語用のレコ
ードと共に構成する。この動作は、情報検索における従
来型の動作である。
【0028】用語分析モジュール100は、本体70中
の各用語を分析し、用語/概念関係ネットワーク11
0、すなわち、本体70内で出現する用語および概念、
または問い合わせ内で出現する関連用語および概念の本
体特有の意味ネットワークを、後で用語をテキスト中の
用語に接続するために使用できるこれらの用語および概
念間の様々な形態学、分類学、意味論上の含意関係と共
に構築する。
の各用語を分析し、用語/概念関係ネットワーク11
0、すなわち、本体70内で出現する用語および概念、
または問い合わせ内で出現する関連用語および概念の本
体特有の意味ネットワークを、後で用語をテキスト中の
用語に接続するために使用できるこれらの用語および概
念間の様々な形態学、分類学、意味論上の含意関係と共
に構築する。
【0029】用語/概念関係ネットワーク110を構築
する際には、一般的な英語または他の何らかの言語の
語、あるいはその両方に関する情報の汎用レキシコン1
90と、本体70の主ドメインに特有の用語に関する用
語および情報を含むドメイン特有専門レキシコン200
とで構成されたレキシコン180が使用される。これら
のレキシコンは、用語間の形態学的関係に関する情報
と、レキシコン内では明白に出現しない用語間の形態学
的関係を導くために用語分析モジュール100内の形態
学的分析ルーチンによって使用される語のシンタックス
部分などその他の情報とを含む。そのようなレキシコン
および形態学的分析の動作および使用法は、計算言用語
学における従来どおりのものである。
する際には、一般的な英語または他の何らかの言語の
語、あるいはその両方に関する情報の汎用レキシコン1
90と、本体70の主ドメインに特有の用語に関する用
語および情報を含むドメイン特有専門レキシコン200
とで構成されたレキシコン180が使用される。これら
のレキシコンは、用語間の形態学的関係に関する情報
と、レキシコン内では明白に出現しない用語間の形態学
的関係を導くために用語分析モジュール100内の形態
学的分析ルーチンによって使用される語のシンタックス
部分などその他の情報とを含む。そのようなレキシコン
および形態学的分析の動作および使用法は、計算言用語
学における従来どおりのものである。
【0030】用語/概念関係ネットワーク110を構築
する際には、英語または他の何らかの自然言語、あるい
はその両方の一般的な語と概念との間に成立する分類学
的包摂関係(すなわち、より一般的な用語とより特定的
な用語との間の関係)の汎用分類法130と、本体70
の主ドメインに特有の包摂関係のドメイン特有の局限分
類法140も使用される。この動作は、英語または他の
何らかの自然言語、あるいはその両方の一般的な語と概
念との間に成立する意味論的含意関係(すなわち、ある
用語または概念と、その用語を含意または意味する他の
用語または概念との間の関係)の汎用含意データベース
160と、本体70の主ドメインに特有の意味論的含意
関係のドメイン特有の含意データベース170とで構成
された意味論的含意関係150の意味ネットワークも使
用する。そのような意味論的分類法および意味ネットワ
ークの動作および使用法は、知識表現技術分野における
従来どおりのものである。John Sowa(e
d.)”Principlesof Semantic
Networks: Explorationsin
the Representation of Kn
owledge,”San Mateo: Morga
n Kaufmann, 1991(引用によって本明
細書に組み込まれている)を参照されたい。
する際には、英語または他の何らかの自然言語、あるい
はその両方の一般的な語と概念との間に成立する分類学
的包摂関係(すなわち、より一般的な用語とより特定的
な用語との間の関係)の汎用分類法130と、本体70
の主ドメインに特有の包摂関係のドメイン特有の局限分
類法140も使用される。この動作は、英語または他の
何らかの自然言語、あるいはその両方の一般的な語と概
念との間に成立する意味論的含意関係(すなわち、ある
用語または概念と、その用語を含意または意味する他の
用語または概念との間の関係)の汎用含意データベース
160と、本体70の主ドメインに特有の意味論的含意
関係のドメイン特有の含意データベース170とで構成
された意味論的含意関係150の意味ネットワークも使
用する。そのような意味論的分類法および意味ネットワ
ークの動作および使用法は、知識表現技術分野における
従来どおりのものである。John Sowa(e
d.)”Principlesof Semantic
Networks: Explorationsin
the Representation of Kn
owledge,”San Mateo: Morga
n Kaufmann, 1991(引用によって本明
細書に組み込まれている)を参照されたい。
【0031】これらのモジュールはそれぞれ、下記に説
明するように本発明の好ましい実施形態によって使用さ
れる。ただし、本発明を実施するためにそれぞれの異な
る等価構成を使用することができる。
明するように本発明の好ましい実施形態によって使用さ
れる。ただし、本発明を実施するためにそれぞれの異な
る等価構成を使用することができる。
【0032】第2節:本発明の方法 図4は、本発明の方法の一般的な実施形態を示し、図5
および6は、本発明の好ましい実施形態に従って実行さ
れるステップを具体的に示す。
および6は、本発明の好ましい実施形態に従って実行さ
れるステップを具体的に示す。
【0033】2A.基本モデル:ランク付けおよびペナ
ルティ手順 図4は、下記に論じる12個のランク付けおよびペナル
ティ手順に対応する。ボックス410で、ユーザによっ
て入力され、あるいはプロセッサ20上で実行中のプロ
セスによって要求された(1つないし多数の用語からな
る)探索問い合わせ句が入力される。ボックス420な
いし550は、文書本体から検索されたパッセージにペ
ナルティを課し、それをランク付けし、表示するために
実行されるステップを表し、下記にリストしたランク付
け手順1ないし12に関係付けられる。図4の円中の数
値は、対応するように番号付けされたランク付け基準を
示す。
ルティ手順 図4は、下記に論じる12個のランク付けおよびペナル
ティ手順に対応する。ボックス410で、ユーザによっ
て入力され、あるいはプロセッサ20上で実行中のプロ
セスによって要求された(1つないし多数の用語からな
る)探索問い合わせ句が入力される。ボックス420な
いし550は、文書本体から検索されたパッセージにペ
ナルティを課し、それをランク付けし、表示するために
実行されるステップを表し、下記にリストしたランク付
け手順1ないし12に関係付けられる。図4の円中の数
値は、対応するように番号付けされたランク付け基準を
示す。
【0034】この一般的な議論では、下記のリスト基準
/手順1ないし12の順序および図4のボックス430
ないし550の順序は、ランク付けまたはペナルティ割
り当ての必要な順序を示すものではなく、多数の異なる
順序が可能である。
/手順1ないし12の順序および図4のボックス430
ないし550の順序は、ランク付けまたはペナルティ割
り当ての必要な順序を示すものではなく、多数の異なる
順序が可能である。
【0035】下記に論じるペナルティおよびランク付け
基準(特に、手順1ないし7のペナルティおよびランク
付け基準)は、テキストの検索中のパッセージの融通性
のきくランク付けを可能にするので、本明細書では緩和
ランク付け基準と呼ばれる。
基準(特に、手順1ないし7のペナルティおよびランク
付け基準)は、テキストの検索中のパッセージの融通性
のきくランク付けを可能にするので、本明細書では緩和
ランク付け基準と呼ばれる。
【0036】手順1:近接ランク付けペナルティ(図4
のボックス420および470) ヒット・パッセージ
は、問い合わせ用語に関する1つまたは複数の合致を含
むテキストの小さな領域として識別され、合致する用語
どうしがどれだけ近く、あるいは離れて出現するかに応
じてペナルティを課される。すなわち、見つかった用語
どうしが、問い合わせ句中のそれらの用語の近接度と比
べて離れれば離れるほど、ペナルティが高くなる。
のボックス420および470) ヒット・パッセージ
は、問い合わせ用語に関する1つまたは複数の合致を含
むテキストの小さな領域として識別され、合致する用語
どうしがどれだけ近く、あるいは離れて出現するかに応
じてペナルティを課される。すなわち、見つかった用語
どうしが、問い合わせ句中のそれらの用語の近接度と比
べて離れれば離れるほど、ペナルティが高くなる。
【0037】1組の用語と、距離しきい値、すなわち合
致を数えられるようにこれらの用語の出現を見つける範
囲をユーザが指定する、「近接演算子」を使用する従来
型の情報検索技法と、本明細書の近接ペナルティが同じ
ものではないことに留意されたい。従来型の技法では、
結果として得られるヒットは、本発明とは異なり、用語
どうしがどれだけ近く出現するかではなく、いくつの用
語が出現するかによってランク付けされる。
致を数えられるようにこれらの用語の出現を見つける範
囲をユーザが指定する、「近接演算子」を使用する従来
型の情報検索技法と、本明細書の近接ペナルティが同じ
ものではないことに留意されたい。従来型の技法では、
結果として得られるヒットは、本発明とは異なり、用語
どうしがどれだけ近く出現するかではなく、いくつの用
語が出現するかによってランク付けされる。
【0038】手順2:置換ペナルティ(図4のボックス
480) ヒット・パッセージは、問い合わせ用語の順
序とそれらの用語の対応する用語ヒットの順序との間の
置換距離の尺度を使用して、それに関連する句が、問い
合わせ句中の対応する用語とは異なる順序で出現する程
度によってペナルティを課される。
480) ヒット・パッセージは、問い合わせ用語の順
序とそれらの用語の対応する用語ヒットの順序との間の
置換距離の尺度を使用して、それに関連する句が、問い
合わせ句中の対応する用語とは異なる順序で出現する程
度によってペナルティを課される。
【0039】手順3:形態学的変形ペナルティ(図4の
ボックス430) 問い合わせ用語は、目標テキスト中
の用語、すなわち問い合わせ用語の屈折形または派生形
と比較され、屈折変形または派生変形よりも正確な合致
が優先されるが、わずかしか優先されないように、小さ
なペナルティ因子によってランク付けされる。
ボックス430) 問い合わせ用語は、目標テキスト中
の用語、すなわち問い合わせ用語の屈折形または派生形
と比較され、屈折変形または派生変形よりも正確な合致
が優先されるが、わずかしか優先されないように、小さ
なペナルティ因子によってランク付けされる。
【0040】手順4:分類学的局限化ペナルティ(図4
のボックス440) 問い合わせ用語は、図2の分類法
180など、用語および概念間の分類法リスト汎用性関
係に従ってより特定的なテキスト中の用語と比較され
る。問い合わせ中の用語および概念よりも特定的なテキ
スト中の用語および概念は自動的に検索され、問い合わ
せに対する正確な合致ではないためにペナルティでラン
ク付けすることができる。
のボックス440) 問い合わせ用語は、図2の分類法
180など、用語および概念間の分類法リスト汎用性関
係に従ってより特定的なテキスト中の用語と比較され
る。問い合わせ中の用語および概念よりも特定的なテキ
スト中の用語および概念は自動的に検索され、問い合わ
せに対する正確な合致ではないためにペナルティでラン
ク付けすることができる。
【0041】手順5:意味論的含意ペナルティ(図4の
ボックス450) 問い合わせ用語に対する高度の「意
味論的」類似を有する用語を含み、あるいは、問い合わ
せ用語を論理的に伴うヒット・パッセージは、意味論的
類似がより低く、あるいは含意強度がより低いヒット・
パッセージよりも低いペナルティを課される。
ボックス450) 問い合わせ用語に対する高度の「意
味論的」類似を有する用語を含み、あるいは、問い合わ
せ用語を論理的に伴うヒット・パッセージは、意味論的
類似がより低く、あるいは含意強度がより低いヒット・
パッセージよりも低いペナルティを課される。
【0042】手順6:欠落用語ペナルティ(図4のボッ
クス460) すべてではなく、いくつかの問い合わせ
用語に関する合致を含むヒット・パッセージを含み、ヒ
ット・パッセージから欠落している問い合わせ用語の数
に応じてそれらのヒット・パッセージにペナルティを課
す。このようにして、完全な合致が出現しないときには
自動的に、見つかったうちで最良の合致に関する情報が
ユーザに提示される。ヒット・パッセージはまた、欠落
している用語の重要性の判定に応じてランク付けされ
る。
クス460) すべてではなく、いくつかの問い合わせ
用語に関する合致を含むヒット・パッセージを含み、ヒ
ット・パッセージから欠落している問い合わせ用語の数
に応じてそれらのヒット・パッセージにペナルティを課
す。このようにして、完全な合致が出現しないときには
自動的に、見つかったうちで最良の合致に関する情報が
ユーザに提示される。ヒット・パッセージはまた、欠落
している用語の重要性の判定に応じてランク付けされ
る。
【0043】手順7:重なり抑制(図4のボックス50
0) より良いランクを有する他のヒット・パッセージ
に重なる(すなわち、そのようなヒット・パッセージと
同じ、目標文書上の「ウィンドウ」の少なくとも一部を
占める)ヒット・パッセージは抑制され、すなわち破棄
される。他の重なるヒット・パッセージと同じランクを
有するヒット・パッセージは、見つかった文書の全体的
なランクに何も追加しないので、同様に抑制される。
0) より良いランクを有する他のヒット・パッセージ
に重なる(すなわち、そのようなヒット・パッセージと
同じ、目標文書上の「ウィンドウ」の少なくとも一部を
占める)ヒット・パッセージは抑制され、すなわち破棄
される。他の重なるヒット・パッセージと同じランクを
有するヒット・パッセージは、見つかった文書の全体的
なランクに何も追加しないので、同様に抑制される。
【0044】手順8:位置順序付け(図4のボックス5
10) 等しい他のすべての因子、すなわち等しいラン
ク付けスコアを有するヒットは、一次的には、デフォル
トの好ましい文書順に順序付けされ、二次的には、所与
のヒット・パッセージが文書内で出現する位置に応じて
順序付けされる。
10) 等しい他のすべての因子、すなわち等しいラン
ク付けスコアを有するヒットは、一次的には、デフォル
トの好ましい文書順に順序付けされ、二次的には、所与
のヒット・パッセージが文書内で出現する位置に応じて
順序付けされる。
【0045】手順9:動的パッセージ・サイズ付けおよ
び内部境界ペナルティ(図4のボックス520) ヒッ
ト・パッセージは、ヒット領域を含む文の最小シーケン
スからなるテキストのパッセージによって識別され、あ
るいは、ヒット領域が文構造を有さないテキストの部分
(たとえば、図表)内にある場合は、ヒット領域を含む
最小コヒーレント領域によって識別される。ヒット・パ
ッセージを判定する際に特定的に使用された現問い合わ
せパッセージ内の用語は、可能なら、そのような識別が
表示されるときに強調表示される。所与のヒット・パッ
セージ内で文の終わり(ピリオドなど)またはパラグラ
フの境界が出現する場合、そのパッセージにはペナルテ
ィが課される。
び内部境界ペナルティ(図4のボックス520) ヒッ
ト・パッセージは、ヒット領域を含む文の最小シーケン
スからなるテキストのパッセージによって識別され、あ
るいは、ヒット領域が文構造を有さないテキストの部分
(たとえば、図表)内にある場合は、ヒット領域を含む
最小コヒーレント領域によって識別される。ヒット・パ
ッセージを判定する際に特定的に使用された現問い合わ
せパッセージ内の用語は、可能なら、そのような識別が
表示されるときに強調表示される。所与のヒット・パッ
セージ内で文の終わり(ピリオドなど)またはパラグラ
フの境界が出現する場合、そのパッセージにはペナルテ
ィが課される。
【0046】手順10:合致の要約(図4のボックス5
30) ヒット・パッセージは、そのような各ヒット・
パッセージ中の合致しない問い合わせ用語の特定の識別
を含む、問い合わせ中の対応する用語に合致するヒット
・パッセージ中の用語のリストによって要約される。
30) ヒット・パッセージは、そのような各ヒット・
パッセージ中の合致しない問い合わせ用語の特定の識別
を含む、問い合わせ中の対応する用語に合致するヒット
・パッセージ中の用語のリストによって要約される。
【0047】手順11:リストのランク付け(図4のボ
ックス540) 問い合わせを処理する際、それぞれ、
合致の質を報告するランク付けスコア(全体的なペナル
ティ合計が低いほど、より高い質を示す)を有する、見
つかった用語ヒットのランク付きリストがユーザに提示
される。したがって、各ヒット・パッセージは、合致要
約と、ヒットを構成するテキストのパッセージの表示に
よって識別される。用語ヒットは、前述のランク付け因
子を組み合わせることによって決定される順序でリスト
され、普通ならランクが等しいヒット・パッセージは、
本体およびテキスト中のそれらの位置に応じて順序付け
される。すなわち、好ましい文書中のヒット・パッセー
ジが最初に提示され、文書内の前の方にあるヒット・パ
ッセージの方が、後の方にあるヒット・パッセージより
も前に提示される。
ックス540) 問い合わせを処理する際、それぞれ、
合致の質を報告するランク付けスコア(全体的なペナル
ティ合計が低いほど、より高い質を示す)を有する、見
つかった用語ヒットのランク付きリストがユーザに提示
される。したがって、各ヒット・パッセージは、合致要
約と、ヒットを構成するテキストのパッセージの表示に
よって識別される。用語ヒットは、前述のランク付け因
子を組み合わせることによって決定される順序でリスト
され、普通ならランクが等しいヒット・パッセージは、
本体およびテキスト中のそれらの位置に応じて順序付け
される。すなわち、好ましい文書中のヒット・パッセー
ジが最初に提示され、文書内の前の方にあるヒット・パ
ッセージの方が、後の方にあるヒット・パッセージより
も前に提示される。
【0048】手順12:対話パッセージ・アクセス(図
4のボックス550) 結果リスト中の各用語ヒット
は、文書中の対応するヒット・パッセージの周りの文脈
内にこのヒット・パッセージを表示するために選択でき
る少なくとも1つのアクティブ・ボタンまたはハイパー
リンクを含む。ヒット・パッセージは、それが出現する
文脈内に表示されたときには強調表示され、合致をもた
らしたヒット・パッセージ中の用語はマーク付けされ
る。その場合、ユーザは文書内を自由に動き回り、強調
表示されたヒット・パッセージに自由に戻ることができ
る。
4のボックス550) 結果リスト中の各用語ヒット
は、文書中の対応するヒット・パッセージの周りの文脈
内にこのヒット・パッセージを表示するために選択でき
る少なくとも1つのアクティブ・ボタンまたはハイパー
リンクを含む。ヒット・パッセージは、それが出現する
文脈内に表示されたときには強調表示され、合致をもた
らしたヒット・パッセージ中の用語はマーク付けされ
る。その場合、ユーザは文書内を自由に動き回り、強調
表示されたヒット・パッセージに自由に戻ることができ
る。
【0049】手順400は、ステップ420ないし55
0を実行した後、図4のボックス560に示したよう
に、他の問い合わせの処理を開始する準備が完了し、そ
れ以外の場合は、ボックス570のように停止する。
0を実行した後、図4のボックス560に示したよう
に、他の問い合わせの処理を開始する準備が完了し、そ
れ以外の場合は、ボックス570のように停止する。
【0050】2B.基本方法:物理的近接および類似に
よるランク付け 本発明の基本方法は、すべての問い合わせ用語が密に出
現し、あるいは大部分の問い合わせ用語(または大部分
の問い合わせ用語に類似している用語)が密に出現する
索引付きテキストの領域を見つけることである。このよ
うなヒット・パッセージは、緩和ランク付け基準によっ
てグレード付けされ、このランク順にユーザに提供され
る。
よるランク付け 本発明の基本方法は、すべての問い合わせ用語が密に出
現し、あるいは大部分の問い合わせ用語(または大部分
の問い合わせ用語に類似している用語)が密に出現する
索引付きテキストの領域を見つけることである。このよ
うなヒット・パッセージは、緩和ランク付け基準によっ
てグレード付けされ、このランク順にユーザに提供され
る。
【0051】たとえば、ユーザが(テキスト・エディタ
・アプリケーション用のオンライン・ユーザのマニュア
ルなどの)文書本体中の句”jump to end
offile”(ファイルの終わりにジャンプする)を
見つけるための問い合わせを行った場合、検索エンジン
によって返されるヒット・パッセージは、”move
the cursor to the end of
the inputbuffer”(カーソルを入力バ
ッファの終わりへ移動する)となる可能性がある。この
場合、検索中の用語”jump”(ジャンプ)は、密な
意味論的距離を有する語としての問い合わせ用語”mo
ve”(移動する)に対応し、介在する句”the c
ursor”(カーソル)は、検索中のパッセージのコ
ンパクトネスを最初の問い合わせ句に対して比較する基
準に基づいて小さなペナルティをもたらす。介在する語
を含まない他の検索中のパッセージはこのペナルティを
受けない。
・アプリケーション用のオンライン・ユーザのマニュア
ルなどの)文書本体中の句”jump to end
offile”(ファイルの終わりにジャンプする)を
見つけるための問い合わせを行った場合、検索エンジン
によって返されるヒット・パッセージは、”move
the cursor to the end of
the inputbuffer”(カーソルを入力バ
ッファの終わりへ移動する)となる可能性がある。この
場合、検索中の用語”jump”(ジャンプ)は、密な
意味論的距離を有する語としての問い合わせ用語”mo
ve”(移動する)に対応し、介在する句”the c
ursor”(カーソル)は、検索中のパッセージのコ
ンパクトネスを最初の問い合わせ句に対して比較する基
準に基づいて小さなペナルティをもたらす。介在する語
を含まない他の検索中のパッセージはこのペナルティを
受けない。
【0052】この例では、句”input buffe
r”(入力バッファ)は、ある種の測定可能な含意関係
によって問い合わせ用語”file”(ファイル)に対
応する。上記で指摘したように、含意は、問い合わせ用
語がある程度、検索中の語を意味することを示す。この
場合、”input buffer”は、用語”fil
e”の仮想存在を含意するとみなすことができる。ある
用語は、それが別の用語によって意味される場合、その
別の用語を含意する。一般に、含意する側の用語は、含
意される側の用語よりも狭く、かつ特定的であるが、ほ
ぼ同義であることもある(したがって、”bird”
(鳥)は”animal”(動物)に含意し、”plu
mage”(羽衣)は”bird”に含意する)。
r”(入力バッファ)は、ある種の測定可能な含意関係
によって問い合わせ用語”file”(ファイル)に対
応する。上記で指摘したように、含意は、問い合わせ用
語がある程度、検索中の語を意味することを示す。この
場合、”input buffer”は、用語”fil
e”の仮想存在を含意するとみなすことができる。ある
用語は、それが別の用語によって意味される場合、その
別の用語を含意する。一般に、含意する側の用語は、含
意される側の用語よりも狭く、かつ特定的であるが、ほ
ぼ同義であることもある(したがって、”bird”
(鳥)は”animal”(動物)に含意し、”plu
mage”(羽衣)は”bird”に含意する)。
【0053】ヒット・パッージ”jump to en
d of file”には、ヒットの全長、欠落してい
る用語(もしあれば)の数、問い合わせの整列する語と
対応するヒット・パッセージとの間の意味論的類似また
は含意の強度に基づいて量的ランクが割り当てられる。
d of file”には、ヒットの全長、欠落してい
る用語(もしあれば)の数、問い合わせの整列する語と
対応するヒット・パッセージとの間の意味論的類似また
は含意の強度に基づいて量的ランクが割り当てられる。
【0054】この方法は、問い合わせの各用語に関する
下記の情報を与えることができる用語出現索引(その生
成については上記の第1節で論じる)を使用する。 1.その用語を含む本体中の1組のすべての文書の列挙 2.所与の文書に関して、用語が出現する文書内の(た
とえば、バイト・オフセットとしての)位置 3.集合内で用語が出現する回数、その用語が出現する
文書の数、各文書内でその用語が出現する回数、集合中
の文書および語トークンの総数などの統計的情報 そのような索引の構築は、情報検索における従来型の動
作である。
下記の情報を与えることができる用語出現索引(その生
成については上記の第1節で論じる)を使用する。 1.その用語を含む本体中の1組のすべての文書の列挙 2.所与の文書に関して、用語が出現する文書内の(た
とえば、バイト・オフセットとしての)位置 3.集合内で用語が出現する回数、その用語が出現する
文書の数、各文書内でその用語が出現する回数、集合中
の文書および語トークンの総数などの統計的情報 そのような索引の構築は、情報検索における従来型の動
作である。
【0055】この方法はさらに、用語のステムまたは形
態学的変体、意味論的に関係する語、より特定的な用
語、ある用語を含意する用語を得る機構(上記の第1節
でも論じる)を使用する。この類似距離は、問い合わせ
語を検索中の用語に突き合わせる際に割り当てるべき関
連するペナルティとして使用される。
態学的変体、意味論的に関係する語、より特定的な用
語、ある用語を含意する用語を得る機構(上記の第1節
でも論じる)を使用する。この類似距離は、問い合わせ
語を検索中の用語に突き合わせる際に割り当てるべき関
連するペナルティとして使用される。
【0056】たとえば、問い合わせ用語”chang
e”(変化)の場合、形態学的変体には”change
d”、”changing”、”interchang
e”が含まれる。意味論的に関係する語は”influ
ence”(影響する)であってよい。より特定的な語
には”alter”(修正する)および”damag
e”(損傷する)が含まれる。含意側の語は”mov
e”であってよい(何かを移動することは位置の変化を
伴うため)。下記の説明では、これらの関係する用語は
一般に、「類似用語」または「含意側用語」と呼ばれ、
数値ペナルティは、問い合わせ用語と含意側用語との間
の関連性の種類と、2つの用語間の類似距離に基づい
て、それぞれの類似用語または含意側用語に関連付けら
れる。
e”(変化)の場合、形態学的変体には”change
d”、”changing”、”interchang
e”が含まれる。意味論的に関係する語は”influ
ence”(影響する)であってよい。より特定的な語
には”alter”(修正する)および”damag
e”(損傷する)が含まれる。含意側の語は”mov
e”であってよい(何かを移動することは位置の変化を
伴うため)。下記の説明では、これらの関係する用語は
一般に、「類似用語」または「含意側用語」と呼ばれ、
数値ペナルティは、問い合わせ用語と含意側用語との間
の関連性の種類と、2つの用語間の類似距離に基づい
て、それぞれの類似用語または含意側用語に関連付けら
れる。
【0057】問い合わせ中の各用語ごとに「生成プログ
ラム」が構築される。生成プログラムとは、問い合わせ
用語またはそれに類似する用語が出現する文書中の位置
を列挙するメモリに記憶されているデータ構造またはデ
ータベースである。問い合わせ用語またはそれに類似す
る用語のこのような出現をその用語に関する「(含意
側)用語ヒット」と呼ぶ。
ラム」が構築される。生成プログラムとは、問い合わせ
用語またはそれに類似する用語が出現する文書中の位置
を列挙するメモリに記憶されているデータ構造またはデ
ータベースである。問い合わせ用語またはそれに類似す
る用語のこのような出現をその用語に関する「(含意
側)用語ヒット」と呼ぶ。
【0058】集合中の文書には、それらの文書が索引付
けされた順序や、より頻繁に使用され、あるいはより豊
富な情報を与え、あるいはより有用な文書が、それほど
有用ではない文書よりも先に来る順序付けなど、任意の
順序が割り当てられる。各問い合わせ用語ごとの生成プ
ログラムは、その用語に関する用語ヒットが出現する集
合中の第1の文書中のその問い合わせ用語に関する用語
ヒットの第1の出現を生成するように初期設定される。
けされた順序や、より頻繁に使用され、あるいはより豊
富な情報を与え、あるいはより有用な文書が、それほど
有用ではない文書よりも先に来る順序付けなど、任意の
順序が割り当てられる。各問い合わせ用語ごとの生成プ
ログラムは、その用語に関する用語ヒットが出現する集
合中の第1の文書中のその問い合わせ用語に関する用語
ヒットの第1の出現を生成するように初期設定される。
【0059】基本的には、この方法は、問い合わせの用
語に関する用語ヒットを含む各文書内をウィンドウを移
動させ、ウィンドウが問い合わせ全体の合致を含むかど
うかを判定し、そのウィンドウからヒット・パッセージ
を抽出すべきかどうかを選択し、そうである場合、選択
したパッセージをランク付けすることによって進行す
る。
語に関する用語ヒットを含む各文書内をウィンドウを移
動させ、ウィンドウが問い合わせ全体の合致を含むかど
うかを判定し、そのウィンドウからヒット・パッセージ
を抽出すべきかどうかを選択し、そうである場合、選択
したパッセージをランク付けすることによって進行す
る。
【0060】問い合わせウィンドウのサイズは、(一時
的に)固定された位置パラメータに、所定の因子に問い
合わせの長さを乗じた積として求められたウィンドウ・
サイズ・パラメータを加えた値によって求められる。こ
の2つのパラメータは、情報シーカまたは実行中のプロ
セスによって処理することも、あるいは所定の有用な値
に設定することもできる。
的に)固定された位置パラメータに、所定の因子に問い
合わせの長さを乗じた積として求められたウィンドウ・
サイズ・パラメータを加えた値によって求められる。こ
の2つのパラメータは、情報シーカまたは実行中のプロ
セスによって処理することも、あるいは所定の有用な値
に設定することもできる。
【0061】文書305上のウィンドウ300が図3に
示されており、ウィンドウ300は、n個の用語32
0.1ないし320.n(t1,t2,...,tn)
を含むヒット・パッセージ320を含むテキスト31
0.1ないし310.11の行を含む。ヒット・パッセ
ージ320は、開始位置330によってマーク付けされ
た始めと、終了位置340によってマーク付けされた終
わりとを有する。
示されており、ウィンドウ300は、n個の用語32
0.1ないし320.n(t1,t2,...,tn)
を含むヒット・パッセージ320を含むテキスト31
0.1ないし310.11の行を含む。ヒット・パッセ
ージ320は、開始位置330によってマーク付けされ
た始めと、終了位置340によってマーク付けされた終
わりとを有する。
【0062】ウィンドウ300は、文書305の本体の
それぞれの異なる部分を含むように本体上を移動するこ
とができる。たとえば、ウィンドウは、図のテキストに
対して下向きに移動する際、行310.1を省き、行3
10.12(この行が、310.11の下方の次の行に
なる)を含み、次いで行310.2を省き、行310.
13を含み、以下同様である。ウィンドウ構築の使用法
を下記に詳しく提示する。
それぞれの異なる部分を含むように本体上を移動するこ
とができる。たとえば、ウィンドウは、図のテキストに
対して下向きに移動する際、行310.1を省き、行3
10.12(この行が、310.11の下方の次の行に
なる)を含み、次いで行310.2を省き、行310.
13を含み、以下同様である。ウィンドウ構築の使用法
を下記に詳しく提示する。
【0063】他のパラメータ(ユーザまたはプロセスに
よって事前に決定され、あるいは設定される)は、緩和
のそれぞれの異なる次元(たとえば、近接、置換、形
態、分類、含意、削除)の加重を決定し、2つのパラメ
ータは、ヒット・パッセージが文境界またはパラグラフ
境界を含む場合に割り当てるべきペナルティを指定す
る。各パラメータは、情報シーカが処理できるようにす
ることも、あるいは所定の有用な値に設定することもで
きる。パッセージのランク付けは、正味ペナルティ、す
なわち、様々なソースからそのパッセージに割り当てら
れたペナルティの和によって決定される。
よって事前に決定され、あるいは設定される)は、緩和
のそれぞれの異なる次元(たとえば、近接、置換、形
態、分類、含意、削除)の加重を決定し、2つのパラメ
ータは、ヒット・パッセージが文境界またはパラグラフ
境界を含む場合に割り当てるべきペナルティを指定す
る。各パラメータは、情報シーカが処理できるようにす
ることも、あるいは所定の有用な値に設定することもで
きる。パッセージのランク付けは、正味ペナルティ、す
なわち、様々なソースからそのパッセージに割り当てら
れたペナルティの和によって決定される。
【0064】2C.ヒット・パッセージを所望のランク
順に生成する一般的な方法 下記の方法は、ヒット・パッセージを生成し、探索問い
合わせを最もうまく反映するランク付けでそれらのパッ
セージを順序付ける一般的な手順を与える。
順に生成する一般的な方法 下記の方法は、ヒット・パッセージを生成し、探索問い
合わせを最もうまく反映するランク付けでそれらのパッ
セージを順序付ける一般的な手順を与える。
【0065】それぞれ、語または句である、用語q1,
q2,...,qmの文を問い合わせqとし、語x1,
x2,...,xnのシーケンスを含むテキスト文書を
xとする。順序付けされた用語対(p,p’)に距離尺
度d=d(p,p’)を割り当てる用語類似距離関係が
使用され( pおよびp’は用語である)、dは用語間
の類似距離である。
q2,...,qmの文を問い合わせqとし、語x1,
x2,...,xnのシーケンスを含むテキスト文書を
xとする。順序付けされた用語対(p,p’)に距離尺
度d=d(p,p’)を割り当てる用語類似距離関係が
使用され( pおよびp’は用語である)、dは用語間
の類似距離である。
【0066】類似距離零は、用語の同一または完全な同
義、あるいは問い合わせ用語pとテキスト用語p’との
合致にペナルティが割り当てられない何らかの他の環境
を表す。より大きな類似距離は、例えば、一方が他方よ
りも一般的であり、あるいは他方によって含意され、あ
るいは一方のある意味が部分的に、他方のある意味と同
義であり、あるいは用語が何らかの他の点で意味論的に
類似しているため、部分的にのみ同義であり、あるいは
その他の点で関係付けられた用語に対応する。
義、あるいは問い合わせ用語pとテキスト用語p’との
合致にペナルティが割り当てられない何らかの他の環境
を表す。より大きな類似距離は、例えば、一方が他方よ
りも一般的であり、あるいは他方によって含意され、あ
るいは一方のある意味が部分的に、他方のある意味と同
義であり、あるいは用語が何らかの他の点で意味論的に
類似しているため、部分的にのみ同義であり、あるいは
その他の点で関係付けられた用語に対応する。
【0067】問い合わせqが与えられており、(1)問
い合わせの用語とテキストの用語とからなる各対が小さ
な類似距離を有し、(2)問い合わせ中の用語に整列す
るテキスト中の用語がテキスト内で互いに近接して出現
し、(3)テキスト中の用語ヒットが、それに対応する
問い合わせ用語が問い合わせ内で出現する順に出現する
場合に、そのような整列をより高くランク付けするよう
に、問い合わせ中の用語とテキスト中の用語の整列a=
(q1,xi1),(q2,xi2),...,(q
m,xim)を求めたい。
い合わせの用語とテキストの用語とからなる各対が小さ
な類似距離を有し、(2)問い合わせ中の用語に整列す
るテキスト中の用語がテキスト内で互いに近接して出現
し、(3)テキスト中の用語ヒットが、それに対応する
問い合わせ用語が問い合わせ内で出現する順に出現する
場合に、そのような整列をより高くランク付けするよう
に、問い合わせ中の用語とテキスト中の用語の整列a=
(q1,xi1),(q2,xi2),...,(q
m,xim)を求めたい。
【0068】問い合わせ用語のあるサブセットのみに関
するテキスト対応を有する整列も、検討され、欠落して
いる用語の種類、またはその用語が問い合わせで果たす
役割、あるいはその両方によって決定されたペナルティ
を与えることによって、より多くの問い合わせ用語を含
む整列よりも悪くランク付けされる(より高いペナルテ
ィを課される)。
するテキスト対応を有する整列も、検討され、欠落して
いる用語の種類、またはその用語が問い合わせで果たす
役割、あるいはその両方によって決定されたペナルティ
を与えることによって、より多くの問い合わせ用語を含
む整列よりも悪くランク付けされる(より高いペナルテ
ィを課される)。
【0069】問い合わせ用語qi(単一の語と、語のシ
ーケンスを含む句のどちらか)が与えられた場合、用語
距離対(t1,d1),(t2,d2),...,(t
j,dj)のリストを距離値dj、すなわち問い合わせ
用語qiと潜在的なテキスト用語tjとの間の類似距離
の増加する順に返す関数呼び出しが行われるように類似
距離関数が構成される。この関数を「類似語」と呼ぶ。
ーケンスを含む句のどちらか)が与えられた場合、用語
距離対(t1,d1),(t2,d2),...,(t
j,dj)のリストを距離値dj、すなわち問い合わせ
用語qiと潜在的なテキスト用語tjとの間の類似距離
の増加する順に返す関数呼び出しが行われるように類似
距離関数が構成される。この関数を「類似語」と呼ぶ。
【0070】テキスト・シーケンスx1,x
2,...,xnは、所与の用語tjに関する関数呼び
出し”term−index”が、(1)その用語が出
現するすべての文書、(2)テキスト内で用語tjに関
する合致が出現するすべての位置iを見つけるように、
事前に索引付けされる。tjが語w1,w2,...,
wpのシーケンスである場合、xi=w1,xi+1=
w2,...およびxi+p−1=wpである場合には
位置iでtjに関する合致が出現する。
2,...,xnは、所与の用語tjに関する関数呼び
出し”term−index”が、(1)その用語が出
現するすべての文書、(2)テキスト内で用語tjに関
する合致が出現するすべての位置iを見つけるように、
事前に索引付けされる。tjが語w1,w2,...,
wpのシーケンスである場合、xi=w1,xi+1=
w2,...およびxi+p−1=wpである場合には
位置iでtjに関する合致が出現する。
【0071】問い合わせq中の各用語qiに関して、そ
の用語およびそれに類似する(含意側)用語に関する用
語−索引用語リストを組み合わせることによって、用語
qiに関する用語ヒット(厳密な合致または含意側の
「密なヒット」)のシーケンスが構築される。これらの
ヒットはそれぞれ、問い合わせ用語とそれに合致するテ
キスト用語との間の類似距離に対応する加重またはペナ
ルティ(あるいは用語の厳密な合致の場合は零)を有す
る。
の用語およびそれに類似する(含意側)用語に関する用
語−索引用語リストを組み合わせることによって、用語
qiに関する用語ヒット(厳密な合致または含意側の
「密なヒット」)のシーケンスが構築される。これらの
ヒットはそれぞれ、問い合わせ用語とそれに合致するテ
キスト用語との間の類似距離に対応する加重またはペナ
ルティ(あるいは用語の厳密な合致の場合は零)を有す
る。
【0072】一般に、所与の問い合わせqに関するヒッ
ト・パッセージを生成し返す方法は下記のとおりであ
る。
ト・パッセージを生成し返す方法は下記のとおりであ
る。
【0073】1.問い合わせ中の各有意用語に関する用
語ヒットの生成プログラムをセットアップする(”o
f”や”the”などある種の関数語は無意味であると
判断され、無視される)。このような生成プログラム
は、文書中の用語ヒットを生成し、その場合、用語ヒッ
トは、集合中の文書の順に出現し、文書内では、文書内
のその用語ヒットの位置の順に出現する。
語ヒットの生成プログラムをセットアップする(”o
f”や”the”などある種の関数語は無意味であると
判断され、無視される)。このような生成プログラム
は、文書中の用語ヒットを生成し、その場合、用語ヒッ
トは、集合中の文書の順に出現し、文書内では、文書内
のその用語ヒットの位置の順に出現する。
【0074】2.問い合わせqに関する全体的なヒット
・パッセージは、問い合わせの用語によって生成される
第1の類似用語(t)の位置から開始することによって
順次、生成される。この用語ヒットを「語根」と呼ぶこ
とができる。したがって、第1のヒット・パッセージ
は、集合中の最初の文書中の最初の語、すなわち、問い
合わせ中の1つの用語に関する用語ヒットである。次い
で、この方法は、同じ文書中、および語根用語tの位置
からのしきい値近接距離(近接ホライズン)によって決
定されるウィンドウ内にある問い合わせ中の他の用語に
よって生成されるすべての用語を検査する。このウィン
ドウ内で出現する他の(非語根)生成プログラムから得
た用語ヒットの各組み合わせごとに、個別の用語ヒット
間の距離、各用語ヒットで使用された類似距離または合
致ペナルティ、ヒット・パッセージの領域に関するシン
タックス情報(ヒット・パッセージに含まれる文または
パラグラフの境界があるかどうかなど)、ウィンドウ内
に対応するヒットを有さない問い合わせ中の用語に対応
する適当なペナルティ(このペナルティは、欠落してい
る語の種類、あるいは問い合わせその語の役割または集
合中の頻度、あるいはその両方に依存する)から、この
組み合わせに関する正味ペナルティ・スコアが算出され
る。このようなヒット・パッセージには、文境界ペナル
ティおよびパラグラフ境界ペナルティに関するパラメー
タ設定に応じて、文境界またはパラグラフ境界を横切っ
たことに対するペナルティも割り当てられる。そのよう
な最良の組み合わせが選択され、その問い合わせに関す
るヒット・パッセージとして生成される。
・パッセージは、問い合わせの用語によって生成される
第1の類似用語(t)の位置から開始することによって
順次、生成される。この用語ヒットを「語根」と呼ぶこ
とができる。したがって、第1のヒット・パッセージ
は、集合中の最初の文書中の最初の語、すなわち、問い
合わせ中の1つの用語に関する用語ヒットである。次い
で、この方法は、同じ文書中、および語根用語tの位置
からのしきい値近接距離(近接ホライズン)によって決
定されるウィンドウ内にある問い合わせ中の他の用語に
よって生成されるすべての用語を検査する。このウィン
ドウ内で出現する他の(非語根)生成プログラムから得
た用語ヒットの各組み合わせごとに、個別の用語ヒット
間の距離、各用語ヒットで使用された類似距離または合
致ペナルティ、ヒット・パッセージの領域に関するシン
タックス情報(ヒット・パッセージに含まれる文または
パラグラフの境界があるかどうかなど)、ウィンドウ内
に対応するヒットを有さない問い合わせ中の用語に対応
する適当なペナルティ(このペナルティは、欠落してい
る語の種類、あるいは問い合わせその語の役割または集
合中の頻度、あるいはその両方に依存する)から、この
組み合わせに関する正味ペナルティ・スコアが算出され
る。このようなヒット・パッセージには、文境界ペナル
ティおよびパラグラフ境界ペナルティに関するパラメー
タ設定に応じて、文境界またはパラグラフ境界を横切っ
たことに対するペナルティも割り当てられる。そのよう
な最良の組み合わせが選択され、その問い合わせに関す
るヒット・パッセージとして生成される。
【0075】3.語根用語(t)に関する生成プログラ
ムは、ヒット・パッセージを生成した後、その用語に関
する次の用語ヒットへ進み、問い合わせ中のすべての他
の用語に関する生成プログラムが、前の語根用語が最初
に選択されたときの値に復元される。次に、新しい語根
が選択され(現在生成されている用語ヒットのうちの最
初の用語ヒット)、プロセスが繰り返される。
ムは、ヒット・パッセージを生成した後、その用語に関
する次の用語ヒットへ進み、問い合わせ中のすべての他
の用語に関する生成プログラムが、前の語根用語が最初
に選択されたときの値に復元される。次に、新しい語根
が選択され(現在生成されている用語ヒットのうちの最
初の用語ヒット)、プロセスが繰り返される。
【0076】4.問い合わせに関するヒット・パッセー
ジを生成するこのプロセスは、十分な数の零ペナルティ
・ヒット・パッセージが生成され(指定された限界によ
って決定される)、あるいは生成すべき用語ヒットがも
はやなくなるまで繰り返され、その後、見つかったすべ
てのヒット・パッセージがその全体的な正味ペナルティ
によってソートされる。より良いヒット・パッセージま
たは同じスコアを有する前にヒット・パッセージ内に含
まれ、あるいはそれに重なるヒット・パッセージは抑圧
され、最良の残留ヒット・パッセージ(指定された限
界)は、その全体的なペナルティ・スコアの順(最小の
ペナルティが最初)に情報シーカに提示される。別法と
して、ヒット・パッセージが生成されたときにそれを表
示ウィンドウに提供することができ、新しい各ヒット
は、それが見つかったときにディスプレイ内の適当なラ
ンク位置に挿入される。重なっている表示中のヒット・
パッセージを、新しくより良いヒット・パッセージで置
き換えることを回避するには、探索ウィンドウが重なり
の点を越えるまでヒット・パッセージをディスプレイへ
送るのを遅延させることができる。
ジを生成するこのプロセスは、十分な数の零ペナルティ
・ヒット・パッセージが生成され(指定された限界によ
って決定される)、あるいは生成すべき用語ヒットがも
はやなくなるまで繰り返され、その後、見つかったすべ
てのヒット・パッセージがその全体的な正味ペナルティ
によってソートされる。より良いヒット・パッセージま
たは同じスコアを有する前にヒット・パッセージ内に含
まれ、あるいはそれに重なるヒット・パッセージは抑圧
され、最良の残留ヒット・パッセージ(指定された限
界)は、その全体的なペナルティ・スコアの順(最小の
ペナルティが最初)に情報シーカに提示される。別法と
して、ヒット・パッセージが生成されたときにそれを表
示ウィンドウに提供することができ、新しい各ヒット
は、それが見つかったときにディスプレイ内の適当なラ
ンク位置に挿入される。重なっている表示中のヒット・
パッセージを、新しくより良いヒット・パッセージで置
き換えることを回避するには、探索ウィンドウが重なり
の点を越えるまでヒット・パッセージをディスプレイへ
送るのを遅延させることができる。
【0077】5.提示される問い合わせヒット・リスト
中の各ヒット・パッセージは、そのペナルティ・スコ
ア、合致基準の要約(各問い合わせ用語ごとの対応する
用語ヒットのリストを含む)、ソース文書内のパッセー
ジの位置の識別(文書IDやパッセージの始めおよび終
わりのバイト・オフセットなど)、検索されたパッセー
ジのテキスト文字列と共に表示される。検索されたパッ
セージは、この合致中の最初の用語ヒットよりも前に位
置するソース文書中の最後の文境界またはセグメント境
界から開始し、最後の用語ヒットの後に続く最初の文境
界またはセグメント境界で終了することによって決定さ
れる。
中の各ヒット・パッセージは、そのペナルティ・スコ
ア、合致基準の要約(各問い合わせ用語ごとの対応する
用語ヒットのリストを含む)、ソース文書内のパッセー
ジの位置の識別(文書IDやパッセージの始めおよび終
わりのバイト・オフセットなど)、検索されたパッセー
ジのテキスト文字列と共に表示される。検索されたパッ
セージは、この合致中の最初の用語ヒットよりも前に位
置するソース文書中の最後の文境界またはセグメント境
界から開始し、最後の用語ヒットの後に続く最初の文境
界またはセグメント境界で終了することによって決定さ
れる。
【0078】6.表示された用語ヒット・リストを使用
して、検索されたパッセージが出現する文脈内のそれら
のパッセージのディスプレイにアクセスすることができ
る。これを行うには、パッセージが出現する文書上で表
示ウィンドウを開き、検索されたパッセージが表示ウィ
ンドウ内に見えるように表示ウィンドウ内にテキストを
位置決めし、可能なら、そのパッセージに位置調整され
た用語ヒットがユーザに見えるようにその用語ヒットに
マーク付けする。
して、検索されたパッセージが出現する文脈内のそれら
のパッセージのディスプレイにアクセスすることができ
る。これを行うには、パッセージが出現する文書上で表
示ウィンドウを開き、検索されたパッセージが表示ウィ
ンドウ内に見えるように表示ウィンドウ内にテキストを
位置決めし、可能なら、そのパッセージに位置調整され
た用語ヒットがユーザに見えるようにその用語ヒットに
マーク付けする。
【0079】従来型の文書検索とは異なり、本発明のシ
ステムは、単に文書自体を見つけるのではなく、文書内
の特有の情報パッセージを見つける。これは、情報検索
において「パッセージ検索」と呼ばれていたものに類似
しているが、本発明では、パッセージは、用語および位
置の汎用全テキスト索引を使用して問い合わせに応答し
て動的に構築され、パッセージのサイズおよび粒度は合
致において見つけられるものに応じて可変である。
ステムは、単に文書自体を見つけるのではなく、文書内
の特有の情報パッセージを見つける。これは、情報検索
において「パッセージ検索」と呼ばれていたものに類似
しているが、本発明では、パッセージは、用語および位
置の汎用全テキスト索引を使用して問い合わせに応答し
て動的に構築され、パッセージのサイズおよび粒度は合
致において見つけられるものに応じて可変である。
【0080】2D.問い合わせおよび結果の例 下記の例は、周知のEmacsテキスト・エディタ用の
チュトリアル文書に索引付けする、出願人が使用したこ
の方法の実際の実施態様によって生成された簡略用語ヒ
ット・リストの一部である。このリストで、各ヒット用
語リストは、シーケンス番号と、ペナルティ・スコア
と、合致する用語のリストと、ヒットが出現した文書
と、下記のフォーマットの文書内のヒットの位置とを含
むデータ構造を備える。 ++++++++++++++++++++<hit sequence number> (hit <penalty score> <list of matching terms><file
where hit was found> <beginning position><end pos
ition>) <retrieved text passage>
チュトリアル文書に索引付けする、出願人が使用したこ
の方法の実際の実施態様によって生成された簡略用語ヒ
ット・リストの一部である。このリストで、各ヒット用
語リストは、シーケンス番号と、ペナルティ・スコア
と、合致する用語のリストと、ヒットが出現した文書
と、下記のフォーマットの文書内のヒットの位置とを含
むデータ構造を備える。 ++++++++++++++++++++<hit sequence number> (hit <penalty score> <list of matching terms><file
where hit was found> <beginning position><end pos
ition>) <retrieved text passage>
【0081】これは、問い合わせ句”move to
end of file”、すなわち、所定の文書本体
内でのこの句の探索に関して生成された結果である。こ
の例の文書本体は、前述のようにEmacsテキスト・
エディタ文書の一部である。
end of file”、すなわち、所定の文書本体
内でのこの句の探索に関して生成された結果である。こ
の例の文書本体は、前述のようにEmacsテキスト・
エディタ文書の一部である。
【0082】結果として得られるヒット・リストの最初
の3用語リストを下記に示す。 ++++++++++++++++++++1 (hit 0.115("GO""TO""END""FILE")"/home/emacs-tutor
ial"5881 5898) M-> Go to end of file(ファイルの終わりへ進む) ++++++++++++++++++++2 (hit 0.115("MOVES""TO""END""FILE")"/home/emacs-tut
orial"4984 5012)which moves to the end of file .(ファイルの終わり
へ移動する) ++++++++++++++++++++3 (hit 2.849("DASHES"(MISSING TO)"ENDS""FILE")"/home
/emacs-tutorial"15624 15753)begins and ends with dashes, and contains the stri
ng "Emacs: TUTORIAL".Your copy of the Emacs tutori
al is called "TUTORIAL". Whatever file youfind, th
at file's name will appear in that precise spot.
(ダッシュで始まりダッシュで終わり、文字列”Ema
cs:TUTORIAL”を含む。Emacsのコピー
を”TUTORIAL”と呼ぶ。どんなファイルが見つ
かっても、そのファイルの名前はその厳密なスポットに
表示される)
の3用語リストを下記に示す。 ++++++++++++++++++++1 (hit 0.115("GO""TO""END""FILE")"/home/emacs-tutor
ial"5881 5898) M-> Go to end of file(ファイルの終わりへ進む) ++++++++++++++++++++2 (hit 0.115("MOVES""TO""END""FILE")"/home/emacs-tut
orial"4984 5012)which moves to the end of file .(ファイルの終わり
へ移動する) ++++++++++++++++++++3 (hit 2.849("DASHES"(MISSING TO)"ENDS""FILE")"/home
/emacs-tutorial"15624 15753)begins and ends with dashes, and contains the stri
ng "Emacs: TUTORIAL".Your copy of the Emacs tutori
al is called "TUTORIAL". Whatever file youfind, th
at file's name will appear in that precise spot.
(ダッシュで始まりダッシュで終わり、文字列”Ema
cs:TUTORIAL”を含む。Emacsのコピー
を”TUTORIAL”と呼ぶ。どんなファイルが見つ
かっても、そのファイルの名前はその厳密なスポットに
表示される)
【0083】上記のアンダーラインの部分は、入力問い
合わせ句”move to endof file”に
関する合致として見つかった実際に検索されたヒット・
パッセージである)。
合わせ句”move to endof file”に
関する合致として見つかった実際に検索されたヒット・
パッセージである)。
【0084】上記の結果の関連するテキストの下記の抜
粋部分は、文脈中のそれぞれのヒット・パッセージの表
示を示す。ヒット領域(パッセージ)には下線が施さ
れ、見つかった用語ヒットはボールド体で表示されてい
る。
粋部分は、文脈中のそれぞれのヒット・パッセージの表
示を示す。ヒット領域(パッセージ)には下線が施さ
れ、見つかった用語ヒットはボールド体で表示されてい
る。
【0085】No.1.For hit 0.115("GO""TO""END""
FILE") M-a Move back to beginning of sentence(文の始めへ
戻る) M-e Move forward to end of sentence(文の終わりへ
進む) M-< Go to beginning of file(ファイルの始めへ進
む) M-> Go to end of file(ファイルの終わりへ進む) >> Try all of these commands now a few times for p
ractice. Since the last two will take you away fro
m this screen, you can come back here with M-v's a
nd C-v's. These are the most often used commands.
(次に、練習のためにすべてのこれらのコマンドを試し
てみる。最後の2つがこの画面を終了させるので、M−
vおよびC−vによってこの画面に戻ることができる。
これらは、最も頻繁に使用されるコマンドである。
FILE") M-a Move back to beginning of sentence(文の始めへ
戻る) M-e Move forward to end of sentence(文の終わりへ
進む) M-< Go to beginning of file(ファイルの始めへ進
む) M-> Go to end of file(ファイルの終わりへ進む) >> Try all of these commands now a few times for p
ractice. Since the last two will take you away fro
m this screen, you can come back here with M-v's a
nd C-v's. These are the most often used commands.
(次に、練習のためにすべてのこれらのコマンドを試し
てみる。最後の2つがこの画面を終了させるので、M−
vおよびC−vによってこの画面に戻ることができる。
これらは、最も頻繁に使用されるコマンドである。
【0086】No.2.For hit 0.155("MOVES""TO""EN
D""FILE") Two other simple cursor motion commands are: M-<(M
eta Less-Than), which moves to the beginning of th
e file, and M->(Meta Greater-than), whichmoves to
the end of the file. You probably don't need to tr
y them, sincefinding this spot again will be borin
g. On most terminals the "<" is above the comma an
d you must use the shift key to type it. On these
terminals you must use the shift key to type M-< a
lso; without the shift key,you would be typing M-c
omma.(2つの他の簡単なカーソル移動コマンドは、フ
ァイルの始めへ移送するM-<(Meta Less-than)とファイ
ルの終わりへ移動するM->(Meta Greater-than) であ
る。このスポットを再び見つけることは退屈なので、お
そらくこれらを試す必要はない。大部分の端末では、”
<”はコンマの上にあり、これを入力するにはシフト・
キーを使用しなければならない。このような端末では、
M−<を入力するときにもシフト・キーを使用しなけれ
ばならない。シフト・キーがない場合は、M−コンマを
入力する)
D""FILE") Two other simple cursor motion commands are: M-<(M
eta Less-Than), which moves to the beginning of th
e file, and M->(Meta Greater-than), whichmoves to
the end of the file. You probably don't need to tr
y them, sincefinding this spot again will be borin
g. On most terminals the "<" is above the comma an
d you must use the shift key to type it. On these
terminals you must use the shift key to type M-< a
lso; without the shift key,you would be typing M-c
omma.(2つの他の簡単なカーソル移動コマンドは、フ
ァイルの始めへ移送するM-<(Meta Less-than)とファイ
ルの終わりへ移動するM->(Meta Greater-than) であ
る。このスポットを再び見つけることは退屈なので、お
そらくこれらを試す必要はない。大部分の端末では、”
<”はコンマの上にあり、これを入力するにはシフト・
キーを使用しなければならない。このような端末では、
M−<を入力するときにもシフト・キーを使用しなけれ
ばならない。シフト・キーがない場合は、M−コンマを
入力する)
【0087】No.3.For hit 2.849("DASHES"(MISSI
NG TO)"ENDS""FILE") If you look near the bottom of the screen you will
see a line that begins and ends with dashes, and
contains the string "Emacs: TUTORIAL". Your copy o
f the Emacs tutorial is called "TUTORIAL". Whateve
r file you find, that file's name will appear in t
hat precise spot. (画面の1番下の近くを見る場合、
ダッシュで始まりダッシュで終わり、文字列”Emac
s:TUTORIAL”を含む行が表示される。Ema
csチュトリアルのコピーを”TUTORIAL”と呼
ぶ。どんなファイルが見つかっても、そのファイルの名
前はその厳密なスポットに表示される)
NG TO)"ENDS""FILE") If you look near the bottom of the screen you will
see a line that begins and ends with dashes, and
contains the string "Emacs: TUTORIAL". Your copy o
f the Emacs tutorial is called "TUTORIAL". Whateve
r file you find, that file's name will appear in t
hat precise spot. (画面の1番下の近くを見る場合、
ダッシュで始まりダッシュで終わり、文字列”Emac
s:TUTORIAL”を含む行が表示される。Ema
csチュトリアルのコピーを”TUTORIAL”と呼
ぶ。どんなファイルが見つかっても、そのファイルの名
前はその厳密なスポットに表示される)
【0088】合致の低さの程度を示す適当なペナルティ
・スコアを用いて、良好な合致から連続的に可能性の低
くなる合致へ次第に緩和していく。この例では、2より
も大きなペナルティ・スコアは、合致が有用でない可能
性が高いことを示す。文脈がどのように語の意味を決定
するかの影響をシステムが受けず、したがって、この文
脈では、”dashes”が明らかに動詞ではなく複数
名詞である場合でも、システムが”dashes”を”
move”が局限化したものとして受け入れることに留
意されたい。これに対して、第1のヒットでは、mov
eはより特定的な用語”go”には正しく合致し、それ
に対して第2のヒットでは屈折形”moves”に正し
く合致する。
・スコアを用いて、良好な合致から連続的に可能性の低
くなる合致へ次第に緩和していく。この例では、2より
も大きなペナルティ・スコアは、合致が有用でない可能
性が高いことを示す。文脈がどのように語の意味を決定
するかの影響をシステムが受けず、したがって、この文
脈では、”dashes”が明らかに動詞ではなく複数
名詞である場合でも、システムが”dashes”を”
move”が局限化したものとして受け入れることに留
意されたい。これに対して、第1のヒットでは、mov
eはより特定的な用語”go”には正しく合致し、それ
に対して第2のヒットでは屈折形”moves”に正し
く合致する。
【0089】したがって、本発明の方法は、特定の情報
要求に対する答えを含むテキスト内のパッセージを見つ
け、探索中の情報を含むと推定される程度によってその
パッセージをランク付けする。
要求に対する答えを含むテキスト内のパッセージを見つ
け、探索中の情報を含むと推定される程度によってその
パッセージをランク付けする。
【0090】2E.ヒット・パッセージを所望のランク
順に生成する特定の方法 図5は、本発明の方法の上位フローチャートである。ボ
ックス510で、探索問い合わせが入力され、ボックス
520で、方法は問い合わせ(探索)用語に関する合致
を含む本体中の目標領域を識別する。これは下記の第2
F節で詳しく説明する手順に従って、図2に示した用語
索引付けモジュール90および100の出力を使用して
行われる。
順に生成する特定の方法 図5は、本発明の方法の上位フローチャートである。ボ
ックス510で、探索問い合わせが入力され、ボックス
520で、方法は問い合わせ(探索)用語に関する合致
を含む本体中の目標領域を識別する。これは下記の第2
F節で詳しく説明する手順に従って、図2に示した用語
索引付けモジュール90および100の出力を使用して
行われる。
【0091】ボックス530で、プロセッサ20は、図
6および下記の第2F節で詳しく説明する手順で問い合
わせヒットのソート済みリストを出力バッファに充填す
る。次いで、ランク付きヒット・リストがディスプレイ
50上に表示され、あるいは将来使用できるように大容
量記憶域中のファイルとして記憶することもできる。
6および下記の第2F節で詳しく説明する手順で問い合
わせヒットのソート済みリストを出力バッファに充填す
る。次いで、ランク付きヒット・リストがディスプレイ
50上に表示され、あるいは将来使用できるように大容
量記憶域中のファイルとして記憶することもできる。
【0092】ボックス550で、実際のヒットが、それ
に割り当てられたランクに従って表示され、あるいは記
憶される。ヒット用語が強調表示され、目標テキスト、
すなわちヒット・パッセージが見つかった文書にハイパ
ーリンクが提供される。
に割り当てられたランクに従って表示され、あるいは記
憶される。ヒット用語が強調表示され、目標テキスト、
すなわちヒット・パッセージが見つかった文書にハイパ
ーリンクが提供される。
【0093】これによって所与の問い合わせの処理が完
了し、他の問い合わせがある場合、方法はボックス56
0からボックス510へ進み、そうでない場合はボック
ス570で終了する。
了し、他の問い合わせがある場合、方法はボックス56
0からボックス510へ進み、そうでない場合はボック
ス570で終了する。
【0094】2F.目標領域を識別し問い合わせヒット
をソートする方法 本節では、図5のステップ520を実行する本発明の方
法を論じる。これを行うために下記の6つのステップが
実行される。問い合わせが行われると、前述のように、
索引モジュール90および100の結果を使用すること
によって文書が見つけられ、したがって、問い合わせ用
語に関する合致が見つかるはずである一連の文書がプロ
セッサに提供される。問い合わせ用語が出現するそのよ
うな各文書内で、プロセッサによって下記のステップ0
ないし6が実行される。この動作は、次の図6の議論で
より明らかになる。
をソートする方法 本節では、図5のステップ520を実行する本発明の方
法を論じる。これを行うために下記の6つのステップが
実行される。問い合わせが行われると、前述のように、
索引モジュール90および100の結果を使用すること
によって文書が見つけられ、したがって、問い合わせ用
語に関する合致が見つかるはずである一連の文書がプロ
セッサに提供される。問い合わせ用語が出現するそのよ
うな各文書内で、プロセッサによって下記のステップ0
ないし6が実行される。この動作は、次の図6の議論で
より明らかになる。
【0095】0.最初、この文書に関する含意用語生成
プログラムによって生成された第1の含意側用語が近接
バッファにシードされ、動作パラメータ・ペナルティし
きい値が*maximum-penalty-threshold* 、すなわち問い
合わせヒットに関して受け入れられる最大ペナルティに
設定される(好ましい実施形態では、このパラメータは
50に設定される。このパラメータが、変更でき、かつ
ユーザによって制御できることは自明である)。
プログラムによって生成された第1の含意側用語が近接
バッファにシードされ、動作パラメータ・ペナルティし
きい値が*maximum-penalty-threshold* 、すなわち問い
合わせヒットに関して受け入れられる最大ペナルティに
設定される(好ましい実施形態では、このパラメータは
50に設定される。このパラメータが、変更でき、かつ
ユーザによって制御できることは自明である)。
【0096】前述のように、近接バッファは、この方法
では、文書内を有効に移動して用語ヒットが見つかる文
書の領域を画定する「ウィンドウ」に対応する。近接バ
ッファは、所与のウィンドウ内のあらゆるもの、ならび
にウィンドウのサイズおよび文書中のウィンドウの位置
を識別する情報を記憶する。ウィンドウのサイズは、文
書中のウィンドウの開始位置と、近接ホライズン、すな
わち文書中のウィンドウの終わり、すなわち下記で論じ
る可変位置によって定義することができる。
では、文書内を有効に移動して用語ヒットが見つかる文
書の領域を画定する「ウィンドウ」に対応する。近接バ
ッファは、所与のウィンドウ内のあらゆるもの、ならび
にウィンドウのサイズおよび文書中のウィンドウの位置
を識別する情報を記憶する。ウィンドウのサイズは、文
書中のウィンドウの開始位置と、近接ホライズン、すな
わち文書中のウィンドウの終わり、すなわち下記で論じ
る可変位置によって定義することができる。
【0097】1.近接ホライズンは、この問い合わせに
関して決定された近接ウィンドウ・サイズを加えること
によって近接バッファ中の第1のヒットの位置に基づい
て設定される。次いで、次のヒットが近接ホライズンを
越え、あるいは含意側用語ヒットがもはやなくなるまで
含意側用語ヒット生成プログラムを進行させることによ
って、すべての妥当な含意側用語ヒット、すなわち近接
ホライズン内で出現するすべての含意側用語ヒットの出
現で近接バッファが充填される。近接ホライズンを越え
る含意側用語ヒットが生成される場合には、後で生成で
きるように生成プログラム・ストアに残される。このよ
うな含意側用語ヒットは、下記の第2H節で説明する方
法によって生成される。
関して決定された近接ウィンドウ・サイズを加えること
によって近接バッファ中の第1のヒットの位置に基づい
て設定される。次いで、次のヒットが近接ホライズンを
越え、あるいは含意側用語ヒットがもはやなくなるまで
含意側用語ヒット生成プログラムを進行させることによ
って、すべての妥当な含意側用語ヒット、すなわち近接
ホライズン内で出現するすべての含意側用語ヒットの出
現で近接バッファが充填される。近接ホライズンを越え
る含意側用語ヒットが生成される場合には、後で生成で
きるように生成プログラム・ストアに残される。このよ
うな含意側用語ヒットは、下記の第2H節で説明する方
法によって生成される。
【0098】好ましい実施形態では、(a)パラメータ
*proporional−proximity*(た
とえば、100)が(ユーザまたはアプリケーションに
よって)設定された場合にはそのパラメータに問い合わ
せ中の用語の数を乗じた値に等しく、あるいは(b)p
roportional−proximityパラメー
タを設定しない場合には、バッファ中の第1のヒットの
位置から*proximity−threshold*
(たとえば、300)個の文字に等しい数の文字内の含
意側ヒットを選択するように設定される。これらのパラ
メータは、変更し、あるいは他の点で問い合わせに依存
させることができ、かつユーザと、実行中のアプリケー
ションまたはプロセスのどちらか、あるいはその両方に
よって制御することができる。
*proporional−proximity*(た
とえば、100)が(ユーザまたはアプリケーションに
よって)設定された場合にはそのパラメータに問い合わ
せ中の用語の数を乗じた値に等しく、あるいは(b)p
roportional−proximityパラメー
タを設定しない場合には、バッファ中の第1のヒットの
位置から*proximity−threshold*
(たとえば、300)個の文字に等しい数の文字内の含
意側ヒットを選択するように設定される。これらのパラ
メータは、変更し、あるいは他の点で問い合わせに依存
させることができ、かつユーザと、実行中のアプリケー
ションまたはプロセスのどちらか、あるいはその両方に
よって制御することができる。
【0099】2.近接バッファの現内容から得ることが
でき、かつペナルティがペナルティしきい値よりも小さ
な、最良スコア問い合わせヒットが、下記の第2G節で
説明する方法によって見つけられる。そのような合致が
得られない場合は、ステップ6へ進む。
でき、かつペナルティがペナルティしきい値よりも小さ
な、最良スコア問い合わせヒットが、下記の第2G節で
説明する方法によって見つけられる。そのような合致が
得られない場合は、ステップ6へ進む。
【0100】3.この問い合わせヒットのスコアが出力
バッファ中の最悪ヒットよりも低く、出力バッファがす
でに満杯である場合、このヒットは破棄され、方法は下
記のステップ6へ進む。この問い合わせヒットが、すで
に出力バッファにある他の問い合わせヒットに重なる場
合、前者のヒットがより良いスコアを有する場合には、
前者のヒットが後者のヒットで置き換えられ、あるいは
前者のヒットのスコアが後者のヒットのスコア以下であ
る場合には前者のヒットは破棄される。その他の場合、
この問い合わせヒットは、そのペナルティ・スコアに従
って出力バッファの適当なランクに挿入され、バッファ
がすでに満杯である場合はバッファ中の最悪バッファが
破棄される。出力バッファがまだ現在、満杯である場
合、パラメータpenalty−thresholdが
出力バッファ中の最悪問い合わせペナルティに設定され
る。
バッファ中の最悪ヒットよりも低く、出力バッファがす
でに満杯である場合、このヒットは破棄され、方法は下
記のステップ6へ進む。この問い合わせヒットが、すで
に出力バッファにある他の問い合わせヒットに重なる場
合、前者のヒットがより良いスコアを有する場合には、
前者のヒットが後者のヒットで置き換えられ、あるいは
前者のヒットのスコアが後者のヒットのスコア以下であ
る場合には前者のヒットは破棄される。その他の場合、
この問い合わせヒットは、そのペナルティ・スコアに従
って出力バッファの適当なランクに挿入され、バッファ
がすでに満杯である場合はバッファ中の最悪バッファが
破棄される。出力バッファがまだ現在、満杯である場
合、パラメータpenalty−thresholdが
出力バッファ中の最悪問い合わせペナルティに設定され
る。
【0101】4.出力バッファが満杯であり、最後のヒ
ットが零ペナルティを有する場合、方法は停止し、ヒッ
トを生成し、出力バッファの内容を返す。
ットが零ペナルティを有する場合、方法は停止し、ヒッ
トを生成し、出力バッファの内容を返す。
【0102】5.生成すべき含意側ヒットがもはやない
場合、方法は停止し、出力バッファの内容を返す。
場合、方法は停止し、出力バッファの内容を返す。
【0103】6.その他の場合、近接バッファ中の第1
の用語ヒットが近接バッファから削除され、方法はステ
ップ1へ進む。
の用語ヒットが近接バッファから削除され、方法はステ
ップ1へ進む。
【0104】問い合わせヒットを識別しソートする方法
の前述の要約は、図6のフローチャートによって分類さ
れる。一般に、方法600は、問い合わせサイズに応じ
た固定サイズを有するウィンドウを文書上で移動し、
(第1の含意用語ヒットから)ウィンドウを文書上のあ
る点に固定するステップを含む。各ウィンドウ位置ごと
に、方法は問い合わせ語に関する合致を含むパッセージ
を探索する。そのような最良の合致は、所定の最大数の
完全合致が見つかり、あるいはすべての文書の探索が終
了するまで出力バッファに入れられる。
の前述の要約は、図6のフローチャートによって分類さ
れる。一般に、方法600は、問い合わせサイズに応じ
た固定サイズを有するウィンドウを文書上で移動し、
(第1の含意用語ヒットから)ウィンドウを文書上のあ
る点に固定するステップを含む。各ウィンドウ位置ごと
に、方法は問い合わせ語に関する合致を含むパッセージ
を探索する。そのような最良の合致は、所定の最大数の
完全合致が見つかり、あるいはすべての文書の探索が終
了するまで出力バッファに入れられる。
【0105】図6のボックス610で、方法は問い合わ
せ用語に関する合致を含む目標領域の識別を開始する。
せ用語に関する合致を含む目標領域の識別を開始する。
【0106】ボックス620で、現文書に関する第1の
含意側用語ヒットが近接バッファにシードされ、ボック
ス630で、ペナルティしきい値が所定の最大値に設定
される。「含意側用語ヒット」は下記のように定義する
ことができる。問い合わせの各用語ごとに、用語/概念
関係ネットワークに、その問い合わせ用語を含意するこ
とができるある1組の用語がある。所与の問い合わせ用
語に関する合致は、その問い合わせ用語を厳密に含むこ
とも、あるいは、その問い合わせ用語を含意する何らか
の他の用語を含むこともできる。したがって、本明細書
では、どちらかのタイプの合致を含意側用語ヒットと呼
び、そのようなすべての問い合わせ用語に対する1組の
そのようなすべての含意側用語ヒットを「全体的な含意
側セット」と呼ぶことができる。
含意側用語ヒットが近接バッファにシードされ、ボック
ス630で、ペナルティしきい値が所定の最大値に設定
される。「含意側用語ヒット」は下記のように定義する
ことができる。問い合わせの各用語ごとに、用語/概念
関係ネットワークに、その問い合わせ用語を含意するこ
とができるある1組の用語がある。所与の問い合わせ用
語に関する合致は、その問い合わせ用語を厳密に含むこ
とも、あるいは、その問い合わせ用語を含意する何らか
の他の用語を含むこともできる。したがって、本明細書
では、どちらかのタイプの合致を含意側用語ヒットと呼
び、そのようなすべての問い合わせ用語に対する1組の
そのようなすべての含意側用語ヒットを「全体的な含意
側セット」と呼ぶことができる。
【0107】ボックス640で、前述のように、近接ホ
ライズンが設定され、すなわち、現目標パッセージに関
する次の含意側用語ヒットにウィンドウが位置決めされ
る(このボックスの第1のパスで、「次の」含意側用語
ヒットは第1の含意側用語ヒットである)。次いでボッ
クス650で、前述のステップ1で定義したすべての妥
当な含意側用語ヒットが近接バッファに充填される。
ライズンが設定され、すなわち、現目標パッセージに関
する次の含意側用語ヒットにウィンドウが位置決めされ
る(このボックスの第1のパスで、「次の」含意側用語
ヒットは第1の含意側用語ヒットである)。次いでボッ
クス650で、前述のステップ1で定義したすべての妥
当な含意側用語ヒットが近接バッファに充填される。
【0108】ボックス660で、方法は、現ペナルティ
しきい値よりも良い(すなわち、低い)ペナルティを有
する近接バッファ中の用語ヒットで構成できる問い合わ
せヒットがあるかどうかを判定する。第1のパスでは、
これは所定の最大ペナルティしきい値との比較である。
近接バッファ内の用語ヒットで構成できるそのような問
い合わせヒットがない場合、ボックス740で、近接バ
ッファ中の第1のヒットが削除され、ボックス640
で、近接ホライズンが、ウィンドウの始めを用いて近接
バッファ中の(新しい)第1の用語にリセットされる。
しきい値よりも良い(すなわち、低い)ペナルティを有
する近接バッファ中の用語ヒットで構成できる問い合わ
せヒットがあるかどうかを判定する。第1のパスでは、
これは所定の最大ペナルティしきい値との比較である。
近接バッファ内の用語ヒットで構成できるそのような問
い合わせヒットがない場合、ボックス740で、近接バ
ッファ中の第1のヒットが削除され、ボックス640
で、近接ホライズンが、ウィンドウの始めを用いて近接
バッファ中の(新しい)第1の用語にリセットされる。
【0109】ボックス650で、近接バッファに再び、
(前述のステップ1で定義した)妥当な含意側用語ヒッ
トが充填され、この例では、近接ウィンドウが実際上、
ステップ650の前の反復に対して1含意側用語ヒット
だけ下向きに移動する。ボックス660で、現ペナルテ
ィしきい値よりも低いペナルティを有する近接バッファ
の(新しい)内容で構成できる問い合わせヒットがある
かどうかが再び判定され、プロセスが継続する。
(前述のステップ1で定義した)妥当な含意側用語ヒッ
トが充填され、この例では、近接ウィンドウが実際上、
ステップ650の前の反復に対して1含意側用語ヒット
だけ下向きに移動する。ボックス660で、現ペナルテ
ィしきい値よりも低いペナルティを有する近接バッファ
の(新しい)内容で構成できる問い合わせヒットがある
かどうかが再び判定され、プロセスが継続する。
【0110】この試験を満たす問い合わせヒットが見つ
かった場合、方法はボックス670へ進み、近接バッフ
ァ中の最良の問い合わせヒット(すなわち、最低ペナル
ティを有する問い合わせヒット)が「現」問い合わせヒ
ットとして指定される。近接バッファ中の最良スコア問
い合わせヒットは、前述の第2Aないし2C節で一般的
に説明したように決定され、好ましい実施形態によって
これを行う詳細な手順を下記の第2G節に記載する。
かった場合、方法はボックス670へ進み、近接バッフ
ァ中の最良の問い合わせヒット(すなわち、最低ペナル
ティを有する問い合わせヒット)が「現」問い合わせヒ
ットとして指定される。近接バッファ中の最良スコア問
い合わせヒットは、前述の第2Aないし2C節で一般的
に説明したように決定され、好ましい実施形態によって
これを行う詳細な手順を下記の第2G節に記載する。
【0111】ボックス680で、現問い合わせヒットの
ペナルティが出力バッファ中の最悪ヒットよりも良い
(低い)かどうかが判定される(最良問い合わせヒット
は、ディスプレイに出力できるように記憶され、あるい
は探索手順の完了時にファイルに記憶される)。そうで
ない場合、ボックス730で、現問い合わせヒットが破
棄され、ボックス740で、近接バッファから第1の問
い合わせヒットが削除され、方法は前述のように、ボッ
クス640に戻り、より良い問い合わせヒットでもう1
度試せるようにウィンドウを再位置決めする。
ペナルティが出力バッファ中の最悪ヒットよりも良い
(低い)かどうかが判定される(最良問い合わせヒット
は、ディスプレイに出力できるように記憶され、あるい
は探索手順の完了時にファイルに記憶される)。そうで
ない場合、ボックス730で、現問い合わせヒットが破
棄され、ボックス740で、近接バッファから第1の問
い合わせヒットが削除され、方法は前述のように、ボッ
クス640に戻り、より良い問い合わせヒットでもう1
度試せるようにウィンドウを再位置決めする。
【0112】ボックス680で、現問い合わせヒットが
出力バッファ中の最悪ヒットよりも良い場合、ボックス
690で、より低いスコアの重なりが抑圧される。これ
は、目標パッセージが現問い合わせヒットの目標パッセ
ージに重なる問い合わせヒットが現問い合わせヒットと
比較され、より低いスコア(より高いペナルティ)を有
する問い合わせヒットが破棄される。この2つの問い合
わせヒットが同じペナルティ・スコアを有する場合、第
1の問い合わせヒットが保持される。
出力バッファ中の最悪ヒットよりも良い場合、ボックス
690で、より低いスコアの重なりが抑圧される。これ
は、目標パッセージが現問い合わせヒットの目標パッセ
ージに重なる問い合わせヒットが現問い合わせヒットと
比較され、より低いスコア(より高いペナルティ)を有
する問い合わせヒットが破棄される。この2つの問い合
わせヒットが同じペナルティ・スコアを有する場合、第
1の問い合わせヒットが保持される。
【0113】ボックス700で、出力バッファが満杯で
ある場合、ボックス710で、プロセッサは出力バッフ
ァ中の最低スコア用語リストを破棄する。方法は次い
で、ステップ720へ進み、現問い合わせヒットが出力
バッファに挿入される。これは挿入ソートによって行わ
れ、すなわち、現問い合わせヒットのペナルティが出力
バッファ中の第1のヒットと比較され、そのペナルティ
の方が低い場合には、第1のヒットの上に挿入され、す
べての他のヒットは下向きに移動される。そうでない場
合、現ヒットのペナルティよりも低いペナルティが見つ
かるまで、現ヒット・ペナルティが出力バッファ中の次
のヒットのペナルティと比較され、見つかった時点で、
現ヒットが挿入され、他のヒットは下向きに移動され
る。これによって、出力バッファは常に、現ヒットの挿
入時にソートされる。
ある場合、ボックス710で、プロセッサは出力バッフ
ァ中の最低スコア用語リストを破棄する。方法は次い
で、ステップ720へ進み、現問い合わせヒットが出力
バッファに挿入される。これは挿入ソートによって行わ
れ、すなわち、現問い合わせヒットのペナルティが出力
バッファ中の第1のヒットと比較され、そのペナルティ
の方が低い場合には、第1のヒットの上に挿入され、す
べての他のヒットは下向きに移動される。そうでない場
合、現ヒットのペナルティよりも低いペナルティが見つ
かるまで、現ヒット・ペナルティが出力バッファ中の次
のヒットのペナルティと比較され、見つかった時点で、
現ヒットが挿入され、他のヒットは下向きに移動され
る。これによって、出力バッファは常に、現ヒットの挿
入時にソートされる。
【0114】出力バッファ中の最低スコア・ヒットと比
較し上向きに移動する(実際には、対向する端部から移
動する)ことによる挿入や、探索が完了した後にソート
を行うことなど、他の変形例も可能である。他のソート
(ツリー・ソートなど)も適当である。しかし、挿入ソ
ートは、新しい現ヒット・ペナルティと、すでに記憶さ
れているペナルティを比較し、出力バッファを満杯にし
同時にソートする従来型の1つの方法である。
較し上向きに移動する(実際には、対向する端部から移
動する)ことによる挿入や、探索が完了した後にソート
を行うことなど、他の変形例も可能である。他のソート
(ツリー・ソートなど)も適当である。しかし、挿入ソ
ートは、新しい現ヒット・ペナルティと、すでに記憶さ
れているペナルティを比較し、出力バッファを満杯にし
同時にソートする従来型の1つの方法である。
【0115】ボックス750で、最新の現問い合わせヒ
ットが追加された場合、方法は出力バッファが現在、満
杯であるかどうかを判定する。満杯である場合、ペナル
ティしきい値が出力バッファ中の最悪問い合わせのペナ
ルティしきい値に設定され(ボックス760)、いずれ
の場合も、ボックス770へ進む。この場合、出力バッ
ファ中の最後の問い合わせヒットが零ペナルティを有し
ていたかどうかが判定される。そうである場合、これ
は、出力バッファに零ペナルティ・ヒットが充填されて
いることを示し、それに続く探索点はなく、したがっ
て、ボックス790へ進み、出力バッファの内容が返さ
れる。ステップ540に戻り、前述のようにヒットの表
示、記憶などが行われる。出力バッファのサイズをユー
ザによって選択することも、あるいは実行中のプロセス
によって設定することもでき、したがって一般的に、こ
のサイズが可変であることに留意されたい。
ットが追加された場合、方法は出力バッファが現在、満
杯であるかどうかを判定する。満杯である場合、ペナル
ティしきい値が出力バッファ中の最悪問い合わせのペナ
ルティしきい値に設定され(ボックス760)、いずれ
の場合も、ボックス770へ進む。この場合、出力バッ
ファ中の最後の問い合わせヒットが零ペナルティを有し
ていたかどうかが判定される。そうである場合、これ
は、出力バッファに零ペナルティ・ヒットが充填されて
いることを示し、それに続く探索点はなく、したがっ
て、ボックス790へ進み、出力バッファの内容が返さ
れる。ステップ540に戻り、前述のようにヒットの表
示、記憶などが行われる。出力バッファのサイズをユー
ザによって選択することも、あるいは実行中のプロセス
によって設定することもでき、したがって一般的に、こ
のサイズが可変であることに留意されたい。
【0116】ボックス770で、出力バッファ中の最後
の問い合わせヒットが零ペナルティを有さない場合、ボ
ックス780で、生成すべき含意側用語ヒットがもはや
ないかどうか、すなわち、索引からのすべての含意側用
語ヒットが終了したかどうかを判定する。生成すべきヒ
ットがもはやない場合、ボックス790へ進む。そうで
ない場合、ボックス740へ進み、近接バッファから第
1の含意側用語ヒットが削除され、近接ウィンドウが次
の含意側用語ヒットに再位置決めされる。次いで、再び
ボックス640へ進む。
の問い合わせヒットが零ペナルティを有さない場合、ボ
ックス780で、生成すべき含意側用語ヒットがもはや
ないかどうか、すなわち、索引からのすべての含意側用
語ヒットが終了したかどうかを判定する。生成すべきヒ
ットがもはやない場合、ボックス790へ進む。そうで
ない場合、ボックス740へ進み、近接バッファから第
1の含意側用語ヒットが削除され、近接ウィンドウが次
の含意側用語ヒットに再位置決めされる。次いで、再び
ボックス640へ進む。
【0117】図5の方法600が完了した後、出力バッ
ファに最良(最低ペナルティ)から最悪までのランク順
に問い合わせヒットが充填される。
ファに最良(最低ペナルティ)から最悪までのランク順
に問い合わせヒットが充填される。
【0118】2G.最良スコア問い合わせヒットを判定
する方法 下記は、最良のスコアを有する問い合わせヒット、すな
わち、最低の集計ペナルティまたは組合せペナルティを
形成するために、現近接バッファのどの含意側用語ヒッ
トどうしを使用できるかを判定する適切な方法である。
したがって、この方法は、文書上のウィンドウ内に位置
する用語ヒットを実際にスコア付けする手順を提供す
る。
する方法 下記は、最良のスコアを有する問い合わせヒット、すな
わち、最低の集計ペナルティまたは組合せペナルティを
形成するために、現近接バッファのどの含意側用語ヒッ
トどうしを使用できるかを判定する適切な方法である。
したがって、この方法は、文書上のウィンドウ内に位置
する用語ヒットを実際にスコア付けする手順を提供す
る。
【0119】A.問い合わせqの連続問い合わせ用語を
q1,q2,...,qmとし、現近接バッファ中の
(すなわち、近接バッファ中の第1の含意側用語ヒット
の近接ホライズン内)含意側用語ヒットのシーケンスを
x1,x2,...,xnとする。近接バッファ中の第
1の用語x1が1つの問い合わせ用語に整列し、各問い
合わせ用語が、それを含意する近接バッファ中の1つの
xijと、それが欠落していることを示すマーカのどち
らかと対になるように、問い合わせ中の用語と近接バッ
ファ中の含意側用語とのすべての可能な整列a=(q
1,xil),(q2,xi2),...,(qm,x
im)を探索する。このような整列は、そのような最良
ランクのヒット、すなわち、下記のランク付けアルゴリ
ズムによって割り当てられた最低ペナルティ・スコアを
有するヒットを見つけるために探索される。
q1,q2,...,qmとし、現近接バッファ中の
(すなわち、近接バッファ中の第1の含意側用語ヒット
の近接ホライズン内)含意側用語ヒットのシーケンスを
x1,x2,...,xnとする。近接バッファ中の第
1の用語x1が1つの問い合わせ用語に整列し、各問い
合わせ用語が、それを含意する近接バッファ中の1つの
xijと、それが欠落していることを示すマーカのどち
らかと対になるように、問い合わせ中の用語と近接バッ
ファ中の含意側用語とのすべての可能な整列a=(q
1,xil),(q2,xi2),...,(qm,x
im)を探索する。このような整列は、そのような最良
ランクのヒット、すなわち、下記のランク付けアルゴリ
ズムによって割り当てられた最低ペナルティ・スコアを
有するヒットを見つけるために探索される。
【0120】B.各対(qj,xij)ごとに下記のペ
ナルティの和を求める。
ナルティの和を求める。
【0121】1.形態学的変形例ペナルティ−−qjと
xijが同じ形態学的語根を有するが、同じ屈折形でも
同じ派生形でもない(すなわち、共に語根形であるとは
限らず、共に単数形であるとは限らず、共に三人称単数
形動詞であるとは限らない)場合、この2つのうちで語
根形ではないものに、関与する形態学的関係が屈折であ
るか、それとも派生であるかに応じてパラメータ*in
flection−penalty*または*deri
vation−penalty*によって決定される量
だけペナルティを課す。好ましい実施形態では、これら
のペナルティはそれぞれ、0.08および0.1であ
る。このランク付けペナルティ成分が、それぞれの異な
るペナルティを使用するように修正することも、あるい
はそれぞれの異なる種類の屈折関係または派生関係に対
するそれぞれの異なるペナルティを組み込むように修正
することもできることは自明である。
xijが同じ形態学的語根を有するが、同じ屈折形でも
同じ派生形でもない(すなわち、共に語根形であるとは
限らず、共に単数形であるとは限らず、共に三人称単数
形動詞であるとは限らない)場合、この2つのうちで語
根形ではないものに、関与する形態学的関係が屈折であ
るか、それとも派生であるかに応じてパラメータ*in
flection−penalty*または*deri
vation−penalty*によって決定される量
だけペナルティを課す。好ましい実施形態では、これら
のペナルティはそれぞれ、0.08および0.1であ
る。このランク付けペナルティ成分が、それぞれの異な
るペナルティを使用するように修正することも、あるい
はそれぞれの異なる種類の屈折関係または派生関係に対
するそれぞれの異なるペナルティを組み込むように修正
することもできることは自明である。
【0122】2.分類学的局限化ペナルティ−−包摂分
類法によればqj(の語根)がxij(の語根)よりも
一般的な用語である場合、整列に、パラメータ*des
cendants−penalty*によって決定され
る量だけペナルティを課す(好ましい実施形態では、こ
のパラメータは0.1である。このランク付けペナルテ
ィ成分が、それぞれの異なるペナルティを使用するよう
に修正することも、あるいはより一般的な用語とより特
定的な用語との間の意味論的距離の次元を組み込むよう
に修正することもできることは自明である)。
類法によればqj(の語根)がxij(の語根)よりも
一般的な用語である場合、整列に、パラメータ*des
cendants−penalty*によって決定され
る量だけペナルティを課す(好ましい実施形態では、こ
のパラメータは0.1である。このランク付けペナルテ
ィ成分が、それぞれの異なるペナルティを使用するよう
に修正することも、あるいはより一般的な用語とより特
定的な用語との間の意味論的距離の次元を組み込むよう
に修正することもできることは自明である)。
【0123】3.意味論的含意ペナルティ−−既知の含
意関係によればqj(の語根)がxij(の語根)によ
って意味論的に含意される場合、整列に、パラメータ*
entailments−penalty*によって決
定される量だけペナルティを課す(好ましい実施形態で
は、このパラメータは0.1である。このランク付けペ
ナルティ成分が、異なるペナルティを使用するように修
正することも、あるいは問い合わせ用語と含意側用語と
の間の含意強度の次元を組み込むように修正することも
できることは自明である)。
意関係によればqj(の語根)がxij(の語根)によ
って意味論的に含意される場合、整列に、パラメータ*
entailments−penalty*によって決
定される量だけペナルティを課す(好ましい実施形態で
は、このパラメータは0.1である。このランク付けペ
ナルティ成分が、異なるペナルティを使用するように修
正することも、あるいは問い合わせ用語と含意側用語と
の間の含意強度の次元を組み込むように修正することも
できることは自明である)。
【0124】4.欠落用語ペナルティ−−qj(の語
根)が前述の関係(同じ形態論的語根、または語根間の
分類学的局限化関係、または語根間の意味論的含意関
係)では近接バッファ中のどのxij用語にも整列でき
ず、したがって、欠落しているとマーク付けされた場
合、その用語に、下記のように決定されるペナルティを
課す。その用語が下記の統語論的語クラスのうちの1つ
に存在する場合、(副詞、助詞、接続詞、頭文字、間投
詞、法助動詞、名前接頭辞、機能語、進行形、前置詞、
代名詞、句読点、タイトル)*missing−qua
lifier−penalty*によってペナルティを
課す。その用語が動詞であり、あるいは動詞である可能
性がある場合は、*missing−verb−pen
alty*によってペナルティを課す。その用語が下記
の統語論的語クラスのうちの1つに存在する場合には、
(形容詞、決定詞)*missing−adjecti
ve−penalty*によってペナルティを課す。そ
の他の場合は、*missing−term−pena
lty*によってペナルティを課す。
根)が前述の関係(同じ形態論的語根、または語根間の
分類学的局限化関係、または語根間の意味論的含意関
係)では近接バッファ中のどのxij用語にも整列でき
ず、したがって、欠落しているとマーク付けされた場
合、その用語に、下記のように決定されるペナルティを
課す。その用語が下記の統語論的語クラスのうちの1つ
に存在する場合、(副詞、助詞、接続詞、頭文字、間投
詞、法助動詞、名前接頭辞、機能語、進行形、前置詞、
代名詞、句読点、タイトル)*missing−qua
lifier−penalty*によってペナルティを
課す。その用語が動詞であり、あるいは動詞である可能
性がある場合は、*missing−verb−pen
alty*によってペナルティを課す。その用語が下記
の統語論的語クラスのうちの1つに存在する場合には、
(形容詞、決定詞)*missing−adjecti
ve−penalty*によってペナルティを課す。そ
の他の場合は、*missing−term−pena
lty*によってペナルティを課す。
【0125】好ましい実施形態では、missing−
qualifier−penaltyは2であり、mi
ssing−verb−penaltyは5であり、m
issing−adjective−penaltyは
7.5であり、missing−term−penal
tyは10である。このランク付けペナルティ成分は、
それぞれの異なるペナルティまたはそれぞれの異なるペ
ナルティ範疇を使用するように修正することも、あるい
は、欠落している用語に対するペナルティを決定するた
めの用語頻度または語重要性あるいは統語論的役割の次
元を組み込むように修正することができる。
qualifier−penaltyは2であり、mi
ssing−verb−penaltyは5であり、m
issing−adjective−penaltyは
7.5であり、missing−term−penal
tyは10である。このランク付けペナルティ成分は、
それぞれの異なるペナルティまたはそれぞれの異なるペ
ナルティ範疇を使用するように修正することも、あるい
は、欠落している用語に対するペナルティを決定するた
めの用語頻度または語重要性あるいは統語論的役割の次
元を組み込むように修正することができる。
【0126】C.累算された前述のペナルティに、整列
全体に関して求められた下記のペナルティを加える。
全体に関して求められた下記のペナルティを加える。
【0127】5.近接ランク付けペナルティ−−テキス
ト中の連続含意側用語対の出現順の整列中のこの各連続
含意側用語対ごとに、単一の文字よりも大きな含意側用
語間のギャップに、含意側用語間の文字数よりも1だけ
少ない数にパラメータ*gap−penalty−fa
ctor*を乗じた値に等しい量だけペナルティを課
す。好ましい実施形態では、このパラメータは0.00
5である。このランク付けペナルティ成分が、異なるペ
ナルティ因子を使用するように修正することも、あるい
は、語カウントまたは文字カウント以外の他の近接尺度
を使用して語間のギャップを測定するように修正するこ
ともできることは自明である。
ト中の連続含意側用語対の出現順の整列中のこの各連続
含意側用語対ごとに、単一の文字よりも大きな含意側用
語間のギャップに、含意側用語間の文字数よりも1だけ
少ない数にパラメータ*gap−penalty−fa
ctor*を乗じた値に等しい量だけペナルティを課
す。好ましい実施形態では、このパラメータは0.00
5である。このランク付けペナルティ成分が、異なるペ
ナルティ因子を使用するように修正することも、あるい
は、語カウントまたは文字カウント以外の他の近接尺度
を使用して語間のギャップを測定するように修正するこ
ともできることは自明である。
【0128】6.置換ペナルティ−−各連続問い合わせ
用語対ごとに、整列中の対応する含意側用語がテキスト
において同じ順序でない場合、このヒットに、パラメー
タ*out−of−order−penalty*に等
しい量だけペナルティを課す(好ましい実施形態では、
このパラメータは0.25である。このランク付けペナ
ルティ成分が、異なるペナルティ因子を使用するように
修正することも、あるいは、ヒット中の用語の順序が問
い合わせ中の用語の順序と異なる程度の様々な他の尺度
を使用するように修正することもできることは自明であ
る)。
用語対ごとに、整列中の対応する含意側用語がテキスト
において同じ順序でない場合、このヒットに、パラメー
タ*out−of−order−penalty*に等
しい量だけペナルティを課す(好ましい実施形態では、
このパラメータは0.25である。このランク付けペナ
ルティ成分が、異なるペナルティ因子を使用するように
修正することも、あるいは、ヒット中の用語の順序が問
い合わせ中の用語の順序と異なる程度の様々な他の尺度
を使用するように修正することもできることは自明であ
る)。
【0129】7.内部境界ペナルティ−−整列の最初の
含意側ヒットから整列の最後の含意側ヒットまでの領域
によってカバーされるテキストの部分を、テキストのそ
の部分に含まれる各文境界またはパラグラフ境界に関し
て走査し、境界が文境界であるか、それともパラグラフ
境界であるかに応じて*cross−sentence
−penalty*または*cross−paragr
aph−penalty*に等しいペナルティを加え
る。好ましい実施形態では、これらのパラメータはそれ
ぞれ、0.1および50である。このランク付けペナル
ティ成分がそれぞれの異なるペナルティを使用するよう
に修正できることは自明である。
含意側ヒットから整列の最後の含意側ヒットまでの領域
によってカバーされるテキストの部分を、テキストのそ
の部分に含まれる各文境界またはパラグラフ境界に関し
て走査し、境界が文境界であるか、それともパラグラフ
境界であるかに応じて*cross−sentence
−penalty*または*cross−paragr
aph−penalty*に等しいペナルティを加え
る。好ましい実施形態では、これらのパラメータはそれ
ぞれ、0.1および50である。このランク付けペナル
ティ成分がそれぞれの異なるペナルティを使用するよう
に修正できることは自明である。
【0130】任意の点で、部分的に生成された整列のペ
ナルティ・スコアがすでに、生成できる何らかの他の整
列のスコアよりも悪く、あるいは、指定されたペナルテ
ィしきい値よりも悪いことを判定することができる場
合、悪い方の部分的整列をその点で破棄し、その後は検
討しないようにすることができる。そのような探索を実
行する多数の従来型の技法が、コンピュータ科学探索に
関する文献に記載されている。
ナルティ・スコアがすでに、生成できる何らかの他の整
列のスコアよりも悪く、あるいは、指定されたペナルテ
ィしきい値よりも悪いことを判定することができる場
合、悪い方の部分的整列をその点で破棄し、その後は検
討しないようにすることができる。そのような探索を実
行する多数の従来型の技法が、コンピュータ科学探索に
関する文献に記載されている。
【0131】D.ペナルティしきい値よりも良いペナル
ティがある場合には、最良(最小)総ペナルティを選択
する。これによって、用語のペナルティ・スコア付けが
完了し、したがって、最良スコア問い合わせヒットの現
近接バッファからの検索が完了する。
ティがある場合には、最良(最小)総ペナルティを選択
する。これによって、用語のペナルティ・スコア付けが
完了し、したがって、最良スコア問い合わせヒットの現
近接バッファからの検索が完了する。
【0132】2H.含意側用語ヒットを生成する方法 この方法は、用語/概念関係ネットワーク110を使用
する。用語/概念関係ネットワーク110は、オフライ
ンで手動で構築することも、あるいは、手動で構築した
関係および形態学的規則の知識ベースを使用して、第1
節で説明し、さらに下記の第2I節で詳しく説明する方
法によって、索引付けプロセス中に自動的に構築するこ
ともできる。このネットワークでは、索引付けされた材
料の本体で出現し、あるいは問い合わせ用語で出現する
可能性がある所与の用語が表現され、この用語を、それ
が示すことができる1つまたは複数の概念に関連付ける
ことができる。これらの語および概念は、下記の形態学
的関係、分類学的関係、意味論的含意関係によって互い
に関係付けることができる。
する。用語/概念関係ネットワーク110は、オフライ
ンで手動で構築することも、あるいは、手動で構築した
関係および形態学的規則の知識ベースを使用して、第1
節で説明し、さらに下記の第2I節で詳しく説明する方
法によって、索引付けプロセス中に自動的に構築するこ
ともできる。このネットワークでは、索引付けされた材
料の本体で出現し、あるいは問い合わせ用語で出現する
可能性がある所与の用語が表現され、この用語を、それ
が示すことができる1つまたは複数の概念に関連付ける
ことができる。これらの語および概念は、下記の形態学
的関係、分類学的関係、意味論的含意関係によって互い
に関係付けることができる。
【0133】1.用語xは、屈折用語または派生用語y
の語根形である。
の語根形である。
【0134】2.用語または概念xは、用語または概念
yを分類学的に包摂する(すなわち、用語または概念x
は用語または概念yよりも一般的な用語または概念であ
る)。
yを分類学的に包摂する(すなわち、用語または概念x
は用語または概念yよりも一般的な用語または概念であ
る)。
【0135】3.用語または概念xは、用語または概念
yによって含意することができる。
yによって含意することができる。
【0136】一般に、これらの関係は、データ入力によ
ってオフラインで構築されたそのような関係(120、
150、180)の知識ベースで探さなければならな
い。しかし、ある種の形態学的関係は、テキスト内で出
会った語の屈折形および派生形に形態学的規則を適用す
ることによって自動的に導くことができる。そのような
形態学的規則は一般に、計算言語学における従来型のシ
ステムの一部である。
ってオフラインで構築されたそのような関係(120、
150、180)の知識ベースで探さなければならな
い。しかし、ある種の形態学的関係は、テキスト内で出
会った語の屈折形および派生形に形態学的規則を適用す
ることによって自動的に導くことができる。そのような
形態学的規則は一般に、計算言語学における従来型のシ
ステムの一部である。
【0137】問い合わせq=q1,q2,...,qm
に関する含意側用語(「全体的な含意側セット」は、q
中の用語qiを含意する本体内で出現する1組のすべて
の用語である。この場合、下記のどれかが成立する場合
には、用語xは用語qiを含意する。
に関する含意側用語(「全体的な含意側セット」は、q
中の用語qiを含意する本体内で出現する1組のすべて
の用語である。この場合、下記のどれかが成立する場合
には、用語xは用語qiを含意する。
【0138】1.xまたはxの語根は、qiまたはqi
の語根に等しい。
の語根に等しい。
【0139】2.xまたはxの語根は、qiまたはqi
の語根、あるいはxが示す概念を分類学的に包摂し、あ
るいは、xの語根は、qiまたはqiの語根、あるいは
qiまたはqiの語根が示す概念を分類学的に包摂す
る。
の語根、あるいはxが示す概念を分類学的に包摂し、あ
るいは、xの語根は、qiまたはqiの語根、あるいは
qiまたはqiの語根が示す概念を分類学的に包摂す
る。
【0140】3.xまたはxの語根は、qiまたはqi
の語根、あるいはxが示す概念によって意味論的に含意
され、あるいは、xの語根は、qiまたはqiの語根、
あるいはqiまたはqiの語根が示す概念によって意味
論的に含意される。
の語根、あるいはxが示す概念によって意味論的に含意
され、あるいは、xの語根は、qiまたはqiの語根、
あるいはqiまたはqiの語根が示す概念によって意味
論的に含意される。
【0141】問い合わせq=q1,q2,...,qm
に関する含意側用語ヒットは、q中の用語qiまたはq
中の用語qiが示す概念を含意する本体中のすべての用
語出現のシーケンスである。これらの含意側用語ヒット
は、それぞれ、(最初は、本体のすべての文書のデフォ
ルト順序によって決定され、次に文書内の用語出現の位
置によって決定される)本体中の含意側用語ヒットの出
現順に各含意側用語の出現を生成する、各含意側用語ご
との生成プログラムの集合を作成することによって本体
中のこれらの含意側用語ヒットの出現順に生成される。
任意の生成ステップで、生成に利用できる最初のヒット
を有する含意側用語生成プログラムを選択し、その用語
ヒットを生成することによって、次に生成される含意側
用語ヒットが生成される。次の生成ステップでは、異な
る含意側用語生成プログラムが、生成するために利用で
きる最初のヒットを有することができる。この含意側用
語ヒット生成プログラムを繰り返し呼び出して、あるフ
ァイル中のある用語出現から始まり、その語根用語出現
を越えたある近接ホライズンに達するまで継続する、本
体のウィンドウ内で出現するすべての含意側用語ヒット
を見つけることができる。
に関する含意側用語ヒットは、q中の用語qiまたはq
中の用語qiが示す概念を含意する本体中のすべての用
語出現のシーケンスである。これらの含意側用語ヒット
は、それぞれ、(最初は、本体のすべての文書のデフォ
ルト順序によって決定され、次に文書内の用語出現の位
置によって決定される)本体中の含意側用語ヒットの出
現順に各含意側用語の出現を生成する、各含意側用語ご
との生成プログラムの集合を作成することによって本体
中のこれらの含意側用語ヒットの出現順に生成される。
任意の生成ステップで、生成に利用できる最初のヒット
を有する含意側用語生成プログラムを選択し、その用語
ヒットを生成することによって、次に生成される含意側
用語ヒットが生成される。次の生成ステップでは、異な
る含意側用語生成プログラムが、生成するために利用で
きる最初のヒットを有することができる。この含意側用
語ヒット生成プログラムを繰り返し呼び出して、あるフ
ァイル中のある用語出現から始まり、その語根用語出現
を越えたある近接ホライズンに達するまで継続する、本
体のウィンドウ内で出現するすべての含意側用語ヒット
を見つけることができる。
【0142】2I.用語/概念関係ネットワークの生成 索引付けされた材料中の各語または句に出会う、上記の
第1節で説明した索引付け時に(あるいは、別々のパス
中に)、本体が分析される際に構築される語および概念
ならびに語および概念間の関係の成長する用語/概念関
係ネットワーク110でその語または句が検索される。
その語又は句がまだ、この用語/概念関係ネットワーク
110に存在しない場合には、このネットワークに追加
される。
第1節で説明した索引付け時に(あるいは、別々のパス
中に)、本体が分析される際に構築される語および概念
ならびに語および概念間の関係の成長する用語/概念関
係ネットワーク110でその語または句が検索される。
その語又は句がまだ、この用語/概念関係ネットワーク
110に存在しない場合には、このネットワークに追加
される。
【0143】そのような各語または句に初めて出会う際
に、その語または句は、語および概念の関係(120、
150、180)からなる手動で構築された外部知識ベ
ースでも検索され、このような外部ネットワークで見つ
かった場合、この語または句によって含意されることが
知られており、あるいはこの語または句の派生形または
屈折形である外部ネットワーク中のすべての語および概
念が、それらの語および概念間の既知の関係と共に、成
長する用語/概念関係110ネットワークに追加され
る。そのような語または句が外部ネットワークで見つか
らない場合、その語または句は、形態学的規則によって
分析され、外部知識ベース(120、150、180)
において知られている語の屈折形または派生形であるか
どうかが判定され、そうである場合、その語根との形態
学的関係が用語/概念関係ネットワークに記録され、そ
の語根形は、本体で出現した場合と同様に扱われる(す
なわち、その語根形が外部ネットワークで検索され、す
べてのその含意、屈折、派生、関係が追加される)。
に、その語または句は、語および概念の関係(120、
150、180)からなる手動で構築された外部知識ベ
ースでも検索され、このような外部ネットワークで見つ
かった場合、この語または句によって含意されることが
知られており、あるいはこの語または句の派生形または
屈折形である外部ネットワーク中のすべての語および概
念が、それらの語および概念間の既知の関係と共に、成
長する用語/概念関係110ネットワークに追加され
る。そのような語または句が外部ネットワークで見つか
らない場合、その語または句は、形態学的規則によって
分析され、外部知識ベース(120、150、180)
において知られている語の屈折形または派生形であるか
どうかが判定され、そうである場合、その語根との形態
学的関係が用語/概念関係ネットワークに記録され、そ
の語根形は、本体で出現した場合と同様に扱われる(す
なわち、その語根形が外部ネットワークで検索され、す
べてのその含意、屈折、派生、関係が追加される)。
【0144】このプロセスの終わりには、本体で出現す
るすべての用語と、それらの用語によって含意され、あ
るいはそれらの用語に形態学的に関係するすべての概念
を、それらの用語および概念間のすべての既知の形態学
的関係、分類学的関係、含意関係と共に含む用語/概念
関係ネットワークが構築されている。
るすべての用語と、それらの用語によって含意され、あ
るいはそれらの用語に形態学的に関係するすべての概念
を、それらの用語および概念間のすべての既知の形態学
的関係、分類学的関係、含意関係と共に含む用語/概念
関係ネットワークが構築されている。
【0145】2J.問い合わせサイズ手順適応 一般に、短い問い合わせをうまく処理することができな
い従来型の検査方法に対して、本発明の方法は、トライ
アル・ランにおいて、2つまたは3つの語、あるいはお
そらく最大約6つの語からなる短い問い合わせを特に効
果的に処理することが証明されている。したがって、1
つまたはある数Nよりも多くの語を探索する際に従来型
の語探索技法を使用することによって本発明をさらに機
能強化することができる。数Nは、事前に設定し、ある
いは探索結果が成功したことに応答してユーザまたはプ
ロセスによって選択することができ、生成された結果に
応じて3ないし6以上でよい。そのようなシステムは、
従来型の技法と本発明の両方を最もうまく使用し、した
がって、その動作は、小数の語しか有さない問い合わせ
の特に困難な領域に制限される。
い従来型の検査方法に対して、本発明の方法は、トライ
アル・ランにおいて、2つまたは3つの語、あるいはお
そらく最大約6つの語からなる短い問い合わせを特に効
果的に処理することが証明されている。したがって、1
つまたはある数Nよりも多くの語を探索する際に従来型
の語探索技法を使用することによって本発明をさらに機
能強化することができる。数Nは、事前に設定し、ある
いは探索結果が成功したことに応答してユーザまたはプ
ロセスによって選択することができ、生成された結果に
応じて3ないし6以上でよい。そのようなシステムは、
従来型の技法と本発明の両方を最もうまく使用し、した
がって、その動作は、小数の語しか有さない問い合わせ
の特に困難な領域に制限される。
【0146】一般に、短い問い合わせをうまく処理する
ことができない従来型の検査方法に対して、本発明の方
法は、トライアル・ランにおいて、2つまたは3つの
語、あるいはおそらく最大約6つの語からなる短い問い
合わせを特に効果的に処理することが証明されている。
したがって、1つまたはある数Nよりも多くの語を探索
する際に従来型の語探索技法を使用することによって本
発明をさらに機能強化することができる。数Nは、事前
に設定し、あるいは探索結果が成功したことに応答して
ユーザまたはプロセスによって選択することができ、生
成された結果に応じて3ないし6以上でよい。そのよう
なシステムは、従来型の技法と本発明の両方を最もうま
く使用し、したがって、その動作は、小数の語しか有さ
ない問い合わせの特に困難な領域に制限される。
ことができない従来型の検査方法に対して、本発明の方
法は、トライアル・ランにおいて、2つまたは3つの
語、あるいはおそらく最大約6つの語からなる短い問い
合わせを特に効果的に処理することが証明されている。
したがって、1つまたはある数Nよりも多くの語を探索
する際に従来型の語探索技法を使用することによって本
発明をさらに機能強化することができる。数Nは、事前
に設定し、あるいは探索結果が成功したことに応答して
ユーザまたはプロセスによって選択することができ、生
成された結果に応じて3ないし6以上でよい。そのよう
なシステムは、従来型の技法と本発明の両方を最もうま
く使用し、したがって、その動作は、小数の語しか有さ
ない問い合わせの特に困難な領域に制限される。
【0147】2J.文書検索応用例 このパッセージ検索技法を従来型の文書検索問題に応用
し、各文書が含む最良のパッセージ・スコアを各文書に
与えることによって文書を検索しランク付けすることが
できる。
し、各文書が含む最良のパッセージ・スコアを各文書に
与えることによって文書を検索しランク付けすることが
できる。
【図1】 本発明のシステムのブロック図である。
【図2】 本発明の索引付け・分析システムの対話モジ
ュールの図である。
ュールの図である。
【図3】 本発明のシステムによって生成された例示的
な探索結果を示す図である。
な探索結果を示す図である。
【図4】 本発明による一般的な問い合わせ処理方法の
フローチャートである。
フローチャートである。
【図5】 本発明の方法のさらに詳しい好ましい実施形
態を示すフローチャートである。
態を示すフローチャートである。
【図6】 本発明の方法のさらに詳しい好ましい実施形
態を示すフローチャートである。
態を示すフローチャートである。
10 コンピュータ・システム 20 プロセッサ 30 メモリ 40 キーボードおよびマウス 50 出力装置 60 検索エンジン 70 文書本体 80 用語出現索引 85 生成プログラム・スコア 90 出力バッファ 95 近接バッファ 100 語分析モジュール 110 用語/概念関係ネットワーク 130 汎用分類法 140 局限分類法 150 意味論的含意関係 160 汎用含意データベース 170 ドメイン特有含意データベース 180 レキシコン 190 汎用レキシコン 200 ドメイン特有局限レキシコン
Claims (9)
- 【請求項1】 プロセッサに結合されたメモリに記憶さ
れているデータベース中の文書の情報を見つける方法で
あって、この方法が、前記プロセッサによって実行され
るプログラム・ステップによって実施され、 (1)少なくとも1つの問い合わせ用語を含む探索問い
合わせを受け取るステップと、 (2)前記少なくとも1つの問い合わせ用語に対応する
少なくとも1つのヒット用語を含む少なくとも1つのヒ
ット・パッセージを前記文書から生成するステップと、 (3)それぞれ、少なくとも第1の問い合わせ用語およ
び第2の問い合わせ用語に対応する、少なくとも第1の
ヒット用語および第2のヒット用語に関して、前記第1
のヒット用語と第2のヒット用語との間の第1の距離お
よび前記第1の問い合わせ用語と第2の問い合わせ用語
との間の第2の距離を求めるステップと、 (4)前記第1の距離と前記第2の距離との比較に基づ
く大きさを有する因子を生成するステップと、 (5)前記因子の大きさを組み込んだ前記ヒット・パッ
セージに関するスコアを生成するステップとを含む方
法。 - 【請求項2】 プロセッサに結合されたメモリに記憶さ
れているデータベース中の文書の情報を見つける方法で
あって、この方法が、前記プロセッサによって実行され
るプログラム・ステップによって実施され、 (1)少なくとも第1の問い合わせ用語と第2の問い合
わせ用語を第1の順序で含む探索問い合わせを受け取る
ステップと、 (2)少なくとも、前記第1の問い合わせ用語に対応す
る第1のヒット用語と、前記第2の問い合わせ用語に対
応する第2のヒット用語とを含む、少なくとも1つのヒ
ット・パッセージを前記文書から生成し、前記第1のヒ
ット用語および第2のヒット用語が第2の順序であるス
テップと、 (3)前記第1の距離と前記第2の距離との比較に基づ
く大きさを有する因子を生成するステップと、 (4)前記因子の大きさを組み込んだ前記ヒット・パッ
セージに関するスコアを生成するステップとを含む方
法。 - 【請求項3】 さらに、 ステップ4の後に、最良スコアの前記ヒット・パッセー
ジを判定するステップと、 少なくとも前記最良スコア・ヒット・パッセージを受け
取るステップとを含む請求項2に記載の方法。 - 【請求項4】 さらに、 ステップ4の後に、最良スコアの前記ヒット・パッセー
ジを判定するステップと、 少なくとも、前記最良スコアのヒット・パッセージを含
む文書を受け取るステップとを含む請求項2に記載の方
法。 - 【請求項5】 コンピュータ・システムのプロセッサに
結合されたメモリに記憶されているデータベース中の文
書の情報を見つける方法であって、コンピュータ・シス
テムがさらに、前記プロセッサに結合された近接バッフ
ァと出力バッファとを含み、この方法が、前記プロセッ
サによって実行されるプログラム・ステップによって実
施され、 (1)少なくとも1つの問い合わせ用語を含む探索問い
合わせを受け取るステップと、 (2)前記データベース中の少なくとも1つの前記文書
の少なくとも1つの目標領域を判定するステップと、 (3)ペナルティ式を所定の最大値に設定するステップ
と、 (4)前記目標領域内の前記問い合わせ用語に対応する
問い合わせヒットを判定し、前記各問い合わせヒットが
それに対応する問い合わせ用語にどれだけ密に対応する
かを反映するスコアを前記問い合わせヒットに関連付け
るステップと、 (5)前記近接バッファに前記問い合わせヒットを記憶
するステップと、 (6)前記近接バッファの最良スコアの問い合わせヒッ
トを現問い合わせヒットとして指定するステップと、 (7)前記出力バッファが満杯である場合、最低スコア
の問い合わせヒットを破棄するステップと、 (8)前記現問い合わせヒットを前記出力バッファに挿
入するステップと、 (9)出力バッファが現在、満杯である場合、前記ペナ
ルティしきい値を出力バッファ中の最低スコアの問い合
わせヒットのスコアに設定するステップと、 (10)所定の基準が満たされた場合、ステップ13へ
進み、そうでない場合は、ステップ11へ進むステップ
と、 (11)生成すべき含意側用語がまだある場合、ステッ
プ12へ進み、その他の場合は、ステップ13へ進むス
テップと、 (12)前記文書に対して目標領域を再位置決めし、ス
テップ4へ進むステップと、 (13)出力バッファの内容を返すステップとを含む方
法。 - 【請求項6】 前記コンピュータ・システムのプロセッ
サに結合されたメモリに記憶されているデータベース中
の文書の情報を見つけるコンピュータ・システムにおい
て、 複数の問い合わせ用語を含む探索問い合わせを受け取る
ように構成された問い合わせモジュールと、 それぞれ、少なくとも1つの前記問い合わせ用語に対応
する少なくとも1つのヒット用語を含む、パッセージを
前記文書から検索するように構成された検索モジュール
と、 前記問い合わせ用語の出現順と、前記パッセージに現れ
前記問い合わせ用語に対応するヒット用語の出現順との
比較に基づいて前記パッセージに関するスコアを生成す
るように構成されたスコア付けモジュールとを含むコン
ピュータ・システム。 - 【請求項7】 データベース中の文書のパッセージを検
索しランク付けする探索システムであって、 少なくとも1つの問い合わせ用語を含む探索問い合わせ
に応答して、それぞれ、少なくとも1つの前記問い合わ
せ用語に対応する少なくとも1つのヒット用語を含む、
パッセージを前記文書から検索するように構成された検
索モジュールと、 前記問い合わせ用語の出現順と、前記パッセージに現れ
前記問い合わせ用語に対応するヒット用語の出現順との
比較に基づいて前記パッセージに関するスコアを生成す
るように構成されたスコア付けモジュールとを含むコン
ピュータ・システム。 - 【請求項8】 前記コンピュータ・システムのプロセッ
サに結合されたメモリに記憶されているデータベース中
の文書の情報を見つけるコンピュータ・システムにおい
て、 複数の問い合わせ用語を含む探索問い合わせを受け取る
ように構成された問い合わせモジュールと、 少なくとも2つの前記問い合わせ用語に対応する少なく
とも2つの前記ヒット用語を含む少なくとも1つのパッ
セージを前記文書から検索するように構成された検索モ
ジュールと、 前記少なくとも2つの前記ヒット用語間の距離を組み込
んだ大きさを有する因子に基づいて前記パッセージに関
するスコアを生成するように構成されたスコア付けモジ
ュールとを含むコンピュータ・システム。 - 【請求項9】 複数の問い合わせ用語を含む探索問い合
わせに応答して、少なくとも2つの前記問い合わせ用語
に対応する少なくとも2つの前記ヒット用語を含む少な
くとも前記第1のパッセージを検索するように構成され
た検索モジュールと、 前記少なくとも2つの前記ヒット用語間の距離を組み込
んだ大きさを有する因子に基づいて前記パッセージに関
するスコアを生成するように構成されたスコア付けモジ
ュールとを含むコンピュータ・システム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/499268 | 1995-07-07 | ||
| US08/499,268 US5724571A (en) | 1995-07-07 | 1995-07-07 | Method and apparatus for generating query responses in a computer-based document retrieval system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH09223161A true JPH09223161A (ja) | 1997-08-26 |
Family
ID=23984565
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8195273A Withdrawn JPH09223161A (ja) | 1995-07-07 | 1996-07-08 | コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (5) | US5724571A (ja) |
| EP (1) | EP0752676B1 (ja) |
| JP (1) | JPH09223161A (ja) |
| DE (1) | DE69624985T2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016147624A1 (ja) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | 検索システム、検索方法および検索プログラム |
Families Citing this family (472)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
| US6014655A (en) * | 1996-03-13 | 2000-01-11 | Hitachi, Ltd. | Method of retrieving database |
| JP2833580B2 (ja) * | 1996-04-19 | 1998-12-09 | 日本電気株式会社 | 全文インデックス作成装置および全文データベース検索装置 |
| US5995921A (en) * | 1996-04-23 | 1999-11-30 | International Business Machines Corporation | Natural language help interface |
| JPH1049549A (ja) * | 1996-05-29 | 1998-02-20 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
| US5826031A (en) * | 1996-06-10 | 1998-10-20 | Sun Microsystems, Inc. | Method and system for prioritized downloading of embedded web objects |
| US5926812A (en) * | 1996-06-20 | 1999-07-20 | Mantra Technologies, Inc. | Document extraction and comparison method with applications to automatic personalized database searching |
| US6581056B1 (en) * | 1996-06-27 | 2003-06-17 | Xerox Corporation | Information retrieval system providing secondary content analysis on collections of information objects |
| US6745194B2 (en) | 2000-08-07 | 2004-06-01 | Alta Vista Company | Technique for deleting duplicate records referenced in an index of a database |
| US5745890A (en) * | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Sequential searching of a database index using constraints on word-location pairs |
| GB9701866D0 (en) * | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
| US6415319B1 (en) * | 1997-02-07 | 2002-07-02 | Sun Microsystems, Inc. | Intelligent network browser using incremental conceptual indexer |
| JP3173411B2 (ja) * | 1997-03-17 | 2001-06-04 | 富士ゼロックス株式会社 | 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体 |
| US6453334B1 (en) * | 1997-06-16 | 2002-09-17 | Streamtheory, Inc. | Method and apparatus to allow remotely located computer programs and/or data to be accessed on a local computer in a secure, time-limited manner, with persistent caching |
| EP0884688A3 (en) * | 1997-06-16 | 2005-06-22 | Koninklijke Philips Electronics N.V. | Sparse index search method |
| US5893093A (en) | 1997-07-02 | 1999-04-06 | The Sabre Group, Inc. | Information search and retrieval with geographical coordinates |
| US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
| US5907840A (en) * | 1997-07-25 | 1999-05-25 | Claritech Corporation | Overlapping subdocuments in a vector space search process |
| US5999925A (en) * | 1997-07-25 | 1999-12-07 | Claritech Corporation | Information retrieval based on use of sub-documents |
| US5926808A (en) * | 1997-07-25 | 1999-07-20 | Claritech Corporation | Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network |
| US6055528A (en) * | 1997-07-25 | 2000-04-25 | Claritech Corporation | Method for cross-linguistic document retrieval |
| WO1999017224A1 (en) * | 1997-09-29 | 1999-04-08 | Fujun Bi | A multi-element confidence matching system and the method therefor |
| AU9783098A (en) * | 1997-10-06 | 1999-04-27 | Nexprise, Inc. | Trackpoint-based computer-implemented systems and methods for facilitating collaborative project development and communication |
| US6999959B1 (en) * | 1997-10-10 | 2006-02-14 | Nec Laboratories America, Inc. | Meta search engine |
| JP4312954B2 (ja) * | 1997-10-21 | 2009-08-12 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 情報管理システム |
| IL123129A (en) * | 1998-01-30 | 2010-12-30 | Aviv Refuah | Www addressing |
| US6119124A (en) * | 1998-03-26 | 2000-09-12 | Digital Equipment Corporation | Method for clustering closely resembling data objects |
| US6598045B2 (en) * | 1998-04-07 | 2003-07-22 | Intel Corporation | System and method for piecemeal relevance evaluation |
| NO983175L (no) * | 1998-07-10 | 2000-01-11 | Fast Search & Transfer Asa | Soekesystem for gjenfinning av data |
| WO2000013122A1 (en) * | 1998-08-27 | 2000-03-09 | Upshot Corporation | A method and apparatus for network-based sales force management |
| US6847987B2 (en) * | 1998-09-30 | 2005-01-25 | International Business Machines Corporation | System and method for extending client-server software to additional client platforms for servicing thin clients requests |
| US6363373B1 (en) * | 1998-10-01 | 2002-03-26 | Microsoft Corporation | Method and apparatus for concept searching using a Boolean or keyword search engine |
| JP2000132553A (ja) * | 1998-10-22 | 2000-05-12 | Sharp Corp | キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| US6480843B2 (en) | 1998-11-03 | 2002-11-12 | Nec Usa, Inc. | Supporting web-query expansion efficiently using multi-granularity indexing and query processing |
| US6574632B2 (en) | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
| US6411950B1 (en) * | 1998-11-30 | 2002-06-25 | Compaq Information Technologies Group, Lp | Dynamic query expansion |
| US7653870B1 (en) * | 1998-12-08 | 2010-01-26 | Idearc Media Corp. | System and method of dynamically generating index information |
| US6327593B1 (en) * | 1998-12-23 | 2001-12-04 | Unisys Corporation | Automated system and method for capturing and managing user knowledge within a search system |
| US6370527B1 (en) * | 1998-12-29 | 2002-04-09 | At&T Corp. | Method and apparatus for searching distributed networks using a plurality of search devices |
| US6473755B2 (en) * | 1999-01-04 | 2002-10-29 | Claritech Corporation | Overlapping subdocuments in a vector space search process |
| US6868389B1 (en) | 1999-01-19 | 2005-03-15 | Jeffrey K. Wilkins | Internet-enabled lead generation |
| US6609125B1 (en) * | 1999-03-23 | 2003-08-19 | The Chase Manhattan Bank | Funds transfer repair system |
| US8572069B2 (en) * | 1999-03-31 | 2013-10-29 | Apple Inc. | Semi-automatic index term augmentation in document retrieval |
| US8275661B1 (en) | 1999-03-31 | 2012-09-25 | Verizon Corporate Services Group Inc. | Targeted banner advertisements |
| WO2000058863A1 (en) | 1999-03-31 | 2000-10-05 | Verizon Laboratories Inc. | Techniques for performing a data query in a computer system |
| US6269361B1 (en) | 1999-05-28 | 2001-07-31 | Goto.Com | System and method for influencing a position on a search result list generated by a computer network search engine |
| US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
| US6873982B1 (en) * | 1999-07-16 | 2005-03-29 | International Business Machines Corporation | Ordering of database search results based on user feedback |
| US7181438B1 (en) * | 1999-07-21 | 2007-02-20 | Alberti Anemometer, Llc | Database access system |
| US6718363B1 (en) | 1999-07-30 | 2004-04-06 | Verizon Laboratories, Inc. | Page aggregation for web sites |
| US7219073B1 (en) * | 1999-08-03 | 2007-05-15 | Brandnamestores.Com | Method for extracting information utilizing a user-context-based search engine |
| US7013300B1 (en) * | 1999-08-03 | 2006-03-14 | Taylor David C | Locating, filtering, matching macro-context from indexed database for searching context where micro-context relevant to textual input by user |
| JP3855551B2 (ja) * | 1999-08-25 | 2006-12-13 | 株式会社日立製作所 | 検索方法及び検索システム |
| US6826574B1 (en) * | 1999-08-27 | 2004-11-30 | Gateway, Inc. | Automatic profiler |
| US6845354B1 (en) * | 1999-09-09 | 2005-01-18 | Institute For Information Industry | Information retrieval system with a neuro-fuzzy structure |
| US8051104B2 (en) | 1999-09-22 | 2011-11-01 | Google Inc. | Editing a network of interconnected concepts |
| US8914361B2 (en) | 1999-09-22 | 2014-12-16 | Google Inc. | Methods and systems for determining a meaning of a document to match the document to content |
| US7925610B2 (en) * | 1999-09-22 | 2011-04-12 | Google Inc. | Determining a meaning of a knowledge item using document-based information |
| US6816857B1 (en) | 1999-11-01 | 2004-11-09 | Applied Semantics, Inc. | Meaning-based advertising and document relevance determination |
| US6775665B1 (en) * | 1999-09-30 | 2004-08-10 | Ricoh Co., Ltd. | System for treating saved queries as searchable documents in a document management system |
| US6260041B1 (en) * | 1999-09-30 | 2001-07-10 | Netcurrents, Inc. | Apparatus and method of implementing fast internet real-time search technology (first) |
| US7107218B1 (en) * | 1999-10-29 | 2006-09-12 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
| US20020069134A1 (en) * | 1999-11-01 | 2002-06-06 | Neal Solomon | System, method and apparatus for aggregation of cooperative intelligent agents for procurement in a distributed network |
| US20030074301A1 (en) * | 1999-11-01 | 2003-04-17 | Neal Solomon | System, method, and apparatus for an intelligent search agent to access data in a distributed network |
| US20020055903A1 (en) * | 1999-11-01 | 2002-05-09 | Neal Solomon | System, method, and apparatus for a cooperative communications network |
| US20020046157A1 (en) * | 1999-11-01 | 2002-04-18 | Neal Solomon | System, method and apparatus for demand-initiated intelligent negotiation agents in a distributed network |
| US20030233305A1 (en) * | 1999-11-01 | 2003-12-18 | Neal Solomon | System, method and apparatus for information collaboration between intelligent agents in a distributed network |
| US6321265B1 (en) | 1999-11-02 | 2001-11-20 | Altavista Company | System and method for enforcing politeness while scheduling downloads in a web crawler |
| US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
| US6704722B2 (en) * | 1999-11-17 | 2004-03-09 | Xerox Corporation | Systems and methods for performing crawl searches and index searches |
| US6701310B1 (en) * | 1999-11-22 | 2004-03-02 | Nec Corporation | Information search device and information search method using topic-centric query routing |
| WO2001052462A2 (en) * | 2000-01-12 | 2001-07-19 | Jupiter Media Metrix, Inc. | System and method for estimating prevalence of digital content on the world-wide-web |
| US7676384B2 (en) * | 2000-01-18 | 2010-03-09 | Medigenesis, Inc. | System and method for the automated presentation of system data to, and interaction with, a computer maintained database |
| US7099859B2 (en) * | 2000-01-20 | 2006-08-29 | International Business Machines Corporation | System and method for integrating off-line ratings of businesses with search engines |
| US6542889B1 (en) * | 2000-01-28 | 2003-04-01 | International Business Machines Corporation | Methods and apparatus for similarity text search based on conceptual indexing |
| US6868525B1 (en) * | 2000-02-01 | 2005-03-15 | Alberti Anemometer Llc | Computer graphic display visualization system and method |
| US6829603B1 (en) * | 2000-02-02 | 2004-12-07 | International Business Machines Corp. | System, method and program product for interactive natural dialog |
| DE60044423D1 (de) * | 2000-02-03 | 2010-07-01 | Hitachi Ltd | Verfahren und Gerät zum Wiederauffinden und Ausgeben von Dokumenten und Speichermedium mit entspechendem Program |
| US7333983B2 (en) | 2000-02-03 | 2008-02-19 | Hitachi, Ltd. | Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored |
| WO2001067225A2 (en) * | 2000-03-06 | 2001-09-13 | Kanisa Inc. | A system and method for providing an intelligent multi-step dialog with a user |
| US7120574B2 (en) * | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
| US7962326B2 (en) * | 2000-04-20 | 2011-06-14 | Invention Machine Corporation | Semantic answering system and method |
| US6859800B1 (en) | 2000-04-26 | 2005-02-22 | Global Information Research And Technologies Llc | System for fulfilling an information need |
| US20020123994A1 (en) * | 2000-04-26 | 2002-09-05 | Yves Schabes | System for fulfilling an information need using extended matching techniques |
| US7120627B1 (en) * | 2000-04-26 | 2006-10-10 | Global Information Research And Technologies, Llc | Method for detecting and fulfilling an information need corresponding to simple queries |
| US20040117352A1 (en) * | 2000-04-28 | 2004-06-17 | Global Information Research And Technologies Llc | System for answering natural language questions |
| US6745181B1 (en) * | 2000-05-02 | 2004-06-01 | Iphrase.Com, Inc. | Information access method |
| US8478732B1 (en) | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
| US7127450B1 (en) * | 2000-05-02 | 2006-10-24 | International Business Machines Corporation | Intelligent discard in information access system |
| US6711561B1 (en) * | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
| US6704728B1 (en) | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
| US6912525B1 (en) * | 2000-05-08 | 2005-06-28 | Verizon Laboratories, Inc. | Techniques for web site integration |
| NL1015151C2 (nl) * | 2000-05-10 | 2001-12-10 | Collexis B V | Inrichting en werkwijze voor het catalogiseren van tekstuele informatie. |
| US7062483B2 (en) * | 2000-05-18 | 2006-06-13 | Endeca Technologies, Inc. | Hierarchical data-driven search and navigation system and method for information retrieval |
| US7325201B2 (en) * | 2000-05-18 | 2008-01-29 | Endeca Technologies, Inc. | System and method for manipulating content in a hierarchical data-driven search and navigation system |
| US7617184B2 (en) | 2000-05-18 | 2009-11-10 | Endeca Technologies, Inc. | Scalable hierarchical data-driven navigation system and method for information retrieval |
| US7035864B1 (en) * | 2000-05-18 | 2006-04-25 | Endeca Technologies, Inc. | Hierarchical data-driven navigation system and method for information retrieval |
| AU2001264928A1 (en) * | 2000-05-25 | 2001-12-03 | Kanisa Inc. | System and method for automatically classifying text |
| US7822735B2 (en) * | 2000-05-29 | 2010-10-26 | Saora Kabushiki Kaisha | System and method for saving browsed data |
| US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
| US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
| US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
| US7058516B2 (en) | 2000-06-30 | 2006-06-06 | Bioexpertise, Inc. | Computer implemented searching using search criteria comprised of ratings prepared by leading practitioners in biomedical specialties |
| US20030120653A1 (en) * | 2000-07-05 | 2003-06-26 | Sean Brady | Trainable internet search engine and methods of using |
| US20060161353A1 (en) * | 2000-07-24 | 2006-07-20 | Bioexpertise, Inc. | Computer implemented searching using search criteria comprised of ratings prepared by leading practitioners in biomedical specialties |
| US6718323B2 (en) * | 2000-08-09 | 2004-04-06 | Hewlett-Packard Development Company, L.P. | Automatic method for quantifying the relevance of intra-document search results |
| AU2000268162A1 (en) * | 2000-08-23 | 2002-04-08 | Intel Corporation | A method and apparatus for concept-based searching across a network |
| NO313399B1 (no) * | 2000-09-14 | 2002-09-23 | Fast Search & Transfer Asa | Fremgangsmate til soking og analyse av informasjon i datanettverk |
| US20020059220A1 (en) * | 2000-10-16 | 2002-05-16 | Little Edwin Colby | Intelligent computerized search engine |
| US8831995B2 (en) | 2000-11-06 | 2014-09-09 | Numecent Holdings, Inc. | Optimized server for streamed applications |
| US20020087883A1 (en) * | 2000-11-06 | 2002-07-04 | Curt Wohlgemuth | Anti-piracy system for remotely served computer applications |
| US7062567B2 (en) | 2000-11-06 | 2006-06-13 | Endeavors Technology, Inc. | Intelligent network streaming and execution system for conventionally coded applications |
| US20020083183A1 (en) * | 2000-11-06 | 2002-06-27 | Sanjay Pujare | Conventionally coded application conversion system for streamed delivery and execution |
| US7233940B2 (en) * | 2000-11-06 | 2007-06-19 | Answers Corporation | System for processing at least partially structured data |
| US20020091671A1 (en) * | 2000-11-23 | 2002-07-11 | Andreas Prokoph | Method and system for data retrieval in large collections of data |
| US7451196B1 (en) | 2000-12-15 | 2008-11-11 | Stream Theory, Inc. | Method and system for executing a software application in a virtual environment |
| US20020078134A1 (en) * | 2000-12-18 | 2002-06-20 | Stone Alan E. | Push-based web site content indexing |
| US6937986B2 (en) * | 2000-12-28 | 2005-08-30 | Comverse, Inc. | Automatic dynamic speech recognition vocabulary based on external sources of information |
| US7254773B2 (en) * | 2000-12-29 | 2007-08-07 | International Business Machines Corporation | Automated spell analysis |
| US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
| US20020133392A1 (en) * | 2001-02-22 | 2002-09-19 | Angel Mark A. | Distributed customer relationship management systems and methods |
| US7426505B2 (en) | 2001-03-07 | 2008-09-16 | International Business Machines Corporation | Method for identifying word patterns in text |
| SE520533C2 (sv) * | 2001-03-13 | 2003-07-22 | Picsearch Ab | Metod, datorprogram och system för indexering av digitaliserade enheter |
| US6775661B1 (en) * | 2001-03-21 | 2004-08-10 | Lycos, Inc. | Querying databases using database pools |
| US20020143759A1 (en) * | 2001-03-27 | 2002-10-03 | Yu Allen Kai-Lang | Computer searches with results prioritized using histories restricted by query context and user community |
| US20020147775A1 (en) * | 2001-04-06 | 2002-10-10 | Suda Aruna Rohra | System and method for displaying information provided by a provider |
| US7136846B2 (en) | 2001-04-06 | 2006-11-14 | 2005 Keel Company, Inc. | Wireless information retrieval |
| US7120646B2 (en) * | 2001-04-09 | 2006-10-10 | Health Language, Inc. | Method and system for interfacing with a multi-level data structure |
| US20020194161A1 (en) * | 2001-04-12 | 2002-12-19 | Mcnamee J. Paul | Directed web crawler with machine learning |
| US6957206B2 (en) | 2001-04-19 | 2005-10-18 | Quantum Dynamics, Inc. | Computer system and method with adaptive N-level structures for automated generation of program solutions based on rules input by subject matter experts |
| US7188106B2 (en) * | 2001-05-01 | 2007-03-06 | International Business Machines Corporation | System and method for aggregating ranking results from various sources to improve the results of web searching |
| US6892546B2 (en) | 2001-05-03 | 2005-05-17 | Emerson Retail Services, Inc. | System for remote refrigeration monitoring and diagnostics |
| US6970881B1 (en) | 2001-05-07 | 2005-11-29 | Intelligenxia, Inc. | Concept-based method and system for dynamically analyzing unstructured information |
| US7627588B1 (en) | 2001-05-07 | 2009-12-01 | Ixreveal, Inc. | System and method for concept based analysis of unstructured data |
| US7194483B1 (en) | 2001-05-07 | 2007-03-20 | Intelligenxia, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
| US7536413B1 (en) | 2001-05-07 | 2009-05-19 | Ixreveal, Inc. | Concept-based categorization of unstructured objects |
| USRE46973E1 (en) | 2001-05-07 | 2018-07-31 | Ureveal, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
| US6999971B2 (en) * | 2001-05-08 | 2006-02-14 | Verity, Inc. | Apparatus and method for parametric group processing |
| US7269546B2 (en) * | 2001-05-09 | 2007-09-11 | International Business Machines Corporation | System and method of finding documents related to other documents and of finding related words in response to a query to refine a search |
| US6980984B1 (en) | 2001-05-16 | 2005-12-27 | Kanisa, Inc. | Content provider systems and methods using structured data |
| US20020184317A1 (en) * | 2001-05-29 | 2002-12-05 | Sun Microsystems, Inc. | System and method for searching, retrieving and displaying data from an email storage location |
| US6993532B1 (en) * | 2001-05-30 | 2006-01-31 | Microsoft Corporation | Auto playlist generator |
| JP2004534324A (ja) * | 2001-07-04 | 2004-11-11 | コギズム・インターメディア・アーゲー | 索引付きの拡張可能な対話的文書検索システム |
| US7136845B2 (en) * | 2001-07-12 | 2006-11-14 | Microsoft Corporation | System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries |
| US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
| US6888548B1 (en) | 2001-08-31 | 2005-05-03 | Attenex Corporation | System and method for generating a visualized data representation preserving independent variable geometric relationships |
| US6778995B1 (en) | 2001-08-31 | 2004-08-17 | Attenex Corporation | System and method for efficiently generating cluster groupings in a multi-dimensional concept space |
| US6978274B1 (en) | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
| AUPR796701A0 (en) * | 2001-09-27 | 2001-10-25 | Plugged In Communications Pty Ltd | Database query system and method |
| AUPR796801A0 (en) * | 2001-09-27 | 2001-10-25 | Plugged In Communications Pty Ltd | Computer user interface tool for navigation of data stored in directed graphs |
| US7257568B2 (en) * | 2001-10-16 | 2007-08-14 | Sizatola, Llc | Process and system for matching products and markets |
| US6944609B2 (en) * | 2001-10-18 | 2005-09-13 | Lycos, Inc. | Search results using editor feedback |
| US7209876B2 (en) * | 2001-11-13 | 2007-04-24 | Groove Unlimited, Llc | System and method for automated answering of natural language questions and queries |
| US6850933B2 (en) * | 2001-11-15 | 2005-02-01 | Microsoft Corporation | System and method for optimizing queries using materialized views and fast view matching |
| US20030097378A1 (en) * | 2001-11-20 | 2003-05-22 | Khai Pham | Method and system for removing text-based viruses |
| US7206778B2 (en) | 2001-12-17 | 2007-04-17 | Knova Software Inc. | Text search ordered along one or more dimensions |
| US20030115191A1 (en) * | 2001-12-17 | 2003-06-19 | Max Copperman | Efficient and cost-effective content provider for customer relationship management (CRM) or other applications |
| US20030120630A1 (en) * | 2001-12-20 | 2003-06-26 | Daniel Tunkelang | Method and system for similarity search and clustering |
| US20030120559A1 (en) * | 2001-12-21 | 2003-06-26 | Don Joel C. | System and method of distributing public relations and marketing content |
| US7162480B2 (en) * | 2001-12-26 | 2007-01-09 | Sbc Technology Resources, Inc. | Usage-based adaptable taxonomy |
| US7243092B2 (en) * | 2001-12-28 | 2007-07-10 | Sap Ag | Taxonomy generation for electronic documents |
| US6978264B2 (en) * | 2002-01-03 | 2005-12-20 | Microsoft Corporation | System and method for performing a search and a browse on a query |
| US7024624B2 (en) * | 2002-01-07 | 2006-04-04 | Kenneth James Hintz | Lexicon-based new idea detector |
| US20030158725A1 (en) * | 2002-02-15 | 2003-08-21 | Sun Microsystems, Inc. | Method and apparatus for identifying words with common stems |
| US7343372B2 (en) * | 2002-02-22 | 2008-03-11 | International Business Machines Corporation | Direct navigation for information retrieval |
| US7271804B2 (en) | 2002-02-25 | 2007-09-18 | Attenex Corporation | System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area |
| US8589413B1 (en) | 2002-03-01 | 2013-11-19 | Ixreveal, Inc. | Concept-based method and system for dynamically analyzing results from search engines |
| JP2003337699A (ja) * | 2002-03-13 | 2003-11-28 | Saora Inc | 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 |
| US20030177124A1 (en) * | 2002-03-18 | 2003-09-18 | Al Sauri | System for searching secure servers |
| US20030220917A1 (en) * | 2002-04-03 | 2003-11-27 | Max Copperman | Contextual search |
| US7120641B2 (en) * | 2002-04-05 | 2006-10-10 | Saora Kabushiki Kaisha | Apparatus and method for extracting data |
| US20030195896A1 (en) * | 2002-04-15 | 2003-10-16 | Suda Aruna Rohra | Method and apparatus for managing imported or exported data |
| US7035862B2 (en) * | 2002-05-09 | 2006-04-25 | Siemens Medical Solutions Health Services Corporation | Method for processing information from an information repository |
| US20030217076A1 (en) * | 2002-05-15 | 2003-11-20 | Heptinstall Christian Elliot | System and method for rapid generation of one or more autonomous websites |
| US7054859B2 (en) * | 2002-06-13 | 2006-05-30 | Hewlett-Packard Development Company, L.P. | Apparatus and method for responding to search requests for stored documents |
| US6892198B2 (en) * | 2002-06-14 | 2005-05-10 | Entopia, Inc. | System and method for personalized information retrieval based on user expertise |
| JP2004030021A (ja) * | 2002-06-24 | 2004-01-29 | Oki Electric Ind Co Ltd | 文書処理装置および方法 |
| US7188105B2 (en) * | 2002-10-10 | 2007-03-06 | International Business Machines Corporation | Query abstraction high level parameters for reuse and trend analysis |
| US6889173B2 (en) | 2002-10-31 | 2005-05-03 | Emerson Retail Services Inc. | System for monitoring optimal equipment operating parameters |
| US20050108256A1 (en) * | 2002-12-06 | 2005-05-19 | Attensity Corporation | Visualization of integrated structured and unstructured data |
| US20040117366A1 (en) * | 2002-12-12 | 2004-06-17 | Ferrari Adam J. | Method and system for interpreting multiple-term queries |
| US20050038781A1 (en) * | 2002-12-12 | 2005-02-17 | Endeca Technologies, Inc. | Method and system for interpreting multiple-term queries |
| US20040133574A1 (en) * | 2003-01-07 | 2004-07-08 | Science Applications International Corporaton | Vector space method for secure information sharing |
| GB2399427A (en) * | 2003-03-12 | 2004-09-15 | Canon Kk | Apparatus for and method of summarising text |
| US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
| US7917483B2 (en) * | 2003-04-24 | 2011-03-29 | Affini, Inc. | Search engine and method with improved relevancy, scope, and timeliness |
| US8495002B2 (en) * | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
| US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
| US7299221B2 (en) * | 2003-05-08 | 2007-11-20 | Oracle International Corporation | Progressive relaxation of search criteria |
| US20070022110A1 (en) * | 2003-05-19 | 2007-01-25 | Saora Kabushiki Kaisha | Method for processing information, apparatus therefor and program therefor |
| US20040260681A1 (en) * | 2003-06-19 | 2004-12-23 | Dvorak Joseph L. | Method and system for selectively retrieving text strings |
| US7610313B2 (en) | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
| US7617203B2 (en) * | 2003-08-01 | 2009-11-10 | Yahoo! Inc | Listings optimization using a plurality of data sources |
| US20050076015A1 (en) * | 2003-10-02 | 2005-04-07 | International Business Machines Corporation | Dynamic query building based on the desired number of results |
| US7739102B2 (en) * | 2003-10-08 | 2010-06-15 | Bender Howard J | Relationship analysis system and method for semantic disambiguation of natural language |
| US20050114306A1 (en) * | 2003-11-20 | 2005-05-26 | International Business Machines Corporation | Integrated searching of multiple search sources |
| US20050144177A1 (en) * | 2003-11-26 | 2005-06-30 | Hodes Alan S. | Patent analysis and formulation using ontologies |
| US20050234738A1 (en) * | 2003-11-26 | 2005-10-20 | Hodes Alan S | Competitive product intelligence system and method, including patent analysis and formulation using one or more ontologies |
| US7523096B2 (en) | 2003-12-03 | 2009-04-21 | Google Inc. | Methods and systems for personalized network searching |
| US7251659B1 (en) * | 2003-12-04 | 2007-07-31 | Sprint Communications Company L.P. | Method and system for managing resource indexes in a networking environment |
| US7689536B1 (en) * | 2003-12-18 | 2010-03-30 | Google Inc. | Methods and systems for detecting and extracting information |
| US7437353B2 (en) * | 2003-12-31 | 2008-10-14 | Google Inc. | Systems and methods for unification of search results |
| US7690000B2 (en) * | 2004-01-08 | 2010-03-30 | Microsoft Corporation | Metadata journal for information technology systems |
| US7191175B2 (en) | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
| US7836083B2 (en) * | 2004-02-20 | 2010-11-16 | Factiva, Inc. | Intelligent search and retrieval system and method |
| US7716216B1 (en) | 2004-03-31 | 2010-05-11 | Google Inc. | Document ranking based on semantic distance between terms in a document |
| US7814155B2 (en) | 2004-03-31 | 2010-10-12 | Google Inc. | Email conversation management system |
| US7269621B2 (en) | 2004-03-31 | 2007-09-11 | Google Inc. | Method system and graphical user interface for dynamically updating transmission characteristics in a web mail reply |
| US9819624B2 (en) | 2004-03-31 | 2017-11-14 | Google Inc. | Displaying conversations in a conversation-based email system |
| US7428528B1 (en) | 2004-03-31 | 2008-09-23 | Endeca Technologies, Inc. | Integrated application for manipulating content in a hierarchical data-driven search and navigation system |
| US7912904B2 (en) | 2004-03-31 | 2011-03-22 | Google Inc. | Email system with conversation-centric user interface |
| US7433864B2 (en) * | 2004-04-08 | 2008-10-07 | At&T Intellectual Property I, L.P. | Compiling information obtained by combinatorial searching |
| US7412842B2 (en) | 2004-04-27 | 2008-08-19 | Emerson Climate Technologies, Inc. | Compressor diagnostic and protection system |
| US20050278314A1 (en) * | 2004-06-09 | 2005-12-15 | Paul Buchheit | Variable length snippet generation |
| US7761439B1 (en) | 2004-06-30 | 2010-07-20 | Google Inc. | Systems and methods for performing a directory search |
| US7979501B1 (en) | 2004-08-06 | 2011-07-12 | Google Inc. | Enhanced message display |
| US7698333B2 (en) | 2004-07-22 | 2010-04-13 | Factiva, Inc. | Intelligent query system and method using phrase-code frequency-inverse phrase-code document frequency module |
| US7567959B2 (en) | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
| US7580929B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase-based personalization of searches in an information retrieval system |
| US7536408B2 (en) | 2004-07-26 | 2009-05-19 | Google Inc. | Phrase-based indexing in an information retrieval system |
| US7426507B1 (en) | 2004-07-26 | 2008-09-16 | Google, Inc. | Automatic taxonomy generation in search results using phrases |
| US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
| US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
| US7599914B2 (en) * | 2004-07-26 | 2009-10-06 | Google Inc. | Phrase-based searching in an information retrieval system |
| US7580921B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
| US7584175B2 (en) * | 2004-07-26 | 2009-09-01 | Google Inc. | Phrase-based generation of document descriptions |
| US7199571B2 (en) * | 2004-07-27 | 2007-04-03 | Optisense Network, Inc. | Probe apparatus for use in a separable connector, and systems including same |
| JP2006053745A (ja) * | 2004-08-11 | 2006-02-23 | Saora Inc | データ処理方法及びその装置、及びそのプログラム |
| US7275377B2 (en) | 2004-08-11 | 2007-10-02 | Lawrence Kates | Method and apparatus for monitoring refrigerant-cycle systems |
| US20060064322A1 (en) * | 2004-08-27 | 2006-03-23 | Desmond Mascarenhas | Online education resource for patients with metabolic syndrome |
| US7953723B1 (en) * | 2004-10-06 | 2011-05-31 | Shopzilla, Inc. | Federation for parallel searching |
| US7240162B2 (en) | 2004-10-22 | 2007-07-03 | Stream Theory, Inc. | System and method for predictive streaming |
| US20060168294A1 (en) * | 2004-11-13 | 2006-07-27 | De Vries Jeff | Hybrid local/remote streaming |
| US7769579B2 (en) | 2005-05-31 | 2010-08-03 | Google Inc. | Learning facts from semi-structured text |
| US7404151B2 (en) | 2005-01-26 | 2008-07-22 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
| US7356777B2 (en) | 2005-01-26 | 2008-04-08 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
| EP1851959B1 (en) * | 2005-02-21 | 2012-04-11 | Computer Process Controls, Inc. | Enterprise control and monitoring system |
| WO2006102621A2 (en) | 2005-03-23 | 2006-09-28 | Stream Theory, Inc. | System and method for tracking changes to files in streaming applications |
| US20060218165A1 (en) * | 2005-03-23 | 2006-09-28 | Vries Jeffrey De | Explicit overlay integration rules |
| US8024523B2 (en) | 2007-11-07 | 2011-09-20 | Endeavors Technologies, Inc. | Opportunistic block transmission with time constraints |
| US7587387B2 (en) | 2005-03-31 | 2009-09-08 | Google Inc. | User interface for facts query engine with snippets from information sources that include query terms and answer terms |
| US9208229B2 (en) * | 2005-03-31 | 2015-12-08 | Google Inc. | Anchor text summarization for corroboration |
| US8682913B1 (en) | 2005-03-31 | 2014-03-25 | Google Inc. | Corroborating facts extracted from multiple sources |
| US7546294B2 (en) * | 2005-03-31 | 2009-06-09 | Microsoft Corporation | Automated relevance tuning |
| US9002725B1 (en) | 2005-04-20 | 2015-04-07 | Google Inc. | System and method for targeting information based on message content |
| US7693829B1 (en) * | 2005-04-25 | 2010-04-06 | Google Inc. | Search engine with fill-the-blanks capability |
| CN101366024B (zh) * | 2005-05-16 | 2014-07-30 | 电子湾有限公司 | 用于处理数据搜索请求的方法和系统 |
| US8996470B1 (en) | 2005-05-31 | 2015-03-31 | Google Inc. | System for ensuring the internal consistency of a fact repository |
| US7831545B1 (en) | 2005-05-31 | 2010-11-09 | Google Inc. | Identifying the unifying subject of a set of facts |
| US7962462B1 (en) | 2005-05-31 | 2011-06-14 | Google Inc. | Deriving and using document and site quality signals from search query streams |
| US8996514B1 (en) | 2005-06-15 | 2015-03-31 | Google Inc. | Mobile to non-mobile document correlation |
| US20060287986A1 (en) * | 2005-06-21 | 2006-12-21 | W.W. Grainger, Inc. | System and method for facilitating use of a selection guide |
| US20070005593A1 (en) * | 2005-06-30 | 2007-01-04 | Microsoft Corporation | Attribute-based data retrieval and association |
| US8429167B2 (en) * | 2005-08-08 | 2013-04-23 | Google Inc. | User-context-based search engine |
| US8027876B2 (en) | 2005-08-08 | 2011-09-27 | Yoogli, Inc. | Online advertising valuation apparatus and method |
| US20070038608A1 (en) * | 2005-08-10 | 2007-02-15 | Anjun Chen | Computer search system for improved web page ranking and presentation |
| US8321198B2 (en) * | 2005-09-06 | 2012-11-27 | Kabushiki Kaisha Square Enix | Data extraction system, terminal, server, programs, and media for extracting data via a morphological analysis |
| WO2007038714A2 (en) * | 2005-09-27 | 2007-04-05 | Looksmart, Ltd. | Collection and delivery of internet ads |
| US20070250501A1 (en) * | 2005-09-27 | 2007-10-25 | Grubb Michael L | Search result delivery engine |
| US8010480B2 (en) * | 2005-09-30 | 2011-08-30 | Google Inc. | Selecting high quality text within identified reviews for display in review snippets |
| US7788251B2 (en) * | 2005-10-11 | 2010-08-31 | Ixreveal, Inc. | System, method and computer program product for concept-based searching and analysis |
| US7672831B2 (en) * | 2005-10-24 | 2010-03-02 | Invention Machine Corporation | System and method for cross-language knowledge searching |
| US7747613B2 (en) * | 2005-10-31 | 2010-06-29 | Yahoo! Inc. | Presentation of differences between multiple searches |
| US7747612B2 (en) * | 2005-10-31 | 2010-06-29 | Yahoo! Inc. | Indication of exclusive items in a result set |
| US7747614B2 (en) * | 2005-10-31 | 2010-06-29 | Yahoo! Inc. | Difference control for generating and displaying a difference result set from the result sets of a plurality of search engines |
| US20070244868A1 (en) * | 2005-10-31 | 2007-10-18 | Grubb Michael L | Internet book marking and search results delivery |
| US8019752B2 (en) | 2005-11-10 | 2011-09-13 | Endeca Technologies, Inc. | System and method for information retrieval from object collections with complex interrelationships |
| US7805455B2 (en) * | 2005-11-14 | 2010-09-28 | Invention Machine Corporation | System and method for problem analysis |
| US8145617B1 (en) | 2005-11-18 | 2012-03-27 | Google Inc. | Generation of document snippets based on queries and search results |
| US7949714B1 (en) * | 2005-12-05 | 2011-05-24 | Google Inc. | System and method for targeting advertisements or other information using user geographical information |
| US8601004B1 (en) | 2005-12-06 | 2013-12-03 | Google Inc. | System and method for targeting information items based on popularities of the information items |
| US7676485B2 (en) * | 2006-01-20 | 2010-03-09 | Ixreveal, Inc. | Method and computer program product for converting ontologies into concept semantic networks |
| US8065286B2 (en) | 2006-01-23 | 2011-11-22 | Chacha Search, Inc. | Scalable search system using human searchers |
| US7962466B2 (en) * | 2006-01-23 | 2011-06-14 | Chacha Search, Inc | Automated tool for human assisted mining and capturing of precise results |
| US8266130B2 (en) * | 2006-01-23 | 2012-09-11 | Chacha Search, Inc. | Search tool providing optional use of human search guides |
| US8260785B2 (en) | 2006-02-17 | 2012-09-04 | Google Inc. | Automatic object reference identification and linking in a browseable fact repository |
| US20070185870A1 (en) | 2006-01-27 | 2007-08-09 | Hogue Andrew W | Data object visualization using graphs |
| US20070179940A1 (en) * | 2006-01-27 | 2007-08-02 | Robinson Eric M | System and method for formulating data search queries |
| US7814099B2 (en) * | 2006-01-31 | 2010-10-12 | Louis S. Wang | Method for ranking and sorting electronic documents in a search result list based on relevance |
| US20070208733A1 (en) * | 2006-02-22 | 2007-09-06 | Copernic Technologies, Inc. | Query Correction Using Indexed Content on a Desktop Indexer Program |
| US8195683B2 (en) * | 2006-02-28 | 2012-06-05 | Ebay Inc. | Expansion of database search queries |
| JP2007257369A (ja) * | 2006-03-23 | 2007-10-04 | Fujitsu Ltd | 情報検索装置 |
| US8725729B2 (en) * | 2006-04-03 | 2014-05-13 | Steven G. Lisa | System, methods and applications for embedded internet searching and result display |
| US8555182B2 (en) * | 2006-06-07 | 2013-10-08 | Microsoft Corporation | Interface for managing search term importance relationships |
| JP4251652B2 (ja) * | 2006-06-09 | 2009-04-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索装置、検索プログラムおよび検索方法 |
| US7849077B2 (en) * | 2006-07-06 | 2010-12-07 | Oracle International Corp. | Document ranking with sub-query series |
| US8590325B2 (en) | 2006-07-19 | 2013-11-26 | Emerson Climate Technologies, Inc. | Protection and diagnostic module for a refrigeration system |
| US9015197B2 (en) | 2006-08-07 | 2015-04-21 | Oracle International Corporation | Dynamic repartitioning for changing a number of nodes or partitions in a distributed search system |
| US20080033943A1 (en) * | 2006-08-07 | 2008-02-07 | Bea Systems, Inc. | Distributed index search |
| US20080216494A1 (en) | 2006-09-07 | 2008-09-11 | Pham Hung M | Compressor data module |
| US7899822B2 (en) * | 2006-09-08 | 2011-03-01 | International Business Machines Corporation | Automatically linking documents with relevant structured information |
| US8214210B1 (en) * | 2006-09-19 | 2012-07-03 | Oracle America, Inc. | Lattice-based querying |
| WO2008039870A2 (en) * | 2006-09-26 | 2008-04-03 | Accoona Corp | Apparatuses, methods and systems for an information comparator preview generator |
| US8122026B1 (en) | 2006-10-20 | 2012-02-21 | Google Inc. | Finding and disambiguating references to entities on web pages |
| US8261345B2 (en) | 2006-10-23 | 2012-09-04 | Endeavors Technologies, Inc. | Rule-based application access management |
| US8661029B1 (en) | 2006-11-02 | 2014-02-25 | Google Inc. | Modifying search result ranking based on implicit user feedback |
| US8645397B1 (en) * | 2006-11-30 | 2014-02-04 | At&T Intellectual Property Ii, L.P. | Method and apparatus for propagating updates in databases |
| US8676802B2 (en) * | 2006-11-30 | 2014-03-18 | Oracle Otc Subsidiary Llc | Method and system for information retrieval with clustering |
| US7860855B2 (en) * | 2007-02-13 | 2010-12-28 | Sap Ag | Method and system for analyzing similarity of concept sets |
| US7925644B2 (en) | 2007-03-01 | 2011-04-12 | Microsoft Corporation | Efficient retrieval algorithm by query term discrimination |
| US8938463B1 (en) | 2007-03-12 | 2015-01-20 | Google Inc. | Modifying search result ranking based on implicit user feedback and a model of presentation bias |
| US8694374B1 (en) | 2007-03-14 | 2014-04-08 | Google Inc. | Detecting click spam |
| US8347202B1 (en) | 2007-03-14 | 2013-01-01 | Google Inc. | Determining geographic locations for place names in a fact repository |
| US8166021B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Query phrasification |
| US8166045B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Phrase extraction using subphrase scoring |
| US8086594B1 (en) | 2007-03-30 | 2011-12-27 | Google Inc. | Bifurcated document relevance scoring |
| US7693813B1 (en) | 2007-03-30 | 2010-04-06 | Google Inc. | Index server architecture using tiered and sharded phrase posting lists |
| US7925655B1 (en) | 2007-03-30 | 2011-04-12 | Google Inc. | Query scheduling using hierarchical tiers of index servers |
| US7702614B1 (en) | 2007-03-30 | 2010-04-20 | Google Inc. | Index updating using segment swapping |
| US9092510B1 (en) | 2007-04-30 | 2015-07-28 | Google Inc. | Modifying search result ranking based on a temporal element of user feedback |
| US8239350B1 (en) | 2007-05-08 | 2012-08-07 | Google Inc. | Date ambiguity resolution |
| US7752201B2 (en) * | 2007-05-10 | 2010-07-06 | Microsoft Corporation | Recommendation of related electronic assets based on user search behavior |
| US8037042B2 (en) * | 2007-05-10 | 2011-10-11 | Microsoft Corporation | Automated analysis of user search behavior |
| WO2008151465A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
| US8122032B2 (en) | 2007-07-20 | 2012-02-21 | Google Inc. | Identifying and linking similar passages in a digital text corpus |
| US9323827B2 (en) * | 2007-07-20 | 2016-04-26 | Google Inc. | Identifying key terms related to similar passages |
| US20090037142A1 (en) | 2007-07-30 | 2009-02-05 | Lawrence Kates | Portable method and apparatus for monitoring refrigerant-cycle systems |
| US8694511B1 (en) | 2007-08-20 | 2014-04-08 | Google Inc. | Modifying search result ranking based on populations |
| US8280721B2 (en) * | 2007-08-31 | 2012-10-02 | Microsoft Corporation | Efficiently representing word sense probabilities |
| US8117223B2 (en) | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
| US8909655B1 (en) | 2007-10-11 | 2014-12-09 | Google Inc. | Time based ranking |
| US9418154B2 (en) * | 2007-10-19 | 2016-08-16 | Oracle International Corporation | Push-model based index updating |
| US9594784B2 (en) * | 2007-10-19 | 2017-03-14 | Oracle International Corporation | Push-model based index deletion |
| US9594794B2 (en) * | 2007-10-19 | 2017-03-14 | Oracle International Corporation | Restoring records using a change transaction log |
| US8682859B2 (en) | 2007-10-19 | 2014-03-25 | Oracle International Corporation | Transferring records between tables using a change transaction log |
| US9140728B2 (en) | 2007-11-02 | 2015-09-22 | Emerson Climate Technologies, Inc. | Compressor sensor module |
| US8892738B2 (en) | 2007-11-07 | 2014-11-18 | Numecent Holdings, Inc. | Deriving component statistics for a stream enabled application |
| US7856434B2 (en) * | 2007-11-12 | 2010-12-21 | Endeca Technologies, Inc. | System and method for filtering rules for manipulating search results in a hierarchical search and navigation system |
| US8812435B1 (en) | 2007-11-16 | 2014-08-19 | Google Inc. | Learning objects and facts from documents |
| WO2009078729A1 (en) * | 2007-12-14 | 2009-06-25 | Fast Search & Transfer As | A method for improving search engine efficiency |
| US10176827B2 (en) | 2008-01-15 | 2019-01-08 | Verint Americas Inc. | Active lab |
| US7917503B2 (en) * | 2008-01-17 | 2011-03-29 | Microsoft Corporation | Specifying relevance ranking preferences utilizing search scopes |
| US9129036B2 (en) | 2008-02-22 | 2015-09-08 | Tigerlogic Corporation | Systems and methods of identifying chunks within inter-related documents |
| US8359533B2 (en) | 2008-02-22 | 2013-01-22 | Tigerlogic Corporation | Systems and methods of performing a text replacement within multiple documents |
| US8126880B2 (en) * | 2008-02-22 | 2012-02-28 | Tigerlogic Corporation | Systems and methods of adaptively screening matching chunks within documents |
| US8001140B2 (en) * | 2008-02-22 | 2011-08-16 | Tigerlogic Corporation | Systems and methods of refining a search query based on user-specified search keywords |
| US7937395B2 (en) * | 2008-02-22 | 2011-05-03 | Tigerlogic Corporation | Systems and methods of displaying and re-using document chunks in a document development application |
| US8924374B2 (en) * | 2008-02-22 | 2014-12-30 | Tigerlogic Corporation | Systems and methods of semantically annotating documents of different structures |
| US8078630B2 (en) | 2008-02-22 | 2011-12-13 | Tigerlogic Corporation | Systems and methods of displaying document chunks in response to a search request |
| US7933896B2 (en) * | 2008-02-22 | 2011-04-26 | Tigerlogic Corporation | Systems and methods of searching a document for relevant chunks in response to a search request |
| US8924421B2 (en) * | 2008-02-22 | 2014-12-30 | Tigerlogic Corporation | Systems and methods of refining chunks identified within multiple documents |
| US8001162B2 (en) * | 2008-02-22 | 2011-08-16 | Tigerlogic Corporation | Systems and methods of pipelining multiple document node streams through a query processor |
| US8145632B2 (en) | 2008-02-22 | 2012-03-27 | Tigerlogic Corporation | Systems and methods of identifying chunks within multiple documents |
| US8229921B2 (en) * | 2008-02-25 | 2012-07-24 | Mitsubishi Electric Research Laboratories, Inc. | Method for indexing for retrieving documents using particles |
| US8401842B1 (en) * | 2008-03-11 | 2013-03-19 | Emc Corporation | Phrase matching for document classification |
| US7974974B2 (en) * | 2008-03-20 | 2011-07-05 | Microsoft Corporation | Techniques to perform relative ranking for search results |
| US8688694B2 (en) * | 2008-04-20 | 2014-04-01 | Tigerlogic Corporation | Systems and methods of identifying chunks from multiple syndicated content providers |
| US20090276426A1 (en) * | 2008-05-02 | 2009-11-05 | Researchanalytics Corporation | Semantic Analytical Search and Database |
| US8275803B2 (en) * | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
| US20090313202A1 (en) * | 2008-06-13 | 2009-12-17 | Genady Grabarnik | Systems and methods for automated search-based problem determination and resolution for complex systems |
| US8463770B1 (en) * | 2008-07-09 | 2013-06-11 | Amazon Technologies, Inc. | System and method for conditioning search results |
| US8990106B2 (en) * | 2008-08-22 | 2015-03-24 | Realwire Limited | Information categorisation systems, modules, and methods |
| RU2386167C1 (ru) * | 2008-09-01 | 2010-04-10 | Федеральное государственное унитарное предприятие "Курский научно-исследовательский институт" Министерства обороны Российской Федерации | Устройство обработки информации для информационного поиска |
| US20100082662A1 (en) * | 2008-09-25 | 2010-04-01 | Microsoft Corporation | Information Retrieval System User Interface |
| LT5673B (lt) | 2008-11-11 | 2010-08-25 | Vilniaus Gedimino technikos universitetas | Elektroninės informacijos paieškos būdas ir sistema |
| US8396865B1 (en) | 2008-12-10 | 2013-03-12 | Google Inc. | Sharing search engine relevance data between corpora |
| US10489434B2 (en) * | 2008-12-12 | 2019-11-26 | Verint Americas Inc. | Leveraging concepts with information retrieval techniques and knowledge bases |
| KR101548907B1 (ko) * | 2009-01-06 | 2015-09-02 | 삼성전자 주식회사 | 다중언어의 대화시스템 및 그 제어방법 |
| KR20110134909A (ko) * | 2009-03-13 | 2011-12-15 | 인벤션 머신 코포레이션 | 텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법 |
| JP5257172B2 (ja) * | 2009-03-16 | 2013-08-07 | 富士通株式会社 | 検索方法、検索プログラム及び検索装置 |
| WO2010107327A1 (en) * | 2009-03-20 | 2010-09-23 | Syl Research Limited | Natural language processing method and system |
| US8160074B1 (en) * | 2009-03-31 | 2012-04-17 | Extreme Networks, Inc. | Optimal reading of forwarding database from hardware |
| US9009146B1 (en) * | 2009-04-08 | 2015-04-14 | Google Inc. | Ranking search results based on similar queries |
| US9245243B2 (en) * | 2009-04-14 | 2016-01-26 | Ureveal, Inc. | Concept-based analysis of structured and unstructured data using concept inheritance |
| CA2761956C (en) | 2009-05-29 | 2015-07-21 | Emerson Retail Services, Inc. | System and method for monitoring and evaluating equipment operating parameter modifications |
| US8447760B1 (en) | 2009-07-20 | 2013-05-21 | Google Inc. | Generating a related set of documents for an initial set of documents |
| US8635223B2 (en) | 2009-07-28 | 2014-01-21 | Fti Consulting, Inc. | System and method for providing a classification suggestion for electronically stored information |
| US20110035375A1 (en) * | 2009-08-06 | 2011-02-10 | Ron Bekkerman | Building user profiles for website personalization |
| WO2011028553A1 (en) | 2009-08-24 | 2011-03-10 | Fti Technology Llc | Generating a reference set for use during document review |
| US8498974B1 (en) | 2009-08-31 | 2013-07-30 | Google Inc. | Refining search results |
| US20110072023A1 (en) * | 2009-09-21 | 2011-03-24 | Yahoo! Inc. | Detect, Index, and Retrieve Term-Group Attributes for Network Search |
| US8943094B2 (en) | 2009-09-22 | 2015-01-27 | Next It Corporation | Apparatus, system, and method for natural language processing |
| CN102023989B (zh) * | 2009-09-23 | 2012-10-10 | 阿里巴巴集团控股有限公司 | 一种信息检索方法及其系统 |
| US8972391B1 (en) | 2009-10-02 | 2015-03-03 | Google Inc. | Recent interest based relevance scoring |
| US20120197910A1 (en) * | 2009-10-11 | 2012-08-02 | Patrick Sander Walsh | Method and system for performing classified document research |
| US8620906B2 (en) * | 2009-11-06 | 2013-12-31 | Ebay Inc. | Detecting competitive product reviews |
| US8452763B1 (en) | 2009-11-19 | 2013-05-28 | Google Inc. | Extracting and scoring class-instance pairs |
| US8874555B1 (en) | 2009-11-20 | 2014-10-28 | Google Inc. | Modifying scoring data based on historical changes |
| US8805079B2 (en) | 2009-12-02 | 2014-08-12 | Google Inc. | Identifying matching canonical documents in response to a visual query and in accordance with geographic information |
| US8811742B2 (en) | 2009-12-02 | 2014-08-19 | Google Inc. | Identifying matching canonical documents consistent with visual query structural information |
| US8244706B2 (en) * | 2009-12-18 | 2012-08-14 | International Business Machines Corporation | Method and apparatus for semantic just-in-time-information-retrieval |
| US8452795B1 (en) * | 2010-01-15 | 2013-05-28 | Google Inc. | Generating query suggestions using class-instance relationships |
| US8615514B1 (en) | 2010-02-03 | 2013-12-24 | Google Inc. | Evaluating website properties by partitioning user feedback |
| US8924379B1 (en) | 2010-03-05 | 2014-12-30 | Google Inc. | Temporal-based score adjustments |
| US8959093B1 (en) | 2010-03-15 | 2015-02-17 | Google Inc. | Ranking search results based on anchors |
| US8538916B1 (en) | 2010-04-09 | 2013-09-17 | Google Inc. | Extracting instance attributes from text |
| US8554542B2 (en) * | 2010-05-05 | 2013-10-08 | Xerox Corporation | Textual entailment method for linking text of an abstract to text in the main body of a document |
| EP2400400A1 (en) * | 2010-06-22 | 2011-12-28 | Inbenta Professional Services, S.L. | Semantic search engine using lexical functions and meaning-text criteria |
| US9623119B1 (en) | 2010-06-29 | 2017-04-18 | Google Inc. | Accentuating search results |
| US8832083B1 (en) | 2010-07-23 | 2014-09-09 | Google Inc. | Combining user feedback |
| EP2423830A1 (de) | 2010-08-25 | 2012-02-29 | Omikron Data Quality GmbH | Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine |
| US9122744B2 (en) | 2010-10-11 | 2015-09-01 | Next It Corporation | System and method for providing distributed intelligent assistance |
| US9002867B1 (en) | 2010-12-30 | 2015-04-07 | Google Inc. | Modifying ranking data based on document changes |
| EP2681497A4 (en) | 2011-02-28 | 2017-05-31 | Emerson Electric Co. | Residential solutions hvac monitoring and diagnosis |
| JP5699743B2 (ja) * | 2011-03-30 | 2015-04-15 | カシオ計算機株式会社 | 検索方法、検索装置、ならびに、コンピュータプログラム |
| CN102760127B (zh) * | 2011-04-26 | 2017-11-03 | 北京百度网讯科技有限公司 | 基于扩展文本信息来确定资源类型的方法、装置及设备 |
| US9026916B2 (en) * | 2011-06-23 | 2015-05-05 | International Business Machines Corporation | User interface for managing questions and answers across multiple social media data sources |
| US8965882B1 (en) | 2011-07-13 | 2015-02-24 | Google Inc. | Click or skip evaluation of synonym rules |
| US9037601B2 (en) | 2011-07-27 | 2015-05-19 | Google Inc. | Conversation system and method for performing both conversation-based queries and message-based queries |
| US8965904B2 (en) * | 2011-11-15 | 2015-02-24 | Long Van Dinh | Apparatus and method for information access, search, rank and retrieval |
| US8909627B1 (en) | 2011-11-30 | 2014-12-09 | Google Inc. | Fake skip evaluation of synonym rules |
| US9836177B2 (en) | 2011-12-30 | 2017-12-05 | Next IT Innovation Labs, LLC | Providing variable responses in a virtual-assistant environment |
| US8965875B1 (en) | 2012-01-03 | 2015-02-24 | Google Inc. | Removing substitution rules based on user interactions |
| US9152698B1 (en) | 2012-01-03 | 2015-10-06 | Google Inc. | Substitute term identification based on over-represented terms identification |
| US8964338B2 (en) | 2012-01-11 | 2015-02-24 | Emerson Climate Technologies, Inc. | System and method for compressor motor protection |
| US9141672B1 (en) | 2012-01-25 | 2015-09-22 | Google Inc. | Click or skip evaluation of query term optionalization rule |
| US9223537B2 (en) | 2012-04-18 | 2015-12-29 | Next It Corporation | Conversation user interface |
| US8959103B1 (en) | 2012-05-25 | 2015-02-17 | Google Inc. | Click or skip evaluation of reordering rules |
| US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
| US8935246B2 (en) | 2012-08-08 | 2015-01-13 | Google Inc. | Identifying textual terms in response to a visual query |
| US9536049B2 (en) | 2012-09-07 | 2017-01-03 | Next It Corporation | Conversational virtual healthcare assistant |
| US10614725B2 (en) | 2012-09-11 | 2020-04-07 | International Business Machines Corporation | Generating secondary questions in an introspective question answering system |
| EP2897058B1 (en) * | 2012-09-13 | 2019-11-20 | Ntt Docomo, Inc. | User inteface device, search method, and program |
| US9310439B2 (en) | 2012-09-25 | 2016-04-12 | Emerson Climate Technologies, Inc. | Compressor having a control and diagnostic module |
| US9146966B1 (en) | 2012-10-04 | 2015-09-29 | Google Inc. | Click or skip evaluation of proximity rules |
| US9551504B2 (en) | 2013-03-15 | 2017-01-24 | Emerson Electric Co. | HVAC system remote monitoring and diagnosis |
| CA2904734C (en) | 2013-03-15 | 2018-01-02 | Emerson Electric Co. | Hvac system remote monitoring and diagnosis |
| US9803902B2 (en) | 2013-03-15 | 2017-10-31 | Emerson Climate Technologies, Inc. | System for refrigerant charge verification using two condenser coil temperatures |
| US9501506B1 (en) | 2013-03-15 | 2016-11-22 | Google Inc. | Indexing system |
| US8965915B2 (en) | 2013-03-17 | 2015-02-24 | Alation, Inc. | Assisted query formation, validation, and result previewing in a database having a complex schema |
| WO2014165731A1 (en) | 2013-04-05 | 2014-10-09 | Emerson Electric Co. | Heat-pump system with refrigerant charge diagnostics |
| US10445115B2 (en) | 2013-04-18 | 2019-10-15 | Verint Americas Inc. | Virtual assistant focused user interfaces |
| US9183499B1 (en) | 2013-04-19 | 2015-11-10 | Google Inc. | Evaluating quality based on neighbor features |
| US9483568B1 (en) | 2013-06-05 | 2016-11-01 | Google Inc. | Indexing system |
| US9501585B1 (en) | 2013-06-13 | 2016-11-22 | DataRPM Corporation | Methods and system for providing real-time business intelligence using search-based analytics engine |
| JP6135331B2 (ja) * | 2013-06-27 | 2017-05-31 | カシオ計算機株式会社 | 電子機器、プログラム、および、検索システム、検索方法 |
| US9460211B2 (en) * | 2013-07-08 | 2016-10-04 | Information Extraction Systems, Inc. | Apparatus, system and method for a semantic editor and search engine |
| US8978036B2 (en) | 2013-07-29 | 2015-03-10 | Splunk Inc. | Dynamic scheduling of tasks for collecting and processing data from external sources |
| US9792357B2 (en) * | 2013-09-10 | 2017-10-17 | Adobe Systems Incorporated | Method and apparatus for consuming content via snippets |
| US9424297B2 (en) * | 2013-10-09 | 2016-08-23 | Sybase, Inc. | Index building concurrent with table modifications and supporting long values |
| JP6167015B2 (ja) * | 2013-10-30 | 2017-07-19 | 富士通株式会社 | 情報処理システム、管理プログラム、及びインデックス管理方法 |
| US10928976B2 (en) | 2013-12-31 | 2021-02-23 | Verint Americas Inc. | Virtual assistant acquisitions and training |
| US9959315B1 (en) * | 2014-01-31 | 2018-05-01 | Google Llc | Context scoring adjustments for answer passages |
| US9614724B2 (en) | 2014-04-21 | 2017-04-04 | Microsoft Technology Licensing, Llc | Session-based device configuration |
| US20150317313A1 (en) * | 2014-05-02 | 2015-11-05 | Microsoft Corporation | Searching locally defined entities |
| KR20150129134A (ko) * | 2014-05-08 | 2015-11-19 | 한국전자통신연구원 | 질의 응답 시스템 및 그 방법 |
| US10111099B2 (en) | 2014-05-12 | 2018-10-23 | Microsoft Technology Licensing, Llc | Distributing content in managed wireless distribution networks |
| US9384335B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content delivery prioritization in managed wireless distribution networks |
| US9430667B2 (en) | 2014-05-12 | 2016-08-30 | Microsoft Technology Licensing, Llc | Managed wireless distribution network |
| US9384334B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content discovery in managed wireless distribution networks |
| US9874914B2 (en) | 2014-05-19 | 2018-01-23 | Microsoft Technology Licensing, Llc | Power management contracts for accessory devices |
| US10037202B2 (en) | 2014-06-03 | 2018-07-31 | Microsoft Technology Licensing, Llc | Techniques to isolating a portion of an online computing service |
| US9367490B2 (en) | 2014-06-13 | 2016-06-14 | Microsoft Technology Licensing, Llc | Reversible connector for accessory devices |
| US20160071517A1 (en) | 2014-09-09 | 2016-03-10 | Next It Corporation | Evaluating Conversation Data based on Risk Factors |
| US10372718B2 (en) | 2014-11-03 | 2019-08-06 | SavantX, Inc. | Systems and methods for enterprise data search and analysis |
| US10915543B2 (en) | 2014-11-03 | 2021-02-09 | SavantX, Inc. | Systems and methods for enterprise data search and analysis |
| US9613133B2 (en) | 2014-11-07 | 2017-04-04 | International Business Machines Corporation | Context based passage retrieval and scoring in a question answering system |
| US20160203111A1 (en) * | 2015-01-13 | 2016-07-14 | Kobo Incorporated | E-reading content item information aggregation and interface for presentation thereof |
| WO2016133529A1 (en) * | 2015-02-20 | 2016-08-25 | Hewlett-Packard Development Company, L.P. | Citation explanations |
| US10866942B1 (en) * | 2015-04-19 | 2020-12-15 | Zeepabyte, Inc | Cascaded indexing of multidimensional data |
| CN104978878A (zh) * | 2015-06-26 | 2015-10-14 | 苏州点通教育科技有限公司 | 微课教学系统及方法 |
| US11227113B2 (en) * | 2016-01-20 | 2022-01-18 | International Business Machines Corporation | Precision batch interaction with a question answering system |
| US9974742B2 (en) * | 2016-02-01 | 2018-05-22 | Heron Therapeutics, Inc. | Emulsion formulations of an NK-1 receptor antagonist and uses thereof |
| CN109219811B (zh) | 2016-05-23 | 2022-03-29 | 微软技术许可有限责任公司 | 相关段落检索系统 |
| AU2017274558B2 (en) | 2016-06-02 | 2021-11-11 | Nuix North America Inc. | Analyzing clusters of coded documents |
| CN106060388B (zh) * | 2016-06-24 | 2019-09-27 | 广东紫旭科技有限公司 | 一种全自动微课录制控制方法和系统 |
| US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
| US11328128B2 (en) | 2017-02-28 | 2022-05-10 | SavantX, Inc. | System and method for analysis and navigation of data |
| WO2018160605A1 (en) | 2017-02-28 | 2018-09-07 | SavantX, Inc. | System and method for analysis and navigation of data |
| US10467343B2 (en) * | 2017-08-03 | 2019-11-05 | International Business Machines Corporation | Detecting problematic language in inclusion and exclusion criteria |
| US11587000B2 (en) * | 2018-03-02 | 2023-02-21 | Initlive Inc. | Workforce response based event management methods and systems |
| US11568175B2 (en) | 2018-09-07 | 2023-01-31 | Verint Americas Inc. | Dynamic intent classification based on environment variables |
| US11232264B2 (en) | 2018-10-19 | 2022-01-25 | Verint Americas Inc. | Natural language processing with non-ontological hierarchy models |
| US11822588B2 (en) * | 2018-10-24 | 2023-11-21 | International Business Machines Corporation | Supporting passage ranking in question answering (QA) system |
| US11196863B2 (en) | 2018-10-24 | 2021-12-07 | Verint Americas Inc. | Method and system for virtual assistant conversations |
| US11487827B2 (en) * | 2018-12-27 | 2022-11-01 | International Business Machines Corporation | Extended query performance prediction framework utilizing passage-level information |
| US11132358B2 (en) | 2019-02-19 | 2021-09-28 | International Business Machines Corporation | Candidate name generation |
| US10936819B2 (en) | 2019-02-19 | 2021-03-02 | International Business Machines Corporation | Query-directed discovery and alignment of collections of document passages for improving named entity disambiguation precision |
| US11226972B2 (en) | 2019-02-19 | 2022-01-18 | International Business Machines Corporation | Ranking collections of document passages associated with an entity name by relevance to a query |
| US11954108B2 (en) * | 2021-01-30 | 2024-04-09 | Walmart Apollo, Llc | Methods and apparatus for automatically ranking items in response to a search request |
| US11989221B2 (en) * | 2021-09-20 | 2024-05-21 | Walmart Apollo, Llc | Systems and methods for removing non-conforming web text |
| US12387242B2 (en) * | 2022-09-30 | 2025-08-12 | Insight Direct Usa, Inc. | Systems and methods for customer-personalized videos |
Family Cites Families (40)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4495566A (en) * | 1981-09-30 | 1985-01-22 | System Development Corporation | Method and means using digital data processing means for locating representations in a stored textual data base |
| US5062074A (en) * | 1986-12-04 | 1991-10-29 | Tnet, Inc. | Information retrieval system and method |
| US4849898A (en) * | 1988-05-18 | 1989-07-18 | Management Information Technologies, Inc. | Method and apparatus to identify the relation of meaning between words in text expressions |
| US4839853A (en) * | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
| US4984178A (en) * | 1989-02-21 | 1991-01-08 | Texas Instruments Incorporated | Chart parser for stochastic unification grammar |
| US5276616A (en) * | 1989-10-16 | 1994-01-04 | Sharp Kabushiki Kaisha | Apparatus for automatically generating index |
| US5404514A (en) * | 1989-12-26 | 1995-04-04 | Kageneck; Karl-Erbo G. | Method of indexing and retrieval of electronically-stored documents |
| US5301109A (en) * | 1990-06-11 | 1994-04-05 | Bell Communications Research, Inc. | Computerized cross-language document retrieval using latent semantic indexing |
| US5321833A (en) * | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
| US5325298A (en) * | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
| EP0510634B1 (en) * | 1991-04-25 | 1999-07-07 | Nippon Steel Corporation | Data base retrieval system |
| US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
| US5428778A (en) * | 1992-02-13 | 1995-06-27 | Office Express Pty. Ltd. | Selective dissemination of information |
| GB9220404D0 (en) * | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
| US5598557A (en) * | 1992-09-22 | 1997-01-28 | Caere Corporation | Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files |
| US5440481A (en) * | 1992-10-28 | 1995-08-08 | The United States Of America As Represented By The Secretary Of The Navy | System and method for database tomography |
| US5544352A (en) * | 1993-06-14 | 1996-08-06 | Libertech, Inc. | Method and apparatus for indexing, searching and displaying data |
| US5475588A (en) * | 1993-06-18 | 1995-12-12 | Mitsubishi Electric Research Laboratories, Inc. | System for decreasing the time required to parse a sentence |
| US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
| US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
| US5675819A (en) | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
| US5706497A (en) * | 1994-08-15 | 1998-01-06 | Nec Research Institute, Inc. | Document retrieval using fuzzy-logic inference |
| US5542078A (en) * | 1994-09-29 | 1996-07-30 | Ontos, Inc. | Object oriented data store integration environment for integration of object oriented databases and non-object oriented data facilities |
| US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
| US5659746A (en) * | 1994-12-30 | 1997-08-19 | Aegis Star Corporation | Method for storing and retrieving digital data transmissions |
| US5659732A (en) | 1995-05-17 | 1997-08-19 | Infoseek Corporation | Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents |
| US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
| US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
| US5822731A (en) * | 1995-09-15 | 1998-10-13 | Infonautics Corporation | Adjusting a hidden Markov model tagger for sentence fragments |
| US5740425A (en) * | 1995-09-26 | 1998-04-14 | Povilus; David S. | Data structure and method for publishing electronic and printed product catalogs |
| US5832496A (en) | 1995-10-12 | 1998-11-03 | Ncr Corporation | System and method for performing intelligent analysis of a computer database |
| US5926811A (en) * | 1996-03-15 | 1999-07-20 | Lexis-Nexis | Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching |
| US5832182A (en) | 1996-04-24 | 1998-11-03 | Wisconsin Alumni Research Foundation | Method and system for data clustering for very large databases |
| US5806065A (en) * | 1996-05-06 | 1998-09-08 | Microsoft Corporation | Data system with distributed tree indexes and method for maintaining the indexes |
| US5987460A (en) * | 1996-07-05 | 1999-11-16 | Hitachi, Ltd. | Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency |
| US5852820A (en) * | 1996-08-09 | 1998-12-22 | Digital Equipment Corporation | Method for optimizing entries for searching an index |
| US5924090A (en) * | 1997-05-01 | 1999-07-13 | Northern Light Technology Llc | Method and apparatus for searching a database of records |
| US5920856A (en) * | 1997-06-09 | 1999-07-06 | Xerox Corporation | System for selecting multimedia databases over networks |
| US5983218A (en) * | 1997-06-30 | 1999-11-09 | Xerox Corporation | Multimedia database for use over networks |
| US5983216A (en) * | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
-
1995
- 1995-07-07 US US08/499,268 patent/US5724571A/en not_active Expired - Lifetime
-
1996
- 1996-07-05 EP EP96305010A patent/EP0752676B1/en not_active Expired - Lifetime
- 1996-07-05 DE DE69624985T patent/DE69624985T2/de not_active Expired - Fee Related
- 1996-07-08 JP JP8195273A patent/JPH09223161A/ja not_active Withdrawn
-
1997
- 1997-03-31 US US08/829,655 patent/US6101491A/en not_active Expired - Lifetime
- 1997-03-31 US US08/829,657 patent/US6182063B1/en not_active Expired - Lifetime
-
1998
- 1998-02-11 US US09/021,793 patent/US6282538B1/en not_active Expired - Lifetime
-
2000
- 2000-12-12 US US09/733,913 patent/US6594658B2/en not_active Expired - Lifetime
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016147624A1 (ja) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | 検索システム、検索方法および検索プログラム |
| WO2016147621A1 (ja) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | 記事管理システム、記事管理方法および記事管理プログラム |
| JPWO2016147624A1 (ja) * | 2015-03-13 | 2017-12-21 | 日本電気株式会社 | 検索システム、検索方法および検索プログラム |
| US10909154B2 (en) | 2015-03-13 | 2021-02-02 | Nec Corporation | Search system, search method and search program |
Also Published As
| Publication number | Publication date |
|---|---|
| US6182063B1 (en) | 2001-01-30 |
| DE69624985D1 (de) | 2003-01-09 |
| DE69624985T2 (de) | 2003-09-18 |
| US5724571A (en) | 1998-03-03 |
| US6594658B2 (en) | 2003-07-15 |
| US20010000356A1 (en) | 2001-04-19 |
| EP0752676A2 (en) | 1997-01-08 |
| EP0752676A3 (en) | 1998-06-17 |
| US6282538B1 (en) | 2001-08-28 |
| EP0752676B1 (en) | 2002-11-27 |
| US6101491A (en) | 2000-08-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH09223161A (ja) | コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置 | |
| US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
| CN103136352B (zh) | 基于双层语义分析的全文检索系统 | |
| EP0597630B1 (en) | Method for resolution of natural-language queries against full-text databases | |
| KR100451978B1 (ko) | 정보 검색 방법과 정보 검색 장치 | |
| Finkelstein et al. | Placing search in context: The concept revisited | |
| JP3719415B2 (ja) | 情報検索方法、情報検索システム、およびプログラム | |
| KR100666064B1 (ko) | 인터랙티브 검색 쿼리 개선 시스템 및 방법 | |
| US6859800B1 (en) | System for fulfilling an information need | |
| CN1871597B (zh) | 利用一套消歧技术处理文本的系统和方法 | |
| EP0965089B1 (en) | Information retrieval utilizing semantic representation of text | |
| Anagnostopoulos et al. | Sampling search-engine results | |
| US5940624A (en) | Text management system | |
| US20070106499A1 (en) | Natural language search system | |
| US20040117352A1 (en) | System for answering natural language questions | |
| NZ515293A (en) | Document-classification system, method and software | |
| JP2011118689A (ja) | 検索方法及びシステム | |
| Magnini et al. | Comparing statistical and content-based techniques for answer validation on the web | |
| KR20020072092A (ko) | 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템 | |
| JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
| JPH06348757A (ja) | 文書検索装置および方法 | |
| JP3249743B2 (ja) | 文書検索システム | |
| RU2266560C1 (ru) | Способ поиска информации в политематических массивах неструктурированных текстов | |
| Pradhan et al. | Building a foundation system for producing short answers to factual questions | |
| Zheng et al. | An improved focused crawler based on text keyword extraction |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20040902 |