JP3040945B2 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP3040945B2
JP3040945B2 JP7332482A JP33248295A JP3040945B2 JP 3040945 B2 JP3040945 B2 JP 3040945B2 JP 7332482 A JP7332482 A JP 7332482A JP 33248295 A JP33248295 A JP 33248295A JP 3040945 B2 JP3040945 B2 JP 3040945B2
Authority
JP
Japan
Prior art keywords
document
unit
search
input
search target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7332482A
Other languages
English (en)
Other versions
JPH09153066A (ja
Inventor
直彦 野口
昌子 野本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP7332482A priority Critical patent/JP3040945B2/ja
Priority to US08/755,929 priority patent/US5991755A/en
Publication of JPH09153066A publication Critical patent/JPH09153066A/ja
Application granted granted Critical
Publication of JP3040945B2 publication Critical patent/JP3040945B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子化され蓄積さ
れた文書情報から、所望の文書を検索する文書検索装置
に関し、特に、文書情報が蓄積されたデータベースや、
一般のワードプロセッサ、オフィスコンピュータなどの
記憶装置に蓄積された文書情報を効率的且つ高精度に検
索できるようにしたものである。
【0002】
【従来の技術】近年、電子メールや電子カタログ、電子
出版物など、電子化された文書情報が大量に流通し始め
たことに伴って、それらの文書情報から所望の文書だけ
を検索する文書検索装置に対する関心が高まってきてい
る。
【0003】そのような文書検索装置においては、従来
は、文書毎に付与されたキーワードを利用するキーワー
ド検索手法や、人手によるキーワード付けの作業を必要
とせず、文書全文の文字列照合を高速に行なう全文検索
手法などを用いる装置が一般的であった。
【0004】しかし、従来の手法は、全て単語、文字列
といった表層的な情報の完全一致モデルに基づくもので
あり、利用者は、自分でそれらの文字列を構成要素とす
る検索式(通常は、AND,OR,NOTなどの論理演
算子を用いた論理式)を構成して、検索条件として与え
なければならない。そのため、専門家でなければ、利用
者の検索意図に沿った適切な検索式を構成することが非
常に難しく、結果として検索漏れや検索のゴミが多発し
てしまい、検索精度、検索効率ともに悪化してしまうと
いう問題があった。
【0005】一方、上記の問題を解決する、非完全一致
モデルに基づく文書検索手法も現在までに数多く提案さ
れている。文書と質問文とを互いに多次元の特徴ベクト
ルとして表現し、それらのベクトルの間の距離によって
類似度を計測して、質問文に類似した文書から順番にラ
ンキングを行なうベクトル空間法などがその代表例であ
る。非完全一致モデルでは、利用者は自分の検索意図を
表現する自然言語文や、典型的な文書などを指定すれば
よく、完全一致モデルの場合のように、自分で論理式を
構成する必要はない。(そのような技術については、Sa
lton,G. and McGill, M.J.:Introduction to Modern In
formation Retrieval, McGraw-Hill Publishing Compan
y, 1983 に詳しい解説が記載されている。) 以下、図面を参照しながら、従来のベクトル空間法に基
づく文書ランキング手法について説明する。
【0006】従来のベクトル空間法に基づく文書検索装
置は、図10に示すように、検索対象文書を格納する文
書格納部101と、文書格納部101から文書を読み出して、
各文書に出現する単語頻度を算出する単語頻度算出部10
2と、単語頻度算出部102によって算出された各文書毎、
各単語毎の頻度を格納する単語頻度情報格納部103と、
利用者からの入力を受け付け、また検索結果を利用者へ
出力する入出力部104と、入出力部104に入力された利用
者の入力文(または入力文書)から、検索に使用する単
語とその頻度などを抽出する入力解析部105と、入力解
析部105によって抽出された入力文中の単語頻度を一時
的に保持する入力単語情報格納部106と、単語頻度情報
格納部103の情報と入力単語情報格納部106の情報とを比
較照合して、入出力部104に検索結果の文書をランキン
グつきで出力する文書順位算定部107とを備えている。
【0007】この装置では、利用者が文書検索を行なう
前に、まず、単語頻度算出部102が文書格納部101に格納
された検索対象文書を読み出して、必要ならば各文書に
形態素解析などを施して単語列に分割し、各文書に各単
語がどれだけの頻度で出現するかということを計測し
て、その情報を単語頻度情報格納部103に格納する。図
11に検索対象文書の例を、また、図12に単語頻度情
報格納部103に格納される単語頻度情報の例を示す。
【0008】実際に検索を行なう場合は、まず利用者が
検索したい文書の内容を表現する自然言語文、あるいは
文書を入出力部104を介して入力する。入力解析部105
は、その入力文を必要ならば形態素解析などを施して単
語列に分割し、検索対象となる単語を抽出し、各単語の
重要度を表す重みを計算する。通常、入力文書中での単
語頻度情報や、利用者が直接与える数値などがその重み
の計算に用いられる。入力解析部105の出力は、一時的
に入力単語情報格納部106に蓄えられる。図13に入力
文の例を、また、図14に入力単語情報格納部106に格
納された、入力解析部105により解析結果の例を示す。
ここでは、入力文の出現単語頻度をその単語の重みとし
ている。
【0009】次に、文書順位算定部107は、入力単語情
報格納部106に蓄えられた情報と、単語頻度情報格納部1
03に格納されている各検索対象文書毎の単語頻度情報と
を比較照合して文書のランキングを作成する。その際、
各文書に出現する各単語の重みを計算して、各文書を各
単語の重みの組からなる多次元のベクトルとして表現
し、入力単語情報格納部106に蓄えられた情報について
も、同様に各単語の重みの組からなる同次元のベクトル
として表現して、それらのベクトルの内積を計算した
り、あるいはベクトル同士のなす角度を計算したりし
て、ランキング付けを行なう際の評価関数として用い
る。
【0010】また、単語頻度情報格納部103の内容か
ら、各文書に出現する各単語の重みを計算する際にはt
f*idfと呼ばれる重み計算式が用いられることが多
い。例えば、単純な評価関数を用いれば、文書1と入力
文との類似度は、以下のようにして計算される。
【0011】Σ(入力単語の重み×文書における単語頻
度)=1×2+1×2+1×1=5 同様に、文書2と入力文との類似度は、以下のようにし
て計算される。
【0012】Σ(入力単語の重み×文書における単語頻
度)=1×1+1×1+1×1=3 以上より、文書1の類似度の方が、文書2の類似度より
もスコアが大きくなるので、結局文書1は文書2より上
位にランクされることになる。
【0013】文書順位算定部107は、最終的に、こうし
て求めた各文書の評価関数の値を降順に並べて文書のラ
ンキングを決定し、入出力部104に出力する。
【0014】このように、ベクトル空間法に基づいて文
書をランキングして検索する装置においては、利用者は
自分の検索意図を検索式に変換する必要がないので、利
便性が向上する。しかも、その検索意図を表現する自然
言語文あるいは文書との類似度が高い文書から順番に検
索結果として得られるので、自分の検索意図に合致して
いる文書を効率的に検索することができる。
【0015】
【発明が解決しようとする課題】しかし、このベクトル
空間法に基いて文書をランキングして検索する装置で
は、利用者の検索意図、ならびに文書を、単に単語頻度
あるいは分布という全体的な指標のみを用いて、多次元
の特徴ベクトルに変換するため、場合によってはそれほ
ど高い検索精度が得られないといった問題がある。特
に、類似度の計算において、文書の持つ本来的な意味や
主題の内容は、特徴ベクトルとして表現することが困難
なため、内容的に全く異なった文書でも、単語の出現分
布が入力文書と似ていればそれだけで上位にランクされ
てしまい、ランキングの精度が下がってしまうという問
題点を有していた。
【0016】例えば、図15で示すような文書が存在し
た場合、上記と同様な方法によって入力文との類似度を
計算すれば、 1×3+1×1+1×2=6 となり、前記文書1や文書2よりも類似度が高くなるの
で、上位にランクされてしまう。しかし、内容的には文
書1の方が、入力文に類似していることは明らかであ
る。
【0017】本発明は、こうした従来技術の問題点を解
決するものであり、各検索対象文書に出現する単語の頻
度情報や分布情報だけでなく、各文書に記述された意味
内容や主題をも考慮して文書のランキングを行なうこと
により、高い精度で文書を検索することができる文書検
索装置を提供することを目的としている。
【0018】
【課題を解決するための手段】そこで、本発明の文書検
索装置では、検索対象文書に出現する構文的な機能単位
と入力文に出現する構文的な機能単位とを比較照合し、
その合致度合いによって検索対象文書をいくつかの層に
弁別し、各層ごとに検索対象文書と入力文との単語頻度
の適合度を計算し、この層のランクを優先させる形で最
終的な検索対象文書の順位を決定している。
【0019】このように、構文的な機能単位、例えば、
名詞連続からなる名詞句や、格成分と述語とから成る動
詞句、助詞「の」で結ばれた2つの名詞など、について
の一致性を考慮して検索対象文書のランキングを決めて
いるため、検索意図に沿った高精度の文書検索が可能と
なる。
【0020】
【発明の実施の形態】本発明の請求項1に記載の発明
は、検索対象文書の単語頻度と利用者の入力した入力文
に含まれる単語集合との適合度に基づいて、各検索対象
文書の入力文に類似する順位を決定する文書検索装置に
おいて、検索対象文書に出現する構文的な機能単位を抽
出する機能単位抽出手段と、入力文に出現する構文的な
機能単位を抽出する入力解析手段と、入力解析手段によ
って抽出された入力文の構文的な機能単位と、機能単位
抽出手段によって抽出された検索対象文書の構文的な機
能単位とを比較照合し、その合致度合いによって検索対
象文書をいくつかの層に弁別する機能単位照合手段とを
設け、弁別された検索対象文書の各層ごとに、検索対象
文書の単語頻度と入力文に含まれる単語集合との適合度
を計算し、この層のランクを優先させる形で最終的な検
索対象文書の順位を決定するようにしたものであり、表
層的な単語頻度の一致性だけでなく、構文的機能単位の
一致性をも考慮しているため、検索意図を反映した検索
を実行することができる。
【0021】請求項2に記載の発明は、この機能単位抽
出手段を、検索対象文書の主題内容を表現している重要
部分のみを抽出する重要部分抽出手段と、重要部分抽出
手段によって抽出された検索対象文書の重要部分だけか
ら構文的な機能単位を抽出する重要機能単位抽出手段と
で構成したものであり、構文的な機能単位の抽出範囲を
文書の重要部分だけに絞ることによって、検索精度を高
めることができる。
【0022】請求項3に記載の発明は、入力解析手段に
よって抽出された入力文の構文的な機能単位に重要度を
表す順位を付け、機能単位照合手段の比較照合におい
て、この順位を参酌して合致度合いを算定し、この算定
結果を基に検索対象文書をいくつかの層に弁別するよう
にしたものであり、利用者の検索意図に一層適合した高
精度な検索が可能になる。
【0023】
【0024】以下、本発明の実施の形態について、図1
から図9を用いて説明する。
【0025】(実施の形態1)第1の実施形態の文書検
索装置は、図1に示すように、検索対象文書を格納する
文書格納部11と、文書格納部11に格納された検索対象文
書を読み出して、各文書毎の単語頻度を算出する単語頻
度算出部12と、単語頻度算出部12が求めた単語頻度情報
を格納する単語頻度情報格納部13と、文書格納部11に格
納された検索対象文書を読み出して各文書の主題内容を
表現している重要部分のみを抽出する重要部分抽出部14
と、重要部分抽出部14が抽出した重要部分からさまざま
な構文的な機能単位を抽出する機能単位抽出部15と、機
能単位抽出部15が抽出した機能単位情報を格納する機能
単位情報格納部16と、利用者に情報を提示し、また利用
者からの入力を受付ける入出力部17と、入出力部17から
入力された入力文に出現する単語及びさまざまな構文的
な機能単位を抽出する入力解析部18と、入力解析部18が
入力文の形式から構成した検索式を格納する検索式格納
部19と、入力解析部18が抽出した構文的な機能単位を格
納する入力機能単位格納部20と、入力解析部18が求めた
入力文における各単語の頻度の情報を格納する入力単語
情報格納部21と、入力解析部18により抽出された検索式
に従って検索対象文書を全文検索して検索結果を出力す
る全文検索部22と、入力解析部18によって抽出された構
文的な機能単位と機能単位抽出部15によって抽出された
各検索対象文書に出現する構文的な機能単位とを比較照
合し、その合致度合によって検索対象文書をいくつかの
層に弁別する機能単位照合部23と、単語頻度算出部12に
よって算出された各文書毎の単語頻度と、入力解析部18
によって抽出された利用者の入力文に含まれる単語集合
とを比較して、機能単位照合部23によって弁別された検
索対象文書の各層ごとに文書の適合度を計算して最終的
な検索対象文書の順位を決定する文書順位算定部24とを
備えている。
【0026】なお、図1において、実線矢印は処理の流
れを示しており、また、実線太線の両端矢印は、各処理
部によるデータの参照を示している。
【0027】このように構成された文書検索装置の動作
について説明する。
【0028】まず、単語頻度算出部12は、文書格納部11
に格納された検索対象文書を順番に読み出して、必要な
らば各文書に形態素解析などを施して単語列に分割し、
各文書に各単語がどれだけの頻度で出現するかというこ
とを計測して、その情報を単語頻度情報格納部13に格納
する。
【0029】また、重要部分抽出部14は、やはり文書格
納部11に格納された検索対象文書を順番に読み出して、
文書構造を表すタグや、重要部を示すキーワードなどの
情報を用いて、各検索対象文書の重要部分だけを抽出す
る。重要機能単位抽出部15は、重要部分抽出部14によっ
て抽出された各検索対象文書の重要部分から、構文的な
機能単位を抽出して、その情報を機能単位情報格納部16
に格納する。構文的な機能単位としては、名詞連続から
なる名詞句、格成分と述語とからなる動詞句、助詞
「の」で結ばれた2つの名詞などを抽出する。
【0030】いま、図2に示すような5つの文書が、文
書格納部11に格納されているとした時、図3に、単語頻
度情報格納部13に格納される情報の例、図4に機能単位
情報格納部16に格納される情報の例を示す。ただし、図
2に示す文書は、各文書の重要部分だけを記載してい
る。
【0031】実際に利用者が文書格納部11に格納された
検索対象文書から所望の文書だけを検索する際には、ま
ず入出力部17を介して、如何なる文書を検索したいのか
ということを、自然言語文で入力する。入力解析部18は
その入力文を受取って、必要ならば形態素解析などを施
して単語列に分割し、その入力文に各単語がどれだけの
頻度で出現するかということを計測して、その情報を入
力単語情報格納部21に格納し、また、重要機能単位抽出
部15が抽出したのと同様な構文的な機能単位を入力文中
から抽出して、その情報を入力機能単位格納部20に格納
する。また、入力文の形式から、検索式を構成して検索
式格納部19に格納する。
【0032】図5に入力文の例を示し、図6に、図5の
入力に対応して、入力単語情報格納部21、入力機能単位
格納部20及び検索式格納部19に格納される内容を示す。
【0033】次に、全文検索部22は、検索式格納部19に
格納された検索式を用いて、文書格納部11に格納された
全検索対象文書について全文検索を行なう。図6の検索
式によって図2に示す5文書を全文検索すると、検索の
結果として得られる文書の集合は、{1、2、3、5}
となる。
【0034】続いて、機能単位照合部23は、全文検索結
果の集合{1、2、3、5}に含まれる文書中の機能単
位の情報を機能単位情報格納部16から検索して、その情
報と、入力機能単位格納部20に格納された情報とを比較
照合する。この入力機能単位格納部20には、この例では
(体育,大会)、(大会,開催)の2つが機能単位として格納
されているから、これらを部分文字列として含むような
機能単位(2つ組)が機能単位情報格納部16の文書1、
2、3、5に対応した部分から検索され、この検索結果
として、図7に示すようなものが選ばれる。
【0035】つまり、文書1には入力機能単位格納部20
に格納された機能単位が両方含まれるが、文書2、3、
5には、その一方しか含まれないことになる。この結果
より、機能単位照合部23は、文書集合{1、2、3、
5}を、{1}と{2、3、5}に弁別し、前者を後者
よりも上位層であるとして出力する。
【0036】次いで、文書順位算定部24は、このように
弁別された各層について、なんらかの評価関数を用いて
文書の順位づけを行なう。例えば、 E(D)=Σ(入力単語の重み×文書Dにおける単語頻
度) という評価関数を用いれば、 E(1)=1×2+1×2+1×1=5 E(2)=1×1+1×1+1×1=3 E(3)=1×3+1×1+1×2=6 E(5)=1×1+1×1+1×1=3 となる。文書順位算定部24は、層のランクが高いものを
上位に位置付け、また、同一層にあっては評価関数のス
コアの高いものを上位に位置付けることによって、結
局、1、3、2、5という順位を出力する(2、5は同
スコアのため、同一順位とする)。
【0037】従来の、単語頻度情報だけを用いて順位づ
けを行なった場合は、順位は上記のスコアに従って3、
1、2、5(この場合も、2、5は同一順位とする)と
なるが、文書1と文書3とを比べれば、文書1の方が利
用者の検索意図に近いことは明らかである。これらの順
位を比べると、この文書検索装置において、検索対象文
書中に含まれる構文的機能単位と、利用者の入力文に含
まれる構文的機能単位との照合を行ない事前に層状に弁
別していることが、文書1の順位と文書3の順位との逆
転をもたらしていることが分かる。つまり、この文書検
索装置では、より利用者の検索意図を反映した文書順位
づけが可能になる。
【0038】また、この文書検索装置では、全文検索部
22を設け、検索対象文書を絞り込んだ後、文書の順位を
算出している。このような構成にしない場合には、上記
の例で言えば、E(4)も計算して順位づけることにな
り、その分、計算量が増えることになる。この装置で
は、このような無駄な計算を省いているため、全体の処
理を効率的に行なうことができる。
【0039】また、この文書検索装置では、重要部分抽
出部14を設け、その重要部分抽出部により抽出された検
索対象文書の重要部分だけから機能単位を抽出してい
る。このような構成にせずに、検索対象文書全文から機
能単位を抽出した場合には、重要でない部分で入力機能
単位格納部20に格納されたものと同じ機能単位が出現し
た時にも、それが機能単位照合部23で照合されてしまう
ために、本来は利用者の検索意図に合致しない文書であ
っても、上位層にランクされてしまうケースが生じる。
この文書検索装置では、このように精度を悪化させるよ
うな機能単位が抽出されないため、精度の高い検索が可
能になる。
【0040】(実施の形態2)第2の実施形態の文書検
索装置は、構文的な機能単位に重み付けを行なって照合
を実施している。この装置の構成は第1の実施形態の装
置(図1)と同じであり、動作も同じように進む。ただ
し、入力解析部18が利用者からの入力文を解析して、構
文的な機能単位を抽出する際に、何らかの基準を用い
て、抽出した機能単位に順序を付ける点が異なる。
【0041】例えば、実施の形態1に記載したものと同
じ文書を、同じ入力文で検索する場合に、入力機能単位
格納部20に格納される情報には、図8に示すように、
(体育,大会)には1番、(大会,開催)には2番という順序
が付けられる。ここでは、名詞連続という機能単位の方
が、動詞句という機能単位よりも上位にくるという基準
で順序づけしている。
【0042】そして、機能単位照合部23は、全文検索結
果の集合{1、2、3、5}に含まれる文書中の機能単
位の情報を機能単位情報格納部16から検索して、その情
報と、入力機能単位格納部20に格納された情報とを比較
照合する際に、前記順序を考慮して精密な層弁別を行な
う。
【0043】いま、入力機能単位格納部20に格納されて
いる機能単位は、(体育,大会)、(大会,開催)の2つであ
るから、これらを部分文字列として含むような機能単位
(2つ組)を機能単位情報格納部16の文書1、2、3、
5に対応した部分から検索すると、図7に示すようなも
のが選ばれる。
【0044】つまり、文書1には入力機能単位格納部20
に格納された機能単位が両方含まれるが、文書2、3、
5には、その一方しか含まれないことになる。また、文
書2、3、5のうち、文書5だけは順序1の機能単位
(体育,大会)を含む。この結果より、機能単位照合部23
は、文書集合{1、2、3、5}を、{1}、{5}、
{2、3}の3層に弁別し、前者を後者よりも上位層で
あるとして出力する。
【0045】次いで、文書順位算定部24は、上記のよう
に弁別された各層について、なんらかの評価関数を用い
て文書の順位づけを行なう。例えば、第1の実施形態と
同じ評価関数 E(D)=Σ(入力単語の重み×文書Dにおける単語頻
度) を用いれば、 E(1)=1×2+1×2+1×1=5 E(2)=1×1+1×1+1×1=3 E(3)=1×3+1×1+1×2=6 E(5)=1×1+1×1+1×1=3 となる。文書順位算定部24は、層のランクが高いものを
上位に位置付け、また、同一層にあっては評価関数のス
コアの高いものを上位に位置付けることによって、結
局、1、5、3、2という順位を出力する。
【0046】文書3、2と文書1、5とを比べると、文
書1、5の方が利用者の検索意図に合致していることは
明らかである。この文書検索装置では、入力解析部18が
利用者からの入力文を解析して、構文的な機能単位を抽
出する際に、何らかの基準を用いて、抽出した機能単位
に順序を付け、機能単位照合部23が、検索対象文書中の
機能単位と、入力文中の機能単位とを比較照合する際
に、前記順序を考慮して精密な層弁別を行なっており、
こうした構成により、たとえ文書順位算定部24で算出さ
れる評価関数のスコアが低くとも、機能単位照合部23で
上層に位置するとされた文書の方が上位にランクされる
ので、より利用者の検索意図に適合した、高精度な検索
が可能となる。
【0047】
【発明の効果】以上の説明から明らかなように、本発明
の文書検索装置は、構文的機能単位の照合を行なってい
るため、従来の、単語の頻度分布という表層的な且つマ
クロな情報だけを用いた文書ランキング手法に比べて、
利用者の検索意図を反映した精度の高いランキングが可
能になり、その結果、効率的で高精度な文書検索を実現
できる。
【0048】また、文書から構文的機能単位を抽出する
際に、文書の内容を特徴的に表す重要部分を抽出し、そ
の部分のみから構文的機能単位を抽出することによっ
て、さらにランキングの精度を高め、また、検索効率を
上げることができる。
【0049】また、この構文的機能単位への順序付けを
行なうことによって、さらにランキングの精度を向上す
ることができる。
【0050】また、文書のランキングを行なう前に、全
文検索で検索対象文書の集合を絞り込むことにより、効
率的な文書ランキングが可能になる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る文書検索装置の
機能構成を示すブロック図、
【図2】検索対象文書の例、
【図3】前記文書検索装置の単語頻度情報格納部に格納
される情報の例、
【図4】前記文書検索装置の機能単位情報格納部に格納
される情報の例、
【図5】入力文の例、
【図6】前記文書検索装置の入力単語情報格納部、入力
機能単位格納部、検索式格納部のそれぞれに格納される
情報の例、
【図7】前記文書検索装置の機能単位照合部での照合結
果の例、
【図8】本発明の第2の実施形態に係る文書検索装置の
入力機能単位格納部に格納される情報の例、
【図9】前記文書検索装置の機能単位照合部での照合結
果の例、
【図10】従来のベクトル空間法に基づく文書検索装置
の機能構成を示したブロック図、
【図11】従来技術の説明における検索対象文書の例、
【図12】従来技術の説明における単語頻度情報格納部
に格納される情報の例、
【図13】従来技術の説明における入力文の例、
【図14】従来技術の説明における入力単語情報格納部
に格納される情報の例、
【図15】従来技術の説明における検索対象文書の例で
ある。
【符合の説明】
11、101 文書格納部 12、102 単語頻度算出部 13、103 単語頻度情報格納部 14 重要部分抽出部 15 重要機能単位抽出部 16 機能単位情報格納部 17、104 入出力部 18、105 入力解析部 19 検索式格納部 20 入力機能単位格納部 21、106 入力単語情報格納部 22 全文検索部 23 機能単位照合部 24、107 文書順位算定部
フロントページの続き (56)参考文献 特開 平6−124305(JP,A) 特開 平6−4584(JP,A) 特開 平6−28403(JP,A) 特開 平3−172966(JP,A) 特開 平3−148765(JP,A) 特開 平7−121549(JP,A) 特開 平1−300336(JP,A) 特開 平7−253987(JP,A) 特開 平5−342255(JP,A) 特開 平6−149887(JP,A) 特開 平7−44567(JP,A) 斎藤雅,「印刷業における自然言語処 理の応用事例」,情報管理,Vol. 33,No.5,日本科学技術情報センタ ー,1990(平2−8−1),p.425− 433 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 検索対象文書の単語頻度と利用者の入力
    した入力文に含まれる単語集合との適合度に基づいて、
    各検索対象文書の入力文に類似する順位を決定する文書
    検索装置において、 前記検索対象文書に出現する構文的な機能単位を抽出す
    る機能単位抽出手段と、 前記入力文に出現する構文的な機能単位を抽出する入力
    解析手段と、 前記入力解析手段によって抽出された入力文の構文的な
    機能単位と、前記機能単位抽出手段によって抽出された
    検索対象文書の構文的な機能単位とを比較照合し、その
    合致度合いによって検索対象文書をいくつかの層に弁別
    する機能単位照合手段とを設け、弁別された検索対象文
    書の各層ごとに、検索対象文書の単語頻度と入力文に含
    まれる単語集合との適合度を計算し、前記層のランクを
    優先させる形で最終的な検索対象文書の前記順位を決定
    することを特徴とする文書検索装置。
  2. 【請求項2】 前記機能単位抽出手段が、検索対象文書
    の主題内容を表現している重要部分のみを抽出する重要
    部分抽出手段と、前記重要部分抽出手段によって抽出さ
    れた検索対象文書の重要部分だけから前記構文的な機能
    単位を抽出する重要機能単位抽出手段とから成ることを
    特徴とする請求項1に記載の文書検索装置。
  3. 【請求項3】 前記入力解析手段によって抽出された入
    力文の構文的な機能単位に重要度を表す順位を付け、前
    記機能単位照合手段の比較照合において、前記順位を参
    酌して前記合致度合いを算定し、この算定結果を基に検
    索対象文書をいくつかの層に弁別することを特徴とする
    請求項1または2に記載の文書検索装置。
JP7332482A 1995-11-29 1995-11-29 文書検索装置 Expired - Fee Related JP3040945B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7332482A JP3040945B2 (ja) 1995-11-29 1995-11-29 文書検索装置
US08/755,929 US5991755A (en) 1995-11-29 1996-11-25 Document retrieval system for retrieving a necessary document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7332482A JP3040945B2 (ja) 1995-11-29 1995-11-29 文書検索装置

Publications (2)

Publication Number Publication Date
JPH09153066A JPH09153066A (ja) 1997-06-10
JP3040945B2 true JP3040945B2 (ja) 2000-05-15

Family

ID=18255456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7332482A Expired - Fee Related JP3040945B2 (ja) 1995-11-29 1995-11-29 文書検索装置

Country Status (2)

Country Link
US (1) US5991755A (ja)
JP (1) JP3040945B2 (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10326286A (ja) * 1997-05-27 1998-12-08 Mitsubishi Electric Corp 類似検索装置及び類似検索プログラムを記録した記録媒体
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
JP3275813B2 (ja) * 1998-01-06 2002-04-22 日本電気株式会社 文書検索装置、方法及び記録媒体
US6098064A (en) * 1998-05-22 2000-08-01 Xerox Corporation Prefetching and caching documents according to probability ranked need S list
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
US6918085B1 (en) * 1998-06-10 2005-07-12 Cora Sa Process for storing text and procedure for searching stored texts for those pertinent to a question
US7529756B1 (en) 1998-07-21 2009-05-05 West Services, Inc. System and method for processing formatted text documents in a database
US7778954B2 (en) 1998-07-21 2010-08-17 West Publishing Corporation Systems, methods, and software for presenting legal case histories
JP2000067081A (ja) 1998-08-24 2000-03-03 Matsushita Electric Ind Co Ltd 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置
JP3309077B2 (ja) * 1998-08-31 2002-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 構文情報を用いた検索方法およびシステム
JP3347088B2 (ja) * 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
US8572069B2 (en) 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
WO2000058863A1 (en) 1999-03-31 2000-10-05 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
JP4021583B2 (ja) 1999-04-08 2007-12-12 富士通株式会社 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体
US6718363B1 (en) 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
US6408093B1 (en) * 1999-09-08 2002-06-18 Lucent Technologies Inc. Method for comparing object ranking schemes
JP3690216B2 (ja) * 1999-11-26 2005-08-31 日本電気株式会社 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体
US6856988B1 (en) * 1999-12-21 2005-02-15 Lexis-Nexis Group Automated system and method for generating reasons that a court case is cited
US7333983B2 (en) 2000-02-03 2008-02-19 Hitachi, Ltd. Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored
DE60044423D1 (de) 2000-02-03 2010-07-01 Hitachi Ltd Verfahren und Gerät zum Wiederauffinden und Ausgeben von Dokumenten und Speichermedium mit entspechendem Program
JP2001291060A (ja) * 2000-04-04 2001-10-19 Toshiba Corp 単語列照合装置および単語列照合方法
US6912525B1 (en) 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US20040205643A1 (en) * 2000-06-22 2004-10-14 Harrington Steven J. Reproduction of documents using intent information
JP2002073680A (ja) * 2000-08-30 2002-03-12 Mitsubishi Research Institute Inc 技術情報検索システム
JP3555869B2 (ja) * 2000-09-28 2004-08-18 Necソフト株式会社 暗号化ファイル検索方法及びその装置並びにコンピュータ可読記録媒体
US6904171B2 (en) * 2000-12-15 2005-06-07 Hewlett-Packard Development Company, L.P. Technique to identify interesting print articles for later retrieval and use of the electronic version of the articles
JP2002189747A (ja) * 2000-12-19 2002-07-05 Hitachi Ltd 文書情報の検索方法
US7269545B2 (en) * 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
CA2373568C (en) * 2001-04-26 2008-06-17 Hitachi, Ltd. Method of searching similar document, system for performing the same and program for processing the same
JP3717808B2 (ja) * 2001-06-29 2005-11-16 株式会社日立製作所 情報検索システム
US20030066025A1 (en) * 2001-07-13 2003-04-03 Garner Harold R. Method and system for information retrieval
US7266545B2 (en) * 2001-08-07 2007-09-04 International Business Machines Corporation Methods and apparatus for indexing in a database and for retrieving data from a database in accordance with queries using example sets
US20040205457A1 (en) * 2001-10-31 2004-10-14 International Business Machines Corporation Automatically summarising topics in a collection of electronic documents
US7062498B2 (en) * 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
JP4226862B2 (ja) * 2002-08-29 2009-02-18 株式会社リコー 文書検索装置
KR100481580B1 (ko) * 2002-10-09 2005-04-08 한국전자통신연구원 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
JP4365162B2 (ja) * 2003-08-20 2009-11-18 富士通株式会社 構造化文書のデータを検索する装置および方法
JP4995072B2 (ja) * 2003-12-31 2012-08-08 トムソン ルーターズ グローバル リソーシーズ 判例と訴訟事件摘要書、訴訟文書、および/または他の訴訟立証文書とを統合するためのシステム、方法、ソフトウェア、およびインターフェース
WO2006086179A2 (en) * 2005-01-31 2006-08-17 Textdigger, Inc. Method and system for semantic search and retrieval of electronic documents
JP2008537225A (ja) 2005-04-11 2008-09-11 テキストディガー,インコーポレイテッド クエリについての検索システムおよび方法
JP2009510639A (ja) * 2005-10-04 2009-03-12 トムソン グローバル リソーシーズ 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
JP5238105B2 (ja) * 2005-12-09 2013-07-17 富士通株式会社 プログラム、及びデータ抽出方法
KR100657016B1 (ko) * 2005-12-27 2006-12-14 중앙대학교 산학협력단 문서에서 연관성 있는 구문 검출을 위한 증거소스 결합과,증거소스 결합을 통한 질의 검색방법
WO2007081681A2 (en) 2006-01-03 2007-07-19 Textdigger, Inc. Search system with query refinement and search method
US8862573B2 (en) 2006-04-04 2014-10-14 Textdigger, Inc. Search system and method with text function tagging
US20080183691A1 (en) * 2007-01-30 2008-07-31 International Business Machines Corporation Method for a networked knowledge based document retrieval and ranking utilizing extracted document metadata and content
EP2219317A1 (en) * 2007-11-09 2010-08-18 Icon Corp. Key management device and information transmission system using the same
US8607329B2 (en) * 2007-12-19 2013-12-10 Icon Corp. Server device, information providing method and information succession system
US20110131138A1 (en) * 2008-08-07 2011-06-02 Icon Corp. Collective suspension/settlement representation processing server device and program
JP5206296B2 (ja) * 2008-10-03 2013-06-12 富士通株式会社 類似文章抽出プログラム、方法、装置
US8196053B2 (en) * 2009-01-22 2012-06-05 Lexisnexis Document treatment icon
US8442977B2 (en) * 2010-02-16 2013-05-14 Honeywell International Inc. Distance-space embedding for multi-descriptor matching and retrieval
US8688690B2 (en) * 2010-04-15 2014-04-01 Palo Alto Research Center Incorporated Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
US20140379713A1 (en) * 2013-06-21 2014-12-25 Hewlett-Packard Development Company, L.P. Computing a moment for categorizing a document
GB2517212B (en) * 2013-08-16 2018-04-25 Toshiba Res Europe Limited A Computer Generated Emulation of a subject
US9547644B2 (en) 2013-11-08 2017-01-17 Google Inc. Presenting translations of text depicted in images
IN2014MU00119A (ja) 2014-01-14 2015-08-28 Tata Consultancy Services Ltd
CN110019771B (zh) * 2017-07-28 2021-08-13 北京国双科技有限公司 文本处理的方法及装置
CN112181982B (zh) * 2020-09-23 2021-10-12 况客科技(北京)有限公司 数据选取方法、电子设备和介质
US20230214881A1 (en) * 2021-12-31 2023-07-06 Synamedia Limited Methods, Devices, and Systems for Dynamic Targeted Content Processing

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5062074A (en) * 1986-12-04 1991-10-29 Tnet, Inc. Information retrieval system and method
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US5293552A (en) * 1991-04-08 1994-03-08 U.S. Philips Corporation Method for storing bibliometric information on items from a finite source of text, and in particular document postings for use in a full-text document retrieval system
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
JPH064584A (ja) * 1992-06-24 1994-01-14 Sharp Corp 文章検索装置
JPH0628403A (ja) * 1992-07-09 1994-02-04 Mitsubishi Electric Corp 文書検索装置
JPH06124305A (ja) * 1992-10-12 1994-05-06 Hitachi Ltd 文書検索方法
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5625767A (en) * 1995-03-13 1997-04-29 Bartell; Brian Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
斎藤雅,「印刷業における自然言語処理の応用事例」,情報管理,Vol.33,No.5,日本科学技術情報センター,1990(平2−8−1),p.425−433

Also Published As

Publication number Publication date
JPH09153066A (ja) 1997-06-10
US5991755A (en) 1999-11-23

Similar Documents

Publication Publication Date Title
JP3040945B2 (ja) 文書検索装置
JP4494632B2 (ja) 言語モデルに基づく情報検索および音声認識
JP3195752B2 (ja) 検索装置
CN103136352B (zh) 基于双层语义分析的全文检索系统
JP2742115B2 (ja) 類似文書検索装置
EP0965089B1 (en) Information retrieval utilizing semantic representation of text
CN113821646A (zh) 基于语义检索的智能化专利相似度搜索方法及装置
US20040186831A1 (en) Search method and apparatus
CN113139034A (zh) 一种语句匹配方法、语句匹配装置及智能设备
JP2014106665A (ja) 文書検索装置、文書検索方法
JP3918374B2 (ja) 文書検索装置および方法
CN116595122A (zh) 问答系统中计算机领域文档的检索方法、装置及设备
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JP3198932B2 (ja) 文書検索装置
CN116010560B (zh) 一种国际技术转移数据服务系统
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3249743B2 (ja) 文書検索システム
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
KR100250442B1 (ko) 자연언어 정보 검색의 어의 모호성 해소 방법
JP2000105769A (ja) 文書表示方法
JP3562243B2 (ja) 文書検索装置
CN121188143B (zh) 一种基于意图识别的图书语义检索方法、装置及电子设备

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees