JPH11203309A - 検索式作成方法及び装置 - Google Patents

検索式作成方法及び装置

Info

Publication number
JPH11203309A
JPH11203309A JP10005129A JP512998A JPH11203309A JP H11203309 A JPH11203309 A JP H11203309A JP 10005129 A JP10005129 A JP 10005129A JP 512998 A JP512998 A JP 512998A JP H11203309 A JPH11203309 A JP H11203309A
Authority
JP
Japan
Prior art keywords
document
words
word
search
compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10005129A
Other languages
English (en)
Inventor
Hiroyuki Nakajima
浩之 中島
Tsuyoshi Kitani
強 木谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP10005129A priority Critical patent/JPH11203309A/ja
Publication of JPH11203309A publication Critical patent/JPH11203309A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数の単語から構成される複合語を考慮
して検索精度を一定値以上に維持可能な検索式を作成す
ることができる検索式作成装置を提供する。 【解決手段】 形態素解析部31、キーワード抽出部3
2、複合語処理部11、文書集合分割部33、検索式作
成部34の各機能を備えて検索式作成装置10を構成す
る。キーワード抽出部32より抽出された複数の単語に
おいて名詞句が連続する場合、対応する単語を複合語処
理部11において結合して複合語とし、これを、キーワ
ード抽出部32で出力される文書集合及び文書集合分割
部33における文書集合の分割に用いる。文書集合分割
の際に単語よりも複合語が有効であれば、この複合語を
検索キーワードとして決定し、検索式作成部34で作成
される検索式に反映させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば大量に蓄積
された電子文書から特定の情報を索出する文書データベ
ースや、予め蓄積された電子文書例等を文書作成や発想
展開の支援のために利用する各種支援システム等に適用
される文書検索技術に係り、特に、電子文書中から抽出
したキーワードを用いて、検索者が関心のある文書の索
出を効率的に行うための検索式を試行錯誤的に作成する
手法に関する。
【0002】
【従来の技術】検索対象となる電子文書を蓄積した文書
データベースから単語を抽出し、この単語を試行錯誤的
に組み合わて所要の検索式を作成する検索式作成装置が
知られている。図3は、従来のこの種の検索式作成装置
の機能構成図である。この検索式作成装置30は、コン
ピュータ装置が所定のプログラムを読み込んで実行する
ことにより形成される、形態素解析部31、キーワード
抽出部32、文書集合分割部33、及び検索式作成部3
4の機能ブロックを備えている。なお、文書には、それ
ぞれ検索者が関心のある必要文書か、関心のない不要文
書かを表す必要・不要の指定情報が付与されている。
【0003】形態素解析部31は、複数の入力文書から
文書毎に形態素解析を行うものである。図中、符号31
Bは、形態素解析部31の出力例を示したものである。
なお、以下の説明では、下記内容の5つの文書が入力さ
れた場合を想定する。
【0004】 文書番号1(必要文書)テレホーダイ(注)等の電話サ
ービス(注:日本電信電話株式会社の商標) 文書番号2(不要文書)地下鉄切符で美術館の入館料無
料 文書番号3(必要文書)様々な電話割引サービスが人気 文書番号4(不要文書)証券会社が電話で債券販売 文書番号5(必要文書)テレホーダイの加入者増加
【0005】キーワード抽出部32は、個々の文書毎の
形態素群をもとにキーワードとして使用可能な単語を抽
出する。さらに、個々の文書における単語の出現の有無
を表す判別情報及び当該文書が必要文書か不要文書かを
判別するための指定情報を、文書名や文書番号等の文書
識別子と共に文書集合として出力する。符号32Bは、
キーワード抽出部32から出力される文書集合を例示し
たものであり、“1”〜“5”を文書識別子、“必要”
/“不要”が指定情報、“○”/“×”が判別情報であ
る。
【0006】文書集合分割部33は、上記文書集合を判
別情報“○”/“×”に基づいて段階的に分割し、文書
検索に用いる検索式を作成する場合の基礎となる検索キ
ーワードを、抽出された単語群の中から決定する。この
場合、出来るだけ少数のキーワードの判別情報によって
文書集合を分割していくことで、必要文書と不要文書と
を区別した検索者の意図の抽出が可能となる。文書集合
分割部33で決定した検索キーワードは、検索式作成部
34において論理演算子“and”または“or”で結
合され、検索式として後続処理に出力される。
【0007】文書集合分割部33における文書集合の分
割処理は、例えば良く知られたMDL(Minimum Descri
ption Length:最小記述長)原理に基づいて行われる。
このMDL原理は、「より多くの必要文書と不要文書と
をできるだけ少ないキーワードの組み合わせ(検索式)
で区別することにより、人間(検索者)の意図をより正
確に表現できる」とするヒューリスティックな手法であ
るが、このMDL原理を厳密に実現するには多くの処理
量が必要となるため、実際には処理量の軽減を図るため
に近似的に実現するのが一般的である。MDL原理を近
似的に実現する手法としては、例えば、決定木(論理式
を木構造で表現したもの)学習アルゴリズムである「I
D3」が知られている。この「ID3」については、
「知識獲得と学習シリーズ1:知識獲得入門」(Mic
halski,R.S.他編、共立出版)に詳細に記載
されている。
【0008】以下、この決定木学習アルゴリズム「ID
3」による文書集合の分割処理の概要を図4を参照して
説明する。まず、キーワード抽出部32から送られた文
書集合を初期文書集合Set0とする(ステップS20
1)。次に、初期文書集合Set0の“未分割”のフラ
グをオンにする(ステップS202)。これをSeti
とする(ステップS203)。次に、この文書集合Se
i中の必要文書、不要文書に含まれる各キーワードtj
(1≦j≦N)について、文書全体の情報量に対する個
別文書の情報量の相対関係を表す相互情報量I(tj)を
算出する(ステップS204)。相互情報量I(tj)
は、具体的には、未分割の文書集合についての情報量H
からキーワードtjが含まれた文書集合及び含まれない
文書集合についての情報量H(tj)を差し引いた以下の
式(1)で表される。 I(tj)=H−H(tj) (1)
【0009】但し、式(1)におけるパラメータは下記
のようになる。 pi:Seti中の必要文書数、 ni:Seti中の不要文書数、 si:pi+ni、i(tj):Seti中でキーワードtjを含む必要文書
数、 ni(tj):Seti中でキーワードtjを含む不要文書
数、 si(tj):pi(tj)+ni(tj)、 pi not(tj):Seti中でキーワードtjを含まない
必要文書数、 ni not(tj):Seti中でキーワードtjを含まない
不要文書数、 si not(tj):pi not(tj)+ni not(tj)、 h(a,b,c):-{a/c・log2(a/c)+b/c・log2(b/c)}
【0010】また、各情報量H及びH(tj)は、各々下
記の式(2)、式(3)で表される。
【0011】
【数1】
【0012】次に、複数のキーワードtjから相互情報
量I(tk)の値を最大にすることが可能なキーワードt
kを選択し、これを検索キーワードとする(ステップS
205)。この相互情報量I(tk)が正の有限値(>
0)の場合(ステップS206)、検索キーワードtk
を含む文書の番号からなる文書集合をSeti′、検索キ
ーワードtkを含まない文書の番号からなる文書集合を
Seti″として分割し、分割したそれぞれの文書集合
の“未分割”のフラグをオンにする(ステップS207
〜S210)。i′,i″は、既に文書集合Seti′、
Seti″が存在しなければ任意の値で良い。一方、相
互情報量I(tk)がゼロ値(=0)の場合は文書集合の
分割を行わない(ステップS206)。
【0013】その後、集合Setiの“未分割”のフラ
グをオフにする(ステップS211)。“未分割”のフ
ラグがオンの文書集合がある場合はステップS103に
戻り(ステップS212:Yes)、“未分割”のフラグ
がオンの文書集合がなくなるまで処理を繰り返す。そし
て、すべての文書集合についての“未分割”のフラグが
オフになった時点で処理を終える(ステップS212:
No)。
【0014】また、上記アルゴリズム「ID3」は、例
えば、公知のアルゴリズムである「C4.5」等による
代用も可能である。なお、「C4.5」のアルゴリズム
については、「C4.5 Programs for Machine Learning」
(Quinlan、J.R.著、Morgan Kaufmann Publishers 刊)の
記載を参考にすることができる。
【0015】図5は、上記検索式作成装置30におい
て、一つの文書集合が複数の文書集合に分割され、検索
式が試行錯誤的に作成されていく過程を示した図であ
る。以下、図5を参照して、従来の検索式作成手法の概
要を説明する。まず、キーワード抽出部32で生成され
る初期文書集合Set0から(符号32B参照)、決定
木学習アルゴリズム「ID3」に基づいて相互情報量が
最大となるキーワードを決定し、これを検索キーワード
とする。ここでは、検索キーワード「テレホーダイ」が
決定されたとする。
【0016】文書集合分割部33は、この検索キーワー
ド「テレホーダイ」によって、初期文書集合Set0
を、当該検索キーワードを含む必要文書の集合Set1
と、含まない必要文書及び不要文書の集合Set2とに
分割する。文書集合Set1は、これ以上の分割は不可
能である。一方、文書集合Set2はさらなる分割が可
能である。そこで、この文書集合Set2において相互
情報量が最大となる検索キーワード「割引」を決定し、
当該検索キーワードによって文書集合Set2を、検索
キーワード「割引」を含まない不要文書の集合Set3
と、含む必要及び不要文書の集合Set4とに分割す
る。
【0017】文書集合Set4は、さらなる分割が可能
なので、この文書集合Set4において相互情報量が最
大となるキーワード「電話」を検索キーワードとして決
定し、当該検索キーワードを含む必要文書の集合Set
5と、含まない文書の集合Set6とに分割する。文書集
合Set5及びSet6は、共にこれ以上の分割が不可能
であるため、分割処理を終える。
【0018】上記分割処理において決定された各検索キ
ーワード「テレホーダイ」、「割引」、及び「電話」
は、逐次図示しない記憶手段に保持され、分割処理が終
了した時点で検索式作成部34に渡される。検索式作成
部34では、文書集合分割部33の結果である各検索キ
ーワードを、論理演算子“and”、“or”、“no
t”により結合して検索式queryを作成する。図3
の符号34Bは、検索式作成部34から出力される検索
式を例示したものである。
【0019】
【発明が解決しようとする課題】ところで、上述の従来
の検索式作成装置30では、形態素解析処理に基づいて
抽出された単語群を文書の属性として用いている。その
ため、形態素解析に起因して、例えば、複数の単語から
なる語句について特定の意味が想起される場合(以下、
このような語句を複合語と称する)であってもそれが個
々の構成単語に分割してしまったり、一つの単語が複数
の単語に誤って分割されてしまうことがあり、検索キー
ワードとしての有益性が損なわれるという問題があっ
た。このことを、下記内容の3つの文書が入力された場
合を例に挙げて説明する。 文書番号1(必要文書)電話の設置には施設負担金が必
要だ・・・ 文書番号2(不要文書)競技施設設置の負担金の支払い
を電話で催促された・・・ 文書番号3(必要文書)電話設置に施設負担金を必要と
しない
【0020】この例では、キーワード抽出部32から図
6のような内容の文書集合が得られる。この場合、文書
番号1,3の文書中に「施設負担金」のような複合語が
存在しているが、形態素解析によって得られる単語は
「施設」と「負担金」であり、これらを単に組み合わせ
るだけでは適切な検索式が得られない。また、この例で
は、抽出された各単語がすべての文書中に含まれること
から、検索キーワードを決定して必要文書及び不要文書
を区別する検索式を迅速に作成することは困難となる。
【0021】そこで本発明の課題は、文書検索等におけ
る検索精度を一定値以上に維持するとともに、複合語を
分割することなく検索キーワードの決定及び検索式の作
成を迅速に行うことができる、改良された検索式作成方
法を提供することにある。本発明の他の課題は、上記検
索式作成方法の実施に適した検索式作成装置を提供する
ことにある。
【0022】
【課題を解決するための手段】上記課題を解決する本発
明の検索式作成方法は、コンピュータ装置を用いた検索
式作成方法であって、検索式作成のために入力された指
定文書群に形態素解析を施して文書単位で単語を抽出す
るとともに、名詞句に相当する単語が連続する場合の当
該単語群を一意の複合語として特定する過程と、抽出さ
れた個々の単語及び特定された前記複合語について、こ
れらの単語または複合語を含む文書群及び含まない文書
群の情報量と前記指定文書群の総情報量との差分で表さ
れる相互情報量を算出し、この相互情報量を最大にする
個々の単語または複合語を検索キーワードとして決定す
る過程とを含み、決定した検索キーワードを要素とする
検索式を作成することを特徴とする。
【0023】また、上記他の課題を解決する本発明の検
索式作成装置は、検索者にとって関心のある必要文書及
び関心のない不要文書を含む文書群の文書検索に用いる
検索式を作成する装置であって、前記必要文書または不
要文書を識別するための指定情報が付与された指定文書
群から文書毎に単語抽出を行う単語抽出手段と、抽出さ
れた個々の単語の品詞を判定し、名詞句に相当する単語
が連続する場合の当該単語群を一意の複合語として特定
する複合語処理手段と、個々の単語及び前記複合語が文
書中に含まれるか否かを表す判別情報及び文書に付与さ
れた前記指定情報を文書識別情報と共に集合させた文書
集合を生成する文書集合生成手段と、前記抽出された単
語及び前記特定された前記複合語のうち、これらの単語
または複合語を含む文書群及び含まない文書群の情報量
と前記指定文書群の総情報量との差分で表される相互情
報量を最大にする個々の単語または複合語を検索キーワ
ードとして決定するとともに、決定した検索キーワード
を用いて一つの文書集合を複数の文書集合に分割する文
書集合分割手段とを備え、前記文書集合の分割を繰り返
す度に決定された検索キーワードを論理式で結合して前
記検索式を作成することを特徴とする。
【0024】この検索式作成装置において、前記複合語
処理手段を、抽出された単語を予め設定された複合語作
成基準に基づいて所定順に結合し、これにより得られた
単語群を一意の複合語として特定するように構成しても
良い。
【0025】前記文書集合分割手段は、例えば、所定の
最小記述長原理に基づいて前記相互情報量を最大とする
単語または複合語を前記検索キーワードとして逐次決定
するように構成する。
【0026】
【発明の実施の形態】以下、本発明の実施の形態を詳細
に説明する。図1は、上記検索式の作成方法の実施に適
した検索式作成装置を示す機能構成図であり、図3で説
明した従来の検索式作成装置30と同一機能の構成要素
については、同一符号を付して重複説明を省略する。ま
た、説明の便宜上、本装置に入力される文書群には、利
用者等にとって必要文書か不要文書かを表す必要・不要
の指定情報が予め付与されているものとする。
【0027】本実施形態の検索式作成装置10は、コン
ピュータ装置が所定のプログラムを読み込んで実行する
ことにより形成される、形態素解析部31、キーワード
抽出部32、複合語処理部11、文書集合分割部33、
検索式作成部34の各機能を備えて構成される。上記プ
ログラムは、通常、コンピュータ装置の内部記憶装置あ
るいは外部記憶装置に格納され、随時読み取られて実行
されるようになっているが、コンピュータ装置とは分離
可能な記録媒体、例えばCD−ROMやFD等の可搬性
記録媒体、あるいは当該コンピュータ装置と構内ネット
ワークに接続されたプログラムサーバ等に格納され、使
用時に上記内部記憶装置または外部記憶装置にインスト
ールされて随時実行に供されるものであってもよい。
【0028】複合語処理部11は、形態素解析部31及
びキーワード抽出部32において抽出された単語群の品
詞を判定し、一意な複合語の特定を行うものである。こ
の複合語の特定は、例えば、品詞判定の結果、名詞句に
相当する単語群が連続して抽出される場合に、対応する
複数の単語を結合することにより行われるようにする。
あるいは、所定の複合語作成基準をシステムパラメータ
等で設定しておき、当該複合語作成基準に基づいて対応
する各単語を所定の順序で連続して結合するようにす
る。この場合の複合語作成基準としては種々の形態が考
えられるが、一例としては、予め複合語として使用する
予定の単語の組み合わせ手順を設定しておき、この手順
に則って単語を組み合わせるようにする。あるいは名詞
句が連続するかどうかに関わらず、所定個数の名詞句に
相当する単語を組み合わせるようにしても良い。このよ
うにして特定された複合語は、文書集合の際に用いられ
る。
【0029】この複合語が文書集合分割部33における
必要文書と不要文書とを区別する際に有効となる場合、
つまり前述した相互情報量が大きくなる場合には、当該
複合語が検索キーワードとして決定され、検索式作成部
34で作成される検索式に反映される。複数の単語また
は複合語が検索キーワードの候補となるような場合は、
例えば、予め保持した個々の単語の文書中における頻度
情報に基づいて、文書数がより小さくなる、即ち出現頻
度が小さくなる単語または複合語を検索キーワードとし
て決定するように適宜構成する。
【0030】次に、上記構成の検索式作成装置10を用
いた検索式作成方法を図2を参照して説明する。ここで
は、便宜上、下記内容の3つの文書が入力されたとす
る。 文書番号1(必要文書)電話の設置には施設負担金が必
要だ・・・ 文書番号2(不要文書)競技施設設置の負担金の支払い
を電話で催促された・・・ 文書番号3(必要文書)電話設置に施設負担金を必要と
しない
【0031】上記文書が入力されると(ステップS10
1)、検索式作成装置10は、入力文書に対して形態素
解析部31で形態素解析を施し、文書毎の形態素群を抽
出する(ステップS102)。この形態素解析の結果を
示したのが図1の符号31Aである。キーワード抽出部
32は、文書毎の形態素群をもとにキーワードとして使
用可能な単語を抽出する(ステップS103)。また、
名詞句が連続する場合に(ステップS104:Yes)、
対応する単語を結合して複合語とする(ステップS10
5)。本例では、「施設」、「負担金」のように、連続
して抽出された単語の結合が複合語「施設負担金」とし
て特定される。キーワード抽出部32では、また、個々
の文書における単語、及びステップS105で生成した
複合語の出現の有無を表す判別情報及び当該文書が必要
文書か不要文書かを表す識別情報を、文書名や文書番号
等の文書識別子と共に集合させ、文書集合を作成する
(ステップS106)。図1の符号32Aは、キーワー
ド抽出部32から出力される文書集合の内容を例示した
ものである。この文書集合では、複合語「施設負担金」
が必要文書と不要文書とを区別するうえで有効なキーワ
ードとなっていることがわかる。
【0032】その後、文書集合分割部33において、ス
テップS106で作成された文書集合を前述の相互情報
量に基づいて段階的に分割するとともに(ステップS1
07)、検索式作成部34で、この分割処理の過程にお
いて逐次決定される検索キーワードに基づく検索式を作
成する(ステップS108)。図1の符号34Aは、検
索式作成部34から出力される検索式を例示したもので
ある。この例では、検索キーワードとして決定された複
合語「施設負担金」のみで検索式が作成されることを表
している。新規に検索式作成対象となる文書の入力があ
る場合にはステップS101に戻り(ステップS10
9:Yes)、上記一連の処理を繰り返す。他の入力文書
がない場合は処理を終了する(ステップS109:N
o)。
【0033】このように、本実施形態の検索式作成装置
10では、連続して抽出される名詞句に相当する単語の
結合により一意な複合語を特定し、これを文書集合の作
成及び検索キーワードに用いるようにしたので、特定の
単語が複数の単語に分割されてしまうという形態素解析
に起因する問題を回避することができ、検索語としての
キーワードの有益性が保証される。
【0034】また、従来、分割された単語を組み合わせ
るだけでは得られなかった適切な検索式が、複合語を検
索式に用いることで容易に取得可能となり、より少ない
検索キーワードによって必要文書と不要文書との区別が
できるようになった。このことから、「より少ない検索
語で必要文書と不要文書とを区別する検索式ほど人間
(検索者)の意図を正確に表現する検索式である」とい
う前述のMDL原理の仮定により、取得される検索式
は、従来手法と比較して正確なものとなる。さらに、作
成された検索式を検索処理に適用することにより検索精
度の高い結果が取得可能となった。
【0035】
【発明の効果】以上の説明から明らかなように、本発明
によれば、文書データベース全体を分割することなくよ
り少ない検索キーワードによる検索式の作成が可能とな
る効果がある。また、本発明により得られる検索式を用
いることで、文書の検索精度を一定値以上に維持するこ
とが可能となり、検索処理の効率が大幅に向上するとい
う効果もある。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る検索式作成装置の実
施形態を表す機能ブロック図。
【図2】本実施形態の検索式作成装置における処理手順
図。
【図3】従来の検索式作成装置の機能ブロック図。
【図4】従来の検索式作成装置における処理手順説明
図。
【図5】従来の分割処理過程で得られる情報の模式図。
【図6】従来の入力文書群に対応する文書集合の作成結
果。
【符号の説明】
10,30 検索式作成装置 11 複合語処理部 31 形態素解析部 32 キーワード抽出部 33 文書集合分割部 34 検索式作成部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 検索式作成のために入力された指定文書
    群に形態素解析を施して文書単位で単語を抽出するとと
    もに、名詞句に相当する単語が連続する場合の当該単語
    群を一意の複合語として特定する過程と、 抽出された個々の単語及び特定された前記複合語につい
    て、これらの単語または複合語を含む文書群及び含まな
    い文書群の情報量と前記指定文書群の総情報量との差分
    で表される相互情報量を算出し、この相互情報量を最大
    にする個々の単語または複合語を検索キーワードとして
    決定する過程とを含み、 決定した検索キーワードを要素とする検索式を作成する
    ことを特徴とする、 コンピュータ装置を用いた検索式作成方法。
  2. 【請求項2】 前記指定文書群が、検索者にとって関心
    のある必要文書または関心のない不要文書を識別するた
    めの指定情報が付与された文書群であり、個々の文書に
    付与された前記指定情報が前記相互情報量に反映されて
    いることを特徴とする請求項1記載の検索式作成方法。
  3. 【請求項3】 前記複合語は、予め設定された複合語作
    成基準に基づいて抽出された単語群を所定順に結合した
    ものであることを特徴とする請求項1記載の検索式作成
    方法。
  4. 【請求項4】 検索者にとって関心のある必要文書及び
    関心のない不要文書を含む文書群の文書検索に用いる検
    索式を作成する装置であって、 前記必要文書または不要文書を識別するための指定情報
    が付与された指定文書群から文書毎に単語抽出を行う単
    語抽出手段と、 抽出された個々の単語の品詞を判定し、名詞句に相当す
    る単語が連続する場合の当該単語群を一意の複合語とし
    て特定する複合語処理手段と、 個々の単語及び前記複合語が文書中に含まれるか否かを
    表す判別情報及び文書に付与された前記指定情報を文書
    識別情報と共に集合させた文書集合を生成する文書集合
    生成手段と、 前記抽出された単語及び前記特定された前記複合語のう
    ち、これらの単語または複合語を含む文書群及び含まな
    い文書群の情報量と前記指定文書群の総情報量との差分
    で表される相互情報量を最大にする個々の単語または複
    合語を検索キーワードとして決定するとともに、決定し
    た検索キーワードを用いて一つの文書集合を複数の文書
    集合に分割する文書集合分割手段とを備え、 前記文書集合の分割を繰り返す度に決定された検索キー
    ワードを論理式で結合して前記検索式を作成することを
    特徴とする検索式作成装置。
  5. 【請求項5】 検索者にとって関心のある必要文書及び
    関心のない不要文書を含む文書群の文書検索に用いる検
    索式を作成する装置であって、 前記必要文書または不要文書を識別するための指定情報
    が付与された指定文書群から文書毎に単語抽出を行う単
    語抽出手段と、 抽出された単語を予め設定された複合語作成基準に基づ
    いて所定順に結合し、これにより得られた単語群を一意
    の複合語として特定する複合語処理手段と、 個々の単語及び前記複合語が文書中に含まれるか否かを
    表す判別情報及び文書に付与された前記指定情報を文書
    識別情報と共に集合させた文書集合を生成する文書集合
    生成手段と、 前記抽出された単語及び前記特定された前記複合語のう
    ち、これらの単語または複合語を含む文書群及び含まな
    い文書群の情報量と前記指定文書群の総情報量との差分
    で表される相互情報量を最大にする個々の単語または複
    合語を検索キーワードとして決定するとともに、決定し
    た検索キーワードを用いて一つの文書集合を複数の文書
    集合に分割する文書集合分割手段とを備え、 前記文書集合の分割を繰り返す度に決定された検索キー
    ワードを論理式で結合して前記検索式を作成することを
    特徴とする検索式作成装置。
  6. 【請求項6】 前記文書集合分割手段は、所定の最小記
    述長原理に基づいて前記相互情報量を最大とする単語ま
    たは複合語を前記検索キーワードとして逐次決定するよ
    うに構成されることを特徴とする請求項3記載の検索式
    作成装置。
JP10005129A 1998-01-13 1998-01-13 検索式作成方法及び装置 Pending JPH11203309A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10005129A JPH11203309A (ja) 1998-01-13 1998-01-13 検索式作成方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10005129A JPH11203309A (ja) 1998-01-13 1998-01-13 検索式作成方法及び装置

Publications (1)

Publication Number Publication Date
JPH11203309A true JPH11203309A (ja) 1999-07-30

Family

ID=11602716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10005129A Pending JPH11203309A (ja) 1998-01-13 1998-01-13 検索式作成方法及び装置

Country Status (1)

Country Link
JP (1) JPH11203309A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002078275A1 (en) * 2001-03-27 2002-10-03 Mitsubishi Space Software Co., Ltd. Electronic mail monitoring system and method
WO2002077867A1 (en) * 2001-03-27 2002-10-03 Mitsubishi Space Software Co., Ltd. Web monitoring system and method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002078275A1 (en) * 2001-03-27 2002-10-03 Mitsubishi Space Software Co., Ltd. Electronic mail monitoring system and method
WO2002077867A1 (en) * 2001-03-27 2002-10-03 Mitsubishi Space Software Co., Ltd. Web monitoring system and method
JP2002290469A (ja) * 2001-03-27 2002-10-04 Mitsubishi Space Software Kk 電子メール監査システム及び方法
JP2002288173A (ja) * 2001-03-27 2002-10-04 Mitsubishi Space Software Kk Web監査システム及び方法

Similar Documents

Publication Publication Date Title
KR100721406B1 (ko) 카테고리별 검색 로직을 이용한 상품 검색 시스템 및 방법
JP3438781B2 (ja) データベース分割方法、プログラムを記録したプログラム記憶装置および記録媒体
JP2000348041A (ja) 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
JP3577972B2 (ja) 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
CN112417996A (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
JP5915274B2 (ja) 情報検索方法、プログラムおよび情報検索装置
JP2000172722A (ja) オンライン商店上の製品情報自動索引方法及びシステム
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
WO2008062822A1 (en) Text mining device, text mining method and text mining program
KR100835290B1 (ko) 문서 분류 시스템 및 문서 분류 방법
JP2019128925A (ja) 事象提示システムおよび事象提示装置
CN117972025B (zh) 一种基于语义分析的海量文本检索匹配方法
KR20010006632A (ko) 정보 처리 시스템
KR20220041337A (ko) 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JPH11203309A (ja) 検索式作成方法及び装置
JP5644087B2 (ja) 構成要素ハイライト装置、プログラム、及び方法
CN111737523A (zh) 一种视频标签、搜索内容的生成方法及服务器
JP3598738B2 (ja) 情報抽出装置、情報検索方法及び情報抽出方法
JP3772401B2 (ja) 文書分類装置
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP3314720B2 (ja) 文字列検索装置
JPH10320403A (ja) 検索式作成方法、検索式作成装置、及び記録媒体
JPH1040253A (ja) 文章中の単語の観点生成方法及び装置
JP2011059843A (ja) 検索式生成装置、検索式生成方法、およびプログラム