JPH10320403A - 検索式作成方法、検索式作成装置、及び記録媒体 - Google Patents
検索式作成方法、検索式作成装置、及び記録媒体Info
- Publication number
- JPH10320403A JPH10320403A JP9124562A JP12456297A JPH10320403A JP H10320403 A JPH10320403 A JP H10320403A JP 9124562 A JP9124562 A JP 9124562A JP 12456297 A JP12456297 A JP 12456297A JP H10320403 A JPH10320403 A JP H10320403A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- search
- keywords
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 キーワードの重要性に着目し、文書データ
中に出現頻度が小さいキーワードを対象キーワードとし
て優先して選択することにより、検索精度を一定値以上
に維持することが可能な、検索式作成装置を提供する。 【解決手段】キーワード抽出部31、文書集合分割部1
1、キーワード文書頻度辞書12、検索式作成部33の
各機能を備えて構成され、検索キーワード候補となるキ
ーワードが複数あるときに、各キーワードが含まれる文
書の数(文書頻度)をそれぞれキーワード文書頻度辞書
12から読み出して比較し、文書頻度が小さいキーワー
ドを優先的に検索キーワードとして選択する。検索式作
成部33は、検索キーワードを論理演算子“and”、
及び“or”で結合して検索式を作成する。
中に出現頻度が小さいキーワードを対象キーワードとし
て優先して選択することにより、検索精度を一定値以上
に維持することが可能な、検索式作成装置を提供する。 【解決手段】キーワード抽出部31、文書集合分割部1
1、キーワード文書頻度辞書12、検索式作成部33の
各機能を備えて構成され、検索キーワード候補となるキ
ーワードが複数あるときに、各キーワードが含まれる文
書の数(文書頻度)をそれぞれキーワード文書頻度辞書
12から読み出して比較し、文書頻度が小さいキーワー
ドを優先的に検索キーワードとして選択する。検索式作
成部33は、検索キーワードを論理演算子“and”、
及び“or”で結合して検索式を作成する。
Description
【0001】
【発明の属する技術分野】本発明は、例えば大量に蓄積
された学会論文や技術文書等の電子文書から特定のもの
を索出する文書データベースや、予め蓄積された電子文
書例等を文書作成や発想展開の支援のために利用する各
種支援システム等に適用される文書検索技術に係り、特
に、電子文書中から抽出したキーワードを用いて、検索
者が関心のある文書の索出を効率的に行うための検索式
を試行錯誤的に作成する技術に関する。
された学会論文や技術文書等の電子文書から特定のもの
を索出する文書データベースや、予め蓄積された電子文
書例等を文書作成や発想展開の支援のために利用する各
種支援システム等に適用される文書検索技術に係り、特
に、電子文書中から抽出したキーワードを用いて、検索
者が関心のある文書の索出を効率的に行うための検索式
を試行錯誤的に作成する技術に関する。
【0002】
【従来の技術】検索対象となる電子文書を蓄積した文書
データベースからあるキーワードを抽出し、このキーワ
ードの論理積や論理和の組み合わせにより所要の検索式
を検索者と協調して試行錯誤的に作成する検索式作成装
置が知られている。
データベースからあるキーワードを抽出し、このキーワ
ードの論理積や論理和の組み合わせにより所要の検索式
を検索者と協調して試行錯誤的に作成する検索式作成装
置が知られている。
【0003】図3は、従来のこの種の検索式作成装置の
機能構成図である。この検索式作成装置30は、コンピ
ュータ装置が所定のプログラムを読み込んで実行するこ
とにより形成される、キーワード抽出部31、文書集合
分割部32、及び検索式作成部33の機能ブロックを備
えている。なお、文書には、それぞれ検索者が関心のあ
る必要文書か、関心のない不要文書かを表す必要・不要
の指定情報が付与されているものとする。
機能構成図である。この検索式作成装置30は、コンピ
ュータ装置が所定のプログラムを読み込んで実行するこ
とにより形成される、キーワード抽出部31、文書集合
分割部32、及び検索式作成部33の機能ブロックを備
えている。なお、文書には、それぞれ検索者が関心のあ
る必要文書か、関心のない不要文書かを表す必要・不要
の指定情報が付与されているものとする。
【0004】キーワード抽出部31は、複数の文書から
公知の形態素解析処理によって文書毎に複数のキーワー
ドの抽出処理を行う。また、個々の文書におけるキーワ
ードの出現の有無を表す判別情報及び当該文書が必要文
書か不要文書かを表す識別情報を、文書名や文書番号等
の文書識別子と共に文書集合として出力する。符号31
Bは、キーワード抽出部31から出力される文書集合の
内容を例示したものである。
公知の形態素解析処理によって文書毎に複数のキーワー
ドの抽出処理を行う。また、個々の文書におけるキーワ
ードの出現の有無を表す判別情報及び当該文書が必要文
書か不要文書かを表す識別情報を、文書名や文書番号等
の文書識別子と共に文書集合として出力する。符号31
Bは、キーワード抽出部31から出力される文書集合の
内容を例示したものである。
【0005】文書集合分割部32は、文書集合を上記判
別情報に基づいて段階的に分割し、文書検索に用いる検
索式を作成する場合の基礎となる複数の検索キーワード
を決定する。この場合、出来るだけ一つ(少数)のキー
ワードの判別情報によって文書集合を分割していくこと
で、必要文書と不要文書とを区別した検索者の意図の抽
出が可能となる。文書集合分割部32で決定した複数の
検索キーワードは、検索式作成部33において論理演算
子“and”または“or”で結合され、検索式として
後続処理に出力される。
別情報に基づいて段階的に分割し、文書検索に用いる検
索式を作成する場合の基礎となる複数の検索キーワード
を決定する。この場合、出来るだけ一つ(少数)のキー
ワードの判別情報によって文書集合を分割していくこと
で、必要文書と不要文書とを区別した検索者の意図の抽
出が可能となる。文書集合分割部32で決定した複数の
検索キーワードは、検索式作成部33において論理演算
子“and”または“or”で結合され、検索式として
後続処理に出力される。
【0006】文書集合分割部32における文書集合の分
割処理は、例えば公知の決定木(論理式を木構造で表現
したもの)学習アルゴリズムである「ID3」に基づい
て行われる。以下、この決定木学習アルゴリズム「ID
3」による文書集合の分割処理の概要を図4を参照して
説明する。まず、キーワード抽出部31から送られた文
書集合を初期文書集合Set0とする(ステップS10
1)。次に、初期文書集合Set0の“未分割”のフラ
グをオンにし(ステップS102)、これをSetiと
する(ステップS103)。次に、この文書集合Set
i中の必要文書、不要文書に含まれる各キーワードt
j(1≦j≦N)について、文書全体の情報量に対する個
別文書の情報量の相対関係を表す相互情報量I(tj)を
算出する(ステップS104)。相互情報量I(tj)
は、具体的には、未分割の文書集合についての情報量H
からキーワードtjが含まれた文書集合及び含まない文
書集合についての情報量H(tj)を差し引いた値で表さ
れる。また、各情報量H、H(tj)は、それぞれ下記
(1)、(2)式で表される。
割処理は、例えば公知の決定木(論理式を木構造で表現
したもの)学習アルゴリズムである「ID3」に基づい
て行われる。以下、この決定木学習アルゴリズム「ID
3」による文書集合の分割処理の概要を図4を参照して
説明する。まず、キーワード抽出部31から送られた文
書集合を初期文書集合Set0とする(ステップS10
1)。次に、初期文書集合Set0の“未分割”のフラ
グをオンにし(ステップS102)、これをSetiと
する(ステップS103)。次に、この文書集合Set
i中の必要文書、不要文書に含まれる各キーワードt
j(1≦j≦N)について、文書全体の情報量に対する個
別文書の情報量の相対関係を表す相互情報量I(tj)を
算出する(ステップS104)。相互情報量I(tj)
は、具体的には、未分割の文書集合についての情報量H
からキーワードtjが含まれた文書集合及び含まない文
書集合についての情報量H(tj)を差し引いた値で表さ
れる。また、各情報量H、H(tj)は、それぞれ下記
(1)、(2)式で表される。
【0007】
【数1】
【0008】但し、(1)、(2)式におけるパラメー
タは下記のようになる。 pi:Seti中の必要文書数、 ni:Seti中の不要文書数、 si:pi+ni、 pi(tj):Seti中でキーワードtjを含む必要文書
数、 ni(tj):Seti中でキーワードtjを含む不要文書
数、 si(tj):pi(tj)+ni(tj)、 pi not(tj):Seti中でキーワードtjを含まない
必要文書数、 ni not(tj):Seti中でキーワードtjを含まない
不要文書数、 si not(tj):pi not(tj)+ni not(tj)、 h(a,b,c):-{a/c・log2(a/c)+b/c・log2(b/c)}
タは下記のようになる。 pi:Seti中の必要文書数、 ni:Seti中の不要文書数、 si:pi+ni、 pi(tj):Seti中でキーワードtjを含む必要文書
数、 ni(tj):Seti中でキーワードtjを含む不要文書
数、 si(tj):pi(tj)+ni(tj)、 pi not(tj):Seti中でキーワードtjを含まない
必要文書数、 ni not(tj):Seti中でキーワードtjを含まない
不要文書数、 si not(tj):pi not(tj)+ni not(tj)、 h(a,b,c):-{a/c・log2(a/c)+b/c・log2(b/c)}
【0009】次に、複数のキーワードtjから相互情報
量I(tk)の値を最大にすることが可能なキーワードt
kを選択し、これを検索キーワードとする(ステップS
105)。この相互情報量I(tk)が正の有限値(>
0)の場合(ステップS106)、検索キーワードtk
を含む文書の番号からなる文書集合をSeti′、検索キ
ーワードtkを含まない文書の番号からなる文書集合を
Seti″として分割し、分割したそれぞれの文書集合
の“未分割”のフラグをオンにする(ステップS107
〜S110)。i′,i″は既に文書集合Seti′、S
eti″が存在しなければ任意の値で良い。一方、相互
情報量I(tk)がゼロ値(=0)の場合は文書集合の分
割を行わない(ステップS106)。
量I(tk)の値を最大にすることが可能なキーワードt
kを選択し、これを検索キーワードとする(ステップS
105)。この相互情報量I(tk)が正の有限値(>
0)の場合(ステップS106)、検索キーワードtk
を含む文書の番号からなる文書集合をSeti′、検索キ
ーワードtkを含まない文書の番号からなる文書集合を
Seti″として分割し、分割したそれぞれの文書集合
の“未分割”のフラグをオンにする(ステップS107
〜S110)。i′,i″は既に文書集合Seti′、S
eti″が存在しなければ任意の値で良い。一方、相互
情報量I(tk)がゼロ値(=0)の場合は文書集合の分
割を行わない(ステップS106)。
【0010】その後、集合Setiの“未分割”のフラ
グをオフにする(ステップS111)。“未分割”のフ
ラグがオンの文書集合がある場合はステップS103に
戻り(ステップS112,Yes)、“未分割”のフラ
グがオンの文書集合がなくなるまで処理を繰り返す。そ
して、すべての文書集合についての“未分割”のフラグ
がオフになった時点で処理を終える(ステップS11
2,No)。
グをオフにする(ステップS111)。“未分割”のフ
ラグがオンの文書集合がある場合はステップS103に
戻り(ステップS112,Yes)、“未分割”のフラ
グがオンの文書集合がなくなるまで処理を繰り返す。そ
して、すべての文書集合についての“未分割”のフラグ
がオフになった時点で処理を終える(ステップS11
2,No)。
【0011】この決定木学習アルゴリズム「ID3」に
ついての詳細は、「知識獲得と学習シリーズ1:知識獲
得入門」(Michalski,R.S.他編、共立出
版)を参考にすることができる。また、上記アルゴリズ
ム「ID3」による処理過程は、例えば、公知のアルゴ
リズムである「C4.5」や、また、文書中のキーワー
ドの有無のみを用いて文書集合を分割する他のアルゴリ
ズム等による代用も可能である。「C4.5」の詳細に
ついては、「C4.5 Programs for Machine Learning」
(Quinlan、J.R.著、Morgan Kaufmann Publishers 刊)の
記載を参考にすることができる。
ついての詳細は、「知識獲得と学習シリーズ1:知識獲
得入門」(Michalski,R.S.他編、共立出
版)を参考にすることができる。また、上記アルゴリズ
ム「ID3」による処理過程は、例えば、公知のアルゴ
リズムである「C4.5」や、また、文書中のキーワー
ドの有無のみを用いて文書集合を分割する他のアルゴリ
ズム等による代用も可能である。「C4.5」の詳細に
ついては、「C4.5 Programs for Machine Learning」
(Quinlan、J.R.著、Morgan Kaufmann Publishers 刊)の
記載を参考にすることができる。
【0012】図5は、上記検索式作成装置30におい
て、一つの文書集合から複数の文書集合に分割され、検
索式が試行錯誤的に作成されていく過程を示す説明図で
ある。以下、図5を参照して、従来の検索式の作成手順
を説明する。まず、キーワード抽出部31から出力され
た初期文書集合Set0から、上述の決定木学習アルゴ
リズム「ID3」に基づいて相互情報量が最大となるキ
ーワードを決定し、これを検索キーワードとする。ここ
では、検索キーワードkwd3が決定されたとする。そ
して、この検索キーワードkwd3によって、初期文書
集合Set0を、検索キーワードkwd3を含む必要文
書の集合Set1と検索キーワードkwd3を含まない
必要文書及び不要文書の集合Set2とに分割する。
て、一つの文書集合から複数の文書集合に分割され、検
索式が試行錯誤的に作成されていく過程を示す説明図で
ある。以下、図5を参照して、従来の検索式の作成手順
を説明する。まず、キーワード抽出部31から出力され
た初期文書集合Set0から、上述の決定木学習アルゴ
リズム「ID3」に基づいて相互情報量が最大となるキ
ーワードを決定し、これを検索キーワードとする。ここ
では、検索キーワードkwd3が決定されたとする。そ
して、この検索キーワードkwd3によって、初期文書
集合Set0を、検索キーワードkwd3を含む必要文
書の集合Set1と検索キーワードkwd3を含まない
必要文書及び不要文書の集合Set2とに分割する。
【0013】文書集合Set1は、これ以上の分割は不
可能であるが、一方、文書集合Set2はさらなる分割
が可能である。そこで、この文書集合Set2において
相互情報量が最大となる検索キーワードkwd2を決定
し、この検索キーワードkwd2によって文書集合Se
t2を、検索キーワードkwd2を含まない不要文書の
集合Set3と検索キーワードkwd2を含む必要及び
不要文書の集合Set4とに分割する。文書集合Set4
は、さらなる分割が可能なので、この文書集合Set4
において相互情報量が最大となるキーワードkwd1を
検索キーワードとして決定し、この検索キーワードkw
d1を含む必要文書の集合Set5と、検索キーワード
kwd1を含まない文書の集合Set6とを分割する。
文書集合Set5及びSet6は、共にこれ以上の分割が
不可能であるため、分割処理を終える。
可能であるが、一方、文書集合Set2はさらなる分割
が可能である。そこで、この文書集合Set2において
相互情報量が最大となる検索キーワードkwd2を決定
し、この検索キーワードkwd2によって文書集合Se
t2を、検索キーワードkwd2を含まない不要文書の
集合Set3と検索キーワードkwd2を含む必要及び
不要文書の集合Set4とに分割する。文書集合Set4
は、さらなる分割が可能なので、この文書集合Set4
において相互情報量が最大となるキーワードkwd1を
検索キーワードとして決定し、この検索キーワードkw
d1を含む必要文書の集合Set5と、検索キーワード
kwd1を含まない文書の集合Set6とを分割する。
文書集合Set5及びSet6は、共にこれ以上の分割が
不可能であるため、分割処理を終える。
【0014】上記分割処理において決定された複数の検
索キーワードkwd1〜kwd3は逐次図示しない記憶
手段に保持され、分割処理が終了した時点で検索式作成
部33に渡される。検索式作成部33では、文書集合分
割部32の結果である各検索キーワードを、論理演算子
“and”、及び“or”により結合して検索式que
ryを作成する。符号33Bは、検索式作成部33から
出力される検索式を例示したものである。t6は、共に
これ以上の分割が不可能であるため、分割処理を終え
る。
索キーワードkwd1〜kwd3は逐次図示しない記憶
手段に保持され、分割処理が終了した時点で検索式作成
部33に渡される。検索式作成部33では、文書集合分
割部32の結果である各検索キーワードを、論理演算子
“and”、及び“or”により結合して検索式que
ryを作成する。符号33Bは、検索式作成部33から
出力される検索式を例示したものである。t6は、共に
これ以上の分割が不可能であるため、分割処理を終え
る。
【0015】上記分割処理において決定された複数の検
索キーワードkwd1〜kwd3は逐次図示しない記憶
手段に保持され、分割処理が終了した時点で検索式作成
部33に渡される。検索式作成部33では、文書集合分
割部32の結果である各検索キーワードを、論理演算子
“and”、及び“or”により結合して検索式que
ryを作成する。符号33Bは、検索式作成部33から
出力される検索式を例示したものである。
索キーワードkwd1〜kwd3は逐次図示しない記憶
手段に保持され、分割処理が終了した時点で検索式作成
部33に渡される。検索式作成部33では、文書集合分
割部32の結果である各検索キーワードを、論理演算子
“and”、及び“or”により結合して検索式que
ryを作成する。符号33Bは、検索式作成部33から
出力される検索式を例示したものである。
【0016】
【発明が解決しようとする課題】上記従来の検索式作成
装置30では、文書集合の分割に用いる検索キーワード
を、相互情報量と必要文書/不要文書の判別情報を基準
として決定しており、検索者にとって真に重要な検索キ
ーワードかどうかを考慮していない。そのため、作成さ
れる検索式には重要ではない検索キーワードを含む可能
性があり、この検索式を実際の文書検索処理に用いた場
合に、十分な検索精度が得られない場合があった。
装置30では、文書集合の分割に用いる検索キーワード
を、相互情報量と必要文書/不要文書の判別情報を基準
として決定しており、検索者にとって真に重要な検索キ
ーワードかどうかを考慮していない。そのため、作成さ
れる検索式には重要ではない検索キーワードを含む可能
性があり、この検索式を実際の文書検索処理に用いた場
合に、十分な検索精度が得られない場合があった。
【0017】そこで本発明の課題は、キーワードの重要
性を反映して文書検索における検索精度を一定値以上に
維持することができる検索式の作成をコンピュータ装置
を用いて行う改良された方法を提供することにある。本
発明の他の課題は、上記方法の実施に適した検索式作成
装置及び上記検索式作成方法を汎用のコンピュータ装置
で実現するための記録媒体を提供することにある。
性を反映して文書検索における検索精度を一定値以上に
維持することができる検索式の作成をコンピュータ装置
を用いて行う改良された方法を提供することにある。本
発明の他の課題は、上記方法の実施に適した検索式作成
装置及び上記検索式作成方法を汎用のコンピュータ装置
で実現するための記録媒体を提供することにある。
【0018】
【課題を解決するための手段】上記課題を解決する本発
明の検索式作成方法は、文書データベースにおける指定
文書群を形態素解析処理して複数のキーワードを抽出す
る過程と、抽出された個々のキーワードが出現する文書
数をキーワード毎に検出する過程と、当該キーワードを
含む文書群及び含まない文書群の情報量を前記指定文書
群の総情報量から差し引いて得られる相互情報量が最大
となり且つ当該キーワードを含む文書の数が最小となる
キーワードを検索キーワードとして決定する過程と、決
定した検索キーワードを論理式で結合して前記文書デー
タベースの検索に用いる検索式を作成する過程とを含む
ことを特徴とする。
明の検索式作成方法は、文書データベースにおける指定
文書群を形態素解析処理して複数のキーワードを抽出す
る過程と、抽出された個々のキーワードが出現する文書
数をキーワード毎に検出する過程と、当該キーワードを
含む文書群及び含まない文書群の情報量を前記指定文書
群の総情報量から差し引いて得られる相互情報量が最大
となり且つ当該キーワードを含む文書の数が最小となる
キーワードを検索キーワードとして決定する過程と、決
定した検索キーワードを論理式で結合して前記文書デー
タベースの検索に用いる検索式を作成する過程とを含む
ことを特徴とする。
【0019】本発明の他の検索式作成方法は、文書デー
タベースにおける指定文書群を形態素解析処理して複数
のキーワードを抽出する過程と、抽出された個々のキー
ワードが出現する文書数をキーワード毎に検出する過程
と、前記文書数に対する単調減少関数に基づいて算定さ
れた当該キーワードの重要度と当該キーワードを含む文
書群及び含まない文書群の情報量を指定文書群の総情報
量から差し引いて得られる相互情報量とを一定比率で合
算し、合算値が最大となるキーワードを検索キーワード
として決定する過程と、決定した検索キーワードを論理
式で結合して文書検索に用いる検索式を作成する過程と
を含むことを特徴とする。
タベースにおける指定文書群を形態素解析処理して複数
のキーワードを抽出する過程と、抽出された個々のキー
ワードが出現する文書数をキーワード毎に検出する過程
と、前記文書数に対する単調減少関数に基づいて算定さ
れた当該キーワードの重要度と当該キーワードを含む文
書群及び含まない文書群の情報量を指定文書群の総情報
量から差し引いて得られる相互情報量とを一定比率で合
算し、合算値が最大となるキーワードを検索キーワード
として決定する過程と、決定した検索キーワードを論理
式で結合して文書検索に用いる検索式を作成する過程と
を含むことを特徴とする。
【0020】上記他の課題を解決する本発明の検索式作
成装置は、文書データベースから特定の文書を索出する
ための検索式を作成する装置であって、前記文書データ
ベースにおける指定文書群から形態素解析によって複数
のキーワードを抽出するとともに抽出した個々のキーワ
ードが文書中に含まれるか否かを表す判別情報、及び当
該文書が必要文書か不要文書かを表す指定情報を各指定
文書の識別情報と共に集合させた文書集合を生成するキ
ーワード抽出部と、個々のキーワードを含む文書群及び
含まない文書群の情報量を指定文書群の総情報量から差
し引いて得られる相互情報量と当該キーワードが出現す
る文書数とに基づいて単一のキーワードを検索キーワー
ドとして決定するとともに、決定した検索キーワードを
用いて一つの文書集合を複数の文書集合に分割する文書
集合分割部と、前記文書集合の分割の際に用いた検索キ
ーワードを論理式で結合して前記検索式を作成する検索
式作成部と、を有することを特徴とする。
成装置は、文書データベースから特定の文書を索出する
ための検索式を作成する装置であって、前記文書データ
ベースにおける指定文書群から形態素解析によって複数
のキーワードを抽出するとともに抽出した個々のキーワ
ードが文書中に含まれるか否かを表す判別情報、及び当
該文書が必要文書か不要文書かを表す指定情報を各指定
文書の識別情報と共に集合させた文書集合を生成するキ
ーワード抽出部と、個々のキーワードを含む文書群及び
含まない文書群の情報量を指定文書群の総情報量から差
し引いて得られる相互情報量と当該キーワードが出現す
る文書数とに基づいて単一のキーワードを検索キーワー
ドとして決定するとともに、決定した検索キーワードを
用いて一つの文書集合を複数の文書集合に分割する文書
集合分割部と、前記文書集合の分割の際に用いた検索キ
ーワードを論理式で結合して前記検索式を作成する検索
式作成部と、を有することを特徴とする。
【0021】前記抽出されたキーワードが出現する文書
数を予め計数してキーワード毎に保持した辞書をさらに
備えるようにしても良い。この場合、前記文書集合分割
部は、文書集合を分割する際に前記辞書に保持された該
当文書数を索出して前記検索キーワードを決定するよう
に構成される。
数を予め計数してキーワード毎に保持した辞書をさらに
備えるようにしても良い。この場合、前記文書集合分割
部は、文書集合を分割する際に前記辞書に保持された該
当文書数を索出して前記検索キーワードを決定するよう
に構成される。
【0022】なお、前記文書集合分割部は、前記相互情
報量が最大となり、且つ前記文書数が最小となるキーワ
ード、あるいは、前記文書数に対する単調減少関数を用
いて当該キーワードの重要度を算定し、算定された重要
度と前記相互情報量とをそれぞれ一定の比率で合算した
値が最大となるキーワードを前記検索キーワードとして
決定するように構成される。
報量が最大となり、且つ前記文書数が最小となるキーワ
ード、あるいは、前記文書数に対する単調減少関数を用
いて当該キーワードの重要度を算定し、算定された重要
度と前記相互情報量とをそれぞれ一定の比率で合算した
値が最大となるキーワードを前記検索キーワードとして
決定するように構成される。
【0023】上記他の課題を解決する本発明の記録媒体
は、文書データベースにおける指定文書群から複数のキ
ーワードを抽出する形態素解析処理と、個々のキーワー
ドが文書中に含まれるか否かを表す判別情報、及び当該
文書が必要文書か不要文書かを表す判別情報を各指定文
書の識別情報と共に集合させた文書集合を生成するキー
ワード抽出処理と、個々のキーワードを含む文書群及び
含まない文書群の情報量を全文書群の総情報量から差し
引いて得られる相互情報量と当該キーワードが出現する
文書数とに基づいて単一のキーワードを検索キーワード
として決定するとともに、決定した検索キーワードを用
いて一つの文書集合を複数の文書集合に分割する文書集
合分割処理と、前記文書集合の分割の際に用いた検索キ
ーワードを論理式で結合して前記検索式を作成する検索
式作成処理と、をコンピュータ装置に実行させるための
プログラムを当該コンピュータ装置が読み取り可能な形
態で記録して成る。
は、文書データベースにおける指定文書群から複数のキ
ーワードを抽出する形態素解析処理と、個々のキーワー
ドが文書中に含まれるか否かを表す判別情報、及び当該
文書が必要文書か不要文書かを表す判別情報を各指定文
書の識別情報と共に集合させた文書集合を生成するキー
ワード抽出処理と、個々のキーワードを含む文書群及び
含まない文書群の情報量を全文書群の総情報量から差し
引いて得られる相互情報量と当該キーワードが出現する
文書数とに基づいて単一のキーワードを検索キーワード
として決定するとともに、決定した検索キーワードを用
いて一つの文書集合を複数の文書集合に分割する文書集
合分割処理と、前記文書集合の分割の際に用いた検索キ
ーワードを論理式で結合して前記検索式を作成する検索
式作成処理と、をコンピュータ装置に実行させるための
プログラムを当該コンピュータ装置が読み取り可能な形
態で記録して成る。
【0024】
【発明の実施の形態】以下、本発明の実施の形態を詳細
に説明する。図1は、本発明を適用した検索式作成装置
の実施の形態を示す機能ブロック図である。なお、図3
で説明した従来の検索式作成装置30と同一の機能につ
いては、同一符号を付して重複説明を省略する。
に説明する。図1は、本発明を適用した検索式作成装置
の実施の形態を示す機能ブロック図である。なお、図3
で説明した従来の検索式作成装置30と同一の機能につ
いては、同一符号を付して重複説明を省略する。
【0025】本実施形態の検索式作成装置10は、コン
ピュータ装置が所定のプログラムを読み込んで実行する
ことにより形成される、キーワード抽出部31、改良さ
れた文書集合分割部11、キーワード文書頻度辞書1
2、検索式作成部33の各機能を備えて構成される。上
記プログラムは、通常、コンピュータ装置に内蔵される
記憶手段に格納され、当該コンピュータ装置の主制御部
(CPU)に随時読み出されて使用されるが、コンピュ
ータ装置とは分離した形態で流通する記録媒体、例えば
CD−ROM等に格納され、使用時に上記記憶手段にイ
ンストールされるものであってもよい。
ピュータ装置が所定のプログラムを読み込んで実行する
ことにより形成される、キーワード抽出部31、改良さ
れた文書集合分割部11、キーワード文書頻度辞書1
2、検索式作成部33の各機能を備えて構成される。上
記プログラムは、通常、コンピュータ装置に内蔵される
記憶手段に格納され、当該コンピュータ装置の主制御部
(CPU)に随時読み出されて使用されるが、コンピュ
ータ装置とは分離した形態で流通する記録媒体、例えば
CD−ROM等に格納され、使用時に上記記憶手段にイ
ンストールされるものであってもよい。
【0026】文書集合分割部11は、キーワード抽出部
31から出力された初期文書集合を前述の決定木学習ア
ルゴリズム「ID3」を用いて分割する。一般に文書中
に出現する頻度の小さいキーワードは、複数の文書を区
別する際の重要なキーワードとなりうる。そこで、本実
施形態では、キーワードが出現する文書数(文書頻度)
をキーワード文書頻度辞書12に格納しておき、個々の
キーワードについての文書頻度をキーワード文書頻度辞
書12から読み出して、その文書頻度に対する単調減少
関数、例えば文書頻度の逆数を用いてキーワードの重要
度を計算する。なお、重要度は、予め、文書頻度と共に
各キーワード毎にキーワード文書頻度辞書12中に格納
するようにしても良い。
31から出力された初期文書集合を前述の決定木学習ア
ルゴリズム「ID3」を用いて分割する。一般に文書中
に出現する頻度の小さいキーワードは、複数の文書を区
別する際の重要なキーワードとなりうる。そこで、本実
施形態では、キーワードが出現する文書数(文書頻度)
をキーワード文書頻度辞書12に格納しておき、個々の
キーワードについての文書頻度をキーワード文書頻度辞
書12から読み出して、その文書頻度に対する単調減少
関数、例えば文書頻度の逆数を用いてキーワードの重要
度を計算する。なお、重要度は、予め、文書頻度と共に
各キーワード毎にキーワード文書頻度辞書12中に格納
するようにしても良い。
【0027】このようにして求められた重要度と相互情
報量とを一定の比率で足し合わせ、その和の値が大きい
キーワードを優先的に検索キーワードとして決定する。
そして、決定した検索キーワードによって文書集合の分
割処理を行うとともに、分割過程で決定された検索キー
ワードを検索作成部33に出力する。
報量とを一定の比率で足し合わせ、その和の値が大きい
キーワードを優先的に検索キーワードとして決定する。
そして、決定した検索キーワードによって文書集合の分
割処理を行うとともに、分割過程で決定された検索キー
ワードを検索作成部33に出力する。
【0028】図2は、検索式作成装置10において、一
つの文書集合31Aから段階的に複数の文書集合に分割
され、検索式が作成されるまでの過程を示す説明図であ
る。以下、図2を参照して、本実施形態による検索式作
成手順を説明する。
つの文書集合31Aから段階的に複数の文書集合に分割
され、検索式が作成されるまでの過程を示す説明図であ
る。以下、図2を参照して、本実施形態による検索式作
成手順を説明する。
【0029】まず、キーワード抽出部31から出力され
た初期文書集合Set0から相互情報量が最大となるキ
ーワードを検索キーワードとして決定する。ここでは、
検索キーワードkwd3が決定されたとする。決定され
た検索キーワードkwd3によって、初期文書集合Se
t0は、検索キーワードkwd3を含む必要文書の集合
Set1と、検索キーワードkwd3を含まない文書の
集合Set2とに分割される。
た初期文書集合Set0から相互情報量が最大となるキ
ーワードを検索キーワードとして決定する。ここでは、
検索キーワードkwd3が決定されたとする。決定され
た検索キーワードkwd3によって、初期文書集合Se
t0は、検索キーワードkwd3を含む必要文書の集合
Set1と、検索キーワードkwd3を含まない文書の
集合Set2とに分割される。
【0030】文書集合Set1は、これ以上の分割は不
可能であるが、一方、文書集合Set2はさらなる分割
処理が可能なので、このSet2において、各キーワー
ドによる相互情報量を算出し、相互情報量が最大となる
キーワードを特定する。本例の場合、文書集合Set2
から2つのキーワードkwd2,kwd4が特定され
る。このように複数のキーワードが検索キーワードの候
補となる場合、キーワード文書頻度辞書12中に蓄積さ
れている該当キーワードについての文書頻度を読み出し
て各々の値の比較を行う。本例ではキーワードkwd4
の方が相対的に文書頻度が小さいとして、これを検索キ
ーワードに決定する。そして、文書集合Set2を、検
索キーワードkwd4を含まない文書の集合Set
3と、検索キーワードkwd4を含む文書の集合Set4
とに分割する。
可能であるが、一方、文書集合Set2はさらなる分割
処理が可能なので、このSet2において、各キーワー
ドによる相互情報量を算出し、相互情報量が最大となる
キーワードを特定する。本例の場合、文書集合Set2
から2つのキーワードkwd2,kwd4が特定され
る。このように複数のキーワードが検索キーワードの候
補となる場合、キーワード文書頻度辞書12中に蓄積さ
れている該当キーワードについての文書頻度を読み出し
て各々の値の比較を行う。本例ではキーワードkwd4
の方が相対的に文書頻度が小さいとして、これを検索キ
ーワードに決定する。そして、文書集合Set2を、検
索キーワードkwd4を含まない文書の集合Set
3と、検索キーワードkwd4を含む文書の集合Set4
とに分割する。
【0031】文書集合Set4は、さらなる分割が可能
なので、この文書集合Set4を検索キーワードkwd
1を含む必要文書の集合Set5と、検索キーワードk
wd1を含まない文書の集合Set6とに分割する。文
書集合Set5及びSet6は、共に、これ以上の分割が
不可能であるため、分割処理を終える。
なので、この文書集合Set4を検索キーワードkwd
1を含む必要文書の集合Set5と、検索キーワードk
wd1を含まない文書の集合Set6とに分割する。文
書集合Set5及びSet6は、共に、これ以上の分割が
不可能であるため、分割処理を終える。
【0032】上記分割処理において決定された複数の検
索キーワードkwd1,kwd3,kwd4は、逐次図
示しない記憶手段に保持しておき、分割処理が終了した
時点で検索式作成部33に出力する。検索式作成部33
では、文書集合分割部11より受領した各検索キーワー
ドを、論理演算子“and”、及び“or”により結合
して検索式queryを作成する。符号33Aは、検索
式作成部33から出力される検索式を例示したものであ
る。
索キーワードkwd1,kwd3,kwd4は、逐次図
示しない記憶手段に保持しておき、分割処理が終了した
時点で検索式作成部33に出力する。検索式作成部33
では、文書集合分割部11より受領した各検索キーワー
ドを、論理演算子“and”、及び“or”により結合
して検索式queryを作成する。符号33Aは、検索
式作成部33から出力される検索式を例示したものであ
る。
【0033】このように、本実施形態の検索式作成装置
10によれば、例えば相互情報量Iが最大値となる検索
キーワードの候補が複数特定された場合に、キーワード
文書頻度辞書12から該当するキーワードについての文
書頻度を読み出して比較を行い、文書頻度の小さいキー
ワードを優先して選択して検索キーワードに決定し、当
該重要度と相互情報量とを一定の比率で足し合わせた値
が大きいキーワードを検索キーワードに決定することに
より、迅速な検索式作成処理が可能になるとともに、作
成される検索式に、重要なキーワードが含まれるように
なる。
10によれば、例えば相互情報量Iが最大値となる検索
キーワードの候補が複数特定された場合に、キーワード
文書頻度辞書12から該当するキーワードについての文
書頻度を読み出して比較を行い、文書頻度の小さいキー
ワードを優先して選択して検索キーワードに決定し、当
該重要度と相互情報量とを一定の比率で足し合わせた値
が大きいキーワードを検索キーワードに決定することに
より、迅速な検索式作成処理が可能になるとともに、作
成される検索式に、重要なキーワードが含まれるように
なる。
【0034】
【発明の効果】以上の説明から明らかなように、本発明
によれば、個々のキーワードの重要性が考慮された検索
式が作成される効果がある。また、これにより得られる
検索式を用いることにより、文書データの検索精度を一
定値以上に維持することが可能となり、検索処理の効率
が大幅に向上するという効果もある。
によれば、個々のキーワードの重要性が考慮された検索
式が作成される効果がある。また、これにより得られる
検索式を用いることにより、文書データの検索精度を一
定値以上に維持することが可能となり、検索処理の効率
が大幅に向上するという効果もある。
【図1】本発明の検索式作成装置の実施形態を表す機能
構成図。
構成図。
【図2】本発明の検索式作成装置の処理過程において得
られる情報の模式図。
られる情報の模式図。
【図3】従来の検索式作成装置の機能構成図。
【図4】従来の検索式作成装置の文書集合分割処理にお
ける手順図。
ける手順図。
【図5】従来の検索式作成装置の処理過程において得ら
れる情報の模式図。
れる情報の模式図。
10,30 検索式作成装置 31 キーワード抽出部 11,32 文書集合分割部 12 キーワード文書頻度辞書 33 検索式作成部
Claims (7)
- 【請求項1】 文書データベースにおける指定文書群を
形態素解析処理して複数のキーワードを抽出する過程
と、抽出された個々のキーワードが出現する文書数をキ
ーワード毎に検出する過程と、当該キーワードを含む文
書群及び含まない文書群の情報量を前記指定文書群の総
情報量から差し引いて得られる相互情報量が最大となり
且つ当該キーワードを含む文書の数が最小となるキーワ
ードを検索キーワードとして決定する過程と、決定した
検索キーワードを論理式で結合して前記文書データベー
スの検索に用いる検索式を作成する過程と、を含むこと
を特徴とする、コンピュータ装置を用いた検索式作成方
法。 - 【請求項2】 文書データベースにおける指定文書群を
形態素解析処理して複数のキーワードを抽出する過程
と、抽出された個々のキーワードが出現する文書数をキ
ーワード毎に検出する過程と、前記文書数に対する単調
減少関数に基づいて算定された当該キーワードの重要度
と当該キーワードを含む文書群及び含まない文書群の情
報量を指定文書群の総情報量から差し引いて得られる相
互情報量とを一定比率で合算し、合算値が最大となるキ
ーワードを検索キーワードとして決定する過程と、決定
した検索キーワードを論理式で結合して文書検索に用い
る検索式を作成する過程とを含むことを特徴とする、コ
ンピュータ装置を用いた検索式作成方法。 - 【請求項3】 文書データベースから特定の文書を索出
するための検索式を作成する装置であって、 前記文書データベースにおける指定文書群から形態素解
析によって複数のキーワードを抽出するとともに抽出し
た個々のキーワードが文書中に含まれるか否かを表す判
別情報、及び当該文書が必要文書か不要文書かを表す指
定情報を各指定文書の識別情報と共に集合させた文書集
合を生成するキーワード抽出部と、 個々のキーワードを含む文書群及び含まない文書群の情
報量を指定文書群の総情報量から差し引いて得られる相
互情報量と当該キーワードが出現する文書数とに基づい
て単一のキーワードを検索キーワードとして決定すると
ともに、決定した検索キーワードを用いて一つの文書集
合を複数の文書集合に分割する文書集合分割部と、 前記文書集合の分割の際に用いた検索キーワードを論理
式で結合して前記検索式を作成する検索式作成部と、 を有することを特徴とする検索式作成装置。 - 【請求項4】 前記抽出されたキーワードが出現する文
書数を予め計数してキーワード毎に保持した辞書をさら
に備え、前記文書集合分割部は、文書集合を分割する際
に前記辞書に保持された該当文書数を索出して前記検索
キーワードを決定するように構成されることを特徴とす
る請求項3記載の検索式作成装置。 - 【請求項5】 前記文書集合分割部は、前記相互情報量
が最大となり、且つ前記文書数が最小となるキーワード
を前記検索キーワードとして決定するように構成される
ことを特徴とする請求項4記載の検索式作成装置。 - 【請求項6】 前記文書集合分割部は、前記文書数に対
する単調減少関数を用いて当該キーワードの重要度を算
定し、算定された重要度と前記相互情報量とをそれぞれ
一定の比率で合算した値が最大となるキーワードを前記
検索キーワードとして決定するように構成されることを
特徴とする請求項4記載の検索式作成装置。 - 【請求項7】 文書データベースにおける指定文書群か
ら複数のキーワードを抽出する形態素解析処理と、 個々のキーワードが文書中に含まれるか否かを表す判別
情報、及び当該文書が必要文書か不要文書かを表す判別
情報を各指定文書の識別情報と共に集合させた文書集合
を生成するキーワード抽出処理と、 個々のキーワードを含む文書群及び含まない文書群の情
報量を指定文書群の総情報量から差し引いて得られる相
互情報量と当該キーワードが出現する文書数とに基づい
て単一のキーワードを検索キーワードとして決定すると
ともに、決定した検索キーワードを用いて一つの文書集
合を複数の文書集合に分割する文書集合分割処理と、 前記文書集合の分割の際に用いた検索キーワードを論理
式で結合して前記検索式を作成する検索式作成処理と、 をコンピュータ装置に実行させるためのプログラムを当
該コンピュータ装置が読み取り可能な形態で記録して成
る記憶媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9124562A JPH10320403A (ja) | 1997-05-14 | 1997-05-14 | 検索式作成方法、検索式作成装置、及び記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9124562A JPH10320403A (ja) | 1997-05-14 | 1997-05-14 | 検索式作成方法、検索式作成装置、及び記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10320403A true JPH10320403A (ja) | 1998-12-04 |
Family
ID=14888560
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9124562A Pending JPH10320403A (ja) | 1997-05-14 | 1997-05-14 | 検索式作成方法、検索式作成装置、及び記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH10320403A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012053605A (ja) * | 2010-08-31 | 2012-03-15 | Ricoh Co Ltd | 情報検索装置、情報検索方法及び情報検索プログラム |
| JP2012155673A (ja) * | 2011-01-28 | 2012-08-16 | Hitachi Ltd | 検索式生成装置、検索システム、検索式生成方法 |
| JP2023153715A (ja) * | 2022-04-05 | 2023-10-18 | 株式会社日立製作所 | 分類付与支援装置、分類付与支援システム |
-
1997
- 1997-05-14 JP JP9124562A patent/JPH10320403A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012053605A (ja) * | 2010-08-31 | 2012-03-15 | Ricoh Co Ltd | 情報検索装置、情報検索方法及び情報検索プログラム |
| JP2012155673A (ja) * | 2011-01-28 | 2012-08-16 | Hitachi Ltd | 検索式生成装置、検索システム、検索式生成方法 |
| JP2023153715A (ja) * | 2022-04-05 | 2023-10-18 | 株式会社日立製作所 | 分類付与支援装置、分類付与支援システム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1585073B1 (en) | Method for duplicate detection and suppression | |
| JP3270783B2 (ja) | 複数の文書検索方法 | |
| US6389412B1 (en) | Method and system for constructing integrated metadata | |
| US9971782B2 (en) | Document tagging and retrieval using entity specifiers | |
| JP2001282810A (ja) | 製図図面管理用コンピュータ自動化システム | |
| CN117873905B (zh) | 一种代码同源检测的方法、装置、设备及介质 | |
| CN119577124B (zh) | 一种基于大数据软件系统的信息检索及引导的方法和装置 | |
| EP1745396B1 (en) | Document information mining tool | |
| JP2000181759A (ja) | 時系列データ検索システムと検索方法およびそのプログラムを記録した記録媒体 | |
| JP2000172722A (ja) | オンライン商店上の製品情報自動索引方法及びシステム | |
| US20030126138A1 (en) | Computer-implemented column mapping system and method | |
| US5649180A (en) | Method for generating hierarchical specification information from software | |
| CN120407772A (zh) | 一种告警信息的处理方法、设备及存储介质 | |
| JPH10320403A (ja) | 検索式作成方法、検索式作成装置、及び記録媒体 | |
| CN115794745B (zh) | 文件搜索方法、系统、设备及存储介质 | |
| JPH10320402A (ja) | 検索式作成方法、検索式作成装置、及び記録媒体 | |
| JP2004342016A (ja) | 情報探索プログラム及び情報探索プログラムを記録した媒体 | |
| JPH1153383A (ja) | 複数データベースの検索方法及びその検索プログラム等を記録した記録媒体 | |
| JP2002108888A (ja) | ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 | |
| JP2001290826A (ja) | 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体 | |
| JPH05128159A (ja) | キーワード抽出方法及び装置 | |
| JP2550022B2 (ja) | 文書情報検索方式 | |
| JPH08305710A (ja) | 文書のキーワード抽出方法及び文書検索装置 | |
| JPH11203309A (ja) | 検索式作成方法及び装置 | |
| JPH08115340A (ja) | 文書検索装置およびそれに用いるインデックスファイルの作成装置 |