JPH10320403A

JPH10320403A - 検索式作成方法、検索式作成装置、及び記録媒体

Info

Publication number: JPH10320403A
Application number: JP9124562A
Authority: JP
Inventors: Hiroyuki Nakajima; 浩之中島; Tsuyoshi Kitani; 強木谷
Original assignee: N T T DATA KK; NTT Data Corp
Current assignee: N T T DATA KK; NTT Data Group Corp
Priority date: 1997-05-14
Filing date: 1997-05-14
Publication date: 1998-12-04

Abstract

(57)【要約】【課題】キーワードの重要性に着目し、文書データ
中に出現頻度が小さいキーワードを対象キーワードとし
て優先して選択することにより、検索精度を一定値以上
に維持することが可能な、検索式作成装置を提供する。【解決手段】キーワード抽出部３１、文書集合分割部１
１、キーワード文書頻度辞書１２、検索式作成部３３の
各機能を備えて構成され、検索キーワード候補となるキ
ーワードが複数あるときに、各キーワードが含まれる文
書の数（文書頻度）をそれぞれキーワード文書頻度辞書
１２から読み出して比較し、文書頻度が小さいキーワー
ドを優先的に検索キーワードとして選択する。検索式作
成部３３は、検索キーワードを論理演算子“ａｎｄ”、
及び“ｏｒ”で結合して検索式を作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば大量に蓄積
された学会論文や技術文書等の電子文書から特定のもの
を索出する文書データベースや、予め蓄積された電子文
書例等を文書作成や発想展開の支援のために利用する各
種支援システム等に適用される文書検索技術に係り、特
に、電子文書中から抽出したキーワードを用いて、検索
者が関心のある文書の索出を効率的に行うための検索式
を試行錯誤的に作成する技術に関する。

【０００２】

【従来の技術】検索対象となる電子文書を蓄積した文書
データベースからあるキーワードを抽出し、このキーワ
ードの論理積や論理和の組み合わせにより所要の検索式
を検索者と協調して試行錯誤的に作成する検索式作成装
置が知られている。

【０００３】図３は、従来のこの種の検索式作成装置の
機能構成図である。この検索式作成装置３０は、コンピ
ュータ装置が所定のプログラムを読み込んで実行するこ
とにより形成される、キーワード抽出部３１、文書集合
分割部３２、及び検索式作成部３３の機能ブロックを備
えている。なお、文書には、それぞれ検索者が関心のあ
る必要文書か、関心のない不要文書かを表す必要・不要
の指定情報が付与されているものとする。

【０００４】キーワード抽出部３１は、複数の文書から
公知の形態素解析処理によって文書毎に複数のキーワー
ドの抽出処理を行う。また、個々の文書におけるキーワ
ードの出現の有無を表す判別情報及び当該文書が必要文
書か不要文書かを表す識別情報を、文書名や文書番号等
の文書識別子と共に文書集合として出力する。符号３１
Ｂは、キーワード抽出部３１から出力される文書集合の
内容を例示したものである。

【０００５】文書集合分割部３２は、文書集合を上記判
別情報に基づいて段階的に分割し、文書検索に用いる検
索式を作成する場合の基礎となる複数の検索キーワード
を決定する。この場合、出来るだけ一つ（少数）のキー
ワードの判別情報によって文書集合を分割していくこと
で、必要文書と不要文書とを区別した検索者の意図の抽
出が可能となる。文書集合分割部３２で決定した複数の
検索キーワードは、検索式作成部３３において論理演算
子“ａｎｄ”または“ｏｒ”で結合され、検索式として
後続処理に出力される。

【０００６】文書集合分割部３２における文書集合の分
割処理は、例えば公知の決定木（論理式を木構造で表現
したもの）学習アルゴリズムである「ＩＤ３」に基づい
て行われる。以下、この決定木学習アルゴリズム「ＩＤ
３」による文書集合の分割処理の概要を図４を参照して
説明する。まず、キーワード抽出部３１から送られた文
書集合を初期文書集合Ｓｅｔ₀とする（ステップＳ１０
１）。次に、初期文書集合Ｓｅｔ₀の“未分割”のフラ
グをオンにし（ステップＳ１０２）、これをＳｅｔ_iと
する（ステップＳ１０３）。次に、この文書集合Ｓｅｔ
_i中の必要文書、不要文書に含まれる各キーワードｔ
_j(１≦ｊ≦Ｎ）について、文書全体の情報量に対する個
別文書の情報量の相対関係を表す相互情報量Ｉ（ｔ_j)を
算出する（ステップＳ１０４）。相互情報量Ｉ（ｔ_j)
は、具体的には、未分割の文書集合についての情報量Ｈ
からキーワードｔ_jが含まれた文書集合及び含まない文
書集合についての情報量Ｈ（ｔ_j)を差し引いた値で表さ
れる。また、各情報量Ｈ、Ｈ（ｔ_j)は、それぞれ下記
（１）、（２）式で表される。

【０００７】

【数１】

【０００８】但し、（１）、（２）式におけるパラメー
タは下記のようになる。ｐ_i：Ｓｅｔ_i中の必要文書数、ｎ_i：Ｓｅｔ_i中の不要文書数、ｓ_i：ｐ_i+ｎ_i、ｐ_i(ｔ_j)：Ｓｅｔ_i中でキーワードｔ_jを含む必要文書
数、ｎ_i(ｔ_j)：Ｓｅｔ_i中でキーワードｔ_jを含む不要文書
数、ｓ_i(ｔ_j)：ｐ_i(ｔ_j)＋ｎ_i(ｔ_j)、ｐ_i not（ｔ_j)：Ｓｅｔ_i中でキーワードｔ_jを含まない
必要文書数、ｎ_i not（ｔ_j)：Ｓｅｔ_i中でキーワードｔ_jを含まない
不要文書数、ｓ_i not（ｔ_j)：ｐ_i not（ｔ_j)＋ｎ_i not（ｔ_j)、ｈ(a,b,c)：-{a/c・log₂(a/c)＋b/c・log₂(b/c)｝

【０００９】次に、複数のキーワードｔ_jから相互情報
量Ｉ（ｔ_k)の値を最大にすることが可能なキーワードｔ
_kを選択し、これを検索キーワードとする（ステップＳ
１０５）。この相互情報量Ｉ（ｔ_k)が正の有限値（＞
０）の場合（ステップＳ１０６）、検索キーワードｔ_k
を含む文書の番号からなる文書集合をＳｅｔ_i′、検索キ
ーワードｔ_kを含まない文書の番号からなる文書集合を
Ｓｅｔ_i″として分割し、分割したそれぞれの文書集合
の“未分割”のフラグをオンにする（ステップＳ１０７
〜Ｓ１１０）。ｉ′，ｉ″は既に文書集合Ｓｅｔ_i′、Ｓ
ｅｔ_i″が存在しなければ任意の値で良い。一方、相互
情報量Ｉ（ｔ_k)がゼロ値（＝０）の場合は文書集合の分
割を行わない（ステップＳ１０６）。

【００１０】その後、集合Ｓｅｔ_iの“未分割”のフラ
グをオフにする（ステップＳ１１１）。“未分割”のフ
ラグがオンの文書集合がある場合はステップＳ１０３に
戻り（ステップＳ１１２，Ｙｅｓ）、“未分割”のフラ
グがオンの文書集合がなくなるまで処理を繰り返す。そ
して、すべての文書集合についての“未分割”のフラグ
がオフになった時点で処理を終える（ステップＳ１１
２，Ｎｏ）。

【００１１】この決定木学習アルゴリズム「ＩＤ３」に
ついての詳細は、「知識獲得と学習シリーズ１：知識獲
得入門」（Ｍｉｃｈａｌｓｋｉ，Ｒ．Ｓ．他編、共立出
版）を参考にすることができる。また、上記アルゴリズ
ム「ＩＤ３」による処理過程は、例えば、公知のアルゴ
リズムである「Ｃ４．５」や、また、文書中のキーワー
ドの有無のみを用いて文書集合を分割する他のアルゴリ
ズム等による代用も可能である。「Ｃ４．５」の詳細に
ついては、「C4.5 Programs for Machine Learning」
（Quinlan、J.R.著、Morgan Kaufmann Publishers 刊）の
記載を参考にすることができる。

【００１２】図５は、上記検索式作成装置３０におい
て、一つの文書集合から複数の文書集合に分割され、検
索式が試行錯誤的に作成されていく過程を示す説明図で
ある。以下、図５を参照して、従来の検索式の作成手順
を説明する。まず、キーワード抽出部３１から出力され
た初期文書集合Ｓｅｔ₀から、上述の決定木学習アルゴ
リズム「ＩＤ３」に基づいて相互情報量が最大となるキ
ーワードを決定し、これを検索キーワードとする。ここ
では、検索キーワードｋｗｄ３が決定されたとする。そ
して、この検索キーワードｋｗｄ３によって、初期文書
集合Ｓｅｔ₀を、検索キーワードｋｗｄ３を含む必要文
書の集合Ｓｅｔ₁と検索キーワードｋｗｄ３を含まない
必要文書及び不要文書の集合Ｓｅｔ₂とに分割する。

【００１３】文書集合Ｓｅｔ₁は、これ以上の分割は不
可能であるが、一方、文書集合Ｓｅｔ₂はさらなる分割
が可能である。そこで、この文書集合Ｓｅｔ₂において
相互情報量が最大となる検索キーワードｋｗｄ２を決定
し、この検索キーワードｋｗｄ２によって文書集合Ｓｅ
ｔ₂を、検索キーワードｋｗｄ２を含まない不要文書の
集合Ｓｅｔ₃と検索キーワードｋｗｄ２を含む必要及び
不要文書の集合Ｓｅｔ₄とに分割する。文書集合Ｓｅｔ₄
は、さらなる分割が可能なので、この文書集合Ｓｅｔ₄
において相互情報量が最大となるキーワードｋｗｄ１を
検索キーワードとして決定し、この検索キーワードｋｗ
ｄ１を含む必要文書の集合Ｓｅｔ₅と、検索キーワード
ｋｗｄ１を含まない文書の集合Ｓｅｔ₆とを分割する。
文書集合Ｓｅｔ₅及びＳｅｔ₆は、共にこれ以上の分割が
不可能であるため、分割処理を終える。

【００１４】上記分割処理において決定された複数の検
索キーワードｋｗｄ１〜ｋｗｄ３は逐次図示しない記憶
手段に保持され、分割処理が終了した時点で検索式作成
部３３に渡される。検索式作成部３３では、文書集合分
割部３２の結果である各検索キーワードを、論理演算子
“ａｎｄ”、及び“ｏｒ”により結合して検索式ｑｕｅ
ｒｙを作成する。符号３３Ｂは、検索式作成部３３から
出力される検索式を例示したものである。ｔ₆は、共に
これ以上の分割が不可能であるため、分割処理を終え
る。

【００１５】上記分割処理において決定された複数の検
索キーワードｋｗｄ１〜ｋｗｄ３は逐次図示しない記憶
手段に保持され、分割処理が終了した時点で検索式作成
部３３に渡される。検索式作成部３３では、文書集合分
割部３２の結果である各検索キーワードを、論理演算子
“ａｎｄ”、及び“ｏｒ”により結合して検索式ｑｕｅ
ｒｙを作成する。符号３３Ｂは、検索式作成部３３から
出力される検索式を例示したものである。

【００１６】

【発明が解決しようとする課題】上記従来の検索式作成
装置３０では、文書集合の分割に用いる検索キーワード
を、相互情報量と必要文書／不要文書の判別情報を基準
として決定しており、検索者にとって真に重要な検索キ
ーワードかどうかを考慮していない。そのため、作成さ
れる検索式には重要ではない検索キーワードを含む可能
性があり、この検索式を実際の文書検索処理に用いた場
合に、十分な検索精度が得られない場合があった。

【００１７】そこで本発明の課題は、キーワードの重要
性を反映して文書検索における検索精度を一定値以上に
維持することができる検索式の作成をコンピュータ装置
を用いて行う改良された方法を提供することにある。本
発明の他の課題は、上記方法の実施に適した検索式作成
装置及び上記検索式作成方法を汎用のコンピュータ装置
で実現するための記録媒体を提供することにある。

【００１８】

【課題を解決するための手段】上記課題を解決する本発
明の検索式作成方法は、文書データベースにおける指定
文書群を形態素解析処理して複数のキーワードを抽出す
る過程と、抽出された個々のキーワードが出現する文書
数をキーワード毎に検出する過程と、当該キーワードを
含む文書群及び含まない文書群の情報量を前記指定文書
群の総情報量から差し引いて得られる相互情報量が最大
となり且つ当該キーワードを含む文書の数が最小となる
キーワードを検索キーワードとして決定する過程と、決
定した検索キーワードを論理式で結合して前記文書デー
タベースの検索に用いる検索式を作成する過程とを含む
ことを特徴とする。

【００１９】本発明の他の検索式作成方法は、文書デー
タベースにおける指定文書群を形態素解析処理して複数
のキーワードを抽出する過程と、抽出された個々のキー
ワードが出現する文書数をキーワード毎に検出する過程
と、前記文書数に対する単調減少関数に基づいて算定さ
れた当該キーワードの重要度と当該キーワードを含む文
書群及び含まない文書群の情報量を指定文書群の総情報
量から差し引いて得られる相互情報量とを一定比率で合
算し、合算値が最大となるキーワードを検索キーワード
として決定する過程と、決定した検索キーワードを論理
式で結合して文書検索に用いる検索式を作成する過程と
を含むことを特徴とする。

【００２０】上記他の課題を解決する本発明の検索式作
成装置は、文書データベースから特定の文書を索出する
ための検索式を作成する装置であって、前記文書データ
ベースにおける指定文書群から形態素解析によって複数
のキーワードを抽出するとともに抽出した個々のキーワ
ードが文書中に含まれるか否かを表す判別情報、及び当
該文書が必要文書か不要文書かを表す指定情報を各指定
文書の識別情報と共に集合させた文書集合を生成するキ
ーワード抽出部と、個々のキーワードを含む文書群及び
含まない文書群の情報量を指定文書群の総情報量から差
し引いて得られる相互情報量と当該キーワードが出現す
る文書数とに基づいて単一のキーワードを検索キーワー
ドとして決定するとともに、決定した検索キーワードを
用いて一つの文書集合を複数の文書集合に分割する文書
集合分割部と、前記文書集合の分割の際に用いた検索キ
ーワードを論理式で結合して前記検索式を作成する検索
式作成部と、を有することを特徴とする。

【００２１】前記抽出されたキーワードが出現する文書
数を予め計数してキーワード毎に保持した辞書をさらに
備えるようにしても良い。この場合、前記文書集合分割
部は、文書集合を分割する際に前記辞書に保持された該
当文書数を索出して前記検索キーワードを決定するよう
に構成される。

【００２２】なお、前記文書集合分割部は、前記相互情
報量が最大となり、且つ前記文書数が最小となるキーワ
ード、あるいは、前記文書数に対する単調減少関数を用
いて当該キーワードの重要度を算定し、算定された重要
度と前記相互情報量とをそれぞれ一定の比率で合算した
値が最大となるキーワードを前記検索キーワードとして
決定するように構成される。

【００２３】上記他の課題を解決する本発明の記録媒体
は、文書データベースにおける指定文書群から複数のキ
ーワードを抽出する形態素解析処理と、個々のキーワー
ドが文書中に含まれるか否かを表す判別情報、及び当該
文書が必要文書か不要文書かを表す判別情報を各指定文
書の識別情報と共に集合させた文書集合を生成するキー
ワード抽出処理と、個々のキーワードを含む文書群及び
含まない文書群の情報量を全文書群の総情報量から差し
引いて得られる相互情報量と当該キーワードが出現する
文書数とに基づいて単一のキーワードを検索キーワード
として決定するとともに、決定した検索キーワードを用
いて一つの文書集合を複数の文書集合に分割する文書集
合分割処理と、前記文書集合の分割の際に用いた検索キ
ーワードを論理式で結合して前記検索式を作成する検索
式作成処理と、をコンピュータ装置に実行させるための
プログラムを当該コンピュータ装置が読み取り可能な形
態で記録して成る。

【００２４】

【発明の実施の形態】以下、本発明の実施の形態を詳細
に説明する。図１は、本発明を適用した検索式作成装置
の実施の形態を示す機能ブロック図である。なお、図３
で説明した従来の検索式作成装置３０と同一の機能につ
いては、同一符号を付して重複説明を省略する。

【００２５】本実施形態の検索式作成装置１０は、コン
ピュータ装置が所定のプログラムを読み込んで実行する
ことにより形成される、キーワード抽出部３１、改良さ
れた文書集合分割部１１、キーワード文書頻度辞書１
２、検索式作成部３３の各機能を備えて構成される。上
記プログラムは、通常、コンピュータ装置に内蔵される
記憶手段に格納され、当該コンピュータ装置の主制御部
（ＣＰＵ）に随時読み出されて使用されるが、コンピュ
ータ装置とは分離した形態で流通する記録媒体、例えば
ＣＤ−ＲＯＭ等に格納され、使用時に上記記憶手段にイ
ンストールされるものであってもよい。

【００２６】文書集合分割部１１は、キーワード抽出部
３１から出力された初期文書集合を前述の決定木学習ア
ルゴリズム「ＩＤ３」を用いて分割する。一般に文書中
に出現する頻度の小さいキーワードは、複数の文書を区
別する際の重要なキーワードとなりうる。そこで、本実
施形態では、キーワードが出現する文書数（文書頻度）
をキーワード文書頻度辞書１２に格納しておき、個々の
キーワードについての文書頻度をキーワード文書頻度辞
書１２から読み出して、その文書頻度に対する単調減少
関数、例えば文書頻度の逆数を用いてキーワードの重要
度を計算する。なお、重要度は、予め、文書頻度と共に
各キーワード毎にキーワード文書頻度辞書１２中に格納
するようにしても良い。

【００２７】このようにして求められた重要度と相互情
報量とを一定の比率で足し合わせ、その和の値が大きい
キーワードを優先的に検索キーワードとして決定する。
そして、決定した検索キーワードによって文書集合の分
割処理を行うとともに、分割過程で決定された検索キー
ワードを検索作成部３３に出力する。

【００２８】図２は、検索式作成装置１０において、一
つの文書集合３１Ａから段階的に複数の文書集合に分割
され、検索式が作成されるまでの過程を示す説明図であ
る。以下、図２を参照して、本実施形態による検索式作
成手順を説明する。

【００２９】まず、キーワード抽出部３１から出力され
た初期文書集合Ｓｅｔ₀から相互情報量が最大となるキ
ーワードを検索キーワードとして決定する。ここでは、
検索キーワードｋｗｄ３が決定されたとする。決定され
た検索キーワードｋｗｄ３によって、初期文書集合Ｓｅ
ｔ₀は、検索キーワードｋｗｄ３を含む必要文書の集合
Ｓｅｔ₁と、検索キーワードｋｗｄ３を含まない文書の
集合Ｓｅｔ₂とに分割される。

【００３０】文書集合Ｓｅｔ₁は、これ以上の分割は不
可能であるが、一方、文書集合Ｓｅｔ₂はさらなる分割
処理が可能なので、このＳｅｔ₂において、各キーワー
ドによる相互情報量を算出し、相互情報量が最大となる
キーワードを特定する。本例の場合、文書集合Ｓｅｔ₂
から２つのキーワードｋｗｄ２，ｋｗｄ４が特定され
る。このように複数のキーワードが検索キーワードの候
補となる場合、キーワード文書頻度辞書１２中に蓄積さ
れている該当キーワードについての文書頻度を読み出し
て各々の値の比較を行う。本例ではキーワードｋｗｄ４
の方が相対的に文書頻度が小さいとして、これを検索キ
ーワードに決定する。そして、文書集合Ｓｅｔ₂を、検
索キーワードｋｗｄ４を含まない文書の集合Ｓｅｔ
₃と、検索キーワードｋｗｄ４を含む文書の集合Ｓｅｔ₄
とに分割する。

【００３１】文書集合Ｓｅｔ₄は、さらなる分割が可能
なので、この文書集合Ｓｅｔ₄を検索キーワードｋｗｄ
１を含む必要文書の集合Ｓｅｔ₅と、検索キーワードｋ
ｗｄ１を含まない文書の集合Ｓｅｔ₆とに分割する。文
書集合Ｓｅｔ₅及びＳｅｔ₆は、共に、これ以上の分割が
不可能であるため、分割処理を終える。

【００３２】上記分割処理において決定された複数の検
索キーワードｋｗｄ１，ｋｗｄ３，ｋｗｄ４は、逐次図
示しない記憶手段に保持しておき、分割処理が終了した
時点で検索式作成部３３に出力する。検索式作成部３３
では、文書集合分割部１１より受領した各検索キーワー
ドを、論理演算子“ａｎｄ”、及び“ｏｒ”により結合
して検索式ｑｕｅｒｙを作成する。符号３３Ａは、検索
式作成部３３から出力される検索式を例示したものであ
る。

【００３３】このように、本実施形態の検索式作成装置
１０によれば、例えば相互情報量Ｉが最大値となる検索
キーワードの候補が複数特定された場合に、キーワード
文書頻度辞書１２から該当するキーワードについての文
書頻度を読み出して比較を行い、文書頻度の小さいキー
ワードを優先して選択して検索キーワードに決定し、当
該重要度と相互情報量とを一定の比率で足し合わせた値
が大きいキーワードを検索キーワードに決定することに
より、迅速な検索式作成処理が可能になるとともに、作
成される検索式に、重要なキーワードが含まれるように
なる。

【００３４】

【発明の効果】以上の説明から明らかなように、本発明
によれば、個々のキーワードの重要性が考慮された検索
式が作成される効果がある。また、これにより得られる
検索式を用いることにより、文書データの検索精度を一
定値以上に維持することが可能となり、検索処理の効率
が大幅に向上するという効果もある。

【図面の簡単な説明】

【図１】本発明の検索式作成装置の実施形態を表す機能
構成図。

【図２】本発明の検索式作成装置の処理過程において得
られる情報の模式図。

【図３】従来の検索式作成装置の機能構成図。

【図４】従来の検索式作成装置の文書集合分割処理にお
ける手順図。

【図５】従来の検索式作成装置の処理過程において得ら
れる情報の模式図。

【符号の説明】

１０，３０検索式作成装置３１キーワード抽出部１１，３２文書集合分割部１２キーワード文書頻度辞書３３検索式作成部

Claims

【特許請求の範囲】

【請求項１】文書データベースにおける指定文書群を
形態素解析処理して複数のキーワードを抽出する過程
と、抽出された個々のキーワードが出現する文書数をキ
ーワード毎に検出する過程と、当該キーワードを含む文
書群及び含まない文書群の情報量を前記指定文書群の総
情報量から差し引いて得られる相互情報量が最大となり
且つ当該キーワードを含む文書の数が最小となるキーワ
ードを検索キーワードとして決定する過程と、決定した
検索キーワードを論理式で結合して前記文書データベー
スの検索に用いる検索式を作成する過程と、を含むこと
を特徴とする、コンピュータ装置を用いた検索式作成方
法。
【請求項２】文書データベースにおける指定文書群を
形態素解析処理して複数のキーワードを抽出する過程
と、抽出された個々のキーワードが出現する文書数をキ
ーワード毎に検出する過程と、前記文書数に対する単調
減少関数に基づいて算定された当該キーワードの重要度
と当該キーワードを含む文書群及び含まない文書群の情
報量を指定文書群の総情報量から差し引いて得られる相
互情報量とを一定比率で合算し、合算値が最大となるキ
ーワードを検索キーワードとして決定する過程と、決定
した検索キーワードを論理式で結合して文書検索に用い
る検索式を作成する過程とを含むことを特徴とする、コ
ンピュータ装置を用いた検索式作成方法。
【請求項３】文書データベースから特定の文書を索出
するための検索式を作成する装置であって、前記文書データベースにおける指定文書群から形態素解
析によって複数のキーワードを抽出するとともに抽出し
た個々のキーワードが文書中に含まれるか否かを表す判
別情報、及び当該文書が必要文書か不要文書かを表す指
定情報を各指定文書の識別情報と共に集合させた文書集
合を生成するキーワード抽出部と、個々のキーワードを含む文書群及び含まない文書群の情
報量を指定文書群の総情報量から差し引いて得られる相
互情報量と当該キーワードが出現する文書数とに基づい
て単一のキーワードを検索キーワードとして決定すると
ともに、決定した検索キーワードを用いて一つの文書集
合を複数の文書集合に分割する文書集合分割部と、前記文書集合の分割の際に用いた検索キーワードを論理
式で結合して前記検索式を作成する検索式作成部と、を有することを特徴とする検索式作成装置。
【請求項４】前記抽出されたキーワードが出現する文
書数を予め計数してキーワード毎に保持した辞書をさら
に備え、前記文書集合分割部は、文書集合を分割する際
に前記辞書に保持された該当文書数を索出して前記検索
キーワードを決定するように構成されることを特徴とす
る請求項３記載の検索式作成装置。
【請求項５】前記文書集合分割部は、前記相互情報量
が最大となり、且つ前記文書数が最小となるキーワード
を前記検索キーワードとして決定するように構成される
ことを特徴とする請求項４記載の検索式作成装置。
【請求項６】前記文書集合分割部は、前記文書数に対
する単調減少関数を用いて当該キーワードの重要度を算
定し、算定された重要度と前記相互情報量とをそれぞれ
一定の比率で合算した値が最大となるキーワードを前記
検索キーワードとして決定するように構成されることを
特徴とする請求項４記載の検索式作成装置。
【請求項７】文書データベースにおける指定文書群か
ら複数のキーワードを抽出する形態素解析処理と、個々のキーワードが文書中に含まれるか否かを表す判別
情報、及び当該文書が必要文書か不要文書かを表す判別
情報を各指定文書の識別情報と共に集合させた文書集合
を生成するキーワード抽出処理と、個々のキーワードを含む文書群及び含まない文書群の情
報量を指定文書群の総情報量から差し引いて得られる相
互情報量と当該キーワードが出現する文書数とに基づい
て単一のキーワードを検索キーワードとして決定すると
ともに、決定した検索キーワードを用いて一つの文書集
合を複数の文書集合に分割する文書集合分割処理と、前記文書集合の分割の際に用いた検索キーワードを論理
式で結合して前記検索式を作成する検索式作成処理と、をコンピュータ装置に実行させるためのプログラムを当
該コンピュータ装置が読み取り可能な形態で記録して成
る記憶媒体。