JPH1011292A

JPH1011292A - 知識発見システム

Info

Publication number: JPH1011292A
Application number: JP8164612A
Authority: JP
Inventors: Keiko Shimazu; 恵子嶋津; Hiroaki Tarumi; 宏明垂水; Hiroshi Okano; 洋岡野
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1996-06-25
Filing date: 1996-06-25
Publication date: 1998-01-16

Abstract

(57)【要約】【課題】学習目標概念に関連する知識を帰納論理プログ
ラミングの背景知識として利用しつつ、データベースか
らのデータマイニングを自動的に行うことができる知識
発見システムを提供すること。【解決手段】プリアンプ１２がインデックスファイル１
１に基づいてデータベース１８に格納したデータから入
力ファイル１３を自動生成し、この入力ファイル１３を
基にメイアンプであるＰＲＯＧＯＬ１４が学習を行い、
その結果得られた知識をエキスパートシステム１６の知
識ベース１７に格納する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データベースと帰
納推論プログラミングを結合してデータベースから知識
発見を行う知識発見システムに関し、特に、データベー
スに格納したデータからの知識発掘を自動的に行う知識
発見システムに関する。

【０００２】

【従来の技術】近年のコンピュータ技術の著しい進展と
ハードウエアの低価格化に伴い、各種データベースに
は、多種多様の膨大なデータが十分に解析されないまま
格納されており、その肥大化傾向にはますます拍車がか
かっている。

【０００３】しかし、かかるデータベースがいかに大量
のデータを保持していたとしても、そのデータを有効な
知識として利用できなければ意味がないため、データを
有用化する技術が重要となる。

【０００４】このため、データベースに格納したデータ
からの知識発掘（以下「データマイニング（Data Minin
g）」と言う。）が、特にニューラルネットワーク技術
分野で脚光を浴びている。

【０００５】具体的には、このニューラルネットワーク
技術では、コンピュータ上の神経（シナプス）でつなが
った複数のニューロンにデータを学習させ、その学習結
果を使って診断、認識及び予測等を行うため、かかるニ
ューロンの学習機能をデータ分析に活用して、データマ
イニングを実現している。

【０００６】

【発明が解決しようとする課題】しかしながら、このニ
ューラルネットワーク技術には、学習結果に対して複雑
な変換を施さなければ知識ベースとして利用できないと
いう特性があるため、例えば株価の操作のような結果の
みを利用するシステムには有効であるが、学習結果を知
識ベースに反映してエキスパートシステムで利用するこ
とは難しい。

【０００７】また、このニューラルネットワーク技術に
は、各ニューロンにデータを学習させる際に人が介在し
なければならないという特性を有するため、完全自動化
によるデータマイニングを行うことは難しい。

【０００８】このように、かかるニューラルネットワー
ク技術は、データマイニングを行う上で有用である反
面、知識ベースへの応用及び自動化等の面で著しく制約
を受けるという問題がある。

【０００９】そこで、本発明では、上記問題点を解決
し、学習目標概念に関連する知識を帰納論理プログラミ
ングの背景知識として利用しつつ、データベースからの
データマイニングを自動的に行うことができる知識発見
システムを提供することを目的とする。

【００１０】

【課題を解決するための手段】上記目的を達成するた
め、第１の発明は、データベースに格納したデータから
知識を発見し、発見した知識をエキスパートシステムが
有する知識ベースに供給する知識発見システムにおい
て、正事例、負事例、背景知識、モード宣言及びタイプ
情報を少なくとも有する入力ファイルを前記データベー
スに保持したデータから自動生成する自動生成手段と、
前記自動生成手段が生成した入力ファイルに基づいて学
習を行い、一階述語論理に基づく帰納推論を行う帰納推
論手段とを具備することを特徴とする。

【００１１】また、第２の発明は、前記自動生成手段
は、前記データベースに格納した個々のデータの属性間
の相互関係に基づいて背景知識を生成する背景知識生成
手段を具備することを特徴とする。

【００１２】また、第３の発明は、前記自動生成手段
は、正事例が有する複数の要素から一要素を除外した条
件を満たす事例のみを前記データベースから抽出して負
事例を生成する負事例生成手段をさらに具備することを
特徴とする。

【００１３】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。

【００１４】本実施の形態では、データベースに格納し
たデータから有効な知識を獲得する際に、ＤＢアンプ
（DataBase Amplifier）を用いてデータベースからのデ
ータマイニングを自動的に行っている。

【００１５】このため、本実施の形態で用いる知識発見
システムの構成を説明する前に、標準的な知識獲得処理
を考えた場合におけるこのＤＢアンプの位置づけとその
概要について説明する。

【００１６】図２は、このＤＢアンプの知識獲得処理に
おける位置づけを示す図である。

【００１７】図２に示すように、知識獲得の標準的な手
順は、専門家等に対するインタビューによる事実のデー
タベース化（ステップ２０１）、データベースからの有
効なデータの抽出（ステップ２０２）、データ表現をル
ール獲得用に変換（ステップ２０３）、ルールの獲得
（ステップ２０４）、知識表現への変換（ステップ２０
５）、知識ベースへの格納（ステップ２０６）からな
る。

【００１８】ここで、このＤＢアンプは、データベース
からデータを抽出する段階（ステップ２０２）から、獲
得したルールを知識表現に変換する段階（ステップ２０
５）までの処理を担うものである。

【００１９】すなわち、本実施の形態では、このＤＢア
ンプを用いることにより、データベースから直接知識獲
得を行うためのインターフェース部分となるモジュール
のフレームワークを構築している。

【００２０】具体的には、このＤＢアンプは、ルールの
獲得及び知識表現への変換（ステップ２０４〜２０５）
については機械学習システムを用いて実現することと
し、この機械学習システムに対してデータベースのデー
タを受け渡すために、有効なデータの抽出とデータ表現
の変換（ステップ２０２〜２０３）を行っている。

【００２１】したがって、このＤＢアンプを用いること
により、十分な量の情報を持つデータベースさえ構築で
きれば、知識獲得をコンピュータに実行させることが可
能となる。

【００２２】図３は、図２に示すＤＢアンプの概略構成
を示す図である。

【００２３】図３に示すように、このＤＢアンプでは、
ＩＬＰシステム（Inductive LogicProgramming）をメイ
ンアンプとして採用するとともに、このＩＬＰシステム
とデータベースとを直接つなぐ汎用的なフレームワーク
としてプリアンプを設けた構成となる。

【００２４】ここで、このＩＬＰシステムとは、命題論
理を基にするこれまでの機械学習のアプローチを発展さ
せた一階述語論理に基づくシステムであり、正事例と負
事例に加えて背景知識（background knowledge）を利用
できるものである。

【００２５】このように、このＩＬＰシステムでは、背
景知識を利用して個々のデータの属性間の制約や属性値
の階層構造、包含関係といった制約を付加することによ
り閉世界を構築することができる。

【００２６】そして、このような閉世界をの構築が可能
になると、知識獲得時の計算量の爆発を解決できるとと
もに、ノイズや誤りに対する処理を行うことも可能とな
る。

【００２７】なお、ここで言う正事例（positive data
example）とは、指定された引数を全て含む事例を意味
するものとし、負事例（negative data example）と
は、正事例以外の事例のうちＩＬＰシステムの学習に使
用する事例を意味するものとする。

【００２８】また、このＩＬＰシステムとして、ＣＬＩ
ＮＴ、ＲＵＴＨ及びＰＲＯＧＯＬ等の各種システムが知
られているが、本実施の形態では、ＰＲＯＧＯＬをメイ
アンプとして採用することとする。

【００２９】このＰＲＯＧＯＬを採用した理由は、デー
タベースからの知識獲得を行う際に、他のＩＬＰシステ
ムのデータベースからの知識獲得におけるいくつかの課
題が既に解決されており、また、プリアンプとのデータ
の引き渡しを実現する仕組みがＰＲＯＧＯＬ中に既に一
部実装されているためである。

【００３０】具体的には、このＰＲＯＧＯＬは、リファ
インメントグラフのトップダウン検索と最特殊仮説に基
づくボトムアップを組み合わせたものであり、与えられ
た事例を必要とする最も特殊なクローズ（clause）をモ
ード宣言（mode declaration）で用意された言語によっ
て行うことにより、逆解（inverse solution）を求める
ものである。

【００３１】このため、本実施の形態では、このモード
宣言と、扱うデータの特性を記述するタイプ情報（type
information）とを用いてプリアンプとのデータの引き
渡しを行うこととした。

【００３２】以上、本発明に係わるＤＢアンプの位置づ
けとその概要について説明した。

【００３３】次に、本実施の形態で用いる知識発見シス
テムの構成について説明する。

【００３４】図１は、本実施の形態で用いる知識発見シ
ステムの全体構成を示すブロック図である。

【００３５】図１に示すように、この知識発見システム
は、知識ベース１７に基づいて問題を解決するエキスパ
ートシステム１６と、データベース１８と、ＤＢアンプ
１０とからなる。

【００３６】すなわち、本実施の形態で用いる知識発見
システムでは、データベース１８とエキスパートシステ
ム１６との間にＤＢアンプ１０を介在させることによ
り、データベース１８から取得した知識をエキスパート
システム１６の知識ベース１７にフィードバックしてい
るのである。

【００３７】すなわち、このＤＢアンプ１０は、データ
ベース１８からルールを抽出して知識ベース１７に格納
する処理部であり、実際に分類学習を行うメインアンプ
すなわちＰＲＯＧＯＬ１４と、このＰＲＯＧＯＬ１４の
学習に必要な最適な入力ファイル１３をデータベース１
８の内容から自動的に生成するプリアンプ１２とを有す
る。

【００３８】そして、このプリアンプ１２では、生デー
タ変換ルール１１ａ、モード宣言１１ｂ、タイプ情報１
１ｃ及び要素定義１１ｄからなるインデックスファイル
１１を参照して、データベース１８のデータから入力フ
ァイル１３を作成し、この入力ファイル１３をＰＲＯＧ
ＯＬ１４に引き渡す。

【００３９】ここで、この生データ変換ルール１１ａと
は、後述するＲＥＲモデルの解釈に基づいてデータベー
ス１８に記憶したデータを変換するルールであり、モー
ド宣言１１ｂ及びタイプ情報１１ｃは、探索空間を定義
するためのものであり、要素定義１１ｄは、学習させた
い概念を他のいずれの述語で表現させるかを示す定義で
ある。

【００４０】また、上記プリアンプ１２が作成する入力
ファイル１３は、正事例１３ａ、負事例１３ｂ、背景知
識１３ｃ、モード宣言１３ｄ及びタイプ情報１３ｅを含
み、この背景知識１３ｃには、背景知識として学習のタ
ーゲットとなる概念を表現するための述語の定義を示す
要素条項と、正事例を参照して生成された疑似生データ
という２つの要素が含まれる。

【００４１】なお、この背景知識１３ｃは、本実施の形
態が新たに導入したＲＥＲモデルの概念における派生属
性に基づいて同定され、かかる背景知識１３ｃを入力フ
ァイル１３に設けることにより、ＰＲＯＧＯＬ１４によ
る最短時間での学習に大きな効果をもたらすことが可能
となる。

【００４２】次に、本実施の形態で採用するＲＥＲデー
タモデルについて説明する。

【００４３】図１に示すデータベース１８から帰納論理
プログラミングシステムであるＰＲＯＧＯＬ１４への入
力データを得るためには、目標概念及び背景知識の設計
が必要となる。そして、この目標概念を同定するために
は、対象概念を構成する独立変数の集合を決定しなけれ
ばならない。

【００４４】例えば、構造物の設計におけるＣＡＤデー
タから菱形のような特定形状を認識するプログラムを学
習する場合を考えると、この菱形を構成する４点がここ
での独立変数になることは自明であるが、通常の４角形
を考えた場合と同様に、その特徴を記述するためには、
４点の他に各点を結ぶ各辺の長さ、隣り合う２辺のなす
角度などが必要となる。

【００４５】ところが、これら４点の座標が与えられる
と、線分の長さや隣り合う辺の角度はこの４点の座標か
ら計算することができる。

【００４６】したがって、本実施の形態では、独立変数
のみを目標概念の引数として付与し、かかる独立変数か
ら計算できる属性については背景知識として定義するこ
ととした。

【００４７】このため、本実施の形態では、意味の記述
を行うためのデータモデルであるＥＲモデル（Entry Re
lationship Model）の概念を拡張して、属性を基本属性
（primitive property）と派生属性（derived propert
y）に分けたＲＥＲモデル（Refined Entry Relationshi
p Model）の概念を新たに導入した。

【００４８】図４は、本実施の形態で採用するＲＥＲモ
デルをＣＡＤに適用した場合の一例を示す図である。

【００４９】図４に示すように、このＲＥＲモデルは、
２つのライン（line）が接続されている場合のモデルを
示しており、具体的には、ライン４１には、該ラインの
端点となるノード座標を示すノード（node）４２と、該
ラインの長さを示すレングス（length）４３とを属性と
して持つ。

【００５０】ここで、このノード４２は、独立変数であ
ることが明らかなため基本属性として取り扱い、レング
ス４３は、ノード４２が有する座標から算定することが
できるため派生属性として取り扱うことになる。

【００５１】すなわち、かかるノード４２は目標概念の
引数として用いられ、一方レングス４３は図１に示す背
景知識１３ｃとして使用される。

【００５２】次に、このＲＥＲモデルに基づく目標概念
及び背景知識の設定について説明する。

【００５３】本実施の形態では、上記ＲＥＲモデルにお
ける全てのエンティティ（Entity）に付随する基本属性
を引数とする述語として学習目標概念を定義する。

【００５４】そして、各エンティティと基本属性との間
の関連を明示するために、エンティティ名をファンクタ
とする＜Entity_Name＞（PP1,…,PPn）という形式の構造体を導入する。ただし、PPi（i=1〜
n）はエンティティの基本属性を示すものとする。

【００５５】さらに、目標概念全体は、目標概念名を述
語名とし、各エンティティに対する上記構造体を引数と
する述語として定義される。

【００５６】一方、各エンティティの各派生属性に対応
して、その派生属性名を述語名とする述語を導入する。
そして、この述語の引数としては、その派生属性が依存
する基本属性若しくは他の派生属性を用いる。

【００５７】各述語の定義は、その派生属性を反映する
ように、論理プログラムによって定義されなければなら
ないが、この部分については人手による定義にゆだねら
れている。

【００５８】次に、図１に示すプリアンプ１２が行う負
事例の自動生成について説明する。

【００５９】従来、分類問題における負事例を生成する
際には、他のクラスに属する負事例をそのクラスの負事
例とするのが一般的であり、機械的にその生成を行うこ
とが可能となる。

【００６０】しかしながら、かかる生成技術を用いて負
事例を生成すると、データベース１８の規模が大きくな
ればなるほど、これに比例して負事例の数が増加する結
果となる。したがって、かかる負事例を精査することな
くＰＲＯＧＯＬ１４に引き渡すと、かかる負事例を用い
た学習のための計算量が爆発的に累増してしまう。

【００６１】このため、本実施の形態では、正事例でな
いデータの中で正事例に近いもののみを負事例として選
択することによって負事例の量を必要最小限に押さえ、
ＰＲＯＧＯＬでの処理を軽減することとした。

【００６２】具体的には、正事例の中から１つのデータ
を取り出したならば、このデータが持つ引数を調べ、任
意の１つ引数を除いた他の引数を全て含むデータが存在
すればこれを負事例として選択する。かかる処理を全て
の正事例に対して行い、出力された結果のみを負事例と
して採用する。

【００６３】このため、ある正事例に着目すると、該正
事例が持つ全ての引数のうち、１つだけ引数が足らない
データが負事例として採用されるため、正事例に近い有
用なデータのみを負事例として選択でき、その負事例数
を必要最小限に押さることができたことになる。

【００６４】図５は、図１に示すプリアンプ１２が行う
負事例生成の一例を示す図である。

【００６５】図５に示すように、例えば正事例が、 predicate（[v11,v12],[v21,v22],[v31,v32],[v41,v4
2],…）. であるとすると、とえあえず引数[v11,v12]を除いた１
つの近似事例 predicate（…,[v21,v22],…,[v31,v32],…,[v41,v42],
…）. を作成する。

【００６６】そして、この近似事例に基づいてデータベ
ース１８を検索すると、該近似事例の全ての引数を有す
る predicate（[v91,v92],[v21,v22],[v31,v32],[v41,v4
2],[v221,v222]）. predicate（[v31,v32],[v41,v42],[v21,v22]）. predicate（[v51,v52],[v41,v42],[v31,v32],[v101,v10
2],[v21,v22]）. をそれぞれ得ることができる。

【００６７】その後、得られたデータの前に”：−”を
付加して負事例であることを明示した後、正事例から別
の１つの引数を除外して同様に近似事例を作成し、該近
似事例に基づいてデータベース１８から同様に負事例を
検索する。

【００６８】このようにして、正事例の引数を１つだけ
欠いたデータを負事例としてデータベース１８から抽出
することになる。

【００６９】次に、本実施の形態で行う有限探索空間の
設定について説明する。

【００７０】有限時間内に効果的な学習を行うために
は、効果的に探索空間を設定することが必要となるた
め、本実施の形態では、正事例に現れるデータのみを述
語の変数のドメインとする考え方を採用し、有限領域を
与えるタイプ情報を正事例中のデータのみによって定義
して、正事例の引数のとる値のみに探索空間を限定する
こととした。

【００７１】すなわち、本実施の形態で用いるＰＲＯＧ
ＯＬ１４では、モード宣言で述語の引数のタイプを指定
し、タイプ情報の指定によってドメインが決定されるた
め、このＰＲＯＧＯＬ１４の仕組みを利用して探索空間
を設定したのである。

【００７２】次に、図１に示すＤＢアンプ１０を用いた
場合と用いない場合の負事例及び背景知識のデータ数の
関係について説明する。

【００７３】図６（ａ）は、図１に示すＤＢアンプ１０
を用いない場合の負事例及び背景知識のデータ数の関係
を示す図である。

【００７４】同図に示すように、この場合には負事例数
及び背景知識のデータ数がともに多くのデータ数を持
つ。このため、メイアンプであるＰＲＯＧＯＬ１４が分
類学習を行う際の計算量的負担は大きくなることが分か
る。

【００７５】図６（ｂ）は、図１に示すＤＢアンプ１０
を用いた場合の負事例及び背景知識のデータ数の関係を
示す図である。

【００７６】同図に示すように、この場合には負事例数
及び背景知識のデータ数がともに低減されている。この
ため、ＰＲＯＧＯＬ１４が分類学習を行う際の計算量的
負担は軽減されることが分かる。

【００７７】以上、本実施の形態が新たに導入したＲＥ
Ｒモデルの概念と、目標概念及び背景知識と、負事例の
自動生成と、有限探索空間の設定とについて説明した。

【００７８】次に、この知識発見システムを実際のエキ
スパートシステムである応答文自動検索メールシステム
に展開した場合について説明する。

【００７９】なお、ここで用いるデータベースは、イン
ターネット（Internet）を介して入手した電子メールと
その応答結果を格納する事例データベースであり、また
エキスパートシステムは、過去に入手した問い合わせの
事実データから典型的な質問パターンを抽出し、そのお
のおのに該当する内容のメール文書を正事例とするルー
ルの知識獲得を行うものである。

【００８０】すなわち、このエキスパートシステムは、
新たに問い合わせメールを入手したならば、このエキス
パートシステムの持つ推論エンジンが自動的に知識ベー
スを参照し、メールの内容がどの典型質問パターンのル
ールと合致するかを判定し、典型質問パターンごとに格
納されている典型質問文を表示する。

【００８１】このため、ここで用いる知識発見システム
は、専門家がどのような最終的な判断を下したか（エキ
スパートシステムが出力した結果通りに返信したか、他
の回答を指示したか）を格納する事例データベースから
新たなルールを学習する知識獲得をＤＢアンプに行わせ
ることになる。

【００８２】なお、ルールのレビューのプロセスについ
ては、唯一コンピュータシステム化しないこととする
が、その理由は、抽出された結果を確認作業を行わずに
直接知識ベースに格納することとすると、エキスパート
システムの出力結果に極端な異常値が発生するおそれが
あるためである。

【００８３】次に、この知識発見システムが行う処理の
流れについて説明する。

【００８４】図７は、知識発見システムをメールシステ
ムに適用した場合の処理の流れを示す図である。

【００８５】図７に示すように、まず最初にエキスパー
トシステム７０がメールを受信したならば（ステップ７
０１）、キーワード辞書を用いてメールからキーワード
を抽出し（ステップ７０２〜７０３）、知識ベースを用
いて推論エンジンによる推論を実行する（ステップ７０
４〜７０５）。

【００８６】そして、この推論の結果得られた候補パタ
ーンとその詳細をリスト化し（ステップ７０６）、最適
候補を選択するとともにメール応答を行う（ステップ７
０７）。

【００８７】そして、この応答結果は、ＤＢアンプ７１
の事例データベースに登録され（ステップ７０８）、入
力ファイルジェネレータたるプリアンプがこの事例デー
タベースを参照して入力ファイルを作成する（ステップ
７０９〜７１０）。

【００８８】なお、このＤＢアンプ７１はＰＲＯＧＯＬ
をデータマイニングエンジンとして採用するため、ここ
で作成した入力ファイルは、図１に示す入力ファイル１
３と同様に、正事例、負事例、背景知識、モード宣言及
びタイプ情報を有することになる。

【００８９】その後、この入力ファイルを受け取ったデ
ータマイニングエンジンすなわちＰＲＯＧＯＬが帰納推
論を行い、学習したルールを出力する（ステップ７１１
〜７１２）。

【００９０】そして、このルールはあらためてエキスパ
ートシステムの知識ベースに格納され（ステップ７０
５）、次回以降のメール受信時の推論エンジンによる推
論に利用される。

【００９１】ここで、この事例データベースの内容は、
過去の電子メールの応答記録であり、事務機器メーカＡ
社での顧客若しくは潜在顧客を対象とした問い合わせ応
対業務を蓄積したものを想定している。

【００９２】また、電子メールによる問い合わせ内容の
ほとんどは、Ａ社が発売している事務機器に関する使用
上の障害や要求に関するものであり、これらのメールを
２０の典型的な質問文として分類するとともに、新たな
質問文が２０のカテゴリーのいずれに属するかを判定す
るためのルールを学習させるものとする。

【００９３】図８は、上記事例データベースの構造を示
す図である。

【００９４】図８に示すように、この事例データベース
では、問い合わせ日時を示す”ＱＤａｔｅ”、”返信ア
ドレス”、”会社名”、”お客様名”、”住所”及び”
電話番号”と、”質問内容”と、”Ｑｋｅｙｗｏｒｄ”
と、”該当典型質問文”というフィールドを有してい
る。

【００９５】ここで、フィールド”質問内容”には、電
子メールに記載されていた問い合わせの原文が格納さ
れ、フィールド”Ｑｋｅｙｗｏｒｄ”には、概念辞書の
参照によって抽出されたキーワードのリストが格納さ
れ、フィールド”該当典型質問文”には、専門家による
いずれの典型質問文に該当するかの判断結果が格納され
ている。特に、フィールド”該当典型質問文”には、フ
ォーム１〜２０までに分類された結果が数値で記載され
ている。

【００９６】図９は、本ＤＢアンプ７１によって獲得さ
れた知識の一例を示す図である。

【００９７】図９に示すように、この獲得ルールは、
「メールの質問文Ａが’カラーコピ’と’方法’という
キーワードを持ち、かつ、’切’というキーワードを持
たず、かつ、リスト長が４以下のとき、典型質問文の１
番に分類される（同様の意味の質問文と理解できる）」
という内容を意味している。

【００９８】次に、図７に示すエキスパートシステム７
０について説明する。

【００９９】このエキスパートシステム７０への入力
は、インターネット上のＷＷＷ（World Wide Web）サー
バ宛の電子メールであり、サーバ上のホームページを実
現するＨＴＭＬ（HiperText Makeup Langage）中に、Ｃ
ＧＩを用いて電子メール送信用のツールを実装してい
る。

【０１００】そして、このツールで作成したファイルを
Ａ社のインターネット接続サーバ上のホームページ中に
搭載するとともに、質問者からの情報はＡ社の一部門で
ある「お客様相談センター」の顧客対応のエキスパート
システム宛に自動的に送信される。

【０１０１】図１０は、ＷＷＷのホームページに設けた
電子メール送信用ツールの一例を示す図である。

【０１０２】図１０に示すように、この電子メール送信
用ツールは、質問内容の入力枠と、インターネットアド
レスの入力枠と、住所、会社名、名前及び電話番号の入
力枠とがそれぞれ設けられている。

【０１０３】このため、質問者は、これらの箇所に該当
事項を入力した後、ツールの最下部に設けた送信枠をマ
ウス等で指示することにより、電子メールをエキスパー
トシステムに自動送信することができる。

【０１０４】再びエキスパートシステムの説明に戻る
と、このエキスパートシステムは、入力した電子メール
の問い合わせの本文を概念辞書に照らし合わせてキーワ
ード抽出を行い、リスト形式でデータベース中の該当す
るフィールドに格納する。

【０１０５】また、推論エンジンは、キーワードのリス
トを入力データとして知識ベースを参照する。ただし、
本実施の形態ではデータベースの内容がＲＥＲモデルに
基づいて解釈するよう構成したことから、獲得されたル
ールは全て原始的な述語に変換され、推論の対象とな
る。

【０１０６】このため、例えばＤＢアンプ７１の出力結
果として得られたルールがｈａｖｅ（Ａ，ｋｅｙｗｏｒｄＸ）ｏｒｄｅｒ（ｋｅｙｗｏｒｄＹ，ｋｅｙｗｏｒｄＺ）ｎｏｔ＿ｈａｖｅ（Ａ，ｋｅｙｗｏｒｄＷ）であるときには、エキスパートシステムの推論エンジン
は、この典型質問文に該当する条件を以下のように解釈
する。

【０１０７】すなわち、リストの要素を順に抽出してゆ
くと、（１）ｋｅｙｗｏｒｄＸが少なくとも１つ抽出され
る。

【０１０８】（２）ｋｅｙｗｏｒｄＹが少なくとも１
つ抽出される。

【０１０９】（３）ｋｅｙｗｏｒｄＺが少なくとも１
つ抽出される。

【０１１０】（４）ｋｅｙｗｏｒｄＷは決して抽出さ
れない。

【０１１１】（５）ｋｅｙｗｏｒｄＹはｋｅｙｗｏｒ
ｄＺよりも先に抽出される。

【０１１２】という条件を満足するものである。

【０１１３】最終的に得られる結果は、図１１に示すよ
うに、「どの典型質問文にどれくらいの確からしさをも
って該当するか」を上記の条件を満たす割合を該当可能
性として、模範的な回答文（データベース中に典型質問
文とともに一意に決定されている）とともに出力する。

【０１１４】以上、本発明に係わる知識発見システムを
実際のエキスパートシステムである応答文自動検索メー
ルシステムに展開した場合について説明した。

【０１１５】上述してきたように、本実施の形態では、
プリアンプ１２がインデックスファイル１１に基づいて
データベース１８に格納したデータから入力ファイル１
３を自動生成し、この入力ファイル１３を基にメイアン
プであるＰＲＯＧＯＬ１４が学習を行い、その結果得ら
れた知識をエキスパートシステム１６の知識ベース１７
に格納するよう構成したので、下記に示す効果が得られ
る。

【０１１６】１）データベースからのデータマイニング
を自動的に行うことが可能となる。

【０１１７】２）データマイニングによって得られた知
識をエキスパートシステムの知識ベースに反映すること
ができる。

【０１１８】また、本実施の形態では、ＲＥＲモデルと
いう新たな概念を導入し、このＲＥＲモデルに基づいて
プリアンプ１２がデータベース１８に格納した個々のデ
ータの属性間の相互関係に基づいて背景知識１３ｃを作
成するよう構成したので、学習目標概念に関連する知識
を帰納論理プログラミングの背景知識として利用するこ
とができる。

【０１１９】さらに、本実施の形態では、プリアンプ１
２が入力ファイル１３を生成する際に、正事例が有する
複数の要素から一要素を除外した条件を満たす事例のみ
をデータベース１８から抽出して負事例を生成するよう
構成したので、負事例の総数を低減して、メインアンプ
であるＰＲＯＧＯＬ１４でのデータマイニングを効率良
く行うことができる。

【０１２０】

【発明の効果】以上詳細に説明したように、第１の発明
では、データベースに格納したデータから正事例、負事
例、背景知識、モード宣言及びタイプ情報を少なくとも
有する入力ファイルを自動生成し、生成した入力ファイ
ルに基づく学習を通じて一階述語論理に基づく帰納推論
を行って知識を発見し、発見した知識をエキスパートシ
ステムが有する知識ベースに供給するよう構成したの
で、下記に示す効果が得られる。

【０１２１】１）データベースからのデータマイニング
を自動的に行うことが可能となる。

【０１２２】２）データマイニングによって得られた知
識をエキスパートシステムの知識ベースに反映すること
ができる。

【０１２３】また、第２の発明では、入力ファイルを生
成する際にデータベースに格納した個々のデータの属性
間の相互関係に基づいて背景知識を作成するよう構成し
たので、学習目標概念に関連する知識を帰納論理プログ
ラミングの背景知識として利用することが可能となる。

【０１２４】さらに、第３の発明では、入力ファイルを
生成する際に正事例が有する複数の要素から一要素を除
外した条件を満たす事例のみをデータベースから抽出し
て負事例を生成するよう構成したので、負事例の総数を
低減して、データマイニングを効率良く行うことが可能
となる。

【図面の簡単な説明】

【図１】本実施の形態で用いる知識発見システムの全体
構成を示すブロック図。

【図２】ＤＢアンプの知識獲得処理における位置づけを
示す図。

【図３】図２に示すＤＢアンプの概略構成を示す図。

【図４】本実施の形態で採用するＲＥＲモデルをＣＡＤ
に適用した場合の一例を示す図。

【図５】図１に示すプリアンプが行う負事例生成の一例
を示す図。

【図６】図１に示すＤＢアンプを用いた場合と用いない
場合の負事例及び背景知識のデータ数の関係を示す図。

【図７】図１に示す知識発見システムをメールシステム
に適用した場合の処理の流れを示す図。

【図８】図７に示す事例データベースの基本構造を示す
図。

【図９】図７に示す事例データベースから抽出した獲得
ルールの一例を示す図。

【図１０】ＷＷＷのホームページ上に設けたメール送信
画面の一例を示す図。

【図１１】図７に示すエキスパートシステムからの出力
結果の一例を示す図。

【符号の説明】

１０…ＤＢアンプ、１１…インデックスファイル、
１２…プリアンプ、１３…入力ファイル、１４…メイ
ンアンプ（ＰＲＯＧＯＬ）、１５…ルール、１６…エ
キスパートシステム、１７…知識ベース、１８…デー
タベース、１１ａ…生データ変換ルール、１１ｂ…モ
ード宣言、１１ｃ…タイプ情報、１１ｄ…要素定義、
１３ａ…正事例、１３ｂ…負事例、１３ｃ…背景知
識、１３ｄ…モード宣言、１３ｅ…タイプ情報

フロントページの続き (72)発明者岡野洋神奈川県川崎市高津区坂戸３丁目２番１号ＫＳＰＲ＆Ｄビジネスパークビル富士ゼロックス株式会社内

Claims

【特許請求の範囲】

【請求項１】データベースに格納したデータから知識
を発見し、発見した知識をエキスパートシステムが有す
る知識ベースに供給する知識発見システムにおいて、正事例、負事例、背景知識、モード宣言及びタイプ情報
を少なくとも有する入力ファイルを前記データベースに
保持したデータから自動生成する自動生成手段と、前記自動生成手段が生成した入力ファイルに基づいて学
習を行い、一階述語論理に基づく帰納推論を行う帰納推
論手段と、を具備することを特徴とする知識発見システム。
【請求項２】前記自動生成手段は、前記データベースに格納した個々のデータの属性間の相
互関係に基づいて背景知識を生成する背景知識生成手段
を具備することを特徴とする請求項１記載の知識発見シ
ステム。
【請求項３】前記自動生成手段は、正事例が有する複数の要素から一要素を除外した条件を
満たす事例のみを前記データベースから抽出して負事例
を生成する負事例生成手段をさらに具備することを特徴
とする請求項２記載の知識発見システム。