JPH11250084A

JPH11250084A - データマイニング装置

Info

Publication number: JPH11250084A
Application number: JP10049739A
Authority: JP
Inventors: Susumu Shiraishi; 將白石; Hidetoshi Tanaka; 秀俊田中
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1998-03-02
Filing date: 1998-03-02
Publication date: 1999-09-17

Abstract

(57)【要約】【課題】変換方法や抽出の条件の設定を少しずつ変え
て試行錯誤を繰り返して相関ルールを抽出するデータマ
イニング装置を提供する。【解決手段】前処理設定手段は手続きファイルを生成
し、前処理実行手段は、複数の手続きファイルを関係デ
ータベースに適用して項目データベースを生成する。マ
イニング実行手段は、項目データベースの項目間の相関
ルールを抽出して結果ルールファイルとして出力する。
データベース変換手段は関係データベース内の属性と属
性値情報を属性ごとに記述したデータ辞書を出力し、デ
ータ辞書変換手段は、編集済の手続きファイルをデータ
辞書に適用して中間データ辞書を生成する。表示用属性
階層生成手段は、属性階層構造情報を中間データ辞書の
内容に基づいて変換して、木構造を出力する。前処理設
定手段やマイニング設定手段は出力された木構造を表示
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、関係データベース
中から相関ルールを抽出するデータマイニング装置に関
するものである。

【０００２】

【従来の技術】大量のデータの中から規則性を発見する
データマイニングの一方法として相関ルールの抽出があ
る。相関ルールとは「Ａ→Ｂ」の形式をしたルールであ
り、「データベース中でＡを含むレコードは、同時にＢ
も含むことが多い」ことを意味する。以下、Ａを条件
部、Ｂを結論部と呼ぶことにする。

【０００３】データベースをマイニングシステムで処理
するためには数値属性を記号値に変換する離散化などの
前処理が必要であるが、そのような前処理を含んだデー
タマイニング装置の構成方法については特開平８−７７
０１０号公報「データ分析方法および装置」（以下、従
来技術と呼ぶ）で開示されている。

【０００４】

【発明が解決しようとする課題】データマイニングを行
う場合、一回の実行で全ての有用なルールを抽出できる
ことは稀であり、前処理やマイニングの設定を変えて何
度も試行錯誤を繰り返さなければならないことが多い。

【０００５】従来技術では前処理を含むような統合化さ
れたデータマイニング装置について示されていた。しか
し、前処理で行う処理は、生成されるルールの制約設定
を除くと、数値属性の離散化と欠損値の処理のみであ
り、属性値のグルーピング、特定条件を満たすレコード
選択などの処理機能はなかった。そのため、きめの細か
い前処理は不可能であり、ゆえに豊富な前処理手続きを
使用した前処理適用の試行錯誤を効率よく行うための機
能はなかった。

【０００６】本発明の第１の目的は、上記の問題点を解
決し、豊富な前処理手続きの設定が可能であり、マイニ
ングプロセスにおいて少しづつ条件を変えて試行錯誤を
繰り返すことが容易であり、また種々の設定が簡単に行
えるような装置を提供することである。

【０００７】また、マイニングにより得られた相関ルー
ルの表示において、ある項目のみを含むような相関ルー
ルを抜き出して見ることが多いが、そのような処理をし
た後で、抜き出された相関ルールの数が逐一人手で調べ
るには多すぎることがわかり処理をやりなおさなければ
ならないことが良くある。従来技術では、事前にそれぞ
れの項目について、該項目を含む相関ルールに関する情
報を表示するような機能はなかった。

【０００８】本発明の第２の目的は、上記の問題点を解
決し、相関ルール表示において、どの項目を含む相関ル
ールを抜き出して見るかについて、利用者が判断を下し
やすいような装置を提供することである。

【０００９】

【課題を解決するための手段】第１の発明によれば、関
係データベースを入力とし、利用者の指定に従って、レ
コードが複数集まって構成され項目の集合からなる項目
データベースを出力する前処理実行手段と、項目データ
ベースを入力とし、その項目データベースの項目間の相
関ルールを抽出してその結果を結果ルールファイルとし
て出力するマイニング実行手段と、結果ルールファイル
の内容を表示する結果表示手段とから構成されるデータ
マイニング装置において：関係データベースから項目デ
ータベースに変換する手続きを記録する手続きファイル
を入力とし、該手続きファイルに対して、数値属性の離
散化に関する手続き、属性値のグルーピングに関する手
続き、属性値の無値への置き換えに関する手続き、属性
の削除に関する手続き、特定条件を満たすレコードの選
択に関する手続き、属性値に属性情報を付与する項目化
に関する手続き、項目のグルーピングに関する手続き、
のうちいずれかの手続きの追加や削除や変更などの編集
を行う手続きファイル編集手段と、前処理実行手段にお
いて使用する一つまたは複数の手続きファイルとその適
用の順序とを指定する手続きファイル適用設定手段と、
を有する前処理設定手段を備えるように構成される。

【００１０】第２の発明によれば、本発明のデータマイ
ニング装置は、関係データベースを入力とし、関係デー
タベース内の属性名と属性値情報を属性ごとに記したデ
ータ辞書を出力するデータベース解析手段と、データ辞
書および、手続きファイル適用設定手段で指定された既
に編集済みの一つまたは複数の順序付けられた手続きフ
ァイルとを入力とし、データ辞書に手続きファイルを適
用した結果である中間データ辞書を出力するデータ辞書
変換手段と、データ辞書または中間データ辞書、および
関係データベースの属性間の関係を階層構造として記述
した属性階層構造情報とを入力とし、属性階層構造から
中間データ辞書内に含まれない属性を削除し、各属性の
下位に属性値を付加した形式の階層構造を出力する表示
用属性階層生成手段とをさらに備え、前処理設定手段
は、表示用属性階層生成手段が出力した階層構造を表示
する前処理時属性階層表示手段をさらに有するように構
成される。

【００１１】第３の発明によれば、本発明のデータマイ
ニング装置の前処理時属性階層表示手段は、階層構造の
表示の際、属性グループと属性と属性値とを、利用者に
区別がつくようにそれぞれ異なる形態で表示するように
構成される。

【００１２】第４の発明によれば、本発明のデータマイ
ニング装置の手続きファイル編集手段は、前処理時属性
階層表示手段で利用者が選択したノードに関する手続き
の編集を可能とするように構成される。

【００１３】第５の発明によれば、本発明のデータマイ
ニング装置の手続きファイル編集手段は、利用者が前処
理時属性階層表示手段のあるノードを選択して数値属性
の離散化に関する手続きまたは属性の削除に関して行っ
た追加の手続きに基づいて、該ノードの下位にある全て
の属性ノードに対して自動的に同様の手続きが追加され
るように構成される。

【００１４】第６の発明によれば、本発明のデータマイ
ニング装置の前処理時属性階層表示手段は、階層構造の
表示の際、編集中の手続きファイル内の各手続きに対応
するノードを強調表示するように構成される。

【００１５】第７の発明によれば、本発明のデータマイ
ニング装置の前処理設定手段は、数値属性の離散化に関
する手続きを含んで構成される第１手続きファイル、属
性値のグルーピングおよび属性値の無値への置き換えお
よび属性の削除および特定条件を満たすレコードの選択
に関する手続きを含んで構成され第１手続きファイルに
依存する第２手続きファイル、属性値に属性情報を付与
する項目化および項目のグルーピングに関する手続きを
含んで構成され第１手続きファイル及び第２手続きファ
イルに依存する第３手続きファイルを作成し、関係デー
タベースに対して第１手続きファイル、第２手続きファ
イル、第３手続きファイルの順に適用されることを保証
するように構成される。

【００１６】第８の発明によれば、本発明のデータマイ
ニング装置の前処理設定手段は、事前に編集された第
１、第２、第３手続きファイルのうち、正しい依存関係
にある手続きファイルの組みのみを選択できるような手
続きファイル適用設定手段を備えるように構成される。

【００１７】第９の発明によれば、本発明のデータマイ
ニング装置は、表示用属性階層生成手段が出力した階層
構造を表示するマイニング時属性階層表示手段と、項目
データベース内の各項目に対して、相関ルールの条件部
のみに現れても良い、または相関ルールの結論部のみに
現れても良い、または相関ルールの条件部結論部のどち
らに現れても良い、または相関ルールに現れてはいけな
い、の４種類のモードのいずれかを指定する条件部結論
部設定手段とを有するマイニング設定手段を備え、条件
部結論部設定手段はマイニング時属性階層表示手段のノ
ードを選択してモードを指定することにより、該ノード
の下位にある全てのノードも自動的に同一モードとして
指定されるように構成される。

【００１８】第１０の発明によれば、本発明のデータマ
イニング装置のマイニング時属性階層表示手段は、条件
部結論部設定手段によるモードの指定によって、各ノー
ドの表示形態を利用者に区別がつくように異なるものに
するように構成される。

【００１９】第１１の発明によれば、本発明のデータマ
イニング装置のマイニング時属性階層表示手段は、条件
部結論部設定手段によるモードの指定によって、各ノー
ドについて該ノードと該ノードの下位にあるノードのモ
ードが全て同じになっている場合、該ノードを強調表示
するように構成される。

【００２０】第１２の発明によれば、本発明のデータマ
イニング装置の結果表示画面は、全項目と共に各項目を
含む相関ルールの数を表示するように構成される。

【００２１】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面に基づいて説明する。本実施の形態では、健康診
断データベースを対象とした相関ルール抽出を行う場合
について述べる。

【００２２】図１に健康診断データベースの例を示す。
このデータベースは、複数の各人のレコードから構成さ
れ、各人のレコードには、氏名ＩＤ、性別、年齢等の一
般情報の他、身長等の身体計測データ、問診票回答デー
タ、精密診断データ等が含まれる。たとえば、ＩＤ００
０１の人のレコードをみると、性別は「男」、年齢は
「２２」、身長は「１５９」、握力（右）は「４４」、
問診票回答データの肩こりの欄は「いつも」のようなデ
ータが蓄積されている。利用者はこのようなデータベー
ス中の複数のデータをデータマイニング装置で処理する
ことによって生活習慣と健康状態との関係を抽出し、病
気の予防に役立てることができる。データマイニングの
方式には各種あるが、本データマイニング装置は相関ル
ールの抽出を行う。健康診断データベースからは、例え
ば「肥満度高い→血圧高い」等の相関ルールが抽出され
る。この相関ルールは、肥満度が高い人は血圧も高いこ
とが多い、ことを意味している。

【００２３】図２はデータマイニングの処理の流れを示
す。データマイニング処理においては、まず前処理実行
２１によって、上記の分析対象のレコードが蓄積された
関係データベース３０１から項目データベース３０４を
作成する。項目データベース３０４は、関係データベー
ス３０１とは異なり、項目の集合からなる不定長のレコ
ードが複数集まって構成されている。前処理では連続値
の離散化、データの絞り込み、属性値に属性情報を付与
する項目化等の処理を行うが、詳細については後述す
る。前処理の内容は事前に利用者が前処理設定２４によ
って設定しておく。前処理設定２４では、利用者は手続
きファイルの作成と、使用する手続きファイルの選択を
行う。次にマイニング実行２２によって項目データベー
ス３０４から相関ルールを抽出する。マイニングのパラ
メータや、相関ルールの条件部と結論部の項目指定は事
前に利用者がマイニング設定２５によって設定してお
く。最後に結果表示２３により、抽出された相関ルール
を画面に表示する。この際、ある項目だけを含む相関ル
ールを抜き出して見たり、ある相関ルールが当てはまる
ようなデータを参照したりすることにより、分析を進め
る。結果に満足がいかない場合は、前処理設定２４やマ
イニング設定２５をやり直して実行を繰り返す。

【００２４】図３は、図２に示すデータマイニング装置
全体の詳細ブロック図を示す図である。図４は図３の前
処理設定手段３１１の詳細ブロック図を示す図である。
図５は図３のマイニング設定手段３１３の詳細ブロック
図を示す図である。

【００２５】前処理実行前処理実行に関して、図２および図３を基にして説明す
る。手続きファイル３１２の蓄積された各手続きファイ
ルは、一つまたは複数の手続きから構成されている。各
手続きはデータベースに対する変換方法を記述した文字
列で構成される。手続きファイルには第１手続きファイ
ル、第２手続きファイル、第３手続きファイルの３種類
がある。

【００２６】第１手続きファイルは、数値属性の離散化
に関する手続きを含んで構成される。数値属性の離散化
とは、数値属性の取る範囲を境界値によっていくつかの
領域に分割し、分割された各領域に異なる名前を付けて
新たな属性値とすることである。ある項目が含まれるレ
コード数が全体に対して少ない場合、相関ルール抽出の
アルゴリズムの性質上、該項目を含むような相関ルール
は抽出されないので、離散化手続きが必要である。

【００２７】第２手続きファイルは、データの絞り込
み、つまり、属性値のグルーピングおよび属性値の無値
への置き換えおよび属性の削除および特定条件を満たす
レコードの選択に関する手続きを含んで構成される。属
性値のグルーピングとは、いくつかの属性値をまとめて
ひとつの属性値とすることである。属性値の無値への置
き換えとは、ある属性値を削除することである。ある項
目が含まれるレコード数が全体に対して占める割合が大
きい場合、相関ルール抽出のアルゴリズムの性質上、該
項目を含むような相関ルールが膨大に生成されるので、
それを防ぐために該属性値が削除されたりする。

【００２８】第３手続きファイルは、属性値に属性情報
を付与する項目化および項目のグルーピングに関する手
続きを含んで構成される。項目化を適用しないと、属性
情報が反映されないので、例えば、本来「肥満度高い→
血圧高い」となるべき相関ルールが「高い→高い」のよ
うな形式で出力されてしまう。従って、意味のある相関
ルールを出力するためには、項目化は必須である。デー
タベースに項目化手続きを適用することによって、不定
長のレコードが複数集まって構成される項目データベー
スが生成される。

【００２９】図３において、利用者３１８が前処理実行
の指示を出すと、前処理実行手段３０２は、図４に示す
手続きファイル適用設定手段４４で事前に選択された第
１、第２、第３手続きファイルをこの順序で逐次的に関
係データベース３０１に適用して項目データベース３０
４を生成する。

【００３０】図６は、本実施の形態における前処理実行
の処理の流れを示す図である。図６においては、ステッ
プ６１において、関係データベース３０１からデータを
読出し、ステップ６２で読出したデータを離散化し、ス
テップ６３でデータの絞り込みを行い、ステップ６４で
データの項目化を行い、ステップ６５で項目データベー
ス３０４を生成する。このとき、全ての手続きファイル
適用後の項目データベース３０４だけでなく、それぞれ
の手続きファイル適用後の中間データベース３０３を保
存するように設定することも可能である。この場合は、
ステップ６６において、ステップ６２で離散化されたデ
ータから中間データベース３０３を生成し、ステップ６
７で、ステップ６３で絞り込まれたデータを中間データ
ベース３０３として生成する。これらの中間データベー
ス３０３は関係データベース３０１と同じ構造をしてい
る。

【００３１】このような前処理実行によれば、条件を少
し変えて前処理実行をやり直す場合に、既に存在する手
続きファイルを編集して適用し直すだけで良いので、試
行錯誤が簡単に行える、という効果がある。また、以上
の３種類の手続きファイルの逐次的な適用を行う枠組み
を持ったデータマイニング装置を提供することにより、
必要にして十分な前処理実行を行うことができるという
効果がある。

【００３２】さらに、各手続きファイル適用後の中間デ
ータベース３０３を保存することにより、前処理実行手
段３０２への入力を関係データベース３０１の代わりに
該中間データベース３０３として、既に実行済の処理を
再度行う手間を省くことができる、という効果がある。

【００３３】手続きファイルの例次に、第１手続きファイルの例を図７に示す。図７にお
いては、各行が一つの手続きに対応している。たとえ
ば、第１手続きファイル７０の第１行の手続き７１は、
「属性＜年齢＞を境界値＜３０＞＜４０＞＜５０＞で属
性値＜３０以下＞＜３０−４０＞＜４０−５０＞＜５０
以上＞に離散化します」と定義されている。この第１行
の手続き処理によって、属性＜年齢＞が３０，４０，５
０の境界点を分岐点として、属性値が＜３０以下＞＜３
０−４０＞＜４０−５０＞＜５０以上＞のデータ群に離
散化される。他の手続き行についても同様である。手続
き７２や手続き７３のように、他属性の値によって異な
る境界値を取るような離散化手続きもサポートする事が
できる。第２行の手続き７２は、たとえば、「条件＜性
別＝男＞の下で属性＜身長＞を境界値＜１６０＞＜１８
０＞で属性値＜低＞＜中＞＜高＞に離散化します」と定
義されている。この第２行の手続き処理によって、＜性
別＝男＞の条件下で属性＜身長＞を１６０，１８０の境
界点を分岐点として、属性値＜低＞＜中＞＜高＞に離散
化される。第３行の手続き７３は、たとえば、「条件＜
性別＝女＞の下で属性＜身長＞を境界値＜１５０＞＜１
７０＞で属性値＜低＞＜中＞＜高＞に離散化します」と
定義されている。この第３行の手続き処理によって、＜
性別＝女＞の条件下で属性＜身長＞を１５０，１７０の
境界点を分岐点として、属性値＜低＞＜中＞＜高＞に離
散化される。第４行の手続き７４は、たとえば、「属性
＜握力（右）＞を境界値＜３０＞＜４０＞＜５０＞＜６
０＞で属性値＜３０以下＞＜３０−４０＞＜４０−５０
＞＜５０−６０＞＜６０以上＞に離散化します」と定義
されている。この第４行の手続き処理によって、属性＜
握力（右）＞を３０，４０，５０，６０の境界点を分岐
点として、＜３０以下＞＜３０−４０＞＜４０−５０＞
＜５０−６０＞＜６０以上＞に離散化される。

【００３４】図１の関係データベースに図７の第１手続
きファイルを適用した結果得られる中間データベースを
図８に示す。図８において、上記の図７の第１行の手続
き７１において、属性＜年齢＞が＜３０以下＞＜３０−
４０＞＜４０−５０＞＜５０以上＞に離散化され、第２
行および第３行の手続き７２および７３において、属性
＜身長＞が＜低＞＜中＞＜高＞に離散化され、第４行の
手続き７４において、属性＜握力（右）＞が＜３０以下
＞＜３０−４０＞＜４０−５０＞＜５０−６０＞＜６０
以上＞に離散化された結果のみが表示されていることが
分かる。

【００３５】図９は第２手続きファイルの例を示す図で
ある。図９において、第１行の手続き９１は属性削除の
手続き例である。手続き９１では、「属性＜ＩＤ＞を削
除します」と定義されている。第２行の手続き９２は特
定条件を満たすレコード選択の手続き例である。手続き
９２では、「属性＜身長＞の属性値＜低＞＜高＞を選択
します」と定義されている。第３行の手続き９３は属性
削除の手続き例である。手続き９３では、「属性＜握力
（右）＞を削除します」と定義されている。第４行の手
続き９４は属性値のグルーピングの手続き例である。手
続き９４では、「属性＜肩がこる＞の属性値＜いつも＞
＜時々＞を属性＜はい＞にグループ化します」と定義さ
れている。第５行の手続き９５は属性値の無値への置き
換えの手続き例である。手続き９５では、「属性＜肩が
こる＞の属性値＜いいえ＞を削除します」と定義されて
いる。

【００３６】図８の中間データベスに図９の第２手続き
ファイルを適用した結果得られる中間データベースを図
１０に示す。図１０においては、上記の図９の第１行の
手続き９１において、属性＜ＩＤ＞のフィールドが全て
削除され、第２行の手続き９２において、属性＜身長＞
の属性値＜低＞＜高＞のみが選択され、第３行の手続き
９３において、属性＜握力（右）＞が削除され、第４行
の手続き９４において、属性＜肩がこる＞の属性値＜い
つも＞＜時々＞が属性＜はい＞にグループ化され、第５
行の手続き９５において、属性＜肩がこる＞の属性値＜
いいえ＞が削除された結果のみが表示されていることが
分かる。

【００３７】図１１は、第３手続きファイルの例を示す
図である。図１１において、第１行の手続き１１１は、
「属性＜性別＞の属性値＜男＞を＜性別：男＞に項目化
します」と定義されている。第２行の手続き１１２は、
「属性＜性別＞の属性値＜女＞を＜性別：女＞に項目化
します」と定義されている。第３行の手続き１１３は、
「属性＜性別＞の属性値＜男＞かつ属性＜年齢＞の属性
値＜３０以下＞を＜青年＞に項目化します」と定義され
ている。第４行の手続き１１４は、「属性＜年齢＞の属
性値＜３０以下＞を＜年齢：３０以下＞に項目化しま
す」と定義されている。

【００３８】図１０の中間データベスに図１１の第３手
続きファイルを適用した結果得られる中間データベース
を図１２に示す。図１２においては、上記の図１１の第
１行の手続き１１１において、属性＜性別＞の属性値＜
男＞が＜性別：男＞に項目化され、第２行の手続き１１
２において、属性＜性別＞の属性値＜女＞が＜性別：女
＞に項目化され、第３行の手続き１１３において、属性
＜性別＞の属性値＜男＞かつ属性＜年齢＞の属性値＜３
０以下＞が＜青年＞に項目化され、第４行の手続き１１
４おいて、属性＜年齢＞の属性値＜３０以下＞が＜年
齢：３０以下＞に項目化された結果のみが表示されてい
ることが分かる。

【００３９】手続きファイルの選択図２の前処理設定２４において、使用手続きファイルを
選択する処理について説明する。基本的には手続きファ
イルは前段の手続きファイルに依存する。つまり、第２
手続きファイルは第１手続きファイルに依存し、また第
３手続きファイルは第２手続きファイルに依存してい
る。例えば、第１手続きファイルで属性値＜年齢＞を属
性値＜２０以下＞と属性値＜２０以上＞に離散化した場
合、第２手続きファイルで「属性＜年齢＞の属性値＜３
０以上＞を削除します」という手続きがあってもこれは
正常に適用されない。第１手続きで属性値＜２０以下＞
と属性値＜２０以上＞に離散化されたために、＜３０以
上＞の属性値は存在しないからである。

【００４０】手続きファイル間の依存関係の例を図１３
に示す。図１３において、第３手続きファイルＡＡＡと
ＡＡＢが第２手続きファイルＡＡに依存し、第３手続き
ファイルＡＢＡとＡＢＢが第２手続きファイルＡＢに依
存し、第３手続きファイルＢＡＡが第２手続きファイル
ＢＡに依存し、第２手続きファイルＡＡとＡＢが第１手
続きファイルＡに依存し、第２手続きファイルＢＡが第
１手続きファイルＢに依存していることを表す。このよ
うなファイル依存関係は、図３のファイル管理手段３１
７で管理される。

【００４１】図１４は、使用手続きファイルを選択する
ための選択画面を示す図である。図１４（ａ）では、第
１手続きファイルリストボックス１４１でファイルＡが
選択され、第２手続きファイルリストボックス１４２で
は、ファイルＡと依存関係があるファイルＡＡとＡＢが
表示され、さらにファイルＡＡが選択されると、第３手
続きファイルリストボックス１４３ではファイルＡＡと
依存関係があるファイルＡＡＡとＡＡＢが表示される。

【００４２】図１４（ａ）の第２手続きファイルリスト
ボックスでファイルＡＢを選択した場合を図１４（ｂ）
に示す。図１４（ｂ）では、第１手続きファイルリスト
ボックス１４１でファイルＡが選択され、第２手続きフ
ァイルリストボックス１４２では、ファイルＡと依存関
係があるファイルＡＡとＡＢが表示され、さらにファイ
ルＡＢが選択されると、第３手続きファイルリストボッ
クス１４３ではファイルＡＢと依存関係があるファイル
ＡＢＡとＡＢＢが表示される。

【００４３】また、図１４（ａ）の第１手続きファイル
リストボックスでファイルＢを選択した場合を図１４
（ｃ）に示す。図１４（ｃ）では、第１手続きファイル
リストボックス１４１でファイルＢが選択され、第２手
続きファイルリストボックス１４２では、ファイルＢと
依存関係があるファイルＢＡが表示され、さらにファイ
ルＢＡが選択されると、第３手続きファイルリストボッ
クス１４３ではファイルＢＡと依存関係があるファイル
ＢＡＡが表示される。以上のような方式を取ることによ
り、正しい依存関係にある手続きファイルの組みの適用
を保障することができる。

【００４４】マイニング実行およびマイニング設定図２の前処理実行２１が終了してマイニングの対象とな
る項目データベース３０４が生成されると、次にマイニ
ング実行２２を行う。マイニング実行に先立って、利用
者は事前にマイニング設定２５を行う。図５はマイニン
グ設定の詳細を示す図である。図５において、パラメー
タ設定手段５３がマイニングのパラメータを設定し、ま
た条件部結論部設定手段５２が相関ルールの条件部と結
論部の項目を設定する。マイニング時属性階層表示手段
５１は表示用属性階層生成手段３１４からの指示によっ
て、利用者３１８のためにマイニング時の属性階層を表
示する。なお、マイニングのパラメータは用いるアルゴ
リズムに依存する。

【００４５】利用者３１８がマイニング実行の指示を出
すと、図３のマイニング実行手段３０５は項目データベ
ース３０４を入力として、相関ルール抽出処理を実行
し、その結果を結果ルールファイル３０６として出力す
る。相関ルール抽出処理としては、公知の従来技術によ
って実行できる。図１２の項目データベース３０４か
ら、例えば、「年齢：５０以上→肩がこる：はい」とい
うような相関ルールが抽出される。

【００４６】結果表示図１５は、図３の結果表示手段３１６によって表示され
る結果表示画面を示す。ここで相関ルールリストボック
ス１５１内の表示は省略しているが、膨大な数の相関ル
ールが表示されているものとする。項目リストボックス
１５２で項目を選択した上で、ラジオボタン１５３、１
５４、１５５で条件部、結論部、条件部、または結論部
のどれかを選択して絞り込みボタン１５６をクリックす
ることにより、該項目を含む相関ルールが相関ルールリ
ストボックス１５１内に表示される。ここで項目リスト
ボックス１５２の、各項目に対応する条件部欄１５７に
は該項目を条件部に含むような相関ルールの数が、また
結論部欄１５８には該項目を結論部に含むような相関ル
ールの数が表示されている。各項目に対応する相関ルー
ル数は、結果表示画面立ち上げ時に図３の結果ルールフ
ァイル３０６の内容を読み込む際に算出しておく。図１
５からは、例えば項目＜性別：男＞を条件部に含むよう
な相関ルールの数は２５８個、また結論部に含むような
相関ルールの数は１３０個あることがわかる。このよう
に各項目を含む相関ルールの数が表示されているので、
利用者３１８はそれを参照して実際に絞り込みをするか
どうかの選択をすることができる、という効果がある。

【００４７】前処理設定次に、図２の前処理設定２４において、手続きファイル
を作成する処理について説明する。図１６は、第１手続
きファイル編集画面を示す。ここでは図１の関係データ
ベース３０１に対する第１手続きファイル編集を行う場
合について示している。属性階層表示部分１６１には、
関係データベース３０１内の属性が、利用者が事前に設
定した属性階層に従って表示されている。

【００４８】図１７は、各アイコンの意味を示す図であ
る。ここで属性グループは、属性の上位概念である。こ
のように、本実施の形態においては、属性値グループ、
属性、属性値に対応する各ノードの表示形態を変えるこ
とができるので、利用者にとってわかりやすい、という
効果がある。

【００４９】図１６において、チェックボックス１６２
は各属性ノードに付与されており、該属性が離散化手続
き作成の対象となるかどうかを指定するものである。チ
ェックされていれば離散化手続き作成対象であることを
意味し、チェックされていなければ離散化手続き作成対
象外であることを意味する。非数値属性は自動的に離散
化手続き作成対象外と見做し、チェックボックスのチェ
ックを不可とする。数値属性はデフォルトでは全て離散
化手続き作成対象とするが、利用者が変更する事もでき
る。

【００５０】次に、手続きの編集方法について説明す
る。第１手続きファイル編集で対象となる手続きは離散
化手続きである。図４で示したように、手続きファイル
生成手段４１において、空の第１手続きファイルが作成
され、手続ファイル３１２に保存される。図１６の属性
階層表示部分１６１において、利用者３１８はまずマウ
ス等の入力手段でノードを選択する。その後離散化ボタ
ン１６３をクリックすると、離散化方法を設定するため
のダイアログが出現する。離散化の方法としては、属性
値の上限と下限を用いてその間を等分割する方法や、頻
度を数えて等頻度になるように境界値を設定する方法
や、利用者が境界値のリストを与える方法などがサポー
トされる。また、例えば図７の手続き７１、７２のよう
に条件部を持つような離散化手続きも設定可能である。
属性ノードを選択して離散化手続き作成を行った場合
は、該属性に対する離散化手続きが作成され、また、属
性グループノードを選択して離散化手続きを行った場合
は、該属性グループの下位にある全ての離散化手続き作
成対象の属性に対する離散化手続きが作成される。な
お、既に離散化手続きが存在する属性に対して新たな離
散化手続きを追加した場合は、古い離散化手続きが新た
な離散化手続きに置き換えられる。

【００５１】以上のように、本実施の形態においては、
ノードを選択して手続きを生成するので、手続きの編集
を簡単に行うことができるという効果がある。さらに、
属性グループを指定して複数の属性に対して一括して手
続きを作成することが可能なので、特に属性の数が多い
場合に手続き作成の労力を大幅に軽減することができる
という効果がある。

【００５２】図１６の属性階層表示部分１６１において
離散化手続きが存在する属性を選択すると、該属性に関
する離散化手続きが手続きリストボックス１６４に表示
される。手続きリストボックス１６４内の離散化手続き
を選択した上で、削除ボタン１６５をクリックして該手
続きの削除を、また変更ボタン１６６をクリックして該
手続きの変更を行うことができる。また、離散化手続き
が作成された属性は属性階層表示部分１６１で強調表示
される。従って、編集状態がわかりやすい、という効果
がある。

【００５３】例えば、図１６で属性＜身長＞に対応する
ノードを選択して手続きを作成した後の状態は図１８の
ようになる。図１８においては、属性＜身長＞に対応す
るノードが選択されたので、該ノード１８２が強調表示
されると共に、手続きリストボックス１８３内に、たと
えば、「属性＜身長＞を境界値＜１６０＞＜１８０＞で
属性値＜低＞＜中＞＜高＞に離散化する」なる手続きが
表示される。

【００５４】次に、図１６の属性階層表示部分１６１の
表示方法について説明する。図３のデータベース解析手
段３０７は、データ辞書３０８が存在しない場合に限
り、関係データベース３０１を入力としてデータ辞書３
０８を作成する。データ辞書３０８は、関係データベー
ス３０１の属性名と、該属性に対する属性値情報を属性
ごとに記述したファイルである。属性値情報としては、
関係データベース３０１に出現する属性値のリスト、属
性値の型などが必要である。一方、利用者３１８は関係
データベース３０１内の全属性間の関係を木構造として
表現した属性階層構造情報３１５を事前に作成してお
く。属性階層構造情報３１５の作成に際しては、データ
辞書３０８に記載されている属性情報を利用することも
可能である。

【００５５】図１９は、属性階層構造情報３１５の例を
示す図である。図１９において、全データは「問診」、
「身体検査」、・・・・等に分類され、さらに、「問
診」は「肩がこる」、・・・等に分類され、「身体検
査」は「身長」、「握力（右）」、・・・等に分類され
た属性階層構造が生成される。

【００５６】図３の表示用属性階層生成手段３１４は、
属性階層構造情報３１５をそのまま出力する。そして図
４の前処理時属性階層表示手段４３が、図３の表示用属
性階層生成手段３１４が出力した木構造を表示する。図
１６の属性階層表示部分１６１はその表示例である。図
１６において、利用者が操作した結果が図４の手続きフ
ァイル編集手段４２によって解釈され、実際に手続きフ
ァイル３１２が編集される。

【００５７】図２０は、第２手続きファイル編集画面を
示す。第２手続きファイルの内容は第１手続きファイル
の内容に依存するので、事前に第１手続きファイルを選
択しておく必要がある。ここでは図７の第１手続きファ
イルを選択した場合について示している。図２０の属性
階層表示部分２０１には、関係データベース３０１内の
属性が、利用者３１８が事前に設定した属性階層に従っ
て表示されている。また、各属性の下には該属性に対す
る属性値が表示されている。

【００５８】手続きの編集は、前述の離散化手続き編集
と同様に、属性階層表示部分２０１で一つまたは複数の
ノードを選択して削除ボタン２０２、選択ボタン２０
３、属性値グルーピングボタン２０４のいずれかをクリ
ックすることにより行う。但し、属性グループノードを
選択した場合にクリックできるのは、削除ボタン２０２
だけである。属性グループノードを選択して削除ボタン
２０２をクリックした場合、該ノードの下位にある全て
の属性に対して属性削除手続きが生成される。また、既
に存在する手続きの削除や変更も、前述の離散化手続き
編集と同様に行うことができる。

【００５９】ここで図２０の属性階層表示部分２０１の
表示方法について説明する。図３のデータ辞書変換手段
３０９は、第１手続きファイルを参照することにより、
データ辞書３０８に各離散化対象数値属性に対する属性
値リストを付加して中間データ辞書３１０を作成する。
なお、既に第１手続きファイル適用後の中間データ辞書
３１０が存在する場合は以上の処理は行わない。

【００６０】図３の表示用属性階層生成手段３１４は、
中間データ辞書３１０と属性階層構造情報３１５とを入
力とし、属性階層構造の各属性の下位に該属性に関する
属性値を付加した形式の木構造を作成する。そして図４
の前処理時属性階層表示手段４３が、図３の表示用属性
階層生成手段３１４が出力した木構造を表示する。図２
０の属性階層表示部分２０１は、その表示用属性階層生
成手段３１４が出力した木構造の表示例である。

【００６１】図２１は、第３手続きファイル編集画面を
示す。第３手続きファイルの内容は第１手続きファイル
と第２手続きファイルの内容に依存するので、事前に第
１手続きファイルと第２手続きファイルを選択しておく
必要がある。ここでは、図２１には、図７の第１手続き
ファイルと図９の第２手続きファイルを選択した場合が
示される。図２１の属性階層表示部分２１１には、関係
データベース３０１に対して第１手続きファイル７０と
第２手続きファイル９０を適用した後のデータベースに
関する属性と属性値が、利用者が事前に設定した属性階
層に従って表示されている。

【００６２】項目化手続きは全ての属性値に対して必要
であるので、第３手続きファイル生成の際に、デフォル
トの項目化手続きを全ての属性値に対して生成しておく
ものとする。これは図４の手続きファイル生成手段４１
が中間データ辞書３１０を参照することによって行う。
この場合、図２１の属性階層表示部分２１１において、
デフォルトの項目化手続きから変更された手続きに対応
するノードを強調表示する。

【００６３】手続きの編集は、前述の離散化手続き編集
と同様に、図２１の属性階層表示部分２１１で一つまた
は複数のノードを選択して項目化ボタン２１２、項目化
グルーピングボタン２１３のいずれかをクリックするこ
とにより行う。また、既に存在する手続きの削除や変更
も、前述の離散化手続き編集と同様に行うことができ
る。

【００６４】ここで図２１の属性階層表示部分２１１の
表示方法について説明する。図３のデータ辞書変換手段
３０９は、第１手続きファイルを参照することにより、
データ辞書３０８に各離散化対象数値属性の属性値リス
トを付加、また第２手続きファイルを参照することによ
り、属性や属性値の削除、属性値の変換等の処理を施し
て中間データ辞書３１０を作成する。なお、第１手続き
ファイル７０適用後の中間データ辞書３１０が既に存在
する場合は、これに第２手続きファイル９０を適用する
形で中間データ辞書３１０を作成しても良い。また、既
に第１、第２手続きファイル適用後の中間データ辞書３
１０が存在する場合は、以上の処理は行わない。

【００６５】図３の表示用属性階層生成手段３１４は、
中間データ辞書３１０と属性階層構造情報３１５とを入
力とし、属性階層構造から中間データ辞書３１０に含ま
れない属性を削除、また各属性の下位に属性値を付加し
た形式の木構造を出力する。そして図４の前処理時属性
階層表示手段４３が、図３の表示用属性階層生成手段３
１４が出力した木構造を表示する。図２１の属性階層表
示部分２１１は、表示用属性階層生成手段３１４が出力
した木構造の表示例である。

【００６６】マイニング設定次に、マイニング設定の条件部と結論部の項目指定に関
連する部分について説明する。図２２は、条件部結論部
項目指定画面を示す。条件部と結論部の指定は手続きフ
ァイルの内容に依存するので、事前に使用する手続きフ
ァイルを選択しておく必要がある。ここでは第１手続き
ファイルとして図７を、第２手続きファイルとして図９
を、また第３手続きファイルとして図１１を選択した場
合について説明する。図２２の属性階層表示部分２２１
には、関係データベース３０１に第１、第２、第３手続
きファイルを適用した後のデータベースに関する属性と
属性値が、利用者が事前に設定した属性階層に従って表
示されている。

【００６７】ここで、条件部と結論部の項目指定に関す
る各アイコンの意味は図２３の通りである。図２３にお
いては、たとえば、（１）相関ルールの条件部にのみ現
れてよい、（２）相関ルールの結論部にのみ現れてよ
い、（３）相関ルールの条件部結論部いずれに現れても
よい、（４）相関ルールに現れてはいけない、の４つの
モードが用意される。図２２においては、例えば、項目
＜身長：低＞と項目＜身長：高＞は相関ルールに現れて
はいけない、という指定になっている。ここで、項目以
外の属性や属性グループのノードの設定自体はマイニン
グ実行に影響しない。

【００６８】項目が相関ルールの条件部のみに現れても
良い、または結論部のみに現れても良い、または条件部
と結論部のどちらに現れても良い、または条件部と結論
部のいずれに現れてもいけない、の４種類のモードを、
異なる形態で表示するので、設定の状態が利用者にとっ
てわかりやすい、という効果がある。

【００６９】また、薄く表示してあるアイコンも指定の
意味は同じであるが、該ノードの指定と該ノードの下位
にあるノードの指定が全て同じであることはない、とい
うことを表す。逆に、表示が薄くない、つまり強調表示
となっているアイコンは、該ノードとその下位にあるノ
ードの指定が全て同じであることを表す。従って、条件
部と結論部の項目指定に関するアイコンの表示が薄くな
い場合、その下位にある項目は展開表示しなくても設定
状態がわかる、という効果がある。

【００７０】さて、図２２の属性階層表示部分２２１に
おいて、あるノードを指定して条件部チェックボックス
２２２と結論部チェックボックス２２３を設定して適用
ボタン２２４をクリックすると、該ノードと、該ノード
の下位にあるノードが全て同一モードとして指定され
る。例えば属性グループ＜身体計測＞に対応するノード
を選択して、条件部チェックボックス２２２のみをチェ
ックして適用ボタン２２４をクリックすると、図２４の
属性階層表示部分２４１のように、＜身体計測＞ノード
とその下位にあるノードが全て「相関ルールの条件部の
みに現れても良い」指定となる。また、指定が全て同じ
なので、＜身体計測＞ノードにおけるアイコンの表示も
薄い表示ではなく、強調表示となる。このような指定方
式を取るので、利用者の設定の負荷を大幅に軽減するこ
とができる、という効果がある。

【００７１】ここで図２２の属性階層表示部分２２１の
表示方法について説明する。図３のデータ辞書変換手段
３０９は、第１手続きファイル７０を参照することによ
り、データ辞書に各離散化対象数値属性の属性値リスト
を付加、また第２手続きファイル９０を参照することに
より、属性や属性値の削除、属性値の変換等の処理を施
し、更に第３手続きファイル１１０を参照して属性値の
項目への変換や項目グルーピングの処理を施すことによ
り、中間データ辞書３１０を作成する。なお、第１手続
きファイル適用後の中間データ辞書３１０が既に存在す
る場合は、これに第２、第３手続きファイルを適用する
形で中間データ辞書３１０を作成しても良い。同様に、
第１、第２手続きファイル適用後の中間データ辞書３１
０が既に存在する場合は、これに第３手続きファイルを
適用する形で中間データ辞書３１０を作成しても良い。
また、既に第１、第２、第３手続きファイル適用後の中
間データ辞書３１０が存在する場合は、以上の処理は行
わない。

【００７２】図３の表示用属性階層生成手段３１４は、
中間データ辞書と属性階層構造情報３１５とを入力と
し、属性階層構造から中間データ辞書３１０に含まれな
い属性を削除、また各属性の下位に項目を付加した形式
の木構造を出力する。そして図５のマイニング時属性階
層表示手段５１が、図３の表示用属性階層生成手段３１
４が出力した木構造を表示する。図２２の属性階層表示
部分２２１は、表示用属性階層生成手段３１４が出力し
た木構造の表示例である。図２２において利用者が操作
した結果が図５の条件部結論部設定手段で解釈され、実
際の設定が行われる。

【００７３】

【発明の効果】以上のように、第１の発明に係るデータ
マイニング装置によれば、マイニングの前処理として、
関係データベースに対する離散化や属性削除や項目化な
どの変換方法を記述する複数の手続きから構成される手
続きファイルを用意し、一つまたは複数の手続きファイ
ルを逐次的に関係データベースに適応する、という方法
を取るので、手続きファイルの内容を変更して関係デー
タベースに適用することにより、異なった前処理実行を
簡単に繰り返すことができるという効果がある。

【００７４】第２の発明に係るデータマイニング装置に
よれば、関係データベース内の属性名と属性値情報を属
性ごとに記述したデータ辞書を生成し、さらに該データ
辞書に手続きファイルを適用して中間データ辞書を生成
し、関係データベースの属性間の関係を階層構造として
記述した属性階層構造情報を、該中間データ辞書の内容
に基づいて変換することによって得られる階層構造を表
示することが可能なので、関係データベースに手続きフ
ァイルを適用して得られるデータの構造を簡単に把握す
ることができるという効果がある。

【００７５】第３の発明に係るデータマイニング装置に
よれば、階層構造の表示において、ノードをその種類、
つまり属性グループか属性か属性値かによって、異なる
形態で表示するので、利用者にとってわかりやすいとい
う効果がある。

【００７６】第４の発明に係るデータマイニング装置に
よれば、表示された階層構造内のノードを選択して該ノ
ードに関する手続きを編集することが可能なので、手続
きファイルの編集を簡単に行うことができるという効果
がある。

【００７７】第５の発明に係るデータマイニング装置に
よれば、手続き生成の際に、属性階層表示画面上のノー
ドに対して手続きの作成処理を行うことにより、該ノー
ド以下の全ての属性に対する手続きが一括して作成され
るので、利用者の負荷を軽減するという効果がある。

【００７８】第６の発明に係るデータマイニング装置に
よれば、手続きファイル編集の際、階層構造の表示にお
いて、手続きファイル内の各手続きに対応するノードを
強調表示するので、手続きの編集の状態がわかりやすい
という効果がある。

【００７９】第７の発明に係るデータマイニング装置に
よれば、前処理の手続きファイルを、数値属性の離散化
に関する第１手続きファイル、属性値のグルーピングお
よび属性値の無値への置き換えおよび属性の削除および
特定条件を満たすレコードの削除に関する第２手続きフ
ァイル、属性値に属性情報を付与する項目化および項目
のグルーピングに関する第３手続きファイルの３種類に
分けて作成し、逐次的に関係データベースに適用するよ
うな枠組みを提供することにより、必要にして十分な前
処理実行を行うことができるという効果がある。

【００８０】第８の発明に係るデータマイニング装置に
よれば、事前に編集された第１、第２、第３手続きファ
イルのうち、正しい依存関係にある手続きファイルの組
みのみを選択できるような手続きファイル適用設定手段
を備えることにより、必要にして十分な前処理実行を行
うことができるという効果がある。

【００８１】第９の発明に係るデータマイニング装置に
よれば、また、マイニングの条件部結論部指定の際
に、属性階層表示画面上のノードの設定が該ノードの下
位にある全てのノードに波及するので、利用者の負荷を
軽減するという効果がある。

【００８２】第１０の発明に係るデータマイニング装置
によれば、マイニングの条件部結論部指定の際に、ノー
ドの条件部結論部指定のモードによって、マイニング時
属性階層表示手段上のノードの表示形態を変えるので、
設定の状態が利用者にわかりやすいという効果がある。

【００８３】第１１の発明に係るデータマイニング装置
によれば、マイニングの条件部結論部指定の際に、マイ
ニング時属性階層表示手段上の各ノードについて該ノー
ドと該ノードの下位にあるノードのモードが全て同じに
なっている場合、該ノードを強調表示するので、属性階
層を適切なレベルまで展開した形式で表示すれば、全て
のノードに関する条件部結論部指定がわかるという効果
がある。

【００８４】第１２の発明に係るデータマイニング装置
によれば、結果表示画面で、全項目とともに、各項目を
含む相関ルールの数を表示するので、項目を指定してそ
の項目を含む相関ルールだけを表示させる処理を行う場
合の利用者への指針になるという効果がある。

【図面の簡単な説明】

【図１】関係データベースの一例としての健康診断デ
ータベースを示す図である。

【図２】本実施の形態におけるデータマイニングの処
理の流れを示す図である。

【図３】本実施の形態におけるデータマイニング装置
全体の詳細ブロック図である。

【図４】図３に示す前処理設定手段の詳細ブロック図
である。

【図５】図３に示すマイニング設定手段の詳細ブロッ
ク図である。

【図６】本実施の形態における前処理実行の処理の流
れを示す図である。

【図７】本実施の形態における第１手続きファイルの
例を示す図である。

【図８】図１の健康診断データベースに図８の第１手
続きファイルを適用した後の中間データベースを示す図
である。

【図９】本実施の形態における第２手続きファイルの
例を示す図である。

【図１０】図８の中間データベースに図９の第２手続
きファイルを適用した後の中間データベースを示す図で
ある。

【図１１】本実施の形態における第３手続きファイル
の例を示す図である。

【図１２】図１０の中間データベースに図１１の第３
手続きファイルを適用した後の中間データベースを示す
図である。

【図１３】各手続きファイルの依存関係の例を示す図
である。

【図１４】本実施の形態における使用手続きファイル
選択画面を示す図である。

【図１５】本実施の形態における結果表示画面を示す
図である。

【図１６】本実施の形態における第１手続きファイル
編集画面を示す図である。

【図１７】本実施の形態における手続きファイル編集
画面中のアイコンの意味を示す図である。

【図１８】図１６において属性＜身長＞に新たな手続
きを追加した後の画面を示す図である。

【図１９】属性階層構造の例を示す図である。

【図２０】本実施の形態における第２手続きファイル
編集画面を示す図である。

【図２１】本実施の形態における第３手続きファイル
編集画面を示す図である。

【図２２】本実施の形態における条件部結論部項目指
定画面を示す図である。

【図２３】本実施の形態に置ける条件部結論部項目指
定画面中のアイコンの意味を示す図である。

【図２４】図２２において属性グループ＜身体計測＞
を選択して設定を行った後の画面を示す図である。

【符号の説明】

３０１関係データベース、３０２前処理実行手段、
３０３中間データベース、３０４項目データベー
ス、３０５マイニング実行手段、３０６結果ルール
ファイル、３０７データベース解析手段、３０８デ
ータ辞書、３０９データ辞書変換手段、３１０中間デ
ータ辞書、３１１前処理設定手段、３１２手続きフ
ァイル、３１３マイニング設定手段、３１４表示用
属性階層生成手段、３１５属性階層構造情報、３１６
結果表示手段、３１７ファイル管理手段、３１８
利用者

Claims

【特許請求の範囲】

【請求項１】関係データベースを入力とし、利用者の
指定に従って、レコードが複数集まって構成され項目の
集合からなる項目データベースを出力する前処理実行手
段と、前記項目データベースを入力とし、その項目デー
タベースの項目間の相関ルールを抽出してその結果を結
果ルールファイルとして出力するマイニング実行手段
と、前記結果ルールファイルの内容を表示する結果表示
手段とから構成されるデータマイニング装置において：
関係データベースから前記項目データベースに変換する
手続きを記録する手続きファイルを入力とし、該手続き
ファイルに対して、数値属性の離散化に関する手続き、属性値のグルーピングに関する手続き、属性値の無値への置き換えに関する手続き、属性の削除に関する手続き、特定条件を満たすレコードの選択に関する手続き、属性値に属性情報を付与する項目化に関する手続き、項目のグルーピングに関する手続き、のうちいずれかの
手続きの追加や削除や変更などの編集を行う手続きファ
イル編集手段と、前記前処理実行手段において使用する一つまたは複数の
手続きファイルとその適用の順序とを指定する手続きフ
ァイル適用設定手段と、を有する前処理設定手段を備え
ることを特徴とするデータマイニング装置。
【請求項２】前記関係データベースを入力とし、前記
関係データベース内の属性名と属性値情報を属性ごとに
記したデータ辞書を出力するデータベース解析手段と、前記データ辞書および、前記手続きファイル適用設定手
段で指定された既に編集済みの一つまたは複数の順序付
けられた手続きファイルとを入力とし、前記データ辞書
に前記手続きファイルを適用した結果である中間データ
辞書を出力するデータ辞書変換手段と、前記データ辞書または中間データ辞書、および前記関係
データベースの属性間の関係を階層構造として記述した
属性階層構造情報とを入力とし、属性階層構造から前記
中間データ辞書内に含まれない属性を削除し、各属性の
下位に属性値を付加した形式の階層構造を出力する表示
用属性階層生成手段とをさらに備え、前記前処理設定手段は、前記表示用属性階層生成手段が
出力した階層構造を表示する前処理時属性階層表示手段
をさらに有することを特徴とする請求項１記載のデータ
マイニング装置。
【請求項３】前記前処理時属性階層表示手段は、階層
構造の表示の際、属性グループと属性と属性値とを、利
用者に区別がつくようにそれぞれ異なる形態で表示する
ことを特徴とする請求項２記載のデータマイニング装
置。
【請求項４】前記手続きファイル編集手段は、前記前
処理時属性階層表示手段で利用者が選択したノードに関
する手続きの編集を可能とするようにしたことを特徴と
する請求項２記載のデータマイニング装置。
【請求項５】前記手続きファイル編集手段は、利用者
が前記前処理時属性階層表示手段のあるノードを選択し
て数値属性の離散化に関する手続きまたは属性の削除に
関して行った追加の手続きに基づいて、該ノードの下位
にある全ての属性ノードに対して自動的に同様の手続き
が追加されることを特徴とする請求項４記載のデータマ
イニング装置。
【請求項６】前記前処理時属性階層表示手段は、階層
構造の表示の際、編集中の手続きファイル内の各手続き
に対応するノードを強調表示することを特徴とする請求
項４記載のデータマイニング装置。
【請求項７】前記前処理設定手段は、数値属性の離散化に関する手続きを含んで構成される第
１手続きファイル、属性値のグルーピングおよび属性値の無値への置き換え
および属性の削除および特定条件を満たすレコードの選
択に関する手続きを含んで構成され第１手続きファイル
に依存する第２手続きファイル、属性値に属性情報を付与する項目化および項目のグルー
ピングに関する手続きを含んで構成され第１手続きファ
イル及び第２手続きファイルに依存する第３手続きファ
イルを作成し、前記関係データベースに対して第１手続きファイル、第
２手続きファイル、第３手続きファイルの順に適用され
ることを保証することを特徴とする請求項１記載のデー
タマイニング装置。
【請求項８】前記前処理設定手段は、事前に編集され
た第１、第２、第３手続きファイルのうち、正しい依存
関係にある手続きファイルの組みのみを選択できるよう
な手続きファイル適用設定手段を備えることを特徴とす
る請求項２記載のデータマイニング装置。
【請求項９】前記表示用属性階層生成手段が出力した
階層構造を表示するマイニング時属性階層表示手段と、前記項目データベース内の各項目に対して、相関ルールの条件部のみに現れても良い、または相関ルールの結論部のみに現れても良い、または相関ルールの条件部結論部のどちらに現れても良
い、または相関ルールに現れてはいけない、の４種類のモー
ドのいずれかを指定する条件部結論部設定手段とを有す
るマイニング設定手段を備え、前記条件部結論部設定手段は前記マイニング時属性階層
表示手段のノードを選択してモードを指定することによ
り、該ノードの下位にある全てのノードも自動的に同一
モードとして指定されることを特徴とする請求項２記載
のデータマイニング装置。
【請求項１０】前記マイニング時属性階層表示手段
は、前記条件部結論部設定手段によるモードの指定によ
って、各ノードの表示形態を利用者に区別がつくように
異なるものにすることを特徴とする請求項９記載のデー
タマイニング装置。
【請求項１１】前記マイニング時属性階層表示手段
は、前記条件部結論部設定手段によるモードの指定によ
って、各ノードについて該ノードと該ノードの下位にあ
るノードのモードが全て同じになっている場合、該ノー
ドを強調表示することを特徴とする請求項１０記載のデ
ータマイニング装置。
【請求項１２】前記結果表示画面は、全項目と共に各
項目を含む相関ルールの数を表示することを特徴とする
請求項１記載のデータマイニング装置。