JPH11328186A - 相関ルール生成方法および相関ルール生成装置 - Google Patents

相関ルール生成方法および相関ルール生成装置

Info

Publication number
JPH11328186A
JPH11328186A JP10182416A JP18241698A JPH11328186A JP H11328186 A JPH11328186 A JP H11328186A JP 10182416 A JP10182416 A JP 10182416A JP 18241698 A JP18241698 A JP 18241698A JP H11328186 A JPH11328186 A JP H11328186A
Authority
JP
Japan
Prior art keywords
item set
rule
candidate
items
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10182416A
Other languages
English (en)
Inventor
Akisumi Mitsuishi
彰純 三石
Yasushi Obata
康 小幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP10182416A priority Critical patent/JPH11328186A/ja
Priority to US09/186,356 priority patent/US6385608B1/en
Publication of JPH11328186A publication Critical patent/JPH11328186A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Cash Registers Or Receiving Machines (AREA)

Abstract

(57)【要約】 【課題】 データベースからの相関ルール抽出におい
て、統計的に意味のある相関ルールを、負の相関も含め
て効率的に抽出することを可能にする。 【解決手段】 候補品目セット生成部22が、相関ルー
ルの左辺または右辺の候補である1以上の品目からなる
候補品目セットを生成し、候補品目セット検証部21が
候補品目セットからデータベース1内での出現数が最小
支持度以上のものを大品目セット2として選択する。ル
ール候補生成部41が長さK−1の大品目セットと長さ
1の大品目セットから相関ルール候補を生成し、χ2
定部43が相関ルール候補からχ2 値と有意水準を指標
としたχ2 検定により、相関ルール集合3を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はデータ処理システム
に関し、特にデータベース中の未発見の規則性を発見す
るデータマイニング及びそのアルゴリズムにおける、ハ
ッシュ木操作に関するものである。
【0002】
【従来の技術】大規模データベースから知識発見を行う
データマイニングで抽出される知識については、相関ル
ールと呼ばれる、同一レコード中に現れ易い品目の集合
に関する知識がよく知られている。代表的な応用例では
小売業における顧客の購買記録、あるいはレシート等の
集積から相関ルールを抽出して同時購買の傾向を調べ、
ある商品の売り上げを伸ばすために、これと同時に買わ
れ易い商品を特売品にする等の戦略立案に役立てること
が挙げられる。ここでのレコードとは各顧客毎の購買品
目のリストである。
【0003】このような一つのレコードに品目の集合が
並ぶデータベースからの相関ルール抽出の手法として
は、R.Agrawalらによる“Apriori”と呼ばれるものがあ
り、文献「Fast Algorithms for Mining Association R
ules」(Proc. of 20th VLDB,1994)、特開平8−28
7106に詳述されている。ここでは相関ルール抽出は
支持度と確信度の2つの指標を基準としていた。例え
ば、 A,B,・・・,X→Y という相関ルール、すなわち品目A,B,・・・,Xを
含むレコードと、さらに品目Yも含むレコードの間には
相関があるというルールの場合、A,B,・・,X,Y
の全てを含むレコードの数がこの相関ルールの支持度、
A,B,・・,Xを含むレコードの中での、さらにYも
含むレコードの割合を確信度と呼ぶ。この手法では二つ
の指標があらかじめ設定された各々の下限値(最小支持
度、最小確信度)を超える相関ルールを抽出していた。
【0004】このApriori は、図30に示すシステム
図、図31に示すブロック図によって実現することがで
きる。以下図31に従ってこの手法の手順を説明する。
なお、以下の説明では問題を単純化するために、図33
に示す様なデータベースからの相関ルール抽出を想定す
る。すなわち、各レコードがレコードIDと、1以上の
任意の整数によって表現された品目の集まりとからなる
データベースである。
【0005】以後、k個の品目の集まりをk項組と呼
び、最小支持度以上のk項組を要素とする集合を長さk
の大品目セットLkと呼ぶ。また、大品目セットLkの
要素の候補であるk項組を要素とする集合を長さkの候
補品目セットCkと呼び、Ckの要素中、最小支持度以
上のk項組がLkの要素として選択される。ただし、k
は2以上の整数である。
【0006】図31において、最初のステップ100、
ユーザ入力では、ユーザ入力部10がユーザから最小支
持度、最小確信度を獲得する。次のステップ110、L
1生成では、候補品目セット検証部21が、データベー
ス中のレコードを一つずつ取り出して、そのレコード中
に出現する各品目について、出現する回数をカウント
し、そのカウント数(支持度)を増やす。初めて出現す
る品目については、そのカウントの領域を新たに設け
る。そして、全てのレコードについて数え上げが終了す
ると、最終的な支持度が最小支持度を超えた品目につい
て、ハッシュ木に登録を行う。1,2,3,4,5の5
つの品目の支持度が最小支持度を超えた場合について、
これらを登録した状態のハッシュ木を図34に示す。ハ
ッシュ木の各枝の両端はノードと呼ばれ、一般に品目番
号が対応付けられるが、ハッシュ木の始点のみは品目が
対応付けられないノードで、rootと呼ばれる。また
rootからハッシュ木の末端のノードまでの枝の数を
枝の長さと呼ぶ。図34のハッシュ木の各枝の長さは1
である。
【0007】次のステップ120、Ck生成では候補品
目セット生成部22が長さk−1の大品目セットLk−
1から候補品目セットCkを生成する。図34に示した
初期状態ではk=2であり、L1からC2が生成され
る。ここではL2からC3が生成される場合の例を説明
する。図35にL2まで作成された状態のハッシュ木の
例を示す。このCk生成のステップの内部は図32のブ
ロック図の様な2段階になっており、各々はjoinス
テップ、pruneステップと呼ばれる。
【0008】まず、ステップ121のjoinステップ
について説明する。ここでは、長さk−1まで伸びた枝
の1つのノードについて、同じ親ノードを持ち、かつ末
端のノードの品目番号がそのノードの品目番号より大き
い他のノードの末端の品目をそのノードの子ノードとし
て追加して、枝を伸ばす。図35のroot→1→3で
示されるノード(これを[1,3]と表記することに
し、以降の説明では、ハッシュ木のノードを同様な記述
で表す)には、同じ親ノードを持ちかつ末端のノードの
品目番号が3より大きい[1,4]と[1,5]と結合
し、それぞれ[1,3,4]と[1,3,5]を設け
る。[1,4]についても[1,5]と結合し、[1,
4,5]が設けられる。[1,5]については5より大
きな品目番号を持つノードが[1]より下にないので、
枝は伸ばされない。この状態を図36(1)prune
前の図に示す。
【0009】次のステップ122のpruneステップ
について説明する。ここでは、前のjoinステップで
長さkまで伸ばされた枝の該当する品目セットに関し
て、それから一つの品目を除いてできるk−1項組み全
てについて、それがLk−1に属するかの検査を行い、
全てのk−1項組がLk−1に属する場合のみ採用し、
1つでもLk−1に属さないk−1項組がある場合は削
除する。例えば[1,3,4]の検査を行う場合では、
[1,3]、[1,4]、[3,4]のつの項組みがL
に存在するか調べられる。図36の例ではいずれもLに
含まれるのでこの項組みは残される。[1,3,5]の
検査を行う場合では、[1,3]、[3,5]、[1,
5]がLに存在するかどうか調べられるが、[3,5]
は存在しないので、この項組みは削除される。以上の様
にして、このpruneステップではjoinによって
できた全てのk項組みが検査される。prune後のハ
ッシュ木を図36(2)prune後の図に示す。
【0010】Ck生成ステップの後は、ステップ130
のLk生成のステップが候補品目セット検証部21によ
って行われる。ここではデータベースのレコードが一件
ずつ取り出され、その中に存在するCk中のk項組みの
カウントを増やす操作が行われ、最終的に最小支持度を
超えたk項組みのみをLkの要素として残す。このk項
組のカウントのためにレコードとハッシュ木の照合(マ
ッチング)が行われる。このマッチングは、まず、ハッ
シュ木のrootにおいてデータベースのレコードが一
件ずつ取り出され、各レコード中にrootの子ノード
の品目が存在するかどうか検査する。存在しなければそ
のレコードについてのマッチングは終了し、次のレコー
ドを検査する。存在すれば、その品目が対応付けられて
いる子ノードにおいて、さらに次の子ノード(root
から見ると“孫”)に対応付けられている品目がこのレ
コード中に存在するかどうかを検査する。以後この操作
を繰り返すが、適用されるノードの子ノードがそれ以下
に枝を持たないノード、すなわち葉であり、なおかつそ
のレコード中に葉であるその子ノードに対応している品
目が存在する場合はこの葉ノードの支持度集計用カウン
トを増やす操作を行い、このレコードについてのマッチ
ングを終了する。すべてのレコードについてマッチング
が終了したときの各葉ノードの支持度集計用カウントの
値が、各k項組(rootからその葉ノードにいたるま
での品目の組)の支持度である。このようにして各k項
組の支持度をカウントし、最小支持度以上の支持度をも
つk項組をすべて要素として選択した大品目セットLk
を生成する。
【0011】Lk生成のステップでLkの要素となるk
項組みが一つも生成されなかった場合はステップ150
のルール候補生成に進み、そうでない場合はkの値を一
つ増やし、Ck生成のステップに戻る。
【0012】ステップ150のルール候補生成ではルー
ル候補生成部41により、それまでのステップで作成さ
れた大品目セットよりルールの候補が作られる。Lk中
のあるk項組みからは、右辺にその中の一つの品目、左
辺に残りのk−1個の品目がくる計k個のルール候補が
生成される。これが、k=2以上の全てのLkのk項組
みについて成される。この例では、右辺は、相関ルール
の結果となる品目のセットを意味し、左辺は、相関ルー
ルの条件となる品目のセットを意味している。尚、相関
ルール候補の場合にも同様に、右辺は、結果となる品目
のセットを意味し、左辺は、条件となる品目のセットを
意味している。
【0013】ステップ160のルール検証では、確信度
計算部42により各ルール候補の確信度が計算され、そ
れが最小確信度を上回る場合には相関ルール集合に追加
される。ここで、すでに述べたように、ルール候補のA
1,A2,・・・Ak→Bの確信度(confiden
ce)は、品目セットθの支持度をs(θ)とすると、
confidence=s(A1,A2,・・・Ak,B)/s(A1,A2,・・・Ak)と計算さ
れる。
【0014】以上説明したApriori を改良した従来技術
としてR.Srikant 他の提案があり、文献「Mining Gener
alized Association Rules」(Proc. of 21th VLDB,19
95)に記述されている。この方法は、(1)Apriori に
よる相関ルールの抽出、(2)(1)で得られた相関ル
ールよりχ2 検定により統計的に意味のないルールを除
去という手順で、確信度が最小確信度を超えているだけ
でなく、さらに統計的に意味のあるルールを抽出する。
【0015】また、以上の説明で分かる様に、このアル
ゴリズムでは品目セットを格納するハッシュ木の操作が
極めて重要である。品目の種類が多い場合には全体の品
目セットの数は膨大なものとなり、ハッシュ木が計算機
のメモリの領域に収まりきらなくなる。この様な状況で
はレコードとハッシュ木のマッチングを行う際に頻繁に
ハッシュ木のノードのデータのページングが起こり、処
理速度が大幅に落ちるという問題があった。
【0016】さらに、Lk生成ステップにおける支持度
の集計では、データベースのレコードを一つずつ取り出
し、各々のレコードに対してハッシュ木とのマッチング
をとる処理を適用していた。一つのレコードとハッシュ
木のマッチング処理は、マッチング関数を再帰的に呼ぶ
ことによって実現する。図56に示すようにマッチング
関数には、ハッシュ木のノード(node)とレコード
の部分列(p)を引数として入力する。第2の引数であ
る部分列は、レコード上のある位置以降の品目の集合で
ある。例えば、{1,2,3}からなるレコードの2番
目の位置以降の部分列は{2,3}と表す。
【0017】図56に従来のマッチング関数のブロック
図を示す。ステップ2100で入力されたハッシュ木の
ノード(node)が葉ノードの一つ上であるか否か判
断する。葉ノードの一つ上でない場合は、ステップ21
10で部分列の最初の品目(i)にハッシュ関数を適用
して該当するノード(nodei)が下に存在するか調
べる。ステップ2110で該当するノード(node
i)が下に存在した場合は、ステップ2120でそのノ
ード(nodei)と部分列(p)からそのノードの品
目(i)を除いた部分列を入力としてマッチング関数を
再帰的に呼び出す。そしてステップ2130で元の部分
列(p)からも該当ノードの品目(i)を除くことによ
り、部分列(p)を更新する。ステップ2110で該当
するノード(nodei)が下に存在しない場合には、
マッチング関数を再帰的に呼び出すことなく、ステップ
2130で部分列の更新のみを行なう。ステップ214
0で部分列(p)に品目がないと判断するまで、つまり
元の部分列の品目がなくなるまで、ステップ2110か
らステップ2130の処理を繰り返す。ステップ210
0で入力されたハッシュ木のノード(node)が葉ノ
ードの一つ上であると判断する場合は、ステップ215
0で引数の部分列(p)中の各品目(i)についてハッ
シュ関数を適用する。該当する葉ノード(nodei)
が存在すれば、そのノードの支持度を一つ増やす。
【0018】図57の例で、ハッシュ木のroot、レ
コード{1,2,3}の部分列{1,2,3}にマッチ
ング関数が適用する場合について説明する。ハッシュ木
の高さは2であるので、マッチング関数を再帰的に呼び
出す。rootの下には[1]が存在するので、ステッ
プ2100、2110を経て、ステップ2120で最初
にノード[1]、部分列{2,3}を入力とするマッチ
ング関数を再帰的に呼び出す。ステップ2130で部分
列は{2,3}に更新する。同じくステップ2100、
2110を経て、ステップ2120でノード[2]、部
分列{3}を入力とするマッチング関数を再帰的に呼び
出す。ステップ2130で部分列は{3}に更新する。
同じくステップ2100、2110を経て、ステップ2
120でノード[3]、部分列{}を入力としたマッチ
ング関数を再帰的に呼び出す。ステップ2130で部分
列は{}となる。ステップ2140で部分列に品目はな
いので、処理のループはここで終了する。次に、再帰的
に呼び出されたノード[1]と部分列{2,3}を入力
としたマッチング関数の動作について説明する。ステッ
プ2100で、このノードは葉の一つ上のノードである
と判断し、ステップ2150で部分列中の品目2,3の
各々についてハッシュ関数を適用する。ステップ216
0で該当するノード[1,2]と[1,3]への枝を確
認し、ステップ2170でそれぞれのノードの支持度を
一つ増やす。同様に再帰的に呼び出されたノード[2]
と部分列{3}を入力としたマッチング関数では、
[2,3]のノードの支持度を一つ増やす。再帰的に呼
び出されたノード[3]と部分列{}を入力としたマッ
チング関数では、支持度を増やすこと無く終了し、一連
の処理を終了する。
【0019】
【発明が解決しようとする課題】また従来技術では、最
小支持度を満たす大品目セットを基にして相関ルールの
候補を生成していたため、ルールの両辺の全ての品目か
らなる大品目セットの支持度が小さいルールの抽出はで
きない。従って「ある品目とある品目は同一レコード中
に現れにくい」という傾向を示す負の相関ルールを抽出
することができなかった。この負の相関ルールはデータ
ベースによっては正の相関と同じ位重要な情報を示すこ
とがある。例えばある機器のメンテナンスデータからの
「処置Aを施した機器は、故障Bが起こりにくい」とい
った知識、ある生産物の製造データからの「材料Cを使
った製品は、不良Dが出にくい」といった知識は負の相
関ルール抽出によって得られる。負の相関ルールは両辺
の品目セットの支持度が非常に低いので、大品目セット
のみからでは得られない。つまり、従来技術ではルール
の右辺、左辺は最小支持度を満たすが両辺はそうでな
い、統計的に意味のあるルールを抽出することができな
かった。
【0020】従来技術であるApriori は最小確信度を基
準とした相関ルールの抽出を行っており、得られるルー
ルは統計的に意味のないものも多く含まれており、従っ
てルールの品質が良くなかった。また、もう一つのSrik
ant による従来技術はApriori によって得られた結果か
ら、χ2 検定によって統計的に意味のないルールを除去
しているので、Apriori に比べて処理負荷が大きかっ
た。そして、統計的に意味があり、χ2 検定では意味の
あるルールと判定されるはずであるが、確信度が最小確
信度より小さいために抽出されないルールも存在した。
【0021】また従来技術では、効率的に正の相関ルー
ルと負の相関ルールを分けて抽出することができなかっ
た。
【0022】また従来技術では、ユーザが最小支持度を
入力する必要が有り、また不要な支持度をもつルール候
補に関して検定を行うことが有ったので効率的に相関ル
ールを抽出することができなかった。
【0023】また従来技術では、例えば「右辺に2また
は4を含み、左辺に1または3を含むルール」の様な左
辺、右辺に出てくる品目の候補を指定して、右辺、左辺
の各々で候補の内どれかを含む相関ルール抽出を効率的
に行う手段がないため、全ステップが終わってから該当
する相関ルールを抜き出すしかなく、無駄な処理を多く
含むことになった。
【0024】また従来技術では、例えば「右辺が1と4
を含み、左辺に必ず2を含むルール」の様な左辺、右辺
に必ず出てくる品目を指定して、それらの品目を右辺、
左辺の各々で全ての必須品目を含む相関ルールの抽出を
効率的に行う段がないため、全ステップが終わってから
該当する相関ルールを抜き出すしかなく、無駄な処理を
多く含むことになった。
【0025】また従来技術では、「品目3を含むレコー
ドのみに限定した相関ルール抽出」といった、データベ
ース中で対象のドメインを限定した相関ルール抽出を行
うことができなかった。
【0026】また従来技術では、各品目に対応する整数
等の番号の付与はデータベース中のその品目の支持度に
関係なく行われていたため、ハッシュ木上の各ノードに
おけるハッシュテーブルの大きさが不定で、ハッシュ関
数も煩雑にならざるを得なかった。
【0027】また従来技術では、各レコードとハッシュ
木のマッチングを、レコード中の品目による全ての組み
合わせとハッシュ木を突き合わせて行っていいたため、
レコード長が長い場合にはその効率が大幅に低下すると
いう問題があった。
【0028】また従来技術では、例えば「相関ルール中
に、2と4が同時に出ないで欲しい」といった、要求が
あった場合には全ステップが終わってから該当する相関
ルール(例の場合は2と4を同時に含む相関ルール)を
削除するしかなく、無駄な処理を多く含むことになっ
た。この様な要求が発生する理由としては、例えばある
小売店の顧客の購買記録データにおいて、性別の「男」
と「女」を品目として含んでいるとすると、「男ならば
女ではない」という意味のない負の相関ルールが抽出さ
れてしまうこと等が挙げられる。また正の相関ルール抽
出においても、男と女による2項組みを候補品目セット
に入れて、データベースの検索によって検証するという
無駄な動作を実行することになる。
【0029】また従来技術では、ハッシュ木が大きくな
りメモリにおさまりきらなくなると、レコードとハッシ
ュ木のマッチングを行う際に頻繁にハッシュ木のノード
データのページングが起こり、処理速度が大幅に落ちる
という問題があった。特に、木に偏りがある場合には木
を分割しても分割後の木がメモリの容量を超え、ページ
ングを起こす可能性があった。
【0030】また従来技術では、ルール生成ステップに
おいて、データベース検索を行なう必要であり、処理が
遅かった。
【0031】また従来技術では、候補品目セットの数が
多く、処理が遅かった。
【0032】また従来技術では、Lk生成ステップにお
ける支持度の集計では、データベースのレコードを一つ
ずつ取り出し、各々のレコードに対してハッシュ木との
マッチングをとる処理を適用していたため、マッチング
関数の再帰的呼び出しの処理回数が多く、マッチング処
理が遅かった。
【0033】
【課題を解決するための手段】本発明の相関ルール生成
方法は、1以上の品目からなる複数のレコードを記憶し
たデータベース内から、1以上の品目からなる品目集合
間の相関ルールを抽出する相関ルール生成方法であり、
kを2以上の整数とし、品目数Nからなる集合であっ
て、このN個の品目をすべて含むレコードの数である支
持度が未確認である集合を候補品目セットC(N)と
し、該候補品目セットC(N)の中で支持度が所定の下
限値Smin以上のものを大品目セットL(N)とし
て、下記(a)(b)(c)のステップを含むことを特
徴とする相関ルール生成方法である。 (a)相関ルールの抽出に必要なパラメータを入力する
ユーザ入力ステップ; (b)下記(b1)(b2)(b3)のステップからな
る大品目セット生成ステップ; (b1)各個別の品目を含むレコードの数である支持度
をカウントし、この支持度が上記下限値Smin以上で
ある品目の集合を大品目セットL(1)と設定するL1
生成ステップ; (b2)大品目セットL(k−1)と上記大品目セット
L(1)から候補品目セットC(k)を生成するCk生
成ステップ; (b3)上記候補品目セットC(k)から大品目セット
L(k)を選択するLk生成ステップ; (c)下記(c1)(c2)のステップからなる仮説生
成検証ステップ; (c1)大品目セットL(k−1)と上記大品目セット
L(1)から、大品目セットL(k−1)を条件となる
品目セット、大品目セットL(1)を結果となる品目セ
ットとする相関ルール候補を生成するルール候補生成ス
テップ; (c2)上記相関ルール候補について、相関ルールとし
て採用するか棄却するかを判定するルール検定ステッ
プ。
【0034】本発明の相関ルール生成方法は、上記ユー
ザ入力ステップは、ユーザが少なくとも上記χ2 検定に
おける有意水準を入力し、上記ルール検定ステップは、
左辺の支持度、右辺の支持度、左辺と右辺の両方に含ま
れる品目からなる品目セットの支持度、およびレコード
総数からχ2 値を算出し、このχ2 値と上記有意水準を
指標としてχ2 検定を行うことを特徴とする相関ルール
生成方法である。
【0035】本発明の相関ルール生成方法は、上記仮説
生成検証ステップで、相関ルールが正の相関ルールか負
の相関ルールかを判定する正負判定ステップを備えたこ
とを特徴とする相関ルール生成方法である。
【0036】本発明の相関ルール生成方法は、上記大品
目セット生成ステップが、個別の品目の支持度から上記
支持度の下限値Sminを算出する相関用限界支持度決
定ステップを備えたことを特徴とする相関ルール生成方
法である。
【0037】本発明の相関ルール生成方法は、上記大品
目セット生成ステップが、支持度の最も小さな個別の品
目の支持度を上記支持度の下限値Sminと設定する最
小支持度決定ステップを備えたことを特徴とする相関ル
ール生成方法である。
【0038】本発明の相関ルール生成方法は、上記仮説
生成検証ステップが、ルール候補生成ステップで相関ル
ール候補を生成する際に使用した大品目セットL(k−
1)と大品目セットL(1)の対に対して、該大品目セ
ットL(k−1)の支持度から該大品目セットL(1)
の支持度の限界値を算出する境界決定ステップを備え、
上記ルール検定ステップが、支持度が境界以内である大
品目セットL(1)とこれと対の大品目セットL(k−
1)から生成された相関ルール候補のみのχ2検定を行
うことを特徴とする相関ルール生成方法である。
【0039】本発明の相関ルール生成方法は、上記ユー
ザ入力ステップが、ユーザが少なくとも相関ルールの左
辺または右辺の品目に関する条件を入力することを特徴
とする相関ルール生成方法である。
【0040】本発明の相関ルール生成方法は、上記ユー
ザ入力ステップで、ユーザが相関ルール中の左辺にその
中の1個以上が必ず含まれる1個以上の品目と相関ルー
ル中の右辺にその中の1個以上が必ず含まれる1個以上
の品目を条件として入力することを特徴とする相関ルー
ル生成方法である。
【0041】本発明の相関ルール生成方法は、上記ユー
ザ入力ステップで、ユーザが相関ルール中の左辺にすべ
てが必ず含まれる1個以上の品目と相関ルール中の右辺
にすべてが必ず含まれる1個以上の品目を条件として入
力することを特徴とする相関ルール生成方法である。
【0042】本発明の相関ルール生成方法は、上記ユー
ザ入力ステップで、ユーザがデータベース中のレコード
の中から、特定の1以上の品目を持つレコードの集合で
あるドメインを指定するために上記1以上の品目を入力
し、大品目セット生成ステップが、データベースから指
定された上記ドメインに含まれるレコードのみを取り出
し、以後データベース中のレコード総数の代わりにこの
ドメインに含まれるレコードの総数を使用するようにす
るドメイン限定ステップを備えたことを特徴とする相関
ルール生成方法である。
【0043】本発明の相関ルール生成方法は、上記大品
目セット生成ステップが、各品目の支持度の順に各個別
の品目に対し品目番号を付ける品目番号再配置ステップ
を備えたことを特徴とする相関ルール生成方法である。
【0044】本発明の相関ルール生成方法は、上記大品
目セット生成ステップが、上記候補品目セットC(k)
を格納するハッシュ木中のk項組みを一つずつ取り出し
て、レコードとのマッチングを行う逆方向レコードマッ
チングステップを備えることを特徴とする相関ルール生
成方法である。
【0045】本発明の相関ルール生成方法は、上記ユー
ザ入力ステップで、ユーザが相関ルール中に同時に現れ
てはならない2個以上の品目からなる組を指定し、Lk
生成ステップが、この指定された組に含まれる複数の品
目を同時には含まない大品目セットL(k)のみを生成
することを特徴とする相関ルール生成方法である。
【0046】本発明の相関ルール生成方法は、1以上の
品目からなる複数のレコードを記憶したデータベース内
から、1以上の品目からなる品目集合間の相関ルールを
抽出する相関ルール生成方法であり、kを2以上の整数
とし、品目数Nからなる集合であって、このN個の品目
をすべて含むレコードの数である支持度が未確認である
集合を候補品目セットC(N)とし、該候補品目セット
C(N)の中で支持度が所定の下限値Smin以上のも
のを大品目セットL(N)として、下記(a)から
(f)のステップを含むことを特徴とする相関ルール生
成方法である。 (a)各個別の品目を含むレコードの数である支持度を
カウントし、この支持度が上記下限値Smin以上であ
る品目の集合を大品目セットL(1)と設定するL1生
成ステップ; (b)大品目セットL(k−1)を格納しているハッシ
ュ木の枝を伸ばし、候補品目セットC(k)を生成する
Ck生成ステップ; (c)ハッシュ木を、所定の容量以内の部分木に分割す
るハッシュ木分割ステップ; (d)上記分割された部分木毎にデータベースとのマッ
チングを行い、大品目セットL(k)を選択するLk生
成ステップ; (e)相関ルール候補を生成するルール候補生成ステッ
プ; (f)上記相関ルール候補について相関ルールとして採
用するか棄却するかを判定するルール検定ステップ。
【0047】本発明の相関ルール生成方法は、上記L1
生成ステップが、上記下限値Smin以上である品目に
任意の連続番号を割り当て、Ck生成ステップとLk生
成ステップとルール候補生成ステップとルール検定ステ
ップは、各ステップの処理を上記分割された部分木毎に
実行することを特徴とする相関ルール生成方法である。
【0048】本発明の相関ルール生成方法は、1以上の
品目からなる複数のレコードを記憶したデータベース内
から、1以上の品目からなる品目集合間の相関ルールを
抽出する相関ルール生成方法であり、kを2以上の整数
とし、品目数Nからなる集合であって、このN個の品目
をすべて含むレコードの数である支持度が未確認である
集合を候補品目セットC(N)とし、該候補品目セット
C(N)の中で支持度が所定の下限値Smin以上のも
のを大品目セットL(N)とし、計算機上の相関ルール
生成のために使用可能なメモリ容量を使用許容容量と
し、上記大品目セットL(N)の情報を保存する大品目
セットファイルを使用して、下記(a)から(f)のス
テップを含むことを特徴とする相関ルール生成方法であ
る。 (a)各個別の品目を含むレコードの数である支持度を
カウントし、この支持度が上記下限値Smin以上であ
る品目の集合を大品目セットL(1)と設定し、該各品
目に任意の連続番号を割り当てた後、大品目セットL
(1)の情報を大品目セットファイルに保存するL1生
成ステップ; (b)大品目セットファイルから大品目セットL(k−
1)中のk−1項組の情報を読み込み、ハッシュ木に格
納する、大品目セットファイル読み込みステップ; (c)上記ハッシュ木の枝を伸ばして、候補品目セット
C(k)を生成するCk生成ステップ; (d)候補品目セットC(k)を格納しているハッシュ
木の容量を使用許容容量を超えない所定の容量と比較し
て、ハッシュ木の容量の方が小さい場合は上記大品目セ
ットファイル読み込みステップに戻り、そうでない場合
は次ステップに進む容量判定ステップ; (e)上記候補品目セットC(k)とデータベースとの
マッチングを行い、大品目セットL(k)を選択するL
k生成ステップ; (f)相関ルール候補を生成し、相関ルールとして採用
するか棄却するかを判定するルール生成ステップ。
【0049】本発明の相関ルール生成方法は、上記ルー
ル生成ステップが、k−1項組の支持度を大品目セット
ファイルから読み出すことを特徴とする相関ルール生成
方法である。
【0050】本発明の相関ルール生成方法は、上記大品
目セットファイル読み込みステップが、k−1項組中の
最後尾の品目以外の品目が全て共通する品目セットを同
時に読み込み、それらを同一のハッシュ木に格納するこ
とを特徴とする相関ルール生成方法である。
【0051】本発明の相関ルール生成方法は、1以上の
品目からなる複数のレコードを記憶したデータベース内
から、1以上の品目からなる品目集合間の相関ルールを
抽出する相関ルール生成方法であり、kを2以上の整数
とし、品目数Nからなる集合であって、このN個の品目
をすべて含むレコードの数である支持度が未確認である
集合を候補品目セットC(N)とし、該候補品目セット
C(N)の中で支持度が所定の下限値Smin以上のも
のを大品目セットL(N)として、下記(a)から
(e)のステップを含むことを特徴とする相関ルール生
成方法である。 (a)各個別の品目を含むレコードの数である支持度を
カウントし、この支持度が上記下限値Smin以上であ
る品目の集合を大品目セットL(1)と設定するL1生
成ステップ; (b)候補品目セットC(k)を生成するCk生成ステ
ップ; (c)データベースのレコードの集合と候補品目セット
C(k)を格納するハッシュ木を入力としてマッチング
を実行し、大品目セットL(k)を選択するLk生成ス
テップ; (d)相関ルール候補を生成するルール候補生成ステッ
プ; (e)上記相関ルール候補について相関ルールとして採
用するか棄却するかを判定するルール検定ステップ。
【0052】本発明の相関ルール生成装置は、以下の要
素を備えることを特徴とする1以上の品目からなる品目
集合間の相関ルールを抽出する相関ルール生成装置であ
る。 (a)1以上の品目からなる複数のレコードを記憶した
データベース、(b)相関ルールの抽出に必要なパラメ
ータを入力するユーザ入力部、(c)品目数Nからなる
集合であって、このN個の品目をすべて含むレコードの
数である支持度が未確認である集合を候補品目セットC
(N)とし、該候補品目セットC(N)の中で支持度が
所定の下限値Smin以上のものである大品目セットL
(N)を記憶する領域、(d)以下の処理部を有する大
品目セット生成部、(d1)各個別の品目を含むレコー
ドの数である支持度をカウントし、この支持度が上記下
限値Smin以上である品目の集合を大品目セットL
(1)と設定する候補品目セット検証部、(d2)kを
2以上の整数とし、大品目セットL(k−1)と上記大
品目セットL(1)から候補品目セットC(k)を生成
する候補品目セット生成部、(d3)上記候補品目セッ
トC(k)から大品目セットL(k)を選択する候補品
目セット検証部、(e)以下の処理部を有する仮説生成
検証部、(e1)大品目セットL(k−1)と上記大品
目セットL(1)から、大品目セットL(k−1)を条
件となる品目セット、大品目セットL(1)を結果とな
る品目セットとする相関ルール候補を生成するルール候
補生成部、(e2)上記相関ルール候補について、相関
ルールとして採用するか棄却するかを判定するルール検
定部。
【0053】本発明の相関ルール生成装置は、以下の要
素を備えることを特徴とする1以上の品目からなる品目
集合間の相関ルールを抽出する相関ルール生成装置であ
る。 (a)1以上の品目からなる複数のレコードを記憶した
データベース、(b)品目数Nからなる集合であって、
このN個の品目をすべて含むレコードの数である支持度
が未確認である集合を候補品目セットC(N)とし、該
候補品目セットC(N)の中で支持度が所定の下限値S
min以上のものである大品目セットL(N)を記憶す
る領域、(c)以下の処理部を有する大品目セット生成
部、(c1)各個別の品目を含むレコードの数である支
持度をカウントし、この支持度が上記下限値Smin以
上である品目の集合を大品目セットL(1)と設定する
候補品目セット検証部、(c2)kを2以上の整数と
し、大品目セットL(k−1)を格納しているハッシュ
木の枝を伸ばし、候補品目セットC(k)を生成する候
補品目セット生成部、(c3)ハッシュ木を、所定の容
量以内の部分木に分割するハッシュ木操作部、(c4)
上記分割された部分木毎にデータベースとのマッチング
を行い、大品目セットL(k)を選択する候補品目セッ
ト検証部、(d)以下の処理部を有する仮説生成検証
部、(d1)相関ルール候補を生成するルール候補生成
部、(d2)上記相関ルール候補について相関ルールと
して採用するか棄却するかを判定するルール検定部。
【0054】本発明の相関ルール生成装置は、以下の要
素を備えることを特徴とする1以上の品目からなる品目
集合間の相関ルールを抽出する相関ルール生成装置であ
る。 (a)1以上の品目からなる複数のレコードを記憶した
データベース、(b)品目数Nからなる集合であって、
このN個の品目をすべて含むレコードの数である支持度
が未確認である集合を候補品目セットC(N)とし、該
候補品目セットC(N)の中で支持度が所定の下限値S
min以上のものである大品目セットL(N)とし、該
大品目セットL(N)の情報を保存する大品目セットフ
ァイル、(c)以下の処理部を有する大品目セット生成
部、(c1)各個別の品目を含むレコードの数である支
持度をカウントし、この支持度が上記下限値Smin以
上である品目の集合を大品目セットL(1)と設定する
候補品目セット検証部、(c2)該各品目に任意の連続
番号を割り当てた後、大品目セットL(1)の情報を大
品目セットファイルに保存するハッシュ木操作部、(c
3)kを2以上の整数とし、大品目セットファイルから
大品目セットL(k−1)中のk−1項組の情報を読み
込み、ハッシュ木に格納するハッシュ木操作部、(c
4)上記ハッシュ木の枝を伸ばして、候補品目セットC
(k)を生成する候補品目セット生成部、(c5)計算
機上の相関ルール生成のために使用可能なメモリ容量を
使用許容容量とし、候補品目セットC(k)を格納して
いるハッシュ木の容量を使用許容容量を超えない所定の
容量と比較して、ハッシュ木の容量の方が小さい場合は
上記大品目セットファイル読み込みステップに戻り、そ
うでない場合は次ステップに進めるハッシュ木操作部、
(c6)上記候補品目セットC(k)とデータベースと
のマッチングを行い、大品目セットL(k)を選択する
候補品目セット検証部、(d)相関ルール候補を生成
し、相関ルールとして採用するか棄却するかを判定する
仮説生成検証部。
【0055】本発明の相関ルール生成装置は、以下の要
素を備えることを特徴とする1以上の品目からなる品目
集合間の相関ルールを抽出する相関ルール生成装置であ
る。 (a)1以上の品目からなる複数のレコードを記憶した
データベース、(b)品目数Nからなる集合であって、
このN個の品目をすべて含むレコードの数である支持度
が未確認である集合を候補品目セットC(N)とし、該
候補品目セットC(N)の中で支持度が所定の下限値S
min以上のものである大品目セットL(N)を記憶す
る領域、(c)以下の処理部を有する大品目セット生成
部、(c1)各個別の品目を含むレコードの数である支
持度をカウントし、この支持度が上記下限値Smin以
上である品目の集合を大品目セットL(1)と設定する
候補品目セット検証部、(c2)候補品目セットC
(k)を生成する候補品目セット生成部、(c3)デー
タベースのレコードの集合と候補品目セットC(k)を
格納するハッシュ木を入力としてマッチングを実行し、
大品目セットL(k)を選択する候補品目セット検証
部、(d)以下の処理を行なう仮説生成検証部、(d
1)相関ルール候補を生成するルール候補生成部、(d
2)上記相関ルール候補について相関ルールとして採用
するか棄却するかを判定するルール検定部。
【0056】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明するが、各実施の形態に共通な項目について説明
しておく。まず、本発明の実施の形態おいて使用するデ
ータベースの形式は、図51に示すように、各レコード
はレコードを識別するためのレコードIDと1以上の任
意の整数で表現された品目の集まりとからなっているも
のとする。ここでは、k個の品目の集まりをk項組と呼
び、このk項組を含むレコードの数をそのk項組の支持
度と呼ぶ。
【0057】また、例えば、 A,B,・・・,X→Y という相関ルール、すなわち品目A,B,・・・,Xを
含むレコードと、さらに品目Yも含むレコードの間には
相関があるというルールの場合、A,B,・・,X,Y
の全てを含むレコードの数をこの相関ルールの支持度、
A,B,・・,Xを含むレコードの中でさらにYも含む
レコードの割合を確信度と呼ぶ。この例では、右辺は、
相関ルールの結果となる品目のセットを意味し、左辺
は、相関ルールの条件となる品目のセットを意味してい
る。尚、相関ルール候補の場合にも同様に、右辺は、結
果となる品目のセットを意味し、左辺は、条件となる品
目のセットを意味している。
【0058】上記の様な相関ルールにおいて、A,B,
・・・,Xを含むレコードの数を左辺の支持度、Yを含
むレコードの数を右辺の支持度、A,B,・・・,X,
Yを含むレコードの数を両辺の支持度と呼ぶ。また、こ
のような支持度および確信度について、ユーザによって
その最小値が指示されたものをそれぞれ最小支持度、最
小確信度と呼ぶ。
【0059】さらに、本発明の実施の形態の説明におい
ては、最小支持度以上のk項組を要素とする集合を長さ
kの大品目セットLkと呼ぶ。また、大品目セットLk
の要素の候補であるk項組を要素とする集合を長さkの
候補品目セットCkと呼び、Ckの要素中、最小支持度
以上のk項組がLkの要素として選択される。ただし、
kは1以上の整数である。
【0060】また、本発明の実施の形態において、長さ
が同じ二つの品目セットの昇順の大小は、ハッシュ木上
の同じ高さのノード番号をrootから出発して並べて
比較し、初めて異なる番号の高さが出現した時、その番
号が小さい方の品目セットが、もう一方の品目セットよ
り昇順が小さいと決定する。
【0061】実施の形態1.以下、この発明の実施の形
態1に係る相関ルール生成装置を図1、図2および図3
2から図36に基づいて説明する。図について説明する
と、図1は本実施形態による相関ルール生成装置のシス
テム図、図2は本実施形態による相関ルール生成装置の
ブロック図、図32は本実施形態における候補品目セッ
トCk生成の詳細ブロック図、図33本実施形態におけ
るデータベース、図34から図36は本実施形態におけ
る候補品目セットCk生成の過程を示した図である。
【0062】まず、本実施形態のシステムの構成を説明
する。図1において、1は蓄積されたデータベースであ
り、すでに説明したように図33に示した構成を持つ。
2は上記データベース1から生成された大品目セット、
3は上記大品目セット2から生成され検証された相関ル
ールの集合である相関ルール集合、10はユーザが所定
のパラメータを入力するユーザ入力部、20は上記デー
タベース1から大品目セットを生成する大品目セット生
成部であり、この大品目セット生成部20は候補品目セ
ットを検証して大品目セットを選択する候補品目セット
検証部21と候補品目セットを生成する候補品目セット
生成部22とから構成される。さらに40は相関ルール
生成のためにまず仮説を生成し、さらにそれを検証する
仮説生成検証部であり、この仮説生成部は相関ルールの
候補を生成するルール候補生成部41と、このルール候
補をχ2 検定によって検定し相関ルール集合に格納する
か否かを判定するχ2 検定部43とから構成される。χ
2 検定については後述する。
【0063】以下、図2のブロック図に従って本実施形
態における相関ルール生成の手順を説明する。まず最初
のステップ101で、ユーザ入力でユーザ入力部10に
より、ユーザから最小支持度と有意水準を取得する。次
のステップ110、L1生成では、候補品目セット検証
部21が、データベース中のレコードを一つずつ取り出
して、そのレコード中に出現する各品目について、出現
する回数をカウントし、そのカウント数である支持度を
増やす。初めて出現する品目については、そのカウント
の領域を新たに設ける。そして、全てのレコードについ
て数え上げが終了すると、最終的な支持度が最小支持度
を超えた品目について、大品目セットL1としてハッシ
ュ木に登録を行う。1,2,3,4,5の5つの品目の
支持度が最小支持度を超えた場合について、これらを登
録した状態のハッシュ木を図34に示す。
【0064】ハッシュ木の各枝の両端はノードと呼ば
れ、一般に品目番号が対応付けられるが、ハッシュ木の
始点のみは品目が対応付けられないノードで、root
と呼ばれる。またrootからハッシュ木の末端のノー
ドまでの枝の数を枝の長さと呼ぶ。図34のハッシュ木
の各枝の長さは1である。さらに、各枝のrootに近
い側のノードを親ノード、rootから遠い側のノード
を子ノードと呼ぶ。
【0065】ステップ110、L1生成に続いて、ステ
ップ120のCk生成が行われる。Ck生成では候補品
目セット生成部22が長さk−1の大品目セットLk−
1から候補品目セットCkを生成する。ここではL2か
らC3が生成される場合の例を説明する。図35にL2
まで作成された状態のハッシュ木の例を示す。このCk
生成のステップの内部は図32ブロック図の様な2段階
になっており、各々はjoinステップ、pruneス
テップと呼ばれる。まず、ステップ121のjoinス
テップについて説明する。ここでは、長さk−1まで伸
びた枝の1つのノードについて、同じ親ノードを持ち、
かつ末端のノードの品目番号がそのノードの品目番号よ
り大きい他のノードの末端の品目をそのノードの子ノー
ドとして追加して、枝を伸ばす。図35のroot→1
→3で示されるノード(これを[1,3]と表記するこ
とにし、以降の説明では、ハッシュ木のノードを同様な
記述で表す)には、同じ親ノードを持ち、かつ末端のノ
ードの品目番号が3より大きい[1,4]と[1,5]
と結合し、それぞれ[1,3,4]と[1,3,5]を
設ける。[1,4]についても[1,5]と結合し、
[1,4,5]が設けられる。[1,5]については5
より大きな品目番号を持つノードが[1]より下にない
ので、枝は伸ばされない。このようにしてCk生成のた
めの3品目からなる本発明における候補品目予備セット
を形成する。この状態を図36(1)prune前の図
に示す。
【0066】次のステップ122のpruneステップ
について説明する。ここでは、前のjoinステップで
長さkまで伸ばされた枝の該当する品目セットに関し
て、それから一つの品目を除いてできるk−1項組み全
てについて、それがLk−1に属するかの検査を行い、
全てのk−1項組がLk−1に属する場合のみ採用し、
1つでLk−1に属さないk−1項組がある場合は削除
する。例えば[1,3,4]の検査を行う場合では、
[1,3]、[1,4]、[3,4]の3つの2項組み
がL2に存在するか調べられる。図36の例ではいずれ
もL2に含まれるのでこの3項組みは残される。[1,
3,5]の検査を行う場合では、[1,3]、[3,
5]、[1,5]がL2に存在するかどうか調べられる
が、[3,5]は存在しないので、この3項組みは削除
される。以上の様にして、このpruneステップでは
joinによってできた全てのk項組みが検査される。
prune後のハッシュ木を図36(2)prune後
の図に示す。図34に示した初期状態ではk=2であ
り、大品目セットL1から候補品目予備セットを経て、
候補品目セットC2が生成される。
【0067】次にステップ130のLk生成のステップ
が候補品目セット検証部21によって行われる。ここで
はデータベースのレコードが一件ずつ取り出され、その
中に存在するCkの要素であるk項組みの数をカウント
し、最終的に最小支持度を超えたk項組みのみをLkの
要素として残す。このk項組のカウントのためにレコー
ドとハッシュ木の照合(マッチング)が行われる。この
マッチングは、まず、ハッシュ木のrootにおいてデ
ータベースのレコードが一件ずつ取り出され、各レコー
ド中にrootの子ノードの品目が存在するかどうか検
査する。存在しなければそのレコードについてのマッチ
ングは終了し、次のレコードを検査する。存在すれば、
その品目が対応付けられている子ノードにおいて、さら
に次の子ノード(rootから見ると“孫”)に対応付
けられている品目がこのレコード中に存在するかどうか
を検査する。以後この操作を繰り返すが、適用されるノ
ードの子ノードがそれ以下に枝を持たないノード、すな
わち葉であり、なおかつそのレコード中に葉であるその
子ノードに対応している品目が存在する場合はこの葉ノ
ードの支持度集計用カウントを増やす操作を行い、この
レコードについてのマッチングを終了する。すべてのレ
コードについてマッチングが終了したときの各葉ノード
の支持度集計用カウントの値が、各k項組(rootか
らその葉ノードにいたるまでの品目の組)の支持度であ
る。このようにして各k項組の支持度をカウントし、最
小支持度以上の支持度をもつk項組をすべて要素として
選択した大品目セットLkを生成する。
【0068】Lk生成のステップでLkの要素となるk
項組みが一つも生成されなかった場合はステップ150
のルール候補生成に進み、そうでない場合はkの値を一
つ増やし、Ck生成のステップに戻る。
【0069】ステップ150のルール候補生成ではルー
ル候補生成部41により、それまでのステップで作成さ
れた大品目セットよりルールの候補が作られる。Lk中
のあるk項組みからは、右辺にその中の一つの品目、左
辺に残りのk−1個の品目がくる計k個のルール候補が
生成される。これが、k=2以上の全てのLkのk項組
みについて成される。
【0070】最後のステップ170であるルール検定で
は、χ2 検定部43によって、ルール候補生成部41が
生成したルール候補の各々について、相関ルール集合に
格納するかどうかを決定する。各ルール候補の右辺、左
辺各々と両方の品目セットの支持度よりχ2 値を計算す
る。例えば、 A1,A2→B という候補ルールの検定を行う場合、A1,A2の支持
度すなわちA1,A2を共に含むレコードの数をa、B
の支持度すなわちBを含むレコードの数をb、A1,A
2,Bの支持度すなわちA1,A2,Bをすべて含むレ
コードの数をc、データベース中のレコードの総数をn
とすると、χ2 値は、
【0071】
【数1】
【0072】と計算される。この値は右辺と左辺が独立
な事象であると仮定したときの、自由度1のχ2 分布に
従う確率変数である。統計学によれば、この値が有意水
準から定まる一定の値を超えるとき、「右辺と左辺が独
立である」という仮説を棄却することができ、従って右
辺と左辺の間に何らかの関係が存在すると言うことがで
きる。(1)式で算出したχ2 値がユーザの指定した有
意水準から計算されるχ2 値の下限を超えているか判定
し、超えていれば相関ルール集合にルール候補を格納す
る。
【0073】また、nc−abが正のときはA1,A2
とBは正の相関を持つといい、同一レコードに同時に現
れ易い傾向にあることを示すし、負のときはA1,A2
とBとは負の相関を持つといい、同一レコードに同時に
現れにくいことを示す。本実施形態では、Lk生成のス
テップで、c≧最小支持度を満足するLkを選択し、ま
たa≧c、b≧cであるので、右辺と左辺および両辺の
支持度が最小支持度を超え、χ2 値が有意水準から計算
される下限を超えるルールを全て抽出することができ
る。
【0074】以上のように、本実施の形態では、主に、
ユーザが少なくともχ2 検定における有意水準を入力す
るユーザ入力ステップと、相関ルール候補について、左
辺の支持度、右辺の支持度、左辺と右辺の両方に含まれ
る品目からなる品目セットの支持度、およびレコード総
数からχ2 値を算出し、このχ2 値と上記有意水準を指
標としてχ2 検定を行い、相関ルールとして採用するか
棄却するかを判定するルール検定ステップを有する相関
ルール生成方法および各ステップの処理を行なう相関ル
ール生成装置について説明した。
【0075】従って、相関ルールをχ2 値という統計量
によって評価し抽出を行うので、統計的に意味のある相
関ルールのみを得ることができるという効果がある。
【0076】実施の形態2.以下、この発明の実施の形
態2に係る相関ルール生成装置を図1から図5に基づい
て説明する。上記実施の形態1は候補品目セットCk生
成のステップは、joinステップおよびpruneス
テップの2つのステップからなっていたが、本実施形態
はCk生成のステップがjoinステップのみからなる
ようにしたものである。
【0077】図について説明すると、図1は本実施形態
における相関ルール生成装置のシステム図、図2は本実
施形態における相関ルール生成装置のブロック図、図3
は本実施形態における候補品目セットCk生成の詳細ブ
ロック図、図4および図5は本実施形態における候補品
目セットCk生成と実施の形態1における候補品目セッ
トCk生成の比較を示した図である。
【0078】図1のシステム図および図2のブロック図
は実施の形態1と同様の構成であり、動作については、
図1中の候補品目セット生成部22による図2中のステ
ップ120Ck生成の動作が実施の形態1と相違してい
る以外は、実施の形態1と同様である。そこで、以下、
図1の候補品目セット生成部22による図2のステップ
120Ck生成の動作を説明する。
【0079】図2において、Ck生成のステップ120
では、候補品目セット生成部22により、図3の詳細ブ
ロック図の様に、joinステップのみでpruneス
テップによる候補の絞り込みを行わない候補品目セット
生成を実行する。
【0080】この方法はpruneステップを含む従来
技術に比べて、処理時間が短くなる。その理由を以下に
説明する。図5に図4のL2まで作成されたハッシュ木
をjoinステップによって伸ばして、本発明における
候補品目予備セットを生成した状態(1)と、それにさ
らにprune操作を行った状態(2)を示す。例え
ば、各々のハッシュ木について、レコード={1,2,
3,5}とのマッチングを考えてみると、ヒットしたノ
ードは、(1)におけるpruneによって削除された
[1,3,5]のノード以外は全て同じである。しかも
この[1,3,5]についても[1,3]までハッシュ
でヒットして次の[1,3,5]を探す操作までは同一
で,手間の違いは[1,3,5]のノードのカウントを
増やす操作のみである。これに対して、pruneを行
う場合では、そのpruneステップにおいて[1,
3,5]による3項組みから一つの品目を除いた[1,
3]、[1,5]、[3,5]の3つのノードの検索を
行わなければならない。これは[1,3,5]のノード
のカウントを増やすことと比べて大きな負荷となる。
【0081】以上のように、本実施の形態では、主に、
Ck生成ステップにおいて、全ての候補品目予備セット
D(k)を候補品目セットC(k)として選択する相関
ルール生成方法及び各ステップの処理を行なう相関ルー
ル作成装置について説明した。
【0082】従って、候補品目セット生成の際にpru
ne操作を行わないので、処理時間を短縮することがで
きる。
【0083】実施の形態3.以下、この発明の実施の形
態3に係る相関ルール生成装置を図2および図6に基づ
いて説明する。上記実施の形態1は相関ルールが正の相
関か負の相関かを判別せずに相関ルール集合に格納して
いたが、本実施形態は正の相関ルールのみを選択して格
納するようにしたものである。
【0084】図について説明すると、図2は本実施形態
における相関ルール生成装置のブロック図、図6は本実
施形態のシステム図である。
【0085】システムの構成を説明すると、図6におい
て正相関選択部44以外は実施の形態1で説明したシス
テム図1と同様である。正相関選択部44では、χ2
が有意水準から計算される下限値を満たしたルールが正
の相関であるかどうかを判定する。また、図2のブロッ
ク図においては、上記正相関選択部44によるステップ
170ルール検定の動作のみが実施の形態1と異なり、
他の動作は実施の形態1と同様である。
【0086】以下、図2のブロック図に従って本実施形
態における相関ルール生成の手順を説明するが、ユーザ
入力100からルール候補生成150のステップまでは
実施の形態1と同じ動作である。ルール検定のステップ
170では、ルール候補のχ2 値を計算し、その値が有
意水準から計算される下限値を満たした候補について
は、正相関選択部44がそのルールが正負のどちらの相
関に相当するかを計算し、本実施例では正の場合のみ、
相関ルール集合3に格納する。ルール候補の正負判定方
法については、例えば、 A1,A2→B という候補ルールの検定を行う場合、A1,A2の支持
度をa、Bの支持度をb、A1,A2,Bの支持度を
c、データベース中のレコードの総数をnとすると、 nc−ab の値を計算し、これが正ならば正の相関と判定される。
このように構成すれば、相関ルールのなかから正の相関
ルールのみを選択的に抽出することが可能である。
【0087】また、以上では正相関選択部44を設けて
正の相関ルールを相関ルール集合3に格納したが、正相
関選択部の代わりに負相関選択部を設け、 nc−ab<0 を満たす負の相関ルールのみを相関ルール集合に格納す
るようにしてもよい。このように構成すれば、相関ルー
ルのなかから負の相関ルールのみを選択的に抽出するこ
とが可能である。
【0088】以上のように、本実施の形態では、主に、
仮説生成検証ステップが正相関選択ステップを有し、正
の相関ルールを選択的に採用する相関ルール生成方法お
よび各ステップの処理を行なう相関ルール生成装置につ
いて説明した。
【0089】従って、統計的に意味のある正相関ルール
のみを得ることができるという効果がある。
【0090】実施の形態4.以下、この発明の実施の形
態4に係る相関ルール生成装置を図7から図9に基づい
て説明する。これまでの実施の形態は長さk−1の大品
目セットから長さkの候補品目セットを生成し、さらに
ルール候補を生成していたが、本実施形態は、長さ1の
大品目セットL1と長さk−1の大品目セットLk−1
からルール候補を生成するようにしたものである。
【0091】図について説明すると、図7は本実施形態
における相関ルール生成装置のシステム図、図8は本実
施形態における相関ルール生成装置のブロック図、図9
は本実施形態における候補品目セットCk生成の過程を
示した図である。
【0092】図7のシステム図は、図1に示した実施の
形態1のシステム図と同様の構成であるが、図7の候補
品目セット生成部24、ルール候補生成部46の動作が
図1の同名のものと異なる為、この部分の動作について
説明する。これ以外の動作については実施の形態1と同
様である。図7において、候補品目セット生成部24
は、長さ1の大品目セットと長さk−1の大品目セット
より長さkの候補品目セットCkを生成する役割を持
つ。また、ルール候補生成部46は、長さ1の大品目セ
ットと長さk−1の大品目セット、長さkの候補品目セ
ットからルールの候補を生成する。
【0093】以下、図8のブロック図に従って本実施例
における相関ルール生成の手順を説明する。まず最初の
ステップ、ユーザ入力400でユーザ入力部10によ
り、ユーザから最小支持度と有意水準を取得する。次の
ステップ410、L1生成で長さ1の大品目セットL1
が作成される。これは実施の形態1と同様に、候補品目
セット検証部24が、データベース中のレコードを一つ
ずつ取り出して、そのレコード中に出現する各品目につ
いて、出現する回数をカウントし、そのカウント数であ
る支持度を増やす。初めて出現する品目については、そ
のカウントの領域を新たに設ける。そして、全てのレコ
ードについて数え上げが終了すると、最終的な支持度が
最小支持度を超えた品目について、ハッシュ木に登録を
行う。
【0094】次に、ステップ420でLk−1の集合が
空であるかどうかの判定が行われる。初期状態ではk=
2であり、判定の対象となるのはL1である。もしLk
−1が空であれば本装置は終了状態となり、そうでなけ
れば次のステップ430のCk生成が行われる。
【0095】ステップ430のCk生成では候補品目セ
ット生成部24により、L1とLk−1から候補品目セ
ットCkが生成される。このステップでは、まずLk−
1まで作成されたハッシュ木の葉に、L1中の各品目が
追加され、さらに重複を除き、ハッシュ木の下方の品目
番号が上方よりも大きくなる様に再構成される。これを
図9の様な、k=3の場合の例で説明する。L2に属す
る[1,3]の葉3に、L1に属する品目、1、2、
3、4、5が追加される。この追加された品目の内、1
と3は2項組みの品目集合中に含まれるため除かれる。
そして2については葉の3より番号が小さいので、
[1,2,3]を木に含めるため、[1]の下に2、そ
の下に3が再構成される。これがL2の葉の全てについ
て行われる。
【0096】そして、生成されたCk(例ではC3)の
各候補品目セットについて、データベースを検索してそ
の支持度が集計される。そのためにレコードとハッシュ
木のマッチングが実施の形態1と同様に行われる。
【0097】次のステップ440のルール候補生成では
ルール候補生成部46によりルールの候補が生成され
る。このステップでは、まずLk−1中の各品目セット
と、L1中の各品目がひとつずつ抽出される。k=3の
場合、A1,A2がL2から、BがL1から抽出された
とすると、BがA1,A2に含まれず(A1,A2のど
ちらでもなく)、かつ生成中のルールの候補集合にA
1,A2→Bが含まれなければ、A1,A2→Bをルー
ルの候補集合に追加する。これをL2とL1の全ての品
目セットの組み合わせについて行う。
【0098】次のステップであるルール検定450で
は、χ2 検定部43によりルール候補生成部41が生成
したルール候補の各々について、相関ルール集合に格納
するかどうかを決定する。このために、各ルール候補の
右辺および左辺の支持度を調べ、両方とも最小支持度以
上であるルール候補について、右辺、左辺各々と両方の
品目セットの支持度よりχ2 値を計算する。これが有意
水準から計算される下限値を超えているか判定し、超え
ていれば相関ルール集合にルール候補を格納する。
【0099】次にステップ460のLk生成が行われ
る。これにはステップ430で求めたCk中のk項組み
の支持度を利用し、最小支持度を超えたk項組みのみを
Lkの要素として残す。この後はステップ470でkの
値を一つ増やし、ステップ420に戻る。
【0100】本実施形態では、右辺と左辺の全ての品目
の支持度は使用せず、右辺の支持度と左辺の支持度が共
に最小支持度を超え、さらにχ2 検定の有意水準から計
算される下限値を超えるルールが全て抽出される。ま
た、これによりこれまで両辺全ての品目による品目セッ
トの支持度が低いために抽出不可能であった多くの負の
相関関係を示す相関ルールを抽出することが可能とな
る。
【0101】以上のように、本実施の形態では、主に、
大品目セットL(k−1)と大品目セットL(1)か
ら、大品目セットL(k−1)を条件となる品目セッ
ト、大品目セットL(1)を結果となる品目セットとす
る相関ルール候補を生成するルール候補生成ステップを
有する相関ルール生成方法と各ステップの処理を行なう
相関ルール作成装置について説明した。
【0102】従って、相関ルールの両辺全ての品目から
なる品目セットの支持度がいかなる値であっても、相関
ルールを得ることができ、負の相関ルールを抽出できる
という効果がある。
【0103】実施の形態5.以下、この発明の実施の形
態5に係る相関ルール生成装置を図8および図10に基
づいて説明する。上記実施の形態4は相関ルールが正の
相関か負の相関かを判別せずに相関ルール集合に格納し
ていたが、本実施形態は正の相関ルールのみまたは負の
相関ルールのみを選択して格納するようにしたものであ
る。
【0104】図について説明すると、図8は本実施形態
における相関ルール生成装置のブロック図、図10は本
実施形態における相関ルール生成装置のシステム図であ
る。
【0105】システムについて説明すると、図10にお
ける正負判定部45以外は上記実施の形態4で説明した
システム図7と同様である。正負判定部45では、χ2
値が有意水準から計算される下限値を満たしたルールが
正の相関なのか、負の相関なのかを判定する。また、図
8のブロック図においては、上記正負判定部45による
ステップ450ルール検定の動作のみが実施の形態4と
異なり、他の動作は実施の形態4と同様である。
【0106】以下、図8のブロック図に従って本実施例
における相関ルール生成の手順を説明するが、上述のよ
うにステップ450のルール検定のステップ以外は実施
の形態4と同じ動作である。このルール検定のステップ
450では、ルール候補のχ2 値を計算し、その値が有
意水準から計算される下限値を満たした候補について
は、正負判定部45がそのルールが正負のどちらの相関
に相当するかを計算し、正または負の場合のみ、相関ル
ール集合に格納する。ルール候補の正負判定について
は、例えば、 A1,A2→B という候補ルールの検定を行う場合、A1,A2の支持
度をa、Bの支持度をb、A1,A2,Bの支持度を
c、データベース中のレコードの総数をnとすると、 nc−ab (2) の値を計算し、これが正ならば正の相関ルール、負なら
ば負の相関ルールと判定され、相関ルール集合3に格納
される。
【0107】左辺の品目セットのレコード全体に対する
比率はa/n、右辺の品目のレコード全体に対する比率
はb/nであるので、右辺および左辺すべての品目のレ
コード全体に対する比率の期待値はab/n2 となり、
実際の比率c/nとの差は、 (nc−ab)/n2 (3) となる。上記の(2)式はこの(3)式の分子であり、
相関ルールの正負の判定をルールの両辺の全ての品目セ
ットの支持度の期待値と実際の値との差の正負によって
行っていることを意味する。
【0108】ここで、正の相関ルールを格納するか負の
相関ルールを格納するかはユーザ入力部10によりユー
ザが指定してもよく、またシステムで予め固定されてい
てもよい。
【0109】以上のように、本実施の形態では、主に、
仮説生成検証ステップに、相関ルールが正の相関ルール
か負の相関ルールかを判定する正負判定ステップを設
け、負の相関ルールのみを採用する相関ルール生成方法
および各ステップの処理を行なう相関ルール生成装置
と、同様に仮説生成検証ステップに、上記正負判定ステ
ップを設け、正の相関ルールのみを採用する相関ルール
生成方法および各ステップの処理を行なう相関ルール生
成装置について説明した。
【0110】従って、効率的に負の相関ルールを抽出す
ることができるという効果と、効率的に正の相関ルール
を抽出することができるという効果がある。
【0111】実施の形態6.以下、この発明の実施の形
態6に係る相関ルール生成装置を図11、図12、図1
3に基づいて説明する。これまでに説明した実施の形態
では、ユーザが最小支持度および有意水準を入力してい
たが、本実施形態はユーザによる最小支持度の入力を不
要にし、負の相関ルールを抽出するシステムにおいて、
最小支持度と同じ役割を持つ限界支持度というパラメー
タをシステムが自動的に設定するようにしたものであ
る。
【0112】図について説明すると、図11は本実施形
態における相関ルール生成装置のシステム図、図12は
本実施形態における相関ルール生成装置のブロック図、
図13は本実施形態における相関ルール生成装置の限界
支持度の決定法を説明する図である。
【0113】システムの構成を説明すると、図11にお
いてユーザ入力部10と本実施形態における新規な要素
である負の相関用限界支持度決定部26以外は、実施の
形態5で説明したシステム図10と同様の機能を有す
る。ユーザ入力部10は本実施形態においてはユーザか
ら有意水準のみを獲得し、負の相関用限界支持度決定部
26は、全ての品目の支持度の内最も大きな支持度を使
用して、実施の形態5における最小支持度と同じ役割を
持つ限界支持度を決定する役割を持つ。
【0114】以下、図12のブロック図に従って本実施
形態における相関ルール生成の手順を説明する。最初の
ステップ700、ユーザ入力ではユーザ入力部10によ
って、ユーザから有意水準を取得する。次のステップ7
10、各品目支持度集計では、候補品目セット検証部2
1がデータベースを検索し、データベース中のレコード
に現れる全ての品目の支持度を集計する。
【0115】次のステップ720、限界支持度計算で
は、実施の形態5における最小支持度に代わる役割をす
る限界支持度の決定が、負の相関用限界支持度決定部2
6によって行われる。ここで行われる計算の式は、前ス
テップで集計された支持度の内最大のものをL1ma
x、有意水準から計算されるχ2 値の下限値をα、デー
タベース中のレコードの件数をnとすると、
【0116】
【数2】
【0117】となる。
【0118】このことを図13で説明すると、aはある
bの値に対してf(b)以上である斜線部の値を取らな
ければならないことを意味し、このためにはaがf(L
1max)以上であることが必要条件である。以上の計
算式はaとbについて対称であるので、図13中のaと
bを入れ替えて読んで、bはあるaの値に対してf
(a)以上の値、すなわち斜線部の値を取らなければな
らない。またaの値もL1max以下であるから、bが
斜線部の値をとるためにはbがf(L1max)以上で
あることが必要条件である。このように、χ2 が有意水
準から計算された下限値以上となる相関ルールの両辺の
品目セットは、どちらもその支持度は限界支持度を上回
ることが必要条件である。
【0119】次のステップ730、L1生成では、候補
品目セット検証部が各品目支持度集計のステップで集計
した支持度が限界支持度を上回る品目について、これを
1項組みとして品目セットL1に追加する。以降のステ
ップは、実施の形態5のブロック図8の同名のステップ
以下と同様の動作を行う。ただし、ステップ770のル
ール検定では、右辺の支持度と左辺の支持度の両方が上
記限界支持度以上であるルール候補について、χ2 値を
算出する。また同時に、 nc−ab を計算してこの値の正負を正負判定部45により判定
し、この値が負になる負の相関ルールが選択される。
【0120】本実施形態では、ユーザが最小支持度を指
定する必要がなく、有意水準から計算される下限値によ
って計算された限界支持度によって大品目セットを生成
していくため、相関ルールの両辺の品目による品目セッ
トの支持度がいかなる値であってもχ2 値という統計量
によって相関ルールの評価・抽出を行うので、効率的に
統計的な相関関係を有する負の相関ルールを得ることが
できる。
【0121】以上のように、本実施の形態では、主に、
大品目セット生成ステップに、支持度の最も大きな個別
の品目の支持度から上記支持度の下限値Sminを算出
する負の相関用限界支持度決定ステップを備えた相関ル
ール生成方法および各ステップの処理を行なう相関ルー
ル生成装置について説明した。
【0122】従って、ユーザが最小支持度を入力する必
要が無く、また不要な支持度をもつルール候補に関して
検定を行うことが無いので効率的に負の相関ルールを抽
出することができるという効果がある。
【0123】実施の形態7.以下、この発明の実施の形
態7に係る相関ルール生成装置を図13、図14、図1
5に基づいて説明する。上記実施の形態6は、負の相関
ルールを抽出するシステムにおいて、最小支持度に相当
する限界支持度というパラメータを自動的に設定するも
のであったが、本実施形態は支持度の最も小さい1項組
の支持度を最小支持度とするものである。
【0124】図について説明すると、図13は上記実施
の形態6で説明した限界支持度を説明する図、図14は
本実施形態における相関ルール生成装置のシステム図、
図15は本実施形態における相関ルール生成装置のブロ
ック図である。
【0125】システムの構成を説明すると、図14にお
いてユーザ入力部10と本実施形態における新規な要素
である最小支持度決定部25以外は、実施の形態5で説
明したシステム図10と同様の機能を有する。ユーザ入
力部10は本実施形態においてはユーザから有意水準の
みを獲得し、最小支持度決定計算部25では、全ての品
目中最も支持度の小さい品目の支持度を最小支持度と決
定する。
【0126】以下、図15のブロック図に従って本実施
形態における相関ルール生成の手順を説明する。最初の
ステップ600、ユーザ入力ではユーザ入力部10によ
って、ユーザから有意水準を取得する。次のステップ6
10、各品目支持度集計では、候補品目セット検証部2
1がデータベースを検索し、データベース中のレコード
に現れる全ての品目の支持度を集計する。次のステップ
620、最小支持度決定では、最小支持度決定部25が
前ステップで集計された支持度の内最も値の小さいもの
最小支持度と決定する。そしてステップ630のL1生
成では全ての品目の1項組みをL1に登録する。以降の
ステップは、実施の形態4のブロック図8の同名のステ
ップと同様の動作を行う。ただし、ステップ670、ル
ール検定では、正負判定部45により負の相関ルールが
選択され、相関ルール集合3に格納される。
【0127】本実施形態は、一般のデータベースにおい
て、最も支持度の小さい品目の支持度は上記実施の形態
6で説明したf(L1max)よりも小さいことを利用
しており、これは図13から明らかなように、χ2 値が
有意水準から計算された下限値以上となる相関ルールの
両辺の各品目セットは、どちらもその支持度は本実施形
態における最小支持度を上回ることが必要条件であるこ
とによる。
【0128】本実施形態によれば、ユーザが最小支持度
を指定する必要がなく、最小支持度決定部が自動的に決
定した全品目中最小の支持度によって大品目セットを生
成し、相関ルールの両辺の品目による品目セットの支持
度の値に関係なくχ2 値という統計量によって相関ルー
ルの評価・抽出を行うので、統計的に相関関係を有する
負の相関ルールを得ることができる。
【0129】以上のように、本実施の形態では、主に、
大品目セット生成ステップに、支持度の最も小さな個別
の品目の支持度を支持度の下限値Sminと設定する最
小支持度決定ステップを備えた相関ルール生成方法およ
び各ステップの処理を行なう相関ルール生成装置につい
て説明した。
【0130】従って、ユーザが最小支持度を入力する必
要がないという効果がある。
【0131】実施の形態8.以下、この発明の実施の形
態8に係る相関ルール生成装置を図12、図16に基づ
いて説明する。上記実施の形態6は、負の相関ルールを
抽出するシステムにおいて最小支持度に相当する限界支
持度を算出していたが、本実施形態は、正の相関ルール
を抽出するシステムにおいて、この限界支持度を算出す
るものである。
【0132】図について説明すると、図12は本実施形
態における相関ルール生成装置のブロック図、図16は
本実施形態における相関ルール生成装置のシステム図で
ある。
【0133】システムの構成を説明すると、図16にお
いてユーザ入力部10と本実施形態における新規な要素
である正の相関用限界支持度決定部27以外は、実施の
形態5で説明したシステム図10と同様の機能を有す
る。ユーザ入力部10は本実施形態においてはユーザか
ら有意水準のみを獲得し、正の相関用限界支持度決定部
27は、全ての品目の支持度の内最も小さな支持度を使
用して、実施の形態5における最小支持度と同じ役割を
持つ限界支持度を決定する役割を持つ。
【0134】以下、図12のブロック図に従って本実施
例における相関ルール生成の手順を説明する。最初のス
テップ700、ユーザ入力ではユーザ入力部10によっ
て、ユーザから有意水準を取得する。次のステップ71
0、各品目支持度集計では、候補品目セット検証部21
がデータベースを検索し、データベース中のレコードに
現れる全ての品目の支持度を集計する。次のステップ7
20、限界支持度計算では実施の形態5における最小支
持度と同様の役割をする限界支持度の決定が、正の相関
用限界支持度決定部27によって行われる。限界支持度
の計算式は、前ステップで集計された支持度の内最小の
ものをL1min、有意水準から計算されるχ2 値の下
限値をα、データベース中のレコードの件数をnとする
と、
【0135】
【数3】
【0136】となる。この不等式はbをaに置き換えて
も成立する。従って、χ2 値が有意水準から計算される
下限値以上となる相関ルールの両辺の品目セットは、ど
ちらもその支持度は限界支持度を上回ることが必要条件
である。
【0137】次のステップ730のL1生成では、候補
品目セット検証部21が各品目支持度集計のステップ7
10で集計した支持度が限界支持度を上回る品目につい
て、これを1項組みとして品目セットL1に追加する。
以降のステップは、実施の形態5のブロック図8の同名
のステップ以下と同様の動作を行う。ただし、ステップ
770のルール検定では、右辺および左辺の両方の支持
度が上記限界支持度以上であるルール候補について、χ
2 値を算出する。また同時に、 nc−ab を計算してこの値の正負を正負判定部45により判定
し、この値が正になる正の相関ルールが選択される。
【0138】本実施形態ではユーザが最小支持度を指定
する必要がなく、有意水準から計算される下限値によっ
て計算された限界支持度によって大品目セットを生成
し、相関ルールの両辺の品目による品目セットの支持度
がいかなる値であってもχ2 値という統計量によって評
価・抽出を行うので、効率的に統計的な相関関係を有す
る正の相関ルールを得ることができる。
【0139】以上のように、本実施の形態では、主に、
大品目セット生成ステップに、支持度の最も小さな個別
の品目の支持度から支持度の下限値Sminを算出する
正の相関用限界支持度決定ステップを備えた相関ルール
生成方法および各ステップの処理を行なう相関ルール生
成装置について説明した。
【0140】従って、ユーザが最小支持度を入力するこ
と無く、また不要な支持度をもつルール候補に関して検
定を行うことが無いので効率的に正の相関ルールを抽出
することができるという効果がある。
【0141】実施の形態9.以下、この発明の実施の形
態9に係る相関ルール生成装置を図17、図18に基づ
いて説明する。上記実施の形態6は、負の相関ルールを
抽出するシステムにおいて、全ての品目の支持度の内最
も大きな支持度を使用して限界支持度を算出し、両辺と
もこの限界支持度をこえるルール候補をχ2 検定してい
たが、本実施形態では、左辺の支持度から右辺が上回る
べき支持度を境界値として算出し、これを満足するルー
ル候補のみをχ2 検定するものである。
【0142】図について説明すると、図17は本実施形
態における相関ルール生成装置のシステム図、図18は
本実施形態における相関ルール生成装置のブロック図で
ある。
【0143】システムの構成を説明すると、図17にお
いて本実施形態における新規な要素である負の境界決定
部28以外は実施の形態6で説明したシステム図11と
同様の機能を有する。負の境界決定部28では、左辺の
品目セットの支持度より右辺の品目が満たさなければな
らない最小の支持度を計算する役割を持つ。
【0144】以下、図18のブロック図に従って本実施
形態における相関ルール生成の手順を説明する。このブ
ロック図におけるルール候補生成・検証のステップ96
0以外のステップは実施の形態6のブロック図12の同
名のステップと同様な動作を行う。
【0145】ステップ960、ルール候補生成・検証で
はルール候補生成部47によりルールの候補が生成され
る。このステップでは、Lk−1中の各品目セットがひ
とつずつ抽出され、その品目セットの支持度毎にルール
の右辺の品目の満たすべき支持度の下限の計算が負の境
界決定部8によって行われる。例えば、A1,A2,・
・・Ak−1がLk−1から抽出されたとし、その支持
度(Lk−1中に書いてある)をaとする。下限値の計
算式は、有意水準から計算されるχ2 値の下限値をα、
データベース中のレコードの件数をnとすると、
【0146】
【数4】
【0147】が成立することが必要となる。従って、A
1,A2,・・・Ak−1が左辺にきたときのルールの
右辺の品目の支持度は上記の境界値を上回らなければな
らない。この境界値が決定されると、その境界値を上回
る支持度を持つL1中の1項組みの各々について、それ
を右辺とするルールの検証がルール検定のステップ96
2で行われる。
【0148】BがL1から抽出された場合のルール検証
ステップでの動作を説明する。BがA1,A2,・・・
Ak−1に含まれないか(A1,A2,・・・Ak−1
のいずれでもないか)、の検証がルール候補生成部47
によって行われる。含まれていなければ、ルールA1,
A2,・・・Ak−1→¬B(「A1,A2,・・・A
k−1ならばBではない。」の意味である。)のχ2
がχ2 検定部43によって各ルール候補の右辺、左辺各
々と両方の品目セットの支持度から計算される。これが
有意水準から計算される下限値を超えているか判定し、
超えていれば相関ルール集合3にルール候補を格納す
る。
【0149】このように、本実施形態によれば、ルール
の左辺にくる大品目セットの各組について、右辺の品目
の支持度の下限値を計算してχ2 値を計算する候補を絞
るため、効率的に負の相関ルールを得ることができる。
【0150】以上のように、本実施の形態では、主に、
仮説生成検証ステップにおいて、ルール候補生成ステッ
プで相関ルール候補を生成する際に使用した大品目セッ
トL(k−1)と大品目セットL(1)の対に対して、
該大品目セットL(k−1)の支持度から該大品目セッ
トL(1)の支持度の下限値Tminを算出する負の境
界決定ステップを備え、支持度が下限値Tmin以上で
ある大品目セットL(1)とこれと対の大品目セットL
(k−1)から生成された相関ルール候補のみをルール
検定ステップでχ2 検定を行う相関ルール生成方法およ
び各ステップの処理を行なう相関ルール生成装置につい
て説明した。
【0151】従って、ユーザが最小支持度を入力する必
要が無く、また不要な支持度をもつルール候補に関して
検定を行うことが無いので効率的に負の相関ルールを抽
出することができるという効果がある。
【0152】実施の形態10.以下、この発明の実施の
形態10に係る相関ルール生成装置を図18、図19に
基づいて説明する。上記実施の形態8は、正の相関ルー
ルを抽出するシステムにおいて、全ての品目の支持度の
内最も小さな支持度を使用して限界支持度を算出し、両
辺ともこの限界支持度以上のルール候補をχ2 検定して
いたが、本実施形態では、左辺の支持度から右辺の支持
度がとるべき範囲の支持度を境界値として算出し、これ
を満足するルール候補のみをχ2 検定するものである。
【0153】図について説明すると、図18は本実施形
態における相関ルール生成装置のブロック図、図19は
本実施形態における相関ルール生成装置のシステム図で
ある。
【0154】システムの構成を説明すると、図19にお
いて本実施形態における新規な要素である正の境界決定
部29以外は実施の形態6で説明したシステム図11と
同様の機能を有する。正の境界決定部29では、左辺の
品目セットの支持度より右辺の品目が満たさなければな
らない最小の支持度を決定する役割を持つ。
【0155】以下、図18のブロック図に従って本実施
例における相関ルール生成の手順を説明する。このブロ
ック図におけるルール候補生成・検証のステップ960
以外のステップは実施の形態6のブロック図12の同名
のステップと同様な動作を行う。ステップ960のルー
ル候補生成・検証ではルール候補生成部47によりルー
ルの候補が生成される。このステップでは、Lk−1中
の各品目セットがひとつずつ抽出され、その品目セット
の支持度毎にルールの右辺の品目の満たすべき支持度の
上限と下限の計算が正の境界決定部29によって行われ
る。例えば、A1,・・・,Ak−1がLk−1から抽
出されたとし、その支持度(Lk−1中に書いてある)
をaとする。上限値と下限値の計算式は、有意水準から
計算されるχ2 値の下限値をα、データベース中のレコ
ードの件数をnとすると、
【0156】
【数5】
【0157】が成立することが必要となる。従って、A
1,・・・,Ak−1が左辺にきたときのルールの右辺
の品目の支持度は上記の境界内に入らなければならな
い。この境界が決定されると、その境界内の支持度を持
つL1中の1項組みの各々について、それを右辺とする
ルールの検証がルール検定のステップ962で行われ
る。BがL1から抽出された場合のルール検定ステップ
962での動作を説明する。BがA1,・・・,Ak−
1に含まれないか(A1,・・・,Ak−1のいずれで
もないか)、の検証がルール候補生成部47によって行
われる。含まれていなければ、ルールA1,・・・,A
k−1→Bのχ2 値がχ2 検定部43によって各ルール
候補の右辺、左辺各々と両方の品目セットの支持度から
計算される。これが有意水準から計算されるχ2 値の下
限値を超えているかどうかを判定し、超えていれば相関
ルール集合3にルール候補を格納する。
【0158】本実施形態によれば、ルールの左辺にくる
大品目セットの各組について、右辺の品目の支持度の範
囲を計算してχ2 値を計算する候補を絞るため、効率的
に正の相関ルールを得ることができる。
【0159】以上のように、本実施の形態では、主に、
仮説生成検証ステップにおいて、ルール候補生成ステッ
プで相関ルール候補を生成する際に使用した大品目セッ
トL(k−1)と大品目セットL(1)の対に対して、
該大品目セットL(k−1)の支持度から該大品目セッ
トL(1)の支持度の下限値Uminと上限値Umax
を算出する正の境界決定ステップを備え、支持度が下限
値Umin以上で上限値Umax以下である大品目セッ
トL(1)とこれと対の大品目セットL(k−1)から
生成された相関ルール候補のみをルール検定ステップで
χ2 検定を行う相関ルール生成方法および各ステップの
処理を行なう相関ルール生成装置について説明した。
【0160】従って、ユーザが最小支持度を入力する必
要が無く、また不要な支持度をもつルール候補に関して
検定を行うことが無いので効率的に正の相関ルールを抽
出することができるという効果がある。
【0161】実施の形態11.以下、この発明の実施の
形態11に係る相関ルール生成装置を図7、図8、図2
0に基づいて説明する。これまで説明してきた実施の形
態においては、抽出される相関ルールの右辺または左辺
に含まれる品目を指定することはできなかったが、本実
施形態は左辺として指定された品目は抽出される相関ル
ールの左辺に必ず一つ以上含まれ、また右辺として指定
された品目は抽出される相関ルールの右辺に必ず1個以
上含まれるようにしたものである。
【0162】図について説明すると、図7は本実施形態
における相関ルール生成装置のシステム図、図8は本実
施形態における相関ルール生成装置のブロック図、図2
0は本実施形態における相関ルール生成装置の候補品目
セット生成を説明する図である。
【0163】システムの説明をすると、図7はすでに実
施の形態4で説明に使用したが、本実施形態においては
ユーザ入力部10、候補品目セット生成部24、ルール
候補生成部46の動作が詳細において実施の形態4と異
なり、それ以外は実施の形態4と同様である。図7にお
いて、候補品目セット生成部24では、長さ1の大品目
セットと長さk−1の大品目セットより長さkの候補集
合を生成する役割を持つ。ルール候補生成部24は、長
さ1の大品目セットと長さk−1の大品目セット、長さ
kの候補集合からルールの候補を生成する。図7におい
て、ユーザ入力部10はユーザから最小支持度と有意水
準および相関ルールの左辺、右辺に現れる品目名を取得
する。また候補品目セット生成部24では、長さ1の大
品目セットと長さk−1の大品目セットより長さkの候
補品目セットを生成する役割を持つが、この過程におい
てハッシュ木の指定されていない品目のノードは枝を伸
ばさない。またルール候補生成部46は、長さ1の大品
目セットと長さk−1の大品目セットからルールの候補
を生成するが、この長さ1の大品目セットとしては右辺
候補中の最小支持度を超える品目セットが使用される。
【0164】以下、図8のブロック図に従って本実施例
における相関ルール生成の手順を説明する。まず最初の
ステップ400、ユーザ入力でユーザ入力部10によ
り、ユーザから最小支持度と有意水準および相関ルール
の左辺、右辺に現れる品目名を取得する。次のステップ
410、L1生成で長さ1の大品目セットL1が作成さ
れる。これは実施の形態4と同様に候補品目セット検証
部24が、データベース中のレコードを一つずつ取り出
して、そのレコード中に出現する各品目について、出現
する回数をカウントし、そのカウント数である支持度を
増やす。初めて出現する品目については、そのカウント
の領域を新たに設ける。そして、全てのレコードについ
て数え上げが終了すると、最終的な支持度が最小支持度
を超えた品目について、ハッシュ木に登録を行う。ただ
し、ここでは左辺の候補として指定された品目がそれ以
外の品目よりも小さな整数となる様に番号が各品目に再
付与され、また右辺の候補として指定された品目の番号
がどちらにも指定されていない品目の番号よりも小さな
整数となる様に、番号が各品目に再付与される。この再
付与による番号と元の番号との対応データは、メモリ上
で対応表として管理する。
【0165】次に、ステップ420でLk−1の集合が
空であるかどうかの判定が行われる。初期状態ではk=
2であり、判定の対象となるのはL1である。もしLk
−1が空であれば本装置は終了状態となり、そうでなけ
れば次のステップ430のCk生成が行われる。
【0166】ステップ430のCk生成では候補品目セ
ット生成部24により、実施の形態4のCk生成ステッ
プと同様の方法でL1とLk−1から候補集合Ckが生
成される。ただし本ステップでは、L1からC2を作る
とき、ハッシュ木上で左辺または右辺の品目として指定
されていない品目のノードは枝を伸ばさないことを特徴
としてる。例えば、図20の様なハッシュ木があり、品
目1,2,3が左辺または右辺として指定されていたと
すると、L1からC2へと枝を伸ばす段階では[1]、
[2]、[3]以外は枝は伸ばさない。これは、右辺ま
たは左辺の候補品目を全く含まない大品目セットは必要
ないからである。
【0167】次のステップ440のルール候補生成では
ルール候補生成部46によりルールの候補が生成され
る。このステップでは、まずLk−1中の各品目セット
と、右辺候補中の最小支持度を超える品目セット(これ
をS1とする)からの品目がひとつずつ抽出される。k
=3の場合、A1,A2がL2から、BがS1から抽出
されたとすると、BがA1,A2に含まれず(A1,A
2のどちらでもなく)、かつ生成中のルールの候補集合
にA1,A2→Bが含まれなければ、A1,A2→Bを
ルールの候補集合に追加する。これをL2とS1の全て
の品目セットの組み合わせについて行う。上で説明した
ステップ以後のステップは実施の形態4と同様の動作を
行う。
【0168】本実施形態によれば、ルールの右辺にくる
品目と左辺にくる品目の条件によりハッシュ木の枝刈り
を行っているため、指定された品目がそれぞれ条件どお
りに右辺と左辺にくるルールを効率的に得ることができ
る。
【0169】以上のように、本実施の形態では、主に、
ユーザ入力ステップで、ユーザが少なくとも相関ルール
の左辺または右辺の品目に関する条件を入力する相関ル
ール生成方法および各ステップの処理を行なう相関ルー
ル生成装置について説明した。
【0170】具体的には、ユーザ入力ステップで、ユー
ザが相関ルール中の左辺にその中の1個以上が必ず含ま
れる1個以上の品目と相関ルール中の右辺にその中の1
個以上が必ず含まれる1個以上の品目を条件として入力
する相関ルール生成方法および各ステップの処理を行な
う相関ルール生成装置について説明した。
【0171】従って、特定の品目に関する相関ルールが
効率的に抽出できるという効果がある。
【0172】実施の形態12.以下、この発明の実施の
形態12に係る相関ルール生成装置を図7、図8、図2
1に基づいて説明する。実施の形態11は、左辺として
指定された品目は抽出される相関ルールの左辺に必ず一
つ以上含まれ、また右辺として指定された品目は必ず右
辺に含まれるようにしたものであったが、本実施形態で
は、左辺として指定された品目は抽出される相関ルール
の左辺に必ず全て含まれ、右辺として指定された品目は
抽出される相関ルールの右辺に必ず全て含まれているよ
うにしたものである。
【0173】図について説明すると、図7は本実施形態
における相関ルール生成装置のシステム図、図8は本実
施形態における相関ルール生成装置のブロック図、図2
1は本実施形態における相関ルール生成装置の候補品目
セット生成を説明する図である。
【0174】システムの説明をすると、図7はすでに実
施の形態4で説明に使用したが、本実施形態においては
ユーザ入力部10、候補品目セット生成部24、ルール
候補生成部46の動作が詳細において実施の形態4と異
なる以外は、実施の形態4と同様である。候補品目セッ
ト生成部24では、長さ1の大品目セットと長さk−1
の大品目セットより長さkの候補集合を生成する役割を
持つ。ルール候補生成部46は、長さ1の大品目セット
と長さk−1の大品目セット、長さkの候補集合からル
ールの候補を生成する。
【0175】以下、図8のブロック図に従って本実施例
における相関ルール生成の手順を説明する。まず最初の
ステップ400、ユーザ入力でユーザ入力部10によ
り、ユーザから最小支持度と有意水準、および相関ルー
ルの左辺、右辺に現れる品目名を取得する。次のステッ
プ410、L1生成で長さ1の大品目セットL1が作成
される。これは実施の形態4と同様に候補品目セット検
証部24が、データベース中のレコードを一つずつ取り
出して、そのレコード中に出現する各品目について、出
現する回数をカウントし、そのカウント数である支持度
を増やす。初めて出現する品目については、そのカウン
トの領域を新たに設ける。そして、全てのレコードにつ
いて数え上げが終了すると、最終的な支持度が最小支持
度を超えた品目について、ハッシュ木に登録を行う。た
だし、ここでは左辺の候補として指定された品目がそれ
以外の品目よりも小さな整数となる様に番号が各品目に
再付与され、また右辺の候補として指定された品目の番
号がどちらにも指定されていない品目の番号よりも小さ
な整数となる様に、番号が各品目に再付与される。この
再付与による番号と元の番号との対応データは、メモリ
上で対応表として管理する。
【0176】次に、ステップ420でLk−1の集合が
空であるかどうかの判定が行われる。初期状態ではk=
2であり、判定の対象となるのはL1である。もしLk
−1が空であれば本装置は終了状態となり、そうでなけ
れば次のステップ430のCk生成が行われる。
【0177】ステップ430のCk生成では候補品目セ
ット生成部24により、実施の形態4のCk生成ステッ
プと同様の方法でL1とLk−1から候補集合Ckが生
成される。ただし本ステップでは、左辺として指定した
品目をA1,A2・・,Anとすると、[A1],[A
1,A2],・・,[A1,A2,・・,An]のn個
の枝以外の枝以下は伸ばさないことを特徴としている。
例えば、図21の様なハッシュ木があり、品目1,2が
左辺、として指定されていたとすると、[1]、[1,
2]以外は枝は伸ばさない。これは、右辺、左辺の候補
品目を全く含まない大品目セットは必要ないからであ
る。
【0178】次のステップ440のルール候補生成では
ルール候補生成部46によりルールの候補が生成され
る。このステップでは、まずLk−1中の各品目セット
と、右辺候補中の最小支持度を超える品目セット(これ
をS1とする)からの品目がひとつずつ抽出される。左
辺として指定された品目の数をn個とすると、k<n+
1の場合についてはルール候補は生成しない。k=3の
場合、A1,A2がL2から、BがS1から抽出された
とすると、BがA1,A2に含まれず(A1,A2のど
ちらでもなく)、かつ生成中のルールの候補集合にA
1,A2→Bが含まれなければ、A1,A2→Bをルー
ルの候補集合に追加する。これをL2とS1の全ての品
目セットの組み合わせについて行う。上で説明したステ
ップ以後のステップは実施の形態4と同様の動作を行
う。
【0179】本実施形態によれば、ルールの右辺にくる
品目と左辺にくる品目の条件によりハッシュ木の枝刈り
を行っているため、指定された品目がそれぞれ条件どお
りに右辺と左辺にくるルールを効率的に得ることができ
る。
【0180】以上のように、本実施の形態では、主に、
ユーザ入力ステップで、ユーザが少なくとも相関ルール
の左辺または右辺の品目に関する条件を入力する相関ル
ール生成方法および各ステップの処理を行なう相関ルー
ル生成装置について説明した。
【0181】具体的には、ユーザ入力ステップで、ユー
ザが相関ルール中の左辺にすべてが必ず含まれる1個以
上の品目と相関ルール中の右辺にすべてが必ず含まれる
1個以上の品目を条件として入力する相関ルール生成方
法および各ステップの処理を行なう相関ルール生成装置
について説明した。
【0182】従って、特定の品目に関する相関ルールが
効率的に抽出できるという効果がある。
【0183】実施の形態13.以下、この発明の実施の
形態13に係る相関ルール生成装置を図22、図23に
基づいて説明する。これまでに説明してきた実施の形態
では、相関ルール抽出用のレコードのドメインを指定す
ることはできなかったが、本実施形態ではドメインの指
定を可能にしたものである。
【0184】図について説明すると、図22は本実施形
態における相関ルール生成装置のシステム図、図23は
本実施形態における相関ルール生成装置のブロック図で
ある。
【0185】システムについて説明をすると、図22に
おいて、ユーザ入力部10と図22のシステムにおける
新規な要素であるドメイン限定部32以外はすでに実施
の形態1で説明した図1のシステム図と同様の機能を持
つ。ユーザ入力部10はユーザから獲得するパラメータ
が実施の形態1と異なる。また、ドメイン限定部32
は、ユーザが指定したドメインに属するレコードのみを
抽出して、相関ルール抽出用のデータファイルを新たに
作成する役割を果たす。
【0186】以下、図23のブロック図に従って本実施
形態における相関ルール生成の手順を説明する。まず最
初のステップ300、ユーザ入力でユーザ入力部10に
より、ユーザから最小支持度と有意水準、およびドメイ
ン指定のための、レコードが含まなければならない品目
名を取得する。次のステップ310、ドメイン限定ファ
イル生成で、ドメイン限定部32が指定されたユーザの
指定したドメイン限定条件により、データベースを検索
し、検索条件に合致したレコードを抽出し、相関ルール
抽出用ファイルに格納する。以下のステップでは実施の
形態1のブロック図2の同名のステップと同様の動作を
行う。以上の説明ではステップ310において一括して
ドメイン限定の処理を行ったが、ステップ320、34
0においてデータベースを検索する際に、ドメインに入
らないレコードのハッシュ木とのマッチングを避ける様
にしても同様の効果が得られる。
【0187】また、Ck生成ステップ330において、
実施の形態2の説明において図3で示したように、jo
inステップのみを行い、pruneステップを行なわ
ないようにしてもよい。
【0188】本実施形態によれば、ドメインとして指定
された条件に合致したレコードのみによる相関ルール抽
出用ファイルを作成するため、ドメインを限定した場合
の相関ルール抽出を効率的に実行できる。
【0189】以上のように、本実施の形態では、主に、
ユーザ入力ステップは、ユーザがデータベース中のレコ
ードの中から、特定の1以上の品目を持つレコードの集
合であるドメインを指定するために上記1以上の品目を
入力し、大品目セット生成ステップは、データベースか
ら指定された上記ドメインに含まれるレコードのみを取
り出し、以後データベース中のレコード総数の代わりに
このドメインに含まれるレコードの総数を使用するよう
にするドメイン限定ステップを備えた相関ルール生成方
法および各ステップの処理を行なう相関ルール生成装置
について説明した。
【0190】従って、ドメインを限定した場合の相関ル
ールを効率的に抽出できるという効果がある。
【0191】実施の形態14.以下、この発明の実施の
形態14に係る相関ルール生成装置を図2、図24に基
づいて説明する。これまでに説明して来た実施の形態で
は、各品目に付される品目番号とその支持度とは無関係
であったが、本実施形態では支持度の大きい順に品目番
号を付け直すものである。
【0192】図について説明すると、図2は本実施形態
における相関ルール生成装置のブロック図、図24は本
実施形態における相関ルール生成装置のシステム図であ
る。
【0193】システムについて説明をすると、図24に
おいて、ユーザ入力部10と図24のシステムにおける
新規な要素である品目番号再配置部33以外はすでに実
施の形態1で説明した図1のシステム図と同様の機能を
持つ。品目番号再配置部33は、長さ1の大品目セット
を生成するステップにおいて、支持度の大きい順に品目
番号を割り振り直す役割を持つ。
【0194】以下、図2のブロック図に従って本実施形
態における相関ルール生成の手順を説明する。まず最初
のステップ101、ユーザ入力でユーザ入力部10によ
り、ユーザから最小支持度と有意水準を取得する。次の
ステップ110、L1生成で長さ1の大品目セットが作
成される。ここではL1の1項組みはその支持度の大き
さ順にソートされて計算機の記憶装置に格納される。そ
して、再配置部33によって、支持度が大きい順に各品
目に整数が割り当てられ、新たに割り当てられた整数値
による新たなデータファイルが作成され、割り当て前と
の対応表も作成される。以下のステップではデータベー
ス検索の対象はこのデータファイルとなる。ルール検定
のステップ170では、相関ルール集合に格納すると決
定されたルール中の各品目の番号を再配置部33がもつ
対応表から再割り当て前の番号にふり直す操作も行われ
る。他のステップでは実施の形態1のブロック図2の同
名のステップと同様の動作を行う。
【0195】また、Ck生成ステップ120において、
実施の形態2の説明において図3で示したように、jo
inステップのみを行い、pruneステップを行なわ
ないようにしてもよい。
【0196】このように、本実施形態によれば、最小支
持度以上の品目の品目番号が順にならび、番号に抜けが
ないためハッシュ木上の各ハッシュテーブルにおけるメ
モリ領域が効率良く管理できる。品目番号が1から自然
数mまで抜けがなくハッシュのキーとして存在する場
合、ハッシュ関数は、キーの値をmで割った余りとすれ
ばよく、しかもテーブル中の全てのバケットにデータを
収めることができる。
【0197】以上のように、本実施の形態では、主に、
大品目セット生成ステップは、各品目の支持度の順に各
個別の品目に対し品目番号を付ける品目番号再配置ステ
ップを備えた相関ルール生成方法および各ステップの処
理を行なう相関ルール生成装置について説明した。
【0198】従って、効率的に相関ルールを抽出できる
という効果がある。
【0199】実施の形態15.以下、この発明の実施の
形態15に係る相関ルール生成装置を図2および図25
〜図27に基づいて説明する。これまでに説明して来た
実施の形態では、一度形成されたハッシュ木は分割され
ることはなかったが、本実施形態ではハッシュ木が大き
い場合には分割するようにしたものである。
【0200】図について説明すると、図2は本実施形態
における相関ルール生成装置のブロック図、図25は本
実施形態における相関ルール生成装置のシステム図、図
26は本実施形態における相関ルール生成装置の候補品
目セット生成ステップの詳細図、図27は本実施形態に
おける相関ルール生成装置のハッシュ木分割を説明する
図である。
【0201】システムについて説明すると、図25のシ
ステム図における新規な構成要素であるハッシュ木分割
部34以外は、すでに実施の形態2で説明して図1のシ
ステムと同様の機能を持つ。ハッシュ木分割部34は、
必要に応じてハッシュ木を分割する機能を持つ。
【0202】以下、本実施形態における相関ルール生成
の手順を説明するが、この手順は図2に示したブロック
図と同様であり、この図2のCk生成ステップ120と
Lk生成ステップ130が異なるのみであるので、この
Ckステップ生成およびLk生成ステップについて説明
を行う。
【0203】図26に、Ck生成ステップ120の詳細
ブロック図を示す。Ck生成のステップにおいて、jo
inステップ521が終わり候補のk項組み全てを作成
した段階でハッシュ木分割部34によるハッシュ木分割
が行われる。ここではまず、現段階までで各ハッシュ木
のノード数が一定値を超えていないかどうか検査する。
この一定値はメモリ上に格納可能なノード数の上限付近
を目安とする。そして、超えている木については、ステ
ップ523で木のルートのハッシュテーブルを再構成
し、ノード数がなるべく等しくなる様に2分割する。例
えば図27(1)のハッシュ木を分割する場合は、ro
otの下の1と2の間で点線の様に分割すれば各ノード
数は6個と7個で当分割に最も近くなる。分割後の2つ
のハッシュ木を図27(2)に示す。
【0204】そしてLk生成ステップ130において
は、実施の形態1のようなLk生成を各木について行
う。ハッシュ木がA、B、Cと3つあった場合には、ま
ずAについて実施の形態1のようなLk生成を行い、次
にBについて行い、最後にCについて行う。各ハッシュ
木は常にメモリに入りきるだけの大きさが維持されてい
るため、レコードとハッシュ木のマッチングの際におこ
るページングによるディスクとメモリ間でのデータのや
り取りを最小限に押さえることができる。
【0205】また、ハッシュ木が非常に大きい場合は、
本分割処理を繰り返し適用して部分木を小さくしてもよ
い。また、実施の形態1のようにjoinステップの後
にpruneステップを実行してからハッシュ木を分割
してもよい。
【0206】本実施形態によれば、ハッシュ木を常にメ
モリに入りきる様に、ノード数が大きくなるとハッシュ
木を分割するしてハッシュ木とレコードのマッチングの
際に起こるページングを抑止するため、高速にマッチン
グを行うことができる。
【0207】以上のように、本実施の形態では、主に、
大品目セット生成ステップには、ハッシュ木が一定の大
きさを超えると分割して複数のハッシュ木にするハッシ
ュ木分割ステップを備え、レコードとのマッチングの際
には各ハッシュ木について全レコードとのマッチングを
とる相関ルール生成装置および各ステップの処理を行な
う相関ルール生成装置について説明した。
【0208】従って、高速にマッチング処理を行なえる
という効果がある。
【0209】実施の形態16.以下、この発明の実施の
形態16に係る相関ルール生成装置を図2、図28に基
づいて説明する。これまでに説明して来た実施の形態で
は、レコード中の全ての組合わせをハッシュ木と突き合
わせていたが、本実施形態ではハッシュ木中のk項組を
一つずつ取り出すようにしたものである。
【0210】図について説明すると、図2は本実施形態
における相関ルール生成装置のブロック図、図28は本
実施形態における相関ルール生成装置のシステム図であ
る。
【0211】システムについて説明すると、図28のシ
ステム図における新規な構成要素である逆方向レコード
マッチング部35以外は、すでに実施の形態2で説明し
て図1のシステムと同様の機能を持つ。
【0212】以下、本実施形態における相関ルール生成
の手順を説明するが、この手順は図2に示したブロック
図と同様であり、この図2のLk生成ステップ130が
異なるのみであるので、このLk生成ステップについて
説明を行う。Lk生成のステップ130において、レコ
ードとハッシュ木のマッチングは以下の様にして行われ
る。まず、カウントを行うレコードを一つ抽出する。次
にハッシュ木からk項組みを一つずつ抽出し、各々をレ
コードと比較してカウントする。この比較の方法である
が、k項組みとレコードの各々の中で、品目は品目番号
順にソートされているとする。まず、k項組みの品目を
先頭から一つ取り出し、レコード中にそれがあるかどう
か、レコードの先頭から検索する。もしなければこのk
項組みについての処理を止める。あればk項組みの次の
品目を一つ取り出し、これをレコード中の前の合致した
品目の位置から検索をかける。途中で中止されなけれ
ば、これをk個の品目全てについて行う。そしてこのマ
ッチング処理をハッシュ木中の全てのk項組みについて
行う。そしてこのレコードのマッチング処理を、全レコ
ードについて繰り返す。
【0213】本実施形態によれば、レコード中の全ての
組み合わせをハッシュ木と突き合わせるのではなく、ハ
ッシュ木中の各大品目セットをレコードと突き合わせる
ので、ハッシュ木が小さくかつレコード長が長い場合、
効率的にレコードと大品目セットとのマッチングを行う
ことができる。
【0214】以上のように、本実施の形態では、主に、
大品目セット生成ステップに、候補品目セットC(k)
を格納するハッシュ木中のk項組みを一つずつ取り出し
て、レコードとのマッチングを行う逆方向レコードマッ
チングステップを備える相関ルール生成方法および各ス
テップの処理を行なう相関ルール生成装置について説明
した。
【0215】従って、高速にマッチング処理が行なえる
という効果がある。
【0216】実施の形態17.以下、この発明の実施の
形態17に係る相関ルール生成装置を図7、図8、図2
9に基づいて説明する。これまでに説明して来た実施の
形態では、相関ルール中に同時に現れることが許されな
い品目は指定できなかったが、本実施形態では相関ルー
ル中に同時に現れることが許されない品目を指定できる
ようにしたものである。
【0217】図について説明すると、図7は本実施形態
における相関ルール生成装置のシステム図、図8は本実
施形態における相関ルール生成装置のブロック図、図2
9は本実施形態における候補品目セット生成を説明する
図である。
【0218】システムについて説明をすると、図7はす
でに実施の形態4で説明に使用したが、本実施形態にお
いては、ユーザ入力部10と候補品目セット生成部24
およびルール候補生成部46以外は実施の形態4と同様
の機能を持つ。
【0219】ユーザ入力部10では最小支持度、有意水
準の他、相関ルール中に同時に現れることが許されない
品目の組がユーザより入力される。候補品目セット生成
部24では、長さ1の大品目セットと長さk−1の大品
目セットより長さkの候補集合を生成する役割を持つ。
ルール候補生成部46は、長さ1の大品目セットと長さ
k−1の大品目セット、長さkの候補集合からルールの
候補を生成する。
【0220】以下、図8のブロック図に従って、本実施
形態における相関ルール生成の手順を説明する。まず最
初のステップ400、ユーザ入力でユーザ入力部10に
より、ユーザから最小支持度と有意水準、および相関ル
ール中に同時に現れることが許されない品目の組を取得
する。次のステップ410、L1生成で長さ1の大品目
セットL1が作成される。これは実施の形態4と同様に
候補品目セット検証部24が、データベース中のレコー
ドを一つずつ取り出して、そのレコード中に出現する各
品目について、出現する回数をカウントし、そのカウン
ト数である支持度を増やす。初めて出現する品目につい
ては、そのカウントの領域を新たに設ける。そして、全
てのレコードについて数え上げが終了すると、最終的な
支持度が最小支持度を超えた品目について、ハッシュ木
に登録を行う。次に、ステップ420でLk−1の集合
が空であるかどうかの判定が行われる。初期状態ではk
=2であり、判定の対象となるのはL1である。もしL
k−1が空であれば本装置は終了状態となり、そうでな
ければ次のステップ430のCk生成が行われる。
【0221】ステップ430のCk生成では候補品目セ
ット生成部24により、実施の形態4のCk生成ステッ
プと同様の方法でL1とLk−1から候補集合Ckが生
成される。ただし本ステップでは、相関ルール中に同時
に現れることが許されない品目の組の中の品目を複数含
むk項組みはこの時点でハッシュ木から削除される。例
えば、図29の様なハッシュ木があり、品目の組{1,
2,5}が同時に現れることが許されない品目の集合と
して指定されているとすると、[1,5]は削除され
る。次のステップ440のルール候補生成ではルール候
補生成部46によりルールの候補が生成される。このス
テップの動作は実施の形態4におけるルール生成のステ
ップの動作とほぼ同一であるが、ここでは同時に現れる
ことが許されない品目の組中の品目を複数(ここでは2
個)含むルールは、ルール候補に追加しない。k=3の
場合、A1,A2がL2から、BがL1から抽出された
とすると、BとA1、またはBとA2のどちらの2つ組
も、同時に現れることが許されない品目の組に入ってい
ない場合のみに、 A1, A2→Bをルールの候補集合
に追加する。上で説明したステップ以後のステップは実
施の形態4と同様の動作を行う。
【0222】本実施形態によれば、候補品目セット生成
の段階から同時に現れてはならない品目の組を含む候補
を除外するので、相関ルール中に同時に発生しない品目
の組を指定した相関ルール抽出を、効率的に行うことが
できる。
【0223】以上のように、本実施の形態では、主に、
ユーザ入力ステップは、ユーザが相関ルール中に同時に
現れてはならない2個以上の品目からなる組を指定し、
Lk生成ステップは、この指定された組に含まれる複数
の品目を同時には含まない大品目セットL(k)のみを
生成する相関ルール生成方法および各ステップの処理を
行なう相関ルール生成装置について説明した。
【0224】従って、相関ルール中に同時に現れてはな
らない品目の組を含まない相関ルールを効率的に抽出で
きるという効果がある。
【0225】実施の形態18.実施の形態15の手法で
はrootの直下で木を分割するため、同じL1の品目
を含む品目セットは、分割後もすべて同じ木に含まれ
る。例えば図27(1)のハッシュ木で、[1]以下の
部分は分割後もすべて同じ木に含まれ、この木がメモリ
の容量を超えてしまう場合には対処できない。この様な
場合、木の分割後も[1]を含む木のマッチング操作で
ページングを起こしてしまうという欠点がある。この発
明は上記のような問題点を解決するためになされたもの
であり、ハッシュ木に偏りがある場合でもページングを
抑止し、高速に相関ルール生成を実行する相関ルール生
成装置を得ることを目的とする。
【0226】以下、この発明の実施の形態18に係る相
関ルール生成装置を図37から図39および図51から
図55に基づいて説明する。図について説明すると、図
37は本実施形態による相関ルール生成装置のシステム
図、図38は本実施形態による相関ルール生成装置のブ
ロック図、図39は本実施形態におけるハッシュ木分割
の説明図、図51は本実施形態におけるデータベース、
図52から図54は本実施形態における候補品目セット
Ck生成の過程を示した図、図55は本実施形態におけ
る候補品目セットCk生成の詳細ブロック図である。
【0227】まず、本実施形態のシステムの構成を説明
する。図37において、1001は蓄積されたデータベ
ースであり、すでに説明したように図51に示した構成
を持つ。1002は上記データベース1から生成された
大品目セット、1003は上記大品目セット1002か
ら生成され検証された相関ルールの集合である相関ルー
ル集合、1010はユーザが所定のパラメータを入力す
るユーザ入力部、1020は上記データベース1から大
品目セットを生成する大品目セット生成部であり、この
大品目セット生成部1020は候補品目セットを検証し
て大品目セットを選択する候補品目セット検証部102
1と候補品目セットを生成する候補品目セット生成部1
022およびハッシュ木をハッシュ木のために用意され
たメモリ領域に収まる部分木に分割する役割を持つハッ
シュ木操作部1023とから構成される。さらに104
0は相関ルール生成のためにまず仮説を生成し、さらに
それを検証する仮説生成検証部であり、この仮説生成検
証部1040は相関ルールの候補を生成するルール候補
生成部1041と、各ルール候補の確信度を計算する確
信度計算部とから構成される。
【0228】以下、図38のブロック図に従って本実施
形態における相関ルール生成の手順を説明する。まず最
初のステップ1200で、ユーザ入力でユーザ入力部1
010により、ユーザから最小支持度と最小確信度を取
得する。
【0229】次のステップ1210、L1生成では、候
補品目セット検証部1021が、データベース中のレコ
ードを一つずつ取り出して、そのレコード中に出現する
各品目について、出現する回数をカウントし、そのカウ
ント数である支持度を増やす。初めて出現する品目につ
いては、そのカウントの領域を新たに設ける。そして、
全てのレコードについて数え上げが終了すると、最終的
な支持度が最小支持度を超えた品目について、大品目セ
ットL1としてハッシュ木に登録を行う。1,2,3,
4,5の5つの品目の支持度が最小支持度を超えた場合
について、これらを登録した状態のハッシュ木を図52
に示す。
【0230】ハッシュ木の各枝の両端はノードと呼ば
れ、一般に品目番号が対応付けられるが、ハッシュ木の
始点のみは品目が対応付けられないノードで、root
と呼ばれる。またrootからハッシュ木の末端のノー
ドまでの枝の数を枝の長さと呼ぶ。図52のハッシュ木
の各枝の長さは1である。さらに、各枝のrootに近
い側のノードを親ノード、rootから遠い側のノード
を子ノードと呼ぶ。
【0231】ステップ1210、L1生成に続いて、ス
テップ1220のCk生成が行われる。Ck生成では候
補品目セット生成部1022が長さk−1の大品目セッ
トLk−1から候補品目セットCkを生成する。当初k
=2である。ここではL2からC3が生成される場合の
例を説明する。図53にL2まで作成された状態のハッ
シュ木の例を示す。このCk生成のステップの内部は図
55のブロック図の様な2段階になっており、各々はj
oinステップ、pruneステップと呼ばれる。
【0232】まず、ステップ1121のjoinステッ
プについて説明する。ここでは、長さk−1まで伸びた
枝の1つのノードについて、同じ親ノードを持ち、かつ
末端のノードの品目番号がそのノードの品目番号より大
きい他のノードの末端の品目をそのノードの子ノードと
して追加して、枝を伸ばす。図53のroot→1→3
で示されるノード(これを[1,3]と表記することに
し、以降の説明では、ハッシュ木のノードを同様な記述
で表す)には、同じ親ノードを持ち、かつ末端のノード
の品目番号が3より大きい[1,4]と[1,5]と結
合し、それぞれ[1,3,4]と[1,3,5]を設け
る。[1,4]についても[1,5]と結合し、[1,
4,5]が設けられる。[1,5]については5より大
きな品目番号を持つノードが[1]より下にないので、
枝は伸ばされない。このようにしてCk生成のための3
品目からなる候補品目予備セットを形成する。この状態
を図54(1)prune前の図に示す。
【0233】次のステップ1122のpruneステッ
プについて説明する。ここでは、前のjoinステップ
で長さkまで伸ばされた枝の該当する品目セットに関し
て、それから一つの品目を除いてできるk−1項組み全
てについて、それがLk−1に属するかの検査を行い、
全てのk−1項組がLk−1に属する場合のみ採用し、
1つでもLk−1に属さないk−1項組がある場合は削
除する。例えば[1,3,4]の検査を行う場合では、
[1,3]、[1,4]、[3,4]の3つの2項組み
がL2に存在するか調べられる。図54の例ではいずれ
もL2に含まれるのでこの3項組みは残される。[1,
3,5]の検査を行う場合では、[1,3]、[3,
5]、[1,5]がL2に存在するかどうか調べられる
が、[3,5]は存在しないので、この3項組みは削除
される。以上の様にして、このpruneステップでは
joinによってできた全てのk項組みが検査される。
prune後のハッシュ木を図54(2)prune後
の図に示す。図52に示した初期状態ではk=2であ
り、大品目セットL1から候補品目予備セットを経て、
候補品目セットC2が生成される。生成された候補品目
セットCkは候補品目セット生成部1022内に記憶さ
れる。
【0234】次に、ステップ1230のハッシュ木分割
ステップが実行される。Ck生成のステップ1220が
終わり長さkの候補品目セットが格納された状態のハッ
シュ木は、ハッシュ木操作部1023により、用意され
たメモリ領域の量(ハッシュ木用許容メモリ量)以内に
収まる部分木に分割される。そのため、まず、ハッシュ
木容量確認用集合が形成される。当初空集合であるこの
ハッシュ木容量確認用集合に、候補品目セット生成部1
022から候補品目セットCkを読出して順次品目セッ
トを追加し、その度にそのハッシュ木容量確認用集合の
要素の品目セット全てを構成するのに必要なノードの容
量の合計を調べ、容量がハッシュ木用許容メモリ量を超
える一つ前の品目セットをハッシュ木操作部1023に
記憶し、ハッシュ木容量確認用集合をリセット、すなわ
ち空集合に戻す。このハッシュ木用許容メモリ量は計算
機ハードウェアが実装しているメモリの数分の1(例え
ば10分の1)とすればよい。最初の品目セットからハ
ッシュ木用許容メモリ量を超える前の品目セットまでで
構成されるのが第1の部分木である。
【0235】次に、空集合のハッシュ木容量確認用集合
に対して、第1の部分木形成時、ハッシュ木用許容メモ
リ量を超えた時最後に追加した品目セットから順に、容
量がハッシュ木用許容メモリ量をこえるまで候補品目セ
ットを追加していく。そして必要なメモリ量がハッシュ
木用許容メモリ量を超える一つ前の品目セットをハッシ
ュ木操作部1023に記憶し、それまでのハッシュ木容
量確認用集合をリセットする。このハッシュ木用許容メ
モリ量を超える一つ前の品目セットを追加した段階の集
合によって出来る木が第2の部分木である。この様にし
て、第3、4、・・・の部分木を作り、全ての候補品目
セットがいずれかの部分木に割り当てられるまで操作を
繰り返す。図39の(1)のハッシュ木を部分木に分割
した例を、図39の(2)に示す。この時、項数がk未
満の候補品目セットは部分木に含まないように操作す
る。ハッシュ木操作部1023には、各部分木の最後の
品目セットが記憶される。
【0236】次にLk生成のステップ1240の詳細を
説明する。まず、ハッシュ木中の第1の部分木に存在す
る候補品目セットについて、データベース中のレコード
を一件ずつ取り出してk項組の候補品目セットの支持度
を集計し、最終的に最小支持度を超えたk項組のみを大
品目セットLkの要素として残す。このk項組のカウン
トのためにレコードとハッシュ木の照合(マッチング)
が行われる。
【0237】このマッチングは、まず、第1のハッシュ
木のrootにおいてデータベースのレコードが一件ず
つ取り出され、各レコード中にrootの子ノードの品
目が存在するかどうか検査する。存在しなければそのレ
コードについてのマッチングは終了し、次のレコードを
検査する。存在すれば、その品目が対応付けられている
子ノードにおいて、さらに次の子ノード(rootから
見ると“孫”)に対応付けられている品目がこのレコー
ド中に存在するかどうかを検査する。以後この操作を繰
り返すが、適用されるノードの子ノードがそれ以下に枝
を持たないノード、すなわち葉であり、なおかつそのレ
コード中に葉であるその子ノードに対応している品目が
存在する場合はこの葉ノードの支持度集計用カウントを
増やす操作を行い、このレコードについてのマッチング
を終了する。すべてのレコードについてマッチングが終
了したときの各葉ノードの支持度集計用カウントの値
が、各k項組(rootからその葉ノードにいたるまで
の品目の組)の支持度である。このようにして各k項組
の支持度をカウントし、最小支持度以上の支持度をもつ
k項組をすべて要素として選択した大品目セットLkを
生成し、大品目セット1002に保存する。
【0238】次に、第2の部分木についても第1の部分
木と同様にレコードとハッシュ木の照合(マッチング)
が行われ、最終的に最小支持度を超えたk項組のみをL
kの要素として残す。以後同様に、全ての部分木につい
て支持度を集計し、大品目セットを抽出し、大品目セッ
ト1002に保存する。
【0239】Lk生成のステップでLkの要素となるk
項組みが一つも生成されなかった場合はステップ126
0のルール候補生成に進み、そうでない場合はkの値を
一つ増やし、Ck生成のステップに戻る。
【0240】ステップ1260のルール候補生成ではル
ール候補生成部1041により、それまでのステップで
作成された大品目セット1002よりルールの候補が作
られる。Lk中のあるk項組みからは、右辺にその中の
一つの品目、左辺に残りのk−1個の品目がくる計k個
のルール候補が生成される。これが、k=2以上の全て
のLkのk項組みについて成される。
【0241】ステップ1270のルール検証では、確信
度計算部1042により各ルール候補の確信度が計算さ
れ、それが最小確信度を上回る場合には相関ルール集合
に追加される。ここで、すでに述べたように、ルール候
補のA1,A2,・・・Ak→Bの確信度(confi
dence)は、品目セットθの支持度をs(θ)とす
ると、 confidence=s(A1,A2,・・・Ak,B)/s(A1,A2,・・・Ak) と計算される。
【0242】この時点では、各左辺は大品目セットに相
当するため、その支持度はすでに求められている。
【0243】以上のように、本実施の形態では、主に、
ハッシュ木を所定の容量以内の部分木に分割するハッシ
ュ木分割ステップと、上記分割された部分木毎にデータ
ベースとのマッチングを行い、大品目セットL(k)を
選択するLk生成ステップを備えた相関ルール生成方法
および各ステップの処理を行なう相関ルール生成装置に
ついて説明した。
【0244】従って、ハッシュ木のページングが起こり
にくくなり、処理時間が短縮されるという効果がある。
【0245】実施の形態19.以下、本発明における実
施の形態19の説明を図37、図40、図41を用いて
行う。図について説明すると、図37は本実施形態のシ
ステム図、図40は本実施形態のブロック図、図41は
本実施形態における大品目セットファイル読み込みから
ルール生成までを示す図である。図37における候補品
目セット検証部1021とハッシュ木操作部1023以
外は実施の形態18における同じ名前の部と同様の役割
を果たす。
【0246】実施の形態18においては、L1の要素と
して抽出された品目の番号は当初の番号のままであった
が、本実施形態はL1で抽出された品目の番号を支持度
の大きい順に振り直すものである。
【0247】以下、図40のブロック図に従って本実施
例における相関ルール生成の手順を説明する。まず最初
のステップ1300で、ユーザ入力でユーザ入力部10
10により、ユーザから最小支持度と最小確信度を取得
する。
【0248】次にステップ1310のL1生成は、実施
の形態18のステップ1210、L1生成と同じ動作を
行った後、支持度の大きい順に各品目に割り当てられる
番号を振り直す作業を行う。すなわち、ステップ131
0においては、候補品目セット検証部1021が、デー
タベース中のレコードを一つずつ取り出して、そのレコ
ード中に出現する各品目について、出現する回数をカウ
ントし、そのカウント数である支持度を増やす。初めて
出現する品目については、そのカウントの領域を新たに
設ける。そして、全てのレコードについて数え上げが終
了すると、最終的な支持度が最小支持度を超えた品目に
ついて、支持度の大きい順に各品目に割り当てられる番
号を降り直す作業を行い、大品目セットL1としてハッ
シュ木に登録を行う。これにより、ハッシュ木は1から
n(最小支持度を超える品目の数)までの数により構成
され、かつその範囲の任意の番号はハッシュ木中のいず
れかのノード番号として割り当てられる。
【0249】ステップ1320のハッシュ木分割では、
ハッシュ木操作部1023が長さk−1の大品目セット
の集合Lk−1を格納するハッシュ木の分割を行う。そ
のために、まず、ハッシュ木容量確認用集合が形成され
る。当初空集合であるこのハッシュ木容量確認用集合
に、昇順が最小の品目セットから昇順に品目セットを追
加し、その度にその集合の要素の品目セット全てを構成
するのに必要なノードの容量の合計を調べ、容量が所定
の値(初期ハッシュ木用許容メモリ量)を超える一つ前
の品目セットをハッシュ木操作部1023に記憶し、ハ
ッシュ木容量確認用集合をリセット、すなわち空集合に
戻す。
【0250】この初期ハッシュ木用許容メモリ量はハッ
シュ木用許容メモリ量の数分の1とすればよい。ハッシ
ュ木用許容メモリ量については、実施の形態18と同
様、計算機ハードウェアが実装しているメモリの量の数
分の1とすればよい。次に前回追加されなかった品目セ
ット中最小のものから順番に、必要なメモリ量が初期ハ
ッシュ木用許容メモリ量の限界にくるまでハッシュ木容
量確認用集合に入れていく。これを繰り返し、Lk−1
を必要なメモリ量が初期ハッシュ木用許容メモリ量の範
囲に収まる、連続した大品目セットのいくつかの集合に
分割し、部分木を作る。
【0251】次のステップ1330のCk生成からステ
ップ1350のルール生成までは各部分木について行わ
れる。ステップ1330のCk生成は候補品目セット生
成部1022が実行するが、部分木のノードのみでは実
施の形態18のjoinステップの様な木の枝伸ばしが
出来ないため、ある末端のノードについては、そのノー
ドに割り当てられた番号より大きくかつn以下の番号の
ノードが機械的に新たに作成され、それらへのリンクが
設定される。実施の形態18におけるCk生成のjoi
nステップにおいては、ある末端のノードについては、
同じ親ノードを持ち、かつ末端のノードの品目番号がそ
のノードの品目番号より大きい他のノードの末端の品目
をそのノードの子ノードとして追加して、枝を伸ばして
いるが、ここでは親ノードに無関係に新たな番号を付加
する。品目番号を1からnまでの連続した番号に振りな
おしてあるため、この操作は容易である。例えば図41
の(1)の部分木において、支持度を超える品目の数が
5だとすると、大品目セット[1,2]の下には3、
4、5の3つのノードが設定され、[1,2,3]、
[1,2,4]、[1,2,5]の3つの候補品目セッ
トが生成されることになる。[1,3]についても同様
の方法で枝を伸ばし、このステップでは最終的には図4
1(2)の様な木となる。以上の様に、ここでは実施の
形態18のようなpruneステップは行わない。
【0252】Lk生成のステップ1340の動作は実施
の形態18におけるLk生成のステップと同様であり、
各k項組のカウントのためにレコードとハッシュ木のマ
ッチングを行い、最小支持度を超えたk項組のみをLk
の要素として残す。図41の部分木においては(3)の
様に二つの大品目セットが残ったとする。
【0253】ルール生成のステップ1350では部分木
中の長さkの大品目セットの各々を基にしたk個のルー
ルの検証を行う。例えば、大品目セット[1,2,3]
については、1,2→3、1,3→2、2,3→1の3
個のルールの検証が行われる。これらのルールの検証に
はk個の長さk−1の大品目セットの支持度が必要なの
であるが、これらは注目している長さkの大品目セット
が存在する部分木に含まれているとは限らないので、部
分木に含まれないノードを部分木に追加することにな
る。従って部分木に含まれていない長さk−1の大品目
セットの分も含めてメモリに入り切る必要があり、ハッ
シュ木分割の段階で使うメモリ量の限界である初期ハッ
シュ木許容メモリ量を実際に使えるメモリ量であるハッ
シュ木用許容メモリ量よりも少なく設定するのはそのた
めである。図41においては、ルール生成のためにノー
ドを追加した部分木は(4)の様になる。追加したノー
ドに至る枝は破線で示してある。実施の形態18と同様
に、この時点では、各左辺は大品目セットに相当するた
め、その支持度は、すでに求められている。
【0254】このCk生成からルール生成までのステッ
プが全ての部分木について行われ、各部分木で作成され
た長さkの大品目セットの合計が0であれば、プログラ
ムは終了する。そうでなければkの値を一つ増やしてハ
ッシュ木分割のステップに戻る。
【0255】以上のように、本実施の形態では、主に、
L1生成ステップは、下限値Smin以上である品目に
任意の連続番号を割り当て、Ck生成ステップとLk生
成ステップとルール候補生成ステップとルール検定ステ
ップは、各ステップの処理を上記分割された部分木毎に
実行する相関ルール生成方法および各ステップの処理を
行なう相関ルール生成装置について説明した。
【0256】従って、ハッシュ木のページングが起こり
にくくなり、処理時間が短縮されるという効果がある。
【0257】また、本実施の形態では、L1生成ステッ
プは、支持度が下限値Smin以上である品目に、その
支持度が大きい順に1からの連続番号を割り当てる相関
ルール生成方法および各ステップの処理を行なう相関ル
ール生成装置について説明した。
【0258】従って、部分木においても候補品目セット
C(k)の生成が容易であるという効果がある。
【0259】実施の形態20.以下、実施の形態20の
説明を図42〜図45を用いて行う。まず、図について
説明すると、図42は本実施形態におけるシステム図、
図43は本実施形態のブロック図、図44は本実施形態
における大品目セットの図、図45は本実施形態におけ
る大品目セットファイル読み込みからルール生成までを
示す図である。
【0260】図42における候補品目セット検証部10
21、ハッシュ木操作部1023、ルール候補生成部1
041以外は実施の形態19の図37における同じ名前
の部と同様の役割を果たす。ハッシュ木操作部1023
は大品目セットファイル1004により大品目セットを
管理し、ハッシュ木を生成したり、破棄したりする役割
を持つ。
【0261】以下、図43のブロック図に従って本実施
例における相関ルール生成の手順を説明する。ステップ
1800のL1生成では、実施の形態18のステップ1
210、L1生成と同じ動作を行った後、支持度の大き
い順に各品目に割り当てられる番号を降り直す作業を行
う。すなわち、ステップ1800においては、候補品目
セット検証部1021が、データベース中のレコードを
一つずつ取り出して、そのレコード中に出現する各品目
について、出現する回数をカウントし、そのカウント数
である支持度を増やす。初めて出現する品目について
は、そのカウントの領域を新たに設ける。そして、全て
のレコードについて数え上げが終了すると、最終的な支
持度が最小支持度を超えた品目について、支持度の大き
い順に各品目に割り当てられる番号を降り直す作業を行
い、大品目セットL1としてハッシュ木に登録を行う。
【0262】これにより、ハッシュ木は1からn(最小
支持度を超える品目の数)までの数により構成され、か
つその範囲の任意の番号はハッシュ木中のいずれかのノ
ード番号として割り当てられる。
【0263】そして、生成されたL1がハッシュ木操作
部1023により大品目セットファイル1004に格納
される。大品目セットファイル1004は図44の様
に、大品目セットを構成する品目とその支持度を格納し
たファイルである。図44の例では長さ2の大品目セッ
トが格納されているが、その1行目については、[1,
2]なる大品目セットがあり、その支持度が10である
ことを示す。このステップ1800で出来る大品目セッ
トファイル1004は長さ1の大品目セットを格納して
いる。
【0264】ステップ1810の大品目セットファイル
読み込みでは長さk−1の大品目セットを大品目セット
ファイルの読み込み位置から一つ読み出し、ハッシュ木
に追加する。そして、大品目セットファイルの読み込み
位置を大品目セットの一つ分だけ進める。この読み込み
位置は、L1生成直後は、大品目セットファイルの先頭
であり、ハッシュ木は大品目セットを全く含まない状態
である。以降の説明の例示のため、このステップ実行前
の時点で、[1,2]がハッシュ木に登録されていて、
このステップでは図44の大品目セットファイルから
[1,3]が抽出され、ハッシュ木に追加されたとす
る。その時のハッシュ木を図45の(1)に示す。
【0265】ステップ1820のCk生成は候補品目セ
ット生成部1022が実行するが、部分木のノードのみ
では実施の形態18のjoinステップの様な木の枝伸
ばしが出来ないため、実施の形態19と同様に、ある末
端のノードについては、そのノードに割り当てられた番
号より大きくかつn以下の番号のノードが新たに作成さ
れ、それらへのリンクが設定される。品目番号を連続し
た1からnまでの連続した番号に振りなおしてあるた
め、この操作は容易である。例えば、支持度を超える品
目の数が5だとすると、大品目セット[1,2]の下に
は3、4、5の3つのノードが設定され、[1,2,
3]、[1,2,4]、[1,2,5]の3つの候補品
目セットが生成されることになる。図45の例では、こ
の段階でのハッシュ木の状態は図45の(2)である。
以上の様に、ここでは実施の形態18のようなprun
eステップは行わない。
【0266】このCk生成のステップの後、ステップ1
830でハッシュ木の容量の検査が行われる。この容量
が初期ハッシュ木用許容メモリ量に達していれば、Lk
生成のステップ1840に進み、そうでなければ大品目
セットファイル読み込みステップ1810に戻る。この
初期ハッシュ木用許容メモリ量はハッシュ木用許容メモ
リ量の数分の1とすればよく、また、ハッシュ木用許容
メモリ量については、実施の形態18と同様、計算機ハ
ードウェアが実装しているメモリの量の数分の1とすれ
ばよい。ただし、大品目セットファイル読み込みステッ
プ1810に戻っても、すべての大品目セットを読み込
み終っている場合はステップ1840に進む。
【0267】Lk生成のステップ1840は候補品目セ
ット検証部1021によって実行されるが、その動作は
実施形態1におけるLk生成のステップと同様であり、
各k項組のカウントのためにレコードとハッシュ木のマ
ッチングを行い、最小支持度を超えたk項組のみをLk
の要素として残す。そして、生成された長さkの大品目
セットを大品目セットファイル1004内に構成される
仮大品目セットファイルに格納する。図45の例では、
最小支持度を超える大品目セットが[1,2,3]と
[1,3,4]である場合、この段階でのハッシュ木の
状態は(3)である。
【0268】ルール生成のステップ1850ではハッシ
ュ木中の長さkの大品目セットの各々を基にしたk個の
ルールの検証を行う。例えば、大品目セット[1,2,
3]については、1,2→3、1,3→2、2,3→1
の3個のルールの検証が行われる。これらのルールの検
証にはk個の長さk−1の大品目セットの支持度が必要
なのであるが、これらはこの段階で存在するハッシュ木
に含まれているとは限らない。従ってルール候補生成部
1041はハッシュ木に含まれていない長さk−1の大
品目セットをハッシュ木操作部1023を通じて大品目
セットファイル1004から読み込むことになる。長さ
kの大品目セットの支持度が最小支持度を超えているの
で、これから1つの品目を除いた長さk−1の大品目セ
ットの支持度は長さkの大品目セットの支持度以上であ
り、長さk−1の大品目セットは大品目セットファイル
1004に格納されている。従って部分木に含まれてい
ない長さk−1の大品目セットの分も含めてメモリに入
り切る必要があり、ハッシュ木分割の段階で使うメモリ
量の限界である初期ハッシュ木許容メモリ量を実際に使
えるメモリ量であるハッシュ木用許容メモリ量よりも少
なく設定するのはそのためである。図45の例では、こ
の段階でのハッシュ木の状態は(4)である。追加した
ノードに至る枝は破線で示してある。
【0269】このCk生成からルール生成までのステッ
プが終了すると、もし最近実行したステップ1810の
大品目セットファイル読み込みで大品目セットファイル
中の全ての大品目セットの読み込みが終了していなけれ
ば、そのまま大品目セットファイル読み込みのステップ
1810に戻る。大品目セットの読み込みが終了してい
て、さらに仮大品目セットファイル中の長さkの大品目
セットの数が0であれば、プログラムは終了する。仮大
品目セットファイル中の長さkの大品目セットの数が0
でなければ、kの値を一つ増やして、それまでに生成さ
れた仮大品目セットファイルをファイル名変更等によっ
て大品目セットファイルとし、その読み込み位置をファ
イルの先頭にして大品目セットファイル読み込みのステ
ップに戻る。
【0270】図45の例では、ルール生成のステップ1
850が終った時に(4)の木は破棄され、図44の大
品目セットファイルの前回の読み込み位置である[1,
3]の次の、[1,4]が読み込まれ、図45の(5)
の様なハッシュ木が構成される。
【0271】また、本実施形態において、初期ハッシュ
木用許容メモリ量をWiとすると、ハッシュ木用許容メ
モリ量がWの時、Wi=W/kと見積もるようにしても
よい。これは、ルール生成の段階で必要となる長さk−
1の大品目セットの個数が大品目セット生成のステップ
で生成された大品目セットのk倍以下であることによ
る。
【0272】この値については、kの値が前回実行され
たこのステップと同様の場合、前回作成されたハッシュ
木のルール生成のステップでの最終容量がWを下回る場
合、その差の数分の1を上の式に追加して初期ハッシュ
木用メモリ量の値とする等の修正を行ってもよい。
【0273】以上のように、本実施の形態では、主に、
各品目に任意の連続番号を割り当てた後、大品目セット
L(1)の情報を大品目セットファイルに保存するL1
生成ステップと、大品目セットファイルから大品目セッ
トL(k−1)中のk−1項組の情報を読み込み、ハッ
シュ木に格納する、大品目セットファイル読み込みステ
ップと、候補品目セットC(k)を格納しているハッシ
ュ木の容量を使用許容容量を超えない所定の容量と比較
して、ハッシュ木の容量の方が小さい場合は上記大品目
セットファイル読み込みステップに戻り、そうでない場
合は次ステップに進む容量判定ステップを有する相関ル
ール生成方法および各ステップの処理を行なう相関ルー
ル生成装置について説明した。
【0274】従って、ページングが起こらず、処理時間
が短縮されるという効果がある。
【0275】また、本実施の形態では、ルール生成ステ
ップにおいて、k−1項組の支持度を大品目セットファ
イルから読み出す相関ルール生成方法および各ステップ
の処理を行なう相関ルール生成装置について説明した。
【0276】従って、データベース検索が不要になり、
処理時間が短縮されるという効果がある。
【0277】また、本実施の形態では、大品目セットフ
ァイル読み込みステップでは、品目セットを1個ずつ読
み込む相関ルール生成方法および各ステップの処理を行
なう相関ルール生成装置について説明した。
【0278】従って、品目セットの容量の確認が容易で
あるという効果がある。
【0279】また、本実施の形態では、所定の容量は、
使用許容容量のk分の1である相関ルール生成方法およ
び各ステップの処理を行なう相関ルール生成装置につい
て説明した。
【0280】従って、必要以上のメモリを確保すること
がなくなり効率的にメモリを利用することができるとい
う効果がある。
【0281】実施の形態21.以下、本発明における実
施の形態21の説明を図42〜図44を用いて説明す
る。図について説明すると、図42は本実施形態におけ
るシステム図、図43は本実施形態のブロック図、図4
4は本実施形態における大品目セットファイルの図であ
る。
【0282】実施の形態20においては、大品目セット
L1を大品目セットに格納する順については特に制限し
なかったが、本実施形態は、長さ1の大品目セットL1
を、大品目セットファイルに昇順に、すなわち番号1か
ら順にnまで格納するものである。
【0283】図43のステップ1800のL1生成は実
施の形態20と同様の動作を行うのであるが、大品目セ
ットファイル1004には、長さ1の大品目セットを昇
順に格納していく。すなわち、候補品目セット検証部1
021が、データベース中のレコードを一つずつ取り出
して、そのレコード中に出現する各品目について、出現
する回数をカウントし、そのカウント数である支持度を
増やす。初めて出現する品目については、そのカウント
の領域を新たに設ける。そして、全てのレコードについ
て数え上げが終了すると、最終的な支持度が最小支持度
を超えた品目について、支持度の大きい順に各品目に割
り当てられる番号を振り直す作業を行い、大品目セット
L1としてハッシュ木に登録を行う。この時、大品目セ
ットファイルには各品目を昇順に格納する。また、これ
により、ハッシュ木は1からn(最小支持度を超える品
目の数)までの数により構成され、かつその範囲の任意
の番号はハッシュ木中のいずれかのノード番号として割
り当てられる。したがって、以降大品目セットファイル
中の大品目セットの長さ(k−1)が増えていっても、
その中の大品目セットは昇順にソートされて格納される
ことになる。この後の動作は実施の形態20と同様であ
る。
【0284】こうすれば、ルール生成のステップ185
0において、ハッシュ木に含まれていない長さk−1の
大品目セットの読み込みは、大品目セットファイル中の
前回の大品目セットファイル読み込みのステップでの読
み込み位置から以降を読み込む事になり、処理速度が向
上する。
【0285】また、本実施形態において、大品目セット
ファイルが各大品目セットの支持度の情報を持っていな
いくてもよい。この場合、ルール検証において、ルール
候補生成部1041はハッシュ木に含まれていない長さ
k−1の大品目セットのためのノードを追加し、その支
持度についてはデータベースの集計を新たに実行して求
める。
【0286】また、本実施形態におけるルール検証にお
いて、データベースのデータファイルの大きさと、大品
目セットファイルの大きさの比較を行い、前者の方が小
さい場合はデータベースの集計を新たに実行して支持度
を求め、後者の方が小さい場合は、該当する大品目セッ
トを大品目セットファイルから検索して支持度を求める
ようにしてもよい。この場合処理速度が向上する。
【0287】以上のように、本実施の形態では、主に、
大品目セットファイル中の大品目セットが昇順にソート
されている相関ルール生成方法および各ステップの処理
を行なう相関ルール生成装置について説明した。
【0288】従って、ルール生成のステップで新たに読
み込む大品目セットの大品目セットファイル上の位置が
限定されるので、処理時間が短縮されるという効果があ
る。
【0289】また、本実施の形態では、ルール生成ステ
ップにおいて、k−1項組の支持度をデータベースとの
マッチングにより求める相関ルール生成方法および各ス
テップの処理を行なう相関ルール生成装置について説明
した。
【0290】従って、大品目セットに支持度を書き込む
必要がないので、処理時間が短縮されるという効果があ
る。
【0291】また、本実施の形態では、ルール生成ステ
ップにおいて、大品目セットファイルとデータベースの
サイズを比較し、小さい方からk−1項組の支持度を求
める相関ルール生成方法および各ステップの処理を行な
う相関ルール生成装置について説明した。
【0292】従って、不要なレコードの探索が少なくな
り、効率的な支持度獲得が行え、処理時間が短縮される
という効果がある。
【0293】実施の形態22.以下、本発明における実
施の形態22の説明を図42、図43、図46を用いて
行う。図について説明すると、図42は本実施形態にお
けるシステム図、図43は本実施形態のブロック図、図
46は本実施形態におけるルール候補生成の過程を示す
図である。図42における候補品目セット生成部102
2とハッシュ木操作部1023以外は実施の形態21に
おける同じ名前の部と同様の役割を果たす。
【0294】実施の形態21では、大品目セットファイ
ル読み込みの際には、そのハッシュ木の容量にのみ着目
し、枝を構成する品目には着目していなかったが、本実
施形態では、大品目セットファイル読み込みに際して、
大品目セットの最後の品目以外の品目が共通するものを
一挙に読み出すようにしたものである。
【0295】以下、図43のブロック図に従って本実施
例における相関ルール生成の手順を説明する。本実施例
ではブロック図43中の大品目セットファイル読み込み
のステップ1810とCk生成のステップ1820以外
は第2の発明の実施例と同様の動作であるため、この2
つステップのみの説明を行う。
【0296】ハッシュ木操作部1023によって実行さ
れる大品目セットファイル読み込みのステップ1810
では、大品目セットファイル中の読み込み位置から、大
品目セットの最後の品目以外の品目が共通するものを一
挙に読み出す。すなわち、大品目セットの最後の品目以
外の品目が共通するものは必ず同じハッシュ木に入る様
にする。最小支持度を超える品目の数を5とし、図46
の(1)の様な長さ2の大品目セットを格納したハッシ
ュ木を例に、説明する。
【0297】実施の形態21の方法では、図46の
(2)の様に一回目のループでのハッシュ木、2回目の
ループでのハッシュ木が構成される可能性がある。ここ
では[2,3]と[2,4]が別のハッシュ木に割り当
てられている。[2,3]の末端のノード3からは、そ
の親ノードである2を共通の親ノードとする他のノード
(この場合は4)の存在が見えないため、実施の形態1
8で説明した図55のjoinステップのような枝伸ば
しができない。そこで、3の下には、3を超え5以下で
あるすべてのノード、すなわち4と5を設け、同様に
[2,4]の末端のノード4の下には4を超え5以下で
ある5のノードを設ける必要がある。
【0298】これに対して本実施形態では図46(3)
の様に[2,3]と[2,4]は同じハッシュ木に割り
当てられる。この状態では、実施の形態18で図53〜
図54に示したjoinステップの手順により、枝伸ば
しが可能である。従って、[2,3]の末端のノード3
の下には、共通の親ノード2を持ち、自分より大きな品
目番号である4を設け、[2,4]の末端のノード4の
下には、共通の親ノード2を持ち、自分より大きな品目
番号が存在しないので、ノード追加を行わなくてよい。
この方法によれば、候補品目セットCkの数が少なくな
るので、大品目セットLk生成のための処理が速くなる
という効果がある。
【0299】また、本実施形態においては、大品目セッ
トの最後の品目以外の品目が共通するものを一挙に読み
出すが、この読み出しの際に、ステップ1810で一挙
に読み出した品目セットの容量を、ステップ1810内
で初期ハッシュ木許容メモリ量と比較して、初期ハッシ
ュ木許容メモリ量を超えている場合は、この品目セット
を特殊木として処理するようにしてもよい。この場合、
Ckステップ1820では、特殊木でない品目セットか
らなるハッシュ木について、図53〜図54に示した実
施の形態18と同様のjoinステップの手順により、
枝伸ばしを行う。また、特殊木の場合は、順次初期ハッ
シュ木許容メモリ量に収まる大きさの部分木に分割し、
それぞれの部分木について、実施の形態20におけるC
k生成ステップと同様に、ある末端のノードについて、
そのノードに割り当てられた番号より大きくかつn以下
の番号のノードを新たに作成し、それらへのリンクを設
定する。
【0300】以上のように、本実施の形態では、主に、
大品目セットファイル読み込みステップは、k−1項組
中の最後尾の品目以外の品目が全て共通する品目セット
を同時に読み込み、それらを同一のハッシュ木に格納す
る相関ルール生成方法および各ステップの処理を行なう
相関ルール生成装置について説明した。
【0301】従って、候補品目セットの数が少なくな
り、処理時間が短縮されるという効果がある。
【0302】また、本実施の形態では、最後尾の品目以
外の品目が全て共通する品目セットの容量が所定の容量
をこえる場合、この大品目セットを該所定の容量以内の
容量の複数のハッシュ木に分割する相関ルール生成方法
および各ステップの処理を行なう相関ルール生成装置に
ついて説明した。
【0303】従って、ページングが起きる可能性が少な
くなり、処理時間が短縮されるという効果がある。
【0304】また、本実施の形態では、Ckステップに
おいて、ハッシュ木の先端ノードに、その先端ノードに
対応する品目番号より大きな品目番号すべてを付加し
て、ハッシュ木を伸ばす相関ルール生成方法および各ス
テップの処理を行なう相関ルール生成装置について説明
した。
【0305】従って、部分木においても候補品目セット
C(k)の生成が容易であるという効果がある。
【0306】実施の形態23.以下、本発明における実
施の形態23の説明を図47および図48を用いて行
う。図について説明すると、図47は本実施形態におけ
るシステム図である。図47における許容メモリ量獲得
部1011以外は第3の発明の実施例における図42の
同じ名前の部と同様の役割を果たす。
【0307】これまでに説明した実施の形態では、ハッ
シュ木用許容メモリ量は予めシステムで設定されていた
が、本実施形態では、ユーザが指定するものである。
【0308】以下、図48のブロック図に従って本実施
例における相関ルール生成の手順を説明する。本実施例
ではブロック図48中の許容メモリ量取得のステップ1
801以外は第3の実施例におけるブロック図43の同
名のブロックと同様の動作であるため、このステップの
みの説明を行う。
【0309】許容メモリ量獲得のステップ1801で
は、初期の部分木およびその後の枝伸ばしとルール検証
で使用可能なメモリ量であるハッシュ木用許容メモリ量
をユーザが入力して指定する。Ck生成のステップ終了
後の容量の検査で用いるハッシュ木の初期ハッシュ木用
許容メモリ量はその数分の1として計算される。ユーザ
は過去のプログラムの実行履歴等を基にして自由にこの
メモリ量を設定する。その入力形式については、ダイア
ログボックスを出して入力させてもよいし、コマンドラ
インからのプログラムの起動の場合は引数として指定す
る様にしてもよい。
【0310】また、ハッシュ木用許容メモリ量獲得のス
テップ1801では、ハッシュ木のために使用可能なメ
モリ量であるハッシュ木用許容メモリ量を決定するため
に、システムコール等の手段によって本ステップの実行
時点で空いているメモリ量をオペレーティングシステム
から取得するようにしてもよい。ハッシュ木用許容メモ
リ量はその数分の1とする。Ck生成のステップ終了後
の容量の検査で用いるハッシュ木の初期ハッシュ木用許
容メモリ量はその数分の1として計算される。
【0311】また、本実施形態において、図49のよう
にメモリ開放部を設け、ハッシュ木用許容メモリ量を確
保してもよい。すなわち、許容メモリ量獲得のステップ
1801では、ハッシュ木のために使用可能なメモリ量
をシステムコール等の手段によってオペレーティングシ
ステムから取得する前に、メモリを大量に確保するプロ
セスを発生させ、そのメモリを解放して終了するプログ
ラムを実行させるようにしてもよい。これにより、本ス
テップ実行前の段階ではオペレーティングシステムが占
有していたが、実際には使っていなかったメモリ領域が
開放され、相関ルール生成プログラムはより多くのハッ
シュ木用許容メモリ量を確保できることになる。
【0312】以上のように、本実施の形態では、主に、
使用許容容量をユーザが決定するステップを備えている
相関ルール生成方法および各ステップの処理を行なう相
関ルール生成装置について説明した。
【0313】従って、ユーザの過去の経験等を生かした
メモリ設定が可能となるという効果がある。
【0314】また、本実施の形態では、使用許容容量を
オペレーティングシステムから取得する相関ルール生成
方法および各ステップの処理を行なう相関ルール生成装
置について説明した。
【0315】従って、確実なメモリ量の確保が可能とな
るという効果がある。
【0316】また、本実施の形態では、メモリ領域を確
保して解放するプログラムを実行するステップを有する
相関ルール生成方法および各ステップの処理を行なう相
関ルール生成装置について説明した。
【0317】従って、それまでオペレーティングシステ
ムに占有されていた領域を使うことができ、ハッシュ木
のために多くのメモリ領域を確保することができるとい
う効果がある。
【0318】実施の形態24.以下、本発明における実
施の形態24の説明を図42、図50を用いて行う。図
について説明すると、図42は本実施形態におけるシス
テム図、図50は本実施形態におけるブロック図であ
る。図42における候補品目セット検証部1021と候
補品目セット生成部1022、ハッシュ木操作部102
3以外は実施の形態20における図42における同じ名
前の部と同様の役割を果たす。
【0319】実施の形態20においては、Ck生成後そ
の容量が初期ハッシュ木用許容容量を超えたか否かを確
認し、その後、ルール形成のステップにおいてk−1項
組をハッシュ木に追加していたが、本実施形態では、C
k生成後すぐにk−1項をハッシュ木に追加し、そのハ
ッシュ木の容量がハッシュ木用許容メモリ量を超えたか
否か確認するものである。
【0320】以下、図50のブロック図に従って本実施
形態における相関ルール生成の手順を説明する。
【0321】ステップ1900のL1生成は実施の形態
20の同名のステップと同じ動作を行うのであるが、実
施の形態20の場合と異なるのは、大品目セットファイ
ルが各大品目セットの支持度の情報を持っていないとい
う点である。
【0322】ステップ1910の大品目セットファイル
読み込みでは長さk−1の大品目セットを大品目セット
ファイルの読み込み位置から一つ読み出し、ハッシュ木
に追加する。そして、大品目セットファイルの読み込み
位置を大品目セットの一つ分だけ進める。この読み込み
位置は、このプログラム実行開始時は、大品目セットフ
ァイルの先頭であり、ハッシュ木は大品目セットを全く
含まない状態である。
【0323】ステップ1920のCk生成では、ある末
端のノードからは、そのノードに割り当てられた番号よ
り大きくかつn以下の番号の新たに作成されるノードへ
の枝が設定される。例えば、支持度を超える品目の数が
5だとすると、大品目セット[1,3]の下には4、5
の2つのノードが設定され、[1,3,4]、[1,
3,5]の2つの候補品目セットが生成されることにな
る。
【0324】次にステップ1930のルール検証用品目
セット生成が行われる。ここでは、前ステップで追加さ
れた品目セットからルールを生成する場合に支持度が必
要となる品目セットが追加される。前ステップでは
[1,3,4]、[1,3,5]の2つの候補品目セッ
トが生成されたとすると、これらの品目セットからルー
ルを生成する場合は[1,3]、[3,4]、[1,
4]、[1,5]、[3,5]の5つの品目セットの支
持度が必要となる。これらのうちハッシュ木上に存在し
ないものがハッシュ木に追加されるが、これが本発明に
おける候補品目補助セットである。このステップの後、
ハッシュ木の容量の検査が行われる。この容量がハッシ
ュ木用許容メモリ量に達していれば、Lk生成のステッ
プに進み、そうでなければ大品目セットファイル読み込
みのステップに戻る。このハッシュ木用許容メモリ量は
計算機ハードウェアが実装しているメモリの量の数分の
1(例えば10分の1)とすればよい。
【0325】候補品目セット検証部1021によるLk
生成のステップ1950の動作ではハッシュ木上の長さ
k−1の候補品目セットと長さkの候補品目セットの支
持度がデータベースの検索を通じて集計され、生成され
た長さkの大品目セットについては仮大品目セットファ
イルに追加される。この長さk−1の候補品目セット
が、本発明における候補品目補助セットである。実施の
形態20におけるLk生成のステップと異なるのは、こ
の候補品目補助セットである長さk−1の候補品目セッ
トの支持度の集計も同時に行う点と、仮大品目セットフ
ァイルに書き込む情報として、各大品目セットの支持度
は含まれないという点である。
【0326】ルール生成のステップ1960ではハッシ
ュ木中の長さkの大品目セットの各々を基にしたk個の
ルールの検証を行う。例えば、大品目セット[1,2,
4]については、1,2→4、1,4→2、2,4→1
の3個のルールの検証が行われる。これらのルールの検
証に必要なk個の長さk−1の大品目セットはこの段階
では既にハッシュ木に含まれているため(長さk−1の
大品目セットは前のステップ1950の実行直前では長
さk−1の候補品目補助セットであったため)、実施の
形態20の場合の様に大品目セットファイルから読み込
む必要はない。
【0327】このルール生成までのステップが終了する
と、もし最近のステップ1910の大品目セットファイ
ル読み込みで大品目セットファイル中の全ての大品目セ
ットの読み込みが終了していなければ、それまでのハッ
シュ木を破棄して大品目セットファイル読み込みのステ
ップ1910に戻る。そうでない場合、もし仮大品目セ
ットファイル中の長さkの大品目セットの数が0であれ
ば、プログラムは終了する。そうでなければkの値を一
つ増やして、それまで生成された仮大品目セットファイ
ルをファイル名変更等によって大品目セットファイルに
し、ハッシュ木を破棄して大品目セットファイル読み込
みのステップに戻る。この部分は実施の形態20におけ
る図43の同名のブロックと同様である。
【0328】以上のように、本実施の形態では、主に、
Ck生成ステップの後、容量判定ステップの前に、Ck
生成ステップで生成された候補品目セットC(k)から
1品目を除いた候補品目補助セットを生成して、ハッシ
ュ木に格納するルール検証用品目セット生成ステップを
設け、Lk生成ステップでは上記候補品目セットC
(k)中のk項組と候補品目補助セットの支持度をデー
タベースとのマッチングにより求める相関ルール生成方
法および各ステップの処理を行なう相関ルール生成装置
について説明した。
【0329】従って、ルール生成の速度が向上するとい
う効果がある。
【0330】実施の形態25.本発明における大品目セ
ット生成の処理では、レコードの集合のためのメモリを
確保し、そこに入るだけのレコードをデータベース、あ
るいはデータファイルから読み込む。そして、読み込ま
れたレコード集合に対してマッチング処理を適用する。
【0331】マッチング関数は従来技術と同様に再帰的
に呼び出されるが、入力はハッシュ木のノード(nod
e)と部分列集合(P)である。部分列集合(P)はレ
コード集合中の各レコードにおける部分列を指定したも
のである。図59の例のようにレコード集合{1,2,
3}{1,2,4}{1、3、4}をメモリに読み込む
場合には、{3}{2,4}{1,3,4}は第1のレ
コードの3番目、第2のレコードの2番目、第3のレコ
ードの先頭以降の部分列からなる部分列集合である。レ
コード集合とハッシュ木のマッチングは、このマッチン
グ処理の入力をハッシュ木のroot、レコード集合中
の各レコードの先頭以降の部分列集合に適用することに
よって実現される。
【0332】図58に本実施の形態におけるマッチング
関数のブロック図を示す。ステップ2200で入力され
たハッシュ木のノード(node)が葉ノードの一つ上
であるか否か判断する。
【0333】入力されたハッシュ木のノード(nod
e)が葉ノードの一つ上ではない場合は、ステップ22
10の処理を行なう。ステップ2210では、まず部分
列集合(P)中の品目の最小値(i)を取得する。そし
て、その最小値(i)の品目を含むレコードについて
は、その品目を除いた部分列を、最小値(i)の品目を
含まないレコードについては、部分列{}をそれぞれ指
定した部分列集合を新たに作る。更に、その最小値
(i)でハッシュ関数を適用して該当するノード(no
dei)がその下に存在するか調べる。ステップ221
0で該当するノード(nodei)がその下に存在する
場合は、そのノード(nodei)と新たに作成した部
分列集合を入力としたマッチング関数を再帰的に呼び出
す。ステップ2230で元の部分列集合については、そ
のうち最小値(i)の品目を含む部分列からその品目を
除き、部分列集合(P)を更新する。ステップ2240
で部分列集合(P)中の全ての部分列が{}となるまで
ステップ2210、2220、2230の処理を繰り返
す。
【0334】ステップ2200で入力されたノードが葉
ノードの一つ上であると判断する場合は、ステップ22
50で部分列集合(P)中の各部分列について繰り返
し、ステップ2260で部分列中の各品目(i)につい
てハッシュ関数を適用する。ステップ2270で該当す
る葉ノード(nodei)が存在すれば、ステップ22
80でそのノードの支持度を一つ増やす。
【0335】図59の例でハッシュ木のroot、レコ
ード集合{1,2,3}{1,2,4}{1、3、4}
の各レコードの先頭以降の部分列の集合{1,2,3}
{1,2,4}{1、3、4}を入力としてマッチング
関数を適用する場合について説明する。ハッシュ木の高
さは2であるで、部分列集合生成の処理が行われる。
【0336】ステップ2210では、まず、部分列集合
の最小品目1である1を除いた部分列集合{2,3}
{2,4}{3,4}が作られる。そしてrootの下
にはノード[1]が存在すると判断する。ステップ22
20ではノード[1]と部分列集合{2,3}{2,
4}{3,4}を入力としたマッチング関数を再帰的に
呼び出す。ステップ2230では部分列集合を{2,
3}{2,4}{3,4}に更新する。ステップ224
0で部分列集合中の部分列のすべてが{}ではないの
で、ステップ2210の処理に戻る。
【0337】次のステップ2210で、更新された部分
列集合中の最小値の品目は2であり、rootの下には
ノード[2]が存在すると判断する。ステップ2220
でノード[2]と部分列集合{3}{4}{}を入力と
したマッチング関数を再帰的に呼び出す。ステップ22
30で元の部分列集合を{3}{4}{3,4}に更新
する。
【0338】同様にループし、ステップ2220でノー
ド[3]と部分列集合{}{}{4}を入力としたマッ
チング関数を再帰的に呼び出す。ステップ2230で元
の部分列集合は{}{4}{4}となる。
【0339】4を除いた部分列集合は{}{}{}とな
るので処理のループはここで終了する。
【0340】次に、ノード[1]と部分列集合{2,
3}{2,4}{3,4}を入力としたマッチング関数
の動作についても説明する。ステップ2200でこのノ
ードは葉の一つ上のノードであると判断する。ステップ
2250で各部分列集合中の品目2,3,2,4,3,
4の各々についてハッシュ関数を適用し、ステップ22
80で該当するノードの支持度を増やす。
【0341】ノード[2]と部分列集合{3}
{4}{}を入力としたマッチング関数、ノード[3]
と部分列集合{}{}{4}を入力としたマッチング関
数についても同様に処理する。
【0342】以上のように、本実施の形態では、主に、
データベースのレコードの集合と候補品目セットC
(k)を格納するハッシュ木とを入力としてマッチング
を実行し、大品目セットL(k)を選択するLk生成ス
テップを有する相関ルール生成方法および各ステップの
処理を行なう相関ルール生成装置について説明した。
【0343】従って、複数のレコード中の共通する品目
の部分を一括してハッシュ関数に適用するため、再帰的
呼び出しの処理回数が減り、高速なマッチングが可能と
なるという効果がある。
【0344】実施の形態1から本実施の形態まで説明し
た相関ルール生成方法は、その方法の手順をコンピュー
タに課題解決のための機能を付与し得るプログラムとし
て、コンピュータ読み取り可能な形態で記憶媒体に記録
することができる。
【0345】
【発明の効果】第1の発明に係る相関ルール生成方法
は、大品目セットL(k−1)を条件となる品目セッ
ト、大品目セットL(1)を結果となる品目セットとす
る相関ルール候補を生成するので、相関ルールの両辺全
ての品目からなる品目セットの支持度がいかなる値であ
っても、相関ルールを得ることができ、負の相関ルール
を抽出できるという効果がある。
【0346】また、第2の発明に係る相関ルール生成方
法は、相関ルールをχ2 値という統計量によって評価し
抽出を行うので、統計的に意味のある相関ルールのみを
得ることができるという効果がある。
【0347】また、第3の発明に係る相関ルール生成方
法は、仮説生成検証ステップに、相関ルールが正の相関
ルールか負の相関ルールかを判定する正負判定ステップ
を設けたので、効率的に正の相関ルールと負の相関ルー
ルを分けて抽出することができるという効果がある。
【0348】また、第4の発明に係る相関ルール生成方
法は、大品目セット生成ステップに、個別の品目の支持
度から支持度の下限値Sminを算出する相関用限界支
持度決定ステップを備えたので、ユーザが最小支持度を
入力する必要が無く、また不要な支持度をもつルール候
補に関して検定を行うことが無いので効率的に相関ルー
ルを抽出することができるという効果がある。
【0349】また、第5の発明に係る相関ルール生成方
法は、大品目セット生成ステップに、支持度の最も小さ
な個別の品目の支持度を支持度の下限値Sminと設定
する最小支持度決定ステップを備えたので、ユーザが最
小支持度を入力する必要がないという効果がある。
【0350】また、第6の発明に係る相関ルール生成方
法は、仮説生成検証ステップにおいて、ルール候補生成
ステップで相関ルール候補を生成する際に使用した大品
目セットL(k−1)と大品目セットL(1)の対に対
して、該大品目セットL(k−1)の支持度から該大品
目セットL(1)の支持度の限界値を算出する境界決定
ステップを備え、支持度が境界以内である大品目セット
L(1)とこれと対の大品目セットL(k−1)から生
成された相関ルール候補のみをルール検定ステップでχ
2 検定を行うようにしたので、ユーザが最小支持度を入
力する必要が無く、また不要な支持度をもつルール候補
に関して検定を行うことが無いので効率的に相関ルール
を抽出することができるという効果がある。
【0351】また、第7の発明に係る相関ルール生成方
法は、ユーザが相関ルールの左辺または右辺の品目に関
する条件を入力するようにしたので、特定の品目に関す
る相関ルールを抽出できるという効果がある。
【0352】また、第8の発明に係る相関ルール生成方
法は、ユーザ入力ステップにおいて、ユーザは相関ルー
ル中の左辺にその中の1個以上が必ず含まれる1個以上
の品目と相関ルールの右辺にその中の1個以上が必ず含
まれる1個以上の品目を指定するようにしたので、特定
の品目に関する相関ルールが効率的に抽出できるという
効果がある。
【0353】また、第9の発明に係る相関ルール生成方
法は、ユーザ入力ステップにおいて、ユーザは相関ルー
ル中の左辺にすべてが必ず含まれる1個以上の品目と相
関ルールの右辺にすべてが必ず含まれる1個以上の品目
を指定するようにしたので、特定の品目に関する相関ル
ールが効率的に抽出できるという効果がある。
【0354】また、第10の発明に係る相関ルール生成
方法は、ユーザ入力ステップにおいて、ユーザはデータ
ベース中のレコードの中から、特定の1以上の品目を持
つレコードの集合であるドメインを指定するために上記
1以上の品目を入力し、大品目セット生成ステップに
は、データベースから指定された上記ドメインに含まれ
るレコードのみを取り出し、以後データベース中のレコ
ード総数の代わりにこのドメインに含まれるレコードの
総数を使用するようにするドメイン限定ステップを設け
たので、ドメインを限定した場合の相関ルールを効率的
に抽出できるという効果がある。
【0355】また、第11の発明に係る相関ルール生成
方法は、各個別の品目を品目番号によって表現し、上記
大品目セット生成ステップには、各品目の支持度の順に
品目番号を付ける品目番号再配置ステップを備えたの
で、効率的に相関ルールを抽出できるという効果があ
る。
【0356】また、第12の発明に係る相関ルール生成
方法は、上記大品目セット生成ステップに、候補品目セ
ットC(k)を格納するハッシュ木中のk項組みを一つ
ずつ取り出して、レコードとのマッチングを行う逆方向
レコードマッチングステップを備えたので、高速に処理
が行なえるという効果がある。
【0357】また、第13の発明に係る相関ルール生成
方法は、ユーザ入力ステップにおいて、ユーザは相関ル
ール中に同時に現れてはならない2個以上の品目からな
る組を指定し、Lk生成ステップにおいてはこの指定さ
れた組に含まれる複数の品目を含まない大品目セットL
(k)のみを生成するようにしたので、相関ルール中に
同時に現れてはならない品目の組を含まない相関ルール
を効率的に抽出できるという効果がある。
【0358】また、第14の発明に係る相関ルール生成
方法は、ハッシュ木を分割し、大品目セットを生成する
段階でデータベースとハッシュ木のマッチングを分割さ
れた部分木毎に行うため、ハッシュ木のページングが起
こりにくくなり、処理時間が短縮されるという効果があ
る。
【0359】また、第15の発明に係る相関ルール生成
方法は、ハッシュ木を分割し、候補品目セット生成、大
品目セット生成、ルール生成のステップの各処理を分割
された部分木毎に行うため、ハッシュ木のページングが
起こりにくくなり、処理時間が短縮されるという効果が
ある。
【0360】また、第16の発明に係る相関ルール生成
方法は、大品目セットを大品目セットファイルに格納
し、大品目セットファイルから順番に読み出してメモリ
領域が限界に達するまでハッシュ木に追加し、そのハッ
シュ木毎に候補品目セット生成、大品目セット生成、ル
ール生成を実行していくので、ページングが起こらず、
処理時間が短縮されるという効果がある。
【0361】また、第17の発明に係る相関ルール生成
方法は、ルール生成ステップにおいて、大品目セットL
(k−1)の支持度を大品目セットファイルから読み出
すようにしたので、データベース検索が不要になり、処
理時間が短縮されるという効果がある。
【0362】また、第18の発明に係る相関ルール生成
方法は、大品目セットファイル読み込みステップにおい
て、長さ(k−1)の品目セット中の最後尾の品目以外
の品目が全て共通する品目セットを同時に読み込み、そ
れらを同一のハッシュ木に格納するので、候補品目セッ
トの数が少なくなり、処理時間が短縮されるという効果
がある。
【0363】また、第19の発明に係る相関ルール生成
方法は、Lk生成ステップで、データベースのレコード
の集合と候補品目セットC(k)を格納するハッシュ木
を入力としてマッチングを実行し、大品目セットL
(k)を選択するので、複数のレコード中の共通する品
目の部分を一括してハッシュ関数に適用するため、再帰
的呼び出しの処理回数が減り、高速なマッチングが可能
となるという効果がある。
【0364】また、第20の発明に係る相関ルール生成
装置は、大品目セットL(k−1)を条件となる品目セ
ット、大品目セットL(1)を結果となる品目セットと
する相関ルール候補を生成するルール候補生成部を備え
るので、相関ルールの両辺全ての品目からなる品目セッ
トの支持度がいかなる値であっても、相関ルールを得る
ことができ、負の相関ルールを抽出できるという効果が
ある。
【0365】また、第21の発明に係る相関ルール生成
装置は、ハッシュ木を分割するハッシュ木操作部と、デ
ータベースとハッシュ木のマッチングを分割された部分
木毎に行う候補品目セット検証部を備えるため、ハッシ
ュ木のページングが起こりにくくなり、処理時間が短縮
されるという効果がある。
【0366】また、第22の発明に係る相関ルール生成
装置は、大品目セットの情報を保存する大品目セットフ
ァイルと、大品目セットファイルから順番に読み出して
メモリ領域が限界に達するまでハッシュ木に追加するハ
ッシュ木操作部と、そのハッシュ木毎に処理する候補品
目セット生成部、候補品目セット検証部、仮説生成検証
部を有するので、ページングが起こらず、処理時間が短
縮されるという効果がある。
【0367】また、第23の発明に係る相関ルール生成
装置は、データベースのレコードの集合と候補品目セッ
トC(k)を格納するハッシュ木を入力としてマッチン
グを実行し、大品目セットL(k)を選択する候補品目
セット検証部を備えるので、複数のレコード中の共通す
る品目の部分を一括してハッシュ関数に適用するため、
再帰的呼び出しの処理回数が減り、高速なマッチングが
可能となるという効果がある。
【図面の簡単な説明】
【図1】 本発明の実施の形態1および実施の形態3の
システム図である。
【図2】 本発明の実施の形態1、2、3および実施の
形態14、15、16のブロック図である。
【図3】 本発明の実施の形態2におけるCk生成ステ
ップの詳細を示すブロック図である。
【図4】 本発明の実施の形態2の説明で用いるハッシ
ュ木の一例である。
【図5】 本発明の実施の形態2の説明で用いるpru
ne操作前とprune操作後のハッシュ木の一例であ
る。
【図6】 本発明の実施の形態3のシステム図である。
【図7】 本発明の実施の形態4、11、12、17の
システム図である。
【図8】 本発明の実施の形態4、5、11、12、1
7のブロック図である。
【図9】 本発明の実施の形態4のCk生成ステップの
説明で用いるC3生成前と生成後のハッシュ木の一例で
ある。
【図10】 本発明の実施の形態5のシステム図であ
る。
【図11】 本発明の実施の形態6のシステム図であ
る。
【図12】 本発明の実施の形態6のブロック図であ
る。
【図13】 本発明の実施の形態6の右辺と左辺の支持
度の関係の図である。
【図14】 本発明の実施の形態7のシステム図であ
る。
【図15】 本発明の実施の形態7、8のブロック図で
ある。
【図16】 本発明の実施の形態8のシステム図であ
る。
【図17】 本発明の実施の形態9のシステム図であ
る。
【図18】 本発明の実施の形態9、10のブロック図
である。
【図19】 本発明の実施の形態10のシステム図であ
る。
【図20】 本発明の実施の形態11の説明で用いるハ
ッシュ木の一例である。
【図21】 本発明の実施の形態12の説明で用いるハ
ッシュ木の一例である。
【図22】 本発明の実施の形態13のシステム図であ
る。
【図23】 本発明の実施の形態13のブロック図であ
る。
【図24】 本発明の実施の形態14のシステム図であ
る。
【図25】 本発明の実施の形態15のシステム図であ
る。
【図26】 本発明の実施の形態15のCk生成ステッ
プの詳細を示すブロック図である。
【図27】 本発明の実施の形態15のの説明で用いる
ハッシュ木分割操作の一例である。
【図28】 本発明の実施の形態16ののシステム図で
ある。
【図29】 本発明の実施の形態17の説明で用いるハ
ッシュ木の一例である。
【図30】 従来の相関ルール生成方法のシステム図で
ある。
【図31】 従来の相関ルール生成方法のブロック図で
ある。
【図32】 従来の相関ルール生成方法および本発明の
実施の形態1のCk生成ステップの詳細を示すブロック
図である。
【図33】 従来の相関ルール生成方法および本発明の
実施の形態1で想定するデータベースの内容例である。
【図34】 従来の相関ルール生成方法および本発明の
実施の形態1で用いるハッシュ木の一例である。
【図35】 従来の相関ルール生成方法および本発明の
実施の形態1の説明で用いるハッシュ木の一例である。
【図36】 従来の相関ルール生成方法および本発明の
実施の形態1の説明で用いる、Ck生成ステップ中のp
rune操作前とprune操作後のハッシュ木の一例
である。
【図37】 本発明の実施の形態18および実施の形態
19のシステム図である。
【図38】 本発明の実施の形態18のブロック図であ
る。
【図39】 本発明の実施の形態18におけるハッシュ
木の状態変化の説明図である。
【図40】 本発明の実施の形態19にのブロック図で
ある。
【図41】 本発明の実施の形態19におけるハッシュ
木の状態変化の説明図である。
【図42】 本発明の実施の形態20、21、22、2
4のシステム図である。
【図43】 本発明の実施の形態20、21、22のブ
ロック図である。
【図44】 本発明の実施の形態20、21の説明で用
いる大品目セットファイルの一例である。
【図45】 本発明の実施の形態20におけるハッシュ
木の状態変化の説明図である。
【図46】 本発明実施の形態22で使用したハッシュ
木の状態変化の説明図である。
【図47】 本発明の実施の形態23のシステム図であ
る。
【図48】 本発明の実施の形態23のブロック図であ
る。
【図49】 本発明の実施の形態23の他の実施形態の
システム図である。
【図50】 本発明の実施の形態24のブロック図であ
る。
【図51】 本発明の実施の形態18の説明に用いるデ
ータベースの一例である。
【図52】 本発明の実施の形態18の説明に用いるハ
ッシュ木の図である。
【図53】 本発明の実施の形態18の説明に用いるハ
ッシュ木の図である。
【図54】 本発明の実施の形態18の説明に用いるハ
ッシュ木の図である。
【図55】 本発明の実施の形態18のCk生成の詳細
ブロック図である。
【図56】 従来のマッチング関数のブロック図であ
る。
【図57】 従来のマッチング関数適用の系統図であ
る。
【図58】 本発明の実施の形態25のマッチング関数
のブロック図である。
【図59】 本発明の実施の形態25のマッチング関数
適用の系統図である。
【符号の説明】
1 データベース、2 大品目セット、3 相関ルール
集合、10 ユーザ入力部、20 大品目セット生成
部、21 候補品目セット検証部、22 候補品目セッ
ト生成部、23 候補品目セット生成部、24 候補品
目セット生成部、25 最小支持度決定部、26 負の
相関用限界支持度決定部、27 正の相関用限界支持度
決定部、28 負の境界決定部、29 正の境界決定
部、32 ドメイン限定部、33 品目番号再配置部、
34 ハッシュ木分割部、35 逆方向レコードマッチ
ング部、40 仮説生成検証部、41 ルール候補生成
部、42 確信度計算部、43 χ2 検定部、44 正
相関選択部、45 正負判定部、46 ルール候補生成
部、47 ルール候補生成部、1001 データベー
ス、1002 大品目セット、1003 相関ルール集
合、1004 大品目セットファイル、1010 ユー
ザ入力部、1011 許容メモリ量獲得部、1012
メモリ解放部、1020 大品目セット生成部、102
1 候補品目セット検証部、1022 候補品目セット
生成部、1023 ハッシュ木操作部、1040 仮説
生成検証部、1041 ルール候補生成部、1042
確信度計算部。

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 1以上の品目からなる複数のレコードを
    記憶したデータベース内から、1以上の品目からなる品
    目集合間の相関ルールを抽出する相関ルール生成方法で
    あり、kを2以上の整数とし、品目数Nからなる集合で
    あって、このN個の品目をすべて含むレコードの数であ
    る支持度が未確認である集合を候補品目セットC(N)
    とし、該候補品目セットC(N)の中で支持度が所定の
    下限値Smin以上のものを大品目セットL(N)とし
    て、下記(a)(b)(c)のステップを含むことを特
    徴とする相関ルール生成方法 (a)相関ルールの抽出に必要なパラメータを入力する
    ユーザ入力ステップ; (b)下記(b1)(b2)(b3)のステップからな
    る大品目セット生成ステップ; (b1)各個別の品目を含むレコードの数である支持度
    をカウントし、この支持度が上記下限値Smin以上で
    ある品目の集合を大品目セットL(1)と設定するL1
    生成ステップ; (b2)大品目セットL(k−1)と上記大品目セット
    L(1)から候補品目セットC(k)を生成するCk生
    成ステップ; (b3)上記候補品目セットC(k)から大品目セット
    L(k)を選択するLk生成ステップ; (c)下記(c1)(c2)のステップからなる仮説生
    成検証ステップ; (c1)大品目セットL(k−1)と上記大品目セット
    L(1)から、大品目セットL(k−1)を条件となる
    品目セット(以下「左辺」という。)、大品目セットL
    (1)を結果となる品目セット(以下「右辺」とい
    う。)とする相関ルール候補を生成するルール候補生成
    ステップ; (c2)上記相関ルール候補について、相関ルールとし
    て採用するか棄却するかを判定するルール検定ステッ
    プ。
  2. 【請求項2】 上記ユーザ入力ステップは、ユーザが少
    なくともχ2 検定における有意水準を入力し、上記ルー
    ル検定ステップは、左辺の支持度、右辺の支持度、左辺
    と右辺の両方に含まれる品目からなる品目セットの支持
    度、およびレコード総数からχ2 値を算出し、このχ2
    値と上記有意水準を指標としてχ2 検定を行うことを特
    徴とする請求項1に記載の相関ルール生成方法。
  3. 【請求項3】 上記仮説生成検証ステップは、相関ルー
    ルが正の相関ルールか負の相関ルールかを判定する正負
    判定ステップを備えたことを特徴とする請求項1に記載
    の相関ルール生成方法。
  4. 【請求項4】 上記大品目セット生成ステップは、個別
    の品目の支持度から上記支持度の下限値Sminを算出
    する相関用限界支持度決定ステップを備えたことを特徴
    とする請求項1に記載の相関ルール生成方法。
  5. 【請求項5】 上記大品目セット生成ステップは、支持
    度の最も小さな個別の品目の支持度を上記支持度の下限
    値Sminと設定する最小支持度決定ステップを備えた
    ことを特徴とする請求項1に記載の相関ルール生成方
    法。
  6. 【請求項6】 上記仮説生成検証ステップは、ルール候
    補生成ステップで相関ルール候補を生成する際に使用し
    た大品目セットL(k−1)と大品目セットL(1)の
    対に対して、該大品目セットL(k−1)の支持度から
    該大品目セットL(1)の支持度の限界値を算出する境
    界決定ステップを備え、上記ルール検定ステップは、支
    持度が境界以内である大品目セットL(1)とこれと対
    の大品目セットL(k−1)から生成された相関ルール
    候補のみのχ2 検定を行うことを特徴とする請求項2に
    記載の相関ルール生成方法。
  7. 【請求項7】 上記ユーザ入力ステップは、ユーザが少
    なくとも相関ルールの左辺または右辺の品目に関する条
    件を入力することを特徴とする請求項1に記載の相関ル
    ール生成方法。
  8. 【請求項8】 上記ユーザ入力ステップは、ユーザが相
    関ルール中の左辺にその中の1個以上が必ず含まれる1
    個以上の品目と相関ルール中の右辺にその中の1個以上
    が必ず含まれる1個以上の品目を条件として入力するこ
    とを特徴とする請求項7に記載の相関ルール生成方法。
  9. 【請求項9】 上記ユーザ入力ステップは、ユーザが相
    関ルール中の左辺にすべてが必ず含まれる1個以上の品
    目と相関ルール中の右辺にすべてが必ず含まれる1個以
    上の品目を条件として入力することを特徴とする請求項
    7に記載の相関ルール生成方法。
  10. 【請求項10】 上記ユーザ入力ステップは、ユーザが
    データベース中のレコードの中から、特定の1以上の品
    目を持つレコードの集合であるドメインを指定するため
    に上記1以上の品目を入力し、大品目セット生成ステッ
    プは、データベースから指定された上記ドメインに含ま
    れるレコードのみを取り出し、以後データベース中のレ
    コード総数の代わりにこのドメインに含まれるレコード
    の総数を使用するようにするドメイン限定ステップを備
    えたことを特徴とする請求項1に記載の相関ルール生成
    方法。
  11. 【請求項11】 上記大品目セット生成ステップは、各
    品目の支持度の順に各個別の品目に対し品目番号を付け
    る品目番号再配置ステップを備えたことを特徴とする請
    求項1に記載の相関ルール生成方法。
  12. 【請求項12】 上記大品目セット生成ステップは、上
    記候補品目セットC(k)を格納するハッシュ木中のk
    項組みを一つずつ取り出して、レコードとのマッチング
    を行う逆方向レコードマッチングステップを備えること
    を特徴とする請求項1に記載の相関ルール生成方法。
  13. 【請求項13】 上記ユーザ入力ステップは、ユーザが
    相関ルール中に同時に現れてはならない2個以上の品目
    からなる組を指定し、Lk生成ステップは、この指定さ
    れた組に含まれる複数の品目を同時には含まない大品目
    セットL(k)のみを生成することを特徴とする請求項
    1に記載の相関ルール生成方法。
  14. 【請求項14】 1以上の品目からなる複数のレコード
    を記憶したデータベース内から、1以上の品目からなる
    品目集合間の相関ルールを抽出する相関ルール生成方法
    であり、kを2以上の整数とし、品目数Nからなる集合
    であって、このN個の品目をすべて含むレコードの数で
    ある支持度が未確認である集合を候補品目セットC
    (N)とし、該候補品目セットC(N)の中で支持度が
    所定の下限値Smin以上のものを大品目セットL
    (N)として、下記(a)から(f)のステップを含む
    ことを特徴とする相関ルール生成方法 (a)各個別の品目を含むレコードの数である支持度を
    カウントし、この支持度が上記下限値Smin以上であ
    る品目の集合を大品目セットL(1)と設定するL1生
    成ステップ; (b)大品目セットL(k−1)を格納しているハッシ
    ュ木の枝を伸ばし、候補品目セットC(k)を生成する
    Ck生成ステップ; (c)ハッシュ木を、所定の容量以内の部分木に分割す
    るハッシュ木分割ステップ; (d)上記分割された部分木毎にデータベースとのマッ
    チングを行い、大品目セットL(k)を選択するLk生
    成ステップ; (e)相関ルール候補を生成するルール候補生成ステッ
    プ; (f)上記相関ルール候補について相関ルールとして採
    用するか棄却するかを判定するルール検定ステップ。
  15. 【請求項15】 上記L1生成ステップは、上記下限値
    Smin以上である品目に任意の連続番号を割り当て、
    Ck生成ステップとLk生成ステップとルール候補生成
    ステップとルール検定ステップは、各ステップの処理を
    上記分割された部分木毎に実行することを特徴とする請
    求項14に記載の相関ルール生成方法。
  16. 【請求項16】 1以上の品目からなる複数のレコード
    を記憶したデータベース内から、1以上の品目からなる
    品目集合間の相関ルールを抽出する相関ルール生成方法
    であり、kを2以上の整数とし、品目数Nからなる集合
    であって、このN個の品目をすべて含むレコードの数で
    ある支持度が未確認である集合を候補品目セットC
    (N)とし、該候補品目セットC(N)の中で支持度が
    所定の下限値Smin以上のものを大品目セットL
    (N)とし、計算機上の相関ルール生成のために使用可
    能なメモリ容量を使用許容容量とし、上記大品目セット
    L(N)の情報を保存する大品目セットファイルを使用
    して、下記(a)から(f)のステップを含むことを特
    徴とする相関ルール生成方法 (a)各個別の品目を含むレコードの数である支持度を
    カウントし、この支持度が上記下限値Smin以上であ
    る品目の集合を大品目セットL(1)と設定し、該各品
    目に任意の連続番号を割り当てた後、大品目セットL
    (1)の情報を大品目セットファイルに保存するL1生
    成ステップ; (b)大品目セットファイルから大品目セットL(k−
    1)中のk−1項組の情報を読み込み、ハッシュ木に格
    納する、大品目セットファイル読み込みステップ; (c)上記ハッシュ木の枝を伸ばして、候補品目セット
    C(k)を生成するCk生成ステップ; (d)候補品目セットC(k)を格納しているハッシュ
    木の容量を使用許容容量を超えない所定の容量と比較し
    て、ハッシュ木の容量の方が小さい場合は上記大品目セ
    ットファイル読み込みステップに戻り、そうでない場合
    は次ステップに進む容量判定ステップ; (e)上記候補品目セットC(k)とデータベースとの
    マッチングを行い、大品目セットL(k)を選択するL
    k生成ステップ; (f)相関ルール候補を生成し、相関ルールとして採用
    するか棄却するかを判定するルール生成ステップ。
  17. 【請求項17】 上記ルール生成ステップは、k−1項
    組の支持度を大品目セットファイルから読み出すことを
    特徴とする請求項16に記載の相関ルール生成方法。
  18. 【請求項18】 上記大品目セットファイル読み込みス
    テップは、k−1項組中の最後尾の品目以外の品目が全
    て共通する品目セットを同時に読み込み、それらを同一
    のハッシュ木に格納することを特徴とする請求項16に
    記載の相関ルール生成方法。
  19. 【請求項19】 1以上の品目からなる複数のレコード
    を記憶したデータベース内から、1以上の品目からなる
    品目集合間の相関ルールを抽出する相関ルール生成方法
    であり、kを2以上の整数とし、品目数Nからなる集合
    であって、このN個の品目をすべて含むレコードの数で
    ある支持度が未確認である集合を候補品目セットC
    (N)とし、該候補品目セットC(N)の中で支持度が
    所定の下限値Smin以上のものを大品目セットL
    (N)として、下記(a)から(e)のステップを含む
    ことを特徴とする相関ルール生成方法 (a)各個別の品目を含むレコードの数である支持度を
    カウントし、この支持度が上記下限値Smin以上であ
    る品目の集合を大品目セットL(1)と設定するL1生
    成ステップ; (b)候補品目セットC(k)を生成するCk生成ステ
    ップ; (c)データベースのレコードの集合と候補品目セット
    C(k)を格納するハッシュ木を入力としてマッチング
    を実行し、大品目セットL(k)を選択するLk生成ス
    テップ; (d)相関ルール候補を生成するルール候補生成ステッ
    プ; (e)上記相関ルール候補について相関ルールとして採
    用するか棄却するかを判定するルール検定ステップ。
  20. 【請求項20】 以下の要素を備えることを特徴とする
    1以上の品目からなる品目集合間の相関ルールを抽出す
    る相関ルール生成装置 (a)1以上の品目からなる複数のレコードを記憶した
    データベース、 (b)相関ルールの抽出に必要なパラメータを入力する
    ユーザ入力部、 (c)品目数Nからなる集合であって、このN個の品目
    をすべて含むレコードの数である支持度が未確認である
    集合を候補品目セットC(N)とし、該候補品目セット
    C(N)の中で支持度が所定の下限値Smin以上のも
    のである大品目セットL(N)を記憶する領域、 (d)以下の処理部を有する大品目セット生成部、 (d1)各個別の品目を含むレコードの数である支持度
    をカウントし、この支持度が上記下限値Smin以上で
    ある品目の集合を大品目セットL(1)と設定する候補
    品目セット検証部、 (d2)kを2以上の整数とし、大品目セットL(k−
    1)と上記大品目セットL(1)から候補品目セットC
    (k)を生成する候補品目セット生成部、 (d3)上記候補品目セットC(k)から大品目セット
    L(k)を選択する候補品目セット検証部、 (e)以下の処理部を有する仮説生成検証部、 (e1)大品目セットL(k−1)と上記大品目セット
    L(1)から、大品目セットL(k−1)を条件となる
    品目セット(以下「左辺」という。)、大品目セットL
    (1)を結果となる品目セット(以下「右辺」とい
    う。)とする相関ルール候補を生成するルール候補生成
    部、 (e2)上記相関ルール候補について、相関ルールとし
    て採用するか棄却するかを判定するルール検定部。
  21. 【請求項21】 以下の要素を備えることを特徴とする
    1以上の品目からなる品目集合間の相関ルールを抽出す
    る相関ルール生成装置 (a)1以上の品目からなる複数のレコードを記憶した
    データベース、 (b)品目数Nからなる集合であって、このN個の品目
    をすべて含むレコードの数である支持度が未確認である
    集合を候補品目セットC(N)とし、該候補品目セット
    C(N)の中で支持度が所定の下限値Smin以上のも
    のである大品目セットL(N)を記憶する領域、 (c)以下の処理部を有する大品目セット生成部、 (c1)各個別の品目を含むレコードの数である支持度
    をカウントし、この支持度が上記下限値Smin以上で
    ある品目の集合を大品目セットL(1)と設定する候補
    品目セット検証部、 (c2)kを2以上の整数とし、大品目セットL(k−
    1)を格納しているハッシュ木の枝を伸ばし、候補品目
    セットC(k)を生成する候補品目セット生成部、 (c3)ハッシュ木を、所定の容量以内の部分木に分割
    するハッシュ木操作部、 (c4)上記分割された部分木毎にデータベースとのマ
    ッチングを行い、大品目セットL(k)を選択する候補
    品目セット検証部、 (d)以下の処理部を有する仮説生成検証部、 (d1)相関ルール候補を生成するルール候補生成部、 (d2)上記相関ルール候補について相関ルールとして
    採用するか棄却するかを判定するルール検定部。
  22. 【請求項22】 以下の要素を備えることを特徴とする
    1以上の品目からなる品目集合間の相関ルールを抽出す
    る相関ルール生成装置 (a)1以上の品目からなる複数のレコードを記憶した
    データベース、 (b)品目数Nからなる集合であって、このN個の品目
    をすべて含むレコードの数である支持度が未確認である
    集合を候補品目セットC(N)とし、該候補品目セット
    C(N)の中で支持度が所定の下限値Smin以上のも
    のである大品目セットL(N)とし、該大品目セットL
    (N)の情報を保存する大品目セットファイル、 (c)以下の処理部を有する大品目セット生成部、 (c1)各個別の品目を含むレコードの数である支持度
    をカウントし、この支持度が上記下限値Smin以上で
    ある品目の集合を大品目セットL(1)と設定する候補
    品目セット検証部、 (c2)該各品目に任意の連続番号を割り当てた後、大
    品目セットL(1)の情報を大品目セットファイルに保
    存するハッシュ木操作部、 (c3)kを2以上の整数とし、大品目セットファイル
    から大品目セットL(k−1)中のk−1項組の情報を
    読み込み、ハッシュ木に格納するハッシュ木操作部、 (c4)上記ハッシュ木の枝を伸ばして、候補品目セッ
    トC(k)を生成する候補品目セット生成部、 (c5)計算機上の相関ルール生成のために使用可能な
    メモリ容量を使用許容容量とし、候補品目セットC
    (k)を格納しているハッシュ木の容量を使用許容容量
    を超えない所定の容量と比較して、ハッシュ木の容量の
    方が小さい場合は上記大品目セットファイル読み込みス
    テップに戻り、そうでない場合は次ステップに進めるハ
    ッシュ木操作部、 (c6)上記候補品目セットC(k)とデータベースと
    のマッチングを行い、大品目セットL(k)を選択する
    候補品目セット検証部、 (d)相関ルール候補を生成し、相関ルールとして採用
    するか棄却するかを判定する仮説生成検証部。
  23. 【請求項23】 以下の要素を備えることを特徴とする
    1以上の品目からなる品目集合間の相関ルールを抽出す
    る相関ルール生成装置 (a)1以上の品目からなる複数のレコードを記憶した
    データベース、 (b)品目数Nからなる集合であって、このN個の品目
    をすべて含むレコードの数である支持度が未確認である
    集合を候補品目セットC(N)とし、該候補品目セット
    C(N)の中で支持度が所定の下限値Smin以上のも
    のである大品目セットL(N)を記憶する領域、 (c)以下の処理部を有する大品目セット生成部、 (c1)各個別の品目を含むレコードの数である支持度
    をカウントし、この支持度が上記下限値Smin以上で
    ある品目の集合を大品目セットL(1)と設定する候補
    品目セット検証部、 (c2)候補品目セットC(k)を生成する候補品目セ
    ット生成部、 (c3)データベースのレコードの集合と候補品目セッ
    トC(k)を格納するハッシュ木を入力としてマッチン
    グを実行し、大品目セットL(k)を選択する候補品目
    セット検証部、 (d)以下の処理を行なう仮説生成検証部、 (d1)相関ルール候補を生成するルール候補生成部、 (d2)上記相関ルール候補について相関ルールとして
    採用するか棄却するかを判定するルール検定部。
JP10182416A 1997-11-11 1998-06-29 相関ルール生成方法および相関ルール生成装置 Pending JPH11328186A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10182416A JPH11328186A (ja) 1997-11-11 1998-06-29 相関ルール生成方法および相関ルール生成装置
US09/186,356 US6385608B1 (en) 1997-11-11 1998-11-05 Method and apparatus for discovering association rules

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP30844597 1997-11-11
JP10-63413 1998-03-13
JP9-308445 1998-03-13
JP6341398 1998-03-13
JP10182416A JPH11328186A (ja) 1997-11-11 1998-06-29 相関ルール生成方法および相関ルール生成装置

Publications (1)

Publication Number Publication Date
JPH11328186A true JPH11328186A (ja) 1999-11-30

Family

ID=27298170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10182416A Pending JPH11328186A (ja) 1997-11-11 1998-06-29 相関ルール生成方法および相関ルール生成装置

Country Status (2)

Country Link
US (1) US6385608B1 (ja)
JP (1) JPH11328186A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351898A (ja) * 2001-05-23 2002-12-06 Internatl Business Mach Corp <Ibm> グラフ構造データの処理方法、処理システムおよびプログラム
US6832216B2 (en) 2001-03-16 2004-12-14 Hitachi, Ltd. Method and system for mining association rules with negative items
JP2007094592A (ja) * 2005-09-27 2007-04-12 Fusion Kk マーケティングデータ収集分析システム、サーバシステム及びマーケティングデータ収集分析プログラム

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907426B2 (en) * 2001-05-17 2005-06-14 International Business Machines Corporation Systems and methods for identifying and counting instances of temporal patterns
US7177864B2 (en) * 2002-05-09 2007-02-13 Gibraltar Analytics, Inc. Method and system for data processing for pattern detection
ATE408880T1 (de) * 2002-05-23 2008-10-15 Ibm Speichergerät und verfahren zum abtasten eines speichermediums
US7243100B2 (en) * 2003-07-30 2007-07-10 International Business Machines Corporation Methods and apparatus for mining attribute associations
US7962526B2 (en) * 2003-08-18 2011-06-14 Oracle International Corporation Frequent itemset counting using clustered prefixes and index support
US8655911B2 (en) 2003-08-18 2014-02-18 Oracle International Corporation Expressing frequent itemset counting operations
US7840994B2 (en) * 2003-09-19 2010-11-23 Ntt Docomo, Inc. Method and apparatus for efficient certificate revocation
US7277873B2 (en) * 2003-10-31 2007-10-02 International Business Machines Corporaton Method for discovering undeclared and fuzzy rules in databases
US7447666B2 (en) 2004-04-09 2008-11-04 The Boeing Company System and method for analyzing a pattern in a time-stamped event sequence
US7647293B2 (en) * 2004-06-10 2010-01-12 International Business Machines Corporation Detecting correlation from data
EP1784943A4 (en) 2004-08-31 2011-08-03 Ntt Docomo Inc RECEPTION OF CRYPTOGRAPHIC DIGITAL CERTIFICATES
US8489645B2 (en) * 2004-09-27 2013-07-16 International Business Machines Corporation Techniques for estimating item frequencies in large data sets
US7610264B2 (en) * 2005-02-28 2009-10-27 International Business Machines Corporation Method and system for providing a learning optimizer for federated database systems
US20070239645A1 (en) * 2006-03-28 2007-10-11 Ping Du Predictive preprocessing of request
US8108409B2 (en) * 2007-07-19 2012-01-31 Hewlett-Packard Development Company, L.P. Determining top combinations of items to present to a user
WO2009032770A2 (en) * 2007-08-29 2009-03-12 Partnet, Inc. Systems and methods for providing a confidence-based ranking algorithm
US20120053951A1 (en) * 2010-08-26 2012-03-01 Twenty-Ten, Inc. System and method for identifying a targeted prospect
US9311615B2 (en) 2010-11-24 2016-04-12 International Business Machines Corporation Infrastructure asset management
US20120197689A1 (en) * 2011-01-27 2012-08-02 Bank Of America Corporation Dynamic savings allocation method and purchasing model
US8972363B2 (en) * 2012-05-14 2015-03-03 Nec Corporation Rule discovery system, method, apparatus and program
US20140310069A1 (en) * 2013-04-12 2014-10-16 International Business Machines Corporation Coordinated business rules management and mixed integer programming
US9672495B2 (en) 2014-12-23 2017-06-06 Sap Se Enhancing frequent itemset mining
US10333696B2 (en) 2015-01-12 2019-06-25 X-Prime, Inc. Systems and methods for implementing an efficient, scalable homomorphic transformation of encrypted data with minimal data expansion and improved processing efficiency
US9973789B1 (en) 2017-05-23 2018-05-15 Sap Se Quantifying brand visual impact in digital media
US10599985B2 (en) * 2017-09-01 2020-03-24 Capital One Services, Llc Systems and methods for expediting rule-based data processing
US11042650B2 (en) * 2018-12-06 2021-06-22 International Business Machines Corporation Sargable query-predicate evaluation for encrypted databases
CN113420375B (zh) * 2021-06-14 2022-05-31 西北工业大学 基于Apriori建立工艺-质量-不平衡量关联关系模型的方法
CN117079462B (zh) * 2023-08-24 2024-05-07 云南省交通投资建设集团有限公司 一种基于Apriori算法的路段突发交通事件预测系统及方法
CN117474013B (zh) * 2023-12-27 2024-03-22 卓世科技(海南)有限公司 一种大语言模型知识增强方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819266A (en) * 1995-03-03 1998-10-06 International Business Machines Corporation System and method for mining sequential patterns in a large database
US5794209A (en) * 1995-03-31 1998-08-11 International Business Machines Corporation System and method for quickly mining association rules in databases
US5842200A (en) * 1995-03-31 1998-11-24 International Business Machines Corporation System and method for parallel mining of association rules in databases
US5615341A (en) * 1995-05-08 1997-03-25 International Business Machines Corporation System and method for mining generalized association rules in databases
US5742811A (en) * 1995-10-10 1998-04-21 International Business Machines Corporation Method and system for mining generalized sequential patterns in a large database
JP3118181B2 (ja) * 1995-10-26 2000-12-18 インターナショナル・ビジネス・マシーンズ・コーポレ−ション データ間結合ルール導出方法及び装置
JP3072708B2 (ja) * 1995-11-01 2000-08-07 インターナショナル・ビジネス・マシーンズ・コーポレ−ション データベース検索方法及び装置
US5724573A (en) * 1995-12-22 1998-03-03 International Business Machines Corporation Method and system for mining quantitative association rules in large relational tables
US5933821A (en) * 1996-08-30 1999-08-03 Kokusai Denshin Denwa Co., Ltd Method and apparatus for detecting causality
JPH10222493A (ja) * 1997-02-06 1998-08-21 Kokusai Denshin Denwa Co Ltd <Kdd> 相互因果関係解析システム
JP3193658B2 (ja) * 1997-02-19 2001-07-30 インターナショナル・ビジネス・マシーンズ・コーポレ−ション データ間結合ルール導出方法及び装置、及び直交凸領域切出方法及び装置
US5920855A (en) * 1997-06-03 1999-07-06 International Business Machines Corporation On-line mining of association rules
US5884305A (en) * 1997-06-13 1999-03-16 International Business Machines Corporation System and method for data mining from relational data by sieving through iterated relational reinforcement
US6061682A (en) * 1997-08-12 2000-05-09 International Business Machine Corporation Method and apparatus for mining association rules having item constraints
US6092064A (en) * 1997-11-04 2000-07-18 International Business Machines Corporation On-line mining of quantitative association rules
US6094645A (en) * 1997-11-21 2000-07-25 International Business Machines Corporation Finding collective baskets and inference rules for internet or intranet mining for large data bases
US6138117A (en) * 1998-04-29 2000-10-24 International Business Machines Corporation Method and system for mining long patterns from databases

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6832216B2 (en) 2001-03-16 2004-12-14 Hitachi, Ltd. Method and system for mining association rules with negative items
JP2002351898A (ja) * 2001-05-23 2002-12-06 Internatl Business Mach Corp <Ibm> グラフ構造データの処理方法、処理システムおよびプログラム
JP2007094592A (ja) * 2005-09-27 2007-04-12 Fusion Kk マーケティングデータ収集分析システム、サーバシステム及びマーケティングデータ収集分析プログラム

Also Published As

Publication number Publication date
US6385608B1 (en) 2002-05-07

Similar Documents

Publication Publication Date Title
JPH11328186A (ja) 相関ルール生成方法および相関ルール生成装置
US7558802B2 (en) Information retrieving system
US6662189B2 (en) Method of performing data mining tasks for generating decision tree and apparatus therefor
Goethals et al. FIMI’03: Workshop on frequent itemset mining implementations
JP3959027B2 (ja) 情報システムのためのデータ構造
US7058621B1 (en) Method for extracting information from a database
US8126911B2 (en) System and method for content-based partitioning and mining
JP3515050B2 (ja) データベース演算処理装置
CN114238257B (zh) 日志处理方法、日志处理装置及电子设备
JP4997856B2 (ja) データベース分析プログラム、データベース分析装置、データベース分析方法
CN101128825A (zh) 树的检索、合计、排序方法、信息处理装置以及树的检索、合计、排序程序
US12013855B2 (en) Trimming blackhole clusters
EP3867832A1 (en) Method and system for providing a service for a complex industrial system
CN113641654B (zh) 一种基于实时事件的营销处置规则引擎方法
JP6244274B2 (ja) 相関ルール分析装置および相関ルール分析方法
JP4893624B2 (ja) データのクラスタリング装置、クラスタリング方法及びクラスタリング用プログラム
Augusto et al. Efficient checking of temporal compliance rules over business process event logs
CN106776704A (zh) 统计信息收集方法和装置
US11294961B2 (en) Information search apparatus, search program, database update method, database update apparatus and database update program, for searching a specified search target item associated with specified relation item
CN116304736A (zh) 一种基于取号算法的数据集匹配方法
Graefe Priority queues for database query processing
KR20110080966A (ko) 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법
JP6631139B2 (ja) 検索制御プログラム、検索制御方法および検索サーバ装置
JP2017167917A (ja) データベース管理装置
JPH0895764A (ja) ソフトウェア設計支援装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040205

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040427