JPH10124533A - 偏り防止結合サイズ評価方法 - Google Patents

偏り防止結合サイズ評価方法

Info

Publication number
JPH10124533A
JPH10124533A JP9121367A JP12136797A JPH10124533A JP H10124533 A JPH10124533 A JP H10124533A JP 9121367 A JP9121367 A JP 9121367A JP 12136797 A JP12136797 A JP 12136797A JP H10124533 A JPH10124533 A JP H10124533A
Authority
JP
Japan
Prior art keywords
evaluation
dense
sparse
database
data items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9121367A
Other languages
English (en)
Inventor
Sumit Ganguly
ガングリー サミット
Phillip B Gibbons
ビー.ギボンズ フィリップ
Yossi Matias
マティアス ヨッシ
Abraham Silberschatz
シルバーシャッツ アブラハム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JPH10124533A publication Critical patent/JPH10124533A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24545Selectivity estimation or determination
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24544Join order optimisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 2つのデータベースT及びRの質問サイズの
評価方法を提供する。 【解決手段】 この方法は、データベースを稠密または
疎であるとして類別するためにスレショールドを使用す
る。そこで、2つのデータベースに稠密−稠密手順が適
用され、稠密−稠密評価(Ad )を作り出す。データベ
ースTからくるデータアイテムを抑制する疎−何れか手
順が行なわれ、第1の疎−何れか評価(As1)を作り出
す。次いで、データベースRから稠密なデータアイテム
を抑制することによって、第2の疎−何れか評価
(As2)が作り出される。最後に、稠密−稠密評価、第
1の疎−何れか評価及び第2の疎−何れか評価を結合す
ることにより、質問サイズ評価が作り出される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベース質問
評価に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】コンピ
ュータのまん延につれて、コンピュータデータベースも
増加した。近頃のデータベースのサイズは非常に大容量
になることがあり、データベースの中には数百乃至数十
億のデータアイテムを保持しているものがある。これら
のデータベースの内の1つのデータベースの質問では、
あらゆるデータアイテムが質問に合う可能性があり、あ
らゆるデータアイテムを比較しなければならないことが
ある。したがって、これらのデータベースのサイズが増
すにつれて、質問を実行するコストも増加している。
【0003】データベースは1つ以上のテーブルからな
り、各テーブルは週百乃至数十億のデータ記録を保持し
ている。各データ記録は、情報が入っている1つ以上の
フィールドを含む。これらのフィールド内の情報に基づ
いて、記録をいくつかのタイプのうちの1つのタイプと
して類別することができる。例えば、テーブルは人間の
記録を入れることができ、各記録は、人名を与えるフィ
ールドと、好きなスポーツを与えるフィールドを有す
る。各記録は好きなスポーツで類別することができるの
で、タイプ“野球”、“フットボール”または“ホッケ
ー”とすることができる。
【0004】データベースのテーブルの質問に早く応答
することができるのが望ましい。共通の質問の1つは等
結合質問である。2つのテーブルR及びTの等結合質問
の結果は、1つの記録がRからかつもう1つの記録がT
からのものであっていずれも同タイプのものである記録
ペアの全てからなるテーブルとなる。例えば、テーブル
Rが男性及び彼らが好きなスポーツの記録を含み、かつ
テーブルTが女性及び彼女らが好きなスポーツの記録を
含む場合は、テーブルR及びTの等結合は、好きなスポ
ーツが同じ男性と女性の記録ペアの全てを含むテーブル
となる。
【0005】等結合の結果を計算するのは、コストがか
かり過ぎることになる可能性がある。例えば、一方のテ
ーブルがn個の記録を持ち、かつ他方のテーブルがn個
の記録を持っている場合は、結果の計算はn2 の記録ペ
アの比較を必要とし得る。n2 の比較をそれぞれ実行す
ると、質問コストが増加する。したがって、等結合質問
のコストを下げるのが好適である。
【0006】大容量データベースにおける費用のかかる
質問の実行のコストを減らす必要性の結果として、デー
タベース評価の分野がポピュラーになってきた。データ
ベース評価において、評価は、データベースにおける質
問の可能な出力(質問の評価と呼ばれる)で作られる。
したがって、質問の評価は、質問を行なう前に計算され
る。その結果、質問を続けてコストを負うべきかまたは
この特定の質問を取り消すべきかに関して決定すること
ができる。データベース評価の問題点は、評価が正確か
つ計算が能率的になるように、特定の質問の評価を計算
することを伴うことである。
【0007】このデータベース評価の問題点を解決する
試みが以前に行われた。パラメータ法と呼ばれる手法
は、データをとり、データベースにおいてこのデータと
既知のデータモデルを比較するのを試みる。データモデ
ルの作用と性質がデータベースのデータと同じであるこ
とが原理になっている。しかしながら、パラメータ法で
は、データが既知のデータモデルにどのくらい近似して
いるかについての仮定が行われる必要があり、近似(デ
ータの適合)は結果の正確さをはなはだしく変えてしま
うことがある。他の種類の手法は、データベースにおけ
るデータアイテムのサンプル(小さな一組)をとり、こ
れらのサンプルに基づいて評価を行なう。この種の手法
はサンプリング法として知られている。サンプルは、通
常、個々のデータベースの中からとられ、次いで合成さ
れて質問評価を作り出す。サンプリング法は、他のデー
タベース評価法に勝る利点があることが証明された。パ
ラメータ法と違って、サンプリング法は、データの適合
について仮定がより少なく行われるべきことを要する。
さらに、サンプリング法は、常に、統計的確実性と呼ば
れる正確さの確実性を有する。たいていのサンプリング
法の統計的確実性は、典型的に、90%乃至99%の範
囲になるのを目指している。
【0008】サンプリング法もパラメータ法もデータベ
ース評価には好適ではない。しかしながら、サンプリン
グ法は、データベースのデータアイテムが偏っている場
合、パラメータ法より正確な結果を提供することができ
る。例えば、上記に説明したデータベースが同型でない
(同型でないデータベースとは、データベース内のデー
タアイテムが異なるタイプからなる同等でない混合にな
っているデータベースである)場合、パラメータ法は良
好な性能を示すことができない。他のタイプより1つの
タイプのデータアイテムがかなり多い(例えば20%以
上)場合、データベースは偏っているといわれる。偏っ
たデータベースは、パラメータ法やサンプリング法を実
行する場合に問題があることがわかっている。
【0009】サンプルが多くの偏ったデータアイテムを
含んでいるかまたはあまり偏っていないデータアイテム
を含んでいるかに依存して、偏ったデータの影響は、サ
ンプリング法の結果に劇的に影響を与えることがある。
サンプリング法を使用する場合、偏ったデータの影響を
考慮することができない大量のサンプルがテーブルT及
びテーブルRからとられる。したがって、偏ったデータ
を考慮してサンプリング法を実行するのは不具合があ
る。
【0010】
【課題を解決するための手段】本発明は、データの偏り
の可能性に敏感な、データベース質問の評価方法を実行
する。データベース質問の総合評価は、3つの個別評価
を合わせて行われる。まず、評価は、稠密に両データベ
ースR及びTを占める、特定の結合属性を有するデータ
アイテムについて行われる。次に、第1のデータベース
Rにある、特定の結合属性値を有する稠密なデータアイ
テムの影響を抑制する評価が行われ、最後に、第2のデ
ータベースTにある、同じ結合属性値を有する稠密なデ
ータアイテムの影響を抑制する評価が行われる。
【0011】本発明は、データベース質問の評価へ広範
囲にわたるアプローチをとっている。この広範囲にわた
るアプローチは、2つの異なるデータベースR及びTの
データアイテムの関係を確立することによって作り出さ
れる。この関係は、サブ結合の収集からなる2つの部分
に分かれたグラフとして知られている。各サブ結合は、
この特定の結合属性値を有するデータアイテムの全ペア
からなる。
【0012】各データベースのランダムなサンプルが収
集される(例えば、R* 及びT* は、それぞれデータベ
ースR及びTのランダムなサンプルを示す)。次いで、
ランダムサンプルR* 及びT* におけるサブ結合は、特
定の結合属性値のデータアイテム数がスレショールド値
以上か以下かに基づいて、特定の結合属性値のデータア
イテムの稠密な母集団または特定の結合属性値のデータ
アイテムの疎な母集団を持つように評価される。本発明
の方法では、データアイテムは、その結合属性値が稠密
ならば稠密になり、その結合属性を有するデータアイテ
ムの母集団が疎ならば疎になることがわかる。スレショ
ールド値は、データベースのデータアイテム数の平方根
として定義される。サブ結合の各ペアのデータアイテム
が共に稠密な場合は、サブ結合は稠密−稠密と呼ばれ
る。サブ結合の各ペアにおいて、一方のデータアイテム
が疎なものとして類別され、他方のデータアイテムが稠
密または疎なものとして類別されている場合は、サブ結
合は、疎−何れか(例えば、稠密−疎、疎−稠密または
疎−疎)として類別される。
【0013】次いで、一連の3つの評価がデータベース
で行われる。手順はまず、稠密−稠密評価(Ad )を決
定するためにランダムサンプルに適用される。次いで、
Rの結合属性値を有する稠密データアイテムを抑制する
疎−何れか(AS1)評価が行われ、次に、Tの結合属性
値を有する稠密データアイテムを抑制する疎−何れか
(AS2)評価が行われる。最後に、稠密−稠密評価と、
Rの稠密データアイテムを抑制する疎−何れか評価と、
Tの稠密データアイテムを抑制する疎−何れか評価とを
結合することによって、データベース質問評価(A)が
作られる。
【0014】稠密−稠密評価と疎−何れか評価は、特定
のデータベース質問に対して、他のランダムサンプル
(例えばT* )と適合する可能性のある一方のランダム
サンプル(例えばR* )における結合属性値を有するデ
ータアイテムを評価することにより行われる。上述のよ
うに、特定の結合属性値を有するデータアイテムの適合
はこの方法ではサブ結合と呼ばれる。したがって、各結
合属性値に関して、その値と関連したサブ結合のサイズ
が評価される。次いで、サブ結合の評価の和が全ての結
合属性値に関して加算され、これらの和(例えば、稠密
−稠密評価、疎−何れか評価)は組み合わさってデータ
ベース質問評価を作り出す。
【0015】本発明の目的、利点及び新規な特徴は、添
付図面に関して読まれる以下の詳細な説明からより十分
に明らかになるだろう。
【0016】
【発明の実施の形態】本発明では、等結合データベース
質問サイズの評価方法が実行される。まず、質問基準が
定義される。各データベースからのデータアイテムは質
問基準にしたがってグループ分けされる。次いで、“稠
密−稠密”手順及び“疎−何れか”として知られる評価
手順が、定義されたグループの各々に適用され、データ
ベースの全体評価を決定する。
【0017】詳細には、この方法は、2つのデータベー
スの稠密−稠密評価(Ad )を行なうことによってデー
タベースR及びTの等結合評価(A)を行なう。次い
で、Rの稠密なデータアイテムを抑制する疎−何れか手
順が行われ、第1の疎−何れか評価(AS1)を作り出
す。次いで、Tの稠密なデータアイテムを抑制する疎−
何れか手順が行われ、第2の疎−何れか評価(AS2)を
作り出す。最後に、Ad ,AS1及びAS2を組み合わせる
(加算する)ことによって、2つのデータベースの等結
合評価(A)が計算される。
【0018】本発明の方法を示す手段として、図1は、
説明を容易にするために用いることができる概念的モデ
ルを表わしている。図1において、100で示された第
1のデータベース(R)及び200で示された第2のデ
ータベース(T)が示されている。第1のデータベース
R及び第2のデータベースTは共に、異なる結合属性値
(例えば、それぞれ101,102,103及び20
1,202,203)を有する多数のデータアイテムを
有している。また、2つのデータベースサンプルが示さ
れている。第1のランダムサンプル(R* )は150で
示され、第2のランダムサンプル(T* )は250で示
されている。両ランダムサンプル150及び250は、
原データベースR及びTからのデータアイテムのランダ
ムサンプリングを含んでいるだろう。したがって、15
0で示された第1のランダムサンプル(R* )はデータ
アイテム101,102及び103を含み、250で示
された第2のランダムサンプル(T* )はデータアイテ
ム201,202及び203を含む。
【0019】図1に表わされた概念的モデルの直観的な
理解を発展させるために、データベースRのデータアイ
テムは、好きなスポーツを持っている男性の母集団を表
わすと仮定する(好きなスポーツは結合属性値となるだ
ろう)。したがって、データアイテム101,102及
び103は各々、特定のスポーツが好きな特定の男性を
表わす。次に、データベースTは、好きなスポーツを持
っている女性の母集団を表わすと仮定する。したがっ
て、各データアイテム201,202及び203は、特
定のスポーツが好きな女性の男性を表わす。さらに、簡
単にするために、安静または女性の各々が好きなスポー
ツ(結合属性値)は、ベースボール、フットボールまた
はホッケーのどれかであると仮定する。したがって、デ
ータベースRは、好きなスポーツがベースボール、フッ
トボールまたはホッケーである男性の母集団を表わし、
データベースTは、好きなスポーツがベースボール、フ
ットボールまたはホッケーである女性の母集団を表わ
す。
【0020】データベースR及びTの可能な質問(等結
合)は、(1)ベースボールが好きな男性と女性、
(2)フットボールが好きな男性と女性、(3)ホッケ
ーが好きな男性と女性に適合することができる。このタ
イプの質問は、評価技術なしに行われる場合は3ステッ
プで達成することができる。まず、データベースRは、
好きなスポーツがベースボールである全男性についてサ
ーチされるだろう。次に、データベースTは、好きなス
ポーツがベースボールである全女性についてサーチされ
るだろう。最後に、好きなスポーツがベースボール(フ
ットボール及びホッケー)である男性と女性の好一対が
作られる。データベースR及びTが共にnデータアイテ
ムを含んでいる場合、好きなスポーツが同じである男生
と女性を組み合わせるのはn2 の作業になる。
【0021】本発明の方法論では、ランダムサンプルR
* 及びT* は、それぞれデータベース(R)及び(T)
から取られる。次いで、サンプルは結合属性値で類別さ
れる。結合属性値でデータアイテムを類別するために、
好きなスポーツは各々、それと関連する番号(例えば、
ベースボール“1”、フットボール“2”及びホッケー
“3”)を持っていると仮定する。そこで、特定のスポ
ーツが好きな男性と女性の好一対は、図1の2つの部分
に分かれたグラフで表わすことができる。図1Bにおい
て、図1AのランダムサンプルR* 及びT* からの各デ
ータアイテムは、その上に好きなスポーツの番号を伴っ
て示されている。例えば、データアイテム101は、
(データアイテム101上の数字が1なので)ベースボ
ールが好きな、ランダムサンプルR* からの男性であ
る。図1Bのデータアイテム201はランダムサンプル
* からのデータアイテムである。したがって、図1B
のデータアイテム201は、(その上に2があるので)
フットボールが好きな女性である。
【0022】そこで、特定のスポーツが好きな男性と女
性をペアにして、2つに別れたグラフとして表わすこと
ができ、このグラフには、各男性及び女性を表わすノー
ドと、男性と女性が好きなスポーツが同じ場合の、男性
を表わすノードと女性を表わすノード間の線(データア
イテム間に引かれた線)とがある。図1Bにおいて、デ
ータアイテム101,102及び103は、(それぞ
れ、1,3及び2で表わされるスポーツが好きな)3人
の男性の記録を表わし、データアイテム201,202
及び203は、(それぞれ、2,1及び2で表わされる
スポーツが好きな)3人の女性の記録を表わす。30
2,304,306で示された線は、103で示された
男性(ベースボールが好きな男性)を(ベースボールが
好きな)3人の女性とペアにする。
【0023】一般に、各結合属性値(例えば、ベースボ
ール、フットボール、ホッケー)について、この属性値
(例えば1,2,3)を有する男性の各々を同じ属性値
(例えば1,2,3)を有する女性とペアにする線があ
る。ある特定の結合属性値のデータアイテムと線を1組
にして、サブ結合として示されている。正確には、各結
合属性値(例えば1で示されたベースボール、2で示さ
れたフットボール及び3で示されたホッケー)に対して
1つのサブ結合がある。例えば、ベースボールが好きな
男性と女性のサブ結合は、データアイテム103,10
4と、線302,303,304,305,306,3
07と、データアイテム201,203及び204とか
らなるだろう。
【0024】個々のデータベースのスレショールド値を
用いて、本発明は、稠密−稠密及び疎−何れか(すなわ
ち、稠密−疎、疎−稠密及び疎−疎)のような関係を定
義する。スレショールド値は、ランダムサンプルを稠密
なデータタイプの母集団の表現にすることが可能などん
な値でも良いことがわかる。この関係は次のように定義
される。
【0025】稠密−稠密−データベース(R)における
ある結合属性値を有するデータアイテムの数とデータベ
ース(T)における同じ結合属性値を有するデータアイ
テムの数が各々、平方根(n)より大きいかまたは等し
い関係。ここで、nはデータベースのデータアイテム数
である。
【0026】稠密−疎−データベース(R)におけるあ
る結合属性値を有するデータアイテムの数が平方根
(n)より大きいかまたは等しく、かつデータベース
(T)におけるデータアイテムの数が平方根(n)より
小さい関係。ここで、nは各データベースのデータアイ
テム数である。
【0027】疎−稠密−データベース(R)における特
定の結合属性値を有するデータアイテムの数が平方根
(n)より小さく、かつデータベース(T)におけるデ
ータアイテムの数が平方根(n)より大きいかまたは等
しい関係。ここで、nは各データベースのデータアイテ
ム数である。
【0028】疎−疎−データベース(R)及びデータベ
ース(T)における特定の結合属性値を有するデータア
イテムの数が平方根(n)より小さい関係。ここで、n
は各データベースのデータアイテム数である。
【0029】本発明の方法論では、ある結合属性値vを
有する1組のデータアイテムについて、“multT
(v)”は、その結合属性値を有するTにおけるデータ
アイテムの数と定義される。Rにおいて、“multR
(v)”がnの平方根より大きいかまたは等しければ、
結合属性値は稠密であると定義され、また、“mult
R (v)”がnの平方根より小さければ、結合属性値が
疎であると定義される。さらに、サブ結合(v)は、v
がR及びTの両方で稠密ならば、稠密−稠密サブ結合と
なる。サブ結合(v)は、vがR及びTの両方で疎なら
ば、疎−疎サブ結合となる。
【0030】本発明の方法論では、nは各関係における
データアイテム数であり、m1 は稠密−稠密手順のサン
プルサイズであり、M2 は疎−何れか手順のサンプルサ
イズであり、δは稠密−稠密手順で使用されるスレショ
ールド値である。上記に定義された変数を仮定すれば、
各評価は次のように定義することができる。
【0031】Ad :=fd (n,m1 ,δ) As1:=fs (R,T,n,m2 ) As2:=fs (T,R,n,m2 ) A:=Ad +As1+As2
【0032】ここで、fd (x)及びfs (x)はxの
関数であり、Aは総合データベース評価であり、Ad
稠密−稠密データベース評価であり、As1は、Rの稠密
なデータアイテムを抑制する疎−何れかデータベース評
価であり、As2はTの稠密なデータアイテムを抑制する
疎−何れか評価である。A<nlognならば、この方
法は、質問サイズの上限である健全な限界(S):=n
lognも提供する。開示された実施例では、m1=
(平方根(n)+logn)*logn,m2 =平方根
(n)+logn、δ=lognとなる。
【0033】本発明では、各データベースのランダムサ
ンプルがとられる。2つのデータベースからとられたラ
ンダムサンプルはほとんどm1 +m2 であり、m1 は、
稠密−稠密評価を行なう場合に(個別的に)R及びTか
らサンプリングされたデータアイテム数であり、m2
は、疎−何れか評価を行なう場合に(個別的に)R及び
Tからサンプリングされたデータアイテム数である。サ
ンプルがとられると、稠密−稠密評価(Ad )が引き出
され、Rの稠密なデータアイテムを抑制する疎−何れか
評価(As1)が計算され、Tの稠密なデータアイテムを
抑制する疎−何れか評価(As2)が計算される。最後
に、Ad ,As1及びAs2を結合することにより、質問サ
イズの評価を行なうことができる。
【0034】稠密−稠密 この方法論、稠密−稠密手順の第1のステップは、以下
のステップを含む。 1.データベースR及びTからランダムサンプルR*
びT* がとられる。ランダムサンプルR* 及びT* は各
々サイズm1 からなる。 2.V* はR* 及びT* の両方におけるデータアイテム
の1組の結合属性値とする。 3.各値v∈V* について、multR*(v)を決定す
る。 4.各値v∈V* について、multT*(v)を決定す
る。 5.各値v∈V* について、multR*(v)≧δかつ
multT*(v)≧δならば、A’:=A’+mult
R*(v)*multT*(v)となる。ここで、A’は中
間の稠密−稠密評価(A’は初期にゼロに設定される)
であり、“*”は乗算を示すために使用される記号であ
る。 6.稠密−稠密評価Ad:=(n/m12 *A’とな
る。
【0035】疎−何れか 疎−何れか評価を作り出す方法は以下の手順からなる。 1.データベースTからランダムサンプルT* がとられ
る。ランダムサンプルT* はサイズm2 からなる。 2.multR*(v)が稠密vについて多数の計算を必
要とするならば、稠密vを抑制するために蓋然論的消去
を使用する。 2a.データベースRからランダムサンプルR* がとら
れる。ランダムサンプルR* はサイズm2 からなる。 2b.R* に表われる各結合属性値について、T* から
結合属性値vを有する全てのデータアイテムを削除す
る。 3.Rにおいて疎である残りの結合属性値に基づいて中
間の疎−何れか評価を計算する。 T* における各データアイテムyについて、 3a.yと結合する、すなわちyと同じ結合属性値を有
する、Rのデータアイテムの番号xを決定する。 3b.x<n/m2 ならば、A’:=A’+xとなる。
ここで、A’は中間の疎−何れか評価である(A’は初
期にゼロに設定される)。 4.As :=nA’/m2 となる。ここで、As は疎−
何れか評価である。
【0036】本発明の方法論では、疎−何れか評価は2
度行なわれる。疎−何れか手順が2回行なわれ、1回目
に使用されなかったデータベースの稠密なデータアイテ
ムが抑制される。例えば、データベースRの稠密なデー
タアイテムが抑制されたならば、1回目に疎−何れか手
順が行なわれ、2回目にデータベースTの稠密なデータ
アイテムが抑制されるだろう。1回目に疎−何れか評価
が行なわれると、その評価はAs1で示され、2回目に
(RとTの役割が反対にされて)疎−何れか評価が行な
われると、その評価はAs2で示される。稠密−稠密及び
疎−何れかの評価の全てが計算されると、等結合評価
は、A=Ad +As1+As2で示される。A<(n)lo
g(n)ならば、健全な限界S=(n)log(n)の
出力を計算することができる。ここで、Sは健全な限界
である。すなわち、ハットは評価の統計的確信を維持す
る。さらに、等結合評価を計算するために、稠密−稠密
評価、第1の疎−何れか評価及び第2の疎−何れか評価
を追加するべく、等結合評価は、3つの評価を平均する
かまたは3つの評価の最大をとることにより近似するこ
ともできることがわかる。
【0037】さらに、本発明の方法論は、どんな数のデ
ータベースにも適用することができる。例えば、3つの
データベースA,B及びCが含まれている場合は、この
方法論は、まずデータベースA及びBに適用して中間の
評価を作り出し、次いで、この方法論をCに用いて中間
評価を結合することができる。
【0038】また、本発明は、データベース質問の正確
で費用のかからない評価を作り出すために適用すること
ができる。この方法は、質問最適化装置に、または並列
もしくは分散データベースの多数のプロセッサにおける
仕事量のバランスを取るのに必要なリソース割当ての決
定時に有効である。さらに、より広範囲の規模に、開示
されたこの方法を、会計監査や統計的研究等の大容量デ
ータベースアプリケーションにも適用することができ
る。
【0039】本発明のいくつかの実施例が開示されて説
明されているが、本発明の精神または従属請求項の範囲
から逸脱することなく種々の変更を行なうことができる
ことがわかる。
【図面の簡単な説明】
【図1A】母集団R及びTとランダムサンプルR* 及び
* の概念図を示す。
【図1B】ランダムサンプルR* 及びT* の選択された
データアイテムと、結合属性値2のサブ結合の2つの部
分に分かれたグラフを示す。
フロントページの続き (72)発明者 フィリップ ビー.ギボンズ アメリカ合衆国 07090 ニュージャーシ ィ,ウエストフィールド,エンブリー コ ート 201 (72)発明者 ヨッシ マティアス アメリカ合衆国 20854 メリーランド, ポタマック,ロザリンダ ドライヴ 11815 (72)発明者 アブラハム シルバーシャッツ アメリカ合衆国 07901 ニュージャーシ ィ,サミット,ニューイングランド アヴ ェニュー 67エー

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも2つのデータベースR及びT
    の等結合を評価することによりデータを管理する方法で
    あって、 Rの稠密なデータアイテムとTの稠密なデータアイテム
    の質問サイズを評価することにより、稠密−稠密評価を
    作り出す工程と、 Rの稠密なデータアイテムを抑制する質問サイズを評価
    することにより、第1の疎−何れか評価を作り出す工程
    と、 Tの稠密なデータアイテムを抑制する質問サイズを評価
    することにより、第2の疎−何れか評価を作り出す工程
    と、 前記稠密−稠密評価と、前記第1の疎−何れか評価と、
    前記第2の疎−何れか評価を結合することにより、デー
    タベースR及びTの等結合のサイズの評価を作り出す工
    程とからなる方法。
  2. 【請求項2】 請求項1記載の方法において、前記結合
    工程は、前記稠密−稠密評価と、前記第1の疎−何れか
    評価と、前記第2の疎−何れか評価を加算することによ
    り行われる方法。
  3. 【請求項3】 請求項1記載の方法において、前記結合
    工程は、前記稠密−稠密評価と、前記第1の疎−何れか
    評価と、前記第2の疎−何れか評価を平均することによ
    り行われる方法。
  4. 【請求項4】 請求項1記載の方法において、前記結合
    工程は、前記稠密−稠密評価と、前記第1の疎−何れか
    評価と、前記第2の疎−何れか評価のうちの1つを最大
    値として選択することにより行われる方法。
  5. 【請求項5】 少なくとも2つのデータベースR及びT
    のデータベース質問サイズを評価することによりデータ
    を管理する方法であって、 データべースRにおけるある属性値を有する稠密なデー
    タアイテムと前記属性値を有するTの稠密なデータアイ
    テムとの評価を行なうことにより、稠密−稠密評価を作
    り出す工程と、 前記データベースRの稠密なデータアイテムを抑制する
    評価を行なうことにより、Rにおける疎−何れか評価を
    作り出す工程と、 Tの稠密なデータアイテムを抑制する評価を行なうこと
    により、Tにおける疎−何れか評価を作り出す工程と、 前記稠密−稠密評価と、前記Tにおける疎−何れか評価
    と、前記Rにおける疎−何れか評価を結合することによ
    り、前記データベースR及び前記データベースTのデー
    タベース質問サイズを評価する工程とからなる方法。
  6. 【請求項6】 請求項5記載の方法において、前記稠密
    −稠密評価は、 前記データベースRからデータアイテムをサンプリング
    することにより、サンプルR* を作り出し、 前記データベースTからデータアイテムをサンプリング
    することにより、サンプルT* を作り出し、 前記サンプルR* におけるある結合属性値(v)を有す
    る多数のデータアイテムを決定することにより、Rにお
    いて多数の前記結合属性値(v)を作り出し、 前記サンプルT* における前記結合属性値(v)を有す
    る多数のデータアイテムを決定することにより、Tにお
    いて多数の前記結合属性値(v)を作り出し、 前記結合属性値(v)の各々に関して、前記結合属性値
    (v)のサブ結合のサイズの中間の稠密−稠密評価を決
    定し、 前記結合属性値(v)の各々に関して中間の稠密−稠密
    評価を加算し、 前記サブ結合属性値(v)の前記サイズの中間の稠密−
    稠密評価を見積もることにより行なわれる方法。
  7. 【請求項7】 請求項6記載の方法において、前記中間
    の稠密−稠密評価は、スレショールド値を確定し、Tに
    おける多数の前記結合属性値(v)及びRにおける多数
    の前記結合属性値(v)を前記スレショールド値と比較
    した後に得られる方法。
  8. 【請求項8】 請求項7記載の方法において、前記中間
    の稠密−稠密評価は、T* における多数の前記結合属性
    値(v)及びR* における多数の前記結合属性値(v)
    が共に前記スレショールド以上であることを決定した後
    に得られる方法。
  9. 【請求項9】 請求項7記載の方法において、前記中間
    の稠密−稠密評価は、T* における多数の前記結合属性
    値(v)及びR* における多数の前記結合属性値(v)
    が共に前記スレショールドに等しいことを決定した後に
    得られる方法。
  10. 【請求項10】 請求項5記載の方法において、前記第
    1の疎−何れか評価は、 前記データベースTからデータアイテムをサンプリング
    することにより、サンプルT* を作り出し、 Rにおけるその数がスレショールド以上であるT* のデ
    ータアイテムを抑制し、 前記結合属性値(v)の各々について、Tにおいて疎で
    ある、前記結合属性値(v)を有するデータアイテムに
    より中間の疎−何れか評価を計算し、 前記結合属性値(v)の各々について中間の疎−何れか
    評価を加算し、 前記中間の疎−何れか評価を見積もることにより、Rに
    おけるTの疎−何れか評価を作り出すことによって行な
    われる方法。
  11. 【請求項11】 請求項10記載の方法において、T*
    のデータアイテムを抑制する前記工程は、稠密な結合属
    性値(v)を有する、Rにおける多数のデータアイテム
    を決定することによって行なわれる方法。
  12. 【請求項12】 請求項10記載の方法において、T*
    のデータアイテムを抑制する前記工程は、Rからランダ
    ムサンプルR* をとり、R* に表われる各結合属性値
    (v)に関して、T* から結合属性値(v)を有する全
    てのデータアイテムを削除することにより行なわれる方
    法。
  13. 【請求項13】 請求項5記載の方法において、前記第
    2の疎−何れか評価は、 前記データベースRからデータアイテムをサンプリング
    することにより、サンプルR* を作り出し、 前記結合属性値(v)を有する、Rにおける多数のデー
    タアイテムを計算するコストを決定し、 R* の各データアイテムについて、前記結合属性値
    (v)を有するTのデータアイテムの数を決定し、 前記結合属性値(v)の各々について、Rにおいて疎で
    ある、前記結合属性値(v)を有するデータアイテムに
    より中間の疎−何れか評価を計算し、 前記結合属性値(v)の各々について中間の疎−何れか
    評価を加算し、 前記中間の疎−何れか評価を見積もる
    ことにより、TにおけるRの疎−何れか評価を作り出す
    ことによって行なわれる方法。
JP9121367A 1996-05-13 1997-05-13 偏り防止結合サイズ評価方法 Pending JPH10124533A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/644599 1996-05-13
US08/644,599 US5721896A (en) 1996-05-13 1996-05-13 Method for skew resistant join size estimation

Publications (1)

Publication Number Publication Date
JPH10124533A true JPH10124533A (ja) 1998-05-15

Family

ID=24585575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9121367A Pending JPH10124533A (ja) 1996-05-13 1997-05-13 偏り防止結合サイズ評価方法

Country Status (3)

Country Link
US (1) US5721896A (ja)
EP (1) EP0807893A3 (ja)
JP (1) JPH10124533A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7645846B2 (en) 1999-04-16 2010-01-12 Coopervision International Holding Company Lp Process for the preparation of a diol
WO2012043012A1 (ja) 2010-09-28 2012-04-05 日本電気株式会社 暗号化データベースシステム、クライアント端末、暗号化データベースサーバ、自然結合方法およびプログラム
WO2012043056A1 (ja) 2010-09-28 2012-04-05 日本電気株式会社 暗号化データベースシステム、クライアント端末、暗号化データベースサーバ、自然結合方法およびプログラム
US9037846B2 (en) 2010-12-13 2015-05-19 Nec Corporation Encoded database management system, client and server, natural joining method and program

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950185A (en) * 1996-05-20 1999-09-07 Lucent Technologies Inc. Apparatus and method for approximating frequency moments
US5903893A (en) * 1997-09-15 1999-05-11 International Business Machines Corporation Method and apparatus for optimizing a merge-join operation across heterogeneous databases
US20020188424A1 (en) * 2001-04-20 2002-12-12 Grinstein Georges G. Method and system for data analysis
US20030157470A1 (en) * 2002-02-11 2003-08-21 Michael Altenhofen E-learning station and interface
AU2003284118A1 (en) * 2002-10-14 2004-05-04 Battelle Memorial Institute Information reservoir
US20050192942A1 (en) * 2004-02-27 2005-09-01 Stefan Biedenstein Accelerated query refinement by instant estimation of results
US7343369B2 (en) * 2004-11-18 2008-03-11 International Business Machines Corporation Method and apparatus for predicting selectivity of database query join conditions using hypothetical query predicates having skewed value constants
US20080114733A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation User-structured data table indexing
US7764625B2 (en) * 2008-06-10 2010-07-27 At&T Intellectual Property I, L.P. Algorithms and estimators for summarization of unaggregated data streams
US7746808B2 (en) 2008-06-10 2010-06-29 At&T Intellectual Property Ii, L.P. Algorithms and estimators for summarization of unaggregated data streams
US8005949B2 (en) * 2008-12-01 2011-08-23 At&T Intellectual Property I, Lp Variance-optimal sampling-based estimation of subset sums

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5161223A (en) * 1989-10-23 1992-11-03 International Business Machines Corporation Resumeable batch query for processing time consuming queries in an object oriented database management system
US5355473A (en) * 1991-06-20 1994-10-11 Lawrence Au Indexed record locating and counting mechanism
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5301317A (en) * 1992-04-27 1994-04-05 International Business Machines Corporation System for adapting query optimization effort to expected execution time
US5619688A (en) * 1993-09-02 1997-04-08 Microsoft Corporation Method and system for constructing database queries using a field selection grid
DE19515020A1 (de) * 1994-07-01 1996-01-04 Hewlett Packard Co Verfahren und Vorrichtung zum Optimieren von Abfragen mit Gruppieren-nach-Operatoren

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7645846B2 (en) 1999-04-16 2010-01-12 Coopervision International Holding Company Lp Process for the preparation of a diol
WO2012043012A1 (ja) 2010-09-28 2012-04-05 日本電気株式会社 暗号化データベースシステム、クライアント端末、暗号化データベースサーバ、自然結合方法およびプログラム
WO2012043056A1 (ja) 2010-09-28 2012-04-05 日本電気株式会社 暗号化データベースシステム、クライアント端末、暗号化データベースサーバ、自然結合方法およびプログラム
US9021259B2 (en) 2010-09-28 2015-04-28 Nec Corporation Encrypted database system, client terminal, encrypted database server, natural joining method, and program
US9147079B2 (en) 2010-09-28 2015-09-29 Nec Corporation Encrypted database system, client terminal, encrypted database server, natural joining method, and program
US9037846B2 (en) 2010-12-13 2015-05-19 Nec Corporation Encoded database management system, client and server, natural joining method and program

Also Published As

Publication number Publication date
EP0807893A3 (en) 1999-02-10
US5721896A (en) 1998-02-24
EP0807893A2 (en) 1997-11-19

Similar Documents

Publication Publication Date Title
JP4397978B2 (ja) 濃度を利用した結合順序付け方法
JPH10124533A (ja) 偏り防止結合サイズ評価方法
US8122046B2 (en) Method and apparatus for query rewrite with auxiliary attributes in query processing operations
US7343366B2 (en) Group-By result size estimation
US7171408B2 (en) Method of cardinality estimation using statistical soft constraints
JP3547069B2 (ja) 情報関連づけ装置およびその方法
JP3049636B2 (ja) データ分析方法
US6029163A (en) Methods for collecting query workload based statistics on column groups identified by RDBMS optimizer
US20100030728A1 (en) Computing selectivities for group of columns and expressions
US6456999B1 (en) Aggregations size estimation in database services
US20040260675A1 (en) Cardinality estimation of joins
US20030236785A1 (en) Method of extracting item patterns across a plurality of databases, a network system and a processing apparatus
US7685098B2 (en) Estimating the size of a join by generating and combining partial join estimates
Faloutsos et al. Modeling skewed distribution using multifractals and the80-20'law
Hsu et al. Algorithms for mining association rules in bag databases
US20110022581A1 (en) Derived statistics for query optimization
Aggarwal et al. Mining associations with the collective strength approach
US5999928A (en) Estimating the number of distinct values for an attribute in a relational database table
US20050138001A1 (en) Optimization for aggregate navigation for distinct count metrics
Zhu et al. Developing cost models with qualitative variables for dynamic multidatabase environments
CN116089636B (zh) 频次类图查询方法及相关装置、电子设备和存储介质
US20070162472A1 (en) Multi-dimensional data analysis
Acharjya Rough computing based information retrieval in knowledge discovery databases
JPH08171572A (ja) データベース検索システム
Shen et al. A recycle technique of association rule for missing value completion