JPH08221446A

JPH08221446A - データ分布推論装置およびデータ分布推論装置を有するリレーショナルデータベースシステム

Info

Publication number: JPH08221446A
Application number: JP7030466A
Authority: JP
Inventors: Hitoshi Suzuki; 等鈴木; Akira Sawada; 晃澤田
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1995-02-20
Filing date: 1995-02-20
Publication date: 1996-08-30

Abstract

(57)【要約】【目的】リレーショナルデータベースにおける各カラ
ムのデータ分布について、簡易かつ確実に得る。【構成】ブロック別分布データ記憶手段３は、特定カ
ラムにおける前記データ分布を、１または２以上のブロ
ックに分割したブロック別分布データとして記憶する。
修正手段５は、前記いずかのブロック内の特定範囲にお
ける処理結果（検索結果）が与えられると、当該ブロッ
クにおけるブロック別分布データおよび与えられた前記
検索結果に基づいて、前記特定範囲における特定範囲デ
ータ分布を推論し、この推論結果に基づいて、前記特定
範囲が含まれるブロック別分布データを修正する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、データベース支援装
置に関し、特に、データ分布取得に関する。

【０００２】

【従来技術およびその課題】リレーショナルデータベー
ス（以下データベースと略す）においては、２次記憶装
置へのＩ／Ｏ回数が最小となるアクセスパスを採用し
て、検索を高速化する手法が知られている。この手法
は、複数のカラムへの絞り込み条件がある場合に、絞り
込み率が高くなるカラムから検索するように、検索順序
を決定する手法である。

【０００３】このようなアクセスパスの決定する為に
は、各カラムにおける各レコードのフィールド値のデー
タ分布が必要である。このデータ分布を取得するには、
一般にデータベース運用時に、直接データベースからデ
ータ収集が行われる。

【０００４】しかしながら、上記のようにしてデータ分
布の取得について、データベース運用時にデータ収集を
行うと、データベース全体のトランザクション処理に負
担がかかり、スループット（単位時間当たりの処理能
力）が低下する。この為、同じ検索命令であっても、デ
ータ分布取得時とそうでない場合とで、得られる処理時
間のデータにばらつきが発生する。したがって、得られ
たログ情報の信頼性が低下する。

【０００５】この発明は上記問題を解決し、リレーショ
ナルデータベースにおける各カラムにおける各レコード
のフィールド値のデータ分布について、簡易かつ確実に
取得できるデータ分布推論装置およびその方法を提供す
ることを目的とするまた、リレーショナルデータベース
における各カラムにおける各レコードのフィールド値の
データ分布について、簡易かつ確実に取得できるリレー
ショナルデータベースシステムを提供することを目的と
する

【０００６】

【課題を解決するための手段】

【０００７】

【課題を解決するために案出した技術思想】請求項１の
データ分布推論装置においては、あるカラムにおけるデ
ータ分布を推論する為に、データ分布をブロック別分布
データとして記憶しておき、ブロック内の特定範囲にお
ける処理結果が与えられると、当該ブロックにおけるブ
ロック別分布データおよび与えられた前記処理結果に基
づいて、前記特定範囲データ分布を推論するようにし
た。

【０００８】すなわち、発明の全体構成を示す図である
図１に記載しているように、請求項１のデータ分布推論
装置においては、特定カラムにおける前記データ分布
を、１または２以上のブロックに分割したブロック別分
布データとして記憶するブロック別分布データ記憶手
段、および、前記いずかのブロック内の特定範囲におけ
る処理結果が与えられると、当該ブロックにおけるブロ
ック別分布データおよび与えられた前記処理結果に基づ
いて、前記特定範囲における特定範囲データ分布を推論
し、この推論結果に基づいて、前記特定範囲が含まれる
ブロック別分布データを修正する修正手段を備えたこと
を特徴とする。

【０００９】請求項２のデータ分布推論装置において
は、前記ブロック別分布データは、当該ブロックにおけ
る総レコード数、ユニーク数、同一フィールド値を持つ
レコードがいくつあるかを示す度数のいずれか２つであ
り、前記特定範囲における処理結果は、当該特定範囲に
おける総レコード数であることを特徴とする。

【００１０】請求項３のデータ分布推論装置において
は、前記ブロック別分布データ記憶手段は、前記ブロッ
ク別分布データとして、少なくとも、当該ブロックにお
ける総レコード数を記憶しており、さらに、複数のブロ
ックにまたがる総レコード数が処理結果として与えられ
ると、当該複数のブロックにおける総レコード数を読み
出して、これに基づいて、少なくとも１のブロックにお
ける特定範囲における処理結果を演算して、前記修正手
段に出力する処理結果変換手段を備えたこと、を特徴と
する。

【００１１】実施例においては、処理結果変換手段は、
図６Ａから図６Ｂへデータ分布を修正する場合に、与え
られた処理結果データを変換した処理に該当する。

【００１２】請求項４のデータ分布推論装置において
は、前記ブロック別分布データ記憶手段は、相互に関係
する複数のカラムにおけるデータ分布を、前記ブロック
別分布データとして記憶しており、前記修正手段は、前
記複数のカラムのうち、いずれか一のカラムについて、
総レコード数が増減した場合は、当該一のカラム以外の
カラムである他方カラムについて、当該他方カラムにお
けるブロック別分布データにおける各ブロックの構成比
率に応じて、各ブロックにおけるレコード数を増減させ
ること、を特徴とする。

【００１３】請求項５のリレーショナルテータベースシ
ステムにおいては、Ａ）以下のa1)〜a4)を有するリレーショナルテータベー
スシステム、 a1)各レコードについて一または二以上のカラムを有す
るテーブルにデータを記憶するデータ記憶手段、 a2)前記データ記憶手段に記憶されるデータに関するデ
ータ特性を記憶するデータ特性記憶手段、 a3)与えられた処理命令に基づいて、前記データ記憶手
段に記憶されたデータを処理する処理手段、 a4)前記処理手段による処理結果を記憶する処理結果記
憶手段、Ｂ）以下のb1)〜b3)を有するデータ分布推論装置、 b1)特定カラムにおける前記データ分布を、１または２
以上のブロックに分割したブロック別分布データとして
記憶するブロック別分布データ記憶手段、 b2)前記いずかのブロック内の特定範囲における処理結
果が与えられると、当該ブロックにおけるブロック別分
布データおよび与えられた前記処理結果に基づいて、前
記特定範囲における特定範囲データ分布を推論し、この
推論結果に基づいて、前記特定範囲が含まれるブロック
別分布データを修正する修正手段、 b3)前記データ特性記憶手段から、各カラムにおけるフ
ィールド値の最小値、最大値、レコード数、およびユニ
ーク数を特徴量として抽出し、特定カラムにおけるデー
タ分布として、前記ブロック別分布データ記憶手段に記
憶させる特徴量抽出手段、を備えたことを特徴とする。

【００１４】請求項６のデータ分布推論方法において
は、特定カラムにおいて、仮のデータ分布を記憶してお
き、前記リレーショナルデータベースシステムから前記
特定カラムに対する処理結果が与えられると、前記仮の
データ分布および与えられた前記処理結果に基づいて、
より詳細なデータ分布を推論し、前記仮のデータ分布を
修正することを特徴とする。

【００１５】請求項７のデータ分布推論方法において
は、前記仮の分布データは、相互に関係する複数のカラ
ムにおけるデータ分布を含み、前記仮のデータ分布の修
正においては、前記複数のカラムのうち、いずれか一の
カラムについて、総レコード数が増減した場合は、これ
に応じて、当該一のカラム以外のカラムについても、レ
コード数を増減させることを特徴とする。

【００１６】請求項８のリレーショナルデータベースシ
ステムにおける支援装置においては、特定カラムにおけ
る前記データ分布を、１または２以上のブロックに分割
したブロック別分布データとして記憶するブロック別分
布データ記憶手段、表示命令が与えられると、前記ブロ
ック別分布データを表示手段に表示させる表示制御手
段、を備えたことを特徴とする。

【００１７】請求項９のリレーショナルデータベースシ
ステムにおける支援方法においては、特定カラムにおけ
る前記データ分布を、１または２以上のブロックに分割
したブロック別分布データとして記憶しておき、表示命
令が与えられると、前記ブロック別分布データを表示す
ることを特徴とする。

【００１８】

【用語の定義】課題を解決するために案出した技術思想
を表現するのに用いた請求項の用語の概念を、以下のよ
うに定義するとともに、その用語と実施例との関係につ
いて説明する。

【００１９】「処理結果」：リレーショナルデータベー
スシステムがおこなう各種の処理結果を示すデータであ
り、実施例においては、検索結果、削除結果が該当す
る。

【００２０】「ブロック別分布データ」：特定カラムに
おける前記データ分布を、１または２以上のブロックに
分割したデータであり、実施例では、例えば、図４Ｂに
示すデータ分布では、フィールド値１〜５０に分布され
たデータおよびフィールド値５１〜１００に分布された
データをいう。この場合、２つのブロックに分割されて
いるが、３以上であってもよい。なお、ブロック別分布
データは、図４Ａに示すものも含む。すなわち、この場
合、データ分布は、分割しない１のブロックで構成され
る。

【００２１】「特定範囲」：前記ブロック別分布データ
の範囲内の範囲であって、実施例では、例えば、最小値
０、最大値１００の間の、５１以上１００の範囲をい
う。

【００２２】「ブロックにおける総レコード数」：例え
ば、図４Ｂに示すデータ分布では、フィールド値１〜５
０においては、総レコード数は、５０である。

【００２３】「ユニーク数」：カラム全体に特有のフィ
ールド値が何種類あるかを示す値である。

【００２４】「度数」：同一フィールド値を持つレコー
ドがいくつあるかを示す値であり、（レコード数／ユニ
ーク数）で表される。

【００２５】「修正手段」：実施例においては、ＣＰＵ
２３のステップＳＴ１５、１７、２７の処理が該当す
る。

【００２６】「処理結果変換手段」：実施例において
は、ＣＰＵ２３のステップＳＴ１５、１７の処理が該当
する。

【００２７】「各ブロックの構成比率」：特定カラムに
おける前記データ分布を、１または２以上のブロックに
分割したブロック別データ分布における各ブロックの比
率をいい、実施例においては、例えば、図９Ａにおける
各ブロックＢＬ１〜ＢＬ４に属するレコード数の比率が
該当する。

【００２８】「データ特性」：リレーショナルデータベ
ースにおけるデータの特性を表すもので、実施例におい
ては、各カラムにおけるフィールド値の最小値、最大
値、レコード数、およびユニーク数が含まれる。

【００２９】「ブロック別分布データ記憶手段」、「デ
ータ記憶手段」、「データ特性記憶手段」、「処理結果
記憶手段」：実施例においては、ハードディスク２６が
該当する。

【００３０】「処理手段」：与えられた処理命令に基づ
いて、前記データ記憶手段に記憶されたデータを処理す
る手段であり、実施例においては、データベースに対し
て、データを検索、追加または削除する処理を行うＣＰ
Ｕ２３の処理に該当する。

【００３１】「特徴量抽出手段」：実施例においては、
ＣＰＵ２３のステップＳＴ１の処理が該当する。

【００３２】

【作用】請求項１または請求項２のデータ分布推論装置
においては、ブロック別分布データを記憶するブロック
別分布データ記憶手段、および前記特定範囲データ分布
を推論して、前記特定範囲が含まれるブロック別分布デ
ータを修正する修正手段を備えている。したがって、当
該ブロックにおけるブロック別分布データおよび与えら
れた前記処理結果に基づいて、前記特定範囲における特
定範囲データ分布を推論し、この推論結果に基づいて、
前記特定範囲が含まれるブロック別分布データを修正す
る。これにより、特定カラムにおけるデータ分布を推論
することができる。

【００３３】請求項３のデータ分布推論装置において
は、前記処理結果変換手段を備えているので、複数のブ
ロックにまたがる総レコード数が処理結果として与えら
れると、当該複数のブロックにおける総レコード数を読
み出して、これに基づいて、少なくとも１のブロックに
おける特定範囲における処理結果を演算する。前記修正
手段は、演算された特定範囲における処理結果に基づい
て、前記推論を行う。したがって、複数のブロックにま
たがる総レコード数が処理結果として与えられた場合で
も、前記推論を行うことができる。

【００３４】請求項４のデータ分布推論装置において
は、前記ブロック別分布データ記憶手段は、相互に関係
する複数のカラムにおけるデータ分布を、前記ブロック
別分布データとして記憶する。前記修正手段は、前記複
数のカラムのうち、いずれか一のカラムについて、総レ
コード数が増減した場合は、当該一のカラム以外のカラ
ムである他方カラムについて、当該他方カラムにおける
ブロック別分布データにおける各ブロックの構成比率に
応じて、各ブロックにおけるレコード数を増減させる。
したがって、あるカラムについて、レコード数が増減し
た場合に、このカラムと相互に関係する他のカラムのデ
ータ分布を修正することができる。

【００３５】請求項５のリレーショナルテータベースシ
ステムにおいては、前記特徴量抽出手段は、前記データ
特性記憶手段から、各カラムにおけるフィールド値の最
小値、最大値、レコード数、およびユニーク数を特徴量
として抽出し、特定カラムにおけるデータ分布として、
前記ブロック別分布データ記憶手段に記憶させる。これ
により、初期ブロック別分布データを得ることができ
る。前記修正手段は、いずかのブロック内の特定範囲に
おける処理結果が与えられると、当該ブロックにおける
ブロック別分布データおよび与えられた前記処理結果に
基づいて、前記特定範囲における特定範囲データ分布を
推論し、この推論結果に基づいて、前記特定範囲が含ま
れるブロック別分布データを修正する。これにより、特
定カラムにおけるデータ分布を推論することができる。

【００３６】請求項６のデータ分布推論方法において
は、特定カラムにおいて、仮のデータ分布を記憶してお
き、前記仮のデータ分布および与えられた前記処理結果
に基づいて、より詳細なデータ分布を推論し、前記仮の
データ分布を修正する。これにより、特定カラムにおけ
るデータ分布を推論することができる。

【００３７】請求項７のデータ分布推論方法において
は、前記仮の分布データは、相互に関係する複数のカラ
ムにおけるデータ分布を含み、前記仮のデータ分布の修
正においては、前記複数のカラムのうち、いずれか一の
カラムについて、総レコード数が増減した場合は、これ
に応じて、当該一のカラム以外のカラムについても、レ
コード数を増減させる。したがって、あるカラムについ
て、レコード数が増減した場合に、このカラムと相互に
関係する他のカラムのデータ分布を修正することができ
る。

【００３８】請求項８、請求項９のリレーショナルデー
タベースシステムにおける支援装置または支援方法にお
いては、表示命令が与えられると、予め記憶したブロッ
ク別分布データが表示される。したがって、操作者は、
１または２以上のブロックに分割したブロック別分布デ
ータで表わされたデータ分布を得ることができる。

【００３９】

【実施例】本発明の一実施例を図面に基づいて説明す
る。図１に示すデータ分布推論装置付きリレーショナル
テータベースシステムにおいては、リレーショナルテー
タベースシステム部１９にデータ分布推論装置１が付加
されている。

【００４０】リレーショナルテータベースシステム部１
９は、通常のリレーショナルテータベースシステムであ
り、通常のデータ記憶手段１４、データ特性記憶手段１
５、処理手段１６および処理結果記憶手段１８を備えて
いる。

【００４１】データ記憶手段１４は、各レコードについ
て一または二以上のカラムを有するテーブルにデータを
記憶する。データ特性記憶手段１５は、データ記憶手段
１４に記憶されるデータに関するデータ特性を記憶す
る。本実施例においては、このデータ特性として、各カ
ラムにおけるフィールド値の最小値、最大値、レコード
数、およびユニーク数を含む特性データを採用した。処
理手段１６は、与えられた処理命令に基づいて、データ
記憶手段１４に記憶されたデータを処理する。なお、デ
ータの処理とは、データの検索、追加、または削除を含
む。処理結果記憶手段１８は、処理手段１６による処理
結果を記憶する。

【００４２】データ分布推論装置１は、ブロック別分布
データ記憶手段３、修正手段５、特徴量抽出手段９、処
理結果変換手段７、報知制御手段１０および報知手段１
１を備えている。

【００４３】ブロック別分布データ記憶手段３は、特定
カラムにおける前記データ分布を、１または２以上のブ
ロックに分割したブロック別分布データとして記憶す
る。また、ブロック別分布データ記憶手段３は、相互に
関係する複数のカラムにおけるデータ分布を、前記ブロ
ック別分布データとして記憶している。

【００４４】なお、本実施例においては、前記ブロック
別分布データとして、当該ブロックにおける総レコード
数、ユニーク数、同一フィールド値を持つレコードがい
くつあるかを示す度数のいずれか２つとした。

【００４５】修正手段５は、前記いずかのブロック内の
特定範囲における処理結果が与えられると、当該ブロッ
クにおけるブロック別分布データおよび与えられた前記
処理結果に基づいて、前記特定範囲における特定範囲デ
ータ分布を推論し、この推論結果に基づいて、前記特定
範囲が含まれるブロック別分布データを修正する。

【００４６】本実施例においては、前記特定範囲におけ
る処理結果として、当該特定範囲における総レコード数
を採用した。

【００４７】また、修正手段５は、前記複数のカラムの
うち、いずれか一のカラムについて、総レコード数が増
減した場合は、当該一のカラム以外のカラムである他方
カラムについて、当該他方カラムにおけるブロック別分
布データにおける各ブロックの構成比率に応じて、各ブ
ロックにおけるレコード数を増減させる。

【００４８】特徴量抽出手段９は、データ特性記憶手段
１５から、各カラムにおけるフィールド値の最小値、最
大値、レコード数、およびユニーク数を特徴量として抽
出し、特定カラムにおけるデータ分布として、ブロック
別分布データ記憶手段３に記憶させる。

【００４９】処理結果変換手段７は、複数のブロックに
またがる総レコード数が処理結果として与えられると、
当該複数のブロックにおける総レコード数を読み出し
て、これに基づいて、少なくとも１のブロックにおける
特定範囲における処理結果を演算して、修正手段５に出
力する。

【００５０】報知制御手段１０は、報知命令を受ける
と、前記ブロック別分布データ記憶手段３に記憶された
ブロック別分布データに基づいて、データ分布を、報知
手段１１に報知させる。

【００５１】このように、図１に示すデータ分布推論装
置付きリレーショナルテータベースシステムにおいて
は、処理結果に基づいて、データ分布を推論することが
できる。

【００５２】図２は、図１に示すデータ分布推論装置付
きリレーショナルテータベースシステムをＣＰＵを用い
て実現したハードウェア構成の一例を示す。データ分布
推論装置付きリレーショナルテータベースシステム２１
は、ＣＰＵ２３、ＲＯＭ２５、ＲＡＭ２７、ハードディ
スク２６、キーボード２８、マウス３３、バスライン２
９、プリンタ３１およびＣＲＴ３０を備えている。キー
ボード２８およびマウス３３は、各種の命令を入力する
命令入力手段である。

【００５３】ＲＯＭ２５には、ＣＰＵ２３の制御プログ
ラム等が記憶されており、ＣＰＵ２３は、この制御プロ
グラムに従いバスライン２９を介して、各部を制御す
る。ハードディスク２６は、データ辞書ディレクトリ
（図示せず）を有しており、各カラムにおけるフィール
ド値の最小値、最大値、レコード数、およびユニーク数
が記憶されている。また、ハードディスク２６には、後
述するログ情報が記憶される。このログ情報は、読み出
されてＲＡＭ２７に記憶される。ＣＲＴ３０には、ＣＰ
Ｕ２３が演算したデータ分布等が表示される。また、プ
リンタ３１は、ＣＰＵ２３からの出力命令を受けると、
後述する推論されたデータ分布を出力する。

【００５４】ハードディスク２６に記憶されるログ情報
について、図４を用いて説明する。ログ情報は、ＳＱＬ
文ごとに、その内容およびその処理結果を含む。図４に
示すように、ログ情報には複数のＳＱＬ文を含む。

【００５５】つぎに、図３を用いて、ＲＯＭ２５に記憶
されたプログラムについて説明する。ＣＰＵ２３は、特
徴量を抽出する（図３ステップＳＴ１）。特徴量の抽出
は、ハードディスク２６のデータ辞書ディレクトリに記
憶された各カラムにおけるフィールド値の最小値、最大
値、レコード数、およびユニーク数を読み出すことによ
り行われる。

【００５６】つぎに、ＣＰＵ２３はデータ分布の初期化
を行う（ステップＳＴ２）。この初期化においては、例
えば、整数に関するカラムがあり、その最小値０、最大
値１００、レコード数２００、ユニーク数５０であった
とする。このような状態を、以下、レコード数（０，１
００）＝２００と、ユニーク数（０，１００）＝５０と
表す。また、このカラムにおいて、同一のフィールド値
を有するレコードが何レコードあるかを表す度数は、レ
コード数／ユニーク数で表される。この場合、度数
（０，１００）＝２００／５０＝４で表される。

【００５７】このようにして、仮のデータ分布として、
図４Ａに示すようなデータ分布が設定される。図４Ａに
おいて、度数が実線で表されており、レコード数が破線
で表されている。このように、初期状態では、最小値０
と最大値１００との間に、均一に分布しているものと仮
定される。

【００５８】つぎにＣＰＵ２３は、処理命令が与えられ
た否か判断する（図３ステップＳＴ５）。処理命令が与
えられると、ステップＳＴ７に進み、処理結果をハード
ディスク２６に記憶する。ここては、図５に示す処理結
果が記憶されたものとする。なお、処理命令とは、例え
ば、検索命令等を含むトランザクション処理をいう。

【００５９】ＣＰＵ２３は、ハードディスク２６に記憶
された処理結果をＲＡＭ２７に記憶し、ＳＱＬ文を１つ
読み出す（ステップＳＴ１１）。ＣＰＵ２３は、読み出
したＳＱＬ文が更新系のＳＱＬ文か否か判断する。更新
系のＳＱＬ文とは、レコードを削除、または追加するＳ
ＱＬ文をいう。

【００６０】例えば、図５に示すログ情報の第一のＳＱ
Ｌ文Ｑ１の実行結果Ｓ１は、『検索条件「カラムＣ１＞
５０」での処理結果は、１５０レコードである』ことを
示している。この処理結果から、レコード数（５１，１
００）＝１５０である。ここで、レコード数（０，５
０）＝レコード数（０，１００）−レコード数（５１，
１００）である。したがって、レコード数（０，５０）
＝２００−１５０＝５０であることがわかる。これによ
り、フィールド値１〜５０の範囲においては、ユニーク
数（０，５０）＝５０＊（５０−０）／（１００−０）
＝２５であると推論できる。また、度数（０，５０）＝
レコード数（０，５０）／ユニーク数（０，５０）であ
るので、度数（０，５０）＝５０／２５＝２であると推
論できる。

【００６１】同様にして、フィールド値５１〜１００の
範囲においては、ユニーク数（５１，１００）＝５０＊
（１００−５１）／（１００−０）≒２５であると推論
できる。また、度数（５１，１００）＝レコード数（５
１，１００）／ユニーク数（５１，１００）であるの
で、度数（５１，１００）＝１５０／２５＝６であると
推論できる。これにより、図４Ａに示す初期データ分布
は、図４Ｂに示すように、変更される。このように、本
実施例においては、予め、データ分布を、１または２以
上のブロックに分割したブロック別分布データとして記
憶しておき、いずかのブロック内の特定範囲における処
理結果が与えられると、当該ブロックにおけるブロック
別分布データおよび与えられた前記処理結果に基づい
て、前記特定範囲における特定範囲データ分布を推論
し、この推論結果に基づいて、前記特定範囲が含まれる
ブロック別分布データを修正する。したがって、データ
分布を現実に取得する処理が不要となる。

【００６２】つぎに、ＣＰＵ２３は、表示命令が与えら
れたか否か判断し（図３ステップＳＴ２１）、キーボー
ド２８またはマウス３３から表示命令が与えられた場合
は、推論結果を表示する。ＣＰＵ２３は、表示命令が与
えられない場合は、ステップＳＴ２５に進み、格納命令
が与えられたか否か判断する。キーボード２８またはマ
ウス３３から格納命令が与えられた場合は、推論結果を
ＲＡＭ２７に記憶する。つぎに、ＣＰＵ２３は、ＲＡＭ
２７から読み出したトレースログについて、全てのＳＱ
Ｌ文について読み出しが終了したか否か判断する（図３
ステップＳＴ２８）。

【００６３】この場合、まだ残っているので、ステップ
ＳＴ１１に戻る。図５に示すＳＱＬ文Ｑ２の実行結果Ｓ
２は、更新系のＳＱＬ文ではないので、ステップＳＴ１
７に進む。この実行結果Ｓ２は、『検索条件「カラムＣ
１＞９０」での処理結果は、１０レコードである』こと
を示している。

【００６４】レコード数（５１，９０）＝レコード数
（５１，１００）−レコード数（９１，１００）であ
る。前記処理結果および先の推論結果より、レコード数
（５１，９０）＝１５０−１０＝１４０であると推論で
きる。したがって、フィールド値５１〜９０の範囲にお
いては、ユニーク数（５１，９０）＝５０＊（９０−５
１）／（１００−０）≒２０であると推論できる。ま
た、度数（５１，９０）＝レコード数（５１，９０）／
ユニーク数（５１，９０）であるので、度数（５１，９
０）＝１４０／２０＝７であると推論できる。このよう
にして、図４Ｂに示すデータ分布は、図４Ｃに示すよう
に修正される。

【００６５】このように、検索ＳＱＬ文の実行結果（処
理結果）を参照して、前記ブロック別データ分布を修正
することにより、より正確なデータ分布を得ることがで
きる。

【００６６】つぎに、ＣＰＵ２３は、ステップＳＴ２１
〜ステップＳＴ２７の処理を行った後、ＲＡＭ２７から
読み出したトレースログについて、全てのＳＱＬ文につ
いて読み出しが終了したか否か判断する（ステップＳＴ
２８）。この場合、まだ残っているので、ステップＳＴ
１１に戻る。ＳＱＬ文Ｑ３の実行結果Ｓ３は、更新系の
ＳＱＬ文ではないので、ステップＳＴ１７に進む。この
実行結果Ｓ３は、『検索条件「カラムＣ１＞＝３０」で
の処理結果は、１６０レコードである』ことを示してい
る。この場合も、既に得られている先の推論結果を用い
ることにより、同様に推論することができる。この場
合、レコード数（３０，５０）＝レコード数（３０，１
００）−レコード数（５１，１００）＝１６０−１５０
＝１０であることがわかる。これにより、フィールド値
３０〜５０の範囲においては、ユニーク数（３０，５
０）＝５０＊（５０−３０）／（１００−０）＝１０で
あると推論できる。また、度数（３０，５０）＝レコー
ド数（３０，５０）／ユニーク数（３０，５０）である
ので、度数（３０，５０）＝１０／１０＝１であると推
論できる。このようにして、図４Ｃに示すデータ分布
は、図６Ａに示すように修正される。

【００６７】つぎに、ＣＰＵ２３は、ステップＳＴ２１
〜ステップＳＴ２７の処理を行った後、ＲＡＭ２７から
読み出したトレースログについて、全てのＳＱＬ文につ
いて読み出しが終了したか否か判断する（ステップＳＴ
２８）。この場合、まだ残っているので、ステップＳＴ
１１に戻る。ＳＱＬ文Ｑ４の実行結果Ｓ４は、更新系の
ＳＱＬ文ではないので、ステップＳＴ１７に進む。この
実行結果Ｓ４は、『検索条件「カラムＣ１ｂｅｔｗｅ
ｅｎ３０ｔｏ８０」での処理結果は、１１０レコー
ドである』ことを示している。

【００６８】このように、与えられる処理結果が、複数
のブロックにまたがる場合もある。この場合も、既に得
られている先の推論結果を用いることにより、以下に述
べるようにして、推論することができる。

【００６９】既に得られているレコード数（３０，５
０）を参照すると、レコード数（５１，８０）＝レコー
ド数（３０，８０）−レコード数（３０，５０）＝１１
０−１０＝１００であることがわかる。これにより、フ
ィールド値５１〜８０の範囲においては、ユニーク数
（５１，８０）＝５０＊（８０−５１）／（１００−
０）≒１５であると推論できる。また、度数（５１，８
０）＝レコード数（５１，８０）／ユニーク数（５１，
８０）≒６．７であると推論できる。

【００７０】また、既に得られているレコード数（５
１，９０）を参照すると、レコード数（８１，９０）＝
レコード数（５１，９０）−レコード数（５１，８０）
＝４０であることがわかる。これにより、ユニーク数
（８１，９０）＝５０＊（９０−８１）／（１００−
０）＝５であると推論できる。また、度数（８１，９
０）＝レコード数（８１，９０）／ユニーク数（８１，
９０）＝８であると推論できる。このようにして、図６
Ａに示すデータ分布は、図６Ｂに示すように修正され
る。

【００７１】つぎに、ＣＰＵ２３は、ステップＳＴ２１
〜ステップＳＴ２７の処理を行った後、ＲＡＭ２７から
読み出したトレースログについて、全てのＳＱＬ文につ
いて読み出しが終了したか否か判断する（図３ステップ
ＳＴ２８）。この場合、終了したので、ステップＳＴ２
９に進む。ＣＰＵ２３は、終了命令が与えられたか否か
判断し、与えられた場合は処理を終了する。終了命令が
与えられない場合は、ステップＳＴ５以下の処理を繰返
す。

【００７２】つぎに、図３ステップＳＴ１３にて、読み
込んだＳＱＬ文が更新系のＳＱＬ文である場合につい
て、説明する。ここでは、整数に関するカラムＣ１とカ
ラムＣ２とから構成されたテーブルＴ１において、以下
の様にデータ分布を得られているものとする。

【００７３】カラムＣ１について：最小値０，最大値１００，レコード数（０，１００）＝２００，ユニーク数（０，１００）＝５０，レコード数（０，５０）＝５０，ユニーク数（０，５０）＝２５，度数（０，５０）＝２，レコード数（５１，９０）＝１４０，ユニーク数（５１，９０）＝２０，度数（５１，９０）＝７，レコード数（９１，１００）＝１０，ユニーク数（９１，１００）＝５，度数（９１，１００）＝２，カラムＣ２について：最小値５００，最大値１０００，レコード数（５００，１０００）＝２００，ユニーク数（５００，１０００）＝１００レコード数（５００，６００）＝８０，ユニーク数（５００，６００）＝４０，度数（５００，６００）＝２，レコード数（６０１，８００）＝６０，ユニーク数（６０１，８００）＝３０，度数（６０１，８００）＝２，レコード数（８０１，９００）＝４０，ユニーク数（８０１，９００）＝２０，度数（８０１，９００）＝２，レコード数（９０１，１０００）＝２０，ユニーク数（９０１，１０００）＝１０，度数（９０１，１０００）＝２，この状態で、図７に示すトレースログが読み込まれた場
合、ＳＱＬ文Ｑ５の実行結果Ｓ５は、更新系のＳＱＬ文
である。したがって、ＣＰＵ２３は、図３ステップＳＴ
１５の処理を行う。図７の実行結果Ｓ５は、『実行条件
「カラムＣ１＜＝５０を削除する」での実行結果は、５
０レコードである』ことを示している。この処理によ
り、カラムＣ１は、図８Ａに示すデータ分布が、図８Ｂ
に示すデータ分布に修正される。ここで、カラムＣ１
は、カラムＣ２に相互に関係するカラムであるので、カ
ラムＣ１とカラムＣ２のレコード数は一致しなければな
らない。本実施例においては、以下のようにして、カラ
ムＣ２のデータ分布を修正するようにしている。

【００７４】カラムＣ１とカラムＣ２との間のデータ分
布に関連性がないとすると、カラムＣ２の総レコード２
００レコードのうち、５０レコードがランダムに削除さ
れたものと考えることができる。したがって、４つのブ
ロックＢＬ１〜ＢＬ４のレコード数の比率に応じて、デ
ータ分布を修正するようにした。すなわち、レコード数
（５００，６００）：レコード数（６０１，８００）：
レコード数（８０１，９００）：レコード数（９０１，
１０００）＝４：３：２：１である。したがって、それ
ぞれのデータ領域との構成比率に応じて、前記５０レコ
ード削除するとすると、それぞれ、２０，１５，１０，
５レコード削除すると推論する。よって、図９Ａに示す
データ分布における各ブロックＢＬ１〜ＢＬ４は、図９
Ｂに示すデータ分布における各ブロックＢＬ１１〜ＢＬ
１４に修正される。

【００７５】このようにして、相互に関係する複数のカ
ラムにおけるデータ分布を、前記ブロック別分布データ
として記憶しておき、前記複数のカラムのうち、いずれ
か一のカラム（この場合、カラムＣ１）について、総レ
コード数が増減した場合は、当該一のカラム以外のカラ
ムである他方カラム（この場合カラムＣ２）について、
当該他方カラムにおけるブロック別分布データにおける
各ブロックの構成比率に応じて、各ブロックにおけるレ
コード数を増減させる。したがって、あるカラムについ
て、レコード数が増減した場合に、このカラムと相互に
関係する他のカラムのデータ分布を修正することができ
る。

【００７６】なお、本実施例においては、同じテーブル
のカラムＣ１，Ｃ２を相互に関係する他のカラムとした
場合について説明したが、同じテーブルでないカラムに
ついても同様にして、データ分布を修正することができ
る。

【００７７】なお、本実施例においては、ブロック別デ
ータ分布を修正する度に、推論結果を表示および格納す
るか否かを判断している。しかし、これに限定されるこ
となく、トレースログのＳＱＬ文の処理が全て終了して
から、前記表示および格納の判断をするようにしてもよ
い。

【００７８】また、特徴量として、各カラムにおけるフ
ィールド値の最小値、最大値を記憶するようにしてい
る。したがって、正確な最小値、最大値がわからない場
合には、前記推論はできないとも考えられる。しかし、
正確な最小値、最大値がわからない場合でも、前記推論
はできる。なぜなら、複数の検索結果により、前記最小
値、または最大値を越える部分にデータが分布している
とが判明することがある。したがって、このような場合
に、前記最小値、または最大値を修正するようにすれば
よいからである。すなわち、この最小値、最大値が正確
にわからない場合には、ある程度の値を入力することに
より、前記推論は可能となる。

【００７９】なお、各カラムにおけるフィールド値の最
小値、最大値に限定されず、例えば、最小値とその幅、
中央値と上下幅、最大値とその幅を記憶するようにして
もよい。

【００８０】また、本実施例においては、ブロック別分
布データとして、当該ブロックにおける総レコード数、
ユニーク数、同一フィールド値を持つレコードがいくつ
あるかを示す度数の全てを記憶するようにしているが、
いずれか２つあれば、残りの１つについては演算するこ
とができるので、あえて全て記憶する必要はない。

【００８１】なお、本実施例においては、更新系ＳＱＬ
文として削除の場合について説明したが、追加する場合
も同様に行うようにすればよい。

【００８２】なお、本実施例においては、前記各機能を
実現する為に、ＣＰＵ２３を用い、ソフトウェアによっ
てこれを実現している。しかし、その一部もしくは全て
を、ロジック回路等のハードウェアによって実現しても
よい。

【００８３】なお、本発明は、リレーショナルデータベ
ースシステムにおける各テーブルの各カラムにおける各
レコードのフィールド値のデータ分布を推論するデータ
分布推論方法であって、特定カラムにおいて、仮のデー
タ分布を記憶しておき、前記リレーショナルデータベー
スシステムから前記特定カラムに対する処理結果が与え
られると、前記仮のデータ分布および与えられた前記処
理結果に基づいて、より詳細なデータ分布を推論し、前
記仮のデータ分布を修正すること、を特徴とするデータ
分布推論方法という技術思想として、とらえることもで
きる。

【００８４】さらに、前記仮の分布データは、相互に関
係する複数のカラムにおけるデータ分布を含み、前記仮
のデータ分布の修正においては、前記複数のカラムのう
ち、いずれか一のカラムについて、総レコード数が増減
した場合は、これに応じて、当該一のカラム以外のカラ
ムについても、レコード数を増減させるようにしてもよ
い。

【００８５】

【発明の効果】請求項１または請求項２のデータ分布推
論装置においては、ブロック別分布データを記憶するブ
ロック別分布データ記憶手段、および前記特定範囲デー
タ分布を推論して、前記特定範囲が含まれるブロック別
分布データを修正する修正手段を備えている。したがっ
て、当該ブロックにおけるブロック別分布データおよび
与えられた前記処理結果に基づいて、前記特定範囲にお
ける特定範囲データ分布を推論し、この推論結果に基づ
いて、前記特定範囲が含まれるブロック別分布データを
修正する。これにより、リレーショナルデータベースに
おける各カラムにおける各レコードのフィールド値のデ
ータ分布について、簡易かつ確実に取得できるデータ分
布推論装置を提供することができる。

【００８６】請求項３のデータ分布推論装置において
は、前記処理結果変換手段を備えている。したがって、
複数のブロックにまたがる総レコード数が処理結果とし
て与えられた場合でも、前記推論を行うことができるデ
ータ分布推論装置を提供することができる。

【００８７】請求項４のデータ分布推論装置において
は、相互に関係する複数のカラムにおけるデータ分布
が、前記ブロック別分布データとして記憶されている。
また、前記複数のカラムのうち、いずれか一のカラムに
ついて、総レコード数が増減した場合は、前記他方カラ
ムにおけるブロック別分布データにおける各ブロックの
構成比率に応じて、各ブロックにおけるレコード数を増
減させる。これにより、あるカラムについてレコード数
が増減した場合に、このカラムと相互に関係する他のカ
ラムのデータ分布を修正することができるデータ分布推
論装置を提供することができる。

【００８８】請求項５のリレーショナルテータベースシ
ステムにおいては、前記特徴量抽出手段、前記修正手段
を備えている。したがって、いずかのブロック内の特定
範囲における処理結果が与えられると、当該ブロックに
おけるブロック別分布データおよび与えられた前記処理
結果に基づいて、前記特定範囲が含まれるブロック別分
布データを修正する。これにより、特定カラムにおける
データ分布を推論することができるリレーショナルデー
タベースを提供することができる。

【００８９】請求項６のデータ分布推論方法において
は、特定カラムにおいて、仮のデータ分布を記憶してお
き、前記仮のデータ分布および与えられた前記処理結果
に基づいて、より詳細なデータ分布を推論し、前記仮の
データ分布を修正する。したがって、リレーショナルデ
ータベースにおける各カラムにおける各レコードのフィ
ールド値のデータ分布について、簡易かつ確実に取得で
きるデータ分布推論方法を提供することができる。

【００９０】請求項７のデータ分布推論方法において
は、前記仮の分布データは、相互に関係する複数のカラ
ムにおけるデータ分布を含み、前記仮のデータ分布の修
正においては、前記複数のカラムのうち、いずれか一の
カラムについて、総レコード数が増減した場合は、これ
に応じて、当該一のカラム以外のカラムについても、レ
コード数を増減させる。したがって、あるカラムについ
てレコード数が増減した場合に、このカラムと相互に関
係する他のカラムのデータ分布を修正することができる
データ分布推論方法を提供することができる。

【００９１】請求項８、請求項９のリレーショナルデー
タベースシステムにおける支援装置または支援方法にお
いては、表示命令が与えられると、予め記憶したブロッ
ク別分布データが表示される。これにより、前記データ
分布を得ることができる支援装置または支援方法を提供
することができる。

【図面の簡単な説明】

【図１】本発明にかかるデータ分布推論装置１を有する
リレーショナルデータベースシステムの機能ブロック図
である。

【図２】図１に示すデータ分布推論装置１を有するリレ
ーショナルデータベースシステムをＣＰＵで実現したハ
ードウェア構成を示す図である。

【図３】データ分布推論装置１を有するリレーショナル
データベースシステムの全体の処理フローチャートであ
る。

【図４】推論されたデータ分布を示す図である。

【図５】トレースログの一部を示す図である。

【図６】複数のブロックにまたがる処理結果が与えられ
た場合の処理を説明する為の図である。

【図７】更新系ＳＱＬ文を含むトレースログの一部を示
す図である。

【図８】データの一部が削除された場合のデータ分布を
示す図である

【図９】相互に関連するカラムに関するデータ分布を示
す図である

【符号の説明】

３・・・・ブロック別分布データ記憶手段５・・・・修正手段７・・・・処理結果変換手段９・・・・特徴量抽出手段１０・・・報知制御手段１１・・・報知手段１４・・・データ記憶手段１５・・・データ特性記憶手段１６・・・処理手段１８・・・処理結果記憶手段

Claims

【特許請求の範囲】

【請求項１】リレーショナルデータベースシステムにお
ける各テーブルの各カラムにおける各レコードのフィー
ルド値のデータ分布を推論するデータ分布推論装置であ
って、特定カラムにおける前記データ分布を、１または２以上
のブロックに分割したブロック別分布データとして記憶
するブロック別分布データ記憶手段、前記いずかのブロック内の特定範囲における処理結果が
与えられると、当該ブロックにおけるブロック別分布デ
ータおよび与えられた前記処理結果に基づいて、前記特
定範囲における特定範囲データ分布を推論し、この推論
結果に基づいて、前記特定範囲が含まれるブロック別分
布データを修正する修正手段、を備えたことを特徴とするデータ分布推論装置。
【請求項２】請求項１のデータ分布推論装置において、前記ブロック別分布データは、当該ブロックにおける総
レコード数、ユニーク数、同一フィールド値を持つレコ
ードがいくつあるかを示す度数のいずれか２つであり、前記特定範囲における処理結果は、当該特定範囲におけ
る総レコード数であること、を特徴とするデータ分布推論装置。
【請求項３】請求項１または請求項２のデータ分布推論
装置において、前記ブロック別分布データ記憶手段は、前記ブロック別
分布データとして、少なくとも、当該ブロックにおける
総レコード数を記憶しており、さらに、複数のブロックにまたがる総レコード数が処理結果とし
て与えられると、当該複数のブロックにおける総レコー
ド数を読み出して、これに基づいて、少なくとも１のブ
ロックにおける特定範囲における処理結果を演算して、
前記修正手段に出力する処理結果変換手段を備えたこ
と、を特徴とするデータ分布推論装置。
【請求項４】請求項３のデータ分布推論装置において、前記ブロック別分布データ記憶手段は、相互に関係する
複数のカラムにおけるデータ分布を、前記ブロック別分
布データとして記憶しており、前記修正手段は、前記複数のカラムのうち、いずれか一
のカラムについて、総レコード数が増減した場合は、当
該一のカラム以外のカラムである他方カラムについて、
当該他方カラムにおけるブロック別分布データにおける
各ブロックの構成比率に応じて、各ブロックにおけるレ
コード数を増減させること、を特徴とするデータ分布推論装置。
【請求項５】Ａ）以下のa1)〜a4)を有するリレーショナ
ルテータベースシステム、 a1)各レコードについて一または二以上のカラムを有す
るテーブルにデータを記憶するデータ記憶手段、 a2)前記データ記憶手段に記憶されるデータに関するデ
ータ特性を記憶するデータ特性記憶手段、 a3)与えられた処理命令に基づいて、前記データ記憶手
段に記憶されたデータを処理する処理手段、 a4)前記処理手段による処理結果を記憶する処理結果記
憶手段、Ｂ）以下のb1)〜b3)を有するデータ分布推論装置、 b1)特定カラムにおける前記データ分布を、１または２
以上のブロックに分割したブロック別分布データとして
記憶するブロック別分布データ記憶手段、 b2)前記いずかのブロック内の特定範囲における処理結
果が与えられると、当該ブロックにおけるブロック別分
布データおよび与えられた前記処理結果に基づいて、前
記特定範囲における特定範囲データ分布を推論し、この
推論結果に基づいて、前記特定範囲が含まれるブロック
別分布データを修正する修正手段、 b3)前記データ特性記憶手段から、各カラムにおけるフ
ィールド値の最小値、最大値、レコード数、およびユニ
ーク数を特徴量として抽出し、特定カラムにおけるデー
タ分布として、前記ブロック別分布データ記憶手段に記
憶させる特徴量抽出手段、を備えたことを特徴とするリレーショナルデータベース
シテスム。
【請求項６】リレーショナルデータベースシステムにお
ける各テーブルの各カラムにおける各レコードのフィー
ルド値のデータ分布を推論するデータ分布推論方法であ
って、特定カラムにおいて、仮のデータ分布を記憶しておき、前記リレーショナルデータベースシステムから前記特定
カラムに対する処理結果が与えられると、前記仮のデー
タ分布および与えられた前記処理結果に基づいて、より
詳細なデータ分布を推論し、前記仮のデータ分布を修正
すること、を特徴とするデータ分布推論方法。
【請求項７】請求項６のデータ分布推論方法において、前記仮の分布データは、相互に関係する複数のカラムに
おけるデータ分布を含み、前記仮のデータ分布の修正においては、前記複数のカラ
ムのうち、いずれか一のカラムについて、総レコード数
が増減した場合は、これに応じて、当該一のカラム以外
のカラムについても、レコード数を増減させること、を特徴とするデータ分布推論方法。
【請求項８】リレーショナルデータベースシステムにお
ける各テーブルの各カラムにおける各レコードのフィー
ルド値のデータ分布を表示するリレーショナルデータベ
ースシステムにおける支援装置であって、特定カラムにおける前記データ分布を、１または２以上
のブロックに分割したブロック別分布データとして記憶
するブロック別分布データ記憶手段、表示命令が与えられると、前記ブロック別分布データを
表示手段に表示させる表示制御手段、を備えたことを特徴とする支援装置。
【請求項９】リレーショナルデータベースシステムにお
ける各テーブルの各カラムにおける各レコードのフィー
ルド値のデータ分布を表示するリレーショナルデータベ
ースシステムにおける支援方法であって、特定カラムにおける前記データ分布を、１または２以上
のブロックに分割したブロック別分布データとして記憶
しておき、表示命令が与えられると、前記ブロック別分布データを
表示すること、を特徴とする支援方法。