JPH04340623A

JPH04340623A - データ・グループ化処理方法

Info

Publication number: JPH04340623A
Application number: JP11323491A
Authority: JP
Inventors: Mamoru Koshizawa; 越澤　守
Original assignee: PFU Ltd
Current assignee: PFU Ltd
Priority date: 1991-05-17
Filing date: 1991-05-17
Publication date: 1992-11-27

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は，与えらえたレコード・
データ群内で，所望される項目に関して，共通なデータ
をグループ化するデータ・グループ化処理方法に関する
。

【０００２】

【従来の技術】図１１はデータ・グループ化処理を説明
する図である。図１１に示すレコード・データ群１の如
く，例えば個人名と年令と出身地とを連結したレコード
・データが存在しているとし，これらレコード・データ
に関して出身地別の人数を調べるものとする。なお図中
の符号１はレコード・データ群，２は出力結果である。

【０００３】本明細書においてグループ化処理と呼んで
いる処理は，少なくとも次の２つの処理を行うための処
理を意味する。即ち，その１つは出身地ごとに平均年令
を求めるなどのために，各出身地ごとに個人をグループ
分けする処理（一般にグループ化と呼ばれている）であ
る。また他の１つは，出身地の分布状況を調べるなどの
ために，同一の出身地については１つにまとめる処理（
一般にディスチンクト処理と呼ばれている）である。これらの処理は，いずれにしても例えば出身地を共通項
目としてレコード・データをまとめていることから，本
明細書においてはグループ化処理と呼んでいる。

【０００４】図１２は従来の場合のグループ化処理の処
理フローを示す。（Ｓ１）：ステップＳ１において，与えられたレコード
・データ群内のデータを読込む。（Ｓ２）：ステップＳ２において，読込んだデータをソ
ートする。このとき，対象となる全データに対するソー
ト処理が行われる。（Ｓ３）：ステップＳ３において，グループ化処理が行
われる。

【０００５】図１３ないし図１６は従来の場合の処理態
様を示す。当該処理態様は，図１１に示した如き処理結
果を得るものとして示されている。図１３に示す初期ス
トリング作成過程においては，図１１に示すレコード・
データ群１からレコード・データを１つ１つ調べ，出身
地のみを選択したレコードに編集する（（１））。デー
タ・プール３−１内にレコードを蓄め込み（仮に６件分
を１つのデータ・プールに蓄めるとしている），当該デ
ータ・プール３−１内でソートを行い，初期ストリング
４−１をディスク・メモリ上に書き出す（（２））　。以下，同様にして，初期ストリング４−２，４−３，．
．．　を得る（（３），　（４），　（５））。

【０００６】図１４に示す中間マージ処理過程において
は，初期ストリング４−１と４−２とを組にして，当該
初期ストリング間でマージを行い，中間ストリング５−
１を得る　（（１））。以下同様に中間ストリング５−
２を得る。図１５に示す最終マージ処理過程においては
，中間ストリング５−１と５−２とでマージを行い，最
終ストリング６を得る。

【０００７】図１６に示す重複排他および件数算出処理
過程においては，最終ストリング６からデータを取出し
ては出身地と人数とのレコード７に編集してゆき，この
とき同一出身地のものが続く限り人数を加算（＋１）す
る（（１））。そして異なる出身地のものが出現したら
当該出身地のレコードに出力するようにする　（（２）
）。なお図１６に示す符号２は，図１１に示した出力結
果２と同じである。

【０００８】

【発明が解決しようとする課題】上述した如く従来の場
合には，与えられたレコード・データ群内の全データに
ついてソートを行い最終ストリング６を得た上で，図１
６に示した如く，出力結果２を得る。このために，最終
ストリング６を得る際のソート処理に費やす処理時間が
大である。

【０００９】本発明は，可能な限りソート処理に費やす
時間を減少するようにすることを目的としている。

【００１０】

【課題を解決するための手段】図１は本発明の原理構成
図を示す。図中の符号１０１は初期ストリング生成処理
過程，１０２はマージ処理過程を表わしている。（Ｓ４）：ステップＳ４において，与えられたレコード
・データ群１から個々のデータを読込む。（Ｓ５）：ステップＳ５において，読込んだデータと既
に読込まれているデータとの間でソートを行い，グルー
プ化処理を行う。（Ｓ６）：ステップＳ６において，所定個数分のデータ
についてステップＳ５が行われたら，その分を初期スト
リングとしてディスク・メモリ上に書き出し，次のデー
タから再びステップＳ５を行う。（Ｓ７）：上述の如く初期ストリング生成処理過程１０
１が終了して，複数の初期ストリングが得られると，初
期ストリング相互間でマージを行い，最終ストリングを
得る。（Ｓ８）：当該最終ストリングを用いて，グループ化処
理が行われる。

【００１１】

【作用】本発明の場合には，図示のステップＳ５におい
て，所定個数のデータごとにソートを行い，グループ化
処理を行うようにしている。その結果，得られている初
期ストリング内では，グループ化処理の行われた結果の
状態となっている。このために，以降のマージやグルー
プ化処理に当って，処理時間が節約される。

【００１２】

【実施例】図２は初期ストリング生成処理過程を説明す
る図である。図中の符号１，４−ｉ，１０１は図１１や
図１に示すものに対応している。与えられたレコード・
データ群１から１つ１つデータが取出されて入力されて
くる。そして，当該データは，既に入力されているデー
タ・プール１１内のデータとの間で，ソートを行い，グ
ループ化処理が行われる。当該ソートを行い，グループ
化処理が行われた結果の所定個数のデータは，初期スト
リング４−ｉとしてディスク上に書込まれる。

【００１３】図３は中間マージ処理過程を説明する図で
ある。図中の符号４−ｉは初期ストリングであり，５−
ｉは中間ストリングである。図２において得られている
初期ストリング４−ｉと４−（ｉ＋１）とを抽出してス
トリング入力域１２にセットし，マージを行う。その結
果は，中間ストリング５−ｐとしてディスク・メモリ上
に書込まれる。以下同様にして，中間ストリング５−（
ｐ＋１）．．．　が得られるが，当該得られた中間スト
リング５−ｉと５−（ｉ＋１）とについても同様にマー
ジが行われ，ストリングの個数が所望される数にまで絞
られる。

【００１４】図４は最終マージ処理過程を説明する図で
ある。図中の符号は図３に対応している。図４において
は，ストリングの個数が例えば１つになるまで続けられ
る。図５ないし図７は本発明の場合の処理態様を示す。当該処理態様は，図１１に示した如き処理結果を得るも
のとして示されている。

【００１５】図５に示す初期ストリング生成処理過程に
おいては，図１１に示すレコード・データ群１からレコ
ード・データを１つ１つ調べ，出身地と人数とを選択し
たレコードに編集する（（１））。データ・プール３−
１内にレコードを蓄め込み，当該データ・プール３−１
内でソートを行い，グループ化処理を行い，初期ストリ
ング４−１をディスク・メモリ上に書き出す（（２））
。以下同様にして，　初期ストリング４−２，４−３，
４−４を得る（（３），　（４），　（５））。

【００１６】図６に示す中間マージ処理過程においては
，初期ストリング４−１と４−２とを組にして，当該初
期ストリング間でマージを行い，中間ストリング５−１
を得る（（１））。同様に中間ストリング５−２を得る
（（２））。図７に示す最終マージ処理過程においては
，中間ストリング５−１と５−２とを組にして，当該中
間ストリング間でマージを行い，出力結果２を得る。

【００１７】上述の如く，本発明においては，処理の途
中状態の下でも，必要とされるグループ化処理を適宜行
うようにして，処理時間を短縮している。なお，上記図
５，図６，図７に示す如く，ソートしかつグループ化処
理を行うに当っては，次の如き２つの方法が採用され得
る。その１つは，図５などに示すように，データをデー
タ・プール３−ｉ内に蓄め込んでから，当該入力された
データについて既入力のデータとソートし，重複排他を
行う方法である。また他の１つは，トーナメント・ソー
トを用いる方法である。

【００１８】図８，図９，図１０はトーナメント・ソー
トの処理態様を示す。図においては，レコード値「３」
，「４」，「５」，「７」，「８」，「９」をもつレコ
ード・データについてトーナメント・ソートを行う例を
示している。図８に示す如く，レコード値「４」，「５
」，「６」，「８」，「９」をもつレコードが，最初に
取出されて，トーナメントによって最小値レコードを得
る。この場合には値「４」をもつレコードが抽出される
。当該抽出された場合には，図中に白丸で示した如く，
当該抽出されたレコードが存在していた個所に空白が与
えられる。

【００１９】図８において値「４」をもつレコードが抽
出された状態の下で，図９に示す如く値「７」をもつレ
コードが入力されたとする。この場合には，値「７」が
上記抽出された値「４」よりも弱いことから，上記の如
く空白となっている葉部に当該値「７」のレコードをセ
ットして，トーナメントを行う。図９の場合には，値「
５」をもつレコードが優勝レコードとなり，図８の場合
と同様に抽出されることになる。

【００２０】図８において値「４」をもつレコードが抽
出された状態の下で，図１０に示す如く値「３」をもつ
レコードが入力されたとする。この場合には，値「３」
が上記抽出された値「４」よりも強いことから，値「３
」をもつレコードにフラグを付けておいて，葉部にセッ
トし，当該フラグのついたレコードを除いてトーナメン
トを行う。図１０の場合には，値「５」をもつレコード
が優勝レコードとなる。なお，図１０に示す如き状況が
幾回か続くと，葉部に存在するレコードに対して，すべ
てフラグがつけられたものとなってしまうことになる。この状態が生じたら，それ以前のトーナメントによって
抽出された各レコードを１つのストリングとしてまとめ
る。そして，上記フラグがつけられたすべてのレコード
について，当該フラグを取りはずして，トーナメントを
開始する。即ち，新しいストリングを得る処理に入る。

【００２１】なお，図８において値「４」をもつレコー
ドが抽出された状態の下で，当該値「４」をもつレコー
ドおよび葉部に存在するいずれかのレコードと同じ値を
もつレコードが入力されたとすると，当該入力されたレ
コードはカウントされるだけで，図８，図９，図１０に
示される空白の部分には，更に次のレコードが入力され
てセットされることになる。

【００２２】

【発明の効果】以上説明した如く，本発明によれば，処
理の途中段階においても，グループ化処理が適宜行われ
る形となり，処理対象がまとめられることから全体の処
理時間が短縮される。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】初期ストリング生成処理過程を説明する図であ
る。

【図３】中間マージ処理過程を説明する図である。

【図４】最終マージ処理過程を説明する図である。

【図５】本発明の場合の処理態様を示す。

【図６】本発明の場合の処理態様を示す。

【図７】本発明の場合の処理態様を示す。

【図８】トーナメント・ソートの処理態様を示す。

【図９】トーナメント・ソートの処理態様を示す。

【図１０】トーナメント・ソートの処理態様を示す。

【図１１】データ・グループ化処理を説明する図である
。

【図１２】従来の場合のグループ化処理フローを示す。

【図１３】従来の場合の処理態様を示す。

【図１４】従来の場合の処理態様を示す。

【図１５】従来の場合の処理態様を示す。

【図１６】従来の場合の処理態様を示す。

【符号の説明】

１０１　　初期ストリング生成処理過程１０２　　マー
ジ処理過程１　　レコード・データ群２　　出力結果３　　データ・プール４　　初期ストリング５　　中間ストリング６　　最終ストリング

Claims

【特許請求の範囲】

【請求項１】　　与えられたレコード・データ群につい
て，当該レコード・データ群内での共通項目を有するデ
ータをまとめる処理を行うデータ・グループ化処理方法
において，上記レコード・データ群（１）内の複数個の
データを抽出した上で，当該複数個のデータ相互間で共
通項目を有するデータをまとめて初期ストリング（４）
を逐次生成する初期ストリング生成処理過程（１０１）
と，当該初期ストリング生成処理過程（１０１）におい
て生成された複数個の初期ストリング（４）相互間で，
データを抽出しつつ上記共通項目を有するデータをまと
めるマージ処理過程（１０２）とを順次実行するよう構
成し，上記与えられたレコード・データ群内での共通項
目を有するデータをグループ化するようにしたことを特
徴とするデータ・グループ化処理方法。
【請求項２】　　上記初期ストリング生成処理過程（１
０１）において，複数個の初期ストリング（４）を生成
するに当って，上記与えられたレコード・データ群内の
データを，任意に複数個の集まりに区分し，当該集まり
の内部において上記共通項目を有するデータをまとめる
ようにしたことを特徴とする請求項１記載のデータ・グ
ループ化処理方法。