JPH04340623A - データ・グループ化処理方法 - Google Patents

データ・グループ化処理方法

Info

Publication number
JPH04340623A
JPH04340623A JP11323491A JP11323491A JPH04340623A JP H04340623 A JPH04340623 A JP H04340623A JP 11323491 A JP11323491 A JP 11323491A JP 11323491 A JP11323491 A JP 11323491A JP H04340623 A JPH04340623 A JP H04340623A
Authority
JP
Japan
Prior art keywords
data
record
initial
processing
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11323491A
Other languages
English (en)
Inventor
Mamoru Koshizawa
越澤 守
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP11323491A priority Critical patent/JPH04340623A/ja
Publication of JPH04340623A publication Critical patent/JPH04340623A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は,与えらえたレコード・
データ群内で,所望される項目に関して,共通なデータ
をグループ化するデータ・グループ化処理方法に関する
【0002】
【従来の技術】図11はデータ・グループ化処理を説明
する図である。図11に示すレコード・データ群1の如
く,例えば個人名と年令と出身地とを連結したレコード
・データが存在しているとし,これらレコード・データ
に関して出身地別の人数を調べるものとする。なお図中
の符号1はレコード・データ群,2は出力結果である。
【0003】本明細書においてグループ化処理と呼んで
いる処理は,少なくとも次の2つの処理を行うための処
理を意味する。即ち,その1つは出身地ごとに平均年令
を求めるなどのために,各出身地ごとに個人をグループ
分けする処理(一般にグループ化と呼ばれている)であ
る。また他の1つは,出身地の分布状況を調べるなどの
ために,同一の出身地については1つにまとめる処理(
一般にディスチンクト処理と呼ばれている)である。 これらの処理は,いずれにしても例えば出身地を共通項
目としてレコード・データをまとめていることから,本
明細書においてはグループ化処理と呼んでいる。
【0004】図12は従来の場合のグループ化処理の処
理フローを示す。 (S1):ステップS1において,与えられたレコード
・データ群内のデータを読込む。 (S2):ステップS2において,読込んだデータをソ
ートする。このとき,対象となる全データに対するソー
ト処理が行われる。 (S3):ステップS3において,グループ化処理が行
われる。
【0005】図13ないし図16は従来の場合の処理態
様を示す。当該処理態様は,図11に示した如き処理結
果を得るものとして示されている。図13に示す初期ス
トリング作成過程においては,図11に示すレコード・
データ群1からレコード・データを1つ1つ調べ,出身
地のみを選択したレコードに編集する((1))。デー
タ・プール3−1内にレコードを蓄め込み(仮に6件分
を1つのデータ・プールに蓄めるとしている),当該デ
ータ・プール3−1内でソートを行い,初期ストリング
4−1をディスク・メモリ上に書き出す((2)) 。 以下,同様にして,初期ストリング4−2,4−3,.
.. を得る((3), (4), (5))。
【0006】図14に示す中間マージ処理過程において
は,初期ストリング4−1と4−2とを組にして,当該
初期ストリング間でマージを行い,中間ストリング5−
1を得る ((1))。以下同様に中間ストリング5−
2を得る。図15に示す最終マージ処理過程においては
,中間ストリング5−1と5−2とでマージを行い,最
終ストリング6を得る。
【0007】図16に示す重複排他および件数算出処理
過程においては,最終ストリング6からデータを取出し
ては出身地と人数とのレコード7に編集してゆき,この
とき同一出身地のものが続く限り人数を加算(+1)す
る((1))。そして異なる出身地のものが出現したら
当該出身地のレコードに出力するようにする ((2)
)。なお図16に示す符号2は,図11に示した出力結
果2と同じである。
【0008】
【発明が解決しようとする課題】上述した如く従来の場
合には,与えられたレコード・データ群内の全データに
ついてソートを行い最終ストリング6を得た上で,図1
6に示した如く,出力結果2を得る。このために,最終
ストリング6を得る際のソート処理に費やす処理時間が
大である。
【0009】本発明は,可能な限りソート処理に費やす
時間を減少するようにすることを目的としている。
【0010】
【課題を解決するための手段】図1は本発明の原理構成
図を示す。図中の符号101は初期ストリング生成処理
過程,102はマージ処理過程を表わしている。 (S4):ステップS4において,与えられたレコード
・データ群1から個々のデータを読込む。 (S5):ステップS5において,読込んだデータと既
に読込まれているデータとの間でソートを行い,グルー
プ化処理を行う。 (S6):ステップS6において,所定個数分のデータ
についてステップS5が行われたら,その分を初期スト
リングとしてディスク・メモリ上に書き出し,次のデー
タから再びステップS5を行う。 (S7):上述の如く初期ストリング生成処理過程10
1が終了して,複数の初期ストリングが得られると,初
期ストリング相互間でマージを行い,最終ストリングを
得る。 (S8):当該最終ストリングを用いて,グループ化処
理が行われる。
【0011】
【作用】本発明の場合には,図示のステップS5におい
て,所定個数のデータごとにソートを行い,グループ化
処理を行うようにしている。その結果,得られている初
期ストリング内では,グループ化処理の行われた結果の
状態となっている。このために,以降のマージやグルー
プ化処理に当って,処理時間が節約される。
【0012】
【実施例】図2は初期ストリング生成処理過程を説明す
る図である。図中の符号1,4−i,101は図11や
図1に示すものに対応している。与えられたレコード・
データ群1から1つ1つデータが取出されて入力されて
くる。そして,当該データは,既に入力されているデー
タ・プール11内のデータとの間で,ソートを行い,グ
ループ化処理が行われる。当該ソートを行い,グループ
化処理が行われた結果の所定個数のデータは,初期スト
リング4−iとしてディスク上に書込まれる。
【0013】図3は中間マージ処理過程を説明する図で
ある。図中の符号4−iは初期ストリングであり,5−
iは中間ストリングである。図2において得られている
初期ストリング4−iと4−(i+1)とを抽出してス
トリング入力域12にセットし,マージを行う。その結
果は,中間ストリング5−pとしてディスク・メモリ上
に書込まれる。以下同様にして,中間ストリング5−(
p+1)... が得られるが,当該得られた中間スト
リング5−iと5−(i+1)とについても同様にマー
ジが行われ,ストリングの個数が所望される数にまで絞
られる。
【0014】図4は最終マージ処理過程を説明する図で
ある。図中の符号は図3に対応している。図4において
は,ストリングの個数が例えば1つになるまで続けられ
る。図5ないし図7は本発明の場合の処理態様を示す。 当該処理態様は,図11に示した如き処理結果を得るも
のとして示されている。
【0015】図5に示す初期ストリング生成処理過程に
おいては,図11に示すレコード・データ群1からレコ
ード・データを1つ1つ調べ,出身地と人数とを選択し
たレコードに編集する((1))。データ・プール3−
1内にレコードを蓄め込み,当該データ・プール3−1
内でソートを行い,グループ化処理を行い,初期ストリ
ング4−1をディスク・メモリ上に書き出す((2))
。以下同様にして, 初期ストリング4−2,4−3,
4−4を得る((3), (4), (5))。
【0016】図6に示す中間マージ処理過程においては
,初期ストリング4−1と4−2とを組にして,当該初
期ストリング間でマージを行い,中間ストリング5−1
を得る((1))。同様に中間ストリング5−2を得る
((2))。図7に示す最終マージ処理過程においては
,中間ストリング5−1と5−2とを組にして,当該中
間ストリング間でマージを行い,出力結果2を得る。
【0017】上述の如く,本発明においては,処理の途
中状態の下でも,必要とされるグループ化処理を適宜行
うようにして,処理時間を短縮している。なお,上記図
5,図6,図7に示す如く,ソートしかつグループ化処
理を行うに当っては,次の如き2つの方法が採用され得
る。その1つは,図5などに示すように,データをデー
タ・プール3−i内に蓄め込んでから,当該入力された
データについて既入力のデータとソートし,重複排他を
行う方法である。また他の1つは,トーナメント・ソー
トを用いる方法である。
【0018】図8,図9,図10はトーナメント・ソー
トの処理態様を示す。図においては,レコード値「3」
,「4」,「5」,「7」,「8」,「9」をもつレコ
ード・データについてトーナメント・ソートを行う例を
示している。図8に示す如く,レコード値「4」,「5
」,「6」,「8」,「9」をもつレコードが,最初に
取出されて,トーナメントによって最小値レコードを得
る。この場合には値「4」をもつレコードが抽出される
。当該抽出された場合には,図中に白丸で示した如く,
当該抽出されたレコードが存在していた個所に空白が与
えられる。
【0019】図8において値「4」をもつレコードが抽
出された状態の下で,図9に示す如く値「7」をもつレ
コードが入力されたとする。この場合には,値「7」が
上記抽出された値「4」よりも弱いことから,上記の如
く空白となっている葉部に当該値「7」のレコードをセ
ットして,トーナメントを行う。図9の場合には,値「
5」をもつレコードが優勝レコードとなり,図8の場合
と同様に抽出されることになる。
【0020】図8において値「4」をもつレコードが抽
出された状態の下で,図10に示す如く値「3」をもつ
レコードが入力されたとする。この場合には,値「3」
が上記抽出された値「4」よりも強いことから,値「3
」をもつレコードにフラグを付けておいて,葉部にセッ
トし,当該フラグのついたレコードを除いてトーナメン
トを行う。図10の場合には,値「5」をもつレコード
が優勝レコードとなる。なお,図10に示す如き状況が
幾回か続くと,葉部に存在するレコードに対して,すべ
てフラグがつけられたものとなってしまうことになる。 この状態が生じたら,それ以前のトーナメントによって
抽出された各レコードを1つのストリングとしてまとめ
る。そして,上記フラグがつけられたすべてのレコード
について,当該フラグを取りはずして,トーナメントを
開始する。即ち,新しいストリングを得る処理に入る。
【0021】なお,図8において値「4」をもつレコー
ドが抽出された状態の下で,当該値「4」をもつレコー
ドおよび葉部に存在するいずれかのレコードと同じ値を
もつレコードが入力されたとすると,当該入力されたレ
コードはカウントされるだけで,図8,図9,図10に
示される空白の部分には,更に次のレコードが入力され
てセットされることになる。
【0022】
【発明の効果】以上説明した如く,本発明によれば,処
理の途中段階においても,グループ化処理が適宜行われ
る形となり,処理対象がまとめられることから全体の処
理時間が短縮される。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】初期ストリング生成処理過程を説明する図であ
る。
【図3】中間マージ処理過程を説明する図である。
【図4】最終マージ処理過程を説明する図である。
【図5】本発明の場合の処理態様を示す。
【図6】本発明の場合の処理態様を示す。
【図7】本発明の場合の処理態様を示す。
【図8】トーナメント・ソートの処理態様を示す。
【図9】トーナメント・ソートの処理態様を示す。
【図10】トーナメント・ソートの処理態様を示す。
【図11】データ・グループ化処理を説明する図である
【図12】従来の場合のグループ化処理フローを示す。
【図13】従来の場合の処理態様を示す。
【図14】従来の場合の処理態様を示す。
【図15】従来の場合の処理態様を示す。
【図16】従来の場合の処理態様を示す。
【符号の説明】
101  初期ストリング生成処理過程102  マー
ジ処理過程 1  レコード・データ群 2  出力結果 3  データ・プール 4  初期ストリング 5  中間ストリング 6  最終ストリング

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】  与えられたレコード・データ群につい
    て,当該レコード・データ群内での共通項目を有するデ
    ータをまとめる処理を行うデータ・グループ化処理方法
    において,上記レコード・データ群(1)内の複数個の
    データを抽出した上で,当該複数個のデータ相互間で共
    通項目を有するデータをまとめて初期ストリング(4)
    を逐次生成する初期ストリング生成処理過程(101)
    と,当該初期ストリング生成処理過程(101)におい
    て生成された複数個の初期ストリング(4)相互間で,
    データを抽出しつつ上記共通項目を有するデータをまと
    めるマージ処理過程(102)とを順次実行するよう構
    成し,上記与えられたレコード・データ群内での共通項
    目を有するデータをグループ化するようにしたことを特
    徴とするデータ・グループ化処理方法。
  2. 【請求項2】  上記初期ストリング生成処理過程(1
    01)において,複数個の初期ストリング(4)を生成
    するに当って,上記与えられたレコード・データ群内の
    データを,任意に複数個の集まりに区分し,当該集まり
    の内部において上記共通項目を有するデータをまとめる
    ようにしたことを特徴とする請求項1記載のデータ・グ
    ループ化処理方法。
JP11323491A 1991-05-17 1991-05-17 データ・グループ化処理方法 Pending JPH04340623A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11323491A JPH04340623A (ja) 1991-05-17 1991-05-17 データ・グループ化処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11323491A JPH04340623A (ja) 1991-05-17 1991-05-17 データ・グループ化処理方法

Publications (1)

Publication Number Publication Date
JPH04340623A true JPH04340623A (ja) 1992-11-27

Family

ID=14606970

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11323491A Pending JPH04340623A (ja) 1991-05-17 1991-05-17 データ・グループ化処理方法

Country Status (1)

Country Link
JP (1) JPH04340623A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844606A (ja) * 1994-07-28 1996-02-16 Hokkaido Nippon Denki Software Kk 分散データベースシステム集計処理方式
JP2022037750A (ja) * 2020-08-25 2022-03-09 Kddi株式会社 複数のノード装置における登録情報の不一致を検出するプログラム、配信装置及び方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01171021A (ja) * 1987-12-26 1989-07-06 Hitachi Ltd ソート処理装置
JPH01255030A (ja) * 1988-04-05 1989-10-11 Hitachi Ltd ソート処理装置
JPH02207322A (ja) * 1989-02-08 1990-08-17 Fujitsu Ltd データ処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01171021A (ja) * 1987-12-26 1989-07-06 Hitachi Ltd ソート処理装置
JPH01255030A (ja) * 1988-04-05 1989-10-11 Hitachi Ltd ソート処理装置
JPH02207322A (ja) * 1989-02-08 1990-08-17 Fujitsu Ltd データ処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844606A (ja) * 1994-07-28 1996-02-16 Hokkaido Nippon Denki Software Kk 分散データベースシステム集計処理方式
JP2022037750A (ja) * 2020-08-25 2022-03-09 Kddi株式会社 複数のノード装置における登録情報の不一致を検出するプログラム、配信装置及び方法

Similar Documents

Publication Publication Date Title
JPH03156572A (ja) 論理回路比較検証システムおよび方法
US7584173B2 (en) Edit distance string search
JPH04340623A (ja) データ・グループ化処理方法
JP3159165B2 (ja) 故障診断における推定論理状態管理方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
JP3070093B2 (ja) レコード処理装置
JP3309803B2 (ja) ソート処理方式,方法およびソート処理プログラムを記録した記録媒体
JPH0318937A (ja) 複合的なテストデータ作成方法
JPS6175925A (ja) 複数個の索引をもつフアイルの索引保守方式
JPH02268368A (ja) データ処理装置
JPS6375928A (ja) 一括型分類方式
JPS62159222A (ja) デ−タ検索方式
JPH07120264B2 (ja) ソート処理装置
JPH02165325A (ja) ランダムアクセス可能なファイルのソート方式
JPH02190971A (ja) 索引更新方式
JPH1011338A (ja) リレーショナル・データベース・システム,該システムへのデータ格納・読み出し方法,およびそのためのプログラムを記録した記録媒体
JPH03202934A (ja) データ処理装置
JP2001202391A (ja) 論理回路のシミュレーション方法
JP2724235B2 (ja) 変数名称推論装置
JPH04213111A (ja) データソート方式
JPH09218953A (ja) 属性抽出装置
JPH0324617A (ja) データ処理方式
JPH02244227A (ja) データ入力方法
JPS6082978A (ja) 論理回路のシミュレーション方法
JPH01112364A (ja) データ処理装置
JPH0934899A (ja) 検索経路出力方法及び装置