JPH01171021A - ソート処理装置 - Google Patents

ソート処理装置

Info

Publication number
JPH01171021A
JPH01171021A JP33132987A JP33132987A JPH01171021A JP H01171021 A JPH01171021 A JP H01171021A JP 33132987 A JP33132987 A JP 33132987A JP 33132987 A JP33132987 A JP 33132987A JP H01171021 A JPH01171021 A JP H01171021A
Authority
JP
Japan
Prior art keywords
records
record
data
sorting
counting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP33132987A
Other languages
English (en)
Inventor
Naohiko Shimizu
尚彦 清水
Kiyoshi Yada
矢田 潔
Yuuji Gendai
裕治 源代
Tetsuji Sato
哲司 佐藤
Hideaki Takeda
武田 英昭
Hideki Fukuoka
福岡 秀樹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
NTT Inc
Original Assignee
Hitachi Ltd
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Nippon Telegraph and Telephone Corp filed Critical Hitachi Ltd
Priority to JP33132987A priority Critical patent/JPH01171021A/ja
Publication of JPH01171021A publication Critical patent/JPH01171021A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、入力データの大小関係に基づいて高速にソー
トするソート処理装置に関し、より詳細には、入力デー
タ中に大小関係の判定過程で一致と判定される重複デー
タが存在した場合に、重複しているデータの個数をソー
ト処理中に計数する機能を実現したソート処理装置に関
する。
〔従来の技術〕
一般に、データベース処理で扱うデータをレコードと称
しているが、該レコードは複数の異なる属性を持つカラ
ムから構成されている。従って。
データベース処理では、通常、横方向にカラムを縦方向
にレコードを並べた表形式のデータを処理の対象とする
こと−なる。この表形式をしたデータ自体をデータベー
ス(関係データベース)と称している。
データベース処理では、レコードの件数が極めて大きい
データベースや、複数の異なる情報を持つデータベース
を処理の対象とすることから、汎用の電子計算機で処理
すると膨大な時間を必要とする場合が多い。このため、
データベース処理の一部あるいは全体を直接ハードウェ
アで実行し。
高速化する方法が知られている。特に、データベース処
理の高速化に効果があるソート処理装置の開発が盛んに
進められており、専用ハードウェアで構成したソート処
理装置は、例えば特開昭61−42031号公報に示さ
れている。
この様な専用ソート処理装置を用いて、あらかじめ対象
とするデータベースを所望の規則でソートしておくこと
により、選択、射影、併合等のデータベース処理を大幅
に高速化できる。ニジで。
選択、射影、併合は次のような処理を云う。
選択:入力データベースの特定のカラムの内容が所望の
値を満足するレコードを抽出する。一般に、出力データ
ベースのレコード数は入力レコード数より削減されるが
、各レコードの構成は変わらない。
射影:入力データベースの特定のカラムだけを抽出して
、出力データベースを作成する。
この場合には、各レコードともカラム数が削減されるこ
とから、一般に、出力データベース上に全く同一の内容
を持つ複数のレコードが生成される可能性がある。
同一の内容を持つレコード即ち重複レコードが同一デー
タベース上に存在すると。
選択処理や併合処理で矛盾を生ずることから、一般には
重複レコードは、1個のレコードとして重複除去を行う
併合:2種類のデータベースを入力として、所・望のカ
ラムの値が等しいレコードを結合して、新たなレコード
する。従って、新たに生成されるデータベースは、入力
したデータベースよりレコード長が長くなるのが一般的
である。この場合、入力データベースに重複レコードが
存在すると、出力データベース中には、更にたくさんの
重複レコードが生成され、矛盾が生ずる。
これらのデータベース処理では、あらかじめ入力するデ
ータベースを必要なカラムでソートしておくことにより
、全体の処理時間を大幅に短縮できる。特に、併合処理
では、2種類のデータベースをレコード単位で相互に照
合し、対応するカラムの一致を検査することから、あら
かじめソートしておくことによって、格段に処理時間を
短縮できる。
〔発明が解決しようとする問題点〕
従来の専用ソート処理装置を用いて、あらかじめ処理対
象とするデータベースをソートしておくことによって、
処理の高速化が図れる。しかし、特定のカラムに着目し
てレコードを分類する様な処理、例えば1名前、性別、
年齢の3種類のカラムを持つレコードからなるデータベ
ースを入力として、年齢順のヒストグラムを作成するよ
うな処理は、選択処理の繰返しで実現できるが、この場
合には、分類する場合の数だけデータベースを参照する
必要があるため、膨大な処理時間を必要とする問題があ
った。
また、専用のソート処理装置を用いて予め年齢順にソー
トしてから計数処理を行う場合でも、−般のデータベー
ス処理にみられる重複レコードの除去は、計数処理を行
う以前に実行することはできない。このため、対象とす
るレコード数が大きく重複レコードの比率が高い場合で
あっても、ソート処理と計数処理を独立に行う従来の方
法では、入力レコード数と等しい数のレコードを出力し
なければならず、ソート処理装置の入出力時間だけでも
膨大な時間を必要とする問題があった。
さらに1分類する場合の数が対象とするデータに依存す
る場合には、あらかじめ分類する範囲を設定できない為
、あらかじめ対象とするデータベースを重複レコードを
除去しないようにソートした後に、分類する範囲を変え
ながら計数する処理を繰返さなければならず、ヒストグ
ラムを作成する際に必要な計数処理を高速化することが
困難であった。
本発明は、上記従来技術の問題点を除去することを目的
とし、ソート処理実行中に重複レコードの計数処理を行
う高速なソート処理装置を提供することにある。
〔問題点を解決するための手段〕
上記目的は、入力レコードを相互に比較し、レコードの
大小関係に基づいて並べ替えを行い、昇順あるいは降順
にレコードを出力するソート処理手段と、レコード相互
の比較によって、2個以上のレコードが一致しているこ
とをソート処理中に検出して重複と判定する重複検出手
段と、該重複検出手段で重複と判定されたレコードの個
数を計数する計数手段を設け、ソート処理中に重複レコ
ードの検出と該重複レコードの計数とを同時に行うこと
によって達成される。
〔作 用3 ソート処理中に重複レコードの検出と該重複レコードの
計数を同時に実行する。この場合、ソート対象とする個
々のレコードに計数結果を格納する計数カラムをあらか
じめ付加して、重複レコードの計数結果を計数カラムに
格納する。これにより、誤動作することがないように、
ソート処理の実行過程で不要な重複レコードを除去する
ことが出来る。
〔実施例〕
以下、本発明の一実施例について図面により説明する。
第1図は本発明のソート処理装置の一実施例を示す構成
図である。図中、11は昇順/降順に入力レコードを並
べ替えるソート回路である。12はソート回路12から
の出力レコード1個を格納するバッファ回路である。1
3はソート回路11とバッファ回路12とから出力され
るレコードを比較する比較回路である。14は計数回路
であり。
重複レコード数をカウントする。15はソートされたレ
コードを出力する出力回路である。16は本ソート処理
装置に入力するレコード或いは出力されるレコードを格
納するためのバッファメモリである。
第2図は本ソート処理装置で扱うレコードの構成例を示
す図であり、外部から入力されたレコード本体21に、
重複レコードが検出された場合に計数値を格納するため
の計数カラム22を付加して一つのレコード20とする
。計数カラム22を付加する位置は、ソートする際に該
計数カラムの内容によってソート順序に影響がないよう
に、レコード20の最後部に付与する。
次に、第1図の動作を説明する。ソート回路11は、バ
ッファメモリ16にあらかじめ格納されている入力レコ
ードについて、キー人力で示されたソート処理を行い、
昇順或いは降順に整列して出力する。この種ソート回路
自体は周知であるので、その詳細は省略する。ソート回
路11から出力されるレコードは第2図に示す構成をと
る。このソート回路11から出力されるレコード20を
、バッファ回路12でルコード分保持する6次にソート
回路11からレコード20が出力されると。
該レコード20がバッファ回路12に保持され、それま
でバッファ回路12に保持されていたレコード20はバ
ッファ回路12から出力される。この時、比較回路13
は、ソート回路11から出力されるレコード20とバッ
ファ回路12から出力されるレコード20について、そ
のレコード本体21を比較し、ソート回路11から連続
して出力されるレコード本体21が一致しているか否か
判定し、一致検出信号を出力する。
両者のレコード本体21が一致している場合、計数回路
14は、バッファ回路12から出力されたレコード20
の計数カラム22の内容と、ソート回路11から出力さ
れてバッファ回路12に格納されるレコード20の計数
カラム22の内容とを加算し、該加算結果をバッファ回
路12内のレコード、即ち、あとにソート回路11から
出力されたレコード20の計数カラム22に設定する。
また、ソート回路11から出力されるレコード20のレ
コード本体21とバッファ回路12から出力されるレコ
ード20のレコード本体21が一致している場合、該重
複レコードの出力を抑止するために、比較回路13から
の一致検出信号で出力回路15を制御して、重複レコー
ドを出力しないようにする。
比較回路13で一致が検出されない場合、バッファ回路
12から出力されたレコード20は、出力回路15を通
り、ソート結果として外部へ出力されるか、あるいは以
後のソート処理のためにバソファメモリ16に再格納さ
れる。
第3図は2個のレコード列を入力として、計数処理を行
いながら1個のレコード列としてマージして出力する例
を示したものである。マージ処理はソート回路11で行
う。図中、第1のレコード列は(AAC: 1.ABC
: 3.ABD: 3.・・・)であり、第2のレコー
ド列は(AAC: 1.ABC: 2.ACA: 2.
・・・)であり、出力レコード列は(AAC: 2.A
BC: 3.ABD: 5.・・・)である。数字は計
数カラムの内容であり、レコード本体が同一な重複レコ
ードの個数を表している。
第3図の例では、4個のレコードからなる第1のレコー
ド列と、4個のレコードからなる第2のレコード列をマ
ージし、第1および第2のレコード列に共通に含まれて
レコード(AAC,ABD。
ACB)を重複レコードと判定し、各々の計数カラムの
値を加算して、新たな計数値を出力レコード中に設定し
ている。同時に重複レコードの除去を行っており、第1
および第2の8個の入力レコードに対して出力レコード
は5個に削減されている。即ち、ソート回路11からの
連続的なレコードの出力を阻害しないで、重複レコード
の検出と計数処理を並列して実行できる。
第1図の実施例では、重複レコードの計数結果を出力レ
コードの計数カラムに設定して出力しているが1重複レ
コードの計数値のみが必要な場合には、計数回路14の
値を直接出力すれば十分であり、レコードを出力するた
めの出力回路15を省略することも出来る。この場合に
は、第2図に示したレコード20の構成に於て、計数値
を格納するための計数カラム22を付与しない構成も採
り得る。
レコードが複数のカラムで構成され、各カラムが昇順/
降順、あるいは非キーの指定が組合わせて指定された場
合であっても、本発明の計数処理機能は実施例と同様に
容易に実現することができる。
[発明の効果〕 以上説明したように、本発明のソート処理装置では、ソ
ート処理と同時に重複レコードの計数処理を実行できる
ことから、従来、繰返しデータベースを参照したり、ソ
ート処理後に計数処理を必要とするヒストグラム作成の
ような、レコードの分類・計数処理を大幅に高速化でき
る。更に、分類する場合の数が対象とするデータに依存
する場合であったも、ソート処理と同時に重複レコード
の計数と重複レコードの除去を行えるため、計数処理時
間を短縮できる利点がある。
【図面の簡単な説明】
第1図は本発明のソート処理装置の一実施例の構成図、
第2図は本発明のソート処理装置で扱うレコードの構成
例を示す図、第3図は本発明による具体的処理例を示す
図である。 11・・・ソート回路、  12・・・バッファ回路、
13・・・比較回路、 14・・・計数回路、15・・
・出力回路、  16・・・バッファメモリ。 Ai:  i      ACB; 1ABD:3  
   ハCA:2 ABC=  3       八βD:2ACβ;2 ACA: 2 ABO:5 ABc:3 、AAe: 2

Claims (2)

    【特許請求の範囲】
  1. (1)入力データを相互に比較し、データの大小関係に
    基づいて並べ替えを行い、昇順あるいは降順にデータを
    出力するソート手段と、前記データ相互の比較によって
    、2個以上のデータが一致していることを検出して重複
    と判定する重複検出手段と、前記重複と判定されたデー
    タの個数を計数する計数手段とを具備していることを特
    徴とするソート処理装置。
  2. (2)ソート処理対象とする個々のデータに計数結果を
    格納する計数カラムをあらかじめ付加しておいて、前記
    計数手段による計数結果を重複と判定されたデータの計
    数カラムに格納することを特徴とする特許請求の範囲第
    1項記載のソート処理装置。
JP33132987A 1987-12-26 1987-12-26 ソート処理装置 Pending JPH01171021A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33132987A JPH01171021A (ja) 1987-12-26 1987-12-26 ソート処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33132987A JPH01171021A (ja) 1987-12-26 1987-12-26 ソート処理装置

Publications (1)

Publication Number Publication Date
JPH01171021A true JPH01171021A (ja) 1989-07-06

Family

ID=18242465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33132987A Pending JPH01171021A (ja) 1987-12-26 1987-12-26 ソート処理装置

Country Status (1)

Country Link
JP (1) JPH01171021A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04340623A (ja) * 1991-05-17 1992-11-27 Pfu Ltd データ・グループ化処理方法
JPH06332670A (ja) * 1993-05-19 1994-12-02 Nec Corp 加算回路付きソート処理装置
JPH0844606A (ja) * 1994-07-28 1996-02-16 Hokkaido Nippon Denki Software Kk 分散データベースシステム集計処理方式
JP2022037750A (ja) * 2020-08-25 2022-03-09 Kddi株式会社 複数のノード装置における登録情報の不一致を検出するプログラム、配信装置及び方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5886635A (ja) * 1981-11-18 1983-05-24 Hitachi Ltd デ−タ処理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5886635A (ja) * 1981-11-18 1983-05-24 Hitachi Ltd デ−タ処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04340623A (ja) * 1991-05-17 1992-11-27 Pfu Ltd データ・グループ化処理方法
JPH06332670A (ja) * 1993-05-19 1994-12-02 Nec Corp 加算回路付きソート処理装置
JPH0844606A (ja) * 1994-07-28 1996-02-16 Hokkaido Nippon Denki Software Kk 分散データベースシステム集計処理方式
JP2022037750A (ja) * 2020-08-25 2022-03-09 Kddi株式会社 複数のノード装置における登録情報の不一致を検出するプログラム、配信装置及び方法

Similar Documents

Publication Publication Date Title
CN112579155B (zh) 代码相似性检测方法、装置以及存储介质
US4167728A (en) Automatic image processor
CN110138784A (zh) 一种基于特征选择的网络入侵检测系统
CN111324797A (zh) 一种高速精准获取数据的方法和装置
CN112668301A (zh) 一种环评文件重复度检测方法及系统
JPH01171021A (ja) ソート処理装置
CN116362217A (zh) 一种日志模板确定方法、设备及计算机可读存储介质
JPH0666050B2 (ja) ソート処理方法
JP3534471B2 (ja) マージソート方法及びマージソート装置
JP3151820B2 (ja) 相対キーを利用したカウント分類法によるソート方式
JPH01173230A (ja) ソート処理装置
JP2682448B2 (ja) 索引検索方式
JP2587447B2 (ja) ソート処理装置
JPH07101382B2 (ja) マ−ジ処理装置
CN115249006A (zh) 一种文本处理方法、装置及电子设备
JPH047758A (ja) ファイル処理装置
JP2868127B2 (ja) 字句解析における空白読み飛ばし装置
JP2759951B2 (ja) 汎用多次元集計帳表作成システム
JPS6175925A (ja) 複数個の索引をもつフアイルの索引保守方式
CN118349543A (zh) 一种基于多渠道多维度数据清洗方法及系统
JP2724235B2 (ja) 変数名称推論装置
JPH02206828A (ja) 分類計数装置
CN117077598A (zh) 一种基于Mini-batch梯度下降法的3D寄生参数的优化方法
JPH031227A (ja) ソート処理装置
JPS60245090A (ja) パタ−ン認識方法