JPH11238006A - Data cleaning processing method and apparatus, and recording medium recording data cleaning processing program - Google Patents

Data cleaning processing method and apparatus, and recording medium recording data cleaning processing program

Info

Publication number
JPH11238006A
JPH11238006A JP10037750A JP3775098A JPH11238006A JP H11238006 A JPH11238006 A JP H11238006A JP 10037750 A JP10037750 A JP 10037750A JP 3775098 A JP3775098 A JP 3775098A JP H11238006 A JPH11238006 A JP H11238006A
Authority
JP
Japan
Prior art keywords
record
data
data item
unified
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10037750A
Other languages
Japanese (ja)
Inventor
Takeshi Hayashi
剛 林
Giichi Kishimoto
義一 岸本
Yasushi Hasegawa
靖 長谷川
Tetsuo Ikeda
哲夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10037750A priority Critical patent/JPH11238006A/en
Publication of JPH11238006A publication Critical patent/JPH11238006A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 アプリケーションプログラムの個別作成や人
手による目視確認処理を必要とせずに、表現形式が均一
でないデータが格納されたファイルから不整合データを
除去して統合レコードを効率的に作成するデータクリー
ニング処理方法および装置とデータクリーニング処理プ
ログラムを記録した記録媒体を提供する。 【解決手段】 レコード統一化処理部1でレコード統一
化定義4に従いレコードの各データ項目に対して統一表
現形式のデータ項目の統一化レコードを作成し、レコー
ド統合処理部2でレコード統合定義5に従い統一化レコ
ード群に対して同一データ項目値を有する統一化レコー
ドを統合した統合レコードを作成し、データ項目間制約
条件チェック処理部3でデータ項目間制約条件チェック
定義6に従い統合レコードのデータ項目間制約条件をチ
ェックし、その結果を表示するデータ項目を付加したデ
ータ項目間制約条件チェック結果レコードを作成する。
(57) [Summary] [PROBLEM] To efficiently create an integrated record by removing inconsistent data from a file in which data having a non-uniform expression format is stored without the need to individually create an application program or a manual visual check process. And a recording medium storing a data cleaning processing program and a data cleaning processing program. SOLUTION: A record unification processing unit 1 creates a unified record of data items in a unified expression format for each data item of a record according to a record unification definition 4, and a record unification processing unit 2 complies with a record unification definition 5. An integrated record is created by integrating the unified records having the same data item value with respect to the unified record group, and the inter-data item constraint condition check processing unit 3 executes the inter-data item constraint condition check definition 6 according to the inter-data item constraint condition check definition 6. The constraint condition is checked, and a data item constraint condition check result record to which a data item for displaying the result is added is created.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、データ値の表現形
式が均一でないデータが格納された1つ以上のファイル
から、複数のレコードを突合し、不整合データを除去し
て、統一された表現形式の統合レコードを作成するデー
タクリーニング処理方法および装置とデータクリーニン
グ処理プログラムを記録した記録媒体に関し、更に詳し
くは、例えば複数の基幹系データベースから抽出された
データを統合データベースまたはデータウェアハウスに
格納する際のデータクリーニング処理に適用し得るデー
タクリーニング処理方法および装置に関する。なお、こ
こで使用されているファイルとは、データベースから抽
出されたデータが格納されたファイルである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a unified representation format in which a plurality of records are matched from one or more files storing data in which the representation format of data values is not uniform, and inconsistent data is removed. More specifically, the present invention relates to a data cleaning processing method and apparatus for creating an integrated record and a recording medium on which a data cleaning processing program is recorded, and more specifically, for example, when storing data extracted from a plurality of backbone databases in an integrated database or a data warehouse. The present invention relates to a data cleaning method and apparatus which can be applied to the data cleaning processing. The file used here is a file in which data extracted from the database is stored.

【0002】[0002]

【従来の技術】複数のデータベースから抽出されたデー
タをデータウェアハウスに格納する場合には、複数のデ
ータベースからデータが抽出されるので、(1)同一デ
ータ項目名であるがデータの意味が異質であったり、
(2)異なるデータ項目名であってもデータの意味が同
じであったり、(3)データ属性(型)が相違したり、
(4)データ形式や文字コードが相違したり、(5)デ
ータの不整合が発生するということがある。
2. Description of the Related Art When data extracted from a plurality of databases is stored in a data warehouse, the data is extracted from the plurality of databases. Therefore, (1) the data items have the same data item name but different meanings. Or
(2) Even if the data item names are different, the meaning of the data is the same, (3) the data attribute (type) is different,
(4) Data formats and character codes may differ, and (5) data inconsistency may occur.

【0003】上述した(1)乃至(4)における問題は
複数のデータベースのスキーマ構造の相違に依存する問
題であり、データウェアハウスとして規定した統一スキ
ーマに変換するデータ流通プラットフォームDB-STREAM
(情報処理学会論文誌 Vol.38,No.12,1997,pp.2553-256
5 )により解決されている。
The above problems (1) to (4) depend on differences in the schema structure of a plurality of databases, and a data distribution platform DB-STREAM for converting data into a unified schema defined as a data warehouse.
(Information Processing Society of Japan Vol.38, No.12,1997, pp.2553-256
5) has been resolved.

【0004】[0004]

【発明が解決しようとする課題】上述した(5)におけ
る問題は、複数のデータベース間のデータ値の相違に依
存する問題であり、従来は不整合データの検出および除
去(この処理をデータクリーニング処理と称する)を行
うアプリケーションプログラムを個別に作成したり、ま
たは人手による全データの目視確認で対処する必要があ
り、非効率的であるという問題がある。
The problem (5) described above is a problem depending on the difference in data values between a plurality of databases. Conventionally, detection and removal of inconsistent data (this process is called a data cleaning process) It is necessary to individually create an application program for performing this process, or to manually deal with the problem by visually checking all data, which is inefficient.

【0005】本発明は、上記に鑑みてなされたもので、
その目的とするところは、アプリケーションプログラム
の個別作成や人手による目視確認処理を必要とせずに、
表現形式が均一でないデータが格納されたファイルから
不整合データを除去して統合レコードを効率的に作成す
るデータクリーニング処理方法および装置とデータクリ
ーニング処理プログラムを記録した記録媒体を提供する
ことにある。
[0005] The present invention has been made in view of the above,
Its purpose is to eliminate the need for individual creation of application programs and manual visual confirmation processing.
It is an object of the present invention to provide a data cleaning method and apparatus for efficiently creating an integrated record by removing inconsistent data from a file storing data having a non-uniform expression format, and a recording medium on which a data cleaning program is recorded.

【0006】[0006]

【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、データ値の表現形式が均
一でないデータが格納された入力ファイルから、複数の
レコードを突合し、不整合データを除去して統合レコー
ドを作成するデータクリーニング処理方法であって、レ
コードのデータ表現形式の統一方法を記述するレコード
統一化定義、複数のレコードの統合方法を記述するレコ
ード統合定義、およびレコード内のデータ項目間制約条
件のチェック方法を記述するデータ項目間制約条件チェ
ック定義を設け、データ項目毎のデータ表現形式を統一
化する標準データ統一化部品群、および該標準データ統
一化部品群以外にユーザが指定する統一化を可能とする
個別データ統一化部品群を定義しておき、前記レコード
統一化定義に従い、入力ファイルに格納された1つ以上
のレコードの各データ項目に対して前記標準データ統一
部品群および個別データ統一化部品群を使用し、統一表
現形式のデータ項目を作成し、各レコード中に付加して
統一化レコードを作成するレコード統一化処理を行い、
前記レコード統合定義に従い、レコード統一化処理結果
である統一化レコード群に対して、同一データ項目値を
有する統一化レコードを統合した統合レコードおよび同
一データ項目値を持たない統一化レコードである非統合
レコードをそれぞれ別ファイルに出力するレコード統合
処理を行い、前記データ項目間制約条件チェック定義に
従い、レコード統合処理結果である統合レコード内のデ
ータ項目間制約条件をチェックし、その結果を表示する
データ項目を付加したデータ項目間制約条件チェック結
果レコードを作成し、チェック結果を表示するデータ項
目値に従い、データ項目間制約条件チェック結果レコー
ドを別ファイルに出力するデータ項目間制約条件チェッ
ク処理を行うことを要旨とする。
In order to achieve the above object, according to the present invention, a plurality of records are matched from an input file storing data in which the representation format of data values is not uniform. A data cleaning processing method for creating an integrated record by removing data, a record unification definition that describes a method for unifying the data representation format of records, a record integration definition that describes a method for integrating multiple records, and an inside record A standard data unified component group that unifies the data expression format for each data item, and a standard data unified component group other than the standard data unified component group Define individual data unification parts group that enables unification specified by the user, and according to the record unification definition, Using the standard data unified parts group and the individual data unified parts group for each data item of one or more records stored in the output file, create a data item in a unified representation format and add it to each record Perform record unification processing to create a unified record
According to the record unification definition, a unified record in which unified records having the same data item value are integrated and a unified record which does not have the same data item value are added to the unified record group that is the result of the record unification process. Performs record integration processing to output records to separate files, checks the data item constraint conditions in the integrated record that is the result of the record integration processing according to the data item constraint condition check definition, and displays the result. Creates a data item constraint condition check result record with the data item added and outputs the data item constraint condition check result record to a separate file according to the data item value that displays the check result. Make a summary.

【0007】請求項1記載の本発明にあっては、レコー
ド統一化定義に従い、ファイルに格納されたレコードの
各データ項目に対して統一表現形式のデータ項目を作成
して統一化レコードを作成し、レコード統合定義に従
い、統一化レコード群に対して同一データ項目値を有す
る統一化レコードを統合した統合レコードおよび同一デ
ータ項目値を持たない統一化レコードである非統合レコ
ードを作成してそれぞれ別ファイルに格納し、データ項
目間制約条件チェック定義に従い、統合レコード内のデ
ータ項目間制約条件をチェックし、その結果を表示する
データ項目を付加したデータ項目間制約条件チェック結
果レコードを作成し、該レコードをチェック結果を表示
するデータ項目値に従い別ファイルに出力するため、従
来のように入力ファイル毎にデータクリーニング処理用
アプリケーションプログラムを作成する必要もないとと
もに、人手による全データの目視確認作業も必要なく、
効率化を図ることができる。
According to the first aspect of the present invention, a unified record is created by creating a unified expression format data item for each data item of the record stored in the file in accordance with the unified record definition. According to the record integration definition, create a unified record that integrates unified records that have the same data item value for the unified record group and a non-integrated record that is a unified record that does not have the same data item value, and create separate files for each. In accordance with the definition of the inter-data item constraint condition check, the inter-data item constraint condition in the integrated record is checked, and the data item for displaying the result is added to create a data item constraint condition check result record. Output to a separate file according to the data item value that displays the check result. With no need to create a data cleaning processing application program for each Le, visual confirmation work even without the need for all the data by hand,
Efficiency can be improved.

【0008】また、請求項2記載の本発明は、データ値
の表現形式が均一でないデータが格納された入力ファイ
ルから、複数のレコードを突合し、不整合データを除去
して統合レコードを作成するデータクリーニング処理装
置であって、レコードのデータ表現形式の統一方法を記
述するレコード統一化定義、複数のレコードの統合方法
を記述するレコード統合定義、およびレコード内のデー
タ項目間制約条件のチェック方法を記述するデータ項目
間制約条件チェック定義を格納する定義格納手段と、デ
ータ項目毎のデータ表現形式を統一化する標準データ統
一化部品群、および該標準データ統一化部品群以外にユ
ーザが指定する統一化を可能とする個別データ統一化部
品群を定義して格納する部品群格納手段と、前記レコー
ド統一化定義に従い、入力ファイルに格納された1つ以
上のレコードの各データ項目に対して前記標準データ統
一部品群および個別データ統一化部品群を使用し、統一
表現形式のデータ項目を作成し、各レコード中に付加し
て統一化レコードを作成するレコード統一化処理手段
と、前記レコード統合定義に従い、レコード統一化処理
結果である統一化レコード群に対して、同一データ項目
値を有する統一化レコードを統合した統合レコードおよ
び同一データ項目値を持たない統一化レコードである非
統合レコードをそれぞれ別ファイルに出力するレコード
統合処理手段と、前記データ項目間制約条件チェック定
義に従い、レコード統合処理結果である統合レコード内
のデータ項目間制約条件をチェックし、その結果を表示
するデータ項目を付加したデータ項目間制約条件チェッ
ク結果レコードを作成し、チェック結果を表示するデー
タ項目値に従い、データ項目間制約条件チェック結果レ
コードを別ファイルに出力するデータ項目間制約条件チ
ェック処理手段とを有することを要旨とする。
[0008] According to the present invention, a plurality of records are matched from an input file storing data in which data values are not represented in a uniform format, and inconsistent data is removed to create an integrated record. A cleaning processor that describes a record unification definition that describes how to unify the data representation format of records, a record integration definition that describes how to integrate multiple records, and a method of checking constraints between data items in a record Storage means for storing the constraint check definitions between data items, standard data unified parts group for unifying the data expression format for each data item, and unification specified by the user in addition to the standard data unified parts group A component group storage means for defining and storing individual data unified component groups that enable Using the standard data unified parts group and the individual data unified parts group for each data item of one or more records stored in the input file, create a data item in a unified expression format, and A record unification processing means for adding and creating a unified record, and integration integrating unified records having the same data item value into a unified record group as a result of the record unification processing according to the record unification definition A record integration processing means for outputting a record and a non-integrated record that is a unified record having no identical data item value to separate files, and a record integration processing result in the integrated record according to the data item constraint condition check definition. A data item that checks the constraints between data items and adds a data item that displays the result Create a constraint check result record, the check according to the result data item value for displaying, and summarized in that and a between data items constraint checking processing means for outputting the data items between constraint checking result record in a separate file.

【0009】請求項2記載の本発明にあっては、レコー
ド統一化定義に従い、ファイルに格納されたレコードの
各データ項目に対して統一表現形式のデータ項目を作成
して統一化レコードを作成し、レコード統合定義に従
い、統一化レコード群に対して同一データ項目値を有す
る統一化レコードを統合した統合レコードおよび同一デ
ータ項目値を持たない統一化レコードである非統合レコ
ードを作成してそれぞれ別ファイルに格納し、データ項
目間制約条件チェック定義に従い、統合レコード内のデ
ータ項目間制約条件をチェックし、その結果を表示する
データ項目を付加したデータ項目間制約条件チェック結
果レコードを作成し、該レコードをチェック結果を表示
するデータ項目値に従い別ファイルに出力するため、従
来のように入力ファイル毎にデータクリーニング処理用
アプリケーションプログラムを作成する必要もないとと
もに、人手による全データの目視確認作業も必要なく、
効率化を図ることができる。
According to the present invention, in accordance with the record unification definition, a unified record is created by creating a data item in a unified expression format for each data item of the record stored in the file. According to the record integration definition, create a unified record that integrates unified records that have the same data item value for the unified record group and a non-integrated record that is a unified record that does not have the same data item value, and create separate files for each. In accordance with the definition of the inter-data item constraint condition check, the inter-data item constraint condition in the integrated record is checked, and the data item for displaying the result is added to create a data item constraint condition check result record. Output to a separate file according to the data item value that displays the check result. With no need to create a data cleaning processing application program for each Le, visual confirmation work even without the need for all the data by hand,
Efficiency can be improved.

【0010】更に、請求項3記載の本発明は、データ値
の表現形式が均一でないデータが格納された入力ファイ
ルから、複数のレコードを突合し、不整合データを除去
して統合レコードを作成するデータクリーニング処理プ
ログラムを記録した記録媒体であって、レコードのデー
タ表現形式の統一方法を記述するレコード統一化定義、
複数のレコードの統合方法を記述するレコード統合定
義、およびレコード内のデータ項目間制約条件のチェッ
ク方法を記述するデータ項目間制約条件チェック定義を
設け、データ項目毎のデータ表現形式を統一化する標準
データ統一化部品群、および該標準データ統一化部品群
以外にユーザが指定する統一化を可能とする個別データ
統一化部品群を定義しておき、前記レコード統一化定義
に従い、入力ファイルに格納された1つ以上のレコード
の各データ項目に対して前記標準データ統一部品群およ
び個別データ統一化部品群を使用し、統一表現形式のデ
ータ項目を作成し、各レコード中に付加して統一化レコ
ードを作成するレコード統一化処理を行い、前記レコー
ド統合定義に従い、レコード統一化処理結果である統一
化レコード群に対して、同一データ項目値を有する統一
化レコードを統合した統合レコードおよび同一データ項
目値を持たない統一化レコードである非統合レコードを
それぞれ別ファイルに出力するレコード統合処理を行
い、前記データ項目間制約条件チェック定義に従い、レ
コード統合処理結果である統合レコード内のデータ項目
間制約条件をチェックし、その結果を表示するデータ項
目を付加したデータ項目間制約条件チェック結果レコー
ドを作成し、チェック結果を表示するデータ項目値に従
い、データ項目間制約条件チェック結果レコードを別フ
ァイルに出力するデータ項目間制約条件チェック処理を
行うデータクリーニング処理プログラムを記録媒体に記
録することを要旨とする。
[0010] Further, according to the present invention, a plurality of records are matched from an input file storing data in which a data value is not expressed in a uniform format, and inconsistent data is removed to create an integrated record. A recording medium on which a cleaning processing program is recorded, wherein a record unification definition that describes a method for unifying the data representation format of the record;
A standard that unifies the data representation format for each data item by providing a record integration definition that describes how to integrate multiple records and a definition check for data item constraints that describes how to check constraints between data items in records In addition to the data unifying parts group and the standard data unifying parts group, an individual data unifying parts group that enables unification specified by the user is defined, and is stored in the input file according to the record unifying definition. Using the standard data unified parts group and the individual data unified parts group for each data item of one or more records, create a data item in a unified expression format and add it to each record to create a unified record Perform a record unification process to create a unified record group that is the result of the record unification process according to the record integration definition. Performing a record integration process of outputting an integrated record obtained by integrating unified records having the same data item value and a non-integrated record which is a unified record having no same data item value to separate files, and According to the check definition, check the constraint condition between data items in the integrated record that is the result of record integration processing, create a data item constraint condition check result record with the data item that displays the result, and display the check result The gist of the present invention is to record a data cleaning processing program for performing a data item constraint condition check process for outputting a data item constraint condition check result record to another file in accordance with a data item value on a recording medium.

【0011】請求項3記載の本発明にあっては、レコー
ド統一化定義に従い、ファイルに格納されたレコードの
各データ項目に対して統一表現形式のデータ項目を作成
して統一化レコードを作成し、レコード統合定義に従
い、統一化レコード群に対して同一データ項目値を有す
る統一化レコードを統合した統合レコードおよび同一デ
ータ項目値を持たない統一化レコードである非統合レコ
ードを作成してそれぞれ別ファイルに格納し、データ項
目間制約条件チェック定義に従い、統合レコード内のデ
ータ項目間制約条件をチェックし、その結果を表示する
データ項目を付加したデータ項目間制約条件チェック結
果レコードを作成し、該レコードをチェック結果を表示
するデータ項目値に従い別ファイルに出力するデータク
リーニング処理プログラムを記録媒体に記録しているた
め、該記録媒体を使用して、その流通性を高めることが
できる。
According to the third aspect of the present invention, in accordance with the record unification definition, a data item in a unified expression format is created for each data item of the record stored in the file to create a unified record. According to the record integration definition, create a unified record that integrates unified records that have the same data item value for the unified record group and a non-integrated record that is a unified record that does not have the same data item value, and create separate files for each. In accordance with the definition of the inter-data item constraint condition check, the inter-data item constraint condition in the integrated record is checked, and the data item for displaying the result is added to create a data item constraint condition check result record. Data processing processing that outputs a check result to a separate file according to the data item value Since that records ram on a recording medium, using the recording medium, it is possible to enhance the flow properties.

【0012】[0012]

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0013】図1は、本発明の一実施形態に係るデータ
クリーニング処理装置の構成を示すブロック図である。
同図に示すデータクリーニング処理装置は、データ値の
表現形式が均一でないデータが格納された入力ファイル
から、複数のレコードを突合し、不整合データを除去し
て統合レコードを作成してファイルに出力するものであ
り、本実施形態では、一例として電話番号および顧客名
の表現形式が均一でない2つの顧客データベースから抽
出されたデータが格納されたファイルから電話番号およ
び顧客名が同一のレコードを統合したデータウェアハウ
スを構築する際のデータクリーニング処理に本発明のデ
ータクリーニング処理装置を適用する場合について説明
している。
FIG. 1 is a block diagram showing a configuration of a data cleaning processing apparatus according to an embodiment of the present invention.
The data cleaning processing apparatus shown in FIG. 1 matches a plurality of records from an input file in which data in which data values are expressed in a non-uniform format is stored, removes inconsistent data, creates an integrated record, and outputs the integrated record to a file. In the present embodiment, as an example, data obtained by integrating records having the same telephone number and customer name from a file storing data extracted from two customer databases in which expression forms of telephone numbers and customer names are not uniform The case where the data cleaning processing apparatus of the present invention is applied to data cleaning processing when constructing a warehouse is described.

【0014】図1において、1はレコード統一化処理
部、2はレコード統合処理部、3はデータ項目間制約条
件チェック処理部、4はレコード統一化定義、5はレコ
ード統合定義、6はデータ項目間制約条件チェック定
義、7は標準データ統一化部品群、8は個別データ統一
化部品群、9と10は入力ファイル、11と12はレコ
ード統一化処理結果ファイル、13は統合レコード格納
ファイル、14と15は非統合レコード格納ファイル、
16はデータ制約条件チェック結果OKファイル、17
はデータ制約条件チェック結果NGファイルである。
In FIG. 1, reference numeral 1 denotes a record unification processing unit, 2 denotes a record integration processing unit, 3 denotes a data item constraint condition check processing unit, 4 denotes a record unification definition, 5 denotes a record integration definition, and 6 denotes a data item. 7 is a standard data unified component group, 8 is an individual data unified component group, 9 and 10 are input files, 11 and 12 are record unification processing result files, 13 is an integrated record storage file, 14 And 15 are non-integrated record storage files,
16 is a data constraint condition check result OK file, 17
Is a data constraint condition check result NG file.

【0015】レコード統一化定義4は、レコードのデー
タ表現形式の統一方法を記述した定義であり、レコード
統合定義5は、複数のレコードの統合方法を記述した定
義であり、またデータ項目間制約条件チェック定義6
は、統合コード内のデータ項目間制約条件のチェック方
法を記述した定義である。レコード統一化定義4、レコ
ード統合定義5、データ項目間制約条件チェック定義6
は、具体的にはメモリ等に格納されているものである。
The record unification definition 4 is a definition that describes a method of unifying the data expression format of records. The record integration definition 5 is a definition that describes a method of integrating a plurality of records. Check definition 6
Is a definition describing a method of checking constraints between data items in the integrated code. Record unification definition 4, record integration definition 5, data item constraint condition check definition 6
Are, for example, stored in a memory or the like.

【0016】また、標準データ統一化部品群7は、デー
タ項目毎のデータ表現形式を統一化する部品群であり、
個別データ統一化部品群8は、標準データ統一化部品群
7以外にユーザが指定する統一化を可能とする部品群で
ある。なお、標準データ統一化部品群7および個別デー
タ統一化部品群8は、その情報がメモリ等に格納されて
いるものである。
The standard data unifying component group 7 is a component group for unifying the data expression format for each data item.
The individual data unifying component group 8 is a component group that can be unified by the user in addition to the standard data unifying component group 7. Note that the standard data unified parts group 7 and the individual data unified parts group 8 have their information stored in a memory or the like.

【0017】レコード統一化処理部1は、レコード統一
化定義4に従い、標準データ統一化部品群7および個別
データ統一化部品群8を用いて、入力ファイル9中のレ
コードのデータ項目に対する統一表現形式のデータ項目
を付加し、レコード統一化処理結果ファイル11に格納
する。次に、レコード統一化処理部1は、上記と同様
に、入力ファイル10中の各レコードのデータ項目に対
する統一表現形式のデータ項目を付加し、レコード統一
化処理結果ファイル12に格納する。
According to the record unification definition 4, the record unification processing unit 1 uses the standard data unification parts group 7 and the individual data unification parts group 8 to form a unified expression format for the data items of the records in the input file 9. Are added and stored in the record unification processing result file 11. Next, similarly to the above, the record unification processing unit 1 adds a data item in a unified expression format to the data item of each record in the input file 10 and stores the data item in the record unification processing result file 12.

【0018】レコード統合処理部2は、突合対象のデー
タ項目を指定したレコード統合定義5に従い、レコード
統一化処理部1の処理結果であるレコード統一化処理結
果ファイル11とレコード統一化処理結果ファイル12
中のレコードを突合し、同一のデータ項目値を持つレコ
ードを統合レコードとして、統合レコード格納ファイル
13に格納する。同一のデータ項目値を持たないレコー
ド統一化処理結果ファイル11中とレコード統一化処理
結果ファイル12中のレコードは、それぞれ非統合レコ
ード格納ファイル14と非統合レコード格納ファイル1
5に格納する。
According to the record integration definition 5 specifying the data items to be compared, the record integration processing unit 2 records the record unification processing result file 11 and the record unification processing result file 12 which are the processing results of the record unification processing unit 1.
The records inside are matched, and records having the same data item value are stored in the integrated record storage file 13 as integrated records. The records in the record unification processing result file 11 and the record unification processing result file 12 that do not have the same data item value are the non-integrated record storage file 14 and the non-integrated record storage file 1, respectively.
5 is stored.

【0019】データ項目間制約条件チェック処理部3
は、統合レコード格納ファイル13中の統合レコードの
データ項目値がデータ項目間制約条件チェック定義6を
満足するかどうかをチェックし、その結果(同一、相違
を識別する値)をデータ項目として追加し、そのデータ
項目値に従い、データ制約条件チェック結果OKファイ
ル16もしくはデータ制約条件チェック結果NGファイ
ル17のいずれかに格納する。
Data item constraint condition checking section 3
Checks whether the data item value of the integrated record in the integrated record storage file 13 satisfies the inter-data item constraint condition check definition 6, and adds the result (a value for identifying the same or different) as a data item. In accordance with the data item value, the data constraint condition check result OK file 16 or the data constraint condition check result NG file 17 is stored.

【0020】次に、各部の詳細について図2〜図4に示
す説明図および図5に示す全体の動作を示すフローチャ
ートを参照して説明する。
Next, details of each part will be described with reference to explanatory diagrams shown in FIGS. 2 to 4 and a flowchart showing the entire operation shown in FIG.

【0021】まず、レコード統一化処理部1の詳細につ
いて図2の説明図を参照して説明する。
First, the details of the record unification processing unit 1 will be described with reference to the explanatory diagram of FIG.

【0022】図2において、1はレコード統一化処理
部、4はレコード統一化定義、7は標準データ統一化部
品群、8は個別データ統一化部品群、9と10は入力フ
ァイル、11と12はレコード統一化処理結果ファイ
ル、18と19は入力レコード、20と21は統一化レ
コードである。
In FIG. 2, 1 is a record unification processing unit, 4 is a record unification definition, 7 is a standard data unification component group, 8 is an individual data unification component group, 9 and 10 are input files, 11 and 12 Is a record unification processing result file, 18 and 19 are input records, and 20 and 21 are unified records.

【0023】入力ファイル9と入力ファイル10中に
は、それぞれ1つ以上の入力レコード18と入力レコー
ド19が格納されている。入力レコード18は、複数の
データ項目A1〜Anで構成される。入力レコード19
は、複数のデータ項目B1〜Bmで構成される。
The input files 9 and 10 store one or more input records 18 and 19, respectively. The input record 18 includes a plurality of data items A1 to An. Input record 19
Is composed of a plurality of data items B1 to Bm.

【0024】レコード統一化処理部1は、入力ファイル
9から入力レコード18を読み込み(図5のステップS
11)、入力レコード18のデータ項目A1〜Anに対
して使用する標準データ統一化部品群7および個別デー
タ統一化部品群8を指定したレコード統一化定義4に従
い、入力レコード18のデータ項目A1〜Anに対応す
る統一表現形式のデータ項目NA1〜NAnを付加す
る。例えば、A1が電話番号を格納するデータ項目であ
る場合、電話番号の様々な表現形式(“012−345
−6789”,“012(345)6789”,“(0
12)345−6789”など)を統一表現形式(“0
123456789”)に変換し、データ項目NA1と
して付加する。また、A2が顧客名を格納するデータ項
目である場合、顧客名の様々な表現形式を統一し(例え
ば、“(株)…”,“株)…”,“(株) …”,“…株
式会社”,“…(株)”,“…(株”などを“株式会社
…”に統一)、データ項目NA2として付加し、レコー
ド統一化処理結果ファイル11に格納する。これを入力
ファイル9のすべての入力レコード18に対して行う
(ステップS13)。
The record unification processing unit 1 reads the input record 18 from the input file 9 (step S in FIG. 5).
11) According to the record unification definition 4 specifying the standard data unifying parts group 7 and the individual data unifying parts group 8 used for the data items A1 to An of the input record 18, the data items A1 to Data items NA1 to NAn in the unified expression format corresponding to An are added. For example, when A1 is a data item that stores a telephone number, various expression forms (“012-345”) of the telephone number are used.
−6789 ”,“ 012 (345) 6789 ”,“ (0
12) 345-6789 ”) in a unified expression format (“ 0
123456789 ") and add it as a data item NA1. When A2 is a data item for storing a customer name, various expressions of the customer name are unified (for example," (stock) ... "," Stock)… ”,“ (stock)… ”,“… stock ”,“… (stock) ”,“… (stock), etc. are unified into “stock ....”), and added as data item NA2 to unify records. This is stored in the conversion result file 11. This is performed for all the input records 18 of the input file 9 (step S13).

【0025】次に、レコード統一化処理部1は、入力フ
ァイル10中のすべての入力レコード19に対して、上
記と同様の処理を行い、レコード統一化処理結果ファイ
ル12を作成する(ステップS13)。
Next, the record unification processing unit 1 performs the same processing as described above for all the input records 19 in the input file 10 to create a record unification processing result file 12 (step S13). .

【0026】次に、レコード統合処理部2の詳細につい
て図3を参照して説明する。
Next, details of the record integration processing section 2 will be described with reference to FIG.

【0027】図3において、2はレコード統合処理部、
5はレコード統合定義、11と12はレコード統一化処
理結果ファイル、13は統合レコード格納ファイル、1
4と15は非統合レコード格納ファイル、20と21は
統一化レコード、22は統合レコード、23と24は非
統合レコードである。
In FIG. 3, reference numeral 2 denotes a record integration processing unit;
5 is a record integration definition, 11 and 12 are record unification processing result files, 13 is an integrated record storage file, 1
4 and 15 are non-integrated record storage files, 20 and 21 are unified records, 22 is an integrated record, and 23 and 24 are non-integrated records.

【0028】レコード統一化処理結果ファイル11とレ
コード統一化処理結果ファイル12中には、それぞれ1
つ以上の統一化レコード20と統一化レコード21が格
納されている。統一化レコード20は、データ項目A1
〜An,NA1〜NAnで構成される。統一化レコード
21はデータ項目B1〜Bm,NB1〜NBmで構成さ
れる。
In the record unification processing result file 11 and the record unification processing result file 12,
One or more unified records 20 and unified records 21 are stored. The unified record 20 includes the data item A1
To An and NA1 to NAn. The unified record 21 includes data items B1 to Bm and NB1 to NBm.

【0029】レコード統合処理部2は、複数レコードの
統合方法を記述したレコード統合定義5(例えば、統一
表現形式の電話番号で統合する場合の定義:「統一化レ
コード20のデータ項目NA1と統一化レコード21の
データ項目NB1の値が同一のレコードを統合する」)
に従い、データ項目NA1とデータ項目NB1の値が一
致する統一化レコード20と21から、データ項目A1
〜An,NA1〜NAn,B1〜Bm,NB1〜NBm
から構成される統合レコード22を作成し、統合レコー
ド格納ファイル13に格納する(ステップS15)。デ
ータ項目NA1の値と一致するデータ項目NB1を持つ
統一化レコード21が存在しない統一化レコード20
は、非統合レコード23として非統合レコード格納ファ
イル14に格納する。データ項目NB1の値と一致する
データ項目NA1を持つ統一化レコード20が存在しな
い統一化レコード21は、非統合レコード24として非
統合レコード格納ファイル15に格納する(ステップS
17)。
The record integration processing unit 2 performs a record integration definition 5 describing a method of integrating a plurality of records (for example, a definition when integrating by a telephone number in a unified expression format: “Unification with data item NA1 of unified record 20”). Integrate records where the value of data item NB1 of record 21 is the same ”)
From the unified records 20 and 21 in which the values of the data item NA1 and the data item NB1 match, the data item A1
~ An, NA1 ~ NAn, B1 ~ Bm, NB1 ~ NBm
Is created and stored in the integrated record storage file 13 (step S15). There is no unified record 21 having a data item NB1 that matches the value of the data item NA1.
Is stored in the non-integrated record storage file 14 as the non-integrated record 23. The unified record 21 having no unified record 20 having the data item NA1 that matches the value of the data item NB1 is stored in the non-integrated record storage file 15 as the non-integrated record 24 (step S).
17).

【0030】次に、データ項目間制約条件チェック処理
部3の詳細について図4を参照して説明する。
Next, details of the inter-data item constraint condition check processing section 3 will be described with reference to FIG.

【0031】図4において、3はデータ項目間制約条件
チェック処理部、6はデータ項目間制約条件チェック定
義、13は統合レコード格納ファイル、16はデータ制
約条件チェック結果OKファイル、17はデータ制約条
件チェック結果NGファイル、22は統合レコード、2
5はデータ項目間制約条件チェック結果レコードであ
る。
In FIG. 4, reference numeral 3 denotes an inter-data item constraint condition check processing unit, 6 denotes a data item constraint condition check definition, 13 denotes an integrated record storage file, 16 denotes a data constraint condition check result OK file, and 17 denotes a data constraint condition. Check result NG file, 22 is integrated record, 2
Reference numeral 5 denotes a data item constraint condition check result record.

【0032】統合レコード格納ファイル13中には、1
つ以上の統合レコード22が格納されている。統合レコ
ード22は、データ項目A1〜An,NA1〜NAn,
B1〜Bm,NB1〜NBmから構成される。
In the integrated record storage file 13, 1
One or more integrated records 22 are stored. The integrated record 22 includes data items A1 to An, NA1 to NAn,
B1 to Bm and NB1 to NBm.

【0033】データ項目間制約条件チェック処理部3
は、データ項目間制約条件チェック定義6(例えば、顧
客名が同一であるかをチェックする場合の定義:「デー
タ項目NA2とNB2が同一であること」)に従い、統
合レコード22のデータ項目間の制約条件をチェック
し、チェック結果(例えば、同一は“0”、相違は
“9”の値)を示すデータ項目NCを付加したデータ項
目間制約条件チェック結果レコード25を作成し、デー
タ項目NCの値が同一を示す値(“0”)である場合は
データ制約条件チェック結果OKファイル16へ格納
し、データ項目NCの値が相違を示す値(“9”)であ
る場合はデータ制約条件チェック結果NGファイル17
へ格納する(ステップS19)。
Data item constraint condition checking section 3
Is defined between the data items of the integrated record 22 according to the inter-data item constraint condition check definition 6 (for example, a definition for checking whether the customer name is the same: “data items NA2 and NB2 are the same”). The constraint condition is checked, and a data item NC condition check result record 25 to which a data item NC indicating a check result (for example, the same is “0” and the difference is “9”) is created, and the data item NC is checked. If the value is the same value (“0”), the result is stored in the data constraint condition check result OK file 16. If the value of the data item NC is the value indicating the difference (“9”), the data constraint condition check is performed. Result NG file 17
(Step S19).

【0034】[0034]

【発明の効果】以上説明したように、本発明によれば、
レコード統一化定義に従いレコードの各データ項目に対
して統一表現形式のデータ項目を作成して統一化レコー
ドを作成し、レコード統合定義に従い統一化レコード群
に対して同一データ項目値を有する統一化レコードを統
合して統合レコードを作成し、データ項目間制約条件チ
ェック定義に従い統合レコード内のデータ項目間制約条
件をチェックし、その結果を表示するデータ項目を付加
したデータ項目間制約条件チェック結果レコードを作成
し、該レコードをチェック結果を表示するデータ項目値
に従い別ファイルに出力するので、従来のように入力フ
ァイル毎にデータクリーニング処理用アプリケーション
プログラムを個別に作成する必要もないとともに、人手
による全データの目視確認作業も必要なく、効率化を図
ることができる。
As described above, according to the present invention,
A unified record is created by creating a unified expression format data item for each data item of the record according to the record unification definition, and a unified record having the same data item value for the unified record group according to the record unification definition To create an integrated record, check the inter-data item constraint conditions in the integrated record according to the inter-data item constraint condition check definition, and add the data item Since it is created and the record is output to a separate file according to the data item value indicating the check result, it is not necessary to separately create an application program for the data cleaning process for each input file as in the past, and all the data must be manually created. Thus, efficiency can be improved without the need for visual confirmation work.

【0035】特に、本発明では、ユーザがレコード統一
化定義、レコード統合定義およびデータ項目間制約条件
チェック定義の3つの定義を行うだけでデータクリーニ
ング処理を実現できる。また、データクリーニング処理
をレコード統一化処理、レコード統合処理、データ項目
間制約条件チェック処理に分割することにより、データ
クリーニング処理内容に変更が発生した場合、処理内容
の修正箇所が限定され修正が容易であるとともに、各処
理の再利用が容易であり、不整合レコードの除去が段階
的に可能であって、不整合原因を早期に特定することが
できる。
In particular, in the present invention, the data cleaning process can be realized only by the user performing three definitions of the record unification definition, the record integration definition, and the data item constraint condition check definition. In addition, by dividing the data cleaning process into record unification process, record integration process, and data item constraint condition check process, if a change occurs in the data cleaning process content, the correction location of the process content is limited and correction is easy. In addition, each process can be easily reused, the inconsistency record can be removed in stages, and the cause of the inconsistency can be identified at an early stage.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に係るデータクリーニング
処理装置の構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a data cleaning processing device according to an embodiment of the present invention.

【図2】図1に示すデータクリーニング処理装置に使用
されているレコード統一化処理部の詳細な作用を示す説
明図である。
FIG. 2 is an explanatory diagram showing a detailed operation of a record unification processing unit used in the data cleaning processing device shown in FIG.

【図3】図1に示すデータクリーニング処理装置に使用
されているレコード統合処理部の詳細な作用を示す説明
図である。
FIG. 3 is an explanatory diagram showing a detailed operation of a record integration processing unit used in the data cleaning processing device shown in FIG.

【図4】図1に示すデータクリーニング処理装置に使用
されているデータ項目間制約条件チェック処理部の詳細
な作用を示す説明図である。
FIG. 4 is an explanatory diagram showing a detailed operation of a data item constraint condition check processing unit used in the data cleaning processing device shown in FIG. 1;

【図5】図1に示すデータクリーニング処理装置の全体
的処理を示すフローチャートである。
FIG. 5 is a flowchart showing an overall process of the data cleaning processing device shown in FIG. 1;

【符号の説明】[Explanation of symbols]

1 レコード統一化処理部 2 レコード統合処理部 3 データ項目間制約条件チェック処理部 4 レコード統一化定義 5 レコード統合定義 6 データ項目間制約条件チェック定義 7 標準データ統一化部品群 8 個別データ統一化部品群 1 Record unification processing unit 2 Record unification processing unit 3 Data item constraint condition check processing unit 4 Record unification definition 5 Record unification definition 6 Data item constraint condition check definition 7 Standard data unification component group 8 Individual data unification component group

───────────────────────────────────────────────────── フロントページの続き (72)発明者 池田 哲夫 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 ──────────────────────────────────────────────────の Continued on the front page (72) Inventor Tetsuo Ikeda Nippon Telegraph and Telephone Corporation 3-19-2 Nishishinjuku, Shinjuku-ku, Tokyo

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 データ値の表現形式が均一でないデータ
が格納された入力ファイルから、複数のレコードを突合
し、不整合データを除去して統合レコードを作成するデ
ータクリーニング処理方法であって、 レコードのデータ表現形式の統一方法を記述するレコー
ド統一化定義、複数のレコードの統合方法を記述するレ
コード統合定義、およびレコード内のデータ項目間制約
条件のチェック方法を記述するデータ項目間制約条件チ
ェック定義を設け、 データ項目毎のデータ表現形式を統一化する標準データ
統一化部品群、および該標準データ統一化部品群以外に
ユーザが指定する統一化を可能とする個別データ統一化
部品群を定義しておき、 前記レコード統一化定義に従い、入力ファイルに格納さ
れた1つ以上のレコードの各データ項目に対して前記標
準データ統一部品群および個別データ統一化部品群を使
用し、統一表現形式のデータ項目を作成し、各レコード
中に付加して統一化レコードを作成するレコード統一化
処理を行い、 前記レコード統合定義に従い、レコード統一化処理結果
である統一化レコード群に対して、同一データ項目値を
有する統一化レコードを統合した統合レコードおよび同
一データ項目値を持たない統一化レコードである非統合
レコードをそれぞれ別ファイルに出力するレコード統合
処理を行い、 前記データ項目間制約条件チェック定義に従い、レコー
ド統合処理結果である統合レコード内のデータ項目間制
約条件をチェックし、その結果を表示するデータ項目を
付加したデータ項目間制約条件チェック結果レコードを
作成し、チェック結果を表示するデータ項目値に従い、
データ項目間制約条件チェック結果レコードを別ファイ
ルに出力するデータ項目間制約条件チェック処理を行う
ことを特徴とするデータクリーニング処理方法。
1. A data cleaning processing method for matching a plurality of records from an input file storing data in which a data value has a non-uniform expression format and removing inconsistent data to create an integrated record, comprising: A record unification definition that describes how to unify the data representation format, a record integration definition that describes how to integrate multiple records, and a data item constraint check definition that describes how to check the constraints between data items in a record A standard data unified component group that unifies the data expression format for each data item, and an individual data unified component group that enables unification specified by the user in addition to the standard data unified component group According to the record unification definition, for each data item of one or more records stored in the input file, Using the standard data unified parts group and the individual data unified parts group to create a data item in a unified expression format, and perform a record unification process of creating a unified record by adding to each record; According to the unification definition, for the unified record group that is the result of the record unification processing, the unified record that unified the unified records that have the same data item value and the non-integrated record that is the unified record that does not have the same data item value Performs a record integration process to output to separate files, checks the constraint condition between data items in the integrated record, which is the result of the record integration process, and adds a data item to display the result according to the above-mentioned constraint definition check between data items Creates a check result record between the data item constraint conditions and displays the check results. According to another item value,
A data cleaning processing method characterized by performing a data item constraint condition check process of outputting a data item constraint condition check result record to another file.
【請求項2】 データ値の表現形式が均一でないデータ
が格納された入力ファイルから、複数のレコードを突合
し、不整合データを除去して統合レコードを作成するデ
ータクリーニング処理装置であって、 レコードのデータ表現形式の統一方法を記述するレコー
ド統一化定義、複数のレコードの統合方法を記述するレ
コード統合定義、およびレコード内のデータ項目間制約
条件のチェック方法を記述するデータ項目間制約条件チ
ェック定義を格納する定義格納手段と、 データ項目毎のデータ表現形式を統一化する標準データ
統一化部品群、および該標準データ統一化部品群以外に
ユーザが指定する統一化を可能とする個別データ統一化
部品群を定義して格納する部品群格納手段と、 前記レコード統一化定義に従い、入力ファイルに格納さ
れた1つ以上のレコードの各データ項目に対して前記標
準データ統一部品群および個別データ統一化部品群を使
用し、統一表現形式のデータ項目を作成し、各レコード
中に付加して統一化レコードを作成するレコード統一化
処理手段と、 前記レコード統合定義に従い、レコード統一化処理結果
である統一化レコード群に対して、同一データ項目値を
有する統一化レコードを統合した統合レコードおよび同
一データ項目値を持たない統一化レコードである非統合
レコードをそれぞれ別ファイルに出力するレコード統合
処理手段と、 前記データ項目間制約条件チェック定義に従い、レコー
ド統合処理結果である統合レコード内のデータ項目間制
約条件をチェックし、その結果を表示するデータ項目を
付加したデータ項目間制約条件チェック結果レコードを
作成し、チェック結果を表示するデータ項目値に従い、
データ項目間制約条件チェック結果レコードを別ファイ
ルに出力するデータ項目間制約条件チェック処理手段と
を有することを特徴とするデータクリーニング処理装
置。
2. A data cleaning processing apparatus for matching a plurality of records from an input file in which data in which a data value expression format is not uniform is stored, and creating an integrated record by removing inconsistent data. A record unification definition that describes how to unify the data representation format, a record integration definition that describes how to integrate multiple records, and a data item constraint check definition that describes how to check the constraints between data items in a record Definition storage means for storing, a standard data unifying component group for unifying the data expression format for each data item, and an individual data unifying component for enabling unification specified by a user other than the standard data unifying component group Component group storage means for defining and storing a group, and stored in an input file according to the record unification definition Using the standard data unified parts group and the individual data unified parts group for each data item of one or more records, create a data item in a unified expression format and add it to each record to create a unified record. According to the record unification processing means to be created, and according to the record unification definition, an integrated record and an identical data item value obtained by integrating unified records having the same data item value are obtained for a unified record group that is a result of the record unification process. A record integration processing means for outputting non-integrated records, which are unified records that do not have, to separate files, and checking the inter-data item constraint conditions in the integrated record, which is the record integration processing result, according to the data item constraint condition check definition And the data item to display the result is added. Create a de, according to the data item value to display the check result,
A data cleaning processing apparatus comprising: a data item constraint condition check processing means for outputting a data item constraint condition check result record to another file.
【請求項3】 データ値の表現形式が均一でないデータ
が格納された入力ファイルから、複数のレコードを突合
し、不整合データを除去して統合レコードを作成するデ
ータクリーニング処理プログラムを記録した記録媒体で
あって、 レコードのデータ表現形式の統一方法を記述するレコー
ド統一化定義、複数のレコードの統合方法を記述するレ
コード統合定義、およびレコード内のデータ項目間制約
条件のチェック方法を記述するデータ項目間制約条件チ
ェック定義を設け、 データ項目毎のデータ表現形式を統一化する標準データ
統一化部品群、および該標準データ統一化部品群以外に
ユーザが指定する統一化を可能とする個別データ統一化
部品群を定義しておき、 前記レコード統一化定義に従い、入力ファイルに格納さ
れた1つ以上のレコードの各データ項目に対して前記標
準データ統一部品群および個別データ統一化部品群を使
用し、統一表現形式のデータ項目を作成し、各レコード
中に付加して統一化レコードを作成するレコード統一化
処理を行い、 前記レコード統合定義に従い、レコード統一化処理結果
である統一化レコード群に対して、同一データ項目値を
有する統一化レコードを統合した統合レコードおよび同
一データ項目値を持たない統一化レコードである非統合
レコードをそれぞれ別ファイルに出力するレコード統合
処理を行い、 前記データ項目間制約条件チェック定義に従い、レコー
ド統合処理結果である統合レコード内のデータ項目間制
約条件をチェックし、その結果を表示するデータ項目を
付加したデータ項目間制約条件チェック結果レコードを
作成し、チェック結果を表示するデータ項目値に従い、
データ項目間制約条件チェック結果レコードを別ファイ
ルに出力するデータ項目間制約条件チェック処理を行う
ことを特徴とするデータクリーニング処理プログラムを
記録した記録媒体。
3. A recording medium storing a data cleaning processing program for matching a plurality of records from an input file in which data in which a data value is expressed in a non-uniform format is stored and removing inconsistent data to create an integrated record. A record unification definition that describes how to unify the data representation format of records, a record integration definition that describes how to integrate multiple records, and a data item that describes how to check constraints between data items in a record A standard data unified component group that provides a constraint condition check definition and unifies the data expression format for each data item, and an individual data unified component that enables unification specified by the user in addition to the standard data unified component group A group is defined, and one or more records stored in the input file are defined according to the record unification definition. The standard data unified parts group and the individual data unified parts group are used for each data item of the code, a data item in a unified expression format is created, and added to each record to create a unified record According to the record integration definition, a unified record that integrates unified records having the same data item value and unification that does not have the same data item value are performed for the unified record group that is the result of the record unification process according to the record unification process Performs a record integration process to output each non-integrated record that is a structured record to a separate file, and checks the inter-data item constraint condition in the integrated record that is the result of the record integration process according to the data item constraint condition check definition. Create a data item constraint condition check result record to which the data item for displaying the result is added, According to the data item value to display the Ekku result,
A recording medium storing a data cleaning processing program for performing a data item constraint condition check process for outputting a data item constraint condition check result record to a separate file.
JP10037750A 1998-02-19 1998-02-19 Data cleaning processing method and apparatus, and recording medium recording data cleaning processing program Pending JPH11238006A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10037750A JPH11238006A (en) 1998-02-19 1998-02-19 Data cleaning processing method and apparatus, and recording medium recording data cleaning processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10037750A JPH11238006A (en) 1998-02-19 1998-02-19 Data cleaning processing method and apparatus, and recording medium recording data cleaning processing program

Publications (1)

Publication Number Publication Date
JPH11238006A true JPH11238006A (en) 1999-08-31

Family

ID=12506162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10037750A Pending JPH11238006A (en) 1998-02-19 1998-02-19 Data cleaning processing method and apparatus, and recording medium recording data cleaning processing program

Country Status (1)

Country Link
JP (1) JPH11238006A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215646A (en) * 2001-01-22 2002-08-02 Nec Corp Lacking data complementing method and lacking data complementing system
JP2003067234A (en) * 2001-08-29 2003-03-07 Landscape:Kk Database managing system
JP2009533739A (en) * 2006-04-11 2009-09-17 インターナショナル・ビジネス・マシーンズ・コーポレーション System, method, medium, and computer program for providing configuration data of configurable items (weighting determination in configuration management system)
CN106709035A (en) * 2016-12-29 2017-05-24 贵州电网有限责任公司电力科学研究院 Preprocessing system for electric power multi-dimensional panoramic data

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215646A (en) * 2001-01-22 2002-08-02 Nec Corp Lacking data complementing method and lacking data complementing system
JP2003067234A (en) * 2001-08-29 2003-03-07 Landscape:Kk Database managing system
JP2009533739A (en) * 2006-04-11 2009-09-17 インターナショナル・ビジネス・マシーンズ・コーポレーション System, method, medium, and computer program for providing configuration data of configurable items (weighting determination in configuration management system)
JP4886845B2 (en) * 2006-04-11 2012-02-29 インターナショナル・ビジネス・マシーンズ・コーポレーション System, method, medium, and computer program for providing configuration data of configurable items (weighting determination in configuration management system)
CN106709035A (en) * 2016-12-29 2017-05-24 贵州电网有限责任公司电力科学研究院 Preprocessing system for electric power multi-dimensional panoramic data
CN106709035B (en) * 2016-12-29 2019-11-26 贵州电网有限责任公司电力科学研究院 A kind of pretreatment system of electric power multidimensional panoramic view data

Similar Documents

Publication Publication Date Title
US7092956B2 (en) Deduplication system
KR101153069B1 (en) Design of spreadsheet functions for working with tables of data
US8886617B2 (en) Query-based searching using a virtual table
US8321469B2 (en) Systems and methods of profiling data for integration
US20050216378A1 (en) Method and apparatus for mapping dimension-based accounting entries to allow segment-based reporting
CN110704635B (en) A method and device for converting triplet data in knowledge graphs
KR20160117965A (en) Method and apparatus for generating NoSQL model
CN118170785A (en) A data blood relationship analysis system and method
JPH11238006A (en) Data cleaning processing method and apparatus, and recording medium recording data cleaning processing program
US7225412B2 (en) Visualization toolkit for data cleansing applications
JP2019159837A (en) Database binding apparatus, database binding method, and database binding program
JP2009169474A (en) System log management support apparatus and system log management support method
JP2001256043A (en) Correction history management method and correction history management system for program source
CN115756486A (en) Data interface analysis method and device
CN113626385A (en) Method and system based on text data reading
CN114265839A (en) Universal processing method and device for plain text interface file access relational database
JPH02278335A (en) Software standardization method
JPH09153091A (en) File generation system for reporting
JPH01280831A (en) In-program data name standardization support method
JP2003345865A (en) Method and apparatus for analyzing operation, program, and storage medium
JP2024121524A (en) Microservice design support system, microservice design support method and program
JPH11272433A (en) File dump output method with item names
CN115827096A (en) Visualization method, device, device and medium of software product
JP3482651B2 (en) Data processing device
JP2003030575A (en) Data aggregation / form editing system, data aggregation / form editing method, and data aggregation / form editing program