CN104798043B

CN104798043B - 一种数据处理方法和计算机系统

Info

Publication number: CN104798043B
Application number: CN201480003034.4A
Authority: CN
Inventors: 彭渊; 谢元智
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2014-06-27
Filing date: 2014-06-27
Publication date: 2019-11-12
Anticipated expiration: 2034-06-27
Also published as: WO2015196476A1; US9984336B2; US20160012352A1; EP2988230A1; CN104798043A; EP2988230A4

Abstract

提供了一种数据处理方法和计算机系统，计算机系统可以对数据样本进行离散化处理，得到矩阵形式的数据样本(S101)，根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集(S102)，并将所述分类规则集转换为数据决策平台识别的分类规则集(S103)后，提供给所述数据决策平台(S104)，从而所述数据决策平台能够根据所述计算机系统转换得到的所述数据决策平台识别的分类规则集进行数据决策。上述从对数据样本进行训练，到将训练得到的分类规则集应用到数据决策的过程都由计算机系统自动完成，避免了人工参与，当数据样本变化或者原有的分类规则集需要更新时，能够及时获得更新的分类规则集。

Description

一种数据处理方法和计算机系统

技术领域

本发明实施例涉及计算机技术，特别涉及一种数据处理方法和计算机系统。

背景技术

数据挖掘(Data Mining，DM)是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程，是人工智能和数据库领域研究的热点问题。数据挖掘能够通过分析大量数据中的每个数据，从大量数据中寻找其规律，能够高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。

近年来，随着计算能力、存储、网络的高速发展，人类积累的数据量正以指数速度增长，基于海量数据进行数据挖掘变得越来越重要。然而，在现有技术中，从对数据样本进行建模分析到将模型结果应用到数据决策，通常不是由机器自动化完成的，而是需要基于多人工角色结合机器分析来实现。例如，以金融领域对海量数据处理为例，通常需要由金融模型专家基于商业挖掘分析软件对数据样本进行建模，得到模型文件；然后由规则开发团队将模型文件转换成规则集配置文件；由数据模型团队将规则集配置文件和数据进行映射；最后再由云计算团队将规则集配置文件进行封装后打包到数据平台进行数据决策。

由于现有技术中从数据建模到数据决策需要基于多人工角色结合机器分析实现，一旦模型条件或者数据样本发生变化，将导致模型结果变化，需要经过较长时间才能将变化的模型结果生效为规则文件应用到数据平台上，影响数据决策。

发明内容

为了解决现有技术的问题，本发明实施例提出了一种数据处理方法和计算机系统。

第一方面，本发明实施例提供了一种数据处理方法，该方法包括：

计算机系统对数据样本进行离散化处理，得到矩阵形式的数据样本；

所述计算机系统根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集；

所述计算机系统利用数据决策平台识别的表达形式，将所述分类规则集转换为所述数据决策平台识别的分类规则集；

所述计算机系统将所述转换得到的所述数据决策平台识别的分类规则集提供给所述数据决策平台。

结合第一方法，在第一种可能的实现方式中，所述预设的分类方法为决策树算法；则所述计算机系统根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集；所述计算机系统利用数据决策平台识别的表达形式，将所述分类规则集转换为所述数据决策平台识别的分类规则集包括：

所述计算机系统根据所述决策树算法，对所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则集；所述计算机系统利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述计算机系统包括主计算节点和多个决策树计算节点；则所述计算机系统根据所述决策树算法，对所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则集包括：所述主计算节点发送决策树计算命令给每个所述决策树计算节点；每个所述决策树计算节点根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则；所述决策树形式的分类规则集为每个所述决策树计算节点得到的决策树形式的分类规则的集合。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述主计算节点发送决策树计算命令给每个所述决策树计算节点；每个所述决策树计算节点根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则包括：

所述主计算节点获取算法配置参数，所述算法配置参数包括所述矩阵形式的数据样本中训练样本的信息以及参与决策树生成的属性的信息；所述主计算节点发送所述决策树计算命令给每个所述决策树计算节点，所述决策树计算命令携带所述算法配置参数；每个所述决策树计算节点根据所述决策树计算命令携带的所述算法配置参数，从所述矩阵形式的数据样本中确定训练样本和参与决策树生成的属性，并根据所述确定的参与决策树生成的属性对所述确定的训练样本进行训练，得到决策树形式的分类规则。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述方法还包括：所述主计算节点在确定每个所述决策树计算节点都得到决策树形式的分类规则之后，发送测试命令给每个所述决策树计算节点；每个所述决策树计算节点根据所述测试命令，从所述矩阵形式的数据样本中获得测试样本集，并利用自身得到的决策树形式的分类规则对所述测试样本集进行测试，得到测试结果集；所述主计算节点获取每个所述决策树计算节点得到的测试结果集；所述主计算节点根据预设的投票规则和每个所述决策树计算节点得到的测试结果集，确定测试的准确率；当测试的准确率在预设合理范围内时，所述主计算节点执行将所述分类规则集转换为所述数据决策平台识别的分类规则集的步骤。

结合第一方面的第三种或第四种可能的实现方式，在第五种可能的实现方式中，所述矩阵形式的数据样本中训练样本的信息包括所述矩阵形式的数据样本的存储地址、所述矩阵形式的数据样本中的训练样本与测试样本的比例、以及随机获取样本的比例。

结合第一方面的第二种至第五种任一可能的实现方式，在第六种可能的实现方式中，所述计算机系统利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集包括：每个所述决策树计算节点根据所述主计算节点的指示或者预设的转换策略，利用所述数据决策平台识别的表达形式，将自身得到的决策树形式的分类规则转换为所述数据决策平台识别的分类规则；所述数据决策平台识别的分类规则集为每个所述决策树计算节点得到的所述数据决策平台识别的分类规则的集合。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，所述计算机系统将所述数据决策平台识别的分类规则集提供给所述数据决策平台包括：所述主计算节点获取每个所述决策树计算节点得到的所述数据决策平台识别的分类规则，得到所述数据决策平台识别的分类规则集；所述主计算节点将所述数据决策平台识别的分类规则集提供给所述数据决策平台。

结合第一方面的第二种至第五种任一可能的实现方式，在第八种可能的实现方式中，所述计算机系统利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集包括：每个所述决策树计算节点根据所述主计算节点的指示或者预设的转换策略，将自身得到的决策树形式的分类规则转换为键/值形式的分类规则；所述主计算节点获取每个所述决策树计算节点得到的键/值形式的分类规则，得到键/值形式的分类规则集，其中，所述键/值形式的分类规则集为每个所述决策树计算节点得到的键/值形式的分类规则的集合；所述主计算节点利用所述数据决策平台识别的表达形式，将所述键/值形式的分类规则集转换为所述数据决策平台识别的分类规则集；则所述计算机系统将所述数据决策平台识别的分类规则集提供给所述数据决策平台包括：所述主计算节点将所述数据决策平台识别的分类规则集提供给所述数据决策平台。

结合第一方面或第一方面的第一种至第八种任一可能的实现方式，在第九种可能的实现方式中，所述数据决策平台识别的表达形式为以下至少之一：正则表达式，和二进制表达式。

第二方面，本发明实施例提供了一种计算机系统，包括：

离散化模块，用于对数据样本进行离散化处理，得到矩阵形式的数据样本；

处理模块，用于根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集，利用数据决策平台识别的表达形式，将所述分类规则集转换为所述数据决策平台识别的分类规则集，将所述转换得到的所述数据决策平台识别的分类规则集提供给所述数据决策平台。

结合第二方面，在第一种可能的实现方式中，所述预设的分类方法为决策树算法；则所述处理模块具体用于根据所述决策树算法，对所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则集，利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集。

结合第二方面的第一种可能的实现方法，在第二种可能的实现方式中，所述处理模块包括主计算单元和多个决策树计算单元；所述主计算单元用于发送决策树计算命令给每个所述决策树计算单元；每个所述决策树计算单元用于根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则；所述决策树形式的分类规则集为每个所述决策树计算单元得到的决策树形式的分类规则的集合。

结合第二方面的第二种可能的实现方法，在第三种可能的实现方式中，所述主计算单元具体用于获取算法配置参数，所述算法配置参数包括所述矩阵形式的数据样本中训练样本的信息以及参与决策树生成的属性的信息，发送所述决策树计算命令给每个所述决策树计算单元，所述决策树计算命令携带所述算法配置参数；每个所述决策树计算单元具体用于根据所述决策树计算命令携带的所述算法配置参数，从所述矩阵形式的数据样本中确定训练样本和参与决策树生成的属性，并根据所述确定的参与决策树生成的属性对所述确定的训练样本进行训练，得到决策树形式的分类规则。

结合第二方面的第三种可能的实现方法，在第四种可能的实现方式中，所述主计算单元还用于在确定每个所述决策树计算单元都得到决策树形式的分类规则之后，发送测试命令给每个所述决策树计算单元；每个所述决策树计算单元还用于根据所述测试命令，从所述矩阵形式的数据样本中获得测试样本集，并利用自身得到的决策树形式的分类规则对所述测试样本集进行测试，得到测试结果集；所述主计算单元还用于获取每个所述决策树计算单元得到的测试结果集，根据预设的投票规则和每个所述决策树计算单元得到的测试结果集，确定测试的准确率，当测试的准确率在预设合理范围内时，执行将所述分类规则集转换为所述数据决策平台识别的分类规则集的操作。

结合第二方面的第三种或第四种可能的实现方式，在第五种可能的实现方式中，所述矩阵形式的数据样本中训练样本的信息包括所述矩阵形式的数据样本的存储地址、所述矩阵形式的数据样本中的训练样本与测试样本的比例、以及随机获取样本的比例。

结合第二方面的第二种至第五种任一可能的实现方式，在第六种可能的实现方式中，每个所述决策树计算单元还用于根据所述主计算单元的指示或者预设的转换策略，利用所述数据决策平台识别的表达形式，将自身得到的决策树形式的分类规则转换为所述数据决策平台识别的分类规则；所述数据决策平台识别的分类规则集为每个所述决策树计算单元得到的所述数据决策平台识别的分类规则的集合。

结合第二方面的第六种可能的实现方式，在第七种可能的实现方式中，所述主计算单元还用于获取每个所述决策树计算单元得到的所述数据决策平台识别的分类规则，得到所述数据决策平台识别的分类规则集，将所述数据决策平台识别的分类规则集提供给所述数据决策平台。

结合第二方面的第二种至第五种任一可能的实现方式，在第八种可能的实现方式中，每个所述决策树计算单元还用于根据所述主计算单元的指示或者预设的转换策略，将自身得到的决策树形式的分类规则转换为键/值形式的分类规则；所述主计算单元还用于获取每个所述决策树计算单元得到的键/值形式的分类规则，得到键/值形式的分类规则集，其中，所述键/值形式的分类规则集为每个所述决策树计算单元得到的键/值形式的分类规则的集合，利用所述数据决策平台识别的表达形式，将所述键/值形式的分类规则集转换为所述数据决策平台识别的分类规则集，以及将所述数据决策平台识别的分类规则集提供给所述数据决策平台。

结合第二方面或第二方面的第一种至第八种任一可能的实现方式，在第九种可能的实现方式中，所述数据决策平台识别的表达形式为以下至少之一：正则表达式，和二进制表达式。

第三方面，本发明实施例提出了一种计算机系统，包括处理器、存储器、总线和通信接口；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述计算机系统运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述计算机系统执行第一方面所述的数据处理方法或第一方面的任一种可能的实现方式所述的数据处理方法。

第四方面，本发明实施例提出了一种计算机可读介质，其特征在于，包括计算机执行指令，以供计算机的处理器执行所述计算机执行指令时，所述计算机执行第一方面所述的数据处理方法或第一方面的任一种可能的实现方式所述的数据处理方法。

本发明实施例中，计算机系统可以对数据样本进行离散化处理，得到矩阵形式的数据样本，根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集，并将所述分类规则集转换为数据决策平台识别的分类规则集后，提供给所述数据决策平台，从而所述数据决策平台能够根据所述计算机系统转换得到的所述数据决策平台识别的分类规则集进行数据决策。上述从对数据样本进行训练(即对数据样本进行建模)，到将训练得到的分类规则集(即模型结果)应用到数据决策的过程都由计算机系统自动完成，避免了人工参与，当数据样本变化或者原有的分类规则集需要更新时，能够及时获得更新的分类规则集，并及时将更新的分类规则集应用到数据决策平台进行数据决策。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对现有技术或实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据处理方法的流程图；

图2是本发明实施例提供的又一种数据处理方法的流程图；

图3是本发明实施例提供的又一种数据处理方法的流程图；

图4是本发明实施例提供的一种计算机系统的示意图；

图5是本发明实施例提供的又一种计算机系统的结构组成示意图。

具体实施方式

本发明实施例提出了一种数据处理方法和计算机系统，能够利用计算机系统完成从对数据样本进行训练(即对数据样本进行建模)，到将训练得到的分类规则集(即模型结果)应用到数据决策的所有过程，具体实现方式详见实施例。

实施例一

本发明实施例提出了一种数据处理方法，如图1所示，所述方法包括：

101：计算机系统对数据样本进行离散化处理，得到矩阵形式的数据样本。

为了能够对数据样本进行分析，得到数据样本中隐藏的可以为决策提供所需要的信息，可以将数据样本转换为矩阵形式。将数据样本转换为矩阵形式有多种方式。在本发明实施例中，所述数据样本可以是海量数据，则所述计算机系统可以通过对数据样本进行离散化处理的方式，得到矩阵形式的数据样本。采用离散化处理的方式，不仅能够将数据样本转换为矩阵形式，还可以提高计算效率。

在本发明实施例中离散化是指把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。其基本思想就是在众多可能的情况中“只考虑我需要用的值”。进行离散化处理，能够当输入数据的范围是无限空间或者输入数据有很大量重复时，作一映射，从输入的无限空间映射到逻辑上的有限、有序的空间，同时避免重复，以此提高算法的时空效率。

例如：假设数据样本中包含了大量用户的年龄数据“20；11；84；16；17；41；19；21；35；29；29；27；24；67；……”，我们知道寿命虽然存在一定的范围，但是年龄存在大量不同的值，可以对这组年龄数据进行离散化处理，映射到有限的几种空间中，具体方法如下：就具体业务而言，很多时候其实并不关心太过连续的年龄呈现，只需要关心几个年龄段，如S₁婴儿期(1-3岁)、S₂幼儿期(3-6)岁、S₃儿童期(6-12岁)、S₄青少年(12-18岁)、S₅青年期(18-30岁)、S₆中年期(30-60岁)、S₇老年期(60岁以上)，可以将上述年龄数据映射到这7个空间中来，如果将这7个空间用带下标的字符表示，则经过离散化处理之后，上述年龄数据可以表示为[S₅；S₃；S₇；S₄；S₄；S₆；S₅；S₅；S₆；S₅；S₅；S₅；S₅；S₇；……]。

又例如，数据样本中包含了大量用户的住址“深圳市南山区XX街道XX号；深圳市龙岗区坂田XX路XX号；……”，属于无限空间中有限的个体，并且住址信息中包括了大量的字符串，需要消耗大量的计算资源。其实就贷款业务而言，可以对用户的住址进行离散化处理映射到有限的几个空间中来，如将用户的住址映射到“Q₁穷人区；Q₂中产区；Q₃富人区；”这三个空间中来，有效的节约了对数据样本进行分析消耗的资源，提高了计算效率。

在实际应用过程中，数据样本中可能包括大量用户的信息即大量的样本，每个用户的信息中可能包括年龄、住址、存款额等信息，则上述年龄、住址、存款额等可以分别代表数据样本中的一个属性，从而样本中所有用户的年龄为一组属性，样本中所有用户的住址为一组属性，以此类推。在进行离散化处理时，可以分别对数据样本中的每组属性进行离散化处理，最终得到离散化处理之后的矩阵形式的数据样本。

例如，假设数据样本为{“小明，25岁，现居住地为深圳市南山区XX街道XX号，收入为10-15万/年，信用记录一般，……，定期存款3-5万”；“小红，11岁，现居住地为深圳市宝安区XX街道XX号，收入为0-0.5万/年，信用记录暂无，……，定期存款40-45万”；……；“小白，28岁，现居住地为深圳市罗湖区XX街道XX号，收入为40-50万/年，信用记录一般，……，定期存款35-40万”；}，包括了一亿用户的信息，每个用户的信息中包括了年龄、现居住地、收入、信用记录、……、定期存款等50项信息，则对数据样本进行离散化处理器时，可以分别对一亿用户的年龄、现矩阵地、收入、信息记录等进行离散化处理，经过离散化处理之后，所述数据样本中的每个用户的年龄都可以用S_i表示(i为1至7的正整数)，其中S₁表示年龄为1-3岁、S₂表示年龄为3-6岁、S₃表示年龄为6-12岁、S₄表示年龄为12-18岁、S₅表示年龄为18-30岁、S₆表示年龄为30-60岁、S₇表示年龄为60岁以上；所述数据样本中的每个用户的现居住地都可以用Q_j表示(j＝1,2,3)，其中Q₁表示居住在穷人区；Q₂表示居住在中产区；Q₃表示居住在富人区，以此类推；最终经过离散化处理之后得到矩阵形式的数据样本可以如表1所示：

表1

由表1可知，经过离散化处理之后得到的矩阵形式的数据样本由一亿行和50列组成。所述矩阵形式的第一列可以代表年龄即第一组属性，第二列可以代表现居住地即第二组属性，第三列可以代表收入即第三组属性，第四列可以代表信用记录即第四组属性，第50列可以代表定期存款额即第50组属性；通过将数据样本离散化转换为矩阵形式的数据样本，不仅能够方便运用多种方式对数据样本进行分析和计算，还可以在很大程度上节省计算和存储资源，有利于对海量数据进行处理。

102：所述计算机系统根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集。

对数据进行分析主要包括分类与预测两种方式，可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型，其中，分类方法(Classification)可以用于预测数据对象的离散类别(Categorical Label)，预测方法(Prediction)用于预测数据对象的连续取值。

在本发明实施例中，所述计算机系统对矩阵形式的数据样本进行分析具体可以采用分类方法。所述计算机系统通过采用分类方法，可对所述矩阵形式的数据样本进行训练，发现矩阵形式的数据样本中的分类规则集，并以此预测后续数据决策平台上需要决策的生产数据的类别，进行数据决策。例如，可以采用分类方法中的决策树算法，对所述矩阵形式的数据样本进行训练，得到分类规则集，从而可以以此预测后续数据决策平台上需要决策的生产数据的类别进行数据决策；又例如，可以采用分类方法中的贝叶斯算法或者用户自定义的算法，对所述矩阵形式的数据样本进行分析，得到分类规则集。上述对矩阵形式的数据样本进行训练，即对矩阵形式的数据样本进行建模，训练得到的分类规则集，即建模得到的模型结果。

进一步，当所述数据样本为海量数据时，为了能够快速、高效地处理海量数据，所述计算机系统还可以根据预设的分类方法，采用并行计算的方式对所述矩阵形式的数据样本进行训练，得到分类规则集。所述并行计算(Parallel Computing，又称为平行计算)是相对于串行计算来说的，是指同时使用多种计算资源解决计算问题的过程，其基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。具体地，所述计算机系统可以有多个计算节点，所述计算机系统可以利用自身的多个计算节点，对所述矩阵形式的数据样本进行训练，得到分类规则集，所述多个计算节点中的每个计算节点都参与了训练，即参与了分类规则集的计算，从而极大的提高了计算效率。而现有技术中利用基于商业挖掘分析软件对数据样本进行建模时，无法对海量数据进行建模。

需要注意地是，在本发明全文中，所述并行计算包括分布式并列计算(又称分布式并行计算)，分布式并列计算能够指把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。则所述计算机系统可以是含有多个处理器的超级计算机，也可以是分布式计算机，例如以某种方式互连的若干台的独立计算机构成的集群，则所述计算节点既可以是指处理器，也可以是独立计算机，本发明实施例在此不作限定。

103：所述计算机系统利用数据决策平台识别的表达形式，将所述分类规则集转换为所述数据决策平台识别的分类规则集。

上述利用预设的分类算法计算得到的分类规则集，通常情况下以变量或字符串等形式存在于计算机中，为了让数据决策平台能够利用分类规则对生产数据进行数据决策，需要将分类规则集转换为数据决策平台能够识别的表达形式。例如，如果所述数据决策平台可以识别正则表达式，则所述计算机系统可以利用正则表达式，将所述分类规则集转换为正则规则集；又例如，如果所述数据决策平台可以识别二进制表达式，则所述计算机系统可以将所述分类规则集编译为二进制形式的分类规则集(后续为表达方便，将二进制形式的分类规则集简称为二进制规则集)。

其中，所述生产数据即为所述数据决策平台需要进行数据决策的数据。

104：所述计算机系统将所述转换得到的所述数据决策平台识别的分类规则集提供给所述数据决策平台。

所述计算机系统将所述数据决策平台识别的分类规则集提供给所述数据决策平台，从而后续所述数据决策平台能够根据所述计算机系统提供的分类规则集，预测生产数据的类别，进行数据决策。

在实际应用中，所述数据决策平台具体可以是云平台，还可以是由计算机组成的业务系统等，本发明实施例在此不作限定。

实施例二

本发明实施例提供了一种数据处理方法，如图2所示，计算机系统可以根据决策树算法，采用并行计算的方式对所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则集，应用到数据决策平台。其中，所述计算机系统可以包括主计算节点和多个决策树计算节点，所述主计算节点将采用并行计算的方式，指示所述多个决策树计算节点都参与到对所述矩阵形式的数据样本的训练中来，所述方法包括：

201：计算机系统的离散化节点对数据样本进行离散化处理，得到矩阵形式的数据样本，并保存所述矩阵形式的数据样本。

所述计算机系统的离散化节点对数据样本进行离散化处理得到矩阵形式的数据样本的方式，可以参见步骤101，本发明实施例在此不再赘述。

在得到矩阵形式的数据样本后，所述计算机系统的离散化节点可以将所述矩阵形式的数据样本保存到本地或者其他存储设备中，以便后续所述计算机系统的主计算节点指示所述计算机系统的多个决策树计算节点对所述矩阵形式的数据样本进行训练时，只用提供所述矩阵形式的数据样本的存储地址，而不用将所述矩阵形式的数据样本发送给各个决策树计算节点，从而有效节约了资源。

所述离散化节点可以是所述计算机系统中的任何一个计算节点执行，例如可以所述主计算节点，或者还可以是所述决策树计算节点，或者还可以是除所述主计算节点和所述决策树计算节点以外的任何一个计算节点。

202：所述计算机系统的主计算节点发送决策树计算命令给所述计算机系统的每个所述决策树计算节点；每个所述决策树计算节点根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则；则每个所述决策树计算节点得到的决策树形式的分类规则的集合可以称为决策树形式的分类规则集。

在本发明实施例中，所述计算机系统的主计算节点，可以采用并行计算的方式，指示所述计算机系统中的多个决策树计算节点都根据决策树算法，参与到对所述矩阵形式的数据样本的训练中来，从而提高计算效率。此时，每个决策树计算节点都将对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则(也可以称为决策树)，后续可以将每个所述决策树计算节点得到的决策树形式的分类规则的集合，即决策树形式的分类规则集提供给数据决策平台，从而数据决策平台进行数据决策时可以参考每个决策树计算节点得到的决策树树形式的分类规则。其中，所述主计算节点与所述决策树计算节点不同。

为了实现上述并行计算的方案，具体可以采用随机森林的方式，基本思想如下：所述主计算节点可以指示多个决策树计算节点，对部分所述矩阵形式的数据样本进行多轮训练，在每一轮训练中，所述决策树计算节点都从矩阵形式的数据样本中有放回地随机抽取训练样本进行训练得到一颗决策树(即决策树形式的分类规则)，由于采用了多个决策树计算节点，多轮训练之间可以并行进行，提高了计算效率，有利于对海量数据进行处理。最终则得到的多颗决策树可以组成随机森林，随机森林中的每一棵决策树都是随机地从数据样本中选取训练数据进行训练得到的。当所述数据决策平台需要对生产数据进行决策时，可以利用随机森林中的每一颗决策树(即决策树形式的分类规则)分别进行判断，看看这个生产数据对应于每一颗决策树(即决策树形式的分类规则)而言属于哪一类，然后综合每一颗决策树的分类结果，根据预设的投票规则预测这个生产数据为哪一类，例如看看哪一类被选中最多则预测生产数据为哪一类。采用随机森林的方式不仅分类速度很快，而且可以实现并行计算。

基于上述基本思想，所述计算机系统的主计算节点发送决策树计算命令给所述计算机系统的每个所述决策树计算节点，每个所述决策树计算节点根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则可以包括如下步骤：

202a：所述主计算节点获取算法配置参数，所述算法配置参数包括所述矩阵形式的数据样本中训练样本的信息以及参与决策树生成的属性的信息。

矩阵形式的数据样本中可以包含了多组属性，例如年龄、现居住地、收入、工作行业、信用记录、定期存款额等。由于相同的属性在不同业务中起到的作用可能不同，例如在对矩阵形式的数据样本进行分析，将用户分类为可以贷款的用户和不可以贷款的用户时，可能更关心年龄、信用记录、定期存款额等属性，此时进行决策树生成时可以选取年龄、信用额度、定期存款额等属性，而在其他业务需求中对对矩阵形式的数据样本进行分析时，可能并不关心信用额度、定期存款额等属性，而关心购物时间，网购商品类型等属性。因此，所述计算机系统的主计算节点需要从矩阵形式的数据样本所包含的属性中确定出所述参与决策树生成的属性的信息，从而所述决策树计算节点可以根据所述参与决策树生成的属性的信息，确定参与决策树生成的属性。例如所述参与决策树生成的属性的信息可以是所述参与决策树生成的属性的标识，则后续每个所述决策树计算节点可以直接根据所述参与决策树生成的属性的标识，确定参与决策树生成的属性；又例如，所述参与决策树生成的属性的信息可以是所述参与决策树生成的属性的个数，则后续每个所述决策树计算节点可以根据所述参与决策树生成的属性的个数，从所述矩阵形式的数据样本所包含的所有属性中，随机选择参与决策树生成的属性。

此外，所述主计算节点还需要确定所述矩阵形式的数据样本中训练样本的信息，从而每个所述决策树计算节点可以根据所述矩阵形式的数据样本中训练样本的信息，从所述矩阵形式的数据样本中得到训练样本进行训练，得到决策树形式的分类规则。例如，所述矩阵形式的数据样本中训练样本的信息可以包括所述矩阵形式的数据样本的存储地址、所述矩阵形式的数据样本中的训练样本与测试样本的比例以及随机获取样本的比例，从而每个所述决策树计算节点根据所述矩阵形式的数据样本的存储地址，按照所述矩阵形式的数据样本中的训练样本与测试样本的比例，可以选取训练样本，再根据随机获取样本的比例，有放回地随机抽取所述选取的训练样本进行训练。

所述主计算节点获取所述矩阵形式的数据样本中训练样本的信息以及参与决策树生成的属性的信息即算法配置参数的方式可以有多种，例如所述主计算节点可以根据预设的规则或者预设的业务特性自动生成算法配置参数，或者所述主计算节点可以获取预置的算法配置参数，或者所述主计算节点可以接收算法配置参数等等，本发明实施例在此不作限制。

可选地，所述主计算节点还可以确定随机森林中的决策树的数量，根据所述随机森林中的决策树的数量从所述计算机系统在线的计算节点中确定多个决策树计算节点，从而可以利用多个决策树计算节点并行计算随机森林中的决策树。例如，当确定随机森林中的决策树的数量为15时，可以从在线的计算节点中选择15个决策树计算节点，每个决策树计算节点参与一轮决策树训练得到一颗决策树，由15个决策树计算节点并行计算得到的随机森林中包含的15颗决策树，当然，在其他可行的方式中，也可以选取2-14个决策树计算节点，每个决策树计算节点至少进行一轮决策树训练得到一颗决策树。其中，所述在线的计算节点是指所述计算机系统中能够正常工作的计算节点。

在本发明实施例中，所述计算机系统可以是含有多个处理器的超级计算机，也可以是分布式计算机，例如以某种方式互连的若干台的独立计算机构成的集群，则所述计算机系统中的计算节点(包括所述主计算节点和所述决策树计算节点)既可以是处理器，也可以是独立计算机，本发明实施例在此不作限定。

202b：所述主计算节点发送所述决策树计算命令给每个所述决策树计算节点，所述决策树计算命令携带所述算法配置参数。

202c：每个所述决策树计算节点根据所述决策树计算命令携带的所述算法配置参数，从所述矩阵形式的数据样本中确定训练样本和参与决策树生成的属性，并根据所述确定的参与决策树生成的属性对所述确定的训练样本进行训练，得到决策树形式的分类规则。

每个所述决策树计算节点在接收到决策树计算命令后，可以根据所述决策树计算命令携带的所述矩阵形式的数据样本中训练样本的信息，从所述矩阵形式的数据样本中随机获取训练样本，以及根据所述决策树计算命令携带的参与决策树生成的属性的信息，确定参与决策树生成的属性，从而可以根据所述确定的参与决策树生成的属性对所述确定的训练样本进行训练，得到决策树(即决策树形式的分类规则)。

值得注意的是，虽然每个决策树计算节点进行决策树训练的训练数据都来自所述矩阵形式的数据样本，但是每个决策树计算节点进行决策树训练的训练数据都是随机从所述矩阵形式的数据样本获取的，因此每个决策树计算节点训练得到的决策树(即决策树形式的分类规则)是不同的，没有关联的。

203：所述主计算节点在确定每个所述决策树计算节点都得到决策树形式的分类规则之后，发送测试命令给每个所述决策树计算节点；每个所述决策树计算节点根据所述测试命令，从所述矩阵形式的数据样本中获得测试样本集，并利用自身得到的决策树形式的分类规则对所述测试样本集进行测试，得到测试结果集。

所述主计算节点在确定每个所述决策树计算节点都得到决策树形式的分类规则之后，还可以对得到的决策树形式的分类规则集进行测试，当测试的准确率在预设合理范围内时，才将该决策树形式的分类规则应用到数据决策平台进行数据决策，否则需要进行重新训练得到新的决策树形式的分类规则集。具体地，各个决策树计算节点在完成生产决策时形式的分类规则之后，可以各自返回任务完成指示，从而所述主计算节点可以在所有的决策树计算节点都返回任务完成指示之后，发送测试命令给每个所述决策树计算节点；每个所述决策树计算节点可以根据所述测试命令，利用所述矩阵形式的数据样本中测试样本的信息，从所述矩阵形式的数据样本中获得测试样本集，并利用自身的决策树形式的分类规则对所述测试样本集进行测试，得到测试结果集。

需要说明的是，所述主计算节点在测试开始前将所述矩阵形式的数据样本中测试样本的信息提供给所述决策树计算节点即可，例如所述主计算节点可以所述矩阵形式的数据样本中测试样本的信息携带在所述所述测试命令中。所述矩阵形式的数据样本中的测试样本的信息可以包括所述矩阵形式的数据样本的存储地址、所述矩阵形式的数据样本中的训练样本与测试样本的比例，则每个所述决策树计算节点在收到测试命令后，可以根据所述矩阵形式的数据样本的存储地址，按照所述矩阵形式的数据样本中的训练样本与测试样本的比例，从所述矩阵形式的数据样本的存储地址中获取测试样本集，所述测试样本集中可以包括多个测试数据。

值得注意地是，每个所述决策树计算节点获得的测试样本集需要相同即测试数据相同，这样后续才能够按照预设的投票规则对每个决策树计算节点得到的测试结果集进行投票，得到最终结果集。

204：所述主计算节点获取每个所述决策树计算节点得到的测试结果集，根据预设的投票规则和每个所述决策树计算节点得到的测试结果集，确定测试的准确率，当测试的准确率在预设合理范围内时，执行步骤205。

所述主计算节点可以获取每个所述决策树计算节点测试得到的测试结果集，然后根据所述预设的投票规则和每个所述决策树计算节点得到的测试结果集，确定最终结果集，根据最终结果集，确定测试的准确率。

例如，假设利用5个决策树计算节点训练得到了决策树形式的分类规则A、决策树形式的分类规则B、决策树形式的分类规则C、决策树形式的分类规则D和决策树形式的分类规则E。用相同的测试样本集对每个计算节点得到的决策树形式的分类规则进行测试，将得到5组测试结果集。这意味着对于测试样本集中的每一个测试样本而言，都将对应5组测试结果。所述主计算节点可以按照对同一测试样本对应的5组测试结果中，哪一种测试结果出现次数最多即为最终测试结果的方法，得最终测试结果集。比如利用规则A对测试样本集中的测试样本1进行测试，测试结果为可以贷款，利用规则B对测试样本1进行测试，测试结果为不可以贷款，利用规则C对测试样本1进行测试，测试结果为不可以贷款，利用规则D对测试样本1进行测试，测试结果为不可以贷款，利用规则E对测试样本1进行测试，测试结果为可以贷款，则测试样本1的最终测试结果为不可以贷款，同样地，如果测试样本集中包括了1万个测试样本，则可以得到另外9999个测试样本的最终测试结果。由于每个测试样本的真实分类结果是已知的，对比每个测试样本的真实分类结果和测试得到的最终测试结果，可以确定测试的准确率。

当测试的准确率在预设合理范围内时，所述主计算节点可以执行步骤205，以将每个所述决策树计算节点将自身的决策树形式的分类规则进行规则转换之后应用到数据决策平台，否则，可以通过更新数据样本、调整随机获取样本比例等方式重新调整训练样本进行训练。

205：每个所述决策树计算节点根据所述主计算节点的指示或者预设的转换策略，将自身的决策树形式的分类规则转换为键/值形式的分类规则，以及利用所述数据决策平台识别的表达形式，将自身的决策树形式的分类规则转换为所述数据决策平台识别的分类规则。

上述利用决策树计算节点计算得到的分类规则，通常情况下以变量或字符串等形式存在于计算机中，为了能够让数据决策平台能够利用分类规则对生产数据进行数据决策，需要将分类规则集转换为数据决策平台能够识别的表述形式。

具体地，每个所述决策树计算节点可以根据所述主计算节点的指示或者预设的转换策略，将自身的决策树形式的分类规则转换为键/值形式的分类规则，以便于保存和进一步转换，转换为键/值形式的分类规则中将包括属性的标识、属性对应的取值的信息和分类结果的信息，例如如表1所示，矩阵形式的数据样本的每组属性可以用带下标的字符表示，如果决策树形式的分类规则表达的含义为[青年期S₅，中产区Q₂，信用额度为高H₃，可以贷款；中年期S₆，收入100万以上C₅，可以贷款]，则可以将决策树形式的分类规则转换为如下键/值形式的规则[1:5,2:2,4:3,1；1:6,3:5,1]，其中1:5表示第一个属性下标为5即S₅，2:2表示第二个属性下标为2即Q₂，4:3表示第四个属性下标为3即H₃，1表示可以贷款，决策树形式的分类规则中的多个规则用分号“；”隔开。上述键/值形式的规则的表达形式只是一个示例，在其它实施例中，属性的标识、属性对应的取值的信息和分类结果的信息还可以采用其它的表达形式，多个规则直接还可以用其它字符隔开，本发明实施例在此不作限定。将决策树形式的分类规则转换为键值形式的规则，不仅便于保存或进行进一步的转换，还便于进行高速匹配测试，因此，在步骤203中，每个所述决策树计算节点对自身的决策树形式的分类规则进行测试时，可以先将决策树形式的分类规则转换为键值形式的规则，然后在进行测试，可以提高测试的效率。

每个所述决策树计算节点将自身的决策树形式的分类规则转换为键/值形式的分类规则之后，可以利用所述数据决策平台识别的表达形式，将自身的决策树形式的分类规则转换为所述数据决策平台识别的分类规则。例如，如果所述正则表达式为所述数据决策平台可以识别的表达形式，则每个所述决策树计算节点可以利用正则表达式，将所述键/值形式的分类规则转换为正则规则。所述正则表达式又称正规表示法、常规表示法，使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，在大部分的技术平台中可以识别。比如，利用正则表达式，可以将键/值形式的分类规则[1:3；1:2,0:3；1:2,0:2；1:2,0:0；1:1；1:0,0:3；1:0,0:1；1:0,0:0；]转换成正则规则集[\\d3\\d*|22\\d*|02\\d*|\\d1\\d*|30\\d*|11\\d*|00\\d*|32\\d*|]。将分类规则用正则表达式的形式表示，不仅能够使得数据决策平台能够直接识别和应用，还能够实现分类规则在数据决策平台上实时替换或更新。可选地，由于通常情况下，二进制的表达形式能够用于任何语言和技术平台识别，具有更好的通用性，每个所述决策树计算节点还可以将自身得到的正则规则转换为二进制的表达形式。

可选地，每个所述决策树计算节点还可以利用所述数据决策平台识别的表达形式，将自身的决策树形式的分类规则转换为所述数据决策平台识别的分类规则。所述数据决策平台识别的表达形式可以为正则表达式，还可以为二进制表达式

需要注意的是，在步骤203中，每个所述决策树计算节点对自身的决策树形式的分类规则进行测试时，每个所述决策树计算节点可以将决策树形式的分类规则转换为键/值形式的分类规则或者正则规则之后再进行测试，从而提高测试的效率，节省测试的时间。例如，经过试验可知，在10万的测试数据下，如果决策树形式的规则的分支为1万，每个分支为3个组合，转换为正则规则后只需要46秒得到测试结果，大大提高了测试的效率，节省了测试的时间。

206：所述主计算节点获取每个所述决策树计算节点得到的所述数据决策平台识别的分类规则，得到所述数据决策平台识别的分类规则集，所述数据决策平台识别的分类规则集为每个所述决策树计算节点得到的所述数据决策平台识别的分类规则的集合，将所述数据决策平台识别的分类规则集提供给数据决策平台。

在本发明实施例中，每个所述决策树计算节点得到的所述数据决策平台识别的分类规则(即所述数据决策平台识别的分类规则集)都通过所述主计算节点提供给了所述数据决策平台。步骤206为可选方式，还可以采用其他的方式将所述数据决策平台识别的分类规则集提供给数据决策平台，可选地，步骤206可以替换为：

206’：所述主计算节点发送规则提交指示给每个所述决策树计算节点；每个所述决策树计算节点可以根据所述规则提交指示，将自身得到的所述数据决策平台识别的分类规则提供给所述数据决策平台。从而每个所述决策树计算节点可以直接将自身得到的所述数据决策平台识别的分类规则提供给所述数据决策平台，而不需要通过所述主计算节点。

由于，在步骤205中，每个所述决策树计算节点都将自身的决策树形式的分类规则转换为所述数据决策平台识别的分类规则。然而在实际用于过程中，将决策树形式的分类规则转换为所述数据决策平台识别的分类规则的过程中，可能需要先将决策树形式的分类规则转换为键/值形式的分类规则，因此，每个所述决策树计算节点可以在将自身的决策树形式的分类规则转换为键/值形式的分类规则之后，将键/值形式的分类规则提供给主计算节点，由主计算节点统一将每个所述决策树计算节点得到的键/值形式的分类规则转换为所述数据决策平台识别的分类规则。因此，如图3所示，步骤205还可以为：

305：每个所述决策树计算节点根据所述主计算节点的指示或者预设的转换策略，将自身得到的决策树形式的分类规则转换为键/值形式的分类规则；所述主计算节点获取每个所述决策树计算节点得到的键/值形式的分类规则，得到键/值形式的分类规则集，其中，所述键/值形式的分类规则集为每个所述决策树计算节点得到的键/值形式的分类规则的集合，利用所述数据决策平台识别的表达形式，将所述键/值形式的分类规则集转换为所述数据决策平台识别的分类规则集。

相应地，步骤206/206’可以替换为：

306：所述主计算节点将所述数据决策平台识别的分类规则集提供给所述数据决策平台。

可选地，在步骤206或206’或306之后，如果所述数据决策平台利用正则规则集对所述生产数据进行数据决策时，正确率很高达到期望值，则可以令所述数据决策平台继续使用该规则，但是如果正确率不高，达不到期望值，则所述计算机系统可以更新数据样本进行重新训练，得到更新的分类规则集，并将更新的分类规则集提供给所述数据决策平台，以提高数据决策的正确率。

实施例三

本发明实施例提供了一种计算机系统，如图4所示，可以包括离散化模块41和处理模块42；

所述离散化模块41，用于对数据样本进行离散化处理，得到矩阵形式的数据样本；所述数据样本可以是海量数据，采用离散化处理的方式，不仅能够将数据样本转换为矩阵形式，还可以提高计算效率。

所述处理模块42，用于根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集，利用数据决策平台识别的表达形式，将所述分类规则集转换为所述数据决策平台识别的分类规则集，将所述转换得到的所述数据决策平台识别的分类规则集提供给所述数据决策平台。在本发明实施例中，所述预设的分类方法可以为决策树算法，所述处理模块42可以根据决策树算法，对所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则集，利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集。上述对矩阵形式的数据样本进行训练，即对矩阵形式的数据样本进行建模，训练得到的分类规则集，即建模得到的模型结果。其中，所述数据决策平台识别的表达形式可以是正在表达式或者二进制表达式，所述数据决策平台具体可以是云平台，还可以是

可选地，当所述数据样本为海量数据时，为了能够快速、高效地处理海量数据，所述处理模块42还可以根据预设的分类方法，采用并行计算的方式对所述矩阵形式的数据样本进行训练，得到分类规则集。则所述处理模块42还可以包括主计算单元421和多个决策树计算单元422；

所述主计算单元421用于发送决策树计算命令给每个所述决策树计算单元422；

每个所述决策树计算单元422用于根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则；所述决策树形式的分类规则集为每个所述决策树计算单元422得到的决策树形式的分类规则的集合。多个决策树计算单元422都参与了训练，即参与了分类规则集的计算，从而极大的提高了计算效率。

具体地，所述主计算单元421可以获取算法配置参数，所述算法配置参数包括所述矩阵形式的数据样本中训练样本的信息以及参与决策树生成的属性的信息，发送所述决策树计算命令给每个所述决策树计算单元422，所述决策树计算命令携带所述算法配置参数；所述参与决策树生成的属性的信息可以是所述参与决策树生成的属性的标识，则后续每个所述决策树计算单元422可以直接根据所述参与决策树生成的属性的标识，确定参与决策树生成的属性；又例如，所述参与决策树生成的属性的信息可以是所述参与决策树生成的属性的个数，则后续每个所述决策树计算单元422可以根据所述参与决策树生成的属性的个数，从所述矩阵形式的数据样本所包含的所有属性中，随机选择参与决策树生成的属性。所述矩阵形式的数据样本中训练样本的信息可以包括所述矩阵形式的数据样本的存储地址、所述矩阵形式的数据样本中的训练样本与测试样本的比例以及随机获取样本的比例，从而每个所述决策树计算单元422可以根据所述矩阵形式的数据样本的存储地址，按照所述矩阵形式的数据样本中的训练样本与测试样本的比例，可以选取训练样本，再根据随机获取样本的比例，有放回地随机抽取所述选取的训练样本进行训练。

每个所述决策树计算单元422可以根据所述决策树计算命令携带的所述算法配置参数，从所述矩阵形式的数据样本中确定训练样本和参与决策树生成的属性，并根据所述确定的参与决策树生成的属性对所述确定的训练样本进行训练，得到决策树形式的分类规则。每个所述决策树计算单元422在接收到决策树计算命令后，可以根据所述决策树计算命令携带的所述矩阵形式的数据样本中训练样本的信息，从所述矩阵形式的数据样本中随机获取训练样本，以及根据所述决策树计算命令携带的参与决策树生成的属性的信息，确定参与决策树生成的属性，从而可以根据所述确定的参与决策树生成的属性对所述确定的训练样本进行训练，得到决策树(即决策树形式的分类规则)。值得注意的是，虽然每个决策树计算单元422进行决策树训练的训练数据都来自所述矩阵形式的数据样本，但是每个决策树计算单元422进行决策树训练的训练数据都是随机从所述矩阵形式的数据样本获取的，因此每个决策树计算单元422训练得到的决策树(即决策树形式的分类规则)是不同的，没有关联的。

所述主计算单元421和所述决策树计算单元422既可以是所述计算机系统中的处理器，也可以是所述计算机系统中的独立计算机，本发明实施例在此不作限定。

可选地，所述主计算单元421在确定每个所述决策树计算单元422都得到决策树形式的分类规则之后，还可以对得到的决策树形式的分类规则集进行测试，当测试的准确率在预设合理范围内时，才将该决策树形式的分类规则应用到数据决策平台进行数据决策，否则需要进行重新训练得到新的决策树形式的分类规则集。具体地，所述主计算单元421还可以在确定每个所述决策树计算单元422都得到决策树形式的分类规则之后，发送测试命令给每个所述决策树计算单元422；每个所述决策树计算单元422还可以根据所述测试命令，从所述矩阵形式的数据样本中获得测试样本集，并利用自身得到的决策树形式的分类规则对所述测试样本集进行测试，得到测试结果集；所述主计算单元421还可以获取每个所述决策树计算单元422得到的测试结果集，根据预设的投票规则和每个所述决策树计算单元422得到的测试结果集，确定测试的准确率，当测试的准确率在预设合理范围内时，执行将所述分类规则集转换为所述数据决策平台识别的分类规则集的操作。值得注意地是，每个所述决策树计算单元422获得的测试样本集需要相同即测试数据相同，这样后续才能够按照预设的投票规则对每个决策树计算单元422得到的测试结果集进行投票，得到最终结果集。

可选地，每个所述决策树计算单元422还可以根据所述主计算单元421的指示或者预设的转换策略，利用所述数据决策平台识别的表达形式，将自身得到的决策树形式的分类规则转换为所述数据决策平台识别的分类规则；所述数据决策平台识别的分类规则集为每个所述决策树计算单元422得到的所述数据决策平台识别的分类规则的集合；

则所述主计算单元421还可以获取每个所述决策树计算单元422得到的所述数据决策平台识别的分类规则，得到所述数据决策平台识别的分类规则集，将所述数据决策平台识别的分类规则集提供给所述数据决策平台；或者，所述主计算单元421还可以发送规则提交指示给每个所述决策树计算单元422；则每个所述决策树计算单元422还可以根据所述规则提交指示，将自身得到的所述数据决策平台识别的分类规则提供给所述数据决策平台。

可选地，每个所述决策树计算单元422还可以根据所述主计算单元421的指示或者预设的转换策略，将自身得到的决策树形式的分类规则转换为键/值形式的分类规则；所述主计算单元421还可以获取每个所述决策树计算单元422得到的键/值形式的分类规则，得到键/值形式的分类规则集，其中，所述键/值形式的分类规则集为每个所述决策树计算单元422得到的键/值形式的分类规则的集合，利用所述数据决策平台识别的表达形式，将所述键/值形式的分类规则集转换为所述数据决策平台识别的分类规则集，以及将所述数据决策平台识别的分类规则集提供给所述数据决策平台。

可选地，所述数据决策平台识别的表达形式可以为以下至少之一：正则表达式，和二进制表达式。

本发明实施例中，计算机系统中的离散化模块41可以对数据样本进行离散化处理，得到矩阵形式的数据样本，计算机系统中的处理模块42可以根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集，并将所述分类规则集转换为数据决策平台识别的分类规则集后，提供给所述数据决策平台，从而所述数据决策平台能够根据所述计算机系统转换得到的所述数据决策平台识别的分类规则集进行数据决策。上述从对数据样本进行训练(即对数据样本进行建模)，到将训练得到的分类规则集(即模型结果)应用到数据决策的过程都由计算机系统自动完成，避免了人工参与，当数据样本变化或者原有的分类规则集需要更新时，能够及时获得更新的分类规则集，并及时将更新的分类规则集应用到数据决策平台进行数据决策。

本发明实施例提供的计算机系统可以执行如实施例一或实施例二所述的数据处理方法的方法流程，本发明实施例在此不再赘述。

如图5，为本发明实施例提供的一种计算机系统，所述计算机系统可以包括：

处理器501、存储器502、系统总线504和通信接口505。处理器501、存储器502和通信接口505之间通过系统总线504连接并完成相互间的通信。

处理器501可能为单核或多核中央处理单元，或者为特定集成电路，或者为被配置成实施本发明实施例的一个或多个集成电路。

存储器502可以为高速RAM存储器，也可以为非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

存储器502用于计算机执行指令503。具体的，计算机执行指令503中可以包括程序代码。

当所述计算机系统运行时，处理器501运行计算机执行指令503，可以执行实施例一或实施例二所述的数据处理方法的方法流程。

本发明实施例还提供了一种计算机可读介质，包括计算机执行指令，以供计算机的处理器执行所述计算机执行指令时，所述计算机执行如实施例一所述的数据处理方法或实施例二所述的数据处理方法。

本领域普通技术人员将会理解，本发明的各个方面、或各个方面的可能实现方式可以被具体实施为系统、方法或者计算机程序产品。因此，本发明的各方面、或各个方面的可能实现方式可以采用完全硬件实施例、完全软件实施例(包括固件、驻留软件等等)，或者组合软件和硬件方面的实施例的形式，在这里都统称为“电路”、“模块”或者“系统”。此外，本发明的各方面、或各个方面的可能实现方式可以采用计算机程序产品的形式，计算机程序产品是指存储在计算机可读介质中的计算机可读程序代码。

计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质包含但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或者装置，或者前述的任意适当组合，如随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者快闪存储器)、光纤、便携式只读存储器(CD-ROM)。

计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码，使得处理器能够执行在流程图中每个步骤、或各步骤的组合中规定的功能动作；生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。

计算机可读程序代码可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为单独的软件包、部分在用户的计算机上并且部分在远程计算机上，或者完全在远程计算机或者计算机上执行。也应该注意，在某些替代实施方案中，在流程图中各步骤、或框图中各块所注明的功能可能不按图中注明的顺序发生。例如，依赖于所涉及的功能，接连示出的两个步骤、或两个块实际上可能被大致同时执行，或者这些块有时候可能被以相反顺序执行。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预设的分类方法为决策树算法；

则所述计算机系统根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集；所述计算机系统利用数据决策平台识别的表达形式，将所述分类规则集转换为所述数据决策平台识别的分类规则集包括：

所述计算机系统根据所述决策树算法，对所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则集；

所述计算机系统利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集。

3.根据权利要求2所述的方法，其特征在于，所述计算机系统包括主计算节点和多个决策树计算节点；

则所述计算机系统根据所述决策树算法，对所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则集包括：

所述主计算节点发送决策树计算命令给每个所述决策树计算节点；

每个所述决策树计算节点根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则；

所述决策树形式的分类规则集为每个所述决策树计算节点得到的决策树形式的分类规则的集合。

4.根据权利要求3所述的方法，其特征在于，所述主计算节点发送决策树计算命令给每个所述决策树计算节点；每个所述决策树计算节点根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则包括：

所述主计算节点获取算法配置参数，所述算法配置参数包括所述矩阵形式的数据样本中训练样本的信息以及参与决策树生成的属性的信息；

所述主计算节点发送所述决策树计算命令给每个所述决策树计算节点，所述决策树计算命令携带所述算法配置参数；

每个所述决策树计算节点根据所述决策树计算命令携带的所述算法配置参数，从所述矩阵形式的数据样本中确定训练样本和参与决策树生成的属性，并根据所述确定的参与决策树生成的属性对所述确定的训练样本进行训练，得到决策树形式的分类规则。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述主计算节点在确定每个所述决策树计算节点都得到决策树形式的分类规则之后，发送测试命令给每个所述决策树计算节点；

每个所述决策树计算节点根据所述测试命令，从所述矩阵形式的数据样本中获得测试样本集，并利用自身得到的决策树形式的分类规则对所述测试样本集进行测试，得到测试结果集；

所述主计算节点获取每个所述决策树计算节点得到的测试结果集；

所述主计算节点根据预设的投票规则和每个所述决策树计算节点得到的测试结果集，确定测试的准确率；

当测试的准确率在预设合理范围内时，所述主计算节点执行将所述分类规则集转换为所述数据决策平台识别的分类规则集的步骤。

6.根据权利要求4或5所述的方法，其特征在于，所述矩阵形式的数据样本中训练样本的信息包括所述矩阵形式的数据样本的存储地址、所述矩阵形式的数据样本中的训练样本与测试样本的比例、以及随机获取样本的比例。

7.根据权利要求3所述的方法，其特征在于，所述计算机系统利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集包括：

每个所述决策树计算节点根据所述主计算节点的指示或者预设的转换策略，利用所述数据决策平台识别的表达形式，将自身得到的决策树形式的分类规则转换为所述数据决策平台识别的分类规则；

所述数据决策平台识别的分类规则集为每个所述决策树计算节点得到的所述数据决策平台识别的分类规则的集合。

8.根据权利要求7所述的方法，其特征在于，所述计算机系统将所述数据决策平台识别的分类规则集提供给所述数据决策平台包括：

所述主计算节点获取每个所述决策树计算节点得到的所述数据决策平台识别的分类规则，得到所述数据决策平台识别的分类规则集；

所述主计算节点将所述数据决策平台识别的分类规则集提供给所述数据决策平台。

9.根据权利要求7所述的方法，其特征在于，所述计算机系统将所述数据决策平台识别的分类规则集提供给所述数据决策平台包括：

所述主计算节点发送规则提交指示给每个所述决策树计算节点；

每个所述决策树计算节点根据所述规则提交指示，将自身得到的所述数据决策平台识别的分类规则提供给所述数据决策平台。

10.根据权利要求3所述的方法，其特征在于，所述计算机系统利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集包括：

每个所述决策树计算节点根据所述主计算节点的指示或者预设的转换策略，将自身得到的决策树形式的分类规则转换为键/值形式的分类规则；

所述主计算节点获取每个所述决策树计算节点得到的键/值形式的分类规则，得到键/值形式的分类规则集，其中，所述键/值形式的分类规则集为每个所述决策树计算节点得到的键/值形式的分类规则的集合；

所述主计算节点利用所述数据决策平台识别的表达形式，将所述键/值形式的分类规则集转换为所述数据决策平台识别的分类规则集；

则所述计算机系统将所述数据决策平台识别的分类规则集提供给所述数据决策平台包括：

11.根据权利要求1所述的方法，其特征在于，所述数据决策平台识别的表达形式为以下至少之一：正则表达式，和二进制表达式。

12.一种计算机系统，其特征在于，包括：

13.根据权利要求12所述的计算机系统，其特征在于，所述预设的分类方法为决策树算法；

则所述处理模块具体用于根据所述决策树算法，对所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则集，利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集。

14.根据权利要求13所述的计算机系统，其特征在于，所述处理模块包括主计算单元和多个决策树计算单元；

所述主计算单元用于发送决策树计算命令给每个所述决策树计算单元；

每个所述决策树计算单元用于根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则；

所述决策树形式的分类规则集为每个所述决策树计算单元得到的决策树形式的分类规则的集合。

15.根据权利要求14所述的计算机系统，其特征在于，所述主计算单元具体用于获取算法配置参数，所述算法配置参数包括所述矩阵形式的数据样本中训练样本的信息以及参与决策树生成的属性的信息，发送所述决策树计算命令给每个所述决策树计算单元，所述决策树计算命令携带所述算法配置参数；

每个所述决策树计算单元具体用于根据所述决策树计算命令携带的所述算法配置参数，从所述矩阵形式的数据样本中确定训练样本和参与决策树生成的属性，并根据所述确定的参与决策树生成的属性对所述确定的训练样本进行训练，得到决策树形式的分类规则。

16.根据权利要求15所述的计算机系统，其特征在于，所述主计算单元还用于在确定每个所述决策树计算单元都得到决策树形式的分类规则之后，发送测试命令给每个所述决策树计算单元；

每个所述决策树计算单元还用于根据所述测试命令，从所述矩阵形式的数据样本中获得测试样本集，并利用自身得到的决策树形式的分类规则对所述测试样本集进行测试，得到测试结果集；

所述主计算单元还用于获取每个所述决策树计算单元得到的测试结果集，根据预设的投票规则和每个所述决策树计算单元得到的测试结果集，确定测试的准确率，当测试的准确率在预设合理范围内时，执行将所述分类规则集转换为所述数据决策平台识别的分类规则集的操作。

17.根据权利要求15或16所述的计算机系统，其特征在于，所述矩阵形式的数据样本中训练样本的信息包括所述矩阵形式的数据样本的存储地址、所述矩阵形式的数据样本中的训练样本与测试样本的比例、以及随机获取样本的比例。

18.根据权利要求14所述的计算机系统，其特征在于，每个所述决策树计算单元还用于根据所述主计算单元的指示或者预设的转换策略，利用所述数据决策平台识别的表达形式，将自身得到的决策树形式的分类规则转换为所述数据决策平台识别的分类规则；

所述数据决策平台识别的分类规则集为每个所述决策树计算单元得到的所述数据决策平台识别的分类规则的集合。

19.根据权利要求18所述的计算机系统，其特征在于，所述主计算单元还用于获取每个所述决策树计算单元得到的所述数据决策平台识别的分类规则，得到所述数据决策平台识别的分类规则集，将所述数据决策平台识别的分类规则集提供给所述数据决策平台。

20.根据权利要求18所述的计算机系统，其特征在于，所述主计算单元还用于发送规则提交指示给每个所述决策树计算单元；

每个所述决策树计算单元还用于根据所述规则提交指示，将自身得到的所述数据决策平台识别的分类规则提供给所述数据决策平台。

21.根据权利要求14所述的计算机系统，其特征在于，每个所述决策树计算单元还用于根据所述主计算单元的指示或者预设的转换策略，将自身得到的决策树形式的分类规则转换为键/值形式的分类规则；

所述主计算单元还用于获取每个所述决策树计算单元得到的键/值形式的分类规则，得到键/值形式的分类规则集，其中，所述键/值形式的分类规则集为每个所述决策树计算单元得到的键/值形式的分类规则的集合，利用所述数据决策平台识别的表达形式，将所述键/值形式的分类规则集转换为所述数据决策平台识别的分类规则集，以及将所述数据决策平台识别的分类规则集提供给所述数据决策平台。

22.根据权利要求12所述的计算机系统，其特征在于，所述数据决策平台识别的表达形式为以下至少之一：正则表达式，和二进制表达式。

23.一种计算机系统，其特征在于，所述计算机系统包括处理器、存储器、总线和通信接口；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述计算机系统运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述计算机系统执行如权利要求1-11中任一项所述的数据处理方法。

24.一种计算机可读介质，其特征在于，包括计算机执行指令，以供计算机的处理器执行所述计算机执行指令时，所述计算机执行如权利要求1-11中任一项所述的数据处理方法。