WO2014131262A1

WO2014131262A1 - 一种缺陷预测方法及装置

Info

Publication number: WO2014131262A1
Application number: PCT/CN2013/080279
Authority: WO
Inventors: 陈焕华; 潘璐伽
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-02-28
Filing date: 2013-07-29
Publication date: 2014-09-04
Anticipated expiration: 2015-08-28
Also published as: EP2854053A1; US10068176B2; CN104021264B; CN104021264A; EP2854053B1; US20150112903A1; EP2854053A4

Abstract

一种缺陷预测方法及装置，涉及数据处理领域。该方法包括：根据目标属性从预存的产品故障记录中选择训练属性集，并将所述目标属性和所述训练属性集组合成训练集（101）；所述目标属性为历史故障产品的缺陷属性；根据所述训练集生成分类器集合，所述分类器集合包含至少2个树分类器（102）；将所述分类器集合作为预测模型预测故障产品的缺陷（103）。上述方法用于故障产品的缺陷预测的过程中，实现对故障产品的准确及快速定位。

Description

一种缺陷预测方法及装置本申请要求于 2013 年 02 月 28 日提交中国专利局、申请号为 2013 10066324.0、发明名称为 "一种缺陷预测方法及装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数据处理领域，尤其涉及一种缺陷预测方法及装置。背景技术

随着时代的发展，能够满足人们需求的产品种类和数量逐渐增多，产品的质量是也已成为用户及企业关心的主要问题，特别是尤其对于企业来说，产品的质量就是企业的根本，因此降低产品的缺陷率对企业至关重要。而引起产品缺陷的原因主要是产品的生产工艺，包括产品的设计、所使用材料的质量、生产商能力等，因此对于企业来讲，若想降低产品的缺陷率，就需要分析并改进产品的生产工艺，从而提高产品质量。

每个产品都有关于该产品各方面的信息的记录，如原料来源、生产信息、测试信息、运输信息、使用信息等等，而当产品在使用或者生产过程中出现某一类型的缺陷或者故障时，引起这类缺陷或故障的因素和记录的该产品的信息具有一定的关联性。

现有技术提供一种故障产品缺陷预测方法，具体为利用记录的出现过故障的产品的信息，通过基于决策树的分类算法生成单一决策树，此时当产品出现故障时，便可以根据生成的决策树对故障产品的缺陷进行预测。而当记录的出现过故障的产品的信息的分类标签较多时，釆用基于决策树的分类算法产生的单一决策树就容易引起过拟合或欠拟合，从而导致无法进行缺陷预测。因此当产品出现缺陷或者故障时，如何快速的定位故障点，并查找到故障原因已成为业界研究的重点。

发明内容本发明的实施例提供一种缺陷预测方法及装置，实现了对故障产品的缺陷的准确及快速定位。

本发明的第一方面，提供一种缺陷预测方法，包括：

根据目标属性从预存的产品故障记录中选择训练属性集，并将所述目标属性和所述训练属性集组合成训练集；其中，所述目标属性为历史故障产品的缺陷属性；

根据所述训练集生成分类器集合；其中，所述分类器集合包含至少 2个树分类器；

将所述分类器集合作为预测模型预测故障产品的缺陷。

结合第一方面，在一种可能的实现方式中，所述训练集包含 M 个训练单元，每个训练单元包含一个目标属性和一个训练属性集；所述根据所述训练集生成分类器集合，包括：

从所述训练集中选取第一训练子集；

根据预设策略生成与所述第一训练子集相对应的第一树分类器；

从所述训练集中选取第二训练子集；

根据预设策略生成与所述第二训练子集相对应的第二树分类器；

从所述训练集中选取第 N训练子集；其中，所述第 N训练子集包含 M，个训练单元，所述 M，小于等于所述 M;

根据预设策略生成与所述第 N 训练子集相对应的第 N 树分类器；其中，所述 N为大于等于 2的整数；

将 N个树分类器组合生成所述分类器集合。

结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，还包括：

当生成第 K- 1树分类器时，获取生成的 K- 1个树分类器的错误率；

当生成第 K树分类器时，获取生成的 K个树分类器的错误率；以便当所述 K个树分类器的错误率和所述 K - 1个树分类器的错误率的差值小于预设的阈值时，将所述 K个树分类器组合生成所述分类器集合；其中，所述 K为小于等于 N的整数。

结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，所述当生成第 K树分类器时，获取生成的 K个树分类器的错误率，包括：

根据第一训练单元从所述分类器集合中选取第一类树分类器；根据所述第一类树分类器生成所述第一训练单元的第一预测标签；

根据第二训练单元从所述分类器集合中选取第二类树分类器；根据所述第二类树分类器生成所述第二训练单元的第二预测标签；

根据第 M训练单元从所述分类器集合中选取第 M类树分类器；其中，所述第 M类树分类器为未使用第 M训练单元生成树分类器的分类器集合，所述 M为训练集中包含训练单元的个数；

根据所述第 M类树分类器生成所述第 M训练单元的第 M预测标签；

根据 M个预测标签获取所述生成的 K个树分类器的错误率。结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，所述根据所述第 M类树分类器生成所述第 M训练单元的第

M预测标签，具体包括：

根据 C^00B (M , x_M ) = arg max ∑ h{s _j )1{C _j ) = 生成所述第 M预测标签；其中， C^00B (M , _¾)为所述第 M训练单元的第 M预测标签， Cj为第 j树分类器， 0^ ^£为所述第 M类树分类器，为第 j树分类器的权重， C (x_M)为根据所述第 j树分类器和所述第 M训练单元中包含的训练属性集得到的目标属性，，为分类标签集合。

结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，所述根据 M个预测标签获取所述生成的 K个树分类器的错误率，具体包括：根据 E = > 获取所述生成的 K个树分类器的

错误率；其中， E(r)为所述生成的 K个树分类器的错误率为所述训练集中训练单元的个数， C^00B (r , x )为所述第 r训练单元的第 r预测标签， Λ为第 r训练单元的目标属性。

结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，在所述根据预设策略生成与所述第 N训练子集相对应的第 N 树分类器之后，还包括：

从所述训练集中选取第 N，训练子集；其中，所述第 N，训练子集与所述第 N训练子集的交集为空，所述第 N '训练子集包含至少一个训练单元；

根据所述第 N，训练子集获取所述第 N树分类器的误预测率；根据所述第 N 树分类器误预测率获取所述第 N 树分类器的权重。

结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，所述将所述分类器集合作为预测模型预测故障产品的缺陷，包括：

统计所述故障产品的属性信息；

根据所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签集合；

根据所述分类器集合和所述分类器集合中每个树分类器的权重，获取所述分类标签集合中每个分类标签的信任值。

结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，所述预设策略包括决策树算法。

本发明的第二方面，提供一种缺陷预测装置，包括：

处理单元，用于根据目标属性从预存的产品故障记录中选择训练属性集，并将所述目标属性和所述训练属性集组合成训练集；其中，所述目标属性为历史故障产品的缺陷属性；

生成单元，用于根据所述处理单元得到的训练集生成分类器集合；其中，所述分类器集合包含至少 2个树分类器；

预测单元，用于将所述生成单元生成的分类器集合作为预测模型预测故障产品的缺陷。

结合第二方面，在一种可能的实现方式中，所述训练集包含 M 个训练单元，每个训练单元包含一个目标属性和一个训练属性集；所述生成单元，包括：

选取模块，用于从所述处理单元得到的所述训练集中选取第一训练子集；

生成模块，用于根据预设策略生成与所述选取模块选取的所述第一训练子集相对应的第一树分类器；

所述选取模块，还用于从所述处理单元得到的所述训练集中选取第二训练子集；

所述生成模块，还用于根据预设策略生成与所述选取模块选取的所述第二训练子集相对应的第二树分类器；

所述选取模块，还用于从所述处理单元得到的所述训练集中选取第 N训练子集；其中，所述第 N训练子集包含 M'个训练单元，所述 M，小于等于所述 M;

所述生成模块，还用于根据预设策略生成与所述选取模块选取的所述第 N训练子集相对应的第 N树分类器；其中，所述 N为大于等于 2的整数；

组合模块，用于将所述生成模块生成的 N个树分类器组合生成所述分类器集合。

结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，所述生成单元还包括：

第一获取模块，用于当生成第 K- 1树分类器时，获取生成的 K- 1 个树分类器的错误率；

第二获取模块，用于当生成第 K树分类器时，获取生成的 K个树分类器的错误率；以便当所述 K个树分类器的错误率和所述 K- 1 个树分类器的错误率的差值小于预设的阈值时，将所述 K个树分类器组合生成所述分类器集合；其中，所述 K为小于等于 N的整数。结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，所述第二获取模块，包括：

选取子模块，用于根据第一训练单元从所述分类器集合中选取第一类树分类器；

生成子模块，用于根据所述选取子模块选取的所述第一类树分类器生成所述第一训练单元的第一预测标签；

所述选取子模块，还用于根据第二训练单元从所述分类器集合中选取第二类树分类器；

所述生成子模块，还用于根据所述选取子模块选取的所述第二类树分类器生成所述第二训练单元的第二预测标签；

所述选取子模块，还用于根据第 M训练单元从所述分类器集合中选取第 M类树分类器；其中，所述第 M类树分类器为未使用第 M训练单元生成树分类器的分类器集合，所述 M为训练集中包含训练单元的个数；

所述生成子模块，还用于根据所述选取子模块选取的所述第 M 类树分类器生成所述第 M训练单元的第 M预测标签；

获取子模块，用于根据所述生成子模块生成的 M个预测标签获取所述生成的 K个树分类器的错误率。

结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，所述生成子模块，具体用于：

根据 C (M , ) - argmax = 生成所述第 M预测标

签；其中，

, _¾)为所述第 M训练单元的第 M预测标签， Cj 第 j树分类器，（^ ^£为所述第 M类树分类器，为第 j树分类器的权重， C . (x_M)为根据所述第 j树分类器和所述第 M训练单元中包含的训练属性集得到的目标属性，为分类标签集合。

结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，所述获取子模块，具体用于：根据 E

, ) = _Λ)获取所述生成子模块生成的 Κ个

M ri 树分类器的错误率；其中， E(r)为所述生成的 K个树分类器的错误率为所述训练集中训练单元的个数， C^00B {r , χ )为所述第 r训练单元的第 r预测标签， _Λ为第 r训练单元的目标属性。

结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，还包括：

选取单元，用于在所述生成模块根据预设策略生成与所述第 N 训练子集相对应的第 N树分类器之后，从所述训练集中选取第 N，训练子集；其中，所述第 N'训练子集与所述第 N训练子集的交集为空，所述第 N，训练子集包含至少一个训练单元；

第一获取单元，用于根据所述选取单元选取的所述第 N，训练子集获取所述第 N树分类器的误预测率；

第一获取单元，用于根据所述第一获取单元获取到的所述第 N 树分类器误预测率获取所述第 N树分类器的权重。

结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，所述预测单元包括：

统计模块，用于统计所述故障产品的属性信息；

预测模块，用于根据所述统计模块统计的所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签第三获取模块，用于根据所述分类器集合和所述分类器集合中每个树分类器的权重，获取所述分类标签集合中每个分类标签的信任值。

结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，所述预设策略包括决策树算法。

本发明实施例提供的一种缺陷预测方法及装置，根据目标属性从预存的产品故障记录中选择训练属性集，并根据目标属性和训练属性集组合成训练集生成包含至少 2个树分类器的分类器集合，此时当产品出现故障时，便可以将该分类器集合作为预测模型来预测故障产品的缺陷，利用该分类器集合作为预测模型，解决了釆用单一决策树容易引起过拟合或欠拟合而导致无法对故障产品进行缺陷预测的问题，并且在实现了对故障产品的缺陷快速定位的同时也提高了对故障产品缺陷预测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1 为本发明实施例 1提供的一种缺陷预测方法流程图；图 2为本发明实施例 2提供的一种缺陷预测方法流程图；图 3为本发明实施例 3提供的一种缺陷预测装置组成示意图；图 4为本发明实施例 3提供的另一种缺陷预测装置组成示意图；图 5为本发明实施例 4提供的一种缺陷预测装置组成示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例 1

本发明实施例提供一种缺陷预测方法，如图 1 所示，该方法可以包括：

101、根据目标属性从预存的产品故障记录中选择训练属性集，并将目标属性和训练属性集组合成训练集。

其中，当一个产品出现故障时，故障检测人员一般情况下都希望能够快速的定位出故障产品的缺陷类型或者导致产品出现故障的器件，以便来节省维修人员的维修的时间，而要实现对故障产品的缺陷类型或者是导致产品出现故障的器件进行快速的定位，可以通过提前训练预测模型来实现，首先故障检测人员可以将生产环节或者使用过程中出现过故障的产品的信息进行收集并将这些信息记录到产品故障记录中，这样当训练预测模型的时候，便可以根据历史故障产品的缺陷属性从提前记录的出现过故障的产品的产品故障记录中选择建立预测模型所必须的属性作为训练属性集，其中，将历史故障产品的缺陷属性定义为目标属性，当根据目标属性选择好训练属性集之后，将目标属性和训练属性集组合生成训练集，具体的，训练集中可以包含多个训练单元，其中每个训练单元中包含一个目标属性和一个训练属性集。

102、根据训练集生成分类器集合；其中，分类器集合包含至少 2个树分类器。

其中，当根据目标属性选择好需要的训练属性集，并将目标属性和训练属性集组合成训练集之后，便可以根据训练集生成分类器集合，具体的，该分类器集合中包含至少 2个树分类器，每个树分类器根据预设的策略生成，并将生成的所有的树分类器共同组成分类器集合。该预设的策略可以是决策树算法等。

103、将分类器集合作为预测模型预测故障产品的缺陷。

其中，在生产或者使用过程中，若某个产品出现了故障，便可以根据生成的包含至少一个树分类器的分类器集合快速并准确的定位出该故障产品的缺陷。

本发明实施例提供的一种缺陷预测方法，根据目标属性从预存的产品故障记录中选择训练属性集，并根据目标属性和训练属性集组合成训练集生成包含至少 2个树分类器的分类器集合，此时当产品出现故障时，便可以将该分类器集合作为预测模型来预测故障产品的缺陷，利用该分类器集合作为预测模型，解决了釆用单一决策树容易引起过拟合或欠拟合而导致无法对故障产品进行缺陷预测的问题，并且在实现了对故障产品的缺陷快速定位的同时也提高了对故障产品缺陷预测的准确率。

实施例 2

本发明实施例提供一种缺陷预测方法，如图 2所示，该方法可以包括：

201、根据目标属性从预存的产品故障记录中选择训练属性集，并将目标属性和训练属性集组合成训练集。

具体的，当一个产品在生产过程中或者使用过程中出现故障时，一般情况下故障检测人员都希望可以快速的定位故障产品的缺陷类型或者出现故障的器件，而对于任何一种产品来说，故障或缺陷的出现都与该产品的客观信息有一定的关联性，例如，产品的型号、使用环境、原料来源等等。为了实现在产品出现故障或者缺陷时，能够快速的定位故障产品的缺陷类型或者出现故障的器件，可以从生产环节或者使用过程中出现过故障的产品的产品故障记录中选择出建立预测模型需要的属性，并将选择出来的属性组成训练集，利用该训练集来建立预测模型。

其中，首先要做的就是收集生产环节或者使用过程中的出现过故障的产品的属性信息，并将每个故障产品的属性信息记录下来。属性信息具体的可以分为以下几类：描述产品特征的属性、描述使用环境的属性、描述生产环节的属性以及缺陷属性。其中，描述产品特性的属性可以是产品名称、产品型号、组成部件等；描述使用环境的属性可以是使用周期、使用地点、使用气候等；描述生产环节的属性可以是生产日期、加工部门、检测记录等；缺陷属性则可以是缺陷类型、缺陷现象、缺陷根因、缺陷器件等。

需要说明的是，本发明实施例对记录的故障产品的属性信息的分类以及每种分类下记录的属性信息的种类不作限制，对记录故障产品的属性信息的形式也不作限制。

其次，由于对于故障产品来说，记录的属性信息有 4艮多，而有些属性不是建立预测模型所必须要使用的属性，也就是说某些属性对判断故障产品的缺陷的作用不大，因此接下来要做的就是对故障产品的属性信息进行筛选。可以理解的是，历史故障记录中记录的故障产品的属性信息中的缺陷属性也极有可能是将来出现故障的产品故障，即是将来出现故障的产品需要进行预测的属性，因此为了方便本领域技术人员的理解，我们将历史故障产品的缺陷属性称为目标属性，将根据历史故障产品的缺陷属性挑选出与其关联性较大的属性称为训练属性集，我们可以将目标属性和训练属性集组成训练集，这样便可以利用训练集来建立预测模型。筛选过程具体的可以是：针对目标属性，对记录的属性信息进行筛选，可以选出 X 个属性形成训练属性集，其中 X可以是记录的属性信息中的全部属性，也可以是 1个属性。例如，历史故障产品的缺陷属性为缺陷类型，即可以定义目标属性 Y= {缺陷类型} , 记录的故障产品的属性信息包括：产品名称、产品型号、组成部件、使用周期、使用地点、使用气候、生产日期、加工部门、检测记录、缺陷类型、缺陷现象、缺陷根因、缺陷器件，那么我们可以利用预设的规则在记录的故障产品的历史故障记录中的属性信息中选择建立预测模型所需要的属性来组成训练属性集，假设我们选出来的属性为：产品名称、生产曰期、加工部门、使用周期，即可以定义训练属性集 Χ= {产品名称、生产日期、加工部门、使用周期 }，这样即可以定义训练集 Τ= {产品名称、生产日期、加工部门、使用周期、缺陷类型} , 当选出目标属性和训练属性集之后，便可以根据目标属性和训练属性集从历史故障记录中选取多个故障产品相对应的属性来生成训练集，该训练属性集中包含 Μ个训练单元，每个训练单元包含一个历史故障产品的目标属性和训练属性集。其中，对于训练属性集中属性的选择有 2个要求：一是利用训练属性集建立的预测目标属性的预测模型的准确率要高，这点要求可以通过重复的针对该目标属性选择不同的训练属性集组成训练集，并验证由不同生成的训练集建立的预测模型的准确性，从中选择准确性最高的作为建立预测模型所需的训练集，并可以将已知的缺陷的故障产品的目标属性去掉，将该故障产品在生产和制造过程中的属性信息作为测试数据，来检测生成的树分类器准确性；二是训练属性集里的属性在故障产品被检测前是可获得的，例如，在上述记录的故障产品的属性信息中缺陷器件不能作为训练属性集中的属性，因为在故障检测前，并不能获知该故障产品是那个器件出现了故障。

需要说明的是，训练属性集的具体选择规则可以是遍历的方法，也可以是通过计算和目标属性的相关性来选出相关性最大的前 X 个属性作为训练属性集。计算和目标属性的相关性的选择方法是较为常用的方法，其中计算相关性的算法也有很多，一种最简单的相关性的计算方法是计算各属性和目标属性同时出现的频率，同时出现的频率越高，相关性便越大。在本发明实施例中，对训练属性集的选择方法及选择某些方法时需要运用的算法不作限制。

202、根据训练集生成分类器集合；其中，分类器集合包含至少 2个树分类器。

其中，在根据目标属性从预存的产品故障记录中选择训练属性集，并组合成训练集之后，便可以根据训练集生成分类器集合。可以理解的是，目标属性和训练属性集组成的训练集可以包含 M个训练单元，其中每个训练单元包含一个目标属性和一个训练属性集，即训练集 r = {( _r , l；)， r = 1,2, · · · } , 其中（ }^)即为第一训练单元。

根据训练集 = {( ^,}；)， r = l,2,〜M} 生成一个分类器集合 C = { . , = 1,2,— 具体的可以是分为以下步骤， 202a、 202b及 202c :

202a , 从训练集中选取第 N训练子集；其中 N为大于等于 2的整数。

其中，从训练集 r = {( _r , l )， r = l,2,… }中选取第 N训练子集，该第 N训练子集包含 M，个训练单元， M，小于等于 M , 选取方法可以为可放回的随机抽样，本发明实施例在此不作限制。例如，可以从训练集中选取第一训练子集，第二训练子集…第 N训练子集。

202b、根据预设策略生成与该第 N训练子集相对应的第 N树分类器。

其中，在从训练集中选取到第 N训练子集之后，可以根据预设的策略生成与该第 N训练子集相对应的第 N树分类器。该预设策略可以是生成树算法，具体的可以理解的是：将从训练集中选择的第 N训练子集作为根节点，并按照分离算法选择分离属性和分离谓词，将根节点按照分离属性和分离谓词进行分裂，得到两个分支，对于每一个分支中的属性可以利用属性选择策略进行选择，然后对分支继续进行按照分离算法进行分裂，重复上述步骤直到得到最终生成的分支可以确定目标属性，最后再根据树裁剪策略对生成的树分类器进行检测。例如训练集 T= {产品名称、生产日期、加工部门、使用周期、缺陷类型} , 其中包含 Μ个训练单元，第 Ν训练子集为包含 Μ，个训练单元的集合并将该第 Ν训练子集作为根节点，假设根据分离算法选择分离属性为使用周期、分离谓词为使用周期大于 50 天和使用周期小于等于 50 天，这样便可以根据分离属性和分离谓词将根节点分为 2个分支，可以再继续选择分离属性和分离谓词进行分裂，直到可以确定目标属性。

其中，上述树分类器生成过程中使用的分离算法包括但不限于信息熵检验、基尼索引检验、开方检验、增益率检验；属性选择可以包括随机单个属性选择和随机多个属性选择，属性选择策略本发明实施例不作限制；树裁剪策略包括但不限于预裁剪策略、后裁剪策略。

202c , 重复以上步骤 202a、 202b , 生成 N个树分类器，并将 N 个树分类器组合生成分类器集合。

其中，本发明实施例中的生成的树分类器的个数 N可以是预先设置的门限值，即当生成的树分类器的个数达到预定的门限值时，便可以将生成的 N个树分类器组成生成分类器集合，例如当预设的门限值 N为 5时，分类器集合^^ ^， ^，，^^。何时生成分类器集合也可以是通过计算生成的 K个树分类器的错误率和生成的 K- 1个树分类器的错误率的差值来决定，具体的，当生成第 K- 1树分类器时，可以计算生成的 K- 1个树分类器的错误率，并且当生成第 K树分类器时，计算生成的 K个树分类器的错误率，这样当计算得到 K 个树分类器的错误率和 K- 1个树分类器的错误率的差值小于预设的阈值时，便将生成的 K个树分类器组合生成分类器集合，其中， K 为小于等于 N的整数。

当生成第 K树分类器时，生成的 K个树分类器的错误率的计算方法为：对于训练集中的每一个训练单元，计算其预测标签，并根据该预测标签得到生成的 K个树分类器的错误率。具体的，根据第一训练单元从分类器集合中选取第一类树分类器，并根据第一类树分类器生成第一训练单元的第一预测标签；根据第二训练单元从分类器集合中选取第二类树分类器，并根据第二类树分类器生成第二训练单元的第二预测标签， …根据第 M训练单元从分类器集合中选取第 M类树分类器，并根据第 M类树分类器生成第 M训练单元的第 M预测标签；重复上述步骤，直到针对训练集中的每一个训练单元都对应计算出来该训练单元对应的预测标签再结束，最后根据计算出来的 M个预测标签得到生成的 K个树分类器的错误率。其中，第 M类树分类器为未使用第 M训练单元生成树分类器的分类器集合。

预测标签具体计算过程为，假设对于训练集中的第 r训练单元 (其中 r为大于 0 , 并小于等于 M的正整数）来说，分类器集合中的树分类器可以分为两类，一类为使用第 r训练单元生成的树分类器，另一类为未使用第 r训练单元生成的树分类器，我们将未使用第 r训练单元生成的树分类器组成一个集合，并称为第 r类树分类器，记作 ^ ,那么第 r训练单元的第 r预测标签的具体计算公式为：

C^00B (r , _r ) - argmax J ( )/(C x_r) ) 其中， C ^B (r , 为第 r训练单元的第 r预测标签， C .为第 j树分类器，为第 r类树分类器，为第 j树分类器的权重， C 为根据第 j树分类器和第 r训练单元中包含的训练属性集得到的目标属性， _y为分类标签，为根据第 r训练单元和分类器集合得到的分类标签集合， I(x)是指标函数： litrue) = 1， I( fake) = 0。生成的 K个树分类器的错误率的具体计算公式为：

E(T) = ^-∑KC^00B(r, x_r) = y_r)

M ~i 其中， E(r)为生成的 K个树分类器的错误率，Μ为训练集中训练单元的个数， C^00B(r, x )为所述第 r训练单元的第 r预测标签， _Λ为第 r训练单元的目标属性， I(x)是指标函数： I(true) = 1， I(fake) = 0。

第 j 树分类器的权重的具体计算过程为：从训练集中选取第 j，训练子集，然后根据第 j，训练子集获取第 j树分类器的误预测率，最后根据第 j树分类器误预测率获取第 j树分类器的权重。其中，所述第 j'训练子集与所述第 j训练子集的交集为空，所述第 j'训练子集包含至少一个训练单元。具体的：将第 j，训练子集记录为 T"= {(xl, y_r), r = \X--N), 其中 "门 '= , Γ为生成第 j树分类器的第 j 训练子集，第 j树分类器的误预测率的具体计算公式为：

其中，为第 j树分类器的误预测率， N为第 N，训练子集中训练单元的个数， I(x)是指标函数： I(true) = 1， I(fake) = 0 , C. (x: )为才艮据第 j树分类器和第 r训练单元中包含的训练属性集得到的目标属性， :为第 r训练单元包含的目标属性。

第 j树分类器的权重由公式/ 得到，其中， /<χ) = 1-χ或 h(x) = log (-)。

X

203、统计故障产品的属性信息。

其中，当需要预测故障产品的缺陷时，可以先统计故障产品的属性信息，该属性信息是故障产品的在生产及使用过程中获得的数据，可以包括：产品名称、产品型号、组成部件、使用周期、使用地点、生产日期、加工部门等。

204、根据属性信息将分类器集合作为预测模型预测故障产品的缺陷得到分类标签集合。其中，当将故障产品的属性信息统计出来之后，可以利用统计出来的该故障产品的属性信息，将提前训练好的分类器集合作为预测模型，预测故障产品的缺陷，由于生成的分类器集合中包含 N个树分类器，因为釆用该分类器集合预测出来的故障产品的缺陷将会出现多个预测结果，将预测出来的多个结果作为分类标签集合。釆用本发明实施例提供的缺陷预测方法，不仅可以预测出故障产品的缺陷，还可以得到多个预测结果供维修人员参考，当维修人员根据预测出来的第一个预测结果检测故障产品时，发现第一个预测结果不是故障产品的缺陷时，便可以从分类标签集合中选择其他的预测结果来对故障产品进行检测，直到找到故障产品真正的缺陷，这样便可以节约维修人员的时间。

205、根据分类器集合和分类器集合中树分类器的权重，获取分类标签集合中每个分类标签的信任值。

其中，当根据统计出的故障产品的属性信息得到分类标签集合之后，为了让维修人员能够更快的定位出故障产品的缺陷，还可以根据分类器集合和分类器集合中树分类器的权重，计算分类标签集合中每个分类标签的信任值。分类标签的信任值的具体计算方法为：

U_I (y) = -∑Ke_J )I(C_J (x_r ) = y) 其中， y为分类标签集合， [/r 0 为分类标签的信任值； Z 为归一化因子， Z = §/< ）；为第 j树分类器的权重； /(X)是指标函数： /(tn/_e) = l， I(fake) = 0； C xJ为根据第 j树分类器预测的故障产品的目标属性。

若通过公式计算出 t/r ( = 0 , 则表明该属性信息没有用于 _y的分类，此外， r可能的缺陷分类标签定义为 {_y e }†^ 0 ) > }。

本发明实施例提供一种缺陷预测方法，根据目标属性从预存的产品故障记录中选择训练属性集，并根据目标属性和训练属性集组合成训练集生成包含至少 2个树分类器的分类器集合，此时当产品出现故障时，便可以将该分类器集合作为预测模型来预测故障产品的缺陷，利用该分类器集合作为预测模型，解决了釆用单一决策树容易引起过拟合或欠拟合而导致无法对故障产品进行缺陷预测的问题，并且在实现了对故障产品的缺陷快速定位的同时也提高了对故障产品缺陷预测的准确率。

并且，当将分类器集合作为预测模型预测故障产品的缺陷时，还可以得到多个预测结果，并可以计算出每个预测结果的信任值，节约了维修人员定位缺陷的时间。实施例 3

本发明实施例提供一种缺陷预测装置，如图 3 所示，包括：处理单元 3 1、生成单元 32、预测单元 33。

处理单元 3 1 , 用于根据目标属性从预存的产品故障记录中选择训练属性集，并将所述目标属性和所述训练属性集组合成训练集；其中，所述目标属性为历史故障产品的缺陷属性。

生成单元 32 , 用于根据所述处理单元 3 1 得到的训练集生成分类器集合；其中，所述分类器集合包含至少 2个树分类器。

预测单元 33 , 用于将所述生成单元 32 生成的分类器集合作为预测模型预测故障产品的缺陷。

进一步的，所述训练集包含 M个训练单元，每个训练单元包含一个目标属性和一个训练属性集。

进一步的，如图 4所示，所述生成单元 32可以包括：选取模块 321、生成模块 322、组合模块 323。

选取模块 321 , 用于从所述处理单元 3 1得到的所述训练集中选取第一训练子集。

生成模块 322 , 用于根据预设策略生成与所述选取模块 321 选取的所述第一训练子集相对应的第一树分类器。

所述选取模块 321 , 还用于从所述处理单元 3 1得到的所述训练集中选取第二训练子集。

所述生成模块 322 , 还用于根据预设策略生成与所述选取模块 321选取的所述第二训练子集相对应的第二树分类器。

所述选取模块 321, 还用于从所述处理单元 31得到的所述训练集中选取第 N训练子集；其中，所述第 N训练子集包含 M'个训练单元，所述 M，小于等于所述 M。

所述生成模块 322, 还用于根据预设策略生成与所述选取模块 321选取的所述第 N训练子集相对应的第 N树分类器；其中，所述 N为大于等于 2的整数。

组合模块 323, 用于将所述生成模块 322生成的 N个树分类器组合生成所述分类器集合。

进一步的，所述生成单元 32还可以包括：第一获取模块 324、第二获取模块 325。

第一获取模块 324, 用于当生成第 K-1 树分类器时，获取生成的 K-1个树分类器的错误率。

第二获取模块 325, 用于当生成第 K树分类器时，获取生成的 K个树分类器的错误率；以便当所述 K个树分类器的错误率和所述 K-1个树分类器的错误率的差值小于预设的阈值时，将所述 K个树分类器组合生成所述分类器集合；其中，所述 K为小于等于 N的整数。

进一步的，所述第二获取模块 325可以包括：选取子模块 3251、生成子模块 3252、获取子模块 3253。

选取子模块 3251, 用于根据第一训练单元从所述分类器集合中选取第一类树分类器。

生成子模块 3252, 用于根据所述选取子模块 3251 选取的所述第一类树分类器生成所述第一训练单元的第一预测标签。

所述选取子模块 3251, 还用于根据第二训练单元从所述分类器集合中选取第二类树分类器。

所述生成子模块 3252, 还用于根据所述选取子模块 3251 选取的所述第二类树分类器生成所述第二训练单元的第二预测标签。

所述选取子模块 3251, 还用于根据第 M 训练单元从所述分类器集合中选取第 M类树分类器；其中，所述第 M类树分类器为未使用第 M训练单元生成树分类器的分类器集合，所述 M为训练集中包含训练单元的个数。

所述生成子模块 3252, 还用于根据所述选取子模块 3251 选取的所述第 M类树分类器生成所述第 M训练单元的第 M预测标签。

获取子模块 3253, 用于根据所述生成子模块 3252生成的 M个预测标签获取所述生成的 K个树分类器的错误率。

进一步的，所述生成子模块 3252具体用于：根据

C^00B(M, _¾) = _argma_X /< )/((^(_¾) = 3)生成所述第 M预测标签；其中，

C^00B(M, _¾)为所述第 M训练单元的第 M预测标签， C为第 j树分类器，（^^£为所述第 M类树分类器，为第 j树分类器的权重， C (x_M) 为根据所述第 j树分类器和所述第 M训练单元中包含的训练属性集得到的目标属性，为分类标签集合。

进一步的，所述获取子模块 3253具体用于：根据

Ε ) =丄 f O , xj = _yj获取所述生成子模块 3252生成的 K个树分 M fri

类器的错误率；其中， E(r)为所述生成的 K个树分类器的错误率为所述训练集中训练单元的个数， C°°^£(r, x )为所述第 r训练单元的第 r预测标签，为第 r训练单元的目标属性。

进一步的，该装置还可以包括：选取单元 34、第一获取单元 35、第二获取单元 36。

选取单元 34, 用于在所述生成模块 322根据预设策略生成与所述第 N训练子集相对应的第 N树分类器之后，从所述训练集中选取第 N'训练子集；其中，所述第 N'训练子集与所述第 N训练子集的交集为空，所述第 N，训练子集包含至少一个训练单元。

第一获取单元 35, 用于根据所述选取单元 34选取的所述第 N，训练子集获取所述第 N树分类器的误预测率。

第二获取单元 36, 用于根据所述第一获取单元 35 获取到的所述第 N树分类器误预测率获取所述第 N树分类器的权重。进一步的，所述预测单元 33 可以包括：统计模块 33 1、预测模块 332、第三获取模块 333。

统计模块 33 1 , 用于统计所述故障产品的属性信息。

预测模块 332 , 用于根据所述统计模块 33 1 统计的所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签集合。

第三获取模块 333 , 用于根据所述分类器集合和所述分类器集合中每个树分类器的权重，获取所述分类标签集合中每个分类标签的信任值。

本发明实施例提供一种缺陷预测装置，根据目标属性从预存的产品故障记录中选择训练属性集，并根据目标属性和训练属性集组合成训练集生成包含至少 2个树分类器的分类器集合，此时当产品出现故障时，便可以将该分类器集合作为预测模型来预测故障产品的缺陷，利用该分类器集合作为预测模型，解决了釆用单一决策树容易引起过拟合或欠拟合而导致无法对故障产品进行缺陷预测的问题，并且在实现了对故障产品的缺陷快速定位的同时也提高了对故障产品缺陷预测的准确率。

并且，当将分类器集合作为预测模型预测故障产品的缺陷时，还可以得到多个预测结果，并可以计算出每个预测结果的信任值，节约了维修人员定位缺陷的时间。实施例 4

本发明实施例提供一种缺陷预测装置，如图 5所示，包括：至少一个处理器 41、存储器 42、通信接口 43和总线 44 , 该至少一个处理器 41、存储器 42和通信接口 43通过总线 44连接并完成相互间的通信，其中：

所述总线 44 可以是工业标准体系结构（ Industry Standard Architecture , ISA ) 总线、夕卜部设备互连 ( Peripheral Component Interconnect , PCI )总线或扩展工业标准体系结构（ Extended Industry Standard Architecture , EISA ) 总线等。所述总线 44可以分为地址总线、数据总线、控制总线等。为便于表示，图 5 中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

所述存储器 42用于存储可执行程序代码，该程序代码包括计算机操作指令。存储器 42可能包含高速 RAM存储器，也可能还包括非易失性存储器（ non-volatile memory ) ,例如至少一个磁盘存储器。

所述处理器 41 可能是一个中央处理器（ Central Processing Unit , CPU ) , 或者是特定集成电路（ Application Specific Integrated Circuit , ASIC ) , 或者是被配置成实施本发明实施例的一个或多个集成电路。

所述通信接口 43 , 主要用于实现本实施例的设备之间的通信。所述处理器 41执行所述程序代码，用于根据目标属性从预存的产品故障记录中选择训练属性集，并将所述目标属性和所述训练属性集组合成训练集；其中，所述目标属性为历史故障产品的缺陷属性，根据所述训练集生成分类器集合；其中，所述分类器集合包含至少 2个树分类器，并将生成的分类器集合作为预测模型预测故障产品的缺陷。

进一步的，所述训练集包含 M个训练单元，每个训练单元包含一个目标属性和一个训练属性集。所述处理器 41 , 还用于从所述训练集中选取第一训练子集，根据预设策略生成与所述第一训练子集相对应的第一树分类器；从所述训练集中选取第二训练子集，根据预设策略生成与所述第二训练子集相对应的第二树分类器；从所述训练集中选取第 N训练子集，根据预设策略生成与所述第 N训练子集相对应的第 N树分类器，最后将生成的 N个树分类器组合生成所述分类器集合。其中，所述第 N训练子集包含 M，个训练单元，所述 M，小于等于所述 M , 所述 N为大于等于 2的整数。

进一步的，所述处理器 41 , 还用于当生成第 K- 1树分类器时，获取生成的 K- 1个树分类器的错误率，并且当生成第 K树分类器时，获取生成的 K个树分类器的错误率，以便当所述 K个树分类器的错误率和所述 K-l个树分类器的错误率的差值小于预设的阈值时，将所述 Κ个树分类器组合生成所述分类器集合；其中，所述 Κ为小于等于 Ν的整数。

进一步的，所述处理器 41, 还用于根据第一训练单元从所述分类器集合中选取第一类树分类器，根据所述第一类树分类器生成所述第一训练单元的第一预测标签；根据第二训练单元从所述分类器集合中选取第二类树分类器，根据所述第二类树分类器生成所述第二训练单元的第二预测标签；根据第 Μ训练单元从所述分类器集合中选取第 Μ类树分类器；根据所述第 Μ类树分类器生成所述第 Μ 训练单元的第 Μ预测标签，最后根据生成的 Μ个预测标签获取所述生成的 Κ个树分类器的错误率。其中，所述第 Μ类树分类器为未使用第 Μ训练单元生成树分类器的分类器集合，所述 Μ为训练集中包含训练单元的个数。

进一步的，所述处理器 41还用于：根据

C^00B(M, _¾) = _argma_X ^ ( )/(<^(_¾)= 生成所述第 M预测标签；其中，

C^00B(M, _¾)为所述第 M训练单元的第 M预测标签， C.为第 j树分类器，（^^£为所述第 M类树分类器，为第 j树分类器的权重， C (x_M) 为根据所述第 j树分类器和所述第 M训练单元中包含的训练属性集得到的目标属性，为分类标签集合。并根据

_£( ₌ ±f (_C。。B (_r, χ = _Λ)获取生成的 Κ个树分类器的错误率；其中， M fri

E(r)为所述生成的 K个树分类器的错误率为所述训练集中训练单元的个数， C^00B(r, x )为所述第 r训练单元的第 r预测标签， _Λ为第 r 训练单元的目标属性。

进一步的，所述处理器 41, 还用于在所述根据预设策略生成与所述第 N训练子集相对应的第 N树分类器之后，从所述训练集中选取第 N'训练子集，根据所述第 N'训练子集获取所述第 N树分类器的误预测率，根据所述第 N树分类器误预测率获取所述第 N树分类器的权重。其中，所述第 N'训练子集与所述第 N训练子集的交集为空，所述第 N，训练子集包含至少一个训练单元。

进一步的，所述处理器 41 , 还用于统计所述故障产品的属性信息，根据所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签集合，并根据所述分类器集合和所述分类器集合中树分类器的权重，获取所述分类标签集合中每个分类标签的信任值。

进一步的，所述预设策略包括决策树算法。

并且，当将分类器集合作为预测模型预测故障产品的缺陷时，还可以得到多个预测结果，并可以计算出每个预测结果的信任值，节约了维修人员定位缺陷的时间。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

权利要求书

1、一种缺陷预测方法，其特征在于，包括：

将所述分类器集合作为预测模型预测故障产品的缺陷。

2、根据权利要求 1 所述的缺陷预测方法，其特征在于，所述训练集包含 M个训练单元，每个训练单元包含一个目标属性和一个训练属性集；

所述根据所述训练集生成分类器集合，包括：

从所述训练集中选取第一训练子集；

根据预设策略生成与所述第一训练子集相对应的第一树分类器；从所述训练集中选取第二训练子集；

根据预设策略生成与所述第二训练子集相对应的第二树分类器；从所述训练集中选取第 N训练子集；其中，所述第 N训练子集包含 M，个训练单元，所述 M，小于等于所述 M;

根据预设策略生成与所述第 N训练子集相对应的第 N树分类器；其中，所述 N为大于等于 2的整数；

将 N个树分类器组合生成所述分类器集合。

3、根据权利要求 1所述的缺陷预测方法，其特征在于，还包括：当生成第 K- 1 树分类器时，获取生成的 K- 1 个树分类器的错误率；

当生成第 K树分类器时，获取生成的 K个树分类器的错误率；以便当所述 K个树分类器的错误率和所述 K- 1 个树分类器的错误率的差值小于预设的阈值时，将所述 K个树分类器组合生成所述分类器集合；其中，所述 K为小于等于 N的整数。

4、根据权利要求 3所述的缺陷预测方法，其特征在于，所述当生成第 K树分类器时，获取生成的 Κ个树分类器的错误率，包括：根据第一训练单元从所述分类器集合中选取第一类树分类器；根据所述第一类树分类器生成所述第一训练单元的第一预测标签；

根据第 Μ训练单元从所述分类器集合中选取第 Μ类树分类器；其中，所述第 Μ类树分类器为未使用第 Μ训练单元生成树分类器的分类器集合，所述 Μ为训练集中包含训练单元的个数；

根据所述第 Μ类树分类器生成所述第 Μ训练单元的第 Μ预测标签；

根据 Μ个预测标签获取所述生成的 Κ个树分类器的错误率。

5、根据权利要求 4所述的缺陷预测方法，其特征在于，所述根据所述第 Μ类树分类器生成所述第 Μ训练单元的第 Μ预测标签，具体包括：

根据 C。。^£(M, ) = argmax ^ ( )/((^·(χ_Μ) = 生成所述第 M预测标签；其中， C^00B (M , ^)为所述第 M训练单元的第 M预测标签， Cj为第 j树分类器，（^^£为所述第 M类树分类器，为第 j树分类器的权重， C.(x_M)为根据所述第 j树分类器和所述第 M训练单元中包含的训练属性集得到的目标属性，为分类标签集合。

6、根据权利要求 5所述的缺陷预测方法，其特征在于，所述根据 M个预测标签获取所述生成的 K个树分类器的错误率，具体包括：根据 E(r) = lf /(c。。 , = > 获取所述生成的 K个树分类器的

M ri 错误率；其中， E(r)为所述生成的 K个树分类器的错误率为所述训练集中训练单元的个数， C^00B(r, x )为所述第 r训练单元的第 r预测标签， _Λ为第 r训练单元的目标属性。

7、根据权利要求 2所述的缺陷预测方法，其特征在于，在所述根据预设策略生成与所述第 N训练子集相对应的第 N树分类器之后，还包括：

从所述训练集中选取第 N，训练子集；其中，所述第 N，训练子集与所述第 N训练子集的交集为空，所述第 N'训练子集包含至少一个训练单元；

根据所述第 N，训练子集获取所述第 N树分类器的误预测率；根据所述第 N树分类器误预测率获取所述第 N树分类器的权重。

8、根据权利要求 7所述的缺陷预测方法，其特征在于，所述将所述分类器集合作为预测模型预测故障产品的缺陷，包括：

统计所述故障产品的属性信息；

9、根据权利要求 2-8 中任一权利要求所述的缺陷预测方法，其特征在于，所述预设策略包括决策树算法。

10、一种缺陷预测装置，其特征在于，包括：

11、根据权利要求 10所述的缺陷预测装置，其特征在于，所述训练集包含 M个训练单元，每个训练单元包含一个目标属性和一个训练属性集；

所述生成单元，包括：选取模块，用于从所述处理单元得到的所述训练集中选取第一训练子集；

所述选取模块，还用于从所述处理单元得到的所述训练集中选取第 N训练子集；其中，所述第 N训练子集包含 M，个训练单元，所述 M'小于等于所述 M;

组合模块，用于将所述生成模块生成的 N 个树分类器组合生成所述分类器集合。

12、根据权利要求 10所述的缺陷预测装置，其特征在于，所述生成单元还包括：

第二获取模块，用于当生成第 K树分类器时，获取生成的 K个树分类器的错误率；以便当所述 K个树分类器的错误率和所述 K- 1 个树分类器的错误率的差值小于预设的阈值时，将所述 K个树分类器组合生成所述分类器集合；其中，所述 K为小于等于 N的整数。

13、根据权利要求 12所述的缺陷预测装置，其特征在于，所述第二获取模块，包括：

所述选取子模块，还用于根据第 M训练单元从所述分类器集合中选取第 M类树分类器；其中，所述第 M类树分类器为未使用第 M 训练单元生成树分类器的分类器集合,所述 M为训练集中包含训练单元的个数；

14、根据权利要求 13所述的缺陷预测装置，其特征在于，所述生成子模块，具体用于：

15、根据权利要求 14所述的缺陷预测装置，其特征在于，所述获取子模块，具体用于：根据 (Γ) = ΐ£/ ^ΰίΜ(Γ, = _Λ)获取所述生成子模块生成的 Κ个

M ri 树分类器的错误率；其中， E(r)为所述生成的 K个树分类器的错误率，为所述训练集中训练单元的个数， C°°^£(r, x )为所述第 r训练单元的第 r预测标签，为第 r训练单元的目标属性。

16、根据权利要求 11 所述的缺陷预测装置，其特征在于，还包括：

第二获取单元，用于根据所述第一获取单元获取到的所述第 N 树分类器误预测率获取所述第 N树分类器的权重。

17、根据权利要求 16所述的缺陷预测装置，其特征在于，所述预测单元包括：

统计模块，用于统计所述故障产品的属性信息；

预测模块，用于根据所述统计模块统计的所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签集合；

第三获取模块，用于根据所述分类器集合和所述分类器集合中每个树分类器的权重，获取所述分类标签集合中每个分类标签的信任值。

18、根据权利要求 1 1 - 17中任一权利要求所述的缺陷预测装置，其特征在于，所述预设策略包括决策树算法。