WO2019169743A1

WO2019169743A1 - 一种服务器故障的检测方法及系统

Info

Publication number: WO2019169743A1
Application number: PCT/CN2018/088240
Authority: WO
Inventors: 吴文杰; 余建展; 李偈
Original assignee: Wangsu Science and Technology Co Ltd
Current assignee: Wangsu Science and Technology Co Ltd
Priority date: 2018-03-09
Filing date: 2018-05-24
Publication date: 2019-09-12
Anticipated expiration: 2020-09-09
Also published as: CN108491305B; CN108491305A; EP3557819A4; EP3557819A8; EP3557819A1; EP3557819B1; US20210377102A1

Abstract

本发明公开了一种服务器故障的检测方法及系统，其中，所述方法包括：采集多个服务器的样本监控数据，所述样本监控数据用于表征所述服务器的运行状态；基于所述样本监控数据，训练得到针对所述多个服务器的故障检测模型；采集目标服务器当前的监控数据，并将所述当前的监控数据输入所述故障检测模型，以得到所述当前的监控数据对应的运行故障。本申请提供的技术方案，能够提高故障检测的效率。

Description

一种服务器故障的检测方法及系统

技术领域

本发明涉及互联网技术领域，特别涉及一种服务器故障的检测方法及系统。

背景技术

随着互联网技术的不断发展，网络中的服务器数量也在不断增加。服务器的性能会直接影响其提供的服务的质量，当服务器发生故障时，需要及时找到发生故障的原因，以便及时修复。

当前，服务器通常会具备故障报警机制，当服务器出现异常时，服务器会发出报警提示。这样，服务器的管理人员便可以对服务器进行检修，以找出发生异常的组件。

然而，随着服务器数量的不断增加，如果仅靠人工排查的方式来检测服务器的故障，会浪费大量的人力物力，并且故障检测的效率也较低。

发明内容

本申请的目的在于提供一种服务器故障的检测方法及系统，能够提高故障检测的效率。

为实现上述目的，本申请一方面提供一种服务器故障的检测方法，所述方法包括：采集多个服务器的样本监控数据，所述样本监控数据用于表征所述服务器的运行状态；基于所述样本监控数据，训练得到针对所述多个服务器的故障检测模型；采集目标服务器当前的监控数据，并将所述当前的监控数据输入所述故障检测模型，以得到所述当前的监控数据对应的运行故障。

为实现上述目的，本申请另一方面还提供一种服务器故障的检测系统，所述系统包括数据采集单元、数据处理单元以及故障检测单元，其中：所述数据采集单元，用于采集多个服务器的样本监控数据，所述样本监控数据用于表征所述服务器的运行状态；所述数据处理单元包括大数据平台和模型训练模块，其中，所述大数据平台用于接收所述数据采集单元发来的所述样本监控数据；所述模型训练模块用于基于所述样本监控数据，训练得到针对所述多个服务器的故障检测模型；所述故障检测单元，用于采集目标服务器当前的监控数据，并将所述当前的监控数据输入所述故障检测模型，以得到所述当前的监控数据对应的运行故障。

由上可见，本申请提供的技术方案，可以提供机器学习的方法，基于多个服务器的样本监控数据，训练得到针对服务器的故障检测模型。具体地，所述样本监控数据可以包含服务器的电源数据、温度数据、风扇数据、端口数据、网络链路数据、系统事件数据以及系统服务数据等方面的数据。后续在判断目标服务器发生的具体故障或者对目标服务器进行故障预测时，可以采集目标服务器当前的监控数据，并将该当前的监控数据输入训练得到的故障检测模型中。最终，故障检测模型输出的结果便可以表征该当前的监控数据对应的运行故障。在实际应用中，针对每种监控数据，可以训练得到对应的子模型。这样，针对输入的监控数据，可以选用相适配的子模型进行故障识别，从而可以提高故障识别的精度。由上可见，本申请提供的技术方案，能够节省大量的人力物力，并且能够提高故障检测的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中服务器故障的检测方法流程图；

图2是本发明实施例中服务器故障的检测系统实例示意图；

图3是本发明实施例中服务器故障的检测系统结构示意图；

图4是本发明实施例中计算机终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本申请提供一种服务器故障的检测方法，请参阅图1，所述方法可以包括以下步骤。

S1：采集多个服务器的样本监控数据，所述样本监控数据用于表征所述服务器的运行状态。

在本实施方式中，可以通过预先定义的采集探针，从线上的多个服务器中采集用于表征服务器的运行状态的监控数据。所述监控数据可以包括这多个服务器的CDM监控数据、电源数据、温度数据、风扇数据、端口数据、网络链路数据、系统事件数据以及系统服务数据等方面的数据。其中，所述CDM监控数据包括CPU(中央处理器)监控数据、DISK(硬盘)监控数据以及MEMORY(内存)监控数据。这些数据可以反映服务器是否处于正常的运行状态中。在对这些数据进行分析之后，可以确定出服务器当前存在的运行故障。

在本实施方式中，所述预先定义的采集探针可以是预设的采集设备，所述采集设备可以通过与服务器约定好的数据传输协议，从服务器中读取监控数据。读取的监控数据可以作为机器学习的样本监控数据，通过对这些大量的样本监控数据进行学习，从而可以分析出各种类型的故障特征。

请参阅图2，在本实施方式中，采集样本监控数据的过程可以在采集层完成。采集层采集样本监控数据是通过智能平台管理接口(Intelligent Platform Management Interface，IPMI)采集基板管理控制器(Baseboard Management Controler，BMC)上记录的数据，采集后格式化数据，再上传至大数据平台。

S3：基于所述样本监控数据，训练得到针对所述多个服务器的故障检测模型。

在本实施方式中，大数据平台在接收到采集层上传来的样本监控数据之后，可以基于该样本监控数据，通过机器学习的方法训练得到故障检测模型。在实际应用中，采集得到的样本监控数据中通常包含如步骤S1中所述的多种不同类型的监控数据。其中，每种类型的监控数据均可以作为一组特征数据，这样，所述样本监控数据中可以包括多组特征数据。例如，可以将样本监控数据划分为电源组特征数据、风扇组特征数据、内存组特征数据等。

在一个实施方式中，为了能够对服务器发生的故障进行精确定位，可以将所述样本监控数据按照特征数据进行分组，并分别训练得到针对各组特征数据的子模型。例如，针对电源组特征数据，可以训练得到电源故障检测子模型；针对内存组特征数据，可以训练得到内存故障检测子模型。需要说明的是，为了使得训练得到的子模型比较精准，每组特征数据中，可以包括多个特征数据，这多个特征数据可以是同一个服务器在不同时期的运行数据，也可以是多个服务器的运行数据。例如，在内存组特征数据中，可以包括采集自100个服务器的1000个内存数据。

在本实施方式中，针对每组特征数据进行子模型训练时，可以预先给每个特征数据关联标准运行故障，所述标准运行故障可以是通过对该特征数据进行分析得到的，因此，关联的标准运行故障是该特征数据实际反映的运行故障。在开始训练时，可以将所述特征数据输入初始检测子模型，从而得到所述特征数据的预测运行故障。其中，所述初始检测子模型中可以包括初始化的神经网络，该初始化的神经网络中的神经元可以具备初始参数值。由于这些初始参数值是默认设置的，因此基于这些初始参数值对输入的特征数据进行处理之后，得到的预测运行故障与该特征数据实际反映的标准运行故障可能并不一致。此时，可以确定所述预测运行故障与所述标准运行故障之间的误差。具体地，经过初始检测子模型预测得到的结果可以是一个预测概率组，在该预测概率组中可以包括多个概率值，每个概率值可以对应一个故障类型。例如，针对内存数据，最终预测得到的预测概率组中可以包括3个概率值，这3个概率值分别对应与内存相关的3个故障类型。其中，概率值越高，表示存在对应的故障类型的可能性越大。例如，预测概率组为(0.1，0.6，0.3)，那么0.6对应的故障类型便可以是预测运行故障。与特征数据关联的标准运行故障对应的标准概率组例如可以是(1，0，0)，其中，概率值1对应的故障类型便可以是所述标准运行故障。这样，通过将预测概率组和标准概率组中对应的概率值相减，便可以得到所述预测运行故障与所述标准运行故障之间的误差。通过将该误差作为反馈值输入初始检测子模型，从而可以对初始检测子模型中的参数进行校正。在校正之后，可以将该特征数据再次输入经过校正的检测子模型，后续可以重复利用误差对子模型中的参数进行校正的过程，从而使得最终得到的预测运行故障与所述标准运行故障一致。这样，通过每组特征数据中大量的特征数据反复对子模型进行训练，从而可以使得训练得到的最终子模型具备较高的预测精度。

在一个实施方式中，所述特征数据可以表征服务器中一个组件的运行状态，例如，CPU数据可以表征CPU的运行状态。而特征数据中还可以包括多个特征子数据，所述特征子数据则可以表征该组件在运行时对应的各方面的状态。例如，CPU数据中可以包含CPU使用率、CPU使用时长、CPU使用线程数等方面的特征子数据。在对特征数据进行训练时，可以通过决策树的技术，确定所述特征数据中各个特征子数据的决策顺序，并按照所述决策顺序分别确定各个所述特征子数据对应的特征值。其中，所述特征值用于表征决策步骤中的具体数值。例如，针对CPU数据而言，按照决策树的技术确定出的决策顺序是先决策CPU使用率，然后决策CPU使用线程数，最后决策CPU使用时长。那么在各个决策步骤中，决策得到的数值便可以作为上述的特征值。例如，CPU使用率决策步骤中，特征值可以为80％。

在本实施方式中，根据决策得到的所述特征值，可以计算得到所述特征数据对应的预测概率数组。具体地，决策过程可以是通过神经网络完成的，那么神经网络中的神经元根据每个决策过程的特征值，可以通过加权求和或者其它非线性的计算方式得到最终的预测概率组。所述预测概率数组中可以包括至少一个概率值，所述概率值与故障类型相对应。例如，针对内存数据，最终预测得到的预测概率组中可以包括3个概率值，这3个概率值分别对应与内存相关的3个故障类型。最终，可以将所述预测概率数组中最大的概率值对应的故障类型作为所述预测运行故障。例如，预测概率组为(0.1，0.6，0.3)，那么0.6对应的故障类型便可以是预测运行故障。

如图2所示，在本实施方式中，故障预测模型的训练过程可以在数据层中完成。所述数据层中可以包括上述的大数据平台，还可以包括特征分组模块和模型训练模块。其中，所述特征分组模块，用于将所述大数据平台中的样本监控数据按照特征数据进行分组。分组后的特征数据可以分别在模型训练模块中训练得到各自的子模型。

S5：采集目标服务器当前的监控数据，并将所述当前的监控数据输入所述故障检测模型，以得到所述当前的监控数据对应的运行故障。

在本实施方式中，在训练得到故障检测模型之后，可以采集目标服务器当前的监控数据，并利用训练得到的故障检测模型对当前的监控数据进行故障检测。所述目标服务器可以是待检测的服务器，在本实施方式中，同样可以采用预先定以的采集探针采集该目标服务器当前的监控数据。该当前的监控数据中同样可以存在多组特征数据，那么在采集目标服务器当前的监控数据之后，可以识别所述当前的监控数据中包含的目标特征数据，并将所述目标特征数据输入相适配的子模型中，以得到所述目标特征数据对应的运行故障。这样，针对每组特征数据，均可以得到各自对应的运行故障，最终便可以汇总得到该目标服务器的各个运行故障。

如图2所示，在本实施方式中，上述故障检测的过程可以在应用层中完成。在应用层中，除了可以对已发生故障的服务器进行故障定位，还能够对服务器进行周期性地检测，从而对服务器可能发生的故障进行预测，以便及时检修。

在一个实施方式中，采集目标服务器当前的监控数据的时机也可以有多种选择。一方面，可以在目标服务器自身发出故障提示信息时，采集所述目标服务器当前的监控数据。这样处理的目的在于，目标服务器发出的故障提示信息通常是比较宽泛的信息，该信息中可能仅提示目标服务器当前发生了故障，但并不会指明故障的具体类型。此时，为了快速排查故障所处的位置，可以采集当前的监控数据，并通过训练得到的故障检测模型检测得到详细的故障信息。另一方面，还可以按照指定时间周期采集目标服务器当前的监控数据，并针对每次采集的监控数据，都利用训练得到的故障检测模型进行故障检测。这样处理的目的在于可以周期性地对目标服务器进行故障检测，从而可以预测目标服务器是否有发生故障的趋势，以便在发生故障之前进行检修。

在一个实施方式中，为了不影响目标服务器的正常网络服务，可以在目标服务器处于空闲的时候再对目标服务器进行故障检测。具体地，可以统计所述目标服务器的负载分布，所述负载分布可以包括所述目标服务器在指定时段内的平均负载。例如，可以统计目标服务器在一天内每3个小时的平均负载。然后，可以基于所述负载分布确定目标时段，并在所述目标时段内对所述目标服务器进行故障检测。其中，所述目标时段内的平均负载可以较低。具体地，可以将平均负载小于或者等于指定负载阈值时对应的指定时段作为所述目标时段。所述指定负载阈值例如可以设置为50％，当然，还可以根据实际情况灵活地对指定负载阈值进行调整。在实际应用中，若平均负载小于或者等于指定负载阈值时对应的指定时段的数量为至少两个，那么可以随机选择其中的一个指定时段作为所述目标时段，或者将平均负载最小时对应的指定时段作为所述目标时段。举例来说，在统计目标服务器在一天内每3个小时的平均负载之后，发现平均负载小于或者等于50％的时段为凌晨0点至3点以及凌晨3点至6点，那么可以将其中任意一个时段作为目标时段。在所述目标时段内，目标服务器的负载较小，此时可以采集目标服务器当前的运行参数并进行故障检测，从而不会对目标服务器造成太大的影响。

在一个实施方式中，在得到所述当前的监控数据对应的运行故障之后，可以调用与所述运行故障相匹配的诊断策略，并利用所述诊断策略对所述目标服务器进行故障诊断。其中，所述诊断策略可以是基于过往的诊断历史总结得到的策略，这些策略可以与对应的运行故障进行关联存储。这样，在检测得到某个运行故障之后，可以调用相关联的诊断策略进行详细的诊断。例如，可以诊断出该运行故障的严重程度，并且可以诊断出该运行故障的发生频率。这样，根据故障诊断的结果，可以确定针对所述目标服务器的检测周期，并基于所述检测周期定期对所述目标服务器进行故障检测。所述检测周期可以根据运行故障的严重性和发生频率进行设定，运行故障越严重，发生频率越高，那么检测周期可以越短。这样可以保证及时地发现目标服务器的运行故障，以便在故障发生之前进行预防和检修。

实施例二

本申请还提供一种服务器故障的检测系统，请参阅图3，所述系统包括数据采集单元、数据处理单元以及故障检测单元，其中：

所述数据采集单元，用于采集多个服务器的样本监控数据，所述样本监控数据用于表征所述服务器的运行状态；

所述数据处理单元包括大数据平台和模型训练模块，其中，所述大数据平台用于接收所述数据采集单元发来的所述样本监控数据；所述模型训练模块用于基于所述样本监控数据，训练得到针对所述多个服务器的故障检测模型；

所述故障检测单元，用于采集目标服务器当前的监控数据，并将所述当前的监控数据输入所述故障检测模型，以得到所述当前的监控数据对应的运行故障。

在一个实施方式中，所述样本监控数据中包括多组特征数据；相应地，所述数据处理单元中还包括：

特征分组模块，用于将所述样本监控数据按照特征数据进行分组，以使得所述模型训练模块分别训练得到针对各组特征数据的子模型。

在一个实施方式中，所述特征数据与标准运行故障相关联；相应地，所述模型训练模块包括：

初始预测模块，用于将所述特征数据输入初始检测子模型，得到所述特征数据的预测运行故障；

误差校正模块，用于确定所述预测运行故障与所述标准运行故障之间的误差，并通过所述误差对所述初始检测子模型中的参数进行校正，以使得将所述特征数据再次输入经过校正的检测子模型后，得到的预测运行故障与所述标准运行故障一致。

在一个实施方式中，所述特征数据中包括多个特征子数据；相应地，所述初始预测模块包括：

决策顺序确定模块，用于确定所述特征数据中各个特征子数据的决策顺序，并按照所述决策顺序分别确定各个所述特征子数据对应的特征值；

概率数组计算模块，用于根据所述特征值，计算得到所述特征数据对应的预测概率数组，所述预测概率数组中包括至少一个概率值，所述概率值与故障类型相对应；

故障确定模块，用于将所述预测概率数组中最大的概率值对应的故障类型作为所述预测运行故障。

在一个实施方式中，所述系统还包括：

负载分布统计单元，用于统计所述目标服务器的负载分布，所述负载分布包括所述目标服务器在指定时段内的平均负载；

定期检测模块，用于基于所述负载分布确定目标时段，并在所述目标时段内对所述目标服务器进行故障检测。

请参阅图4，在本申请中，上述实施例中的技术方案可以应用于如图4所示的计算机终端10上。计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图4所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图4中所示更多或者更少的组件，或者具有与图4所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

具体地，在本申请中，上述的服务器故障的检测方法可以作为计算机程序存储于上述的存储器104中，所述存储器104可以与处理器102耦合，那么当处理器102执行所述存储器104中的计算机程序时，便可以实现上述的服务器故障的检测方法中的各个步骤。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

BMC(采集基板管理控制器，Baseboard Management Controler)108的作用为：采集层采集样本监控数据时，可以通过智能平台管理接口(Intelligent Platform Management Interface，IPMI)采集BMC上记录的数据，采集后格式化数据，再上传至大数据平台。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种服务器故障的检测方法，其特征在于，所述方法包括：

采集多个服务器的样本监控数据，所述样本监控数据用于表征所述服务器的运行状态；

基于所述样本监控数据，训练得到针对所述多个服务器的故障检测模型；

采集目标服务器当前的监控数据，并将所述当前的监控数据输入所述故障检测模型，以得到所述当前的监控数据对应的运行故障。
根据权利要求1所述的方法，其特征在于，所述样本监控数据中包括多组特征数据；相应地，训练得到针对所述多个服务器的故障检测模型包括：

将所述样本监控数据按照特征数据进行分组，并分别训练得到针对各组特征数据的子模型。
根据权利要求2所述的方法，其特征在于，在采集目标服务器当前的监控数据之后，所述方法还包括：

识别所述当前的监控数据中包含的目标特征数据，并将所述目标特征数据输入相适配的子模型中，以得到所述目标特征数据对应的运行故障。
根据权利要求2所述的方法，其特征在于，所述特征数据与标准运行故障相关联；相应地，训练得到针对各组特征数据的子模型包括：

将所述特征数据输入初始检测子模型，得到所述特征数据的预测运行故障；

确定所述预测运行故障与所述标准运行故障之间的误差，并通过所述误差对所述初始检测子模型中的参数进行校正，以使得将所述特征数据再次输入经过校正的检测子模型后，得到的预测运行故障与所述标准运行故障一致。
根据权利要求4所述的方法，其特征在于，所述特征数据中包括多个特征子数据；相应地，所述预测运行故障按照以下方式确定：

确定所述特征数据中各个特征子数据的决策顺序，并按照所述决策顺序分别确定各个所述特征子数据对应的特征值；

根据所述特征值，计算得到所述特征数据对应的预测概率数组，所述预测概率数组中包括至少一个概率值，所述概率值与故障类型相对应；

将所述预测概率数组中最大的概率值对应的故障类型作为所述预测运行故障。
根据权利要求1所述的方法，其特征在于，采集目标服务器当前的监控数据包括：

在目标服务器发出故障提示信息时，采集所述目标服务器当前的监控数据；

或者

按照指定时间周期采集目标服务器当前的监控数据。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

统计所述目标服务器的负载分布，所述负载分布包括所述目标服务器在指定时段内的平均负载；

基于所述负载分布确定目标时段，并在所述目标时段内对所述目标服务器进行故障检测。
根据权利要求7所述的方法，其特征在于，基于所述负载分布确定目标时段包括：

将平均负载小于或者等于指定负载阈值时对应的指定时段作为所述目标时段；其中，若平均负载小于或者等于指定负载阈值时对应的指定时段的数量为至少两个，随机选择其中的一个指定时段作为所述目标时段，或者将平均负载最小时对应的指定时段作为所述目标时段。
根据权利要求1所述的方法，其特征在于，在得到所述当前的监控数据对应的运行故障之后，所述方法还包括：

调用与所述运行故障相匹配的诊断策略，并利用所述诊断策略对所述目标服务器进行故障诊断；

根据故障诊断的结果，确定针对所述目标服务器的检测周期，并基于所述检测周期定期对所述目标服务器进行故障检测。
一种服务器故障的检测系统，其特征在于，所述系统包括数据采集单元、数据处理单元以及故障检测单元，其中：

所述数据采集单元，用于采集多个服务器的样本监控数据，所述样本监控数据用于表征所述服务器的运行状态；

所述数据处理单元包括大数据平台和模型训练模块，其中，所述大数据平台用于接收所述数据采集单元发来的所述样本监控数据；所述模型训练模块用于基于所述样本监控数据，训练得到针对所述多个服务器的故障检测模型；

所述故障检测单元，用于采集目标服务器当前的监控数据，并将所述当前的监控数据输入所述故障检测模型，以得到所述当前的监控数据对应的运行故障。
根据权利要求10所述的系统，其特征在于，所述样本监控数据中包括多组特征数据；相应地，所述数据处理单元中还包括：

特征分组模块，用于将所述样本监控数据按照特征数据进行分组，以使得所述模型训练模块分别训练得到针对各组特征数据的子模型。
根据权利要求11所述的系统，其特征在于，所述特征数据与标准运行故障相关联；相应地，所述模型训练模块包括：

初始预测模块，用于将所述特征数据输入初始检测子模型，得到所述特征数据的预测运行故障；

误差校正模块，用于确定所述预测运行故障与所述标准运行故障之间的误差，并通过所述误差对所述初始检测子模型中的参数进行校正，以使得将所述特征数据再次输入经过校正的检测子模型后，得到的预测运行故障与所述标准运行故障一致。
根据权利要求12所述的系统，其特征在于，所述特征数据中包括多个特征子数据；相应地，所述初始预测模块包括：

决策顺序确定模块，用于确定所述特征数据中各个特征子数据的决策顺序，并按照所述决策顺序分别确定各个所述特征子数据对应的特征值；

概率数组计算模块，用于根据所述特征值，计算得到所述特征数据对应的预测概率数组，所述预测概率数组中包括至少一个概率值，所述概率值与故障类型相对应；

故障确定模块，用于将所述预测概率数组中最大的概率值对应的故障类型作为所述预测运行故障。
根据权利要求10所述的系统，其特征在于，所述系统还包括：

负载分布统计单元，用于统计所述目标服务器的负载分布，所述负载分布包括所述目标服务器在指定时段内的平均负载；

定期检测模块，用于基于所述负载分布确定目标时段，并在所述目标时段内对所述目标服务器进行故障检测。